Was sind Ausreißer und woher kommen sie?

Ausreißer sind Datenpunkte, die so stark von der erwarteten Werten abweichen, dass deren Plausibilität in Frage gestellt werden muss.

Häufigste Ursachen für Ausreißer sind Messfehler des Versuchsleiters oder Eingabefehler beim Übertragen der Daten von Papier in SPSS oder bei digitalen Fragebögen durch den Nutzer. Beim Alter wird z.B. versehentlich 355 statt 35 Jahre eingegeben. Wie man sie nach der Identifikation ausschließt, zeige ich in diesem Artikel.

 

Wie finde ich Ausreißer grafisch in SPSS?

Zur grafischen Diagnose reicht es meist sich ein Boxplot ausgeben zu lassen (Ein ausführlicher Artikel zur Interpretation). Das geht über Grafik -> Diagrammerstellung.

In Schritt 1 wählt ihr die Boxplotkategorie aus, in Schritt 2 den einfachen Boxplot. Schritt 3 ist eure Variable, die ihr auf Ausreißer untersuchen wollt. Diese zieht ihr in Schritt 4 an die y-Achse. Nun lasst ihr euch das Diagramm erstellen.

Wenn ihr alles richtig gemacht habt, bekommt ihr ein Boxplot von SPSS ausgegeben, dass in etwa so aussieht:

Werte mit einem Kreis

Im Diagramm ist insbesondere der Bereich ober- und unterhalb der Antennen interessant. Mit einem einfachen Kreis markiert sind Werte (hier: Fall 8 und 11), die mehr als den 1,5-fachen Interquartilsabstand vom dritten bzw. ersten Quartil entfernt sind. Der Interquartilsabstand ist dabei die Höhe der Box und misst den Abstand zwischen drittem und erstem Quartil (näheres zu Quartilen hier). Wenn also Werte die 1,5fache Boxhöhe oberhalb der Box liegen bzw. die 1,5fache Boxhöhe unterhalb der Box liegen, werden diese mit einem Kreis markiert und gelten als Ausreißer. Diese Werte sind meist nicht so dramatisch. Im Beispiel sind die Körpergrößen von 2,02m und 2,05m noch plausibel.

 

Werte mit einem Stern

Analog zu Werten mit einem Kreis gibt es mit einem Stern gekennzeichnete Werte. Diese liegen mehr als die 2,5fache Boxhöhe über bzw. unterhalb der Box. Im Beispiel wäre 2,33m (Fall 15) ein extremer Ausreißer. Eine solche Körpergröße ist zwar gerade noch plausibel, es sollte aber definitiv untersucht werden, ob es sich nicht um einen Eingabefehler handelt.

Ein kleines Beispielvideo zur Berechnung in Excel gibt es auf meinem YouTube-Kanal.

Dieses Video ansehen auf YouTube.

 

Wie finde ich Ausreißer analytisch in SPSS?

Für das analytische Finden von Ausreißern in SPSS nutzt man die Standardnormalverteilung. Man weiß, das bei ihr 95% der Werte zwischen -1,96 und 1,96 liegen. 99% der Werte liegen zwischen -2,58 und 2,58.

Zunächst wird daher für die Werte der Variablen mit der z-Standardisierung gearbeitet. Hierzu wird jeder einzelne Wert der zu untersuchenden Variable z-standardisiert. Hierzu wird von jedem Wert xi der Stichprobenmittelwert abgezogen und durch die Standardabweichung geteilt.

Hierzu muss ich gar nichts kompliziert berechnen. Ein Klick auf Analysieren -> Deskriptive Statistiken -> Häufigkeiten bringt folgendes Dialogfeld. Ihr wählt hier die zu untersuchende Variable aus und schiebt sie nach rechts. Als nächstes braucht ihr lediglich „Standardisierte Werte als Variable speichern“ auswählen und mit OK bestätigen.

 

Nun habt ihr eine neue Variable. Die heißt wie eure alte Variable, nur das ein Z davor steht. Bei mir wurde aus Größe die Variable ZGröße erstellt. Die könnt ihr nun aufsteigend oder absteigend sortieren und ihr erhaltet positive und negative Werte, die zumeist zwischen -3 und +3 liegen. Als Faustregel gilt folgendes:

  • Werte zwischen -1,96 und 1,96 sind unbedenklich
  • Werte unter -1,96 bzw. über 1,96 sind potentielle Ausreißer
  • Werte unter -2,58 bzw. über 2,58 sind wahrscheinlich Ausreißer
  • Werte unter -3,29 bzw. über 3,29 sind sehr wahrscheinlich Ausreißer

Folgende Abbildung verdeutlicht das noch einmal:

 

Videoanleitung

Ein kleines Beispielvideo mit etwas ausführlicheren Erklärungen gibt es auf meinem YouTube-Kanal.

Dieses Video ansehen auf YouTube.

 

Wie gehe ich mit Ausreißern um?

Da gibt es zwei Möglichkeiten: Filtern oder Löschen. Ersteres ist dabei aber die klar vorzuziehende Methode.

 

Literatur

Field, Andy (2018), Discovering Statistics Using IBM SPSS Statistics, S. 227-229 sowie 240-243. Vorschau bei Amazon.

 

Weitere nützliche Tutorials findest du auf meinem YouTube-Kanal.