Ausreißer in SPSS finden

von | Zuletzt bearbeitet am: Jan 18, 2024 | SPSS

1 Was sind Ausreißer und woher kommen sie?

Ausreißer sind Datenpunkte, die so stark von der erwarteten Werten abweichen, dass deren Plausibilität infrage gestellt werden muss.

Häufigste Ursachen für Ausreißer sind Messfehler des Versuchsleiters oder Eingabefehler beim Übertragen der Daten von Papier in SPSS oder bei digitalen Fragebögen durch den Nutzer. Beim Alter wird z.B. versehentlich 355 statt 35 Jahre eingegeben. Wie man sie nach der Identifikation ausschließt, zeige ich in diesem Artikel.

 

2 Wie finde ich Ausreißer grafisch in SPSS?

Zur grafischen Diagnose reicht es meist, sich ein Boxplot ausgeben zu lassen (Ein ausführlicher Artikel zur Interpretation). Das geht über Grafik -> Diagrammerstellung.

In Schritt 1 wählt ihr die Boxplotkategorie aus, in Schritt 2 den einfachen Boxplot. Schritt 3 ist eure Variable, die ihr auf Ausreißer untersuchen wollt. Diese zieht ihr in Schritt 4 an die y-Achse. Nun lasst ihr euch das Diagramm erstellen.

Wenn ihr alles richtig gemacht habt, bekommt ihr ein Boxplot von SPSS ausgegeben, dass in etwa so aussieht:

Werte mit einem Kreis

Im Diagramm ist insbesondere der Bereich ober- und unterhalb der Antennen interessant. Mit einem einfachen Kreis markiert sind Werte (hier: Fall 8 und 11), die mehr als den 1,5-fachen Interquartilsabstand vom dritten bzw. ersten Quartil entfernt sind. Der Interquartilsabstand ist dabei die Höhe der Box und misst den Abstand zwischen drittem und erstem Quartil (näheres zu Quartilen hier). Wenn also Werte die 1,5fache Boxhöhe oberhalb der Box liegen bzw. die 1,5fache Boxhöhe unterhalb der Box liegen, werden diese mit einem Kreis markiert und gelten als Ausreißer. Diese Werte sind meist nicht so dramatisch. Im Beispiel sind die Körpergrößen von 2,02m und 2,05m noch plausibel.

 

Werte mit einem Stern

Analog zu Werten mit einem Kreis gibt es mit einem Stern gekennzeichnete Werte. Diese liegen mehr als die 2,5fache Boxhöhe über bzw. unterhalb der Box. Im Beispiel wäre 2,33m (Fall 15) ein extremer Ausreißer. Eine solche Körpergröße ist zwar gerade noch plausibel, es sollte aber definitiv untersucht werden, ob es sich nicht um einen Eingabefehler handelt.

Ein kleines Beispielvideo zur Berechnung in Excel gibt es auf meinem YouTube-Kanal.

 

3 Wie finde ich Ausreißer analytisch in SPSS?

Für das analytische Finden von Ausreißern in SPSS nutzt man die Standardnormalverteilung. Man weiß, das bei ihr 95% der Werte zwischen -1,96 und 1,96 liegen. 99% der Werte liegen zwischen -2,58 und 2,58.

Zunächst wird daher für die Werte der Variablen mit der z-Standardisierung gearbeitet. Hierzu wird jeder einzelne Wert der zu untersuchenden Variable z-standardisiert. Hierzu wird von jedem Wert xi der Stichprobenmittelwert abgezogen und durch die Standardabweichung geteilt.

Hierzu muss ich gar nichts kompliziert berechnen. Ein Klick auf Analysieren -> Deskriptive Statistiken -> Häufigkeiten bringt folgendes Dialogfeld. Ihr wählt hier die zu untersuchende Variable aus und schiebt sie nach rechts. Als nächstes braucht ihr lediglich “Standardisierte Werte als Variable speichern” auswählen und mit OK bestätigen.

 

Nun habt ihr eine neue Variable. Die heißt wie eure alte Variable, nur dass ein Z davor steht. Bei mir wurde aus Größe die Variable ZGröße erstellt. Die könnt ihr nun aufsteigend oder absteigend sortieren und ihr erhaltet positive und negative Werte, die zumeist zwischen -3 und +3 liegen. Als Faustregel gilt Folgendes:

  • Werte zwischen -1,96 und 1,96 sind unbedenklich
  • Werte unter -1,96 bzw. über 1,96 sind potentielle Ausreißer
  • Werte unter -2,58 bzw. über 2,58 sind wahrscheinlich Ausreißer
  • Werte unter -3,29 bzw. über 3,29 sind sehr wahrscheinlich Ausreißer

Folgende Abbildung verdeutlicht das noch einmal:

 

Zusätzlich besteht noch (die vorzuziehende) Möglichkeit im Rahmen einer linearen Regression die Cook-Distanz zu ermitteln und anhand derer auffällige Werte bzw. Wertekombinationen zu erkennen. Diese Methode ist deswegen vorzuziehen, weil hier nicht anhand lediglich eines Merkmals entschieden wird/werden muss, sondern die Nichtpassung anhand mehrerer Merkmale und deren Kombination vorgenommen wird. Im verlinkten Artikel wird dies sehr deutlich.

 

4 Wie gehe ich mit Ausreißern um? – A word of caution

Da gibt es zwei Möglichkeiten: Filtern oder Löschen. Ersteres ist dabei aber die klar vorzuziehende Methode, wenn ihr unbedingt an Ausschluss denkt.

Aber ACHTUNG: Ausreißer sind nicht per se Ausschluss-fähig. Wenn man Werte nur deswegen ausschließt, weil sie einem nicht “passen”, ist das ein ziemlich schlechtes Argument. Ein sehr großer Mensch ist vielleicht ein “Ausreißer”, wenn man mit der Körpergröße wiederum das Körpergewicht zu erklären versucht, relativiert sich dies wieder – die Regressionsgerade würde wohl kaum anders verlaufen.

 

5 Videotutorial

 

6 Literatur

Field, Andy (2018), Discovering Statistics Using IBM SPSS Statistics, S. 227-229 sowie 240-243. Vorschau bei Amazon.

 

Weitere nützliche Tutorials findest du auf meinem YouTube-Kanal.

 

Hat dir der Beitrag geholfen?

Dann würde ich mich über eine kleine Spende freuen, die es mir erlaubt, weiterhin kostenfreie Inhalte zu veröffentlichen.
Alternativ kannst du über meinen Amazon Affiliate-Link einkaufen – ohne Zusatzkosten.

Vielen Dank und viel Erfolg!

Über mich

Björn Walther

Ein 💚 für Statistik & Datenanalyse

Excel Online-Kurs

YouTube-Kanal

Inhalt