Ausreißer – die Angst vor Extremwerten

Ausreißer sind allgemein gesprochen ungewöhnliche Werte in der Verteilung einer Variable bzw. Messreihe. Ausreißer erkennen und ausschließen ist aber kein so trivialer Prozess, wie vielfach fälschlicherweise angenommen. 

Eine sehr häufige Ursache für Ausreißer sind Messfehler des Versuchsleiters oder Eingabefehler beim Übertragen der Daten von Papier in SPSS oder bei digitalen Fragebögen durch den Nutzer. Beim Alter wird z.B. versehentlich 355 statt 35 Jahre eingegeben. Ab wann ein Extremwert ein Ausreißer ist und wie man sie aufspürt, kläre ich in diesem Artikel ausführlich. Nachdem die Ausreißer identifiziert sind, geht es nun ans Ausschließen bzw. Filtern.

 

Wie funktioniert das Ausschließen von Ausreißern?

Prinzipiell habt ihr nur zwei Möglichkeiten Ausreißer auszuschließen. Die erste Variante ist das Löschen, die zweite das Filtern.

Die Löschmethode – ein Appell

An dieser Stelle muss man direkt den Zeigefinger heben und eindringlich vor diesem Vorgehen warnen. Das Löschen von Fällen mit Ausreißern kann dazu führen, dass ihr den Überblick über eure Daten verliert. Außerdem kann man teilweise auch für Ausreißer argumentieren. Ein bei einer kleinen Stichprobe als Ausreißer klassifizierter Wert kann in einer größeren Stichprobe der Normalfall sein – eventuell besteht eure Stichprobe fast nur aus Werten, die in der Grundgesamtheit Ausreißer wären. Folgende Abbildung versucht das zu verdeutlichen.

Ausreißer

 

Wenn ihr euch allerdings sicher seid, das ihr einen oder mehrere Fälle löschen wollt, selektiert ihr diesen in der Datenansicht eurer SPSS-Datendatei und wählt nach einem Rechtsklick auf die Fallnummer den Befehl „Löschen“. Alternativ drückt ihr die „Entf“-Taste.

Der Fall ist nun geslöscht und kann nur mit der Wiederherstellen-Funktion (Tastenkombination „Strg+Z“) zurückgeholt werden.

Bedenkt beim Löschen unbedingt, dass Gutachter fast immer den Originaldatensatz wollen, um die Analysen (zumindest teilweise) nachzurechnen bzw. nachzuvollziehen. Sollte ihr also Fälle durch löschen ausschließen, legt im Vorfeld noch den Originaldatensatz irgendwo gesichert ab. Die genannten Gründe sprechen nun eher für die zweite Möglichkeit, dem Filtern von Datensätzen.

 

Die Filtermethode

Das Filtern zum Fallausschluss ist eine recht einfache Angelegenheit Es gibt grundlegend die Möglichkeit einfache und kombinierte Filter zu erstellen, wozu ich einen ausführlichen Artikel geschrieben habe. In der Regel reicht beim Ausschluss von Ausreißern die einfache Methode bereits aus, weshalb ich mich an dieser Stelle auf sie beschränke.

Ihr geht über das Menü „Daten“->“Fälle auswählen“ und erhaltet folgendes Dialogfeld:

Filtern-Dialogfeld

Mit einem Klick auf „Falls Bedingung zutrifft“ und die Schaltfläche „Falls…“ kommt ihr zu einem zweiten Dialogfeld, mit dem ihr dann arbeiten werdet:

Links stehen all eure Variablen. Die, in denen ihr Ausreißer identifiziert habt, könnt ihr nun in das rechte Feld ziehen und spezifizieren, was ein Ausreißer ist. Zum Beispiel wäre eine Körpergröße von 2,70m aufgrund seiner Unplausibilität ein Ausreißer. Ihr wollte daher nur die Fälle auswählen, die „Größe<2,70“ haben. Es könnte aber auch sein, dass ihr z.B. beim BMI Werte von unter 10 und über 50 ausschließen wollt. Dann filtert ihr so: „BMI>=10 & BMI <50“

Den Filter könnt ihr jederzeit wieder aufheben, indem ihr im ersten Dialogfeld einfach „Alle Fälle“ auswählt.

 

Videoanleitung

Dieses Video ansehen auf YouTube.

 

Weitere nützliche Tutorials findest du auf meinem YouTube-Kanal.