Was sind fehlende Werte überhaupt?

Fehlende Werte stellen im Datensatz (un-)absichtlich freigelassene Variablen dar. Wie man sie in SPSS identifiziert, zeigt dieser Artikel.

Im Artikel fehlende Werte in SPSS definieren, habe ich bereits etwas ausführlicher gezeigt, wie man neben systemdefiniert fehlenden Werten in SPSS selbst benutzerdefiniert fehlende definieren kann.

 

Systemdefiniert fehlende Werte erkennen

Systemdefiniert fehlende Werte sind in SPSS in den einzelnen Zellen durch einen einfachen Punkt (.) erkennbar.

systemdefiniert fehlend spss

Warum dieser fehlt ist nicht bekannt. Mögliche Gründe sind Verweigerung, Unwissenheit des Befragten usw. Möchte man erkennen, wie viele Fälle fehlende Werte haben bzw. wie viele Fälle mindestens einen fehlenden Wert haben, bietet SPSS dafür keine Funktion. Man kann allerdings eine Prüfung vornehmen und eine Filtervariable erstellen, mit der man das gewünschte Ergebnis erzielen kann.

Dieses Video ansehen auf YouTube.

Hierzu kann man eine neue Variable berechnen. Das geht über „Transformieren“ -> „Variable berechnen“.

fehlend werte missing

 

In Schritt 1 ist eine neue Variable zu definieren. Sie kann einen beliebigen Namen haben, am sinnvollsten ist fehlend, missing oder eine Abkürzung dessen (m, f).

In Schritt 2 ist bei der Funktionsgruppe „Alle“ auszuwählen, damit in Schritt 3 die Funktion „Missing“ selektiert werden kann. Diese kann man verwenden, um alle Variablen logisch miteinander zu verknüpfen.

Hierzu nutzt man das logische Oder, welches in SPSS mit einem | abgebildet wird. Die Funktion wird dann 1, wenn ein fehlender Wert existiert. Durch die Verknüpfung mit „Oder“ wird die Zielvariable immer dann 1, wenn mindestens eine Variable des Falles bei der Prüfung einen fehlenden Wert aufweist. So kann man dann einfach Fälle ausschließen, die in der Zielvariable eine 1 haben. Das funktioniert über „Daten“ -> „Fälle auswählen“ -> Falls Bedingung zutrifft: Filtervariable <1. Eine kurze Anleitung gibt es in diesem Artikel: Daten filtern in SPSS.

Hinweis: Da nahezu alle Berechnungen Fälle mit fehlenden Werten ignorieren, ist das obige Vorgehen insbesondere dazu geeignet, um zu erkennen, welche Fälle überhaupt einen fehlenden Wert besitzen. Am Ende dieses Artikels zeige ich ein Beispiel wo es durchaus sinnvoll sein kann, Fälle mit fehlenden Werten zu herauszufiltern.

 

Benutzerdefiniert fehlende Werte erkennen

Wie im Artikel zu fehlende Werte in SPSS definieren bereits ausführlich dargelegt, sind hinter benutzerdefiniert fehlenden Werten Codes hinterlegt, die vom Ersteller der Umfrage definiert wurden.

Um zu sehen, welche Variablen potentiell benutzerdefiniert fehlende Werte haben geht man in die „Variablenansicht„. Hier sollte man in der Spalte „Fehlend“ nach Zahlen Ausschau halten. Im unteren Bild ist der Bereich -99 bis -96 für die Variable Anzahl Prüfungen als fehlend definiert. Es können aber auch einzelne Werte sein, die als fehlend definiert sind.

fehlende werte bereich

Weil benutzerdefiniert fehlende Wert ebenfalls der Oberkategorie fehlende Werte zugeordnet werden, kann ebenso eine Berechnung einer Zielvariable zur Filterung erfolgen. Dies geschieht analog zu oben. Die Funktion MISSING erkennt ebenfalls benutzerdefiniert fehlende Werte an. Ein anschließender Filter funktioniert ebenso.

 

Was passiert bei der Auswertung mit Fällen mit fehlenden Werten?

Hier noch mal der explizite Hinweis. Fälle mit fehlenden Werten werden bei nahezu allen Auswertungen nicht mit einbezogen. Sie werden listenweise ausgeschlossen. Allerdings kann es vorkommen, dass ein Fall in einer Berechnung eingeschlossen wird, weil er in der entsprechenden Variable keinen fehlenden Wert hat, dafür aber in einer anderen Variable. So kann es sein, dass man einen Mittelwert für zwei Variablen berechnen kann, aber nicht alle Fälle, die zu dessen Berechnung herangezogen wurden, auch bei einer Korrelation einbezogen sind.

Beispiel:

Variable A Variable B
1
2 7
8
4 9
5 10

Für die Berechnung eines Mittelwertes werden jeweils 4 Werte herangezogen. Der Mittelwert von A ergibt sich aus 1,2,4 und 5 und ist 3. Der Mittelwert aus B ergibt sich aus 7,8,9 und 10 und ist 8,5. Bei einer Korrelation oder Regression werden allerdings nur drei Wertepaare (fett dargestellt) verwendet. 2-7, 4-9 un 5-10. Demzufolge sollte man vorsichtig bei Berechnungen sein, wenn im Datensatz fehlende Werte existieren.

 

Was kann man bei fehlenden Werten tun?

Wie schon gesagt, muss man nichts machen – Fälle mit fehlenden Werten werden bei Auswertungen ignoriert. Allerdings hat das eben gezeigte Beispiel verdeutlicht, dass es durchaus zu Inkonsistenzen kommen kann. Das Thema fehlende Werte ersetzen behandle ich in diesem Artikel ausführlich, falls das Weglassen von Fällen keine Option ist.