Was sind fehlende Werte überhaupt?

Fehlende Werte stellen im Datensatz (un-)absichtlich freigelassene Variablen dar. Wie man sie in SPSS ersetzen kann, zeigt dieser Artikel.

Im Artikel fehlende Werte in SPSS definieren, habe ich bereits etwas ausführlicher gezeigt, wie man neben systemdefiniert fehlenden Werten in SPSS selbst benutzerdefiniert fehlende definieren kann. Wurde dies bereits vom Umfrageprogramm oder einer anderen Person vorgenommen, hilft euch der Artikel zum identifizieren von fehlenden Werten in SPSS.

 

Wie ersetzt man fehlende Werte in SPSS?

Wie geht man nun aber in SPSS vor, wenn man sich überlegt hat, das man Imputation betreiben möchte? Man geht auf „Transformieren“ -> „Fehlende Werte ersetzen„.

fehlende werte ersetzen

 

Nach der Auswahl des Menüeintrages erscheint ein neues Dialogfeld:

fehlende werte ersetzen spss

 

Hier gibt es die Möglichkeit links eine oder mehrere Variablen auszuwählen. Jede Variable, in der fehlende Werte ersetzt werden sollen, kann nun einen neuen Namen bekommen. Standardmäßig nennt SPSS die neue Variable so wie die alte Variable und hängt „_1“ dran. Aus „Gewicht“ wird also „Gewicht_1“.

Als nächstes besteht die Möglichkeit eine von mehreren Methode auszuwählen. Folgende Methoden stehen in SPSS zum Ersetzen fehlender Werte zur Verfügung:

Mittelwert der Zeitreihe

Der einfache Mittelwert aller nicht fehlenden Werte der jeweiligen Variable wird gebildet und ersetzt den fehlenden Wert. Das hat zur Folge, dass bei einer steigenden Anzahl an fehlenden Werten eine zunehmende Zahl denselben Wert, nämlich den Mittelwert, erhalten.

 

Mittel der Nachbarpunkte

Es wird der Mittelwert der an den fehlenden Wert oben und unten angrenzenden Werte verwendet. Je mehr Werte vor und nach dem fehlenden Wert existieren, desto eher wird es ein Wert ähnlich zum Gesamtmittelwert.

 

Median der Nachbarpunkte

Ähnlich zum Mittel der Nachbarpunkte, nur das nun der Median verwendet wird.

 

Lineare Interpolation

Für die lineare Interpolation verwendet SPSS den letzten gültigen Wert vor dem fehlenden Wert und den ersten gültigen Wert nach dem fehlenden Wert. Hat der erste oder letzte Fall der Reihe auch einen fehlenden Wert, wird keine Interpolation vorgenommen.Hat der erste oder letzte Fall der Reihe auch einen fehlenden Wert, wird keine Interpolation vorgenommen.

 

Linearer Trend am Punkt

Für die vorhandene Reihe wird eine Regression auf eine von 1 bis n skalierte Indexvariable berechnet. Fehlende Werte werden durch den durch die Regression prognostizierten Wert ersetzt.

 

Darf man fehlende Werte überhaupt ersetzen?

Wie so häufig in der Statistik darf man ziemlich viele Dinge machen. Allerdings sollten sie wohl begründet sein. Mit der unter dem Begriff der Imputation zusammengefassten Vervollständigung fehlender Werte auf Basis vorher notwendigerweise getroffener Annahmen sollte man aber lieber sparsamer umgehen. Ich persönlich ersetze keine fehlenden Werte, weil ich keine sinnvolle Begründung anführen kann, womöglich ganz andere Werte in meine Stichprobe aufzunehmen, als sie in Wirklichkeit beobachtet worden wären.

 

Videoanleitung

Dieses Video ansehen auf YouTube.