Was ist Autokorrelation?

Autokorrelation ist im Kontext der einfachen linearen Regression oder multiplen linearen Regression eine positive oder negative Korrelation der Residuen miteinander. Dieser Artikel zeigt wie eine Diagnose von Autokorrelation in SPSS gelingt.

Ist jede Regression von Autokorrelation betroffen?

Hier ist prinzipiell eine Unterscheidung zu treffen. Längsschnittdaten sollten zeitlich unkorrelierte Residuen haben, wohingegen bei Querschnittdaten benachbarte Residuen nicht korrelieren sollten. Demzufolge ist vor allem bei Querschnittsdaten, die viel häufiger verwendet werden, folgendes zu beachten: benachbarte Residuen mit dem Durbin-Watson-Test zu prüfen ist nur dann wirklich sinnvoll, wenn die Fälle eine (natürliche) aufsteigende oder absteigende Sortierung besitzen, wie das bei zeitlichen Abfolgen der Fall ist. Besitzen die Fälle keine natürliche Sortierung, sollte man Autokorrelation grafisch diagnostizieren, wie dieser Artikel zeigt.

 

Was hat Autokorrelation für Folgen?

Die Standardfehler der Regressionskoeffizienten werden bei vorhandener Autokorrelation verzerrt (zu niedrig) geschätzt. Sie sind damit nicht konsistent. Das führt wiederum dazu, dass die t-Werte nicht verlässlich (weil zu hoch) geschätzt werden können. Schließlich führt das zu verzerrten Konfidenzintervallen und p-Werten und damit zu einer Gefahr einer falschen Hypothesenentscheidung: insbesondere eine fälschliche Annahme der Nullhypothese (Fehler 2. Art) ist häufig die Folge. Achtung: die Koeffizienten selbst sind im Rahmen der Regression nicht verzerrt.

 

Analytisches Erkennen von Autokorrelation in SPSS

Zur analytischen Diagnose von Autokorrelation bewegt man sich in SPSS über „Analysieren“ -> „Regression“ -> „Linear„. Als abhängige Variable wird die abhängige Variable eingetragen. Die unabhängigen Variablen kommen in die Box „Unabhängige Variable(n)„. In meinem Fall ist die abhängige Variable der Abiturschnitt und Intelligenzquotient und Motivation sind die unabhängigen Variablen.

Lineare Regression SPSS

 

Als nächstes geht ihr auf die Schaltfläche Statistiken und erhaltet folgendes:

Durbin-Watson-Test SPSS

Hier ist lediglich bei Durbin-Watson ein Haken zu setzen.

 

Durbin-Watson SPSS

Der Durbin-Watson-Test gibt keine Signifikanz aus sondern lediglich die sog. Durbin-Watson-Statistik. Dieser Wert ist typischerweise zwischen 0 und 4. Annehmbar gelten allerdings nur Werte zwischen 1 und 3.
Im Beispiel ist der Wert mit 1,464 in diesem Intervall. Allerdings ist für mein Beispiel eine Sortierung der Fälle nicht gegeben und damit eine Voraussetzung nicht erfüllt. Tauscht man beispielsweise zwei Fälle, ändert sich die Durbin-Watson-Statistik:

Durbin-Watson SPSS

Zwar hat sich hier der Wert nur gering geändert (1,474), es zeigt aber, dass der Wert bei Querschnittsdaten nicht verlässlich ist. Theoretisch müsste man ALLE möglichen Sortierungen durchgehen. Demzufolge empfehle ich an dieser Stelle erneut ausdrücklich eine grafische Diagnose von Autokorrelation (Field, A. P. (2018). S. 387).

 

Was tun bei Autokorrelation?

Am einfachsten kann man Autokorrelation kontern, indem man robuste Standardfehler schätzen lässt. Wir haben oben bereits gelernt, dass die Koeffizienten nicht verzerrt sind, sondern lediglich deren Standardfehler. Schätzt man nun robuste Standardfehler, lässt sich das Problem recht bequem lösen. Diese robusten Standardfehlerschätzungen sind auch direkt in SPSS implementiert. Sie funktionieren auch wenn Heteroskedastizität vorliegt.

Diese Funktion ist allerdings nicht im Regressions-Dialogfeld implementiert. Dazu muss man über „Analysieren“ -> „Univariat“  die abhängige Variable definieren und die unabhängigen Variablen in die Box „Kovariate(n)“ schieben.

univariate anova

 

Dann geht es auf die Schaltfläche Optionen

Robuste Standardschätzer

 

Euch interessiert an dieser Stelle lediglich „Parameterschätzungen mit robusten Standardfehlern„. Hier setzt ihr einen Haken und könnt nun zwischen HC0, HC1, HC2, HC3 und HC4 auswählen. Immer wieder kommt die Frage, welche HC der beste ist. Die Antwort ist nüchtern gesagt, das keinen besten gibt. Es existieren aber zwei sinnvolle Richtlinien von Hayes (2007), S. 713:

  • Cribari-Neto (2005) simulation results also suggest the superiority of HC3 over its predecessors (HC0-HC2).
  • Cribari-Neto’s (2004) simulations show that HC4 can outperform HC3 in terms of test size control when there are high leverage points and nonnormal errors.

Laut Hayes empfiehlt sich am ehesten die Nutzung HC3. HC4 ist häufig nur dann sinnvoll, wenn die Residuen nicht normalverteilt sind oder high leverage points existieren. Letzere sind Ausreißer, die – grafisch gesprochen – insbesondere in x-Richtung auftreten

Nach der Ausführung von HC3 bekommt man die Tabelle „Parameterschätzungen mit robusten Standardfehlern„, die man wie gewohnt zur Interpretation der Regression verwendet.

Robuste Standardfehler

 

Oben sind zwei Tabellen direkt gegenübergestellt. Mann sieht die normale Koeffizienten-Tabelle (oben) und die Parameterschätzungen mit robusten Standardfehlern (unten). Erkennbar sind die identischen Koeffizienten. Allerdings unterscheiden sich die Standardfehler dann doch recht deutlich. Zwar hat dies nur minimale Auswirkungen auf die Signifikanz, das ist in meinem konstruierten Beispiel allerdings nicht verwunderlich.

Hinweis: Es gibt inzwischen auch HC5, dieser ist allerdings noch nicht in SPSS implementiert. In früheren Versionen von SPSS (24 oder niedriger) ist keinerlei Schätzung von robusten Standardfehlern wie HC0-HC4 implementiert.

 

Literatur

  • Field, A. P. (2018). Discovering statistics using IBM SPSS statistics.
  • Hayes, A. F., & Cai, L. (2007): Using heteroskedasticity-consistent standard error estimators in OLS regression: An introduction and software implementation. Behavior research methods, 39(4), 709-722
  • Wooldridge, J. M. (2009). Introductory econometrics: A modern approach. Mason, OH: South Western, Cengage Learning. Speziell S. 271-276.

 

Video mit Schnelltest

Dieses Video ansehen auf YouTube.