Ziel der einfachen linearen Regression

Eine einfache lineare Regressionsanalyse hat das Ziel eine abhängige Variable (y) mittels einer unabhängigen Variablen (x) zu erklären. Die einfache lineare Regression testet auf Zusammenhänge zwischen x und y. Für mehr als eine x-Variable wird die multiple lineare Regression verwendet. Dieser Artikel behandelt die Berechnung und Interpretation in Excel. Für SPSS gibt es diesen Artikel.

Voraussetzungen der einfachen linearen Regression

Die wichtigsten Voraussetzungen sind:

  • linearer Zusammenhang zwischen x und y-Variable
  • metrisch skalierte y-Variable
  • normalverteilte Fehlerterme
  • Homoskedastizität – homogen streuende Varianzen des Fehlerterms
  • keine Autokorrelation – Unabhängigkeit der Fehlerterme

Einfache lineare Regression in Excel rechnen - Daten analysieren in Excel (7)
Dieses Video ansehen auf YouTube.

Fragen können unter dem verlinkten Video gerne auf YouTube gestellt werden.

Durchführung der einfachen linearen Regression in Excel

Über das Menü in Daten -> Datenanalyse -> Regression Hinweis: Sollte die Funktion „Datenanalyse“ nicht vorhanden sein, ist diese über „Datei“ -> „Optionen“ -> „Add-Ins“ -> „Verwalten“ -> „Los…“ zu aktivieren. Dieses Video zeigt dies kurz.

  1. Als Y-Eingabebereich muss mann die Spalte auswählen, die die y-Variable (im Beispiel: Gewicht) enthält. In meinem Fall ist das die Spalte D mit den Zeilen 1-39. Für den X-Eingabebereich ist entsprechend die Spalte mit der x-Variable (im Beispiel: Größe) auszuwählen. In meiner Datei ist das die Spalte C mit den Zeilen 1-39.
  2. Solltet ihr einen beschrifteten Spaltenkopf haben, muss ein Haken bei „Beschriftungen“ gesetzt werden. Das dient Excel dazu zu erkennen, dass die erste Zeile nicht mit Daten gefüllt ist sondern eine Bezeichnung beinhaltet.
  3. Das Konfidenzniveau sollte 95% sein. Das bedeutet, das 95% aller auf Basis der Stichprobe berechneten Konfidenzintervalle den wahren Wert der Grundgesamtheit enthalten.
  4. Als nächstes wählt ihr noch einen beliebigen Ausgabebereich. Dieser kann im selben Blatt sein, ein neues Tabellenblatt oder eine neue Arbeitsmappe sein.
  5. Schließlich empfehle ich noch das Ausgeben der Residuen, um die jene auf Normalverteilung zu prüfen.

Interpretation der Ergebnisse der einfachen linearen Regression in Excel

Im Anschluss an die Durchführung solltet ihr vier Tabellen in Excel erhalten. Die Regressions-Statistik, die ANOVA-Tabelle, die Koeffizienten-Tabelle und die Residuentabelle.

 

Regressions-Statistik

 

Die Güte der gerechneten Regression wird anhand des Bestimmtheitsmaßes R-Quadrat (R²) abgelesen. Das R² ist im Intervall zwischen 0 und 1 definiert. Es gibt an, wie viel Prozent der Varianz der abhängigen Variable erklärt werden. Ein höherer Wert  ist hierbei besser. Im Beispiel werden bei einem R² von z.B.  0,5206 werden 52,06% der Varianz der y-Variable erklärt. Für den Kontext der multiple Korrelationskoeffizient gibt die Korrelation zwischen x- und y-Variable an und ist die Wurzel aus dem Bestimmheitsmaß. Das korrigierte Bestimmtheitsmaß findet nur bei der multiplen linearen Regression Anwendung und kann bei der einfachen linearen Regression ignoriert werden.

 

ANOVA-Tabelle

Die ANOVA-Tabelle dient dazu zu prüfen, ob Regressionsmodell einen Erklärungsbeitrag leistet. Da Excel hier keinen p-Wert ausgibt, anhand dessen man eine Entscheidung treffen kann, wird sich über Prüfgröße (F) und kritischem F-Wert beholfen. Der kritische F-Wert (hier: 3,2E-07 bzw. 0,00000032) muss unter der Prüfgröße (hier 39,093) liegen. Dies ist deutlich der Fall. Somit kann geschlossen werden, dass das Regressionsmodell einen Erklärungsbeitrag leistet. Ist dies nicht der Fall, muss die Analyse an dieser Stelle abgebrochen werden.

 

Koeffiziententabelle

Diese Tabelle zeigt alle Koeffizienten, die in die Analyse einbezogen wurden. Bei einer einfachen linearen Regression ist dies lediglich eine x-Variable (hier Größe [cm]). Der Schnittpunkt ist die Konstante bzw. der Achsenabschnitt. Er ist nicht weiter wichtig in der Analyse an sich. Der Regressionskoeffizient Größe sollte signifikant (p-Wert<0,05) sein. Größe hat einen p-Wert von 3,2E-07, liegt also deutlich unter 0,05. Das Vorzeichen des Koeffizienten ist zudem positiv und hat demnach einen positiven Einfluss auf die y-Variable. Hier ist der Koeffizient 0,94. Das bedeutet, dass eine Zunahme der Größe um 1 Einheit (cm) zu einer Erhöhung der abhänigigen Variable (Gewicht) führt.

Auf Basis der Stichprobe wird also die Gleichung -91,281 + 0,940 * Größe geschätzt. Setzt man nun eine Größe von z.B. 175 cm in die Formel ein, erhält man: -91,281 + 0,940 * 175 = 73,219. Ein 175cm großer Proband würde demnach 73,219 kg wiegen.

 

HINWEIS: Die Residuentabelle ist auf Normalverteilung zu prüfen. Dies zeige ich in einem gesonderten Artikel.