Ziel der multiplen linearen Regression

Eine multiple lineare Regressionsanalyse hat das Ziel eine abhängige Variable (y) mittels mindestens zweier unabhängiger Variablen (x) zu erklären. Sie testet auf Zusammenhänge zwischen x und y-Variablen. Für nur eine x-Variable wird die einfache lineare Regression verwendet. Dieser Artikel behandelt die Berechnung und Interpretation in Excel. Für SPSS gibt es diesen Artikel.  

Multiple lineare Regression – die Voraussetzungen

Die wichtigsten Voraussetzungen sind:

  • linearer Zusammenhang zwischen x-Variablen und y-Variable
  • metrisch skalierte y-Variable (mitunter ist auch ordinal vertretbar – da gibt es große Diskussionen zu, siehe unten :-D)
  • keine Multikollinearität – Korrelation der x-Variablen sollte nicht zu hoch sein
  • normalverteilte Fehlerterme
  • Homoskedastizität – homogen streuende Varianzen des Fehlerterms
  • keine Autokorrelation – Unabhängigkeit der Fehlerterme

Multiple lineare Regression in Excel interpretieren - Daten analysieren in Excel (9)
Dieses Video ansehen auf YouTube.

Fragen können unter dem verlinkten Video gerne auf YouTube gestellt werden.

 

Multiple lineare Regression in Excel – die Durchführung

Über das Menü in Daten -> Datenanalyse -> Regression Hinweis: Sollte die Funktion „Datenanalyse“ nicht vorhanden sein, ist diese über „Datei“ -> „Optionen“ -> „Add-Ins“ -> „Verwalten“ -> „Los…“ zu aktivieren. Dieses Video zeigt dies kurz.

 

  1. Als Y-Eingabebereich muss mann die Spalte auswählen, die die y-Variable (im Beispiel: Sportnote) enthält. In meinem Fall ist das die Spalte F mit den Zeilen 1-39. Für den X-Eingabebereich ist entsprechend die Spalte mit der x-Variable (im Beispiel: Gewicht und Größe) auszuwählen. In meiner Datei sind das die Spalten C und D mit jeweils den Zeilen 1-39.
  2. Solltet ihr einen beschrifteten Spaltenkopf haben, muss ein Haken bei „Beschriftungen“ gesetzt werden. Das dient Excel dazu zu erkennen, dass die erste Zeile nicht mit Daten gefüllt ist sondern eine Bezeichnung beinhaltet.
  3. Das Konfidenzniveau sollte 95% sein. Das bedeutet, das 95% aller auf Basis der Stichprobe berechneten Konfidenzintervalle den wahren Wert der Grundgesamtheit enthalten.
  4. Als nächstes wählt ihr noch einen beliebigen Ausgabebereich. Dieser kann im selben Blatt sein, ein neues Tabellenblatt oder eine neue Arbeitsmappe sein.
  5. Schließlich empfehle ich noch das Ausgeben der Residuen, um die jene auf Normalverteilung zu prüfen.

 

Multiple lineare Regression in Excel – Interpretation der Ergebnisse

Im Anschluss an die Durchführung solltet ihr vier Tabellen in Excel erhalten. Die Regressions-Statistik, die ANOVA-Tabelle, die Koeffizienten-Tabelle und die Residuentabelle.  

 

Regressions-Statistik

 

Die Modellgüte der gerechneten multiplen linearen Regression wird mittels des Bestimmtheitsmaßes R-Quadrat (R²) abgelesen. Das R² ist im Intervall zwischen 0 und 1 definiert. Es gibt an, wie viel Prozent der Varianz der abhängigen (y-)Variable erklärt werden. Ein höherer Wert  ist hierbei besser. Im Beispiel werden bei einem R² von z.B.  0,608 werden 60,08% der Varianz der y-Variable erklärt. Der multiple Korrelationskoeffizient gibt die Korrelation zwischen x- und y-Variable an und ist die Wurzel aus dem Bestimmheitsmaß. Das korrigierte Bestimmtheitsmaß findet insbesondere bei der multiplen linearen Regression Anwendung. Es kontrolliert für die Hinzunahme weiterer x-Variablen. Das R² hat nämlich die Eigenschaft bei einer zunehmenden Anzahl an x-Variablen automatisch größer zu werden. Das korrigierte R² ist entsprechend darum bereinigt.  

 

ANOVA-Tabelle

 

Die ANOVA-Tabelle dient dazu zu prüfen, ob Regressionsmodell einen Erklärungsbeitrag leistet. Da Excel hier keinen p-Wert ausgibt, anhand dessen man eine Entscheidung treffen kann, wird sich über Prüfgröße (F) und kritischem F-Wert beholfen. Der kritische F-Wert (hier: 7,63E-08 bzw. 0,0000000763) muss unter der Prüfgröße (hier 27,14) liegen. Dies ist deutlich der Fall. Somit kann geschlossen werden, dass das aufgestellten und gerechnete multiple Regressionsmodell einen (statistisch signifikanten) Erklärungsbeitrag leistet. Ist dies nicht der Fall, muss die Analyse an dieser Stelle abgebrochen werden.  

 

Koeffiziententabelle

 

Diese Tabelle zeigt alle (zwei) Koeffizienten, die in die Analyse einbezogen wurden. Der Schnittpunkt ist die Konstante bzw. der Achsenabschnitt. Er ist nicht weiter wichtig in der Analyse an sich. Die Regressionskoeffizienten Größe und Gewicht sollten signifikant (p-Wert<0,05) sein. Größe hat einen p-Wert von 3,32E-07, liegt also deutlich unter 0,05. Das Vorzeichen des Koeffizienten ist negativ. Das bedeutet, das eine Zunahme der Größe um eine Einheit zu einer Abnahme der abhängigen Variable (Sportnote) um 0,127 Einheiten führt. Das Vorzeichen des Koeffizienten Gewicht ist positiv und hat demnach einen positiven Einfluss auf die y-Variable. Hier ist der Koeffizient 0,11. Das bedeutet, dass eine Zunahme des Gewichtes um 1 Einheit (kg) zu einer Erhöhung der abhänigigen Variable (Sportnote) führt. In diesem recht einfachen Beispiel führt Gewicht zu einer Zunahme (Verschlechterung) und Größe zu einer Abnahme (Verbesserung) der abhängigen Variable (Sportnote).

Auf Basis der Stichprobe wird also die Gleichung 17,276 + (-0,127 * Größe) + (0,11 * Gewicht) geschätzt. Setzt man nun eine Größe von z.B. 175 cm und 68 kg  in die Formel ein, erhält man: 17,276 + (-0,127 * 175) + (0,11 * 68) = 2,531. Ein 175 cm großer und 68kg schwerer Proband würde demnach eine Sportnote von 2,531 erhalten.  

 

HINWEISE:

  • Die Residuentabelle ist auf Normalverteilung zu prüfen. Dies zeige ich in einem gesonderten Artikel.
  • Die Diskussion zur Ordinalskalierung der abhängigen Variablen wird an dieser Stelle nicht geführt. Hier ist ein weiterführender Artikel dazu.