Multiple lineare Regression in Excel rechnen und interpretieren

von | Zuletzt bearbeitet am: Sep 30, 2022 | Excel, Regressionsanalyse

1 Ziel der multiplen linearen Regression

Eine multiple lineare Regressionsanalyse hat das Ziel eine abhängige Variable (y) mittels mindestens zweier unabhängiger Variablen (x) zu erklären. Sie testet auf Zusammenhänge zwischen x und y-Variablen. Für nur eine x-Variable wird die einfache lineare Regression verwendet. Dieser Artikel behandelt die Berechnung und Interpretation in Excel. Für SPSS gibt es diesen Artikel.  

2 Multiple lineare Regression – die Voraussetzungen

Die wichtigsten Voraussetzungen sind:

  • linearer Zusammenhang zwischen x-Variablen und y-Variable
  • metrisch skalierte y-Variable (mitunter ist auch ordinal vertretbar – da gibt es große Diskussionen zu, siehe unten :-D)
  • keine Multikollinearität – Korrelation der x-Variablen sollte nicht zu hoch sein
  • normalverteilte Fehlerterme
  • Homoskedastizität – homogen streuende Varianzen des Fehlerterms
  • keine Autokorrelation – Unabhängigkeit der Fehlerterme

 

3 Multiple lineare Regression in Excel – die Durchführung

Über das Menü in Daten > Datenanalyse > Regression einf anova excel

 

Hinweis: Sollte die Funktion “Datenanalyse” nicht vorhanden sein, ist diese über “Datei” > “Optionen” > “Add-Ins” > “Verwalten” > “Los…” zu aktivieren.
Dieses Video zeigt dies kurz.

excel regression  

  1. Als Y-Eingabebereich muss man die Spalte auswählen, die die y-Variable (im Beispiel: Sportnote) enthält. In meinem Fall ist das die Spalte F mit den Zeilen 1-39. Für den X-Eingabebereich ist entsprechend die Spalte mit der x-Variable (im Beispiel: Gewicht und Größe) auszuwählen. In meiner Datei sind das die Spalten C und D mit jeweils den Zeilen 1-39.
  2. Solltet ihr einen beschrifteten Spaltenkopf haben, muss ein Haken bei “Beschriftungen” gesetzt werden. Das dient Excel dazu zu erkennen, dass die erste Zeile nicht mit Daten gefüllt ist, sondern eine Bezeichnung beinhaltet.
  3. Das Konfidenzniveau sollte 95% sein. Das bedeutet, dass 95% aller auf Basis der Stichprobe berechneten Konfidenzintervalle den wahren Wert der Grundgesamtheit enthalten.
  4. Als Nächstes wählt ihr noch einen beliebigen Ausgabebereich. Dieser kann im selben Blatt sein, ein neues Tabellenblatt oder eine neue Arbeitsmappe sein.
  5. Schließlich empfehle ich noch das Ausgeben der Residuen, um die jene auf Normalverteilung zu prüfen.

 

4 Multiple lineare Regression in Excel – Interpretation der Ergebnisse

Im Anschluss an die Durchführung solltet ihr vier Tabellen in Excel erhalten. Die Regressions-Statistik, die ANOVA-Tabelle, die Koeffizienten-Tabelle und die Residuentabelle.  

 

4.1 Regressions-Statistik

 

1. Die Modellgüte der gerechneten multiplen linearen Regression wird mittels des Bestimmtheitsmaßes R-Quadrat (R²) abgelesen. Das R² ist im Intervall zwischen 0 und 1 definiert. Es gibt an, wie viel Prozent der Varianz der abhängigen (y-)Variable erklärt werden. Ein höherer Wert  ist hierbei besser. Im Beispiel werden bei einem R² von z.B.  0,608 werden 60,08% der Varianz der y-Variable erklärt. Der multiple Korrelationskoeffizient gibt die Korrelation zwischen x- und y-Variable an und ist die Wurzel aus dem Bestimmtheitsmaß. Das korrigierte Bestimmtheitsmaß findet insbesondere bei der multiplen linearen Regression Anwendung. Es kontrolliert für die Hinzunahme weiterer x-Variablen. Das R² hat nämlich die Eigenschaft, bei einer zunehmenden Anzahl an x-Variablen automatisch größer zu werden. Das korrigierte R² ist entsprechend darum bereinigt.  

 

4.2 ANOVA-Tabelle

 

2. Die ANOVA-Tabelle dient dazu zu prüfen, ob Regressionsmodell einen signifikanten Erklärungsbeitrag der abhängigen Variable leistet. Da Excel hier keinen p-Wert ausgibt, anhand dessen man eine Entscheidung treffen kann, wird sich über Prüfgröße (F) und kritischem F-Wert beholfen. Der kritische F-Wert (hier: 7,63E-08 bzw. 0,0000000763) muss unter der Prüfgröße (hier 27,14) liegen. Dies ist deutlich der Fall. Somit kann geschlossen werden, dass das aufgestellte und gerechnete multiple Regressionsmodell einen (statistisch signifikanten) Erklärungsbeitrag leistet. Ist dies nicht der Fall, muss die Analyse an dieser Stelle abgebrochen werden – allen anderen Werte dürfen dann nicht interpretiert werden.  

 

4.3 Koeffiziententabelle

 

3. Diese Tabelle zeigt alle (hier: zwei) Koeffizienten, die in die Analyse einbezogen wurden. Der Schnittpunkt ist die Konstante bzw. der Achsenabschnitt. Er ist nicht weiter wichtig in der Analyse an sich. Die Regressionskoeffizienten Größe und Gewicht sollten signifikant (p-Wert<0,05) sein. Größe hat einen p-Wert von 3,32E-07, liegt also deutlich unter 0,05. Das Vorzeichen des Koeffizienten ist negativ. Das bedeutet, dass eine Zunahme der Größe um eine Einheit zu einer Abnahme der abhängigen Variable (Sportnote) um 0,127 Einheiten führt. Das Vorzeichen des Koeffizienten Gewicht ist positiv und hat demnach einen positiven Einfluss auf die y-Variable. Hier ist der Koeffizient 0,11. Das bedeutet, dass eine Zunahme des Gewichtes um 1 Einheit (kg) zu einer Erhöhung der abhängigen Variable (Sportnote) um 0,11 führt. In diesem recht einfachen Beispiel führt also Gewicht zu einer Zunahme (Verschlechterung) und Größe zu einer Abnahme (Verbesserung) der abhängigen Variable (Sportnote).

 

5 Prognose mittels Regressionsgleichung

Auf Basis der Stichprobe wird die folgende Gleichung geschätzt:

    \[ 17,276 + (-0,127 * Größe) + (0,11 * Gewicht)\]

Setzt man nun eine Größe von z.B. 175 cm und 68 kg  in die Formel ein, erhält man:

    \[ 17,276 + (-0,127 * 175) + (0,11 * 68) = 2,531.\]

Ein 175 cm großer und 68kg schwerer Proband würde demnach eine Sportnote von 2,531 erhalten.  

 

HINWEISE:

  • Die Residuentabelle ist auf Normalverteilung zu prüfen. Dies zeige ich in einem gesonderten Artikel.
  • Die Diskussion zur Ordinalskalierung der abhängigen Variablen wird an dieser Stelle nicht geführt. Hier ist ein weiterführender Artikel dazu.

 

6 Videotutorial

Multiple lineare Regression in Excel interpretieren - Daten analysieren in Excel (9)

 

Hat dir der Beitrag geholfen?

Dann würde ich mich über eine kleine Spende freuen, die es mir erlaubt, weiterhin kostenfreie Inhalte zu veröffentlichen.
Alternativ kannst du über meinen Amazon Affiliate-Link einkaufen – ohne Zusatzkosten.

Vielen Dank und viel Erfolg!

Über mich

Björn Walther

Ein 💚 für Statistik & Datenanalyse

Excel Online-Kurs

YouTube-Kanal

Inhalt