Einfache lineare Regression in Excel rechnen und interpretieren

von Björn Walther | Zuletzt bearbeitet am: Nov 24, 2022 | Excel, Regressionsanalyse

Inhaltsverzeichnis

1 Ziel der einfachen linearen Regression

Eine einfache lineare Regressionsanalyse hat das Ziel eine abhängige Variable (y) mittels einer unabhängigen Variablen (x) zu erklären. Die einfache lineare Regression testet auf Zusammenhänge zwischen x und y. Für mehr als eine x-Variable wird die multiple lineare Regression verwendet. Dieser Artikel behandelt die Berechnung und Interpretation in Excel. Für SPSS gibt es diesen Artikel.

2 Voraussetzungen der einfachen linearen Regression

Die wichtigsten Voraussetzungen sind:

linearer Zusammenhang zwischen x und y-Variable
metrisch skalierte y-Variable
normalverteilte Fehlerterme – Achtung beim analytischen Testen mit Kolmogorov-Smirnov und Shapiro-Wilk-Test
Homoskedastizität – homogen streuende Varianzen des Fehlerterms
keine Autokorrelation – Unabhängigkeit der Fehlerterme

3 Durchführung der einfachen linearen Regression in Excel

Über den Reiter “Daten” -> Datenanalyse -> Regression

Hinweis: Sollte die Funktion “Datenanalyse” nicht vorhanden sein, ist diese über “Datei” -> “Optionen” -> “Add-Ins” -> “Verwalten” -> “Los…” zu aktivieren. Dieses Video zeigt dies kurz.

Als Y-Eingabebereich muss man die Spalte auswählen, die die y-Variable (im Beispiel: Gewicht in kg) enthält. In meinem Fall ist das die Spalte D mit den Zeilen 1-39. Für den X-Eingabebereich ist entsprechend die Spalte mit der x-Variable (im Beispiel: Größe in cm) auszuwählen. In meiner Datei ist das die Spalte C mit den Zeilen 1-39.
Solltet ihr einen beschrifteten Spaltenkopf haben, muss ein Haken bei “Beschriftungen” gesetzt werden. Das dient Excel dazu zu erkennen, dass die erste Zeile nicht mit Daten gefüllt ist, sondern eine Bezeichnung beinhaltet.
Das Konfidenzniveau sollte 95% sein. Das bedeutet, dass 95% aller auf Basis der Stichprobe berechneten Konfidenzintervalle den wahren Wert der Grundgesamtheit enthalten.
Als Nächstes wählt ihr noch einen beliebigen Ausgabebereich. Dieser kann im selben Blatt sein, ein neues Tabellenblatt oder eine neue Arbeitsmappe sein.
Schließlich empfehle ich noch das Ausgeben der Residuen, um die jene auf Normalverteilung zu prüfen.

4 Interpretation der Ergebnisse der einfachen linearen Regression in Excel

Im Anschluss an die Durchführung solltet ihr vier Tabellen in Excel erhalten. Die Regressions-Statistik, die ANOVA-Tabelle, die Koeffizienten-Tabelle und die Residuentabelle.

4.1 Regressions-Statistik

Die Güte der gerechneten Regression wird anhand des Bestimmtheitsmaßes R-Quadrat (R²) abgelesen. Das R² ist im Intervall zwischen 0 und 1 definiert. Es gibt an, wie viel Prozent der Varianz der abhängigen Variable erklärt werden. Ein höherer Wert ist hierbei besser. Im Beispiel: bei einem R² von z.B. 0,5206 werden 52,06% der Varianz der y-Variable erklärt.
Für den Kontext: der multiple Korrelationskoeffizient gibt die Korrelation zwischen x- und y-Variable an und ist die Wurzel aus dem Bestimmtheitsmaß. Das korrigierte Bestimmtheitsmaß findet nur bei der multiplen linearen Regression Anwendung und kann bei der einfachen linearen Regression ignoriert werden.

4.2 ANOVA-Tabelle

Die ANOVA-Tabelle dient dazu zu prüfen, ob Regressionsmodell einen statistisch signifikanten Erklärungsbeitrag leistet. Da Excel hier keinen p-Wert ausgibt, anhand dessen man eine Entscheidung treffen kann, wird sich über Prüfgröße (F) und kritischem F-Wert beholfen.
Der kritische F-Wert (hier: 3,2E-07 bzw. 0,00000032) muss unter der Prüfgröße (hier 39,093) liegen. Dies ist deutlich der Fall. Somit kann geschlossen werden, dass das Regressionsmodell einen statistisch signifikanten Erklärungsbeitrag leistet. Ist dies nicht der Fall, muss die Analyse an dieser Stelle abgebrochen werden.

4.3 Koeffiziententabelle

Diese Tabelle zeigt alle Koeffizienten, die in die Analyse einbezogen wurden. Bei einer einfachen linearen Regression ist dies lediglich eine x-Variable (hier Größe [cm]).
Der Schnittpunkt ist die Konstante bzw. der Achsenabschnitt. Er ist nicht weiter wichtig in der Analyse an sich.
Der Regressionskoeffizient Größe sollte signifikant (p-Wert<0,05) sein. Größe hat einen p-Wert von 3,2E-07, liegt also deutlich unter 0,05. Das Vorzeichen des Koeffizienten ist zudem positiv und hat demnach einen positiven Einfluss auf die y-Variable. Hier ist der Koeffizient 0,94. Das bedeutet, dass eine Zunahme der Größe um 1 Einheit (hier: cm) zu einer Erhöhung der abhängigen Variable (Gewicht) führt. Nämlich um 0,94 Einheiten (hier: kg)

Prognose
Auf Basis dieser Stichprobe und anhand dessen gerechneten Modells kann eine Regressionsgleichung aufgestellt werden. Sie kann zur Prognose verwendet werden. Hierbei ist eine beliebige Größe einzusetzen und das modellhafte Gewicht wird dabei prognostiziert. Setzt man nun eine Größe von z.B. 175 cm in die Formel ein

$Gewicht ={\ -91,281 + 0,940 * Größe$

$Gewicht ={\ -91,281 + 0,940 * 175 = 73,219$

Eine 175 cm große Person würde demnach 73,219 kg wiegen.

HINWEIS: Die Residuentabelle ist auf Normalverteilung zu prüfen. Dies zeige ich in einem gesonderten Video.

5 Videotutorial

Einfache lineare Regression in Excel rechnen - Daten analysieren in Excel (7)

Dieses Video auf YouTube ansehen.



Hat dir der Beitrag geholfen?

Dann würde ich mich über eine kleine Spende freuen, die es mir erlaubt, weiterhin kostenfreie Inhalte zu veröffentlichen.
Alternativ kannst du über meinen Amazon Affiliate-Link einkaufen – ohne Zusatzkosten.

Vielen Dank und viel Erfolg!

Jetzt spenden

Über mich

Björn Walther

Ein 💚 für Statistik & Datenanalyse