Ziel der multiplen linearen Regression

Eine multiple lineare Regression einfach erklärt: sie hat das Ziel eine abhängige Variable (y) mittels mehrerer unabhängiger Variablen (x) zu erklären. Es ist ein quantitatives Verfahren, das zur Prognose einer Variable dient, wie das Beispiel in diesem Artikel zeigt.

Sie testet auf Zusammenhänge zwischen x und y. Bei lediglich einer x-Variable wird die einfache lineare Regression gerechnet. Für Excel gibt es diesen Artikel. Im Vorfeld der Regressionsanalyse kann zudem eine Filterung vorgenommen werden, um nur einen gewissen Teil der Stichprobe zu untersuchen, bei dem man am ehesten einen Effekt erwartet.

Voraussetzungen der multiplen linearen Regression

Die wichtigsten Voraussetzungen sind:

 

 
Multiple lineare Regression in SPSS rechnen und interpretieren - Daten analysieren in SPSS (4)
Dieses Video ansehen auf YouTube.

Fragen können unter dem verlinkten Video gerne auf YouTube gestellt werden.

 

Durchführung der multiplen linearen Regression in SPSS

Über das Menü in SPSS: Analysieren -> Regression -> Linear

Unter Statistiken empfiehlt sich Kollinearitätsdiagnose, der Durbin-Watson-Test (Autokorrelation).

Unter Diagramme empfiehlt sich ein Streudiagramm mit den standardisierten Residuen (ZRESID) und den standardisierten x-Variablen (ZPRED).

 

Beispiel von Ergebnistabellen der multiplen linearen Regression in SPSS

 

Interpretation der Ergebnisse der multiplen linearen Regression in SPSS

Sofern die o.g. Voraussetzungen erfüllt sind, sind drei Dinge besonders wichtig.

ANOVA-Tabelle

Sie sollte einen signifikanten Wert (<0,05) ausweisen – ist dies der Fall, leistet das Regressionsmodell einen Erklärungsbeitrag. Im Beispiel oben ist die Signifikanz 0,000 und damit ist alles in Ordnung. Ist die Signifikanz über 0,05 muss an dieser Stelle die multiple lineare Regression bzw. deren Berechnung abgebrochen werden. Warum? Weil das Modell mit seinen unabhängigen Variablen schlicht die abhängige Variable nicht besser erklären kann als ohne. Meist ist dies ein Hinweis auf keine hinreichende Linearität des Zusammenhanges, sofern es eine hinrechend große Stichprobe (n>30) ist.

 

Die Modellgüte

Die Modellgüte wird anhand des korrigierten R-Quadrat (R²) abgelesen (im Beispiel: 0,383). Dies findet man in der Tabelle Modellzusammenfassung. Korrigiert ist es deswegen, weil mit einer größeren Anzahl an unabhängigen Variablen das normale R² automatisch steigt. Das korrigierte R² kontrolliert hierfür und ist deshalb stets niedriger als das normale R². Sowohl normales als auch korrigiertes R² sind zwischen 0 und 1 definiert. Nur das normale R² (hier 0,407) gibt an, wie viel Prozent der Varianz der abhängigen Variable erklärt werden. Höher ist dabei besser. Bei einem R² von 0,407 werden 40,7% der Varianz der y-Variable erklärt.

 

Koeffiziententabelle

 

Die Regressionskoeffizienten sollten signifikant (p<0,05) sein. Im Beispiel sind dies sowohl Größe als auch Gewicht. Unter „nicht standardisiert“ ist der interpretierbare Effekt dieses Koeffizienten zu sehen. Im Beispiel ist der Koeffizient von Gewicht 0,085. Das heißt, mit jeder zusätzlichen Einheit (hier kg) dieser x-Variable, ist eine Zunahme um 0,085 Einheiten der y-Variable (Sportnote) verbunden. Negative Koeffizienten haben entsprechend einen negativen Einfluss auf die y-Variable. Im Beispielt hat die Größe einen negativen Koeffizienten (-0,064). Eine zusätzliche Einheit (hier cm) führt hier zu einer Abnahme der Sportnote um 0,064 Einheiten.

Zum Vergleich zwischen signifikanten dienen die standardisierten Koeffizienten, anhand derer man sieht, welcher den größten positiven/negativen Einfluss auf die y-Variable hat. Im Beispiel dieser multiplen lineare Regression 

 

Weitere nützliche Tutorials findest du auf meinem YouTube-Kanal.