Eine lineare Regression kann als unabhängige Variablen alle möglichen Skalenniveaus haben. Immer wieder bekomme ich Fragen, wie eine lineare Regression mit binären Variablen (auch dichotom genannt) funktioniert. Recht einfach, wie ich in diesem Artikel zeigen werde.

Beim Einbeziehen von binären Variablen rechnet man typischerweise eine garn normale multiple lineare Regression. In dem Falle sind natürlich analog die Voraussetzungen zur Berechnung zu erfüllen. Achtung: Ist eure binäre Variable ein Moderator ist, verstärkt bzw. schwächt also den Einfluss einer x-Variable auf eine y-Variable, rechnet ihr eine Moderationsanalyse.

 

Voraussetzungen der multiplen linearen Regression mit binären Variablen

Die wichtigsten Voraussetzungen sind:  

Dieses Video ansehen auf YouTube.

Fragen können unter dem verlinkten Video gerne auf YouTube gestellt werden.  

 

Durchführung der multiplen linearen Regression mit binären Variablen in SPSS

Über das Menü in SPSS: Analysieren -> Regression -> Linear Hier versuche ich als abhängige Variable den Abiturschnitt zu erkläre. Dafür nutze ich die unabhängigen Variablen Intelligenzquotient, Motvation und das Geschlecht. Das Geschlecht ist dummy-codiert. Wie im unteren Bild erkennbar, ist männlich mit „0“ und weiblich mit „1“ hinterlegt. Hiermit kann man den Einfluss des Geschlechtes auf den Abiturschnitt schätzen lassen.

regression binäre variable  

 

Weitere notwendige Voraussetzungsprüfungen führe ich an dieser Stelle nicht explizit auf. Die entsprechenden Tests sind im obigen Abschnitt Voraussetzungen verlinkt.  

 

Interpretation der Ergebnisse der multiplen linearen Regression mit binären Variablen in SPSS

Sofern die o.g. Voraussetzungen erfüllt sind, sind drei Dinge bei der Ergebnisinterpretation bei der multiplen Regression mit binären Variablen besonders wichtig.

 

ANOVA-Tabelle

anova regression

Die ANOVA sollte einen signifikanten Wert (<0,05) ausweisen. Wenn das der Fall ist, leistet das Regressionsmodell einen signifikanten Erklärungsbeitrag. Im obigen Beispiel ist die Signifikanz 0,000 und damit ist quasi alles in Ordnung. Das Modell kann verwendet werden. Ist die Signifikanz allerdings über 0,05, muss an dieser Stelle die multiple lineare Regression bzw. deren Berechnung abgebrochen werden. Warum? Weil das multiple Regressionsmodell mit seinen unabhängigen Variablen schlicht die abhängige Variable nicht besser erklären kann als ohne. Das ist häufig ein Hinweis auf keine ausreichende Linearität des Zusammenhanges, sofern es eine hinrechend große Stichprobe (n>30) ist.  

 

Die Modellgüte

modellgüte regression

Die Modellgüte wird bei einer multiplen Regression – auch mit binären Variablen – typischerweise anhand des korrigierten R-Quadrat (R²) abgelesen (im Beispiel: 0,886). Dies findet man in der Tabelle Modellzusammenfassung. Korrigiert ist es deswegen, weil mit einer größeren Anzahl an unabhängigen Variablen das normale R² automatisch steigt. Das korrigierte R² kontrolliert hierfür und ist deshalb stets niedriger als das normale R². Sowohl normales als auch korrigiertes R² sind zwischen 0 und 1 definiert. Nur das normale R² (hier 0,893) gibt an, wie viel Prozent der Varianz der abhängigen Variable erklärt werden. Höher ist dabei besser. Bei einem R² von 0,893 werden 89,3% der Varianz der y-Variable erklärt. HINWEIS: Da es sich um ein konstruiertes Beispiel handelt, sind die Werte sehr hoch. Im sozialwissenschaftlichen Kontext sind teilweise auch Werte des R² von 0,1 ein „guter“ Wert. Folglich solltet ihr hier nicht nach generellen Daumenregeln suchen, was gut oder schlecht ist, sondern Studien heranziehen, die ähnliche Fragestellungen untersucht haben und mit jenen vergleichen.  

 

Koeffiziententabelle

regression koeffizienten binäre variable

 

Die Regressionskoeffizienten sollten signifikant (p<0,05) sein. Im Beispiel sind dies alle drei Variablen, also IQ, Geschlecht und Motivation. Unter „nicht standardisiert“ ist der interpretierbare Effekt dieses Koeffizienten zu sehen. Im Beispiel ist der Koeffizient von IQ -0,042. Das heißt, mit jeder zusätzlichen Einheit (hier 1 Punkt beim IQ) dieser x-Variable, ist eine Abnahme um 0,042 Einheiten der y-Variable (Abiturschnitt) verbunden. Das bedeutet, ein höhere IQ sorgt für einen niedrigeren und damit besseren Abiturschnitt. Selbiges gilt für die Motivation. Ist sie um eine Einheit höher, sinkt der Abiturschnitt um 0,381. Positive Koeffizienten, die in diesem Modell allerdings nicht zu sehen sind, haben entsprechend einen positiven Einfluss auf die y-Variable.

Was ist nun aber mit dem binär codierten Geschlecht? Hier ist der Koeffizient -0,19. Wenn wir uns an die Codierung dieser Variablen (0=männlich, 1=weiblich) erinnern, erfahren wir, was das bedeutet. Die Basiskategorie ist stets die 0 (hier männlich). Eine Ausprägung des Geschlechts von 1 (=weiblich) zeigt nun die Veränderung in der abhängigen Variable (Abiturschnitt), wenn das Geschlecht weiblich statt männlich ist. Das heißt, eine Frau hat einen um -0,190 verschiedenen Abiturschnitt. Er ist also um 0,190 geringer als bei einem Mann. Im Endeffekt würde man daran erkennen, dass Frauen in diesem Modell einen um 0,190 geringeren und damit besseren Abiturschnitt haben als Männer. Im Umkehrschluss heißt das, dass die Männer – in diesem Modell – logischerweise um 0,190 schlechter sind als die Frauen.

Zum Vergleich zwischen signifikanten Variablen dienen die standardisierten Koeffizienten. Anhand derer sieht man, welcher den größten positiven/negativen Einfluss auf die y-Variable hat. Man betrachtet stets den Betrag (z.B. |-0,659| = 0,659), also den positiven Wert des Koeffizienten. Im Beispiel dieser multiplen Regression hat der IQ (|-0,659|) den größten Einfluss, gefolgt von Motivation (|-0,381|) und Geschlecht (|-0,190|).  

 

Tipp zum Schluss

Findest du die Tabellen von SPSS hässlich? Dann schau dir mal an, wie man mit wenigen Klicks die Tabellen in SPSS im APA-Standard ausgeben lassen kann.  

 

Beispieldatensatz für SPSS

Download eines Beispieldatensatzes für SPSS