Binär logistische Regression in SPSS mit einem metrischen Prädiktor

von | Jan 28, 2020 | Logistische Regression, Regressionsanalyse, SPSS

Die binäre logistische Regression ist immer dann zu rechnen, wenn die abhängige Variable nur zwei Ausprägungen hat, also binär bzw. dichotom ist. Es wird dann die Wahrscheinlichkeit des Eintritts bei Ändern der unabhängigen Variable geschätzt. Die Schätzung der Wahrscheinlichkeit ist neben der binären Codierung der wesentliche Unterschied zur einfachen Regression. Im Vorfeld der Regressionsanalyse kann zudem eine Filterung vorgenommen werden, um nur einen gewissen Teil der Stichprobe zu untersuchen, bei dem man am ehesten einen Effekt erwartet. Ist die abhängige Variable metrisch oder quasi-metrisch, kann eine lineare Regression (einfach oder multipel) gerechnet werden.  

Voraussetzungen der binär logistischen Regression

Die wichtigsten Voraussetzungen sind:

  • die y-Variable ist binär codiert (0 und 1 als Ausprägungen), ist sie metrisch, ist eine einfache oder multiple lineare Regression zu rechnen
  • metrisch skalierte x-Variable(n), ordinal funktioniert auch, nominal skalierte x-Variablen sind als Dummy zu codieren
  • keine hoch korrelierten x-Variablen
Dieses Video ansehen auf YouTube.

Fragen können unter dem verlinkten Video gerne auf YouTube gestellt werden.  

 

Durchführung der binär logistischen Regression in SPSS

Das von mir gewählte Beispiel versucht die Wahrscheinlichkeit die Führerscheinprüfung beim ersten Versuch zu bestehen mit dem Intelligenzquotienten zu erklären. Die abhängige (y-)Variable ist also das Bestehen der Führerscheinprüfung beim 1. Versuch (0 – nein und 1 – ja). Das ist wichtig und die Grundlage zum Verstehen der nachfolgenden Ausführungen. Die unabhängige (x-)Variable ist der Intelligenzquotient. Es existiert also nur eine metrisch skalierte x-Variable. Über das Menü in SPSS: Analysieren -> Regression -> Binär logistisch Als abhängige Variable ist die binär codierte Variable einzutragen. In meinem Falle „Führerschein beim 1. Versuch“.

Die x-Variable „IQ“ gehört in das Feld „Kovariaten„. Kovariate und x-Variablen sind synonym zu sehen. Als Methode ist „Einschluss“ zu wählen. Es gibt Autoren, die empfehlen hier schrittweise – bei nur einem Prädiktor wie in diesem Beispiel ist das Ergebnis jedoch identisch. HINWEIS: Sofern es sich nicht um ein exploratives Vorgehen handelt und explizit Hypothesen theoretisch fundiert hergeleitet wurden, ist stets Einschluss zu wählen.

 

binär logistische regression  

 

Danach noch ein Klick auf Optionen. Hier sind auszuwählen:

  • Klassifikationsdiagramme
  • Hosmer-Lemeshow-Anpassungsstatistik“ und
  • Konfidenzintervall für Exp(B) 95

 

binär logistische regression

 

Danach ein Klick auf Weiter und dann auf OK zur Berechnung. Im nächsten Schritt geht es um die Interpretation der erhaltenen Ergebnisse der binär logistischen Regression.  

 

Interpretation der Ergebnisse der binär logistischen Regression in SPSS

Im Gegensatz zur linearen Regression ist die Interpretation der Ergebnisse der binär logistischen Regression etwas umfangreicher.

 

Der Anfangsblock – kurze Kontrolle

Der Anfangsblock bzw. Block 0 ist so gut wie immer unwichtig. Hier wird das Modell ohne die x-Variable geschätzt, was man daran erkennt, dass in der Tabelle „Variablen in der Gleichung“ lediglich die Konstante steht. In der Tabelle „Variablen nicht in der Gleichung“  ist Intelligenzquotient zu sehen – samt Signifikanz. In der „Klassifizierungstabelle“ kann man zudem erkennen, dass für alle 51 Fälle (20+31) die Vorhersage ja ist. Das Modell sagt also vorher, dass die Führerscheinprüfung beim 1. Versuch in allen 51 Fällen bestanden wurde. Der Prozentsatz der Richtigen zeigt entsprechend 0 in der ersten Zeile (jene Fälle, die eben tatsächlich NICHT bestanden haben) und 100 in der zweiten Zeile (jene, die tatsächlich bestanden haben). Im Ergebnis wurden zumindest 60,8 % der Fälle richtig vorhergesagt – das liegt natürlich an den 31 richtigen Fällen.

 

binär logistische regression  

 

Der Block 1 – Interpretationsbedarf

Im Block 1 ist zunächst die Omnibus-Test der Modellkoeffizienten von Interesse. Der Test ist ein Likelihood-Quotient-Chi-Quadrat-Test. Er vergleicht das aktuelle Modell (Block 1) mit dem Nullmodell (Block 0). Der Signifikanzwert ist bei der Methode Einschluss in der Zeile Modell abzulesen und ist <0,001. Er liegt damit unter der typischen Verwerfungsgrenze von 0,05 und zeigt an, dass das aktuelle Modell mit Einbezug des Intelligenzquotienten besser geeignet ist als das Nullmodell – ohne jegliche unabhängige Variablen.

 

binär logistische regression omnibus test  

 


 

Die Modellgüte wird in der Tabelle „Modellzusammenfassung“ aufgezeigt. Ein kleiner -2LogLikelihood-Term ist ein Zeichen für ein höheres R². Ein höheres R² steht für eine besser Modellpassung. Das R² ist allerdings nur ein Pseudo-R², damit analog zum R² der linearen Regression eine Interpretation der Güte vorgenommen werden kann. Cox & Snell R² ist stets kleiner als Nagelkerkes R², weil die Wertebereiche unterschiedlich sind. Cox & Snell R² kann als Höchstwert 0,75 haben. Nagelkerkes ist eine Standardisierung von Cox & Snell und hat damit einen Höchtswert von 1 – analog zum R² der linearen Regression. Im Beispiel ist Cox & Snell R² 0,468 und Nagelkerkes R² beträgt 0,634. Diese Werte sind – je nach Forschungsbereich – schon als hoch anzusehen. Da es sich um ein konstruiertes Beispiel handelt, sind die Werte entsprechend hoch.

 

Binär logistische rergession modellgüte r-quadrat  

 


 

Als nächstes folgt der Hosmer-Lemeshow-Test. Er gibt an, wie stark die beobachteten und vorhergesagten Fälle voneinander abweichen ( = Fit). Hier sollte die Signifikanz nicht unter 0,05 liegen, da dies einen schlecht Fit zur Folge hätte. Die Nullhypothese geht von ungefährer Gleichheit der beobachteten und vorhergesagten Fälle aus, daher sollte sie nicht verworfen werden, die Signifikanz also über 0,05 liegen. Im Beispiel liegt die Signifikanz bei 0,677 und damit ist alles in Ordnung. Der Fit ist hinreichend gut.

 

Binär logistische rergession hosmer lemeshow test  

 


 

Da es eben schon um beobachtete und vorhergesagte Fälle ging, kann dies in der Klassifizierungstabelle noch mal im Detail betrachtet werden. Im Block 0 hatten wir ja auch eine solche Tabelle, die alle Fälle als im 1. Versuch bestanden vorhergesagt hatte. Nun haben wir unter Einschluss der unabhängigen Variable IQ eine neue Klassifizierungstabelle. Hier interessiert uns vor allem die Diagonale von links oben nach rechts unten. Hier entsprechen sich die beobachteten und vorhergesagten Fälle. Das Modell sagt 16 mal korrekt das NICHTbestehen und 28 mal korrekt das Bestehen vorher. In 3 Fällen prognostiziert das Modell ein Nichtbestehen, obwohl die Prüfung tatsächlich bestanden wurde. In 4 Fällen wurde durch das Modell ein Bestehen vorhergesagt, obwohl es tatsächlich nicht geklappt hat. Die Prozentsätze der Richtigen sind mit insgesamt 86,3% schon sehr gut. Daumenregeln, was gut ist, gibt es hier nicht unbedingt. Bei 50% kann man salopp gesagt – zumindest bei ähnlich großen Gruppen – auch eine Münze werfen und braucht kein Modell bemühen. 60%-70% sollten es demnach schon sein.

 

Binär logistische rergession  

 


 

Die richtige Zuordnung kann man auch im Klassifikationsdiagramm sehen. Unter dem Diagramm gibt es die Zeile „Group„. Dies sind die vorhergesagten Gruppenzuordnungen, also ob im 1. Versuch bestanden oder nicht. Ein „j“ steht dabei für im 1. Versuch bestanden, ein „n“ für im 1. Versuch nicht bestanden. Man kann zwischen 0,6 und 0,7 in der „Gruppe j“ ein paar „n“ erkennen. In der letzten Zeile unter dem Diagramm steht „Each Symbol Represents ,5 Cases„. Das heißt, ein „n“ steht für einen halben Fall – ACHTUNG: dies schwankt erheblich mit eurer Stichprobengröße! In der „Gruppe j“ sind insgesamt acht „n“ zu sehen, also umgerechnet 4 Fälle. Das bedeutet, 4 Fälle, die tatsächlich beim ersten Versuch NICHT bestanden haben, wurden fälschlicherweise in die „Gruppe j“, also beim 1. Versuch bestanden eingeordnet. Das haben wir auch oben in der Klassifizierungstabelle ablesen können.

Das Klassifikationsdiagramm in der binär logistischen Regression ist also einfach noch mal eine grafische Darstellung der Klassifizierungstabelle. Zusätzlich sieht man die Wahrscheinlichkeit der Zuordnung in der Zeile „Prob“ unter dem Diagramm. Hier sollten im Ideallfall viele Fälle an den Seiten stehen, weil dies für eine höhere Wahrscheinlichkeit/Sicherheit der Zuordnung steht.

 

klassifikationsdiagramm binär logistische regression  

 


 

Schließlich ist die Koeffiziententabelle zu interpretieren. Hier sieht man die Konstante und den IQ. Die Konstante ist nicht wichtig und wir konzentrieren uns lediglich auf die unabhängigen Variablen, hier lediglich den IQ. Er ist statistisch signifikant (p<0,001) und hat einen Regressionskoeffizient B von 0,183 und ist damit positiv. Das bedeutet zunächst, dass mit zunehmendem IQ die Wahrscheinlichkeit des Bestehens ebenfalls steigt. Das ist auch plausibel, da eine höhere Intelligenz eine bessere Vorbereitung ermöglicht und mit einer besseren Vorbereitung auch ein Bestehen im 1. Versuch wahrscheinlicher wird. Da auch das 95% Konfidenzintervall angegeben wurde, kann dies auch herangezogen werden. Hier sollte für eine Signifikanz 1 nicht im Intervall eingeschlossen sein, also beide Werte entweder über oder unter 1 liegen.

 

Koeffiziententabelle binär logistische Regression

 

Als nächstes schaut man sich das Odd’s ratio an, was bei SPSS im Rahmen der binär logistischen Regression unter Exp(B) steht. Exp(B) kann aus B ermittelt werden: e^B = Exp(B), also e^0,183 = 1,201. Exp(B) >1 bedeutet eine „positiven Einfluss“ auf die abhängige Variable. Ist Exp(B) <1 ist es ein negativer Einfluss der abhängigen Variable. Bei Exp(B)=1 ändert sich nichts. Exp(B) korrespondiert mit dem Regressionskoeffizienten. Ist Exp(B) > 1 ist der Regressionskoeffizient positiv und vice versa.

Im konkreten Beispiel ist EXP(B) = 1,201 – was zum positiven Koeffizient von 0,183 passt – und somit führt ein steigender IQ für ein wahrscheinlicheres Bestehen der Führerscheinprüfung beim 1. Versuch. Das bedeutet, die Chance beim ersten Versuch zu bestehen ist mit einem um 1 höheren IQ um 1,201 höher. Schließlich kann man noch folgendes Berechnen. Zieht man vom Odd’s ratio einer unabhängigen Variable 1 ab, erhält man die relative Wahrscheinlichkeit der Gruppenzugehörigkeit (= Bestehen beim 1. Versuch) bei Zunahme dieser unabhängigen Variable um 1. Konkret heißt das: Das odd’s ratio für den IQ ist 1,201. Zieht man hiervon 1 ab (1,201-1), erhält man 0,201. Dies sind 20,1%. Steigt also der IQ um 1, steigt die relative Wahrscheinlichkeit der Zuordnung zur Gruppe derjenigen, die die Führerscheinprüfung beim 1. Versuch bestanden haben um 20,1%.  

 

Tipp zum Schluss

Findest du die Tabellen von SPSS hässlich? Dann schau dir mal an, wie man mit wenigen Klicks die Tabellen in SPSS im APA-Standard ausgeben lassen kann.

Hat dir der Beitrag geholfen?

Dann würde ich mich über eine kleine Spende freuen, die es mir erlaubt, weiterhin kostenfreie Inhalte zu veröffentlichen.

Vielen Dank und viel Erfolg!

Über mich

Björn Walther

Excel- und SPSS-Experte

YouTube-Kanal

Excel Online-Kurs

YouTube-Kanal