t-Test für abhängige Stichproben in R rechnen und interpretieren

von | Zuletzt bearbeitet am: Dec 1, 2022 | Mittelwertvergleich, R, t-Test

1 Ziel des t-Test bei abhängigen Stichproben in R

Der t-Test für abhängige Stichproben testet, ob für zwei verbundene (abhängige) Stichproben, also Messwiederholungen, unterschiedliche Mittelwerte bzgl. einer abhängigen Testvariable existieren. Für unabhängige Stichproben ist der t-Test für unabhängige Stichproben zu rechnen. In Excel und SPSS kann der t-Test für unabhängige Stichproben auch gerechnet werden.

Sind die folgenden Voraussetzungen nicht erfüllt, solltet ihr einen Friedman-Test rechnen.

 

2 Voraussetzungen des t-Test bei abhängigen Stichproben in R

Die wichtigsten Voraussetzungen sind:

  • zwei voneinander abhängige Stichproben, also Messwiederholungen der selben Untersuchungssubjekte
  • metrisch skalierte y-Variable
  • normalverteilte Residuen bzw. Differenzen zwischen den Messzeitpunkten
  • Achtung: Mindeststichprobengröße bedenken – über eine Poweranalyse zu ermitteln

 

3 Durchführung des t-Test bei abhängigen Stichproben in R

3.1 Nullhypothese

Die Nullhyopthese beim t-Test für abhängige Stichproben geht von in etwa Gleichheit der Mittelwerte zu beiden Zeitpunkten aus.

Ihr könnt bei diesem Test einseitig und zweiseitig testen. Einseitig heißt lediglich, dass ihr eine konkrete Vermutung habt, dass der Mittelwert der Testvariable (=abhängige Variable) zum einen Zeitpunkte kleiner oder größer ist als der Mittelwert der Testvariable zum anderen Zeitpunkt. Standardmäßig wird zweiseitig getestet, das heißt ihr vermutet einen Unterschied, wisst aber nicht, zu welchem Zeitpunkt der größere Mittelwert existiert. Ein Beispiel: Ich habe einen Datensatz mit zwei Messzeitpunkten. Zwischen den Messzeitpunkten liegt eine Intervention – der Beginn eines Trainings. Es wurde vor dem Training gezählt, wie viele Liegestütze die Probanden schafften. Nach einem regelmäßigen, z.B. 10-wöchigen Training, wurde erneut gezählt.

Die Nullhypothese ist also: Es gibt keinen Unterschied hinsichtlich der Anzahl an Liegestützen vor und nach dem Training.

Die Alternativhypothese lautet entsprechend: Es gibt einen Unterschied hinsichtlich der Anzahl der Liegestützen vor und nach dem Training. Das können wir sogar konkretisieren, da wir aus Erfahrung wissen, dass ein gezieltes Training typischerweise zu einer Verbesserung der Leistung führt. Die Alternativhypothese kann demzufolge sogar lauten: nach dem 10-wöchigen Training ist die mittlere Anzahl an Liegestützen höher als davor. Dies wäre die einseitige Testung.  

 

3.2 t-Statistik

Die Berechnung der T-Statistik ist die Basis, die folgende Formel hat:

    \[ T={\sqrt {n}}{\frac {{\overline {D}}-\omega _{0}}{S_{D}}}\sim t_{n-1}} \]

Zum Glück muss man das in R nicht alles nachbauen und kann direkt die Funktion t.test() verwenden.

 

3.3 Deskriptive Voranylse

Zunächst kann man sich einen kleinen Überblick über die Anzahl der geschafftenLiegestütze je Zeitpunkt verschaffen. Insbesondere für das Reporting am Schluss, braucht man aber in der Regel ohnehin Mittelwert und Standardabweichung.
Die “describe“-Funktion des “psych“-Pakets hilft hierbei:


install.packages("psych")
library(psych)
describe(data$t0)
describe(data$t10)

Das führt zu:


> describe(data$t0)
   vars  n  mean   sd median trimmed   mad min max range skew kurtosis   se
X1    1 17 18.76 9.11     20   18.67 11.86   5  34    29 0.16    -1.22 2.21
> describe(data$t10)
   vars  n  mean    sd median trimmed  mad min max range skew kurtosis   se
X1    1 17 27.65 13.28     26      27 5.93   9  56    47 0.55    -0.52 3.22

Die Mittelwerte (und Standardabweichungen) je Zeitpunkt lauten:

  • t0: M = 18,76; SD = 9,11 und
  • t10: M = 27,65; SD = 13,28

 

3.4 Code in R

Nach dem Einlesen eurer Daten verwendet ihr die Funktion t.test():


t.test(t0, t10, var.equal, alternative, paired = TRUE)

Die Funktion t.test() hat noch viele weitere Attribute, die vier obigen sind aber die wichtigsten. t0 ist die Testvariable zum ersten Messzeitpunkt, t1 die Testvariable zum zweiten Messzeitpunkt – also jeweils die Anzahl Liegesützen im Beispiel. “alternative” gibt an, ob ein- oder zweiseitig getestet wird. Einseitig bedeutet, ihr wisst, was nach dem Training mit der Anzahl Liegestützen passiert, also ob sie steigt oder fällt. Wir können hier einseitig testen, ich zeige aber sowohl einen einseitigen als auch einen zweiseitigen Test.

 

3.5 Beispielcode in R: zweiseitiger Test


t.test(data$t0,data$t10, paired = TRUE, alternative = "two.sided")

Wie zu erkennen ist, habe ich den Startzeitpunkt (t0) und den Zeitpunkt nach 10 Wochen (t10) für den Test verwendent. Mit paired = TRUE lege ich fest, dass es verbundene Stichproben, also Messwiederholungen sind. Als “alternative” habe ich “two.sided” angegeben. Das ist die typische Testung, die standardmäßig von t.test() vorgenommen wird – man kann dieses Argument daher auch hier weglassen.

 

3.6 Beispielcode in R: einseitiger Test

Habt ihr eine konkrete Vermutung, wie sich der Messwert zum zweiten Zeitpunkt entwickelt hat, testet ihr einseitig. Dazu fügt ihr dem Code noch das Argument alternative = “greater“ oder alternative = “less“ hinzu. Hierbei ist zu beachten, dass less bedeutet, dass der Messwert zum Zeitpunkt 1 kleiner ist als zum Zeitpunkt 2. Das habt ihr im Zweifel mit der Reihenfolge der Aufnahme bei t.test() festgelegt.


t.test(data$t0,data$t10, paired = TRUE, alternative = "less")

 

Wenn ihr jedoch (aus welchen Gründe auch immer) davon ausgeht, dass das Training einen negativen Effekt auf die Anzahl an schaffbaren Liegestützen hat (in Zeitpunkt 1 mehr als in Zeitpunkt 2), lautet das Argument alternative = “greater”.


t.test(data$t0,data$t10, paired = TRUE, alternative = "greater")

 

4 Interpretation der Ergebnisse des t-Test für abhängige Stichproben in R

4.1 Interpretation des zweiseitigen t-Tests


Paired t-test data: data$t0 and data$t10
t = -6.7445, df = 16, p-value = 4.71e-06
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval: -11.674220 -6.090486
sample estimates: mean of the differences -8.882353

Aus diesem Wust an Zahlen interessiert an und für sich nur sehr weniges.

  • Zunächst stehen ganz unten die Veränderung von Zeitpunkt 2 (t10) zu Zeitpunkt 1 (t0). Sie ist -8,88. Im Umkehrschluss ist die mittlere Anzahl um 8,88 von t0 zu t10 gestiegen.
  • Der sich hieraus ergebende t-Wert lautet -6,7445.
  • Der p-Wert ist mit 4,71e-06 sehr klein und somit unter dem typischen Alphafehler von 0,05. Man verwirft also die Nullhypothese von Gleichheit der Gruppenmittelwerte. Die Alternativhypothese “true difference in means is not equal to 0” wird angenommen. Auf deutsch: Die Mittelwertdifferenz ist ungleich 0. Demzufolge gehen wir von statistisch signifikanten Unterschieden hinsichtlich der geschafften Liegestütze zwischen den Messzeitpunkten infolge des Trainings aus.
  • Berichtet man die Ergebnisse, gibt man zusätzlich zum p-Wert und den Mittelwerten noch die t-Statistik (-6,7445) sowie die Freiheitsgrade (df=16) zusätzlich zum p-Wert an. Siehe zum Reporting unten ausführlich.

 

4.2 Interpretation des einseitigen t-Tests

Hier wurde nun der t-Test für verbundene Stichproben einseitig gerechnet. Und zwar war die Vermutung, dass eine Zunahme beobachtbar ist.


Paired t-test data: data$t0 and data$t10
t = -6.7445, df = 16, p-value = 2.355e-06
alternative hypothesis: true difference in means is less than 0
95 percent confidence interval: -Inf -6.583064
sample estimates: mean of the differences -8.882353 

 

Der einseitige t-Test ist nahezu analog zum zweiseitigen t-Test zu interpretieren:

  • Erneut steht ganz unten ganz unten die Veränderung von Zeitpunkt 2 (t10) zu Zeitpunkt 1 (t0). Sie ist -8,88<. Im Umkehrschluss ist die mittlere Anzahl um 8,88 gestiegen.
  • Nun wird getestet, ob der Mittelwert zum Zeitpunkt 1 (t0) größer ist als zum Zeitpunkt 2 (t10).
  • Der p-Wert ist mit 2,355e-06 unter dem typischen Alphafehler von 0,05. Man verwirft also die Nullhypothese von Gleichheit der Mittelwerte zugunsten eines größeren Mittelwertes im Zeitpunkt 2 (t10). Die Alternativhypothese “true difference in means is greater than 0” wird angenommen.
  • Der p-Wert beim einseitigen Test ist stets halb so groß wie beim zweiseitigen Test – vorausgesetzt man hat die korrekte Alternativhypothese (greater, less) formuliert.
  • Berichtet man die Ergebnisse, gibt man zusätzlich zum p-Wert noch die Mittelwerte, die t-Statistik (-6,7445) sowie die Freiheitsgrade (df=16) zusätzlich zum p-Wert an. Siehe zum Reporting unten ausführlich.

 

5 Berechnung der Effektstärke des Unterschiedes

Sofern ein statistisch signifikanter Unterschied beobachtet werden konnte, kann die Stärke dieses Unterschiedes eingeordnet werden. Zur Berechnung verwendet man beim t-Test für verbundene Stichproben typischerweise Cohens D. Standardmäßig ist dies nicht in R implementiert. Mit dem sog. “lsr”-Paket kann man dies allerdings berechnen lassen.

Bei method wird mit paired explizit Cohens d für den verbundenen t-Test angefordert.


install.packages("lsr")
library(lsr)
cohensD(data$t0,data$t10, method="paired")

 

Für meinen Test bekomme ich d = 1.635782. Dies gilt es einzuordnen.

Die von Jacob Cohen (1992: Power Primer, S. 157) genannten Grenzen sind:

  • ab 0,2 (kleiner Effekt)
  • ab 0,5 (mittlerer Effekt)
  • ab 0,8 (starker Effekt)

In meinem Beispiel ist es ein großer Effekt. Demzufolge hat das Training für eine starke Zunahme bei der Anzahl an geschafften Liegestützen bei den Probanden geführt.  

 

6 Reporting des t-Tests bei abhängigen Stichproben

Gruppenmittelwerte und Standardabweichungen sind zu berichten. Zusätzlich die t-Statistik mit Freiheitsgraden, der p-Wert und die Effektstärke (Cohens d bzw. Hedges’ Korrektur): t(df)=t-Wert; p-Wert; Effektstärke.

 

Verglichen mit vor dem Training (M = 18,76; SD = 9,11) schaffen Probanden nach dem Training (M = 27,65; SD = 13,28) einen signifikant höhere Anzahl Liegestütze, t(16) = 6,74; p < 0,001; d = 1,64. Nach Cohen (1992) ist dieser Unterschied groß.

 

7 Videotutorials



 

8 Literatur

  • Cohen, J. (1988). Statistical power analysis for the behavioral sciences. New York, NY: Psychology Press, Taylor & Francis Group
  • Cohen, J. (1992). A power primer. Psychological bulletin, 112(1), 155-159.

 

9 Download Beispieldatensatz

 

  Weitere nützliche Tutorials findest du auf meinem YouTube-Kanal.

 

Hat dir der Beitrag geholfen?

Dann würde ich mich über eine kleine Spende freuen, die es mir erlaubt, weiterhin kostenfreie Inhalte zu veröffentlichen.
Alternativ kannst du über meinen Amazon Affiliate-Link einkaufen – ohne Zusatzkosten.

Vielen Dank und viel Erfolg!

Über mich

Björn Walther

Ein 💚 für Statistik & Datenanalyse

Excel Online-Kurs

YouTube-Kanal

Inhalt