Kendall-Tau-Korrelationskoeffizient in R berechnen

von | Sep 16, 2020 | Korrelation, R

Ziel des Kendall-Tau-Korrelationskoeffizienten

Der Korrelationskoeffizient nach Kendall-Tau untersucht, ob es einen ungerichteten Zusammenhang zwischen zwei ordinalen oder auch metrischen Variablen gibt. Er zeigt entweder einen positiven Zusammenhang, einen negativen Zusammenhang oder keinen Zusammenhang. In der Nullhypothese geht er von keinem Zusammenhang aus.

 

Voraussetzungen des Kendall-Tau-Korrelationskoeffizienten in R

  • zwei ordinal skalierte Variablen oder eine metrisch skalierte und eine ordinal skalierte Variable – im Beispiel unten verwende ich eine metrische und eine ordinal skalierte Variable
  • Häufig genannt: Linearität – gerade das untersucht man mit der Korrelation nach Kendall-Tau aber ohnehin

Sind die Voraussetzungen nicht erfüllt und ihr wollt dennoch korrelieren, schaut im Beitrag zur richtigen Wahl des Korrelationskoeffizienten nach Alternativen.  

 

Durchführung der Korrelation nach Kendall-Tau in R

Vorgehen im Detail in folgendem Video meines YouTube-Kanals

Dieses Video ansehen auf YouTube.

 

Voraussetzungsprüfung für den Kendall-Tau-Korrelationskoeffizienten

Normalerweise sind ordinal skalierte Variablen solche, die zwar auf- oder absteigend sortiert werden können, allerdings sind die Abstände zwischen den Ausprägungen entweder nicht gleich oder interpretierbar oder beides. Fragen nach der Zustimmung zu einer Aussage oder Zufriedenheit mit einem Produkt oder Einkommensklassen („Likert-Skala“) erfüllen dieses Kriterium. Fasst man allerdings mehrere solche Variablen (z.B. via Mittelwert) zusammen, bildet also einen Score, werden sie häufig als als quasi-metrisch eingestuft, was eine Korrelation nach Pearson ermöglicht. Als Alternative zu Kendall-Tau kann auch der Rangkorrelationskoeffizient nach Spearman in R gerechnet werden.  

 

Grafische Darstellung des Zusammenhanges in R

Parallel zu jeder Korrelation nach Kendall-Tau  kann eine kleine Visualisierung des Zusammenhanges mittels Streudiagramm erfolgen. Das funktioniert mit dem plot()-Befehl: Für weitere grafische Anpassungen  gibt es diesen Beitrag.

plot(data_xls$Motivation, data_xls$Einkommen)

Im Ergebnis erhält man folgendes Diagramm:

Spearman Streudiagramm

 

Erkennbar ist, das mit zunehmender Motivation auch das Einkommen steigt. Ein positiver Zusammenhang ist also naheliegend. Wie stark ist dieser allerdings? Dazu braucht es den Kendall-Tau-Rangkorrelationskoeffizient.  

 

Berechnung der Korrelation nach Kendall-Tau in R

Die Korrelation nach Kendall-Tau ist zunächst denkbar einfach über die cor()-Funktion. Es wird der sog. Kendall-Tau-b berechnet. Kendall-tau-a und Kendall-tau-c können nicht ohne weiteres in R berechnet werden. Ich korreliere Einkommen (metrisch) und Motivation (ordinal) miteinander. Da ich den Dataframe nicht mit der attach-Funktion angehängt habe, verwende ich jeweils „data_xls$“ für die Variable. Wichtig ist hier unbedingt das Argument method=“kendall“ zu verwenden, da sonst keine Korrelation nach Kendall-Tau gerechnet wird.

cor(data_xls$Motivation, data_xls$Einkommen, method=“kendall“)

 

Als Ergebnis bekommt man: 0,3547156.  

 

Interpretation der Ergebnisse der Korrelation nach Kendall-Tau in R

Nach der Durchführung der obigen Zeile erhalte ich einen nüchternen Output, der nur aus einer Zahl besteht und den Korrelationskoeffizienten angibt. In diesem Fall ist er 0,3547156. Eine Einordnung dessen erfolgt im Kapitel Ermittlung der Effektstärke. Was hier jedoch fehlt, ist die Signifikanz. Sofern sie gefordert ist, muss man sie sich zusätzlich ausgeben lassen. Das funktioniert mit der cor.test()-Funktion. Auch hier ist es wichtig method=“kendall“ als zusätzliches Argument aufzunehmen:

cor.test(data_xls$Motivation, data_xls$Einkommen, method=“kendall“)

 

Der Output hierfür ist etwas umfangreicher:

Kendall’s rank correlation tau data:

data_xls$Motivation and data_xls$Einkommen

z = 3.4146, p-value = 0.0006388

alternative hypothesis: true tau is not equal to 0

sample estimates: tau 0.3547156

 

Fett markiert sind die wesentlichen Ergebnisse. Der untere Wert (tau) ist der Korrelationskoeffizient nach Kendall-Tau, der logischerweise immer noch 0,3547156 beträgt. Neu ist nun etwas weiter oben allerdings die Signifikanz. Die Signifikanz ist mit p=0,0006388 relativ klein, also sehr viel kleiner als die typische Verwerfungsgrenze von 0,05. Die Nullhypothese keines Zusammenhanges kann demnach verworfen werden. Folglich wird die Alternativhypothese eines korrelativen Zusammenhanges zwischen Motivation und Einkommen angenommen.

Achtung: Eine Kausalität bedeutet das nicht. Es geht bei der Korrelation lediglich um das gleichzeitige Auftreten hoher und niedriger Ausprägungen beider Variablen.  

 

Gerichtete Hypothese und einseitiges Testen

Achtung: Wenn bereits eine Wirkungsvermutung vor dem Test existiert – die plausible Annahme, dass Menschen mit höherer Motivation ein höheres Einkommen erzielen – dann würde man 1-seitig testen. Hierzu darf die Signifikanz halbiert werden und ebenfalls mit dem Niveau von 0,05 verglichen werden. In diesem Falle ändert sich entsprechend nichts an der Aussage der Verwerfung der Nullhypothese.

 

Wer die Signifikanz nicht händisch teilen möchte, kann natürlich auch in R ein Argument der cor.test()-Funktion hinzufügen. Das Argument heißt alternative und lässt den Nutzer die Alternativhypothse definieren. Es gibt die Möglichkeiten alternative=“greater“ und alternative=“less“. Das kann verwirrend sein, denn „greater“ steht für einen positiven Zusammenhang und „less“ für einen negativen Zusammenhang. Am konkreten Beispiel unterstelle ich im Vorfeld einen positiven Zusammenhang:

cor.test(data_xls$Motivation, data_xls$Einkommen, method=“kendall“, alternative=“greater“)

 

Das Ergebnis ist sehr ähnlich zu oben. Änderungen habe ich fett hervorgehoben:

Kendall’s rank correlation tau data:

data_xls$Motivation and data_xls$Einkommen

z = 3.4146, p-value = 0.0003194

alternative hypothesis: true tau is not equal to 0

sample estimates: tau 0.3547156

 

 

Kendall-Tau ist natürlich mit 0,3547156 unverändert. Allerdings sieht man, dass sich die Signifikanz von p=0.0006388 auf p=0.0003194 halbiert hat. Das ist Folge des einseitigen Testens. Zusätzlich ist die nun anzunehmende Alternativhypothese eindeutig formuliert. Tau ist größer 0 (true tau is greater than 0) bedeutet, dass auf eine positive Korrelation vorliegt.  

 

Ermittlung der Effektstärke des Kendall-Tau-Korrelationskoeffizienten

Die Effektstärke ist im Rahmen der Korrelation der Korrelationskoeffizient r selbst. Laut Cohen: Statistical Power Analysis for the Behavioral Sciences (1988), S. 79-81 sind die Effektgrenzen:

  • 0,1-0,3 (schwach),
  • 0,3-0,5 (mittel) und
  • größer 0,5 (stark).

Im vorliegenden Beispiel ist die Effektstärke mit 0,3547156 > 0,3 und damit gerade noch mittel. Es handelt sich also um eine mittlere Korrelation zwischen Einkommen und Motivation.

 

Schlussbemerkung: Kendall-Tau-b oder Kendal-Tau-c?

Prinzipiell gibt es drei Kendall-Tau-Varianten. Kendall-Tau-a, Kendall-Tau-b und Kendall-Tau-c. Die Variante Kendall-tau-a macht keine Anpassung für mehrfach vorkommende Ränge – das kommt in der Realität zugegebenermaßen eher selten vor. Kendall-tau-hingegen macht diese Anpassung. Kendall-tau-ist hingegen noch etwas besser geeignet als Kendall-taub, wenn die beiden zu korrelierenden Variablen nicht die gleiche Anzahl an Ausprägungen haben. Haben sie dies, ist Kendall-tau-b zu wählen. Da in R allerdings standardmäßig nur Kendall-tau-b berechnet wird und die Unterschiede zwischen der Variante b und c nicht sehr groß sind, ist dies vor allem eine theoretische Diskussion. Ich wollte aber zumindest darauf hingewiesen haben. Im hier gezeigten Tutorial wird aufgrund der Limitation von R entsprechend nur Kendall-tau-b berechnet.

 

Hat dir der Beitrag geholfen?

Dann würde ich mich über eine kleine Spende freuen, die es mir erlaubt, weiterhin kostenfreie Inhalte zu veröffentlichen.

Vielen Dank und viel Erfolg!

Über mich

Björn Walther

Excel- und SPSS-Experte

YouTube-Kanal

Excel Online-Kurs

YouTube-Kanal