Deskriptive Statistik in R

von | Jan 20, 2021 | Deskriptive Statistik, R

Ziel der deskriptiven Statistik

Deskriptiv heißt beschreibend und darum soll es auch gehen. Die Stichprobe – oder einige ihrer Variablen – werden mithilfe verschiedener Lageparameter und Streuparameter beschrieben. Es ist unbedingt notwendig im Rahmen einer Stichprobenbeschreibung relevante Merkmale/Variablen darzustellen. Typische Lagemaße sind Mittelwert, Median und Quantile. Sie beschrieben die zentrale Tendenz der Variable. Typische Streumaße sind Standardabweichung, Varianz und (Inter-)Quartilsabstand. Sie drücken wiederum aus, wie stark die Variable streut bzw. wie weit die Ausprägungen auseinander liegen. In diesem Artikel erkläre ich noch mal detailliert, wie sie aufgebaut und zu lesen sind.


 

Deskriptive Statistik in R – Methode I

In R gibt es mehrere Wege an die relevanten Lage- und Streuparameter zu gelangen. Der einfachste ist über die summary()-Funktion. Allerdings werden hier nur Minimum, Maximum, sowie die Quartile ausgegeben. Für meine Beispielvariable Gewicht sieht der Code wie folgt aus:


summary (Gewicht) 

Die Ausgabe ergibt dann folgendes:


   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  50.00   57.00   61.00   66.06   70.50  105.00 

Zusätzlich kann man mit mean(), sd(), var(), IQR() noch Mittelwert, Standardabweichung, Varianz und Interquartilsabstand.


mean(Gewicht)
sd(Gewicht)
var(Gewicht)
IQR(Gewicht)

Das führt zu folgendem Output:


> mean(Gewicht)
[1] 66.05882
> sd(Gewicht)
[1] 13.92754
> var(Gewicht)
[1] 193.9765
> IQR(Gewicht)
[1] 13.5

 

Deskriptive Statistik in R – Methode II

Ausgabe für alle vorhandenen Fälle

Die 2. Möglichkeit ist die von mir vorgezogene, weil sie zusätzliche Maße ausgibt. Die wichtigsten zusätzlichen sind Anzahl, Mittelwert und dessen Standardfehler, Standardabweichung, Schiefe und Kurtosis. Allerdings braucht es hierzu ein zusätzliches Paket, das nicht standardmäßig in R implementiert ist. Die Rede ist von pysch, das über die install.packages()-Funktion installiert und mit library geladen wird:


install.packages("psych")
library(psych)

Im Rahmen des psych-Paketes kann man mit describe() die deskriptiven Statistiken erzeugen.


describe(Gewicht)

Die Ausgabe gibt dann folgendes zurück:


   vars  n  mean    sd median trimmed mad min max range skew kurtosis   se
      1 51 66.06 13.93     61   64.24 8.9  50 105    55 1.13     0.31 1.95 

 

Ausgabe nach Gruppen

Praktisch ist im Rahmen des psych-Pakets auch die Möglichkeit hat, die deskriptiven Statistiken für Gruppen ausgeben zu lassen. Hierzu verwendet man die describeBy()-Funktion. In meinem Falle lasse ich mir das Gewicht nun pro Geschlecht ausgeben.


describeBy(Gewicht, Geschlecht)

Die Ausgabe gibt dann folgendes zurück:


 Descriptive statistics by group 
group: 0
   vars  n  mean    sd median trimmed   mad min max range skew kurtosis   se
X1    1 26 73.27 15.53   67.5   72.18 17.79  55 105    50 0.45     -1.2 3.05
---------------------------------------------------------------------- – 
group: 1
   vars  n  mean   sd median trimmed  mad min max range skew kurtosis   se
X1    1 25 58.56 6.16     58   58.19 7.41  50  72    22 0.37    -0.92 1.23

Einzig die Codierung des in meinem Falle Geschlechtes muss man wissen.

0 steht hier für Männer, 1 für Frauen.


 

Videotutorial auf YouTube

Dieses Video ansehen auf YouTube.

 

Beispieldatensatz zum Download

Datensatz als .xlsx downloaden

 

Hat dir der Beitrag geholfen?

Dann würde ich mich über eine kleine Spende freuen, die es mir erlaubt, weiterhin kostenfreie Inhalte zu veröffentlichen.

Vielen Dank und viel Erfolg!

Über mich

Björn Walther

Excel- und SPSS-Experte

YouTube-Kanal

Excel Online-Kurs

YouTube-Kanal