Deskriptive Statistik – was macht sie und warum?

Die deskriptive Statistik (auch beschreibende Statistik) ist zumeist der erste Schritt bei jeglicher Datenanalyse. Sie stellt den Datensatz mit Hilfe von vor allem Diagrammen, Grafiken, Tabellen und Kennzahlen dar. Damit vermittelt die deskriptive Statistik einen ersten Eindruck über die wesentlichen Variablen und kann noch vor den ersten Analysen Chancen und Probleme aufzeigen. Zum Beispiel ist bei besonders schiefen oder steilen Verteilungen evt. bei der Analysemethode ein anderer Ansatz auszuwählen. Welche der deskriptiven Auswertungen letztlich den Weg in die zu schreibende Arbeit findet, ist allerdings nicht vorbestimmt und hängt von (nicht) erfüllten Voraussetzungen ab. Zumeist sind es eher die interessanten Aspekte, die mitunter auch unerwartet sind. Demnach ist sparsam vorzugehen.

 

Deskriptive Statistik – Instrumente und Kenngrößen bzw. Parameter

Prinzipiell gibt es drei Instrumente, die man im Rahmen der beschreibenden Statistik nutzt. Welche das sind hängt jedoch von den jeweiligen Voraussetzungen ab und kann nicht pauschalisiert werden.

 

Grafiken und Diagramme

  • Am sinnvollsten sind Histogramme, um Häufigkeiten einer Variable abzubilden.
  • Weiterhin sehr häufig eingesetzt sind Streudiagramme, die zwei Variablen miteinander in Bezug setzen und im Vorfeld für Korrelation und Regression hilfreich sind.
  • Zur Beschreibung einer Verteilung eignen sich Boxplots besonders gut, weil sie Lagemaße und Streumaße grafisch darstellen
  • Um eine Entwicklung einer Variable im Zeitablauf aufzuzeigen, eignen sich Liniendiagramme.

Tabellen

  • Häufigkeitstabellen stellen die absoluten und relativen und mitunter auch kumulierten Häufigkeiten der Ausprägung einer Variable dar, die man auch mit einem Histogramm grafisch abbilden kann.
  • Kreuztabellen sind immer dann hilfreich, wenn zwei Variablen existieren, die ordinal oder nominal skaliert sind. Sie zeigen die Ausprägung einer Variable bei gleichzeitiger Ausprägung einer anderen Variable, z.B. die Ja und Nein-Stimmen (1. Variable) von Frauen und Männern (2. Variable) . Dabei erkennt man, ob das eine Merkmal der einen Variable (z.B. Ja-Stimme) gleichzeitig eher mit einem bestimmten Merkmal der anderen Variable (z.B. Männer) auftritt.

Kenngrößen bzw. Maße

  • Lagemaße beschreiben eine zentrale Tendenz einer Verteilung. Hierzu zählen insbesondere der Mittelwert, der Median, die Quantile bzw. Quartile und der Modus. In diesem Artikel gibt es noch mal ausführliche Informationen zu den Lagemaßen und deren Berechnung sowie Verwendung.
  • Streumaße (auch Dispersionsmaße) zeigen die Streuung in der Verteilung, also wie weit auseinander oder nah beieinander die einzelnen Ausprägungen liegen. Häufig werden hierbei Standardabweichung, Varianz, (Inter)Quartilsabstand oder Spannweite verwendet.
  • Zusammenhangsmaße zeigen ob und mitunter auch in welcher Richtung zwei Variablen miteinander in Beziehung stehen. Sie sind daher die Überführung von Streudiagrammen in eine einzelne Kennzahl. Zu nennen sind insbesondere Pearson-Korrelationskoeffizient und Spearman-Rangkorrelationskoeffizient.