Boxplot interpretieren – was ist überhaupt ein Boxplot?

Einen Boxplot interpretieren – das kann anhand der verschiedenen Streumaße und inbesondere Lagemaße einer Verteilung. Sie werden im Boxplot (auch Kastendiagramm oder Kastengrafik) in einer einzigen Grafik dargestellt. Insbesondere für den Vergleich verschiedener Verteilungen eignet er sich recht gut.

Der einfachste Boxplot besteht lediglich aus 3 Dingen: der Box, den Antennen und dem Median. Hinzu kommen oft noch Ausreißer bzw. auch extreme Ausreißer. Ein einfacher Boxplot aus SPSS sieht wie folgt aus:

Boxplot interpetieren - so sieht er aus

  Wir erkennen die eben angesprochenen Elemente und kümmern uns nun um die Interpretation des Boxplots und der jeweiligen Elemente, die er darstellt.  

 

Die Box – der Interquartilsabstand

Sollte man einen Boxplot interpretieren müssen, geht es immer mit der Box bzw. dem Kasten los. Sie spannt den Interquartilsabstand auf. Dieser besteht aus dem dritten Quartil und dem ersten Quartil. Das dritte Quartil ist der Wert, unter dem 75% der Werte der Verteilung liegen. Das erste Quartil ist entsprechend der Wert, unter dem 25% der Werte liegen. Einen ausführlicheren Artikel zu Quartilen findest du hier. Der Interquartilsabstand  

Im Beispiel liegt das dritte Quartil bei 98 und das erste Quartil bei 72,5. Die Differenz drittes Quartil – erstes Quartil ist der sogenannten Interquartilsabstand. Die Box hat also immer die Länge drittes Quartil – erstes Quartil. Im Beispiel wäre sie 25,5 lang (98-72,5).  

 

Der Querstrich – der Median

Der Median, auch zweites Quartil genannt, ist ein sehr wichtiger Lageparameter in der Statistik. Er teilt die Verteilung in zwei gleich große Hälften teilt und ist im Gegensatz zum Mittelwert gegenüber Ausreißern nicht anfällig.

Der Median im Boxplot  

Im Beispiel ist der Median 91,5. Demzufolge sind 50% der Werte der Verteilung kleiner oder gleich diesem Wert und 50% sind größer oder gleich diesem Wert.  

 

Antennen – häufig (nicht) die Minimal- und Maximalwerte

Wie bei so vielen Dingen in der Statistik ist es auch mit den Antennen (auch Whisker) nicht ganz so eindeutig. Das liegt an deren Definition. Prinzipiell bilden sie den Minimumwert (untere Antenne) und Maximalwert (obere Antenne) ab. Allerdings stimmt das nur, insofern wir keine einfachen oder extremen Ausreißer in unserer Verteilung haben, was uns direkt zum nächsten Punkt bringt.  

 

Kreise und Sterne – Ausreißer und extreme Ausreißer

Ausreißer sind in der Regel so definiert, dass sie mindestens die anderthalbfache Boxlänge (der Interquartilsabstand) von jener Box entfernt sind: Die Ausreißer im Boxplot

Im Beispiel ist der Fall 27 gerade noch innerhalb der anderthalbfachen Boxlänge und damit als einfacher Ausreißer zu klassifizieren. Was ist aber mit dem Fall Nr. 1 und Fall Nr. 28?

Extreme Ausreißer im Boxplot

Diese beiden Fälle sind extreme Ausreißer, weil sie zwischen anderthalbfacher bis zu dreifacher Boxlänge von den jeweiligen Quartilen entfernt sind. Hinweis: in SPSS sind Ausreißer bereits mit 2,5-fachem Interquartilsabstand über bzw. unterhalb der Quartile mit einem * markiert. Eventuell sollte man über einen Ausschluss nachdenken, wie ich in diesem Artikel zeige.

 

Spannweite – die (tatsächlichen) Minimal- und Maximalwerte

Wir wir schon gelernt haben, zeigen die Antennen die Minimal- und Maximalwerte an. Aber nur dann, wenn es keine Ausreißer gibt. Gibt es entsprechend Ausreißer, ist die Spannweite durch die Differenz vom größten und vom kleinsten Ausreißer definiert. Im Beispiel sieht das so aus:

Die Spannweite im Boxplot  

Die Spannweite wäre demzufolge in im Beispiel: 180 (Maximum) – 20 (Minimum) und beträgt 160.  

 

Was zeigt ein Boxplot (nicht) – was kann ich beim Boxplot interpretieren?

Wie mittlerweile klar geworden sein sollte, zeigt ein Boxplot:

  • Median, 1. Quartil und 3. Quartil
  • Ausreißer und extreme Ausreißer
  • Streuung (Boxgröße bzw. IQR)

Anhand dieser Parameter wird man auch den Boxplot interpretieren.

Ein Boxplot zeigt allerdings keine Häufigkeiten. Hierfür ist ein entsprechendes Histogramm heranzuziehen. Er zeigt außerdem nicht, ob eine Normalverteilung o.ä. vorliegt.

Ein kleines Video mit den obigen Erklärungen zum Boxplot interpretieren gibt es auf meinem YouTube-Kanal.

Dieses Video ansehen auf YouTube.

 

Zum Nachvollziehen gibt es hier die von mir verwendete Verteilung. Ihr könnt sie einfach in Excel oder SPSS einfügen und euch ein Boxplot ausgeben lassen. Achtung in Excel gibt es keine mit * markierten extremen Ausreißer.

 

20
57
57
57
58
71
72
74
74
81
82
85
89
91
92
93
93
95
96
97
98
98
99
100
104
115
136,26
180