Lagemaße, Streuungsmaße und Verteilungen in der deskriptiven Statistik

Lagemaße sind Werte in einer Stichprobe, die die verschiedenen zentralen Tendenzen innerhalb eines Datensatzes charakterisieren und umgangssprachlich oft als "Durchschnittswerte" bezeichnet werden. Die gebräuchlichsten Lagemaße sind der Mittelwert, der Median und der Modalwert. Die Ermittlung eines zentralen Wertes ermöglicht einen Vergleich mit anderen Werten und zeigt eine Streuung oder Verteilung innerhalb einer Stichprobe. Streuungsmaße werden in zwei Gruppen eingeteilt: Streuungsmaße auf der Grundlage von Perzentilen und Streuungsmaße auf der Grundlage des Mittelwerts (allgemein bekannt als Standardabweichungen). Bei der Analyse der Verteilung von Daten wird anhand der Streuung festgestellt, ob die Werte eine starke oder schwache zentrale Tendenz aufweisen. Wenn die Datenverteilung symmetrisch ist und der Mittelwert = Median = Modalwert ist, spricht man von einer Normalverteilung. Es sind auch andere Arten von Verteilungen möglich, die als nicht-normale Verteilungen bezeichnet werden.

Aktualisiert: 21.06.2023

Redaktionelle Verantwortung: Stanley Oiseth, Lindsay Jones, Evelin Maza

Mit Video-Repetitorien von Lecturio kommst du sicher
durch Physikum, M2 und M3.

Überblick

Lagemaße

Lagemaße sind Einzelwerte, mit denen versucht wird, einen Datensatz zu beschreiben, indem der tendenzielle, zentrale oder “typische” Wert für diesen Datensatz ermittelt wird.

  • Umgangssprachlich als “Durchschnittswerte” bezeichnet
  • Häufigste Maßzahlen:
    • Mittelwert
    • Median
    • Modalwert

Streuungsmaße und Verteilungsformen

  • In jedem Datensatz sind die Daten über eine bestimmte Spannweite verteilt.
  • Anhand dieser Verteilung lässt sich feststellen, wie nahe die meisten Daten am Mittelwert liegen bzw. wie weit die Daten gestreut sind. Diese Streuung kann auf verschiedene Weise gemessen werden:
    • Perzentilen
    • Standardabweichungen/Varianz
  • In der Regel sind bestimmte Datenpunkte in einem Datensatz häufiger anzutreffen (solche, die nahe am Durchschnitt liegen), während andere eher selten sind (“Ausreißer”).
  • Die Verteilung dieser Datenpunkte kann wie folgt klassifiziert werden:
    • Normal
    • Nicht-normal
  • Normalverteilungen weisen bestimmte Merkmale auf, mit deren Hilfe Kliniker feststellen können, wie “abnormal” ein bestimmter Befund ist: Liegt beispielsweise ein bestimmtes Laborergebnis im Bereich des “Normalen” oder deutet der Befund auf einen pathologischen Befund hin?

Mittelwert, Median und Modalwert

Mittelwert

Definition:

Der Mittelwert (arithmetisches Mittel, engl. “mean”) ist die Summe aller Messungen in einem Datensatz geteilt durch die Anzahl der Messungen in diesem Datensatz.

  • Kann in komplexere statistische Analysen einbezogen werden
  • Am meisten von Ausreißern betroffen
  • Der Mittelwert einer Stichprobe ist ein unverzerrter Schätzer der Grundgesamtheit, aus der sie stammt.
  • Der Mittelwert ist der mathematische Erwartungswert und kommt in einer Stichprobe möglicherweise gar nicht vor (im Gegensatz zum Modus oder Median).

Gleichung:

Mean=Sum of all values in the data setTotal number of values in data set Mean=x1+x2+x3++xnn

Beispiel:

Ermitteln Sie den Mittelwert des folgenden Datensatzes: 1, 1, 1, 3, 5, 5, 7, 19.

Antwort: Es gibt acht Werte in diesem Datensatz. Um den Mittelwert zu berechnen, werden alle Zahlen addiert und durch 8 geteilt:

Mean=1+1+1+3+5+5+7+198=428=5.25

Median

Definition:

Wenn die Daten vom niedrigsten zum höchsten Wert geordnet werden, ist der Median der mittlere Wert, der die untere Hälfte von der oberen Hälfte des Datensatzes trennt.

  • Dient als zentraler Trennpunkt der Daten
  • Eignet sich nicht für komplexere statistische Schlussfolgerungen
  • Wenn die Anzahl der Werte in der Stichprobe gerade ist, dann ist der Median der Durchschnitt der beiden Zahlen in der Mitte.
  • Stärker von Ausreißern betroffen als der Modalwert, aber weniger stark als der Mittelwert
  • Median und Modalwert sind die einzigen Lagemaße, die für ordinale Merkmale verwendet werden können.

Gleichung:

Um den Median zu ermitteln, ordnen Sie die Werte vom niedrigsten zum höchsten Wert an und verwenden dann die folgende Gleichung, um zu bestimmen, welche “Position” in der Reihenfolge den Median darstellt:

Median={(n+1)2}

wobei n = die Anzahl der Werte im Datensatz ist.

Beispiel:

Ermitteln Sie den Median des folgenden Datensatzes: 1, 5, 1, 19, 3, 1, 7, 5.

Antwort: Es gibt acht Zahlen in diesem Datensatz. Um den Median zu ermitteln, ordnen Sie zunächst die Zahlen in der Reihenfolge an: 1, 1, 1, 3, 5, 5, 7, 19. Bestimmen Sie anschließend, welche “Position” den Median darstellt. Verwenden Sie dazu die Formel (n + 1) / 2. Es gibt acht Zahlen in diesem Datensatz, also n = 8. Der Median ist somit: (8 + 1) / 2 = 4,5. Der Median liegt zwischen der 4. und der 5. Zahl, also zwischen 3 und 5 (visuell: 1, 1, 1, 3, 5, 5, 7, 19). Der Median in diesem Datensatz beträgt also 4.

Modalwert

Definition:

Der Modalwert (Modus, engl. “mode”) ist der Wert, der in dem Datensatz am häufigsten vorkommt.

  • Um den Modus zu ermitteln, erstellen Sie eine Häufigkeitstabelle und finden heraus, welcher Wert in dem Datensatz am häufigsten vorkommt (siehe Beispiel unten).
  • Nützlicher für die qualitative Analyse (nicht-numerisch) als für die statistische Analyse
  • Eine Verteilung kann einen Modus bei mehr als einem Wert haben.
  • Einzige zentrale Tendenz, die bei nominalen Merkmalen verwendet werden kann
  • Am wenigsten von Ausreißern betroffen
  • Kann nicht durch mathematische Gleichungen ermittelt werden

Beispiel:

Ermitteln Sie den Modus des folgenden Datensatzes: 1, 5, 1, 19, 3, 1, 7, 5.

Antwort: Nennen Sie die Zahl, die am häufigsten vorkommt. Dies kann durch die Erstellung einer Häufigkeitstabelle erreicht werden:

Tabelle: Häufigkeitstabelle
Datenpunkt Häufigkeit (wie oft der Datenpunkt in der Stichprobe vorkommt)
1 3
3 1
5 2
7 1
19 1
Die Zahl 1 kommt im Datensatz am häufigsten vor (3 Mal): 1, 5, 1, 19, 3, 1, 7, 5. Der Modalwert dieser Stichprobe beträgt 1.

Eselsbrücke:

Der Modalwert ist der Wert, der am öftesten in der Menge vorkommt.

Zusammenfassung

Tabelle: Zusammenfassung von Mittelwert, Median und Modalwert
Lagemaß Beschreibung Beispiel Ergebnis
Mittelwert Summe der Werte geteilt durch die Anzahl der Werte (8 + 4 + 10 + 4 + 4 + 5 + 4 + 5 + 6) / 9 5,5
Median Mittlerer Wert, der die obere Hälfte von der unteren Hälfte trennt 4, 4, 4, 4, 5, 5, 6, 8, 10 5
Modalwert Häufigster Wert 4, 4, 4, 4, 5, 5, 6, 8, 10 4

Streuungsmaße: Perzentilen und Standardabweichungen

Das Ausmaß der Verteilung der Werte innerhalb eines Datensatzes heißt Streuung. Streuungsmaße sind z. B. Spannweite, Quantil (z. B. Quartil oder Perzentil) oder Standardabweichung.

Quantile

  • Ein Quantil unterteilt einen Datensatz in gleiche Anteile und stellt den Anteil der Daten an oder unter diesem Punkt dar. Spezielle Quantile sind:
    • Quartile: Der Datensatz ist in vier Quartile unterteilt.
    • Quintile: Der Datensatz ist in fünf Abschnitte unterteilt.
    • Perzentile: Der Datensatz ist in 100 Abschnitte unterteilt.
  • Zum Beispiel:
    • Das 50. Perzentil (= 2. Quartil bzw. Q2) ist der Median.
    • Das 75. Perzentil (= 3. Quartil bzw. Q3) ist der Punkt, unter dem sich 75 % der Werte in Ihrem Datensatz befinden.
    • Das 25. Perzentil (= 1. Quartil bzw. Q1) ist der Punkt, unter dem sich 25 % der Werte in Ihrem Datensatz befinden.
  • Die Menge der Daten zwischen dem 25. und 75. Perzentil (dem 1. und 3. Quartil) wird als Interquartilsbereich bezeichnet.
  • Quantile können auf jedes stetige Merkmal angewendet werden.
  • Verwendet werden:
    • Klinisch: Wachstumskurven
    • Forschung: Box-Plots (grafische Darstellung von Daten, die die Spannweite der in einer Studie beobachteten Ergebnisse zeigen)
Maße der zentralen Tendenz und Streuung

Abbildung von Quartilen, wichtigen Perzentilen und dem Interquartilsbereich

Bild von Lecturio. Lizenz: CC BY-NC-SA 4.0

Standardabweichungen

Definition: Die Standardabweichung (engl. “standard deviation”, SD) ist ein Maß dafür, wie weit jeder beobachtete Wert vom Mittelwert in einem Datensatz entfernt ist.

  • Die Standardabweichung wird in der Regel mit SD abgekürzt oder mit dem griechischen Kleinbuchstaben Sigma (σ) dargestellt.
  • Kann verwendet werden, wenn die Verteilung der Daten annähernd normal ist und eine Glockenkurve darstellt.
  • Eine niedrige SD bedeutet, dass die Werte eng um den Mittelwert angeordnet sind.
  • Eine hohe SD bedeutet, dass die Daten über einen größeren Wertebereich verteilt sind.
  • Wird verwendet, um festzustellen, ob ein bestimmter Datenpunkt “normal/erwartet” oder “ungewöhnlich/unerwartet” ist:
    • Je mehr SDs ein Datenpunkt vom Mittelwert abweicht, desto “ungewöhnlicher” ist dieser Datenpunkt.
    • Kann helfen zu unterscheiden, ob ein Ergebnis innerhalb der “erwarteten Variation” liegt oder eher ein Ausreißer ist
  • Die Standardabweichungen können visuell als Fläche unter der Kurve (engl. “area under the curve”, AUC) dargestellt werden:
    • 1σ = ca. 34 % der AUC = ca. 68 % der Ergebnisse liegen innerhalb von 1 SD vom Mittelwert
    • 2σ = ca. 48 % der AUC = ca. 95 % der Ergebnisse liegen innerhalb von 2 SD vom Mittelwert
    • 3σ = ca. 49,8 % der AUC = ca. 99,7 % der Ergebnisse liegen innerhalb von 3 SD vom Mittelwert
Demonstration der mit der Standardabweichung verbundenen Prozentsätze

Prozentsätze, die mit jeder Standardabweichung vom Mittelwert verbunden sind:
Je “flacher die Glocke”, desto größer ist die Streuung der Daten in der Menge und desto größer sind die berechneten Standardabweichungen.

Bild: “Demonstration of the percentages associated with standard deviation” von M. W. Toews. Lizenz: CC BY 2.5

Gleichung:

Mathematisch lässt sich die SD mit der folgenden Gleichung berechnen:

σ=(χiμ)2N

σ = Standardabweichung der Grundgesamtheit
Ν = Größe der Grundgesamtheit bzw. Anzahl der Werte im Datensatz
χᵢ = jeder Wert aus der Grundgesamtheit
μ = Mittelwert der Grundgesamtheit

Berechnung der Standardabweichung (unter Verwendung der Gleichung):

  1. Ermitteln Sie, wie weit jeder Wert vom Mittelwert entfernt ist, und quadrieren Sie dann diesen Wert. (Anmerkung: Dies ist das Quadrat der Varianz.)
  2. Ermitteln Sie die Summe dieser quadrierten Werte.
  3. Teilen Sie diese Summe durch die Gesamtzahl der Werte im Datensatz.
  4. Ziehen Sie die Wurzel aus dieser Zahl, um die SD zu ermitteln.

Verteilungen von Daten

Eine Verteilung beschreibt, wie die Werte eines Datensatzes geclustert sind bzw. sich “aneinanderdrängen”. Daten neigen dazu, sich in bestimmten Mustern zu gruppieren, die als Verteilungsformen bekannt sind. Es gibt eine “normale” Verteilungsform, und es gibt mehrere nicht-normale Formen. Für unterschiedliche Verteilungsformen werden unterschiedliche statistische Tests verwendet.

Normalverteilung

Normalverteilungen unterscheiden sich in ihren jeweiligen Mittelwerten und ihre Varianzen, weisen aber folgende Gemeinsamkeiten auf:

  • Klassische symmetrische “Glockenkurven”-Form:
    • Alle Lagemaße sind gleich (Mittelwert = Median = Modalwert).
    • 50 % der Werte sind kleiner als der Mittelwert; 50 % der Werte sind größer als der Mittelwert.
  • Folgt dem zentralen Grenzwertsatz, der wie folgt funktioniert:
    • Ziehen Sie eine Stichprobe aus der Grundgesamtheit und berechnen Sie den Mittelwert; setzen Sie diese Stichprobe dann wieder in die Grundgesamtheit ein, nehmen Sie eine neue Stichprobe und berechnen Sie den Mittelwert; wiederholen Sie diesen Vorgang immer wieder.
    • Einige Mittelwerte werden sehr häufig vorkommen und den wahren Mittelwert der Grundgesamtheit repräsentieren. Andere Mittelwerte werden sehr selten sein; diese sind weiter vom wahren Mittelwert der Grundgesamtheit entfernt.
    • Wenn Sie die Häufigkeit der einzelnen Mittelwerte grafisch auftragen, erhalten Sie die klassische Form einer Glockenkurve.
  • Alle Normalverteilungen haben die gleiche Form, weil sie die gleiche Datenverteilung haben:
    • Etwa 68 % der Werte liegen innerhalb von 1 SD vom Mittelwert.
    • 95 % der Daten liegen innerhalb von 2 SD vom Mittelwerts.
    • 99,7 % der Daten liegen innerhalb von 3 SD vom Mittelwert.
  • Die Fläche unter der Kurve stellt die Wahrscheinlichkeit dar, einen bestimmten Wert zu erhalten, sodass die Gesamtfläche unter der Kurve = 1 ist.
  • Größen, die in der Regel einer Normalverteilung folgen:
    • Größe, Gewicht und Blutdruck von Personen
    • Ergebnisse von Prüfungen (idealerweise)
    • Größen von Gegenständen, die von Maschinen hergestellt werden
Beispiel für eine Normalverteilung

Beispiel einer Normalverteilung

Bild von Lecturio. Lizenz: CC BY-NC-SA 4.0

Nicht-normale Verteilung

Viele Prozesse folgen nicht-normalen Verteilungen, was auf natürliche Prozesse/Schwankungen oder Fehler in den Daten zurückzuführen sein kann.

Häufige Verteilungen:

  • Schief:
    • Rechtsschief (oder positiv schief):
      • Der Ausläufer breitet sich nach rechts aus.
      • Mittelwert > Median > Modalwert
    • Linksschief (oder negativ schief):
      • Der Ausläufer breitet sich nach links aus.
      • Modalwert > Median > Mittelwert
    • Hinweis: Ausläufer können als Ausreißer wirken und die statistischen Tests beeinträchtigen.
  • Bimodal:
    • Verteilung mit zwei “Spitzen” (die gleichzeitig die zwei Modalwerte in den Daten darstellen)
    • Deutet auf zwei verschiedene Populationen hin
  • Exponential:
    • Es gibt nur wenige sehr große Werte und viel mehr kleine Werte.
    • Oft geht es um die Zeitspanne bis zum Eintreten eines bestimmten Ereignisses, zum Beispiel:
      • Wie viele Monate eine Autobatterie hält, bis sie leer ist
      • Radioaktiver Zerfall
Unterschiedliche Verteilungen

Arten von nicht-normalen Verteilungen

Bild von Lecturio. Lizenz: CC BY-NC-SA 4.0

Gründe, warum Daten eine nicht-normale Verteilung haben können:

  • Viele Datensätze passen von Natur aus zu einem nicht-normalen Modell (z. B. folgt das Bakterienwachstum einer Exponentialverteilung).
  • Die Methoden der Datenerhebung oder andere Methoden können fehlerhaft sein.
  • Ausreißer können zu einer Verzerrung oder Schiefneigung der Daten führen.
  • Mehrere Verteilungen können kombiniert werden, was den Anschein einer bimodalen oder multimodalen Verteilung erweckt.
  • Unzureichende Daten können zu einer uneinheitlichen Verteilung führen.

Quellen

  1. Weiß, C. (2013). Basiswissen Medizinische Statistik.
  2. Katz, D., et al. (2014). Describing variation in data. In Katz, D. et al. (Eds.), Jekel’s Epidemiology, Biostatistics, Preventive Medicine, and Public Health. Elsevier. Pp. 105–118.
  3. Weisberg H. F. (1992) Central tendency and variability. Sage University Paper Series on Quantitative Applications in the Social Sciences. SAGE Publications, Inc; 1st ed., p. 2.
  4. Johnson N. L., Rogers, C. A. (1951). The moment problem for unimodal distributions. Annals of Mathematical Statistics 22:433–439.