Statistische Power: Stärke eines Tests

Die statistische Power bzw. Teststärke beschreibt die Wahrscheinlichkeit, einen tatsächlich vorhandenen Effekt in einer Population aufzudecken. Unter ansonsten gleichen Bedingungen hat ein Test, der auf einer großen Stichprobe beruht, eine höhere statistische Aussagekraft als ein Test mit einer kleinen Stichprobe. Es gibt auch Möglichkeiten, die Power zu erhöhen, ohne den Stichprobenumfang zu vergrößern. Die meisten veröffentlichten Studien weisen eine geringe Teststärke auf, was zu gravierenden Fehlinterpretationen der Ergebnisse führen kann.

Aktualisiert: 28.04.2023

Redaktionelle Verantwortung: Stanley Oiseth, Lindsay Jones, Evelin Maza

Mit Video-Repetitorien von Lecturio kommst du sicher
durch Physikum, M2 und M3.

Definition und Bedeutung

Definition

Die Stärke bzw. Güte T eines statistischen Tests, auch als Power (von engl.: statistical power) bezeichnet, wird auf drei verschiedene Arten ausgedrückt:

  1. Sie beschreibt die Wahrscheinlichkeit, Signifikanz zu finden, wenn die Alternativhypothese wahr ist.
  2. Sie bezeichnet die Wahrscheinlichkeit, dass eine falsche Nullhypothese korrekterweise zurückgewiesen wird. Die Nullhypothese ist die Annahme, dass es keinen signifikanten Unterschied zwischen bestimmten Populationen – z. B. zwischen Kontroll- und Versuchsgruppe – gibt (Bsp.: Nullhypothese: “Die Herzfrequenz mit oder ohne OP am Herzen unterscheidet sich im Mittel nicht.”).
  3. T = 1 – Beta (β), wobei β dem Fehler zweiter Art (Beibehalten einer falschen Nullhypothese) bzw. 1 – Sensitivität entspricht. Je mehr Power eine klinisch-experimentelle Studie besitzt, desto eher deckt sie einen tatsächlich vorhandenen Behandlungseffekt auf.

Geringe Teststärke

Weniger als 13 % der 31.873 klinischen Studien, die zwischen 1974 und 2017 veröffentlicht wurden, wiesen eine adäquate Testgüte auf. Eine Studie mit niedriger Power bedeutet, dass die Testergebnisse fragwürdig sind und potenziell schwerwiegende Probleme aufwerfen, einschließlich:

  • Eine geringere Chance, einen echten, aussagekräftigen Effekt in der Studienpopulation zu entdecken, was wiederum die Durchführung weiterer Studien verhindern kann
  • Geringere Wahrscheinlichkeit, dass ein statistisch signifikantes Ergebnis einen echten Effekt widerspiegelt (z. B. mehr falsch-positive Ergebnisse)
  • Überschätzung der tatsächlichen Größe des Behandlungseffekts (Effektstärke, ES)
  • Geringe Reproduzierbarkeit
  • Möglicher Verstoß gegen ethische Grundsätze:
    • Patienten und gesunde Freiwillige unterziehen sich Forschung, die möglicherweise nur von begrenztem klinischen Nutzen ist.
    • Unnötige Opferung von Versuchstieren
  • Verwirrung bei der Interpretation von Studien mit geringen Fallzahlen, welche dieselbe Methodik verwenden, aber zu widersprüchlichen Ergebnissen führen

Übermaß an Teststärke

Studien mit zu hoher Power können aus den folgenden Gründen ebenfalls problematisch sein:

  • Sie können statistische Signifikanz bei jedoch unwichtiger/irrelevanter klinischer Relevanz zeigen.
  • Vergeudung von Ressourcen
  • Kann aufgrund der Einbeziehung von Menschen und/oder Labortieren in unnötige Versuche unmoralisch sein

Merkmale

Die statistische Power ist nur dann relevant, wenn die Nullhypothese abgelehnt werden kann. Sie wird durch die folgenden Variablen bestimmt:

  • Alpha (α)
  • Beta (β)
  • Standardabweichung der Population (s)
  • Stichprobenumfang n
  • Effektstärke (ES)

Alpha

Alpha (α) bezeichnet die Wahrscheinlichkeit, die Nullhypothese abzulehnen, obwohl sie richtig ist. Sie wird auch als Fehler erster Art bezeichnet.

  • α = 1 – Spezifität = “p-Wert” = das “Signifikanzniveau” bzw. Irrtumswahrscheinlichkeit.
  • α = Falsch-positive Ergebnisse / (Falsch-Positive + Richtig-Negative)
  • Bei einem Signifikanzniveau (α) von 0,05 können 5 % der Stichproben einen falschen signifikanten Unterschied – d.h. einen, der nur auf Zufall beruht – aufweisen.
  • Die meisten Studien verwenden einen Grenzwert von α = 5 % = 0,05.

Beta

Beta (β) ist die Wahrscheinlichkeit, die Nullhypothese beizubehalten, obwohl sie falsch ist. Sie heißt auch Fehler zweiter Art.

  • β = 1 – Sensitivität
  • β = Falsch-negative Ergebnisse / (Falsch-Negative + Richtig-Positive)
  • β steht in direktem Zusammenhang mit der statistischen Power des Tests (T = 1 – β).
  • Bei einem β-Niveau von 0,2 kann bei 20 % der Stichproben ein echter signifikanter Unterschied übersehen werden.
  • Die meisten Studien verwenden einen β-Grenzwert von 20 % = 0,2.
  • Im Gegensatz zu Alpha existiert ein unterschiedlicher β-Wert für jeden unterschiedlichen Mittelwert der Alternativhypothese. Somit hängt Beta sowohl von dem durch α festgelegten Grenzwert als auch von dem Mittelwert der Alternativhypothese ab.

Verhältnis zwischen Alpha und Beta

Das Verhältnis zwischen Alpha und Beta wird häufig in Diagrammen dargestellt, die folgende Elemente enthalten:

  • Zwei normalverteilte Populationen:
    • Kontrollgruppe
    • Versuchsgruppe (die einen statistisch signifikanten, unterschiedlichen Mittelwert aufweisen kann)
  • H0: Nullhypothese. Sie besagt, dass es nur einen wahren Mittelwert (der Kontrollgruppe) gibt und dass jede Abweichung in der Versuchsgruppe nur auf Zufallsphänomene zurückzuführen ist.
  • H1: Alternativhypothese, d. h. eine Aussage, die der Nullhypothese direkt widerspricht, indem sie besagt, dass der tatsächliche Wert eines Parameters kleiner oder größer ist als der in der Nullhypothese angegebene Wert
  • Alpha (α): falsch-positiver Bereich (in der Regel als zweiseitiger Hypothesentest dargestellt)
Diagramm von 2 normalisierten Populationen

Verhältnis zwischen Alpha und Beta:
Dieses Diagramm stellt zwei normalverteilte Populationen dar: eine Kontrollgruppe (grün) und eine Versuchsgruppe (lila) mit einem statistisch signifikant unterschiedlichen Mittelwert. H0 ist die Nullhypothese.
α = falsch-positiver Bereich, dargestellt in einem einseitigen Hypothesentest.
Beachten Sie das umgekehrte Verhältnis zwischen α und β.

Bild von Lecturio. Lizenz: CC BY-NC-SA 4.0

Es besteht ein umgekehrtes Verhältnis zwischen α und β. Wenn β verringert wird,

  • Vergrößert sich der α-Bereich.
  • Nimmt die Zahl falsch-negativer Ergebnisse bzw. der Fehler zweiter Art ab.
  • Nimmt die Zahl falsch positiver Ergebnisse bzw. der Fehler erster Art zu.

Das umgekehrte Verhältnis von α und β lässt sich auch in einer 2×2-Kontingenztafel erkennen, in der die positiven und negativen Ergebnisse der Realität mit denen einer Studie verglichen werden:

Positive Ergebnisse der Realität Negative Ergebnisse der Realität
Positive Ergebnisse der Studie Richtig-positiv (Power, 1 – β) Falsch-positiv (Fehler 1. Art, α)
Negative Ergebnisse der Studie Falsch-pegativ (Fehler 2. Art, β) Richtig-negativ

Standardabweichung der Population (s)

Die Standardabweichung s ist ein Maß für die Streuung von Werten im Verhältnis zum Mittelwert.

  • Sie ergibt sich aus der Wurzel der Varianz V. Die Varianz wiederum errechnet sich aus dem Durchschnitt der quadrierten Abweichungen vom Mittelwert.
  • Je höher die Standardabweichung, desto mehr Patienten werden in einer Stichprobe benötigt, um einen statistisch signifikanten Unterschied nachzuweisen.

Stichprobenumfang n

Der Stichprobenumfang entspricht der Anzahl von Messwerten in einer Stichprobe, bzw. der Fallzahl einer klinischen Studie.

  • Eine größere Stichprobe repräsentiert die Grundgesamtheit besser, wodurch sich die Aussagekraft des Tests erhöht.
  • n ist der am häufigsten verwendete Parameter zur Erhöhung der Power einer Studie.

Für einen zweiseitigen t-Test mit zwei Stichproben und einem Signifikanzniveau α von 0,05 ergibt die nachstehende einfache Formel den ungefähren Stichprobenumfang, der für eine statistische Power von 80 % (β = 0,2) erforderlich ist:

$$ n = \frac{16s^{2}}{d^{2}} $$

wobei n der Stichprobenumfang, s die Standardabweichung (die in jeder Gruppe als gleich angenommen wird) und d der zu ermittelnde Behandlungsunterschied sind. Die vom Urheber der Formel, Robert Lehr, vorgeschlagene Eselsbrücke lautet “16 s-Quadrat durch d-Quadrat”. (Anmerkung: “s-Quadrat” ist auch als Varianz bekannt).

Beispiele:

  1. Ermitteln Sie die ungefähre Anzahl von Versuchspersonen mit hoch-normalem arteriellen Blutdruck (systolisch 130-139 mmHg oder diastolisch 85-89 mmHg), die erforderlich ist, um mithilfe eines zweiseitigen t-Tests mit zwei Stichproben (α = 0,05) einen Unterschied von 15 mmHg im diastolischen Blutdruck zwischen den Behandlungen A und B zu erkennen. Die erwartete Standardabweichung beträgt für jede Gruppe 15 mmHg.
    Antwort:
    Der ungefähre Stichprobenumfang n = “16 s-Quadrat durch d-Quadrat” = 16 x 15² / 15² = 16 x 225 / 225 = 16 Personen in jeder Gruppe. Beachten Sie, dass eine der “Behandlungen” in der Regel als Kontrollgruppe festgelegt wird.
  1. Jetzt andersherum: In zwei Gruppen mit jeweils 16 Menschen, die einen hoch-normalen arteriellen Blutdruck aufwiesen, wurde ein Behandlungsunterschied von 15 mmHg festgestellt, nachdem die Teilnehmenden in jeder Gruppe mit zwei verschiedenen Medikamenten behandelt wurden.
    Ist die Fallzahl ausreichend, um einen signifikanten Unterschied festzustellen? (Wir legen α auf 5 % und β auf 0,2 fest.)
    Antwort:
    n = 16 x 15² / 15² = 16 Personen in jeder Gruppe. Ja, die Fallzahl war also ausreichend.
  2. Welche ungefähre Anzahl von Versuchspersonen wäre für Frage 1 erforderlich, wenn die Studiendesigner einen Unterschied von 7,5 mmHg anstelle 15 mmHg nachweisen wöllten – vorausgesetzt, alle anderen Parameter blieben gleich?
    Antwort:
    n = 16 x 15² / 7,5² = 16 x 225 / 56,25 = 64 Personen in jeder Gruppe
    Beachten Sie: Aus diesem letzten Beispiel geht hervor, dass man die vierfache Fallzahl benötigt, um einen halb so großen Behandlungseffekt festzustellen. Dies wird auch durch die o. g. Formel verdeutlicht.

Effektstärke der Behandlung

Die Effektstärke ist der standardisierte Unterschied der Mittelwerte zweier Gruppen. Dies entspricht genau dem “Z-Wert” einer Standardnormalverteilung.

  • Wenn der Unterschied zwischen den beiden Behandlungen gering ist, werden mehr Versuchspersonen benötigt, um einen Unterschied festzustellen.
  • Andere Situationen mit Effektstärken:
    • Korrelation zweier Variablen
    • Regressionskoeffizient in einer Regressionsanalyse
    • Das Risiko (“Baseline-Inzidenz”) eines bestimmten Ereignisses (z. B. Schlaganfall)

Berechnung der Effektstärke mittels Cohen’s d:

Cohen’s d ist die gängigste (aber eine unvollkommene) Methode zur Berechnung der Effektstärke. Cohen’s d entspricht der Differenz der Mittelwerte zweier Gruppen geteilt durch die gepoolten Standardabweichungen. Für die Standardabweichungen s gelten:

$$ {s = \sqrt{\frac{(s1^{2} + s2^{2})}{2}}} $$

Wenn die Standardabweichungen in jeder Gruppe gleich sind, dann ist d = Differenz der Mittelwerte / Standardabweichung. Wenn beispielsweise die Differenz 150 und die Standardabweichung 50 beträgt, dann ist d = 150/50 = 3. Dies ist eine hohe Effektstärke.

Interpretation von Cohen’s d:

  • Kleine Effektstärke: Bei d = 0,2 liegt die Punktzahl oder der Wert der durchschnittlichen Versuchsperson in der Versuchsgruppe 0,2 Standardabweichungen über dem Wert der durchschnittlichen Versuchsperson in der Kontrollgruppe und übersteigt damit die Werte von 58 % der Kontrollgruppe.
  • Mittlere ES: Bei d = 0,5 liegt der Wert der durchschnittlichen Versuchsperson in der Versuchsgruppe 0,5 Standardabweichungen über dem Wert der durchschnittlichen Versuchsperson in der Kontrollgruppe und übersteigt damit die Werte von 69 % der Kontrollgruppe.
  • Große ES: Bei d = 0,8 liegt der Wert der durchschnittlichen Versuchsperson in der Versuchsgruppe 0,8 Standardabweichungen über dem Wert der durchschnittlichen Versuchsperson in der Kontrollgruppe und übersteigt die Werte von 79 % der Kontrollgruppe.

Zusammenfassung der Merkmale

Zusammenfassend lässt sich sagen, dass die Power bzw. Teststärke tendenziell größer ist bei:

  • Großer Effektstärke (d. h. großem Unterschied zwischen den Gruppen)
  • Großem Stichprobenumfang bzw. großer Fallzahl
  • Geringen Standardabweichungen der Populationen
  • Höherem Signifikanzniveau α (z. B. 0,05 statt 0,01)
  • Geringerem β-Grenzwert (z. B. 0,1 statt 0,2)
  • Verwendung eines einseitigen Tests anstatt eines Zweiseitigen
    • Ein einseitiger Test setzt die Verwendung einer Richtungshypothese voraus, d. h. die Untersuchung einer Fragestellung in Bezug auf eine bestimmte Richtung wie “Größer als” oder “Kleiner als”. Er kann jedoch keinen Unterschied feststellen, der in die entgegengesetzte Richtung geht.
    • Diese Art von Test wird selten verwendet.

Häufige Fehler

  • Ablehnung einer Nullhypothese (z. B. Annahme eines signifikanten Unterschieds) ohne Berücksichtigung der praktischen/klinischen Bedeutung des Studienergebnisses
  • Annahme einer Nullhypothese bei einem NICHT statistisch signifikanten Unterschied ohne Berücksichtigung der Power bzw. Teststärke
  • Überschätzung der Aussagekraft einer Studie mit geringer Power
  • Vernachlässigung der Berechnung der Power oder des erforderlichen Stichprobenumfangs
  • Keine Korrektur für Mehrfachinferenz bei der Berechnung der Power:
    • Unter Mehrfachinferenz versteht man die Durchführung von mehr als einem statistisch schließenden Test mit demselben Datensatz.
    • Die Durchführung mehrerer Tests mit demselben Datensatz im selben Stadium der Analyse erhöht die Wahrscheinlichkeit, mindestens ein ungültiges Ergebnis zu erhalten.
  • Verwendung starrer Effektstärken (z. B. die kleinen, mittleren und großen Effektstärken von Cohen’s d), anstatt die Details des Versuchsplans selbst zu berücksichtigen. Ein Versuch kann manchmal eine kleine Cohen-Bewertung aufweisen, aber an sich ein besseres Experiment sein.
  • Verwechslung von retrospektiver Teststärke (Berechnung nach Datenerhebung) und prospektiver Teststärke

Berechnung

Eine Power-Analyse beantwortet zwei wichtige Fragen:

  1. Wie viel Power wird als adäquat angesehen?
  2. Wie groß ist der benötigte Stichprobenumfang?

Wie viel Power wird als adäquat angesehen?

Der traditionelle Mindestwert für die Power beträgt 80 % (oder 0,80) – ähnlich des willkürlichen Werts von 5 % (oder 0,05) für α bzw. den p-Wert.

  • Eine 80%ige Power bedeutet, dass die Wahrscheinlichkeit eines Fehlers zweiter Art (falsch-negativ) bei 20 % liegt.
  • Dieses akzeptable Niveau von 20 % für Fehler zweiter Art ist viermal so hoch wie die 5 %ige Wahrscheinlichkeit eines Fehlers erster Art (falsch-positiv, Standard-Signifikanzniveau).
  • Fehler erster Art werden üblicherweise als kritischer angesehen als Fehler zweiter Art.

Eine Teststärke von 90 % wäre noch besser. Auch wenn dies mehr Ressourcen erfordert, sollte man bedenken, dass es noch mehr Ressourcen kosten würde, die Studie zu einem späteren Zeitpunkt zu wiederholen.

Wie groß ist der benötigte Stichprobenumfang?

  • Groß genug, um einen Effekt von praktischer, wissenschaftlicher Bedeutung festzustellen. Die Wahrscheinlichkeit, eine falsche Nullhypothese zu verwerfen, muss hoch genug sein.
  • Bevor ein Experiment begonnen wird, muss eine Power-Analyse durchgeführt werden.
    • Einem abgeschlossenen Experiment, das einen nahezu signifikanten p-Wert aufwies, sollte man keine weiteren Versuchspersonen hinzufügen.
    • Diese Praxis ist verpönt und wird als “p-Hacking” bezeichnet.
  • Berechnung eines ausreichenden Stichprobenumfangs für einen t-Test für unabhängige Stichproben:
    • Schätzen Sie (anhand einer Pilotstudie oder historischen Daten) die Mittelwerte beider Gruppen oder die Differenz zwischen den Mittelwerten. Es sollte sich um die kleinste Effektstärke handeln, die von wissenschaftlichem Interesse ist.
    • Schätzen Sie (anhand einer Pilotstudie oder historischen Daten) die Standardabweichungen der beiden Gruppen.
    • Entscheiden Sie, welche α– (z. B. 0,05) und β-Werte (z. B. 0,2) gewünscht sind.
    • Geben Sie diese Werte (α, β, die beiden geschätzten Mittelwerte und die geschätzte gepoolten Standardabweichungen) in einen seriösen Online-Rechner ein, um den Stichprobenumfang zu erhalten.
    • Die Berechnungen sind recht komplex und werden immer mithilfe eines Computers durchgeführt.
    • Der ungefähre Stichprobenumfang lässt sich wie oben beschrieben mit der Formel n = 16s² / d² berechnen.

Beispiele für Power-Analysen

Fall 1

Ein Tomatenzüchter beteiligt sich an einem Versuch mit einem neuen Dünger namens “Grow-A-Lot”. Es soll bestimmt werden, ob mit dem neuen Dünger mehr Tomaten pro Pflanze wachsen als mit ungedüngten Pflanzen. Der Züchter nimmt 200 Tomatensamen aus einem Eimer mit seinem üblichen Saatgut und teilt sie in zwei Gruppen auf:

  • Eine Gruppe mit 100 Samen, die keinen Dünger erhalten (= Kontrollgruppe)
  • Eine Gruppe mit 100 Samen, die gedüngt werden (= Versuchsgruppe)

Die Nullhypothese lautet, dass beide Gruppen von Pflanzen die gleiche Anzahl von Tomaten pro Pflanze produzieren. Die Alternativhypothese lautet, dass die Pflanzen, die den Dünger erhalten, eine andere Anzahl von Tomaten hervorbringen.

Versuch 1 mit großen Stichprobenumfängen:

Die gedüngte Gruppe produzierte durchschnittlich doppelt so viele Tomaten pro Pflanze (300) wie die Kontrollgruppe (150). Es gibt auch eine kleine Überlappung, da einige Pflanzen in der Kontrollgruppe besser abschnitten als die anderen in ihrer Gruppe, und einige Pflanzen in der Versuchsgruppe schlechter abschnitten. Ein Blick auf das Diagramm reicht aus, um festzustellen, dass es offenbar einen Unterschied gibt, aber ein t-Test wurde durchgeführt, um zu bestätigen, dass der Unterschied statistisch signifikant (mit einem sehr kleinen p-Wert) ist.

Statistische Leistung Versuch 1

Versuch 1 zu Fall 1: Diagramm zur Veranschaulichung des Einflusses von “Grow-A-Lot” mit großer Effektstärke, großen Standardabweichungen (jeweils 50), Mittelwerten von 150 bzw. 300 und großen Stichprobenumfängen von 100.

Grün: Kontrollgruppe
Blau: Versuchsgruppe

Die 100 Pflanzen der Kontrollgruppe produzierten durchschnittlich 150 Tomaten pro Pflanze. Die 100 Pflanzen, die gedüngt wurden, produzierten mit durchschnittlich 300 Tomaten pro Pflanze deutlich mehr Tomaten. Das Ergebnis ist bei einem p-Wert von < 0,05 signifikant, sodass die Nullhypothese verworfen wird.

Bild von Lecturio. Lizenz: CC BY-NC-SA 4.0

Selbst wenn das Experiment 1000 Mal wiederholt würde, wäre es äußerst unwahrscheinlich, dass der Züchter zufällig eine Saatgutmenge aus der Überlappungsregion auswählt und damit ein anderes Ergebnis erhält. Allein aufgrund des hohen Stichprobenumfangs erhält diese Studie eine große Menge an statistischer Power, da es äußerst unwahrscheinlich ist, dass eine Wiederholung des Versuchs ein anderes Ergebnis liefern würde.

Versuch 2 mit kleinen Stichprobenumfängen:

Das Experiment würde auch bei viel weniger Versuchssamen eine große Power beibehalten, und fast alle t-Tests würden korrekt einen signifikanten (kleinen) p-Wert ergeben.

Statistische Leistung Versuch 2

Versuch 2 zu Fall 1: Diagramm zur Veranschaulichung des Einflusses von “Grow-A-Lot” mit großer Effektstärke, großen Standardabweichungen (jeweils 50), Mittelwerten von 150 bzw. 300 und kleinen Stichprobenumfängen von 30.

Grün: Kontrollgruppe
Blau: Versuchsgruppe

Aufgrund der großen Effektstärke (Differenz der Mittelwerte) beobachten wir nach wie vor einen signifikanten Unterschied, trotz des geringen Stichprobenumfangs. p < 0,05, also wird die Nullhypothese abgelehnt.

Bild von Lecturio. Lizenz: CC BY-NC-SA 4.0

Fall 2

Es wird ein anderer Dünger verwendet (Dünger “Grow-A-Little”), welcher eine viel geringere Wirkung hat und durchschnittlich nur zehn zusätzliche Tomaten pro Pflanze hervorbringt. Es gibt eine größere Überlappung der Tomatenproduktion pro Pflanze zwischen der Versuchs- und der Kontrollgruppe, die nur bei Verwendung größerer Stichproben festgestellt werden kann.

Versuch 3 mit großen Stichprobenumfängen und großen Standardabweichungen:

Die Stichprobenumfänge sind groß genug, um die kleine Effektstärke auszugleichen, sodass der Unterschied bei einem p-Wert < 0,05 statistisch signifikant ist. Beachten Sie jedoch: Auch wenn der Unterschied statistisch signifikant ist, ist er für den Züchter möglicherweise nicht von praktischer oder relevanter Bedeutung.

Versuchsdiagramm 3

Versuch 3 zu Fall 2: Diagramm zur Veranschaulichung des Einflusses von “Grow-A-Little” mit kleiner Effektstärke, großen Standardabweichungen (jeweils 50), Mittelwerten von 150 bzw. 165 und einem großen Stichprobenumfang von 100.


Grün: Kontrollgruppe
Blau: Versuchsgruppe.

Der Unterschied ist bei einem p-Wert von < 0,05 statistisch signifikant, da die Stichprobenumfänge groß genug waren, um die geringe Effektstärke auszugleichen. Beachten Sie, dass der geringe Unterschied, auch wenn er statistisch signifikant ist, für den Züchter möglicherweise nicht von praktischer oder relevanter Bedeutung ist.

Bild von Lecturio. Lizenz: CC BY-NC-SA 4.0

Versuch 4 mit kleinen Stichprobenumfängen und großen Standardabweichungen:

Aufgrund geringer Stichprobenumfänge wird bei einem p-Wert < 0,05 kein statistisch signifikanter Unterschied festgestellt. Die Nullhypothese kann also nicht verworfen werden, weil weder Effektstärke noch Stichprobenumfänge der Studie ausreichend waren.

Versuchsdiagramm 4

Versuch 4 zu Fall 2: Diagramm zur Veranschaulichung des Einflusses von “Grow-A-Little” mit kleiner Effektstärke, großen Standardabweichungen (jeweils 50), Mittelwerten von 150 bzw. 165 und kleinen Stichprobenumfängen von 30.

Grün: Kontrollgruppe
Blau: Versuchsgruppe

Aufgrund geringer Stichprobenumfänge wird bei einem p-Wert < 0,05 kein statistisch signifikanter Unterschied festgestellt. Die Nullhypothese kann also nicht verworfen werden, weil weder Effektstärke noch Stichprobenumfänge der Studie ausreichend waren.

Bild von Lecturio. Lizenz: CC BY-NC-SA 4.0

Versuch 5 mit kleinen Stichprobenumfängen und kleinen Standardabweichungen:

Aufgrund einer kleinen Standardabweichung bei beiden Populationen ist der Unterschied bei einem p-Wert von 0,05 statistisch signifikant. Die Standardabweichung ist in der Regel ein fester Parameter in einer Grundgesamtheit und kann nicht verändert werden, aber der gleiche Effekt kann letztendlich durch eine Vergrößerung des Stichprobenumfangs erzielt werden. Durch eine Erhöhung wird die Auswirkung einer großen, aber unveränderlichen Standardabweichung verringert, sodass kleinere Unterschiede zwischen den Gruppen festgestellt werden können.

Versuchsdiagramm 5

Versuch 5 zu Fall 2: Diagramm zur Veranschaulichung des Einflusses von “Grow-A-Little” mit kleiner Effektstärke, kleinen Standardabweichungen von jeweils 10, Mittelwerten von 150 bzw. 165 und kleinen Stichprobenumfängen von 30.

Grün: Kontrollgruppe
Blau: Versuchsgruppe

Der Unterschied ist nun bei einem p-Wert von 0,05 statistisch signifikant aufgrund der kleinen Standardabweichungen.

Bild von Lecturio. Lizenz: CC BY-NC-SA 4.0

Übungsaufgaben

Die mit der Planung einer randomisierten klinischen Studie befassten Forschenden wählen einen Stichprobenumfang, der eine 90%ige Power für die Feststellung eines 20%igen Unterschieds zwischen der Kontroll- und der Versuchsgruppe bei einem Signifikanzniveau von 5 % (zweiseitig) hätte.

Frage 1

Wenn es in Wahrheit gar keinen Unterschied zwischen den Mittelwerten gäbe, wie groß ist dann die Chance, dass die Studie trotzdem einen statistisch signifikanten Unterschied findet? Wie wird dieser Fehler genannt?

Antwort: Ein Fehler erster Art (falsch-positiv). Dies ist eigentlich nur eine Frage der Terminologie und ist typisch für die Art von Fragen, die in Prüfungen vorkommen, wobei hier die Power zur Ablenkung erwähnt wird. Rufen Sie sich Abbildung 1 ins Gedächtnis: Wenn es keinen Unterschied zwischen den beiden Gruppen gibt, gibt es nur eine glockenförmige Kurve, wobei der α-Grenzwert die falsch-positiven Ergebnisse beschreibt. Somit beträgt die Chance, einen statistisch signifikanten Unterschied zu finden, 5 %, gleichbedeutend mit einem Fehler erster Art, da jede Versuchsperson mit einem Wert im α-Bereich zur gleichen Grundgesamtheit gehört.

Frage 2

Nimmt die Power zu/ab/bleibt sie unverändert, wenn der β-Wert gesenkt wird?

Antwort: Die Power steigt, wenn β verringert wird, da die Power = 1 – β beträgt (siehe Abbildung 1).

Frage 3

Nimmt die Power zu/ab/bleibt sie unverändert, wenn α erhöht wird?

Antwort: Die Power nimmt zu, wenn Alpha erhöht wird. Dies erhöht aber auch die Wahrscheinlichkeit falsch-positiver Ergebnisse und ist daher nicht primär geeignet, die Teststärke zu erhöhen. Anhand von Abbildung 1 können Sie die Beziehung zwischen α und der Power erkennen. In einer Prüfung wird häufig eine 2×2-Kontingenztafel von Realität und Studien-/Testergebnissen verwendet, um diese Frage zu formulieren. Es ist wichtig zu verstehen, wie man Fehler erster und zweiter Art berechnet.

Frage 4

Vergrößert/verringert/verändert sich die Power, wenn die Differenz zwischen dem Mittelwert der Versuchsgruppe und dem der Kontrollgruppe zunimmt?

Antwort: Die Power steigt, wenn die Differenz der Mittelwerte zunimmt. Dies ist eine andere Art der Erhöhung der Effektstärke, da es weniger Überlappung zwischen den beiden Verteilungen gibt (siehe Abbildung 1).

Frage 5

Vergrößert/verkleinert/verändert sich β, wenn die Differenz zwischen dem Mittelwert der Versuchsgruppe und dem der Kontrollgruppe zunimmt?

Antwort: β sinkt, wenn der Mittelwertunterschied zunimmt, da es weniger Überlappung zwischen den beiden Populationen gibt (siehe Abbildung 1).

Quellen

  1. Brosteanu, O., Engel C., Forberg J., Gelbrich G., Hasenclever D., Hentschel B., Löffler M., Röder I., Schuster E., Wicklein B., Ziepert M. (2008). Methodensammlung zur Auswertung klinischer und epidemiologischer Daten. Skriptenheft für Medizinstudenten
  2. Peirce, C.S. (1878). Illustrations of the Logic of Science VI. Popular Science Monthly. Vol. 13, August 1878. Zugriff am 1. März 2021, from https://en.wikisource.org/w/index.php?oldid=3592335
  3. Clinical tools and calculators for medical professionals—ClinCalc. Zugriff am 19. März 2021, from https://clincalc.com/
  4. Power/sample size calculator. Retrieved March 20, 2021, from https://www.stat.ubc.ca/~rollin/stats/ssize/n2.html
  5. Interactive statistical calculation pages. Retrieved March 20, 2021, from https://statpages.info/#Power
  6. Statistical power calculator using average values. SPH Analytics. Zugriff am 20. März 2021, from https://www.sphanalytics.com/statistical-power-calculator-using-average-values/
  7. Otte, W.M., Tijdink, J.K., Weerheim, P.L., Lamberink, H.J., Vinkers, C.H. (2018). Adequate statistical power in clinical trials is associated with the combination of a male first author and a female last author. eLife, 7:e34412. https://doi.org/10.7554/eLife.34412
  8. Bland, M. (2015). An Introduction to Medical Statistics. 4th ed., pp. 295–304. 
  9. Ellis, P.D. (2010). The Essential Guide to Effect Sizes. Statistical Power, Meta-Analysis, and the Interpretation of Research Results. Pp. 46–86.
  10. Walters, S.J., Campbell, M.J., Machin, D. (2020). Medical Statistics, A Textbook for the Health Sciences. 5th ed, pp. 40–48, 99–133.
  11. Citrome, L., Ketter, T.A. (2013). When does a difference make a difference? Interpretation of number needed to treat, number needed to harm, and likelihood to be helped or harmed. International Journal of Clinical Practice, 67(5):407–411. https://doi.org/https://doi.org/10.1111/ijcp.12142
  12. Smith, M.K. (2012). Common mistakes involving power. Zugriff am 21. März 2021, from https://web.ma.utexas.edu/users/mks/statmistakes/PowerMistakes.html
  13. Ioannidis, J.P., Greenland, S., Hlatky, M.A., et al. (2014). Increasing value and reducing waste in research design, conduct, and analysis. Lancet, 383(9912):166–175.
  14. Coe, R. (2002). It’s the effect size, stupid: What effect size is and why it is important.
  15. Allen, J.C. (2011). Sample size calculation for two independent groups: A useful rule of thumb. Proceedings of Singapore Healthcare, 20(2):138–140. https://doi.org/10.1177/201010581102000213
  16. Lehr, R. (1992). Sixteen S-squared over D-squared: A relation for crude sample size estimates. Statistics in Medicine, 11(8), 1099–1102. https://doi.org/10.1002/sim.4780110811

Kostenloses eBook

Lerne erfolgreich im Medizinstudium 

Medizinisches Fachwissen leicht erklärt

Erfolgreiche Prüfungsvorbereitung mit Medizinkursen von lecturio.de

Du bist bereits registriert?  Login

Medizinisches Fachwissen leicht erklärt

Erfolgreiche Prüfungsvorbereitung mit Medizinkursen von lecturio.de

Du bist bereits registriert?  Login

eLearning Award 2023

Lecturio und die Exporo-Gruppe wurden für ihre digitale Compliance-Akademie mit dem eLearning Award 2023 ausgezeichnet.

eLearning Award 2019

Lecturio und die TÜV SÜD Akademie erhielten für den gemeinsam entwickelten Online-Kurs zur Vorbereitung auf den
Drohnenführerschein den eLearning Award 2019 in der Kategorie “Videotraining”.

Comenius-Award 2019

Comenius-Award 2019

Die Lecturio Business Flat erhielt 2019 das Comenius-EduMedia-Siegel, mit dem die Gesellschaft für Pädagogik, Information und Medien jährlich pädagogisch,  inhaltlich und gestalterisch
herausragende didaktische Multimediaprodukte auszeichnet.

IELA-Award 2022

Die International E-Learning Association, eine Gesellschaft für E-Learning Professionals und Begeisterte, verlieh der Lecturio Learning Cloud die Gold-Auszeichnung in der Kategorie “Learning Delivery Platform”.

Comenius-Award 2022

In der Kategorie “Lehr- und Lernmanagementsysteme” erhielt die Lecturio Learning Cloud die Comenius-EduMedia-Medaille. Verliehen wird der Preis von der Gesellschaft für Pädagogik, Information und Medien für pädagogisch, inhaltlich und gestalterisch herausragende Bildungsmedien.

B2B Award 2020/2021

Die Deutsche Gesellschaft für Verbraucherstudien (DtGV) hat Lecturio zum Branchen-Champion unter den deutschen Online-Kurs-Plattformen gekürt. Beim Kundenservice belegt Lecturio den 1. Platz, bei der Kundenzufriedenheit den 2. Platz.

B2B Award 2022

Für herausragende Kundenzufriedenheit wurde Lecturio von der Deutschen Gesellschaft für Verbraucherstudien (DtGV) mit dem deutschen B2B-Award 2022 ausgezeichnet.
In der Rubrik Kundenservice deutscher Online-Kurs-Plattformen belegt Lecturio zum zweiten Mal in Folge den 1. Platz.

Simon Veiser

Simon Veiser beschäftigt sich seit 2010 nicht nur theoretisch mit IT Service Management und ITIL, sondern auch als leidenschaftlicher Berater und Trainer. In unterschiedlichsten Projekten definierte, implementierte und optimierte er erfolgreiche IT Service Management Systeme. Dabei unterstützte er das organisatorische Change Management als zentralen Erfolgsfaktor in IT-Projekten. Simon Veiser ist ausgebildeter Trainer (CompTIA CTT+) und absolvierte die Zertifizierungen zum ITIL v3 Expert und ITIL 4 Managing Professional.

Dr. Frank Stummer

Dr. Frank Stummer ist Gründer und CEO der Digital Forensics GmbH und seit vielen Jahren insbesondere im Bereich der forensischen Netzwerkverkehrsanalyse tätig. Er ist Mitgründer mehrerer Unternehmen im Hochtechnologiebereich, u.a. der ipoque GmbH und der Adyton Systems AG, die beide von einem Konzern akquiriert wurden, sowie der Rhebo GmbH, einem Unternehmen für IT-Sicherheit und Netzwerküberwachung im Bereich Industrie 4.0 und IoT. Zuvor arbeitete er als Unternehmensberater für internationale Großkonzerne. Frank Stummer studierte Betriebswirtschaft an der TU Bergakademie Freiberg und promovierte am Fraunhofer Institut für System- und Innovationsforschung in Karlsruhe.

Sobair Barak

Sobair Barak hat einen Masterabschluss in Wirtschaftsingenieurwesen absolviert und hat sich anschließend an der Harvard Business School weitergebildet. Heute ist er in einer Management-Position tätig und hat bereits diverse berufliche Auszeichnungen erhalten. Es ist seine persönliche Mission, in seinen Kursen besonders praxisrelevantes Wissen zu vermitteln, welches im täglichen Arbeits- und Geschäftsalltag von Nutzen ist.

Wolfgang A. Erharter

Wolfgang A. Erharter ist Managementtrainer, Organisationsberater, Musiker und Buchautor. Er begleitet seit über 15 Jahren Unternehmen, Führungskräfte und Start-ups. Daneben hält er Vorträge auf Kongressen und Vorlesungen in MBA-Programmen. 2012 ist sein Buch „Kreativität gibt es nicht“ erschienen, in dem er mit gängigen Mythen aufräumt und seine „Logik des Schaffens“ darlegt. Seine Vorträge gestaltet er musikalisch mit seiner Geige.

Holger Wöltje

Holger Wöltje ist Diplom-Ingenieur (BA) für Informationstechnik und mehrfacher Bestseller-Autor. Seit 1996 hat er über 15.800 Anwendern in Seminaren und Work-shops geholfen, die moderne Technik produktiver einzusetzen. Seit 2001 ist Holger Wöltje selbstständiger Berater und Vortragsredner. Er unterstützt die Mitarbeiter von mittelständischen Firmen und Fortune-Global-500- sowie DAX-30-Unternehmen dabei, ihren Arbeitsstil zu optimieren und zeigt Outlook-, OneNote- und SharePoint-Nutzern, wie sie ihre Termine, Aufgaben und E-Mails in den Griff bekommen, alle wichtigen Infos immer elektronisch parat haben, im Team effektiv zusammenarbeiten, mit moderner Technik produktiver arbeiten und mehr Zeit für das Wesentliche gewinnen.

Frank Eilers

Frank Eilers ist Keynote Speaker zu den Zukunftsthemen Digitale Transformation, Künstliche Intelligenz und die Zukunft der Arbeit. Er betreibt seit mehreren Jahren den Podcast „Arbeitsphilosophen“ und übersetzt komplexe Zukunftsthemen für ein breites Publikum. Als ehemaliger Stand-up Comedian bringt Eilers eine ordentliche Portion Humor und Lockerheit mit. 2017 wurde er für seine Arbeit mit dem Coaching Award ausgezeichnet.

Yasmin Kardi

Yasmin Kardi ist zertifizierter Scrum Master, Product Owner und Agile Coach und berät neben ihrer Rolle als Product Owner Teams und das höhere Management zu den Themen agile Methoden, Design Thinking, OKR, Scrum, hybrides Projektmanagement und Change Management.. Zu ihrer Kernkompetenz gehört es u.a. internationale Projekte auszusteuern, die sich vor allem auf Produkt-, Business Model Innovation und dem Aufbau von Sales-Strategien fokussieren.

Leon Chaudhari

Leon Chaudhari ist ein gefragter Marketingexperte, Inhaber mehrerer Unternehmen im Kreativ- und E-Learning-Bereich und Trainer für Marketingagenturen, KMUs und Personal Brands. Er unterstützt seine Kunden vor allem in den Bereichen digitales Marketing, Unternehmensgründung, Kundenakquise, Automatisierung und Chat Bot Programmierung. Seit nun bereits sechs Jahren unterrichtet er online und gründete im Jahr 2017 die „MyTeachingHero“ Akademie.

Andreas Ellenberger

Als akkreditierter Trainer für PRINCE2® und weitere international anerkannte Methoden im Projekt- und Portfoliomanagement gibt Andreas Ellenberger seit Jahren sein Methodenwissen mit viel Bezug zur praktischen Umsetzung weiter. In seinen Präsenztrainings geht er konkret auf die Situation der Teilnehmer ein und erarbeitet gemeinsam Lösungsansätze für die eigene Praxis auf Basis der Theorie, um Nachhaltigkeit zu erreichen. Da ihm dies am Herzen liegt, steht er für Telefoncoachings und Prüfungen einzelner Unterlagen bzgl. der Anwendung gern zur Verfügung.

Zach Davis

Zach Davis ist studierter Betriebswirt und Experte für Zeitintelligenz und Zukunftsfähigkeit. Als Unternehmens-Coach hat er einen tiefen Einblick in über 80 verschiedene Branchen erhalten. Er wurde 2011 als Vortragsredner des Jahres ausgezeichnet und ist bis heute als Speaker gefragt. Außerdem ist Zach Davis Autor von acht Büchern und Gründer des Trainingsinstituts Peoplebuilding.

Wladislav Jachtchenko

Wladislaw Jachtchenko ist mehrfach ausgezeichneter Experte, TOP-Speaker in Europa und gefragter Business Coach. Er hält Vorträge, trainiert und coacht seit 2007 Politiker, Führungskräfte und Mitarbeiter namhafter Unternehmen wie Allianz, BMW, Pro7, Westwing, 3M und viele andere – sowohl offline in Präsenztrainings als auch online in seiner Argumentorik Online-Akademie mit bereits über 52.000 Teilnehmern. Er vermittelt seinen Kunden nicht nur Tools professioneller Rhetorik, sondern auch effektive Überzeugungstechniken, Methoden für erfolgreiches Verhandeln, professionelles Konfliktmanagement und Techniken für effektives Leadership.

Alexander Plath

Alexander Plath ist seit über 30 Jahren im Verkauf und Vertrieb aktiv und hat in dieser Zeit alle Stationen vom Verkäufer bis zum Direktor Vertrieb Ausland und Mediensprecher eines multinationalen Unternehmens durchlaufen. Seit mehr als 20 Jahren coacht er Führungskräfte und Verkäufer*innen und ist ein gefragter Trainer und Referent im In- und Ausland, der vor allem mit hoher Praxisnähe, Humor und Begeisterung überzeugt.

Details