Die statistische Power bzw. Teststärke beschreibt die Wahrscheinlichkeit, einen tatsächlich vorhandenen Effekt in einer Population aufzudecken. Unter ansonsten gleichen Bedingungen hat ein Test, der auf einer großen Stichprobe beruht, eine höhere statistische Aussagekraft als ein Test mit einer kleinen Stichprobe. Es gibt auch Möglichkeiten, die Power zu erhöhen, ohne den Stichprobenumfang zu vergrößern. Die meisten veröffentlichten Studien weisen eine geringe Teststärke auf, was zu gravierenden Fehlinterpretationen der Ergebnisse führen kann.
Kostenloser
Download
Lernleitfaden
Medizin ➜
Die Stärke bzw. Güte T eines statistischen Tests, auch als Power (von engl.: statistical power) bezeichnet, wird auf drei verschiedene Arten ausgedrückt:
Weniger als 13 % der 31.873 klinischen Studien, die zwischen 1974 und 2017 veröffentlicht wurden, wiesen eine adäquate Testgüte auf. Eine Studie mit niedriger Power bedeutet, dass die Testergebnisse fragwürdig sind und potenziell schwerwiegende Probleme aufwerfen, einschließlich:
Studien mit zu hoher Power können aus den folgenden Gründen ebenfalls problematisch sein:
Die statistische Power ist nur dann relevant, wenn die Nullhypothese abgelehnt werden kann. Sie wird durch die folgenden Variablen bestimmt:
Alpha (α) bezeichnet die Wahrscheinlichkeit, die Nullhypothese abzulehnen, obwohl sie richtig ist. Sie wird auch als Fehler erster Art bezeichnet.
Beta (β) ist die Wahrscheinlichkeit, die Nullhypothese beizubehalten, obwohl sie falsch ist. Sie heißt auch Fehler zweiter Art.
Das Verhältnis zwischen Alpha und Beta wird häufig in Diagrammen dargestellt, die folgende Elemente enthalten:
Es besteht ein umgekehrtes Verhältnis zwischen α und β. Wenn β verringert wird,
Das umgekehrte Verhältnis von α und β lässt sich auch in einer 2×2-Kontingenztafel erkennen, in der die positiven und negativen Ergebnisse der Realität mit denen einer Studie verglichen werden:
Positive Ergebnisse der Realität | Negative Ergebnisse der Realität | |
---|---|---|
Positive Ergebnisse der Studie | Richtig-positiv (Power, 1 – β) | Falsch-positiv (Fehler 1. Art, α) |
Negative Ergebnisse der Studie | Falsch-pegativ (Fehler 2. Art, β) | Richtig-negativ |
Die Standardabweichung s ist ein Maß für die Streuung von Werten im Verhältnis zum Mittelwert.
Der Stichprobenumfang entspricht der Anzahl von Messwerten in einer Stichprobe, bzw. der Fallzahl einer klinischen Studie.
Für einen zweiseitigen t-Test mit zwei Stichproben und einem Signifikanzniveau α von 0,05 ergibt die nachstehende einfache Formel den ungefähren Stichprobenumfang, der für eine statistische Power von 80 % (β = 0,2) erforderlich ist:
$$ n = \frac{16s^{2}}{d^{2}} $$wobei n der Stichprobenumfang, s die Standardabweichung (die in jeder Gruppe als gleich angenommen wird) und d der zu ermittelnde Behandlungsunterschied sind. Die vom Urheber der Formel, Robert Lehr, vorgeschlagene Eselsbrücke lautet “16 s-Quadrat durch d-Quadrat”. (Anmerkung: “s-Quadrat” ist auch als Varianz bekannt).
Beispiele:
Die Effektstärke ist der standardisierte Unterschied der Mittelwerte zweier Gruppen. Dies entspricht genau dem “Z-Wert” einer Standardnormalverteilung.
Berechnung der Effektstärke mittels Cohen’s d:
Cohen’s d ist die gängigste (aber eine unvollkommene) Methode zur Berechnung der Effektstärke. Cohen’s d entspricht der Differenz der Mittelwerte zweier Gruppen geteilt durch die gepoolten Standardabweichungen. Für die Standardabweichungen s gelten:
$$ {s = \sqrt{\frac{(s1^{2} + s2^{2})}{2}}} $$Wenn die Standardabweichungen in jeder Gruppe gleich sind, dann ist d = Differenz der Mittelwerte / Standardabweichung. Wenn beispielsweise die Differenz 150 und die Standardabweichung 50 beträgt, dann ist d = 150/50 = 3. Dies ist eine hohe Effektstärke.
Interpretation von Cohen’s d:
Zusammenfassend lässt sich sagen, dass die Power bzw. Teststärke tendenziell größer ist bei:
Eine Power-Analyse beantwortet zwei wichtige Fragen:
Der traditionelle Mindestwert für die Power beträgt 80 % (oder 0,80) – ähnlich des willkürlichen Werts von 5 % (oder 0,05) für α bzw. den p-Wert.
Eine Teststärke von 90 % wäre noch besser. Auch wenn dies mehr Ressourcen erfordert, sollte man bedenken, dass es noch mehr Ressourcen kosten würde, die Studie zu einem späteren Zeitpunkt zu wiederholen.
Ein Tomatenzüchter beteiligt sich an einem Versuch mit einem neuen Dünger namens “Grow-A-Lot”. Es soll bestimmt werden, ob mit dem neuen Dünger mehr Tomaten pro Pflanze wachsen als mit ungedüngten Pflanzen. Der Züchter nimmt 200 Tomatensamen aus einem Eimer mit seinem üblichen Saatgut und teilt sie in zwei Gruppen auf:
Die Nullhypothese lautet, dass beide Gruppen von Pflanzen die gleiche Anzahl von Tomaten pro Pflanze produzieren. Die Alternativhypothese lautet, dass die Pflanzen, die den Dünger erhalten, eine andere Anzahl von Tomaten hervorbringen.
Versuch 1 mit großen Stichprobenumfängen:
Die gedüngte Gruppe produzierte durchschnittlich doppelt so viele Tomaten pro Pflanze (300) wie die Kontrollgruppe (150). Es gibt auch eine kleine Überlappung, da einige Pflanzen in der Kontrollgruppe besser abschnitten als die anderen in ihrer Gruppe, und einige Pflanzen in der Versuchsgruppe schlechter abschnitten. Ein Blick auf das Diagramm reicht aus, um festzustellen, dass es offenbar einen Unterschied gibt, aber ein t-Test wurde durchgeführt, um zu bestätigen, dass der Unterschied statistisch signifikant (mit einem sehr kleinen p-Wert) ist.
Selbst wenn das Experiment 1000 Mal wiederholt würde, wäre es äußerst unwahrscheinlich, dass der Züchter zufällig eine Saatgutmenge aus der Überlappungsregion auswählt und damit ein anderes Ergebnis erhält. Allein aufgrund des hohen Stichprobenumfangs erhält diese Studie eine große Menge an statistischer Power, da es äußerst unwahrscheinlich ist, dass eine Wiederholung des Versuchs ein anderes Ergebnis liefern würde.
Versuch 2 mit kleinen Stichprobenumfängen:
Das Experiment würde auch bei viel weniger Versuchssamen eine große Power beibehalten, und fast alle t-Tests würden korrekt einen signifikanten (kleinen) p-Wert ergeben.
Es wird ein anderer Dünger verwendet (Dünger “Grow-A-Little”), welcher eine viel geringere Wirkung hat und durchschnittlich nur zehn zusätzliche Tomaten pro Pflanze hervorbringt. Es gibt eine größere Überlappung der Tomatenproduktion pro Pflanze zwischen der Versuchs- und der Kontrollgruppe, die nur bei Verwendung größerer Stichproben festgestellt werden kann.
Versuch 3 mit großen Stichprobenumfängen und großen Standardabweichungen:
Die Stichprobenumfänge sind groß genug, um die kleine Effektstärke auszugleichen, sodass der Unterschied bei einem p-Wert < 0,05 statistisch signifikant ist. Beachten Sie jedoch: Auch wenn der Unterschied statistisch signifikant ist, ist er für den Züchter möglicherweise nicht von praktischer oder relevanter Bedeutung.
Versuch 4 mit kleinen Stichprobenumfängen und großen Standardabweichungen:
Aufgrund geringer Stichprobenumfänge wird bei einem p-Wert < 0,05 kein statistisch signifikanter Unterschied festgestellt. Die Nullhypothese kann also nicht verworfen werden, weil weder Effektstärke noch Stichprobenumfänge der Studie ausreichend waren.
Versuch 5 mit kleinen Stichprobenumfängen und kleinen Standardabweichungen:
Aufgrund einer kleinen Standardabweichung bei beiden Populationen ist der Unterschied bei einem p-Wert von 0,05 statistisch signifikant. Die Standardabweichung ist in der Regel ein fester Parameter in einer Grundgesamtheit und kann nicht verändert werden, aber der gleiche Effekt kann letztendlich durch eine Vergrößerung des Stichprobenumfangs erzielt werden. Durch eine Erhöhung wird die Auswirkung einer großen, aber unveränderlichen Standardabweichung verringert, sodass kleinere Unterschiede zwischen den Gruppen festgestellt werden können.
Die mit der Planung einer randomisierten klinischen Studie befassten Forschenden wählen einen Stichprobenumfang, der eine 90%ige Power für die Feststellung eines 20%igen Unterschieds zwischen der Kontroll- und der Versuchsgruppe bei einem Signifikanzniveau von 5 % (zweiseitig) hätte.
Wenn es in Wahrheit gar keinen Unterschied zwischen den Mittelwerten gäbe, wie groß ist dann die Chance, dass die Studie trotzdem einen statistisch signifikanten Unterschied findet? Wie wird dieser Fehler genannt?
Antwort: Ein Fehler erster Art (falsch-positiv). Dies ist eigentlich nur eine Frage der Terminologie und ist typisch für die Art von Fragen, die in Prüfungen vorkommen, wobei hier die Power zur Ablenkung erwähnt wird. Rufen Sie sich Abbildung 1 ins Gedächtnis: Wenn es keinen Unterschied zwischen den beiden Gruppen gibt, gibt es nur eine glockenförmige Kurve, wobei der α-Grenzwert die falsch-positiven Ergebnisse beschreibt. Somit beträgt die Chance, einen statistisch signifikanten Unterschied zu finden, 5 %, gleichbedeutend mit einem Fehler erster Art, da jede Versuchsperson mit einem Wert im α-Bereich zur gleichen Grundgesamtheit gehört.
Nimmt die Power zu/ab/bleibt sie unverändert, wenn der β-Wert gesenkt wird?
Antwort: Die Power steigt, wenn β verringert wird, da die Power = 1 – β beträgt (siehe Abbildung 1).
Nimmt die Power zu/ab/bleibt sie unverändert, wenn α erhöht wird?
Antwort: Die Power nimmt zu, wenn Alpha erhöht wird. Dies erhöht aber auch die Wahrscheinlichkeit falsch-positiver Ergebnisse und ist daher nicht primär geeignet, die Teststärke zu erhöhen. Anhand von Abbildung 1 können Sie die Beziehung zwischen α und der Power erkennen. In einer Prüfung wird häufig eine 2×2-Kontingenztafel von Realität und Studien-/Testergebnissen verwendet, um diese Frage zu formulieren. Es ist wichtig zu verstehen, wie man Fehler erster und zweiter Art berechnet.
Vergrößert/verringert/verändert sich die Power, wenn die Differenz zwischen dem Mittelwert der Versuchsgruppe und dem der Kontrollgruppe zunimmt?
Antwort: Die Power steigt, wenn die Differenz der Mittelwerte zunimmt. Dies ist eine andere Art der Erhöhung der Effektstärke, da es weniger Überlappung zwischen den beiden Verteilungen gibt (siehe Abbildung 1).
Vergrößert/verkleinert/verändert sich β, wenn die Differenz zwischen dem Mittelwert der Versuchsgruppe und dem der Kontrollgruppe zunimmt?
Antwort: β sinkt, wenn der Mittelwertunterschied zunimmt, da es weniger Überlappung zwischen den beiden Populationen gibt (siehe Abbildung 1).