In diesem Bereich finden Sie medizinisch wissenschaftliche Materialien zur Indikation Brustkrebs. Dazu gehören unter anderem wissenschaftliche Materialien oder Informationen zu Fortbildungsveranstaltungen.
p-Wert, Power und Hazard Ratio – kurz erklärt
Der p-Wert gehört zu den häufigsten statistischen Kenngrößen in der Onkologie und erlaubt eine Aussage darüber, ob ein bestimmtes Studienergebnis statistisch signifikant ist oder nicht. In klinischen Studien wird üblicherweise ein Signifikanzniveau von 0,05 verwendet; der p-Wert muss dann unterhalb dieses Wertes liegen, damit das Ergebnis statistisch signifikant ist. In Abbildung 1 ist die Berechnung des p-Wertes graphisch dargestellt. Hierbei wird die Fläche im Vergleich zu der Gesamtfläche betrachtet. Ein p-Wert ≤ 0,05 bedeutet, dass die Wahrscheinlichkeit, dass das es einen Unterscheid zwischen Intervention und Placebo gibt, durch reinen Zufall entstanden ist, unter 5 Prozent liegt.1 Anders ausgedrückt: Die Wahrscheinlichkeit für einen sogenannten Typ-I-Fehler – er besagt, dass die Studie einen Unterschied zwischen zwei Therapien zeigt, der in Wirklichkeit nicht da ist – ist somit kleiner als 5 Prozent und wird in dieser Größenordnung toleriert. Wenn der p-Wert jedoch > 0,05 (5%) ist, nimmt man an, dass der Unterschied zwischen den Gruppen zufällig sein könnte.2
Abb. 1: Graphische Darstellung des p-Wertes
Dennoch ist es wichtig zu bedenken, dass die gewählte Grenze recht willkürlich gewählt wurde, was deutlich macht, dass es in der Medizin keine absolute Sicherheit gibt.1 Zudem wird oftmals nicht bedacht, dass der p-Wert stark von der Fallzahl abhängt und statistische Signifikanz nichts über die klinische Bedeutung des Studienergebnisses aussagt.1 So sind mit einem sehr großen Stichprobenumfang selbst kleinste Unterschiede im Studienergebnis nachweisbar, die in der Realität praktisch ohne Bedeutung, also ohne klinische Relevanz sind. Umgekehrt lässt sich mit einer kleinen Fallzahl möglicherweise kein Unterschied aufzeigen, auch wenn er in Wirklichkeit vorhanden ist. Kurz: Der p-Wert hat eine hohe Aussagekraft für die Beurteilung eines Studienergebnisses, sollte aber immer auch kritisch hinterfragt werden.
Anders als das Signifikanzniveau, das auf die Vermeidung von Typ-I-Fehlern zielt, gibt die Teststärke (Power) die Wahrscheinlichkeit an, einen sogenannten Typ-II-Fehler zu vermeiden, wie in Abbildung 2 dargestellt.2 Ein solcher Fehler liegt vor, wenn die Studie keinen Unterschied zwischen den Therapien zeigt, obwohl in Wahrheit ein Unterschied existiert. Eine Teststärke von mindestens 80 Prozent wird oft ein Wert angestrebt, was bedeutet, dass die Wahrscheinlichkeit für einen Typ-II-Fehler maximal bei 20 Prozent liegt. Dabei ist es wichtig zu wissen, dass die Power abhängig vom gewählten Signifikanzniveau ist – ein höheres Signifikanzniveau steigert die Power. Noch entscheidender ist jedoch die Fallzahl: je mehr Teilnehmende eine Studie hat, desto geringer ist der Einfluss zufälliger Effekte auf das Studienergebnis.2 Eine größere Fallzahl verringert demnach die Wahrscheinlichkeit eines Typ-II-Fehlers und erhöht die Power.2 Bei der Planung einer Studie wird die Fallzahl so gewählt, dass ein bestimmter Effekt am primären Endpunkt nachgewiesen werden kann. Das bedeutet, dass sie für sekundäre Endpunkte möglicherweise nicht ausreicht, um dort einen Effekt zu zeigen. Daher sollte die Fallzahl einer klinischen Studie immer so festgelegt werden, dass sie eine ausreichende Teststärke (mindestens 80 Prozent) erreicht. Darüber hinaus hängt die Power auch von der Größe des vermuteten Unterschieds zwischen zwei Therapien ab. Ist Therapie A deutlich besser als Therapie B, ist ein Typ-II-Fehler weniger wahrscheinlich und die Teststärke nimmt zu.2
Abb. 2: Graphische Darstellung der Teststärke (Power)
Die Hazard Ratio (HR) gibt wiederum an, wie hoch das Risiko für ein bestimmtes Ereignis – beispielsweise Krankheitsprogression oder Tod – in Gruppe 1 im Vergleich zu Gruppe 2 ist, wobei die Gruppen unterschiedlich behandelt wurden.3,4 Eine HR von 0,5 bedeutet, dass das Risiko für das Ereignis in Gruppe 1 zu jedem Zeitpunkt nur halb so groß ist wie in Gruppe 2. Das heißt, unter der neuen Therapie ist das Sterberisiko um 50 % reduziert. Eine HR von 0,7 entspricht einer 30%igen Risikoreduktion. Die HR ist eine beliebte Information für Klinikerinnen und Kliniker, da sie das Ausmaß der Wirkung einer Intervention im direkten Vergleich mit anderen Maßnahmen betrachtet. Dies erlaubt gewisse Rückschlüsse auf die klinische Relevanz einer neuen Therapie, wenngleich die Relevanzbeurteilung immer auf Basis mehrerer Maßzahlen erfolgen sollte.5 Aber Achtung: Das Modell der Hazard Ratio ist im Hinblick auf das Gesamtüberleben nur dann anwendbar, wenn sich die zugrunde liegenden Überlebenskurven im Zeitverlauf nicht überschneiden, wenn also eine der beiden Therapien über den gesamten Zeitverlauf hinsichtlich des Überlebens besser war als die andere.4 Ein kritischer Blick ist also auch hier geboten.
Fazit
Der p-Wert, die Power und die Hazard Ratio sind wichtige statistische Kenngrößen, die in der Onkologie zur Beurteilung klinischer Studienergebnisse dienen, aber immer auch kritisch hinterfragt werden müssen. Insbesondere sollte bedacht werden, dass das Erreichen statistischer Signifikanz nichts über die klinische Relevanz einer neuen Therapie aussagt.
Referenzen (Kurzform)
1. Klawonn F, et al. Trillium Krebsmedizin. 2022;31(5):343–6.
2. Röhrig B, et al. Dtsch Arztebl Int. 2010;107(41):729.
3. Zwiener I, et al. Dtsch Arztebl Int. 2011;108(10):163–9.
4. Klawonn F, et al. Trillium Krebsmedizin. 2022;31(6–7):431–44.
5. Kleist P. Pharmazeutische Medizin. 2011;13(1):32–5.