Tror vi starter med det helt enkle, og konkrete (mulig det blir litt for enkelt, men heller det enn for vanskelig, til å begynne med
):
Tenk deg at du kaster en T6 terning med hensikt å lage statistikk. Vi starter med en hypotese om at terningen er “normal”, dvs. at den lander like ofte på utfallene 1, 2, 3, 4, 5, og 6. Vi ønsker å se om denne hypotesen stemmer.
Hvis du kaster 10 ganger, så får du neppe noe representativt resultat. Det er godt mulig at enkelte av utfallene ikke opptrer en eneste gang.
Kaster du 100 ganger, så vil du kanskje begynne å se tendenser i retning av en lik fordeling mellom utfallene. Det er nærmest garantert at alle utfallene opptrer. Men det kan fortsatt være betydelige skjevheter, f.eks 25 x seksere og / eller 12 x enere osv…
Kaster du T6 terningen din 1000 ganger, så kan du være ganske sikker på at du begynne å få en fordeling som tenderer mot 167 stk av hvert utfall. Helt presist vil det ikke være enda. Men det vil jo nødvendigvis være mer presist enn ved 100 kast, og ihvertfall mer presist enn ved 10 kast.
Så kan man jo tenke seg hva som skjer med 10000 kast. Jo mer du kaster, jo mer nøyaktige vil dataene dine bli, og du vil bli sikrere på at det du ser medfører riktighet.
Hvor mange kast ville du gjort før du mente at antallet kast vil være tilstrekkelig til å danne deg et godt bilde av om terningen er designet riktig? For det er jo ganske kjedelig å sitte å kaste terning, så du gidder ikke sitte i all evighet heller. Og da blir det neste spørsmålet: Hvor stort avvik fra en ren 1/6-fordeling mellom hvert utfall er du villig til å godta før du konkluderer med at terningen trolig er riktig designet?
En fase to som INITIUM med 156 pasienter kjører med 80% konfidensintervall, ensidig p-verdi < 0,1
En fase III som CM067 kjørte med rundt 900 pasienter i 3 armer. Der vil man gjerne oppnå signifikans med et 95% konfidensintervall, med tosidig p < 0,025
Mener man bør ha minimum 300 stk i hver arm for å være sikker på at man får bra nok statistikk etter fase III krav, tror @Boblegutten har regnet på dette i Fundamental?
Det dette i praksis betyr er at HR kan være høyere i en fase III og likevel være signifikant, fordi vi har flere pasienter med i studien. CM743 (ipi og nivo i meso eks. arm, 605 pasienter) leste vel først av på interim med HR 0,74.
Her er dataene fra CM743:
“At the prespecified interim analysis (database lock April 3, 2020; median follow-up of 29·7 months [IQR 26·7–32·9]), nivolumab plus ipilimumab significantly extended overall survival versus chemotherapy (median overall survival 18·1 months [95% CI 16·8–21·4] vs 14·1 months [12·4–16·2]; hazard ratio 0·74 [96·6% CI 0·60–0·91]; p=0·0020)”
kilde: https://www.thelancet.com/article/S0140-6736(20)32714-8/fulltext
Nå var dette en studie i førstelinje, og ikke andrelinje som NIPU, så dataene i CM743 og NIPU kan ikke direkte sammenlignes, men her ser vi bare på tall og krav til signifikans:
Det vesentlige her er at HR 0,74 ledet til godkjennelse av ipi og nivo som SoC i 1L i mesotheliom. En HR på det samme i NIPU ville altså ikke gitt signifikans (nå snakker vi om OS-dataene fra august 2023, som var cutoff for det som ble presentert på ESMO i fjor høst, altså).
Se litt på disse to, til sammenligning:
CM743 interim: hazard ratio 0·74 [96·6% CI 0·60–0·91]; p=0·0020
NIPU på ESMO: HR=0.73 [80% CI, 0.53-1.00] 1-sided p value = 0.0985
Vi jobber oss bakover denne gangen: Sjekk p-verdiene: Der det kan sås i en viss tvil rundt konfidensintervallet i NIPU, så er det ingenting å diskutere i CM743. p=0,002 (tosidig) er over i kategorien “sikkert forbi enhver rimelig tvil”. For å ta det i prosent: Vi er ca. 90% sikre på resultatet i NIPU, mens i CM743 er vi 99,9% sikre (99,8% er tosidig, men husk at det bare er ene siden her som er interessant da)
Vi ser også at konfidensintervallet i CM743 er på 96,6% mens det er på 80% i NIPU. I tillegg er verdiene i CM743 intervallet mye smalere enn de i NIPU, som igjen ville vært mye “bredere” om NIPU hadde hatt 95% KI (som altså er standard fase III). NIPU ville pr. august 2023, ikke lest av i nærheten av signikant med fase III krav.
Til slutt: HR 0,74 (blir medisin og SoC) i CM743 vs. HR 0,73 i NIPU (blir shortet og tradet i fillebiter og ingen større investorer er villige til å risikere pengene sine).
Det er KI og p-verdier bak HR som avgjør alt. Og det er det antallet pasienter (her 605 vs. 118) og tid forløpt som skaper (median oppfølgingstid for pasientene i NIPU pr. august 2023 har vi vel ikke, men kan garantere at den er mye lavere enn i CM743 interim-analysen. Etterhvert som tiden går og NIPU-tallene modnes vil p-verdien der synke).
Alle korreksjoner / innspill mottas med takk.