Jeg har sett det har vært etterspurt kommentarer fra meg og @ketilaaj her etter at INITUM feilet, så jeg skal komme med noen betraktninger som en oppfølgning av @Polygon sitt innlegg. @Laaarsas sin kommentar om frekventisk vs bayesiansk statistikk får bli en annen gang, innlegget blir langt nok allerede. Jeg skal vise noen grafer med KM-plots og litt annet, men det er nødvending med litt oppbygning av metoden, selv om den er gjennomgått i andre innlegg. Jeg hadde et innlegg i oktober 2022 der simulerte rett ut fra Checkmate-067 og filtrerte ut KM-plot basert på dette, mens jeg nå har endret metode litt, med å beregne en ren event-kurve ut fra CM-067 sammen med en sensureringskurve, og deretter slå disse sammen for å lage gjennomsnittlige KM-plot. Detaljer om dette kan finnes i innlegget jeg hadde om OS for INITIUM.
Her er plottet for CM067:
Jeg benytter Guyot metoden til å rekonstruere en IPD (Individual Pasient Data). Da har man informasjon om PFS på pasientnivå, og eventuelt når de er sensurert. Dette kan splittes opp i en event-kurve og sensureringskurve. Her er event-kurven med rekonstruerte armer i tillegg basert på trekkefunksjonene:
Her har jeg antatt at armene skiller lag etter to måneder, med en HR på 0.50 etter dette. Reelt skal UV1 i teorien være nærmere tre måneder, mens man så i NIPU for LA at PFS skilte seg ved 1.5 mnd. Merk at jeg gjorde disse simuleringene før INITIUM leste av negativt, siden det oppriktig var noe slik jeg trodde på basert på den kraftige forsinkelsen. Faktisk HR ble i snitt nærmere 0.60 (0.585), siden det er en forsinkelse i starten. Her vil den oppmerksomme leser se at kurven ligger noe høyere enn kurven for CM067 over. Det er fordi dette er en ren event-kurve, der sensurerte pasienter er fjernet for å danne et bilde av den reelle event-raten. Her ser man sensureringskurven som er beregnet fra CM067 og koblet på:
Mange sensureres i starten fordi de ikke tåler bivirkningene, deretter flater det ut. Som man ser er kurven jeg har tatt utgangspunkt i noe optimistisk, men i realiteten brukte jeg faktisk en modifisert kurve som lå enda lavere, der kurven over er det som er output med regresjonsmetoden som brukes. Det er mest for å illustrere hva jeg tenker er den reelle trenden. Oppfølgning av pasientene er noe som påvirker. Jeg tror droppene på slutten skyldes at en del pasienter rett og slett ikke gadd å bli fulgt opp lenger, da de trolig var blitt kreftfrie.
Nå er jeg ferdig med introduksjonen og går videre med resultatene. Her er event-kurven med datalock 15.01.2024, basert på input som vist ovenfor:
Dette viser ca 50% sannsynlighet for minst 43 events i kontrollarmen. Med flere simuleringer hadde kurven blitt enda jevnere, men fikk bare kjørt 20000 før INITUM leste av. Nå har jeg ikke motivasjon til å kjøre flere. Det er venstresiden som nå er viktig, for den viser at det er ca 8% sannsynlig at det er 35 events eller færre, gitt at den rekonstruerte eventkurven basert på CM067 er den sanne fordelingen. 30 events eller lavere er 0.8%, som trolig er i nærheten av der vi har havnet. Når vi visste at INITUM lå under 70 events, og kanskje nærmere 60, ga dette grunn til å være veldig optimistisk.
Så skal jeg over til hvordan KM-plottene kanskje ser ut. Som kjent ble HR=0.95, som er hinsides elendig. En klarere fail enn det får man nesten ikke, og var langt utenfor mitt bear-case. Noe sånt som 0.80 var jeg fullt innforstått med kunne skje, som egentlig var mitt absolutte bear-case. Med HR på 0.95 er det kanskje kun ett eller to events forskjell, det kan også være helt likt. Jeg tenker det er sannsynlig med at det er på 60-65 events. Her er et eksempel med 61 events totalt:
Her er HR 0.97. Det skyldes at jeg lager gjennomsnittlige KM-plot med en bestemt event-fordeling, og da får jeg ikke filtert på en nøyaktig HR. Da må jeg i så fall filtere på 0.95 først, og så lete etter event-fordelinger etter det og deretter beregne snitt. Det gidder jeg ikke bruke tid på her. P-verdien er fullstendig uinteressant gitt veldig høy HR, men konfidensintervallene er interessante sett opp mot diskusjonen om type-2 feil. Nedre konfidensintervall går under 0.60, og ville holdt til statistisk signifikans med p-verdi under 1. Konfidensintervallet viser i dette tilfellet at det er 2.5% sannsynlighet at HR er under 0.587.
Her er et nytt plot:
Kryssingen i starten skyldes tilfeldigheter der få plots er slått sammen, men her ser man at armene skiller etter 2-3 måneder ørlite grann. Dette er uansett et elendig resultat, men det er for å illustrere hvordan konfidensintervallene kan være rundt 0.95. Trolig er konfidensintervallet i INITUM rett under 0.60, avhengig av hvordan eventene inntreffer i forhold til hverandre.
Sånn i forhold til type-2 feil diskusjonen kan det også være interessant med hvor mange prosent av simuleringene HR ender på 0.95 eller lavere, forutsatt at den sanne HR er rundt 0.60, med utgangspunkt i trekkefunksjonen ovenfor. Det ble ganske grisete når jeg plottet det pga dårlig formatering jeg ikke gidder å rette opp, så her er et utdrag av tabellen:
Ca 5% sjanse for at HR er 0.95 eller høyere, ref CDF kolonnen, forutsatt at den sanne HR er rundt 0.60 (0.585). Det er 20000 simuleringer til grunn, og som mange ser er det jo faktisk en del simuleringer som ender opp med veldig høy HR, selv om man i utgangspunktet har antatt god effekt.
Det er altså en mulighet for type-2 feil, men sjansen er veldig lav. Det hadde vært veldig gledelig om UV1 viser effekt i de andre studiene, og at OS i NIPU bedrer seg slik at armene ikke krysser ved 16-17 måneder. FOCUS har jeg alltid vært litt skeptisk til, pga veldig aggresiv kreftform som NIPU, samt få pasienter med det jeg synes er et merkelig valg av primærendepunkt. Jeg tror de også innså dette da de endret å rapportere FOCUS sammen 12 mnd OS, som er et mye mer naturlig primærendepunkt i en så aggresiv kreftform. Vi får se hvordan det blir, det hadde vært utrolig gledelig om UV1 faktisk får et comeback. Det ser dessverre ikke særlig lovende ut etter INITIUM failure