Som jeg har skrevet utallige ganger, så er de datoene jeg har regnet meg fram til de mest sannsynlige. Men det er også vesentlig sannsynlig at man har disse eventfordelingene flere måneder både før og etter disse mest sannsynlige datoene. Men det kan altså ikke min metode si noe om. Det kan derimot @ketilaaj sin mer raffinerte metode, som jeg flere ganger har poengtert at gir et bedre grunnlag for investeringsbeslutninger, og for alle praktiske formål bør erstatte min nå. Grunnen til at jeg tweetet om min metode er først og fremst at den er veldig mye lettere å forstå - både metoden og resultatet - og derfor egnet seg veldig mye bedre for 140-tegns formatet til et publikum som er helt blanke. I prinsippet så er er mine mest sannsynlige datoer de samme datoene som sannsynligheten bikker 50% for et gitt resultat i ketilaaj sin modell. Grunen til at de ikke blir helt like, men skiller med noen uker, er at i min modell gir hver eneste pasient et gjennomsnittlig bidrag til det totale antall eventer, mens ketilaaj sin metode regner ut median av et stort antall simuleringer hvor hver pasient bidrar med en event eller ikke (binært, som i virkeligheten). En ting er at nok de færreste forstår logikken bak metoden til ketilaaj, men når man gang på gang kommer tilbake til mine datoer som en enkel fasit så mistenker jeg faktisk at veldig mange fortsatt ikke forstår plottet som er resultatet av utregningene heller.
Jeg skal forsøke å forklare forskjellene mellom de to metodene og hvordan man skal forstå plottet til ketilaaj:
Siden min metode bare er ute etter å regne et gjennomsnitt, så plasserer jeg alle pasientene annen hver i de to armene. I virkeligheten fordeles pasientene til de to armene ved hjelp av blokkrandomisering. Ved f.eks. blokker på fire, så betyr det at de to første pasientene blir tilfeldig plassert, og dersom disse havner i samme gruppe, så havner de neste to automatisk i den andre gruppen. Dersom de første to havner i hver sin gruppe, så blir den tredje også tilfeldig plassert og bare den fjerde automatisk. osv. Dette resulterer i en mer hakkete rekrutteringskurve for hver av armene enn det totale utgangspunktet, og skaper større varians. ketilaaj har kjørt ti tusen simuleringer, og hver og en av dem har startet med en en slik blokkrandomisering. Gjennomsnittet av alle disse simuleringene blir lik min annen-hver fordeling, men poenget er at hans metode skaper varians mellom simuleringene.
I min metode så bidrar hver pasient med en fraksjon av en event. Den aller første pasienten som ble rekruttert (og plassert i kontrollarmen) har i dag vært i studien 928 dager og med 60% sannsynlighet fått progresjon eller er død. Denne pasienten bidrar da i min metode med 0,60 i det som per i dag er 40,1 eventer i kontrollarmen (vi når altså 41,0 den 30. januar i min modell med CM-067). Men for en realistisk simulering duger jo ikke dette - i realiteten har denne pasienten enten hatt en event eller ikke. Og her er cruxet i ketilaaj sin modell - det er tilfeldig hvor på PFS-plottet den enkelte pasient havner. Et PFS-plot har altså alle pasientene på Y aksen og tid på X-aksen. Modellen trekker derfor et tilfeldig tall på Y aksen og leser av tid på x aksen. På plottet for CM-067 og CM-511 så flater kurvene ut litt under mPFS (50% på Y-aksen), og det vil for de som tilfeldigvis havner under denne utflatingen derfor aldri bli en event. Men for de som “treffer kurven” så vil det altså bli en event på et gitt tidspunkt. Hver simulering gjør dette for hver av de 78 pasientene i kontrollarmen, og man ender opp med en bestemt dato man når f.eks. 41 eventer i hver simulering. ketilaaj har gjort dette ti tusen ganger, og ender opp med ti tusen forskjellig datoer for når f.eks. 41 eventer blir oppnådd. Og det er disse ti tusen forskjellige datoene for et gitt antall eventer som utgjør det endelige plottet.
Det endelige plottet er altså ti tusen datoer plottet som en kurve, der Y-aksen er gjort om til en sannsynlighet mellom 0 og 100% (0-1). Den midterste av disse ti tusen simuleringene er datoen sannsynligheten bikker 50% for oppnåelse av den relevante eventfordelingen (og altså i prinsippet det samme som mine mest sannsynlige datoer).
Det du kunne ha gjort @ketilaaj , og som både hadde vært interessant å se, og samtidig gjort plottet mer intuitivt, er å plotte kurver for samtlige eventfordelinger mellom f.eks. 35 og 46 eventer i kontrollarmen.