Ja, håpet er jo at relevante T-celler skal ha en effekt hos mange flere enn KUN sjekpunkthemmer vil ha. Men i enkelttilfeller kan det også ha vært at CPI uansett ikke ville hatt effekt i dem pasienten f.eks. Det er vanskelig å vite.
Hva søren er vitsen med å våkne til 30+ uleste i fundamentaltråden?! Like før man kickstartet onsdagen med et aldri så lite hjerteinfarkt.
Angående diskusjonen over skjønner jeg at noen eier for lite U
Statistisk sett så mener jeg det da er rimelig å anta at ved en sykere populasjon vil man få større forskjeller mellom armene enn ved en friskere populasjon, og events vil komme tidligere i kontrollarmen. Boble tar utgangspunkt i en ganske syk populasjon, noe som jeg mener favoriserer eksperimentell arm, gitt forventet effekt av UV1.
Med en friskere populasjon kan man potensielt skyve 70 events langt inn i H1-23.
Korriger meg gjerne
Ikke for å være masete, men nærmer seg mer info og «juice» fra simuleringene dine?
Ser frem til innlegget til boblegutten😁
For å fortsette innlegget fra forrige uke, så har jeg jobbet en stund en simuleringsmodell som lager Kaplan Meier plot for INITUM. Her er den endelige versjonen. Jeg og @Polygon har diskutert disse INTIUM mye internt. Slik jeg ser det, så supplerer de hverandre. Om man absolutt skal se på avlesningstidspunkter, så er Polygon sin bedre. Fordelen med min modell er at man får sett simulerte Kaplan Meier plot, og undersøkt disse med metoder som brukes i kliniske studier, og som jeg tror vil bli brukt for INTIUM. Dessuten er poenget å vise det store spennet som kan ligge i avlesningene.
Innlegget er for øvrig veldig langt. Siden p-verdi, hazard ratio, avlesningstidspunkter osv beregnes, synes jeg det er riktig å forsøke og gi leseren forståelse for hvordan dette henger sammen, og antagelsene som ligger i bunnen. Jeg husker dessuten godt når jeg først begynte å fatte interesse for biotek, så tok det lang tid å sette seg inn i begrepene. Det tar lang tid å pløye gjennom dette innlegget, så det er lov å hoppe til Kaplan Meier plottene. Hadde mye jeg ville ha med, så da ble det slik.
Innlegget er delt om i tre deler: Teori, metode og resultat. Teoridelen begynner med en innledning om studiet, og går videre mer inn på design og statistiske modeller. Første delen er veldig kjent for mange, men etter hvert kan det bli så teknisk at det kun er interessant for spesielt interesserte. Metode delen går mer inn på hvordan modellen er bygget opp. Resultat delen inneholder det som innlegget bygger opp til, nemlig de simulerte Kaplan Meier plottene og noen tabeller.
NB: Dette er ikke en sannsynlighetsmodell. Jeg skriver ingenting om sannsynligheten for hvor god effekten kan være, eller hvor sannsynlig det er at en avlesning kommer på et gitt tidspunkt. Det er en modell som simulerer Kaplan Meier plot basert på historiske data, altså en modell for å vise hva slags effekt ulike Kaplan Meier plot kan gi. Det er gjort totalt 40000 simuleringer, der en simulering representerer ett bestemt KM-plot, med masse annen informasjon. Angående kommentarene i Radium om at vi ikke kan vite når avlesningen kommer, så er jeg jo helt enig i det. Det er alt for mange faktorer som spiller inn. Imidlertid kan man gjøre noen antagelser, og beregninger basert på disse.
TEORI
Kort om studien for eventuelle nye lesere:
INITUM er en fase 2 studie i metastatic malignant melanoma (føflekkreft med spredning) der det opprinnelig var planlagt at 154 pasienter skulle bli inkludert. Det endelige antallet ble 156, siden to personer var under screening når pasient nummer 154 ble inkludert. I studien er det to armer. Kontrollarmen mottar standardbehandling, som er Ipilimumab + Nivolumab. Den eksperimentelle armen mottar disse to legemidlene, sammen med UV1. Hensikten med studien er vise om UV1 forbedre overlevelsen til en gruppe pasienter som ellers ikke ville hatt effekt.
Studien er også event-drevet, der Progression-free survival (PFS) er primærendepunktet. I INTIUM er det 70 events som kreves. Jens Bjørheim, CMO i Ultimovacs, har gått gjennom dette omtrent hver eneste Radium episode om selskapet det siste året. Man kan for eksempel høre på siste Radium om selskapet, episode 241 fra 11:00 – 14:48.
Siden Kaplan Meier plot referes mye til her, kommer et kort eksempel på en simulering for de som eventuelt ikke er så kjente med dette:
Hver vertikale strek representerer progresjonen til en simulert pasient, altså et event. Her er det 42 eventer i kontrollarmen, og 28 i kontrollarmen. X-aksen representerer tiden i måneder. Y-aksen er da den prosentvise progresjonsfrie overlevelsen, som funksjon av tid.
Statistisk teori
For å evaluere Kaplan Meier plottene er det vanlig å bruke en Log-rank test, og Cox Proportional Hazards model. En Log rank test brukes til å å beregne p-verdien, og Cox Proporational Hazards model brukes til å beregne Hazard ratioen. Dette er en regresjonsmodell, til å beregne en slags gjennomsnittlige hazard ratio (HR) basert på dataene fra KM-plottene. Det er hazard ratio som virkelig sier noe om effekten, og det er dette jeg antar Bjørheim sikter til ved snakk om delta, areal mellom kurvene osv. P-verdien forteller om sannsynligheten for at det faktisk er en effektforskjell.
Jeg har sett på noen protocoller, og felles for dem alle er at Cox Proportional Hazards model benyttes for beregning av HR, Log-rank test benyttes for p-verdi, og de er designet med vanlig eksponentialfordeling eller variant av delvis ekspoentialfordeling, med PFS eller OS (Overall survival) som primærendepunkt. Jeg anser dermed disse metodene for å være bransjestandard. Sammen med HR rapporteres som regel konfidensintervaller. 95% konfidensintervall betyr at det er 95% sannsynlighet for at HR er innenfor øvre og nedre grense i intervallet. Her noen av protokollene:
Checkmate – 067, benchmark for INTIUM: https://www.nejm.org/doi/suppl/10.1056/NEJMoa1910836/suppl_file/nejmoa1910836_protocol.pdf
Keynote – 006, benchmark for UV1-103 (Pembro studien) :
https://www.nejm.org/doi/suppl/10.1056/NEJMoa1503093/suppl_file/nejmoa1503093_protocol.pdf
Keynote – 042, benchmark for Lungvac:
https://www.nejm.org/doi/suppl/10.1056/NEJMoa1810865/suppl_file/nejmoa1810865_protocol.pdf
Checkmate – 648:
https://www.nejm.org/doi/suppl/10.1056/NEJMoa2111380/suppl_file/nejmoa2111380_protocol.pdf
Den siste fant jeg tilfeldigvis når jeg prøvde å finne protokollen til Checkmate – 743. Den fant jeg ikke, men her har de brukt en slags variant av delvis exponentialfordeling slik jeg tolker det (Piecewise mixture cure rate model).
For å forklare hva delvis ekspoentialfordeling er, samt en del av begrepene som er nødvendige for å forstå resultatene under om man ikke alt er kjent fra før, begynner jeg med designet av NIPU studien. Med enkel eksponetialfordeling lykkes jeg i stor grad med ettergå designet der, og bør dermed være et bra eksempel. Det er likevel ikke gitt at NIPU er designet med eksponentialfordeling. Jeg sliter med å ettergå designet for INTIUM, dvs at jeg ikke klarer å komme frem til at N=154 pasienter ved design metoder. Ledelsen har imidlertid sagt at NIPU og INITIUM har veldig likt design. Kanskje bruker de Weibull istedenfor eksponetialfordeling? Jeg vet ikke. Dette er imidlertid heller ikke viktig for simulering av resultatene for INITIUM. Avsnittet nedenfor er fra denne artikkelen: NIPU: a randomised, open-label, phase II study evaluating nivolumab and ipilimumab combined with UV1 vaccination as second line treatment in patients with malignant mesothelioma | Journal of Translational Medicine | Full Text
“Under the null hypothesis, the PFS hazard ratio (HR), for ipilimumab and nivolumab in combination with UV1 (ipi/nivo/UV1) vs ipilimumab and nivolumab (ipi/nivo) is assumed to be 1.00. Under the alternative hypothesis, the HR is assumed to be 0.60. To test the null hypothesis with 80% power and a 1-sided alpha level of 0.10, a total of 69 PFS events are required. Based on the INITIATE trial [28], with 12 months median follow-up it is expected that 69% of patients treated with ipi/nivo will have progressed and, with a HR of 0.60, it is further expected that 51% of patients treated with ipi/nivo/UV1 will have progressed. With an expected accrual rate of 5 patients per month, a total N=118 patients randomized into the trial over a 24-month period and followed for a minimum of 2–3 months after the last patient is randomized will yield the 69 PFS events required”.
@Polygon har i tidligere innlegg beskrevet dette designet nøye med tanke på de to hypotesene, så det går jeg ikke inn på. Imidlertid er det viktig å forstå at hazard ratio (HR) beskriver forholdet mellom den eksperimentelle armen og kontrollarmen. Ved HR=1 er det ingen forskjell mellom armene. Om studien ved avlesning viser HR=0.60, så har pasientene i den eksperimentelle armen 40% lavere sjanse for progresjon enn pasientene i kontrollarmen. Et slikt resultat vil være veldig bra.
Det viktige her er at det antas at 69% i kontrollarmen har hatt progresjon etter 12 måneder, mot 51% i den eksperimentelle armen. Så hvordan kommer de frem til dette for den eksperimentelle armen, når de kun har historiske data fra kontrollarmen? Stikkordet er HR, som er 0.60 når de designet studien. En egen antagelse er at det er benyttet eksponetialfordeling, og begrunnelse kommer nedenfor. Nå blir det teknisk,
Funksjon for progresjon i en statistisk fordeling som baserer seg på eventer er også det samme som den kumulative fordelingsfunksjonen (Cumulative distribution function). Noe av disse begrepene forklares i disse linkene, som er en slags guide til et program som kan brukes til design av kliniske studier:
https://ncss-wpengine.netdna-ssl.com/wp-content/themes/ncss/pdf/Procedures/PASS/Tests_for_the_Difference_of_Two_Hazard_Rates_Assuming_an_Exponential_Model.pdf
https://www.ncss.com/wp-content/themes/ncss/pdf/Procedures/PASS/Logrank_Tests-Lachin_and_Foulkes.pdf
Funksjon for progresjon ved ekspoentialfordeling, la oss kalle den F(t), siden dette gjelder generelt for kumulative fordelingsfunksjonen, beskrives slik:
F(t) = 1 - e^(-λt)
Jeg beklager forøvrig litt litt uselige ligningene, men jeg det var ikke så lett å formattere. Her er λ altså vekstkoeffisienten, også kalt hazard rate. Dette er ikke det same som hazard ratio, men de henger sammen. Samtidig beskriver t tiden, avhengig av hvilken enhet man bruker, det kan være år, måneder, sekunder osv, avhengig av hva man undersøker. Her bruker vi år, t=1 tilsvarer altså 1 år.
Det vi imidlertid er mest interessert i her er overlevelsesfunksjonen, la oss kalle den S(t).
Forholdet mellom disse er:
S(t) = 1 – F(t)
Overlevelsesfunksjonen blir da:
S(t) = e^(-λt)
Dette kan da utrykkes ved λ, nemlig ved
Så over til HR, litt mer matematisk. Ved ekspenentialfordeling er hazard ratio forholdet mellom hazard raten i den eksperimentelle armen, mot hazard raten i kontrollarmen, altså:
HR = λ_e/λ_c
Uttrykt ved hazard raten for den eksperimentelle armen, λe, kan dette skrives som
λ_e = λ_c*HR
Så nå over til tallene i NIPU studien for å demonstrere hvordan det fungerer. Overlevelsesfunksjonen for kontrollarmen er:
Progresjonen etter 12mnd=1år er 69%. Overlevelsen, her PFS, er da 1 – 0.69 = 0.31. Da benyttes den ene ligningen ovenfor til å finne hazard raten. PFS for kontrollarmen uttrykkes for enkelhets skyld som Sc og ikke Sc(t):
Da kan hazard raten for den eksperimentelle armen, λ_e beregnes ved
λ_e = 1.171*0.60 = 0.7027.
Da har man alle opplysninger, og da kan dette setter inn i progresjonsfunksjonen for den eksperimentelle armen:
F(1)e = 1 - e^(-0.7027*1) = 0.5048
Her er man to hundredeler unna å kunne runde det opp til 0.51, som da er akkurat som artikkelen til NIPU. Jeg tror dette skyldes at jeg har brukt ulikt antall desimaler enn det de har gjort når NIPU ble designet, som riktignok er spekulasjon fra min side. For å komme frem til fordeling av events, antall pasienter som kreves i studien osv har man ulike modeller for dette. Det kan f.eks være det som omtales som Lakatos, Lachin and Foulkes, Schonfeld modell etc. Deler av Lachin og Foulks modellen ligger forklart i den ene linken ovenfor. Jeg går ikke noe videre inn på dette, det får eventuelt bli senere.
Delvis Ekspoentialfordeling.
Det er nå det virkelig blir teoretisk. I modellen min for simulering av INITUM har jeg somt nevnt benyttet delvis ekspoentialfordeling for modellering av Kaplan Meier kurven. Fordelen med denne er at man kan dele opp overlevelsesfunksjonen i intervaller, for å etterligne PFS kurven bedre. Da setter man ulike bruddpunkter (breakpoints), kalt τ, og deler opp i ulike intervaller, der det er en hazard rate for hvert intervall, der bruddpunktene markerer slutten på hvert intervall. Det er da en hazard rate mellom hvert bruddpunkt, og kan skrives slik:
Leddet λt er egentlig hazard funksjonen til eksponentialfordelingen, og t er tiden ved den angitte enheten, f.eks år eller mnd. Dette kalles nå Λ(t). For delvis eksponetialfordeling uttrykkes dette ved ulike intervaller, som knyttes til λ ovenfor. Hazard funksjonen er dermed slik for de tre første leddene:
Og overlevelsesfunksjon blir da på generell form:
S = e^(-Λ(t))
Dette kan da deles opp i intervaller. Disse intervallene vises i metodedelen, for det er nettopp dette som utgjør trekkefunksjonen. Viser de tre første intervallene på analytisk form:
Denne teoretiske delen av innlegget avsluttes med hvordan trekkefunksjonen lages. For enkelhets skyld viser jeg hvordan det kun er med enkel eksponential fordeling. Dette er viktig for å forstå hvorfor denne simuleringsmodellen gir så stor spredning i resultatene for simuleringene mine, da det trekkes tilfeldige tall ut ifra fordelingsfunksjonen som er spesifisert. Det begynner med at man trekker en rekke med tilfeldige tall mellom 0 og 1. Dette kalles en uniform fordeling. For INITUM er det da 156 tall som trekkes. Dette utgjør verdiene langs y-aksen i Kaplan Meier plottene.
U byttes ut med S i formelen for overlevelsesfunksjonen for delvis eksponetialfordeling. Grunnen er for å vise forskjell på at man da får en liste med forskjellige punkter. Det kan da skrives som:
T = - (ln(U))/λ
Og dette er da representerer overlevelsen (PFS) til de simulerte pasientene. Siden det kun er med 156 pasienter i INITUM, blir det dermed ganske forskjellige resultater når Kaplan Meier plottene simuleres. Derfor filterer jeg på visse kriterier, og velger noen som ser passe realistiske ut. Mer om det lengre ned.
For å være veldig transparent, her er verdiene som er brukt for å danne trekkefunksjonen. Mark at S1 starter før første bruddpunkt τ. Hver S utgjør dermed et intervall som vist over i formlene, mens her er det startpunktet i hvert intervall.
METODE
Først for å ta en oppsummering av hva som faktisk gjøres. Det er da en Python-modell alt dette skjer i:
- Hazard ratene beregnes ut ifra historiske data, i dette tilfellet PFS plottet fra Checkmate-067.
- Det importeres en fil med rekrutteringsdatoer for hver pasient. Disse dataene har jeg fått fra @Polygon, slik at innrulleringstidspunktene i modellene er helt identiske.
- Pasientene randomiseres. Dette gjøres med blokkrandomisering.
- Overlevelsestidspunktene, PFS i dette tilfellet, beregnes ut i overlevelsesfunksjonene. Den eksperimentelle armen beregnes ved at hazard ratio er input. For kontrollarmen er det allerede beregnet hazard rater og breakpoints som mates inn.
- Når 70 events nås, stoppes simuleringen. De gjenværende pasientene sensureres. Effektdata beregnes, som P-verdi, HR, konfidensintervaller osv.
- Dette gjøres N antall ganger for å generere et datasett. I dette tilfellet er det kjørt 10000 simuleringer for fire forskjellige input hazard ratioer. Det for HR=1, HR=0.60, 0.55, og 0.50, så 40000 simuleringer totalt.
- Plotter, eller gjør noe annet med datasettet. I dette tilfellet lage KM-plot og tabeller med effektdata vs avlesningstidspunkt.
Hazard rater og trekkefunksjon¨
Jeg begynner med å gjennomgå hvordan hazard ratene til den delvise ekspoentialfunksjonen beregnes. Det er nemlig basert dataene fra Checkmate-067, som er den beste studien å sammenligne kontrollarmen i INTIUM med. Hazard ratene beregnes ut i fra en IPD (Individual Pasient Data), og det samme gjøres for vanlige Kaplan Meier plot når man skal lage dette.
Her er Kaplan Meier plottet for PFS fra Checkmate-067, med tilhørende risk-tabell. Risk-tabellen er nødvendig når man skal gjenskape Kaplan-Meier plottene. Risk tabellen viser hvor mange pasienter som fortsatt er igjen i studien ved de gitte tidspunktene, og som dermed fremdeles kan progrediere.
Her ser man et tydelig drop mellom 2 og 3 måneder. Grunnen til dette er angivelig at første måling av tumor først gjøres etter 3 måneder, og at det er en del usikkerhet rundt når eventene i denne perioden faktisk inntreffer. Her får andre med mer inngående kunnskap om temaet eventuelt utdype. Uansett, det er nettopp denne knekken som gjør at delvis eksponetialfordeling er en vesentlig bedre tilnærming vanlig eksponetialfordeling.
Pasientinformasjonen fra Kaplan-Meier plottet, som gjør det mulig å gjenskape det samt å estimere hazard ratene, finnes ved å benytte det som kalles Guyot metoden. Koordinatene scrapes ved å benytte et verktøy til dette, f.eks WebPlotDigitizer, der koordinatene mates inn i et R-script for denne algoritmen. Input til R-scriptet er da en csv med coordinatene, og en csv/excelfil med risk-informasjonen i tabellen under KM-plottet.
Link til artikkelen, der R-coden er lagt til som vedlegg, samt WebPlotDigitizer:
https://automeris.io/WebPlotDigitizer/
Når IPDen er laget, mates dette inn i Python for å estimere hazard ratene. Det innebærer litt prøving og feiling, med hvor bruddpunktene er, samt hva som gir en «best fit» i forhold til regresjonsmetoden som brukes til å beregne hazard ratene. Som man ser på PFS kurven, så skiller armen Ipilimumab + Nivolumab seg fra armen med kun Nivolumab ved ca 0.73. For mine simuleringer har jeg satt at dette skjer ved 2.3 mnd, altså ved 0.82. Dette er kanskje et noe teoretisk og ikke minst optimistisk estimat, men slik ble det.
Hazard ratene beregnes med funksjonen PiecewiseExpoentialFitter i Lifelines pakken. Det ga følgende kurve:
Det skulle stått Months, ikke Years. Gadd ikke lage den på nytt.
Treffer forøvrig greit frem til 11 mnd, men den estimerte kurven ligger for høyt etter ca 11.7 mnd på den lille knekken fra Checkmate 067. I tillegg er det overfitting, som man ser ved at kurven er brattere ved rundt 22 mnd enn ved 17 mnd. Overfitting betyr da at man har for mange intervaller, slik at man ikke finner den reelle trenden. Dette er da justert manuelt. Det ga følgende kurve:
Dette er mye penere, og dermed danner dermed en fin trekkefunksjon for kontrollarmen. Forskjellen på disse plottene er kun at hazard ratene for den nye overlevelsesfunksjonen er manuelt justerte. Forskjellen på overskriftene er noe misvisende. Checkmate 067 er i bakgrunnen på begge. Videre er input i skriptet mitt HR. Pga nevnte likhet de 2-3 første månedene i plottet, har jeg antatt at hazard ratio er 1 frem til 2.3 mnd, og etter det styres dette av den HR som velges som input når simuleringene kjøres. Ved HR=0.60 fra 2.3 mnd, gir dette følgende kurver for kontroll og eksperimentell arm:
Her skiller kurvene lag ved 2.3 mnd, og der er PFS 0.82 for begge. Etter det er hazard ratioen proporsjonal. Da ser man en gradvis økning i den absolutte effektforskjellen mellom armene. Median hazard ratio med cox proportional hazard model ble da 0.654, basert på 10000 simuleringer. Det er likheten frem til 2.3 mnd som gjør at det ikke er 0.60.
Nedenfor er det presentert en del KM – plot, de fleste for slik populasjon som er noenlunde forventet ut i fra Checkmate – 067, der mPFS er 11.5 mnd som nevnt tidligere. Imidlertid har jeg laget noen KM-plot basert på en ganske sykere populasjon, samt noen med en litt friskere populasjon enn det som er forventet. Noen kriterier det filtreres på er at 6 mnd PFS er 0.61-065, siden det er 0.63 basert på figuren over. 1.6 mnd PFS 0.934, så da filteres det på 0.91-0.95. For 3 mnd PFS, som er 0.73, filteres det på 0.71-0.75. Det er også et krav om at forskjellen ved 1.6 mnd pfs er 0.02. Det betyr at den eksperimentelle armen ikke kan være over 0.94 eller under 0.90 om den kontrollarmen er 0.92 ved 1.6 mnd. Det filteres også med intervaller for hazard ratio og p-verdi, ut i fra hva man vil undersøke.
Pga pandemien anser jeg det som mer sannsynlig at pasientene er sykere enn friskere. Det har vært studier med Nivolumab som monoterapi i kontrollarmen, der mPFS har vært lavere enn i Checkmate- 067. Det er ikke kjørt egne simuleringer for disse scenariene, men det er mulig å trekke ut KM-plot for slike populasjoner siden simuleringene varierer så mye. Nedenfor er det også laget noen tabeller, ut i fra en gitt PFS, med diverse effektinfo. Det som ville utgjort trekkefunksjonen til kontrollarmen ser da slik ut:
Data fra denne brukes dermed til å filtrere for denne populasjonen. Hazard ratene er ganget med 1.2 Når hazard ratene øker, blir kurven brattere. Her nås mPFS ved 8.66 mnd. Ved HR = 1 nås ikke mPFS, og derfor må andre kriterier brukes for høy HR. 1.6 mnd PFS er 0.917, 3 mnd PFS 0.69, og 6 mnd 0.57. Noen prosentpoeng lavere enn for den normale populasjonen over hele linja, der forskjellen øker med tid.
NB: Kurvene for den syke populasjonen og den friske populasjonen har ikke blitt brukt til å kjøre simuleringer. De er kun blitt brukt til å vite hvilke kriterier som skulle filtreres på. Jeg brukte det samme datasettet hele veien basert på hazard ratene for den normale populasjonen. Pga mange simuleringer med stor spredning, var det også mulig å lage plot og tabeller for en såpass syk populasjon som den jeg har nevnt nå.
For en litt friskere kontrollarm enn det som er forventet basert på Checkmate – 067 ble hazard ratene i den store tabellen litt ovenfor ganget med 0.93. Det ga en mPFS på 14.4 mnd, altså ca 3 måneder enn for Checkmate – 067. Det gir følgende plot:
Det gir 1.6 mnd PFS på 0.934, 3 mnd PFS på 0.75, og 6 mnd PFS på 0.65.
Randomisering
I kliniske studier med mer enn en arm, randomiseres pasientene, slik at det er tilfeldig hvilken om pasienten havner i kontrollarmen eller den eksperimentelle armen. INITUM og de andre fase 2 studiene til Ultimovacs er randomiserte. Det vanlige i kliniske studier er blokkrandomisering. Litteratur tilsier at grupper på 4-10 pasienter er vanlig per blokk. Siden INITUM opprinnelig var designet med 154 pasienter, går ikke dette opp med partall. Derfor antok jeg opprinnelig at de hadde 23 blokker med 6 pasienter, og 2 blokker med 8 pasienter. Imidlertid, så endte det totalt opp med 156 pasienter. I modeller min har jeg derfor antatt en størrelse på 6 per blokk, med 26 blokker totalt. Det sørger da for at det aldri innrulleres mer enn tre pasienter på rad i noen av armene.
Dropout
I kliniske studier er det som regel alltid dropout av ulike grunner med tilhørende sensurering, eller «loss to follow-up. Det kan man se på PFS plottet til Checkmate-067. De vertikale strekene i KM-plottet representerer sensurering av ulike årsaker. Loss to follow-up er imidlertid ikke implementert i min modell enda, og er en stor svakhet. Grunnen er at jeg rett og slett ikke har tenkt ut en god måte å implementere det på. Jeg har et par ideer, men det vil ta tid. Får eventuelt gjøre noen nye beregninger senere for å sammenligne. En slik implementering kan potensielt forskyve avlesningstidspunktene noe.
Resultater
Tabeller
For hvert KM - plot legges det ved en rad med relevant nøkkelinformasjon som beskriver effekten, og dermed hvor gode resultatene er for det tilhørende KM – plottet. Her er en forklaring til hvert variabelnavn:
mPFS_C : Median progression-free survival for kontrollarmen. Ved relativt gode resultater blir dette aldri nådd for den eksperimentelle armen, så det er ingen kolonne for dette.
Events_control : Antall PFS events i kontrollarmen
Events_experimental: Antall PFS events i den eksperimentelle armen.
CI_l : Nedre 95% konfidensintervall for HR_Cox
HR_Cox : Hazard ratio beregnet med Cox Proportional Hazards model.
CI_u : Øvre 95% konfidensintervall. Dette henger sterkt sammen med en log-rank test. Når CI_u er rett under 1, er også log-rank testen som regel rett under 1. Da er det statistisk signifikant.
P_value: P-verdi beregnet med Log-rank test.
Først er noen tabeller med oversikt over HR, P-verdi, og avlesningsdato. Formatet på avlesningsdatoene er dd-mm-yyyy. For den øverste raden i den første figuren betyr det da avlesning 30. august 2022. Det bør ikke legges stor vekt på disse tabellene, de er kun ment for å gi en indikasjon på forskjellige scenarioer. De er laget ved å filtrere på ulike kriterier, for å finne et passe stort utvalg simuleringer, og ta medianen av verdiene for disse simuleringene. Det er litt ulike filtreringer som er benyttet for ulike scenarioer. Grunnen til dette er at jeg liker å filtrere på mPFS. Problemet med dette er at mPFS ikke blir nådd før det er en klar effektforskjell mellom armene, som gjør at mPFS ikke blir nådd når HR=1.00 og 0.80. Da er fint å filtrere på f.eks 3 mnd PFS og 6 mnd PFS for kontrollarmen, og jeg gjør dette med forskjellige intervaller, for å et passende utvalg.
Det er brukt relativt like kriterier for tabellen og KM-plottene, men for noen av plottene er de snevret inn. Det skyldes at jeg sjekker ut noen plot ut ifra utvalget som står igjen etter filtreringene.
Nedenfor er en figur for en normal populasjon, der mPFS i utgangspunktet er 11.5 mnd.
Det kan også nevnes at når jeg tas median av alle simuleringene som gir 41/29 fordeling av events, gir det avlesning 9.januar 2022. Det er en uke før @Polygon sitt estimat. Jeg synes det er en fin validering av hverandres modeller at de kommer så nærme hverandre for dette estimatet.
Uansett, over til den sykere populasjonen, mPFS=8.7 mnd.
Det gir følgende tabell:
Må innrømme jeg synes denne er meget spennende om kontrollarmen viser seg å være enn del sykere enn kontrollarmen i Checkmate-067. Så må jeg igjen påpeke at tabellen kun gir en indikasjon.
For en populasjon som i gjennomsnitt er litt friskere enn kontrollarmen i Checkmate-067 gir dette følgende tabell:
Her er det nå presentert tabeller for tre scenarier, ut i fra hvor friste pasientene i kontrollarmen er. @Inkognito666 har gravd en del i historiske studier, og funnet ikke funnet noen studier med høyere mPFS for Ipilimumab + Nivolumab enn det som vises i Checkmate – 067. mPFS for Nivolumab, som utgjør den ene kontrollarmen i Checkmate – 067, er også angivelig den høyeste historisk sett for Nivolumab i denne indikasjon. Det er nærliggende å tro at koronapandemien har en rolle her. Jeg tror det derfor er mer sannsynlig at mPFS er lavere blir lavere enn 11.5 mnd i INITIUM enn høyere, men det er ren spekulasjon. Det har vært en del diskusjon om dette på biotekchatten, men det får han eller andre ta ut på forumet etter hvert om ønskelig.
Kaplan Meier Plot
Kaplan Meier plottene nedenfor er egentlig det hele dette innlegget leder opp til. Hva som er et godt resultat i INTIUM får være opp til den enkelte investor å bedømme. Når det er sagt, om HR er rundt 1.00 så er dette naturligvis en klar failure, og noe man ikke vil se. Tabellene ovenfor gir jo håp om at vi faktisk er forbi dette.
De to første eksemplene viser KM-plot som man i utgangpunktet ikke vil se:
For dette eksempelet er det absolutt ingen effektforskjell mellom armene. Noe slikt vil være en klar failure. Legg imidlertid merke til datoen. Vi er godt forbi, og det er dette som menes med «forbi peak risk» som ble nevnt for et par dager siden. Fra tabellen var et tilsvarende scenario 30.08.2022, så det viser for så vidt at det er en del spredning. Merk: inf under mPFS_C betyr at mPFS ikke nås for kontrollarmen.
Nedenfor er et eksempel for HR=0.81. Da trender det i favør av UV1, men jeg håper på et vesentlig bedre resultat enn dette.
Som man ser, den eksperimentelle armen er en del over kontrollarmen, men det er ikke i nærheten av statistisk signifikant.
Heller ikke statistisk signifikant, men det er i godt favør UV1, gitt den relativt lave hazard ratioen og visuell forskjell mellom armene. Her begynner det å bli interessant. Også en ganske lang hale.
Så over til plottene når det nærmer seg statistisk signifikant. Jeg begynner med et par plot i intervallet der p-verdien er 0.05-0.10, og ellers samme filtreringer.
Først er et plot med litt høyere mPFS enn det som var i Checkmate-067:
Siden mPFS er såpass høy, blir også avlesning i starten av desember. Det er også et eksempel på den etter hvert ganske hyppig omtalte 41/29 fordelingen av events, samt et veldig pent plot med tanke på proposjonalitet, med unntak av de to første månedene som ser litt rotete ut.
Så et annet plot:
Der er det et merkelig platå i eksperimentelle armen mellom 2 og 4 mnd. Det er et eksempel på et litt spesielt plot, men for all del, noe lignende kan skje. Tenkte det kunne være interessant å vise frem slike litt merkelige plot også. Hazard ratio er ikke proposjonal her, for den absolutte forskjellen er faktisk litt større ved 3.5 enn ved 13 mnd.
Dette er kanskje det plottet jeg synes er “penest”, siden det er så tydelig at den abolutte forskjellen øker med tid:
Samme som vist helt i starten som et eksempel. Teknisk sett statistisk signifikant, skjønt det avrundet blir 0.050. Øvre konfidensintervall også 1.00 avrundet. Akkurat hva som er primærendepunktet i INITUM er uklart, men jeg kan ikke skjønne annet enn at BP vil være meget interesserte i UV1 både INITUM og NIPU viser tilsvarene KM-plot med tilsvarende effektdata.
Nytt plot:
Legg merke til likheten, men også forskjellen mellom disse to siste plottene. Samme event fordeling, 42/28, men forskjell i både p-verdi, hazard ratio og avlesning, sammenlignet med det forrige. Dette viser godt poenget at tidpunktet eventene inntreffer i forhold til hverandre også er av betydning.
Plot med enda lavere p-verdi:
Et eksempel på et ikke fullt så pent plot, med et veldig ujevnt parti fra ca 6-9 mnd i kontrollarmen. I tillegg ser jeg det ikke som realistisk at forskjellen er så såpass stor helt i starten, der noen events kommer vel tidlig i kontrollarmen. Likevel ikke helt utenkelig at det kan se omtrent slik ut ved veldig god effekt. HR på 0.55 og P-verdi på 0.014 er et ekstremt godt resultat.
Enda bedre:
Kanskje et litt tidlig avlesningstidspunkt for 44 events i kontrollarmen i forhold til det man forventer, men greit nok.
Hva som skal til for at selskapet søker om AA er utenfor min kompetanse, og det er nok veldig mange faktorer som spiller inn. Ren spekulasjon fra min side er at P-verdien for INITIUM bør være under 0.01. Her er et eksempel på dette:
Sjekk HR, ekstremt lav. Legg også merke til at konfidensintervallene slutter å overlappe mot slutten. Om HR blir under 0.55, så antar jeg selskapet i det minste vil gå i diskusjoner med regulatoriske myndigheter om AA. At HR er under 0.50 er ikke et realistisk scenario, det vil være helt spinnvilt.
Nå er det vist en del eksempler for en slik populasjon man forventer i kontrollarmen ut i fra Checkmate-067, så da er det over til et par eksempler for en sykere populasjon, deretter et par for en frisk populasjon. Jeg gidder ikke vise noen eksempler der for lav effekt, altså høy HR og p – verdi. Tabellene er der, som holder i første omgang.
Litt unaturlig stor forskjell helt i starten, ellers greit. Så over til @nordpolen sin betrakning fra forrige uke. Det vedkommende skriver er jeg helt enig i. Et tilleggspoeng er at når jeg tar utgangspunkt i en ekstra syk populasjon, så skal pasientene i den eksperimentelle armen også være sykere, slik jeg filterer i datasettet. Den absolutte effektforskjellen er mellom armene, eller arealet mellom armene om man vil, kan dermed være noe lavere for å gi samme hazard ratio. Så statistikken skal i utgangspunktet ikke bli påvirket av dette. Problemet blir om pasientene f.eks pga sen innrullering grunnet covid, er så syke at UV1 ikke rekker å virke sammenlignet med standardbehandlingen, når det i utgangspunktet ville gjort det. En ytterligere forklaring på dette er i grunn et fint spørsmål å stille til Jens Bjørheim i neste Radium med selskapet.
Nytt plot:
Plottet fra innlegget forrige uke, statistisk signifkant for syk populasjon.
Lignende plot nedenfor:
Klarte ikke helt bestemme meg for hvilke av de to jeg skulle ta med, så tok med begge. Omtrent lik effekt og mPFS, men nesten to ukers forskjell på avlesningsdato.
Så over til et eksempel i AA-søknad kategorien. Filtererte på p-verdi < 0.01, og at HR måtte være under 0.55
Urealistisk bra, men lov å håpe. Bare så vidt etter avlesning for det forrige plottet, så jeg tviler jo litt på hvor realistisk dette plottet er, så trenger jo ikke legge så stor vekt på avlesingsdatoen.
Nedenfor er noen plot for en friskere populasjon enn det som er forventet basert på Checkmate – 067, der kriteriene er nevnt nederst i metode delen. Det første plottet er basert på en filtreringen for at p-verdien er 0.05-0.10. mPFS er 14.0 – 14.8 mnd.
Plottet ser egentlig ganske greit ut, men en litt bølgete kontrollarm, ref det litt bratte droppet rundt 11 mnd. Tydelig friskere populasjon, med mPFS på 14.75.
Nedefor er et plot med filtering for p-verdi 0.05-0.01:
For det siste plottet er det filtrert på p-verdi 0.008 – 0.004, altså et helt vanvittig resultat. For en slik frisk populasjon vil dette da drøye en del.
Et helt ekstremt resultat, hazard ratio under 0.50. Veldig sen avlesningsdato.
Som nevnt, dette er kun beregninger ut i fra de antagelsene jeg har nevnt. Plottene kan også se helt annerledes ut enn det som er vist, selv med positiv avlesning, og det kan være faktorer jeg ikke har tenkt på. Selskapet har som kjent for mange guidet avlesning i H1 2023. Om det er spørsmål, fyr løs.
Og sist men ikke minst:
Husk readout-risk da folkens
Stor honnør til deg, @Boblegutten, for alt du deler her (nærmest et kompendium).
Imponerende grundig - og ikke minst er du krystallklar med hensyn til forutsetninger og forbehold.
Imponerende arbeid. Det er jo ganske utrolig. Her har noen på ett forum klart å regne ut ganske nøyaktig informasjon som markedet venter på.
Så det perfekte tidspunktet for å kjøpe aksjer? Starten av desember?
Om populasjonen er noe sykere enn historisk kontroll (noe som ikke er usannsynlig), så er det altså for sent. Det som er så artig å se illustrert her.
NB! Verken @Boblegutten eller @polygon utgir seg for å være orakler. Men de deler verdifull innsikt i sannsynlighetsspredning og utfallsrom for de avlesningene vi alle nå venter på.
Resten er et veddemål. Solid nformert. Med andre ord; hver enkelt av oss får vurdere egen risikoprofil.
Greed Vs fear. That easy that scary.
Dette må sammen med Poly sitt tidligere innlegg om samme tema være det råeste som er levert på dette forum. Fantastisk og takk. Sjenerøst. Prøver å sette meg inn i hovedinformasjonen, det faglige bakom skal jeg ikke prøve å trege inn i med min bakgrunn.
Jeg tror kanskje dette er det beste innlegget på TekInvestor gjennom tidene @Boblegutten, tusen takk!
Tusen takk! Det betyr mye at det kommer fra deg. Og ikke minst, tusen takk for at du drifter og ikke minst videreutvikler dette fantastiske forumet. Jeg har lært utrolig mye siden jeg begynte å lese her, og håper å fortsette med det. Da er det fint å kunne gi noe tilbake også
Dette var særdeles imponerende, husker svaret ditt da jeg spurte om noen kunne ta en statistisk beregning på CR parameteren da Ultimovacs kom med meldingen om at CR hadde gått fra 9 til 10, dvs 10 av 30 kontra 3 av 30. Svaret du ga var meget imponerende og opplysende, skjønte at her var det statistisk knowhow så det holdt. Dog innlegget i går var selvsagt noen divisjoner videre. Godt å vite at vi har en person med din kompetanse her på forumet, f.eks dagen melding om at 70 events er nådd.
Et spørsmål til slutt, det snakkes om fase 3 undersøkelse for en endelig verifisering av resultatene i INITIUM, men kan ikke meget bra resultater i INITIUM gjøre fase 3 nesten overflødig, feks det plottet der du påpeker at usikkerheten ikke overlapper hverandre. Skjønner at det er liten sjanse for at en slik avlesning inntreffer, men muligheten er jo der.
Eller er det bare sånn at uansett hvor gode resultatene er i en fase 2 undersøkelse, skal en fase 3 undersøkelse kjøres fordi antall pasienter i fase 2 undersøkelser fortsatt er lavt mhp å avdekke sjeldne bivirkninger.
@pdx, når du kjører ut dette innlegget som reklame i Finansavisen & Dagens næringsliv over X-antall helsider må du også huske å nevne Targovax!
Siden selskapet nå har lagt frem så gode data fra UV1-103 studien, med Kaplan Meier plot for OS dataene, måtte jeg se litt nøyere på dem. Dette er da fase 1/2a studien på 30 pasienter der UV1 ble kombinert med Keytruda/Pembrolizumab. Kaplan Meier plottene er på slide 10 her: https://ultimovacs.com/content/2022/10/SMR_Presentation.pdf
Selskapet bruker Keynote-006 når de sammenligner resultatene mot historiske data. Artikkelen ligger bak betalingsmur, men kan finnes her:
Jeg har brukt figur 2C som sammenligning, da det plottet gjelder OS data for førstelinjepasienter for begge gruppene som fikk Keytruda.
Dataene er deretter rekonstruert basert på KM-plottene, og plottet sammen. Brukte R denne gangen, da pakkene der er litt bedre enn Python sine for enkle KM-plot. Dataene er opprinnelig scrapet frem til 40 måneder, men plottet er begrenset til 25 mnd pga mye sensurering på slutten. 36 mnd data for kohort 2 har nemlig ikke kommet enda. Det store spørsmålet er da hva hazard ratio (HR) blir om de sammenlignes.
Her plottet med risk-tabell:
Dette gir HR=0.54!
For 30 måneder gir det HR=0.52, men der blir det en del sensurering og slikt, samt et event litt etter 31 mnd. Uansett, en helt vanvittig forskjell mellom armene. Siden det er såpass få pasienter, og dertil enorme konfidensintervaller slik man ser i plottet, er det ikke helt statistisk signifikant om man ser på p-verdi, men det trender i intervallet 0.06-0.11, om man slutter plottet mellom 25-40 mnd.
Å sammenligne et signel-arm studie mot et historisk studie på denne måten jo ikke det optimale, men det beste vi har foreløpig.
Interessant at Carlos nevnte AA ved enormt gode resultater i INITUM, for jeg antar at selskapet vil søke AA om INTIUM gir en HR som dette, og da er det selvsagt statistisk signifikant med veldig stor margin. Det er beskrevet bedre i innlegget mitt for en drøy uke siden. Det som gjør resultatene enda bedre er PD-L1 distribusjonen, beskrevet av @Polygon og @Inkognito666 i morges og i går.
Akkurat i dag ble det mest sannsynlig 38 eventer i kontrollarmen i INITIUM, og dermed fortsatt maksimum 32 eventer i den eksperimentelle armen. Forskjellen mellom de to PFS-kurvene som disse to antallene indikerer, vil mest sannsynlig gi en utregnet hazard ratio på 0.8, som er det samme som det vanligste primærendepunktet i en fase 3. Men siden INITIUM er såpass få pasienter, vil man ikke ennå med sikkerhet kunne si at dette ikke skyldes flaks. Men mest sannsynlig er det ikke flaks, og dette betyr igjen at allerede nå vil data mest sannsynlig gjøre det interessant for et BP å lisensiere inn UV1 og gjennomføre en fase 3.
Vi er altså nå mest sannsynlig halvveis til å komme over lista som er lagt dobbelt så høyt i INITIUM (HR=0.60) som en typisk fase 3 (HR=0.80). Men som @boblegutten har vist, så er det godt mulig vi er på HR=0.60 allerede også, og særlig dersom de mange indikasjonene på at pasientene med føflekkreft typisk har vært mer langtkomne før de startet behandling eller ble rekruttert til kliniske studier i de siste par årene under pandemien, enn i den studien som @boblegutten og jeg har basert oss på i utregningene.
Som investorer i sektoren er denne tråden alene verdt et betalt medlemskap på TI.
Veldig bra at du holder orden på statistikken polygon, for jeg tenker at det er denne tidsserien, samt det faktum at Ultimovacs har (lett) klart å rekruttere pasienter i sine randomiserte fase 2 studier som er de 2 store “markørene” for at dette kan komme til å gå bra.
Selvsagt har de gode data på de studiene vi allerede kjenner data fra, men alltid lurt å tenke seg litt om.
Har fortsatt problemer med å skjønne hvordan PCIB klarte i sine tidligere studier å få hele 3 CR på 11 evaluerbare pasienter, for så å falle gjennom i sitt avbrutte RP2-studie.
Benchmark var ca 1 CR per 100 pasienter i gem-cis ABC08 studie, og denne 1 CR på 100 ratioen gjentok seg i AstraZeneca sitt TOPAZ-1 studie med gem-cis pluss durvalumab.
Der de fikk 4 CR på 341 pasienter i eksperimentell-armen, og 2 CR på 344 pasienter i kontroll armen.
Har som sagt store problemer med statistikken i det regnestykket.
Anywayz, den smartere vinklingen er muligens pasientrekuttering, og der har PCIB sitt RELEASE likhet med NANO sitt PARADIGME, store problemer med pasient-rekrutteringen.
Der har jo aldri Ultimovacs aldri hatt noen problemer. Og så kan man jo være djevelens advokat og hevde at den ekstra sprøyta er så lite ekstra-arbeid, at det kunne holde ting i gang okke som, men da ville jeg tro at det kanskje ikke var så lett å sett i gang studie etter studie.
Det er noen “feets on the ground” et og annet sted, og det er unektelig positivt at de dryppene man får tilsier at de som kjenner dette bedre enn oss virker å være optimistiske.
Og correct me if I am wrong, men dette er vel det første større randomiserte studie som er gjennomført av et norsk biotek siden Algeta? Ultimovacs kommer til å kunne sette 2 streker under svaret.
Ja, det MÅ vel bety at det fakstisk var forskjell på pasientene og ikke flaks/uflaks.
Det er nok også et poeng at sterke fase I data logisk nok er overrepresentert i det som blir synlig i form av større studier senere. Om bare en av fire går fra fase I til fase II, så har man nettopp ikke hørt om de tre andre som ikke går videre. Sterke fase I data er “usannsynlig gode” nettopp fordi de har blitt “valgt ut” fra en større gruppe fase I data.
Og da er det store, store poenget at Ultimovacs ikke bare har sterke fase I data fra én studie, slik som PCIB vel hadde, men data fra fire studier som alle peker i samme sterke retning av klinisk effekt. Det er en sekser versus fire seksere (som muligens folk begynner å bli litt lei av at jeg messer om)