Alfa-beta kvoten i prostatacancer

(1)

U.U.D.M. Project Report 2020:35

Examensarbete i matematik, 15 hp Handledare: Hans Garmo, RCC Ämnesgranskare: Rolf Larsson Examinator: Martin Herschend Augusti 2020

Department of Mathematics

Alfa-beta kvoten i prostatacancer

Casper Fredriksson de Rond

(2)

(3)

Alfa-beta kvoten i prostatacancer

Casper Fredriksson de Rond Mars 2020

1 Introduktion

1.1 Prostatacancer

Cancer defineras som celler med ökad celldelning som invaderar andra vävnader i kroppen. Cancer orsakas av mutationer i cellens DNA som leder till att de normala funktionerna störs. Gemensamt för m˚anga cancertyper är att gener som kontrollerar celldelning, celldöd och DNA reparation har muterats. Cancer beter sig olika beroende p˚a vilken typ av cell den utvecklats fr˚an[1].

Cancer är en av de vanligaste dödsorsakerna och i Sverige st˚ar cancer för 26% av dödsfallen. I Sverige är prostatacancer den vanligaste cancerdiagnosen bland män och 2018 dog 2313 män till följd av prostatacancer[2].

I tidigt stadie av prostatacancer märks ofta inga symptom, utan det är först när prostatan svullnat upp s˚a pass mycket att den börjar trycka p˚a urinröret som det märks av. Detta leder d˚a till problem med urinering. Prostatacancer kan även ge symptom när den metastaserar, d˚a ofta till skelettet. P˚a grund av prostatans läge sätter sig ofta metastaserna i höften och ryggen och ger upphov till smärta i dessa regioner[3].

1.1.1 Diagnostisering

Den vanligaste diagnosmetoden för prostatacancer är mätning av prostataspe- cifikt antigen (PSA) i blodet. PSA är ett protein som bildas i prostatan och det finns i vanliga fall inte i n˚agra större mängder i blodet. Förhöjda PSA-värden

är vanligt vid prostatacancer men det finns även andra faktorer som leder till förhöjda värden. Av den anledningen kan inte en diagnos ställas p˚a grund av en- bart förhöjda PSA-värden. För att kunna säkerställa en diagnos utförs biopsier av prostatan som sedan undersöks i mikroskop. Vid undersökning av prostatan i mikroskop klassificeras cancerceller med Gleasonpoäng beroende p˚a hur mycket cellernas utseende avviker fr˚an normala celler, poängen g˚ar fr˚an 1 till 5 där 5 är mest olik normala celler. Eftersom cancerceller kan ha olika Gleasonpoäng i en och samma tumör tittar man p˚a de tv˚a mest förekommande cancercellstyperna och adderar poängen till en Gleasonsumma. Vanligtvis f˚ar man inte diagnosen prostatacancer om Gleasonsumman är under 6[4]. En cancer kan ocks˚a bedömas

(4)

utifr˚an tumör, nod, metastas (TNM) gradering. TNM-gradering best˚ar av 3 se- parata graderingar, T-stadie, N-stadie och M-stadie. T-stadie värderar tumörens utbredning och delas in i T1 till T4. T1 betyder att tumören är för liten för att synas p˚a tomografiundersökningar, T2 betyder att tumören är helt innesluten i kapseln som omger prostatan, T3 betyder att tumören har spridit sig utanför kapseln men inte in i andra vävnader och T4 betyder att tumören har spridit sig till närliggande organ. Stadierna kan ytterligare delas in i subkategorier men det är inget som används i den här uppsatsen. N- och M-stadie delas in i 0 och 1 där 0 betyder att cancern inte spridit sig till lymfnoder respektive metastaserat och 1 betyder att den har gjort det.

1.1.2 Behandling

Beroende p˚a patientens hälsa används olika behandlingar. Om patienten har d˚alig hälsa används oftast behandlingar som hindrar tillväxten av tumören och lindrar symptom istället för behandlingar som botar patienten d˚a de kan vara för farliga för patienten. Om cancern är tillräckligt lindrig kan man ocks˚a avst˚a behandling d˚a det inte är säkert att cancern kommer utvecklas till en allvarlig sjukdom. I de fallen där man väljer att försöka bota cancern finns det tv˚a olika behandlingar, kirurgi och str˚albehandling.

Kirurgi innebär att man tar bort prostatan och sädesbl˚asorna. Vid kirurgibe- handling kan patienten f˚a problem med erektion och inkontinens efter˚at och m˚anga f˚ar best˚aende men. Även efter operation ˚aterfaller ca 25% av patienterna och det beror mycket p˚a vilken Gleasonsumma tumören har.

Str˚albehandling kan delas in i tv˚a kategorier, inre och yttre str˚albehandlning, i den här uppsatsen kommer fokuset ligga p˚a yttre str˚albehandling. Yttre str˚albehandling g˚ar ut p˚a att tumören str˚alas med radioaktiv str˚alning vilket dödar celler. Ef- tersom även omkringliggande vävnad utsätts för str˚alningen kan patienten f˚a erektionsproblem, inkontinens och problem med ändtarmen efter behandling- en. Cancerceller har en ohämmad celldelning och sämre förm˚aga att reparera sitt DNA, därför är de känsligare för str˚alning än vanliga celler vilket gör att str˚albehandling är väldigt effektivt[3].

1.2 Alfa-beta kvoten

Att celler dör av radioaktiv str˚alning är det ingen som ifr˚agasätter men hur celldöden ska modelleras med ökande str˚aldos är inte helt säkerställt men ett av de vanligaste sätten, och det som kommer användas i den här uppsatsen, är alfa-beta kvoten. D˚a modelleras cellöverlevnaden S vid dosen d, mätt i Gray, som

S = e^−(αd+βd²⁾ (1)

Vid sm˚a doser kommer storleken p˚a α ha störst effekt p˚a cellöverlevnaden men när dosen ökar kommer storleken p˚a β att f˚a en större effekt och alfa-beta kvoten representerar dosen där α och β bidrar lika mycket till cellöverlevnaden. Vid n upprepade doser där tiden mellan doserna är tillräckligt liten för att cellerna

(5)

ska hinna reparera DNA-skadorna mellan varje dos men tillräckligt stor för att celldelningen inte ska p˚averka blir cellöverlevnaden

S = (e^−(αd+βd²⁾)ⁿ= e^{−nd(α+βd)}= e^−D(α+βd) (2) där D är den totala str˚aldosen och d är fraktionsdosen. Det här betyder att vävnad med en hög alfa-beta kvot är känsligare för en ökad fraktionsdos än vävnad med l˚ag alfa-beta kvot.

Om man känner till alfa-beta kvoten kan man räkna ut vilken total str˚aldos som en behandling med fraktionsdos d₁ behöver för att f˚a samma effekt som en annan behandling med total str˚aldos D₂och fraktionsdos d₂ genom

e^−D(α+βd¹⁾= e^−D²^(α+βd²⁾ D(α + βd1) = D2(α + βd2)

D = D2

(^α_β + d2) (^α_β + d1)

(3)

Alfa-beta kvoten för olika vävnadstyper är viktig att veta för att kunna minimera biverkningar fr˚an str˚albehandling. Biverkningarna uppst˚ar eftersom

även frisk vävnad som ligger nära tumören str˚alas och börjar dö. Eftersom alfa-beta kvoten säger hur känslig vävnaden är för ökad fraktionsdos kan den användas om b˚ade cancervävnadens och den friska vävnadens alfa-beta kvot

är känd. Om cancern har högre alfa-beta kvot än den friska vävnaden är den mindre känslig för en ökad fraktionsdos och fraktionsdosen bör h˚allas l˚ag och istället öka antalet behandlingstillfällen.

En metaanalys fr˚an 2019 uppskattar alfa-beta kvoten till 1.6 med ett 95%-igt konfidensintervall p˚a (1.3, 2.0)[5].

2 Data

Datamaterialet är tagen fr˚an PCBaSe som är en databas för prostatacancer och har skapats genom att sl˚a samman data fr˚an Nationella Prostatacancerregistret (NPCR) med datamaterial fr˚an andra databaser med hjälp av personnummer.

Datamaterialet best˚ar av 54 variabler fr˚an 19843 patienter. Efter att ha tagit bort alla patienter som dog innan 2008-12-31 ˚aterstod 19093 patienter och efter att ha tagit bort de som fick n˚agon typ av inre str˚albehandling ˚aterstod 13329 patienter. I analysen anv¨andes 8 variabler som oberoende och 2 som beroende.

De oberoende variablerna ¨ar EQD2, ˚alder, Gleasonsumma, PSA, T stadie, pro- portion av biopsin˚alar med cancer i, utbildningsniv˚a och Charlson Comorbidity Index (CCI).

EQD2 ¨ar den ekvivalenta totala str˚aldosen vid fraktionsdos 2 Gray f¨or en given alfa-beta kvot.

Gleasonsumman är uppdelad i 5 kategorier, Gleasonsumma 2-6, Gleasonsumma 7 där största andelen av tumören har Gleasonvärde 1-3, Gleasonsumma 7 där största andelen av tumören har Gleasonvärde 4-5, Gleasonsumma 8 och Glea- sonsumma 9-10.

(6)

PSA är indelad i 5 kategorier beroende p˚a vilken halt som uppmättes i blodet, halten anges i mikrogram per liter. Kategorierna är 0-3, 3-10, 10-20, 20-50 och

>50.

T stadie ¨ar uppdelad i 1-4 f¨or T1-T4.

Utbildningsniv˚an är indelad i tre kategorier, l˚ag, medel och hög. L˚ag innebär att personen har 9 ˚ars förgymnasial utbildning eller mindre, medel innebär att personen har mindre än 3 ˚ars eftergymnasial utbildning och hög innebär att personen har 3 ˚ars eftergymnasial utbildning eller mer.

CCI är en gradering där man f˚ar poäng för varje underliggande sjukdom man har beroende p˚a hur dödliga de är och sedan summeras alla poäng. [6]

3 Metod

3.1 Overlevnadsanalys ¨

Overlevnadsanalys handlar om sannolikheten att det tar en viss tid till en¨ händelse, t.ex. hur länge ett kugghjul h˚aller i en maskin eller hur länge en patient överlever efter en viss behandling. Inom överlevnadsanalys talar man ofta om överlevnadsfuntionen S(t) = 1 − F (t) där F (t) är den kumulativa fördelningsfuntionen. Överlevnadsfunktionen beskriver sannolikheten att händelsen inträffar efter tiden t. Hasarden är definerad som

λ(t) = lim

dt→0

P (t ≤ T < t + dt|t ≤ T )

dt = (4)

= lim

dt→0

P (t ≤ T < t + dt)

P (t ≤ T )dt = f (t)

S(t) = −S⁰(t)

S(t) (5)

och beskriver sannolikheten att händelsen inträffar vid tid t givet att den inte inträffat innan.

3.1.1 Coxregression

Coxregression är en proportionell hasardmodell (proportional hazard model) vilket innebär att hasarden är multiplikativt beroende av kovariaterna och att kovariaternas effekt är oberoende av varandra. Hasarden vid tid t givet kovariaterna X blir d˚a λ(t|X) = λ₀(t) exp(X · θ) där λ₀ är basvärdeshasarden och θ

¨ar en vektor med koefficienter.

För ett prov X = {X1, X2, . . . , Xn} där experiment i har kovariaterna Xi = {Xi1, Xi2, . . . , Xip} och händelsen skedde vid tid Yihar varje experiment likelihoodfunktionen:

L(θ|Xi) = λ(Yi|Xi)

Σj:Y_j≥Yiλ(Yi|Xj) (6)

= λ₀(t) exp(X_i· θ)

Σj:Y_j≥Yiλ0(t) exp(Xj· θ) (7)

= exp(X_i· θ)

Σj:Yj≥Yiexp(Xj· θ) (8)

(7)

Om experimenten kan antas vara oberoende blir likelihoodfunktionen f¨or hela provet:

L(θ|X) = Πi:C_i=1L(θ|Xi) (9) där Ci = 1 innebär att händelsen har inträffat innan den tidpunkten datan samlades in.

I ekvation (3) ser man att likelihoodfunktionen är oberoende av λ₀ som inte behöver estimeras för att genomföra regressionen.

3.2 Estimering av alfa-beta kvoten

För att estimera alfa-beta kvoten gjordes flera coxregressioner med olika alfa- beta kvoter. Eftersom EQD2 beror p˚a alfa-beta kvoten genom det icke-linjära förh˚allandet:

D_EQD2= D

α β + d

α

β + 2 (10)

(se ekvation 2) kommer regressionsmodellerna ha olika likelihood f¨or olika alfa- beta kvoter. Sedan valdes den alfa-beta kvot som gav regressionsmodellen med h¨ogst likelihood.

3.3 Bootstrap

Bootstrap används när man inte vet vilken fördelning ett estimat har. Det g˚ar ut p˚a att man antar att provet är representativt för hela befolkningen, sedan resamplas provet och estimatorn beräknas. Processen upprepas sedan s˚a m˚anga g˚anger som behövs för att f˚a bra data. De beräknade värdena kan d˚a ses som en empirisk fördelningsfunktion och ett konfidensintervall kan beräknas.

3.4 Imputation

Ett vanligt problem i statistiska analyser är att datamängderna saknar data för vissa variabler vilket gör att man inte kan använda m˚anga analysmetoder. För att komma runt det kan man utesluta alla datapunkter som saknar minst en variabel. Problemet som d˚a kan uppst˚a är att det inte är helt slumpmässigt vilken data som utesluts utan att en viss typ av datapunkt har en större sannolikhet att sakna data för en variabel vilket gör analysen partisk. För att undvika det kan man fylla i de saknade värdena p˚a olika sätt till exempel använda medelvärdet för den variabeln eller ta ett värde fr˚an en slumpmässigt vald datapunkt där värdet inte saknas. Olika metoder har olika för och nackdelar och det finns ingen som är objektivt bäst. Genom att använda flera olika metoder och kombi- nera resultaten kan man reducera nackdelarna. Imputationen gjordes av Marcus Westerberg och för att se vilka metoder som användes se artikeln ’Prediction of metastatic prostate cancer by prostate-specific antigen in combination with T stage and Gleason Grade: Nationwide, population-based register study’[7].

(8)

3.4.1 Rubin’s regel

Rubin’s regel används när man estimerar en parameter med hjälp av flera olika imputerade datamängder när parametern kan antas vara normalfördelad. Regeln säger att medelvärdet för parametern θ är:

θ =¯ 1

DΣ^D_d=1θˆ_d (11)

där D är antalet imputerade datamängder och ˆθ_där estimeringen för datamängd d. För att beräkna en skattning av den totala variansen T för θ behöver man skatta variansen för θ inom de imputerade datamängderna,

V =¯ 1

DΣ^D_d=1V_d (12)

där V_d är variansen i datamängd d och mellan datamängderna

B = 1

D − 1Σ^D_d=1(¯θ − ˆθ_d)² (13) Skattningen av den totala variansen T blir d˚a:

T = ¯V + (1 + D⁻¹)B (14)

Sedan kan ett konfidensintervall ber¨aknas.

4 Resultat

Datamängd 1 är hela datamängden och analysen utfördes med 1000 iterationer av bootstrap. Datamängd 2 är hela datamängden där alla patienter som dog innan 2008-12-31 är exkluderade och analysen utfördes med 1000 iterationer av bootstrap. Datamängd 3 är datamängd 2 där alla patienter som f˚att n˚agon typ av inre str˚albehandling har blivit exkluderade och analysen utfördes med 1000 iterationer av bootstrap. Eftersom den högsta alfa-beta kvoten som testas är 11 kan man inte utifr˚an den här analysen dra en slutsats p˚a vad den övre gränsen p˚a konfidensintervallet bör vara. Datamängd 4 är de imputerade datamängderna och resultatet togs fram med Rubin’s rule. Datamängd 5 är samma som da- tamängd 4 men konfidensintervallet beräknades som för en vanlig bootstrap. Se tabell 1 för punktskattningar och konfidensintervall för datamängd 1-5. Se även Figur 1-4 för histogram över beräknade alfa-beta kvoter.

(9)

Datam¨angd Punktskattning Konfidensintervall

1 4.00 (2.4, 5.6)

2 4.52 (2.9, 6.0)

3 4.11 (2.7, >11)

4 4.38 (3.32, 5.44)

5 - (2.85, 5.85)

Tabell 1: Tabellen visar punktskattningar och konfidensintervall f¨or olika datam¨angder.

5 Diskussion

En metaanalys fr˚an 2019 uppskattar alfa-beta kvoten till 1.6 med ett 95%-igt konfidensintervall p˚a (1.3, 2.0) [5].

Resultaten fr˚an alla analyser som gjordes skiljer sig fr˚an resultatet i metaanaly- sen d˚a inget konfidensintervall fr˚an denna analys överlappar med konfidensintervallet i den studien. Det här skulle kunna bero p˚a att tillvägag˚angssättet skiljer sig ˚at. I artikeln uppskattar de en dos-respons kurva som de sedan använder för att uppskatta alfa-beta kvoten. I den här analysen används överlevnadstiden fr˚an behandling som den beroende variabeln medan man i artikeln använder PSA-˚aterfall. När man behandlar prostatacancer sjunker PSA niv˚aerna i blodet och om de börjar öka igen och kommer över ett visst värde kallas det för PSA-˚aterfall och används som indikation att cancern kommit tillbaka. Eftersom PSA-˚aterfall inte nödvändigtvis förutser död i prostatacancer är det mycket möjligt att det är därför resultaten skiljer sig ˚at. Artikeln är ocks˚a en metaanalys vilket innebär att den tar data fr˚an flera olika artiklar och sammanställer dem vilket kan p˚averka vad man f˚ar för resultat eftersom datamaterialet kan samlas in eller mätas p˚a olika sätt.

Resultatet fr˚an datamängd 1 skiljer sig fr˚an resterande resultat även fast bara ca 800 deltagare uteslöts fr˚an datamängd 1 till datamängd 2 vilket skulle kunna tyda p˚a att äldre data inte är lika tillförlitliga som nyare data. Det skulle kunna bero p˚a att str˚alningstekniken har förbättrats s˚a att man kan säkerställa att rätt omr˚ade f˚ar den dos man avser. Det är ocks˚a intressant att datamängd 3 har en svans av höga värden som gör att konfidensintervallets övre gräns blir betydligt mycket högre än för de andra datamängderna. Det kan bero p˚a att inre str˚albehandling ofta använder mycket högre fraktionsdoser och man f˚ar d˚a en större variation i datan och alfa-beta kvoten f˚ar en större effekt p˚a resultatet. Utan den inre str˚albehandlingen kan likelihoodkurvan bli flackare och sm˚a skillnader i vilka datapunkter som väljs f˚ar större effekter p˚a skattningen av alfa-beta kvoten.

Metoden som användes här för att skatta alfa-beta kvoten kan kritiseras eftersom den använder datamaterial som är väldigt l˚angt ifr˚an vad alfa-beta kvoten faktiskt p˚averkar, vilket är celldöd. I metoden används överlevnadstiden för patienten som ett m˚att p˚a celldöd i cancern vilket bygger p˚a antagandet att ju fler cancerceller som dör desto större chans har man att överleva en längre tid.

(10)

Ett mer direkt sätt att uppskatta alfa-beta kvoten hade varit att str˚ala en tumör med olika fraktionsdoser och sedan undersöka hur m˚anga cancerceller som dog.

Det man vill använda alfa-beta kvoten till är dock inte att veta hur m˚anga cancerceller som dör utan att f˚a patienterna att leva s˚a länge som möjligt efter behandling. Därför finns det en poäng i att använda överlevnadstiden istället för celldöd för att säkerställa att alfa-beta kvoten faktiskt är meningsfull att ta reda p˚a och inte n˚agon l˚atsasvariabel. S˚a även om det här sättet att upp- skata alfa-beta kvoten inte är den mest direkta s˚a bidrar den änd˚a med viktig information om alfa-beta kvoten och säkerställer dess relevans.

(11)

Referenser

[1] National Cancer Institute. What is cancer? url: https://www.cancer.

gov / about - cancer / understanding / what - is - cancer. (Fr˚an: 2020-05- 22).

[2] Folkh¨alsomyndigheten. D¨odlighet i prostatacancer. url: https : / / www . folkhalsomyndigheten.se/folkhalsorapportering-statistik/tolkad- rapportering/folkhalsans-utveckling/halsa/dodlighet-i-cancer/

prostatacancer-dodlighet. (Fr˚an: 2020-05-22).

[3] Cancerfonden. Prostatacancer. url: https://www.cancerfonden.se/om- cancer/cancersjukdomar/prostatacancer. (Fr˚an: 2020-05-22).

[4] Prostate Cancer Foundation. Gleason Score and Grade Group. url: https:

//www.pcf.org/about-prostate-cancer/diagnosis-staging-prostate- cancer/gleason-score-isup-grade/. (Fr˚an: 2020-05-22).

[5] Ivan R. Vogelius och Søren M. Bentzen. “Diminishing Returns From Ult- rahypofractionated Radiation Therapy for Prostate Cancer”. I: Internatio- nal Journal of Radiation Oncology 107.2 (2020), s. 299–304. doi: https:

//doi.org/10.1016/j.ijrobp.2020.01.010.

[6] Charlson ME m. fl. “A new method of classifying prognostic comorbidity in longitudinal studies: development and validation”. I: J Chronic Dis 40.5 (1987). doi: 10.1016/0021-9681(87)90171-8.

[7] Frederik B. Thomsen m. fl. “Prediction of metastatic prostate cancer by prostate-specific antigen in combination with T stage and Gleason Grade:

Nationwide, population-based register study”. I: PLoS ONE 15.1 (2020).

doi: https://doi.org/10.1371/journal.pone.0228447.

(12)

A Figurer

Figur 1: Figuren visar ett histogram över alla beräknade värden i bootstrapen för datamängd 1

Figur 2: Figuren visar ett histogram över alla beräknade värden i bootstrapen för datamängd 2

(13)

Figur 3: Figuren visar ett histogram över alla beräknade värden i bootstrapen för datamängd 3. En alfa-beta kvot p˚a 11 var det högsta som testades vilket är varför sista stapeln är betydlig högre än de andra i närheten.

Figur 4: Figuren visar ett histogram över alla beräknade värden i bootstrapen för datamängd 5.

(14)

Figur 5: Figuren visar en QQ-plot över de estimerade värdena för alfa-beta kvoten. Den röda linjen är en referens för en normalfördelning.

B Kod

library(survival)

setwd("C:/Users/pcbase-casper.fred/Documents") D <- read.csv("PrimaryRT.csv")

for (i in 1:20){

assign(paste("IMP", i, sep = ""), read.csv(paste("IMP", i, ".csv", sep = ""))) }

#### Lite Data Management ####

D$Gleason <- factor(1*(D$D_GLEASSA %in% 2:6)+

2*(D$D_GLEASSA %in% 7 & D$D_GLEASETT %in% 1:3) + 3*(D$D_GLEASSA %in% 7 & D$D_GLEASETT %in% 4:5) + 4*(D$D_GLEASSA %in% 8) +

5*(D$D_GLEASSA %in% 9:10),levels=c(1:5,0), labels=c(paste0(’GGG’,1:5),’Missing’)) table(D$Gleason,exclude = NULL)

D$ProportionCores_tmp <- cut(D$d0_biopca/D$d0_biop,breaks=c(-0.01,0.2,0.4,0.7,1)) table(D$ProportionCores_tmp,exclude = NULL)

D$ProportionCores <- factor(D$ProportionCores_tmp,

levels=c(levels(D$ProportionCores_tmp),NA),

labels=c(’0-20%’,’21-40%’,’41-70%’,’>70%’,’Missing’) ,exclude = NULL)

D$PSAgrp_tmp <- cut(D$d0_psa,breaks=c(-0.01,3,10,20,50,Inf))

(15)

table(D$PSAgrp_tmp,exclude = NULL)

D$PSAgrp <- factor(D$PSAgrp_tmp,levels=c(levels(D$PSAgrp_tmp),NA),

labels=c(’0-3’,’3-10’,’10-20’,’20-50’,’50+’,’Missing’),exclude=NULL) table(D$d0_t_txt)

D$Tstage <- factor(1*(D$d0_t_txt %in% c(’T1’,’T1a’,’T1b’,’T1c’))+

2*(D$d0_t_txt %in% ’T2’)+

3*(D$d0_t_txt %in% ’T3’)+

4*(D$d0_t_txt %in% ’T4’),levels=c(1:4,0), labels=c(paste0(’T’,1:4),’Missing’))

D$RTyear <- as.numeric(substr(D$RTdate,1,4)) D$CCIgrp <- cut(D$cci_num,breaks=c(-1,0,1,2,Inf)) table(D$CCIgrp)

D$D_UPPDAG[D$DUPPDAG %in% c("","9")] = NA D$ModeOfDetection = factor(D$D_UPPDAG,

levels=c(2,4,5,NA),labels=c(’H¨alsounders¨okning’,’LUTS’,

’Andra symptom’,

’Missing’), exclude = NULL) D$LDOF = as.Date(D$LDOF)

ltrunc_data = D

ltrunc_data = ltrunc_data[ltrunc_data$LDOF > as.Date("2008-12-31"),]

ltrunc_data$EnterTime = as.Date("2008-12-30") - as.Date(ltrunc_data$RTdate) ltrunc_data$EnterTime[ltrunc_data$EnterTime < 0] = 0

nobrac_data = ltrunc_data[ltrunc_data$Grupp != ’F’, ] nobrac_data = nobrac_data[nobrac_data$Grupp != ’H’, ] get_likelyhood = function(Alpha_Beta, cox_data, indices){

cox_data$Konventionell <-

cox_data$s_slutdosrt*(cox_data$s_fraktdosrt+Alpha_Beta)/(2+Alpha_Beta) cox_data$Boost_eqd2 <-

cox_data$s_slutdosboost*(cox_data$s_fraktdosboost+Alpha_Beta)/(2+Alpha_Beta) cox_data$EQD2_alphabeta <- ifelse(!is.na(cox_data$Konventionell) &

is.na(cox_data$Boost_eqd2),cox_data$Konventionell,

ifelse(is.na(cox_data$Konventionell) & !is.na(cox_data$Boost_eqd2),cox_data$Boost_eqd2, ifelse(!is.na(cox_data$Konventionell) & !is.na(cox_data$Boost_eqd2) &

!(cox_data$S_BOOSTSPEC %in% 2),

cox_data$Konventionell+cox_data$Boost_eqd2,cox_data$Konventionell+

cox_data$Boost_eqd2*1.1)))

cox_data$EQD2_alphabeta[cox_data$RT_doses==’NA + 10 Gy to 20 Gy’] <-

(16)

50 + cox_data$Boost_eqd2[cox_data$RT_doses==’NA + 10 Gy to 20 Gy’]

z <- coxph(Surv(TimeFU, CENSOR==1) ~ EQD2_alphabeta + d0_age +

Gleason + PSAgrp + Tstage +

ProportionCores + utb_cat +

CCIgrp

,data=cox_data[indices,]) return(t(c(z$loglik[2], Alpha_Beta))) }

get_likelyhood_alt = function(Alpha_Beta, cox_data, indices){

is.na(cox_data$Boost_eqd2),cox_data$Konventionell,

ifelse(is.na(cox_data$Konventionell) & !is.na(cox_data$Boost_eqd2),cox_data$Boost_eqd2, ifelse(!is.na(cox_data$Konventionell) & !is.na(cox_data$Boost_eqd2) &

cox_data$EQD2_alphabeta[cox_data$RT_doses==’NA + 10 Gy to 20 Gy’] <- 50 + cox_data$Boost_eqd2[cox_data$RT_doses==’NA + 10 Gy to 20 Gy’]

z <- coxph(Surv(EnterTime, TimeFU, CENSOR==1) ~ EQD2_alphabeta + d0_age +

Gleason + PSAgrp + Tstage +

ProportionCores + utb_cat +

CCIgrp

,data=cox_data[indices,])

return(t(c(z$loglik[2], Alpha_Beta))) }

get_likelyhood_imp = function(Alpha_Beta, cox_data, indices){

(17)

is.na(cox_data$Boost_eqd2),cox_data$Konventionell, ifelse(is.na(cox_data$Konventionell) &

!is.na(cox_data$Boost_eqd2),cox_data$Boost_eqd2,

ifelse(!is.na(cox_data$Konventionell) & !is.na(cox_data$Boost_eqd2) &

cox_data$EQD2_alphabeta[cox_data$RT_doses==’NA + 10 Gy to 20 Gy’] <- 50 + cox_data$Boost_eqd2[cox_data$RT_doses==’NA + 10 Gy to 20 Gy’]

z <- coxph(Surv(TimeFU, CENSOR==1) ~ EQD2_alphabeta + d0_age +

Gleason + PSAgrp + T_stage + BiopRatio + utb_cat +

CCIgrp ,data=cox_data[indices,]) return(t(c(z$loglik[2], Alpha_Beta)))

}

max_likelyhood = function(cox_data, start_val, end_val, step_size, indices){

i = 1

result= matrix(nrow = (end_val-start_val)/step_size + 1, ncol = 2) for (alphabeta in seq(from = start_val, to = end_val, by = step_size)) {

result[i,] = get_likelyhood(alphabeta, cox_data, indices) i = i+1

}

return(result[which(result[,1] == max(result[,1])), 2]) }

max_likelyhood_alt = function(cox_data, start_val, end_val, step_size, indices){

i = 1

result= matrix(nrow = (end_val-start_val)/step_size + 1, ncol = 2) for (alphabeta in seq(from = start_val, to = end_val, by = step_size)) {

result[i,] = get_likelyhood_alt(alphabeta, cox_data, indices) i = i+1

}

return(result[which(result[,1] == max(result[,1])), 2]) }

(18)

max_likelyhood_imp = function(cox_data, start_val, end_val, step_size, indices){

i = 1

loglikely= matrix(nrow = (end_val-start_val)/step_size + 1, ncol = 2) result = data.frame(sapply(seq(start_val, end_val, step_size),

function(alpha_beta) get_likelyhood_imp(alpha_beta, cox_data, indices))) return(result[2, which(result[1,] == max(result[1,]))])

}

bootstrap = function(cox_data, iterations){

result = seq(1, iterations) for (i in seq(1, iterations)) {

print(i)

start_time = Sys.time()

result[i] = max_likelyhood(cox_data, 1, 11, 0.1, sample.int(length(cox_data[,1]), replace = TRUE)) print(Sys.time() - start_time)

print(result[i]) }

result =sort(result) return(result) }

bootstrap_alt = function(cox_data, iterations){

print(i)

start_time = Sys.time()

result[i] = max_likelyhood_alt(cox_data, 1, 11, 0.1, sample.int(length(cox_data[,1]), replace = TRUE)) print(Sys.time() - start_time)

print(result[i]) }

result =sort(result) return(result) }

bootstrap_imp = function(cox_data, iterations){

print(paste("Iteration: ", i, sep = "")) start_time = Sys.time()

result[i] = max_likelyhood_imp(cox_data, 1, 7.5, 0.05, sample.int(length(cox_data[,1]), replace = TRUE))

(19)

print(Sys.time() - start_time) print(result[i])

}

result = sort(result) return(result)

}

bootstrap_imp_test = function(cox_data, iterations){

return(sapply(rep(0, iterations), function(i) max_likelyhood_imp(cox_data, 1, 7.5, 0.05, sample.int(length(cox_data[,1]), replace = TRUE))))

}

d_analysis = bootstrap(D, 1000)

d_analysis = readRDS("d_analysis.RDS") d_ci95 = c(d_analysis[26], d_analysis[975])

d_hist = hist(d_analysis, breaks = seq(0.9,6.9,0.2), main = "", xlab =

"Alfa-beta kvot", ylab = "Antal")

saveRDS(d_analysis, file = "d_analysis.RDS") saveRDS(d_ci95, file = "d_ci95.RDS")

saveRDS(d_hist, file = "d_hist.RDS")

ltrunc_analysis = bootstrap_alt(ltrunc_data, 1000)

#ltrunc_analysis = readRDS("ltrunc_analysis.RDS")

ltrunc_ci95 = c(ltrunc_analysis[26], ltrunc_analysis[975])

ltrunc_hist = hist(ltrunc_analysis, breaks = seq(0.9,8.1,0.2), main = "", xlab = "Alfa-beta kvot", ylab = "Antal")

saveRDS(ltrunc_analysis, file = "ltrunc_analysis.RDS") saveRDS(ltrunc_ci95, file = "ltrunc_ci95.RDS")

saveRDS(ltrunc_hist, file = "ltrunc_hist.RDS") nobrac_analysis = bootstrap_alt(nobrac_data, 1000)

nobrac_ci95 = c(nobrac_analysis[26], nobrac_analysis[975])

nobrac_hist = hist(nobrac_analysis, breaks = seq(0.9,11.1,0.2), main = "", xlab = "Alfa-beta kvot", ylab = "Antal")

saveRDS(nobrac_analysis, file = "nobrac_analysis.RDS") saveRDS(nobrac_ci95, file = "nobrac_ci95.RDS")

saveRDS(nobrac_hist, file = "nobrac_hist.RDS") max_likelyhood(D,1,7,0.01,1:19843) #4

max_likelyhood_alt(ltrunc_data,1,7,0.01,1:19093) #4.52 max_likelyhood_alt(nobrac_data,3,9,0.01,1:13329) #4.11 test_imp = data.frame(rep(0, 20), rep(0, 20))

names(test_imp) = c("Mean", "Var") for (i in 1:20) {

(20)

print(paste("Loop: ", i, sep = ""))

test_imp[i,] = t(bootstrap_imp(get(paste("IMP", i, sep = "")), 50)) }

imp_analysis = rep(0, 1000) for (i in 1:20) {

print(paste("Loop: ", i, sep = "")) start_time = Sys.time()

imp_analysis[(1+50*(i-1)):(i*50)] = bootstrap_imp(get(paste("IMP", i, sep = "")), 50) print(Sys.time() - start_time)

}

imp_analysis = test_imp_ci

imp_hist = hist(test_imp_ci, breaks = seq(0.9,7.1,0.2), main = "", xlab = "Alfa-beta kvot", ylab = "Antal")

imp_ci95 = sort(imp_analysis)[c(25,976)]

saveRDS(imp_analysis, file = "imp_analysis.RDS") saveRDS(imp_ci95, file = "imp_ci95.RDS")

saveRDS(imp_hist, file = "imp_hist.RDS")