Undersökning av tidstrender i registerdata. Lungcancerregistret ROC.

(1)

Undersökning av tidstrender i registerdata Lungcancerregistret ROC

Johan Eriksson

U.U.D.M. Project Report 2004:3

Examensarbete i matematisk statistik, 20 poäng Handledare: Hans Garmo, ROC, Uppsala

Examinator: Dag Jonsson Mars 2004

Department of Mathematics

(2)

Undersökning av tidstrender i registerdata Lungcancerregistret ROC

J. Eriksson

26 mars 2004

(3)

Tack!

Ett stort tack till Hans Garmo (handledare vid ROC) för alla idéer och den

kunskap du bidragit med. Lars Holmberg (chef ROC) för att du gav mig denna

möjlighet och för all tid du lagt ner. Dag Jonsson (handledare/examinator vid

universitetet) för vägledning och för att du alltid fanns tillgänglig. Till sist, tack

Sofia för all tid och energi du lagt ner för att hjälp mig.

(4)

Abstract

The lung cancer clinical database in the Uppsala/Örebro Health Care Region

shows an improvement in survival for patients diagnosed in recent years. On

the basis of a metaanalysis we choose a subgroup of patients and by studying

the effect of time (years) we have, by using Cox proportional hazard models,

been able to conclude that increased use of chemotherapy explains most of the

improvement in survival.

(5)

Innehåll

1 Inledning 5

1.1 Skillnad i överlevnad mellan åren 1995 och 2002 . . . . 5

1.2 Syftet med denna studie . . . . 5

1.3 Allmänt om cancer och lungcancer . . . . 6

1.4 ROC och cancerregistret . . . . 6

1.5 Behandling av lungcancer . . . . 7

1.5.1 Radioterapi . . . . 7

1.5.2 Kemoterapi . . . . 7

2 Material och metod 7 2.1 Datamaterial . . . . 7

2.2 Datainsamling . . . . 7

2.3 Datahantering . . . . 8

2.4 Urval . . . . 8

2.5 Statistisk metod . . . . 8

2.5.1 Kända prognostiska faktorer för överlevnad . . . . 9

2.5.2 Will Rogers fenomen . . . . 9

2.5.3 Modellering av överlevnadstiden . . . 10

2.5.4 Val av förklarande variabler . . . 10

2.5.5 Cox-modellen . . . 11

2.5.6 Dödsorsaker . . . 11

2.5.7 Definition av behandlingsvariabel . . . 11

3 Resultat 12 3.1 Användning av kemoterapi från 1995 till 2002 . . . 12

3.2 Överlevnad för patienter kvar efter urval . . . 13

3.3 Cox-modell med år som förklarande variabel . . . 13

3.4 Kontroll av kända prognostiska faktorer och Will Rogers-variabler 14 3.5 Cox-modellen . . . 18

4 Diskussion 22 5 Referenser 25 6 Bilaga 1 Beskrivning av variablerna 26 7 Bilaga 2 Klassificering av Who-status 29 8 Appendix 30 8.1 Grundläggande teori . . . 30

8.2 Kaplan-Meiers skattning av överlevnadsfunktionen . . . 30

8.3 Censurering . . . 30

8.4 Riskset . . . 31

8.5 Cox-regression . . . 31

8.6 Likelihoodestimation av β . . . 32

8.7 Estimation av H 0 (t) . . . . 33

8.8 Konfidensintervall för relativ risk mellan två nivåer på kovariat . 33

8.9 Test av hazard-antagandet . . . 33

(6)

1 Inledning

1.1 Skillnad i överlevnad mellan åren 1995 och 2002

ROC, Regionalt Onkologiskt Centrum har sedan 1995-01-01 fört ett register över lungcancerfall i Uppsala/Örebroregionen ¹ . I registret syns en ökad överlevnad för patienter diagnostiserade under senare år. Figur 1 visar hur överlevnaden i registret har ändrats över åren (1995, 1998 och 2002 visas här).

0 20 40 60 80

0.0 0.2 0.4 0.6 0.8 1.0

Överlevnad 1995−2002

Månader

2002 1998 1995

Figur 1: Skillnad i överlevnad åren 1995,1998 och 2002.

Medianöverlevnad har under denna period ökat från 4.8 månader, 95% kon- fidensintervall [4.2, 6.3] 1995, till 8.3 månader, 95% konfidensintervall [6.7, 9.9]

2002. Vilken är förklaringen till den förbättrade överlevnaden? (Orsaken till att överlevnaden för år 2002 minskar mycket efter ca 10 månader beror på att det är många överlevnadstider censurerade, vilket leder till att det är få personer i risksetet ² så en patients död ger ett stort hopp i grafen).

1.2 Syftet med denna studie

1995 publicerades en metaanalys ³ som visade att kemoterapi ger längre över- levnad för en viss subgrupp av lungcancerpatienter. Denna metaanalys var ett resultat från 52 randomiserade studier med sammanlagt 9387 patienter. Sedan resultatet av metaanalysen blivit känt har användningen av kemoterapi ökat, framför allt beroende på att man i vårdprogrammet ⁴ förespråkar kemoterapi som behandlingsmetod. Syftet är inte att visa att kemoterapi ger en längre

1

Vilka län som ingår i Uppsala/Örebroregionen framgår i avsnitt 1.4.

2

se appendix.

3

En metaanalys är en statistisk analys som kombinerar information från flera olika studier.

4

En textsamling med riktlinjer om behandlingsmetoder etc.

(7)

överlevnad, detta är redan visat, utan syftet är att följa upp implementeringen av metaanalysen i den allmänna cancervården. Metaanalysen visade även att en kombination av kemo– och radioterapi ger en bättre överlevnad än endast kemoterapi för patienter i stadium IIIB ⁵ . Detta analyseras även i denna studie men får ses som ett sekundärt syfte.

1.3 Allmänt om cancer och lungcancer

Cancer är ett samlingsnamn på en stor grupp sjukdomar som uppträder på många olika sätt. Det gemensamma för alla typer av cancer är att kroppen förlorat kontrollen över dess tillväxt.

Många av kroppens celler delar sig bara under de första levnadsåren eller rent av bara i fosterstadiet, medan vissa normala celler växer och delar sig hela tiden och förbrukas under livets gång. I cellerna finns arvsmassa och när våra normala celler delar sig finns det risk att det av olika anledningar uppstår något fel i arvsmassan. Det finns hos cellerna en mekanism som kontrollerar arvsmassan och om någon defekt upptäckts utplånar cellen sig själv. Om nu denna självförstöring inte skulle fungera fortsätter defekta celler att dela sig och växa ihop till en stor klump. Det har då blivit en cancertumör. Tumören skadar kring liggande vävnad och kan bilda dottertumörer.

I Sverige insjuknar årligen ca 3000 personer i lungcancer. Orsaken är i 85- 90% av fallen tobaksrökning, ensamt eller i kombination med andra faktorer. Det finns (rättare, fanns) ämnen i vissa arbetsmiljöer som kan orsaka lungcancer:

asbest, radondöttrar, klormetyleter och arsenik, för att nämna några. En svensk uppskattning är att ”yrkesdelen” av lungcancer är ca 9% hos män– betydligt lägre hos kvinnor. Inom Uppsala/Örebroregionen är det årligen ca 700 fall av lungcancer. Det gör lungcancer till den näst vanligaste tumörsjukdomen hos män och den femte vanligaste hos kvinnor, totalt sett den i regionen vanligaste orsaken till död i cancer.

1.4 ROC och cancerregistret

Det svenska cancerregistret inrättades 1958. Under perioden 1977 till 1982 in- rättade Socialstyrelsen sex regionala onkologiska centra. ROC har sedan 1995- 01-01 fört ett regionalt register för lungcancer. Registret omfattar alla diagnos- tiserade fall av lungcancer på patienter folkbokförda i Uppsala/Örebroregionen.

Syftet med registret är att tillsammans med det regionala vårdprogrammet ver- ka för ett enhetligt omhändertagande av patienter med lungcancer samt vara underlag för kvalitetssäkringsarbete, årlig regional sammanställning och studi- er. Rapportering till det nationella cancerregistret regleras i Socialstyrelsens författningssamling SOSFS 1984:32. ROC i Uppsala/Örebroregionen omfattar följande län: Uppsala(03), Södermanland(04), Värmland(17), Örebro(18), Väst- manland(19), Dalarna(20) och Gävleborg(21).

5

En lungcancerpatient klassas in i något av stadierna IA, IB, IIA, IIB, IIIA, IIIB eller IV

(8)

1.5 Behandling av lungcancer

1.5.1 Radioterapi

Radioterapi, eller strålbehandling, betyder att cancertumören utsätts för radio- aktiv strålning. Principen är att man strålar cancertumören för att skada denna.

Samtidigt kommer helt friska celler också att bli utsatta för strålningen, men de friska cellerna har en bättre förmåga att reparera sig än vad cancercellerna har. Det är denna skillnad som man utnyttjar vid behandlingen. Därför ger man oftast en serie av behandlingar, de friska cellerna hinner då återhämta sig mellan varje stråldos medan cancercellerna dör ut.

1.5.2 Kemoterapi

Kemoterapi, eller cytostatikabehandling, är en behandling med läkemedel vars uppgift är att angripa de sjuka cellerna. Tidigare kallades cytostatika för cell- giftsbehandlig, men detta får nu ses som ett föråldrat uttryck, en kvarleva från den tid då behandlingen orsakade mycket lidande för patienten. Fortfarande ger cytostatikabehandling ganska allvarliga biverkningar hos vissa patienter, men den kan numera kontrolleras bättre.

Cytostatika skadar tumörcellerna och förhindrar att de delar sig och blir fler. Ofta påverkar cytostatika arvsmassan så att den process som förstör de defekta cellerna kommer igång. Precis som vid strålbehandling påverkas även friska celler, vilket kan leda till biverkningar. Tyvärr har cytostatikabehandling vid lungcancer inte lika stor verkningsgrad som t.ex. för barn med leukemi (4 av 5 kan botas).

2 Material och metod

2.1 Datamaterial

Lungcancerregistret innehåller ca 5500 fall av lungcancer i regionen. Tidsspannet för dessa är 8 år, fr.o.m. 1995 t.o.m. 2002. Varje fall har cirka 110 variabler, som exempelvis i vilket län patienten behandlats, kön, ålder, diagnosmetod, behandlingsform, samt datum för diagnos o.s.v. Se bilaga 1 för alla variabler och en beskrivning.

2.2 Datainsamling

Data i lungcancerregistret insamlas enligt följande process: I samband med att

en patient får diagnosen lungcancer skickar kliniken in en registreringsblankett

med data som rör exempelvis kön, cancertyp, planerad behandling etc. Om

patienten avlider skickas en uppföljningsblankett in med liknande data som finns

på registreringsblanketten. Skillnaderna är att på uppföljningsblanketten ser

man vilken behandling patienten faktiskt har fått, medan man på registrerings-

blanketten anger planerad behandling. I denna studie har i första hand da-

ta från uppföljningsblanketten använts. Om det varit motstridiga uppgifter

vad beträffar behandlingsalternativen på uppföljning och registreringsblankett

har uppföljningsblankettens data används. Om data saknats på uppföljnings-

blanketten har information från registreringsblanketten använts.

(9)

2.3 Datahantering

ROC har sina data i Microsoft Office databaser. Från dessa görs ett uttag som importeras till SAS(version V8 för Windows), vilket är den mjukvara som mestadels används för statistiska analyser vid ROC. Jag har valt att göra alla beräkningar med SAS samt med R ⁶ . Orsaken till att jag även använde R är att dess grafik producerar PS-(PostScript) filer som är lätta att inkludera i L ^A TEX ⁷ .

2.4 Urval

Analysen inriktades på en viss subgrupp av patienter. Vi gör selektionen i enlig- het med urvalskriterierna och resultat från metaanalysen.

1. Who-status ⁸ mellan 0 och 2. För dessa grupper visade metaanalysen positiv effekt av kemoterapi.

2. Stadium IIIB eller IV. Det är i dessa stadier som vårdprogrammet före- språkar kemoterapi.

3. Typ av cancer ska vara NSCLC (icke-småcellig lungcancer).

4. Inga obduktionsupptäckter och inga behandlingstider mindre än 14 dagar.

Överlevnadstiden ska vara > 0.

5. Det ska även vara känt i vilket län och år patienten har behandlats samt dennes rökstatus.

Resultatet av selektionen visar i figur 2.

n=5447 n=4108 n=2624 n=1999 n=1846 n=1825 0,1,2 IIIB, IV NSCLC ej obduktionsupptäckt län och rök−

Grund Who Stadie Cancertyp Behandling > 14 dagar Diagnosår ,

eller överlevnadstid < 0 status känd

Figur 2: Urval av patienter

Analysen bygger alltså på 1825 patienter varav 1759 avlidit.

2.5 Statistisk metod

Denna studie bygger inte på ett randomiserat försök, utan på registerdata där patienterna fått en viss behandling utifrån vad en läkare bedömt vara den bästa.

Eftersom ingen randomisering utförs har inte effekten av andra variabler än de vi är direkt intresserade av jämnats ut bland de variabler som vi är intresserade av att studera. En förklaring till förbättrad överlevnad skulle därför kunna vara en förändring av andel individer med kända variabler med positivt prognostiskt värde.

6

Finns att ladda ner från www.r-project.org

7

Finns att ladda ner från www.miktex.org

8

Se bilaga 2.

(10)

2.5.1 Kända prognostiska faktorer för överlevnad

För att finna anledningen till den förbättrade överlevnaden börjar analysen med att kontrollera kända prognostiska faktorer för överlevnad, som exempelvis ålder. Patienterna skulle kunna vara avsevärt yngre under de senare åren vilket skulle leda till förbättrad överlevnad. Genom att kontrollera dessa variabler kan man utesluta dem om det över åren inte blivit större ändringar, eller om det skulle visa sig att de ändrats så att överlevnaden borde vara sämre för senare år. Sådana kända variabler är:

1. Väntetid: Definieras som tiden från diagnos till behandlingsstart. Om den- na väntetid minskat, bidrar det till bättre överlevnad eftersom patienterna startar sin behandling tidigare. I datan saknas ofta information om denna variabel och kontrollen sker på det som finns.

2. Könsfördelning: Kvinnor har en bättre överlevnad än män.

3. Ålder: Yngre personer har bättre överlevnad än äldre.

4. Rökstatus: Icke-rökare har bättre överlevnad än rökare.

5. Diagnostyp: De två vanligaste diagnostyperna är skivepitelcancer och adeno- carcionom. Överlevnaden mellan dessa skiljer sig åt och en förändring över åren kan ge förbättrad överlevnad.

2.5.2 Will Rogers fenomen

I en artikel i Journal of the National Cancer Institute beskrivs hur patienter med avancerad bröstcancer fått en dramatisk förbättring i överlevnad det senaste året (2003), eftersom det kommit nya kriterier om klassificering. Patienter med en viss framskriden sjukdom har blivit klassade in i en grupp fram till 2003 och till en annan (”sämre”) efter 2003. På detta sätt har medianöverlevnaden i samtliga grupper förbättrats utan att den totala överlevnaden ökat. Detta har döpts till Will Rogers ⁹ fenomen.

Mindre Mycket sjuk sjuk

Tidigare Klassificering Ny

Klassificering

Figur 3: Will Rogers fenomen

Mellan åren 1995 och 2002 har det inte blivit någon ändring i kriterierna för klassindelningen av lungcancerpatienter. Däremot kan den tekniska utveck- lingen ha medfört att det har blivit en ofrivillig ändring av klassindelningen.

Exempelvis har det kommit nya diagnosmetoder som gör det enklare att se om

9

Will Rogers sa: When the Okies left Oklahoma and moved to California, they raised the

average intelligence level in both states.

(11)

patienten har metastaser ¹⁰ . En patient med metastaser hamnar automatiskt i stadium IV. Det är alltså mycket möjligt att det på senare år är fler personer i stadium IV som tidigare hamnat i stadium IIIB. Faktorer som kan ha gett up- phov till Will Rogers-effekter är de som är med i urvalet och listas nedan.(Dessa kallas i fortsättningen för WR-variabler)

6. Stadium: Nya diagnosmetoder kan ge en större andel patienter i grupp IV.

7. Who-status: Om patienter bedöms sjukare på senare år ger detta en bättre överlevnad inom varje Who-grupp.

8. Cancertyp: Lungcancerpatienter klassas i tre kategorier; Icke-småcellig, Småcellig eller Annan. Det kan ha skett en förskjutning bland grupperna, t.ex. orsakat av nya diagnosmetoder.

2.5.3 Modellering av överlevnadstiden

Inom överlevnadsanalysen finns det tre vanliga sätt att behandla data.

1. Ickeparametrisk: Ingen överlevnadsfunktion antas utan överlevnadsfunk- tionen estimeras ickeparametriskt från de observerade dödstiderna. Detta är det välkända Kaplan–Meier ¹¹ -estimatet av överlevnadsfunktionen.

2. Semiparametrisk: Inte heller här antas någon överlevnadsfunktion, utan man antar att hazardfunktionen ¹² är proportionell. Detta tillvägagångssätt kallas förCox-regression (efter D. R. Cox som presenterade metoden 1972) 3. Parametrisk: Här antas att fördelningen för överlevnadstiden följer en viss fördelning. Några av de vanligaste fördelningarna är: exponentiell, Weibull, gamma, log-normal och normal.

Jag använder semiparametrisk metod (Cox-regression) i denna studie. En motivering till detta är att grupperna som jag studerar skiljer sig i exempelvis fördelningen av Who– och rökstatus och detta måste jag kunna justera för. Det finns även en del censurerade data (särskilt från det sista året 2002) och detta tas lätt om hand om med Cox-regression.

2.5.4 Val av förklarande variabler

För att ta reda på vilka variabler som bör vara med i en slutgiltig modell är det vanligt inom medicinsk statistik att man sätter upp en modell med endast en kovariat (univariattest) och tittar på p–värden. Denna procedur upprepas för varje utvald kovariat. Det finns vissa variabler som alltid ska vara med i cancerstudier. I lungcancerfallet är rökstatus en sådan variabel.

10

Metastaser är dottertumörer som via blod– eller lymfsystemet har spridit sig från det ursprungliga sjukdomsstället till andra delar av kroppen.

11

Se appendix.

12

Se appendix.

(12)

2.5.5 Cox-modellen

Som tabell 1 och tabell 2 visar är det stor skillnad på hur användningen av kemoterapi ser ut över åren. Man ser en ökning av användandet för varje år.

Det vi vill testa är att effekterna från en randomiserad studie också är synli- ga då de omsätts i den vanliga cancersjukvården. Idén är som följer (förutsatt att vi inte kan förklara den ökade överlevnaden med antingen kända prognos- tiska faktorer eller WR-variabler). En modell där vi justerar för de faktorer som univariata tester visade signifikanta sätts upp tillsammans med variabler som beskriver vilket år patienten är diagnostiserad. Eftersom vi kan justera mod- ellen med kända prognostiska faktorer kommer vi jämna ut effekterna av dessa över åren. För åren ska det vara ett tydligt samband mellan relativ risk och kemoterapianvändning. Stor användning av kemoterapi ska avspeglas i liten rel- ativ risk. Med behandlingsvariabel i modellen ska denna effekt försvinna, dvs.

hazardvärdena för årseffekterna ska gå mot ett. För att ta reda på huruvida kombinationen av kemo– och radioterapi ger en bättre överlevnad än endast kemoterapi har nya behandlingsvariabler konstruerats som visas i figur 4. Ett konfidensintervall för relativ risk mellan behandling kemoterapi vs kemo– och radioterapi beräknades för att kunna avgöra saken.

2.5.6 Dödsorsaker

Ett vanligt problem inom överlevnadsanalysen är olika dödsorsaker. Ofta vet man inte vad som orsakade en viss persons död utan endast dödsdatum är känt.

I fallet med lungcancer är detta i allmänhet ett mindre problem, och i synnerhet för patienter i stadium IIIB och IV, bl.a. eftersom överlevnadstiden är så pass kort att det inte finns anledning att tro att dödsorsaken är något annat än sjukdomen.

2.5.7 Definition av behandlingsvariabel

Behandlingen av lungcancer kan se ut på många olika sätt. I datamaterialet finns ett flertal variabler som beskriver vilken typ av behandling patienten fått.

Det studien ska testa är att det är behandlingen kemoterapi eller kemoterapi i kombination med radioterapi som ger den förbättrade överlevnaden och detta leder till att nya behandlingsvariabler konstruerats så som figur 4 visar. De som hamnar i RT är de personer som fått minst radioterapi men inte kemoterapi.

Samma princip för KT, patienten har fått minst kemo– men inte radioterapi.

För RT+KT gäller att patienten ska ha fått både kemo– och radioterapi. De

som faller in i INGEN är de patienter som varken fått radio– eller kemoterapi

men möjligen någon annan typ av behandling, t.ex. kirurgi.

(13)

RT RT+KT KT

INGEN

Figur 4: Definition av behandlingsvariabel

3 Resultat

3.1 Användning av kemoterapi från 1995 till 2002

Nedanstående två tabeller visar hur användningen av kemoterapi ser ut under åren 1995 - 2002 för patienter som är kvar efter urvalet. Siffran anger hur stor andel av patienterna i procent som fått kemoterapi för ett givet år och län.

L¨ an 1995 1996 1997 1998 1999 2000 2001 2002 Uppsala 57.9 54.5 60.0 89.5 83.3 86.7 100.0 85.7 Södermanland 16.7 0.0 16.7 13.0 7.1 37.5 52.9 83.4 Värmland 17.6 0.0 16.7 33.3 58.3 46.1 41.7 66.7 Örebro 35.7 37.0 50.0 33.3 63.2 56.0 60.7 47.4 Västmanland 16.7 43.8 50.0 63.6 83.3 79.2 73.3 85.7 Dalarna 50.0 56.3 81.8 40.0 81.3 66.7 60.0 75.0 Gävleborg 0.0 0.0 11.8 50.0 52.9 57.9 78.6 40.0 Total 38.1 43.2 48.5 52.5 66.2 68.0 65.4 73.3

Tabell 1: Användning av kemoterapi i stadium IIIB år 1995-2002

L¨ an 1995 1996 1997 1998 1999 2000 2001 2002 Uppsala 54.5 63.6 75.0 78.6 78.6 81.3 64.3 63.6 Södermanland 7.4 15.0 8.0 25.0 30.0 17.6 29.4 75.0 Värmland 7.4 22.7 46.1 55.5 70.0 58.8 48.0 0.0

Örebro 16.2 40.0 45.2 33.3 69.2 53.1 62.5 76.4 Västmanland 14.2 56.2 27.7 75.0 57.1 76.0 79.1 70.0 Dalarna 57.1 40.0 27.7 64.2 85.7 38.4 76.4 70.0 Gävleborg 41.1 0.0 22.2 60.8 60.0 76.1 63.6 80.0 Total 38.7 48.7 41.8 59.3 74.3 67.0 67.8 76.7

Tabell 2: Användning av kemoterapi i stadium IV år 1995-2002

(14)

3.2 Överlevnad för patienter kvar efter urval

Figur 1 visar hur överlevnaden för en ur registret slumpmässigt vald patient ser ut. Vi har sedan gjort ett urval av patienter som vi vill studera. För urvals- gruppen kan överlevnaden se annorlunda ut och en plott av dess överlevnads- funktion behövs.

0 20 40 60 80

0.00.20.40.60.81.0

Överlevnad för stadie IIIB 1995−2002

Månader

1995 1998 2002

Figur 5: Överlevnad stadium IIIB

0 10 20 30 40 50 60

0.00.20.40.60.81.0

Överlevnad för stadie IV 1995−2002

Månader

1995 1998 2002

Figur 6: Överlevnad stadium IV Kaplan–Meier–graferna (förkortas i fortsättningen KM-grafer) för patienter- na som är kvar efter selektionen visar att skillnaden i överlevnad ser ungefär likadan ut som för hela registret. Medianöverlevnad för stadium IIIB var år 1995 7.3 månader [6.6, 9.2] och 8.3 månader [6.7, 11.9] år 2002. För stadium IV är motsvarande siffror 3.9 månader år 1995 [3.3, 4.8] och 8.3 månader [5.4, 9.4] år 2002 (konfidensintervallen är 95%).

3.3 Cox-modell med år som förklarande variabel

För att få en uppfattning av årseffekterna sätter vi först upp en Cox-modell med

endast åren som förklarande variabler. I tabell 3 och tabell 4 ser man att det

för åren är en minskad relativ risk (RR) för senare år jämfört med referensåret

1995. (med en viss slumpvariation och ett tveksamt estimat för År02 eftersom

det är många censurerade detta år).

(15)

V ariabel RR

År02 0.88

År01 0.80

År00 0.69

År99 0.76

År98 0.73

År97 0.91

År96 0.87

År95 1.00

Tabell 3: Cox-modell för IIIB

V ariabel RR

År02 0.63

År01 0.81

År00 0.87

År99 0.81

År98 0.88

År97 0.95

År96 0.95

År95 1.00

Tabell 4: Cox-modell för IV

3.4 Kontroll av kända prognostiska faktorer och Will Rogers- variabler

För att utesluta att den förbättrade överlevnaden kan förklaras av kända prog- nostiska faktorer eller WR-variabler kontrollerades detta. Nedan visas resultatet av denna kontroll med p–värden från homogenitetstest (chi2-test) och propor- tionsgrafer. Samtidigt redovisas p–värden från univariattest samt KM–grafer.

1995 1996 1997 1998 1999 2000 2001 2002

020406080100

Fördelning av rökare

Diagnosår

Andel i procent

Rökare

Fd rökare

Aldrig rökare

Figur 7: Fördelning av rökstaus

0 20 40 60 80

0.00.20.40.60.81.0

Överlevnad för olika rökstatus

Månader

Rok3 Aldrig rökt Rok2 Tidigare rökare Rok1 Rökare

Figur 8: Rökstatus

KM–grafen visar att det är en viss skillnad på överlevnad beroende på rök-

status. Univariattest gav ett p–värde som var < 0.01. Homogenitetstest ger p =

0.93, ej signifikant.

(16)

1995 1996 1997 1998 1999 2000 2001 2002

020406080100

Fördelning mellan könen

Diagnosår

Andel i procent

Män

Kvinnor

Figur 9: Fördelning mellan kön

0 20 40 60 80

0.00.20.40.60.81.0

Överlevnad mellan könen

Månader

Kvinna Man

Figur 10: Överlevnad mellan kön KM–grafen visar på en liten skillnad i överlevnad mellan män och kvinnor.

Univariattest gav ett p–värde som var < 0.01. Ett homogenitetstest gav här p

= 0.13, ej signifikant.

1995 1996 1997 1998 1999 2000 2001 2002

020406080100

Andel av diagnoser

Diagnosår

Andel i procent

Skiveptiel Adenocarcinoid

Övriga

Figur 11: Fördelning av diagnoser

0 20 40 60 80

0.00.20.40.60.81.0

Överlevnad för olika diagnoser

Månader

Övriga Adenocarcinoid Skivepitel

Figur 12: Skillnad för diagnoser

KM–grafen visar att är knappt någon skillnad mellan diagnoserna. Det uni-

variatatestet gav ett p–värde på 0.12. Däremot ger testet en signifikant skillnad

mellan Skivepitelcancer och Övriga vad gäller relativ risk. Ett homogenitetstest

ger p = 0.25, ej signifikant.

(17)

1994 1996 1998 2000 2002

020406080100

Åldersfördelning

Diagnosår

Andel i procent

0−39 40−49 80+

50−59 60−69 70−79

Figur 13: Fördelning för olika åldrar

0 20 40 60

0.00.20.40.60.81.0

Överlevnad för olika åldersgrupper

Månader

40−49 60−69

>80

Figur 14: Skillnad för olika åldrar KM–grafen visar att yngre personer i regel har bättre överlevnad än äldre.

Åldervariabeln är med som en kontinuerlig variabel i univariattest och gav ett p–värde som var < 0.01. Här är den grupperad för att få en översikt av över- levnaden för olika åldrar. Homogenitetstestet gav p = 0.16, ej signifikant.

1995 1996 1997 1998 1999 2000 2001 2002

253035404550

Väntetid

Diagnosår

Antal dagar

Figur 15: Medelväntetid

0 20 40 60 80

0.00.20.40.60.81.0

Överlevnad för lång och kort väntetid

Månader

>10 dagar <= 10 dagar

Figur 16: Skillnad mellan väntetid Väntetiden definieras som tiden från diagnos till första behandling. Denna variabel saknas ofta i data och kommer inte att vara med i en slutgiltig modell.

Univariattest görs inte, utan endast en kontroll hur medelväntetiden ser ut över

åren. KM–grafer visar att tidigare behandling ger längre överlevnad.

(18)

1995 1996 1997 1998 1999 2000 2001 2002

020406080100

Andel av Who−status

Diagnosår

Andel i procent

Who0 Who1 Who2

Who3 Who4

Figur 17: Fördelning av Who-status

0 20 40 60 80

0.00.20.40.60.81.0

Överlevnad för olika Who klasser

Månader

who2 who1 who0

Figur 18: Överlevnad Who-status Who-status är en av variablerna som är tänkbart utsatt för en Will Rogers- effekt. KM–grafen visar att det är stor skillnad i överlevnad mellan dess grupper.

Univariattest gav ett p–värde på < 0.01. Homogenitetstetet gav p = 0.30, ej signifikant.

1995 1996 1997 1998 1999 2000 2001 2002

020406080100

Andel i stadium IA till IV

Diagnosår

Andel i procent

IIIB IV

IA−IIIA

Figur 19: Stadiefördelning

0 20 40 60 80 100

0.00.20.40.60.81.0

Överlevnad för olika stadium

Månader

IV IIIB IB IA

Figur 20: Stadiespecifik överlevnad

Stadievariabel är en andra variabel som skulle kunna vara utsatt för en Will

Rogers-effekt. KM–grafen visar att det är stor skillnad på de stadiespecifika

överlevnadsfunktionerna. Eftersom vi ska stratifiera analysen på stadierna IIIB

och IV görs inget univariattest. Homogenitetstest gav ett p–värde på 0.44, ej

signifikant.

(19)

1995 1996 1997 1998 1999 2000 2001 2002

020406080100

Andel bland cancertyp

Diagnosår

Andel i procent

NSCLC

SCLC

ANNAN

Figur 21: Andel av cancertyp

0 20 40 60 80

0.00.20.40.60.81.0

Överlevnad för olika cancertyper

Månader

Annan Sclc Nsclc

Figur 22: Överlevnad cancertyper Den tredje variabeln som kunde vara utsatt för Will Rogers-effekten är can- certyp. KM–grafen visar att det i tidigt skede inte är stor skillnad mellan can- certyperna, men att detta ändras ju längre sjukdomstiden varar. Homogenitet- stestet gav ett p–värde på 0.16, ej signifikant.

3.5 Cox-modellen

När vi kontrollerat kända prognostiska faktorer samt WR-variabler gjordes nya

Cox-modeller, en utan behandlingsvariabel och sedan en med behandlingsvari-

abel. Ålder är med som en kontinuerlig variabel medan övriga variabler är klass

variabler. Kön har kvinna som bas. Rökstatusvariabel är kodad som Rök1=rökare,

Rök2=fd rökare, Rök3=aldrig rökare. Who-status är kodad enligt Who 0 =

Who0, Who 1 = Who1, Who 2 = Who2. Cancertyperna är indelade enligt

Skivepitelcancer = Skiv, Adenocarcinoid = Adeno samt övrig = Övrig. Åren

har 1995 = År95, ...,2002 = År02 med 1995 som bas. Som bas i varje kovariat

bör man välja en stor grupp. I denna studie är grupperna ungefär lika stora,

vilket gör valet av bas mera till en smaksak. Vanligt är att man väljer en nivå

som svarar mot antingen den med lägst eller, med högst överlevnad inom det

aktuella kovariatet. Resultatet visas nedan.

(20)

df coef se p RR .95lower .95upper

Ålder 1 0.01 0.00 0.00 1.01 1.01 1.02

Kön 1 0.13 0.08 0.10 1.14 0.97 1.34

Rök1 1 0.12 0.12 0.34 1.13 0.88 1.44

Rök2 1 0.05 0.12 0.66 1.06 0.83 1.34

Rök3 0 0.00 . . . . .

Who0 1 0.68 0.11 0.00 0.51 0.41 0.62

Who1 1 0.38 0.09 0.00 0.68 0.57 0.81

Who2 0 0.00 . . . . .

Skiv 1 -0.23 0.10 0.02 0.79 0.65 0.96

Adeno 1 -0.02 0.10 0.88 0.98 0.81 1.19

Övrig 0 0.00 . . . . .

År02 1 -0.24 0.18 0.19 0.79 0.56 1.12

År01 1 -0.19 0.15 0.21 0.83 0.62 1.11

År00 1 -0.39 0.15 0.01 0.68 0.51 0.91

År99 1 -0.25 0.15 0.09 0.78 0.59 1.04

År98 1 -0.27 0.14 0.06 0.76 0.58 1.01

År97 1 -0.14 0.15 0.35 0.87 0.65 1.16

År96 1 -0.17 0.14 0.24 0.85 0.64 1.12

År95 0 0.00 . . . . .

Tabell 5: Resultat av Cox-regression för stadium IIIB. Utan behandlingsvariabel

(21)

df coef se p RR .95lower .95upper

Ålder 1 0.01 0.00 0.13 1.01 1.00 1.02

Kön 1 0.13 0.08 0.11 1.14 0.97 1.34

Rök1 1 0.11 0.13 0.37 1.12 0.88 1.43

Rök2 1 0.05 0.12 0.67 1.05 0.83 1.34

Rök3 0 0.00 . . . . .

Who0 1 -0.63 0.11 0.00 0.53 0.43 0.66

Who1 1 -0.34 0.09 0.00 0.71 0.60 0.85

Who2 0 0.00 . . . . .

Skiv 1 -0.24 0.10 0.02 0.79 0.65 0.96

Adeno 1 0.03 0.10 0.74 1.03 0.85 1.25

Övrig 0 0.00 . . . . .

År02 1 -0.11 0.19 0.57 0.90 0.63 1.30

År01 1 -0.07 0.16 0.65 0.93 0.69 1.26

År00 1 -0.27 0.16 0.08 0.76 0.56 1.04

År99 1 -0.12 0.15 0.45 0.89 0.66 1.20

År98 1 -0.20 0.14 0.16 0.82 0.62 1.08

År97 1 -0.08 0.15 0.59 0.92 0.69 1.23

År96 1 -0.17 0.14 0.23 0.84 0.63 1.12

År95 0 0.00 . . . . .

RT 1 -0.22 0.11 0.05 0.80 0.64 1.00

KT 1 -0.50 0.10 0.00 0.61 0.50 0.74

RTochKT 1 -0.39 0.13 0.00 0.68 0.52 0.88

Ingen 0 0.00 . . . . .

Tabell 6: Resultat av Cox-regression för stadium IIIB. Med behandlingsvariabel

(22)

df coef se p RR .95lower .95upper

Ålder 1 0.00 0.00 0.70 1.00 0.99 1.01

Kön 1 0.21 0.07 0.00 1.24 1.08 1.42

Rök1 1 0.37 0.11 0.00 1.45 1.16 1.81

Rök2 1 0.31 0.12 0.01 1.36 1.08 1.72

Rök3 0 0.00 . . . . .

Who0 1 -0.79 0.10 0.00 0.46 0.38 0.55

Who1 1 -0.44 0.07 0.00 0.64 0.56 0.74

Who2 0 0.00 . . . . .

Skiv 1 -0.15 0.09 0.11 0.86 0.72 1.03

Adeno 1 -0.08 0.08 0.34 0.92 0.79 1.09

Övrig 0 0.00 . . . . .

År02 1 -0.46 0.15 0.00 0.63 0.47 0.84

År01 1 -0.25 0.12 0.04 0.78 0.62 0.98

År00 1 -0.13 0.12 0.28 0.88 0.70 1.11

År99 1 -0.28 0.13 0.03 0.76 0.59 0.97

År98 1 -0.20 0.12 0.12 0.82 0.64 1.05

År97 1 -0.06 0.12 0.61 0.94 0.74 1.19

År96 1 -0.09 0.12 0.48 0.92 0.72 1.17

År95 0 0.00 . . . . .

Tabell 7: Resultat av Cox-regression för stadium IV. Utan behandlingsvariabel

(23)

df coef se p RR .95lower .95upper

Ålder 1 -0.00 0.00 0.18 1.00 0.99 1.00

Kön 1 0.22 0.07 0.00 1.25 1.09 1.43

Rök1 1 0.36 0.11 0.00 1.43 1.14 1.79

Rök2 1 0.32 0.12 0.01 1.38 1.10 1.74

Rök3 0 0.00 . . . . .

Who0 1 -0.69 0.10 0.00 0.50 0.41 0.61

Who1 1 -0.40 0.07 0.00 0.67 0.58 0.78

Who2 0 0.00 . . . . .

Skiv 1 -0.16 0.09 0.07 0.85 0.71 1.02

Adeno 1 -0.10 0.08 0.21 0.90 0.77 1.06

Övrig 0 0.00 . . . . .

År02 1 -0.28 0.15 0.06 0.75 0.56 1.02

År01 1 -0.07 0.12 0.59 0.93 0.73 1.19

År00 1 0.03 0.12 0.83 1.03 0.81 1.31

År99 1 -0.07 0.14 0.63 0.94 0.72 1.22

År98 1 -0.05 0.13 0.67 0.95 0.74 1.22

År97 1 0.00 0.12 1.00 1.00 0.79 1.26

År96 1 -0.06 0.13 0.64 0.94 0.74 1.21

År95 0 0.00 . . . . .

RT 1 -0.04 0.10 0.66 0.96 0.80 1.16

KT 1 -0.41 0.09 0.00 0.66 0.56 0.79

RTochKT 1 -0.47 0.12 0.00 0.63 0.50 0.79

Ingen 0 0.00 . . . . .

Tabell 8: Resultat av Cox-regression för stadium IV. Med behandlingsvariabel

4 Diskussion

Tabell 3 och 4 visar att vi har en mindre relativ risk för senare år jämfört med referensåret 1995. En viss slumpvariation förekommer, men det ser ut att finnas en trend som visar på mindre risk för senare år. Samtidigt ser vi i tabell 1 och 2 att användningen av kemoterapi ökar för (nästan) varje år.

För att utesluta att den ökade överlevnaden skulle kunna förklaras av kända prognostiska faktorer eller WR-variabler kontrollerade vi detta.

• För variabeln rökstatus ser man i figur 7 tre nivåer som ser ut att vara stabila över tiden. Ingen trend kan ses för någon grupp, den förbättrade överlevnaden beror inte på att rökstatusen förändrats bland patienterna över åren.

• Könsfördelningen visas i figur 9 och där ser man en trend från år 1995 till 1999 på färre män bland patienterna. Efter 1999 har denna trend försvunnit och vid år 2002 är det återigen ca 60% män, ungefär samma som vid 1995. Den förbättrade överlevnaden kan vi inte förklara med en systematisk ökning av andel kvinnor.

• Variabeln Diagnos visas i figur 11 och där kan man se en trend från 1999

(24)

agnostiserad till Övriga. En möjlig förklaring till detta är att diagnosme- toderna utvecklas. Relativ risk mellan Adenocarcinoid och Övrig är inte signifikant, att en ändring bland diagnoserna skulle förklara den förbät- trade överlevnaden är inte troligt.

• Åldersfördelningen visas i figur 13 och ser ut att var homogen över tiden.

Test av detta visade ingen signifikans. Vi ser ingen trend till yngre pa- tienter för senare år, åldersvariabeln kan inte förklara den förbättrade överlevnaden.

• Medelväntetiden, figur 15, kan vi konstatera inte blivit mindre under senare år. Denna faktor kan alltså inte förklara ökad överlevnad.

• Who-status är en av WR-variablerna. Kontrollen av WR-variabler kräver att vi ändrar urvalet. Den variabel som vi vill kontroller får inte vara med i urval, om den är det finns risk att vi missar förskjutningar mellan grupper.

Proportionsgrafen, figur 17, visar ingen tydlig förskjutning mellan grup- perna över åren. En Will Rogers-effekt på Who-status är inte förklaringen till den förbättrade överlevnaden.

• Stadiefördelningen, figur 19, visar från 1998 en trend på flera patienter i stadium IV. Detta skulle kunna vara ”farligt” om det är patienter som tidigare skulle hamna i IIIB. Man ser i grafen att så skulle kunna vara fallet eftersom andel i IIIB sjunker samtidigt som andel i IV ökar. Men går vi tillbaka till 1995 och följer graferna så ser man att det inte är större andel i stadium IV under senare år jämfört med 1995. Trenden man ser kommer av att det år 1998 var relativt liten andel i stadium IV och sedan ökat lite för varje år. Will Rogers-effekt på stadievariabeln kan inte förklara den förbättrade överlevnaden.

• Cancertyp är en tredje variabel som skulle kunna vara utsatt för en Will Rogers-effekt. Dess proportionsgraf, 21, visar på stabila andelar inom varje grupp över åren. Det är inte en Will Rogers-effekt på denna variabel som förklara den förbättrade överlevnaden.

När vi kontrollerat dessa variabler satte vi upp en modell som innehåller årsvariabler samt de kända prognostiska faktorerna och WR-variabler. Med kän- da prognostiska faktorer i modellen jämnar vi ut effekterna av dessa över åren.

Om dessa variabler inte förklara överlevnaden ska det fortfarande finnas tydliga årseffekter. Se tabell 5 och tabell 7.

Tabellerna visar på en tydlig, men inte för alla år signifikant, effekt av åren.

Ju senare diagnosår desto mindre relativ risk. Eftersom vi har kvar årseffekter- na trots att vi lagt till ett antal variabler kan vi dra slutsatsen att dessa inte förklarar den förbättrade överlevnaden.

När vi sedan lägger till behandlingsvariabel i modellen, tabell 6 och tabell 8, är årseffekterna närmare ett och det finns ingen signifikant skillnad mellan åren.

Vi har med hjälp av behandlings variabel tagit bort mycket av årseffekterna.

Detta betyder att behandlingen förklarar en stor del av den ökade överlevnaden.

Tittar man på relativ risk inom behandlingsvariabeln ser man att radioter-

api, ”RT” , inte är signifikant bättre än ”Ingen”. Däremot ligger kemoterapi samt

(25)

kombinationen kemo– och radioterapi signifikant under ett. För att se om det är skillnad mellan behandlingarna ”KT” och ”RTochKT” beräknades ett punk- testimat samt ett 95% konfidensintervall för den relativa risken mellan dessa behandlingar. För stadium IIIB får vi följande:

RR = RR KT

RR RT ochKT

= 0.90 [0.70, 1.15]

Ingen signifikant skillnad finns mellan behandling med endast kemoterapi jämfört med en kombination av kemo– och radioterapi. Anmärkningsvärt är att punktestimatet talar för en mindre relativ risk för personer som endast får kemoterapi.

En beräkning av den relativa risken mellan behandlingarna ”KT” och ”RTochKT”

för stadium IV ger följande:

RR = RR KT

RR RT ochKT

= 1.06 [0.86, 1.30]

Vi kan inte för stadium IV se någon skillnad mellan behandlingen med en- dast kemoterapi och kombinationen av kemo– och radioterapi.

Resultaten av Cox-regression visar att utan behandlingsvariabel i modellen har vi tydliga effekter av vilket år patienten är diagnostiserad. Dessa årseffekter är som synes i tabellerna inte alltid signifikanta. För att bättre fånga upp tren- derna görs ett test av linjär trend för diagnosår. Detta test görs genom att vi tar med diagnosår som en kontinuerlig variabel. För stadium IIIB gav denna metod ett p–värde som var = 0.067 för modell utan behandlingsvariabel. Detta kan jämföras med ett p–värde på 0.640 då behandlingsvariabel är med i modellen.

Motsvarande siffror för stadium IV är p = 0.001 utan behandlingsvariabel och p = 0.250 med behandlingsvariabel.

Vidare ser man även att det är kemoterapi eller kombinationen kemo– och radioterapi som förklarar den förbättrade överlevnaden. Detta eftersom den rel- ativa risken för radioterapi inte ligger under ett (1) jämfört med ”Ingen”.

När man använder Cox-regression gör man det viktiga antagandet att haz- arderna är proportionella. Detta kan testas med metoden som beskrivs i ap- pendix. I denna studie är det den relativa risken för åren som är mest intres- sant. Därför testas antagandet om proportionell dödsrisk för åren och p = 0.008 tyder på att det för åtminstone ett år inte är proportionell dödsrisk. Eftersom det för 2002 är många censurerade observationer testas hypotesen att det för 95, ...,01 råder proportionalitet. Detta test gav ett p–värde på 0.39. Vi kan säga att relativa risken i tabellerna stämmer för alla år utom 2002.

Styrkan i studien är att den är baserad på alla fall av lungcancer i regionen under 1995 - 2002. En begränsning är att vi inte kan skilja på olika typer av cytostatikabehandling.

Eftersom uppföljnigsblanketten i vissa fall saknar information om behandlin-

gen har vi använt uppgifter från registreringsblanketten. Detta borde inte leda

(26)

5 Referenser Referenser

[1] Agresti. A.(1996) An Introduction to Categorical Data Analysis, New York;

John Wiley & Sons, Inc.

[2] Cox. D.R. Oakes. D.(1984) Analysis of Survival Data New York; Chapman and Hall.

[3] Christensen. D. 2003 Journal of the National Cancer Institute, Vol.95, No.15, 1105-1106, Augusti 6, 2003

[4] Ohlsson. U.(2002) Generalized Linear Models. An applied approach, Lund;

Studentlitteratur.

[5] Klein. J. Moeschberger. M.(1997) Survival Analysis, New York; Springer.

[6] Marubini. E. Valsecchi. M (1995) Analysing Survival Data from Clinical Trials and Observational Studies, New York; John Wiley & Sons, Inc.

[7] Sörenson. S.(2001) Lungcancer Nationellt vårdprogram.

(27)

6 Bilaga 1 Beskrivning av variablerna

Dessa variabler fanns i datasetet:

AVDTM Dödsdatum

Uppf_Behstartdtm Datum för första behandlingsstart

Uppf_Doddtm1 Dödsfall-dödsdatum från FBR

Uppf_Doddtm2 Dödsfall-dödsdatum registrerat

Uppf_Dodi Dödsorsak

Uppf_Endbronk Endobronkiell behandling t.ex. laser, brachy

Uppf_Forsamling Församling

Uppf_Ingbeh Ingen aktiv behandling

Uppf_Kemo Kemoterapi

Uppf_Kirurgi Kirurgi

Uppf_Klinik Klinikkod

Uppf_Kommun Kommun

Uppf_Lakare Läkare

Uppf_Lan Länsfördelning patient

Uppf_Namn Patientens namn

Uppf_Obduk Dödsfall. Obduktion?

Uppf_Radiomet Radioterapi metastas

Uppf_Radioprim Radioterapi primärtumör

Uppf_Sjukhus Sjukhuskod

Uppf_Studie Ingick patienten i en studie?

Uppf_Studiev1 Vilken/vilka studier deltog patienten i?

Uppf_Studiev2 Vilken/vilka studier deltog patienten i?

Uppf_Studiev3 Vilken/vilka studier deltog patienten i?

Uppf_Studiev4 Vilken/vilka studier deltog patienten i?

Uppf_Tumstdod Tumörstatus vid dödsfall

Uppf_alder Ålder vid dödsdatum

Uppf_alder10grupp Åldersgrupp

Uppf_anv Användare

Uppf_inmatdtm Timestamp inmatning

Uppf_klarmrk Klarmarkering

Uppf_kon Kön

Uppf_sjhlan Länsindelning sjukhus

Uppf_uppdtm Timestamp senaste uppdatering

(28)

alder Ålder vid visande datum

alder10grupp Åldersgrupp

anv Användare

behbesdtm Datum för behandlingsbeslut

cancertyp Cancertyp

dead Censureringsvariabel

diaggrund Diagnosgrund

diagnos Num Diagnostyp

diagnosaar Diagnosår

diagnosdtm Äldsta av visa- och provdatum

diagnoskvartal Diagnoskvartal

diagnosmanad Diagnosmånad

endbronk Endobronkiell behandling t.ex. laser, brachy

forsamling Församling

grundannat Annat

grundannatv Annan undersökning

grundbronk Bronkoskopi

grundmedia Mediastinoskopi

grundovbuk UL/CT övre buk

grundskelett Grund för stadieindelning. Skelettundersökning

grundthcen Thorakocentes

grundthorax CT Thorax

grundthskopi Thorakoskopi

grundtrbio Transthorakal biopsi

inmatdtm Timestamp inmatning

klinik Klinikkod

kemo Kemoterapi

kirurgi Kirurgi

klarmrk Klarmarkering

kommun Kommun

kon Kön

lakare Läkare

lan Länsfördelning patient

(29)

metlokan Metastaslokal. Annat

metlokanv Metastaslokal annat. Vad?

metlokcns Metastaslokal. CNS

metloklev Metastaslokal. Lever

metloksk Metastaslokal. Skelett

multidickonf Har beslut fattats vid multidiciplinär konferens

obduktionsupp Obduktionsupptäckt

oldstadium Sammanfattande tumörstadium före år 2000

padcytnr PAD eller cytologinummer

padlab Patologavdelningskod

padvad Pad vad?

planbeh Planerad behandling

prepar Preparatår

provdtm Provtagningsdatum

radiomet Radioterapi metastas

radioprim Radioterapi primärtumör

remiss Remiss

remissdtm Remissdatum

rokstatus Rökstatus

sjhlan Länsindelning sjukhus

sjukhus Sjukhuskod

stadium Sammanfattande tumörstadium

studie Planeras patienten ingå i klinisk studie studiev1 Planeras patienten ingå i klinisk studie? Vilken?

studiev2 Planeras patienten ingå i klinisk studie? Vilken?

surv Överlevnadstid

tumlagelob Tumörens läge. Lob

tumlagesid Tumörens läge. Sida

tumm Tumörstadium M

tumn Tumörstadium N

tumt Tumörstadium T

uppdtm Timestamp senaste uppdatering

visadtm Visande datum

who Performance status enligt WHO

(30)

7 Bilaga 2 Klassificering av Who-status

Performance status enligt Who

0: Klarar all normal aktivitet utan begränsning.

1: Klarar inte fysiskt krävande aktivitet, men är uppegående och i stånd till lättare arbete.

2: Är uppegående och kan sköta sig själv men klarar inte att arbeta; är uppe i rörelse mer än 50% av dygnets vakna timmar.

3: Kan endast delvis sköta sig själv; är bunden till säng eller stol mer än 50%

av dygnets vakna timmar.

4: Klarar inte någonting; kan inte sköta sig själv; är helt bunden till säng eller

stol.

(31)

8 Appendix

8.1 Grundläggande teori

Inom överlevnadsanalysen är det framförallt fyra funktioner som karakteriserar X, där X är tiden till en viss händelse (exempelvis död). Dessa fyra är: tä- thetsfunktionen, fördelningsfunktionen, överlevnadsfunktionen och hazardfunk- tionen. Överlevnadsfunktionen S(x) definieras som 1–fördelningsfunktionen, dvs.

S(x) = P (X > x)

Överlevnadsfunktionen ger alltså sannolikheten att en individ upplever hän- delsen efter tiden x.

Hazardfunktionen, h(x), har följande definition:

h(x) = lim

∆x→0

P (x ≤ X < x + ∆x|X ≥ x)

∆x

Hazardfunktionon kan alltså ses som ett mått på den ögonblickliga risken att en händelse inträffar. I fallet då X är kontinuerlig gäller

h(x) = f (x) S(x) = −d

dx ln S(x)

Det är ibland mer praktiskt att använda sig av den kumulativa hazardfunk- tionen, H(x), som definieras enligt:

H(x) = Z x

0 h(u)du = − ln(S(x))

8.2 Kaplan-Meiers skattning av överlevnadsfunktionen

Detta är en mycket vanlig skattning av överlevnadsfunktionen och ser ut som:

S(x) = ˆ Y

j:t

_j

≤t

(1 − d j /n j )

där n j är antalet individer som är utsatt för risk och d j är antalet som dör vid tiden t j .

8.3 Censurering

När man arbetar med överlevnadsdata är det mycket vanligt att man har någon

form av censurering att ta hänsyn till. De vanligaste typerna är högercensurering

respektive vänstercensurering. För högercensurerade observationer vet vi en-

dast att överlevnadstiden är minst tiden tills censurering uppstod. Vid vänster-

censurering vet vi t.ex. inte hur länge individen varit i det aktuella tillståndet

när studien startade.

(32)

1 2 3

II

III

IV I

Figur 23: Censurering Figur 23 visar exempel på olika typer av censurering.

1. I: Personen är med från början av studien och händelsen inträffar under studietiden.

2. II: Personen är med från början av studien men händelsen hinner ej inträffa innan studiens slut. Överlevnadstiden är högercensurerad.

3. III: Personen kommer in efter det att studien har börjat. Händelsen hin- ner ej inträffa innan studiens slut. Överlevnadstiden är både höger– och vänstercensurerad.

4. IV: Personen kommer in efter det att studien har börjat. Händelsen in- träffar innan studiens slut. Överlevnadstiden är vänstercensurerad

8.4 Riskset

Ett mycket viktigt begrepp inom överlevnadsanalys är risksetet, R(t i ), som beskriver antalet personer som kan utsättas för händelsen vid tiden t(i). I figur 23 är vid tidpunkten 1 person I och II i risksetet. Vid tidpunkten 2 är person I till IV i risksetet och vid tidpunkten 3 person II och III.

8.5 Cox-regression

Som tidigare låter vi X beteckna tiden till en viss händelse. Betrakta trippeln (T j ,δ j ,Z j ), j = 1, ..., n, där T j är tiden som individ j varit under observation, δ j är en indikator på huruvida händelsen inträffat (δ j = 1) eller ej (δ j = 0), och Z _j är vektorn med kovariater för den j:te individen.

Låt vidare h(t|Z) vara hazardintensiteten vid tiden t för en individ med kovariatvektorn Z. Modellen som Cox (1972) föreslog är som följer:

h(t|Z) = h 0 (t)c(β ^t Z)

där h 0 (t) är en godtycklig, som är densamma för alla individer, bas-hazard.

Den kan ses som hazardfunktionen för en individ med standardkovariater eller

(33)

med alla kovariater = 0. Här är h 0 (t) en funktion som inte innehåller några parametrar. β=(β 1 , ..., β p ) ^t är en parametervektor och c(β ^t Z ) är en känd funk- tion. Eftersom h(t|Z) måste vara positiv är det vanligt att man väljer exponen- tial funktionen som c(.) , vilket ger

h(t|Z) = h 0 (t)c(β ^t Z) = h 0 (t)exp(

p

X

k=1

β k Z k ) Logaritmen av h(t|Z)/h 0 (t) blir P p

k=1 β k Z k vilket känns igen som en vanlig linjär modell. Man gör inga fördelningsantaganden utan man antar att varje kovariat som igår i modellen har en proportionell hazard mellan dess nivåer.

8.6 Likelihoodestimation av β

Eftersom h 0 (t) inte är specificerad med parametrar kan inte vanlig likelihoodte- ori användas. Data baseras på ett stickprov av storlek n och består av trippeln (T j ,δ j ,Z j ), j = 1, ..., n. Nu görs antagandet att censurering inte ger någon in- formation, d.v.s att död och censurering är oberoende. Antag vidare att det inte finns två eller fler individer med samma överlevnadstid (detta är ofta inte fall- et men metoder för att åtgärda detta finns). Ordna händelsetiderna i stigande ordning, t 1 < t 2 < · · · < t D . Definiera risksetet vid tiden t i som mängden av individer som vid en tidpunkt precis före t i ännu inte haft sin händelse. Den (partiella) likelihooden, baserad på hazardfunktionen, har följande utseende:

L(β) =

D

Y

i=1

exp( P p

k=1 β k Z (i)k ) P

j∈R(t

_i

) exp( P p

k=1 β k Z jk )

En motivering till detta är följande: Sannolikheten att en viss individ med kovariat Z _(i) dör vid tiden t i , givet att en av individerna i risksetet R(t i ) dör, är

P (individ dör vid t i |en dör vid t i ) = P (individ dör vid t i |överlevnad till t i ) P (en dör vid t i |överlevnad till t i )

= h[t i |Z (i) ] P

j∈R(t

_i

) h[t i |Z j ] = h 0 (t i )exp(β ^t Z _(i) ) P

j∈R(t

i

) h 0 (t i )exp(β ^t Z _j )

= exp(β ^t Z _(i) ) P

j∈R(t

i

) exp(β ^t Z j )

Den partiella likelihooden fås sedan genom att multiplicera ihop dessa betingade sannolikheter över alla händelser, vilket ger likelihoodfunktionen

L(β) =

D

Y

i=1

exp(β ^t Z _(i) ) P

j∈R(t

i

) exp(β ^t Z j )

När det är två eller flera överlevnadstider som är lika måste man modifiera likelihooden en aning. Breslow (1974) föreslog en av formen:

L(β) =

D

Y

i=1

exp(β ^t s i )

· t

¸ d

i

(34)

där d i är antalet dödsfall vid tiden t i och s i är summan av alla vektorer Z j

för personer som dött vid tiden t i . För att skatta β maximerar man likelihooden eller logaritmen av likelihooden, och en iterativ process, t.ex. Newton–Raphson ger sedan skattningarna.

8.7 Estimation av H 0 (t)

Breslow’s estimator av bas-hazardfunktionen går att härleda från den partiella likelihooden och har följande utseende:

H ˆ 0 (t) = X

t

_i

≤t

1 P

j∈R(t

i

) exp(β ^t Z j )

Denna estimator används av SAS. Om det är flera händelser vid en given tidpunkt måste man modifiera estimatorn.

8.8 Konfidensintervall för relativ risk mellan två nivåer på kovariat

Antag att vi har ett kovariat med tre (eller fler) nivåer, som t.ex. behandlings variabeln, och vill ha ett konfidensintervall för differansen mellan två nivåer där ingen är bas. Detta konfidensintervall kan man inte se direkt i tabellen utan måste räknas ut separat. Antag vidare att estimaten för dessa nivåer är β 2 och β 1 . Relativ risk mellan dessa blir då

exp(β 2 )

exp(β 1 ) = exp(β 2 − β 1 )

Låt b 2 och b 1 vara skattningarna till β 2 och β 1 . För att få konfidensintervall för en differans behövs även variansen av denna differans. Enligt kända formler från sannolikhetsteorin får vi att

V ar(b 2 − b 1 ) = V ar(b 2 ) + V ar(b 1 ) − 2Cov(b 2 , b 1 ) Nu kan vi alltså få ett konfidensintervall för differansen β 2 − β 1 enligt

[(b 2 − b 1 ) − 1.96SE(b 2 − b 1 ), (b 2 − b 1 ) + 1.96SE(b 2 − b 1 )] = [lower, upper]

För att sedan få konfidensintervall för exp(β 2 − β 1 ) används att exp är en mono- tonfunktion,vilket ger

[exp(lower), exp(upper)]

8.9 Test av hazard-antagandet

Antag att vi har ett kovariat, Z 1 , som inte är tidsberoende (inget kovariat som är med i denna studie är tidsberoende).Vi skapar nu en ny kovariat Z 2 (t) som definieras enligt

Z 2 (t) = Z 1 ∗ time(t)

time(t) är en känd funktion av tiden t och vanligt är att man väljer time(t) =

log(t), vilken är den funktion som använts i denna studie. Nu sätter vi upp

en modell med Z 1 och Z 2 (t) och vi får β-estimaten samt gör ett lokalt test av

hypotesen β 2 = 0. Vid tiden t är hazardintensiteten

(35)

h(t|Z 1 ) = h 0 (t)exp(β 1 Z 1 + β 2 (Z 1 ∗ time(t))

Om vi jämför två individer med olika värden på Z 1 blir kvoten mellan dem h(t|Z 1 )

h(t|Z ₁

^′

) = exp(β 1 [Z 1 − Z ₁

^′

] + β 2 ∗ time(t)[Z 1 − Z ₁

^′