Upplägg Dag 1

(1)

Survival analysis (Dag 1)

• Tid till händelse

• Censurering

• Livslängdstabeller

• Överlevnadsfunktionen

• Kaplan-Meier

• Parametrisk skattning

• Jämföra överlevnadskurvor

Henrik Källberg, 2012

Upplägg Dag 1

(2)

Survival analysis (Dag 1)

• Mål

- Kunna grundläggande begrepp och koncept inom överlevnadsanalys

- Förstå skillnad mellan händelse och censurering - Utföra enklare beräkningar

- Förstå vad överlevnadsfunktionen beskriver - Kunna skatta överlevnadssannolikhet genom parametrisk metod med hjälp av

exponentialfördelningen

- Kunna jämföra olika överlevnadskurvor mha.

Logrank-test

(3)

Survivalanalysis (studietyper)

• Kohortstudier

• Randomiserade studier, Kliniska prövningar

Alla individer

Randomisering

Behandling Placebo

Studietid Oexponerade

Exponerade

Oexp. fall

Exp. fall

(4)

Survival analysis (exempel)

(5)

Survival Analysis

Tid (t)

Studie slut Studie start

Tid till händelse (Time to event)

Tid till händelse kan vara tid till sjukdom från

studiestart,

(6)

Survival analysis

- Censurering

• Censurering innebär att man har ofullständig information om vad som hänt en individ.

• Censurering är icke informativ om orsaken inte har med händelsen (sjukdom) som man studerar

• Höger censurering: En individ följs upp över en tid utan att någon händelse inträffar under uppföljningstiden

• Höger censurering kan bero på:

- Att individen avlider på grund av en annan orsak än den som studeras.

- Studien avslutas innan en händelse uppstår (tex. Sjukdom). Uppföljningstiden är för kort.

- En individ ”hoppar” av studien innan studien avslutas

(loss to follow up)

(7)

Survival analysis

- Censurering

• Vänstersidig censurering: Innebär att en händelse inträffat men man vet inte när. Vänstersidig censurering är ovanligare och är ofta relaterat till att man har en ställtid där individen inte vet när händelsen inträffade. Tex .

- Insjuknande innan symptomdebut tex. Cancer, HIV

• Viktigt att tänka på eventuell ställtid i samband med studiedesignen

Start studie

Uppfölj. tid Sjudomsdebut

Symptom

Ställtid

(8)

Survival Analysis Uppgift

Time (t)

Study end Study start

Time to event

Vilka individer är censurerade?

(9)

Survival analysis (Livslängdstabeller)

Ålder vid start vid

Dekaden Sannolikhet för död

under dekad Antal levande vid

dekadens början

0 0.0105 100000

10 0.00660 98950

20 0.01458 98297

30 0.01964 96864

40 0.03791 94962

50 0.08286 ????

60 0.19825 83792

70 0.40089 67180

80 ???? 40248

90 0.95709 10837

100 0.99963 465

110 1.0 1

(10)

Survival analysis Day 1

Överlevnadsfunktionen, S(t) : Beskriver sannolikheten att inte drabbas av en händelse före en given tidpunkt (t).

0.5

0.2

0.1 S(t)

(11)

Survival analysis

• Utfallsvariabeln är tid till händelse (time to event)

• Denna utfallsvariabel är oftast inte normalfördelad

• Fördelningsfunktionen för

tid till händelse (time to event)

betecknas f(t)

(12)

Survival analysis Day 1

Överlevnadsfunktionen, S(t) : Beskriver sannolikheten att inte drabbas av en händelse före en given tidpunkt (t).

Fråga:

Vad är

sannolikheten

att inte drabbas

av en händelse

före tidpunkt =

80?

(13)

Survival analysis (Överkurs)

• Sambandet mellan fördelningsfunktionen för tiden f(t) och överlevnadsfunktionen är ser ut på följande sätt:

) ( ' )

( eller

) ( 1

) ( )

( t f t dt F t f t S t

S

t









^



(14)

Survival analysis (Kaplan Meier)

• Hur beräknar man sannolikheten för överlevnad med hjälp av överlevnadsfunktionen S(t)?

• Kaplan-Meier

- För att överleva t antal tidpunkter måste man överleva t-1 tidpunkter och den sista tidpunkten i intervallet.

**- Betecknas: S(t)=S(t-1)*P(överleva tidpunkten t)**

STATA: Definiera variabler: stset survt, failure(event==1), sts list (för skattningar), sts graph (för plot av kurva)

sts grap,by(group) (plot uppdelat på grupper)

(15)

Survival analysis (Kaplan Meier)

• Kaplan Meier

- Icke parametrisk metod (vi antar inte att överlevnadsfunktionen har en speciell form)

• Antaganden:

- Observationerna är oberoende av varandra

- Censureringen är oberoende av händelserna

vi studerar t.ex. att sjukdomen som vi studerar inte är kopplad till att censurering uppkommer

- Att vi vet den ”exakta” tiden till en händelse

(16)

Survival analysis (Kaplan Meier)

Tidpunkt

(t) minuter Antal friska vid t. a

_t

Sjuka under interv.

d

_t

Antal förlorade individer c

_t

Antal indiv.

under risk n

_t

=a

_t

-c

_t

Risk sjuk vid t r

_t

=d

_t

/n

_t

Frisk vid t

s

_t

=1-r

_t

Kumulat.

Överlev. I s(t)=s(t-1)

×s(t)

1 21 0 0 0 0/21 21/21 1*21/21

29 21 1 0 21 1/21 1-1/21=

0.95 1*0.95=

0.95 30 20 0 0 20 0/20 1-0/20 =

1 1*0.95

31 20 2 0 20 2/20 =

0.10 1-0.10 =

0.9 0.9*0.95

= 0.857

…

49 18 1 1 18-1 = 17 1/17 =

0.059 1-0.059 =

0.941 0.941*0.8 57 = 0.806

52 ¹⁷ ² ¹ ¹⁶ ^{2/16 =}

0.125 1-0.125 =

0.875 0.806*0.8

75 = 0.705

(17)

Survival analysis (Kaplan Meier)

0 0,2 0,4 0,6 0,8 1

1 11 21 31 41 51

s(t)

t

(18)

Survival analysis (Kaplan Meier)

Konfidensintervall för överlevnadsfunktionen S(t)

Standard Error (SE) skattas med hjälp av följande formel:

𝑆𝐸 𝑆 𝑡 = 𝑆(𝑡)

_𝑎 ^𝑑^𝑡

𝑡(𝑎_𝑡−𝑑_𝑡)

95% Konfidensintervall vid tidpunkten

Där d

_t

är antal event vid tidpunkt t och a

_t

är antalet friska individer vid t

Denna formel kallas

Greenwoods formel

(19)

Survival analysis (Kaplan Meier)

Uppgift!

• Beräkna 95 procentigt Konfidensintervall

Tidpunkt

(t) minuter Antal friska vid t. a

_t

Sjuka under interv.

d

_t

Antal förlorade individer c

_t

Antal indiv.

under risk n

_t

=a

_t

-c

_t

Risk sjuk vid t r

_t

=d

_t

/n

_t

Frisk vid t

s

_t

=1-r

_t

Kumulat.

Överlev. I s(t)=s(t-1)

×s

_t

31 20 2 0 20 2/20 =

0.10 1-0.10 =

0.9 0.9*0.95

= 0.857

𝑆𝐸 𝑆 𝑡 = 𝑆(𝑡) 𝑑

_𝑡

𝑎

_𝑡

(𝑎

_𝑡

− 𝑑

_𝑡

)

(20)

Survival analysis

• Ibland har man inte exakta tidpunkter

• Vi har bara information för vissa tidsintervall

• Data är grupperat

! !

Tidsintervall

(21)

Survival analysis (”life table”)

• Det är ingen större skillnad mellan beräkningarna för

överlevnadsfunktionen för en ”Life-table” jämfört med Kaplan Meier

• Skillnaden består i huvudsak av att man antar att de

censurerade personerna bidrar med information under halva tidsperioden där de försvinner.

• Antalet individer under risk för en särskild period är antalet individer i början av perioden minus halva antalet individer som faller bort (loss to follow up)

• Låt oss titta på exempel

(22)

Survival analysis (”life table” uppgift!!)

Intervall (månader sedan start) i

Antal levande i början av i. a

_i

Döda under interv.

d

_i

Antal förlorade individer c

_i

Antal indiv.

under risk

n

_i

=a

_i

-c

_i

/2

Risk att dö under i

r

_i

=d

_i

/n

_i

P

överleva i

s

_i

=1-r

_i

Kumulat.

Överlev. I s(i)=s(i-1)

×s

_i

0 100 0 0 100 0 1 1

2 100 10 0 100 10/100 =

0.10 1-0.10 =

0.90 0.90

4 90 4 4 90 – 4/2 =

88 4/88 =

0.045 1-0.045 =

0.955 0.90×0.95 5 = 0.8595

6 88 8 0 88 0.0909 0.909 0.7814

8 80 0 10 75 0 1 0.7814

10 75 7 10 ??? ?? ??? ???

12 58 20 0 58 20/58 =

0.345 1-0.345 =

0.655 0.703 × 0.655 = 0.46

14 38 0 0 38 0 1 0.46

(23)

Survival analysis (”life table”)

Intervall (månader sedan start) i

Antal levande i början av i. a

_i

Döda under interv.

d

_i

Antal förlorade individer c

_i

Antal indiv.

under risk

n

_i

=a

_i

-c

_i

/2

Risk att dö under i

r

_i

=d

_i

/n

_i

P

överleva i

s

_i

=1-r

_i

Kumulat.

Överlev. I s(i)=s(i-1)

×s

_i

0 100 0 0 100 0 1 1

2 100 10 0 100 10/100 =

0.10 1-0.10 =

0.90 0.90

4 90 4 4 90 – 4/2 =

88 4/88 =

0.045 1-0.045 =

0.955 0.90×0.95 5 = 0.8595

6 88 8 0 88 0.0909 0.909 0.7814

8 80 0 10 75 0 1 0.7814

10 75 7 10 75-10/2 =

70 7/70=

0.10 1-0.10 =

0.90 0.90×0.78 14 = 0.703

12 58 20 0 58 20/58 =

0.345 1-0.345 =

0.655 0.703 × 0.655 = 0.46

14 38 0 0 38 0 1 0.46

(24)

Survival analysis (Parametrisk Skattning)

Parametrisk skattning av S(t)

• Om vi kan anta en fördelning för tiden

• 𝑻~𝑬𝒙𝒑𝒐𝒏𝒆𝒏𝒕𝒊𝒂𝒍: 𝑺 𝒕 = 𝒆𝒙𝒑 −𝝀𝒕

• Man måste skatta 𝝀 för att kunna skatta S(t)

• Hastigheten 𝝀 skattas med 𝝀 = ^𝒅 _𝒕

• Vi antar att 𝝀 är konstant över tid.

(25)

Survival analysis (Parametrisk Skattning Uppgift)

Antal individer

(a) Tid (t) **Tid*a Antal Händelser**

1 29 29 1

2 31 62 2

2 49 98 1

17 52 884 2

Summa …… 1073 6

𝝀 = ^𝒅 _𝒕 = ⁶

1073 ≈ 0.0056 → 𝑆 𝑡 = 𝑒 ^{−0.0056∗𝑡}

𝑆 𝑡 = 52 =?

Uppgift!

(26)

Survival analysis (Jämföra kurvor)

• Olika grupper t.ex.

- Behandlade och obehandlade ,

- Exponerade och oexponerade

• Logrank test

- Chi-Två

- Wilcoxon-Gehan

(27)

Survival analysis (Jämföra kurvor) ex.

(28)

Survival analysis (Jämföra kurvor)

Två olika Kurvor, olika behandlingar

Logrank Test

• Icke Parametriskt test

• H

₀

: S

_A

(t) = S

_B

(t)

(Överlevnadsfunktionen är likadan i båda grupperna)

• H

₁

: S

_A

(t) ≠ S

_B

(t)

(Överlevnadsfunktionerna är olika)

Bakomliggande ide: Beräkna förväntat antal händelser och

jämföra med observerat antal händelser.

(29)

Survival analysis (Jämföra kurvor)

• Konstruera följande tabell för alla!!! tidpunkter där händelse(r) inträffar:

Grupp Antal friska vid t. a

_t

Antal händelser

d

_t

Förväntat antal

händelser

(A) A

_t,A

d

_t,A

E

_t,A

=d

_t

*(A

_t,A

/A

_t

)

(B) A

_t,B

d

_t,B

E

_t,B

=d

_t

*(A

_t,B

/A

_t

)

Totalt A

_t

d

_t

E

_t

= d

_t

𝑉𝑎𝑟𝑖𝑎𝑛𝑠𝑒𝑛 𝑓ö𝑟 𝑑

_𝑡,𝐴

= 𝑑

_𝑡,𝐵

, 𝑉

_𝑡,𝑘

=

^𝑑^𝑡^∗𝐴^𝑡,𝐴_𝐴₂^∗𝐴_(𝐴^𝑡,𝐵^(𝐴^𝑡^−𝑑^𝑡⁾

𝑡−1)

(30)

Survival analysis (Jämföra kurvor)

Tid Antal friska vid t. a

_t

Antal händelser d

_t

Förväntat antal

händelser Antal friska

vid t. a

_t

Antal händelser d

_t

Förväntat antal händelser

1 A

_1,A

d

_1A

E

_1A

=d

_t

*(A

_1A

/A

_t

) A

_1,B

d

_1B

E

_1B

=d

_t

*(A

_1B

/A

_t

) 2 A

_2,A

d

_2,A

E

_2,A

=d

_t

*(A

_2A

/A

_t

) A

_2,B

d

_2,B

E

_2,B

=d

_t

*(A

_2B

/A

_t

) 3 A

_3,A

d

_3,A

E

_3,A

=d

_t

*(A

_3A

/A

_t

) A

_3,B

d

_3,B

E

_3,B

=d

_t

*(A

_3B

/A

_t

) k A

_k,A

D

_k,A

E

_K,A

=d

_t

*(A

_KA

/A

_t

) A

_k,B

D

_k,B

E

_K,B

=d

_t

*(A

_KB

/A

_t

)

Totalt D

_+,A

E

_+,A

D

_+,B

E

_+,B

Grupp A Behandling Grupp B Obehandlade

Ideen bakom är att jämföra observerat antal händelser mot förväntat antal om det inte var någon skillnad

d

_t

=d

_tA

+d

_tB

och A

_t

=A

_tA

+ A

_tB

(31)

Survival analysis (Jämföra kurvor)

• Teststatistika är 𝜒 ² –fördelad och beräknas genom:

𝑼 _𝑳 = (𝒅 _𝒌 _𝒕,𝑲 − 𝑬 _𝒕,𝑲 ), 𝑽 _𝑳 = 𝑽 _𝒌 _𝒕,𝑲 , 𝜒 ² = ^𝑼 _𝑽 ^𝟐

𝑳

• med 1 frihetsgrad (antal grupper-1), vilket innebär att P(𝜒 ² ≥3.84)=0.05 (signifikansnivån)

• Det finns en snabbversion som utgår från:

𝜒 ² ≈ ^(𝑫 ^+𝑨 ^−𝑬 ^+𝑨 ⁾ ^𝟐

𝑬 _+𝑨 + ^(𝑫 ^+𝑩 ^−𝑬 ^+𝑩 ⁾ ^𝟐

𝑬 _+𝑩

STATA: sts test group, sts test group,wilcoxon

(32)

Survival analysis (Jämföra kurvor) Ex.

Här är data från en fiktiv

studie som jämför två

olika behandlingar

(33)

Survival analysis (Jämföra kurvor) ex.

Exempel beräkning förväntat antal döda i behandlingsgrupp 2

(34)

Survival analysis (Jämföra kurvor) ex.

• I föregående ”slide” visades hur man beräknar förväntat antal döda för behandling 2.

• Nästa steg är att göra samma sak för behandling 1.

• Beräkna Chi-två värde:

𝜒

²

≈ ^(𝑫

^+𝟏

^−𝑬

^+𝟏

⁾

^𝟐

𝑬

_+𝟏

+ ^(𝑫

^+𝟐

^−𝑬

^+𝟐

⁾

^𝟐

𝑬

_+𝟐

= ^{(𝟒−𝟕.𝟎𝟖)}

^𝟐

𝟕.𝟎𝟖 + ^{(𝟔−𝟐.𝟗𝟐)}

^𝟐

𝟐.𝟗𝟐 =4.59 (1 fg)

(35)

Survival analysis (Jämföra kurvor)

• Logrank testet är känsligt för ”sena” skillnader mellan överlevnadskurvorna.

• Om man vet att tidiga skillnader är av särskilt intresse så kan man med hjälp av Wilcoxon-Gehan test vikta för tidiga skillnader med hjälp av antal personer under risk vid t.

𝑼 _𝑳 = 𝑨 _𝒌 _𝒕,𝒌 (𝒅 _𝒕,𝑲 − 𝑬 _𝒕,𝑲 ), 𝑽 _𝑳 = 𝑨 _𝒌 ^𝟐 _𝒕,𝒌 𝑽 _𝒕,𝑲

• Val av test bör göras innan man ser data (annars väljer man

det som passar data bäst inte apriori teori)

(36)

Survival analysis (Jämföra kurvor)

• Fler grupper!

• Logrank-testet går att generalisera till fler än två grupper.

• Viktigt att tänka på antal frihetsgrader (antal grupper-1).

(37)

Survival analysis (Jämföra kurvor) Uppgift

Grupp Obs. Antal

händelser (D) Förväntade antal händelser (E)

1 5 13.25

2 7 15.82

3 37 19.93

Totalt 49 49

Ledtråd: 𝜒

²

≈

^(𝑫^+𝑨_𝑬^−𝑬^+𝑨⁾^𝟐

+𝑨

+

^(𝑫^+𝑩_𝑬^−𝑬^+𝑩⁾^𝟐

+𝑩

+????

𝜒

²

-tabell:

(38)

Survival Analysis (Logrank test)

Styrkor

• Inga modellantaganden =>

kan användas på de flesta data

• Kan användas på kategoridata.

• Konfidensintervall är modelloberoende.

Svagheter

• Kan inte användas för att modellera tiden.

• Ingen möjlighet att testa hur variabler påverkar

modellen

• Variablers effekt kan bara undersökas genom att stratifiera (dela upp data)

• Omöjligt att använda

kontinuerliga variabler

(39)

Upplägg Dag 2

• Hazard-funktionen

• Proportional Hazard model (Cox-model)

• Olika variabler

• Statistiska test

Survival analysis (Dag 2)

(40)

Survival analysis (Dag 2)

• Mål

- Veta hur Hazardfunktionen är relaterad till överlevnadsfunktionen (S(t))

- Veta hur Cox-regressionsmodellen ser ut - Förstå ”Proportional Hazard assumption”

- Beräkna Hazard Ratio för olika variabler

- Avgöra om en variabel är ”signifikant” i en Cox-

modell

(41)

Survival analysis (Hazardfunktionen)

Fördelning tid till händelse, f(t) ^:









t

t F dt

t f t

S ( ) ( ) 1 ( )

Överlevnadsfunktionen S(t):

)) ( ) log(

( ) ) (

( S t

dt d t

S t t f

h   

Hazardfunktionen h(t):

(42)

Survival analysis (Hazardfunktionen)

• Hazardfunktionen h(t) beskriver antal händelser per tidsenhet (“hastighet” för att händelse(r) inträffar)

• Den kumulativa Hazardfunktionen (lättare att plotta

eftersom Hazardfunktionen återger den momentana risken.

ges av: -log(S(t))=H

₀

(T)

• Hazardfunktionen beskriver sannolikhet att sjukdom

(händelse) inträffar strax efter tiden t givet att sjukdom inte inträffat före t.

• Vi håller oss till det enkla exemplet med att

Hazardfunktionen är konstant (exponentiell fördelning). Det

finns dock andra fördelningar där hazardfunktionen ökar

eller minskar över tid (t.ex. Weibullfördelningen)

(43)

Survival analysis (Hazardfunktionen)

h(t)=

S(t)=e

^-t

f(t)=e

^-t

=S’(t) Kom ihåg:

Och:

Kvoten blir då:

) ( ' )

( t S t

f  

)) ( ) log(

( ) ) (

( S t

dt d t

S t t f

h   

 









_^_t^t

e

e t

S t t f

h ( )

) ) (

(

(44)

Survival analysis (Hazardfunktionen)

• Föregående exempel utgår från att tiden till händelse är exponentialfördelad (Dag1)

• Låt oss anta att alla individer har konstant ”risk” för att

drabbas av sjukdom och att det som skiljer är en specifik variabel (t.ex. rökning, kön, ålder)

T ~ exp (λ) P(T=t) = λe

^-λt

där λ är en konstant hastighet.

(45)

Survival analysis (Cox regression)

• Man behöver inte välja en speciell

sannolikhetsfördelning för överlevnadstiden och är därför säker.

• Semi-parametrisk

(Kaplan-Meier är icke-parametrisk; exponential och Weibull är parametriska)

• Man kan använda diskreta och kontinuerliga variabler.

• Lätt att använda tidsberoende variabler (variabler

som ändras över tid)

(46)

Survival analysis (Cox regression)

• Vi utvecklar Hazardfunktionen så att den ser ut på följande sätt:

• Nu består vår Hazardfunktion (h(t,x)) av två delar:

ℎ ₀ 𝑡 och exp 𝛽 ∗ 𝑥 där ℎ ₀ 𝑡 är ”baseline Hazard” och exp 𝛽 ∗ 𝑥 är en ”konstant” som påverkar

Hazardfunktionen (kan bero på en variabel) jmf. Med

• Överlevnadsfunktionen ser ut på följande sätt:

𝑆 𝑡, 𝑥 = 𝑒 ^−(𝐻

⁰

𝑡 exp 𝛽∗𝑥 ) = [𝑆 ₀ (𝑡)] ^{exp(𝛽∗𝑥)}

ℎ 𝑡, 𝑥 = ℎ

₀

𝑡 exp(𝛽 ∗ 𝑥) Obs! (exp(𝛽 ∗ 𝑥) = e

^β*x

) e = talet 2.72

 









_^_t^t

e

e t

S t t f

h ( )

) ) (

(

(47)

Survival analysis (Cox regression)

• Nu kan vi beräkna Hazard Ratio (HR)

• HR tolkas ofta som en relativ risk (RR) trots att vi inte vet absolut risk. HR skattar i detta fall en incidens kvot

) (

...

) (

...

0 ...

0 ,

1 1

1 1 1

) (

) ( )

( )

(

_i _j _ik _jk

jk k j

ik k

i

x x x x

x x

j i j

i e

e t

e t t

h t

HR h _ _ ^ ^ ^ ^



 



 _ ^ ^ _ ^ ^



Hazard för person j (eg en icke rökare)

Hazard för person i (eg en rökare)

Hazard ratio

Obs!!  ₀ ( t )  h ₀ ( t )

(48)

Survival analysis (Cox regression)

Antaganden

• Proportional Hazard Assumption

- Hazardfunktionerna för respektive grupp är proportionella **gentemot varandra. Det som skiljer dom åt är exp(β*x).**

Detta innebär att HR (”RR”) inte beror av tiden - Risken är multiplikativ

ℎ 𝑡, 𝑥 = ℎ ₀ 𝑡 ∗ exp(𝛽 ∗ 𝑥)

(49)

Survival analysis (Cox regression)

Individ Rökare (1=ja,0=nej) Tid till event Event (1=ja, 0=nej)

1 0 10 0

2 0 10 0

3 1 2 1

4 1 1 1

5 1 4 1

6 0 8 1

7 1 10 0

8 1 6 1

9 0 6 1

Data-exmpel (Dikotom variabel)

(50)

Survival analysis (Cox regression)

smoking

smoking smoking

smoking

e HR

e e t

e t t

h t HR h

smoking cancer

lung

j i smoking

cancer lung







 ^

/

) 0 1 ( )

0 ( 0

) 1 ( 0

/ ( )

) ( )

( ) (

Detta är Hazard ratio för rökning, lägg märke till att rökning är i detta fall oberoende av tid.

Kategorisk variabel (Dikotom)

(51)

Survival analysis (Cox regression) ex.

(52)

Survival analysis (Cox regression)

Individ Ålder Ålder1

(≥30 år,<40) Ålder2

(≥ 40 år, <50) Ålder3

(≥50 år) Tid till event

1 20 0 0 0 10

2 30 1 0 0 10

3 42 0 1 0 2

4 40 0 1 0 1

5 63 0 0 1 4

6 30 1 0 0 8

7 55 0 0 1 10

8 25 0 0 0 6

9 70 0 0 1 6

Data-exempel (Flera grupper, tex. Ålderskategorier, storlek), Ordinaldata

(53)

Survival analysis (Cox regression)

) 1 ( 2 0

ålder vs.

ålder2 /

) 1 ( )

0 ( )

0 ( 1 0

) 0 ( )

1 ( )

0 ( 1 0

0 ålder vs.

ålder2 gori,

Ålderskate /

2 3

2

3 2

) (

) ( )

( ) (

ålder cancer

lung

Ålder Ålder

j i cancer

lung

e HR

e e t

e t t

h t

HR h

^ålder

Ålder Ålder







_ _



Detta är Hazard ratio för ålder 2 (30-40 år) jmf med <30 år Flera grupper, Ordinal data

STATA: stcox group alder

stcox group alder, nohr (Om du vill ha beta-koefficienter och ej HR)

(54)

Survival analysis (Cox regression) Uppgift

• I en studie beträffande risk för lungcancer och rökning erhölls följande resultat

β = 1.6, SE(β)=0.5

• Skatta den relativa risken och ett 95%-igt konfidensintervall för att drabbas av lungcancer om man röker

Svar: RR=HR=e

1.6*1(rökare=1)

= 4.95,

Undre gräns 95%-igt RR= e

1.6-1.96*0.5

=1.85 Övre gräns 95%-igt RR=e

1.6+1.96*0.5

=13.2

Kategorisk variabel (Dikotom)

(55)

Survival analysis (Cox regression)

Individ Ålder Tid till event

1 20 10

2 30 10

3 42 2

4 40 1

5 63 4

6 30 8

7 55 10

8 25 6

9 70 6

Kontinuerlig variabel (tex. Ålder, Koncentration av

ämne, temperatur)

(56)

Survival analysis (Cox regression)

) 10 ( age

in increase 10

/

) 60 70 ( )

60 ( 0

) 70 ( 0

age in increase 10

/

( )

) ( )

( ) (

age

age age

age

e HR

e e t

e t t

h t HR h

years cancer

lung

j i years

cancer lung









Detta är Hazard ratio för tio år åldersökning

Kontinuerlig Variabel

(57)

Survival analysis (Cox regression) Uppgift

• I en studie beträffande ålder och risk för lungcancer erhölls följande resultat

β = 0.05, SE(β)=0.05

• Skatta den relativa risken och ett 95%-igt

konfidensintervall för att drabbas av lungcancer från 55 års ålder till 60 års ålder

Svar: RR=HR=e

0.05*(60-55)

= 1.28

Undre gräns 95%-igt RR= e

0.05*(60-55)-1.96*5*0.05

=0.77 Övre gräns 95%-igt RR= e

0.05*(60-55)-1.96*5*0.05

= 2.10

Kontinuerlig Variabel

(58)

Survival analysis (Cox regression) Uppgift

I denna artikel om Cadmium och risk för CVD så har man

kategoriserat en kontinuerlig variabel

(59)

Survival analysis (Cox regression)

• För att avgöra om en variabel (tex. Rökning, Asbest eller

behandling) medför en signifikant ökad eller minskad RR (eg.

Hazard ratio (HR)) så måste den testas.

• En vanlig metod för att testa signifikans kallas Wald test

• Andra vanliga test är Likelihood ratio och Score test

(60)

Survival analysis (Cox regression)

• Walds test ges av följande formel:

• Där är en regressionskoefficient från Cox-modellen ℎ 𝑡, 𝑥 = ℎ ₀ 𝑡 ∗ exp(𝜷 ∗ 𝑥)

• Och SE(β) är ”standard error” för β

• Z är det standardiserade normalvärdet från

normalfördelningen (Använd normalfördelningstabell)

ˆ ) ( SE

ˆ 0



 

 Z

 ^ˆ

(61)

Survival analysis (Cox regression)

• Walds test testar om är skiljt från 0. (om är 0 så innebär det att exp(β=0) är 1 vilket ger en HR (RR) som är 1 (mao. Det är ingen ökad eller minskad risk för sjukdom för den

variabeln)

H

₀

: β = 0 H

₁

: β ≠ 0

 ^ˆ  ^ˆ

(62)

Survival analysis (Cox regression) Uppgift

• Beräkna z-värde med hjälp av Walds test med hjälp av följande uppgifter (Regressionskoefficient för rökning från lungcancer):

β = 1.6, SE(β)=0.5

Signifikansnivå=0.05 → z(gräns)=1.96

• Avgör om koefficienten är skild från 0.

(63)

Survival analysis (Cox regression) Uppgift

Z 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

1.9

^0.9713

^0.975

3.0 3.1

3.2 ^0.99931

Exempel Normalfördelningstabell observera att endast några

sannolikheter ges i tabellen

I detta fall blir z=1.6/0.5 = 3.2 vilket ger ett p- värde på 1-0.99931 = 0.00069

Slutsats: denna koefficient är mycket

signifikant, det finns en association mellan

rökning och risk för lungcancer

(64)

Survival analysis (Cox regression) Uppgift

• Utför Walds test för den kontinuerliga variabeln ålder i tidigare exempel

β = 0.05, SE(β)=0.05

Signifikansnivå=0.05 → z(gräns)=1.96

Avgör om koefficienten är skild från 0. Hur förhåller sig

Walds test till HR och dess 95%-iga konfidensintervall?

(65)

Survival analysis (Cox regression) Uppgift

Beräkna Z-värde med hjälp av Walds test för behandling och ålder.

Tolka resultat.

(66)

Upplägg Dag 3

• Fortsättning Cox-modellen

• Flera variabler

• Confounding

• Interaktion

• Test av proportional Hazard assumption

• ”Ytterliggare modeller”

Survival analysis (Dag 3)

(67)

Survival analysis (Dag 3)

• Mål

- Veta hur man infogar fler variabler i en cox modell - Förstå hur man kontrollerar för Confounding

- Interaktion mellan variabler

- Undersöka, testa proportional hazard assumption

- Veta om att det finns ytterligare modeller

(68)

Survival analysis (Kort repetition)

• Hazardfunktionen

• ℎ 𝑡, 𝑥 = ℎ ₀ 𝑡 exp(𝛽 ∗ 𝑥) Obs! (exp(𝛽 ∗ 𝑥) = e

^β*x

) e = talet 2.72

* ℎ ₀ 𝑡 är ”baseline Hazard” och exp 𝛽 ∗ 𝑥 är en ”konstant” som

påverkar Hazardfunktionen (kan bero på en variabel)

(69)

Survival analysis (Kort repetition)

) (

...

) (

...

0 ...

0 ,

1 1

1 1 1

) (

) ( )

( )

(

_i _j _ik _jk

jk k j

ik k

i

x x x x

x x

j i j

i e

e t

e t t

h t

HR h _ _ ^ ^ ^ ^



 



 _ ^ _ ^ ^ ^



Hazard för person j (eg en icke rökare)

Hazard för person i (eg en rökare)

Hazard ratio

Hazard ratio (HR, ”RR”)

Obs!!  ₀ ( t )  h ₀ ( t )

(70)

Survival analysis (Kort repetition)

Walds test (för att avgöra om variabel är signifikant i modell) :

ˆ ) ( SE

ˆ 0



 



Z

(71)

Survival analysis (Flera variabler)

) 10 ( age

in increase 10

/

) 60 70 ( )

60 ( )

0 ( 0

) 70 ( )

0 ( 0

age in increase 10

/

( )

) ( )

( ) (

age

age age

smoking

age smoking

e HR

e e t

e t t

h t HR h

years cancer

lung

j i years

cancer lung













Från Dag 2:

Nu har vi utökat modellen så att både rökning och

ålder finns med.

(72)

Survival analysis (Flera variabler, confounding)

• Confounding är ett stort problem i observationsbaserade studier (läs ej randomiserade studier)

• Confounding är när ett samband mellan två variabler kan förklaras av en tredje variabel.

• Kaffe och risk för lungcancer:

Rökning

Kaffe Lungcancer

(73)

Survival analysis (Flera variabler, confounding)

Ej rökning rökning Rökning + Edu.

Etnic. Emfys.

Alc. Phys.

(74)

Survival analysis (Flera variabler, confounding)

ℎ 𝑡, 𝑥 = ℎ

₀

𝑡 exp(+𝛽

_{𝐴𝑔𝑒_𝑠𝑡𝑢𝑑𝑦}

∗ 𝑥

_{𝐴𝑔𝑒_𝑠𝑡𝑢𝑑𝑦}

+ 𝛽

_{𝐵𝑀𝐼1}

∗ 𝑥

_{𝐵𝑀𝐼1}

+ 𝛽

_{𝐵𝑀𝐼1}

∗ 𝑥

_{𝐵𝑀𝐼1}

+ 𝛽

_{𝐵𝑀𝐼2}

∗ 𝑥

_{𝐵𝑀𝐼2}

+𝛽

_{𝐵𝑀𝐼4}

∗ 𝑥

_{𝐵𝑀𝐼4}

+𝛽

_{𝐵𝑀𝐼5}

∗ 𝑥

_{𝐵𝑀𝐼5}

+ 𝛽

_{𝑆𝑚𝑜𝑘𝑒}

∗ 𝑥

_{𝑠𝑚𝑜𝑘𝑒}

)

här är ett exempel på en Cox-modellen för HR‡ i

föregående tabell.

(75)

Survival analysis (Flera variabler, confounding) Uppgift!

• Skriv upp en cox-modell som avser att undersöka risk för

CVD om man röker (fyra kategorier av rökningsklassificering:

aldrig (referensgrupp), Låg (L), Mellan (M) och hög (H)).

• Modellen skall justeras för ålder vid inklusion i studien.

• Tänk också på hur variablerna skulle vara kodade.

(76)

Survival analysis (interaktion)

• Interaktion

- Interaktion i statistisk mening innebär att effekten av en variabel beror på en eller flera andra variabler.

- En Cox-modell med interaktionsterm har följande utseende:

𝒉 𝒕, 𝒙 = 𝒉

_𝟎

𝒕 𝐞𝐱𝒑(𝜷

_𝑩𝑴𝑰

∗ 𝒙

_𝑩𝑴𝑰

+ 𝜷

_{𝑺𝒎𝒐𝒌𝒆}

∗ 𝒙

_{𝒔𝒎𝒐𝒌𝒆}

+ 𝜷

_{𝑺𝒎𝒐𝒌𝒆∗𝑩𝑴𝑰}

∗ 𝒙

_{𝒔𝒎𝒐𝒌𝒆}

∗ 𝒙

_𝑩𝑴𝑰

) - Interaktion enligt ovan nämns ofta som multiplikativ

- Interaktion kan också vara additativ

(77)

Survival analysis (interaktion)

(78)

Survival analysis (interaktion)

• Hur avgör man om det finns interaktionseffekter?

- Walds test för interaktionskoefficienten!

• Additativ interaktion är en annan historia H ₀ : β **_Smoke*BMI = 0**

H ₁ : β **_Smoke*BMI ≠ 0**

(79)

Survival analysis (interaktion) Uppgift

• Avgör om interaktionskoefficienten är signifikant skild från 0 𝜷 _{𝑮𝒆𝒏𝑯𝑳𝑨} =1.7, SE=0.2

𝜷 _{𝑺𝒎𝒐𝒌𝒆} = 0.6, SE=0.15

𝜷 𝑺𝒎𝒐𝒌𝒆∗𝑮𝒆𝒏𝑯𝑳𝑨 =0.8, SE=0.2

• Beräkna HR om man har den genetiska riskfaktorn (GenHLA) och är rökare.

**HR=exp(1.71 + 0.61+ 0.8*1) = exp(3.1) = 22.2**

(80)

Survival analysis

(proprotional hazard assumption)

• Ett viktigt antagande vi gör när vi använder cox-regression är att våra oberoende variabler ej varierar med tiden.

• Till exempel: Vi antar att riskökningen om man är rökare är konstant över tid.

• Om rökning ej skulle vara konstant över tid så skulle det i

extrema fall innebära att rökning är ”farligt” fram till en viss

tidpunkt. Efter denna tidpunkten så är rökning skyddande mot

sjukdom.

(81)

Survival analysis

(proprotional hazard assumption)

• Plotta överlevnadskurvorna för respektive grupp (exponerade, oexponerade)

• Residualer

- Martingaler - Schoenfeld

• Stratifiering, Bra att dela upp analysen för variabeln som

medför ”bekymmer” t.ex. dela upp analysen för icke rökare

respektive rökare

(82)

Survival analysis

(proprotional hazard assumption)

• Plotta överlevnadsfunktionen för de olika exponeringsgrupperna.

• Korsar kurvorna varandra = problem (ej proprotionell

hazard över tid)

(83)

Survival analysis

(proprotional hazard assumption)

• Vanligt att plotta log(Hazardfunktion) mot log(tid) för att undersöka om de olika grupperna är parallella

• Jmf med linjär regression.

(84)

Survival analysis

(proprotional hazard assumption)

• Residualer används för att skatta hur bra en modell (Cox regressionsmodell) passar observerade data

• För Cox-modeller finns ingen direkt motsvarighet till linjär regression (residual=observerat-skattat värde)

• Två olika typer av residualer - Martingaler

- Schoenfeld

Metod 2: Residualer

(85)

Survival analysis

(proprotional hazard assumption)

• Martingaler beräknas genom att ta utfallet för en person (0=censurerad, 1=händelse) minus (-) den kumulativa hazardfunktionen baserat på cox-modellen) t.ex.

- Exempel 1: En person är censurerad vid 2 månader, Den beräknade kumulativa hazarden är 20 % (0.2).

Martingalresidualen blir då: 0-0.2 = -0.2

- Exempel 2: En annan person blir sjuk vid 13

månader (en händelse), Den beräknade kumulativa hazarden är 50 % (0.5). Martingalresidualen blir då: 1- 0.5 = 0.5

Osv. för alla individer

STATA: stcox group var1 var2, mgale(mgaleres)

(86)

Survival analysis

(proprotional hazard assumption)

• Martingaler måste transformeras (göras om) till deviance residualer

• Deviance-residualer skall ha ett medelvärde runt ”0” och en standardavvikelse runt ”1” om modellen stämmer

Här är värdet på

residualen plottat (y-axel)

vs. Värdet på en kovariat

(x-axel)

(87)

Survival analysis

(proprotional hazard assumption)

• Bra för att undersöka olika variabler.

• Här får varje individ ett residualvärde för varje variabel (jmf. Med martingalresidualer)

• Schoenfelds residualer definieras som skillnaden mellan en

persons observerade och förväntade värde för en viss variabel

Schoenfelds residualer

(88)

Survival analysis

(proprotional hazard assumption)

• Exempel (förväntad sannolikhet=skattad sannolikhet från cox- modell, vid en specifik tidpunkt):

Kvinna 55-år rökare (förväntad sannolikhet =0.1) Man 45-år icke rökare (förväntad sannolikhet=0.05) Kvinna 67-år rökare (förväntad sannolikhet=0.2)

Man 58-år rökare (förväntad sannolikhet=0.30)

Man 70-år icke rökare (förväntad sannolikhet=0.20)

I detta fall så råkar den 55-åriga kvinnan ut för sjukdom.

**Förväntad ålder: 0.155 + 0.0545 + 0.267 + 0.3058 + 0.20*70=60**

• Residual=observerat värde – skattat värde=55-60=-5

Schoenfelds residualer

(89)