Linjär Regressionsanalys

(1)

Linjär Regressionsanalys

Centrum för allmänmedicin Henrik Källberg

Henrik.kallberg@ki.se

www.henrikkallberg.com/undervisning

(2)

Linear regression(Dag 1)

• Kort repetition

- Deskriptiv statistik - t-test

- Typ I och Typ II fel - Problem

• ANOVA (Analysis of Variance)

- Motivation

- Kvadratsummor - Antaganden

• Korrelation

- Kovarians

- Korrelation, (Pearson, Spearman)

Henrik Källberg, 2013

Upplägg Dag 1

(3)

Linjär Regressionsanalys(Dag 1)

• Mål

- Snabb Repetition av grundläggande statistik, t-test - ANOVA (analysis of variance)

- Veta när ANOVA är applicerbart och veta vad kvadratsumma är.

- Veta vilka antaganden som krävs.

- Samvariation och kovarians.

- Korrelation, kunna beräkna och tolka korrelation - Beskriva en enkel regressionsmodell med hjälp av graf. Och veta vad de olika komponenterna i en modell beskriver.

(4)

Skalor och datanivåer

Datanivå Klass- indelning

Rangordning Ekvidistans Kvoter Nominal-

Skala

Ja Nej Nej Nej

Ordinal- Skala

Ja Ja Nej Nej

Intervall- Skala

Ja Ja Ja Nej

Kvot- Skala

Ja Ja Ja Ja

Datanivåer

(5)

Beteckningar

 Population

- µ (medelvärde)

- (Varians)

-

(Standardavvikelse)

 Prov, Urval

- (medelvärde)

- S²(Varians)

-

(Standardavvikelse)

x



2



2



 S  S²

Förklaring symboler

Urval

Inferens

Stickprov Population



x



2

S²

(6)

Repetition, Konfidensintervall

μ

Urvalsfördelning för X

x x

x

x x

x

n

 1.96 

n

1.96 

ca 95% of all sample means falls within this interval

ca 2.5% av urvalen hamnar utanför denna sidan av gränsen (över)

ca 2.5% av urvalen hamnar utanför denna sidan av gränsen (under)

x

Urvalsfördelning

(Skål med sifferlappar!)

(7)

P-värde och olika fel

 P-värdet anger hur stor sannolikheten är att vi observerar ett extremare värde

förutsatt att H_O är sann.

H_O

Signifikansnivå (α) P-värde Typ II-fel (β)

(8)

Typ I och Typ II fel

H₀ är falsk H₀ är sann Förkasta H₀

OK Typ I fel (falskt positiv) Förkasta inte H₀ Typ II fel (falskt

negativ) OK

Beslut

Verklighet

(9)

Uppgift! Beräkna Varians!

X X - (X - )²

1 - 1 1

2 0 0

3 1 1

Summa 6 0 2

1 ? )

(

²

2





   n

x s x

3 2 6 





n X X

x x

) (var

) .

(std avvikelse s² iance

s 

(10)

T-test

• Jämföra två Grupper (t.ex. behandlade (X₁) mot obehandlade (X₀))

• Poolad varians: Variansen för de båda grupperna vägs samman enl. formeln:



 



 

 

 



 



 



 _ _

2 1

2

0 1

2 1

2 2

0 1

1 1

2 1

n S n

X t X

n S n

t X X

Pool Pool

n n

       

2 1

1

) 1 (

0 1

2 0 0

2 1 1

0 1

2 0 0

2 1 2 1









 









 

 

n n

X X

n n

S n

S S_Pool n

(11)

Hypotes T-test

• Nollhypotesen vid vanligt t-test är:

H₀:

• Den alternativa hypotesen är:

H₁: alt.

0

1 X

X 

0

1 X

X  X₁  X₀, X₁  X₀

(12)

Uppgift!

• Utför ett hypotestest med hjälp av ett t-test för att avgöra om det är signifikant skillnad mellan två grupper (X₁ är

gruppen skidåkare som tränat på hög höjd, X₀ är gruppen som ej tränat på hög höjd ) med avseende på blodvärde:

𝑺^𝟐_{𝑷𝒐𝒐𝒍}= 120, n₁=30, n₀=40, X₁= 165, X₀= 132



 



 

 

2 1

2

0 1

1 1

n S n

X t X

Pool

(13)

Svar Uppgift!

• Tolkningen blir att det är en signifikant skillnad mellan

gruppernas medelvärde. Höghöjdsträning verkar ha effekt på blodvärdet.

94 . 37 3

, 8

33

40 120 30

120

132 165

1 1

2 1

2

0

1  



 



 



 

 

n S n

X t X

Pool

(14)

ANOVA (motivering)

Två variabler : 1 Kategorisk, 1 Kvantitativ

Fråga: Skiljer sig medelvärdet med avseende på den kvantitativa variabeln åt mellan grupperna (Kvalitativ variabel)?

Om vi bara har två grupper (baserat på den kvalitativa variabeln):

- t-test

ANOVA Möjliggör att testa fler grupper samtidigt, tex. Skiljer sig höghöjdsträning, träning och ej träning åt (tre grupper)?

(15)

ANOVA II (Hypotes)

Anta att vi har K stycken oberoende grupper: ANOVA testar Nollhypotesen:

H0: μ1 = μ2 = … = μK

Vilket innebär, “Grupperna har lika medelvärde”

Alternativ hypotes ges av:

H1: μi ≠ μj för någon av grupperna i,j.

(Samma sak som att grupperna har olika medelvärde)

(16)

ANOVA III visuell

• ANOVA utgår från

“overall”

medelvärdet och testar de olika grupperna utifrån detta värde.

• Om det

kombinerade

avståndet skiljer sig från overall

medelvärdet så förkastas H₀.

X

P B

A 13

12 11 10 9 8 7 6 5

treatment

days

X

(17)

ANOVA formler

För att kombinera avståndet från “overall mean”

– Kvadrera skillnaden

– Multiplicera med antalet individer I gruppen – Summera alla grupper

Betecknar medel i respektive grupp (A,B och P)

“SSB” = Sum of Squares Between groups

  

² ³⁵

 

² ²⁰



²

40

SSB  X _A  X  X_B  X  X_P  X

X*

(18)

ANOVA fortsättning

• SSB (sum of square between) måste relateras till någon annan ”Sum of Square”

• Mean square Error (MSE), talar om hur stor den

kombinerade variationen är, med hänsyn till respektive grupp

• N är antalet individer, K är antalet grupper och x_ij är den i^th observationen i den j^th gruppen

 



^

 

j i

j

ij X

K x

MSE N1 ²

(19)

ANOVA (MSE)

0.10.20.30.40.5

Implant Height Error by Guide Width

Guide Width

Implant Height Error (mm)

4mm 6mm 8mm

A B P

Treatment

 



^

 

j i

j

ij X

K x

MSE N1 ²

Samma grupper som innan men nu visas individuella värden, N är antalet individer, K är antalet grupper och x_ij är den i^th

observationen i den j^th gruppen, x_j är medel i respektive grupp

(20)

ANOVA beräkningar

• Ide! Jämföra ”medel” Variation ”mellan” (MSB) mot

”medel” Variation inom (MSE).

• Detta F-värde följer F-fördelningen med K-1 och N-K

frihetsgrader (N är totalt antal observationer, K är antalet grupper)

 





 



 

j i

j ij

J

X K x

N

K X

X MSE

K F SSB

1 2

) 1 /(

) ) (

1 (

(21)

ANOVA Summering

MSE F MSB

DF MS SS

SST SSB

SSE

x x

n x

x SSB

df s

x x

SSE

DFT s

x x

SST

grupper

i i

obs

i

i grupper

i obs

i ij

obs

ij























;

) (

2 2

2

2 1. Lägg märke till

att den totala variansen (SST) är summan av SSB och SSE.

2. Lägg märke till att SSE är kopplat till variansen

3. ANOVA för endast två

grupper = t-test

(22)

ANOVA Tabell, uppgift

Sum of

Squares df Mean

Square F Sig.

mellan

Grupper .01 2 .05 5 .0105

Inom

Grupper .5 50 .01

Totalt .51 52

I de flesta statistikprogram presenteras en ANOVA tabell

Sum of Squares Between (SSB)

Mean Square

Error (MSE) F Statistic p value Frågor!: Var finns följande värden I tabellen?

(23)

ANOVA antaganden!!

– Naturligtvis så krävs ett antal antaganden för att beräkningarna skall vara valida! Dessa är:

* Att individerna i respektive grupp är oberoende slumpmässigt utvalda.

* Varje grupp är ungefär normalfördelad med avseende på testvariabeln. (Kollas enklast via histogram eller dylikt)

* Standardavvikelsen (std) är ungefär lika stor för de olika grupperna. Tumregel: Kvoten mellan högsta och lägsta skall vara mindre än 2.

(24)

Kovarians (cov)

Kovarians är ett mått på samvariation mellan två stokastiska variabler

Obs! cov(x,x)=var(x)

(25)

Kovarians

• Kovariansen kan tolkas på följande sätt:

1. cov(x,y) > 0 innebär att x och y är positivt korrelerade

2. cov(x,y) = 0 innebär att x och y är okorrelerade (oberoende)

3. cov(x,y) < 0 innebär att de är omvänt korrelerade (negativt korrelerade)

(26)

Korrelationskoefficienten r

(pearson, kontinuerliga var.)

• Fråga! Finns det något linjärt samband mellan längd och vikt?

• Genom att använda varians (var) och kovarians (cov) så kan vi skatta korrelationskoefficienten (r).

𝒓 = 𝒄𝒐𝒗(𝒙, 𝒚)

𝒗𝒂𝒓(𝒙) × 𝒗𝒂𝒓(𝒚)

• Korrelationskoefficienten, r (Pearson):

– Har ingen enhet.

– Är ett mått på hur starkt linjärt förhållande det är mellan två variabler – Kan anta värden mellan -1 och 1.

– r = 0 innebär att det inte finns något linjärt samband mellan variablerna – r = 1 innebär att det är ett perfekt positivt linj. samband mellan variablerna – r = -1 innebär att det är ett perfekt negativt linj. Samband mellan variablerna.

(27)

Korrelationskoefficient (r)

X

Y

X

Y

X X

r = -1 r = -.6 r = 0

r = +.3

r = +1 r = 0

Y

(28)

Spearmans rangkorrelation

(Kontinuerliga, diskreta och ordinal var.)

• Fråga! Finns det något samband mellan betyg (x) och IQ (y)?

n = antal, d_i = differens i rangordning mellan variablerna

𝑟 = 1 − 6 ∗ 𝑑_𝑖² 𝑛(𝑛² − 1)

Betyg (x) IQ (y) Rang x Rang y d_i

(rang x-rang y) 𝒅_𝒊^𝟐

1 86 1 1 0 0

2 92 2 2 0 0

4 100 3,5 = (3+4)/2 3 0,5 0,25

4 115 3,5 4 -0,5 0,25

5 120 5 5 0 0

(29)

Uppgift! Beräkna r (Spearman)

𝑟 = 1 − 6 ∗ 𝑑_𝑖² 𝑛(𝑛² − 1)

Betyg (x) IQ (y) Rang x Rang y d_i

(rang x-rang y) 𝒅_𝒊^𝟐

1 86 1 1 0 0

2 92 2 2 0 0

4 100 3,5 = (3+4)/2 3 0,5 0,25

4 115 3,5 4 -0,5 0,25

5 120 5 5 0 0

Svar : r = 1-6*0,5/5*(25-1)

= 0,975

(30)

Signifikanstest r.

• Två sätt:

1. t-test: 𝒕 = 𝒓 _𝟏−𝒓^𝒏−𝟐_𝟐 t >,< t_n-1,95%

2. Fischer information: 𝑭 𝒓 = ^𝟏_𝟐 𝒍𝒏 ^𝟏+𝒓_𝟏−𝒓 , 𝒛 = ^𝒏−𝟑

𝟏,𝟎𝟔 ∗ 𝑭(𝒓) z >,< 1,96

(31)

Korrelationskoefficient (r)

• r kan vara:

– Låg men signifikant (ofta p<0.05). t.ex. r = 0.1 (p<0.01) – Hög men inte signifikant t.ex r = 0.9 (p=0.5)

– Låg och ej signifikant t.ex. r = 0.1 (p=0.5) – Hög och signifikant t.ex. r = 0.9 (p<0.01)

(32)

Sammanfattning dag 1

• Repetition (t-test, p-värde etc.)

• ANOVA (Flera grupper, Kvadratsummor (SS))

• Kovarians

• Korrelation (r (Pearson, Spearman))

(33)

Linear regression(Dag 2)

• Kort repetition Dag 1

- ANOVA - Kovarians - Korrelation

• Enkel Linjär regression

- Räta linjens ekvation - Prediktion

- Antaganden

• Enkel Linjär regression

– Regressionskoefficienten – Test av lutning

– Kategorivariabler

Henrik Källberg, 2013

Upplägg Dag 2

(34)

Repetition Dag 1 (ANOVA)

Sum of Squares df Mean Square F Sig.

Between

groups 𝑆𝑆𝐵 = 𝑛_𝑖(𝑦 − 𝑦_𝑖 )_.. ² b-1 𝑀𝑆𝐵 = 𝑆𝑆𝐵

𝑏 − 1 𝐹 = 𝑀𝑆𝐵 𝑀𝑆𝐸

Within

groups 𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝐵 N-b 𝑀𝑆𝐸 = 𝑆𝑆𝐸 𝑁 − 𝑏

Totalt ^{𝑆𝑆𝑇 = (𝑦}^𝑖 ^{− 𝑦}⁾^.. ² N-1

(35)

Repetition Dag 1 (Kovarians, r)

Par X Y

1 1 3

2 3 5

3 6 7

4 8 10

Total 18 25

Uppgift!! Beräkna kovarians, och korrelation

𝒓 = 𝒄𝒐𝒗(𝒙, 𝒚)

𝒗𝒂𝒓(𝒙) × 𝒗𝒂𝒓(𝒚)

(36)

Svar repetitionsuppgift

• Cov = 9.167

• Var(x) = 9.67

• Var(y) = 8.917

• R = 0.987 = (9.167/rot(9.67)*rot(8.917)

(37)

Dag 2 Regressionsanalys

• Mål Dag 2

– Känna till räta linjens ekvation.

– Veta vad oberoende och beroende variabel är.

– Veta vad lutningskoefficient och intercept är.

– Utföra lämpligt test för regressionskoefficient.

– Veta vilka antaganden som regressionsmodellen bygger på.

– Tolka en regressionsanalys.

(38)

Dag 2 Regressionsanalys

• I regressionanalys pratar man om Beroende (y) och Oberoende (x) variabler. Detta innebär att målet med regressionsanalys ofta är att predicera ett värde på Y med hjälp av en annan variabel X.

• I korrelationsanalys finns ingen värdering i vad som är oberoende respektive beroende.

(39)

Dag 2 Regressionsanalys

(räta linjens ekvation)

Y=kX+B

B

k

x Y

(40)

Dag 2 Regressionsanalys (räta linjens ekvation, lutning)

• Vad Innebär k i en linjär ekvationsmodell?

- Svarar mot lutningen

- Hur mycket Y ökar då X ökar.

- T.ex. för varje ökning av X ökar Y med 2 Y=kX+B

k

(41)

Dag 2 Regressionsanalys (Prediktion)

• Mål:

– Vi vill förutspå (predicera) ett värde på Y när vi bara har information om X.

– Jämför med betingade sannolikheter, P(Y|X).

– Jämför med denna ekvation:

– Här är 𝛼 det samma som B och β det samma som k i föregående slides.

– Med ett normalfördelat fel i ekvationen:

i i

i

x x

y

E ( / )    

i i

i

x x

y

E ( / )      

Fixerade effekter, passar den räta linjen

Slumpmässigt fel som följer normalfördelning (N(0,1))

(42)

Dag 2 Regressionsanalys (4 Antaganden)

• Förhållandet mellan X och Y är linjärt.

• Y är normalfördelat för varje punkt vid X.

• Variansen för Y är samma för varje punkt X.

• Observationerna är oberoende.

(43)

Dag 2 Regressionsanalys (Sum of squares)

C _A B

A

y_i

x y

y_i

C

B



 

 _i

i x

yˆ

y

A² B² C²

SS_total Total variation

SS_reg

Avstånd mellan regressionslinjen och medel värdet på y

SS_residual

Varians omkring regressions linjen



 



 









 ⁿ

i

i i

n

i

n

i

i y y y y y

y

1

2

1 1

2

2 ( ˆ ) ( ˆ )

) (

R²=SS_reg/SS_total

(44)

Dag 2 Regressionsanalys (Uppgift !)

• Jämför kvadratsummorna som används för att skatta regressionskoeffcienterna med

Kvadratsummorna i ANOVA!

• SS_total=?, SS_REG =?, SS_RESIDUAL=?

• SSB=?,SST=?,SSE=?

(45)

Dag 2 Regressionsanalys (Prediktion II)

Y = max HR X = Ålder

Y = 196 – 0.9*Ålder

(46)

Dag 2 Regressionsanalys (Prediktion II, Uppgift!)

Beräkna DIN maximala Hjärtfrekvens med hjälp av formeln:

**Max_HR = 196 – 0.9*Ålder (i år räknat)**

(47)

Dag 2 Regressionsanalys (Koefficient och intercept)

) (

) ,

ˆ (

x Var

y x

 Cov



ˆ x -

ˆ y :

Calculate   

Interceptet fås genom:

(regressionslinjen går alltid genom 𝑥 och 𝑦 )

Regressionskoefficienten skattas genom Minsta kvadratmetoden. Följande uttryck erhålls:

Lutningen:

(48)

Dag 2 Regressionsanalys

(Koefficient, intercept uppgift)

• Beräkna β och 𝜶 samt skriv upp regressionsmodellen !

• Cov(y,x) = 20, var(x)=5, 𝒚 = 𝟑𝟓, 𝒙 = 𝟐𝟐

(49)

Dag 2 Regressionsanalys * (Koefficient-Korrelation)

y x

SD r ^ˆ   ^ˆ SD

Korrelations koefficienten (r) har ett samband med

regressionskoefficienten (β).

Observera att i regression så finns beroende (y) och

oberoende variabler (x)

(50)

Dag 2 Regressionsanalys (Koefficient, signifikans)

• För att avgöra om lutningen (β) är skild från 0, så bör man testa detta.

• Fördelningen för “lutningen” β~ T_n-2(β,s.e.(𝜷 ))

• Hypotesen blir följande:

H0: β1 = 0

H1: β1  0

. .( ˆ )

ˆ 0



e s

T_n-2=



(51)

Dag 2 Regressionsanalys * (Koefficient, Standardavvik.)

x x y x

n

i

i i

SS s SS

n

y y

s

2 / 1

2

ˆ

2 ˆ ) (

 











Standardavvikelse för β

(52)

Dag 2 Regressionsanalys

(Koefficient, signifikans, uppg.)

(53)

Dag 2 Regressionsanalys (Dataexempel)

Individ Height Weight

1 142 34

2 160 75

3 150 62

4 155 45

5 158 52

6 170 73

7 161 62

(54)

Dag 2 Regressionsanalys

(Koefficient, signifikans, uppg.)

Uppgift!

1. Skriv upp regressionsmodellen

2. Avgör med lämpligt test om lutningen är skild från 0.

(55)

Dag 2 Regressionsanalys

(Koefficient, signifikans, Svar)

(56)

Dag 2 Regressionsanalys (Dataexempel)

Individ Grupp (1=behand) LDL

1 1 4.3

2 1 2.7

3 1 5.0

4 0 7.8

5 0 6.4

6 0 5.6

7 0 6.0

(57)

Dag 2 Regressionsanalys (Dikotom variabel)

0001 .

; 2 . 8 1

1

7 . 2 97

. 6 27 . 4

2 1

37 ₂

2 2

1







 





  p

n n

T

S S

En regressionsmodell med en dikotom variabel (y = x*β + ε) med β= - 2.7 är det samma som ett t-test för differensen mellqn gruppernas medelvärde.

(58)

Sammanfattning Dag 2

(Regressionsanalys)

• Räta linjens ekvation (Y=kx + m)

• Prediktion ( )

• Antaganden (Linjärt, NIID)

• Koefficient och intercept

-test av koefficient, Intercept

• Olika variabeltyper (Dikotom och Kontinuerlig)

i i

i

x x

y

E ( / )      

(59)

Upplägg Dag 3

• Kort repetition, Frågor

• Flera variabler

• Confounding

• Interaktion

• Faror med multivariabla

modeller (ev. Välja ”bästa”

modellen)

• ”Ytterliggare modeller”

Dag 3 Regressionsanalys (Flera variabler)

(60)

Dag 3 Regressionsanalys (Mål)

• Mål Dag 3

- Veta hur man infogar fler variabler i en regressionsmodell.

- Förstå hur man kontrollerar för Confounding - Interaktion mellan variabler

- Veta om faror med multivariata modeller (ev. Undersöka vilken modell som är ”bäst”)

- Veta om att det finns ytterligare regressionsmodeller

(61)

Dag 3 Regressionsanalys (Repetition dag 2)

• Skriv upp den generella regressionsekvationen.

• Ange vilka fyra huvudsakliga antaganden som vi förutsätter vid linjär regressionsanalys.

• Avgör om koefficienten (β=0.5, SD=0.3) är skiljd från noll.

(62)

Dag 3 Regressionsanalys (Flera variabler)

• Linjära regressionsmodeller har fördelen att man kan infoga flera variabler i

samma modell. T.ex.

• Bra för att kunna:

– Kontrollera för confounders.

– Hantera interaktion mellan variabler (effektmodifiering)

– Förbättra prediktionsförmågan.

i

x x x x

y

E ( /

₁

,

₂

,...)    

₁

 

₂

 ...  

(63)

Dag 3 Regressionsanalys (Flera variabler II)

• Det finns olika sätt att inkludera ytterligare variabler:

1. Andra oberoende variabler t.ex:

2. Polynom (om ”kurva”):

(lätt att skapa overfitting!)

i

x x x x

y

E ( /

₁

,

₂

,...)    

₁

 

₂

 ...  

i

x x x x

y

E ( /

₁

,

₁²

,...)    

₁

 

₁²

 ...  

(64)

Dag 3 Regressionsanalys (Confounding)

BMI

Y, Blodtryck Confounding, exempel

Confounding,

(65)

Dag 3 Regressionsanalys (Confounding, kokbok)

• En confounder (C) är associerad med beroende (Y) och oberoende (X) variabler (den korrekta metoden!, ofta skippas steg 3 och 4).

• 1.Kontrollera om Y är associerad med X.

𝑬 𝒀 𝑿 = 𝒂_𝟎 + 𝜷_𝒙 ∗ 𝑿 + 𝛜

• 2. Kontrollera om Y är associerad med X givet C.

𝑬 𝒀 𝑿, 𝑪 = 𝒂_{𝟎,𝒙,𝒄} + 𝜷_𝒙,𝑪 ∗ 𝑿 + 𝜷_𝒄,𝑿 ∗ 𝐂 + 𝛜

• 3. Kontrollera om C är associerad med Y.

𝑬 𝒀 𝑪 = 𝒂_𝟎,𝒄 + 𝜷_𝒄 ∗ 𝐂 + 𝛜

• 4. Kontrollera om C är associerad med X.

𝑬(𝑪|𝑿) = 𝒂_𝟎,𝒙 + 𝜷_𝑪,𝑿 ∗ 𝐗 + 𝛜

Justerat !

(66)

Dag 3 Regressionsanalys

(Confounding, Uppgift)

(67)

Dag 3 Regressionsanalys (Confounding, Uppgift)

1. Vilken av behandlingarna är förenlig med confounding?

2. Hur många confounders användes?

3. Är koefficienterna ”signifikanta”?

(68)

Dag 3 Regressionsanalys (Interaktion)

• Interaktion innebär att effekten av en oberoende variabel beror av en annan oberoende variabel.

• I artikeln skulle interaktion innebära att

kroppssammansättningen skulle bero på genetisk variation (FTO) och Syreupptagningsförmåga. Det vill säga: Man har en extra effekt av syreupptagningsförmågan om man har en

särskild genetisk variation.

(69)

Dag 3 Regressionsanalys (Interaktion)

𝑌 = 𝑃𝑃𝐴𝑅𝐺 × 𝛽_{𝑃𝑃𝐴𝑅𝐺}+ +𝐵𝑀𝐼 × 𝛽_𝐵𝑀𝐼+ 𝜖 Fasting

Insulin (Y)

𝑌 = 𝐵𝑀𝐼 × 𝛽_𝐵𝑀𝐼+ 𝜖

Två olika modeller en med genetisk faktor och en utan.

PPARG och BMI i

modellen är så kallade main effects.

(70)

Dag 3 Regressionsanalys (Interaktion)

Fasting Insulin (Y)

𝑌 = 𝐵𝑀𝐼 × 𝛽_𝐵𝑀𝐼+ 𝜖

𝑌 = 𝑃𝑃𝐴𝑅𝐺 × 𝛽_{𝑃𝑃𝐴𝑅𝐺}+ +𝐵𝑀𝐼 × 𝛽_𝐵𝑀𝐼+ 𝑃𝑃𝐴𝑅𝐺

× 𝐵𝑀𝐼 × 𝛽_{𝑃𝑃𝐴𝑅𝐺×𝐵𝑀𝐼} + 𝜖

Här är lutningen större än i föregående diagram.

𝑃𝑃𝐴𝑅𝐺 × 𝐵𝑀𝐼 × 𝛽_{𝑃𝑃𝐴𝑅𝐺×𝐵𝑀𝐼} Är interaktionseffekten.

(71)

Dag 3 Regressionsanalys (Interaktion)

• Interaktion innebär att en signifikant produkt term existerar.

• Testa om interaktionstermen är skild från noll.

• Om det finns stark interaktion så är

confounding justering onödigt Stratifiera!

(72)

Dag 3 Regressionsanalys (Interaktion, uppgift)

Main effects:

FTO (”AA”): 3 (sd=0.9) VO₂Max: -0.2 (sd=0.05) Interaction effects:

FTO*VO₂Max: -0.1 (sd=0.07)

1. Skriv ut en modell för main effects + en

modell med main

effects och interaction effects.

2. Avgör vilka koeff.

Som är signifikanta.

(73)

Dag 3 Regressionsanalys

(Faror med multip. regression)



Multi-collinearity



Residual confounding



Overfitting

(74)

Dag 3 Regressionsanalys (Faror, Multi-colinearity)

• Kolinearitet innebär att två oberoende variabler

”mäter samma sak”. Det finns en stark korrelation mellan dem Tex. Vikt och BMI.

• Man bör endast inkludera en av dessa variabler i modellen.

(75)

Dag 3 Regressionsanalys

(Faror, Residual confounding)

• Residual confounding:

• Är ”kvarstående” confounding trots att man kontrollerar för confounders. Här följer tre varianter:

1. Ytterligare confounders som det ej finns

information om (unmeasured confounding)

2. För grov indelning av confoundern som används I analysen. T.ex. Variabel ung-gammal används istället för ålder mätt I antal år.

3. Felklassificering av individer för confoundern I fråga.

(76)

Dag 3 Regressionsanalys (Faror, Overfitting)

• Overfitting = Modellen kan passa data

”perfekt” på grund av att man har för många variabler i modellen.

• Tyvärr är modellen troligtvis värdelös ur

prediktionssynpunkt eftersom modellen är starkt kopplad till data som används.

(77)

Dag 3 Regressionsanalys (Faror, Overfitting)

Parameter Standard

Variable Estimate Error Type II SS F Value Pr > F Intercept 11.023 2.98341 11.96067 15.65 0.0019 Motion -0.29106 0.09798 6.74569 8.83 0.0117 sömn -1.91592 0.39494 17.98818 23.53 0.0004 obama 1.73993 0.24352 39.01944 51.05 <.0001 Clinton -0.83128 0.17066 18.13489 23.73 0.0004 MatteKär 0.45653 0.10668 13.99925 18.32 0.0011

Optimism modellerat för några faktorer, 5 oberoende faktorer i samma modell.

Parameter Standard

Variable Estimate Error T-värde Pr > F

Intercept 6.65189 0.89153 7.46 <.0001 Motion 0.19161 0.20709 0.93 0.3658

Univariat analys av motion:

(78)

Dag 3 Regressionsanalys (Faror, Overfitting)

“Brus”variabler orsakar bra R² värden om modellen är

“overfitted”

(Figure 1 from: Babyak, MA. What You See May Not Be What You Get: A Brief, Nontechnical Introduction to Overfitting in Regression-Type Models. Psychosomatic Medicine 66:411-421 (2004).)

Tumregel: Minst 10 individer per ytterligare

infogad variabel i en mult. Reg.

modell

(79)

Dag 3 Regressionsanalys (Faror, uppgift)

• Diskutera med grannen och ge potentiella exempel på:

1. Residual confounding 2. Overfitting

3. Kolinearitet.

(80)

Dag 3 Regressionsanalys (Välja modell)

• Genom att undersöka om variabeln tillför ett signifikant tillskott av SS(Dag 1).

• Stepwise

– Forward (utöka modellen med ytterligare variabler) – Backward (minska modellen med en variabel i taget)

(81)

Dag 3 Regressionsanalys (Välja modell)

Källa: www.Wikipedia.org

(82)

Dag 3 Regressionsanalys (Ytterligare modeller)

Utfallsvariabel

Är observationerna oberoende eller korrelerade?

Antagande Oberoende Korrelerade

Kontinuerlig

(VAS, längd, konc, etc.)

T-test ANOVA

Linjär correlation Linjär regression

Parat ttest

Repeated-measures ANOVA Mixed models/GEE modeling

Utfallsvariablen är norm.fördel.

Linjärt förhållande mellan utfall och oberoende variabel.

Binär, kategori

(sjuk, ordinalskala)

Difference in proportions Relativa risker

Chi-2 test

Logistisk regression

McNemar’s test

betingad logistic regression GEE modeling

Chi-2 test antar minst antal I varje cell (>=5)

Tid till händelse

(tid till sjukdom)

Kaplan-Meier Cox regression

n/a Prop.hazard

assumption

(83)

Dag 3 Regressionsanalys (Sammanfattning)

• Mulivariabel regression

• Confounding

• Interaktion

• Faror

– Kolinearitet

– Residual confounding – Overfitting

• Modellval.

• Ytterligare modeller

(84)

Dag 4 Regressionsanalys (Diagnostik, Upplägg)

• Kort repetition, Frågor

• (Multi) kolinearitet

• Residualer

- Linearitet

- Homoscedasitet - Oberoende

• Outliers

Hur bra stämmer våra antaganden?

(85)

Dag 4 Regressionsanalys

(Diagnostik, Mål)

• Mål Dag 2

– Känna till olika diagnostiker för att utvärdera regressionsmodeller.

– Förstå vad en residual är.

– Veta hur residualmönster ser ut vid ”icke”,-linearitet, - homoscedasitet, -oberoende.

– Känna till mått för kolinearitet mellan oberoende variabler.

– Känna till situationer när outliers är ett problem.

– Känna till mått för att skatta outliers betydelse

(86)

Dag 4 Regressionsanalys (Repetition)

• Multipel regressionsmodell:

• Confounding

• Interaktion

• Faror

– Kolinearitet

– Residual confounding – Overfitting

i

x x x x

y

E ( /

₁

,

₂

,...)    

₁

 

₂

 ...  

(87)

Dag 4 Regressionsanalys (Repetition, uppgift!!)

• Utfallsvariabeln (y = BMI) misstänks vara beroende vikt och

aktivitetsnivå (fys). Skriv upp en regressionsmodell för följande:

1. BMI och vikt med justering för confounding från aktivitetsnivå (fys.).

2. BMI och vikt, fys samt interaktion mellan vikt och fys.

(88)

Dag 4 Regressionsanalys

(Multiple Regression, repetition antaganden)

• Förhållandet mellan X och Y är linjärt.

• Y är normalfördelat för varje punkt vid X.

• Variansen för Y är samma för varje punkt X.

• Observationerna är oberoende.

(89)

Dag 4 Regressionsanalys

((multi)Kolinearitet)

• Kolinearitet innebär att två variabler mäter ”samma”

sak.

• Kolinearitet mellan två variabler kan medföra:

-

Instabila

^estimat!

- Falskt för stora standardfel, Nollhypotesen förkastas inte.

(90)

Dag 4 Regressionsanalys

((multi)Kolinearitet)

• Två mått på kolinearitet är:

1. 𝑇𝑜𝑙𝑒𝑟𝑎𝑛𝑐𝑒 = 1 − 𝑅_𝐽², Där 𝑅_𝐽² är korrelation mellan de båda variablerna, ett värde under 0.2 indikerar kolinearitet.

2. 𝑉𝐼𝐹 = _{1 − 𝑅}¹

𝐽2, VIF = Variance Inflation Factor, ett VIF värde över 5 indikerar kolinearitet.

(91)

Dag 4 Regressionsanalys

((multi)Kolinearitet, uppgift!!)

Estimate Std. Error t value Pr(>|t|) (Intercept) 2.33e-15 5.911e-16 4.032e+00 0.000865 ***

x 3.67e-01 2.803e-16 1.308e+15 < 2e-16 ***

bm 1.00e+00 3.228e-16 3.098e+15 < 2e-16 ***

Modell med kolinearitet: Y = 2.383e-15 + 0.3667*X + 1*bm (OBS!!! bm = x/1.2 + e, e = n(0,1))

Korrelation (r) mellan X och bm = 0.98

Estimate Std. Error t value Pr(>|t|) (Intercept) -0.036 0.43158 -0.084 0.934 X 1.22158 0.03603 33.907 <2e-16 ***

Uppgift!

1. Avgör med lämpligt mått om det

föreligger

problem med kolinearitet!

2. Skriv upp den mest sannolika regressions-

modellen

(92)

Dag 4 Regressionsanalys

(Residualer)

i i

i

Y Y

e   ˆ

Residual:

Kom ihåg

Y ^ˆ

_i

     X

Residualer är skillnaden mellan

observerat värde (𝒀_𝒊) och förväntat värde (𝒀 _𝒊).

(93)

Dag 4 Regressionsanalys

(Residualer, uppgift)

• Beräkna residualen för x = 20 med

regressionsmodellen y = 100 + 0.5*X.

• Observerat Y-värde är 115.5

i i

i

Y Y

e   ˆ

(94)

Dag 4 Regressionsanalys

(Residualer)

• Residualer är användbara för att undersöka följande antaganden (m.h.a. plottar):

• Linearitet

• Homoscedasitet (variansen är lika för respektive punkt)

• Oberoende

(95)

Dag 4 Regressionsanalys

(Residualer, plottar)

• Genom att plotta residualerna på y-axeln mot obeorende variabel(ler) på x-axeln kan ev.

mönster synliggöras.

(96)

Dag 4 Regressionsanalys

(Residualer, plottar (linearitet))

ej Linjär



Linjär

x

residualer x

Y

x

Y

x

residualer

Statistics for Managers Using Microsoft® Excel 4th Edition, 2004 Prentice-Hall

(97)

Dag 4 Regressionsanalys

(Residualer, plottar, (Homoscedasitet))

icke-konstant varians



Konstant varians

x x

Y

x x

Y

residualer residualer

Statistics for Managers Using Microsoft® Excel 4th Edition, 2004 Prentice-Hall

(98)

Dag 4 Regressionsanalys

(Residualer, plottar, (Oberoende))

Icke oberoende

oberoende X

residuals residuals X

X

residuals



 Statistics for Managers Using Microsoft® Excel 4th Edition, 2004 Prentice-Hall