• No results found

Linjär Regressionsanalys

N/A
N/A
Protected

Academic year: 2021

Share "Linjär Regressionsanalys"

Copied!
104
0
0

Loading.... (view fulltext now)

Full text

(1)

Linjär Regressionsanalys

Centrum för allmänmedicin Henrik Källberg

Henrik.kallberg@ki.se

www.henrikkallberg.com/undervisning

(2)

Linear regression(Dag 1)

• Kort repetition

- Deskriptiv statistik - t-test

- Typ I och Typ II fel - Problem

• ANOVA (Analysis of Variance)

- Motivation

- Kvadratsummor - Antaganden

• Korrelation

- Kovarians

- Korrelation, (Pearson, Spearman)

Henrik Källberg, 2013

Upplägg Dag 1

(3)

Linjär Regressionsanalys(Dag 1)

• Mål

- Snabb Repetition av grundläggande statistik, t-test - ANOVA (analysis of variance)

- Veta när ANOVA är applicerbart och veta vad kvadratsumma är.

- Veta vilka antaganden som krävs.

- Samvariation och kovarians.

- Korrelation, kunna beräkna och tolka korrelation - Beskriva en enkel regressionsmodell med hjälp av graf. Och veta vad de olika komponenterna i en modell beskriver.

(4)

Skalor och datanivåer

Datanivå Klass- indelning

Rangordning Ekvidistans Kvoter Nominal-

Skala

Ja Nej Nej Nej

Ordinal- Skala

Ja Ja Nej Nej

Intervall- Skala

Ja Ja Ja Nej

Kvot- Skala

Ja Ja Ja Ja

Datanivåer

(5)

Beteckningar

Population

- µ (medelvärde)

- (Varians)

-

(Standardavvikelse)

Prov, Urval

- (medelvärde)

- S2 (Varians)

-

(Standardavvikelse)

x

2

2

SS2

Förklaring symboler

Urval

Inferens

Stickprov Population

x

2

S2

(6)

Repetition, Konfidensintervall

μ

Urvalsfördelning för X

x x

x x

x x

x

x

x x

x

n

1.96

n

1.96

ca 95% of all sample means falls within this interval

ca 2.5% av urvalen hamnar utanför denna sidan av gränsen (över)

ca 2.5% av urvalen hamnar utanför denna sidan av gränsen (under)

x

Urvalsfördelning

(Skål med sifferlappar!)

(7)

P-värde och olika fel

P-värdet anger hur stor sannolikheten är att vi observerar ett extremare värde

förutsatt att HO är sann.

HO

Signifikansnivå (α) P-värde Typ II-fel (β)

(8)

Typ I och Typ II fel

H0 är falsk H0 är sann Förkasta H0

OK Typ I fel (falskt positiv) Förkasta inte H0 Typ II fel (falskt

negativ) OK

Beslut

Verklighet

(9)

Uppgift! Beräkna Varians!

X X - (X - )2

1 - 1 1

2 0 0

3 1 1

Summa 6 0 2

1 ? )

(

2

2

   n

x s x

3 2 6 

n X X

x x

) (var

) .

(std avvikelse s2 iance

s

(10)

T-test

• Jämföra två Grupper (t.ex. behandlade (X1) mot obehandlade (X0))

• Poolad varians: Variansen för de båda grupperna vägs samman enl. formeln:









2 1

2

0 1

2 1

2 2

0 1

1 1

1 1

2 1

n S n

X t X

n S n

t X X

Pool Pool

n n

       

2 1

1

) 1 (

) 1 (

0 1

2 0 0

2 1 1

0 1

2 0 0

2 1 2 1

 

n n

X X

X X

n n

S n

S SPool n

(11)

Hypotes T-test

• Nollhypotesen vid vanligt t-test är:

H0:

• Den alternativa hypotesen är:

H1: alt.

0

1 X

X

0

1 X

X X1 X0, X1 X0

(12)

Uppgift!

• Utför ett hypotestest med hjälp av ett t-test för att avgöra om det är signifikant skillnad mellan två grupper (X1 är

gruppen skidåkare som tränat på hög höjd, X0 är gruppen som ej tränat på hög höjd ) med avseende på blodvärde:

𝑺𝟐𝑷𝒐𝒐𝒍= 120, n1=30, n0=40, X1= 165, X0 = 132





2 1

2

0 1

1 1

n S n

X t X

Pool

(13)

Svar Uppgift!

• Tolkningen blir att det är en signifikant skillnad mellan

gruppernas medelvärde. Höghöjdsträning verkar ha effekt på blodvärdet.

94 . 37 3

, 8

33

40 120 30

120

132 165

1 1

2 1

2

0

1  

 



 

 

 

n S n

X t X

Pool

(14)

ANOVA (motivering)

Två variabler : 1 Kategorisk, 1 Kvantitativ

Fråga: Skiljer sig medelvärdet med avseende på den kvantitativa variabeln åt mellan grupperna (Kvalitativ variabel)?

Om vi bara har två grupper (baserat på den kvalitativa variabeln):

- t-test

ANOVA Möjliggör att testa fler grupper samtidigt, tex. Skiljer sig höghöjdsträning, träning och ej träning åt (tre grupper)?

(15)

ANOVA II (Hypotes)

Anta att vi har K stycken oberoende grupper: ANOVA testar Nollhypotesen:

H0: μ1 = μ2 = … = μK

Vilket innebär, “Grupperna har lika medelvärde”

Alternativ hypotes ges av:

H1: μi ≠ μj för någon av grupperna i,j.

(Samma sak som att grupperna har olika medelvärde)

(16)

ANOVA III visuell

• ANOVA utgår från

“overall”

medelvärdet och testar de olika grupperna utifrån detta värde.

• Om det

kombinerade

avståndet skiljer sig från overall

medelvärdet så förkastas H0.

X

P B

A 13

12 11 10 9 8 7 6 5

treatment

days

X

(17)

ANOVA formler

För att kombinera avståndet från “overall mean”

– Kvadrera skillnaden

– Multiplicera med antalet individer I gruppen – Summera alla grupper

Betecknar medel i respektive grupp (A,B och P)

“SSB” = Sum of Squares Between groups

  

2 35

 

2 20

2

40

SSB X A X XB X XP X

X*

(18)

ANOVA fortsättning

• SSB (sum of square between) måste relateras till någon annan ”Sum of Square”

• Mean square Error (MSE), talar om hur stor den

kombinerade variationen är, med hänsyn till respektive grupp

• N är antalet individer, K är antalet grupper och xij är den ith observationen i den jth gruppen

 



j i

j

ij X

K x

MSE N1 2

(19)

ANOVA (MSE)

0.10.20.30.40.5

Implant Height Error by Guide Width

Guide Width

Implant Height Error (mm)

4mm 6mm 8mm

A B P

Treatment

 



j i

j

ij X

K x

MSE N1 2

Samma grupper som innan men nu visas individuella värden, N är antalet individer, K är antalet grupper och xij är den ith

observationen i den jth gruppen, xj är medel i respektive grupp

(20)

ANOVA beräkningar

• Ide! Jämföra ”medel” Variation ”mellan” (MSB) mot

”medel” Variation inom (MSE).

• Detta F-värde följer F-fördelningen med K-1 och N-K

frihetsgrader (N är totalt antal observationer, K är antalet grupper)

 



 

 

 

j i

j ij

J

X K x

N

K X

X MSE

K F SSB

1 2

) 1 /(

) ) (

1 (

(21)

ANOVA Summering

MSE F MSB

DF MS SS

SST SSB

SSE

x x

n x

x SSB

df s

x x

SSE

DFT s

x x

SST

grupper

i i

obs

i

i grupper

i obs

i ij

obs

ij

;

;

) (

) (

) (

) (

) (

) (

2 2

2 2

2

2 1. Lägg märke till

att den totala variansen (SST) är summan av SSB och SSE.

2. Lägg märke till att SSE är kopplat till variansen

3. ANOVA för endast två

grupper = t-test

(22)

ANOVA Tabell, uppgift

Sum of

Squares df Mean

Square F Sig.

mellan

Grupper .01 2 .05 5 .0105

Inom

Grupper .5 50 .01

Totalt .51 52

I de flesta statistikprogram presenteras en ANOVA tabell

Sum of Squares Between (SSB)

Mean Square

Error (MSE) F Statistic p value Frågor!: Var finns följande värden I tabellen?

(23)

ANOVA antaganden!!

– Naturligtvis så krävs ett antal antaganden för att beräkningarna skall vara valida! Dessa är:

* Att individerna i respektive grupp är oberoende slumpmässigt utvalda.

* Varje grupp är ungefär normalfördelad med avseende på testvariabeln. (Kollas enklast via histogram eller dylikt)

* Standardavvikelsen (std) är ungefär lika stor för de olika grupperna. Tumregel: Kvoten mellan högsta och lägsta skall vara mindre än 2.

(24)

Kovarians (cov)

Kovarians är ett mått på samvariation mellan två stokastiska variabler

Obs! cov(x,x)=var(x)

(25)

Kovarians

• Kovariansen kan tolkas på följande sätt:

1. cov(x,y) > 0 innebär att x och y är positivt korrelerade

2. cov(x,y) = 0 innebär att x och y är okorrelerade (oberoende)

3. cov(x,y) < 0 innebär att de är omvänt korrelerade (negativt korrelerade)

(26)

Korrelationskoefficienten r

(pearson, kontinuerliga var.)

• Fråga! Finns det något linjärt samband mellan längd och vikt?

• Genom att använda varians (var) och kovarians (cov) så kan vi skatta korrelationskoefficienten (r).

𝒓 = 𝒄𝒐𝒗(𝒙, 𝒚)

𝒗𝒂𝒓(𝒙) × 𝒗𝒂𝒓(𝒚)

• Korrelationskoefficienten, r (Pearson):

– Har ingen enhet.

– Är ett mått på hur starkt linjärt förhållande det är mellan två variabler – Kan anta värden mellan -1 och 1.

– r = 0 innebär att det inte finns något linjärt samband mellan variablerna – r = 1 innebär att det är ett perfekt positivt linj. samband mellan variablerna – r = -1 innebär att det är ett perfekt negativt linj. Samband mellan variablerna.

(27)

Korrelationskoefficient (r)

X

Y

X

Y

X X

r = -1 r = -.6 r = 0

r = +.3

r = +1 r = 0

Y

(28)

Spearmans rangkorrelation

(Kontinuerliga, diskreta och ordinal var.)

• Fråga! Finns det något samband mellan betyg (x) och IQ (y)?

n = antal, di = differens i rangordning mellan variablerna

𝑟 = 1 − 6 ∗ 𝑑𝑖2 𝑛(𝑛2 − 1)

Betyg (x) IQ (y) Rang x Rang y di

(rang x-rang y) 𝒅𝒊𝟐

1 86 1 1 0 0

2 92 2 2 0 0

4 100 3,5 = (3+4)/2 3 0,5 0,25

4 115 3,5 4 -0,5 0,25

5 120 5 5 0 0

(29)

Uppgift! Beräkna r (Spearman)

𝑟 = 1 − 6 ∗ 𝑑𝑖2 𝑛(𝑛2 − 1)

Betyg (x) IQ (y) Rang x Rang y di

(rang x-rang y) 𝒅𝒊𝟐

1 86 1 1 0 0

2 92 2 2 0 0

4 100 3,5 = (3+4)/2 3 0,5 0,25

4 115 3,5 4 -0,5 0,25

5 120 5 5 0 0

Svar : r = 1-6*0,5/5*(25-1)

= 0,975

(30)

Signifikanstest r.

• Två sätt:

1. t-test: 𝒕 = 𝒓 𝟏−𝒓𝒏−𝟐𝟐 t >,< tn-1,95%

2. Fischer information: 𝑭 𝒓 = 𝟏𝟐 𝒍𝒏 𝟏+𝒓𝟏−𝒓 , 𝒛 = 𝒏−𝟑

𝟏,𝟎𝟔 ∗ 𝑭(𝒓) z >,< 1,96

(31)

Korrelationskoefficient (r)

• r kan vara:

– Låg men signifikant (ofta p<0.05). t.ex. r = 0.1 (p<0.01) – Hög men inte signifikant t.ex r = 0.9 (p=0.5)

– Låg och ej signifikant t.ex. r = 0.1 (p=0.5) – Hög och signifikant t.ex. r = 0.9 (p<0.01)

(32)

Sammanfattning dag 1

• Repetition (t-test, p-värde etc.)

• ANOVA (Flera grupper, Kvadratsummor (SS))

• Kovarians

• Korrelation (r (Pearson, Spearman))

(33)

Linear regression(Dag 2)

• Kort repetition Dag 1

- ANOVA - Kovarians - Korrelation

• Enkel Linjär regression

- Räta linjens ekvation - Prediktion

- Antaganden

• Enkel Linjär regression

– Regressionskoefficienten – Test av lutning

– Kategorivariabler

Henrik Källberg, 2013

Upplägg Dag 2

(34)

Repetition Dag 1 (ANOVA)

Sum of Squares df Mean Square F Sig.

Between

groups 𝑆𝑆𝐵 = 𝑛𝑖(𝑦 − 𝑦𝑖 ).. 2 b-1 𝑀𝑆𝐵 = 𝑆𝑆𝐵

𝑏 − 1 𝐹 = 𝑀𝑆𝐵 𝑀𝑆𝐸

Within

groups 𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝐵 N-b 𝑀𝑆𝐸 = 𝑆𝑆𝐸 𝑁 − 𝑏

Totalt 𝑆𝑆𝑇 = (𝑦𝑖 − 𝑦 ).. 2 N-1

(35)

Repetition Dag 1 (Kovarians, r)

Par X Y

1 1 3

2 3 5

3 6 7

4 8 10

Total 18 25

Uppgift!! Beräkna kovarians, och korrelation

𝒓 = 𝒄𝒐𝒗(𝒙, 𝒚)

𝒗𝒂𝒓(𝒙) × 𝒗𝒂𝒓(𝒚)

(36)

Svar repetitionsuppgift

• Cov = 9.167

• Var(x) = 9.67

• Var(y) = 8.917

• R = 0.987 = (9.167/rot(9.67)*rot(8.917)

(37)

Dag 2 Regressionsanalys

• Mål Dag 2

– Känna till räta linjens ekvation.

– Veta vad oberoende och beroende variabel är.

– Veta vad lutningskoefficient och intercept är.

– Utföra lämpligt test för regressionskoefficient.

– Veta vilka antaganden som regressionsmodellen bygger på.

– Tolka en regressionsanalys.

(38)

Dag 2 Regressionsanalys

• I regressionanalys pratar man om Beroende (y) och Oberoende (x) variabler. Detta innebär att målet med regressionsanalys ofta är att predicera ett värde på Y med hjälp av en annan variabel X.

• I korrelationsanalys finns ingen värdering i vad som är oberoende respektive beroende.

(39)

Dag 2 Regressionsanalys

(räta linjens ekvation)

Y=kX+B

B

k

x Y

(40)

Dag 2 Regressionsanalys (räta linjens ekvation, lutning)

Vad Innebär k i en linjär ekvationsmodell?

- Svarar mot lutningen

- Hur mycket Y ökar då X ökar.

- T.ex. för varje ökning av X ökar Y med 2 Y=kX+B

k

(41)

Dag 2 Regressionsanalys (Prediktion)

• Mål:

– Vi vill förutspå (predicera) ett värde på Y när vi bara har information om X.

– Jämför med betingade sannolikheter, P(Y|X).

– Jämför med denna ekvation:

– Här är 𝛼 det samma som B och β det samma som k i föregående slides.

– Med ett normalfördelat fel i ekvationen:

i i

i

x x

y

E ( / )    

i i

i

i

x x

y

E ( / )      

Fixerade effekter, passar den räta linjen

Slumpmässigt fel som följer normalfördelning (N(0,1))

(42)

Dag 2 Regressionsanalys (4 Antaganden)

• Förhållandet mellan X och Y är linjärt.

• Y är normalfördelat för varje punkt vid X.

• Variansen för Y är samma för varje punkt X.

• Observationerna är oberoende.

(43)

Dag 2 Regressionsanalys (Sum of squares)

C A B

A

yi

x y

yi

C

B

i

i x

y

A2 B2 C2

SStotal Total variation

SSreg

Avstånd mellan regressionslinjen och medel värdet på y

SSresidual

Varians omkring regressions linjen

n

i

i i

n

i

n

i

i

i y y y y y

y

1

2

1 1

2

2 ( ˆ ) ( ˆ )

) (

R2=SSreg/SStotal

(44)

Dag 2 Regressionsanalys (Uppgift !)

• Jämför kvadratsummorna som används för att skatta regressionskoeffcienterna med

Kvadratsummorna i ANOVA!

• SStotal =?, SSREG =?, SSRESIDUAL=?

• SSB=?,SST=?,SSE=?

(45)

Dag 2 Regressionsanalys (Prediktion II)

Y = max HR X = Ålder

Y = 196 – 0.9*Ålder

(46)

Dag 2 Regressionsanalys (Prediktion II, Uppgift!)

Beräkna DIN maximala Hjärtfrekvens med hjälp av formeln:

Max_HR = 196 – 0.9*Ålder (i år räknat)

(47)

Dag 2 Regressionsanalys (Koefficient och intercept)

) (

) ,

ˆ (

x Var

y x

Cov

ˆ x -

ˆ y :

Calculate   

Interceptet fås genom:

(regressionslinjen går alltid genom 𝑥 och 𝑦 )

Regressionskoefficienten skattas genom Minsta kvadratmetoden. Följande uttryck erhålls:

Lutningen:

(48)

Dag 2 Regressionsanalys

(Koefficient, intercept uppgift)

• Beräkna β och 𝜶 samt skriv upp regressionsmodellen !

• Cov(y,x) = 20, var(x)=5, 𝒚 = 𝟑𝟓, 𝒙 = 𝟐𝟐

(49)

Dag 2 Regressionsanalys * (Koefficient-Korrelation)

y x

SD r ˆ   ˆ SD

Korrelations koefficienten (r) har ett samband med

regressionskoefficienten (β).

Observera att i regression så finns beroende (y) och

oberoende variabler (x)

(50)

Dag 2 Regressionsanalys (Koefficient, signifikans)

• För att avgöra om lutningen (β) är skild från 0, så bör man testa detta.

• Fördelningen för “lutningen” β~ Tn-2(β,s.e.(𝜷 ))

• Hypotesen blir följande:

H0: β1 = 0

H1: β1  0

. .( ˆ )

ˆ 0

e s

Tn-2=

(51)

Dag 2 Regressionsanalys * (Koefficient, Standardavvik.)

x x y x

n

i

i i

SS s SS

n

y y

s

2 / 1

2

ˆ

2

ˆ ) (

 

Standardavvikelse för β

(52)

Dag 2 Regressionsanalys

(Koefficient, signifikans, uppg.)

(53)

Dag 2 Regressionsanalys (Dataexempel)

Individ Height Weight

1 142 34

2 160 75

3 150 62

4 155 45

5 158 52

6 170 73

7 161 62

(54)

Dag 2 Regressionsanalys

(Koefficient, signifikans, uppg.)

Uppgift!

1. Skriv upp regressionsmodellen

2. Avgör med lämpligt test om lutningen är skild från 0.

(55)

Dag 2 Regressionsanalys

(Koefficient, signifikans, Svar)

(56)

Dag 2 Regressionsanalys (Dataexempel)

Individ Grupp (1=behand) LDL

1 1 4.3

2 1 2.7

3 1 5.0

4 0 7.8

5 0 6.4

6 0 5.6

7 0 6.0

(57)

Dag 2 Regressionsanalys (Dikotom variabel)

0001 .

; 2 . 8 1

1

7 . 2 97

. 6 27 . 4

2 1

37 2

2 2

1

p

n n

T

S S

En regressionsmodell med en dikotom variabel (y = x*β + ε) med β= - 2.7 är det samma som ett t-test för differensen mellqn gruppernas medelvärde.

(58)

Sammanfattning Dag 2

(Regressionsanalys)

• Räta linjens ekvation (Y=kx + m)

• Prediktion ( )

• Antaganden (Linjärt, NIID)

• Koefficient och intercept

-test av koefficient, Intercept

• Olika variabeltyper (Dikotom och Kontinuerlig)

i i

i

i

x x

y

E ( / )      

(59)

Upplägg Dag 3

• Kort repetition, Frågor

• Flera variabler

• Confounding

• Interaktion

• Faror med multivariabla

modeller (ev. Välja ”bästa”

modellen)

• ”Ytterliggare modeller”

Dag 3 Regressionsanalys (Flera variabler)

(60)

Dag 3 Regressionsanalys (Mål)

• Mål Dag 3

- Veta hur man infogar fler variabler i en regressionsmodell.

- Förstå hur man kontrollerar för Confounding - Interaktion mellan variabler

- Veta om faror med multivariata modeller (ev. Undersöka vilken modell som är ”bäst”)

- Veta om att det finns ytterligare regressionsmodeller

(61)

Dag 3 Regressionsanalys (Repetition dag 2)

• Skriv upp den generella regressionsekvationen.

• Ange vilka fyra huvudsakliga antaganden som vi förutsätter vid linjär regressionsanalys.

• Avgör om koefficienten (β=0.5, SD=0.3) är skiljd från noll.

(62)

Dag 3 Regressionsanalys (Flera variabler)

• Linjära regressionsmodeller har fördelen att man kan infoga flera variabler i

samma modell. T.ex.

• Bra för att kunna:

– Kontrollera för confounders.

– Hantera interaktion mellan variabler (effektmodifiering)

– Förbättra prediktionsförmågan.

i

i

x x x x

y

E ( /

1

,

2

,...)    

1

 

2

 ...  

(63)

Dag 3 Regressionsanalys (Flera variabler II)

• Det finns olika sätt att inkludera ytterligare variabler:

1. Andra oberoende variabler t.ex:

2. Polynom (om ”kurva”):

(lätt att skapa overfitting!)

i

i

x x x x

y

E ( /

1

,

2

,...)    

1

 

2

 ...  

i

i

x x x x

y

E ( /

1

,

12

,...)    

1

 

12

 ...  

(64)

Dag 3 Regressionsanalys (Confounding)

BMI

Y, Blodtryck Confounding, exempel

Confounding,

(65)

Dag 3 Regressionsanalys (Confounding, kokbok)

• En confounder (C) är associerad med beroende (Y) och oberoende (X) variabler (den korrekta metoden!, ofta skippas steg 3 och 4).

• 1.Kontrollera om Y är associerad med X.

𝑬 𝒀 𝑿 = 𝒂𝟎 + 𝜷𝒙 ∗ 𝑿 + 𝛜

• 2. Kontrollera om Y är associerad med X givet C.

𝑬 𝒀 𝑿, 𝑪 = 𝒂𝟎,𝒙,𝒄 + 𝜷𝒙,𝑪 ∗ 𝑿 + 𝜷𝒄,𝑿 ∗ 𝐂 + 𝛜

• 3. Kontrollera om C är associerad med Y.

𝑬 𝒀 𝑪 = 𝒂𝟎,𝒄 + 𝜷𝒄 ∗ 𝐂 + 𝛜

• 4. Kontrollera om C är associerad med X.

𝑬(𝑪|𝑿) = 𝒂𝟎,𝒙 + 𝜷𝑪,𝑿 ∗ 𝐗 + 𝛜

Justerat !

(66)

Dag 3 Regressionsanalys

(Confounding, Uppgift)

(67)

Dag 3 Regressionsanalys (Confounding, Uppgift)

1. Vilken av behandlingarna är förenlig med confounding?

2. Hur många confounders användes?

3. Är koefficienterna ”signifikanta”?

(68)

Dag 3 Regressionsanalys (Interaktion)

• Interaktion innebär att effekten av en oberoende variabel beror av en annan oberoende variabel.

• I artikeln skulle interaktion innebära att

kroppssammansättningen skulle bero på genetisk variation (FTO) och Syreupptagningsförmåga. Det vill säga: Man har en extra effekt av syreupptagningsförmågan om man har en

särskild genetisk variation.

(69)

Dag 3 Regressionsanalys (Interaktion)

𝑌 = 𝑃𝑃𝐴𝑅𝐺 × 𝛽𝑃𝑃𝐴𝑅𝐺+ +𝐵𝑀𝐼 × 𝛽𝐵𝑀𝐼+ 𝜖 Fasting

Insulin (Y)

𝑌 = 𝐵𝑀𝐼 × 𝛽𝐵𝑀𝐼+ 𝜖

Två olika modeller en med genetisk faktor och en utan.

PPARG och BMI i

modellen är så kallade main effects.

(70)

Dag 3 Regressionsanalys (Interaktion)

Fasting Insulin (Y)

𝑌 = 𝐵𝑀𝐼 × 𝛽𝐵𝑀𝐼+ 𝜖

𝑌 = 𝑃𝑃𝐴𝑅𝐺 × 𝛽𝑃𝑃𝐴𝑅𝐺+ +𝐵𝑀𝐼 × 𝛽𝐵𝑀𝐼+ 𝑃𝑃𝐴𝑅𝐺

× 𝐵𝑀𝐼 × 𝛽𝑃𝑃𝐴𝑅𝐺×𝐵𝑀𝐼 + 𝜖

Här är lutningen större än i föregående diagram.

𝑃𝑃𝐴𝑅𝐺 × 𝐵𝑀𝐼 × 𝛽𝑃𝑃𝐴𝑅𝐺×𝐵𝑀𝐼 Är interaktionseffekten.

(71)

Dag 3 Regressionsanalys (Interaktion)

• Interaktion innebär att en signifikant produkt term existerar.

• Testa om interaktionstermen är skild från noll.

• Om det finns stark interaktion så är

confounding justering onödigt Stratifiera!

(72)

Dag 3 Regressionsanalys (Interaktion, uppgift)

Main effects:

FTO (”AA”): 3 (sd=0.9) VO2Max: -0.2 (sd=0.05) Interaction effects:

FTO*VO2Max: -0.1 (sd=0.07)

1. Skriv ut en modell för main effects + en

modell med main

effects och interaction effects.

2. Avgör vilka koeff.

Som är signifikanta.

(73)

Dag 3 Regressionsanalys

(Faror med multip. regression)

Multi-collinearity

Residual confounding

Overfitting

(74)

Dag 3 Regressionsanalys (Faror, Multi-colinearity)

• Kolinearitet innebär att två oberoende variabler

”mäter samma sak”. Det finns en stark korrelation mellan dem Tex. Vikt och BMI.

• Man bör endast inkludera en av dessa variabler i modellen.

(75)

Dag 3 Regressionsanalys

(Faror, Residual confounding)

• Residual confounding:

• Är ”kvarstående” confounding trots att man kontrollerar för confounders. Här följer tre varianter:

1. Ytterligare confounders som det ej finns

information om (unmeasured confounding)

2. För grov indelning av confoundern som används I analysen. T.ex. Variabel ung-gammal används istället för ålder mätt I antal år.

3. Felklassificering av individer för confoundern I fråga.

(76)

Dag 3 Regressionsanalys (Faror, Overfitting)

• Overfitting = Modellen kan passa data

”perfekt” på grund av att man har för många variabler i modellen.

• Tyvärr är modellen troligtvis värdelös ur

prediktionssynpunkt eftersom modellen är starkt kopplad till data som används.

(77)

Dag 3 Regressionsanalys (Faror, Overfitting)

Parameter Standard

Variable Estimate Error Type II SS F Value Pr > F Intercept 11.023 2.98341 11.96067 15.65 0.0019 Motion -0.29106 0.09798 6.74569 8.83 0.0117 sömn -1.91592 0.39494 17.98818 23.53 0.0004 obama 1.73993 0.24352 39.01944 51.05 <.0001 Clinton -0.83128 0.17066 18.13489 23.73 0.0004 MatteKär 0.45653 0.10668 13.99925 18.32 0.0011

Optimism modellerat för några faktorer, 5 oberoende faktorer i samma modell.

Parameter Standard

Variable Estimate Error T-värde Pr > F

Intercept 6.65189 0.89153 7.46 <.0001 Motion 0.19161 0.20709 0.93 0.3658

Univariat analys av motion:

(78)

Dag 3 Regressionsanalys (Faror, Overfitting)

“Brus”variabler orsakar bra R2 värden om modellen är

“overfitted”

(Figure 1 from: Babyak, MA. What You See May Not Be What You Get: A Brief, Nontechnical Introduction to Overfitting in Regression-Type Models. Psychosomatic Medicine 66:411-421 (2004).)

Tumregel: Minst 10 individer per ytterligare

infogad variabel i en mult. Reg.

modell

(79)

Dag 3 Regressionsanalys (Faror, uppgift)

• Diskutera med grannen och ge potentiella exempel på:

1. Residual confounding 2. Overfitting

3. Kolinearitet.

(80)

Dag 3 Regressionsanalys (Välja modell)

• Genom att undersöka om variabeln tillför ett signifikant tillskott av SS(Dag 1).

• Stepwise

– Forward (utöka modellen med ytterligare variabler) – Backward (minska modellen med en variabel i taget)

(81)

Dag 3 Regressionsanalys (Välja modell)

Källa: www.Wikipedia.org

(82)

Dag 3 Regressionsanalys (Ytterligare modeller)

Utfallsvariabel

Är observationerna oberoende eller korrelerade?

Antagande Oberoende Korrelerade

Kontinuerlig

(VAS, längd, konc, etc.)

T-test ANOVA

Linjär correlation Linjär regression

Parat ttest

Repeated-measures ANOVA Mixed models/GEE modeling

Utfallsvariablen är norm.fördel.

Linjärt förhållande mellan utfall och oberoende variabel.

Binär, kategori

(sjuk, ordinalskala)

Difference in proportions Relativa risker

Chi-2 test

Logistisk regression

McNemar’s test

betingad logistic regression GEE modeling

Chi-2 test antar minst antal I varje cell (>=5)

Tid till händelse

(tid till sjukdom)

Kaplan-Meier Cox regression

n/a Prop.hazard

assumption

(83)

Dag 3 Regressionsanalys (Sammanfattning)

• Mulivariabel regression

• Confounding

• Interaktion

• Faror

– Kolinearitet

– Residual confounding – Overfitting

• Modellval.

• Ytterligare modeller

(84)

Dag 4 Regressionsanalys (Diagnostik, Upplägg)

• Kort repetition, Frågor

• (Multi) kolinearitet

• Residualer

- Linearitet

- Homoscedasitet - Oberoende

• Outliers

Hur bra stämmer våra antaganden?

(85)

Dag 4 Regressionsanalys

(Diagnostik, Mål)

• Mål Dag 2

– Känna till olika diagnostiker för att utvärdera regressionsmodeller.

– Förstå vad en residual är.

– Veta hur residualmönster ser ut vid ”icke”,-linearitet, - homoscedasitet, -oberoende.

– Känna till mått för kolinearitet mellan oberoende variabler.

– Känna till situationer när outliers är ett problem.

– Känna till mått för att skatta outliers betydelse

(86)

Dag 4 Regressionsanalys (Repetition)

• Multipel regressionsmodell:

• Confounding

• Interaktion

• Faror

– Kolinearitet

– Residual confounding – Overfitting

i

i

x x x x

y

E ( /

1

,

2

,...)    

1

 

2

 ...  

(87)

Dag 4 Regressionsanalys (Repetition, uppgift!!)

• Utfallsvariabeln (y = BMI) misstänks vara beroende vikt och

aktivitetsnivå (fys). Skriv upp en regressionsmodell för följande:

1. BMI och vikt med justering för confounding från aktivitetsnivå (fys.).

2. BMI och vikt, fys samt interaktion mellan vikt och fys.

(88)

Dag 4 Regressionsanalys

(Multiple Regression, repetition antaganden)

• Förhållandet mellan X och Y är linjärt.

• Y är normalfördelat för varje punkt vid X.

• Variansen för Y är samma för varje punkt X.

• Observationerna är oberoende.

(89)

Dag 4 Regressionsanalys

((multi)Kolinearitet)

• Kolinearitet innebär att två variabler mäter ”samma”

sak.

• Kolinearitet mellan två variabler kan medföra:

-

Instabila

estimat!

- Falskt för stora standardfel, Nollhypotesen förkastas inte.

(90)

Dag 4 Regressionsanalys

((multi)Kolinearitet)

• Två mått på kolinearitet är:

1. 𝑇𝑜𝑙𝑒𝑟𝑎𝑛𝑐𝑒 = 1 − 𝑅𝐽2, Där 𝑅𝐽2 är korrelation mellan de båda variablerna, ett värde under 0.2 indikerar kolinearitet.

2. 𝑉𝐼𝐹 = 1 − 𝑅1

𝐽2, VIF = Variance Inflation Factor, ett VIF värde över 5 indikerar kolinearitet.

(91)

Dag 4 Regressionsanalys

((multi)Kolinearitet, uppgift!!)

Estimate Std. Error t value Pr(>|t|) (Intercept) 2.33e-15 5.911e-16 4.032e+00 0.000865 ***

x 3.67e-01 2.803e-16 1.308e+15 < 2e-16 ***

bm 1.00e+00 3.228e-16 3.098e+15 < 2e-16 ***

Modell med kolinearitet: Y = 2.383e-15 + 0.3667*X + 1*bm (OBS!!! bm = x/1.2 + e, e = n(0,1))

Korrelation (r) mellan X och bm = 0.98

Estimate Std. Error t value Pr(>|t|) (Intercept) -0.036 0.43158 -0.084 0.934 X 1.22158 0.03603 33.907 <2e-16 ***

Uppgift!

1. Avgör med lämpligt mått om det

föreligger

problem med kolinearitet!

2. Skriv upp den mest sannolika regressions-

modellen

(92)

Dag 4 Regressionsanalys

(Residualer)

i i

i

Y Y

e   ˆ

Residual:

Kom ihåg

Y ˆ

i

     X

Residualer är skillnaden mellan

observerat värde (𝒀𝒊) och förväntat värde (𝒀 𝒊).

(93)

Dag 4 Regressionsanalys

(Residualer, uppgift)

• Beräkna residualen för x = 20 med

regressionsmodellen y = 100 + 0.5*X.

• Observerat Y-värde är 115.5

i i

i

Y Y

e   ˆ

(94)

Dag 4 Regressionsanalys

(Residualer)

• Residualer är användbara för att undersöka följande antaganden (m.h.a. plottar):

• Linearitet

• Homoscedasitet (variansen är lika för respektive punkt)

• Oberoende

(95)

Dag 4 Regressionsanalys

(Residualer, plottar)

• Genom att plotta residualerna på y-axeln mot obeorende variabel(ler) på x-axeln kan ev.

mönster synliggöras.

(96)

Dag 4 Regressionsanalys

(Residualer, plottar (linearitet))

ej Linjär

Linjär

x

residualer x

Y

x

Y

x

residualer

Statistics for Managers Using Microsoft® Excel 4th Edition, 2004 Prentice-Hall

(97)

Dag 4 Regressionsanalys

(Residualer, plottar, (Homoscedasitet))

icke-konstant varians

Konstant varians

x x

Y

x x

Y

residualer residualer

Statistics for Managers Using Microsoft® Excel 4th Edition, 2004 Prentice-Hall

(98)

Dag 4 Regressionsanalys

(Residualer, plottar, (Oberoende))

Icke oberoende

oberoende X

residuals residuals X

X

residuals

Statistics for Managers Using Microsoft® Excel 4th Edition, 2004 Prentice-Hall

References

Related documents

Den negativa påverkan är att variansen på ˆ ökar eftersom det inte finns tillräckligt med variation i kovariaten för att veta vad den har för påverkan på den beroende

Ber¨akna v¨antev¨ardet och variansen f¨or summan av tio oberoende stokastiska variabler, som alla ¨ar likformigt f¨ordelade i intervallet (1,

De variabler som bidrog mest till den totala stopptiden var F aktisk st¨ alltid, Sm˚ astopp samt M aterialbyte.. F aktisk st¨ alltid kan eventuellt minskas till under 10 minuter

Genom sin bekräftande taktila närvaro där utgångspunkten är elevens intresse, visar pedagogerna att elevens sätt att vara på i världen är betydelsefullt och att pedagogen vill

Jag anser också att det är viktigt att förskoleklassen och fritidshemmet finns i samma lokaler inom skolans område så att barnen får befinna sig i samma miljö hela dagen, men

På frågan om det är viktigt att ha bott i Sverige i hela sitt liv för att känna sig svensk svarade närmare 30 % att det inte alls är viktigt, närmare

Sedan kommer jag att beskriva deras upplevelser om sina liv utifrån deras perspektiv; Vad de tycker om sin tillvaro i Sverige, om de känner sig delaktiga som individer, hur

problematisk situation när chefer agerar utifrån en egen agenda och inte tar hänsyn till företagets bästa samt att det blir oproduktivt när det inte finns synergier inom företaget,