Linjär Regressionsanalys
Centrum för allmänmedicin Henrik Källberg
www.henrikkallberg.com/undervisning
Linear regression(Dag 1)
• Kort repetition
- Deskriptiv statistik - t-test
- Typ I och Typ II fel - Problem
• ANOVA (Analysis of Variance)
- Motivation
- Kvadratsummor - Antaganden
• Korrelation
- Kovarians
- Korrelation, (Pearson, Spearman)
Henrik Källberg, 2013
Upplägg Dag 1
Linjär Regressionsanalys(Dag 1)
• Mål
- Snabb Repetition av grundläggande statistik, t-test - ANOVA (analysis of variance)
- Veta när ANOVA är applicerbart och veta vad kvadratsumma är.
- Veta vilka antaganden som krävs.
- Samvariation och kovarians.
- Korrelation, kunna beräkna och tolka korrelation - Beskriva en enkel regressionsmodell med hjälp av graf. Och veta vad de olika komponenterna i en modell beskriver.
Skalor och datanivåer
Datanivå Klass- indelning
Rangordning Ekvidistans Kvoter Nominal-
Skala
Ja Nej Nej Nej
Ordinal- Skala
Ja Ja Nej Nej
Intervall- Skala
Ja Ja Ja Nej
Kvot- Skala
Ja Ja Ja Ja
Datanivåer
Beteckningar
Population
- µ (medelvärde)
- (Varians)
-
(Standardavvikelse)
Prov, Urval
- (medelvärde)
- S2 (Varians)
-
(Standardavvikelse)
x
2
2
S S2Förklaring symboler
Urval
Inferens
Stickprov Population
x
2S2
Repetition, Konfidensintervall
μ
Urvalsfördelning för X
x x
x x
x x
x
x
x x
x
n
1.96
n
1.96
ca 95% of all sample means falls within this interval
ca 2.5% av urvalen hamnar utanför denna sidan av gränsen (över)
ca 2.5% av urvalen hamnar utanför denna sidan av gränsen (under)
x
Urvalsfördelning
(Skål med sifferlappar!)
P-värde och olika fel
P-värdet anger hur stor sannolikheten är att vi observerar ett extremare värde
förutsatt att HO är sann.
HO
Signifikansnivå (α) P-värde Typ II-fel (β)
Typ I och Typ II fel
H0 är falsk H0 är sann Förkasta H0
OK Typ I fel (falskt positiv) Förkasta inte H0 Typ II fel (falskt
negativ) OK
Beslut
Verklighet
Uppgift! Beräkna Varians!
X X - (X - )2
1 - 1 1
2 0 0
3 1 1
Summa 6 0 2
1 ? )
(
22
n
x s x
3 2 6
n X X
x x
) (var
) .
(std avvikelse s2 iance
s
T-test
• Jämföra två Grupper (t.ex. behandlade (X1) mot obehandlade (X0))
• Poolad varians: Variansen för de båda grupperna vägs samman enl. formeln:
2 1
2
0 1
2 1
2 2
0 1
1 1
1 1
2 1
n S n
X t X
n S n
t X X
Pool Pool
n n
2 1
1
) 1 (
) 1 (
0 1
2 0 0
2 1 1
0 1
2 0 0
2 1 2 1
n n
X X
X X
n n
S n
S SPool n
Hypotes T-test
• Nollhypotesen vid vanligt t-test är:
H0:
• Den alternativa hypotesen är:
H1: alt.
0
1 X
X
0
1 X
X X1 X0, X1 X0
Uppgift!
• Utför ett hypotestest med hjälp av ett t-test för att avgöra om det är signifikant skillnad mellan två grupper (X1 är
gruppen skidåkare som tränat på hög höjd, X0 är gruppen som ej tränat på hög höjd ) med avseende på blodvärde:
𝑺𝟐𝑷𝒐𝒐𝒍= 120, n1=30, n0=40, X1= 165, X0 = 132
2 1
2
0 1
1 1
n S n
X t X
Pool
Svar Uppgift!
• Tolkningen blir att det är en signifikant skillnad mellan
gruppernas medelvärde. Höghöjdsträning verkar ha effekt på blodvärdet.
94 . 37 3
, 8
33
40 120 30
120
132 165
1 1
2 1
2
0
1
n S n
X t X
Pool
ANOVA (motivering)
Två variabler : 1 Kategorisk, 1 Kvantitativ
Fråga: Skiljer sig medelvärdet med avseende på den kvantitativa variabeln åt mellan grupperna (Kvalitativ variabel)?
Om vi bara har två grupper (baserat på den kvalitativa variabeln):
- t-test
ANOVA Möjliggör att testa fler grupper samtidigt, tex. Skiljer sig höghöjdsträning, träning och ej träning åt (tre grupper)?
ANOVA II (Hypotes)
Anta att vi har K stycken oberoende grupper: ANOVA testar Nollhypotesen:
H0: μ1 = μ2 = … = μK
Vilket innebär, “Grupperna har lika medelvärde”
Alternativ hypotes ges av:
H1: μi ≠ μj för någon av grupperna i,j.
(Samma sak som att grupperna har olika medelvärde)
ANOVA III visuell
• ANOVA utgår från
“overall”
medelvärdet och testar de olika grupperna utifrån detta värde.
• Om det
kombinerade
avståndet skiljer sig från overall
medelvärdet så förkastas H0.
X
P B
A 13
12 11 10 9 8 7 6 5
treatment
days
X
ANOVA formler
För att kombinera avståndet från “overall mean”
– Kvadrera skillnaden
– Multiplicera med antalet individer I gruppen – Summera alla grupper
Betecknar medel i respektive grupp (A,B och P)
“SSB” = Sum of Squares Between groups
2 35
2 20
240
SSB X A X XB X XP X
X*
ANOVA fortsättning
• SSB (sum of square between) måste relateras till någon annan ”Sum of Square”
• Mean square Error (MSE), talar om hur stor den
kombinerade variationen är, med hänsyn till respektive grupp
• N är antalet individer, K är antalet grupper och xij är den ith observationen i den jth gruppen
j i
j
ij X
K x
MSE N1 2
ANOVA (MSE)
0.10.20.30.40.5
Implant Height Error by Guide Width
Guide Width
Implant Height Error (mm)
4mm 6mm 8mm
A B P
Treatment
j i
j
ij X
K x
MSE N1 2
Samma grupper som innan men nu visas individuella värden, N är antalet individer, K är antalet grupper och xij är den ith
observationen i den jth gruppen, xj är medel i respektive grupp
ANOVA beräkningar
• Ide! Jämföra ”medel” Variation ”mellan” (MSB) mot
”medel” Variation inom (MSE).
• Detta F-värde följer F-fördelningen med K-1 och N-K
frihetsgrader (N är totalt antal observationer, K är antalet grupper)
j i
j ij
J
X K x
N
K X
X MSE
K F SSB
1 2
) 1 /(
) ) (
1 (
ANOVA Summering
MSE F MSB
DF MS SS
SST SSB
SSE
x x
n x
x SSB
df s
x x
SSE
DFT s
x x
SST
grupper
i i
obs
i
i grupper
i obs
i ij
obs
ij
;
;
) (
) (
) (
) (
) (
) (
2 2
2 2
2
2 1. Lägg märke till
att den totala variansen (SST) är summan av SSB och SSE.
2. Lägg märke till att SSE är kopplat till variansen
3. ANOVA för endast två
grupper = t-test
ANOVA Tabell, uppgift
Sum of
Squares df Mean
Square F Sig.
mellan
Grupper .01 2 .05 5 .0105
Inom
Grupper .5 50 .01
Totalt .51 52
I de flesta statistikprogram presenteras en ANOVA tabell
Sum of Squares Between (SSB)
Mean Square
Error (MSE) F Statistic p value Frågor!: Var finns följande värden I tabellen?
ANOVA antaganden!!
– Naturligtvis så krävs ett antal antaganden för att beräkningarna skall vara valida! Dessa är:
* Att individerna i respektive grupp är oberoende slumpmässigt utvalda.
* Varje grupp är ungefär normalfördelad med avseende på testvariabeln. (Kollas enklast via histogram eller dylikt)
* Standardavvikelsen (std) är ungefär lika stor för de olika grupperna. Tumregel: Kvoten mellan högsta och lägsta skall vara mindre än 2.
Kovarians (cov)
Kovarians är ett mått på samvariation mellan två stokastiska variabler
Obs! cov(x,x)=var(x)
Kovarians
• Kovariansen kan tolkas på följande sätt:
1. cov(x,y) > 0 innebär att x och y är positivt korrelerade
2. cov(x,y) = 0 innebär att x och y är okorrelerade (oberoende)
3. cov(x,y) < 0 innebär att de är omvänt korrelerade (negativt korrelerade)
Korrelationskoefficienten r
(pearson, kontinuerliga var.)
• Fråga! Finns det något linjärt samband mellan längd och vikt?
• Genom att använda varians (var) och kovarians (cov) så kan vi skatta korrelationskoefficienten (r).
𝒓 = 𝒄𝒐𝒗(𝒙, 𝒚)
𝒗𝒂𝒓(𝒙) × 𝒗𝒂𝒓(𝒚)
• Korrelationskoefficienten, r (Pearson):
– Har ingen enhet.
– Är ett mått på hur starkt linjärt förhållande det är mellan två variabler – Kan anta värden mellan -1 och 1.
– r = 0 innebär att det inte finns något linjärt samband mellan variablerna – r = 1 innebär att det är ett perfekt positivt linj. samband mellan variablerna – r = -1 innebär att det är ett perfekt negativt linj. Samband mellan variablerna.
Korrelationskoefficient (r)
X
Y
X
Y
X X
r = -1 r = -.6 r = 0
r = +.3
r = +1 r = 0
Y
Spearmans rangkorrelation
(Kontinuerliga, diskreta och ordinal var.)
• Fråga! Finns det något samband mellan betyg (x) och IQ (y)?
n = antal, di = differens i rangordning mellan variablerna
𝑟 = 1 − 6 ∗ 𝑑𝑖2 𝑛(𝑛2 − 1)
Betyg (x) IQ (y) Rang x Rang y di
(rang x-rang y) 𝒅𝒊𝟐
1 86 1 1 0 0
2 92 2 2 0 0
4 100 3,5 = (3+4)/2 3 0,5 0,25
4 115 3,5 4 -0,5 0,25
5 120 5 5 0 0
Uppgift! Beräkna r (Spearman)
𝑟 = 1 − 6 ∗ 𝑑𝑖2 𝑛(𝑛2 − 1)
Betyg (x) IQ (y) Rang x Rang y di
(rang x-rang y) 𝒅𝒊𝟐
1 86 1 1 0 0
2 92 2 2 0 0
4 100 3,5 = (3+4)/2 3 0,5 0,25
4 115 3,5 4 -0,5 0,25
5 120 5 5 0 0
Svar : r = 1-6*0,5/5*(25-1)
= 0,975
Signifikanstest r.
• Två sätt:
1. t-test: 𝒕 = 𝒓 𝟏−𝒓𝒏−𝟐𝟐 t >,< tn-1,95%
2. Fischer information: 𝑭 𝒓 = 𝟏𝟐 𝒍𝒏 𝟏+𝒓𝟏−𝒓 , 𝒛 = 𝒏−𝟑
𝟏,𝟎𝟔 ∗ 𝑭(𝒓) z >,< 1,96
Korrelationskoefficient (r)
• r kan vara:
– Låg men signifikant (ofta p<0.05). t.ex. r = 0.1 (p<0.01) – Hög men inte signifikant t.ex r = 0.9 (p=0.5)
– Låg och ej signifikant t.ex. r = 0.1 (p=0.5) – Hög och signifikant t.ex. r = 0.9 (p<0.01)
Sammanfattning dag 1
• Repetition (t-test, p-värde etc.)
• ANOVA (Flera grupper, Kvadratsummor (SS))
• Kovarians
• Korrelation (r (Pearson, Spearman))
Linear regression(Dag 2)
• Kort repetition Dag 1
- ANOVA - Kovarians - Korrelation
• Enkel Linjär regression
- Räta linjens ekvation - Prediktion
- Antaganden
• Enkel Linjär regression
– Regressionskoefficienten – Test av lutning
– Kategorivariabler
Henrik Källberg, 2013
Upplägg Dag 2
Repetition Dag 1 (ANOVA)
Sum of Squares df Mean Square F Sig.
Between
groups 𝑆𝑆𝐵 = 𝑛𝑖(𝑦 − 𝑦𝑖 ).. 2 b-1 𝑀𝑆𝐵 = 𝑆𝑆𝐵
𝑏 − 1 𝐹 = 𝑀𝑆𝐵 𝑀𝑆𝐸
Within
groups 𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝐵 N-b 𝑀𝑆𝐸 = 𝑆𝑆𝐸 𝑁 − 𝑏
Totalt 𝑆𝑆𝑇 = (𝑦𝑖 − 𝑦 ).. 2 N-1
Repetition Dag 1 (Kovarians, r)
Par X Y
1 1 3
2 3 5
3 6 7
4 8 10
Total 18 25
Uppgift!! Beräkna kovarians, och korrelation
𝒓 = 𝒄𝒐𝒗(𝒙, 𝒚)
𝒗𝒂𝒓(𝒙) × 𝒗𝒂𝒓(𝒚)
Svar repetitionsuppgift
• Cov = 9.167
• Var(x) = 9.67
• Var(y) = 8.917
• R = 0.987 = (9.167/rot(9.67)*rot(8.917)
Dag 2 Regressionsanalys
• Mål Dag 2
– Känna till räta linjens ekvation.
– Veta vad oberoende och beroende variabel är.
– Veta vad lutningskoefficient och intercept är.
– Utföra lämpligt test för regressionskoefficient.
– Veta vilka antaganden som regressionsmodellen bygger på.
– Tolka en regressionsanalys.
Dag 2 Regressionsanalys
• I regressionanalys pratar man om Beroende (y) och Oberoende (x) variabler. Detta innebär att målet med regressionsanalys ofta är att predicera ett värde på Y med hjälp av en annan variabel X.
• I korrelationsanalys finns ingen värdering i vad som är oberoende respektive beroende.
Dag 2 Regressionsanalys
(räta linjens ekvation)
Y=kX+B
B
k
x Y
Dag 2 Regressionsanalys (räta linjens ekvation, lutning)
• Vad Innebär k i en linjär ekvationsmodell?
- Svarar mot lutningen
- Hur mycket Y ökar då X ökar.
- T.ex. för varje ökning av X ökar Y med 2 Y=kX+B
k
Dag 2 Regressionsanalys (Prediktion)
• Mål:
– Vi vill förutspå (predicera) ett värde på Y när vi bara har information om X.
– Jämför med betingade sannolikheter, P(Y|X).
– Jämför med denna ekvation:
– Här är 𝛼 det samma som B och β det samma som k i föregående slides.
– Med ett normalfördelat fel i ekvationen:
i i
i
x x
y
E ( / )
i i
i
i
x x
y
E ( / )
Fixerade effekter, passar den räta linjen
Slumpmässigt fel som följer normalfördelning (N(0,1))
Dag 2 Regressionsanalys (4 Antaganden)
• Förhållandet mellan X och Y är linjärt.
• Y är normalfördelat för varje punkt vid X.
• Variansen för Y är samma för varje punkt X.
• Observationerna är oberoende.
Dag 2 Regressionsanalys (Sum of squares)
C A B
A
yi
x y
yi
C
B
i
i x
yˆ
y
A2 B2 C2
SStotal Total variation
SSreg
Avstånd mellan regressionslinjen och medel värdet på y
SSresidual
Varians omkring regressions linjen
n
i
i i
n
i
n
i
i
i y y y y y
y
1
2
1 1
2
2 ( ˆ ) ( ˆ )
) (
R2=SSreg/SStotal
Dag 2 Regressionsanalys (Uppgift !)
• Jämför kvadratsummorna som används för att skatta regressionskoeffcienterna med
Kvadratsummorna i ANOVA!
• SStotal =?, SSREG =?, SSRESIDUAL=?
• SSB=?,SST=?,SSE=?
Dag 2 Regressionsanalys (Prediktion II)
Y = max HR X = Ålder
Y = 196 – 0.9*Ålder
Dag 2 Regressionsanalys (Prediktion II, Uppgift!)
Beräkna DIN maximala Hjärtfrekvens med hjälp av formeln:
Max_HR = 196 – 0.9*Ålder (i år räknat)
Dag 2 Regressionsanalys (Koefficient och intercept)
) (
) ,
ˆ (
x Var
y x
Cov
ˆ x -
ˆ y :
Calculate
Interceptet fås genom:
(regressionslinjen går alltid genom 𝑥 och 𝑦 )
Regressionskoefficienten skattas genom Minsta kvadratmetoden. Följande uttryck erhålls:
Lutningen:
Dag 2 Regressionsanalys
(Koefficient, intercept uppgift)
• Beräkna β och 𝜶 samt skriv upp regressionsmodellen !
• Cov(y,x) = 20, var(x)=5, 𝒚 = 𝟑𝟓, 𝒙 = 𝟐𝟐
Dag 2 Regressionsanalys * (Koefficient-Korrelation)
y x
SD r ˆ ˆ SD
Korrelations koefficienten (r) har ett samband med
regressionskoefficienten (β).
Observera att i regression så finns beroende (y) och
oberoende variabler (x)
Dag 2 Regressionsanalys (Koefficient, signifikans)
• För att avgöra om lutningen (β) är skild från 0, så bör man testa detta.
• Fördelningen för “lutningen” β~ Tn-2(β,s.e.(𝜷 ))
• Hypotesen blir följande:
H0: β1 = 0
H1: β1 0
. .( ˆ )
ˆ 0
e s
Tn-2=
Dag 2 Regressionsanalys * (Koefficient, Standardavvik.)
x x y x
n
i
i i
SS s SS
n
y y
s
2 / 1
2
ˆ
2
ˆ ) (
Standardavvikelse för β
Dag 2 Regressionsanalys
(Koefficient, signifikans, uppg.)
Dag 2 Regressionsanalys (Dataexempel)
Individ Height Weight
1 142 34
2 160 75
3 150 62
4 155 45
5 158 52
6 170 73
7 161 62
Dag 2 Regressionsanalys
(Koefficient, signifikans, uppg.)
Uppgift!
1. Skriv upp regressionsmodellen
2. Avgör med lämpligt test om lutningen är skild från 0.
Dag 2 Regressionsanalys
(Koefficient, signifikans, Svar)
Dag 2 Regressionsanalys (Dataexempel)
Individ Grupp (1=behand) LDL
1 1 4.3
2 1 2.7
3 1 5.0
4 0 7.8
5 0 6.4
6 0 5.6
7 0 6.0
Dag 2 Regressionsanalys (Dikotom variabel)
0001 .
; 2 . 8 1
1
7 . 2 97
. 6 27 . 4
2 1
37 2
2 2
1
p
n n
T
S S
En regressionsmodell med en dikotom variabel (y = x*β + ε) med β= - 2.7 är det samma som ett t-test för differensen mellqn gruppernas medelvärde.
Sammanfattning Dag 2
(Regressionsanalys)
• Räta linjens ekvation (Y=kx + m)
• Prediktion ( )
• Antaganden (Linjärt, NIID)
• Koefficient och intercept
-test av koefficient, Intercept
• Olika variabeltyper (Dikotom och Kontinuerlig)
i i
i
i
x x
y
E ( / )
Upplägg Dag 3
• Kort repetition, Frågor
• Flera variabler
• Confounding
• Interaktion
• Faror med multivariabla
modeller (ev. Välja ”bästa”
modellen)
• ”Ytterliggare modeller”
Dag 3 Regressionsanalys (Flera variabler)
Dag 3 Regressionsanalys (Mål)
• Mål Dag 3
- Veta hur man infogar fler variabler i en regressionsmodell.
- Förstå hur man kontrollerar för Confounding - Interaktion mellan variabler
- Veta om faror med multivariata modeller (ev. Undersöka vilken modell som är ”bäst”)
- Veta om att det finns ytterligare regressionsmodeller
Dag 3 Regressionsanalys (Repetition dag 2)
• Skriv upp den generella regressionsekvationen.
• Ange vilka fyra huvudsakliga antaganden som vi förutsätter vid linjär regressionsanalys.
• Avgör om koefficienten (β=0.5, SD=0.3) är skiljd från noll.
Dag 3 Regressionsanalys (Flera variabler)
• Linjära regressionsmodeller har fördelen att man kan infoga flera variabler i
samma modell. T.ex.
• Bra för att kunna:
– Kontrollera för confounders.
– Hantera interaktion mellan variabler (effektmodifiering)
– Förbättra prediktionsförmågan.
i
i
x x x x
y
E ( /
1,
2,...)
1
2 ...
Dag 3 Regressionsanalys (Flera variabler II)
• Det finns olika sätt att inkludera ytterligare variabler:
1. Andra oberoende variabler t.ex:
2. Polynom (om ”kurva”):
(lätt att skapa overfitting!)
i
i
x x x x
y
E ( /
1,
2,...)
1
2 ...
i
i
x x x x
y
E ( /
1,
12,...)
1
12 ...
Dag 3 Regressionsanalys (Confounding)
BMI
Y, Blodtryck Confounding, exempel
Confounding,
Dag 3 Regressionsanalys (Confounding, kokbok)
• En confounder (C) är associerad med beroende (Y) och oberoende (X) variabler (den korrekta metoden!, ofta skippas steg 3 och 4).
• 1.Kontrollera om Y är associerad med X.
𝑬 𝒀 𝑿 = 𝒂𝟎 + 𝜷𝒙 ∗ 𝑿 + 𝛜
• 2. Kontrollera om Y är associerad med X givet C.
𝑬 𝒀 𝑿, 𝑪 = 𝒂𝟎,𝒙,𝒄 + 𝜷𝒙,𝑪 ∗ 𝑿 + 𝜷𝒄,𝑿 ∗ 𝐂 + 𝛜
• 3. Kontrollera om C är associerad med Y.
𝑬 𝒀 𝑪 = 𝒂𝟎,𝒄 + 𝜷𝒄 ∗ 𝐂 + 𝛜
• 4. Kontrollera om C är associerad med X.
𝑬(𝑪|𝑿) = 𝒂𝟎,𝒙 + 𝜷𝑪,𝑿 ∗ 𝐗 + 𝛜
Justerat !
Dag 3 Regressionsanalys
(Confounding, Uppgift)
Dag 3 Regressionsanalys (Confounding, Uppgift)
1. Vilken av behandlingarna är förenlig med confounding?
2. Hur många confounders användes?
3. Är koefficienterna ”signifikanta”?
Dag 3 Regressionsanalys (Interaktion)
• Interaktion innebär att effekten av en oberoende variabel beror av en annan oberoende variabel.
• I artikeln skulle interaktion innebära att
kroppssammansättningen skulle bero på genetisk variation (FTO) och Syreupptagningsförmåga. Det vill säga: Man har en extra effekt av syreupptagningsförmågan om man har en
särskild genetisk variation.
Dag 3 Regressionsanalys (Interaktion)
𝑌 = 𝑃𝑃𝐴𝑅𝐺 × 𝛽𝑃𝑃𝐴𝑅𝐺+ +𝐵𝑀𝐼 × 𝛽𝐵𝑀𝐼+ 𝜖 Fasting
Insulin (Y)
𝑌 = 𝐵𝑀𝐼 × 𝛽𝐵𝑀𝐼+ 𝜖
Två olika modeller en med genetisk faktor och en utan.
PPARG och BMI i
modellen är så kallade main effects.
Dag 3 Regressionsanalys (Interaktion)
Fasting Insulin (Y)
𝑌 = 𝐵𝑀𝐼 × 𝛽𝐵𝑀𝐼+ 𝜖
𝑌 = 𝑃𝑃𝐴𝑅𝐺 × 𝛽𝑃𝑃𝐴𝑅𝐺+ +𝐵𝑀𝐼 × 𝛽𝐵𝑀𝐼+ 𝑃𝑃𝐴𝑅𝐺
× 𝐵𝑀𝐼 × 𝛽𝑃𝑃𝐴𝑅𝐺×𝐵𝑀𝐼 + 𝜖
Här är lutningen större än i föregående diagram.
𝑃𝑃𝐴𝑅𝐺 × 𝐵𝑀𝐼 × 𝛽𝑃𝑃𝐴𝑅𝐺×𝐵𝑀𝐼 Är interaktionseffekten.
Dag 3 Regressionsanalys (Interaktion)
• Interaktion innebär att en signifikant produkt term existerar.
• Testa om interaktionstermen är skild från noll.
• Om det finns stark interaktion så är
confounding justering onödigt Stratifiera!
Dag 3 Regressionsanalys (Interaktion, uppgift)
Main effects:
FTO (”AA”): 3 (sd=0.9) VO2Max: -0.2 (sd=0.05) Interaction effects:
FTO*VO2Max: -0.1 (sd=0.07)
1. Skriv ut en modell för main effects + en
modell med main
effects och interaction effects.
2. Avgör vilka koeff.
Som är signifikanta.
Dag 3 Regressionsanalys
(Faror med multip. regression)
Multi-collinearity
Residual confounding
Overfitting
Dag 3 Regressionsanalys (Faror, Multi-colinearity)
• Kolinearitet innebär att två oberoende variabler
”mäter samma sak”. Det finns en stark korrelation mellan dem Tex. Vikt och BMI.
• Man bör endast inkludera en av dessa variabler i modellen.
Dag 3 Regressionsanalys
(Faror, Residual confounding)
• Residual confounding:
• Är ”kvarstående” confounding trots att man kontrollerar för confounders. Här följer tre varianter:
1. Ytterligare confounders som det ej finns
information om (unmeasured confounding)
2. För grov indelning av confoundern som används I analysen. T.ex. Variabel ung-gammal används istället för ålder mätt I antal år.
3. Felklassificering av individer för confoundern I fråga.
Dag 3 Regressionsanalys (Faror, Overfitting)
• Overfitting = Modellen kan passa data
”perfekt” på grund av att man har för många variabler i modellen.
• Tyvärr är modellen troligtvis värdelös ur
prediktionssynpunkt eftersom modellen är starkt kopplad till data som används.
Dag 3 Regressionsanalys (Faror, Overfitting)
Parameter Standard
Variable Estimate Error Type II SS F Value Pr > F Intercept 11.023 2.98341 11.96067 15.65 0.0019 Motion -0.29106 0.09798 6.74569 8.83 0.0117 sömn -1.91592 0.39494 17.98818 23.53 0.0004 obama 1.73993 0.24352 39.01944 51.05 <.0001 Clinton -0.83128 0.17066 18.13489 23.73 0.0004 MatteKär 0.45653 0.10668 13.99925 18.32 0.0011
Optimism modellerat för några faktorer, 5 oberoende faktorer i samma modell.
Parameter Standard
Variable Estimate Error T-värde Pr > F
Intercept 6.65189 0.89153 7.46 <.0001 Motion 0.19161 0.20709 0.93 0.3658
Univariat analys av motion:
Dag 3 Regressionsanalys (Faror, Overfitting)
“Brus”variabler orsakar bra R2 värden om modellen är
“overfitted”
(Figure 1 from: Babyak, MA. What You See May Not Be What You Get: A Brief, Nontechnical Introduction to Overfitting in Regression-Type Models. Psychosomatic Medicine 66:411-421 (2004).)
Tumregel: Minst 10 individer per ytterligare
infogad variabel i en mult. Reg.
modell
Dag 3 Regressionsanalys (Faror, uppgift)
• Diskutera med grannen och ge potentiella exempel på:
1. Residual confounding 2. Overfitting
3. Kolinearitet.
Dag 3 Regressionsanalys (Välja modell)
• Genom att undersöka om variabeln tillför ett signifikant tillskott av SS(Dag 1).
• Stepwise
– Forward (utöka modellen med ytterligare variabler) – Backward (minska modellen med en variabel i taget)
Dag 3 Regressionsanalys (Välja modell)
Källa: www.Wikipedia.org
Dag 3 Regressionsanalys (Ytterligare modeller)
Utfallsvariabel
Är observationerna oberoende eller korrelerade?
Antagande Oberoende Korrelerade
Kontinuerlig
(VAS, längd, konc, etc.)
T-test ANOVA
Linjär correlation Linjär regression
Parat ttest
Repeated-measures ANOVA Mixed models/GEE modeling
Utfallsvariablen är norm.fördel.
Linjärt förhållande mellan utfall och oberoende variabel.
Binär, kategori
(sjuk, ordinalskala)
Difference in proportions Relativa risker
Chi-2 test
Logistisk regression
McNemar’s test
betingad logistic regression GEE modeling
Chi-2 test antar minst antal I varje cell (>=5)
Tid till händelse
(tid till sjukdom)
Kaplan-Meier Cox regression
n/a Prop.hazard
assumption
Dag 3 Regressionsanalys (Sammanfattning)
• Mulivariabel regression
• Confounding
• Interaktion
• Faror
– Kolinearitet
– Residual confounding – Overfitting
• Modellval.
• Ytterligare modeller
Dag 4 Regressionsanalys (Diagnostik, Upplägg)
• Kort repetition, Frågor
• (Multi) kolinearitet
• Residualer
- Linearitet
- Homoscedasitet - Oberoende
• Outliers
Hur bra stämmer våra antaganden?
Dag 4 Regressionsanalys
(Diagnostik, Mål)
• Mål Dag 2
– Känna till olika diagnostiker för att utvärdera regressionsmodeller.
– Förstå vad en residual är.
– Veta hur residualmönster ser ut vid ”icke”,-linearitet, - homoscedasitet, -oberoende.
– Känna till mått för kolinearitet mellan oberoende variabler.
– Känna till situationer när outliers är ett problem.
– Känna till mått för att skatta outliers betydelse
Dag 4 Regressionsanalys (Repetition)
• Multipel regressionsmodell:
• Confounding
• Interaktion
• Faror
– Kolinearitet
– Residual confounding – Overfitting
i
i
x x x x
y
E ( /
1,
2,...)
1
2 ...
Dag 4 Regressionsanalys (Repetition, uppgift!!)
• Utfallsvariabeln (y = BMI) misstänks vara beroende vikt och
aktivitetsnivå (fys). Skriv upp en regressionsmodell för följande:
1. BMI och vikt med justering för confounding från aktivitetsnivå (fys.).
2. BMI och vikt, fys samt interaktion mellan vikt och fys.
Dag 4 Regressionsanalys
(Multiple Regression, repetition antaganden)
• Förhållandet mellan X och Y är linjärt.
• Y är normalfördelat för varje punkt vid X.
• Variansen för Y är samma för varje punkt X.
• Observationerna är oberoende.
Dag 4 Regressionsanalys
((multi)Kolinearitet)
• Kolinearitet innebär att två variabler mäter ”samma”
sak.
• Kolinearitet mellan två variabler kan medföra:
-
Instabila
estimat!- Falskt för stora standardfel, Nollhypotesen förkastas inte.
Dag 4 Regressionsanalys
((multi)Kolinearitet)
• Två mått på kolinearitet är:
1. 𝑇𝑜𝑙𝑒𝑟𝑎𝑛𝑐𝑒 = 1 − 𝑅𝐽2, Där 𝑅𝐽2 är korrelation mellan de båda variablerna, ett värde under 0.2 indikerar kolinearitet.
2. 𝑉𝐼𝐹 = 1 − 𝑅1
𝐽2, VIF = Variance Inflation Factor, ett VIF värde över 5 indikerar kolinearitet.
Dag 4 Regressionsanalys
((multi)Kolinearitet, uppgift!!)
Estimate Std. Error t value Pr(>|t|) (Intercept) 2.33e-15 5.911e-16 4.032e+00 0.000865 ***
x 3.67e-01 2.803e-16 1.308e+15 < 2e-16 ***
bm 1.00e+00 3.228e-16 3.098e+15 < 2e-16 ***
Modell med kolinearitet: Y = 2.383e-15 + 0.3667*X + 1*bm (OBS!!! bm = x/1.2 + e, e = n(0,1))
Korrelation (r) mellan X och bm = 0.98
Estimate Std. Error t value Pr(>|t|) (Intercept) -0.036 0.43158 -0.084 0.934 X 1.22158 0.03603 33.907 <2e-16 ***
Uppgift!
1. Avgör med lämpligt mått om det
föreligger
problem med kolinearitet!
2. Skriv upp den mest sannolika regressions-
modellen
Dag 4 Regressionsanalys
(Residualer)
i i
i
Y Y
e ˆ
Residual:
Kom ihåg
Y ˆ
i X
Residualer är skillnaden mellan
observerat värde (𝒀𝒊) och förväntat värde (𝒀 𝒊).
Dag 4 Regressionsanalys
(Residualer, uppgift)
• Beräkna residualen för x = 20 med
regressionsmodellen y = 100 + 0.5*X.
• Observerat Y-värde är 115.5
i i
i
Y Y
e ˆ
Dag 4 Regressionsanalys
(Residualer)
• Residualer är användbara för att undersöka följande antaganden (m.h.a. plottar):
• Linearitet
• Homoscedasitet (variansen är lika för respektive punkt)
• Oberoende
Dag 4 Regressionsanalys
(Residualer, plottar)
• Genom att plotta residualerna på y-axeln mot obeorende variabel(ler) på x-axeln kan ev.
mönster synliggöras.
Dag 4 Regressionsanalys
(Residualer, plottar (linearitet))
ej Linjär
Linjärx
residualer x
Y
x
Y
x
residualer
Statistics for Managers Using Microsoft® Excel 4th Edition, 2004 Prentice-Hall
Dag 4 Regressionsanalys
(Residualer, plottar, (Homoscedasitet))
icke-konstant varians
Konstant variansx x
Y
x x
Y
residualer residualer
Statistics for Managers Using Microsoft® Excel 4th Edition, 2004 Prentice-Hall
Dag 4 Regressionsanalys
(Residualer, plottar, (Oberoende))
Icke oberoende
oberoende X
residuals residuals X
X
residuals
Statistics for Managers Using Microsoft® Excel 4th Edition, 2004 Prentice-Hall