Sammanfattning Dag 2
1. Andra oberoende variabler t.ex:
2. Polynom (om ”kurva”):
(lätt att skapa overfitting!)
i i
x x x x
y
E( /
1,
2,...)
1
2...
i ix x x x
y
E( /
1,
12,...)
1
12 ...
Dag 3 Regressionsanalys
(Confounding)
BMI Y, Blodtryck Confounding, exempel Confounding,Dag 3 Regressionsanalys
(Confounding, kokbok)
• En confounder (C) är associerad med beroende
(Y) och oberoende (X) variabler (den korrekta metoden!, ofta skippas steg 3 och 4).
• 1.Kontrollera om Y är associerad med X.
𝑬 𝒀 𝑿 = 𝒂𝟎 + 𝜷𝒙 ∗ 𝑿 + 𝛜
• 2. Kontrollera om Y är associerad med X givet C.
𝑬 𝒀 𝑿, 𝑪 = 𝒂𝟎,𝒙,𝒄 + 𝜷𝒙,𝑪 ∗ 𝑿 + 𝜷𝒄,𝑿 ∗ 𝐂 + 𝛜
• 3. Kontrollera om C är associerad med Y.
𝑬 𝒀 𝑪 = 𝒂𝟎,𝒄 + 𝜷𝒄 ∗ 𝐂 + 𝛜
• 4. Kontrollera om C är associerad med X.
𝑬(𝑪|𝑿) = 𝒂𝟎,𝒙 + 𝜷𝑪,𝑿 ∗ 𝐗 + 𝛜
Dag 3 Regressionsanalys
(Confounding, Uppgift)
Dag 3 Regressionsanalys
(Confounding, Uppgift)
1. Vilken av behandlingarna är förenlig med confounding?
2. Hur många confounders användes? 3. Är koefficienterna ”signifikanta”?
Dag 3 Regressionsanalys
(Interaktion)
• Interaktion innebär att effekten av en oberoende variabel beror av en annan oberoende variabel.
• I artikeln skulle interaktion innebära att
kroppssammansättningen skulle bero på genetisk variation (FTO) och Syreupptagningsförmåga. Det vill säga: Man har en extra effekt av syreupptagningsförmågan om man har en
Dag 3 Regressionsanalys
(Interaktion)
𝑌 = 𝑃𝑃𝐴𝑅𝐺 × 𝛽𝑃𝑃𝐴𝑅𝐺+ +𝐵𝑀𝐼 × 𝛽𝐵𝑀𝐼+ 𝜖 Fasting Insulin (Y) 𝑌 = 𝐵𝑀𝐼 × 𝛽𝐵𝑀𝐼+ 𝜖Två olika modeller en med genetisk faktor och en utan.
PPARG och BMI i
modellen är så kallade
Dag 3 Regressionsanalys
(Interaktion)
Fasting Insulin (Y) 𝑌 = 𝐵𝑀𝐼 × 𝛽𝐵𝑀𝐼+ 𝜖 𝑌 = 𝑃𝑃𝐴𝑅𝐺 × 𝛽𝑃𝑃𝐴𝑅𝐺+ +𝐵𝑀𝐼 × 𝛽𝐵𝑀𝐼+ 𝑃𝑃𝐴𝑅𝐺 × 𝐵𝑀𝐼 × 𝛽𝑃𝑃𝐴𝑅𝐺×𝐵𝑀𝐼 + 𝜖 Här är lutningen större än i föregående diagram. 𝑃𝑃𝐴𝑅𝐺 × 𝐵𝑀𝐼 × 𝛽𝑃𝑃𝐴𝑅𝐺×𝐵𝑀𝐼 Är interaktionseffekten.Dag 3 Regressionsanalys
(Interaktion)
• Interaktion innebär att en signifikant produkt
term existerar.
• Testa om interaktionstermen är skild från noll. • Om det finns stark interaktion så är
Dag 3 Regressionsanalys
(Interaktion, uppgift)
Main effects: FTO (”AA”): 3 (sd=0.9) VO2Max: -0.2 (sd=0.05) Interaction effects: FTO*VO2Max: -0.1 (sd=0.07) 1. Skriv ut en modell för main effects + en modell med maineffects och interaction effects.
2. Avgör vilka koeff. Som är signifikanta.
Dag 3 Regressionsanalys
(Faror med multip. regression)
Multi-collinearity
Residual confounding
Dag 3 Regressionsanalys
(Faror, Multi-colinearity)
• Kolinearitet innebär att två oberoende variabler
”mäter samma sak”. Det finns en stark korrelation mellan dem Tex. Vikt och BMI.
• Man bör endast inkludera en av dessa variabler i
Dag 3 Regressionsanalys
(Faror, Residual confounding)
• Residual confounding:
• Är ”kvarstående” confounding trots att man
kontrollerar för confounders. Här följer tre varianter:
1. Ytterligare confounders som det ej finns
information om (unmeasured confounding)
2. För grov indelning av confoundern som används I analysen. T.ex. Variabel ung-gammal används istället för ålder mätt I antal år.
3. Felklassificering av individer för confoundern I fråga.
Dag 3 Regressionsanalys
(Faror, Overfitting)
• Overfitting = Modellen kan passa data
”perfekt” på grund av att man har för många variabler i modellen.
• Tyvärr är modellen troligtvis värdelös ur
prediktionssynpunkt eftersom modellen är starkt kopplad till data som används.
Dag 3 Regressionsanalys
(Faror, Overfitting)
Parameter Standard
Variable Estimate Error Type II SS F Value Pr > F Intercept 11.023 2.98341 11.96067 15.65 0.0019 Motion -0.29106 0.09798 6.74569 8.83 0.0117 sömn -1.91592 0.39494 17.98818 23.53 0.0004 obama 1.73993 0.24352 39.01944 51.05 <.0001 Clinton -0.83128 0.17066 18.13489 23.73 0.0004 MatteKär 0.45653 0.10668 13.99925 18.32 0.0011
Optimism modellerat för några faktorer, 5 oberoende faktorer i samma modell.
Parameter Standard
Variable Estimate Error T-värde Pr > F
Intercept 6.65189 0.89153 7.46 <.0001 Motion 0.19161 0.20709 0.93 0.3658
Dag 3 Regressionsanalys
(Faror, Overfitting)
“Brus”variabler orsakar bra R2 värden om modellen är
“overfitted”
(Figure 1 from: Babyak, MA. What You See May Not Be What You Get: A Brief, Nontechnical Introduction to Overfitting in Regression-Type Models. Psychosomatic Medicine 66:411-421 (2004).)
Tumregel: Minst 10 individer per ytterligare infogad variabel i en mult. Reg. modell
Dag 3 Regressionsanalys
(Faror, uppgift)
• Diskutera med grannen och ge potentiella
exempel på:
1. Residual confounding 2. Overfitting
Dag 3 Regressionsanalys
(Välja modell)
• Genom att undersöka om variabeln tillför ett
signifikant tillskott av SS(Dag 1).
• Stepwise
– Forward (utöka modellen med ytterligare variabler) – Backward (minska modellen med en variabel i taget)
Dag 3 Regressionsanalys
(Välja modell)
Dag 3 Regressionsanalys
(Ytterligare modeller)
Utfallsvariabel
Är observationerna oberoende eller korrelerade? Antagande Oberoende Korrelerade Kontinuerlig (VAS, längd, konc, etc.) T-test ANOVA Linjär correlation Linjär regression Parat ttest Repeated-measures ANOVA Mixed models/GEE modeling
Utfallsvariablen är norm.fördel. Linjärt förhållande mellan utfall och oberoende variabel. Binär, kategori (sjuk, ordinalskala) Difference in proportions Relativa risker Chi-2 test Logistisk regression McNemar’s test
betingad logistic regression GEE modeling
Chi-2 test antar minst antal I varje cell (>=5)
Tid till händelse
(tid till sjukdom)
Kaplan-Meier Cox regression
n/a Prop.hazard assumption
Dag 3 Regressionsanalys
(Sammanfattning)
• Mulivariabel regression • Confounding • Interaktion • Faror – Kolinearitet – Residual confounding – Overfitting • Modellval. • Ytterligare modellerDag 4 Regressionsanalys
(Diagnostik, Upplägg)
• Kort repetition, Frågor • (Multi) kolinearitet • Residualer - Linearitet - Homoscedasitet - Oberoende • Outliers
Dag 4 Regressionsanalys
(Diagnostik, Mål)
• Mål Dag 2
– Känna till olika diagnostiker för att utvärdera regressionsmodeller.
– Förstå vad en residual är.
– Veta hur residualmönster ser ut vid ”icke”,linearitet, -homoscedasitet, -oberoende.
– Känna till mått för kolinearitet mellan oberoende variabler.
– Känna till situationer när outliers är ett problem. – Känna till mått för att skatta outliers betydelse
Dag 4 Regressionsanalys
(Repetition)
• Multipel regressionsmodell: • Confounding • Interaktion • Faror – Kolinearitet – Residual confounding – Overfitting i ix x x x
y
E( /
1,
2,...)
1
2...
Dag 4 Regressionsanalys
(Repetition, uppgift!!)
• Utfallsvariabeln (y = BMI) misstänks vara beroende vikt och
aktivitetsnivå (fys). Skriv upp en regressionsmodell för följande:
1. BMI och vikt med justering för confounding från aktivitetsnivå (fys.).
Dag 4 Regressionsanalys
(Multiple Regression, repetition antaganden)
• Förhållandet mellan X och Y är linjärt.
• Y är normalfördelat för varje punkt vid X. • Variansen för Y är samma för varje punkt X. • Observationerna är oberoende.
Dag 4 Regressionsanalys
((multi)Kolinearitet)
• Kolinearitet innebär att två variabler mäter ”samma” sak.
• Kolinearitet mellan två variabler kan medföra:
-
Instabila
estimat!- Falskt för stora standardfel, Nollhypotesen förkastas inte.
Dag 4 Regressionsanalys
((multi)Kolinearitet)
• Två mått på kolinearitet är:
1. 𝑇𝑜𝑙𝑒𝑟𝑎𝑛𝑐𝑒 = 1 − 𝑅𝐽2, Där 𝑅𝐽2 är korrelation mellan de båda variablerna, ett värde under 0.2 indikerar kolinearitet.
2. 𝑉𝐼𝐹 = 1 − 𝑅1
𝐽2, VIF = Variance Inflation Factor, ett VIF värde över 5 indikerar kolinearitet.
Dag 4 Regressionsanalys
((multi)Kolinearitet, uppgift!!) Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.33e-15 5.911e-16 4.032e+00 0.000865 *** x 3.67e-01 2.803e-16 1.308e+15 < 2e-16 *** bm 1.00e+00 3.228e-16 3.098e+15 < 2e-16 *** Modell med kolinearitet: Y = 2.383e-15 + 0.3667*X + 1*bm (OBS!!! bm = x/1.2 + e, e = n(0,1))
Korrelation (r) mellan X och bm = 0.98
Estimate Std. Error t value Pr(>|t|) (Intercept) -0.036 0.43158 -0.084 0.934 X 1.22158 0.03603 33.907 <2e-16 *** Uppgift! 1. Avgör med lämpligt mått om det föreligger problem med kolinearitet! 2. Skriv upp den
mest sannolika
Dag 4 Regressionsanalys
(Residualer) i i iY Y
e ˆ
Residual: Kom ihågYˆ
i X
Residualer är skillnaden mellan
observerat värde (𝒀𝒊) och förväntat
Dag 4 Regressionsanalys
(Residualer, uppgift)
• Beräkna residualen för x = 20 med
regressionsmodellen y = 100 + 0.5*X. • Observerat Y-värde är 115.5 i i i
Y Y
e ˆ
Dag 4 Regressionsanalys
(Residualer)
• Residualer är användbara för att undersöka följande
antaganden (m.h.a. plottar):
• Linearitet
• Homoscedasitet (variansen är lika för respektive
punkt)
Dag 4 Regressionsanalys
(Residualer, plottar)
• Genom att plotta residualerna på y-axeln mot
obeorende variabel(ler) på x-axeln kan ev. mönster synliggöras.
Dag 4 Regressionsanalys
(Residualer, plottar (linearitet))
ej Linjär
Linjär x re sid ualer x Y x Y x re sid ualerDag 4 Regressionsanalys
(Residualer, plottar, (Homoscedasitet))
icke-konstant varians
Konstant variansx x Y x x Y re sid ualer re sid ualer
Dag 4 Regressionsanalys
(Residualer, plottar, (Oberoende))
Icke oberoende oberoende X X re sid uals re sid uals X re sid uals
Dag 4 Regressionsanalys
(Residualer, plottar, uppgift!!)
Uppgift!
Försök att avgöra
med hjälp av graferna till vänster om det:
1. är ett linjärt förhållande mellan y och x. 2. om det är samma varians. 3. om y-värden är oberoende av varandra
Dag 4 Regressionsanalys
(Outliers)
Även om antaganden håller kan modellen vara “dålig”
T.ex. Outliers-extremvärden
Formellt: “inflytelserika individer” Outliers kan bero på:
• Datainmatningsfel • Extrema individer
• Representera riktig variation
Några få outliers kan påverka “lutningen” mycket, Särskilt om “sampel size” är liten.
Dag 4 Regressionsanalys
(Outliers)
Outlier Blå linje (med outlier):
Y = -3.79 + 1.73*X
svart linje (utan outlier): Y = -0.036 + 1.22*X
Dag 4 Regressionsanalys
(Outliers, uppgift!)
• Var går gränsen för en ”inflytelserik” outlier?
- Om en standardiserad (medel=0, sd=1) outlier är större än 3 eller minder än -3.
- Om cooks distance är större än 1.
𝑫𝒊 = 𝒏𝒋=𝟏(𝒚 −𝒚𝒋 )𝒋 𝒊 𝟐
𝒑×𝑴𝑺𝑬 , yj = modell med outlier, yj(i) =modell utan outlier, p = antal variabler.
• Uppgift!
– Avgör om ”outliern” har någon betydelse för regression modellen om de standarddiserade residualerna har följande fördelning.
Min 1Q Median 3Q Max -6.280 -4.787 -0.565 1.352 32.393
Cooks Distance: Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0000335 0.0013600 0.0061360 0.1078000 0.0171100 2.0250000 – Vad står MSE för i formeln ovanför?
Dag 4 Regressionsanalys
(Sammanfattning) • (Multi) kolinearitet – Tolerance, VIF • Residualer - Linearitet (Plottar) - Homoscedasitet (Varians) - Oberoende • Outliers – Std. Residualer – Cooks distance 𝑫𝒊 = 𝒏𝒋=𝟏(𝒚 −𝒚𝒋 )𝒋 𝒊 𝟐 𝒑×𝑴𝑺𝑬 i i i Y Y e ˆDag 4 Regressionsanalys
(Regressionskokbok)
1. Börja med en modell som passar a’priori kunskap. 2. Plotta beroende och oberoende variabel.
3. Kör regressionsmodellen i 1.
4. Kolla hur bra modellen passar data (plotta regressionslinje + punkter) - Kolla residualer efter mönster (Kolinearitet, homoscedasitet, oberoende).
- Kolla om outlier(s) finns. Ev. kontrollera hur inflytelserika de är. 5. Inkludera om nödvändigt confounding och/eller interaktion.
6. Kör om från steg 3. tills en modell med bra förklarad varians och så få variabler som möjligt (Occams razor).