• No results found

Andra oberoende variabler t.ex:

In document Linjär Regressionsanalys (Page 63-104)

Sammanfattning Dag 2

1. Andra oberoende variabler t.ex:

2. Polynom (om ”kurva”):

(lätt att skapa overfitting!)

i i

x x x x

y

E( /

1

,

2

,...)    

1

 

2

...

i i

x x x x

y

E( /

1

,

12

,...)    

1

 

12

 ... 

Dag 3 Regressionsanalys

(Confounding)

BMI Y, Blodtryck Confounding, exempel Confounding,

Dag 3 Regressionsanalys

(Confounding, kokbok)

• En confounder (C) är associerad med beroende

(Y) och oberoende (X) variabler (den korrekta metoden!, ofta skippas steg 3 och 4).

• 1.Kontrollera om Y är associerad med X.

𝑬 𝒀 𝑿 = 𝒂𝟎 + 𝜷𝒙 ∗ 𝑿 + 𝛜

• 2. Kontrollera om Y är associerad med X givet C.

𝑬 𝒀 𝑿, 𝑪 = 𝒂𝟎,𝒙,𝒄 + 𝜷𝒙,𝑪 ∗ 𝑿 + 𝜷𝒄,𝑿 ∗ 𝐂 + 𝛜

• 3. Kontrollera om C är associerad med Y.

𝑬 𝒀 𝑪 = 𝒂𝟎,𝒄 + 𝜷𝒄 ∗ 𝐂 + 𝛜

• 4. Kontrollera om C är associerad med X.

𝑬(𝑪|𝑿) = 𝒂𝟎,𝒙 + 𝜷𝑪,𝑿 ∗ 𝐗 + 𝛜

Dag 3 Regressionsanalys

(Confounding, Uppgift)

Dag 3 Regressionsanalys

(Confounding, Uppgift)

1. Vilken av behandlingarna är förenlig med confounding?

2. Hur många confounders användes? 3. Är koefficienterna ”signifikanta”?

Dag 3 Regressionsanalys

(Interaktion)

• Interaktion innebär att effekten av en oberoende variabel beror av en annan oberoende variabel.

• I artikeln skulle interaktion innebära att

kroppssammansättningen skulle bero på genetisk variation (FTO) och Syreupptagningsförmåga. Det vill säga: Man har en extra effekt av syreupptagningsförmågan om man har en

Dag 3 Regressionsanalys

(Interaktion)

𝑌 = 𝑃𝑃𝐴𝑅𝐺 × 𝛽𝑃𝑃𝐴𝑅𝐺+ +𝐵𝑀𝐼 × 𝛽𝐵𝑀𝐼+ 𝜖 Fasting Insulin (Y) 𝑌 = 𝐵𝑀𝐼 × 𝛽𝐵𝑀𝐼+ 𝜖

Två olika modeller en med genetisk faktor och en utan.

PPARG och BMI i

modellen är så kallade

Dag 3 Regressionsanalys

(Interaktion)

Fasting Insulin (Y) 𝑌 = 𝐵𝑀𝐼 × 𝛽𝐵𝑀𝐼+ 𝜖 𝑌 = 𝑃𝑃𝐴𝑅𝐺 × 𝛽𝑃𝑃𝐴𝑅𝐺+ +𝐵𝑀𝐼 × 𝛽𝐵𝑀𝐼+ 𝑃𝑃𝐴𝑅𝐺 × 𝐵𝑀𝐼 × 𝛽𝑃𝑃𝐴𝑅𝐺×𝐵𝑀𝐼 + 𝜖 Här är lutningen större än i föregående diagram. 𝑃𝑃𝐴𝑅𝐺 × 𝐵𝑀𝐼 × 𝛽𝑃𝑃𝐴𝑅𝐺×𝐵𝑀𝐼 Är interaktionseffekten.

Dag 3 Regressionsanalys

(Interaktion)

• Interaktion innebär att en signifikant produkt

term existerar.

• Testa om interaktionstermen är skild från noll. • Om det finns stark interaktion så är

Dag 3 Regressionsanalys

(Interaktion, uppgift)

Main effects: FTO (”AA”): 3 (sd=0.9) VO2Max: -0.2 (sd=0.05) Interaction effects: FTO*VO2Max: -0.1 (sd=0.07) 1. Skriv ut en modell för main effects + en modell med main

effects och interaction effects.

2. Avgör vilka koeff. Som är signifikanta.

Dag 3 Regressionsanalys

(Faror med multip. regression)

Multi-collinearity

Residual confounding

Dag 3 Regressionsanalys

(Faror, Multi-colinearity)

• Kolinearitet innebär att två oberoende variabler

”mäter samma sak”. Det finns en stark korrelation mellan dem Tex. Vikt och BMI.

• Man bör endast inkludera en av dessa variabler i

Dag 3 Regressionsanalys

(Faror, Residual confounding)

• Residual confounding:

• Är ”kvarstående” confounding trots att man

kontrollerar för confounders. Här följer tre varianter:

1. Ytterligare confounders som det ej finns

information om (unmeasured confounding)

2. För grov indelning av confoundern som används I analysen. T.ex. Variabel ung-gammal används istället för ålder mätt I antal år.

3. Felklassificering av individer för confoundern I fråga.

Dag 3 Regressionsanalys

(Faror, Overfitting)

• Overfitting = Modellen kan passa data

”perfekt” på grund av att man har för många variabler i modellen.

• Tyvärr är modellen troligtvis värdelös ur

prediktionssynpunkt eftersom modellen är starkt kopplad till data som används.

Dag 3 Regressionsanalys

(Faror, Overfitting)

Parameter Standard

Variable Estimate Error Type II SS F Value Pr > F Intercept 11.023 2.98341 11.96067 15.65 0.0019 Motion -0.29106 0.09798 6.74569 8.83 0.0117 sömn -1.91592 0.39494 17.98818 23.53 0.0004 obama 1.73993 0.24352 39.01944 51.05 <.0001 Clinton -0.83128 0.17066 18.13489 23.73 0.0004 MatteKär 0.45653 0.10668 13.99925 18.32 0.0011

Optimism modellerat för några faktorer, 5 oberoende faktorer i samma modell.

Parameter Standard

Variable Estimate Error T-värde Pr > F

Intercept 6.65189 0.89153 7.46 <.0001 Motion 0.19161 0.20709 0.93 0.3658

Dag 3 Regressionsanalys

(Faror, Overfitting)

“Brus”variabler orsakar bra R2 värden om modellen är

“overfitted”

(Figure 1 from: Babyak, MA. What You See May Not Be What You Get: A Brief, Nontechnical Introduction to Overfitting in Regression-Type Models. Psychosomatic Medicine 66:411-421 (2004).)

Tumregel: Minst 10 individer per ytterligare infogad variabel i en mult. Reg. modell

Dag 3 Regressionsanalys

(Faror, uppgift)

• Diskutera med grannen och ge potentiella

exempel på:

1. Residual confounding 2. Overfitting

Dag 3 Regressionsanalys

(Välja modell)

• Genom att undersöka om variabeln tillför ett

signifikant tillskott av SS(Dag 1).

• Stepwise

– Forward (utöka modellen med ytterligare variabler) – Backward (minska modellen med en variabel i taget)

Dag 3 Regressionsanalys

(Välja modell)

Dag 3 Regressionsanalys

(Ytterligare modeller)

Utfallsvariabel

Är observationerna oberoende eller korrelerade? Antagande Oberoende Korrelerade Kontinuerlig (VAS, längd, konc, etc.) T-test ANOVA Linjär correlation Linjär regression Parat ttest Repeated-measures ANOVA Mixed models/GEE modeling

Utfallsvariablen är norm.fördel. Linjärt förhållande mellan utfall och oberoende variabel. Binär, kategori (sjuk, ordinalskala) Difference in proportions Relativa risker Chi-2 test Logistisk regression McNemar’s test

betingad logistic regression GEE modeling

Chi-2 test antar minst antal I varje cell (>=5)

Tid till händelse

(tid till sjukdom)

Kaplan-Meier Cox regression

n/a Prop.hazard assumption

Dag 3 Regressionsanalys

(Sammanfattning)

• Mulivariabel regression • Confounding • Interaktion • Faror – Kolinearitet – Residual confounding – Overfitting • Modellval. • Ytterligare modeller

Dag 4 Regressionsanalys

(Diagnostik, Upplägg)

• Kort repetition, Frågor • (Multi) kolinearitet • Residualer - Linearitet - Homoscedasitet - Oberoende • Outliers

Dag 4 Regressionsanalys

(Diagnostik, Mål)

• Mål Dag 2

– Känna till olika diagnostiker för att utvärdera regressionsmodeller.

– Förstå vad en residual är.

– Veta hur residualmönster ser ut vid ”icke”,linearitet, -homoscedasitet, -oberoende.

– Känna till mått för kolinearitet mellan oberoende variabler.

– Känna till situationer när outliers är ett problem. – Känna till mått för att skatta outliers betydelse

Dag 4 Regressionsanalys

(Repetition)

• Multipel regressionsmodell: • Confounding • Interaktion • Faror – Kolinearitet – Residual confounding – Overfitting i i

x x x x

y

E( /

1

,

2

,...)   

1

 

2

...

Dag 4 Regressionsanalys

(Repetition, uppgift!!)

• Utfallsvariabeln (y = BMI) misstänks vara beroende vikt och

aktivitetsnivå (fys). Skriv upp en regressionsmodell för följande:

1. BMI och vikt med justering för confounding från aktivitetsnivå (fys.).

Dag 4 Regressionsanalys

(Multiple Regression, repetition antaganden)

• Förhållandet mellan X och Y är linjärt.

• Y är normalfördelat för varje punkt vid X. • Variansen för Y är samma för varje punkt X. • Observationerna är oberoende.

Dag 4 Regressionsanalys

((multi)Kolinearitet)

• Kolinearitet innebär att två variabler mäter ”samma” sak.

• Kolinearitet mellan två variabler kan medföra:

-

Instabila

estimat!

- Falskt för stora standardfel, Nollhypotesen förkastas inte.

Dag 4 Regressionsanalys

((multi)Kolinearitet)

• Två mått på kolinearitet är:

1. 𝑇𝑜𝑙𝑒𝑟𝑎𝑛𝑐𝑒 = 1 − 𝑅𝐽2, Där 𝑅𝐽2 är korrelation mellan de båda variablerna, ett värde under 0.2 indikerar kolinearitet.

2. 𝑉𝐼𝐹 = 1 − 𝑅1

𝐽2, VIF = Variance Inflation Factor, ett VIF värde över 5 indikerar kolinearitet.

Dag 4 Regressionsanalys

((multi)Kolinearitet, uppgift!!) Estimate Std. Error t value Pr(>|t|)

(Intercept) 2.33e-15 5.911e-16 4.032e+00 0.000865 *** x 3.67e-01 2.803e-16 1.308e+15 < 2e-16 *** bm 1.00e+00 3.228e-16 3.098e+15 < 2e-16 *** Modell med kolinearitet: Y = 2.383e-15 + 0.3667*X + 1*bm (OBS!!! bm = x/1.2 + e, e = n(0,1))

Korrelation (r) mellan X och bm = 0.98

Estimate Std. Error t value Pr(>|t|) (Intercept) -0.036 0.43158 -0.084 0.934 X 1.22158 0.03603 33.907 <2e-16 *** Uppgift! 1. Avgör med lämpligt mått om det föreligger problem med kolinearitet! 2. Skriv upp den

mest sannolika

Dag 4 Regressionsanalys

(Residualer) i i i

Y Y

e   ˆ

Residual: Kom ihåg

Yˆ

i

     X

Residualer är skillnaden mellan

observerat värde (𝒀𝒊) och förväntat

Dag 4 Regressionsanalys

(Residualer, uppgift)

• Beräkna residualen för x = 20 med

regressionsmodellen y = 100 + 0.5*X. • Observerat Y-värde är 115.5 i i i

Y Y

e   ˆ

Dag 4 Regressionsanalys

(Residualer)

• Residualer är användbara för att undersöka följande

antaganden (m.h.a. plottar):

• Linearitet

• Homoscedasitet (variansen är lika för respektive

punkt)

Dag 4 Regressionsanalys

(Residualer, plottar)

• Genom att plotta residualerna på y-axeln mot

obeorende variabel(ler) på x-axeln kan ev. mönster synliggöras.

Dag 4 Regressionsanalys

(Residualer, plottar (linearitet))

ej Linjär

Linjär x re sid ualer x Y x Y x re sid ualer

Dag 4 Regressionsanalys

(Residualer, plottar, (Homoscedasitet))

icke-konstant varians

Konstant varians

x x Y x x Y re sid ualer re sid ualer

Dag 4 Regressionsanalys

(Residualer, plottar, (Oberoende))

Icke oberoende oberoende X X re sid uals re sid uals X re sid uals

Dag 4 Regressionsanalys

(Residualer, plottar, uppgift!!)

Uppgift!

Försök att avgöra

med hjälp av graferna till vänster om det:

1. är ett linjärt förhållande mellan y och x. 2. om det är samma varians. 3. om y-värden är oberoende av varandra

Dag 4 Regressionsanalys

(Outliers)

Även om antaganden håller kan modellen vara “dålig”

T.ex. Outliers-extremvärden

Formellt: “inflytelserika individer” Outliers kan bero på:

• Datainmatningsfel • Extrema individer

• Representera riktig variation

Några få outliers kan påverka “lutningen” mycket, Särskilt om “sampel size” är liten.

Dag 4 Regressionsanalys

(Outliers)

Outlier Blå linje (med outlier):

Y = -3.79 + 1.73*X

svart linje (utan outlier): Y = -0.036 + 1.22*X

Dag 4 Regressionsanalys

(Outliers, uppgift!)

• Var går gränsen för en ”inflytelserik” outlier?

- Om en standardiserad (medel=0, sd=1) outlier är större än 3 eller minder än -3.

- Om cooks distance är större än 1.

𝑫𝒊 = 𝒏𝒋=𝟏(𝒚 −𝒚𝒋 )𝒋 𝒊 𝟐

𝒑×𝑴𝑺𝑬 , yj = modell med outlier, yj(i) =modell utan outlier, p = antal variabler.

• Uppgift!

– Avgör om ”outliern” har någon betydelse för regression modellen om de standarddiserade residualerna har följande fördelning.

Min 1Q Median 3Q Max -6.280 -4.787 -0.565 1.352 32.393

Cooks Distance: Min. 1st Qu. Median Mean 3rd Qu. Max.

0.0000335 0.0013600 0.0061360 0.1078000 0.0171100 2.0250000 – Vad står MSE för i formeln ovanför?

Dag 4 Regressionsanalys

(Sammanfattning) • (Multi) kolinearitet – Tolerance, VIF • Residualer - Linearitet (Plottar) - Homoscedasitet (Varians) - Oberoende • Outliers – Std. Residualer – Cooks distance 𝑫𝒊 = 𝒏𝒋=𝟏(𝒚 −𝒚𝒋 )𝒋 𝒊 𝟐 𝒑×𝑴𝑺𝑬 i i i Y Y e ˆ

Dag 4 Regressionsanalys

(Regressionskokbok)

1. Börja med en modell som passar a’priori kunskap. 2. Plotta beroende och oberoende variabel.

3. Kör regressionsmodellen i 1.

4. Kolla hur bra modellen passar data (plotta regressionslinje + punkter) - Kolla residualer efter mönster (Kolinearitet, homoscedasitet, oberoende).

- Kolla om outlier(s) finns. Ev. kontrollera hur inflytelserika de är. 5. Inkludera om nödvändigt confounding och/eller interaktion.

6. Kör om från steg 3. tills en modell med bra förklarad varians och så få variabler som möjligt (Occams razor).

In document Linjär Regressionsanalys (Page 63-104)

Related documents