• No results found

Föreläsning 10, del 1: Icke-linjära samband och outliers

N/A
N/A
Protected

Academic year: 2021

Share "Föreläsning 10, del 1: Icke-linjära samband och outliers"

Copied!
53
0
0

Loading.... (view fulltext now)

Full text

(1)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Föreläsning 10, del 1:

Icke-linjära samband och outliers

Pär Nyman par.nyman@statsvet.uu.se

19 september 2014

- 1 -

(2)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Introduktion

Sammanfattning av tidigare kursvärderingar:

• Kursen är för svår.

• Kursen är för enkel.

Dagens föreläsning tar upp lite mer avancerade saker. Fastna inte i detaljer ni tycker är svåra.

Den första timmen ska vi prata om två fenomen som kan påverka våra regressionsresultat.

• Icke-linjära samband.

• Outliers.

De sista två timmarna kommer handla om experiment.

(3)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Introduktion

Sammanfattning av tidigare kursvärderingar:

• Kursen är för svår.

• Kursen är för enkel.

Dagens föreläsning tar upp lite mer avancerade saker. Fastna inte i detaljer ni tycker är svåra.

Den första timmen ska vi prata om två fenomen som kan påverka våra regressionsresultat.

• Icke-linjära samband.

• Outliers.

De sista två timmarna kommer handla om experiment.

- 2 -

(4)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Introduktion

Sammanfattning av tidigare kursvärderingar:

• Kursen är för svår.

• Kursen är för enkel.

Dagens föreläsning tar upp lite mer avancerade saker. Fastna inte i detaljer ni tycker är svåra.

Den första timmen ska vi prata om två fenomen som kan påverka våra regressionsresultat.

• Icke-linjära samband.

• Outliers.

De sista två timmarna kommer handla om experiment.

(5)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Introduktion

Sammanfattning av tidigare kursvärderingar:

• Kursen är för svår.

• Kursen är för enkel.

Dagens föreläsning tar upp lite mer avancerade saker.

Fastna inte i detaljer ni tycker är svåra.

Den första timmen ska vi prata om två fenomen som kan påverka våra regressionsresultat.

• Icke-linjära samband.

• Outliers.

De sista två timmarna kommer handla om experiment.

- 2 -

(6)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Introduktion

Sammanfattning av tidigare kursvärderingar:

• Kursen är för svår.

• Kursen är för enkel.

Dagens föreläsning tar upp lite mer avancerade saker.

Fastna inte i detaljer ni tycker är svåra.

Den första timmen ska vi prata om två fenomen som kan påverka våra regressionsresultat.

• Icke-linjära samband.

• Outliers.

De sista två timmarna kommer handla om experiment.

(7)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Introduktion

Sammanfattning av tidigare kursvärderingar:

• Kursen är för svår.

• Kursen är för enkel.

Dagens föreläsning tar upp lite mer avancerade saker.

Fastna inte i detaljer ni tycker är svåra.

Den första timmen ska vi prata om två fenomen som kan påverka våra regressionsresultat.

• Icke-linjära samband.

• Outliers.

De sista två timmarna kommer handla om experiment.

- 2 -

(8)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Introduktion

Sammanfattning av tidigare kursvärderingar:

• Kursen är för svår.

• Kursen är för enkel.

Dagens föreläsning tar upp lite mer avancerade saker.

Fastna inte i detaljer ni tycker är svåra.

Den första timmen ska vi prata om två fenomen som kan påverka våra regressionsresultat.

• Icke-linjära samband.

• Outliers.

De sista två timmarna kommer handla om experiment.

(9)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Introduktion

Sammanfattning av tidigare kursvärderingar:

• Kursen är för svår.

• Kursen är för enkel.

Dagens föreläsning tar upp lite mer avancerade saker.

Fastna inte i detaljer ni tycker är svåra.

Den första timmen ska vi prata om två fenomen som kan påverka våra regressionsresultat.

• Icke-linjära samband.

• Outliers.

De sista två timmarna kommer handla om experiment.

- 2 -

(10)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Introduktion

Sammanfattning av tidigare kursvärderingar:

• Kursen är för svår.

• Kursen är för enkel.

Dagens föreläsning tar upp lite mer avancerade saker.

Fastna inte i detaljer ni tycker är svåra.

Den första timmen ska vi prata om två fenomen som kan påverka våra regressionsresultat.

• Icke-linjära samband.

• Outliers.

De sista två timmarna kommer handla om experiment.

(11)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Introduktion

I anteckningarna till dagens föreläsning tar jag även upp två saker som inte examineras:

Multikollinearitet uppstår när de oberoende variablerna är korrelerade med varandra. Gör det svårare att separera effekter från varandra och kan därför medföra att inget samband är signifikant.

Interaktionseffekter innebär att effekten av en variabel är beroende av värdet på en annan variabel. Exempel: Små undervisningsgrupper i skolan förbättrar skolresultaten mer för personer med utländsk eller arbetarbakgrund än för personer med inrikes födda och högutbildade föräldrar.

- 3 -

(12)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Introduktion

I anteckningarna till dagens föreläsning tar jag även upp två saker som inte examineras:

Multikollinearitet uppstår när de oberoende variablerna är korrelerade med varandra. Gör det svårare att separera effekter från varandra och kan därför medföra att inget samband är signifikant.

Interaktionseffekter innebär att effekten av en variabel är

beroende av värdet på en annan variabel. Exempel: Små

undervisningsgrupper i skolan förbättrar skolresultaten mer

för personer med utländsk eller arbetarbakgrund än för

personer med inrikes födda och högutbildade föräldrar.

(13)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Icke-linjära samband

Hittills har vi antagit att alla samband är linjära, så att en ökning i x alltid ger samma ökning i ˆ y .

Men alla känner vi till samband där det antagandet inte stämmer.

En person utvecklas mer mellan 2 och 4 år än mellan 30 och 32.

En ökning av inkomsten med 1 000 kr betyder i de flesta avseenden mer för en student än för en höginkomsttagare.

- 4 -

(14)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Icke-linjära samband

Hittills har vi antagit att alla samband är linjära, så att en ökning i x alltid ger samma ökning i ˆ y .

Men alla känner vi till samband där det antagandet inte stämmer.

En person utvecklas mer mellan 2 och 4 år än mellan 30 och 32.

En ökning av inkomsten med 1 000 kr betyder i de flesta

avseenden mer för en student än för en höginkomsttagare.

(15)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Icke-linjära samband

Hittills har vi antagit att alla samband är linjära, så att en ökning i x alltid ger samma ökning i ˆ y .

Men alla känner vi till samband där det antagandet inte stämmer.

En person utvecklas mer mellan 2 och 4 år än mellan 30 och 32.

En ökning av inkomsten med 1 000 kr betyder i de flesta avseenden mer för en student än för en höginkomsttagare.

- 4 -

(16)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Icke-linjära samband

Hittills har vi antagit att alla samband är linjära, så att en ökning i x alltid ger samma ökning i ˆ y .

Men alla känner vi till samband där det antagandet inte stämmer.

En person utvecklas mer mellan 2 och 4 år än mellan 30 och 32.

En ökning av inkomsten med 1 000 kr betyder i de flesta

avseenden mer för en student än för en höginkomsttagare.

(17)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Avtagande samband

Ett avtagande samband innebär att en förändring i den oberoende variabeln x orsakar större förändringar i den beroende variabeln vid låga värden på x än vid höga värden på x .

Exempel: BNP per capita och förväntad livslängd.

- 5 -

(18)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Avtagande samband

Ett avtagande samband innebär att en förändring i den oberoende variabeln x orsakar större förändringar i den beroende variabeln vid låga värden på x än vid höga värden på x .

Exempel: BNP per capita och förväntad livslängd.

(19)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Avtagande samband

4050607080Förväntad livslängd vid födseln (år)

0 20000 40000 60000

BNP per capita (USD)

Figure : Sambandet mellan BNP per capita och förväntad livslängd

- 6 -

(20)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Avtagande samband

Logaritmering: bra att kunna

Avtagande samband hanteras ofta genom att man ersätter värdena på den beroende variabeln (x ) med logaritmen av dessa värden (logx ).

När vi logaritmerar den oberoende variabeln analyserar vi effekten av relativa förändringar (”om x ökar med 100 procent”) i stället för absoluta förändringar (”om x ökar med 10”).

Valet att logaritmera kan motiveras både empiriskt

(”passningen blir bättre”) och teoretiskt (”det är rimligt

att en fördubbling av BNP orsakar en lika stor förändring

i förväntad livslängd oavsett BNP-nivå”).

(21)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Avtagande samband

- 7 -

Logaritmering: bra att kunna

Avtagande samband hanteras ofta genom att man ersätter värdena på den beroende variabeln (x ) med logaritmen av dessa värden (logx ).

När vi logaritmerar den oberoende variabeln analyserar vi effekten av relativa förändringar (”om x ökar med 100 procent”) i stället för absoluta förändringar (”om x ökar med 10”).

Valet att logaritmera kan motiveras både empiriskt

(”passningen blir bättre”) och teoretiskt (”det är rimligt

att en fördubbling av BNP orsakar en lika stor förändring

i förväntad livslängd oavsett BNP-nivå”).

(22)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Avtagande samband

Logaritmering: bra att kunna

Avtagande samband hanteras ofta genom att man ersätter värdena på den beroende variabeln (x ) med logaritmen av dessa värden (logx ).

När vi logaritmerar den oberoende variabeln analyserar vi effekten av relativa förändringar (”om x ökar med 100 procent”) i stället för absoluta förändringar (”om x ökar med 10”).

Valet att logaritmera kan motiveras både empiriskt

(”passningen blir bättre”) och teoretiskt (”det är rimligt

(23)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Avtagande samband

- 8 -

Logaritmering: frivilligt att lära sig

x log

2

x log

10

x

1 0.00 0.00

2 1.00 0.30

3 1.58 0.48

4 2.00 0.60

5 2.32 0.70

6 2.58 0.78

7 2.81 0.85

8 3.00 0.90

9 3.17 0.95

10 3.32 1.00

En logaritm med basen k är samma sak som att fråga ”med vilken exponent måste k upphöjas för att anta värdet x ”.

När x fördubblas så ökar log

2

x med 1.

När x tiodubblas så ökar log

10

x med 1.

Vilken bas vi använder påverkar inte

formen på sambandet mellan x och

dess logaritm. Vår regressionslinje

kommer därför se likadan ut oavsett

bas.

(24)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Avtagande samband

Logaritmering: frivilligt att lära sig

x log

2

x log

10

x

1 0.00

0.00

2 1.00

0.30

3 1.58 0.48

4 2.00

0.60

5 2.32 0.70

6 2.58 0.78

7 2.81 0.85

8 3.00

0.90

En logaritm med basen k är samma sak som att fråga ”med vilken exponent måste k upphöjas för att anta värdet x ”.

När x fördubblas så ökar log

2

x med 1.

När x tiodubblas så ökar log

10

x med 1.

Vilken bas vi använder påverkar inte

formen på sambandet mellan x och

dess logaritm. Vår regressionslinje

kommer därför se likadan ut oavsett

bas.

(25)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Avtagande samband

- 8 -

Logaritmering: frivilligt att lära sig

x log

2

x log

10

x

1

0.00

0.00

2 1.00 0.30

3 1.58 0.48

4 2.00 0.60

5 2.32 0.70

6 2.58 0.78

7 2.81 0.85

8 3.00 0.90

9 3.17 0.95

10

3.32

1.00

En logaritm med basen k är samma sak som att fråga ”med vilken exponent måste k upphöjas för att anta värdet x ”.

När x fördubblas så ökar log

2

x med 1.

När x tiodubblas så ökar log

10

x med 1.

Vilken bas vi använder påverkar inte

formen på sambandet mellan x och

dess logaritm. Vår regressionslinje

kommer därför se likadan ut oavsett

bas.

(26)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Avtagande samband

Logaritmering: frivilligt att lära sig

x log

2

x log

10

x

1 0.00 0.00

2 1.00 0.30

3 1.58 0.48

4 2.00 0.60

5 2.32 0.70

6 2.58 0.78

7 2.81 0.85

8 3.00 0.90

En logaritm med basen k är samma sak som att fråga ”med vilken exponent måste k upphöjas för att anta värdet x ”.

När x fördubblas så ökar log

2

x med 1.

När x tiodubblas så ökar log

10

x med 1.

Vilken bas vi använder påverkar inte

formen på sambandet mellan x och

dess logaritm. Vår regressionslinje

(27)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Variabeltransformationer

- 9 -

Logaritmering: frivilligt att lära sig

Värde på x

Logaritmenavx

(28)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Avtagande samband

4050607080Förväntad livslängd vid födseln (år)

(29)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Avtagande samband

4050607080Förväntad livslängd vid födseln (år)

6 7 8 9 10 11

Logaritmerad BNP per capita

Figure : Sambandet mellan BNP och förväntad livslängd

- 10 -

(30)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

U-formade samband

Många samband är formade som ett U eller ett upp och nervänt U.

Det innebär att en ökning i den oberoende variabeln orsakar en positiv effekt i ett intervall och en negativ effekt i ett annat intervall.

Exempel: Ökar sysselsättningsgraden när man blir äldre?

Svar: Det beror på hur gammal man är.

(31)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

U-formade samband

Många samband är formade som ett U eller ett upp och nervänt U.

Det innebär att en ökning i den oberoende variabeln orsakar en positiv effekt i ett intervall och en negativ effekt i ett annat intervall.

Exempel: Ökar sysselsättningsgraden när man blir äldre? Svar: Det beror på hur gammal man är.

- 11 -

(32)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

U-formade samband

Många samband är formade som ett U eller ett upp och nervänt U.

Det innebär att en ökning i den oberoende variabeln orsakar en positiv effekt i ett intervall och en negativ effekt i ett annat intervall.

Exempel: Ökar sysselsättningsgraden när man blir äldre?

Svar: Det beror på hur gammal man är.

(33)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

U-formade samband

Många samband är formade som ett U eller ett upp och nervänt U.

Det innebär att en ökning i den oberoende variabeln orsakar en positiv effekt i ett intervall och en negativ effekt i ett annat intervall.

Exempel: Ökar sysselsättningsgraden när man blir äldre?

Svar: Det beror på hur gammal man är.

- 11 -

(34)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

U-formade samband

10 20 30 40 50 60 70 80 90 100

Procentavbefolkningen

Sysselsättningsgrad i olika åldersgrupper

(35)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

U-formade samband

0 10 20 30 40 50 60 70 80

0 10 20 30 40 50 60 70 80 90 100

Ålder

Procentavbefolkningen

Sysselsättningsgrad i olika åldersgrupper

- 12 -

(36)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

U-formade samband

10 20 30 40 50 60 70 80 90 100

Procentavbefolkningen

Sysselsättningsgrad i olika åldersgrupper

(37)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

U-formade samband

För att tillåta U-formade samband inkluderar vi både x och x

2

i regressionsmodellen.

Illustration: ˆ y = x − 0.1x

2

När x ökar från 0 till 1 ökar 0.1x

2

bara med 0.1. ˆ y ökar därför med 0.9 när x ökar från 0 till 1.

När x ökar från 9 till 10 ökar 0.1x

2

med 1.9 (från 8.1 till 10). ˆ y minskar därför med 0.9 när x ökar från 0 till 1.

- 13 -

(38)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

U-formade samband

För att tillåta U-formade samband inkluderar vi både x och x

2

i regressionsmodellen.

Illustration: ˆ y = x − 0.1x

2

När x ökar från 0 till 1 ökar 0.1x

2

bara med 0.1. ˆ y ökar därför med 0.9 när x ökar från 0 till 1.

När x ökar från 9 till 10 ökar 0.1x

2

med 1.9 (från 8.1 till

10). ˆ y minskar därför med 0.9 när x ökar från 0 till 1.

(39)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

U-formade samband

För att tillåta U-formade samband inkluderar vi både x och x

2

i regressionsmodellen.

Illustration: ˆ y = x − 0.1x

2

När x ökar från 0 till 1 ökar 0.1x

2

bara med 0.1. ˆ y ökar därför med 0.9 när x ökar från 0 till 1.

När x ökar från 9 till 10 ökar 0.1x

2

med 1.9 (från 8.1 till 10). ˆ y minskar därför med 0.9 när x ökar från 0 till 1.

- 13 -

(40)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

U-formade samband

För att tillåta U-formade samband inkluderar vi både x och x

2

i regressionsmodellen.

Illustration: ˆ y = x − 0.1x

2

När x ökar från 0 till 1 ökar 0.1x

2

bara med 0.1. ˆ y ökar därför med 0.9 när x ökar från 0 till 1.

När x ökar från 9 till 10 ökar 0.1x

2

med 1.9 (från 8.1 till

10). ˆ y minskar därför med 0.9 när x ökar från 0 till 1.

(41)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Outliers

Observationer med extrema variabelvärden kallas för outliers.

Sådana observationer kan ha en avgörande effekt på regressionsresultaten.

Anledning till det är att vår metod för att bestämma regressionslinjen – OLS – ger avvikande observationer stor betydelse.

- 14 -

(42)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Outliers

Tre typer av extremvärden (”outlierness”)

Observationer med leverage är observationer som har ovanliga värden på de oberoende variablerna.

Observationer som har ovanliga variabelvärden på den beroende variabeln givet värdena på de oberoende variablerna kallas för vertikala outliers eller regressionsoutliers.

Vertikala outliers som dessutom har högt leverage kommer

att ha stor påverkan på våra regressionsresultat. Den

engelska termen för sådana observationer är influential

(43)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Outliers

- 16 -

(44)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Outliers

(45)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Outliers

- 16 -

(46)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Outliers

(47)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Outliers

- 16 -

(48)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Outliers

(49)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Outliers

- 16 -

(50)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Outliers

(51)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Outliers

Om outliers är mätfel. Ta bort dem och berätta om det.

Om vi inte är säkra på att de är mätfel, och det är tydligt vilka observationer som är outliers, redovisa resultat för regressioner både med och utan outliers. Diskutera hur resultaten skiljer sig åt.

Om det inte är möjligt, använd något annat än OLS (långt bortanför vår kurs).

- 17 -

(52)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Repetition

Icke-linjära samband

Icke-linjära samband innebär att effekten av en förändring i x beror på värdet på x .

Avtagande samband innebär att en förändring i x har stora effekter på den beroende variabeln vid låga värden på x och små effekten vid stora värden på x .

U-formade samband innebär att en variabel har en max-

eller minimipunkt med avseende på en annan variabel. På

varje sida av den punkten har effekten av en förändring i x

olika tecken.

(53)

Introduktion Icke-linjära samband

Avtagande samband U-samband

Outliers Repetition

Repetition

Outliers

Observationer som har extrema värden kallas för outliers.

Sådana observationer kan ha en avgörande betydelse för våra regressionsresultat.

Vi kan exkludera outliers om de orsakats av mätfel eller om vi anser att de är irrelevanta för den population vi intresserar oss för.

Annars är det klokt att redovisa resultat både med och utan outliers.

- 19 -

References

Related documents

Dotazník se snaží zjistit, jaká je mezi obyvateli povědomost, jaké jsou oblíbené památky, muzea a galerie, nebo spokojenost se službami?. Kterou NKP

13 kap 10 § - Beslut om förvärv eller överlåtelse av den omyndiges fasta egendom eller nyttjanderätt till sådan egendom ävensom upplåtande av nyttjanderätt, panträtt m.m..

[r]

Inga buskar, träd eller övriga växter med djupgående rötter växer på infiltration Infiltration har ej belastats och belastas ej av fordon, stora djur (kor, hästar), eller

Inga buskar, träd eller övriga växter med djupgående rötter växer på markbädd Markbädd har ej belastats och belastas ej av fordon, stora djur (kor, hästar),

Vänligen kontakta trafikledningen för bokning. Extra kostnad.. 4) Ej fryst leveranser 5) Ej fryst avgång

Piedlo2en6 prdce se zabivd podstatnfm probl6mem soci6lni patologie - problematikou Si- kany na stiednich Skol5ch. Autorka se zam6iila na zji5tovani rozdilO ve vnim6ni Sikany

Där bostadsbebyggelsen ska stå kommer det att bli en hårddjord yta, men det kommer bli mer växtlighet på den resterande ytan, eftersom planbestämmelsen ändras från torg till