Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Föreläsning 10, del 1:
Icke-linjära samband och outliers
Pär Nyman par.nyman@statsvet.uu.se
19 september 2014
- 1 -
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Introduktion
Sammanfattning av tidigare kursvärderingar:
• Kursen är för svår.
• Kursen är för enkel.
Dagens föreläsning tar upp lite mer avancerade saker. Fastna inte i detaljer ni tycker är svåra.
Den första timmen ska vi prata om två fenomen som kan påverka våra regressionsresultat.
• Icke-linjära samband.
• Outliers.
De sista två timmarna kommer handla om experiment.
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Introduktion
Sammanfattning av tidigare kursvärderingar:
• Kursen är för svår.
• Kursen är för enkel.
Dagens föreläsning tar upp lite mer avancerade saker. Fastna inte i detaljer ni tycker är svåra.
Den första timmen ska vi prata om två fenomen som kan påverka våra regressionsresultat.
• Icke-linjära samband.
• Outliers.
De sista två timmarna kommer handla om experiment.
- 2 -
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Introduktion
Sammanfattning av tidigare kursvärderingar:
• Kursen är för svår.
• Kursen är för enkel.
Dagens föreläsning tar upp lite mer avancerade saker. Fastna inte i detaljer ni tycker är svåra.
Den första timmen ska vi prata om två fenomen som kan påverka våra regressionsresultat.
• Icke-linjära samband.
• Outliers.
De sista två timmarna kommer handla om experiment.
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Introduktion
Sammanfattning av tidigare kursvärderingar:
• Kursen är för svår.
• Kursen är för enkel.
Dagens föreläsning tar upp lite mer avancerade saker.
Fastna inte i detaljer ni tycker är svåra.
Den första timmen ska vi prata om två fenomen som kan påverka våra regressionsresultat.
• Icke-linjära samband.
• Outliers.
De sista två timmarna kommer handla om experiment.
- 2 -
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Introduktion
Sammanfattning av tidigare kursvärderingar:
• Kursen är för svår.
• Kursen är för enkel.
Dagens föreläsning tar upp lite mer avancerade saker.
Fastna inte i detaljer ni tycker är svåra.
Den första timmen ska vi prata om två fenomen som kan påverka våra regressionsresultat.
• Icke-linjära samband.
• Outliers.
De sista två timmarna kommer handla om experiment.
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Introduktion
Sammanfattning av tidigare kursvärderingar:
• Kursen är för svår.
• Kursen är för enkel.
Dagens föreläsning tar upp lite mer avancerade saker.
Fastna inte i detaljer ni tycker är svåra.
Den första timmen ska vi prata om två fenomen som kan påverka våra regressionsresultat.
• Icke-linjära samband.
• Outliers.
De sista två timmarna kommer handla om experiment.
- 2 -
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Introduktion
Sammanfattning av tidigare kursvärderingar:
• Kursen är för svår.
• Kursen är för enkel.
Dagens föreläsning tar upp lite mer avancerade saker.
Fastna inte i detaljer ni tycker är svåra.
Den första timmen ska vi prata om två fenomen som kan påverka våra regressionsresultat.
• Icke-linjära samband.
• Outliers.
De sista två timmarna kommer handla om experiment.
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Introduktion
Sammanfattning av tidigare kursvärderingar:
• Kursen är för svår.
• Kursen är för enkel.
Dagens föreläsning tar upp lite mer avancerade saker.
Fastna inte i detaljer ni tycker är svåra.
Den första timmen ska vi prata om två fenomen som kan påverka våra regressionsresultat.
• Icke-linjära samband.
• Outliers.
De sista två timmarna kommer handla om experiment.
- 2 -
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Introduktion
Sammanfattning av tidigare kursvärderingar:
• Kursen är för svår.
• Kursen är för enkel.
Dagens föreläsning tar upp lite mer avancerade saker.
Fastna inte i detaljer ni tycker är svåra.
Den första timmen ska vi prata om två fenomen som kan påverka våra regressionsresultat.
• Icke-linjära samband.
• Outliers.
De sista två timmarna kommer handla om experiment.
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Introduktion
I anteckningarna till dagens föreläsning tar jag även upp två saker som inte examineras:
Multikollinearitet uppstår när de oberoende variablerna är korrelerade med varandra. Gör det svårare att separera effekter från varandra och kan därför medföra att inget samband är signifikant.
Interaktionseffekter innebär att effekten av en variabel är beroende av värdet på en annan variabel. Exempel: Små undervisningsgrupper i skolan förbättrar skolresultaten mer för personer med utländsk eller arbetarbakgrund än för personer med inrikes födda och högutbildade föräldrar.
- 3 -
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Introduktion
I anteckningarna till dagens föreläsning tar jag även upp två saker som inte examineras:
Multikollinearitet uppstår när de oberoende variablerna är korrelerade med varandra. Gör det svårare att separera effekter från varandra och kan därför medföra att inget samband är signifikant.
Interaktionseffekter innebär att effekten av en variabel är
beroende av värdet på en annan variabel. Exempel: Små
undervisningsgrupper i skolan förbättrar skolresultaten mer
för personer med utländsk eller arbetarbakgrund än för
personer med inrikes födda och högutbildade föräldrar.
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Icke-linjära samband
Hittills har vi antagit att alla samband är linjära, så att en ökning i x alltid ger samma ökning i ˆ y .
Men alla känner vi till samband där det antagandet inte stämmer.
En person utvecklas mer mellan 2 och 4 år än mellan 30 och 32.
En ökning av inkomsten med 1 000 kr betyder i de flesta avseenden mer för en student än för en höginkomsttagare.
- 4 -
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Icke-linjära samband
Hittills har vi antagit att alla samband är linjära, så att en ökning i x alltid ger samma ökning i ˆ y .
Men alla känner vi till samband där det antagandet inte stämmer.
En person utvecklas mer mellan 2 och 4 år än mellan 30 och 32.
En ökning av inkomsten med 1 000 kr betyder i de flesta
avseenden mer för en student än för en höginkomsttagare.
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Icke-linjära samband
Hittills har vi antagit att alla samband är linjära, så att en ökning i x alltid ger samma ökning i ˆ y .
Men alla känner vi till samband där det antagandet inte stämmer.
En person utvecklas mer mellan 2 och 4 år än mellan 30 och 32.
En ökning av inkomsten med 1 000 kr betyder i de flesta avseenden mer för en student än för en höginkomsttagare.
- 4 -
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Icke-linjära samband
Hittills har vi antagit att alla samband är linjära, så att en ökning i x alltid ger samma ökning i ˆ y .
Men alla känner vi till samband där det antagandet inte stämmer.
En person utvecklas mer mellan 2 och 4 år än mellan 30 och 32.
En ökning av inkomsten med 1 000 kr betyder i de flesta
avseenden mer för en student än för en höginkomsttagare.
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Avtagande samband
Ett avtagande samband innebär att en förändring i den oberoende variabeln x orsakar större förändringar i den beroende variabeln vid låga värden på x än vid höga värden på x .
Exempel: BNP per capita och förväntad livslängd.
- 5 -
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Avtagande samband
Ett avtagande samband innebär att en förändring i den oberoende variabeln x orsakar större förändringar i den beroende variabeln vid låga värden på x än vid höga värden på x .
Exempel: BNP per capita och förväntad livslängd.
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Avtagande samband
4050607080Förväntad livslängd vid födseln (år)
0 20000 40000 60000
BNP per capita (USD)
Figure : Sambandet mellan BNP per capita och förväntad livslängd
- 6 -
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Avtagande samband
Logaritmering: bra att kunna
Avtagande samband hanteras ofta genom att man ersätter värdena på den beroende variabeln (x ) med logaritmen av dessa värden (logx ).
När vi logaritmerar den oberoende variabeln analyserar vi effekten av relativa förändringar (”om x ökar med 100 procent”) i stället för absoluta förändringar (”om x ökar med 10”).
Valet att logaritmera kan motiveras både empiriskt
(”passningen blir bättre”) och teoretiskt (”det är rimligt
att en fördubbling av BNP orsakar en lika stor förändring
i förväntad livslängd oavsett BNP-nivå”).
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Avtagande samband
- 7 -
Logaritmering: bra att kunna
Avtagande samband hanteras ofta genom att man ersätter värdena på den beroende variabeln (x ) med logaritmen av dessa värden (logx ).
När vi logaritmerar den oberoende variabeln analyserar vi effekten av relativa förändringar (”om x ökar med 100 procent”) i stället för absoluta förändringar (”om x ökar med 10”).
Valet att logaritmera kan motiveras både empiriskt
(”passningen blir bättre”) och teoretiskt (”det är rimligt
att en fördubbling av BNP orsakar en lika stor förändring
i förväntad livslängd oavsett BNP-nivå”).
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Avtagande samband
Logaritmering: bra att kunna
Avtagande samband hanteras ofta genom att man ersätter värdena på den beroende variabeln (x ) med logaritmen av dessa värden (logx ).
När vi logaritmerar den oberoende variabeln analyserar vi effekten av relativa förändringar (”om x ökar med 100 procent”) i stället för absoluta förändringar (”om x ökar med 10”).
Valet att logaritmera kan motiveras både empiriskt
(”passningen blir bättre”) och teoretiskt (”det är rimligt
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Avtagande samband
- 8 -
Logaritmering: frivilligt att lära sig
x log
2x log
10x
1 0.00 0.00
2 1.00 0.30
3 1.58 0.48
4 2.00 0.60
5 2.32 0.70
6 2.58 0.78
7 2.81 0.85
8 3.00 0.90
9 3.17 0.95
10 3.32 1.00
En logaritm med basen k är samma sak som att fråga ”med vilken exponent måste k upphöjas för att anta värdet x ”.
När x fördubblas så ökar log
2x med 1.
När x tiodubblas så ökar log
10x med 1.
Vilken bas vi använder påverkar inte
formen på sambandet mellan x och
dess logaritm. Vår regressionslinje
kommer därför se likadan ut oavsett
bas.
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Avtagande samband
Logaritmering: frivilligt att lära sig
x log
2x log
10x
1 0.000.00
2 1.000.30
3 1.58 0.48
4 2.00
0.60
5 2.32 0.70
6 2.58 0.78
7 2.81 0.85
8 3.00
0.90
En logaritm med basen k är samma sak som att fråga ”med vilken exponent måste k upphöjas för att anta värdet x ”.
När x fördubblas så ökar log
2x med 1.
När x tiodubblas så ökar log
10x med 1.
Vilken bas vi använder påverkar inte
formen på sambandet mellan x och
dess logaritm. Vår regressionslinje
kommer därför se likadan ut oavsett
bas.
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Avtagande samband
- 8 -
Logaritmering: frivilligt att lära sig
x log
2x log
10x
10.00
0.002 1.00 0.30
3 1.58 0.48
4 2.00 0.60
5 2.32 0.70
6 2.58 0.78
7 2.81 0.85
8 3.00 0.90
9 3.17 0.95
10
3.32
1.00En logaritm med basen k är samma sak som att fråga ”med vilken exponent måste k upphöjas för att anta värdet x ”.
När x fördubblas så ökar log
2x med 1.
När x tiodubblas så ökar log
10x med 1.
Vilken bas vi använder påverkar inte
formen på sambandet mellan x och
dess logaritm. Vår regressionslinje
kommer därför se likadan ut oavsett
bas.
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Avtagande samband
Logaritmering: frivilligt att lära sig
x log
2x log
10x
1 0.00 0.00
2 1.00 0.30
3 1.58 0.48
4 2.00 0.60
5 2.32 0.70
6 2.58 0.78
7 2.81 0.85
8 3.00 0.90
En logaritm med basen k är samma sak som att fråga ”med vilken exponent måste k upphöjas för att anta värdet x ”.
När x fördubblas så ökar log
2x med 1.
När x tiodubblas så ökar log
10x med 1.
Vilken bas vi använder påverkar inte
formen på sambandet mellan x och
dess logaritm. Vår regressionslinje
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Variabeltransformationer
- 9 -
Logaritmering: frivilligt att lära sig
Värde på x
Logaritmenavx
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Avtagande samband
4050607080Förväntad livslängd vid födseln (år)
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Avtagande samband
4050607080Förväntad livslängd vid födseln (år)
6 7 8 9 10 11
Logaritmerad BNP per capita
Figure : Sambandet mellan BNP och förväntad livslängd
- 10 -
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
U-formade samband
Många samband är formade som ett U eller ett upp och nervänt U.
Det innebär att en ökning i den oberoende variabeln orsakar en positiv effekt i ett intervall och en negativ effekt i ett annat intervall.
Exempel: Ökar sysselsättningsgraden när man blir äldre?
Svar: Det beror på hur gammal man är.
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
U-formade samband
Många samband är formade som ett U eller ett upp och nervänt U.
Det innebär att en ökning i den oberoende variabeln orsakar en positiv effekt i ett intervall och en negativ effekt i ett annat intervall.
Exempel: Ökar sysselsättningsgraden när man blir äldre? Svar: Det beror på hur gammal man är.
- 11 -
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
U-formade samband
Många samband är formade som ett U eller ett upp och nervänt U.
Det innebär att en ökning i den oberoende variabeln orsakar en positiv effekt i ett intervall och en negativ effekt i ett annat intervall.
Exempel: Ökar sysselsättningsgraden när man blir äldre?
Svar: Det beror på hur gammal man är.
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
U-formade samband
Många samband är formade som ett U eller ett upp och nervänt U.
Det innebär att en ökning i den oberoende variabeln orsakar en positiv effekt i ett intervall och en negativ effekt i ett annat intervall.
Exempel: Ökar sysselsättningsgraden när man blir äldre?
Svar: Det beror på hur gammal man är.
- 11 -
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
U-formade samband
10 20 30 40 50 60 70 80 90 100
Procentavbefolkningen
Sysselsättningsgrad i olika åldersgrupper
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
U-formade samband
0 10 20 30 40 50 60 70 80
0 10 20 30 40 50 60 70 80 90 100
Ålder
Procentavbefolkningen
Sysselsättningsgrad i olika åldersgrupper
- 12 -
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
U-formade samband
10 20 30 40 50 60 70 80 90 100
Procentavbefolkningen
Sysselsättningsgrad i olika åldersgrupper
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
U-formade samband
För att tillåta U-formade samband inkluderar vi både x och x
2i regressionsmodellen.
Illustration: ˆ y = x − 0.1x
2När x ökar från 0 till 1 ökar 0.1x
2bara med 0.1. ˆ y ökar därför med 0.9 när x ökar från 0 till 1.
När x ökar från 9 till 10 ökar 0.1x
2med 1.9 (från 8.1 till 10). ˆ y minskar därför med 0.9 när x ökar från 0 till 1.
- 13 -
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
U-formade samband
För att tillåta U-formade samband inkluderar vi både x och x
2i regressionsmodellen.
Illustration: ˆ y = x − 0.1x
2När x ökar från 0 till 1 ökar 0.1x
2bara med 0.1. ˆ y ökar därför med 0.9 när x ökar från 0 till 1.
När x ökar från 9 till 10 ökar 0.1x
2med 1.9 (från 8.1 till
10). ˆ y minskar därför med 0.9 när x ökar från 0 till 1.
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
U-formade samband
För att tillåta U-formade samband inkluderar vi både x och x
2i regressionsmodellen.
Illustration: ˆ y = x − 0.1x
2När x ökar från 0 till 1 ökar 0.1x
2bara med 0.1. ˆ y ökar därför med 0.9 när x ökar från 0 till 1.
När x ökar från 9 till 10 ökar 0.1x
2med 1.9 (från 8.1 till 10). ˆ y minskar därför med 0.9 när x ökar från 0 till 1.
- 13 -
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
U-formade samband
För att tillåta U-formade samband inkluderar vi både x och x
2i regressionsmodellen.
Illustration: ˆ y = x − 0.1x
2När x ökar från 0 till 1 ökar 0.1x
2bara med 0.1. ˆ y ökar därför med 0.9 när x ökar från 0 till 1.
När x ökar från 9 till 10 ökar 0.1x
2med 1.9 (från 8.1 till
10). ˆ y minskar därför med 0.9 när x ökar från 0 till 1.
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Outliers
Observationer med extrema variabelvärden kallas för outliers.
Sådana observationer kan ha en avgörande effekt på regressionsresultaten.
Anledning till det är att vår metod för att bestämma regressionslinjen – OLS – ger avvikande observationer stor betydelse.
- 14 -
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Outliers
Tre typer av extremvärden (”outlierness”)
Observationer med leverage är observationer som har ovanliga värden på de oberoende variablerna.
Observationer som har ovanliga variabelvärden på den beroende variabeln givet värdena på de oberoende variablerna kallas för vertikala outliers eller regressionsoutliers.
Vertikala outliers som dessutom har högt leverage kommer
att ha stor påverkan på våra regressionsresultat. Den
engelska termen för sådana observationer är influential
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Outliers
- 16 -
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Outliers
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Outliers
- 16 -
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Outliers
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Outliers
- 16 -
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Outliers
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Outliers
- 16 -
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Outliers
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Outliers
Om outliers är mätfel. Ta bort dem och berätta om det.
Om vi inte är säkra på att de är mätfel, och det är tydligt vilka observationer som är outliers, redovisa resultat för regressioner både med och utan outliers. Diskutera hur resultaten skiljer sig åt.
Om det inte är möjligt, använd något annat än OLS (långt bortanför vår kurs).
- 17 -
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Repetition
Icke-linjära samband
Icke-linjära samband innebär att effekten av en förändring i x beror på värdet på x .
Avtagande samband innebär att en förändring i x har stora effekter på den beroende variabeln vid låga värden på x och små effekten vid stora värden på x .
U-formade samband innebär att en variabel har en max-
eller minimipunkt med avseende på en annan variabel. På
varje sida av den punkten har effekten av en förändring i x
olika tecken.
Introduktion Icke-linjära samband
Avtagande samband U-samband
Outliers Repetition
Repetition
Outliers
Observationer som har extrema värden kallas för outliers.
Sådana observationer kan ha en avgörande betydelse för våra regressionsresultat.
Vi kan exkludera outliers om de orsakats av mätfel eller om vi anser att de är irrelevanta för den population vi intresserar oss för.
Annars är det klokt att redovisa resultat både med och utan outliers.
- 19 -