• No results found

2.2 FÖRDELNINGEN FÖR EN VARIABEL

N/A
N/A
Protected

Academic year: 2021

Share "2.2 FÖRDELNINGEN FÖR EN VARIABEL"

Copied!
416
0
0

Loading.... (view fulltext now)

Full text

(1)
(2)

INNEHÅLL

1. Vad är statistik?

DEL I: ATT BESKRIVA DATA

2. Att beskriva en variabels fördelning

3. Sambandet mellan två variabler: Korrelationer 4. Sambandet mellan två variabler: Regressionslinjen 5. Statistiska samband kontra orsakssamband

6. Multipel regression 7. Att beskriva tidsseriedata

DEL II: STATISTISK INFERENS – SLUMPMÄSSIGA SAMPEL 8. Statistisk inferens – the big picture

9. Att beskriva populationen

10. Sampling och samplingfördelningar

11. Test gällande medelvärden och koefficienter 12. Test gällande en grupp koefficienter – ANOVA 13. Test av samband i korstabeller

14. Icke-parametriska tester

DEL III: FLER VERKTYG INOM REGRESSIONSANALYS 15. Interaktioner & icke-linjära effekter

16. Valet av modell

17. Heteroskedasticitet & viktning

18. Linjära sannolikhetsmodeller och logistisk regression 19. Naturliga experiment och instrument

DEL IV: STATISTISK INFERENS – KOMPLEX SAMPLING 20. Stora sampel från ändliga populationer

21. Stratifierade sampel och viktning 22. Klustrade sampel och paneldata

(3)

Kapitel 1: VAD ÄR STATISTIK?

För en tid sedan lyssnade jag på en debatt om lågkolhydratkost.

En av debattörerna berättade att hon fått gallsten efter att hon påbörjat dieten. Hur ska man väga ett sådant argument? De flesta tycker kanske inte att argumentet är särskilt tungt; debattören hade kanske fått gallsten oavsett, eller så fick hon gallsten på grund av dieten medan många andra tvärtom undviker gallsten på lågkolhydratkost – detta är omöjligt att avgöra utifrån en persons erfarenheter. Vi kallar den här typen av argument för anekdotiska – en person berättar om sina personliga upplevelser.

Statistiska belägg är motpolen till anekdotiska belägg. Istället för att berätta om en persons erfarenheter så samlar vi in ett datamaterial som täcker flera personer. Detta skulle exempelvis vara fallet om vi låter 200 försökspersoner byta till lågkolhydratkost medan 200 andra får äta enligt tallriksmodellen. Sen jämför vi förekomsten av gallstensbesvär i grupperna.

När man utför en sådan undersökning börjar man ofta med att beskriva data, t.ex. ”10 procent av personerna i lågkolhydratgruppen fick gallstensbesvär medan denna siffra var 7 procent i kontrollgruppen [de som fick äta enligt tallriksmodellen]”. Att sammanfatta data på det här sättet kallas för beskrivande statistik. Här är tre andra exempel på beskrivande statistik:

”60 procent av de utfrågade anser att homosexuella par ska få adoptera.”

”Företagets marknadsandel har ökat med 100 procent på ett decennium.”

”Personerna som besvarade enkäten var 40 år i genomsnitt.”

Beskrivande statistik handlar med andra ord om att sammanfatta ett datamaterial. Vi kan göra detta genom summerande mått, såsom medelvärden och procentsatser, eller genom att använda figurer, såsom pajdiagram och histogram.

(4)

Förutom att beskriva data vill vi också dra generalla slutsatser med hjälp av data. Vi vill, med andra ord, inte enbart lära oss om eventuella gallstensbesvär bland försökspersonerna som råkade ingå i studien, utan vi vill kunna säga något generellt om hur lågkolhydratkost påverkar gallstensbesvär hos människor överlag. När vi använder ett datamaterial för att dra generalla slutsatser kallar vi detta för statistisk inferens.

Vilka slutsatser kan man då dra utifrån datamaterialet om lågkolhydratkost? Kan vi säga att risken för att få gallstensbesvär är 3 procentenheter högre om man äter lågkolhydratkost än om man äter enligt tallriksmodellen? Nej, det vi vet är att skillnaden är 3 procentenheter i studien, men vi vet inte hur stor den verkliga skillnaden är; skulle vi upprepa studien med nya försökspersoner så skulle vi få ett annat resultat; antagligen ett resultat som pekar i samma riktning, men knappast exakt samma siffror. Det finns med andra ord en viss osäkerhet kring den verkliga skillnaden. En viktig del av den statistiska inferensen är att sätta siffror på den osäkerheten, exempelvis genom att använda statistiska felmarginaler. (”Skillnaden mellan grupperna är 3 ± 2 procentenheter.”)

Beskrivande statistik och statistisk inferens bildar tillsammans de två stora bitarna i pusslet ”statistiska metoder”. Det är också dessa två bitar som den här boken handlar om. Fortsättningen av boken är uppbyggd enligt följande. Vi börjar med att lära oss hur man beskriver data. Det är bokens första del. I bokens andra del diskuterar vi sannolikheter och fördelningar – kunskap vi kommer att dra nytta av när vi lär oss statistisk inferens.

Statistisk inferens är temat för bokens tredje och fjärde delar, där den tredje delen behandlar slumpmässigt dragna sampel och den fjärde klustrade och stratifierade sampel. Den sista delen tar upp några blandade teman, som trots sin lite slitna plats på slutet kan vara nog så nyttiga.

Då sätter vi igång!

(5)

Kapitel 2: ATT BESKRIVA EN VARIABEL

Här visas ett utdrag av data som beskriver livslängden i världens länder:

61, 77, 71, 51, 76, 76, 74, 82, 81, 71, 75, 76, 70, 75, 70, 80, 74, 59, 68, 67, 76, 47, 74, 78, 73, 56, 54, 72, 55, 81, 75, 50, 51, 80, 75, 74, 61, 50, 58, 80, 50, 77, 79, 80, 78, 79, 61, 73, 76, 71, 72, 53, 62, 74, 63, 70, 80, 82, 63, 59, 74, 81, 61, 81, 71, 73, 72, 56, 54, 66, 63, 74, 83, 74, 83, 74, 82, 66, 71, ...

Den här uppräkningen av siffror är förstås svår att överblicka.

För att kunna använda informationen så måste vi börja med att sammanställa den på ett överskådligt sätt. I det här kapitlet lär vi oss hur.

En möjlighet är att rita upp en tabell eller figur som illustrerar materialet. Den populäraste figuren är histogram och vi tittar närmare på dem i avsnitt 2.2.

En annan möjlighet är att sammanfatta data genom summerande mått. Det populäraste måttet är medelvärdet och vi tittar närmare på medelvärdet och andra mått i avsnitt 2.4 och 2.5.

Men innan vi går in på dessa frågor ska vi se på hur man ställer upp ett datamaterial i en datamatris.

(6)

2.1 DATAMATRISEN

För att samla in data så kan man exempelvis använda sig av enkäter:

1. Kön: Kvinna: Man:

2. Ålder: ________

3. Min hälsa är:

Mycket svag: Relativt svag: God:

Utmärkt:

4. Hur många hästar ser du på bilden? __________

Anta att sex personer besvarar den här enkäten. Vi kallar det här datamaterialet för ett sampel. För att kunna jobba med samplet börjar vi med att sammanställa det i en datamatris:

id Kön Ålder Hälsa Hästar

1 Man 32 God 5

2 Kvinna 48 Utmärkt 4

3 Kvinna 20 God 5

4 Kvinna 66 Ganska svag 3

5 Man 45 Mycket svag 2

6 Man 35 Utmärkt 2

(7)

I det här samplet är observationsenheten en person, dvs. vi har samlat in data gällande personer. I andra studier kanske man istället samlar in data gällande hushåll, kommuner, företag eller länder. I det sista fallet så är observationsenheten ett land.

Varje rad i datamatrisen är en observation. Här har vi sex rader, dvs. sex observationer. ”Antalet observationer” säger med andra ord hur många personer som besvarat enkäten.

Varje kolumn i matrisen är en variabel. Variabler är egenskaper som vi mäter hos personerna. Kön, Ålder, Hälsa och Hästar är variabler.

Som du ser så kan vi beskriva variabler med ord eller siffror.

Variabler som naturligt mäts på en numerisk skala kallas för kvantitativa variabler. Ålder och Hästar är kvantitativa variabler. Andra exempel på kvantitativa variabler är längd, vikt, priser, löner, temperatur, antalet poäng på ett prov eller inflationstakten.

Variabler som beskrivs med kategorier kallas för kvalitativa variabler. Kön och Hälsa är kvalitativa variabler. Andra exempel på kvalitativa variabler är yrke, religion, bostadskommun, ögonfärg eller trivsel på jobbet (dålig, okej, bra). I matrisen ovan har vi använt ord för att beskriva kategorierna, men vi kan också ge värden till de olika kategorierna. Exempelvis kunde vi ersätta

”man” med värdet 0 och ”kvinna” med värdet 1. Kön skulle ändå vara en kvalitativ variabel eftersom de valda värdena inte har någon numerisk betydelse.

Med generella beteckningar beskriver vi en datamatris så här:

id X Y Z

1 x1 y1 z1

2 x2 y2 z2

3 x3 y3 z3

4 x4 y4 z4

... ... ... ...

n xn yn zn

X, Y och Z betecknar variabler.

Den första observationen på variabeln X betecknas x1, den andra observationen betecknas x2, ..., den sista observationen betecknas xn. n betecknar med andra ord antalet observationer.

Vi kan också beteckna en observation på X med xi, men här har vi valt att inte specifikt ange dess ordning. xi är helt enkelt den ”i:te observationen”, där i kan vara 1, 2, 3, ..., eller n.

(8)

☛ Övningsuppgifter: Se här.

(9)

2.2 FÖRDELNINGEN FÖR EN VARIABEL

När vi matat in data i en datamatris så är de dags att se vad vi kan lära oss av materialet: Hur ser variablernas fördelningar ut? När vi beskriver en variabels fördelning så betyder det att vi visar hur den variabeln fördelar sig över olika värden på talaxeln, eller hur variabeln fördelar sig över olika kategorier. För att se detta kan vi använda frekvenstabeller och frekvensdiagram.

Frekvenstabeller och frekvensdiagram

Nedan visas två frekvenstabeller som bygger på data från föregående avsnitt:

Kön Frekvens Kvinna 3

Man 3

Den här frekvenstabellen visar att tre kvinnor och tre män besvarade enkäten. Frekvens är alltså ett annat ord för antal.

Hästar Frekvens

2 2

3 1

4 1

5 2

Den här frekvenstabellen visar att 2 personer såg två hästar; 1 person såg tre hästar; 1 person såg fyra hästar och 2 personer såg fem hästar.

Nedan visas en frekvenstabell där vi också inkluderat en kumulativ frekvens och en relativ frekvens:

Hästar Frekvens Kumulativ

Frekvens Relativ frekvens

2 2 2 1/3

3 1 3 1/6

4 1 4 1/6

5 2 6 1/3

En person såg tre hästar; den kumulativa frekvensen visar att tre personer såg tre hästar eller färre. På samma sätt visar den kumulativa frekvensen att sex personer såg fem hästar eller färre.

(10)

Relativ frekvens är ett annat ord för andel. Här ser vi exempelvis att en tredjedel av personerna såg två hästar, och att en sjättedel såg fyra hästar.

Samma information som vi beskriver med frekvenstabeller kan vi också beskriva grafiskt med frekvensdiagram:

Ett frekvensdiagram är en figur som illustrerar en variabels fördelning. Vanligtvis sätter vi variabelns värden eller kategorier på x-axeln; y-axeln visar frekvensen eller den relativa frekvensen.

(I figuren till vänster är y-axeln ”osynlig” men skulle vi rita ut den så skulle den visa frekvensen.) Frekvensdiagram som görs upp för kvalitativa data kallas också för stapeldiagram; figuren uppe till vänster är ett stapeldiagram.

Finns det något man ska tänka på när man gör upp ett frekvensdiagram? Jo, här är en sak. x-axeln kan börja där det passar data bäst (här tänker vi oss att x-axeln visar variabelns värden). I frekvenstabellen uppe till höger så börjar x-axeln vid 1.

Men y-axeln bör börja vid 0. Annars får man en förvrängd bild av datamaterialet, vilket figurerna nedan visar. I figuren till höger börjar y-axeln vid 6. Detta ger intrycket av att talet 2 är starkt överrepresenterat, fastän detta egentligen inte är fallet.

3 3

män kvinnor

Antal män och kvinnor

0 1 2

2 3 4 5

Frekvens

Hur många hästar såg du på bilden?

(11)

Histogram

Nedan visas livslängden i några av världens länder:

60,524 77,185 70,874 51,498 75,783 ... 58,142

Totalt täcker samplet cirka 200 länder och om vi ritar upp datamaterialet i ett frekvensdiagram så får vi följande figur:

Det är svårt att få en bra bild av fördelningen utifrån den här figuren. Som vi nu ska se så kan man göra bilden klarare genom att först dela in data i grupper. Ett frekvensdiagram baserat på gruppindelat data kallas för ett histogram.

I figuren nedan har vi valt att dela in länderna i tretton grupper så att den första gruppen är länder med en livslängd på 45 till 48 år; den andra gruppen är länder med en livslängd på 48 till 51 år;

...; den sista gruppen är länder med en livslängd på 81 till 84 år.

0 2 4 6 8 10 12

1 2 3

frekvens

x Tydligt frekvensdiagram

6 7 8 9 10 11

1 2 3

frekvens

x Missvisande frekvensdiagram

(12)

Livslängd Frekvens 45,001-48 2 48,001-51 7 51,001-54 5 54,001-57 9 57,001-60 7

... ...

81,001-84 14

Att beskriva fördelningar – normalfördelningen och lognormalfördelningen

Vissa histogram dyker upp i så pass många olika sammanhang att man gett dem speciella namn. Vi ska nu se på två sådana fördelningar – normalfördelningen och lognormalfördelningen.

Normalfördelningen: Se histogrammet nedan. Vi säger att den här variabeln är normalfördelad. Vi känner igen en normalfördelning på att den är symmetrisk, dvs. den vänstra halvan är en spegelbild av den högra. Vi hittar de flesta observationerna kring mitten; när vi rör oss mot allt större värden så blir de snart allt ovanligare och detsamma gäller när vi rör oss mot allt mindre värden.

Normalfördelningen är den viktigaste fördelningen inom statistiken. En orsak är att många variabler följer en normalfördelning, åtminstone ungefärligt. Här är några exempel:

(13)

Längden för en kvinna, barnets födelsevikt, blodtrycket hos en ung person och vilopulsen hos en frisk vuxen. Många tester konstrueras så att testpoängen ska följa en normalfördelning, exempelvis intelligenstester.

Lognormalfördelningen: I histogrammen nedan visas två exempel på lognormalfördelningar. Lognormalfördelningen ser ofta ut som en normalfördelning bara att den har en längre svans till höger än till vänster. Histogrammet nere till vänster är ett exempel på det. Histogrammet till höger visar också en lognormalfördelning, men den här är ännu snedare och liknar därför inte längre en normalfördelning. Gemensamt för alla lognormalfördelningar är att variabeln bara antar positiva värden.

Lognormalfördelningen är vanlig inom alla vetenskaper.

Variabler som mäts i ”pengar” (såsom priser, löner och intäkter) följer ofta lognormalfördelningar. Variabler som mäts i stora mängder följer också ofta lognormalfördelningar, t.ex.

befolkningsstorleken i olika städer, antalet elever i olika skolor, antalet biobesökare en fredag eller försäljningskvantitet.

Här är en viktig egenskap hos lognormalfördelningen: Då vi tar logaritmen av värdena så får vi en normalfördelning:

För att se varför så ska vi fundera lite på vad logaritmering gör.

Och som vi kommer att se i kommande kapitel så har vi ofta nytta

(14)

av att logaritmera data. Därför är det bra att redan nu veta vad det betyder. Vi gör detta bäst genom ett exempel:

Låt oss säga att Adam fått en löneökning från 2000 till 2200 euro, och att Eva fått en löneökning från 4000 till 4400 euro. Uttryckt i euro har Evas lön ökat mer än Adams, men på en logaritmisk skala så har Adams och Evas löner ökat exakt lika mycket. Den logaritmiska skalan bryr sig med andra ord om procentuella skillnader och inte absoluta: När ett värde ökar med en viss procent på den vanliga skalan, så är ökningen en viss konstant på den logaritmiska skalan. Du kan testa detta med din miniräknare genom att slå in log(2200) – log(2000); du kommer att se att skillnaden blir lika stor som log(4400) – log(4000). Det här gäller oavsett om du använder en logaritm med basen 10 eller, exempelvis, den naturliga logaritmen.

Figuren nedan visar hur vi kan visualisera den logaritmiska skalan. På en logaritmisk skala är avståndet mellan 1 och 10 lika stort som det mellan 10 och 100: log(100)-log(10) = log(10)- log(1). På motsvarande sätt är, exempelvis, avståndet mellan 1 och 2 lika stort som det mellan 2 och 4; avståndet mellan 1 och 5 är lika stort som det mellan 5 och 25.

Vi kan nu se varför en fördelning med en längre svans till höger blir symmetrisk genom logaritmering. Nedan visas en sned fördelning:

När vi logaritmerar värdena så pressar vi ihop skalan så att stora värden straffas extra hårt: Avståndet mellan 1 och 2 blir lika stort

(15)

som det mellan 2 och 4; avståndet mellan 2 och 4 blir lika stort som det mellan 4 och 8:

Men varför skulle man någonsin vilja logaritmera data istället för att beskriva det i originalform? Vi kommer bättre att se varför i kommande kapitel. I det här skedet ska vi bara introducera det som är en viktig del av förklaringen:

Den logaritmiska skalan stämmer ofta bättre överens med hur vi de facto ser på olika värden. Om priset på en bil stiger med 10 euro så skulle detta knappast spela någon roll för en bilköpare, men om priset på en schampoflaska stiger med 10 euro så skulle detta antagligen vara avgörande. Om Kalle får 50 000 euro mer i arvet efter sin mor än hans syster Anna, så skulle Anna knappast göra någon affär av detta om hon själv fick 5 miljoner euro, men däremot nog om hon bara fick 5000. De här exemplen visar att relativa skillnader ofta är viktigare än absoluta, och detta är exakt vad den logaritmiska skalan reflekterar.

Det finns flera logaritmer, t.ex. en logaritm med basen 10 eller den naturliga logaritmen. Inom statistiken är det vanligt att man använder den naturliga logaritmen som betecknas ln(...). Så varför är den här logaritmen så populär? Jo, för data får en naturlig förklaring när vi använder denna:

Anta att en aktie kostar 100 euro ena dagen och 101 euro andra dagen; det är en enprocentig ökning i priset. När vi tar den naturliga logaritmen av dessa priser och beräknar skillnaden så får vi värdet 0,01:

ln(101)-ln(100) ≈ 0,01

(16)

Eller anta att en mäklare värderar ett hus till 100 000 euro men att huset säljs till 95 000 euro; det är en femprocentig minskning.

Loggar vi priserna och tar skillnaden så får vi värdet -0,05:

ln(95000)-ln(100000) ≈ -0,05

Lärdomen: När vi använder den naturliga logartimen så representerar skillnaden mellan två loggade värden den procentuella skillnaden mellan värdena. Den här regeln fungerar bra då den procentuella skillnaden är liten (mindre än ~10 procent), men blir mindre träffsäker för stora skillnader. Anta att aktien istället hade ökat i värde med 20 procent från 100 euro till 120. Den loggade skillnaden blir då ln(120)-ln(100) ≈ 0,18 och inte 0,20.

I kapitlets Appendix (A.1: Logaritmer) kan du läsa mer om logaritmer.

Att beskriva fördelningar - summerande mått

I förra avsnittet lärde vi oss att vi ibland kan beskriva en fördelning genom att ange vilken fördelningsfamilj den tillhör, såsom normalfördelningen eller lognormalfördelningen. Låt oss säga att vi mätt intelligenskvoten för 200 brottslingar. Om vi säger att brottslingarnas intelligenskvot är normalfördelad så ger detta andra en snabb bild av hur fördelningen ser ut. Däremot berättar detta inget om huruvida brottslingarna är dumma eller smarta, eller om det kanske finns stora skillnader i intelligens mellan en brottsling och en annan. Det är här läges- och spridningsmåtten kommer in. Lägesmåtten beskriver på lite olika sätt var på tallinjen vi hittar observationerna (”Är brottslingarna dumma eller smarta?”). Spridningsmåtten beskriver hur utspridda observationerna är över tallinjen (”Finns det stora skillnader i intelligens mellan en brottsling och en annan?”)

I kommande avsnitt ska vi se på några vanliga läges- och spridningsmått. När vi beskriver dem så använder vi ofta något som kallas för ett summatecken. Första steget är därför att lära oss vad det betyder.

☛ Övningsuppgifter: Se här.

(17)

2.3 SUMMATECKNET, Σ

Vi använder summatecknet, Σ, för att beskriva en summa på ett kortfattat sätt. Anta att vi har gjort tre mätningar på en variabel X. Vi betecknar dem med x1, x2 och x3. Summan av observationerna kan vi beskriva som:

∑ 𝒙𝒊

𝟑 𝒊=𝟏

= 𝑥1+ 𝑥2+ 𝑥3

Här är ett konkret exempel: Anta att observationerna har värdena 1, 0 och 2. Summan blir då 3:

∑ 𝒙𝒊

𝟑 𝒊=𝟏

= 1 + 0 + 2 = 3

Under summatecknet står det i = 1; ovanför summatecknet står det 3. Det här betyder att vi summerar från den första observationen till den tredje. Om samplet består av n stycken observationer så beskriver vi summan som:

∑ 𝒙𝒊

𝒏 𝒊=𝟏

= 𝑥1+ 𝑥2+ ⋯ + 𝑥𝑛

Ofta är det en självklarhet att vi summerar från den första observationen (1) till den sista (n). För enkelhetens skull kan vi därför lämna bort i = 1 och n och bara skriva:

∑ 𝒙𝒊= 𝑥1+ 𝑥2+ ⋯ + 𝑥𝑛

Det är inte alltid som vi vill summera över observationerna i samplet; ibland vill vi summera över någon funktion av dessa observationer. Här är ett exempel där vi summerar över de kvadrerade värdena på x:

∑ 𝒙𝒊𝟐= 𝑥12+ 𝑥22+ ⋯ + 𝑥𝑛2 För samplet (1, 0, 2) blir denna summa 5:

∑ 𝒙𝒊𝟐= 12+ 02+ 22= 5 Vi kan jämföra detta med:

(18)

(∑ 𝒙𝒊)𝟐= (𝑥1+ 𝑥2+ 𝑥3)2= (1 + 0 + 2)2= 9

Summan nedan beskriver att vi summerar över en skillnad – skillnaden mellan en observation och värdet 1:

∑(𝑥𝑖− 1) = (𝑥1− 1) + (𝑥2− 1) + ⋯ + (𝑥𝑛− 1) För samplet (1, 0, 2) så blir denna summa 0:

∑(𝑥𝑖− 1) = (𝑥⏟ 1− 1)

=1−1

+ (𝑥⏟ 2− 1)

=0−1

+ (𝑥⏟ 3− 1)

=2−1

= 0

Vi kan jämföra detta med:

∑ 𝑥𝑖− 1 = 𝑥1+ 𝑥2+ 𝑥3− 1 = 1 + 0 + 2 − 1 = 2

☛ Övningsuppgifter: Se här.

(19)

2.4 LÄGESMÅTT

Lägesmåtten beskriver var på tallinjen vi hittar observationerna i ett sampel. De viktigaste lägesmåtten är medelvärdet och medianen. Andra vanliga lägesmått är typvärdet, kvartiler och percentiler.

Medelvärdet

Medelvärdet beräknas som summan av observationerna delat med antalet observationer. Om vi mäter medelvärdet för en variabel som betecknas x så betecknar vi medelvärdet med 𝑥̅:

𝑥̅ =∑ 𝑥𝑖

𝑛 =𝑥1+ 𝑥2+ ⋯ + 𝑥𝑛 𝑛

Exempel: I samplet nedan så är genomsnittsåldern 41 år. Vi får medelvärdet genom att ta summan av alla åldrar (246) och dela med antalet personer (6). På motsvarande sätt kan vi räkna ut att personerna i genomsnitt såg 3,5 hästar.

id Kön Ålder Hälsa Hästar

1 Man 32 God 5

2 Kvinna 48 Utmärkt 4

3 Kvinna 20 God 5

4 Kvinna 66 Ganska svag 3

5 Man 45 Mycket svag 2

6 Man 35 Utmärkt 2

Men hur tolkar vi medelvärdet? Vad betyder det när vi säger att genomsnittsåldern är 41 år? Här är två tolkningar:

1) Om vi ser på observationerna som tyngder på en våg så är medelvärdet den axel som gör att vågen balanserar exakt:

2) Medelvärdet är din bästa gissning. Eleverna i klass 6a på St.

Henriks lågstadium bor i genomsnitt två kilometer från skolan. Kalle går på den här klassen. Hur lång är hans skolväg? Utan någon annan information så är ”två kilometer”

din bästa gissning. Vissa på klassen bor närmare skolan,

(20)

andra bor längre ifrån, men sett över alla personer så tar dessa fel ut varandra; medelvärdet har rätt i genomsnitt.

Exempel: Hur är det då med variabeln kön: Kan vi räkna ut medelvärdet för kön? I så fall måste vi först sätta värden på variablernas kategorier. Låt oss ge männen värdet 0 och kvinnorna värdet 1:

id Kön Ålder Hälsa Hästar

1 Man = 0 32 God 5

2 Kvinna = 1 48 Utmärkt 4

3 Kvinna = 1 20 God 5

4 Kvinna = 1 66 Ganska svag 3

5 Man = 0 45 Mycket svag 2

6 Man = 0 35 Utmärkt 2

Medelvärdet blir då 0,5: 0+1+1+1+0+0

6 = 0,5. Medelvärdet är andelen kvinnor i samplet.

Det här gäller alltid: Om vi räknar ut medelvärdet för en variabel som bara antar två värden – 0 och 1 – så är medelvärdet andelen 1:or i samplet. Av den här orsaken brukar man använda just siffrorna 0 och 1 för variabler med bara två kategorier. Vi kallar den här typen av variabler för binära. Man brukar ofta namnge binära variabler enligt kategorin som har värdet 1:

Istället för att kalla en variabel för ”kön” så kallar vi den för

”kvinna” om kvinnor har värdet 1 och män värdet 0. Istället för att kalla en variabel för ”modersmål” så kallar vi den för

”svenska” om personer med svenska som modersmål har värdet 1 och personer med finska som modersmål har värdet 0. Istället för att kalla en variabel för ”utbildningskategori” så kallar vi den för ”högutbildad” om högutbildade har värdet 1 och de lågutbildade har värdet 0.

Exempel: Hur är det då med variabeln hälsa? Kan vi räkna ut medelvärdet för den variabeln? Rent tekniskt sett så är det förstås möjligt om vi ger värden till de olika kategorierna. Men ett sådant medelvärde har ingen meningsfull betydelse.

Medelvärdet beror då på hur vi väljer att koda variabeln, och valet är godtyckligt.

(21)

Medianen

Vi inledde det här kapitlet med att säga att medelvärdet hör till de viktigaste lägesmåtten. Men när har vi intresse av andra lägesmått? För att se detta så ska vi fundera över följande:

I USA ligger den genomsnittliga årsinkomsten kring 40 600 dollar, men 65 procent av befolkningen tjänar mindre än detta. Det här kan låta paradoxalt men är sant, dvs. en majoritet kan ligga under snittet. Det kan då vara intressantare att fundera över hur mycket en representativ person tjänar. Det är här medianen kommer in: Medianen är den mittersta observationen i samplet.

Exempel: Fem kompisar går ut och äter tillsammans. Här är notan för varje person då vi ordnat dem från den som betalade minst till den som betalade mest:

16, 20, 25, 33, 35

Medianen är 25 euro, eftersom 25 är det mittersta värdet.

Exempel: Hur stor är medianåldern?

id Kvinna Ålder Hälsa Hästar

1 0 32 God 5

2 1 48 Utmärkt 4

3 1 20 God 5

4 1 66 Ganska svag 3

5 0 45 Mycket svag 2

6 0 35 Utmärkt 2

Då vi rangordnar observationerna från den minsta till den största så får vi:

20, 32, 35, 45, 48, 66

Två åldrar – 35 och 45 – ligger lika mycket på mitten. Medianen blir då snittet av dessa två, dvs. (35+45)/2 = 40. På motsvarande sätt kan vi räkna ut att medianen för variabeln hästar är 3,5.

För det här samplet är genomsnittsåldern 41 år; medianen är 40.

Personerna såg 3,5 hästar i genomsnitt och medianen är också 3,5. Det är inte ovanligt att medelvärdet och medianen har ungefär samma värden. Så på vilket sätt skiljer sig de här måtten från varandra? Det finns tre tillfällen då skillnaderna blir extra tydliga:

(22)

1) Medelvärdet är känsligt inför extrema värden, så kallade outliers.

Tänk dig följande sampel: 1, 2, 3, 4 och 5. Både medelvärdet och medianen har värdet 3. Men vad händer om värdet 5 plötsligt ändrar till 1000? Jo, medelvärdet ökar dramatiskt, men medianen är fortfarande 3.

2) Medelvärdet och medianen har olika värden i skeva fördelningar.

Figur A visar fördelningen för inkomst per person i världens länder. Man säger att den här fördelningen är skev åt höger; det finns en del länder där inkomsterna är betydligt högre än i andra länder – dessa skapar fördelningens högra svans. I ett genom- snittligt land är inkomsten ungefär 12600 dollar per person men medianen är bara 7000 dollar; medelvärdet dras upp av de höga inkomsterna i fördelningens högra svans.

Figur B visar fördelningen för livslängden i världens länder. Man säger att den här fördelningen är skev åt vänster. I ett genomsnittligt land är livslängden 70,0 år men medianen är 72,5 år; medelvärdet dras ner av de korta livslängderna i fördelningens vänstra svans.

3) Vi kan beräkna medelvärdet för kvantitativa och binära data.

Medianen är dessutom lämplig för data på ordinalnivå.

Exempel: Kan vi räkna ut medianen för variabeln hälsa? För att göra detta så måste vi först ge värden till de olika kategorierna.

Låt oss ge ”mycket svag hälsa” värdet 1; ”Ganska svag hälsa”

värdet 2; ”god hälsa” värdet 3 och ”utmärkt hälsa” värdet 4:

(23)

id Kvinna Ålder Hälsa Hästar

1 0 32 God = 3 5

2 1 48 Utmärkt = 4 4

3 1 20 God = 3 5

4 1 66 Ganska svag =2 3

5 0 45 Mycket svag = 1 2

6 0 35 Utmärkt = 4 2

Medianen blir då 3, vilket representerar ”god hälsa”.

Det här värdet är naturligtvis godtyckligt; om vi hade valt att koda hälsokategorierna på ett annat sätt så hade vi fått en annan median. Vi hade exempelvis kunnat ge ”mycket svag hälsa”

värdet -10; ”ganska svag hälsa” värdet -5; ”god hälsa” värdet 0 och ”utmärkt hälsa” värdet 10. Då hade medianen blivit 0. Men notera här att den fortfarande representerar kategorin ”god hälsa”. Det här innebär att medianen i praktiken inte påverkas av hur vi kodar variabeln så länge kodningen beaktar hälsokategoriernas rangordning. Det är därför meningsfullt att beräkna medianen för variabeln hälsa – trots att den är en kvalitativ variabel.

Hälsa är ett exempel på en variabel med data på ordinalnivå.

Ordinalnivå är kvalitativa data där det finns en naturlig rangordning av kategorierna: utmärkt hälsa ≻ god hälsa ≻ svag hälsa ≻ mycket svag hälsa. Vi kan representera den här rangordningen med siffror (t.ex. 4-3-2-1) men skillnaden mellan olika värden har ingen kvantitativ betydelse. Exempel: Om Kalle har en hälsa på 4 och Lisa en hälsa på 3 så visar detta att Kalle har bättre hälsa än Lisa, men inte hur mycket bättre. Kvalitativa variabler där kategorierna inte kan rangordnas på ett meningsfullt sätt har data på nominalnivå.

Här är några exempel: Din lön mäts på en kvantitativ skala – din socioekonomiska ställning (låg, medel, hög) mäts på ordinalnivå.

Din hårlängd (i centimeter) mäts på en kvantitativ skala – din hårfärg mäts på nominalnivå. Försäljningspriset för en bil mäts på en kvantitativ skala – bilens märke mäts på nominalnivå.

Sockerhalten i en semla mäts på en kvantitativ skala – den upplevda sötman (säg på en skala mellan 1 och 5) mäts på ordinalnivå.

Det finns också gråzoner i skarvet mellan ordinalnivå och kvantitativa data. Detta gäller bland annat olika index och poäng som ges till personer i psykologiska tester. Om man, exempelvis, vill mäta hur extrovert en person är så kan man göra detta

(24)

genom att låta personen ta ställning till ett antal frågor (se figuren nedan). Svaren poängsätts och summeras ihop och bildar en så kallad likert-skala. Eller om man vill mäta hur demokratiskt ett land är kan man värdera detta utifrån ett antal faktorer och skapa ett index. Den här typen av data kan betraktas som ordinalnivå eftersom ”extroversion” eller ”graden av demokrati”

inte naturligt mäts på numeriska skalor. Ofta behandlar man ändå den här typen av data som kvantitativt, genom att exempelvis beräkna medelvärden.

Typvärdet

Typvärdet är det värde som förekommer flest gånger i samplet.

Om flera värden är lika vanliga så finns det flera typvärden.

Exempel: Typvärdena för variabeln hästar är 2 och 5.

id Kvinna Ålder Hälsa Hästar

1 0 32 3 5

2 1 48 4 4

3 1 20 3 5

4 1 66 2 3

5 0 45 1 2

6 0 35 4 2

Kvartiler

Figuren nedan illustrerar vad vi menar med kvartiler. Lådan representerar ett datamaterial som vi rangordnat och delat upp i fyra jämnstora delar. Vi får då tre skarvar som vi betecknar med Q1, Q2 och Q3 – detta är datamaterialets kvartiler.

(25)

Den första kvartilen (Q1) är en observation som är större än en fjärdedel av observationerna och mindre än tre fjärdedelar.

Den andra kvartilen (Q2) är en observation som är större än hälften av observationerna och mindre än hälften. (Den andra kvartilen och medianen är samma mått.)

Den tredje kvartilen (Q3) är en observation som är större än tre fjärdedelar av observationerna och mindre än en fjärdedel.

Låt oss säga att vi mäter lönerna för ett sampel ungdomar på sitt första sommarjobb. Om den första lönekvartilen är 7 euro per timme så betyder det att en fjärdedel av ungdomarna tjänar mindre än 7 euro och tre fjärdedelar mer. Om den tredje lönekvartilen är 10 euro per timme så betyder det att tre fjärdedelar tjänar mindre än 10 euro och en fjärdedel mer.

För att illustrera kvartilerna kan man använda något som kallas för ett låddiagram. Här har vi gjort upp ett låddiagram för livslängden i världens länder:

Lådans botten är den första kvartilen som här har värdet 64; en fjärdedel av länderna har en livslängd som är kortare än 64 år och tre fjärdedelar en livslängd som är längre. Lådans tak är den tredje kvartilen som här har värdet 76; tre fjärdedelar av länderna har en livslängd som är kortare än 76 år. Inom lådan ryms med andra ord 50 procent av världens länder – de mittersta 50 procenten. Lådans mittstreck är medianen.

Om vi räknar ut lådans längd så ser vi att den är 12 år (76 - 64 = 12). Vi kallar detta avstånd för kvartilavståndet.

(26)

Förutom lådan så innehåller låddiagrammet också en gaffel som märker ut datamaterialets största och minsta observationer. Om datamaterialet innehåller en eller flera extra stora eller små värden så märks dessa också ut skilt, som i figuren nedan:

Deciler och percentiler

Vi får decilerna genom att dela in data i tio jämnstora grupper:

Det här betyder att det finns totalt nio deciler (de nio skarvarna i figuren ovan). Exempel: Fyra tiondelar av observationerna är mindre än den fjärde decilen; sex tiondelar är större.

Ibland talar man också om decilgrupper. Exempel: Vi mäter inkomst per person i världens länder. Om Angola hör till den första decilgruppen så betyder det att Angola hör till de tio procent fattigaste länderna i världen. Notera att det bara finns nio deciler, men tio decilgrupper.

På motsvarande sätt får vi percentilerna genom att dela in data i 100 jämnstora grupper. Exempel: Den 90:e percentilen är en observation som är större än 90 procent av observationerna men mindre än 10 procent. När vi mäter inkomst per person i världens länder så är den 90:e percentilen 34 132 dollar. Det betyder att inkomsten per person än lägre än 34 132 dollar i 90 procent av länderna, och högre i tio procent.

(27)

☛ Övningsuppgifter: Se här.

(28)

2.5 SPRIDNINGSMÅTT

Nedan visas två histogram. Båda fördelningarna har samma medelvärde och median. Det finns dock en viktig skillnad mellan fördelningarna: spridningen. I figuren till vänster ligger observationerna relativt nära varandra; i figuren till höger finns det betydligt större skillnader mellan observationerna. I det här avsnittet ska vi lära oss hur vi kan beskriva den här egenskapen hos en fördelning. De viktigaste måtten är variansen och standardavvikelsen.

Variansen och standardavvikelsen

Hur skulle man gå tillväga för att beskriva spridningen för en variabel? En naturlig utgångspunkt är att se hur mycket observationerna varierar kring medelvärdet; tenderar observationerna ligga tajt samlade kring medelvärdet eller långt från medelvärdet? Variansen och standardavvikelsen är två mått som bygger på den tanken.

Variansen mäter ungefär den genomsnittliga kvadrerade avvikelsen mellan en observation och medelvärdet. Vi betecknar variansen med s2:

𝑠2 =∑(𝑥𝑖− 𝑥̅)2

𝑛 − 1 =(𝑥1− 𝑥̅)2+ (𝑥2− 𝑥̅)2+ ⋯ + (𝑥𝑛− 𝑥̅)2 𝑛 − 1

Standardavvikelsen är den positiva kvadratroten ur variansen.

Vi betecknar den med s:

(29)

𝑠 = √𝑠2

Exempel: Vi gör tre mätningar på en variabel X och får värdena:

2, 1, 3. Hur stor är variansen och standardavvikelsen?

Medelvärdet är 2. Summan av de kvadrerade avvikelserna blir då 2:

∑(𝑥𝑖− 𝑥̅)2 = (2 − 2)2+ (1 − 2)2+ (3 − 2)2= 2

Notera vad som skulle hända om vi inte kvadrerade: En positiv avvikelse (3-2) skulle tas ut av en negativ (1-2) och summan skulle bli noll. Detta gäller i alla datamaterial, dvs. om man summerar ihop alla observationers avvikelser från medelvärdet så blir summan alltid 0.

Vi får variansen genom att dela kvadratsumman (2) med antalet observationer minus ett (3-1 = 2). Variansen blir då 1:

𝑠2=2 2= 1 Standardavvikelsen blir därför också 1:

𝑠 = √1 = 1

Exempel: Hur stor är åldersvariansen?

id Kvinna Ålder Hälsa Hästar

1 0 32 3 5

2 1 48 4 4

3 1 20 3 5

4 1 66 2 3

5 0 45 1 2

6 0 35 4 2

När vi har lite större datamaterial kan det ta tid att räkna ut variansen för hand. En formel som gör uppgiften snabbare ges nedan:

𝑠2=∑(𝑥𝑖− 𝑥̅)2

𝑛 − 1 =∑ 𝑥𝑖2− 𝑛𝑥̅2 𝑛 − 1

Vi börjar med att räkna ut summan av de kvadrerade åldrarna,

∑ 𝑥𝑖2. Exempelvis är den första personen 32 år och 322 = 1024.

Summan av alla kvadrerade åldrar är 11334:

(30)

id Ålder Ålder2

1 32 1024

2 48 2304

3 20 400

4 66 4356

5 45 2025

6 35 1225

Σ = 11334

Medelåldern är 41 år och åldersvariansen blir då 249,6:

𝑠2=∑ 𝑥𝑖2− 𝑛 ∙ 𝑥̅2

𝑛 − 1 =11334 − 6 ∙ 412

6 − 1 = 249,6

Standardavvikelsen är då 15,8: √249,6 ≈ 15,8

Att tolka variansen och standardavvikelsen

Vi såg just att standardavvikelsen för ålder är cirka 16 år. Men vad betyder det? Generellt gäller att en stor standardavvikelse betyder att det är stor spridning i data; en liten standard- avvikelse att spridningen är liten. En standardavvikelse på noll betyder att det inte finns någon variation alls, dvs. alla observationer i data har exakt samma värde. Negativa standardavvikelser finns inte. En standardavvikelse på 16 betyder ungefär att en genomsnittlig person i samplet har en ålder som ligger 16 år från snittet. Det är, så att säga, standard att ligga 16 år från snittet.

För att lära oss mer om variansen och standardavvikelsen så ska vi ännu se på tre egenskaper hos dessa:

1) Om vi flyttar en fördelning på tallinjen så förändras inte variansen eller standardavvikelsen.

I figuren nedan har vi två fördelningar; i den vänstra har vi originalet och i den högra har vi plussat på 10 till varje observation. Som vi ser så förändrar detta inte spridningen i data. Variansen eller standardavvikelsen påverkas därför inte heller.

(31)

2) Standardavvikelsen mäts i samma enhet som variabeln.

Anta att kvinnor i genomsnitt är 168 centimeter med standardavvikelsen 5 centimeter. Uttryckt i meter så är kvinnor i snitt 1,68 meter med standardavvikelsen 0,05 meter.

Standardavvikelsen uttrycks alltså i samma enhet som variabeln.

Detta gäller dock inte variansen. Om kvinnor i snitt är 1,68 meter med standardavvikelsen 0,05 meter så är variansen 0,0025 kvadratmeter. Av den här orsaken är det populärare att rapportera standardavvikelsen i olika undersökningar.

3) 95-100-regeln: För normalfördelade variabler gäller att ungefär 95 procent av observationerna ryms inom ± två standardavvikelser från snittet, och så gott som 100 procent ryms inom ± tre standardavvikelser från snittet.

Anta att längden för en kvinna är normalfördelad. Om kvinnor i snitt är 168 centimeter med standardavvikelsen 5 centimeter så betyder det att ungefär 95 procent av kvinnor är mellan 158 och 178 centimeter (se figuren nedan). Och nästan alla kvinnor är mellan 153 och 183 centimeter; 153 ligger tre standard- avvikelser under snittet och 183 tre standardavvikelser över.

(32)

Man kan undra varför vi delar med n-1 (och inte n) när vi beräknar variansen och standardavvikelsen. Det finns naturligtvis en förklaring, men här lämnar vi den till kapitlets Appendix (A.2 Variansen: Varför dela med n-1?).

☛ Övningsuppgifter: Se här.

(33)

Datareferenser

Länderdata (livslängd, inkomster) hämtat från gapminder.com.

(34)

APPENDIX.

A.1 Logaritmer

Vad menas med en logaritm med basen 10? Se tabellen nedan. På den vanliga skalan ökar värdena med en faktor på 10 för varje rad; på den logaritmiska skalan ökar värdena med talet ett på varje rad. Vi kallar detta för en logaritm med basen 10.

Exempelvis ser vi att log(100) = 2. Det betyder att vi måste ta 10 upphöjt i 2 för att få värdet 100. På samma sätt ser vi att log(1000) = 3: Vi måste ta 10 upphöjt i 3 för att få värdet 1000.

När vi ställer oss frågan: ”Vad är logaritmen av 1000?” så är det med andra ord bara ett kortare sätt att fråga: ”Vad ska jag ta 10 upphöjt i för att få 1000”?

Vanlig skala Log10-skala

1 0

10 1

100 2

1000 3

10 000 4

... ...

Inom statistiken är det vanligt att man använder en logaritm med basen e, där e är ett tal som har värdet 2,718... . Den här logaritmen kallas för den naturliga logaritmen och betecknas ln(...). Då ett värde ökar med en faktor e ≈ 2,72 på den vanliga skalan så är ökningen ett på ln-skalan:

Vanlig skala ln-skala

1 0

e ≈ 2,72 1

e ∙ e ≈ 7,39 2

e ∙ e ∙ e ≈ 20,09 3 e ∙ e ∙ e ∙ e ≈ 54,60 4

... ...

När vi ställer oss frågan: ”Vad är den naturliga logaritmen av 10”

så är det alltså bara ett kortare sätt att fråga: ”Vad ska jag ta talet e upphöjt i för att få värdet 10?”.

Vi såg tidigare att ln(101) – ln(100) ≈ 0,01 och att detta visar att 101 är en procent mer än 100. Men varför blir det så när vi tar den naturliga logaritmen?

(35)

- När ett tal ökar med en faktor 𝑒 ≈ 2,72 (dvs. 172 procent) på den vanliga skalan så är ökningen 1 på den naturliga logaritm-skalan.

- Det går cirka 100 stycken 1-procentiga ökningar på en 172-procentig ökning.

- När ett tal ökar med en procent på den vanliga skalan så är ökningen 1/100 = 0,01 på den naturliga logaritm- skalan.

A.2 Variansen: Varför dela med n-1?

Ett bra variationsmått ska mäta variationen i data och inget annat. Vi vill exempelvis inte att variationsmåttet beror av sampelstorleken. Anta exempelvis att vi vill jämföra lönespridningen bland lärare och tandläkare, och att lönespridningen egentligen är lika stor i båda grupperna. Vårt datamaterial består av enbart tio tandläkare men hundratals lärare. För att kunna jämföra yrkesgrupperna är det då viktigt att vi har ett spridningsmått som inte beror av sampelstorleken.

Variationsvidden är ett exempel på ett variationsmått som inte uppfyller det kravet. Variationsvidden är skillnaden mellan den största observationen i data och den minsta. Ju större sampel desto större tenderar maxlönen bli och tvärtom för den minsta lönen; variationsvidden ökar alltså med sampelstorleken. I en jämförelse av lärarna och tandläkarna så skulle vi då felaktigt dra slutsatsen att lärarna har mer varierade löner än tandläkarna, då en korrekt slutsats vore att samplet är större för lärarna än tandläkarna.

Så varför delar vi med n-1 när vi beräknar variansen? Jo, när vi beräknar variansen genom att dela med n-1 så ser vi till att variansen inte beror av samplets storlek. Men om vi istället beräknar variansen genom att dela med n så tenderar variansen bli lite mindre i små sampel än i stora. Det är inte särskilt lätt att direkt se förklaringen. Men tänk så här: Variansen mäter ju hur mycket observationerna varierar kring medelvärdet. Och medelvärdet är det ”balanserande värdet”. I ett litet datamaterial så måste medelvärdet bara balansera mellan ett fåtal observationer och får på så vis chansen att i snitt ligga lite närmare dessa observationer, än i ett stort datamaterial. Men den här effekten kan vi uppväga genom att dela med n-1.

(36)

Det är bra att variansen (när vi delar med n-1) inte varierar med samplets storlek, men det här är inte heller hela förklaringen till denna praxis. Orsaken till att vi delar med n-1 är att variansen då får en bra egenskap som kallas för väntevärdesriktighet. I det här skedet ska vi inte gå närmare in på det begreppet, men väntevärdesriktighet implicerar, bland annat, just det här – att variansen inte varierar systematiskt med datamaterialets storlek.

(37)

Kapitel 3: SAMBANDET MELLAN VARIABLER - KORRELATIONER

I förra kapitlet lärde vi oss hur man beskriver fördelningen för en variabel. Oftast är vi dock intresserade av att studera sambandet mellan variabler. Vi ska nu se tre exempel på vad det kan betyda.

3.1 SAMBAND

Exempel: Finns det ett samband mellan etnisk bakgrund och hälsa? I National Health Interview Survey intervjuas tusentals amerikaner angående sin hälsa. Figuren nedan visar visar att cirka 60 procent av latinamerikaner och svarta anser sig ha mycket god hälsa; bland vita är motsvarande siffra cirka 70 procent.

Så vad menar vi med ett samband? När vi säger att det finns ett samband mellan två variabler – x och y – så menar vi att kunskap om den ena variabeln (x) lär oss något om den andra (y). I exemplet ovan så finns det ett samband mellan etnicitet och hälsa; om vi vet personens etniska bakgrund så lär det oss något om personens hälsa. I det här fallet så skulle det inte finnas något samband mellan variablerna om andelen med mycket god hälsa var lika stor i alla tre grupper.

Exempel: Tjänar högutbildade mer än lågutbildade? Figuren nedan visar lönerna i tre utbildningsgrupper: personer med enbart grundskoleutbildning, personer med gymnasie- eller

60.5 57.6

70.4

Latinamerikaner Svarta Vita

Andel som upplever sig ha mycket god hälsa (%)

(38)

yrkesutbildning och sådana med högskole- eller universitetutbildning.

Som du ser så är lönerna jämförelsevis låga bland personer med enbart grundskoleutbildning, men betydligt högre bland personer med högskole- eller universitetsutbildning. Det finns också flera undantag – personer med grundskoleutbildning som tjänar tusenlappar mer än andra med högskoleutbildning – men den generella trenden i data är tydlig. Det finns med andra ord ett samband mellan utbildningsnivå och lön.

Hur kan vi karaktärisera detta samband? En viktig skillnad kan göras mellan positiva och negativa samband. Vi kallar ett samband för positivt då höga värden på en variabel (x) hänger samman med höga värden på en annan (y). Och tvärtom: Låga värden på x hänger samman med låga på y. Vi kallar ett samband för negativt då höga värden på en variabel (x) hänger samman med låga värden på en annan (y). Och tvärtom: Låga värden på x hänger samman med höga på y. I det här exemplet är sambandet positivt, dvs. en hög utbildningsnivå hänger samman med hög lön.

[Notering: Data för exemplet ovan är fejkat.]

Exempel: Begås det mindre brott om risken för att åka fast är hög? Vi mäter antalet brott per person och risken för att åka fast i 89 amerikanska orter. Ett utdrag av data ges nedan:

(39)

Ort Risk att åka fast Brottslighet

1 0,29827 0,0356036

2 0,132029 0,0152532

3 0,444444 0,0129603

4 0,36476 0,0267532

5 0,518219 0,0106232

... ... ...

89 0,689024 0,0189848

Figuren nedan illustrerar sambandet med hjälp av ett spridningsdiagram. På x-axeln visas risken för att åka fast; på y- axeln visas antalet brott per person. Varje ”prick” i diagrammet representerar en observation, dvs. en ort. Exempelvis ser vi att det finns en ort där risken för att åka fast är ~0,7. På den orten begås det ~0,02 brott per person. I tabellen ovan är detta ort

#89.

Vad visar spridningsdiagrammet? För det första ser vi att det finns ett samband mellan variablerna; brottsligheten skiljer sig systematiskt mellan orter där risken för att åka fast är hög och sådana där risken är låg. Vi ser också att sambandet är negativt;

hög risk för att åka fast är förknippat med låg brottslighet.

Att karaktärisera samband - korrelationskoefficienter Vi har sett att samband ofta kan karaktäriseras som positiva eller negativa. I kommande avsnitt ska vi fundera vidare på hur man kan karaktärisera samband genom att mäta styrkan i dessa. I detta syfte använder vi korrelationskoefficienter. Det finns olika sätt att mäta styrkan i ett samband, dvs. olika korrelationskoefficienter, men de flesta har följande gemensamt:

(40)

De antar värden mellan -1 och 1, där 1 betyder att det finns ett perfekt positivt samband mellan variablerna och -1 att det finns ett perfekt negativt samband mellan variablerna; en korrelation på 0 betyder att det inte finns något samband (eller att sambandet varken är positivt eller negativt).

Så vad menar vi då med ett perfekt negativt eller positivt samband? Man kan här tänka sig lite olika betydelser och därför finns det också olika korrelationskoefficienter. I nästa avsnitt ska vi diskutera det vanligaste korrelationsmåttet: Pearsons korrelationskoefficient. När vi då talar om perfekta samband så menar vi linjära samband.

☛ Övningsuppgifter: Se här.

(41)

3.2 PEARSONS KORRELATIONSKOEFFICIENT

Pearsons korrelationskoefficient är det vanligaste korrelations- måttet. Den mäter styrkan i det linjära sambandet mellan två variabler och antar värden mellan -1 och 1, där positiva värden betecknar positiva samband och negativa värden negativa samband.

Se figur A nedan: Då x ökar så ökar också y i genomsnitt. Vi har då en positiv korrelation mellan variablerna. En korrelation på 1 betyder att alla observationer kan ritas längs med en uppåtlutande linje (figur B).

Se figur A nedan: Då x ökar så minskar y i genomsnitt. Vi har då en negativ korrelation mellan variablerna. En korrelation på -1 betyder att alla observationer kan ritas längs med en nedåtlutande linje (figur B).

Spridningsdiagrammen nedan representerar en korrelation på noll: Då x ökar så varken ökar eller minskar y i genomsnitt.

(42)

Generellt gäller att då korrelationskoefficienten närmar sig 1 eller -1 så samlas observationerna allt tajtare kring en rät linje.

Figurerna nedan illustrerar detta, där r betecknar Pearsons korrelationskoefficient:

Hur Pearsons korrelationskoefficient beräknas

Korrelationen mellan två variabler, x och y, beräknas genom att dela kovariansen med produkten av standardavvikelsen för x och standardavvikelsen för y. Så vad är då kovariansen?

Kovariansen mellan x och y beskriver hur mycket variablerna svänger ihop. Vi betecknar denna med sxy:

(43)

𝑠𝑥𝑦=∑(𝑥𝑖− 𝑥̅)(𝑦𝑖− 𝑦̅)

𝑛 − 1 =∑ 𝑥𝑖𝑦𝑖− 𝑛𝑥̅𝑦̅

𝑛 − 1

Som du ser så ges här två formler för kovariansen. Båda ger förstås samma resultat, men den senare är lättare att använda vid manuella beräkningar.

Exempel: Finns det ett samband mellan faderns och sonens inkomst? För enkelhetens skull tänker vi oss här att vi bara har fyra observationer, dvs. fyra par av fäder och söner. I tabellen nedan representerar x faderns inkomst och y sonens.

Inkomsterna mäts i tusentals euro (så att värdet 1 representerar en inkomst på tusen euro). I snitt tjänar både fäder och söner 2500 euro: 𝑥̅ = 𝑦̅ = 2,5. Hur stor blir kovariansen mellan faderns och sonens inkomst?

(far) x y (son)

1 1

2 3

3 2

4 4

Vi kan börja med att beräkna ∑ 𝑥𝑖𝑦𝑖 = 𝑥1𝑦1+ 𝑥2𝑦2+ 𝑥3𝑦3+ 𝑥4𝑦4 som finns i täljaren för kovariansen. Från tabellen nedan ser vi att denna summa blir 29:

x

(far) y

(son) 𝑥 ∙ 𝑦

1 1 1

2 3 6

3 2 6

4 4 16

Σ = 29

Kovariansen blir då 4/3:

𝑠𝑥𝑦=∑ 𝑥𝑖𝑦𝑖− 𝑛𝑥̅𝑦̅

𝑛 − 1 =29 − 4 ∙ 2,5 ∙ 2,5

4 − 1 =4

3

Så vad betyder en kovarians på 4/3? En positiv kovarians betyder att det finns ett positivt samband mellan variablerna; en

0 1 2 3 4

0 1 2 3 4

Sonens inkomst (y)

Faderns inkomst (x)

(44)

negativ kovarians att sambandet är negativt; en kovarians på noll betyder att det inte finns något linjärt samband.

I det här exemplet har vi en positiv kovarians, dvs. ett positivt samband. Därutöver är det svårt att tolka kovariansen; storleken beror också på vilka enheter vi använder för att mäta x- och y- variablerna. Men vi kan göra kovariansen enhetsfri genom att dela den med produkten av standardavvikelsen för x och standardavvikelsen för y. Det mått vi då får kallas för Pearsons korrelationskoefficient och betecknas med r:

𝑟 = 𝑠𝑥𝑦 𝑠𝑥∙ 𝑠𝑦

I exemplet ovan gäller att standardavvikelsen för sonens och faderns inkomster är lika stora, och lika med √5/3. Produkten av dem är 5/3. Korrelationen blir då 0,8 vilket representerar ett stark positivt samband:

𝑟 = 𝑠𝑥𝑦

𝑠𝑥∙ 𝑠𝑦=4/3 5/3= 0,8

Vi ska här notera två egenskaper hos korrelationskoefficienten:

1) Det spelar ingen roll vilken variabel som är x, och vilken som är y. Om vi vände på det så att x var sonens inkomst och y faderns så skulle korrelationskoefficienten ändå få värdet 0,8.

2) Det spelar ingen roll vilka enheter vi använder för att mäta variablerna. Vi kunde exempelvis mäta faderns inkomst i euro och sonens i tusentals euro och ändå få korrelationen 0,8.

Icke-linjära samband

I spridningsdiagrammet nedan är korrelationen 0: Då x ökar så varken ökar eller minskar y i genomsnitt. Men den här beskrivningen av sambandet är rätt torftig, dvs. den säger mycket litet om hur sambandet de facto ser ut.

References

Related documents

MEN ATT ALES MEDIA får högsta betyg i landet beror inte bara på att företa- garna själva har fått bättre förståelse för hur nyhetsmakande går till, eller

Ja, vår bedömning är att resultaten i delårsrapporten är förenliga med de av fullmäktige fastställda målen för god ekonomisk hushållning (dvs, det finns förutsättningar för

15. Ange en formel som beskriver sambandet mellan a och b. Familjen Persson betalade ett år 18 000 kr i ränta på sitt lån. En sida på en kub har längden 2a. Vilket uttryck

År 2008 blev det en målsättning för Sveriges nationella jämställd- hetpolitik att minska den ekonomiska ojämlikheten mellan män och kvinnor. Vilka åtgärder som är mest

Ämnesprov i religionskunskap åk 9 Studera diagrammet som visar några länders BNP per invånare och hur stor del av befolkningen i varje land som anser att religionen är en viktig

Det uppfattade organisatoriska stödet antas leda till känslor av skyldighet för den anställda att arbeta mot företagets mål, där högt uppfattat stöd av företaget leder till

2 Den ska vidare ses som en övergripande överenskommelse mellan parterna, som täcker de avgränsade underliggande lokala och regionala överens- kommelserna, exempelvis dem som

Den unge Baracks förändringsarbete ser ut ta betydligt längre tid än många hade hoppats, inte minst när det gäller USA:s re- lation till den afrikanska kontinenten.. – Afrika