• No results found

En statistisk undersökning av hur olika faktorer påverkar flyttningsbeteenden i Sveriges olika regioner

N/A
N/A
Protected

Academic year: 2021

Share "En statistisk undersökning av hur olika faktorer påverkar flyttningsbeteenden i Sveriges olika regioner"

Copied!
36
0
0

Loading.... (view fulltext now)

Full text

(1)

IN

DEGREE PROJECT

TEKNIK,

FIRST CYCLE, 15 CREDITS

,

STOCKHOLM SWEDEN 2018

En statistisk undersökning av hur

olika faktorer påverkar

flyttningsbeteenden i Sveriges

olika regioner

PAUL WALL

ANDRÉ WESTERBERG

(2)
(3)

IN

DEGREE PROJECT

TECHNOLOGY,

FIRST CYCLE, 15 CREDITS

,

STOCKHOLM SWEDEN 2018

A statistical analysis of how

different factors affect moving

behavior between different regions

of Sweden

PAUL WALL

ANDRÉ WESTERBERG

(4)
(5)

Sammanfattning

I Sverige idag råder en bostadsbrist som kräver en lösning och en del av att lösa detta problem ligger i att analysera och kartlägga flyttningsbeteenden. Denna rapport går ut på att identifiera de faktorer som förklarar antalet flyttningar till och från olika kommuner i Sverige. Med regressions-analys som verktyg har de intressanta variablerna identifieras och deras inverkan regressions-analyserats och jämförts med tidigare studier.

(6)

Abstract

In Sweden there is currently a shortage of housing which requires a solution, a part of finding a solution lies in analyzing how people move between different regions. The aim of this report is to identify factors that explain how many individuals move to and from different municipalities in Sweden. By using regression analysis the key factors have been identified, analyzed and compared with previous studies.

(7)

Innehåll

1 Introduktion 4 1.1 Inledning . . . 4 1.2 Mål och Syfte . . . 4 2 Teori 5 2.1 Regressionsmodell . . . 5

2.1.1 Multipel linjär regression . . . 5

2.1.2 Minsta kvadratmetoden . . . 6

2.1.3 Standardfel och konfidensintervall . . . 6

2.2 Standardisering . . . 7 2.3 Transformer . . . 7 2.4 QQ-plot . . . 7 2.5 Multikollinearitet . . . 7 2.6 Outliers . . . 8 2.7 Lasso . . . 8 2.8 Korsvalidering . . . 8 2.9 Stegvis regression . . . 9 2.10 T-test . . . 9 2.11 Förklaringsgrad . . . 9

3 Material och data 11 3.1 Statistiska Centralbyrån (SCB) . . . 11 3.2 Brottsförebyggande rådet . . . 11 3.3 Skolverket . . . 11 3.4 Variabler . . . 11 3.4.1 Regressander . . . 11 3.4.2 Regressorer . . . 11

3.5 Tidigare studier på området . . . 12

3.6 Begränsnigar . . . 12 4 Genomförande 14 5 Resultat 15 5.1 Transformer . . . 15 5.2 Kollinearitet . . . 17 5.3 Flyttningsmodeller . . . 19

5.3.1 Inflyttningsmodeller med samtliga kommuner . . . 19

5.3.2 Inflyttningsmodeller då outliers är borttagna . . . 20

5.3.3 Utflyttningsmodeller samtliga kommuner . . . 21

5.3.4 Utflyttningsmodeller outliers borttagna . . . 22

(8)

1 Introduktion

1.1 Inledning

I Sverige råder för tillfället bostadsbrist i stora delar av landet. Sedan mitten av 1990-talet har det skett en ökning av antalet kommuner som rapporterar en bostadsbrist och 2017 angav 255 av 290 kommuner att de hade brist på bostäder. 2015 redovisade endast 26 kommuner en nettoutflytt-ning vilket är ett ytterligare tecken på denna bostadsbrist. (Hyresgästförenettoutflytt-ningen 2017) (SCB 2018a) På senare år har Sverige tagit emot en ökad mängd flyktingar vilket är en av förklaringarna till den positiva nettoflyttningen. En ökad befolkning ställer nya krav på samhället och en fungerande bostadsmarknad. En viktig del i att lösa bostadsfrågan är att analysera var och hur individer vill bo och för att göra detta är det viktigt att kartlägga flyttningen i Sverige och identifiera vad som får personer att flytta till och från olika kommuner. (SCB 2018b)

För att undersöka detta är det viktigt att se på vilka grupper som är mer benägna att flytta och vart flyttningarna sker. 1974-2005 skedde en stor del av flyttningarna från mindre kommuner till större kommuner och sedan början av 1990-talet har personer i åldrarna 20-29 år varit den mest flyttbenägna gruppen. Personer som saknar arbete tenderar att flytta mer än genomsnitts-befolkningen. Dessa fakta kan ge upphov till följdfrågor. Stämmer detta även för senare år eller har flyttningen förändrats? Går det att förklara flyttningen i Sverige genom att känna till faktorer som förklarar flyttnignen? (Bystedt 2008)

För att analysera dessa problem krävs en bra överblick över vilka regioner i Sverige som är mer attraktiva än andra samt vilka faktorer som påverkar detta. Målet med denna rapport är att analysera just detta.

1.2 Mål och Syfte

Syftet med projektet är att undersöka hur olika faktorer påverkar flyttningsbeteenden mellan Sve-riges kommuner. Detta görs för att få en uppfattning om vilka faktorer som får personer att flytta till och från olika områden och vad som gör vissa områden mer populära än andra.

De huvudfrågor som projektet kommer att undersöka är följande:

1. Vilka faktorer påverkar flyttningsbeteenden mellan Sveriges kommuner?

2. Vilka av dessa faktorer kan påverkas av beslutsfattare för att få en önskvärd folkmängd inom en viss kommun?

För att undersöka detta kommer en multipel linjär regressionsmodell att användas med hjälp av minsta kvadratmetoden. De krav som ställs på modellen är följande:

1. Faktorer i modellen ska ha en signifikansnivå på minst 0.05.

2. VIF-värdet (ekvation 16) ska vara mindre än 5 för samtliga faktorer.

(9)

2 Teori

I detta avsnitt beskrivs den teori som kommer att användas i rapporten för att ge läsaren en förståelse för de metoder som används. En del metoder förklaras mer djupgående, andra gås igenom mer ytligt så att läsaren får det lättare att tolka resultaten.

2.1 Regressionsmodell

Regressionsanalys är en statistisk metod som används för att undersöka samband mellan variabler. Det som söks är ett linjärt samband mellan en beroende variabel (regressand) och en eller flera oberoende variabler (regressorer). Genom att analysera observationer kan det då avgöras om det finns ett samband där regressanden påverkas av regressorerna. I detta projekt tas modeller fram genom att använda multipel linjär regression där minsta kvadratmetoden används för skattning av parametrarna. (Montgomery, Peck och Vining 2012)

2.1.1 Multipel linjär regression

Multipel linjär regression är en metod där man vill hitta ett samband mellan regressanden y med hjälp av k regressorer, xk. Detta görs genom att analysera en datamängd med n observationer av dessa variabler. Dessa observationer indexeras yi och xik där i = 1, 2, . . . , n. Alla observationer antas ha ett slumpmässigt fel "i som är normalfördelat. Man gör antagandet att följande linjära samband gäller, där målet är att skatta parametrarna j där j = 0, 1, . . . , k:

yi= 0+ 1xi1+ 2xi2+ ... + kxik+ "i. (1) Vilket på matrisform är; 2 6 6 6 6 6 6 4 y1 y2 y3 ... yn 3 7 7 7 7 7 7 5 = 2 6 6 6 6 6 6 4 0+ 1x11+ 2x12+· · · + kx1k 0+ 1x21+ 2x22+· · · + kx2k 0+ 1x31+ 2x32+· · · + kx3k ... 0+ 1xn1+ 2xn2+· · · + kxnk 3 7 7 7 7 7 7 5 + 2 6 6 6 6 6 6 4 "1 "2 "3 ... "n 3 7 7 7 7 7 7 5 . (2)

Detta uttryck kan sedan skrivas om för att få ett uttryck där parametrarna j har brutits ut; 2 6 6 6 6 6 6 4 y1 y2 y3 ... yn 3 7 7 7 7 7 7 5 = 2 6 6 6 6 6 6 4 1 x11 x12 . . . x1k 1 x21 x22 . . . x2k 1 x31 x32 . . . x3k ... ... ... ... ... 1 xn1 xn2 . . . xnk 3 7 7 7 7 7 7 5 2 6 6 6 6 6 6 4 0 1 2 ... n 3 7 7 7 7 7 7 5 + 2 6 6 6 6 6 6 4 "1 "2 "3 ... "n 3 7 7 7 7 7 7 5 . (3)

Sedan kan följande beteckningar införas;

y = 2 6 6 6 6 6 6 4 y1 y2 y3 ... yn 3 7 7 7 7 7 7 5 , X = 2 6 6 6 6 6 6 4 1 x11 x12 . . . x1k 1 x21 x22 . . . x2k 1 x31 x32 . . . x3k ... ... ... ... ... 1 xn1 xn2 . . . xnk 3 7 7 7 7 7 7 5 , = 2 6 6 6 6 6 6 4 0 1 2 ... n 3 7 7 7 7 7 7 5 , " = 2 6 6 6 6 6 6 4 "1 "2 "3 ... "n 3 7 7 7 7 7 7 5 , (4)

och med dessa beteckningar kan ekvation 3 skrivas;

y = X + ". (5)

(10)

2.1.2 Minsta kvadratmetoden

Sedan skattas parametrarna på ett sätt som ger den optimala skattningen av regressanden y utifrån regressorerna X enligt minsta kvadratmetoden. Skattningen av dessa värden betecknas ˆ och de skattade värdena av regressanden betecknas ˆy och uppfyller sambandet;

ˆ

y = X ˆ. (6)

För att kunna bestämma felet i modellen införs residualvektorn e som innehåller residualerna ei som även här antas vara normalfördelade;

e = y ˆy, ei= yi yi.ˆ (7) Minsta kvadratmetoden skattar parametrarna ˆ så att summan av residualerna eii kvadrat (SSres) minimeras. Med andra ord minimeras följande uttryck;

SSres= n X i=1

ei2= eTe. (8)

Om man sedan sätter in ekvation 6 och 7 i uttryck 8 så fås följande uttryck som ska minimeras; SSres= (y X ˆ)T(y X ˆ) = yTy 2 ˆTXTy + ˆTXTX ˆ. (9) När alla partialderivatorna med avseende på ˆ är lika med noll minimeras detta uttryck;

@SSres

@ ˆ = 2X

Ty + 2XTX ˆ = 0. (10)

Från detta kan ett uttryck för ˆ härledas, vilket resulterar i följande;

ˆ = (XTX) 1XTy. (11)

(Montgomery, Peck och Vining 2012)

2.1.3 Standardfel och konfidensintervall

Varje parameterskattning ˆj kan skilja sig från det riktiga j och för att se hur mycket denna skillnad är så beräknas ett standardfel. Standardfelet är ett mått på osäkerhetern i skattningen och beräknas enligt följande formel;

se( ˆj) = s SSres/(n k 1) Pn i=1(xij xj)¯ , (12)

där k, n och SSres har definierats tidigare (avsnitt 2.1.1 och ekvation 8). Standardfelet kan sedan användas för att bestämma ett konfidensintervall och för att göra en bedömning av hur bra skatt-ningen av ˆj är. Konfidensintervallet är det intervall som man med säkerheten 1 ↵vet att det riktiga värdet på j ligger inom. Intervallet bestäms enligt;

h

ˆj t↵/2,n k 1· se( ˆj), ˆj+ t↵/2,n k 1· se( ˆj)i. (13) Här betecknar t↵/2,n k 1kvantilen från t-fördelningen med frihetsgrad n k 1 för sannolikheten 1 ↵/2. Intervallet kan skrivas om till följande villkor för j;

(11)

2.2 Standardisering

Innan modellframtagningen görs en standardisering av regressorerna. Detta görs för att göra regres-sorerna mer homogena där ingen blir dominerande på grund av att de är mindre eller större. Det ska inte spela någon roll om en variabel är mätt per invånare eller per tusen invånare, den slutgiltiga modellen ska ändå bli densamma. Standardiseringen innebär att variablerna transformeras linjärt på ett sådant sätt att medelvärdet blir noll och standardavvikelsen ett. Detta gör det även lättare att jämföra olika regressorers inverkan på regressanderna då storleken på de skattade parametrarna är proportionerliga mot regressorernas inflytande. (Gareth m. fl. 2013)

2.3 Transformer

Det har tidigare (avsnitt 2.1.1) gjorts antagandet att felet ei är normalfördelat och att det således inte beror på de skattade värdena ˆyi. Om detta antagande inte uppfylls leder detta till att variansen på ˆyi ökar och således blir standardavvikelsen större och skattningen mer osäker. Detta problem kan lösas genom att införa transformer på ett sätt som bryter sambandet mellan ei och ˆyi. För att analysera om det behövs transformationer används plottar av residualerna där fördelningen av dessa undersöks. (Montgomery, Peck och Vining 2012)

2.4 QQ-plot

Att grafiskt undersöka en QQ-plot är ett sätt att undersöka om observationerna följer den för-delning de antas följa. För minsta kvadratmetoden antas att residualerna är normalfördelade, om så inte är fallet kan det innebära problem eftersom de teoretiska resonemangen som förs för att kunna fastställa modellens signifikans bygger på detta antagande. Det är således viktigt att detta undersöks vilket görs genom att sortera residualvektorn e (ekvation 7) och sedan plotta den mot det värde den hade fått om fördelningen hade varit exakt normalfördelad. Om residualerna är normalfördelade kommer detta leda till att observationerna följer en rät linje i plotten. Detta sätt att undersöka om data följer en fördelningen ger en snabb indikation om antagandet om normalfö-delning är korrekt men för en djupare analys krävs andra metoder. (Montgomery, Peck och Vining 2012)

2.5 Multikollinearitet

Multikollinearitet innebär att det finns ett linjärt beroende mellan två eller fler regressorer vilket betyder att någon variabel kan förklaras av andra variabler. Hög multikollinearitet kan innebära att säkerheten i skattningen av parametrarna minskar vilket ofta leder till en felaktig modell. För att få en uppfattning om vilka regressorer som har en hög enkel kollinearitet kan en korrelationsmatris skapas där matriselementen tas fram enligt följande formel;

rij =

Pn

u=1(xui xi)(xuj¯ xj)¯ pPn

u=1(xui xi)¯ pPn

u=1(xuj xj)¯

. (15)

Från matrisen kan kollineariteten mellan två regressorer undersökas. Varje element rij i matrisen antar ett värde som beskriver kollineariteten mellan regressorerna xi och xj. Värdet kommer att ligga mellan 1 och 1, där 1 innebär en pefekt negativ korrelation, 1 innebär en perfekt positiv korrelation och 0 innebär att variablerna inte har någon korrelation alls. Detta ger en tydlig över-blick om det finns kollinearitet i datamängden.

Korrelationsmatrisen beskriver dock bara sambandet mellan två regressorer och ger då endast en överblick av hur alla par av regressorer korrelerar. Det besvarar inte frågan om hur dessa korre-lationer samspelar för att beskriva en variabel. För att undersöka detta kan ett variance inflation factor test (VIF-test) utföras. Faktorerna beräknas enligt;

V IFj = 1 1 R2

j

(12)

Här är R2

j förklaringsgraden (avsnitt 2.11) för minsta kvadratmodellen med xj som regressand och övriga oberoende variabler som regressorer. Om xj har ett starkt linjärt beroende med någon av de övriga variablerna kommer förklaringsgraden R2

j närma sig 1 vilket leder till ett högt värde på V IFj. VIF-värden högre än 5 kan indikera problem med multikollinearitet, och åtgärder behöver tas för att motverka detta. (Montgomery, Peck och Vining 2012)

2.6 Outliers

Datamängder är sällan perfekta och ett problem som kan uppstå är att vissa observationer avviker väldigt mycket från de övriga observationerna. Några av dessa kan skilja sig så pass mycket att de ensamt påverkar modellen vilket kan resultera i en modell som inte speglar verkligheten. Det som önskas är att ta bort de observationer som påverkar modellen mest så att övriga observationer anpassas bättre. Ett sätt att göra detta på är genom att använda Cook’s distance, vilket är ett mått på hur mycket modellen förändras om en observation tas bort. Genom att mäta alla observationers Cook’s distance kan man utesluta de som har högst värde. Den nya datamängden är då mer homogen och anpassar sig bättre för analysen som ska utföras. (Montgomery, Peck och Vining 2012)

2.7 Lasso

Eftersom antalet möjliga regressionsmodeller som kan tas fram är 2k, där k är antalet regressorer (avsnitt 2.1.1), är det för detta projekt mer effektivt att på ett metodiskt sätt ta fram en bra modell än att ta fram och jämföra samtliga möjliga modeller. För att välja ut vilka variabler som är relevanta för modellen kommer lasso följt av stegvis regression (2.9) att användas.

Lasso (least absolute shrinkage and selection operator) bygger på att minimera följande uttryck; n X i=1 0 @yi k X j=0 jxij 1 A 2 + k X j=1 j = SSres+ k X j=1 j , (17)

där är en parameter som kan väljas fritt. Om = 0 fås uttryck 9, vilket är uttrycket som minimeras i minsta kvadratmetoden. Om höjs kommer detta leda till att vissa j antar värdet 0. De regressorer vars j är lika med 0 kan då exkluderas från den modell som söks. Dock varierar denna selektion väldigt mycket beroende på vilket som väljs. Att välja rätt blir då nödvändigt för att hitta den bästa modellen. För att göra det används korsvalidering (avsnitt 2.8). (Gareth m. fl. 2013)

2.8 Korsvalidering

I detta arbete används k-delad korsvalidering. Det innebär att observationerna slumpmässigt delas in i k grupper av samma storlek (observera att detta inte är samma k som det som presenterades i avsnitt 2.1.1). Sedan anpassas en modell genom att använda data från k 1 grupper. Denna modell används för att skatta värden på regressanden baserat på data från den sista gruppen. Detta ger en möjlighet att skatta hur bra modellen är eftersom man har tillgång till både de korrekta och de skattade värdena på regressanden för denna grupp. Med dessa värden har man en möjlighet att validera data och på så sätt skatta ett prediktionsfel. Detta görs sedan k gånger där varje grupp i tur och ordning används som valideringsgrupp. Utifrån detta kan man skapa ett medelvärde av prediktionsfelen vilket ger ett mått på hur bra modellens skattningar är.

(13)

2.9 Stegvis regression

För detta projekt kommer stegvis regression i form av framåtselektion och bakåteliminering att användas som ett komplement till lasso (avsnitt 2.7). En kombination av dessa metoder kommer att tillämpas för att kontrollera att viktiga variabler inte tagits bort och se till att icke signifikanta variabler tas bort från modellen.

För framåtselektion tas en modell fram genom att först lägga till den regressor som har störst korrelation med responsvariabeln. Sedan väljs nästa variabel för modellen ut som den variabel med störst korrelation med responsvariabeln efter att ha justerat för de regressorer som tidigare lagts till i modellen, man ser alltså på de så kallade partiella korrelationerna (partial correlations). För bakåteliminering tas en modell med alla potentiella regressorer fram, sedan görs ett t-test (avsnitt 2.10) och regressorn med lägst t-värde tas bort från modellen. Detta görs tills alla regres-sorer i modellen uppfyller de givna kraven på signifikans.

(Montgomery, Peck och Vining 2012)

2.10 T-test

För att undersöka om en regressor har en signifikant inverkan på regressanden används t-test. Detta är ett hypotestestet som går ut på att man beräknar sannolikheten att en nollhypotes stämmer. Nollhypotesen väljs som;

H0: j= 0. (18)

vilket gör det möjligt att testa om xj bidrar till någon förklaring av y det vill säga att j är noll. Därefter väljer man en signifikansnivå ↵ vilket utgör gränsen för den största sannolikheten som nollhypotesen tillåts ha utan att förkastas. Om sannolikheten att H0 stämmer är större än ↵ så accepteras nollhypotesen och variabeln tas inte med i modellen. För att beräkna sannolikheten beräknas används standardfelet (ekvation 12) och följande testvariabel skapas;

t0= ˆj

se( ˆj). (19)

Denna variabel följer en t-fördelning med frihetsgrad (n k 1) och testvariabelns värde kan jämföras med denna fördelning för att få fram sannolikheten att nollhypotesen stämmer. Detta innebär att om |t0| > t↵/2,n k 1 så är j signifikant.

Det går även att hitta ett värde P som uppfyller |t0| = tP,n k 1. Detta P-värde ger då san-nolikheten att hypotesen H0 stämmer.

(Montgomery, Peck och Vining 2012)

2.11 Förklaringsgrad

För att undersöka hur mycket av variationen av observationerna som förklaras av den framtagna modellen kommer R2 att användas. För att ta fram R2 utgår man från följande ekvation som beskriver var den sammanlagda variationen från observationerna har sitt ursprung;

n X i=1 (yi y)¯2= n X i=1 (ˆyi y)¯2+ n X i=1 (yi yi)ˆ 2. (20) Detta kan skrivas om på följande sätt med nya beteckningar;

SST = SSR+ SSRes. (21)

(14)

yi och SSR är variationen som förklaras av modellen. För att ge ett mått på hur mycket av variationen modellen kan beskriva införs R2 som definieras enligt följande;

R2=SSR SST = 1

SSRes

SST . (22)

Eftersom samtliga termer i ekvation 21 är positiva och SST är större än eller lika med SSR och SSRes kan R2 anta värden från noll till ett. Om R2= 0 så kommer all variation från SSRes och inget förklaras av modellen. Om istället R2= 1betyder det att anpassningen är perfekt utan några fel alls i skattningen.

För modeller med flera regressorer kommer ett utökat antal regressorer i modellen att leda till ett minskat värde på SSRes då en ytterligare parameter kan användas för att minska detta värde och öka R2. Således kommer den modell med högst R2att vara modellen med flest regressorer. Av den anledningen kan det istället vara bra att undersöka justerad R2 (adjusted R2);

R2adj = 1

SSRes/(n k 1)

SST/(n 1) . (23)

Här är n antalet observationer och k antalet regressorer (avsnitt 2.1.1). I och med detta tas antalet regressorer i beaktande vilket inte görs för det icke justerade värdet. R2

(15)

3 Material och data

3.1 Statistiska Centralbyrån (SCB)

Majoriteten av den data som användes kommer från Statistiska Centralbyrån (SCB). SCB jobbar med att förse användare och kunder med statistik som underlag för beslutsfattande, debatt och forskning. De jobbar främst på uppdrag av regeringen och olika myndigheter, men jobbar även med kunder inom den privata sektorn och forskare. De ansvarar för officiell statistik och annan statlig statistik, och jobbar med att samordna systemet för den officiella statistiken i Sverige. SCB är kvalitetscertifierade enligt ISO 20252:2012 för marknads-, opinions- och samhällsundersökningar, vilket innebär att de uppfyller grundläggande kvalitetskrav vid framställning av statistik. (SCB 2018c)

3.2 Brottsförebyggande rådet

För att undersöka om brott har en påverkan på flyttningsbeteenden har data från brottsförebyg-gande rådet (Brå) använts. Brå är en myndighet som jobbar för att minska brottsligheten och öka tryggheten i samhället, bland annat genom att ta fram fakta och sprida kunskap om brottslighet och brottsförebyggande arbete. Brå ansvarar för den officiella kriminalstatistiken, utvärderar refor-mer, bedriver forskning för att ta fram ny kunskap och stödjer lokalt brottsförebyggande arbete. Brås målgrupper är beslutsfattare, anställda inom rättsväsendet, brottsförebyggande aktörer och när det kommer till den officiella kriminalstatistiken även allmänheten. (BRÅ 2018a)

3.3 Skolverket

För att undersöka hur antalet skolor har en effekt på flyttbeteenden används data från Skolverket. Skolverket är en myndighet som jobbar för att alla barn och elever ska få tillgång till en utbild-ning och verksamhet som är likvärdig och av god kvalitet i en trygg miljö. Skolverket tar fram kunskapskrav, föreskrifter, allmänna råd och nationella prov och ansvarar för svenskt deltagande i internationella kunskapsmätningar. Skolverket utfärdar även legitimationer för lärare och förs-kollärare. De jobbar också med gymnasiala yrkesutbildningar och kvalitén på dessa. Utöver detta ansvarar skolverket för den officiella statistiken på skolområdet och gör nationella uppföljningar och utvärderingar. (Skolverket 2016)

3.4 Variabler

Samtliga variabler är mätta på kommunnivå år 2015. 3.4.1 Regressander

Flyttningsnetto Data över befolkningsändringen som skett under ett år genom flyttning, per capita. Det vill säga antal inflyttade minus antal utflyttade individer per capita. (SCB 2018a)

Inflyttning Antal inflyttade individer per capita. (SCB 2018a) Utflyttning Antal utflyttade individer per capita. (SCB 2018a) 3.4.2 Regressorer

Arbetar i hemkommun Antal personer som jobbar i samma kommun som de bor i per capita. (SCB 2017a)

Arbetslösa Antal arbetslösa i åldern 20-64 per capita. (SCB 2017b) Befolkningstäthet Antal invånare per kvadratkilometer. (SCB 2018d)

(16)

Bostadspriser Köpeskilling medelvärde för permanentbostäder (utan tomträtt) uttryckt i tusental kronor. (SCB 2017c)

Brott Antalet anmälda brott per capita. (BRÅ 2018b) Dödsfall Antal dödsfall per capita. (SCB 2018f)

Folkmängd Antal invånare i kommun. (SCB 2018g)

Högutbildade Antal personer med minst 3 års högskoleutbildning i åldrarna 16-74 per capita. (SCB 2017d)

Kommunalskatt Kommunalskatt i procent. (SCB 2017e)

Medelinkomst Medelvärde av årsnettoinkomst för personer 20 år och äldre. (SCB 2018h) Pendlare Antal personer som pendlar från hemkommunen per capita. (SCB 2017a) Skolenheter Antal grundskolor per capita. (Skolverket 2018)

Studerande Antal registrerade studenter i olika skolformer under höstterminen i åld-rarna 20-64 per capita. (SCB 2018i)

3.5 Tidigare studier på området

För att se hur väl resultaten från denna analys stämmer överens med tidigare studier på områ-det har en kort sammanställning av relevanta teorier från dessa gjorts. Främst har “Flyttning och pendling i Sverige” (Bystedt 2008) använts som källa för detta. Utredningen berör både flyttning och pendling där flyttningsdelen är baserad på ett fyrtiotal arbeten som berör området och ger även en summering av ofta förekommande teorier och trender. Denna utredning är en långtidsut-redning som baserar sig på åren 1974-2005, eventuellt kan detta innebära att förändringar skett i hur flyttningen sker för år 2015. På grund av detta har även en kortare rapport (SCB 2016) sam-manställd av enheten för befolkningsstatistik på SCB analyserats. Rapporten analyserar Sveriges flyttningsstatistik från 2015.

Tidigare forskning tyder på att unga personer och högutbildade är den mest rörliga gruppen. Flyttningsbenägenheten minskar med åldern och ökar med utbildningsnivå. Den åldersgrupp som är mest benägen till att flytta är individer mellan 20-29 år. Förklaringen som ges till detta är att högskolesektorn har expanderat mycket och snabbt under senare år, vilket har resulterat i fler flyttningar både till och från högskolestudier. (Bystedt 2008)

1974-2005 har många av flyttningarna skett från mindre till större kommuner. Denna trend har drabbat småkommunerna som många år redovisat en nettoutflyttning dessa år. Under senare år har dock denna trend justerats då många av dessa kommuner tagit emot flyktingar och på så vis fått en nettoinflyttning. För 2015, när det kommer till flyttningen inrikes visade storstadskommunerna Stockholm, Göteborg och Malmö ett negativt flyttningsnetto, och förortskommunerna visade det största positiva flyttningsnettot. Inflyttningen från andra länder bidrog dock till att storstäderna fick ett positivt flyttningsnetto. (Bystedt 2008) (SCB 2016)

Personer som träder in på arbetsmarknaden och personer som saknar arbete är också mer be-nägna att flytta. Generellt när det kommer till flyttningar så ökar vanligen arbetsinkomsterna efter flyttning, för perioden 1974-2005 var denna ökning i genomsnitt ca. 3-6 procent. (Bystedt 2008)

3.6 Begränsnigar

(17)

För en del variabler som från början var tänkta att undersökas hittades ingen data på kommunnivå och för en del hittades ingen data alls. I vissa fall valdes alternativa variabler för dessa och i andra fall exkluderades de helt.

I och med att kommunerna är olika stora så hade det varit önskvärt att dela upp storstäderna i olika stadsdelar. För en del av variablerna fanns data för stadsdelar men för andra variabler fanns endast data på kommunnivå. I och med detta gjordes valet att endast använda kommuner som indelning.

(18)

4 Genomförande

Modellframtagningen utfördes först med nettoflyttningar som regressand. Det insågs väldigt snabbt att denna data inte var särskilt lämpad för den analys som skulle genomföras, därför lades större vikt vid modellerna där regressanden är inflyttning eller utflyttning.

För att lättare jämföra parametrarna standardiserades samtliga regressorer. Sedan, i och med att variablerna “Pendlare” och “Arbetar i hemkommun” är mycket starkt korrelerade undersöktes vilken av dessa två som gav upphov till den bästa modellen. “Arbetar i hemkommun” gav en högre förklaringsgrad och därför valdes variabeln ”Pendlare” bort som en potentiell regressor.

Genom undersöka residualerna skapades plottar för att kontrollera om någon av variablerna var i behov av transformation. Det visade sig att flera variabler skulle gynnas av en transformation så det skapades nya datamängder med transformerade variabler.

Efter detta undersöktes hur mycket multikollinearitet som fanns i datamängderna. Det visade sig att det fanns så pass mycket multikollinearitet att det behövde tas hänsyn till i den kommande variabelselektionen.

Residualerna analyserades sedan även med QQ-plotar för se vilka modeller som uppfyllde kra-ven på residualernas normalfördelning.

Genom att sedan analysera datamängderna med Cook’s distance kunde det konstateras att mo-dellerna skulle kunna få problem med outliers och inflytelserika punkter. Många av de borttagna datapunkterna motsvarade kommuner med hög folkmängd vilket medförde att modellerna inte tog hänsyn till en stor del av befolkningen. Utifrån detta beslutades det att det bästa vore att skapa både modeller innehållandes alla observationer och modeller med outliers borttagna.

Med detta som bakgrund beslutades det att 13 modeller skulle tas fram. En modell för nettoflytt-ning utan transformer och med samtliga kommuner. För in- och utflyttnettoflytt-ning skapades sex modeller vardera, av dessa sex modeller innehöll tre modeller alla kommuner och för tre modeller hade out-liers tagits bort. Samtliga grupper av tre modeller bestod av data som hade behandlats på följande sätt:

En modell var helt utan transformer.

En modell bestod av transformer på vissa av regressorerna.

En modell bestod av transformer på vissa av regressorerna och på regressanden.

Efter detta genomfördes en variabelselektion med hjälp av lasso för varje modell. Sedan anpassades en multipel linjär regressionsmodell med minsta kvadratmetoden, för de variabler som tagits fram med hjälp av lasso. De variabler som inte uppfyllde kravet på en signifikansnivå på minst 0.05 valdes sedan bort och en ny modell anpassades utan dessa variabler.

Sedan gjordes en stegvis regression i form av framåtselektion där samtliga nya potentiella model-ler som uppfyllde kraven testades ytterligare, inte bara den modell som gav högst förklaringsgrad. Därefter följde en bakåteliminering av variabler med för låg signifikansnivå eller för högt VIF-värde på de nya potentiella modellerna. Denna process upprepades sedan för de nya modellerna tills dess att framåtselektionen inte gav någon ny signifikant variabel. Alla modeller som uppfyllde kraven jämfördes sedan och den med högst förklaringsgrad (R2

(19)

5 Resultat

5.1 Transformer

I figur 1 är residualerna plottade för de variabler där residualerna inte verkar vara normalfördelade, residualerna kommer från en modell med samtliga regressorer efter att de standardiserats med avseende på responsvariabeln utflyttning. För dessa variabler gjordes en log-transformation (avsnitt 2.3) för att sedan anpassa en ny utflyttningsmodell med de transformerade variablerna. Sedan plottades residualerna på nytt i figur 2 för dessa.

(20)
(21)

5.2 Kollinearitet

I figur 3 och 4 beskrivs korrelationen mellan samtliga regressorer. Värdena representerar hur stark korrelationen är och motsvaras av de röda och blå cirklarna som ger en tydligare visuell överblick av multikollineariteten (avsnitt 2.5). En röd färg på cirklarna representerar ett negativt samband mellan regressorerna, en blå färg representerar ett positivt samband och storleken på cirklarna representerar styrkan. Värdena ger istället en mer exakt indikator på hur stor korrelationen är. Ett värde på -1 motsvarar perfekt negativ korrelation, ett värde på 1 motsvarar perfekt positiv korrelation och ett värde på 0 motsvarar ingen korrelation alls.

(22)
(23)

5.3 Flyttningsmodeller

I detta avsnitt presenteras de tretton flyttningsmodeller som tagits fram för vidare analys. Mo-dellerna presenteras nedan i form av tabeller där det som listas är, variabelnamn, deras para-meterskattning i (ekvation 11 och 4), deras VIF-värde (ekvation 16), standardfel (ekvation 12), konfidensintervall (ekvation 14), P-värde (avsnitt 2.10), modellens R2 (ekvation 22) och modellens justerade R2 (ekvation 23). För de modeller där outliers är borttagna presenteras dessa och hur stor del av folkmängden kommunerna representerar.

Variabel i (10 3) VIF Std.fel (10 3) Konf.int. (10 3) P-värde Intercept 8.38 - 0.386 ± 0.759 < 2·10 16 Folkmängd -1.96 1.86 0.527 ± 1.04 2.45·10 4 Befolkningstäthet 1.81 1.75 0.511 ± 1.01 4.84·10 4 Skolenheter -1.97 1.37 0.453 ± 0.891 1.93·10 5 Studerande 1.94 2.10 0.559 ± 1.10 6.21·10 4 Högutbildade -2.49 4.70 0.837 ± 1.65 3.13·10 3 Medelinkomst 1.51 3.16 0.687 ± 1.35 2.89·10 2 R2 0.176 Justerad R2 0.158

Modell 1: Nettoflyttningsmodell utan transformer 5.3.1 Inflyttningsmodeller med samtliga kommuner

Variabel i (10 3) VIF Std.fel (10 3) Konf.int. (10 3) P-värde Intercept 64.3 - 0.650 ± 1.28 < 2·10 16 Folkmängd -5.53 2.36 1.00 ± 1.97 7.42·10 8 Befolkningstäthet 7.58 2.15 0.956 ± 1.88 5.03·10 14 Arbetar i hemkommun -9.38 1.67 0.842 ± 1.66 < 2·10 16 Brott 3.45 1.76 0.864 ± 1.70 8.43·10 5 Studerande 7.43 2.00 0.921 ± 1.81 2.16·10 14 Dödsfall 2.27 2.03 1.11 ± 1.83 1.49·10 2 Högutbildade -3.73 2.88 1.11 ± 2.18 8.48·10 4 R2 0.615 Justerad R2 0.605

Modell 2: Inflyttningsmodell utan transformer

Variabel i (10 3) VIF Std.fel (10 3) Konf.int. (10 3) P-värde Intercept 64.3 - 0.656 ± 1.29 < 2·10 16 Folkmängd (log) -11.1 3.35 1.20 ± 2.37 < 2·10 16 Arbetar i hemkommun -7.62 1.70 0.856 ± 1.68 < 2·10 16 Brott 6.83 1.71 0.859 ± 1.69 4.59·10 14 Studerande (log) 8.48 1.84 0.892 ± 1.76 < 2·10 16 Skolenheter -1.77 1.84 0.892 ± 1.76 4.79·10 2 Medelinkomst (log) 2.38 2.12 0.956 ± 1.88 1.34·10 2 R2 0.606 Justerad R2 0.598

(24)

Variabel i (10 1) VIF Std.fel (10 1) Konf.int. (10 1) P-värde Intercept -27.8 - 0.089 ± 0.176 < 2·10 16 Folkmängd (log) -1.54 3.35 0.164 ± 0.323 < 2·10 16 Arbetar i hemkommun -1.20 1.70 0.117 ± 0.230 < 2·10 16 Brott 0.894 1.71 0.117 ± 0.230 3.58·10 13 Studerande (log) 1.21 1.84 0.122 ± 0.239 < 2·10 16 Medelinkomst (log) 0.299 2.12 0.130 ± 0.257 2.25·10 2 Skolenheter -0.240 1.84 0.122 ± 0.239 4.96·10 2 R2 0.634 Justerad R2 0.626

Modell 4: Inflyttningsmodell med x- och y-transformer 5.3.2 Inflyttningsmodeller då outliers är borttagna

De outliers som har tagits bort för följande modell är, Danderyd, Stockholm, Göteborg, Solna, Malmö, Sundbyberg, Ljusnarsberg, Uppvidinge, Åre, Skinnskatteberg, Norberg och Uppsala, vilket motsvarar 22.3% av befolkningen 2015.

Variabel i (10 3) VIF Std.fel (10 3) Konf.int. (10 3) P-värde Intercept 62.6 - 0.596 ± 1.17 < 2·10 16 Folkmängd -15.2 3.20 2.36 ± 4.65 5.94·10 10 Befolkningstäthet 5.71 1.88 2.00 ± 3.94 4.67·10 3 Arbetar i hemkommun -7.99 1.63 0.710 ± 1.40 < 2·10 16 Brott 3.95 1.59 0.763 ± 1.50 4.27·10 7 Studerande 8.62 2.00 0.836 ± 1.64 < 2·10 16 Högutbildade -2.15 2.74 1.03 ± 2.03 3.86·10 2 R2 0.616 Justerad R2 0.607

Modell 5: Inflyttningsmodell utan transformer med outliers borttagna

De outliers som har tagits bort för följande modell är, Solna, Danderyd, Sundbyberg, Ljusnarsberg, Uppvidinge, Åre och Bjurholm, vilket motsvarar 1.85% av befolkningen 2015.

Variabel i (10 3) VIF Std.fel (10 3) Konf.int. (10 3) P-värde Intercept 64.3 - 0.656 ± 1.29 < 2·10 16 Folkmängd (log) -11.1 3.35 1.20 ± 2.37 < 2·10 16 Arbetar i hemkommun -7.62 1.70 0.856 ± 1.68 < 2·10 16 Brott 6.83 1.71 0.859 ± 1.69 4.59·10 14 Studerande (log) 8.48 1.84 0.892 ± 1.76 < 2·10 16 Skolenheter -1.77 1.84 0.892 ± 1.76 4.79·10 2 Medelinkomst (log) 2.38 2.12 0.956 ± 1.88 1.34·10 2 R2 0.606 Justerad R2 0.598

Modell 6: Inflyttningsmodell med x-transformer med outliers borttagna

(25)

Variabel i (10 1) VIF Std.fel (10 1) Konf.int. (10 1) P-värde Intercept -27.8 - 0.0818 ± 0.161 < 2·10 16 Folkmängd (log) -1.75 3.91 0.163 ± 0.321 < 2·10 16 Medelinkomst (log) 0.464 2.45 0.142 ± 0.279 1.21·10 3 Arbetar i hemkommun -1.13 1.76 0.109 ± 0.215 < 2·10 16 Skolenheter -0.294 1.88 0.112 ± 0.221 9.40·10 3 Brott 0.923 1.75 0.109 ± 0.214 1.33·10 15 Studerande (log) 1.26 1.90 0.113 ± 0.223 < 2·10 16 R2 0.676 Justerad R2 0.669

Modell 7: Inflyttningsmodell med x- och y-transformer med outliers borttagna 5.3.3 Utflyttningsmodeller samtliga kommuner

Variabel i (10 3) VIF Std.fel (10 3) Konf.int. (10 3) P-värde Intercept 55.9 - 0.619 ± 1.22 < 2·10 16 Folkmängd -3.47 2.45 0.969 ± 1.91 4.11·10 4 Befolkningstäthet 6.10 2.15 0.909 ± 1.79 1.09·10 10 Arbetar i hemkommun -8.73 1.85 0.843 ± 1.66 < 2·10 16 Brott 3.23 1.86 0.846 ± 1.66 1.63·10 4 Studerande 6.43 2.37 0.954 ± 1.88 8.85·10 11 Dödsfall 2.26 2.43 0.965 ± 1.90 1.98·10 2 Bilar 2.38 3.19 1.11 ± 2.18 3.24·10 2 Högutbildade -2.37 2.88 1.05 ± 2.07 2.51·10 2 R2 0.547 Justerad R2 0.535

Modell 8: Utflyttningsmodell utan transformer

Variabel i (10 3) VIF Std.fel (10 3) Konf.int. (10 3) P-värde Intercept 55.9 - 0.616 ± 1.21 < 2·10 16 Folkmängd (log) -10.0 3.62 1.17 ± 2.31 8.84·10 16 Arbetar i hemkommun -6.85 1.26 0.692 ± 1.36 < 2·10 16 Brott 6.54 1.77 0.819 ± 1.61 3.70·10 14 Studerande (log) 6.32 1.84 0.837 ± 1.65 5.70·10 13 Högutbildade (log) 2.60 2.72 1.02 ± 2.00 1.11·10 2 R2 0.547 Justerad R2 0.539

Modell 9: Utflyttningsmodell med x-transformer

Variabel i (10 1) VIF Std.fel (10 1) Konf.int. (10 1) P-värde Intercept -29.2 - 0.0959 ± 0.189 < 2·10 16 Folkmängd (log) -1.62 3.62 0.183 ± 0.359 < 2·10 16 Arbetar i hemkommun -1.19 1.26 0.108 ± 0.212 < 2·10 16 Brott 0.958 1.77 0.128 ± 0.251 7.86·10 13 Studerande (log) 1.05 1.84 0.130 ± 0.256 2.15·10 14 Högutbildade (log) 0.380 2.72 0.158 ± 0.312 1.70·10 2 R2 0.571 Justerad R2 0.563

(26)

5.3.4 Utflyttningsmodeller outliers borttagna

De outliers som har tagits bort för följande modell är, Sundbyberg, Solna, Stockholm, Göteborg, Ljusnarsberg, Malmö, Storfors, Danderyd, Uppvidinge, Norberg, Huddinge, Skinnskatteberg, Laxå och Åre, vilket motsvarar 21.3% av befolkningen 2015.

Variabel i (10 3) VIF Std.fel (10 3) Konf.int. (10 3) P-värde Intercept 54.0 - 0.532 ± 1.05 < 2·10 16 Folkmängd -11.9 2.66 1.84 ± 3.62 4.01·10 10 Befolkningstäthet 3.95 1.56 1.69 ± 3.32 2.00·10 2 Arbetar i hemkommun -6.43 2.08 0.656 ± 1.29 < 2·10 16 Skolenheter 1.86 1.69 0.640 ± 1.26 3.86·10 3 Brott 3.27 1.59 0.645 ± 1.27 7.51·10 7 Studerande 6.65 1.34 0.738 ± 1.45 < 2·10 16 R2 0.538 Justerad R2 0.527

Modell 11: Utflyttningsmodell utan transformer med outliers borttagna

De outliers som har tagits bort för följande modell är, Solna, Ljusnarsberg, Sundbyberg, Uppvi-dinge, Stockholm, Lund, Bjurholm, Åre, Storfors och Åsele, vilket motsvarar 12.1% av befolkningen 2015.

Variabel i (10 3) VIF Std.fel (10 3) Konf.int. (10 3) P-värde Intercept 55.0 - 0.501 ± 0.986 < 2·10 16 Folkmängd (log) -7.40 1.81 0.708 ± 1.39 < 2·10 16 Arbetar i hemkommun -7.10 1.02 0.509 ± 1.00 < 2·10 16 Brott 4.52 1.46 0.641 ± 1.26 1.48·10 11 Studerande (log) 6.04 1.79 0.698 ± 1.37 4.55·10 16 R2 0.578 Justerad R2 0.572

Modell 12: Utflyttningsmodell med x-transformer med outliers borttagna

De outliers som har tagits bort för följande modell är, Solna, Stockholm, Bjurholm, Uppvidinge, Åsele och Ljusnarsberg vilket motsvarar 10.3% av befolkningen 2015.

Variabel i (10 1) VIF Std.fel (10 1) Konf.int. (10 1) P-värde Intercept -29.2 - 0.0880 ± 0.173 < 2·10 16 Folkmängd (log) -1.69 3.54 0.173 ± 0.340 < 2·10 16 Arbetar i hemkommun -1.19 1.26 0.0988 ± 0.194 < 2·10 16 Brott 0.857 1.74 0.121 ± 0.239 1.28·10 11 Studerande (log) 1.12 1.85 0.120 ± 0.237 < 2·10 16 Högutbildade (log) 0.362 2.66 0.147 ± 0.290 1.48·10 2 R2 0.608 Justerad R2 0.601

(27)

5.4 QQ-plot

I figur 5 och 6 undersöks normalfördelningen av residualerna för samtliga in- och utflyttningsmodel-ler med hjälp av QQ-plottar (avsnitt 2.4). Residuautflyttningsmodel-lerna som undersökts kommer från modelutflyttningsmodel-lerna som har presenterats ovan.

(28)
(29)

6 Diskussion

6.1 Tillförlitlighet

Från QQ-plottarna (figur 5 och 6) kan det ses att de residualer som verkar följa normalfördel-ningen bäst är de som har transformer på både regressorerna och regressanden där outliers blivit borttagna. Alla QQ-plotar med outliers borttagna verkar vara ganska normalfördelade och därmed borde teorin som detta arbetet byggs på stämma bra för dessa modeller. Det går också att se att residualerna inte helt följer en normalfördelning om man har med alla observationer och inte transformerar både regressorerna och regressanden. Vid transformering av både regressorerna och regressanden verkar normalfördelningen stämma in ganska bra.

Problemet som kan uppstå med att outliers tas bort är att vissa datapunkter är mer värdeful-la än andra datapunkter ur vissa perspektiv. Hur ställer man Bjurholm med ca. 2500 invånare i förhållande till Stockholm med nästan 1 miljon invånare? Som kan ses av resultatet som har presenterats ovan så tas endast några få outliers bort men de representerar ändå en stor del av befolkningen, detta kan innebära problem då det kan medföra att modellen inte blir representativ för hela befolkningen.

Om man tar en titt på plottarna för multikollinearitet (figur 3 och 4) så ser man att multikol-lineariteten ökar om man transformerar vissa av regressorerna. Detta kan eventuellt förklaras av att data innan transformen var samlad i ett kluster med liten variation i värdet på variabeln men med hög variation på residualerna (figur 1 och 2). Detta gör det svårare att se eventuella samband mellan dessa variabler och således minskar multikollineariteten.

Enligt tabell 1 blev modellen som skapades för nettoflyttning inte särskilt bra då modellen endast har en förklaringsgrad på 17.6% vilket gör att variablerna inte beskriver så mycket av nettoflytt-ningen. En konsekvens av detta är att andra huvudfrågan "Vilka av dessa faktorer kan påverkas av styrande för att få en önskvärd folkmängd inom regionen?" blir svår att besvara. När korsva-lideringen (avsnitt 2.8) utfördes så fanns det en så pass stor variation i prediktionsfelen att det inte gick att använda ”one standard error rule”, detta hade lett till att modellen inte hade haft några regressorer alls. Detta problem uppstod inte för någon in- eller utflyttningsmodell vilket är ytterligare ett tecken på att det är svårt att prediktera nettoflyttningen. Eftersom 1se inte gick att använda i korsvalideringen så användes istället min som värde på i lasso (avsnitt 2.7) men i övrigt var genomförandet detsamma som för de övriga modellerna.

6.2 Analys av variabler

Folkmängd finns med som parameter i samtliga modeller. Korrelationen är negativ med alla typer av flyttning. Det betyder att större kommuner har mindre rörlighet över kommungränser och att andelen nettoflyttningar är lägre för större kommuner. Att nettoflyttningen är negativ säger delvis emot teorier om urbanisering, men dessa teorier är vanligtvis gjorda på antal flyttningar och inte den procentuella ökningen för kommunen på grund av flyttning (Bystedt 2008). Från rapporten om flyttning 2015 ser man också att nettoflyttingen till storstadskommunerna var låg i förhållande till övriga kommuner vilket är en ytterligare förklaring på detta resultat (SCB 2016). Men som tidigare nämnts är tillförlitligheten för denna modell betydligt lägre än de övriga vilket gör resul-taten osäkra.

Studerande är med i samtliga flyttningsmodeller. Variabeln har ett positivt samband med regres-sanden i samtliga modeller, vilket innebär att kommuner med många studerande har mer rörlighet. Detta stämmer överens med tidigare studier, som säger att det är vanligt att flytta till student-städer och närliggande kommuner för att påbörja studier och sedan från området då studierna är avslutade (Bystedt 2008). Att andelen studenter i en kommun är positivt korrelerad med net-toflyttningen betyder att folkmängdsökningen som beror av flyttningar är större i kommuner med hög andel studenter.

(30)

ne-gativt korrelerad med både inflyttning och utflyttning. Detta i kombination med att variablerna ”arbetar i hemkommun” och ”pendlare” är starkt negativt korrelerade leder till att pendlare är po-sitivt korrelerad med in- och utflyttning. Detta resultat innebär att personer som jobbar i samma kommun som de bor i är mindre benägna att flytta till en annan kommun samt att pendlare är mer benägna att flytta till en ny kommun, vilket stämmer överens med vad teorin från tidigare studier på området säger. (Bystedt 2008)

Brott är med i samtliga in- och utflyttningsmodeller och är positivt korrelerad med regressan-den i dessa. Detta betyder att rörligheten ökar i områregressan-den där många brott polisanmäls.

Högutbildade är med i sju modeller; 1, 2, 5, 8, 9, 10 och 13. Vilket motsvarar nettoflyttning, inflyttning utan transformer med och utan outliers, samtliga utflyttningsmodeller med alla kom-muner, och utflyttningsmodellen med x- och y-transformer då outliers är borttagna. Variabeln har en negativ parameterskattning i netto- och inflyttningsmodellerna samt utflyttningsmodellen med samtliga kommuner utan transformer. För de övriga utflyttningsmodellerna är parameterskattning-en positiv. När det kommer till utflyttning är resultatparameterskattning-en från modellerna motstridiga. Det finns parameterskattning-en modell med en negativ skattning på parametern och övriga tre modeller har en positiv skattning. Genom att analysera QQ-plottarna för dessa modeller så kan det ses att de modeller som bäst uppfyller normalfördelningskraven är de med positiv skattning. Utifrån allt detta är mest troligt att parametern egentligen har en positiv korrelation med regressanden men det är svårt att be-stämma detta med säkerhet. Om man gör detta antagande att inflyttningen är negativt korrelerad och utflyttningen är positivt korrelerad stämmer dessa resultat överens med ett negativt samband med nettoflyttningen, variabeln har dock ett VIF-värde på 4.70 i denna modell vilket även här gör resultaten osäkra. Ser man på teorin ska högutbildade vara en grupp som är mer flyttbenägen och variabeln är med i flera modeller men det är svårt att dra några slutsatser till detta då resultaten från denna variabel är så pass osäkra.

Skolenheter är med i modell 1, 3, 4, 6, 7 och 11. Med andra ord finns den i nettoflyttningsmo-dellen, alla inflyttningsmodeller som har någon form av transform och utflyttningsmodellen med borttagna outliers och ingen transform. Parametern i dessa modeller är negativ i alla modeller för-utom utflyttningsmodellen. Att inflyttningen är negativt korrelerad och utflyttningen är positivt korrelerad tyder på att fler flyttar från områden som har en högre andel grundskolor per invånare vilket även bekräftas av den negativa korrelationen i nettomodellen.

Befolkningstäthet är med i modell 1, 2, 5, 8 och 11 vilket betyder att den är med i alla modeller som inte har transformationer. För samtliga modeller är den positivt korrelerad vilket innebär att kommuner med högre befolkningstäthet har större rörlighet. När det kommer till den positiva kor-relationen med nettoflyttning stämmer resultatet överens med teorin om urbanisering. Men från residualplotten i figur 1 kan man dra slutsatsen att resultaten från denna variabel är osäkra på grund av residualernas fördelning innan logaritmering och därför är en slutsats svår att dra. Medelinkomst är med i modell 1, 3, 4, 6 och 7. Detta motsvarar nettoflyttningsmodellen och alla inflyttningsmodeller som har någon form av transform. Den är positivt korrelerad i alla mo-deller. Detta tyder på att individer vill flytta in i kommuner där medelinkomsten är högre. Detta bekräftas även av nettomodellen och att den inte är med i någon utflyttningsmodell.

Dödsfall finns med i två modeller, 2 och 8, vilket är in- och utflyttningsmodellerna med alla kommuner och utan transform. Den är positivt korrelerad med flyttningen i dessa modeller. I båda fallen är variabeln med i de modeller där residualerna (figur 5 och 6) har sämst normalfördelning vilket gör det svårt att dra några slutsatser.

(31)

Bostadspriser finns inte med i någon modell alls. Detta kan bero på att variabeln är väldigt starkt korrelerad med de många av de övriga regressorerna.

Arbetslösa är inte med i någon av modellerna. Enligt teorin ska arbetslösa vara en mer rörlig grupp än genomsnittsbefolkningen, men från modellerna går det alltså inte att dra några slutsat-ser om detta.

Kommunalskatt är inte med i någon modell och verkar inte ha någon betydelsefull inverkan på flyttningsbeteenden i jämförelse med de övriga variablerna.

6.3 Alternativa förklaringar

Orsakerna till att en individ väljer att flytta från en kommun till en annan varierar mycket från person till person. Denna rapport analyserar flyttningsbeteenden på en samhällsnivå istället för en analys på individnivå. Utifrån detta kan man göra generaliseringar av befolkningen men dessa täcker inte alla individuella behov och orsaker till flyttningar.

Genom att anpassa data med multipel linjär regression görs antagandet att alla samband är linjära. I verkligheten är detta sällan fallet då sambanden ofta är betydligt mer komplexa. Linjäriseringen ska då ses som en förenkling som gör datamängden lätt att tolka matematisk vilket ger endast en uppskattning av de verkliga sambanden.

6.4 Vidare forskning

Detta arbete ska endast ses som ett inledning till ett större område. Det finns betydligt fler variab-ler som kan tas i beaktande och en djupare analys på området går definitivt att göra. Området är väldigt komplext vilket gör en fullständig analys svår, även med mer sofistikerade metoder. Nedan ges några förslag som skulle kunna tänkas vara intressanta.

Att analysera hur variationen av dessa faktorer beror på tiden är något som inte tagits i beaktande i denna rapport. Genom att använda tidsserier kan man analysera hur variablerna påverkas av tid och på så vis identifiera trender och se hur variablernas inflytande har förändrats. Alternativt kan man analysera hur faktorernas tidigare värden påverkar flyttningen för senare år och hur samhäl-lets försök till att påverka dessa faktorer inverkar på flyttningen. Om det exempelvis hade skett en stor satsning på det polisiära för att minska brottsligheten hade det varit intressant att se om detta påverkar flyttningsbeteenden, då brottsligheten är starkt korrelerad med rörligheten till och från olika kommuner (avsnitt 6.2). En intressant aspekt av detta är att undersöka om och i så fall i vilket skede av den polisiära förändringen flyttningsbeteenden påverkas. Detta kan vara intressant för beslutsfattare då samhällsnyttan av offentliga satsningar bättre skulle kunna förutspås om man känner till dessa effekter och deras fördröjning.

(32)

7 Slutsats

Från det som tidigare diskuterats ses att flyttning är ett komplext system med många olika fakto-rer som påverkar och det finns betydligt fler variabler som skulle kunna undersökas utöver de som behandlas i denna rapport.

När det kommer till nettoflyttningen var denna svårare att skatta än in- och utflyttningen. Modellen för nettoflyttning gav endast en förklaringsgrad (R2) på 18% och för in- och utflyttningsmodellerna var förklaringsgraden 54-68% och motsvarande värden för den justerade förklaringsgraden (R2

Adj) blev 16% och 53-67%. Detta innebär att in- och utflyttningen har beskrivits bra av modellerna medan nettoflyttningsmodellen inte lyckats beskriva verkligheten lika bra. I och med detta är det svårt att besvara projektets andra huvudfråga; "Vilka av dessa faktorer kan påverkas av styrande för att få en önskvärd folkmängd inom regionen?".

För in- och utflyttningsmodellerna ses att antagandet om residualernas normalfördelning uppfylls bättre för de modeller där outliers blivit borttagna och där transformer sker på både regressorerna och regressanden. Detta gör att dessa modeller är de mest tillförlitliga och resultaten är mer säkra ur ett statistiskt perspektiv. För en del av modellerna representerade de borttagna kommunerna en stor del av befolkningen (som mest ca. 22%) vilket gör att dessa modeller exkluderar en stor del av Sveriges befolkning. I och med att varje modell beskriver flyttningen ur olika perspektiv har samtliga modeller analyserats.

För att besvara första huvudfrågan ”Vilka faktorer påverkar flyttningsbeteenden mellan Sveriges kommuner?” undersöktes vilka variabler som var med i de framtagna modellerna. Av dessa variab-ler var de som förklarar flyttningen mest folkmängden med ett negativt samband, studerande med ett positivt samband, arbetar i hemkommun med ett negativt samband och brott med ett positivt samband. Dessa variabler är med i samtliga in- och utflyttningsmodeller och har samma tecken på parameterskattningen i samtliga modeller. Eftersom de har samma tecken är det alltså främst rörligheten i kommunen som man kan se ett samband med när det kommer till dessa variabler. När det kommer till medelinkomst finns ett positivt samband med inflyttningen vilket tyder på att många vill flytta till kommuner med hög medelinkomst. Skolenheter har ett negativt samband med in- och nettoflyttning och ett positivt samband med utflyttning vilket indikerar att många flyttar till kommuner med få skolenheter per capita. Från övriga variabler går det inte att dra lika tydliga slutsatser som för de som beskrivs ovan.

Av de regressorer som valts ut är det många som är korrelerade och därför beskrivs en del va-riabler till stor del av andra. Detta gör analysen svårare och måste tas i beaktande genom hela modellframtagningen. Arbetar i hemkommun och pendlare är så pass starkt korrelerade att de praktiskt taget kan bytas ut mot varandra med ombytt tecken.

(33)

8 Referenser

Böcker

Montgomery, Douglas C., Peck, Elizabeth A. och Vining, G. Geoffrey (2012). Introduction to Linear Regression Analysis. Fifth Edition. WILEY.

Gareth, James, Witten, Daniela, Hastie, Trevor och Tibshirani, Robert (2013). An Introduction to Statistical Learning. Springer.

Rapporter

Bystedt, Fredrik (2008). Flyttning och pendling i Sverige. url: http://www.regeringen.se/ contentassets/4b92473a96d544c68b9dfb4e86cbb013/sou-200735-flyttning-och-pendling-i-sverige (hämtad 2018-04-19).

SCB (2016). Vanligt att flytta från kommunen man invandrat till. url: https://www.scb.se/ sv_/Hitta-statistik/Artiklar/Vanligt-att-flytta-fran-kommunen-man-invandrat-till/ (hämtad 2018-04-19).

Börjeson, Love och Runfeldt, Stefan (2017). Unga vuxnas boende 2017. url: http://hurvibor. se/wp-content/uploads/Ungavuxna_riks_2017.pdf (hämtad 2018-05-10).

Palmgren, Hans-Åke, Liu, Vanessa, Mogren, Rebecka, Jonsson, Hans, Dyberg-Ek, Anna och Borg-ström Åkesson, Lisa (2017). Boverkets Indikatorer-maj-2017. url: http://www.boverket.se/ sv/om-boverket/publicerat-av-boverket/publikationer/2017/boverkets-indikatorer-maj-2017/ (hämtad 2018-05-10).

Artiklar

Hyresgästföreningen (2017). Bostadsbristen slår nya rekord. url: http://hurvibor.se/bostader/ bostadsbristen/ (hämtad 2018-05-08).

SCB (2018b). Från massutvandring till rekordinvandring. url: http : / / www . scb . se / hitta -statistik/sverige-i-siffror/manniskorna-i-sverige/in-och-utvandring/ (hämtad 2018-05-08).

— (2018c). Om SCB. url: http://www.scb.se/om-scb/ (hämtad 2018-04-19).

BRÅ (2018a). Om Brottsförebyggande rådet. url: https://www.bra.se/om-bra.html (hämtad 2018-04-19).

Skolverket (2016). Det här gör Skolverket. url: https://www.skolverket.se/om-skolverket/ det-har-gor-skolverket-1.61165 (hämtad 2018-04-19).

Datakällor

SCB (2018a). Flyttningar efter födelseregion, region, ålder och kön. År 2002 - 2017. http://www. statistikdatabasen.scb.se/goto/sv/ssd/FlyttFodReg. (Hämtad 2018-03-26).

— (2017a). Förvärvsarbetande pendlare 16+ år över kommungräns (RAMS) efter kommun och kön. År 2004 - 2016. http://www.statistikdatabasen.scb.se/goto/sv/ssd/PendlingK. (Hämtad 2018-03-26).

— (2017b). Arbetsmarknadsvariabler efter kommun. År 1997 - 2015. http://www.statistikdatabasen. scb.se/goto/sv/ssd/IntGr1KomN. (Hämtad 2018-03-26).

— (2018d). Befolkningstäthet (invånare per kvadratkilometer), folkmängd och landareal efter re-gion och kön. År 1991 - 2017. http://www.statistikdatabasen.scb.se/goto/sv/ssd/ BefArealTathetKon. (Hämtad 2018-03-26).

— (2018e). Personbilar i trafik efter län och kommun samt ägande. År 2002 - 2017. http://www. statistikdatabasen.scb.se/goto/sv/ssd/PersBilarA. (Hämtad 2018-03-26).

(34)

BRÅ (2018b). Anmälda brott: Årsvis - Kommun och storstädernas stadsdelar 1996-. http : / / statistik.bra.se/solwebb/action/index. (Hämtad 2018-03-26).

SCB (2018f). Döda efter region, ålder (efter födelseår) och kön. År 1968 - 2017. http://www. statistikdatabasen.scb.se/goto/sv/ssd/DodaFodelsearK. (Hämtad 2018-03-29).

— (2018g). Folkmängden efter region, civilstånd, ålder och kön. År 1968 - 2017. http://www. statistikdatabasen.scb.se/goto/sv/ssd/BefolkningNy. (Hämtad 2018-03-26).

— (2017d). Befolkning 16-74 år efter region, utbildningsnivå, ålder och kön. År 1985 - 2016. http://www.statistikdatabasen.scb.se/goto/sv/ssd/Utbildning. (Hämtad 2018-03-29). — (2017e). Kommunalskatteuppgifter efter region. År 2000 - 2018. http://www.statistikdatabasen.

scb.se/goto/sv/ssd/Kommunalskatter2000. (Hämtad 2018-03-26).

— (2018h). Nettoinkomst för boende i Sverige hela året (antal personer, medel- och medianinkomst samt totalsumma) efter region, kön och ålder. År 2000 - 2016. http://www.statistikdatabasen. scb.se/goto/sv/ssd/NetInk02. (Hämtad 2018-03-26).

Skolverket (2018). Jämförelsetal, Skolenheter, antal, 1993-. http://www.jmftal.artisan.se. (Hämtad 2018-03-26).

(35)
(36)

References

Related documents

En fritidspedagog tar upp att hon är osäker på om man kan göra en anmälan som grundar sig på hur föräldrarna talar till barnet eller om de stressar barnet eller ifall

Detta för att få en ökad förståelse för betydelsen av föräldrars skönlitterära läsning tillsammans med sina barn och hur den gemensamma läsningen kan

Här redogörs för vad det innebär att kunna läsa och skriva, olika faktorer som främjar läs- och skrivutveckling samt hur man främjar alla elevers läs- och skrivutveckling..

För att en person inte ska kunna hållas ansvarig för innehav av narkotika genom underlåtenhet eller passivitet, krävs i princip att personen går till polisen så snart

I relation till detta finns en viss oro för att eleverna inte har tillräckliga ämneskunskaper för att kunna tillgodogöra sig ämnesövergripande undervisning, eller som Nichols

Det sker mycket arbete för att alla ska känna sig välkomna på bibblan, och många bibliotekarier jobbar för ett mer inkluderande och rättvist kulturliv.. Det görs mycket men

Uppkomsten av det vertikala nätverket kan emellertid inte enbart förklaras med att gräsrotsrörelserna skapade legitimitet genom att motivera sitt motstånd med samma argument som

Pedagogerna lyfter fram exempel där flickor och pojkar blir bemötta utifrån de traditionella förväntningar som finns kring kön. Att pedagoger i förskolan är medvetna om