Följdinvandring och medborgarskap : en statistisk analys

(1)

Magisteruppsats i Statistik

Följdinvandring och

Medborgarskap

- en statistisk analys

(2)

(3)

Abstract

During the last years around 100 000 immigrants have arrived to Sweden, people with different reasons and different goals for settling down in Sweden. The reason for immigrating to Sweden that will be dealt with in this thesis is following immigration, i.e. when someone moves here because they have relatives living in the country.

The reason why it is interesting to study following immigration is that it is an affecting factor for how many that will immigrate to Sweden the following years and may then be used to make a forecast, based on how many first time immigrants there are. To be able to investigate the following immigration analyses are made with time series, logistic regression and Poisson regression. An ARIMA-model has been used to estimate the number of following immigrants in the future.

The other part of this thesis will inquire the matter how inclined immigrants are to become Swedish citizens, whether they even apply for citizenship and also how long time it takes from the time when they fulfil the conditions for Swedish citizenship until they apply. Here also multiple logistic regression will be used and then ordinary regression.

The most common reason for permitted residence in Sweden is following immigration. Following immigration has increased since 1998, mainly over the last years there has been a substantial immigration increase. It is difficult to predict how the immigration will develop during the following years due to the occurred growth of immigrants at the end of the study period. Since 1998 about 5% of the persons that have got permitted residence in Sweden are association persons. Most common to be an association person is an older man and the reason he got permitted residence was asylum. The association persons have in average 3,16 following immigrants tied to them.

To be Swedish citizen through naturalization there are conditions that need to be fulfilled, for example, the immigrant has to have been settled in Sweden for a certain time. For the immigrants that fulfil this time condition there are about 79 % that apply for Swedish citizenship. The largest probability that an immigrant apply for citizenship occur if the

(4)

person is young, woman and following immigrant. The ones that apply for citizenship are waiting in average 57 days until they are applying after they fulfil the time condition.

(5)

Sammanfattning

Under 2008 invandrade drygt 100 000 personer till Sverige, personer som invandrade av olika skäl och med olika mål med sin bosättning i Sverige. Den anledning för invandring till Sverige som framförallt behandlas i den här uppsatsen är att man har anhöriga i landet, vilket kallas följdinvandring.

Anledningen till att det är intressant att studera följdinvandring är att det är en påverkande faktor för hur många som kommer att invandra till Sverige under kommande år och kan alltså användas för prognoser, utifrån hur stort antalet förstagångsinvandrare är. För att kunna undersöka följdinvandringen analyseras den med tidsserier, logistisk regression och Poissonregression. Till skattningar av antalet följdinvandrare i framtiden har en ARIMA-modell anpassats.

Den andra delen av uppsatsen kommer att undersöka hur benägna invandrare är att bli svenska medborgare. Av intresse är om de alls ansöker om medborgarskap och givet att de gör det hur lång tid det tar ifrån det att de uppfyller villkoren för svenskt medborgarskap till dess att de ansöker. Även här kommer logistisk regression att användas och sedan linjär regression.

En av de vanligaste anledningarna till att få uppehållstillstånd är att man är följdinvandrare. Följdinvandringen har ökat sedan 1998, framför allt under de senaste åren då en kraftig ökning kan skönjas. Att en så stark ökning inträffar i slutet av perioden gör det svårt att förutsäga hur följdinvandringen kommer utvecklas inom de närmaste åren. Av de personer som sedan 1998 fått uppehållstillstånd i Sverige är idag ungefär 5 % anknytningspersoner. Att bli anknytningsperson är vanligast om man är äldre, man och har fått uppehållstillstånd på grund av asyl. Anknytningspersonerna hade i genomsnitt 3,16 följdinvandrare knutna till sig.

För att kunna bli svensk medborgare genom naturalisation krävs bland annat att man haft sin hemvist i Sverige under en viss tid. Av dem som uppfyllt tidskravet ansöker ungefär 79 % om medborgarskap. Störst sannolikhet att en person ska ansöka om medborgarskap är

(6)

det om personen är ung, kvinna och följdinvandrare. De som ansöker om medborgarskap väntar i genomsnitt 57 dagar tills de ansöker efter det att de uppfyllt tidskravet.

(7)

Förord

Denna magisteruppsats är skriven på Institutionen för datavetenskap vid Linköpings universitet. På uppdrag av Migrationsverket i Norrköping har vi undersökt följdinvandring till Sverige och benägenheten att bli svensk medborgare.

Vi vill tacka vår uppdragsgivare Rita Ylikivelä på Migrationsverket för uppdraget och stödet vi har fått under arbetets gång. Även ett stort tack till Krister Isaksson och Bo Lundberg på Migrationsverket för hjälp till en större förståelse för ämnet och för svar på frågor som dykt upp under arbetet med analyserna.

Vidare vill vi tacka vår handledare Anders Nordgaard för bra handledning under arbetet med uppsatsen. Vi vill även tacka de andra som skrivit magisteruppsats samtidigt som oss för sällskap i datasalen och trevliga fikapauser.

Josefin Svensson och Matilda Bondesson Linköpings universitet, VT 2009.

(8)

INNEHÅLLSFÖRTECKNING 1 INLEDNING...1 1.1 BAKGRUND...1 1.2 SYFTE...2 1.3 FRÅGESTÄLLNING...2 1.4 AVGRÄNSNING...2

1.5 TIDIGARE FORSKNING INOM OMRÅDET...3

1.6 DATA...3 1.6.1 Datamaterial...4 1.6.2 Variabler i databaserna...4 1.7 NYCKELBEGREPP...6 2 STATISTISKA METODER...7 2.1 FÖLJDINVANDRING – ARIMA...7 2.2 FÖLJDINVANDRING – REGRESSION...7

2.2.1 Multipel logistisk regression...8

2.2.2 Multipel Poissonregression...8

2.3 MEDBORGARSKAP – MULTIPEL LOGISTISK REGRESSION...9

2.4 MEDBORGARSKAP – MULTIPEL LINJÄR REGRESSION...9

2.5 KVALITETSMÅTT...10

3 RESULTAT OCH TILLVÄGAGÅNGSSÄTT...13

3.1 FÖLJDINVANDRING...13

3.1.1 Tidsserie och ARIMA-modell...13

3.1.2 Stegrensad data...16

3.1.3 ARIMA-modell för stegrensad data...20

3.1.4 Prediktion...22

3.1.5 Behandling av nationalitet vid beräkning av följdinvandringskvot...24

3.1.6 Kvot vid följdinvandring...29

3.1.7 Logistisk regression för följdinvandring...31

3.1.8 Poissonregression för följdinvandring...33

3.1.9 Regression för k-klassade följdinvandrare...35

3.2 MEDBORGARSKAP...36

3.2.1 Benägenheten att ansöka om svenskt medborgarskap...36

3.2.2 Hur lång tid dröjer det tills man ansöker om svenskt medborgarskap....38

(9)

4.1 FÖLJDINVANDRING - TIDSSERIE...44 4.2 ANKNYTNINGSPERSONER...45 4.3 MEDBORGARSKAP...45 5 DISKUSSION...46 5.1 FÖLJDINVANDRING...46 5.2 MEDBORGARSKAP...47 6 REFERENSER...49 DIAGRAMFÖRTECKNING Diagram 3.1 Följdinvandring år 1998-2008...13

Diagram 3.2 Säsongsavvikelse för följdinvandring...14

Diagram 3.3 ACF...15

Diagram 3.4 PACF...15

Diagram 3.5 Beviljade uppehållstillstånd...17

Diagram 3.6 Följdinvandring respektive asyl...18

Diagram 3.7 Stegrensad respektive originaldata över följdinvandring...20

Diagram 3. 8 Logaritmerad stegrensad följdinvandring...21

Diagram 3.9 Tidsserie med stegrensning...21

Diagram 3.10 Tidsserie utan stegrensning ...21

Diagram 3.11 ACF...22

Diagram 3.12 PACF...22

Diagram 3.13 Tidsserie med prediktion, stegrensad logaritmerad data...23

Diagram 3.14 Tidsserie med prediktion, logaritmerad data...24

Diagram 3.15 Matrisplot över födelsetal, HDI och medelantal...26

Diagram 3.16 Tio länder med högst medelkvot följdinvandrare...28

Diagram 3.17 Tio länder med högst antal följdinvandrare...28

Diagram 3.18 Histogram över antalet dagar tills en invandrare ansöker om svenskt medborgarskap...40

Diagram 3.19 Antalet dagar tills en ansökan om svenskt medborgarskapgivet att invandraren kom till Sverige är B-klass, anhöriginvandring...41

(10)

TABELLFÖRTECKNING

Tabell 1: Medborgarskapsfilen...5

Tabell 2: Beviljade uppehållstillstånd...5

Tabell 3: Gruppfilen...6

Tabell 4: Nyckelbegrepp...6

BILAGEFÖRTECKNING Bilaga 1: ARIMA(1,1,1)(1,0,0)12...50

Bilaga 2: Regression för följdinvandring med stegrensning...51

Bilaga 3: Regressionsmodell 1 för följdinvandring...51

Bilaga 4: Regressionsmodell 2 för följdinvandring...52

Bilaga 5: Regressionsmodell för k-klass...53

Bilaga 6: ARIMA(0,1,2)(0,0,1)12...54

Bilaga 7: Prediktioner för följdinvandring...55

Bilaga 8 Logistisk regression för följdinvandring...56

Bilaga 9: Korrelation följdinvandring...57

Bilaga 10: Poissonregression följdinvandring...58

Bilaga 11: Medelantalet följdinvandrare...59

Bilaga 12: Delar av lagen om svenskt medborgarskap...60

Bilaga 13: Logistisk regression medborgarskap...61

Bilaga 14: Linjär regression medborgarskap...62

Bilaga 15: Korrelation medborgarskap...63

Bilaga 16: Kvot för svenskt medborgarskap...64

Bilaga 17: Medel antal dagar tills man ansöker om medborgarskap...66

Bilaga 18: Logistiskt regression medborgarskap...68

(11)

1. Inledning

1.1. Bakgrund

Invandringen har under de senaste åren stadigt ökat, och år 2008 kom drygt 100 000 invandrare till Sverige av olika skäl.1_{Med några få undantag har antalet beviljade} permanenta uppehållstillstånd ökat i en förhållandevis jämn takt, dock finns några undantag. Exempelvis ökade antalet personer som fick uppehållstillstånd på grund av asylskäl kraftigt men tillfälligt under år 2005-2006 då en tillfällig lag under den tidsperioden gjorde det möjligt för asylsökande som fått avslag på sin ansökan om uppehållstillstånd att ansöka ytterligare en gång.

Migration betyder folkförflyttning inom eller emellan länder2_{. Migrationsverket är en} central förvaltningsmyndighet vars uppgift är att handlägga migrationsärenden, såsom invandring och utvandring i Sverige. Migrationsverket med sina ca 3100 anställda3_{, verkar} utifrån utlänningslagen och medborgarskapslagen och lyder under Justitiedepartementet (medborgarskapsfrågor) och Utrikesdepartementet (migrationsfrågor). Gällande alla handläggningar på Migrationsverket måste dessa lagar följas i processerna för invandring och medborgarskap.

Om en till dig nära anhörig är bosatt i Sverige har du rätt till uppehållstillstånd. Detta kallas följd- eller anhörig-invandring. För människor utanför Norden och Europa är familjeanknytning det vanligaste skälet för tillstånd att bosätta sig i Sverige.4_{Efter att ha} kommit till Sverige och fått uppehållstillstånd måste man uppfylla vissa krav för att kunna bli svensk medborgare. Till skillnad från personer med enbart uppehållstillstånd har svenska medborgare absolut rätt att bo och arbeta i Sverige, rösta i riksdagsvalet samt att bli invalda i riksdagen. En del yrken som till exempel polis och yrkesmilitär får bara innehas av svenska medborgare. Man kan bli svensk medborgare genom födsel, adoption,

1 http://www.migrationsverket.se/

2 http://www.migrationsverket.se/

3 Migrationsverkets årsredovisning, 2007

(12)

legitimation5_{, naturalisation}6_{och anmälan}7_.8_{Den här uppsatsen kommer att behandla} följdinvandring och medborgarskap genom naturalisation.

1.2. Syfte

På uppdrag av Migrationsverket är syftet att analysera följdinvandring och benägenheten att ansöka om svenskt medborgarskap beroende av olika variabler, såsom tidigare nationalitet och ansökningsskäl.

1.3. Frågeställningar

 Ändras följdinvandringen över tiden och hur kommer den att se ut i framtiden?  Hur stor är följdinvandringen per anknytningsperson givet ett antal påverkande

faktorer?

 Hur stor är benägenheten att ansöka om svenskt medborgarskap beroende av bland annat anledning till uppehållstillstånd?

 Ansöker man om svenskt medborgarskap direkt (så fort som man har möjlighet att söka) eller senare?

1.4. Avgränsningar

Datamaterialet innehåller 26 variabler och nästan 900 000 observationer under åren 1998 till 2008 (se även stycke 1.6), vilket gör vissa begränsningar nödvändiga. En viktig variabel är i vilket land en invandrare tidigare varit medborgare, men det blir svårt att ta hänsyn till alla nationaliteter och ett eventuellt införande av indikatorvariabler för varje nationalitet är i praktiken omöjlig. Utifrån datamaterialet som finns undersöks bara ämnena följdinvandring och medborgarskap. I undersökningen om huruvida man ansöker om svenskt medborgarskap analyseras endast de personer som med god marginal uppfyllt tiden som man bör ha varit bosatt i Sverige för att kunna bli medborgare. Dock finns det personer som

5 ”Om en utländsk mamma och en svensk pappa gifter sig blir parets gemensamma barn

automatiskt svensk medborgare” från http://www.migrationsverket.se

6 ”När man fått svenskt medborgarskap genom att ansöka om det” från

http://www.migrationsverket.se

7 ”En förenklad ansökan av svenskt medborgarskap som gäller exempelvis nordbor som har bott

här i minst fem år” från http://www.migrationsverket.se

(13)

har ansökt trots att de inte uppfyllt villkoren och personer som fått dispens och därför kan ha fått medborgarskap tidigare. Dessa personer kommer inte att behandlas i frågeställningen gällande benägenheten att ansöka om medborgarskap. Däremot kommer de att användas för att se hur många dagar det dröjer till dess att en invandrare ansöker om svenskt medborgarskap.

1.5. Tidigare forskning inom området

Under november 2008 gav SCB ut en rapport om följdinvandring där invandrare som kommit till Sverige mellan år 1997 och 2005 analyserades. De redogör för hur många som sedan följdinvandrar efter dessa fram till år 2006. Enligt rapporten var ungefär fyra procent av invandrarna anknytningspersoner till en ny invandrare redan efter ett år. Av de personer som invandrade 1997 är nästan 13 procent anknytningspersoner efter nio år. I undersökningarna SCB gjort har de förklarande variablerna varit kön, ålder, födelseland och grund för bosättning. Enligt rapporten är det främst män i 20-årsåldern och 40-årsåldern som är anknytningspersoner.9

1.6. Data

I Migrationsverkets databas, centrala utlänningsdatabasen, CUD, förs samtliga handlingar som verket behandlar in. Information om de enskilda handlingarna förs in av den person som behandlat fallet. Olika fall behandlas av olika enheter, till exempel kan en asylsökande söka uppehållstillstånd vid gränsen till Sverige eller på någon av Migrationsverkets ansökningsenheter i Stockholm, Göteborg eller Malmö.10_{Om man däremot planerar att} följdinvandra till Sverige ansöker man om uppehållstillstånd på svenska ambassaden i sitt hemland.11_{Detta innebär att data förs in i databasen av många olika personer vid olika} tidpunkter och på olika platser. Möjligen skulle detta kunna göra att databasen innehåller en del fel på grund av den mänskliga faktorn, såsom slarv, bristande rutiner eller okunskap om variabler etcetera hos enskilda medarbetare.

1.6.1. Datamaterial

9 ”Anhöriginvandrare och deras familjer”, Demografiska rapporter 2008:3, utgiven av SCB 2008

10 http://migrationsverket.se/ 11 http://migrationsverket.se/

(14)

Datamaterialet består av ett urval ur Migrationsverkets databas (med avseende på både variabler och tid) som sträcker sig från januari 1998 till december 2008. Eftersom databasen fortfarande används är en del av observationerna under utredning, dessa kommer därför inte att behandlas i uppsatsen. Datamaterialet består av tre databaser:

Medborgarskapsfilen, Beviljade uppehållstillstånd och Gruppfilen. Medborgarskapsfilen

består av variabler gällande de personer som sökt svenskt medborgarskap. Gruppfilen innehåller individer grupperade så att en person är anknytningsperson och övriga anhöriginvandrare till denna. I Gruppfilen har den äldsta anknytningspersonen satts som ensam anknytningsperson även om man som följdinvandrare kan ha flera anknytningspersoner. Filen Beviljade uppehållstillstånd innehåller information och bakgrundsvariabler om samtliga personer som fått beviljade uppehållstillstånd i Sverige. 1.6.2. Variabler i databaserna

I frågorna rörande Medborgarskap används Medborgarskapsfilen. Filen kopplas till

Beviljade uppehållstillståndsfilen för att knyta individerna till diverse bakgrundsvariabler,

till exempel hur länge personen vistats i Sverige. Under besvarandet av frågor rörande följdinvandring används i första hand filen Beviljade uppehållstillstånd; för att koppla samman anhöriga med deras anknytningsperson används Gruppfilen. I tabell 1 följer en förteckning på datafiler och deras innehållande variabler. I uppsatsen kommer begreppen ”invandrare” och ”invandring” att användas, med dessa begrepp menas i uppsatsen en person som fått uppehållstillstånd i Sverige nyligen, och som tidigare inte haft uppehållstillstånd i Sverige.

Tabell 1: Medborgarskapsfilen

Id

Unikt id-nr för varje individ (används för att koppla samman Medborgarskapsfilen med beviljade

uppehållstillstånd) Inkomstdat ansökan om MB

Datum då medborgarskapsansökan kom till Migrationsverket

(15)

Beslutskod MB Kod över beslut angående medborgarskap, till exempel bifall eller avslag Senast ickesvenska

medborgarskap Kön

Ålder vid beslutet

Tabell 2: Beviljade uppehållstillstånd

Id Unikt id-nr för varje individ

Inkomst av ansökan Beslutsdatum Beslutsår

Gäller from Från det datum beslutet gäller

Gäller tom Till det datum beslutet gäller (då det är tidsbegränsat) Varaktighet i månader Beslutets varaktighet

Ärendetyp Vilken typ av ärende ansökan gäller

Ansökningsskäl Vilket skäl individen anger för sin ansökan Beslutstyp Vilken typ av beslut som fattas

Klassningskod

En klassifikation av beslutet, vad beslutet grundas på är t ex att man ansöker på grund av arbete, asyl eller som följdinvandrare, vilket bestäms av Migrationsverket Tillståndsstatus idag T ex svenskt medborgarskap, PUT, UT eller tillståndslös Nuvarande medborgarskap

Senast ickesvenska medborgarskap Födelseår

Ålder vi händelse Ålder vid beslutstillfället Kön

Grund

Bygger på klassningskod och innehåller fyra kategorier, Asyl, B-klass. K-klass och Övr

Grund är uppdelad i Asyl (Ett uppehållstillstånd som beviljas en utländsk medborgare därför att han eller hon är flykting enligt utlänningslagen12_{), K-klass (Följdinvandrare till} person med klassningskod asyl), B-klass (Följdinvandrare ej till asyl) och övriga. B-klass har i uppsatsen vid ett tillfälle delats in i B_nr (då man följdinvandrar till exempelvis en svenskfödd) och B_n.

Tabell 3: Gruppfilen

Gruppnr Nummer på grupp av härvarande och anhöriga

(16)

Id härvarande Idnummer på personen med uppehållstillstånd i Sverige, anknytningspersonen

Id härvarande o anhörig

Idnummer för varje individ i gruppen, både

anknytningsperson och anhöriga, används för att koppla samman Gruppfilen med filen för beviljade

uppehållstillstånd

Skap_dat Datum då gruppen skapades

1.7. Nyckelbegrepp

Tabell 4: Nyckelbegrepp

UT, uppehållstillstånd

Tidsbestämd period då en person har tillstånd att vistas i Sverige. (krävs då man befinner sig inom landet i minst tre månader)

PUT, permanent

uppehållstillstånd Uppehållstillstånd utan tidsbegränsning Naturalisation Att erhålla medborgarskap genom ansökan

Följdinvandring Att en person invandrar till Sverige på grund av anhörig som tidigare invandrat Anknytningsperson Person till vilken följdinvandrare knyts då de ansöker om uppehållstillstånd

Medborgarskap

”Medborgarskap är ett rättsligt bindande förhållande som uppstår mellan en stat och en individ (medborgare) /…/ som svensk medborgare har (man) en ovillkorlig rätt att vistas i Sverige.”13

Regression Statistisk metod där samband mellan variabler undersöks ARIMA

Statistisk metod som anpassas på en tidsserie där tidigare värden fungerar som förklaringsvariabler

(17)

2. Statistiska metoder

2.1. Följdinvandring - ARIMA

14

För att ta reda på hur följdinvandringen förändrats över tiden används diagram, ARIMA-modeller och regression. Datamaterialet över följdinvandrare studeras först i diagramform över månadsdata, för att sedan anpassas med hjälp av en ARIMA-modell. Data bör dock vara stationärt för att modellen ska kunna användas, det vill säga ligga på en konstant nivå och med en konstant varians. Stationaritet kan till exempel uppnås genom differentiering eller logaritmering.

Logaritmering för att åstadkomma stationaritet i variansen kommer att ske med den naturliga logaritmen. Eftersom serien bygger på månadsdata är det möjligt att en ARIMA-modell med säsong kommer att användas.

ARIMA(p,d,q)(P,D,Q)s (2.1)

AR står för den autoregressiva delen av modellen och betecknas med p, respektive P för säsong. MA står för Moving Average, glidande medelvärde, och betecknas med q, respektive Q för säsong. S står för säsong, eftersom månadsdata används i uppsatsen kommer s att vara 12. D står för differentiering och görs för att serien ska ligga på en stationär nivå.

För att bedöma vilken ARIMA-modell som är bäst lämpad för att beskriva följdinvandringen används AIC, MSE och Box-Pierce/Ljung-Box-test. Se vidare under avsnitt 2.5 för beskrivning av dessa mått.

2.2. Följdinvandring - Regression

Det är av intresse att se hur många följdinvandrare som kan knytas till en enskild anknytningsperson. Speciellt intressant är att se om det finns några bakgrundsvariabler som kan förklara att en individ blir anknytningsperson, och hur många följdinvandrare som i så fall kan kopplas till denne. Endast en mycket liten del av observationerna i datamaterialet

(18)

utgörs av anknytningspersoner utan bortfall för någon av de variabler som är naturliga som bakgrundsvariabler. Materialet över antalet följdinvandrare per möjlig anknytningsperson blir därför en mixad fördelning där följdinvandringen är Poissonfördelad med en spik för värdet 0. På grund av tidsramarna för detta arbete anpassas dock ingen sådan mixad modell. Istället utförs en logistisk regression för att förklara den binära responsvariabeln huruvida personen under tidsperioden 1998-2008 varit anknytningsperson eller ej, samt en Poissonregression över antalet följdinvandrare per anknytningsperson givet att personen är anknytningsperson.

2.2.1. Multipel logistisk regression

Metoden logistisk regression används då responsvariabeln är binär, det vill säga endast antar värdena 1 och 0 med sannolikheterna



respektive 1-



. Huruvida en person är anknytningsperson eller inte är en binär variabel, som kodas 1 då individen är anknytningsperson och 0 annars. Y-variabeln är Bernoullifördelad med parametern E{Y}=



_{som modelleras enligt formell 2.3. I uppsatsen kommer multipel logistisk regression} även att användas för att besvara om invandrare ansöker om svenskt medborgarskap eller inte när villkoren för medborgarskap är uppfyllda.

n nX X Y      _ _ _ _         ... 1 log ₀ ₁ ₁ _(2.3) 

 _{parametrarna skattas med maximum likelihood-metoden.}

2.2.2. Multipel Poissonregression

När utfallen för en responsvariabel antar låga heltalsvärden nära noll och endast i undantagsfall antar höga värden är variabeln i regel Poissonfördelad, och Poissonregression kan anpassas för att mäta samvariation med andra variabler. Antalet invandrare som följer efter en tidigare invandrare är ofta få och i de flesta fall noll, och kan modelleras som en Poissonfördelad variabel. Poissonregressionen visas i formel 2.4 och för fördelningen gäller att E Y 2 Y 

(19)

 

Y X nXn

E   ...

log ₀ ₁ ₁ _(2.4)

För förbättring av modellen kan en skalningsparameter införas. Som visas ovan ska medelvärde och varians vara likadana i en Poissonfördelning, men vid skalning ändrar man variansen något. Man frångår Poissonfördelningen och får en fördelning som ligger närmare datamaterialets fördelning. Vid anpassningen av Poissonmodellen gällande följdinvandring kommer det att göras en skalning vid behov. Formel 2.5 visar sannolikhetsfunktionen för responsvariabeln efter skalning.

 

ln !, 0,1,2,.... ln     y e y f y y    (2.5)

2.3. Medborgarskap – Multipel logistisk regression

I undersökningen av andelen invandrare som ansöker om svenskt medborgarskap kommer en modell att anpassas med multipel logistisk regression. Eftersom responsvariabeln är binär kan den endast anta värdena 0 och 1, vilket är anledningen till att logistisk regression används. Regressionen görs för att se samband mellan responsvariabeln, om man ansöker om svenskt medborgarskap, och förklaringsvariablerna, som kommer att vara till exempel tidigare nationalitet, kön med flera. En modell kommer att skapas enligt formel 2.3.

2.4. Medborgarskap – Multipel linjär regression

Undersökningen av hur lång tid det dröjer tills att en invandrare ansöker om svenskt medborgarskap efter att ha uppfyllt tidsvillkoren kommer först att medföra att en ny variabel skapas för att kunna se antalet dagar det dröjt tills att en ansökan gjorts. För att kunna använda linjär regression förutsätts att den nya variabeln är normalfördelad, vilket kommer att testas i uppsatsen.

Syftet med regressionsmodellen är att se sambandet mellan förklaringsvariablerna och responsvariabeln. Modellen skapas för att kunna göra beräkningar utifrån tidigare erfarenheter. Den tidigare erfarenheten som kommer att behandlas är hur lång tid det dröjer från det att en invandrare uppfyller villkoren för att kunna ansöka om svenskt medborgarskap till dess att denne verkligen ansöker. Responsvariabeln Y förklaras av ett

(20)

antal förklaringsvariabler och modellen ser ut enligt formel 2.6. n nX X Y 01 1.... (2.6) i

 _{skattas med hjälp av minsta kvadratmetoden. För att finna den modell som passar bäst}

anpassas flera modeller för att hitta de relevanta variablerna.

2.5. Kvalitetsmått

För att bedöma huruvida en modell är bra eller inte finns det olika mått att jämföra modellerna med. Förklaringsgraden (R2_{) visar hur stor del av variationen för Y-variabeln} som förklaras av förklaringsvariablerna i modellen. Justerade förklaringsgraden (adjusted R2_{) är ett mått som tar mer hänsyn till relevansen av variabler, den ökar inte automatiskt för} att man tar med en till variabel i modellen, utan kan också minska vilket R2_{inte skulle göra.} För att välja vilka variabler som bör vara med i modellen kommer hänsyn tas till den högsta förklaringsgraden och det lägsta MSE-värdet, formel 2.7. Den justerade förklaringsgraden är ekvivalent med MSE. Vid skapande av flera modeller kan en god jämförelse göras genom att söka den högsta förklaringsgraden och det lägsta MSE-värdet, förutsatt att variablerna är signifikanta. MSE= 1 ) ˆ ( 2   



k n Y Yi i _(2.7)

Det är viktigt att variablerna i regressionsmodellerna inte korrelerar för mycket med varandra, vilket kommer testas. Två eller flera variabler som samvarierar kan ge ett missvisande resultat. Variablerna kan korrelera på ett sådant sätt att det egentligen inte är hur de påverkar Y-variabeln som visas i modellen utan hur variablerna påverkar varandra. För att jämföra de ARIMA-modeller som utförs i uppsatsen används AIC, Akaikes informationskriterium, som fås genom formeln:

(21)

där L står för likelihooden, och m för antalet parametrar i modellen (i ARIMA-modellen antar m värdet av p+q+P+Q). AIC-värdet används enbart för att jämföra olika modeller. En modell med lägre AIC är bättre än en modell med ett högt AIC.

När ARIMA-modeller jämförs används också Box-Pierce/Ljung-Box-testet för att påvisa seriell korrelationen över flera tidsavstånd. Box-Pierce-test och Ljung-box-test är så kallade portmonnätest och bygger på Box-Pierces Q-statistika respektive Ljung-Boxs Q*-statistika.

Autokorrelation= rk =



       n t t n k t k t t Y Y Y Y Y Y 1 2 1 ) ( ) )( ( (2.9) Box-Pierce Q =



 h k k r n 1 2 (2.10) Ljung-Box Q*= 1 2 1 ) ( ) 2 ( h _k k r k n n n    



_(2.11)

Om residualerna utgörs av vitt brus är Q-statistikorna χ2_{-fördelade. För att se så att} modellen överensstämmer med datamaterialet kontrollerar man så att statistikorna inte avviker från χ2_{-fördelningen. Man kontrollerar att serien av residualer är stationär.}

I Poissonfördelningen används devians och Pearsons _2_{som kvalitetsmått för att}

kontrollera att modellen överensstämmer med datamaterialet. Deviansen testas med ett likelihood-test och Pearsons _2_{-test med ett}_2_{-test, båda dessa värden bör ligga nära 1}

om modellen inte ska vara under- eller över-spridd.

Likelihood för Poisson = l(,;y) ylog()_{för y=0,1,2,…} _(2.12)15

) ˆ ( 2 ) ˆ / log( 2     y y y Poisson för Devians _(2.13)16



  värde förväntat värde förväntat värde observerat Pearsons 2 2 ( )  _(2.14)17

15 SAS help and dokumentation

16 SAS help and dokumentation

(22)

Pearsons _2_{-test beräknas genom en summering av de kvadrerade residualerna dividerat}

med de predikterade värdena. Man får fram hur sannolikt det är att en viss variabel har den fördelning som testas. 18_{Skulle fördelningen vara perfekt för variabeln skulle p-värdet för}

2

 _{-testet anta värdet 1.}

(23)

3. Resultat och tillvägagångssätt

3.1. Följdinvandring

I detta kapitel kommer följdinvandring behandlas med hjälp av tidsserier, ARIMA-modeller, logistisk regression och Poissonregression. Analyserna skall besvara hur många följdinvandrare det kan tänkas komma i framtiden och om anknytningspersoner beroende på värdena hos olika bakgrundsvariabler tenderar att ha olika antal följdinvandrare knutna till sig .

3.1.1. Tidsserie och ARIMA-modell

För att göra en tidsserie över månadsdata grupperas observationer ur databaserna över personer som fått beviljade uppehållstillstånd under samma månad. Detta görs dels för personer som följdinvandrat, det vill säga de som förekommer i både Gruppfilen och

Beviljade uppehållstillståndsfilen, dels för samtliga personer som fått beviljade

uppehållstillstånd. Senare görs också en gruppering över personer ur databasen som sökt asyl, detta för att kunna jämföra dem med de personer som följdinvandrat.

(24)

Diagram 3.2: Säsongsavvikelse för följdinvandring Tidsserien i diagram 3.1 visar på en uppåtgående trend för följdinvandring. Även en

antydan till säsongsvariation kan utläsas. Eftersom tidsserien visar vilken månad

ansökningar om följdinvandring godkänts av Migrationsverket beror antagligen stora delar av säsongsvariationen, se diagram 3.2, på arbetstider för Migrationsverkets personal. Till exempel minskar generellt antalet beviljade fall av följdinvandring under sommaren för att sedan öka igen under höstmånaderna. Det är mer troligt att dessa avvikelser är resultat av semestertider för personalen på Migrationsverket än att de skulle följa tendensen att följdinvandra. När en modell för data ska väljas måste dock ändå hänsyn tas till dessa säsongsvariationer för att den på ett bra sätt ska avspegla data.

Då tidsserien inte är stationär differentieras serien en gång. För att se om serien på så sätt uppnår stationaritet tas ACF och PACF fram. När observationerna plottas kan ingen given ARIMA-modell utläsas, utan olika ARIMA-värden prövas. För att bestämma vilken modell som kan anses bäst jämförs AIC-värdena för de olika modellerna och modellen med lägst AIC och signifikanta variabler väljs.

(25)

30 25 20 15 10 5 1 1,0 0,8 0,6 0,4 0,2 0,0 -0,2 -0,4 -0,6 -0,8 -1,0 30 25 20 15 10 5 1 1,0 0,8 0,6 0,4 0,2 0,0 -0,2 -0,4 -0,6 -0,8 -1,0

Diagram 3.3: ACF Diagram 3.4: PACF

Den differentierade serien uppvisar dock inte heller stationaritet. Då variansen tycktes öka med tiden logaritmeras variabeln Antal, därefter differentieras serien. När ACF och PACF tas fram syns en viss antydan till säsongsvariation, se diagram 3.3 och diagram 3.4, något som tas hänsyn till i valet av ARIMA-modell.

Med hänsyn tagen till ACF och PACF för den logaritmerade differentierade serien över följdinvandrare bedöms vilka ARIMA-modeller som kan vara aktuella för tidsserien. En viss säsongsvariation kan anas vilket gör att modeller med P=0 eller P=1 och Q=0 och Q=1 kan komma i fråga. För p och q kan alternativt 0,1 och 2 komma i fråga.

Med programmet Minitab prövas om de modeller som kan komma i fråga uppvisar höga P-värden på Box-Pierce/Ljung-Box testet, samt att parametrarna uppvisar signifikans, se bilaga 1. Att MSE inte är alltför hög prövas också. En del av modellerna som inte uppvisar signifikanta variabler sorteras bort. Sedan används SAS för att jämföra AIC mellan kvarvarande modeller. Den modell som bäst klarar de uppsatta kriterierna är ARIMA(1,1,1) (1,0,0)12. Modellen uppvisar både signifikanta variabler och i jämförelse med de andra modellerna höga P-värden på Box-Pierce-testet och lågt AIC. Den valda modellen ser ut enligt formel 3.1.

(1+0,2821B)(1-B)(1-0,4718B12_{)Yt= C+(1-0,9807B)et} _(3.1)

ARIMA-modellen är en blandning av en AR-del och en MA-del. Den tar både hänsyn till tidigare brustermer och tidigare värden i tidsserien.

(26)

3.1.2. Stegrensad data

Även om en ARIMA(1,1,1)(1,0,0)12-modell på ett bra sätt kan beskriva följdinvandringen under år 1998-2008 tycks det som om en stegrensning av tidsserien kan generera ett bättre resultat. Detta då det i ursprungsdata tycks finnas ett steg som visar på en ökning av följdinvandrare runt september 2007.

För att bedöma om nivåändringen i tidsserien är signifikant skapas en indikatorvariabel som antar värdet 1 för de månader som observeras september 2007 och senare. En regression där antalet följdinvandrare förklaras av tiden och indikatorvariabeln görs, se bilaga 2. Både tiden och nivåändringen visar sig vara signifikanta och kan tillsammans förklara något mer än 74 % av variationen i antalet följdinvandrare. Regressionsmodellen visar också att i genomsnitt 506 fler personer per månad följdinvandrat de månader som kommer efter augusti 2007.

Då det tycks finnas en nivåskillnad i data bör modellen ta hänsyn till detta. Prediktionen över kommande följdinvandring ska göras utifrån modellen, därför är det viktigt att veta varför denna nivåändring finns i datamaterialet. För prediktion utifrån data finns tre möjliga scenarier. Vid prediktion bör hänsyn tas till de scenarier som bedöms rimliga.

- Det kan tänkas att nivåskillnaden är ett exempel på en tillfällig uppgång i följdinvandringen som sedan kommer att återgå till ursprunglig nivå. Detta skulle till exempel kunna vara en följd av den tillfälliga lagen som resulterade i en kraftig ökning av antalet beviljade asylärenden under år 2006. Om nivåskillnaden skulle bero på detta kan man rimligen anta att följdinvandringen över en längre tidsperiod kommer att återgå till sin ursprungliga nivå igen, i takt med att effekterna av den tillfälliga lagen avtar.

- Det är också möjligt att nivåskillnaden inte är tillfällig utan även fortsättningsvis kommer att ligga kvar ungefär på denna högre nivå. Detta skulle till exempel kunna vara resultatet av en lagändring eller liknande som skulle göra det lättare att följdinvandra. I så fall kan man anta att tidsserien även fortsättningsvis kommer att

(27)

ligga på en högre nivå, så länge inga nya lagändringar görs. Det har dock inte skett någon lagändring som skulle kunna resultera i ett sådant resultat kring augusti 2007. - Ett tredje scenario är att nivåökningen bara är det första steget i en ökning av följdinvandringen, som sedan kan komma att öka ytterligare. Detta skulle till exempel kunna vara resultatet av en ökande invandring som skulle resultera i en ökad följdinvandring då det finns fler anknytningspersoner att invandra till.

Om nivåskillnaden i datamaterialet över följdinvandrare är första tendensen till en fortsatt ökning av följdinvandring kan den ARIMA-modell som tagits fram, ARIMA(1,1,1)(1,0,0)12 på ett bra sätt förklara följdinvandringen och användas för att prediktera hur följdinvandringen kommer att se ut inom den närmaste framtiden. Om det istället antas att det är en tillfällig ökning av nivåskillnad eller en nivåskillnad som kommer att hålla i sig på denna konstanta högre nivå är det lämpligt att stegrensa data för att utifrån den modellen göra en prediktion.

(28)

Diagram 3.5 visar beviljade permanenta uppehållstillstånd under tidsperioden. Följdinvandringen tycks öka kraftigare än antalet beviljade uppehållstillstånd, det vill säga ha en brantare lutning på tidsserien, men även beviljade uppehållstillstånden tycks öka under de senare åren. Då olika grupper av personer med permanenta uppehållstillstånd tenderar att attrahera olika många följdinvandrare, se kapitel 3.1.7 och 3.1.8, är det dock svårt att bedöma hur sambandet mellan dessa variabler ser ut.

Om nivåskillnaden för följdinvandring enbart beror på den tillfälliga lagen kan nivån för följdinvandring möjligen komma att minska till ursprunglig nivå igen. Om den tillfälliga lagen har så stor betydelse för följdinvandringen att den orsakar nivåskillnaden borde en signifikant koppling mellan personer som fått permanenta uppehållstillstånd på grund av asyl och följdinvandring finnas. Om ingen sådan koppling finns mellan asyl och följdinvandring kan den tillfälliga lagens inverkan på följdinvandringen uteslutas.

Diagram 3.6: Följdinvandring respektive asyl När diagram 3.6 studeras syns två toppar då ovanligt många permanenta uppehållstillstånd beviljats på grund av asylskäl. Den första toppen inträffar i mitten av år 1999 och den andra kraftiga toppen inträffar under år 2006. Den första toppen beror till stor del på Balkan-kriget, den andra toppen beror antagligen delvis på den tillfälliga lagen. En regressionsmodell där följdinvandring förklaras av asyl och tid uppvisar ingen signifikans

(29)

för variabeln asyl. Antalet följdinvandrare en månad kan alltså inte förklaras av antalet som fått asyl under samma månad.

Att variabeln Asyls påverkan på följdinvandringen inte uppvisar signifikans är dock inte förvånande. Om många får uppehållstillstånd på grund av asyl är det inte troligt att dessa personer genererar följdinvandrare redan under samma månad som den då de fick uppehållstillstånd. Istället kan ett högt antal permanenta uppehållstillstånd på grund av asyl generera en ökad följdinvandring någon tid senare. Nivåökningen för följdinvandring inträffar ungefär ett år efter den tillfälliga lagen. Data över permanenta uppehållstillstånd på grund av asylskäl tidsförskjuts ett år och används som förklaringsvariabel i en regressionsmodell för att bedöma antalet följdinvandrare. Till modellen används också förklaringsvariabeln Tid för att förklara trenden i data. Tillsammans kan variablerna, som båda är signifikanta, förklara ungefär 50 % av variationen för följdinvandring, se bilaga 3. En regressionsmodell där följdinvandring enbart förklaras av tidsförskjuten asyl visar också att denna variabel är signifikant. Enbart tidsförskjuten asyl förklarar något mer än 15 % av variationen i följdinvandring, se bilaga 4. Detta kan till viss del tänkas bero på den tydliga kopplingen mellan den tillfälliga lagen och nivåändringen för följdinvandringen. Man kan också se en mindre topp ungefär ett år efter den kraftiga ökningen 1999. För att se om den tillfälliga lagen har påverkat följdinvandringen rensas topparna bort ur asyltidsserien som ses i diagram 3.6. En regressionsmodell där tidsförskjuten rensad asyl förklarar följdinvandring uppvisar inga signifikanta samband. Detta tyder på att den tillfälliga lagen faktiskt påverkat följdinvandringen.

De följdinvandrare som invandrar till personer med uppehållstillstånd på grund av asyl är i databasen k-klassade. Om antalet asylsökande i hög grad kan förklara antalet följdinvandrare borde de till ännu högre grad kunna förklara de följdinvandrare som k-klassats. K-klassade följdinvandrare förklaras till något högre grad av asylansökningar som tidförskjutits två år än vad det totala antalet följdinvandrare gör, se bilaga 5. Men eftersom en så stor del av följdinvandrarna är k-klassade är dessa skillnader inte så stora.

(30)

3.1.3. ARIMA-modell för stegrensad data

Om den nivåskillnad som syns i data inte är början på en fortsatt stegökning stegrensas serien över följdinvandring. Mörkgrå tidsserie i diagram 3.7 visar den ursprungliga tidsserien. I ljusgrå tidsserie är steget bortrensat. Tidsserien rensas så att observationer från och med september 2007 visar en följdinvandring på 506 personer lägre än det faktiska antalet. Detta eftersom regressionsmodellen i bilaga 2 visar att följdinvandringen efter september 2007 i medel ligger ungefär 506 personer över följdinvandringen tidigare i tidsserien.

Diagram 3.7: Stegrensad respektive originaldata över följdinvandrare Efter stegrensningen uppvisar modellen ett mer stationärt utseende. Variansen är dock högre mot tidsseriens slut. För att komma tillrätta med problemet logaritmeras tidsserien, diagram 3.8.

(31)

Diagram 3.8: Logaritmerad stegrensad följdinvandring Tidsserien uppvisar också en positiv trend. Därför differentieras den logaritmerade stegrensade tidsserien över följdinvandrare, diagram 3.9. Slutet av tidsserien uppvisar ett mer stationärt utseende än den logaritmerade differentierade tidsserien där ingen hänsyn tagits till nivåskillnaden, diagram 3.10.

(32)

Utifrån ACF och PACF (diagram 3.11 och 3.12) för vald tidsserie bedöms vilka ARIMA-modeller som kan vara aktuella för tidsserien. Man kan ana en viss säsongsvariation vilket modellen måste ta hänsyn till. I programmet Minitab prövas modeller som kan komma i fråga och jämförs sinsemellan med hänsyn tagen till Box-Pierce/Ljung-Box-testet, MSE samt att de uppvisar signifikanta parametrar. De modeller som är bäst under dessa kriterier prövas i programmet SAS där AIC-värden jämförs.

30 25 20 15 10 5 1 1,0 0,8 0,6 0,4 0,2 0,0 -0,2 -0,4 -0,6 -0,8 -1,0 30 25 20 15 10 5 1 1,0 0,8 0,6 0,4 0,2 0,0 -0,2 -0,4 -0,6 -0,8 -1,0

Diagram 3.11: ACF Diagram 3.12: PACF Den modell som uppvisar bäst resultat för den stegrensade serien är ARIMA(0,1,2)(0,0,1)12, formel 3.2, som har det lägsta AIC-värdet och signifikanta variabler, se bilaga 6.

(1-B)Yt= C+(1-0,44254B-0,29453B2_)(1+0,3763B12_)et _(3.2)

Detta är en MA-modell, det vill säga en modell som kan beskrivas med ett glidande medelvärde av tidigare brustermer.

3.1.4. Prediktion

Beroende på vilket scenario för följdinvandringens vidare utveckling som förväntas inträffa bör observationer för kommande år predikteras enligt olika modeller. De scenarier som i kapitel 3.1.2 togs upp som aktuella var att nivåökningen är tillfällig och kommer att återgå till ursprunglig nivå, att följdinvandringen ligger kvar på den nya högre nivån eller att nivåökningen egentligen inte utgörs av ett steg utan är början på en brantare lutning för följdinvandringskurvan.

Om nivåskillnaden utgörs av en tillfällig ökning som så småningom kommer att återgå till ursprunglig nivå skulle den i modellen utgöras av en avklingande respons av ökningen:

(33)

t t t a _BX N Y       1 (3.1) 19

I modellen står ω för den omedelbara effekten, det som tidigare tolkats som ett steg, δ anger i vilken takt avklingningen från effekten sker. Eftersom ökningen av följdinvandrare inträffar så pass sent i serien är det svårt att bedöma hur snabbt effekten avklingar om ökningen skulle vara tillfällig. Därför används inte en sådan prognos i uppsatsen.

Om steget istället utgör en beständig nivåskillnad i datamaterialet bör en ARIMA(0,1,2) (0,0,1)12-modell användas för att prediktera framtida observationer. Detta eftersom denna modell enligt kapitel 3.1.3 bedömdes vara den lämpligaste modellen.

Diagram 3.13: Tidsserie med prediktion, stegrensad logaritmerad data ARIMA(0,1,2) (0,0,1)12 Tidsserie med prognoser och prognosintervall anpassas med hjälp av ARIMA-modellen. Data antilogaritmeras sedan och de värden som tidigare stegrensats samt prediktionen och dess gränser ökas med 506 igen enligt diagram 3.13, se bilaga 7.

(34)

Om det som tycks vara ett steg i data utgör början på en brantare lutning för modellen så anpassas prediktionen med hjälp av en ARIMA(1,1,1)(1,0,0)12-modell, som i kapitel 3.1.1. bedömdes vara den mest lämpliga modellen om man inte tog hänsyn till steg. Efter anpassningen antilogaritmeras data enligt diagram 3.14. Som synes blir det i detta fall ett betydligt bredare intervall än när hänsyn tas till steget i data. Detta eftersom denna senare modell lämnar utrymme för större ökningar av följdinvandringen.

Diagram 3.14: Tidsserie med prediktion, logaritmerad data ARIMA(1,1,1)(1,0,0)12 3.1.5. Behandling av nationalitet vid beräkning av följdinvandringskvoter

Det är intressant att se hur kvoten följdinvandrare varierar beroende på vilken nationalitet anknytningspersonen ursprungligen haft. Utifrån databasen Gruppfilen kan man se hur många som följdinvandrat till en enskild anknytningsperson. För att ta reda på vilket ickesvenskt medborgarskap anknytningspersonen senast innehade kopplas Gruppfilen ihop med Beviljade uppehållstillståndsfilen som rensats för att bara innehålla en observation per individ. Variabeln Antal som innehåller antalet personer som individen utgör anknytningsperson för skapas; i de fall då individen inte återfinns som anknytningsperson i

(35)

Gruppfilen sätts Antal till noll. En del av observationerna i Beviljade uppehållstillstånd är

mindre troliga som anknytningspersoner. Till exempel är en del av dem följdinvandrare, vilka mindre sällan också är anknytningspersoner. Datamaterialet innehåller också personer vilka troligen inte planerar att stanna i landet permanent, som till exempel studenter. Då alla dock är teoretiskt möjliga som anknytningspersoner rensas inga observationer bort av detta skäl.

För att ta reda på vilka länder som generellt har en högre kvot följdinvandrare bör hänsyn tas till hur många som invandrat från länderna i fråga. Variabeln Antal summeras för varje

Tidigare ickesvenska medborgarskap och divideras därefter med det totala antalet personer

som fått beviljat uppehållstillstånd från givet land och bildar variabeln Medelantal, se bilaga 11. Generellt går ett tydligt mönster att urskilja där länder med höga födelsetal och låga HDI-värden20_{har en högre andel följdinvandrare knuten till varje möjlig} anknytningsperson, se diagram 3.15. Regressioner där HDI respektive födelsetal får förklara medelantalet följdinvandrare från landet i fråga uppvisar också signifikanta resultat. Man kan dock se att födelsetal och HDI till stor del samvarierar vilket skapar multikollinearitet dem emellan. Detta utgör i sig inte något problem för att dela in länderna i kluster, men eftersom variablerna samvarierar till så hög grad är det möjligen onödigt att ta hänsyn till alla variablerna.

20_{Human development index, HDI, används för att jämföra välstånd mellan olika länder. Måttet är}

en sammanvägning av förväntad livslängd, utbildningsnivå och BNP och används bland annat av

(36)

6 4 2 0,50 0,25 0,00 1,00 0,75 0,50 1,00 0,75 0,50 6 4 2 0,50 0,25 0,00 födelsetal HDI medelantal 21

Diagram 3.15: Matrisplot över födelsetal, HDI och medelantal Då nationalitet verkar påverka antalet följdinvandrare i hög grad bör en nationalitetsvariabel vara med i den regressionsmodell som ska förklara antalet följdinvandrare per anknytningsperson. Att använda nationalitet som indikatorvariabel skulle dock innebära 117 variabler till regressionen, eller flera om hänsyn skulle tas till möjliga länder i datamaterialet som ingen under de elva år studien behandlat följdinvandrat ifrån.

Ett alternativ till att låta varje enskilt land utgöra en indikatorvariabel är att gruppera länderna i kluster efter till exempel födelsetal och HDI som har tydliga kopplingar till medelantalet följdinvandrare till anknytningspersoner från ett visst land. Om klustren skulle utformas enbart med hänsyn tagen till Medelantal anses det bättre att i regressionen använda Medelantal för varje land för att särskilja länderna och avgöra hur stor påverkan tidigare ickesvenska medborgarskap kan ha. Detta kan utgöra ett problem då antalet följdinvandrare från ett land under perioden kan avvika från det normala till följd av till

21 HDI-värden är tagna från http://hdr.undp.org/en/media/HDI_2008_EN_Tables.pdf och

(37)

exempel stridigheter i landet eller att Sverige tagit emot ett högre antal möjliga anknytningspersoner från landet i fråga än normalt. Medelantal används framför HDI eller födelsetal eftersom enstaka länder utgör avvikande observationer i materialet och uppvisar betydligt högre eller lägre följdinvandrarkvot än vad man utifrån HDI eller födelsetal kan anta. Då hänsyn tas till detta användes istället Medelantal. Dessutom saknas HDI och födelsetal för några av de observerade länderna. Ett exakt värde på HDI finns till exempel inte att tillgå för Irak och Somalia, länder som utgör de två största grupperna följdinvandrare, se diagram 3.17. Det är dock tveksamt att använda medelantalet följdinvandrare per land för att förklara antalet följdinvandrare per person. Detta görs dock ändå då Medelantal inte överensstämmer med någon av responsvariablerna för följdinvandring. Medelantal är antalet följdinvandrare utslaget på samtliga möjliga anknytningspersoner från landet i fråga vilket alltså inte överensstämmer med vare sig andelen anknytningspersoner i populationen eller medelantalet följdinvandrare per faktisk anknytningsperson.

Ett annat problem är de personer som enligt databasen inte tidigare haft något medborgarskap, är statslösa eller där tidigare medborgarskap är under utredning. Dessa personer kommer troligen i de flesta fall från fattigare länder med låga HDI. Det är dock möjligt att dessa personer kommer från länder med olika grundförutsättningar, men de klassas ändå som en enskild grupp.

(38)

Diagram 3.16: Tio länder med högst medelkvot följdinvandrare

22

Diagram 3.17: Tio länder med högst antal följdinvandrare

För personer från EU och EES länder får följdinvandrare numera automatiskt uppehållstillstånd och behandlas därför inte i databasen. Materialet över européer som följdinvandrat är därför begränsat vilket gör att ingen hänsyn tas till att andra regler gäller för dem då regressionen görs.

Som synes i diagram 3.16 och diagram 3.17 har länder med många följdinvandrare generellt också hög följdinvandringskvot. De länder som har flest följdinvandrare är Irak och Somalia, för vilka följdinvandringen ökat tydligt under perioden, se bilaga 19. Speciellt följdinvandrarna från Irak följer mönstret över den totala följdinvandringen mycket väl. Detta beror på att de irakiska följdinvandrarna utgör en mycket stor del av det totala antalet följdinvandrare. Att ett land utgör en så stor del av materialet kan göra att eventuella förändringar i Irak skulle kunna påverka Sveriges följdinvandring och i och med detta även invandringen markant.

3.1.6. Kvot vid följdinvandring

(39)

Då databasen Beviljade uppehållstillstånd innehåller samtliga fall av beviljade uppehållstillstånd som Migrationsverket beviljat från år 1998 till år 2008 finns det en hel del dubbletter. Dessa dubbletter utgörs av personer som till exempel ansökt om förlängning av uppehållstillstånd eller ansökningar av nya skäl, till exempel studerande som senare ansöker om uppehållstillstånd på grund av anknytning. Dubletterna rensas bort från databasen så att enbart det tidigaste fallet behålls. Detta för att det ska vara möjligt att bedöma hur länge personen haft uppehållstillstånd i Sverige. Ett problem utgörs av de personer som även tidigare haft uppehållstillstånd och enligt databasen ansökt om en förlängning. Det finns utifrån data ingen möjlighet att bedöma hur länge de vistats i Sverige och de tas därför bort ur datamaterialet. Ett annat problem utgörs av enstaka personer som lämnat Sverige sedan de fått uppehållstillstånd och senare återvänder och fått ett nytt uppehållstillstånd. Hur länge dessa personer vistats i landet blir då missvisande. Enbart hänsyn tas till de perioder som data sträcker sig över. Då förhållandevis få individer lämnat landet för att sedan återvända tas ingen hänsyn till detta. Inte heller de personer som klassats som följdinvandrare rensas ur data eftersom dessa senare kan bli anknytningspersoner.

Databasen Gruppfilen innefattar 79 262 observationer, varav 23 443 anknytningspersoner. Genom denna databas avläses hur stor kvoten följdinvandrare är för en enskild individ. För att få någon ytterligare information om anknytningspersoner respektive följdinvandrare, till exempel kön, ålder och senaste ickesvenska medborgarskapet personen innehaft kopplas

Gruppfilen ihop med Beviljade uppehållstillståndsfilen. Eftersom många av

anknytningspersonerna dock fått sitt beviljade uppehållstillstånd tidigare än 1998, varifrån datamaterialet sträcker sig, kan många observationer i Gruppfilen inte kopplas till

Beviljade uppehållstillstånd och utgör därför bortfall vid behandling av data. Av de

följdinvandrare som invandrat tidigt under tidsperioden utgår alltså en stor del. Detsamma gäller följdinvandrare som invandrat lång tid efter att dess anknytningsperson beviljats uppehållstillstånd. Detta kan möjligen senare utgöra ett problem i regressionerna då det är möjligt att variabeln Tid tillskrivs mindre betydelse än vad som verkligen är fallet då personer som varit här länge till stor del försvinner ur datamaterialet. När enbart de

(40)

observationer som går att koppla mellan Gruppfilen och Beviljade uppehållstillstånd återstår innehåller materialet 9323 anknytningspersoner.

För att ta reda på vilka personer som har större benägenhet att bli anknytningspersoner används logistisk regression. De variabler som används är Kön, Ålder, Medelantal, Tid och

Grund.

Variablerna Kön och Ålder används dels för att det är intressant att se om de faktorerna har någon betydelse för om man blir anknytningsperson eller inte, men kanske mest för att vårt datamaterial enbart tagit hänsyn till den äldsta anknytningspersonen, vilken ofta är en man. Detta gör det troligt att äldre och män är överrepresenterade som anknytningspersoner. Vilket ursprungsland personen som blir anknytningsperson har är av intresse. Som visats i kapitel 3.1.5. påverkas följdinvandringen mycket av nationalitet, där förklaras också varför variabeln Medelantal används för att ta hänsyn till nationalitet.

Tid är en viktig variabel. Man kan tänka sig att personer som varit längre tid i Sverige

också med högre sannolikhet hunnit bli anknytningspersoner. Samtidigt har antagligen personer som kommit hit nyligen inte hunnit bli anknytningspersoner. Eftersom de dock är möjliga som anknytningspersoner tas inga sena observationer bort ur datamaterialet. Att de troligen medför färre följdinvandrare tar variabeln Tid hänsyn till.

Som klargjordes i kapitel 3.1.2. har följdinvandring betydligt större samband med personer som fått asyl än med personer som fått uppehållstillstånd oberoende av skäl. Antagligen finns ett samband mellan om man blir anknytningsperson och av vilken anledning man fått uppehållstillstånd. Grund (det vill säga av vilken anledning man fått uppehållstillstånd) används därför som förklaringsvariabel. Grund delas in i asyl, k-klass, b-klass och övriga där k-klass innebär att man har anknytning till person med asyl och b-klass anknytning till annan person (till exempel en svenskfödd). Indikatorvariabler skapas för asyl, k-klass och b-klass.

(41)

3.1.7. Logistisk regression för följdinvandring

En logistisk regression över huruvida en individ är anknytningsperson eller ej görs. Detta för att det är intressant att ta reda på vilka variabler som påverkar en persons benägenhet att bli anknytningsperson. Variabeln Andel sätts till 1 om personen var anknytningsperson under tioårsperioden och 0 om personen inte var anknytningsperson. Av de 557 548 observationerna är enbart 6 706 anknytningspersoner, det vill säga 5 %. Som förklaringsvariabler används Kön, Ålder, Medelantal, Tid, Asyl, Kklass och Bklass vilka alla är signifikanta, vilket är mindre förvånande då modellen bygger på ett så stort antal observationer, se bilaga 8. Låt π vara sannolikheten att variabeln Andel antar värdet 1. Den skattade förklaringsmodellen blir då:

kklass bklass asyl tid medelantal ålder kön 0531 , 4 4730 , 1 2586 , 5 0752 , 0 6274 , 3 0347 , 0 5995 , 0 8396 , 10 1 log                   (3.3)

Variabeln Kön visar att det är högre sannolikhet att bli anknytningsperson om man är man, något som inte är förvånande då den äldsta i en familj angivits som anknytningsperson om det finns fler möjliga sådana i en familj. Detta är generellt en man. Det kan också bero på att om en enskild person kommer till Sverige, för att om den sedan får uppehållstillstånd skicka efter sin familj, så är det oftast en man.23

Variabeln Ålder visar att det är troligare att bli anknytningsperson ju äldre man var när man fick uppehållstillstånd. Även detta beror antagligen delvis på att en äldre person sätts som anknytningsperson om det finns fler möjliga alternativ för detta.

Variabeln Medelantal visar att en individ, som kommer från ett land varifrån många följdinvandrar sett till det totala antalet invandrare från landet, med större sannolikhet blir anknytningsperson. Detta kan tyckas givet, men de höga kvoterna för en del länder kan också bero på att det går många följdinvandrare på varje anknytningsperson, det vill säga att grupperna i Gruppfilen är stora. Att Medelantal i detta fall är signifikant motsäger inte detta men talar för att det också är många anknytningspersoner från dessa länder.

(42)

Variabeln Tid visar att ju längre tid man haft uppehållstillstånd desto större är sannolikheten att man är anknytningsperson. Detta är ganska givet eftersom man då haft längre tid som möjlig anknytningsperson då någon kunnat invandra till en.

Indikationsvariablerna angående vilket skäl personen fått uppehållstillstånd på grund av visar att det är troligast att bli anknytningsperson om man fått uppehållstillstånd på grund av asyl. Något mindre troligt att bli anknytningsperson är det om man fått uppehållstillstånd på grund av att man är följdinvandrare till någon med asyl. Ännu mindre troligt att bli anknytningsperson är det om man är följdinvandrare till någon annan och minst troligt om man fått uppehållstillstånd på grund av övriga skäl. Detta är inte ett särskilt förvånande resultat. Personer som själva är följdinvandrare är inte riktigt lika vanliga som anknytningspersoner. Detta beror antagligen delvis på att de och andra som följdinvandrar efter dem istället kan få samma anknytningsperson och komma att tillhöra samma grupp av följdinvandrare. Att övriga är minst vanliga som följdinvandrare beror antagligen på att denna grupp innehåller till exempel studenter och andra som inte planerat att bosätta sig permanent i Sverige. Av naturliga skäl är dessa inte så vanliga att följdinvandra till, även om det är teoretiskt möjligt.

Datamaterialet över möjliga anknytningspersoner innehåller bara de som fått uppehållstillstånd under åren 1998-2008, och dessutom fått följdinvandrare under samma period. Detta gör att personer som blivit anknytningspersoner långt efter att de fått uppehållstillstånd och personer som är anknytningspersoner till tidiga följdinvandrare kommer att utgå ur materialet. Det gör också att svenskar som är anknytningspersoner, till exempel män som gifter sig med en utländsk fru helt kommer att saknas i materialet över följdinvandring. Möjligen kan detta ha påverkat resultatet.

3.1.8. Poissonregression för följdinvandring

Det är också intressant att se hur olika bakgrundsvariabler påverkar hur många följdinvandrare som är knutna till en viss anknytningsperson. För att bedöma detta görs en Poissonregression, detta då antalet följdinvandrare bedöms vara Poissonfördelat, då det är slumpmässigt fördelat över små heltalsvärden. Att bedöma materialet som Poissonfördelat

(43)

är dock tveksamt eftersom alla 0-värden, det vill säga personer utan följdinvandrare knutna till sig, sorterats bort. För de observationer som är anknytningspersoner sätts variabeln

Antal till antalet personer som följdinvandrat till dem enligt databasen Gruppfilen. Antal

används som responsvariabel medan Kön, Ålder, Medelantal, Tid, Asyl, Kklass och Bklass används som förklaringsvariabler. I genomsnitt har anknytningspersonerna i databasen 3,16 följdinvandrare knutna till sig.

Klassningsvariablerna (Asyl, Kklass och Bklass) är dock inte signifikanta på 5 % nivå utan tas bort ur modellen. Deviansen ligger på 0,8754 och Pearsons χ2_{på 0,9523. Då dessa} värden bör ligga i närheten av 1 antyder detta att datamaterialet inte riktigt är Poissonfördelat. Detta beror antagligen delvis på att inga nollor finns i datamaterialet. För att anpassa en bättre modell skalas deviansen till 1 vilket gör att Pearsons χ2 _{skalas till} 1,0879. Modellen är på grund av skalningen inte anpassad efter en Poissonfördelning utan istället efter en fördelning där medelvärdet är 1 och variansen 0,9356, något som inte överensstämmer med Poissonfördelningen, se bilaga 10.

Variablerna i modellen tycks inte interagera alltför mycket med varandra, se bilaga 9. Modell anpassas enligt formel 3.4.

Log(Antal) = 0,4332 + 0,2163Kön + 0,0123Ålder + 0,7891Medelantal – 0,0283Tid (3.4) Att skälet man fått uppehållstillstånd av som anknytningsperson inte är signifikant indikerar att dessa variabler inte påverkar hur många följdinvandrare som knyts till anknytningspersonen i fråga. Samma variabler är dock signifikanta vad gäller om en person blir anknytningsperson över huvud taget. Detta kan till viss del bero på att betydligt fler observationer behandlas i modellen som förklarar om en person blir anknytningsperson eller ej, men det kan också indikera att vilken klassningskod en person har påverkar om individen blir anknytningsperson men inte hur många som följdinvandrar till den.

Variabeln Kön visar att det är troligare att man har fler följdinvandrare om man är man. Detta beror som tidigare diskuterats antagligen dels på att män oftare anges som

(44)

anknytningsperson i datamaterialet, och dels att män tenderar att oftare komma ensamma för att sedan familjen ska komma efter. Om kvinnor är anknytningspersoner kommer ofta färre följdinvandrare till dem, då invandrar ofta inte hela familjer efter henne.

Variabeln Ålder visar att äldre personer tenderar att ha fler anknytningspersoner knutna till sig. Det beror på att den äldsta anknytningspersonen är den ända som angetts som anknytningsperson i datamaterialet, men det kan också bero på att äldre personer hunnit bilda familj och därför har fler som kan följdinvandra till dem.

Variabeln Medelantal visar naturligt nog att det är vanligare med fler följdinvandrare per anknytningsperson om landet där anknytningspersonen senast hade ett ickesvenskt medborgarskap har en hög kvot följdinvandrare. Detta innebär att det inte bara är vanligt att följdinvandra, utan också att det invandrar många till samma anknytningsperson från dessa länder.

Variabeln Tid antar förvånande nog ett negativt värde. Detta betyder att personer som haft uppehållstillstånd längre tid i Sverige tenderar att ha färre följdinvandrare. Det vore naturligare om personer som haft uppehållstillstånd längre tid har fler följdinvandrare knutna till sig eftersom de som varit här under kortare tid inte haft samma tid att lämna in ansökningar etcetera för sina anhöriga, något som också tidigare undersökningar visar på24_. Om inte tidigare undersökningar visat på att detta resultat inte stämmer skulle det eventuellt kunna förklaras med att det blivit lättare att få uppehållstillstånd om man klassats som anhörig på senare år. Eftersom tidigare undersökningar dock talar för att detta är ett något missvisande resultat kan det bero på att många av de äldre observationerna i Gruppfilen inte återfinns i Beviljade uppehållstillstånd.

3.1.9. Regression för k-klassade följdinvandrare

För att ta reda på om de k-klassade observationerna, delvis de som är anknytningspersoner till invandrare som kommit till Sverige på grund av asyl, skiljer sig från samtliga

24_{”Anhöriginvandrare och deras familjer”, Demografiska rapporter 2008:3, utgiven av SCB}