• No results found

3. Syntetisk befolkning på detaljerad zonnivå

3.3. Arbetsgång

Marginalfördelning av kön, ålder och inkomst tas från ”Befolkning efter ålder, kön” och ”Befolkning 20+ år efter sammanräknad förvärvs-inkomst”. Marginalfördelning av bilinnehav kommer från ”Fordon i trafik ägda av fysisk person efter fordons-slag” där bara personbilar räknas. Här antar vi att varje person äger maximum en bil så är antal personbilar i en ruta hänvisar till antal individer som äger en bil. Detta innebär att man riskerar att överskatta antal individer som har bil i en viss ruta eftersom många individer kan ha två eller tre bilar. Marginalfördelning av förvärvsarbetande tas från

”Förvärvsarbetande dag-befolkning 16+ år efter bransch (SNI07)”.

Totalt innehåller modellen 5852 rutor i studieområdet. En förutsättning för IPF-MS metoden är att summan av en-dimensionells marginalfördelningar är samma för varje dimension, dvs. summan av män och kvinnor är samma som summan av alla ålderskategorier. Därför är det första steget att skapa en konsistent en-dimensionell marginalfördelning utifrån varje rutas socio-ekonomiska statistik. ”Konsistent” definieras i det här sammanhanget med följande villkor:

• Summan av män och kvinnor är samma som summan av alla ålderskategorier (0–6 år; 7–15 år; 16–19 år; 20–24 år; 25–44 år; 45–64 år; 65– w år)

Alla rutorna uppfyller det villkoret.

• Summan av män och kvinnor är inte färre än summan av personerna i inkomstkategorierna (Låg 0–142 332 kr; Medellåg 142 333–242 844 kr; Medelhög 242 845–346 746 kr; Hög inkomst>346 746 kr). Unga (<16 år gamla) inkluderas inte i inkomstkategorierna medan inte alla som har en inkomst har rapporterat sin inkomst. Den skillnaden mellan summan av inkomstkategorier och summan av män och kvinnor räknas i kategorin ”inkomst okänd”. Det finns 167 rutor som inte uppfyller det här villkoret, det vill säga det finns fler som anmält inkomst än antal individer i rutan. För dessa rutor tar vi skillnaden: summan av individerna i alla inkomst- kategorier minus summan av alla män och kvinnor. Sen undersöker vi om summan av unga (<16 år) är färre än antal individer i låg inkomstgrupp. Om det villkoret uppfylls tar vi slumpmässigt bort

individer från inkomstgrupperna enligt nuvarande inkomstfördelning i den rutan. Om det villkoret inte uppfylls, det vill säga det finns fler unga än antalet individer i låg inkomstgrupp, flyttar vi

slumpmässigt individer från andra inkomstgrupper till låg inkomst tills villkoret uppfylls så att alla unga tillhör låg inkomstgrupp. Sedan tar vi slumpmässigt bort individer i inkomstgruppen enligt nuvarande inkomstfördelning i den rutan.

• Om summan av män och kvinnor är mer än summan i alla inkomstkategorier, måste summan av unga (<16 år) vara färre än eller samma som antal individer i låg inkomstgrupp.

300 rutor uppfyller inte det här villkoret. För de rutorna, räknar vi tillgängliga platser som: summan av män och kvinnor minus summan av inkomstkategorier, och anger de platserna som grupp med låga inkomster för alla unga. Om det finns fler tillgängliga platser kvar så räknas de som ”inkomst okänd”. Om det inte finns tillräckligt med platser för unga så drar vi slumpmässigt från andra inkomstgrupper och flytta de till ”låg inkomstgrupp” enligt nuvarande inkomstfördelning i den rutan.

• Summan av män och kvinnor är inte färre än antal förvärvsarbetande. Detta är på grund av att de unga (<16 år gamla) kan inte ha ett jobb.

142 rutor uppfyller inte det här villkoret. I detta fallet, antar vi att alla 16 år och äldre är förvärvs- arbetande i den rutan och alla under 16 år är icke-förvärvsarbetande.

• Om summan av män och kvinnor är mer än antal förvärvsarbetande, är summan av unga (<16 år) även inte mer än antal som är inte förvärvsarbetande.

151 rutor uppfyller inte det här villkoret. I detta fallet antar vi att antal unga är samma som antal som är icke-förvärvsarbetande, och resten av åldersgrupp är förvärvsarbetande (samma som det villkoret ovan).

• Summan av antalet unga (<16 år) inte är fler än antal som är utan bil.

243 rutor uppfyller inte det här villkoret. I detta fallet, antar vi att antal unga är samma som antal som är utan bil.

När en konsistent en-dimensionell marginalfördelning har skapats, kör vi en fem-dimensionell IPF för varje ruta. När denna fem-dimensionella IPF har skapats, använder vi Monte-Carlo sampling enligt följande ordning: Ålder → Kön → Förvärvsarbetande → Inkomst → Bilinnehav. Resultat av en dragning med Monte-Carlo sampling är en individ (agent) med information av ålder, kön, förvärvsarbetande, inkomst och bilinnehav som bor i en vis ruta.

För individer i kategorierna ”0–6 år” och ”7–15 år”, fixerar vi deras förvärvsarbetande, inkomst och bilinnehav till ”utan jobb”, ”låg inkomst” och ”utan bil”, det vill säga de har 100 % sannolikhet att bli samplade i de kategorierna. Vi bevakar antal platser som finns kvar för varje kategori. Om det inte finns plats kvar, så hoppar vi över den kategorin när en dragning faller i den kategorin. Till exempel, i en tredje dragningen dras en man som är 25–44 år gammal i en ruta, dock finns det bara två platser för åldersgrupp 25–44 år gammal enligt befolkningsstatistiken och de första två dragningarna har redan samplat två individer som är 25–44 år och placerat där (vilket innebär att ingen plats finns kvar vid den tredje dragningen). I detta fallet överger vi den tredje dragningen och samplar en annan och hoppas att denna också inte faller i kategorin 25–44 år. Genom att bevaka platser kvar garanterar vi att den skapade syntetiska befolkningen har strikt samma en-dimensionella marginalfördelning som individerna i befolkningsstatistiken.

När den syntetiska befolkningen, med information om kön, ålder, förvärvsarbetande, inkomst och bilinnehav har skapats, drar vi individer från RVU 2011–2014 i samma kategorier och kopplar till den syntetiska befolkningen. Eftersom ”Inkomst okänd” definieras som en kategori i inkomstfördelning, behöver de individer i ”inkomst okänd” fördelas till andra inkomstgrupper. Processen beskrivs nedan:

• Om en individ i den syntetiska befolkningen faller i kategori ”inkomst okänd”, hittar vi den kopplade individs ID från RVU 2011–2014 och tittar på den individs huvudsysselsättning (variabeln: UP_FORV i RVU 2011–2014). Totalt finns det 11 kategorier i

huvudsysselsättningens klassificering i RVU 2011–2014: Egen företagare; Fulltids anställning; Deltidsanställning; Arbeta i privat hushåll; Pensioner; Student; Arbetslös; Anställning student; Värnpliktig; Barn före skolan; Övriga jobb.

• Enligt kategorin i huvudsysselsättning där den individen faller, skapar vi en inkomstfördelning från alla individer i den kategorien i huvudsysselsättning i RVU 2011–2014.

• Sampla en inkomstkategori enligt den inkomstfördelningen för den individen. Med denna process flyttar vi individer med inkomst som ”inkomst okänd” till sin mest troliga inkomstkategori enligt sin huvudsysselsättning i RVU 2011–2014. Syftet att sampla individer från RVU 2011–2014 är att man kan estimera även annan socio-ekonomisk information, t.ex. huvudsyssel- sättning, antal barn i familj, innehav av kollektivtrafik-kort, till den syntetiska befolkningen, vilket också skapar möjlighet att använda denna socio-ekonomiska information i modelltillämpningar, även om marginalfördelning för denna information finns inte på rut-nivå. Dock finns det inte något grund- läggande datamaterial för validering av de estimat som görs av socio-ekonomisk information av denna typ. Därmed finns en risk att fördelningar av socio-ekonomisk information som tas fram på detta sätt inte stämmer med de i verkligheten.