Mitt i prick? : En utvärdering av SCB:s metod för befolkningsframskrivningar på riks- och lokal nivå.

(1)

ÖREBRO UNIVERSITET HANDELSHÖGSKOLAN STATISTIK C VÅRTERMINEN 2011 2011-06-20 EXAMINATOR: ANN-MARIE FLYGARE HANDLEDARE: PER-GÖSTA ANDERSSON

Mitt i prick?

En utvärdering av SCB:s metod för

befolkningsframskrivningar på riks- och lokal

nivå.

Författare Jesper Brodin 860115 Kenny Nilsson 800709

I denna uppsats utvärderar författarna den metod Statistiska Centralbyrån använder sig av vid

befolkningsframskrivningar. Metoden fungerar relativt bra vid prognoser över totalbefolkningen, men det visade sig att det blev problem med prognosen av individer i mycket unga och mycket äldre åldrar.

(2)

Sammanfattning

Vi har i detta arbete utvärderat den metod SCB använder sig av vid befolkningsframskrivningar.

Frågan vi ställde oss var, vilken träffsäkerhet har prognosmetoden som SCB använder sig av för att göra befolkningsprognoser? Vi har genomfört och utvärderat metoden för Nora, Nacka och hela riket. Vi valde att mäta träffsäkerheten Mean Absolute Percentage Error och Mean Square Error.

Prognosmetoden har ett relativt litet fel, oavsett när det gäller prognoser på lokal eller riksnivå. Det procentuella felet i Nora och Nacka är förvisso mycket högre än i det procentuella felet på

totalbefolkningen i Sverige. Eftersom Nacka och framförallt Nora har en sån liten befolkning relativt till Sverige totalt, så är detta inte så konstigt.

Det fanns ingen märkbar skillnad i felet mellan könen, men ett problem vi märkte var att det var svårare att göra bra prognoser över individer i vissa åldrar. Där är de största ”bovarna” i det procentuella felet nyfödda individer, och individer som är mycket gamla. Även individer i åldrarna 20-40 år var en ganska stor felkälla, detta då de tenderar att flytta oftare och att immigrationen är som störst från denna åldersgrupp.

Men innan vi kunde börja med utvärderingen insåg vi att vi behövde mer kunskap om själva metoden, och den modell som SCB använder sig av. Det visade sig att modellen är en kombination av

underliggande modeller, där skattningar av dödligheten i olika åldrar, fruktsamheten hos kvinnor i olika åldrar, migration och flyttmönster tas fram separat. Allt utom fruktsamheten är också uppdelat på kön. När dessa skattningar är framtagna kombineras de i den slutliga framskrivningsmodellen för att kunna göra befolkningsprognoser.

(3)

Innehåll

1. Inledning ... 1

2. Utgångspunkter ... 1

2.1 Nuvarande kunskapsnivå ... 1

2.2 Introduktion till sakområdet ... 1

3. Precision av frågeställning ... 2

3.1 Konkreta frågor och hypoteser ... 2

3.2 Definition av population och ram ... 3

3.3 Definition av parametrar och andra begrepp ... 3

4. Metoder ... 4

4.1 Metod för datainsamling ... 4

4.2 Metoder för parameterskattning ... 4

4.2.1 Dödlighet ... 5

4.2.2 Migration... 7

4.2.3 In- och utflyttning (lokal nivå) ... 8

4.2.4 Fruktsamhet ... 8 5. Metod för utvärdering ... 10 6. Resultat ... 11 7. Slutsats ... 20 8. Diskussion ... 21 Källförteckning ... 24

(4)

1

1. Inledning

I denna uppsats kommer vi att utvärdera SCB:s befolkningsprognos, på lokal och riksnivå. Målsättningen med utvärderingen är att se hur bra precisionen i prognosen är. För att kunna utvärdera en prognos måste vi dessutom veta hur modellen för prognostiseringen ser ut. Vi insåg väldigt tidigt att modellen var mer avancerad än vad vi trodde, och därför fick vi även studera de underliggande modellerna. Givet detta så kommer en stor del av uppsatsen gå till att förklara SCB:s huvudmodell för

befolkningsprognosen och då även underliggande modeller och metoder för parameterskattningarna. Vi fann att SCB publicerat en egen beskrivning av modellen, där de även ger enklare förklaringar för vilka underliggande metoder de använder1_.

Vi tycker det är viktigt att läsaren även får en förståelse för de underliggande metoderna och kommer därför ge en mer djupgående beskrivning av dessa än vad SCB gjort. Vi har även valt att förklara andra metoder som kan användas för befolkningsprognoser, men eftersom den metod SCB använder sig av är den absolut vanligaste så blev detta enbart ett kortare avsnitt. Vi har även valt att begränsa oss på så sätt att vi själva inte kommer att arbeta fram en egen alternativ modell, utan utvärderar genom att jämföra SCB:s prognos med det faktiska utfallet.

2. Utgångspunkter

2.1 Nuvarande kunskapsnivå

När vi påbörjade arbetet med utvärderingen så hade vi baskunskaper om hur SCB gick tillväga. Dessa kunskaper, och även intresset för området, fick vi genom en föreläsning från SCB:s

befolkningsenhet2. De förklarade den grundläggande modellen, om än väldigt enkelt, och även syftet med prognoserna. Vi visste således, på ett ungefär, hur vi skulle behöva gå tillväga för att genomföra en utvärdering.

2.2 Introduktion till sakområdet

När Tabellverket, som senare kom att bli SCB, bildades 1749 så började man redan då föra statistik över Sveriges befolkning. Då baserades statistiken på folkmängdsredogörelserna som kyrkan gjorde, detta fram tills 1973. Under tiden har statistiken hela tiden reviderats för att få mer exakta värden, och 1967 påbörjades en datorisering.3

Syftet med befolkningsprognoser är bland annat att ge information till beslutsfattare (eller andra

beställare), information om bland annat framtida inkomster och utgifter, migration och hur den framtida bostadssituationen kommer att se ut. Detta görs genom att påvisa förändringar i befolkningen, som storlek, åldersgruppers utveckling och könssammansättning.

Ett problem som alltid uppstår är vilka antaganden som ska göras för att en så bra prognos som möjligt ska kunnas tas fram. På riksnivå handlar det mest om att titta på trender och cykler inom de olika 1_{SCB:s modeller för befolkningsprognoser 2005} 2 http://www.scb.se/BE0101 3 Beskrivning av SCB:s befolkningsstatistik

(5)

2 undermodellerna. Trender inom fruktsamhet och dödlighet har visat sig vara relativt stabila och blir på så sätt lätta att skatta över en längre tid, migrationen däremot är mycket svårare att försöka förutspå då den tenderar att vara mindre stabil4.

När det gäller lokal nivå är det dock extra viktigt för prognosmakaren att få så mycket information som möjligt från beställaren om framtida lokala händelser, så att korrekta antaganden om

befolkningsutvecklingen kan göras. Detta eftersom den lokala befolkningsprognosen innehåller fler parametrar, dessa är inflyttning och utflyttning. En framtida nedläggning av en stor industri i en landsortskommun kan t.ex. öka utflyttningsbenägenheten och minska inflyttningen till kommunen, något som måste beaktas vid prognosframställningen.

SCB har sedan 1983 publicerat, med mer eller mindre jämna mellanrum, Sveriges Framtida Befolkning som är en prognos över hela Sveriges befolkning (riksprognos). De gör även på beställning, prognoser över mindre populationer, t.ex. för län, kommuner och tätorter.

Det finns en uppsjö av befolkningsprognoser som görs av andra institutioner än SCB (på andra

befolkningar), EUROSTAT5 tar fram prognoser för befolkningsutvecklingen inom Europa och EU, och FN6 publicerar egna prognoser för hela världens befolkning. En annan stor institution är U.S. Census Bureau7_,

som på beställning gör prognoser även utanför U.S.A. Därför har det varit relativt enkelt att hitta information om vilka metoder som används av andra myndigheter och statistikinstitutioner än SCB. I SCB:s egen beskrivning av sin prognosmetod så namnger de även metoderna för att skatta

parametrarna för t.ex. dödlighet och fruktsamhet. Djupgående förklaringar och utvärderingar av de underliggande modellerna och metoderna var således inte heller några problem att finna. Däremot har det varit svårare att hitta utvärderingar av själva befolkningsprognoserna.

3. Precision av frågeställning

3.1 Konkreta frågor och hypoteser

Frågan vi vill besvara med detta arbete är, givet vissa antaganden vi måste göra8, vilken träffsäkerhet har prognosmetoden som SCB använder sig av för att göra befolkningsprognoser?

För att kunna göra en bra utvärdering bestämde vi oss för att genomföra den på tre olika befolkningar. SCB gör som sagt en prognos för hela riket, samt även lokala prognoser. De lokala prognoserna kan vara på länsnivå, kommunnivå eller för enstaka tätorter osv. Summan av alla länsprognoser bör sedan överensstämma med riksprognosen, och summan av alla kommunprognoser måste överensstämma med prognosen för det län tillhör. Genom att då välja tre olika typer av befolkningar (Län, kommun etc.) så kan vi även se om metoden lämpar sig bättre för t.ex. småstadskommuner än för rikets totala

befolkning.

4

SCB:s modeller för befolkningsprognoser 2005, Demografiska Rapporter 2003:4 5 http://epp.eurostat.ec.europa.eu/portal/page/portal/eurostat/home/ 6_{http://unstats.un.org/unsd/default.htm} 7 http://www.census.gov/ 8

(6)

3

3.2 Definition av population och ram

De befolkningar vi valde var dels den totala befolkningen, alltså riksprognosen, och sedan två kommuner. Vi sökte här en storstadskommun och en småstadskommun för att även kunna se

skillnaderna i prognosen mellan städer och mindre orter där vi får en större befolkning mot en mindre befolkning. Vi behövde också hitta kommuner som varit ”intakta” områdesmässigt över en längre så vi kunde undvika problemen med plötsliga befolkningsförändringar på grund av att en del i kommunen försvinner eller en del av en annan kommun tillkommer. Vi bestämde oss för att söka efter kommuner som varit intakta sedan minst 30 år tillbaka. Anledningen till att vi ställer ett sådant krav är på grund av att vi vill kunna se trender på lång och kort sikt. I SCB:s databas, som bygger på RTB9, finns det data över befolkningen som sträcker sig tillbaka till 1968.

Vi hade först tänkt välja Örebro kommun, men eftersom den har genomgått en del förändringar på senare år så valde vi bort den10.

Ett annat problem som uppstår vid befolkningsprognoser är migrationen.

Den framtida immigrationen är svår att skatta då det är i stort sett omöjligt att förutspå t.ex. katastrofer och krig. Emigrationen är också svår att skatta av liknande skäl. Vi sökte därför kommuner som inte hade någon speciellt stor migration.

Till slut bestämde vi oss för Nacka och Nora kommun. En storstadskommun och en småstadskommun, båda med relativt liten migration, och de har båda varit oförändrade områdesmässigt åtminstone under vår utvärderingsperiod11.

Vi har alltså inte gjort något oberoende slumpat urval, och är väl medvetna om att utvärderingarna vi gör på Nacka och Nora inte kan generaliseras till andra kommuner.

3.3 Definition av parametrar och andra begrepp

Parametrar som ingår i SCB:s framskrivningsmodell kommer att presenteras mer ingående i

metodavsnittet. För att utvärdera en prognos så behövs någon form av mått som bestämmer hur pass bra prognosen är, sedan kan dessa mått jämföras mot resultaten för en annan prognosmetod eller mot det faktiska utfallet. Vi kommer att jämföra prognosen mot det faktiska utfallet.

Det finns många olika mått för att utvärdera prognosen, men de mått vi valde var medelkvadratfelet12 och det procentuella medelabsolutfelet13 . Valet av dessa mått baseras dels på att de är relativt enkla och vanliga, samt att de användes av Ronald Lee och Timothy Miller när de utvärderade Lee-Carter metoden för att prognostisera dödlighetstrenden14. Dessa två mått kommer också kunna visa oss var i befolkningen felen blir som störst.

9_{Registret över totalbefolkningen} 10

Fram tills 1994 var Lekebergs kommun en del av Örebro kommun.

11

www.nora.se , www.nacka.se

12_{Mean Square Error, ME} 13

Mean Absolute Percentage Error, MAPE

14

(7)

4

4. Metoder

4.1 Metod för datainsamling

Den absolut största delen av datamaterialet vi använt oss av har vi hämtat från SCB:s hemsida, under befolkningsstatistik. Där fann vi i stort sett allt vi behövde, för de båda kommunerna samt för hela riket. Genom att spara ner dessa registerdata från SCB:s hemsida kunde vi sedan sortera det som vi ville, och dela in efter ålder och kön. Data vi sparade ner var den totala befolkningen (vid slutet av året), antalet immigranter (in- och utvandrare) på riksnivå och på kommunnivå antalet in- och utflyttade.

Datamaterialet som SCB tillhandahåller kommer från RTB15, som bygger på uppgifter från folkbokföringen, levererade från Skatteverket.

Vi studerade även äldre publikationer av Sveriges framtida befolkning(Demografiska rapporter) finns på Örebro Universitetsbibliotek för att kunna läsa ut äldre antaganden och prognoser från så lång tillbaka som 1983. I dessa hittade vi redan framtagna skattningar för födelsetal, dödlighet och hur dödligheten kommer att förändras, vilket kom att underlätta arbetet.

På kommunnivå märkte vi att samtliga som flyttade till och ut från kommunen inräknades i in- och utflyttade, alltså även immigranterna. All data sorterades efter kön och ålder. Detta för att enklare kunna se trender i t.ex. dödlighet och även cyklerna i fruktsamhet, för män och kvinnor i olika åldersgrupper.

Ett problem uppstod dock när vi skulle göra egna prognoser för kommunerna, vi saknade ju antaganden om framtida händelser. Vi kontaktade respektive kommun och fick således se antaganden som använts historiskt. Det visade sig att de använt sig av de skattningar som SCB tagit fram till sin riksprognos.

4.2 Metoder för parameterskattning

Eftersom vi ska utvärdera SCB:s befolkningsprognoser på lokal nivå och på riksnivå så kommer vi presentera den metod som SCB använder sig av. Den består till huvuddel av en kohort-metod där man enkelt följer olika grupper av befolkningen över tid för att hitta mönster i befolkningsutvecklingen och för att sedan kunna göra en prognos.

Grupperna som studeras är, antal födda, döda, in- och utflyttade16 och förväntat antal in- och utvandrare. Varje grupp sorteras sedan via ålder, kön och födelseland.

För att utföra befolkningsprognoser så använder sig SCB av en framskrivningsmodell som publiceras i SCB:s modell för befolkningsprognoser17.

Själva modellen, eller framskrivningsmodellen som SCB kallar den, ser ut på följande sätt:

15_{Registret över totalbefolkningen} 16

In- och utflyttade tas enbart med på lokal nivå, där inkluderas även migranter.

17

(8)

5 ₍₁₎ där Ovanstående modell gäller alltså för hela landets befolkning. På lokal nivå ersätts och med in- och utflyttade.

Det är alltså två faktorer på riksnivån som påverkar förändringen i befolkning, dödligheten och in- och utvandring. På lokal nivå så inkluderas även in- och utflyttning. De olika faktorerna beräknas givetvis på olika sätt, nedan följer en förklaring över hur dessa beräknas.

En påverkande faktor som saknas i denna modell är födelsetalet för år t, de som föds under året. Denna beräknas genom att summera fruktsamheten hos kvinnorna i de olika åldersgrupperna. Detta beskrivs ytterligare lite senare i ett avsnitt. Antalet födda, som sedan överlevt och inte utvandrat vid årets slut adderas sedan till .

4.2.1 Dödlighet

Dödligheten beräknas enskilt för olika åldersgrupper efter kön, däremot väljer SCB att inte göra någon skillnad på inrikes- och utrikes födda. Man låter inte heller migrationen påverka då de som migrerar sällan tillhör en åldersgrupp med märkbart hög dödsrisk18. För att få fram ett värde på hur många individer som kommer avlida under prognosåret måste föregående prognosperiods totala befolkning användas.

_{där x=1,2,3…w vid årets slut}

(2)

är den antagna dödsrisken, alltså sannolikheten att en person född år t-x dör under år t. Denna dödsrisk görs genom att man dividerar antalet döda i en viss åldersgrupp med den åldersgruppens genomsnittsbefolkning . En förändringsfaktor för dödligheten finns med i modellen, så för varje år som går så förändras med denna faktor. I denna uppsats studerar vi prognosfelen för upp till fem

tidsperioder framåt, och SCB använder sig alltså av ovanstående formel då en prognos för fem tidsperioder framåt görs 19.

18

Den största delen av de som migrerar tenderar att vara 20-39 år.

19

(9)

6 För prognoser längre fram i tiden använder de sig av den s.k. Lee-Carter metoden som tar hänsyn till att dödsriskerna förändras över tid för män och kvinnor i varje åldersgrupp20. Denna metod fungerar väldigt bra vid prognostisering många tidsperioder framåt.

, eller (3)

Här har vi alltså dödstalet, eller dödligheten, som beror av två åldersbestämda parametrar och , en tidsberoende parameter , och en störningsterm . Lee-Carter metoden gör en simpel

approximering via enkel regression för att få fram parameterskattningarna. Men det går att få fram de exakta värdena på parametrarna genom singulärvärdesuppdelning (Singular Value Decompstion, SVD). Anledningen till att SVD ej tillämpas är för att det genast blir mycket krångligare att skatta parametrarna och modellen blir mer svårtolkad.

Störningstermen, , innehåller information som inte kan förklaras av de övriga parametrarna, Lee och

Carter tar exemplet med spanska sjukan 1918 som gav en helt oförutsägbar trendavvikelse, avvikelse i , i dödligheten. (LC-method)

Chocker i dödlighetstrenden , likt spanska sjukan, kan man behandla som en uteliggare. Eftersom själva händelsen i dödlighetstrenden endast är tillfällig, så låter man en dummyvariabel indikera trendbrottet vid den tidpunkten. Modellen får nu information om vad som hände vilket leder till en bättre skattning av parametrarna och ett kortare konfidensintervall.

Den skattade modellen för med dummyvariabeln, såg ut på följande sätt21:

(4)

Här ser vi hur dummyvariabeln, , påverkar dödlighetstrenden med vid en viss tidpunkt. Övriga tidpunkter antar värdet 0 och påverkar inte . Här kan vi se att trenden antas vara linjär, med konstanten c, alltså en konstant förändring i förväntad livslängd. Om vi kollar på de diagram som Lee & Carter hänvisar till så syns det att trenden är tydligt linjär och nedåtgående, det vill säga c antar ett negativt värde. Det prognostiserade värdet för inkluderas sedan i ekvationen för det logaritmerade dödstalet (3).

Dummies förbättrar enbart ”within-sample”-resultat då det är svårt att förutspå sådana kraftiga trendbrott. Parametrarna och påverkar prognosen allt mindre ju längre fram i tiden prognosen görs. Det är osäkerheten i som gör att konfidensintervallet ökar med prognoslängden22.

För en prognos 10 år framåt så förklaras 98% av standardavvikelsen i av osäkerheten i 23_.

20

Modeling and forecasting U.S mortality

21_{Modeling and forecasting U.S mortality}_{kapitel 3-5}

22

Evaluating the performance of the Lee-Carter method for forecasting mortality s.538

23

(10)

7

4.2.2 Migration

Invandringen består av två komponenter, invandring av utrikes födda samt återvandring av inrikes födda. Återvandringen, , bestäms av hur stor andel av befolkningen som tidigare utvandrat, som sedan väljer att återvandra.

(5)

, är här tidigare antal utvandrade inrikesfödda d antal år utomlands. Risken att återvandra efter d år utomlands bestäms av . Av de utvandrade inrikes födda antas ungefär 70% av dem återvandra. Detta antagande gäller även i framtiden24. Inom hur många tidsperioder de utvandrade förväntas återvandra återges inte av SCB.

Invandringen av utrikes födda bestäms genom skattade trender av invandring från olika grupper av länder. Även invandringen delas upp efter kön och ålder. Grupperna av länder som SCB använder:

 Norden utom Sverige  EU25 utom Norden

 Länder med högt HDI, utom EU2525

 Länder med medel HDI (främst länder i mellanöstern)  Länder med lågt HDI

Hur dessa grupperingar valts framkommer inte. Invandringen från länder med medel och lågt HDI består sedan av två strömmar, flyktingar och anhöriga. Flyktingströmmen är svår att skatta och har en relativt stor variation. Anhöriginvandring beräknas som en funktion av tidigare perioders invandring26.

Vi valde att skatta invandringen och utvandringen genom att ta snittet från de tre föregående årens invandring och sedan konstanthålla den i fem tidsperioder framåt.

Utvandringen baseras istället på risker, för utrikes födda och inrikes födda.

Risken för utvandring hos en inrikesfödd beräknas med hjälp av åldersspecifika utvandringsrisker . Risken för att utrikesfödda invandrare ska utvandra är däremot lite mer komplicerad. En skattning av utflyttningsrisken efter ålder och tid i Sverige (duration) ansågs kunna göras. SCB använder sig här av något de kallar durationsmetoden, för att korrigera de åldersspecifika utflyttningsriskerna. Man tar då hjälp av kvoten mellan summorna av de olika metoderna (ålders- och durationsmetoden) 27.

(6) 24

SCB:s modeller för befolkningsprognoser 2005, Demografiska Rapporter 2003:4 s.72 och s.109

25_{Human Development Index} 26

SCB:s modeller för befolkningsprognoser 2005 s.25

27

(11)

8

4.2.3 In- och utflyttning (lokal nivå)

När det gäller prognoser på lokal nivå så slår SCB samman immigration och inflyttning, och emigration och utflyttning. Här är det svåraste att prognostisera immigration och inflyttning, då de helt eller delvis enbart baseras på antaganden. För en befolkningsprognos till en kommun så måste prognosmakaren här få information om eventuella arbetsmarknadsförändringar i kommunen, t.ex. nedläggning av en stor industri. Information om framtida bostadsmarknads- och infrastruktursförändringar är också nödvändigt för att kunna försöka förutse hur inflyttning och utflyttning kommer att påverkas.

SCB har flera statistikpaket där denna information går att erhålla, genom att köpa paketen28. Eftersom detta inte är officiell statistik kan vi inte få tillgång till detta utan själva beställa en prognos från SCB. Vi löste detta problem genom att ta genomsnittet för de två föregående åren, samt utgångsåret, och konstanthålla detta för fem prognosperioder framåt.

4.2.4 Fruktsamhet

Vid beräkningen av fruktsamheten, alltså hur många barn som föds per kvinna, så använder sig SCB av en så kallad kohort-metod. De beräknar fruktsamheten för varje åldersgrupp (kohort) och summerar sedan denna. Den yngsta gruppen är kvinnor 15 år eller yngre, och den äldsta är 49 år eller äldre29. Totala antalet födda år t beräknas enligt följande:

(7)

Medelvärdet av det totala antalet kvinnor i en viss åldersgrupp år t och år t-1 multipliceras med samma åldersgrupps specifika fruktsamhetstal år t. Detta ger sedan det åldersspecifika födelsetalet, genom att summera dessa födelsetal får man sedan det totala antalet födda barn i Sverige år t. Indexformen _Sv visar att det är barn födda i Sverige det handlar om.

Det antagna åldersspecifika fruktsamhetstalet , skattas genom att ta kvoten av antal födda barn genom medelfolkmängden kvinnor, i en viss åldersgrupp 30.

(8)

28_{Paketet heter TYKOPAK,}_{http://www.scb.se/Pages/List____257831.aspx} 29

SCB:s modeller för befolkningsprognoser 2005 s.13-14

30

(12)

9 Antalet födda barn delas upp i pojkar och flickor, där det antas att av 10000 födda barn så kommer 5145 vara pojkar och resten flickor. SCB använder sig inte enbart utav det totala antalet födda pojkar och flickor under årets gång, utan lägger även in en dödsrisk samt antal invandrade och utvandrade 0-åringar.31

(9)

Det prognostiserade antalet 0-åringar som överlever samt lever i Sverige vid årets slut.

Här antar k värdet 0,5145 om beräkningen avser pojkar, och 0,4855 om beräkningen avser flickor.

Av de som fötts under det gångna året, visar hur många som avlidit32.

(10)

Precis som i (2) så är här den antagna dödsrisken.

De barn som föddes utrikes och invandrat, , under prognosåret behandlas i modellen som 1-åriga

immigranter och är exogent bestämd. Under prognosåret så finns det även en risk för utvandring av inrikes födda barn, .

Utvandringen beräknas genom en risk .

(11)

SCB har valt att inte beräkna varken återflyttning eller dödlighet för 0-åringar som invandrat då de andelarna anses vara så pass obetydliga33.

I demografiska rapporter34 står det att SCB tar hänsyn till cykler i fruktsamheten, och även tittar på hur genomsnittsåldern på förstabarnsmödrarna förändras över tid. Detta är intressant för att kunna göra antaganden om hur stor andel av de kvinnor med ett barn som skaffar ett andra och tredje barn. Åldern på förstabarnet påverkar nämligen huruvida modern får ett andra barn, och sedan eventuellt ett tredje. Risken för barnlöshet tas också upp i demografiska rapporter 2003:4, och desto äldre en barnlös kvinna blir, desto större blir risken för barnlöshet eller att kvinnan endast får ett barn.

Fruktsamhets-”cyklerna” varierar kraftigt, på kort tid kan fruktsamheten förändras ordentligt.

Som exempel så var fruktsamheten 1993 2,0 barn per kvinna, och redan 1998-99 så var fruktsamheten endast 1,5 barn per kvinna, det lägsta i Sveriges historia35.

Metoden att skatta fruktsamhetstalet för varje åldersgrupp introducerades av Sten Martinelle (1988-1989)36 och SCB har sedan tillämpat detta i med mindre modifikationer sedan dess37.

31_{SCB:s modeller för befolkningsprognoser 2005}_s.14 32 SCB:s modeller för befolkningsprognoser 2005 s.14 33 SCB:s modeller för befolkningsprognoser 2005 s.14

34_{SCB:s modeller för befolkningsprognoser 2005, Demografiska Rapporter 2003:4}_s.101-102

35

SCB:s modeller för befolkningsprognoser 2005, Demografiska Rapporter 2003:4 s.47

36

(13)

10

5. Metod för utvärdering

Eftersom det är ett väldigt stort datamaterial och relativt enkla beräkningar så valde vi sedan att använda Microsoft Excel.

Som vi tidigare nämnt så jämför vi prognosen som är genomförd med SCB:s metod, mot det faktiska utfallet. Vi har därför valt att enbart göra prognoser där färdiga skattningar för fruktsamhet och dödlighet finns, och därför kommer vi följa SCB:s publikationer av Sveriges framtida befolkning. När vi gör prognosen tar vi antalet män och kvinnor i varje åldersgrupp från startåret, adderar antalet födda och inflyttare/immigranter, och subtraherar antalet döda och utflyttare/emigranter.

Nästkommande period är sedan helt baserad på den första prognosen, förutom flyttning och migration som konstanthålls. Denna metod upprepas tills vi fått prognoser för 5 perioder framåt.

De prognostiserade värdena för befolkningen jämförs sedan med de faktiska utfallen. Felmåtten tas fram genom just en sådan jämförelse.

Felmåtten vi valde var som sagt, MAPE och MSE. Ett procentuellt och ett kvadrerat fel så vi kan se var den största andelen i befolkningen felet ligger, och var det största felet ligger antalsmässigt.

Mean Absolute Percentage Error

(12)

Mean Squared Error

(13)

Vi har märkt att vid utvärderingar av befolkningsprognoser så anges ofta det procentuella felet av den prognostiserade totala befolkningen mot det totala utfallet. Vi har istället använt mått som summeras över män och kvinnor i alla åldrar.

37

(14)

11

6. Resultat

Under tiden vi gjort utvärderingen har vi fått fram en hel del intressanta resultat, som kanske inte helt stämmer överens med vår frågeställning. Vi fick dessvärre begränsa oss rätt kraftigt, och publicerar enbart resultaten på felmåtten.

Nedan följer utvärderingen av prognoserna, för respektive befolkning, där vi kollar på de felmått vi valt. Utgångsåret visar vilket år som prognosen genomförs, och T+1, T+2 och T+3 etc. visar hur många tidsperioder framåt prognosen gjorts. Om vi tar t.ex. utgångsåret 1985 och T+3, så är det felet för prognosen som gjorts för året 1988.

Tabell 1 Utgångsår 1985 1988 1990 1993 2002 2005 T+1 0,005 0,007 0,005 0,008 0,005 0,007 T+2 0,007 0,010 0,008 0,014 0,008 0,013 T+3 0,014 0,014 0,011 0,022 0,012 0,019 T+4 0,018 0,015 0,012 0,030 0,017 0,026 T+5 0,021 0,017 0,014 0,038 0,023 0,030

Riket, totalbefolkning MAPE

Värt att nämna är också att det procentuella felet i riksprognosen inte blivit lägre för perioden som baseras på 2005-års värden jämfört med period som baseras på 1985-års värden.

Tabell 2 Utgångsår 1985 1988 1990 1993 2002 2005 T+1 87621 434079 346876 144085 31618 208586 T+2 467008 3388590 520348 1114490 188752 869148 T+3 2274536 6921583 806426 4418898 371679 2045093 T+4 5767535 9605870 1475665 9682998 954072 4115768 T+5 8314555 10949060 3770210 15061378 1932994 6679511

Riket, totalbefolkning MSE

I nästan alla fall så syns det tydligt att desto fler perioder fram man väljer att göra prognos över, desto större blir felet mot utfallet. Vilket inte är så konstigt då man har mindre information hur det ser ut om 3 år än om hur det kommer se ut nästkommande år.

(15)

12 Figur 1

Figur 2

Här är två diagram som visar det absoluta procentuella felet (ej genomsnittliga), för män och kvinnor i olika åldrar 1986-1990. Utgångsåret är alltså 1985. Här ser vi alltså hur stort APE38 blir i olika

åldersgrupper. Diagram för övriga utgångsår med prognoser (1989, 1992, 2002, 2005) finns som bilaga, då det skulle ta för mycket plats med dessa diagram.

38

Absolute Percentage Error 0,00000 0,05000 0,10000 0,15000 0,20000 0,25000 0,30000 0,35000 0,40000 1 6 ₁₁ ₁₆ ₂₁ ₂₆ ₃₁ ₃₆ ₄₁ ₄₆ ₅₁ ₅₆ ₆₁ ₆₆ ₇₁ ₇₆ ₈₁ ₈₆ ₉₁ ₉₆ 101 A b solut Per ce n tage Er ro r

Män

1986 1987 1988 1989 1990 0,00000 0,05000 0,10000 0,15000 0,20000 0,25000 0,30000 0,35000 0,40000 0,45000 1 6 ₁₁ ₁₆ ₂₁ ₂₆ ₃₁ ₃₆ ₄₁ ₄₆ ₅₁ ₅₆ ₆₁ ₆₆ ₇₁ ₇₆ ₈₁ ₈₆ ₉₁ ₉₆ 101 A b solut e Per ce n tage Er ro r

Kvinnor

1986 1987 1988 1989 1990

(16)

13 Det vi tydligt kan se i båda diagrammen är att det är svårast att göra prognos över individer som är mycket unga och individer som är mycket gamla. Man kan även skymta en ”puckel” vid åren 20-39, som visat sig vara de åldrarna där individer är mest benägna att invandra och utvandra39.

Det är inte speciellt stor skillnad på män och kvinnor, så hädanefter kommer vi enbart att visa diagram över totalbefolkningen.

Figur 3

Här visar vi kvadratfelet i olika åldersgrupper. Vad som framgår här är storleken på felet, alltså hur många individer prognosen missbedömer i kvadrat. Det framgår väldigt tydligt att det är barn och nyfödda som är svårast att göra prognoser över när det gäller antal. Felet i den äldre befolkningen som framkom vid APE visar sig inte här då det är mycket färre individer i åldrarna över 85 år, och därför blir inte det kvadrerade felet speciellt stort.

39

Se diagram om genomsnittlig in- och utvandring. 0 50000000 100000000 150000000 200000000 250000000 300000000 1 6 ₁₁ ₁₆ ₂₁ ₂₆ ₃₁ ₃₆ ₄₁ ₄₆ ₅₁ ₅₆ ₆₁ ₆₆ ₇₁ ₇₆ ₈₁ ₈₆ ₉₁ ₉₆ 101 K vad ratfel

Kvadratfelet i totalbefolkningen

1986 1987 1988 1989 1990

(17)

14 Figur 4

Figur 5

Ovanstående visar det vi tidigare påstod, att den vanligaste flytt-åldern är när individen är runt 20-40 år. Skillnaden mellan män och kvinnor är inte speciellt stor. Anledningen till att det är ett ganska stort antal individer i yngre åldrar, 3-8 år, är förmodligen att dessa följer med sina föräldrar som är i 20-40års åldern.

Den lilla puckeln på utvandringen vid 66-70års ålder misstänker vi är pensionärer som flyttar utomlands.

0 200 400 600 800 1000 1200 1400 1 6 ₁₁ ₁₆ ₂₁ ₂₆ ₃₁ ₃₆ ₄₁ ₄₆ ₅₁ ₅₆ ₆₁ ₆₆ ₇₁ ₇₆ ₈₁ ₈₆ ₉₁ ₉₆ 101 A n tal

Genomsnittlig Invandring 1985-2010

Män Kvinnor 0 100 200 300 400 500 600 1 6 ₁₁ ₁₆ ₂₁ ₂₆ ₃₁ ₃₆ ₄₁ ₄₆ ₅₁ ₅₆ ₆₁ ₆₆ ₇₁ ₇₆ ₈₁ ₈₆ ₉₁ ₉₆ 101 A n tal

Genomsnittlig utvandring 1985-2010

Män Kvinnor

(18)

15 Tabell 3 Utgångsår 1985 1988 1990 1993 2002 2005 T+1 0,046 0,045 0,055 0,057 0,069 0,046 T+2 0,080 0,070 0,069 0,072 0,083 0,065 T+3 0,075 0,086 0,072 0,089 0,108 0,076 T+4 0,098 0,091 0,096 0,101 0,116 0,092 T+5 0,109 0,099 0,107 0,108 0,116 0,095

Nora, totalbefolkning MAPE

I prognosen för Nora, med samma antaganden om födelsetal och dödlighet som för riket, så blir det absoluta procentuella medelfelet som störst där 11,6%. Då befolkningen i Nora ligger runt 10000 så blir det ett fel på ca 1000 personer, vilket är ett ganska stort fel.

Tabell 4 Utgångsår 1985 1988 1990 1993 2002 2005 T+1 10 19 16 12 16 15 T+2 26 57 30 25 32 26 T+3 65 84 42 42 55 40 T+4 130 95 84 74 75 52 T+5 178 114 131 87 78 60

Nora, totalbefolkning MSE

Medelkvadratfelet visar att vi relativt väl oftast prognostiserar ett värde som inte skiljer sig så mycket från utfallet. I och med att det är ett genomsnittligt kvadrerat fel betyder det att prognosen oftare än inte var nära det riktiga utfallet. Resultaten säger däremot inget om hur pass bra prognosen fungerar inom olika åldersgrupper, eller om den fungerar bättre för män och kvinnor.

Figur 6 0 0,5 1 1,5 2 2,5 1 5 9 ₁₃ ₁₇ ₂₁ ₂₅ ₂₉ ₃₃ ₃₇ ₄₁ ₄₅ ₄₉ ₅₃ ₅₇ ₆₁ ₆₅ ₆₉ ₇₃ ₇₇ ₈₁ ₈₅ ₈₉ ₉₃ ₉₇ 101 A b solut e Per ce n tage Er ro r

APE Nora

1986 1987 1988 1989 1990

(19)

16 Även i Nora är det svårt att få en bra prognos över den äldre delen av befolkningen. Vad som inte är lika tydligt är felet hos den yngre befolkningen och de i 20-39års åldern. Tänk på att nivån visas i procent och att den är mycket högre i Nora för alla åldrar än på riksprognosen.

Figur 7

Även medelkvadratfelet för Noras befolkning (precis som på riksnivån) visar att det är störst fel i de unga åldrarna men även i in- och utflyttningsåldrarna.

Figur 8

Det verkar vara vanligast att flytta från Nora i 20-30 års ålder, däremot är det inte så vanligt i de yngre åldrarna. Här inkluderas även utvandring, som vi tidigare nämnt.

0 500 1000 1500 2000 2500 3000 3500 1 6 ₁₁ ₁₆ ₂₁ ₂₆ ₃₁ ₃₆ ₄₁ ₄₆ ₅₁ ₅₆ ₆₁ ₆₆ ₇₁ ₇₆ ₈₁ ₈₆ ₉₁ ₉₆ 101 K vad ratfel

Kvadratfel Nora

1986 1987 1988 1989 1990 0 5 10 15 20 25 30 1 6 ₁₁ ₁₆ ₂₁ ₂₆ ₃₁ ₃₆ ₄₁ ₄₆ ₅₁ ₅₆ ₆₁ ₆₆ ₇₁ ₇₆ ₈₁ ₈₆ ₉₁ ₉₆ 101 A n tal

Genomsnittlig utflyttning Nora 1985-2010

(20)

17 Figur 9

I Nora så är det också vanligast att flytta vid 20-39 års ålder, och yngre barn. Det är vanligare att flytta till Nora med barn, än att flytta från Nora med barn. Här är också invandring inkluderat, som vi tidigare nämnt. Tabell 5 Utgångsår 1985 1988 1990 1993 2002 2005 T+1 0,036 0,027 0,079 0,029 0,037 0,040 T+2 0,051 0,065 0,083 0,044 0,047 0,047 T+3 0,065 0,076 0,194 0,047 0,055 0,049 T+4 0,071 0,078 0,081 0,048 0,073 0,064 T+5 0,079 0,089 0,089 0,067 0,076 0,065

Nacka, totalbefolkning MAPE

För Nacka så är det absoluta procentuella medelfelet som störst knappt 9% , något lägre än för Nora. I Nacka bor det dock ca 80000 fler personer än i Nora, vilket givetvis påverkar det absoluta procentuella medelfelet. Tabell 6 Utgångsår 1985 1988 1990 1993 2002 2005 T+1 161 342 1367 385 516 1041 T+2 371 1015 1505 554 1235 2472 T+3 820 1876 2039 650 2504 3628 T+4 2153 2872 3020 776 3995 6235 T+5 2609 4616 3784 661 5881 8719

Nacka, totalbefolkning MSE

0 2 4 6 8 10 12 14 16 18 1 6 ₁₁ ₁₆ ₂₁ ₂₆ ₃₁ ₃₆ ₄₁ ₄₆ ₅₁ ₅₆ ₆₁ ₆₆ ₇₁ ₇₆ ₈₁ ₈₆ ₉₁ ₉₆ 101 A n tal

Genomsnittlig inflyttning Nora 1985-2010

(21)

18 Figur 10

Återigen är det äldre, födda och nu också individer i in- och utflyttningsåldern som har störst procentuellt fel.

Figur 11

Kvadratfelet är än en gång som störst bland riktigt unga individer, och i flyttningsåldern. Det är som sagt svårt att göra prognos över antalet in- och utflyttade samt nyfödda.

0,00000 0,20000 0,40000 0,60000 0,80000 1,00000 1,20000 1 5 9 ₁₃ ₁₇ ₂₁ ₂₅ ₂₉ ₃₃ ₃₇ ₄₁ ₄₅ ₄₉ ₅₃ ₅₇ ₆₁ ₆₅ ₆₉ ₇₃ ₇₇ ₈₁ ₈₅ ₈₉ ₉₃ ₉₇ 101 A b solut e Per ce n tage Er ro r

APE Nacka

1986 1987 1988 1989 1990 0 10000 20000 30000 40000 50000 60000 70000 1 5 9 ₁₃ ₁₇ ₂₁ ₂₅ ₂₉ ₃₃ ₃₇ ₄₁ ₄₅ ₄₉ ₅₃ ₅₇ ₆₁ ₆₅ ₆₉ ₇₃ ₇₇ ₈₁ ₈₅ ₈₉ ₉₃ ₉₇ 101 K vad ratfel

Kvadratfel Nacka

1986 1987 1988 1989 1990

(22)

19 Figur 12

Figur 13

Här syns att de mest flyttningsbenägna individerna befinner sig i 20-39års ålder, och deras barn följer med. I Nacka, precis som Nora, så är flyttningsstatistiken både inrikes in- och utflyttning, samt migration.

0 50 100 150 200 250 1 6 ₁₁ ₁₆ ₂₁ ₂₆ ₃₁ ₃₆ ₄₁ ₄₆ ₅₁ ₅₆ ₆₁ ₆₆ ₇₁ ₇₆ ₈₁ ₈₆ ₉₁ ₉₆ 101 A n tal

Genomsnittlig utflyttning Nacka 1985-2010

Utflyttade 0 50 100 150 200 250 1 5 9 ₁₃ ₁₇ ₂₁ ₂₅ ₂₉ ₃₃ ₃₇ ₄₁ ₄₅ ₄₉ ₅₃ ₅₇ ₆₁ ₆₅ ₆₉ ₇₃ ₇₇ ₈₁ ₈₅ ₈₉ ₉₃ ₉₇ 101 A n tal

Genomsnittlig Inflyttning Nacka 1985-2010

(23)

20

7. Slutsats

Prognosmodellernas konstruktion gör att varje prognos steg delas upp i åldrarna fördelat över kön, det vill säga dessa grupper som kallas kohorter. Dessa kohorter kan variera mellan att innehålla inga individer till flera tusen individer. Prognoserna för Nacka så visade MAPE att prognosen för skolpopulationen i olika åldrar (7-18 år) slog fel med uppåt en till två skolklasser i storlek. Detta skulle kunna innebära problem för beslutsfattarna när det gäller skolans framtida planering.

För att återgå till vår frågeställning, hur stor träffsäkerhet har prognosen på riks- och lokal nivå? För att börja besvara denna fråga på detta så tar vi utvärderingen av prognosen på lokal nivå.

För MAPE blir felet mest påtagligt bland äldre sedan nyfödda/förskolebarn och även i flyttålders-gruppen. I absoluta tal ser man däremot att MSE påverkas mest av grupperna nyfödda/förskolebarn och flyttålders-gruppen.

Detta gör att samhällsplanering av skola blir lättare för kommuner då gruppen i 7-19 år är relativt förutsägbar med denna metod. Givetvis ökar prognosfelet med många prognosperioder framåt (undantag finns) men detta borde inte förhindra kontinuerlig samhälls planering.

I gruppen äldre, främst 75+, där procentfelen ökar kraftigt (även på riksnivå) är det prognosfel som vi ser så litet att den storleksmässigt inte kan försvåra samhällsplanering. Det handlar oftast om ett fåtal individer med oförutsägbara behov av äldreomsorg att andra prognosmetoder skulle behövas för sådan samhällsplanering.

Vi tycker således att prognosfelet på lokal nivå inte är så pass stort att det skulle påverka beslutsunderlaget för t.ex. samhällsplaneringen nämnvärt.

MAPE på riksnivå ligger aldrig över 4% vid det sista prognosåret, och MSE vid samma tidpunkt ligger på lite över 15 miljoner.

Hur ska man då tolka detta? Vi tolkar det som att prognosmetoden fungerar väldigt bra på riksnivå. Ett MSE på 15 miljoner vid en tidpunkt då landets befolkning låg runt 8,7 miljoner totalt, anser vi är väldigt litet.

Som vi nämnde tidigare i uppsatsen så har vi inte gjort ett oberoende slumpat urval när vi valt kommuner, därför kan inte vår utvärdering på lokal nivå generaliseras på övriga kommuner.

(24)

21

8. Diskussion

Vi är medvetna att en stor felkälla för MAPE är den äldre gruppen individer, särskilt 85 år och äldre. Lee-Carter-metoden, för att prognostisera dödligheten, underskattar dödligheten hos äldre individer systematiskt, detta medför att det kommer ske en överskattning av äldre personer i en

befolkningsprognos40. Hur stort detta systematiska fel är, och om det skulle gå att korrigera för detta är oklart. Men eftersom det finns så få individer i åldersgruppen 85 år och äldre lokalt, ger dessa

överskattningar svagt genomslag i MSE vilket gör att kvadratfelet blir ett bättre mått för att se det prognosfel som uppstår för individer i yngre åldrar samt de som befinner sig i ”flytt”-åldern. Figur 14

40

Modeling and forecasting U.S mortality

0 100 200 300 400 500 600 700 800 900 1 6 ₁₁ ₁₆ ₂₁ ₂₆ ₃₁ ₃₆ ₄₁ ₄₆ ₅₁ ₅₆ ₆₁ ₆₆ ₇₁ ₇₆ ₈₁ ₈₆ ₉₁ ₉₆ 101 M SE

MSE NORA

1986-1990 2006-2010

(25)

22 Figur 15

På denna, och föregående sida ser vi hur mycket vi i genomsnitt har i kvadratfel i de olika åldersgrupperna. Som ses gör vi en felskattning av antalet nyfödda samt förskolebarn, dock inte alltid. Detta uppträder systematiskt för oss och detta kan bero på att SCB har felskattat födelsetalens utveckling och att den prognos som görs bara ibland passar bättre för vissa områden. Detta slår igenom för åldrar upp till fem år då vi bara gör fem perioder framåt, men detta fel skulle fel skulle följa med om fler perioder skulle göras.

Det går även att se en stor felkälla i ”flyttåldrarna”. ”Flyttåldern” för en viss kommun kan vara olika för olika områden och olika tidsperioder. T.ex. i Nacka inträder denna ålder mellan 21 -37 1986-1990 men är 21-41 2006-2010 som man kan se här på nästa sida.

Man kan säga att prognosen kan delas upp i flera olika delar för sin träffsäkerhet. Träffsäkerheten för totalbefolkningen är generellt bättre än träffsäkerheten för vissa åldersgrupper uppdelat på kön. Detta för att det finns föränderliga födelsemönster som är svår prognostiserade. T.ex. så ökar åldern för förstabarns mödrar mellan 1985 och 2005. Det visar sig även, tycker vi, att flyttmönstret är föränderligt och i mycket följer samma åldersförskjutningsmönster som förstabarnsmödrar. Vi tror att detta i sig är värt att undersöka vidare om det finns en stark korrelation för detta.

Inflyttning och utflyttning är svårmodellerad. Vår metod att prognostisera denna är inte så bra då flyttmönster förändras vilket inte ett enkelt genomsnitt kan täcka. En mer precis prognos över flyttmönstret skulle ha kunnat göras om vi haft tillgång till de statistikpaket SCB använder för detta. Det är dock tänkbart att man skulle kunna skriva simuleringsprogram, s.k. mikrosimulering, som simulerar flyttmönster och att sådana program kan komma i bruk i framtiden. Det kan vara intressant att undersöka möjligheten med sådana simuleringsprogram och etiken bakom dem. Detta då det är fullt möjligt att följa enskilda individers öden via svenska register, även om detta är etiskt tveksamt att göra så. 0 10000 20000 30000 40000 50000 60000 70000 80000 90000 100000 1 6 ₁₁ ₁₆ ₂₁ ₂₆ ₃₁ ₃₆ ₄₁ ₄₆ ₅₁ ₅₆ ₆₁ ₆₆ ₇₁ ₇₆ ₈₁ ₈₆ ₉₁ ₉₆ 101 M SE

MSE Nacka

1986-1990 2006-2010

(26)

23 Ett område som är än svårare att göra precisa prognoser över är immigrationen av utrikes födda. Denna behandlas, och är en, som en exogen variabel. Ett problem med immigrationen är att den inte enbart påverkar befolkningsmängden, utan den bör även de övriga parametrarna. Det enda vi kan säga om detta är att det skulle behövas mer forskning på det området.

Samtidigt så är det i stort sett omöjligt att förutspå framtida katastrofer, som krig, jordbävningar och svält. Dock så är det en större andel av immigranterna söker sig till Sverige för en möjlighet till ett bättre liv, och detta tycker vi borde kunna modelleras.

(27)

24 Källförteckning

SCB:s modeller för befolkningsprognoser 2005, Demografiska Rapporter 2003:4 (18/5 2011)

http://www.scb.se/statistik/BE/BE0401/2003I50/BE51ST0304.pdf

SCB:s modeller för befolkningsprognoser 2005 (18/5 2011)

http://www.scb.se/statistik/_publikationer/BE0401_2005A01_BR_BE52OP0501.pdf

The Timings of First Birth, Sten Martinelle (18/5 2011)

http://www.springerlink.com/content/k4557hmkt3833283/

Modelling and forecasting U.S mortality, Ronald Lee och Lawrence Carter (18/5 2011)

http://www.jstor.org/openurl?volume=87&date=1992&spage=659&issn=01621459&issue=419&

Evaluating the performance of the Lee-Carter method for forecasting mortality, Ronald Lee och Timoty Miller (18/5 2011)

http://www.springerlink.com/content/kh60l36624v60287/

Preliminär Befolkningsstatistik (månad, kvartal, halvår samt 1 november) SCB:s beskrivning av befolkningsstatistik (18/5 2011)