• No results found

Framtagande av modell för skattning av antalet vakanser med poissonregression i konjunkturstatistiken över vakanser

N/A
N/A
Protected

Academic year: 2021

Share "Framtagande av modell för skattning av antalet vakanser med poissonregression i konjunkturstatistiken över vakanser"

Copied!
76
0
0

Loading.... (view fulltext now)

Full text

(1)ÖREBRO UNIVERSITET Institutionen för ekonomi, statistik och informatik C-uppsats i statistik Handledare: Thomas Laitila. Framtagande av modell för skattning av antalet vakanser med poissonregression i konjunkturstatistiken över vakanser .. Datum: 2007-01-08 Författare: Pernilla Bengtsson.

(2) Ett stort tack ska riktas till Lennart Nordberg som har försett mig med ämne och underlag för uppsatsen, dessutom hjälpt mig och varit bollplank för tillvägagångssättet och vissa svårare delar i SAS-programmeringen. Dessa var besvärliga även efter en självstudiekurs i SAS. Utan hans hjälp skulle det ha tagit väldigt lång tid att få ihop programmeringen. Även ett tack till Tor Bengtsson som har varit en bra diskussionspartner angående SASprogrammeringen.. 1.

(3) Sammanfattning SCB gör en vakansundersökning varje månad, granskningssystemet för undersökningen ska eventuellt ändras till en metod som kallas för significance editing. Med den granskningsmetoden behövs ett jämförelsevärde för att kunna avgöra om enkäten är korrekt besvarad eller om ett värde är misstänkt och behöver granskas ytterligare. Uppsatsens syfte är att genom poissonregression ta fram en bra modell som kan generera detta jämförelsevärde. Ett antal hjälpvariabler togs fram och testades för att se om de passade i poissonregressionen och om de kunde förklara antalet vakanser. De hjälpvariabler som har använts är antal vakanser föregående månad, antal anställda på arbetsstället, dummyvariabel för Sveriges län och månaderna. Metoden testades på två olika branscher, pappersmassaindustrin och metallindustrin. I de resultat som togs fram kan man se att variablerna antal anställda på arbetsstället och antalet vakanser föregående månad alltid blir signifikanta och tillför till att skatta antalet vakanser. Därför kan dessa användas för att skatta ett jämförelsevärde. Län och månader behövs i modellen men det är olika län och månader som blir signifikanta för de två olika branscherna. Generellt kan man dra slutsatsen att antalet vakanser ökar på våren och sommaren. Huruvida metoden går att tillämpa på det ogranskade datamaterialet får vidare undersökningar visa.. 2.

(4) Innehållsförteckning Innehållsförteckning .............................................................................................................. 3 1. Bakgrund ........................................................................................................................... 4 1.1 Syfte och avgränsning ................................................................................................. 5 2. Poissonregression .............................................................................................................. 6 2.1 Poissonregressionsmodellen ........................................................................................ 6 2.2 Maximum likelihood metoden .................................................................................... 6 2.2.1 Maximum likelihood metoden ............................................................................. 6 2.2.2 Newton-Raphson metoden ................................................................................... 7 2.3 Modellutvärdering ........................................................................................................... 8 2.3.1 Deviansen ................................................................................................................. 8 2.3.2 Överspridning ........................................................................................................... 9 2.3.3 Likelihood ratio test .................................................................................................. 9 2.3.4 T-test ....................................................................................................................... 10 2.3.5 Pearson residualer ................................................................................................... 10 2.4 Val av modell ................................................................................................................ 10 2.4.1 Rutin i SAS ............................................................................................................. 10 2.4.2 Cp-statistikan........................................................................................................... 12 3. Analys av vakanser .......................................................................................................... 13 3.1 Pappersmassaindustrin .......................................................................................... 16 3.2 Metallindustrin ...................................................................................................... 22 4. Diskussion ....................................................................................................................... 28 4.1 De viktigaste resultaten ............................................................................................. 28 4.2 Val av variabler och uppdelning av materialet .......................................................... 28 4.3 Modellutveckling och förbättringar ........................................................................... 29 Litteraturreferenser .............................................................................................................. 31 Bilaga 1 Enkät ..................................................................................................................... 32 Bilaga 2 Länsindelning ........................................................................................................ 33 Bilaga 4 SAS utskrift ........................................................................................................... 37 Bilaga 5 Diagram ................................................................................................................. 74. 3.

(5) 1. Bakgrund Statistiska Centralbyrån (SCB) genomför en vakansundersökning varje månad för att beskriva efterfrågan på arbetskraft. Undersökningen genomförs i samband med produktionen av den kortperiodiska sysselsättningsstatistiken (KS). Statistiken produceras av enheten för Företags- och registerbaserad sysselsättning (NA/FRS) i samarbete med enheten för datainsamlingen från företag (DFO/FU). Vakansundersökningen är viktig för att se hur stor efterfrågan på arbetskraft är samt att det är en tidig indikator på konjunkturförändringar. Definitionen av en vakans är en obemannad tjänst, under onsdagen mitt i mätmånaden, som omedelbart kan tillträdas. Enkäten finns i bilaga 1. Resultaten presenteras kvartalsvis och redovisar antalet vakanser totalt men även uppdelat på region och arbetsställets storlek. Populationen av arbetsställen delas in i olika stratum som beror på storlek och om arbetsstället tillhör den offentliga eller privata sektorn. Enkäten skickas ut till cirka 19 500 privata arbetsställen och 4 100 offentliga. I den privata sektorn totalundersöks de arbetsställen som har 100 eller fler anställda, offentliga arbetsställen i statlig och kommunal regi totalundersöks för arbetsställen med 200 eller fler anställda medan de i landstinget totalundersöks om de anställda är 150 eller fler. De större arbetsställena som totalundersöks får en enkät varje månad och de mindre arbetsställena som ingår i urvalet tillfrågas en månad i varje kvartal. De mindre arbetsställena delas slumpmässigt upp i tre lika stora grupper som tilldelas varsin månad för att kvartalets vakanser ska representeras på bästa sätt. De utvalda arbetsställena ändras varje halvår, ett nytt stratifierat OSU (obundet slumpmässigt urval) dras i mars och augusti för att uppgiftslämnarbördan hos arbetsställena ska minska och för att ramfelen ska minimeras. Det är cirka 25 % av urvalet som byts ut varje halvår (SCB, 2005-05-11). Varje månad granskas ett stort antal enkäter efter värden som verkar ”felaktiga”. För en bedömning jämförs det observerade värdet med ett förväntat värde. Det förväntade värdet varierar på bransch och storlek av arbetsställe. Till exempel kontrolleras alla arbetsställen som har 200 eller fler anställda om de rapporterar att de inte har några vakanser. Ett av de fel som indikeras beror på att vissa arbetsställen visar stora säsongsvariationer. Detta gäller exempelvis arbetsställen som är beroende av turistnäringen (Liseberg, Gröna Lund etc.) och som varje år behöver anställa ett stort antal personer inför den kommande säsongen. Dessa arbetsställen kommer alltid att uppmärksammas eftersom de avviker så mycket från jämförelsevärdet och kommer att kontrolleras trots att det är känt att indikationen beror på säsongsvariation. Andra arbetsställen med säsongsvariationer är till exempel arbetsställen i byggbranschen. De har ett större behov av personal på sommaren och mindre på vinterhalvåret. Den metod som man vill införa för att granska enkäterna istället för den nuvarande metoden kallas för significance editing. Med significance editing metoden granskas de största misstänkta felen medan de mindre ignoreras med antagandet att de mindre felen tar ut varandra och inte påverkar slutprodukten nämnvärt. I stora drag fungerar metoden så att det observerade värdet jämförs med ett jämförelsevärde och sedan rangordnas avvikelserna i storleksordning. När felen rangordnas får man en varning om att svaret verkar misstänkt för de allra största felen medan de mindre felen blir accepterade (Lawrence and McDavitt, 1994). På så sätt hoppas man minska granskningskostnaden samtidigt som kvalitén behålls.. 4.

(6) Den typen av jämförelsevärde som önskas ska göra så att de stora felen i undersökningen fångas upp men låter de små felen passera. De små felen antas inte göra någon större skillnad i slutresultatet och kan därför ignoreras. De större felen ger däremot stora skillnader i slutprodukten om de inte uppmärksammas och justeras, och det är därför vikigt att fånga upp dessa och rätta dem. Det stora problemet med significance editing är att hitta en metod för att beräkna nu förväntade värden som fungerar i alla typer av branscher och storleksgrupper. En metod som fungerar bra för vissa branscher kanske inte alls fungerar för andra. Det behövs en metod som kan ta fram jämförelsevärden som kan tillämpas på en större grupp (till exempel bransch, storlek eller län). Eftersom det inte är hållbart att ta fram ett jämförelsevärde för varje arbetsställe. Samtidigt ska kvalitén på slutprodukten bibehållas och granskningskostnaden förhoppningsvis sänkas.. 1.1 Syfte och avgränsning Uppsatsens syfte är att beskriva fördelningen av antal vakanser med hjälp av poissonregression. I modellen används bakgrundsvariabler som månadsdummy, länsdummy, antal anställda och antal vakanser föregående månad. Målet är en modell som skall kunna användas för att ta fram det jämförelsevärde som behövs i significance editing. Uppsatsen har avgränsats till att ta fram en modell för pappersmassaindustrin och metallindustrin. Antalet vakanser är definierat som en obemannad tjänst som omedelbart kan tillträdas. Men det datamaterial som används är totalt antal lediga jobb där vakanser ingår men även bemannade lediga jobb finns med. Genomgående kommer termen vakanser att användas när det gäller totalt antal lediga jobb.. 5.

(7) 2. Poissonregression 2.1 Poissonregressionsmodellen Exempel på variabler som brukar modelleras med poissonregression är antal telefonsamtal till en telefonväxel, antal kunder till ett bankkontor och antal läkarbesök per individ. Poissonfördelningens sannolikhetsfunktion är e − λi λiyi , yi !. P(Yi = y i ) =. där y består av utfallsrummet; y i = 0,1,2,.... I poissonfördelningen har medelvärde och varians samma värde det vill säga E ( y i ) = λi och V ( y i ) = λi . Poissonregressionsmodellen är en ickelinjär modell. Ofta antas att logaritmen av λi är en linjärfunktion av förklaringsvariabler det vill säga ln λi = β ′xi . Här är β en vektor med parametrar och xi är en vektor av förklaringsvariabler. Det förväntade antalet händelser per tidsperiod fås av E [y i xi ] = λi = e β ′xi. 2.2 Maximum likelihood metoden 2.2.1 Maximum likelihood metoden Maximum likelihood metoden kan användas för att skatta poissonregressionsmodellen. Log likelihood funktionen har utseendet. parametrarna. i. n. ln L = ∑ [− λi + y i β ′xi − ln y i !] . i =1. Score-vektorn är. (. ). n ∂ ln L = ∑ y i − e β ′xi xi ∂β i =1. och maximum likelihood estimation av β ekvationen. (. definieras av lösningen till likelihood. ). n ∂ ln L = ∑ y i − e β ′xi xi = 0 . ∂β i =1. Skattning av β -parametrarna med hjälp av maximum likelihood ger exakt samma skattning som med minsta kvadrat metoden vid normalfördelning (Kleinbaum, Kupper and 6.

(8) Muller, 1988). Vid poissonregression är maximum likelihood skattningarna inte normalfördelade. Däremot kan det visas att maximum likelihood skattningarna är asymptotiskt normalfördelade enligt. (. βˆ ML ~ appr N β , (I (β ))−1. ). ∂ 2l där I (β ) = − E ∂β∂β ′ informationsmatrisen.. (Greene,. 1993).. Kovariansmatrisen. är. inversen. av. 2.2.2 Newton-Raphson metoden Newton-Raphson metoden är även känd som Newtons metod. För att kunna använda Newton-Raphson metoden måste man först beräkna hessianen. Hessianen är en oftast symmetrisk matris bestående av andraderivator. Varje kolumn och rad i matrisen innehåller andraderivatan för alla variabler med avseende på varandra. Till exempel, om funktionen innehåller två variabler får man en hessianmatris i storleksordning 2 × 2, innehåller den 3 variabler blir matrisen 3 × 3 stor. Formeln för att beräkna hessianmatrisen under poissonurval är n ∂ 2l ′ = −∑ e β xi xi xiT ∂β∂β ′ i =1. Första ordningsvillkoret är att förstaderivatorna är nollställda. Andra ordningsvillkoret är att hessianmatrisen med andraderivatorna är negativt definit. För att kunna beräkna ett maximum som ska göras här kräver det att första och andra ordningsvillkoret är uppfyllt. Dessa krav är även de som definierar ett maximum. Att hessianen är negativ definit innebär att för en godtycklig vektor a som är skild från noll så gäller a ′Ha < 0 . Om motsatsen sker så har vi en positivt definit matris, det vill säga a ′Ha > 0 . I och med att hessianen är negativt definit får vi att log likelihood funktionen är konkav i punkten β . Om en funktion är globalt konkav så innebär det att det alltid går att nå maximum med hjälp av iterationer (upprepningar) genom Newton-Raphson metoden. Vid global konkavitet når man alltid maximum och det finns bara ett maximum, till skillnad från till exempel en sinus funktion som har flera maximum och minimum. När man har beräknat score-vektorn och hessianmatrisen så använder man sig av NewtonRaphson metoden för att beräkna maximum likelihood skattningen av β . NewtonRaphson består av en algoritm som upprepas tills konvergens uppnås. Formeln för Newton-Raphson metoden är. 7.

(9) ⎛ ∂ 2l b(2 ) = b(1) − ⎜⎜ ⎝ ∂β ∂β. −1. ⎞ ∂l ⎟⎟ ⎠ β =b (1) ∂β. ⎛ n ⎞ = b(1) − ⎜ ∑ e b (1) xi xi xiT ⎟ ⎝ i =1 ⎠. β =b (1). −1 n. ∑ (y i =1. i. ). − e b (1)xi xi. Det som händer i formeln är att hessianmatrisen inverteras varpå den multiplicerar med motsvarande score-vektor. En ny vektor bildas och den subtraheras från b (1)-värdet (som var ett initialt valt värde). Då erhålls ett nytt värde för β kallat b (2) och det används på samma sätt som det gamla b (1)-värdet. När upprepningarna ger ungefär samma värde på båda b-parametrarna har iterationerna konvergerat. Genom att använda Newton-Raphson metoden kommer man snabbt att konvergera till maximum av log likelihood funktionen. I de flesta fallen går det på ett fåtal iterationer om inte b (1) är extremt dåligt specificerad (Greene, 1993). Det vill säga att man har valt ett värde på b (1) som ligger väldigt långt ifrån maximum på βˆ . Om funktionen är kvadratisk behövs det endast en iteration för att uppnå maximum oavsett vilka initiala värden man väljer på parametrarna.. 2.3 Modellutvärdering 2.3.1 Deviansen Formeln för deviansen vid poissonfördelning för en observation är ⎤ ⎡ ⎛y ⎞ d i = 2⎢ y i ln⎜ i ˆ ⎟ − ( y i − λˆi )⎥ , ⎝ λi ⎠ ⎦ ⎣ vilket kan förenklas till ⎤ ⎡ ⎛y ⎞ d i = 2 ⎢ y i ln⎜ i ˆ ⎟ − ei ⎥ λ i⎠ ⎝ ⎦ ⎣ där 0 ln (0 ) = 0 . En konstantterm i modellen påverkar formeln på följande sätt. n. ∑e i =1. i. = 0. I. GENMOD-proceduren som används i SAS ingår det alltid en konstantterm, därför kommer n. ∑e i =1. i. alltid vara noll i modellerna som bildas av poissonregressionen. Summan av alla. n n ⎛y ⎞ devianser är G 2 = ∑ d i = 2∑ yi ln⎜⎜ i ˆ ⎟⎟ . i =1 i =1 ⎝ λi ⎠. Deviansen används för att se hur bra anpassad modellen är. Om modellen är perfekt anpassad kommer resultatet av statistikan att vara 0. Men eftersom y i är ett heltal och 8.

(10) prediktionen är ett kontinuerligt värde så kommer det inte att ske vid poissonregression (Greene, 1993). Deviansen har en samplingfördelning som är χ 2 -fördelad med (N - p) frihetsgrader under antagandet att modellen är korrekt specificerad, där N är antal observationer och p är antal parametrar (Dobson, 2002).. 2.3.2 Överspridning Överspridning är när variansen är större än medelvärdet. Som tidigare nämnts kännetecknas en poissonfördelad variabel av att medelvärdet och variansen är samma. Det skapas underspridning när variansen är mindre än medelvärdet men det är ytterst ovanligt förekommande och det vanligaste är överspridning eller att variansen är lika med medelvärdet för en poissonfördelad variabel. Det som bland annat kan orsaka överspridning i en poissonregression är att det finns ett beroende mellan observationerna. I SAS beräknas ett mått på överspridning genom Pearsons chitvå-statistika dividerat med antalet frihetsgrader (SAS/STAT User’s guide version, 1999). Ett värde som är större än 1,0 tyder på överspridning och ett värde lägre än 1,0 tyder på underspridning. För att komma ifrån problem med överspridning tas en överspridningsfaktor fram; φ (fi) det vill säga Pearsons chitvå-statistika delat på antalet frihetsgrader. Den används på följande sätt V (μ ) = φμ . När man tar hänsyn till överspridning i regressionen blir därför parameterskattningarna desamma men deras standardavvikelse påverkas. Detta på grund av att det är kovariansmatrisen som multipliceras med φ , övriga statistikor som den skalenliga deviansen1 och log likelihood-värdet delas med φ . I övrigt påverkas inget i regressionen. Det finns ett antal andra metoder för att lösa problemet med överspridning i en poissonregressionen, se Greene (1993).. 2.3.3 Likelihood ratio test Ett sätt att testa om en reducerad modell (en modell med bortplockade parametrar) är bättre anpassad än den fulla modellen (modellen med alla parametrar) är genom ett log likelihood test. Ett likelihood test har utseendet LR = 2[log likelihood ur − log likelihood r ] . Där ur står för unresticted, det vill säga den fulla modellen, och r står för restricted, modellen med bortplockade parametrar. Likelihood ratio testet har en chitvå fördelning LR ~ χ 2 (q ) , där q är antalet frihetsgrader vilket är samma som antalet bortplockade parametrar (Wooldridge, 2006). Testet syftar till att se om de bortplockade variablerna har någon del i förklaringen av variationen i den beroende variabeln. Det vill säga att hypoteserna är H 0 : β 1 = β 2 = ... = β q = 0 H 1 : Minst en av β − parametrarna ≠ 0 Vid korrigeringen för överspridning i SAS bildas ett så kallat quasilikelihoodvärde. De flesta tillämpningar i asymptotisk teori för log likelihood-värden kan också tillämpas på 1. Det finns dels den vanliga deviansen och dels den skalenliga med hänsyn till eventuell överspridning och/eller viktning.. 9.

(11) quasilikelihoodvärdet. Därför går det bra att jämföra olika modeller med överspridning, men inte med en modell som inte har anpassats för överspridning eftersom de inte har delats med överspridningsfaktorn (SAS, 1999).. 2.3.4 T-test För att testa om en enskild variabel tillför till förklarandet av variationen i den beroende βˆ − β 1 variabeln kan ett t-test utföras. Ett t-test har följande utseende 1 ~ appr N (0,1) under SE βˆ. ( ) 1. H 0 . Testet är approximativt normalfördelat med n-1 frihetsgrader där n är antalet observationer (Wooldridge, 2006). Hypoteserna i testet är H 0 : β1 = 0 H 1 : β1 ≠ 0. .. 2.3.5 Pearson residualer Pearson residualerna räknas fram för att utvärdera poissonregressionsmodellen. I beräkningen av residualerna har Pearson residualer använts som ett komplement till de vanliga residualerna. Pearson residualerna beräknas enligt formel rP =. y−μ V (μ ). y − yˆ använts, där yˆ är yˆ det skattade antalet varianser och y är det faktiska antalet vakanser. Residualerna är starkt 2 ( y − μ) 2 2 2 sammankopplade med Pearson χ goodness of fit statistika χ = ∑ rP = ∑ . V (μ ) Residualerna är alltså kvadratroten av statistikan (Dobson, 2002). Statistikan beräknas automatiskt av SAS när man använder GENMOD-proceduren.. (McCullagh and Nelder, 1983). I diagrammen i resultaten har rP =. 2.4 Val av modell 2.4.1 Rutin i SAS Data anpassas till en poissonmodell med 35 parametrar (plus en variansparameter) med hjälp av proceduren GENMOD i SAS Version 9.1 (Statistical Analysis System). Låt βˆ vara ML-skattningen i denna modell som vi refererar till som ”den fulla modellen”. I proceduren GENMOD finns ingen rutin för variabelselektion, det vill säga för att söka. 10.

(12) fram modeller som har färre parametrar än den fulla modellen men vars anpassning till datamaterialet ändå inte är signifikant sämre än den fulla modellen. ˆ Det gäller alltså att hitta en modell med färre parametrar än 35 så att log L( βˆ ) för den ˆ mindre modellen (där βˆ är ML-skattningen) är ”i närheten av” logL( βˆ ) för den ˆ ursprungliga stora modellen. Eller mer precist så att teststorheten − 2⎛⎜ log L( βˆ ) − log L( βˆ ) ⎞⎟ ⎝ ⎠ ˆ för ML-kvottestet visar ”ej signifikant skillnad mellan βˆ och βˆ ”.. Nordberg(1982) visar att följande approximativa metod fungerar för generaliserade linjära modeller där poissonregression ingår som ett specialfall. I fallet poissonregression gör man på följande sätt: Låt μˆ i = exp(∑ βˆ m x mi ) vara det skattade väntevärdet för arbetsställe nr i i den fulla m. modellen där x mi är värdet av förklaringsvariabel m för arbetsställe i. Transformera data. där y är responsvariabeln antal lediga jobb, på följande sätt: (i) u mi = x mi μˆ i. (ii). ⎛ y − μˆ i zi = ⎜ i ⎜ μˆ i ⎝. ⎞ ⎟ + ∑ βˆ m u mi ⎟ m ⎠. ⎛ ⎞ Sätt Q( β ) = ∑ ⎜ z i − ∑ β m u mi ⎟ i =1 ⎝ m ⎠ n. 2. ˆ Om skillnaden mellan log L( βˆ ) och log L( βˆ ) är liten gäller följande relation med god approximation 1 ˆ ˆ log L( βˆ ) ≈ log L( βˆ ) − ⋅ ⎛⎜ Q( βˆ ) − Q( βˆ ) ⎞⎟ 2 ⎝ ⎠. Approximationen innebär att man kan söka fram en bra poissonmodell genom att använda transformationerna (i) och (ii) ovan och sedan söka fram en linjär regressionsmodell vars residualkvadratsumma. ˆ Q( βˆ ) =. 2. ⎞ ⎛ ˆ ⎜ z i − ∑ βˆ m u mi ⎟ inte ∑ i =1 ⎝ m ⎠ n. 2. är. signifikant. större. än. n ⎛ ⎞ motsvarande storhet Q( βˆ ) = ∑ ⎜ z i − ∑ βˆ m u mi ⎟ för den fulla modellen. I proceduren REG i =1 ⎝ m ⎠ (för linjär regression) i SAS finns ett flertal variabelselektionsmetoder tillgängliga. Den programkod som använts för beräkningarna finns i bilaga 3.. 11.

(13) 1 ˆ ˆ Från approximationen log L( βˆ ) ≈ log L( βˆ ) − ⋅ ⎛⎜ Q( βˆ ) − Q( βˆ ) ⎞⎟ kan man för övrigt se att 2 ⎝ ⎠ ˆ differensen Q( βˆ ) − Q( βˆ ) är en approximation av teststorheten i ML-kvottestet.. 2.4.2 Cp-statistikan När en poissonregression har utförts kan man anta att vissa av parametrarna eventuellt inte behöver vara med i modellen. Därför kan man skatta en modell som endast tar med de viktigaste parametrarna, en bästa modell. Ett sätt att välja vilken modell som ska användas som den bästa modellen är genom att titta på Cp-statistikan (Draper and Smith, 1966). Cpstatistikan används främst i linjära regressioner. Värdet produceras av SAS vid varje linjär regressionskörning. Statistikan som skapades av C. L. Mallows beräknas genom Cp =. RSS p s2. − (n − 2 p ) .. Där p står för antalet parametrar inklusive interceptet, RSS p är residualsumman från modellen med p stycken parametrar och s 2 är en skattning av variansen i den fulla modellen. Statistikan har ett nära samband med R 2 (Draper and Smith, 1966). Eftersom vi antar att E (s 2 ) = σ 2 leder det antagandet till E (C p ) = p . När en modell är dåligt anpassad är Cp-statistikan ofta mycket större än antalet parametrar. I vissa fall kan Cp-statistikan bli lägre än antalet parametrar på grund av slumpmässiga variationer. För att se hur Cp-statistikan ligger i jämförelse till antalet parametrar kan en plott mellan de två variablerna göras. För att välja modell med hjälp av Cp-statistikan finns det olika varianter på vad som ger bäst resultat. Den metod som använts i uppsatsen är det lägsta möjliga värdet på Cp-statistikan. För att välja den bästa modellen är det vanligast att välja den modell som har ett värde Cp-statistikan som är ungefär samma som antalet parametrar i modellen. Då kommer man att få den bäst anpassade modellen till datamaterialet. Det man också kan göra är att välja en modell som inte är lika bra anpassad, har ett högt RSS p , men den har ett lågt värde på Cp-statistikan i förhållande till den sanna men okända modellen. Man får därför göra en avvägning för vad som ger bäst resultat med tanke på andra statistikor och hur frågeställningen lyder (Draper and Smith, 1966).. 12.

(14) 3. Analys av vakanser Anledningen till att poissonregression valdes var antagandet om att antalet vakanser var en poissonfördelad variabel. Diagram 1 visar fördelningen av antalet vakanser per arbetsställe. Diagram 1 är gjort på hela datamaterialet eftersom en uppdelning på branschtillhörighet inte tillför något ytterligare.. Frekvens. Antalet vakanser i hela datamaterialet 8000 7000 6000 5000 4000 3000 2000 1000 0 0. 1. 2 till 5. 5 till 10. 10 till 50 mer än 50. Antal vakanser Diagram 1: Diagrammet visar fördelningen av antalet vakanser för hela pappersmassaindustrin och metallindustrin 2004:1 till 2006:9.. Eftersom det totala datamaterialet är väldigt omfattande har ett par branscher valts ut för analys. De branscher som har valts är pappersmassaindustri och metallindustri. Datamaterialet omfattar observationer från hela 2004 och 2005 samt de första nio månaderna under 2006. I pappersmassaindustrin fanns det 3660 observationer och i metallindustrin fanns det 5764 observationer under den aktuella tidsperioden. Pappersmassaindustrin valdes eftersom den anses vara en tidig indikator på konjunkturförändringar. När pappersmassaindustrin börjar anställa kommer övriga branscher att följa samma mönster efter ett par månader. Metallindustrin är med eftersom det kan finnas ett visst säsongsmönster i den industrin. De variabler som används är antalet vakanser som huvudvariabeln y och hjälpvariabler; antalet anställda (det antal som finns i SCB: s Företagsdatabas), dummyvariabler för länstillhörighet (Sveriges 21 län, se bilaga 2), månadsdummy och antalet vakanser föregående månad. Antalet vakanser förra månaden blir en så kallad laggad variabel. En modell för varje bransch har tagits fram. Eftersom antalet anställda varierar kraftigt har logaritmen av antalet anställda plus 1 använts. Datamaterialet behandlas i det statistiska programpaketet SAS enligt ovan beskrivet sätt. Det program som använts för beräkningarna finns i bilaga 32.. 2. Vissa mindre ändringar är gjorda för att programmet skulle passa till metallindustrin, ytterligare ändringar är gjorda för de bästa modellerna. Bilaga 3 visar det generella programmet.. 13.

(15) Länsdummy finns med i poissonregressionen efter ett antagande om att det kan finnas regionala skillnader som påverkar antalet vakanser. Månadsdummy kommer med efter antagandet om att det finns säsongsvariationer i datamaterialet och att man då kan fånga upp dessa med en dummyvariabel för månaderna. Antalet anställda på arbetsstället är en variabel som tas med i regressionen eftersom det finns ett antagande om att ju större ett arbetsställe är desto fler vakanser finns det. I modellen har även antalet anställda i kvadrat inkluderats för att kunna fånga upp eventuella avvikelser från ett linjärtsamband. Den fulla modellen har skattats genom poissonregression på det sätt som är beskrivet ovan med de förklaringsvariabler som även nämnts innan. Först har en poissonregression på den fulla modellen gjorts, där testades modellen för att se om det fanns överspridning i modellen. Hur överspridning kan upptäckas beskrivs i stycke 2.3.2. Om det finns överspridning i modellen så har hänsyn tagits till det genom korrigerade skattningar av standardavvikelserna. I de fulla modellerna för de två branscherna är olika län med, anledningen till det är att det inte finns arbetsställen i alla länen i de båda branscherna, se Tabell 1. Tabell 1: Tabellen visar hur observationerna i de två branscherna under tidsperioden 2004:1-2006:9 är fördelade över länen. Pappersmassaindustrin Metallindustrin Län Antal Län Antal 1 273 1 410 3 57 3 157 5 315 4 238 6 292 5 245 7 76 6 738 8 196 7 160 10 65 8 186 12 340 10 72 13 144 12 499 14 583 13 235 17 311 14 1046 18 127 17 181 19 1 18 235 20 208 19 331 21 272 20 250 22 266 21 292 23 4 22 118 24 35 23 126 25 95 24 110 25 135. När den fulla modellen var framtagen har ett log likelihoodtest gjorts för att testa dummyvariablerna. Den fulla modellen har jämförts med en modell med alla variabler förutom länsdummy och på samma sätt för månadsdummy. Där har ett signifikant resultat uppvisats vilket betyder att man kan förkasta nollhypotesen om att de bortplockade variablerna inte tillför något till förklarandet av antalet vakanser. Även t-test gjordes på variablerna; antal vakanser föregående månad, antal anställa och antalet anställda i kvadrat. Även dessa test visade att variablerna inte kunde strykas ur regressionen. Därefter ska den bästa modellen väljas och det har gjorts genom att titta på Cp-statistikan. När det värdet har varit det lägsta möjliga så har den modellen plockats ut som den bästa 14.

(16) möjliga modell. Viss hänsyn har också tagits till att skattningarna inte skulle vara insignifikanta och att R 2 är relativt bra. Att man får ett bra värde på R 2 sker automatiskt eftersom SAS är programmerat att alltid ta ut den modellen med högst R 2 för varje antal parametrar. Det gäller under förutsättningen att modellen inte är dåligt specificerad. När den bästa modellen har valts så har vissa förändringar i SAS-programmet gjorts för att kunna ta fram modellen i samma procedur som för den fulla modellen. Därefter utvärderas den bästa modellen med några test. När man har den bästa modellen från GENMODproceduren kan man jämföra den med den fulla modellen och genom ett log likelihood test avgöra om de bortplockade variablerna hade någon betydelse för förklaringen av antalet vakanser i varje enskild bransch. Sedan undersöks residualerna för att utvärdera den skattade modellen.. 15.

(17) 3.1 Pappersmassaindustrin Den första modellen som kommer att tas upp är poissonregression för vakanser inom pappersmassaindustrin. Alla resultat presenteras i samma turordning som stycket innan beskriver. Tabell 2: Anpassningsmått för full modell anpassad till vakanser inom pappersmassaindustrin utan och med korrigering för överspridning.. Kriterier. FG. Deviansen Skalenlig devians Pearsons chitvå Skalenligt Pearsons chitvå Log Likelihood. 3443 3443 3443 3443. Värde Värde/FG Värde Värde/FG utan utan med med korrigering korrigering korrigering korrigering 12934.17 3.76 12934.16 3.76 12934.17 3.76 1765.42 0.51 25224.74 7.33 25224.74 7.33 25224.74 7.33 3443.00 1.00 3590.93 490.14. Det som syns i Tabell 2 är att det finns överspridning i modellen eftersom Pearsons chitvåstatistika delat med antalet frihetsgrader blir ett tal större än ett, vilket betyder överspridning. Därför görs den fulla modellen om på samma sätt fast denna gång med hänsyn till överspridning. Dessa resultat syns i de två sista kolumnerna i Tabell 2. Tabell 3: Anpassningsmått för den bästa modellen anpassad till vakanser inom pappersmassaindustrin med korrigering för överspridning och korrigering för överspridning med viktning.. Kriterier. FG. Deviansen Skalenlig devians Pearsons chitvå Skalenligt Pearsons chitvå Log Likelihood. 3457 3457 3457 3457. Värde Värde/FG Värde Värde/FG med med med med överspridning överspridning överspridning överspridning och viktning och viktning 12981.44 3.76 5720.70 1.65 1743.36 0.50 1621.13 0.47 25741.63 7.45 12199.14 3.53 3457.00 1.00 3457.00 1.00 479.07 246.63. Kriterierna för den bästa modellen med hänsyn till överspridning i pappersmassaindustrin visas i Tabell 3. De två sista kolumnerna visar kriterierna för den bästa modellen när man tagit hänsyn till överspridning och viktning. Den viktning som är medtagen är arbetsställenas sannolikhet att komma med i undersökningen3. För att se om den bästa modellen förklara antalet vakanser i pappersmassaindustrin bättre än den fulla modellen görs ett log likelihood test. Ett log likelihood test ger 2[490,14 − 479,07] = 22,13 . Antalet frihetsgrader är 14 då det är 14 parametrar som är bortplockade i den bästa modellen. Gränsvärdet blir då 23,69 på 5 % signifikansnivå. Alltså kan nollhypotesen om att de bortplockade parametrarna inte har en signifikant del i förklaringen till antalet vakanser inte förkastas.. 3. Viktningen är med i en variant på bästa modell eftersom det används ofta på SCB. Modellen med viktning kommer inte att kommenteras vidare eftersom den egenskapen förmodligen inte tillför något i en poissonregression.. 16.

(18) Tabell 4: Skattningar av full modell, bästa modell och bästa modell med viktning för vakanser inom pappersmassaindustrin (standardavvikelser beroende utan (uö) respektive med (mö) korrigering för överspridning). Parameter Intercept Län 3 Län 5 Län 6 Län 7 Län 8 Län 10 Län 12 Län 13 Län 14 Län 17 Län 18 Län 19 Län 20 Län 21 Län 22 Län 23 Län 24 Län 25 Februari Mars April Maj Juni Juli Augusti September Oktober November December Anställda Anställda2 Vakanser föregående månad Skala. Standard Standard Standard Standard Standard avvikelse avvikelse avvikelse avvikelse avvikelse Estimat (mö) (uö) Estimat (mö) (uö) Estimat (mö) -4.77 1.18 0.43 -5.09 0.32 0.12 -5.64 0.24 0.15 0.36 0.13 0.08 0.23 0.09 0.52 0.24 0.09 0.41 0.15 0.07 0.46 0.17 -0.08 0.38 0.14 -1.27 0.39 0.15 -1.38 0.35 0.13 -1.14 0.36 0.09 0.31 0.12 -0.39 0.26 0.10 -0.50 0.20 0.07 -0.11 0.17 -0.20 0.26 0.09 -0.31 0.19 0.07 -0.31 0.21 0.15 0.21 0.08 0.66 0.21 0.08 0.55 0.11 0.04 0.76 0.12 -0.43 0.33 0.12 -0.54 0.28 0.10 -0.42 0.32 0 0 0 0.62 0.21 0.08 0.50 0.12 0.04 0.47 0.14 -1.06 0.30 0.11 -1.17 0.24 0.09 -0.86 0.23 -0.30 0.23 0.08 -0.41 0.15 0.05 -0.40 0.17 -18.04 48587 17951.3 1.03 0.28 0.10 0.91 0.21 0.08 0.98 0.24 0.15 0.25 0.09 0.34 0.18 0.07 0.59 0.11 0.04 0.56 0.13 -0.01 0.18 0.07 0.24 0.12 0.04 0.25 0.13 0.31 0.17 0.06 0.55 0.11 0.04 0.48 0.12 0.36 0.17 0.06 0.60 0.10 0.04 0.66 0.11 -0.26 0.19 0.07 -0.14 0.19 0.07 -0.51 0.20 0.07 -0.27 0.15 0.05 0.02 0.15 -0.36 0.20 0.08 -0.33 0.22 0.08 -0.28 0.22 0.08 -0.42 0.23 0.09 0.86 0.41 0.15 0.92 0.05 0.02 1.01 0.04 0.01 0.04 0.01. 0.02 2.7067. 0.00 0. 0.00 0. 0.02 2.7288. 0.00 0. 0.00 0. 0.02 1.8785. Tabell 4 visar hur parameterskattningarna och osäkerheten i skattningarna förändras när man tar hänsyn till överspridning samt överspridning och viktning. När man endast tar hänsyn till överspridningen ändras inte parameterskattningarna utan bara standardavvikelserna, därför är parameterskattningarna bara med en gång för varje modell. Skillnaden mellan modellerna med och utan överspridning visar att standardavvikelserna är genomgående högre för modellerna med korrigering för överspridning. Modellen med. 17. 0.00 0.

(19) överspridning och viktning skiljer sig från de övriga både när det gäller parameterskattningarna och standardavvikelserna. Januari och Län 1 är inte utskrivna i modellen utan hålls som nivå i regressionen. Anledningen till att län 19 blir nollställt är att det endast finns ett arbetsställe i pappersmassaindustrin i län 19. Det arbetsstället försvinner i frihetsgraderna och därför stryks länet ur regressionen. Det man kan se är att antalet anställda blir en signifikant parameter medan anställda i kvadrat inte är det och kommer därför inte med i den slutliga modellen. Observera också att av de månader som kom med i den bästa modellen så är det februari till maj som har positiva skattningar och sedan augusti som har en negativ skattning. Hälften av alla länen är med och de har varierande skattningar. Antalet vakanser föregående månad är också en variabel som blir signifikant både i den fulla modellen och i den bästa modellen. Dess p-värde påverkas inte nämnvärt av överspridningen. Om man tittar på standardavvikelserna mellan den fulla modellen och den bästa modellen så har de inte förändrats vare sig när det gäller med eller utan överspridning. För alla de andra parametrarna har standardavvikelserna sjunkit när de har kommit med i den bästa modellen.. T o t a l t. 100. a n t a l v a k a n s e r. 50. 0 200. 400. 600. 800. 1000. 1200. Anst äl l da. Figur 1: Figuren visar en scatter plot mellan anställda och totalt antal vakanser i pappersmassaindustrin.. Figur 1 visar att det verkar finnas ett samband mellan antalet anställda på ett arbetsställe och antalet vakanser. Det är vanligast med inga eller få vakanser men det finns en tendens till att öka med storleken på arbetsstället. Det som också syns är att de flesta arbetsställena har färre än 600 anställda. Det finns få riktigt stora arbetsställen och de flesta vakanserna finns i de mindre arbetsställena. Det finns alltså två tendenser i datamaterialet.. 18.

(20) P e a r s o n s. 40. 20 r e s i d u a l e r. 0. 2. 4. 6. Anst äl l da. Figur 2: Figuren visar en scatter plot mellan Pearson residualerna och logaritmen av antalet anställda per arbetsställe i pappersmassaindustrin.. Figur 2 visar på sambandet mellan Pearson residualerna och logaritmen av antalet anställda per arbetsställe i pappersmassaindustrin. De flesta observationerna ligger runt noll men det syns ett samband mellan stora residualer och ett stort antal anställda. P e a r s o n s. 40. 20 r e s i d u a l e r. 0. 0. 50 Tot al ant al. 100. vakanser f ör egående m ånad. Figur 3: Figuren visar en scatter plot mellan Pearson residualerna och totalt antal vakanser föregående månad i pappersmassaindustrin.. 19.

(21) I Figur 3 visar sambandet mellan Pearson residualerna och antalet vakanser föregående månad. De flesta residualerna är centrerade runt nollan och övriga är slumpmässigt spridda över figur ytan.. 2000 F r e q u e n c y. 1000. 0. - 16. 25. - 3. 75. 8. 75. 21. 25. 33. 75. Resi dual er. Diagram 2: Diagrammet visar värdet på residualerna i modellen för överspridning.. Diagram 2 visar pappersmassaindustrins bästa modell med överspridning. De vanliga residualerna fördelar sig enligt Diagram 2. Diagram 2 är trunkerat för att få en bättre överblick. Det är tolv höga värden mellan 41,4 och 115,8 som tagits bort och åtta låga värden mellan -91,9 och -21,524 Diagrammet visar en fördelning som är rimlig i förhållande till modellen.. 4. Alla diagram med antal observationer utmärkta i varje stapel finns i bilaga 5. 20.

(22) 1500. F r e q u e n c y. 1000. 500. 0. - 5. 25. 0. 75. 6. 75. 12. 75. 18. 75. 24. 75. Pear sons r esi dual er. Diagram 3: Diagrammet visar värdet på Pearson residualerna i modellen med överspridning.. Diagram 3 visar pappersmassaindustrins bästa modell med överspridning. Pearson residualerna fördelar sig enligt Diagram 3. Diagram 3 är trunkerat för att få en bättre överblick. Det är åtta höga värden mellan 27,3 och 45,9 som tagits bort och tre låga värden mellan -9,5 och -7,1. Diagrammet visar att majoriteten av Pearson residualerna ligger kring nollan och att de är rimligt fördelade i förhållande till modellen.. 21.

(23) 3.2 Metallindustrin Resultaten för en poissonregression för antalet vakanser i metallindustrin är uppbyggd på samma sätt och i samma ordning som i pappersmassaindustrin. Tabell 5: Anpassningsmått för full modell anpassad till vakanser inom metallindustrin utan och med korrigering för överdispersion. Kriterier. FG. Deviansen Skalenlig devians Pearsons chitvå Skalenligt Pearsons chitvå Log Likelihood. 4971 4971 4971 4971. Värde Värde/FG Värde utan utan med korrigering korrigering korrigering 8305.40 1.67 8305,40 8305.40 1.67 2456.74 16805.26 3.38 16805.26 16805.26 3.38 4971.00 -466,36 -137.95. Värde/FG med korrigering 1.67 0.49 3.38 1.00. Det som syns i Tabell 5 är att det finns överspridning i modellen eftersom Pearson chitvåstatistika delat med antalet frihetsgrader blir ett tal större än ett. Därför görs den fulla modellen om med hänsyn till överspridning. Tabell 6: Anpassningsmått för den fulla modellen anpassad till vakanser inom metallindustrin med korrigering för överspridning och korrigering för överspridning med viktning.. Kriterier. FG. Deviansen Skalenlig devians Pearson chitvå Skalenligt Pearson chitvå Log Likelihood. 4984 4984 4984 4984. Värde Värde/FG Värde med med med överspridning överspridning överspridning och viktning 8319,44 1.67 27925.40 2413.03 0.48 1864.43 17183.39 3.45 74650.19 4984.00 1.00 4984.00 -137.30 -945.79. Värde/FG med överspridning och viktning 5.60 0.37 14.98 1.00. Kriterierna för den bästa modellen med hänsyn till överspridning i metallindustrin visas i Tabell 6. De två sista kolumnerna visar kriterierna för den bästa modellen när man tagit hänsyn till överspridning och viktning. Den viktning som är medtagen är, som innan nämnts, arbetsställenas sannolikhet att komma med i undersökningen. För att se om den bästa modellen förklara antalet vakanser i pappersmassaindustrin bättre än den fulla modellen görs ett log likelihood test. Ett log likelihood test ger 2[− 137,95 − −137,30] = 1,3 . Antalet frihetsgrader är 13 då det är 13 parametrar som är bortplockade i den bästa modellen. Gränsvärdet blir då 22,36 på 5 % signifikansnivå. Alltså kan hypotesen om att de bortplockade parametrarna inte har en signifikant del i förklaringen till antalet vakanser inte förkastas.. 22.

(24) Tabell 7: Skattningar av full modell, bästa modell och bästa modell med viktning för vakanser inom metallindustrin (standardavvikelser beroende utan (uö) respektive med (mö) korrigering för överspridning).. Parameter Intercept Län 3 Län 4 Län 5 Län 6 Län 7 Län 8 Län 10 Län 12 Län 13 Län 14 Län 17 Län 18 Län 19 Län 20 Län 21 Län 22 Län 23 Län 24 Län 25 Februari Mars April Maj Juni Juli Augusti September Oktober November December Anställda Anställda2 Vakanser föregående månad Skala. Standard Standard Avvikelse avvikelse Estimat (mö) (uö) -5.25 0.48 0.26 -0.43 0.32 0.17 1.04 0.29 0.16 0.62 0.31 0.17 0.52 0.29 0.15 1.19 0.30 0.16 0.03 0.32 0.17 -0.70 0.56 0.31 0.78 0.29 0.16 -0.13 0.34 0.19 0.02 0.29 0.16 0.02 0.34 0.19 0.11 0.32 0.17 -0.06 0.30 0.16 -0.24 0.34 0.18 0.15 0.30 0.16 0.37 0.58 0.31 -1.04 0.55 0.30 0.05 0.64 0.35 0.16 0.39 0.21 0.10 0.16 0.08 0.18 0.17 0.09 0.38 0.15 0.08 0.33 0.15 0.08 0.20 0.15 0.08 0.32 0.15 0.08 0.43 0.14 0.08 0.35 0.14 0.08 0.35 0.16 0.09 0.07 0.16 0.09 -0.04 0.18 0.10 1.06 0.18 0.10 -0.02 0.02 0.010. Standard Standard avvikelse avvikelse Estimat (mö) (uö) Estimat -5.22 0.40 0.21 -5.15 -0.42 0.15 0.08 -0.54 1.03 0.11 0.06 0.04 0.60 0.16 0.09 0.22 0.50 0.09 0.05 0.07 1.18 0.14 0.08 0.51. 0.06 1.8387. 0.00 0. 0.00 0. -0.71 0.78. 0.50 0.10. 0.27 0.05. -1.54 0.06. 0.75 0.16. -0.25 0.15. 0.20 0.12. 0.11 0.06. -0.12 0.36. 0.24 0.19. -1.06. 0.48. 0.26. -0.80. 0.52. 0.31 0.26 0.13 0.25 0.35 0.28 0.27. 0.11 0.11 0.11 0.10 0.10 0.10 0.12. 0.06 0.06 0.06 0.06 0.05 0.05 0.06. -0.19 -0.09 0.30 0.10 0.34 0.34 0.35. 0.21 0.19 0.16 0.16 0.15 0.15 0.18. 1.09 -0.03. 0.16 0.02. 0.09 0.01. 1.36 -0.07. 0.15 0.02. 0.06 1.8568. 0.00 0. 0.00 0. 0.07 3.8701. 0.01 0. Tabell 7 visar hur parameterskattningarna och osäkerheten i skattningarna förändras när man tar hänsyn till överspridning samt överspridning och viktning. När man endast tar hänsyn till överspridningen ändras inte parameterskattningarna utan bara standardavvikelserna, därför är parameterskattningarna bara med en gång för varje modell. Skillnaden mellan modellerna med och utan överspridning visar att standardavvikelserna är genomgående högre för modellerna med korrigering för överspridning. Modellen med överspridning och viktning skiljer sig från de övriga både när det gäller. 23. Standard avvikelse (mö) 0.26 0.28 0.22 0.21 0.15 0.22.

(25) parameterskattningarna och standardavvikelserna. Parameterskattningarna kan både var högre och lägre, i vissa fall byter de till och med tecken på skattningen. Det man ser i Tabell 7 är att april till oktober månad är med och alla parameterskattningarna är positiva. Antalet anställda är även här med i den bästa modellen och det som skiljer metallindustrin från pappersmassaindustrin är att nu är antalet anställda i kvadrat med. De län som är med i den bästa modellen ligger i de södra och mellersta delarna av Sverige. Den övervägande delen av de län som kom med i den bästa modellen har positiva parameterskattningar. Precis som i pappersmassaindustrin ser man att antalet vakanser föregående månad är en variabel som blir signifikant både i den fulla modellen och i den bästa modellen. Dess pvärde påverkas inte nämnvärt av överspridningen. Om man tittar på standardavvikelserna mellan den fulla modellen och den bästa modellen så har de inte förändrats både när det gäller med och utan överspridning. För alla de andra parametrarna har standardavvikelserna sjunkit när de har kommit med i den bästa modellen. T o t a l t. 40 a n t a l v a k a n s e r. 20. 0 200. 400. 600. 800. 1000. 1200. 1400. Anst äl l da. Figur 4: Figuren visar en scatter plot mellan antalet anställda och totalt antal vakanser i metallindustrin.. Figur 4 visar två stycken outliers, de observationer som ligger vid cirka 1 500 anställda och vid cirka 1 100 anställda är två stycken arbetsställen. Dessutom är det ett enskilt arbetsställe vid cirka 250 anställda som har alla vakanser som är större än cirka 25. Tar man bort dessa ser man tydligare en svag ökning av antalet vakanser mot antalet anställda på arbetsstället. Detta avtar när arbetsstället har runt 350 anställda eller fler. Det som också syns är att de flesta arbetsställena har färre än 350 anställda. Det finns få stora arbetsställen och de flesta vakanserna finns i de mindre arbetsställena.. 24.

(26) P e a r s o n s r e s i d u a l e r. 15. 10. 5. 0. 2. 4. 6. Anst äl l da. Figur 5: Figuren visar en scatter plot mellan Pearson residualerna och logaritmen av totalt antal anställda per arbetsställe i metallindustrin.. I Figur 5 är Pearson residualerna plottade mot logaritmen av antalet anställda per arbetsställe i den bästa modellen med korrigering för överspridning. Alla observationer ligger slumpmässigt över figur ytan och inget mönster kan tydas. P e a r s o n s r e s i d u a l e r. 0. 20 Tot al. ant al. 40. vakanser. f ör egående m ånad. Figur 6: Figuren visar en scatter plot mellan Pearson residualerna och totalt antal vakanser föregående månad i metallindustrin.. 25.

(27) I Figur 6 är Pearson residualerna plottade mot antalet vakanser föregående månad i den bästa modellen med överspridning. Alla observationer ligger som en svärm runt nollan och inget mönster kan tydas. Om man bortser från de två observationerna längst upp i Figur 6 så märks det ännu tydligare att det inte finns något samband mellan Pearson residualerna och antalet vakanser på arbetsstället. 3000. F r e q u e n c y. 2000. 1000. 0. - 9. 0. - 4. 2. 0. 6. 5. 4. 10. 2. 15. 0. 19. 8. Resi dual er. Diagram 4: Diagrammet visar värdet på de vanliga residualerna i modellen med överspridning.. Diagram 4 visar metallindustrins bästa modell med överspridning. De vanliga residualerna fördelar sig enligt Diagram 4. Diagram 4 är trunkerat för att få en bättre överblick. Det är sju höga värden mellan 24,4 och 35,0 som tagits bort och sex låga värden mellan -68,3 och -14,2. Diagrammet visar att en fördelning som är rimlig i förhållande till modellen.. 26.

(28) 2000. F r e q u e n c y. 1000. 0. - 3. 6. - 0. 4. 2. 8. 6. 0. 9. 2. 12. 4. 15. 6. Pear sons r esi dual er. Diagram 5: Diagrammet visar värdet på Pearson residualerna i modellen med överspridning.. Diagram 5 visar metallindustrins bästa modell med överspridning. Pearson residualerna fördelar sig enligt Diagram 5. Diagram 5 är trunkerat för att få en bättre överblick. Det är tre höga värden mellan 52,7 och 20,1 som tagits bort och tre låga värden mellan -8,3 och -6,5. Diagrammet visar att de flesta residualerna ligger kring nollan och att de rimligt fördelade i förhållande till modellen.. 27.

(29) 4. Diskussion 4.1 De viktigaste resultaten Av resultaten kan man se att några variabler alltid blir signifikanta och att det finns ett samband mellan dessa och antalet vakanser. Eftersom log likelihood testerna blir signifikanta när man testar att ta bort dels länsdummy och dels månadsdummy helt och hållet, kan man förkasta nollhypotesen att de inte bidrar till att förklara antalet vakanser, detta gäller för båda branscherna. Det betyder att det finns ett samband mellan antalet vakanser dels mellan länen och dels mellan månaderna. Att vårmånaderna blir signifikanta och får positiva parameterskattningar kan bero på att man vill anställa vikarier för sommaren och därför märks dessa i båda branscherna. För varje bransch är det olika län som blir signifikanta. Som Tabell 1 visar varierar antalet arbetsställen i de län som blev signifikanta. Att t-testen för antalet anställda, anställda i kvadrat och antalet vakanser föregående månad blir signifikanta betyder att det var ett rimligt antagande att ha med dessa variabler i poissonregressionen. Det är intressant att antalet vakanser föregående månad blir signifikant med positivt tecken i båda branscherna. Det tyder på att om man en månad söker folk, alternativt har noll vakanser, kommer det förmodligen att hålla i sig till nästa månad. Även antalet anställda är en variabel som alltid blir signifikant. Eftersom parameterskattningen är positiv i båda branscherna innebär det att finns ett samband mellan antalet vakanser och storleken på arbetsstället vilket var ett antagande. Det styrks också i Figur 1 och Figur 4. Dock så kommer anställda i kvadrat endast med i en av modellerna, nämligen metallindustrin.. 4.2 Val av variabler och uppdelning av materialet Datamaterialet kan delas upp på olika branscher eftersom branscher i sig är väldigt olika och beter sig på olika sätt. Skulle inte uppdelningen ha gjorts hade det blivet ett för stort arbete som inte hade hunnits med under uppsatstiden. Olika variabler blir signifikanta för de olika branscherna vilket ses i de två branscherna som jag har utfört poissonregression på. Branscherna har olika cykliska mönster som varierar mellan grupper av branscher. Vissa egenskaper i branschen gör att de kan få gemensamma beroende variabler som kan slå igenom och bli signifikanta och som skiljer sig från andra branscher. Till exempel turistnäringen som slår igenom i hotellnäringen men som inte märks i skogs- och jordbruket. Om man gör en regression på hela datamaterialet utan att dela upp på branscher så skulle man få en estimation av antalet vakanser som skulle stämma väldigt bra för vissa branscher men skulle vara sämre för andra. Därför är regressionen uppdelad på olika branscher. En månadsdummy togs med i regressionen eftersom jag ville undersöka om det fanns någon säsongsvariation. Hade det inte funnits något samband mellan månaderna och antalet vakanser så hade log likelihood testet inte blivit signifikant när jag uteslöt dem från modellen. Månaderna har alltså betydelse för antalet vakanser. Men vilka månader som blir signifikanta kommer att variera mellan grupper av branscher. Förmodligen kommer det också att variera beroende på hur långt tillbaka i tiden man går. Vilka månader som blir signifikanta kommer att variera, men det verkar som att vårmånaderna blir signifikanta. Det kan bero på att då behöver arbetsställena anställa personal inför sommaren och därför. 28.

(30) finns vakanserna. Turistsäsongerna påverkar vilka månader som blir signifikanta eftersom säsongen ligger olika beroende på vilken inriktning arbetsställena har. De som ligger i Sälen och koncentrerar sig på skidturismen behöver anställa inför vintern medan Gröna Lund och liknande arbetsställen behöver anställa inför sommaren. Länsdummy är med efter antagandet om att arbetsställen i samma region upplever samma lokala förhållanden och har liknande variationer i antalet vakanser. Branscher som påverkas av till exempel av turismen kommer att påverkas lika i hela regionen, då kommer förmodligen länen längs med kusten att utmärka sig. Även här kommer länen att variera för vilka som ger signifikant resultat, beroende på hur långt tillbaka i tiden man går. Man kan också göra andra geografiska indelningar än länen, exempelvis A- eller H-region som kanske passar branschen bättre. Antalet anställda på arbetsstället är med på grund av antagandet om att ju större ett arbetsställe är desto troligare är det att de behöver anställa någon. För ett litet arbetsställe med någon eller några anställda innebär en anställning en större procentuell ökning i personalkostnader än det gör för ett större arbetsställe. Ett arbetsställe med flera hundra anställda har också troligtvis större naturlig omsättning med personal vilket gör att man behöver anställa kontinuerligt. Figur 1 och Figur 4 tyder också på det, det är en svag ökning av antalet vakanser som följer med storleken på arbetsstället. Anställda i kvadrat är med efter antagandet om att det finns ett mer komplext samband mellan antalet anställda och antalet vakanser. Variabeln kommer endast med i den bästa modellen för metallindustrin och har den ett relativt högt p-värde (0,25).. 4.3 Modellutveckling och förbättringar Den del i dataprogrammet som beräknar tidigare månadsvärde är skrivet på sådant sätt att det är det senast föregående registrerade värdet som sätts som föregående månadsvärde. Det första registrerade värdet för ett arbetsställe kommer då att få ett så kallat missing value och det innebär att hela den observationen stryks i regressionen. I och med att 25 % av urvalet byts ut varje halvår kommer vissa arbetsställen att endast förekomma två gånger. Den första observationen innehåller då ett missing value och för dessa mindre arbetsställen används då endast en observation i regressionen, De större har åtminstone 5 observationer om de lämnar in enkäten varje månad. Mindre arbetsställena löper större risk att strykas helt ur observationen på grund av att de inte behöver lämna in lika ofta och kan lämna urvalet efter färre inlämnade enkäter än de större arbetsställena. I pappersmassamaterialet får det effekten att det finns 3660 observationer men 3475 observationer används i regressionsanalysen. I metallindustrin så finns det 5764 observationer men 5005 observationer används. Cirka 95 % av pappersmassaindustrins observationer kom med i regressionen och cirka 87 % i metallindustrin. Det innebär om man inte gör något åt de missing value som finns bör man endast utföra regressionen i de branscher som domineras av stora arbetsställen för att minimera antalet missing value. När antalet missing value blir stort är det en stor andel av de mindre arbetsställena som försvinner och regressionen kan då ge en felaktig skattning. Det som kan göras för att komma bort från det problemet är att på den första observationen för varje arbetsställe ta det aktuella antalet vakanser och sätta det som föregående månadsvärde. Då får man ett värde på den observationen istället för ett missing value. Eftersom variabeln antalet vakanser föregående månad inte varierar mycket skulle det 29.

(31) förmodligen kunna göras utan några större problem. Men det behöver testas för att man ska veta säkert och det behöver man förmodligen göra på ett större datamaterial än dessa två branscher. Det som även kan göras i andra undersökningar på samma material är att ta fram datamaterial ända från tredje kvartalet 2000, då undersökningen började, och göra en variabel som mäter föregående års värde för varje månad. Anledningen till att det inte gjorts nu är att med det datamaterialet som togs fram; 2004 till och med kvartal 3 2006, så skulle en tredjedel till hälften av observationerna försvinna till följd av missing value. Även i detta fall skulle missing value kunna undvikas på samma sätt som beskrivits ovan för variabeln antal vakanser föregående månad. Med en variabel som tar hänsyn till föregående års värde skulle man förmodligen bättre spegla eventuell säsongsvariation än med månadsvariabeln. Antalet anställda är en variabel som alltid blir signifikant i de modeller som jag har tagit fram. Men den är inte helt tillförlitlig eftersom den inte uppdateras kontinuerligt. Vissa arbetsställen kan rapportera att de kan behöva anställa mellan 50 och 100 personer i ett par tre månader för att minska och sedan gå upp till lika höga siffror igen efter ytterligare några månader. Trots det så sker det ingen ökning i antalet anställda på arbetsstället. Däremot kan det ske förändringar i antalet anställda för vissa arbetsställen trots att endast ett fåtal vakanser har annonserats ut. Om antalet anställda uppdaterades mer kontinuerligt än det görs i dag så skulle man förmodligen få en bättre skattning på antalet vakanser. Uppdateringssystemet är uppbyggt så att en enkät skickas ut en gång om året, på företagsnivå ej arbetsställe, och man undrar om antalet anställda har förändrats. Om svaret inte avviker mycket från den uppgiften som är registrerad i Företagsdatabasen så ändras inte uppgifterna i Företagsdatabasen. Får man in den uppgiften i någon annan undersökning eller på annat sätt så uppdateras uppgiften. Det leder till att det är stora skillnader mellan arbetsställena om avseende aktualiteten på uppgiften om hur många anställda det finns på arbetsstället. Det som skulle underlätta är om Företagsdatabasen tillfrågar arbetsstället hur många anställda de har när man har fått ett resultat på vakansundersökningen som visar att de behöver anställa ett stort antal personer. Om detta sker så skulle antalet anställda bli en ännu mer signifikant variabel och poissonregression skulle bli mer rättvisande och Företagsdatabasen skulle bli en ännu bättre urvalsram Det uppstod missförstånd om tillvägagångssättet för att välja den bästa modellen. Jag har valt den bästa modellen utifrån när Cp-statistikan är som lägst medan man egentligen skulle ha valt utifrån när Cp-statistikan är ungefär lika stort som antalet parametrar. Det uppmärksammade jag först efteråt när jag läste in mig på ämnet ordentligt. Då fanns det inte tid att göra om den delen av uppsatsen. Förmodligen spelar det ingen större roll eftersom om man utökar tidsserien och/eller ändrar den regionala indelningen från län till annan indelning kommer man förmodligen att få fram en annan modell som bästa modell. Det som skett är att jag har med fler variabler i den bästa modellen än jag skulle ha haft om jag hade valt modell när Cp-statistikan var lika med antalet variabler. Det finns också en stor slumpfaktor med i regressionen som påverkar vilka variabler som blir signifikanta förutom antalet anställda och föregående månads antal vakanser. Hade man gått på andra kriterier för att välja bästa modell hade man fått fram ytterligare en annan modell.. 30.

(32) Litteraturreferenser För utom dom i uppsatsen nämnda referenser, ingår nedan även några som är av mera allmän karaktär för det aktuella ämnesområdet. Cameron C. and P. Trivedi ”Regression Analysis of Count Data” Cambridge: Cambridge University Press, 1998 Dahmström K. ”Från Datainsamling till rapport - att göra en statistisk undersökning” fjärde upplagan, Lund: Studentlitteratur, 2005 Draper N. and H. Smith ”Applied Regression Analysis” second edition, New York: John Wiley and Sons, 1966 Dobson A. ”An Introduction to Generalized Linear Models” second edition, Boca Raton: Chapman & Hall/CRC, 2002 Greene W. ”Econometric analysis” fourth edition, New Jersey: Prentice Hall, 1993. Kleinbaum D. ,Kupper L. and K. Muller ”Applied Regression Analysis and Other Multivariable Methods” second edition, Belmont: Duxbury, 1988 Lawrence D. and C. McDavitt ”Significance Editing in the Australian Survey of Average Weekly Earnings” Journal of Official Statistics, no.4, pp. 437-447, 1994 McCullagh P. and Nelder J. A. ”Generalized Linear Models”, London: Chapman and Hall, 1983 L. Nordberg ”Significance Editing- vad är det?” Stencil, SCB, Örebro 2006 L. Nordberg ”On Variable Selection in Generalized Linear and Related Regression Models” Stockholm: Kungliga Tekniska Högskolan, 1982 SAS/STAT User’s guide, Version 8, SAS Publishing, 1999 Wooldridge J. ”Introductory Econometrics a Modern Approach” third edition, Mason: Thompson, 2006 SCB <http://www.scb.se/templates/Product____8132.asp> utlagd 2005-05-11 hämtad 2006-10-29 SCB < http://www.scb.se/templates/Standard____20057.asp> utlagd 2006-11-28 hämtad 2006-12-30. 31.

(33) Bilaga 1 Enkät. 32.

(34) Bilaga 2 Länsindelning Sveriges län. Kod. Benämning. 01 Stockholm 03 Uppsala 04 Södermanland 05 Östergötland 06 Jönköping 07 Kronoberg 08 Kalmar 09 Gotland 10 Blekinge 12 Skåne 13 Halland 14 Västra Götaland 17 Värmland 18 Örebro 19 Västmanland 20 Dalarna 21 Gävleborg 22 Västernorrland 23 Jämtland 24 Västerbotten 25 Norrbotten Källa: http://www.scb.se/templates/Standard____20057.asp. 33.

(35) Bilaga 3 SAS program SAS programmet för den fulla pappersmassaindustrins modell. Mindre ändringar ger metallindustrins modell och de bästa modellerna. libname x 'c:\'; proc sort data=x.best_data; by cfarnr ar manad; run; data pappmass(drop=totledspar) metall(drop=totledspar); length totledspar 8; /* för att få rätt attribut på variabeln som ska spara värdet till nästa observation */ retain totledspar; /* för att variabeln inte ska sättas till missing, som annars sker vid varje läsning */ set x.best_data; by cfarnr ar manad; if first.cfarnr then /* första förekomsten har inget tidigare värde */ totledforegmanad=.; else totledforegmanad=totledspar; /* ger föregående förekomsts värde */ totledspar=totled; /* sparar aktuellt värde till nästa föreskomst */ sni=substr(ngs1,1,2); if sni='21' then massapapp=1; else massapapp=0; if sni='28' then metall=1; else metall=0; /*if lan='01' then lan1=1; else lan1=0;*/ if lan='03' then lan3=1; else lan3=0; if lan='04' then lan4=1; else lan4=0; if lan='05' then lan5=1; else lan5=0; if lan='06' then lan6=1; else lan6=0; if lan='07' then lan7=1; else lan7=0; if lan='08' then lan8=1; else lan8=0; if lan='10' then lan10=1; else lan10=0; if lan='12' then lan12=1; else lan12=0; if lan='13' then lan13=1; else lan13=0; if lan='14' then lan14=1; else lan14=0; if lan='17' then lan17=1; else lan17=0; if lan='18' then lan18=1; else lan18=0; if lan='19' then lan19=1; else lan19=0; if lan='20' then lan20=1; else lan20=0; if lan='21' then lan21=1; else lan21=0; if lan='22' then lan22=1; else lan22=0; if lan='23' then lan23=1; else lan23=0; if lan='24' then lan24=1; else lan24=0; if lan='25' then lan25=1; else lan25=0; /*if manad='01' then jan=1; else jan=0;*/ if manad='02' then feb=1; else feb=0; if manad='03' then mars=1; else mars=0; if manad='04' then apr=1; else apr=0; if manad='05' then maj=1; else maj=0; if manad='06' then juni=1; else juni=0; if manad='07' then juli=1; else juli=0; if manad='08' then aug=1; else aug=0; if manad='09' then sep=1; else sep=0; if manad='10' then okt=1; else okt=0; if manad='11' then nov=1; else nov=0; if manad='12' then dec=1; else dec=0;. 34.

(36) anst=log(1+anstae); anst2=anst**2; if sni='21' then output pappmass; if sni='28' then output metall; run; data papp; set pappmass; keep TotLed /*lan1*/ lan3 lan5 lan6 lan7 lan8 lan10 lan12 lan13 lan14 lan17 lan18 lan19 lan20 lan21 lan22 lan23 lan24 lan25 /*jan*/ feb mars apr maj juni juli aug sep okt nov dec anst anst2 totledforegmanad; run; proc genmod data=papp; model totled=/*lan1*/ lan3 lan5 lan6 lan7 lan8 lan10 lan12 lan13 lan14 lan17 lan18 lan19 lan20 lan21 lan22 lan23 lan24 lan25 /*jan*/ feb mars apr maj juni juli aug sep okt nov dec anst anst2 totledforegmanad/dist=poisson link=log; output out=utdata predicted=my xbeta=t; run; data nytt; set utdata; res=totled-my; pearsons=(totled-my)/sqrt(my); run; data trans; set utdata; sigma=sqrt(my); /*lan1=lan1*sigma;*/ intcpt=sigma; lan3=lan3*sigma; lan5=lan5*sigma; lan6=lan6*sigma; lan7=lan7*sigma; lan8=lan8*sigma; lan10=lan10*sigma; lan12=lan12*sigma; lan13=lan13*sigma; lan14=lan14*sigma; lan17=lan17*sigma; lan18=lan18*sigma; lan19=lan19*sigma; lan20=lan20*sigma; lan21=lan21*sigma; lan22=lan22*sigma; lan23=lan23*sigma; lan24=lan24*sigma; lan25=lan25*sigma; /*jan=jan*sigma;*/ feb=feb*sigma; mars=mars*sigma; apr=apr*sigma; maj=maj*sigma; juni=juni*sigma; juli=juli*sigma; aug=aug*sigma; sep=sep*sigma;. 35.

(37) okt=okt*sigma; nov=nov*sigma; dec=dec*sigma; anst=anst*sigma; anst2=anst2*sigma; totledforegmanad=totledforegmanad*sigma; z=t*sigma+(totled-my)/sigma; run; proc reg data=trans; model z=/*lan1*/intcpt lan3 lan5 lan6 lan7 lan8 lan10 lan12 lan13 lan14 lan17 lan18 lan19 lan20 lan21 lan22 lan23 lan24 lan25 /*jan*/ feb mars apr maj juni juli aug sep okt nov dec anst anst2 totledforegmanad/noint selection=maxr; run;. 36.

References

Related documents

OSS companies that adopt a product-oriented business strategy can all be associated with the returns from scale factor and the need for continuous revenue streams (cf. At the

One of the biggest challenges to researchers and analysts is increase our current understand- ing of the factors that influence taxi-hailing app acceptance in the light of

Någonting som inget av företagen tar upp är vad de faktiskt skulle kunna sänka hyran till där det skulle gå jämnt upp ekonomiskt att behålla den nuvarande hyresgästen kontra ny

Vidare går att läsa att särskild uppmärksamhet skall tas till elever som av olika anledningar ej kan nå upp till målen i sin utbildning samt att skolan då har särskilt ansvar

De positiva reaktionerna från företaget och användarna (genom testfall under design och undersökning av den färdiga applikationen) visar att det finns incitament för vidareutveckling

The idea behind the exhaustive search method to find the model structure is to enumerate all possible combinations of the input time lags and estimate a model for each

Ytterligare orsaker till att pedagoger väljer att inte göra en anmälan kan vara att de tror att förskolan har tillräckliga resurser för att kunna hjälpa barnet (Svensson