2. Poissonregression 4.3 Modellutveckling och förbättringar Den del i dataprogrammet som beräknar tidigare månadsvärde är skrivet på sådant sätt att det är det senast föregående registrerade värdet som sätts som föregående månadsvärde. Det första registrerade värdet för ett arbetsställe kommer då att få ett så kallat missing value och det innebär att hela den observationen stryks i regressionen. I och med att 25 % av urvalet byts ut varje halvår kommer vissa arbetsställen att endast förekomma två gånger. Den första observationen innehåller då ett missing value och för dessa mindre arbetsställen används då endast en observation i regressionen, De större har åtminstone 5 observationer om de lämnar in enkäten varje månad. Mindre arbetsställena löper större risk att strykas helt ur observationen på grund av att de inte behöver lämna in lika ofta och kan lämna urvalet efter färre inlämnade enkäter än de större arbetsställena. I pappersmassamaterialet får det effekten att det finns 3660 observationer men 3475 observationer används i regressionsanalysen. I metallindustrin så finns det 5764 observationer men 5005 observationer används. Cirka 95 % av pappersmassaindustrins observationer kom med i regressionen och cirka 87 % i metallindustrin. Det innebär om man inte gör något åt de missing value som finns bör man endast utföra regressionen i de branscher som domineras av stora arbetsställen för att minimera antalet missing value. När antalet missing value blir stort är det en stor andel av de mindre arbetsställena som försvinner och regressionen kan då ge en felaktig skattning. Det som kan göras för att komma bort från det problemet är att på den första observationen för varje arbetsställe ta det aktuella antalet vakanser och sätta det som föregående månadsvärde. Då får man ett värde på den observationen istället för ett missing value. förmodligen kunna göras utan några större problem. Men det behöver testas för att man ska veta säkert och det behöver man förmodligen göra på ett större datamaterial än dessa två branscher. Det som även kan göras i andra undersökningar på samma material är att ta fram datamaterial ända från tredje kvartalet 2000, då undersökningen började, och göra en variabel som mäter föregående års värde för varje månad. Anledningen till att det inte gjorts nu är att med det datamaterialet som togs fram; 2004 till och med kvartal 3 2006, så skulle en tredjedel till hälften av observationerna försvinna till följd av missing value. Även i detta fall skulle missing value kunna undvikas på samma sätt som beskrivits ovan för variabeln antal vakanser föregående månad. Med en variabel som tar hänsyn till föregående års värde skulle man förmodligen bättre spegla eventuell säsongsvariation än med månadsvariabeln. Antalet anställda är en variabel som alltid blir signifikant i de modeller som jag har tagit fram. Men den är inte helt tillförlitlig eftersom den inte uppdateras kontinuerligt. Vissa arbetsställen kan rapportera att de kan behöva anställa mellan 50 och 100 personer i ett par tre månader för att minska och sedan gå upp till lika höga siffror igen efter ytterligare några månader. Trots det så sker det ingen ökning i antalet anställda på arbetsstället. Däremot kan det ske förändringar i antalet anställda för vissa arbetsställen trots att endast ett fåtal vakanser har annonserats ut. Om antalet anställda uppdaterades mer kontinuerligt än det görs i dag så skulle man förmodligen få en bättre skattning på antalet vakanser. Uppdateringssystemet är uppbyggt så att en enkät skickas ut en gång om året, på företagsnivå ej arbetsställe, och man undrar om antalet anställda har förändrats. Om svaret inte avviker mycket från den uppgiften som är registrerad i Företagsdatabasen så ändras inte uppgifterna i Företagsdatabasen. Får man in den uppgiften i någon annan undersökning eller på annat sätt så uppdateras uppgiften. Det leder till att det är stora skillnader mellan arbetsställena om avseende aktualiteten på uppgiften om hur många anställda det finns på arbetsstället. Det som skulle underlätta är om Företagsdatabasen tillfrågar arbetsstället hur många anställda de har när man har fått ett resultat på vakansundersökningen som visar att de behöver anställa ett stort antal personer. Om detta sker så skulle antalet anställda bli en ännu mer signifikant variabel och poissonregression skulle bli mer rättvisande och Företagsdatabasen skulle bli en ännu bättre urvalsram Det uppstod missförstånd om tillvägagångssättet för att välja den bästa modellen. Jag har valt den bästa modellen utifrån när Cp-statistikan är som lägst medan man egentligen skulle ha valt utifrån när Cp-statistikan är ungefär lika stort som antalet parametrar. Det uppmärksammade jag först efteråt när jag läste in mig på ämnet ordentligt. Då fanns det inte tid att göra om den delen av uppsatsen. Förmodligen spelar det ingen större roll eftersom om man utökar tidsserien och/eller ändrar den regionala indelningen från län till annan indelning kommer man förmodligen att få fram en annan modell som bästa modell. Det som skett är att jag har med fler variabler i den bästa modellen än jag skulle ha haft om jag hade valt modell när Cp-statistikan var lika med antalet variabler. Det finns också en stor slumpfaktor med i regressionen som påverkar vilka variabler som blir signifikanta förutom antalet anställda och föregående månads antal vakanser. Hade man gått på andra kriterier för att välja bästa modell hade man fått fram ytterligare en annan modell. Litteraturreferenser För utom dom i uppsatsen nämnda referenser, ingår nedan även några som är av mera allmän karaktär för det aktuella ämnesområdet. Cameron C. and P. Trivedi ”Regression Analysis of Count Data” Cambridge: Cambridge University Press, 1998 Dahmström K. ”Från Datainsamling till rapport - att göra en statistisk undersökning” fjärde upplagan, Lund: Studentlitteratur, 2005 Draper N. and H. Smith ”Applied Regression Analysis” second edition, New York: John Wiley and Sons, 1966 Dobson A. ”An Introduction to Generalized Linear Models” second edition, Boca Raton: Chapman & Hall/CRC, 2002 Greene W. ”Econometric analysis” fourth edition, New Jersey: Prentice Hall, 1993. Kleinbaum D. ,Kupper L. and K. Muller ”Applied Regression Analysis and Other Multivariable Methods” second edition, Belmont: Duxbury, 1988 Lawrence D. and C. McDavitt ”Significance Editing in the Australian Survey of Average Weekly Earnings” Journal of Official Statistics, no.4, pp. 437-447, 1994 McCullagh P. and Nelder J. A. ”Generalized Linear Models”, London: Chapman and Hall, 1983 L. Nordberg ”Significance Editing- vad är det?” Stencil, SCB, Örebro 2006 L. Nordberg ”On Variable Selection in Generalized Linear and Related Regression Models” Stockholm: Kungliga Tekniska Högskolan, 1982 SAS/STAT User’s guide, Version 8, SAS Publishing, 1999 Wooldridge J. ”Introductory Econometrics a Modern Approach” third edition, Mason: Thompson, 2006 SCB <http://www.scb.se/templates/Product____8132.asp> utlagd 2005-05-11 hämtad 2006-10-29 SCB < http://www.scb.se/templates/Standard____20057.asp> utlagd 2006-11-28 hämtad 2006-12-30 In document Framtagande av modell för skattning av antalet vakanser med poissonregression i konjunkturstatistiken över vakanser (Page 30-33)