• No results found

2. Poissonregression

4.3 Modellutveckling och förbättringar

Den del i dataprogrammet som beräknar tidigare månadsvärde är skrivet på sådant sätt att

det är det senast föregående registrerade värdet som sätts som föregående månadsvärde.

Det första registrerade värdet för ett arbetsställe kommer då att få ett så kallat missing

value och det innebär att hela den observationen stryks i regressionen. I och med att 25 %

av urvalet byts ut varje halvår kommer vissa arbetsställen att endast förekomma två gånger.

Den första observationen innehåller då ett missing value och för dessa mindre arbetsställen

används då endast en observation i regressionen, De större har åtminstone 5 observationer

om de lämnar in enkäten varje månad. Mindre arbetsställena löper större risk att strykas

helt ur observationen på grund av att de inte behöver lämna in lika ofta och kan lämna

urvalet efter färre inlämnade enkäter än de större arbetsställena. I pappersmassamaterialet

får det effekten att det finns 3660 observationer men 3475 observationer används i

regressionsanalysen. I metallindustrin så finns det 5764 observationer men 5005

observationer används. Cirka 95 % av pappersmassaindustrins observationer kom med i

regressionen och cirka 87 % i metallindustrin. Det innebär om man inte gör något åt de

missing value som finns bör man endast utföra regressionen i de branscher som domineras

av stora arbetsställen för att minimera antalet missing value. När antalet missing value blir

stort är det en stor andel av de mindre arbetsställena som försvinner och regressionen kan

då ge en felaktig skattning.

Det som kan göras för att komma bort från det problemet är att på den första observationen

för varje arbetsställe ta det aktuella antalet vakanser och sätta det som föregående

månadsvärde. Då får man ett värde på den observationen istället för ett missing value.

förmodligen kunna göras utan några större problem. Men det behöver testas för att man ska

veta säkert och det behöver man förmodligen göra på ett större datamaterial än dessa två

branscher. Det som även kan göras i andra undersökningar på samma material är att ta

fram datamaterial ända från tredje kvartalet 2000, då undersökningen började, och göra en

variabel som mäter föregående års värde för varje månad. Anledningen till att det inte

gjorts nu är att med det datamaterialet som togs fram; 2004 till och med kvartal 3 2006, så

skulle en tredjedel till hälften av observationerna försvinna till följd av missing value.

Även i detta fall skulle missing value kunna undvikas på samma sätt som beskrivits ovan

för variabeln antal vakanser föregående månad. Med en variabel som tar hänsyn till

föregående års värde skulle man förmodligen bättre spegla eventuell säsongsvariation än

med månadsvariabeln.

Antalet anställda är en variabel som alltid blir signifikant i de modeller som jag har tagit

fram. Men den är inte helt tillförlitlig eftersom den inte uppdateras kontinuerligt. Vissa

arbetsställen kan rapportera att de kan behöva anställa mellan 50 och 100 personer i ett par

tre månader för att minska och sedan gå upp till lika höga siffror igen efter ytterligare

några månader. Trots det så sker det ingen ökning i antalet anställda på arbetsstället.

Däremot kan det ske förändringar i antalet anställda för vissa arbetsställen trots att endast

ett fåtal vakanser har annonserats ut. Om antalet anställda uppdaterades mer kontinuerligt

än det görs i dag så skulle man förmodligen få en bättre skattning på antalet vakanser.

Uppdateringssystemet är uppbyggt så att en enkät skickas ut en gång om året, på

företagsnivå ej arbetsställe, och man undrar om antalet anställda har förändrats. Om svaret

inte avviker mycket från den uppgiften som är registrerad i Företagsdatabasen så ändras

inte uppgifterna i Företagsdatabasen. Får man in den uppgiften i någon annan

undersökning eller på annat sätt så uppdateras uppgiften. Det leder till att det är stora

skillnader mellan arbetsställena om avseende aktualiteten på uppgiften om hur många

anställda det finns på arbetsstället. Det som skulle underlätta är om Företagsdatabasen

tillfrågar arbetsstället hur många anställda de har när man har fått ett resultat på

vakansundersökningen som visar att de behöver anställa ett stort antal personer. Om detta

sker så skulle antalet anställda bli en ännu mer signifikant variabel och poissonregression

skulle bli mer rättvisande och Företagsdatabasen skulle bli en ännu bättre urvalsram

Det uppstod missförstånd om tillvägagångssättet för att välja den bästa modellen. Jag har

valt den bästa modellen utifrån när C

p

-statistikan är som lägst medan man egentligen skulle

ha valt utifrån när C

p

-statistikan är ungefär lika stort som antalet parametrar. Det

uppmärksammade jag först efteråt när jag läste in mig på ämnet ordentligt. Då fanns det

inte tid att göra om den delen av uppsatsen. Förmodligen spelar det ingen större roll

eftersom om man utökar tidsserien och/eller ändrar den regionala indelningen från län till

annan indelning kommer man förmodligen att få fram en annan modell som bästa modell.

Det som skett är att jag har med fler variabler i den bästa modellen än jag skulle ha haft om

jag hade valt modell när C

p

-statistikan var lika med antalet variabler. Det finns också en

stor slumpfaktor med i regressionen som påverkar vilka variabler som blir signifikanta

förutom antalet anställda och föregående månads antal vakanser. Hade man gått på andra

kriterier för att välja bästa modell hade man fått fram ytterligare en annan modell.

Litteraturreferenser

För utom dom i uppsatsen nämnda referenser, ingår nedan även några som är av mera

allmän karaktär för det aktuella ämnesområdet.

Cameron C. and P. Trivedi ”Regression Analysis of Count Data” Cambridge: Cambridge

University Press, 1998

Dahmström K. ”Från Datainsamling till rapport - att göra en statistisk undersökning” fjärde

upplagan, Lund: Studentlitteratur, 2005

Draper N. and H. Smith ”Applied Regression Analysis” second edition, New York: John

Wiley and Sons, 1966

Dobson A. ”An Introduction to Generalized Linear Models” second edition, Boca Raton:

Chapman & Hall/CRC, 2002

Greene W. ”Econometric analysis” fourth edition, New Jersey: Prentice Hall, 1993.

Kleinbaum D. ,Kupper L. and K. Muller ”Applied Regression Analysis and Other

Multivariable Methods” second edition, Belmont: Duxbury, 1988

Lawrence D. and C. McDavitt ”Significance Editing in the Australian Survey of Average

Weekly Earnings” Journal of Official Statistics, no.4, pp. 437-447, 1994

McCullagh P. and Nelder J. A. ”Generalized Linear Models”, London: Chapman and Hall,

1983

L. Nordberg ”Significance Editing- vad är det?” Stencil, SCB, Örebro 2006

L. Nordberg ”On Variable Selection in Generalized Linear and Related Regression

Models” Stockholm: Kungliga Tekniska Högskolan, 1982

SAS/STAT User’s guide, Version 8, SAS Publishing, 1999

Wooldridge J. ”Introductory Econometrics a Modern Approach” third edition, Mason:

Thompson, 2006

SCB <http://www.scb.se/templates/Product____8132.asp> utlagd 2005-05-11 hämtad

2006-10-29

SCB < http://www.scb.se/templates/Standard____20057.asp> utlagd 2006-11-28 hämtad

2006-12-30

Related documents