Vad är
officiell statistik?
Föreläsning 2
Dan Hedlin
Inferens
Observation/mät-
Accuracy of an estimate is
achieved by minimizing total survey error
Y ˆ Y
Error
“Distance” between the
target population parameter and its estimate
Measured by the “mean
Hur får man kontakt med det objekt som ska observeras?
Exempel 1. Demographic and Health Survey i Nigeria.
● Vi ska dra ett slumpmässigt urval av kvinnor och intervjua dem om deras liv och barn.
Exempel 2. I Sverige,
sysselsättning/arbetslöshet/utanför arbetskraften?
Ram (eng. frame), rampopulation
Tio steg att tänka igenom
1. Bestämma sig för
• Population, t.ex. folkbokförda, 15-74 år (AKU). Målpopulation.
• Variabel, t.ex. partisympati, val till Riksdagen
2. Ram, t.ex. RTB, rikets totalbefolkning
3. Typ av urval och hur många som ska ingå.
Urvalsdesign.
4. Datainsamlingssätt (mode), t.ex. telefon eller webbenkät
5. Formulera frågor
6. Formulera frågealternativ, om inte öppen fråga
7. Skapa hela blanketten/formuläret
8. ”Protokoll”, t.ex. trisslott, antal kontaktförsök, missiv, ”tack- och påminnelsekort”
9. Vilka beräkningar som ska göras. Inferens
10. Hur statistiken ska redovisas
Partisympatiundersökningen, PSU, förenklat
● Målpopulation: röstberättigad vid ett hypotetiskt riksdagsval
● Ram: svenska medborgare som är folkbokförda i Sverige och fyller minst 18. Själva listan på folk, RTB, sköter SCB med dagliga uppdateringar från Skatteverket
● Variabel: bl.a. partisympati
PSU
● Panelurval. Tre paneler, varje individ med tre gånger
● En ny panel varje gång. 3000 personer
● Systematiskt urval
● Informationsbrev inför undersökningen
● Inloggningsuppgifter
● Telefon till dem som inte svarat på webbenkäten
● Fältarbetsperiod 4 veckor
●
”Om vi tänker oss att det vore
riksdagsval de närmaste dagarna:
skulle du då rösta, skulle du kanske rösta eller skulle du inte rösta.”
– Röstar
– Röstar kanske Gå till fråga 9A
1. ”Vilket parti skulle du rösta på?”
2. ”Om du trots allt skulle bestämma dig för att rösta, vilket parti skulle du då rösta på?”
Riksdagspartierna + PP, FI, Junilistan, annat parti (vilket), blankt, vet ej (maj 2016)
Riksdagspartierna i bokstavsordning
Kvalitet
1. Kvalitet för den officiella statistiken – en handbok. SCB, utgiven 2016.
2. Föreskrift, SCB-FS 2016:17. Det som står i handboken ska användas när man producerar och publicerar officiell statistik.
● Jag kommer inte att ta upp precis allt. Det skulle bli väldigt mycket.
Statistikens byggstenar
Urvalsundersökningar och registerbaserad statistik
1. Målpopulation
2. Objekt
3. Variabler
● Alla har tid knutet till sig. ”Referenstid”, speciellt om variabler
● Skillnad mellan variabel och variabelvärde
● Slutligt observationsregister
Parameter
● Parameter (Statistisk storhet)
1. Statistiskt mått
2. Objekt
3. Värden på variabler
4. Referenstid
Ex 1: Medellängd, 20-åriga män under 2016 Ex 2: Andel arbetslösa, folkbokförda, 20-25 år under en referensvecka
”Målet med en undersökning är att skaffa kunskap om parametrar” (fritt från kvalitetsdokumentet)
Vad betyder ”jag/vi har kunskap om x”?
1. Jag/vi har en övertygelse om x
2. Är sant
3. Finns evidens för att det är sant (fritt från Åsa Wikforss)
”mål” och ”intresse”
● Används som prefix. ”Intressevariabel”,
”målvariabel”
● Skillnad mellan vad man skulle önska sig och vad som är möjligt att nå (nästan)
Varför skillnad mellan ”mål” och
”intresse”?
Om variabler, till exempel:
● För många men likartade frågor
● För stor uppgiftslämnarbörda
● För svårt att svara på (man får inga bra svar)
Om objekt och population, till exempel:
● För stor uppgiftslämnarbörda
● Svårt eller omöjligt att kontakta
● Språksvårigheter
● Oetiskt
Tillförlitlighet
● Urval
● Ramtäckning
● Mätning
● Bortfall
● Bearbetning
● Modellantaganden
Target population, frame population, sample
Frame population
Overcoverage
Sample
Response
set
Finns mer att säga om kvalitet än bara tillförlitlighet
Exempel 1: tidsserie
Exempel 2: varför får vi olika bild från SCB:s
skattning av arbetslöshet och Arbetsförmedlingens statistik?
Exempel 3: Nationella trygghetsundersökningen rapporterar om ”gamla” brott
Är dokumentationen del av statistikens kvalitet?
Aktualitet och punktlighet
● Framställningstid
● Frekvens
● Punktlighet
● Timeliness
Tillgänglighet och tydlighet
● Tillgång till statistiken
● Presentation
● Dokumentation
Jämförbarhet och samanvändbarhet
● Jämförbar över tid och mellan grupper
● Samanvändbar. Kan användas tillsammans med annan statistik
Relevans och innehåll
● Relevans: i vilken utsträckning statistiken kan användas för bestämda syften
● Innehåll: utöver bild 6, även
redovisningsgrupper (eng. domains)
● Finns ofta konflikt mellan kvaliteten i olika komponenter
Registerstatistik
● Administrativa register statistikregister – Skatteverket: taxeringsdata
– Försäkringskassan: barnbidrag, pensioner etc – CSN
– Lägenhetsregistret
– Kontrolluppgiftsregistret: löner – Etc
● I Sverige underlättas detta av personnummer
● Men olika sorters objekt ovan
Härledda objekt och variabler
● Exempel på objekt: familj. Gifta och
sammanboende med barn förs samman i familjer
● Exempel på variabel: arbetsinkomst. Löner för samma individ men från olika kontrolluppgifter.
”statistikregister”
Vad är det man gör?
Typiska arbetsmoment
● Avgränsa mängden av objekt
● Avgränsa själva objekten
● Matcha objekt från olika register
● Hantera dem som inte matchar
● Härleda objekt och variabler
● Koda
● Granska objekt och variabelvärden
● Skapa longitudinella register
Varför skillnad mellan urvalsundersökningar och
registerbaserad statistik?
Vem är arbetslös?
Arbetslös i AKU:
1. är utan arbete och
2. kan ta ett arbete och
3. aktivt sökt arbete eller avvaktar ett arbete som börjar inom 3 månader.
Arbetssökande i Af:
1. Inskriven och
2. Arbetslös (arbetar < 8 timmar/vecka) eller har
Vem är sysselsatt?
Sysselsatt i AKU:
● har arbetat minst 1 timme under referensveckan eller
● hade ett arbete under refveckan som han eller hon var frånvarande från.
● Tre kategorier i AKU: arbetslös, sysselsatt och utanför arbetskraften
● Definitionerna av arbetslöshet och sysselsättning är i enlighet med de riktlinjer som ges av Inter- national Labour Organization (ILO) och följer EU:s förordningar
● Jag har inte återgett de fullständiga definitionerna
● Dessutom olika målpopulationer. AKU 15-74 år, Af 16-64 år
● Olika referenstider: AKU en månad (medelvärde över referensveckor), Af den sista i månaden
● Man ställer inte frågan i AKU ”är du arbetslös”
Skillnad mellan AKU och Af
Enligt utredning 2011
● Båda ungefär 400 000 arbetslösa
● Men bara 250 000 av dem är samma personer
AKU 400’
Även i Af 250’ Bara i AKU 150’
Återfinns i Af:s register, dock ej
Heltids-
studerande eller
Af 400’
Även i AKU 250’ Endast i Af 150’
Sysselsatta i AKU (jobbade 1-7 timmar under refveckan) 75’
Ej arbetslösa i AKU (inte sökt jobb på 4 veckor) 75’
Skillnad mellan AKU och Af åt
”andra hållet”
● Jag vill understryka att skillnaderna inte beror på att myndigheterna gör fel
● De har olika syften
● I AKU har samanvändbarhet och jämförbarhet hög prioritet
”Polis och åklagare löser fler brott”
● 3600 fler brott klarades upp under 2011 jämfört med 2010.
● Framgång?
● Ett enda ärende om dopningsbrott bokfördes som 10 990 lösta brott
● Örstadius (2012). Ett enda åtal vände på brottssiffrorna. Dagens Nyheter 120928
● Många dör på nyårsafton (Hagman och Thyni, 2013). Varför gör de det?
● Hagman och Thyni fann tre toppar i dödsorsaksregistret:
– Estonia – Tsunamin
– och nyårsaftnar varje år???
● Dödsfall utan rapporterad dödsdag bokförs på nyårsafton
Frågor till er
1. Redogör för följande termer:
a) Ram och rampopulation
b) Mål- och intressepopulation c) Under- och övertäckning d) Parameter
2. Varför kan det vara skillnad på mål- och
intresseobjekt? På mål- och intressevariabel?
3. Vilka sex komponenter består tillförlitlighet av och vad betyder de?
4. Vad är jämförbarhet och samanvändbarhet?
5. Vilka andra kvalitetskomponenter finns det?
6. Varför kan olika kvalitetskomponenter stå i konflikt mot varandra?
7. Vilka typiska arbetsmoment finns det när man framstället ett statistikregister?
8. Nämn några skäl till att SCB:s statistik över