• No results found

En jämförelse av metoder för att hantera bortfall på kategoriska förklaringsvariabler vid logistisk regressionsanalys

N/A
N/A
Protected

Academic year: 2021

Share "En jämförelse av metoder för att hantera bortfall på kategoriska förklaringsvariabler vid logistisk regressionsanalys"

Copied!
33
0
0

Loading.... (view fulltext now)

Full text

(1)

1

En jämförelse av metoder för att hantera bortfall på

kategoriska förklaringsvariabler vid logistisk

regressionsanalys

Av Signe Wolf

Statistiska institutionen

Uppsala Universitet

Handledare: Philip Fowler

(2)

2

Abstract

This thesis investigates how different multiple imputation methods deal with missing data on explanatory categorical variables in a logistic regression analysis. The methods that are evaluated are Amelia II, that uses a multivariate normal distribution in combination with an

EMB-algorithm, Multiple Imputation by Chained Equations (MICE), and Multiple Hot Deck Imputations (MHDI).

These methods are then compared with listwise deletion (LWD) and single imputation, using Hot Deck, for missing data that are Missing Completely at Random (MCAR) and Missing at Random (MAR) for three different proportions of missing values. The study is conducted by a simulation study where both the data samples and missingness have been generated.

(3)

3

Innehåll

1. Inledning ... 4

1.1 Inledning ... 4

1.2 Syfte och frågeställning ... 6

1.3 Avgränsning ... 7

2. Teoridel... 8

2.1 Bortfall ... 8

2.2 Listwise deletion (LWD) ... 9

2.3 Simpel imputering (SI) ... 10

2.4 Generell multipel imputering (MI) ... 10

2.5 Amelia II ... 14

2.6 Multiple Imputering by Chained Equations (MICE) ... 16

2.7 Multipel Hot Deck Imputering (MHDI) ... 18

3. Metodologi ... 20

3.1 Simuleringsstudie ... 20

3.2 Generera komplett stickprov ... 21

3.3 Generering av bortfall ... 22

3.4 Metodernas bortfallshantering ... 23

3.5 Jämför statistisk inferens ... 23

4. Resultat ... 25

4.1 Bortfallssimulering ... 25

4.2 Koefficienterna efter metoderna ... 26

4.3 Medelfel av de olika metoderna ... 27

4.4 Täckningsgrad av konfidensintervall ... 28

5. Slutsatser och diskussion ... 30

5.1 Slutsatser ... 30

5.2 Diskussion ... 30

6. Referenser ... 32

6.1 Böcker ... 32

6.2 Artiklar ... 32

(4)

4

1. Inledning

1.1 Inledning

Att värden saknas för undersökningsobjekt (ex. för individer) är ett vanligt problem inom statistik. Det kan bero på många olika orsaker såsom tekniska fel vid inmatning i statistikprogram, att det inte går att få fram information på intressanta variabler, eller att personer tenderar att inte vilja svara på olika undersökningsfrågor. För data som saknar värden för vissa undersökningsobjekt på en eller flera variabler kallas detta för bortfall. Bortfall i form av att värden saknas samtidigt som inget objekt saknar värden på alla variabler kallas för partiellt bortfall och är det som studien fokuserar på.

När statistisk inferens ska genomföras kräver de flesta metoder att det finns värden på alla objekt och för samtliga variabler. Att hantera bortfall är därför nödvändigt vid de flesta statistiska analyser. De flesta undersökningar använder då listwise deletion (LWD) som tar bort alla objekt som innehåller bortfall. I en undersökning av statsvetenskapliga studier som använder surveyundersökningar så visade det sig att cirka 94% av dessa använde sig av LWD för att hantera sitt bortfall (Honaker, King & Blackwell 2017, s. 304).

Bortfallsmekanismen kallas MCAR (Missing Completly At Random) om anledningen till att bortfallet existerar är helt slumpmässigt, MAR (Missing At Random) om bortfallet beror på andra variabler i datan, och MNAR (Missing Not at Random) om det beror på värdet på variabeln med bortfall.

Att bortfall är helt slumpmässigt är ett väldigt starkt antagande och det går många gånger att visa på att så inte är fallet. När objekten själva ska svara på frågor om sig själva och sina åsikter i en surveyundersökning finns det exempelvis stor anledning att anta att bortfall inte är helt slumpmässigt då personer ur en specifik grupp (t.ex. låginkomsttagare) väljer att inte svara på kontroversiella frågor eller frågor som anses vara privata. I sådana fall kommer LWD inte ge statistiskt riktiga resultat som är representativa för målpopulationen.

(5)

5

Vid surveyundersökningar och studier inom såväl statsvetenskap som medicin är kategoriska nominala variabler vanligt förekommande men samtidigt har multipel imputering på kategoriska variabler inte undersökts så mycket. Eftersom kategoriska variabler inte kan hanteras på samma sätt som kontinuerliga variabler så är det inte säkert att det är samma metoder som bäst hanterar bortfall för kategoriska som för kontinuerliga variabler.

Denna studie undersöker därför metoder för att hantera bortfall för nominala variabler. För att göra det kommer fem olika metoder användas, tre multipla imputeringsmetoder, en simpel imputeringsmetod och LWD. Att jämföra med LWD blir intressant både utifrån att det är den vanligaste metoden och utifrån att det är en metod med kända egenskaper. Skillnaderna mellan multipla imputeringsmetoder och simpel imputering visar på de förbättrade egenskaperna som fås genom att använda oss av flera imputeringar för att skatta osäkerheten.

De multipla imputeringsmetoder som används i studien är Amelia II, MICE (Multiple Imputation by Chained Equations) och MHDI (Multiple Hot Deck Imputation). Amelia II och MICE är de vanligaste metoderna som används i statistikprogram men är framtagna för kontinuerliga variabler och MHDI är en metod som specifikt är utvecklad för att hantera bortfall på kategoriska variabler. Även om Amelia II och MICE är framtagna för kontinuerliga variabler har de visat sig fungera bra i vissa situationer för kategoriska variabler och de kan därför vara intressanta att jämföra med MHDI som är framtagen specifikt för kategoriska variabler (Honaker, King & Blackwell 2011, s.15).

Då det inte finns så omfattande forskning kring hur multipla imputeringsmetoder fungerar för kategoriska variabler (van der Palm, van der Ark & Vermunt 2016, s.755), är det intressant att jämföra de vanligt använda metoderna med varandra för att få en större förståelse för hur och när de fungerar bra. Genom att denna studie undersöker bortfall på förklaringsvariabler och en komplett utfallsvariabel så hoppas den kunna bidra med hur metoderna fungerar under de förutsättningarna.

(6)

6

Hur väl metoderna klarade av att hantera dessa olika situationer utvärderades genom deras estimat av koefficienterna och estimatens medelfel för den ena av de två variablerna med bortfall i en logistisk regressionsekvation med de fem variablerna.

Resultatet av studien visar att under de förutsättningar som ställts upp så ger MICE och MHDI koefficientestimat som är väntevärdesriktiga och med relativt korrekta medelfel i jämförelse med Amelia II som ger estimat med något högre bias. Metoderna ger ungefär liknande estimat som när LWD används förutom under vid högre bortfallsandel när bortfallet är MAR då både MICE och MHDI ger mindre bias än LWD.

Denna uppsats består av först en teorigenomgång av olika metoder för att hantera bortfall med fokus på multipel imputering och de metoder som kommer att jämföras. Sedan kommer ett metodologikapitel som redogör för hur studien har genomförts. Efter det kommer ett kapitel med resultat av studien och sedan avslutas uppsatsen med slutsatser och en diskussion av resultaten.

1.2 Syfte och frågeställning

Syftet med denna uppsats är att jämföra olika vanligt använda metoder för att hantera partiellt bortfall med avseende på hur de hanterar bortfall på nominala variabler. Genom att undersöka detta bidrar uppsatsen till att skapa ökad förståelse för hur multipel imputering fungerar när det finns bortfall på kategoriska förklaringsvariabler, hur de multipla imputeringsmetoderna skiljer sig från LWD och hur medelfelen skiljer sig från simpel imputering, samt hur hanteringen av bortfall påverkar utfallet i en logistisk regressionsanalys.

Genom att studien testar metoderna i en situation som liknar partiellt bortfall från en surveyundersökning med bortfall för två av fyra variabler så är förhoppningen att resultatet ska kunna ge vägledning i hur bortfallshantering vid surveyundersökningar med bortfall för förklaringsvariabler påverkar estimat i en logistisk regressionsanalys.

Utifrån detta kommer uppsatsen huvudsakligen besvara frågeställningarna:

- Kan imputeringsmetoderna Amelia II, MICE och MHDI ge koefficientestimat som är väntevärdesriktiga och med korrekta medelfel för logistisk regressionsanalys vid partiellt bortfall på nominala förklaringsvariabler?

(7)

7

1.3 Avgränsning

Eftersom omfånget och tiden för denna studie är begränsad så har flera avgränsningar gjorts. Studien görs på ett data som består av fem variabler även om många undersökningar ofta innehåller fler variabler. Detta för att minska komplexiteten av beräkningarna och göra simuleringarna snabbare.

Att studien bara har bortfall på hälften av förklaringsvariablerna är av samma orsak då det som tar mest tid i simuleringarna är att göra de multipla imputeringarna. Studien har valt att inte begränsa bortfallet till att bara vara för en variabel är för att få med effekten när det finns bortfall på flera variabler.

(8)

8

2. Teoridel

2.1 Bortfall

Vid statistiska undersökningar och särskilt vid undersökning av individer så kommer det nästan alltid att saknas värden på vissa av de variabler som ska mätas. Det kan bero på att personer som svarar på frågor missar att svara på en fråga, att de inte orkar fylla i en enkät eller att de inte vill svara på en viss typ av fråga. När ett värde saknas så kallas det inom statistiken för bortfall. När bortfall förekommer så innebär det att information som behövs för att genomföra vår analys saknas och det är därför önskvärt att ha en så liten andel bortfall som möjligt vid statistiska analyser (Little & Rubin 2019, s.8: Allison 2001, s.1).

För att kunna hantera bortfall behövs en förståelse för hur bortfallet ser ut och varför det har uppstått. Det kan göras genom att undersöka bortfallsmekanismen och bortfallets mönster, där bortfallsmönstret beskriver vilka värden som saknas och bortfallsmekanismen beskriver förhållandet mellan bortfallet och värden på andra undersökningsvariabler (Little & Rubin 2019, s. 11).

Hur bortfallsmönstret ser ut går att se genom att sortera data utefter variabler och objekt. Det kan finnas ett mönster genom att värden enbart saknas för vissa variabler eller att en grupp objekt har bortfall på fler variabler än andra objekt (Little & Rubin 2019, s. 12).

Definition av bortfallsmekanismer utgår oftast från Rubins kategorisering av bortfallsmekanism som Missing Completely at Random (MCAR), Missing at Random (MAR) och Missing Not at Random (MNAR) (eller Not Missing at Random, NMAR) där graden av slumpmässighet i bortfallet är det centrala (1976, s.585).

Om n betecknas som antalet objekt och k antalet variabler så att 𝑛 × 𝑘 är data 𝐷 där observerade, 𝐷𝑜𝑏𝑠 , och saknade värden, 𝐷𝑚𝑖𝑠, ingår och bortfallet betecknas med 𝑀 kan vi titta närmare på dessa tre bortfallsmekanismer.

Först har vi Missing Completely at Random (MCAR) där sannolikheten för att ett värde saknas på en variabel är oberoende av värdet på variabeln eller något värde på någon annan undersökningsvariabel. Om bortfallet har denna mekanism så är bortfallet helt slumpmässigt och objekt med kompletta värden kan ses som ett slumpmässigt urval av vårt data (Allison 2001 s.3). MCAR kan därmed betecknas,

(9)

9

Missing at Random (MAR) är att bortfall beror på variabeln enbart genom observerade värden på andra variabler i datan. Alltså att när man kontrollerat för andra variabler i datan så är bortfallet på variabeln oberoende av vad den har för värde. MAR kan då betecknas (King, Honaker, Joseph & Scheve 2001, s.50 - 51.):

𝑝(𝑀|𝐷) = 𝑝(𝑀|𝐷𝑜𝑏𝑠)

Missing Not at Random (MNAR) är när bortfallsmekanismen är beroende av värdet på variabeln. Anledningen till att det finns ett bortfall på variabeln anses då inte vara slumpmässigt utan bero på en specifik anledning. Exempelvis att personen inte vill ange ett svar som är kontroversiellt eller kan anses vara stigmatiserande.

De två mekanismerna MCAR och MAR är villkorade på observerat data och kan därmed ge tillförlitlig inferens. När mekanismen är MNAR och bortfallet är relaterat till oobserverade värden så kan man inte ignorera bortfallet. Inte ens när datan är villkorad på observerade data kommer tillförlitlig inferens nås och ytterligare åtgärder behöver göras för att hantera detta (Karangwa, Klotze & Blignaut 2016, s. 522; Schafer & Graham 2002 s. 148).

För att hantera problemet med bortfall och kunna utföra statistiska analyser så har flertalet metoder arbetats fram. Även om dessa metoder kan göra mycket för utförandet av statistiska analyser så är ingen metod problemfri och det absolut bästa är naturligtvis alltid att inte ha något bortfall då ingen metod helt kan justera för det (Allison 2001, s. 2). Nedan kommer en genomgång av några metoder och hur de kan användas för att hantera bortfall för en kategorisk nominal variabel.

2.2 Listwise deletion (LWD)

Den enklaste metoden för att hantera bortfall som även är den vanligaste är listwise deletion (LWD), även kallad casewise deletion eller complete case analysis (Allison 2001, s.1). Metoden går ut på att ta bort objekt i datasetet som saknar värden på någon av variablerna som undersöks för att istället enbart använda de objekt som har värden på alla variabler för att göra sin analys (Allison 2001, s.6).

LWD har sina fördelar i att den kan användas för alla typer av statistisk analys och inte kräver någon avancerad uträkning. Om bortfallsmekanismen är helt slumpmässig, MCAR, så kommer LWD även ge riktiga statistiska egenskaper och resultat då informationen som förlorats är slumpmässig och inte borde skilja sig från den informationen som finns kvar.

(10)

10

information förloras och det kommer påverka slutsatserna eftersom det kommer ge estimatorer som inte är väntevärdesriktiga (Allison 2001 s.6; Karangwa, Klotze & Blignaut 2016, s. 522). Enligt Allison har det dock visat sig att LWD ofta ger väntevärdesriktiga resultat i regressionsanalys vid MAR bortfall på förklaringsvariabler när bortfallet inte beror på utfallsvariabeln. Vid logistisk regression ger LWD även väntevärdesriktiga koefficienter om bortfallet är beroende av utfallsvariabeln men inte förklaringsvariablerna. Metoden ger enbart bias vid logistisk regressionsanalys om bortfallet beror på både utfalls och förklaringsvariablerna (Allison 2001, s.7).

2.3 Simpel imputering (SI)

För data som saknar värden på variabler för vissa objekt så kan man skapa värden som ersätter de saknade värdena istället för att ta bort objekten. Att ersätta värden på det sättet kallas för imputering av värden.

Vid imputering av värden så görs det baserat på en specifik metod eller modell. Exempelvis kan man använda sig av medelvärdet för de observerade värdena på aktuell variabel och imputera detta där värde saknas eller använda sig av en regression där värdet på variabeln baseras på observerade värden på andra variabler på objektet. Då kan objekten som annars genom LWD hade tagits bort behållas och effektiviteten ökar därmed då all information kan användas.

Det finns några imputeringsmodeller som är mer anpassade för kategoriska variabler. En av de metoderna är Hot Deck (Allison 2001, s. 57 - 60). Hot Deck går ut på att värden doneras från andra objekt för att ersätta där värden saknas. Genom att jämföra objekten med potentiella donatorer kan andra objekt som liknar mottagarobjektet på de variabler där båda har värden hittas och använda det objektets värde som imputering (Allison 2001 s. 57 - 58; Cranmer & Gill 2013, s. 430 - 431).

Ett problem med denna typ av imputering är att den hanterar de imputerade estimaten som sanna värden även fast de inte är det. Att göra det producerar medelfel som är underskattade och teststatistikor som är överskattade. Metoden anpassar alltså inte sina värden utefter den osäkerhet som föreligger.

2.4 Generell multipel imputering (MI)

(11)

11

skiljer multipel från simpel imputering är att istället för att direkt ta värdet som modellen tar fram så görs imputeringen om m antal gånger.

Figur 2.2: Flödesschema för multipla imputeringar

Genom att kombinera dessa olika imputeringar kan estimering av parametrar av intresse göras, exempelvis koefficienter i en regressionsanalys, med estimatorer som även innehåller ett drag av osäkerhet som saknas i simpel imputering och beror på att delar av datan är imputerat. De m antal kompletta data kombineras sedan för den intressanta parametern enligt nedan, där 𝑏̂𝑖 är estimatet i en av de m imputerade data och 𝑏̅𝑚 är det genomsnittliga estimatet för alla m:

𝑏̅𝑚 = 1 𝑚∑ 𝑏̂𝑖

𝑚

𝑖=1

En av fördelarna med multipel imputering är att estimatens medelfel blir mer korrekta. Om imputerad data används som om det var observerad data, vilket görs i simpel imputering, kommer medelfelsestimaten vara för låga och teststatistikan vara för hög. Men genom att använda variabiliteten mellan imputeringarna kan medelfelen justeras. Multipel imputering skapar på detta sätt medelfel som har lägre bias än medelfel som skapas via simpel imputering (Allison 2001, s. 29).

(12)

12

Resultaten i båda dessa steg slås ihop och roten av detta dras för att få medelfelet av medelvärdet av de m estimaten. För att korrigera inflationen i medelfelet multipliceras (1 +𝑚1) i variansen mellan imputeringarna, och variansen i stickprovet betecknas 𝑠2.

Då blir resultatet medelfelet av estimatet efter multipel imputering. Något som även går att dela upp i variansen inom och mellan imputeringarna (Little & Rubin 2019, s. 97 - 99).

𝑆. 𝐸. (𝑏̅𝑚) = √1 𝑚∑ 𝑠𝑖 2 𝑚 𝑖=1 + (1 + 1 𝑚) ( 1 𝑚 − 1) ∑(𝑏̂𝑖− 𝑏̅)2 𝑚 𝑖=1 = 𝑉𝑇

Variansen inom imputeringarna:

𝑉𝑊 = 1 𝑚∑ 𝑠𝑖

2 𝑚

𝑖=1 Variansen mellan imputeringarna:

𝑉𝐵 = ( 1

𝑚 − 1) ∑(𝑏̂𝑖 − 𝑏̅) 2 𝑚

𝑖=1

När alla m estimat kombineras till ett gemensamt estimat gör det att medelfelet av detta gemensamma estimat innehåller osäkerheten av bortfallshanteringen (från 𝑉𝐵) och osäkerheten av estimeringen (𝑉𝑊). Alltså ger det större medelfel än de medelfel som blir efter simpel imputering, då den inte tar med den osäkerheten. På det sättet kompenserar multipel imputering för osäkerheten av estimeringen som inte annars fångas (Cranmer and Gill 2013, 439 - 440).

Vid beräkning av imputeringsvärdet så går det bra att använda både värden på de oberoende och de beroende variablerna som hjälpvariabler. När multipel imputering används på ett korrekt sätt så ger det estimat av parametrar för det kompletta datasetet som är väntevärdesriktiga och effektiva så länge som bortfallsmekanismen är MAR (Allison 2001, s.29).

(13)

13

Två generella tillvägagångssätt för multipel imputering vid multivariat bortfall som har utvecklats är joint modeling (JM) och fully conditional specification (FCS). Joseph Schafer var en av pionjärerna i utvecklandet av flertalet JM tekniker och främst JM som är baserat på normalfördelning. JM involverar en specifikation av den multivariata fördelningen för bortfallet och att sedan dra imputeringar från den villkorade fördelningen genom Markov chain Monte Carlo (MCMC) tekniker. FCS innebär att variablerna imputeras baserat på varandra utifrån en modell i ett iterativt mönster (van Buuren 2018, s. 112; Schafer & Graham 2002 s. 161).

Två av de vanligaste metoderna som används i statistikprogram är MICE och Amelia II. MICE är en FCS-metod och bygger på kedjor av villkorade ekvationer. Amelia II, en utveckling av Amelia, bygger på dragningar ur en multivariat normalfördelning (Cranmer & Gill 2013, 440). De metoderna kan hantera både kontinuerliga och kategoriska variabler.

En annan metod som primärt är framtagen för att hantera bortfall på kategoriska variabler är Multipel Hot Deck Imputering (MHDI). Den metoden bygger på att objekt som saknar värden får värden från liknande objekt. Till skillnad från de andra två metoderna som används så är MHDI främst användbar på kategoriska variabler.

Alla dessa tre metoder är framtagna eller testade för statsvetenskapliga studier vilket gör att dem är intressanta att jämföra med varandra (Cranmer & Gill 2013 s.425; Karangwa, Kotze & Blignaut 2016, s.532; Honaker, Katz & King 2002, s. 94). I tidigare studier har det visat sig att multipel imputering baserat på en multivariat normalfördelning och baserat på MICE ger ungefär samma resultat när det finns bortfall för kontinuerliga och normalfördelade data (Karangwa, Kotze & Blignaut 2016, s. 523).

(14)

14

MICE och Amelia II ger samma resultat. Resterande av teoridelen består av en fördjupning i teorin för dessa tre metoder.

2.5 Amelia II

Amelia II är framtaget av Honaker, King och Blackwell och skapar multipla imputeringar med hjälp av en Expectation-Maximering-Bootstrap-algoritm (EMB) under förutsättningen att data är multivariat normalfördelad (Honaker, King & Blackwell 2011, s.3). Programmet som först presenterades som ”Amelia” (och senare utvecklats till Amelia II) är lättillgänglig och har blivit ett ofta använt redskap för imputeringar i statsvetenskapliga studier (Gill & Cranmer 2013, s. 433). Imputering baserad på en multivariat normalfördelning ansågs redan 2001 vara den mest använda metoden för multipel imputering (Allison 2001, s. 33). Den metoden förutsätter att alla variabler är normalfördelade och att varje variabel kan representeras genom en linjär funktion av de andra variablerna och en normal homoskedastisk felterm. Men modellen har visat sig fungera bra även när dessa antaganden inte är helt uppfyllda och i vissa fall har den fungerat där variablerna är kategoriska (Honaker, King & Blackwell 2011, s.3; Allison 2001, s.33 & 39).

Imputeringsmodellen antar att datan är multivariat normalfördelad. Antagandet uttryckas som: 𝐷 ~ 𝑁𝑘(𝜇, Σ)

Där 𝐷 har en multivariat normalfördelning med medelvärde 𝜇 och kovariansmatrix Σ (Honaker, King & Blackwell 2011, s.3).

Metoden går ut på att varje variabel estimeras baserat på värden för alla andra variabler av intresse. Den estimerade ekvationen för variabeln används sedan för att generera prediktioner där värden saknas. För att göra detta använder sig metoden av algoritmen EMB som kombinerar den klassiska Expectation-Maximering-algoritmen (EM) med en bootstrap metod för att göra dagningar ur a posteriori fördelningen (den fördelning som fås givet befintliga observationer).

EM algoritmen är en iterativ metod som relaterar Maxmimum-Likelihood estimeringen av fördelningens parametrar givet vårt observerade data, 𝐿(𝜃|𝐷𝑜𝑏𝑠), med Maximum-Likelihood estimeringen av fördelningens sanna parametrar, 𝐿(𝜃|𝐷). Under förutsättningen att databortfallet är MAR så kan parametrarna estimeras av den sanna fördelningen, 𝜃 = (𝜇, ∑), genom att:

(15)

15

i) ersätta saknade värden med estimerade värden,

ii) estimera fördelningens parametrar, 𝜃 = (𝜇, ∑), genom Maximum-Likelihood iii) göra en ny estimering av saknade värden givet de nya estimerade parametrarna, iv) göra nya estimeringar av parametrar,

och sedan upprepas detta tills konvergens är uppnådd (Little & Rubin 2019, s. 188 - 190).

Varje iteration går att dela upp i två steg, ett Expectation-steg (E-steg) och ett Maximering-steg (M-steg). E-steget beräknar det förväntade värdet där det finns bortfall givet vårt observerade data (i och iii). M-steget utför en Maximum-Likelihood estimering av fördelningens parametrar, 𝜃, utifrån data som om bortfall inte fanns (ii och iv). Alltså en Maximum-Likelihood estimering av 𝐿(𝜃|𝐷) (Little & Rubin 2019, s. 193).

För att göra algoritmen bättre har Honaker, King & Blackwell utvecklat EM med en bootstrap (2011, s.4). Bootstrap används för att dra sekundära stickprov utefter tanken att de ska representera skattning av den sanna fördelningsfuktionen. Metoden fortsätter att använda bayesiansk analys för alla andra steg i imputeringen och ersätter processen med att dra 𝜇 och ∑ från sin a posteriorifördelning med en bootstrapping algoritm. Denna förbättring gör att algoritmen kan hantera en mer omfattande mängd data med fler variabler och observationer på ett effektivt sätt (Honaker & King 2010, s.564-565). En sammanfattning av hur stegen hänger ihop i EMB-algoritmen går att se i figur 2.2.

Figur 2.2: Flödesschema för EMB-algoritmen (Honaker, King & Blackwell 2011, s.4)

(16)

16

Problemet som dyker upp är att varje objekt enbart kan tillhöra en kategori och alltså inte kan ha värden på alla binära variabler (Allison 2001, s. 39 - 40). Dessa kontinuerliga imputeringar fungerar därför som sannolikheter för varje kategori och objekten tilldelas utifrån detta en kategori. Därefter rekonstrueras den kategoriska variabeln med sina nya värden (Honaker, King & Blackwell 2011, s.15).

Även om denna modell inte är anpassad för kategoriska variabler så har modellen visat sig fungerar bra även för kategoriska variabler (Ibid). De problem som dyker upp med metoden är att avrundningen vid de binära kategorierna för in bias i nästan alla fall. Genom att exempelvis 0.3 avrundas till 0 trots att prediktionen inte var exakt 0. Den metoden ger bara helt unbiased resultat i situationer där imputeringarna har en unimodal fördelningen centrerad runt exakt 0.5, annars kommer avrundningen ge någon form av bias (Cranmer & Gill 2013, s.433).

2.6 Multiple Imputering by Chained Equations (MICE)

Inom bortfallshantering har det funnits flertalet olika metoder av multipel imputering baserat på FCS metoder som genom Stef von Buuren och Karin Groothuis-Oudshoorn har utvecklats i programmet MICE, som står för Multipel Imputation by Chained Equations (van Buuren 2018, s. 116 – 118; van Buuren & Groothuis-Oudshoorn 2011, s. 1).

MICE är en variant av FCS och bygger på att multipel imputering sker på ett sådant sätt att imputering på en variabel påverkar imputeringen på andra variabler i en iterativ process. Metoden kräver att en specifikation av imputeringsmodell görs för varje variabel och sedan beräknas imputeringarna en variabel i taget i en iterativ process så att imputeringarna baseras på varandra. Metoden drar alltså imputeringar genom att iterera på den villkorade fördelningen. Ofta behövs bara 10-20 iterationer för att nå konvergens. Till skillnad från metoder såsom Amelia II så specificeras fördelningen genom en rad villkorade densiteter istället för exempelvis en normalfördelning (Ibid, s. 119 – 120).

Kedjan byggs upp genom att:

i) Först så fylls datan med värden där det saknas värden. Processen är inte helt slumpmässig utan kan vara medelvärde eller dragning ur en fördelning.

(17)

17

iii) Metoden fortsätter sedan vidare till nästa variabel och genomför imputeringar baserat på våra observerade värden och våra imputerade värden.

Genom att steg iii) repeteras för alla variabler skapas en kedja där varje imputering är beroende av imputeringarna på de andra variablerna. Detta görs sedan m antal gånger för att skapa m imputerade data (van Buuren 2018, s. 122).

Varje imputerade värde kommer på detta sätt att vara baserat på de andra variablernas imputeringar och vektorn, 𝜃, enligt den specificerade modellen för den egna variabeln. Det blir då tydligt att MICE är en typ av Monte Carlo Markov Chain (MCMC) (van Buuren & Groothuis-Oudshoorn 2011, s. 6). Genom iterationer justeras dessa tills konvergens uppnås. Utifrån att starten är en dragning ur den observerade marginalfördelningen så är iteration t :

𝜃1∗(𝑡)~ 𝑃(𝜃1|𝑌1𝑜𝑏𝑠, 𝑌2(𝑡−1), … , 𝑌𝑝(𝑡−1) ) 𝑌1∗(𝑡)~ 𝑃(𝑌1|𝑌1𝑜𝑏𝑠, 𝑌2(𝑡−1), … , 𝑌𝑝(𝑡−1), 𝜃1∗(𝑡) ) . . . 𝜃𝑝∗(𝑡)~ 𝑃(𝜃𝑝|𝑌𝑝𝑜𝑏𝑠, 𝑌1(𝑡), … , 𝑌𝑝−1(𝑡) ) 𝑌𝑝∗(𝑡)~ 𝑃(𝑌𝑝|𝑌𝑝𝑜𝑏𝑠, 𝑌1(𝑡), … , 𝑌𝑝(𝑡), 𝜃𝑝∗(𝑡) )

För p antalet variabler där 𝑌𝑗(𝑡)= (𝑌𝑗𝑜𝑏𝑠, 𝑌𝑗∗(𝑡)) är j:th imputerade variabeln vid iteration t. Den här kedjan fortsätter för t antal iterationer där t är det antal iterationer som krävs för att uppnå konvergens. Eftersom tidigare imputeringar på samma variabel enbart påverkar variabelns nya imputering genom relationen med andra variabler så uppnås konvergens snabbare än många andra MCMC metoder (van Buuren & Groothuis-Oudshoorn 2011, s.6 - 7).

(18)

18

Kan vara problematiskt att använda denna metod när man har variabler som har många kategorier då MICE skapar binära variabler för varje kategori så att det kan skapas väldigt stora matriser och tidskrävande beräkningar (van Buuren & Groothuis-Oudshoorn 2011, s. 7).

2.7 Multipel Hot Deck Imputering (MHDI)

En alternativ metod för multipel imputering till de vanligaste Amelia II och MICE är Multipel Hot Deck Imputering (MHDI) som tagits fram av Gill, Cranmer, Jackson, Murr and Armstrong (2016) för att användas vid bortfall på kategoriska variabler. Fokus vid framtagningen av den här metoden har varit vid bortfall på kategoriska variabler inom statsvetenskapliga studier.

”Hot Deck” är ett av de mest kända sätten att imputera värden på kategoriska variabler och utvecklades redan på 1970-talet (Cranmer & Gill, s.431). Metoden går ut på att för de objekt där värden saknas på någon variabel så lånas ett värde från ett liknande objekt. På det sättet skapas en donator och en mottagare för två objekt som liknar varandra där mottagarens saknade värde ersätts av värdet hos donatorn (Allison 2001 s. 58; Cranmer & Gill 2013, s. 432).

Det svåra här är vilket donatorvärde som ska användas. För att det ska fungera med multipel imputering behöver det finnas en slumpmässig komponent i valet av donatorvärde. Slumpmässigheten bör användas på ett sådant sätt att all naturlig variabilitet bibehålls (Allison 2001, s. 58).

I MHDI som är framtagen av Gill, Cranmer, Jackson, Murr and Armstrong (2016) så baseras valet av donatorvärde på att en vektor av affinitetspoäng beräknas som mäter hur nära de andra objekten det objekt med bortfall är. Sedan används affinitetspoängen för att skapa den bästa imputeringscellen, C, för det saknade värdet och från denna cell görs en slumpmässig dragning av det värde som ska imputeras. Detta görs m antal gånger och dessa m värden kombineras sedan för att skapa en estimator (Cranmer & Gill 2013, s. 434 - 435).

Dessa affinitetspoäng varierar mellan 0 till 1 där starkare matchning mellan två objekt leder till ett affinitetspoäng närmare 1. Affinitetspoäng mellan varje mottagare, i, och den potentiella donatorn, j, kan beskrivas som:

𝛼𝑖𝑗 =

𝑘 − 𝑞𝑖− 𝑧𝑖𝑗 𝑘 − 𝑞𝑖

(19)

19

på antalet variabler som i har värden på. För kontinuerliga variabler eller diskreta variabler med extremt många kategorier och relativt få observationer blir sannolikheten att matcha två värden närmare noll (Cranmer & Gill 2013, s. 435 - 436).

När objekten delas in i celler utifrån hur väl de matchar med vårt mottagande objekt så fångas den del av bortfallsmekanismen som kontrolleras av de andra variablerna i vårt data. Det gör att under förutsättningen att bortfallet är MAR så kommer värdena i den bästa imputeringscellen, C, ha en gemensam fördelning för alla värden i C. Eftersom de värdena då kan tolkas som MCAR går det bra att slumpmässigt dra värden ur den cellen (Cranmer & Gill 2013, s. 437).

(20)

20

3. Metodologi

Syftet med den här studien är att jämföra och utvärdera olika metoder för att hantera bortfall på kategoriska variabler vid logistisk regressionsanalys. I teoridelen redogörs djupare för hur metoderna fungerar och hur de är anpassade för kategoriska variabler. Undersökningen kommer använda och jämföra följande fem metoder,

• Listwise deletion (LWD)

• Simpel Imputering med Hot Deck (SI) • Amelia II

• Multiple Imputation by Chained Equations (MICE) • Multiple Hot Deck Imputation (MHDI)

De tre sistnämnda är multipla imputeringsmetoder som hanterar bortfallet genom repeterande imputeringar. Olika metoder inom multipel imputering har utvecklats mycket under de senaste åren och anses av många statistiker vara det klart bästa sättet att hantera bortfall (Little & Rubin 2019 s. 10). Listwise deletion och simpel imputering är två enklare metoder varav LWD är den metod som oftast används vid olika surveyundersökningar (Honaker, King & Blackwell 2017, s. 304).

Det är viktigt att jämföra de multipla imputeringsmetoderna med LWD eftersom vi vet under vilka förhållanden som LWD fungerar och den blir därmed en bra måttstock. Det är även intressant att jämföra simpel imputering med Hot Deck och MHDI för att se skillnaderna i egenskaper mellan multipel och simpel imputering.

För att kunna se hur de olika metoderna fungerar under olika förutsättningar så kommer de jämföras i en simuleringsstudie där data genereras baserat på tre olika bortfallsstorlekar och två olika bortfallsmekanismer. Metoderna kommer sedan att utvärderas och jämföras på hur de kan bidra till att skapa koefficientestimat för en logistisk regressionsanalys som är väntevärdesriktiga och har korrekta medelfel.

3.1 Simuleringsstudie

(21)

21

Det finns flertalet simuleringsstudier som utvärderar bortfallsmetoder och dessa bygger vanligen på följande fyra steg som även denna studie är baserad på (Schouten, Lugtig & Vink 2018, s.2910):

i. Ett multivariat komplett dataset simuleras baserat på intressant population. ii. Datasetet görs inkomplett genom att bortfall införs utifrån en bortfallsmekanism. iii. Bortfallet estimeras med hjälp av bortfallsmetoden.

iv. Statistisk inferens görs för den kompletta datan och det data där bortfallsmetoden använts. Detta jämförs och bortfallsmetoden kan på det sättet utvärderas.

Dessa fyra steg görs sedan om 3000 gånger för varje situation. En genomgång utifrån dessa fyra steg kommer nedan.

3.2 Generera komplett stickprov

I det första steget simuleras ett komplett data baserad på en intressant population som ska representera ett stickprov.

För att kunna undersöka bortfall på kategoriska variabler i t.ex. en surveyundersökning så skapades ett data som består av 5 variabler. En binär utfallsvariabel och fyra kategoriska förklaringsvariabler. De fyra förklaringsvariablerna består av vardera fyra kategorier.

Inom statsvetenskapliga studier är kategoriska variabler vanliga och särskilt vid användning av frågeformulär. För surveyundersökningar med individer som objekt kan de fyra kategoriska variablerna exempelvis representera svar på olika frågor eller tillhörighet (utlandsfödd, utbildning, politisk sympati etc.) och den binära variabeln exempelvis om man röstar eller inte.

För att generera data så genererades först fyra kontinuerliga variabler från en multivariat normalfördelning med en grad av korrelation mellan sig om ca 0.5. Sedan delades varje variabel upp i fyra ungefärligt lika stora grupper baserat på sina kontinuerliga värden för att på det sättet skapa kategoriska variabler som har en grad av korrelation mellan varandra.

Sedan har utfallsvariabeln genererats baserat på en logistisk regression av de kategoriska variablerna. De kategoriska variablerna har då utgjorts av tre dummyvariabler (för kategori B, C och D) per variabel där första kategorin, 𝐴, är en referenskategori och inbakad i interceptet 𝛽0. Här har koefficienterna för datagenereringen definierats enligt nedan, vilket gör att vi har de sanna koefficienterna som metoderna utvärderas på hur de kan estimera. Y är utfallsvariabeln och X är dummyvariabler för de fyra kategoriska förklaringsvariablerna.

𝑃(𝑌 = 1) = 𝑒

(22)

22

𝑇 = 𝛽0+ 𝛽1𝐵𝑋1𝐵+ 𝛽1𝐶𝑋1𝐶 + 𝛽1𝐷𝑋1𝐷+ 𝛽2𝐵𝑋2𝐵+ 𝛽2𝐶𝑋2𝐶+ 𝛽2𝐷𝑋2𝐷+ 𝛽3𝐵𝑋3𝐵+ 𝛽3𝐶𝑋3𝐶 + 𝛽3𝐷𝑋3𝐷+ 𝛽4𝐵𝑋4𝐵+ 𝛽4𝐶𝑋4𝐶 + 𝛽4𝐷𝑋4𝐷

Där koefficienterna som använts är följande:

𝛽0 = 0.612, 𝛽1𝐵 = −0.171, 𝛽1𝐶 = −0.295, 𝛽1𝐷= −0.719 𝛽2𝐵 = −0.228, 𝛽2𝐶 = 0.417, 𝛽2𝐷 = 0.644 𝛽3𝐵 = 0.110, 𝛽3𝐶 = −0.155, 𝛽3𝐷 = 0.140 𝛽4𝐵 = −0.120, 𝛽4𝐶 = −0.353, 𝛽4𝐷 = −0.810

3.3 Generering av bortfall

Det andra steget är själva genereringen av bortfall och baseras på de två olika bortfallsmekanismerna och tre bortfallstorlekar. I denna undersökning kommer ett bortfall skapas på två kategoriska variabler. Andelen bortfall på de två variablerna varierar så att 𝑋4 har mer bortfall än 𝑋3.

Eftersom metoderna främst fungerar under förutsättning att bortfallet är MCAR eller MAR så är det intressant att jämföra hur de fungerar under de bortfallsmekanismerna. Antaganden om MCAR och MAR är starka att göra och eftersom det kan påverka statistiska analyser betydande om så inte är fallet, blir det extra intressant att se hur metoderna hanterar när bortfallsmekanismen varierar. Därför kommer två olika bortfallsmekanismer användas. Ett fall där bortfallet är MCAR och ett med MAR.

Att variera bortfallets storlek är intressant eftersom det synliggör hur metoderna hanterar en större andel bortfall. Därför undersöks tre bortfallsandelar. Dessa är att 15 %, 30 % och 50 % av objekten har bortfall på någon variabel, antingen 𝑋3, 𝑋4 eller både 𝑋3 och 𝑋4. Andelen bortfall regleras även så att av de objekt som har bortfall så har 50 % bortfall på 𝑋4, 30 % på 𝑋3 och 20 % på både 𝑋3 och 𝑋4. Eftersom stickprovet i denna studie är ganska stor, 1500 objekt, så borde det inte leda till att LWD gör statistisk analys omöjligt även vid de högre andelarna bortfall.

(23)

23

variabler. För att likna bortfall på riktiga data använder den här studier istället en multivariat bortfallsgenerering (Schouten, Lugtig & Vink 2018, s.2913).

3.4 Metodernas bortfallshantering

Vid det tredje steget genomför de olika bortfallsmetoderna sin hantering av bortfallet.

För de metoder som använder multipel imputering så kommer fem stycken multipla imputeringar att göras, 𝑚 = 5, och sedan kombineras för att beräkna estimatet av koefficienten. Ofta behövs det inte jättemånga imputeringar utan det räcker med ett lågt antal vilket vanligtvis är 5 (van Buuren 2018, s. 122). Att använda 5 imputeringar är det som är default i de flesta paket. För att metoderna ska jämföras så lika som möjligt så har 5 använts för alla tre multipla imputeringsmetoder. Simuleringsstudien och jämförelsen av metoderna är genomförd i R. De paket i R som har används för bortfallshanteringen är ”Amelia II”, ”mice” och ”Hot.deck” framtagen för de multipla imputeringarna För den simpla Hot Deck imputeringen användas paketet ”VIM”. Referenser för dessa listas under kapitel 6.

3.5 Jämför statistisk inferens

Avslutningsvis så jämförs metoderna genom att statistisk inferens av det kompletta stickprovet och de data där bortfallsmetoderna använts jämförs. På det sättet kan bortfallsmetoderna utvärderas på hur de ger koefficientestimat vid logistisk regressionsanalys.

Vilka utvärderingskriterier som används vid bortfallshantering beror på parametern som estimerats med hjälp av imputeringarna och vad datan ska användas till. Eftersom syftet med denna studie är att datan ska kunna användas för att estimera koefficienter i logistisk regressionsanalys från inkomplett data och därmed mäta om dessa estimat är väntevärdesriktiga och har korrekta medelfel så kommer studien titta på följande mått av statistisk giltighet, där det första visar på om estimaten är väntevärdesriktiga och de två senare om medelfelen är korrekta (van Buuren 2018, 42 - 48):

1. Bias. Bias av estimatet är skillnaden mellan förväntade värdet av estmatet (𝑏̅) och det sanna värdet av parametern som estimeras (𝛽): 𝐵𝑖𝑎𝑠 = 𝐸(𝑏̅) − 𝛽. Om bias är nära noll är estimatorn väntevärdesriktig.

(24)

24

hög täckningsgrad kan indikera att konfidensintervallet är för brett så att metoden är ineffektiv och leder till inferens som är för konservativ.

3. Medelbredd. Medelbredden av konfidensintervall är en indikator på statistisk effektivitet. Längden borde vara så smal som möjligt men inte så smal att täckningsgraden är under nominal nivå. Eftersom bredden på konfidensintervallen är beroende av medelfelet kan detta ses på den genomsnittliga storleken av medelfelet.

(25)

25

4. Resultat

4.1 Bortfallssimulering

För att se så att simuleringen av bortfallet har fungerar har en kort undersökning av hur bortfallet ser ut för simuleringarna gjorts.

Enligt figur 4.1 – 4.3 synliggörs att bortfallet har genererats på 𝑋3 och 𝑋4 enligt önskemål med en större andel bortfall på 𝑋4 än på 𝑋3. Det går även att se i figur 4.4 att bortfallet har genererats på ett sådant sätt att värden saknas på 𝑋3 och 𝑋4 både enskilt och samtidigt.

Figur 4.1: Uppdelning bortfall vid 50% Figur 4.2: Uppdelning bortfall vid 30% Figur 4.3: Uppdelning bortfall vid 15%

Figur 4.4: Mönster av bortfall

(26)

26

4.2 Koefficienterna efter metoderna

Först så studeras de estimerade koefficenterna och deras bias för att avgöra om metoderna ger väntevärdesriktiga estimat. Studien har analyserat estimat för alla tre koefficienterna 𝑋4𝐵, 𝑋4𝐶 och 𝑋4𝐷 men eftersom de gav liknande resultat redovisas hädanefter enbart resultaten för 𝑋4𝐶 i själva uppsatsen för att spara utrymme och förenkla för läsaren. I tabell 4.1 och 4.2 redovisas de genomsnittliga koefficienterna och deras bias efter de olika metoderna.

Den översta raden är det kompletta stickprovet. Man kan se att det kompletta stickprovet i något av fallen har en grad av bias. Det beror på att stickprov ju bara är en estimering av de sanna parametrarna och i detta fall hade det antagligen krävts fler simuleringar eller större stickprov för att få ner bias i det kompletta stickprovet till noll.

För att se hur väl metoderna fungerar jämförs dem med hur hög bias de har och hur hög bias de har jämfört med det kompletta stickprovet. I tabell 4.1 och 4.2 synliggörs den genomsnittliga estimerade koefficienterna för 𝑋4𝐶 och hur stor bias de har jämfört med den sanna parametern. I tabell 4.1 är koefficienterna vid MCAR bortfall och i tabell 4.2 koefficienterna vid MAR bortfall. Under MCAR förhållandet verkar LWD fungerar väldigt bra och är den bästa metoden. Vid MAR förhållande fungerar LWD däremot något sämre och avståndet både till den sanna parametern och det kompletta stickprovsestimatet verkar öka när andelen bortfall ökar.

Anledningen till att LWD fungerar sämre vid MAR är antagligen för att bortfallet då delvis beror på Y. Som nämns under teoridelen så har LWD visat sig fungera bra vid regressionsanalys så länge som bortfallet inte beror på den beroende variabeln vilket bortfallet delvis gör under MAR i denna studie.

Jämförs de tre multipla imputeringsmetoderna blir det tydligt att Amelia II är den metod som ger högst bias. Jämförs den med det kompletta stickprovet så presterar Amelia något bättre under MAR än under MCAR men är fortfarande sämre än de andra metoderna. Det finns en trend i att högre bortfallsandel ger högre bias.

(27)

27

Simpel imputering med hot deck ger även låga bias och eftersom både SI och MHDI verkar ge väntevärdesriktiga estimat så indikerar det att hot deck modellen fungerar bra i detta fall, både vid bortfall som är MCAR och MAR.

MCAR

𝜷̂𝟒𝑪 15% 30% 50%

(-0.353) Est. Bias Est. Bias Est. Bias

Komp -0.353 0.000 -0.360 0.007 -0.353 0.000 LWD -0.353 0.000 -0.362 0.009 -0.354 0.001 SI -0.353 0.000 -0.355 0.002 -0.345 0.008 Amelia II -0.316 0.037 -0.292 0.061 -0.249 0.104 MICE -0.353 0.000 -0.363 0.010 -0.356 0.003 MHDI -0.349 0.004 -0.358 0.005 -0.346 0.007

Tabell 4.1: Koefficientestimat och bias av estimat vid MCAR för 𝛽̂4𝐶.

MAR

𝜷̂𝟒𝑪 15% 30% 50%

(-0.353) Est. Bias Est. Bias Est. Bias

Komp -0.352 0.001 -0.353 0.000 -0.361 0.008 LWD -0.355 0.002 -0.357 0.004 -0.371 0.018 SI -0.350 0.003 -0.354 0.001 -0.357 0.004 Amelia II -0.320 0.033 -0.290 0.063 -0.265 0.088 MICE -0.354 0.001 -0.354 0.001 -0.365 0.012 MHDI -0.352 0.001 -0.353 0.000 -0.357 0.004

Tabell 4.2: Koefficientestimat och bias av estimat MAR för 𝛽̂4𝐶.

4.3 Medelfel av de olika metoderna

Medelfelet fångar hur stor osäkerhet som estimaten har. De genomsnittliga medelfelen redovisas i tabell 4.3 för bortfall som är MCAR och i tabell 4.4 för bortfall som är MAR.

(28)

28

upp i teoridelen om att medelfelen för simpel imputering blir underestimerade eftersom osäkerheten av att imputeringarna är estimerade och inte observerade inte fångas när medelfelet beräknas.

Medelfelen för alla som använt en multipel imputering är ganska likt. De är högre än för det kompletta stickprovet vilket de borde vara eftersom de innehåller imputerade värden och inte bara observerade värden. Jämförs medelfelen för dessa metoder med det som blir när LWD används syns att prediktionerna med de multipla imputeringsmetoderna ger ett mer exakt resultat eftersom de har ett lägre medelfel.

Något som syns för estimaten med alla metoderna är att medelfelet, alltså osäkerheten med estimatet, ökar när andelen bortfall ökar.

MCAR 15 % 30 % 50 % Komp 0.165 0.165 0.165 LWD 0.179 0.198 0.235 SI 0.164 0.164 0.164 Amelia II 0.175 0.184 0.196 MICE 0.175 0.183 0.195 MHDI 0.175 0.184 0.195

Tabell 4.3: Genomsnittligt medelfel för estimat av 𝛽4𝐶 vid MCAR

MAR 15 % 30 % 50 % Komp 0.165 0.165 0.165 LWD 0.178 0.199 0.248 SI 0.164 0.165 0.165 Amelia II 0.173 0.181 0.195 MICE 0.172 0.181 0.190 MHDI 0.173 0.181 0.191

Tabell 4.4: Genomsnittligt medelfel för estimat av 𝛽4𝐶 vid MAR

4.4 Täckningsgrad av konfidensintervall

Utifrån estimaten och medelfelen konstrueras konfidensintervall med konfidensgrad på 95 %. Genom att se hur många av de 3000 estimeringarna som är inom estimatens konfidensintervall syns om medelfelet är korrekt.

(29)

29

lite lågt vid MAR bortfall. Det tyder på att metoden ger ett något optimistiskt estimat vid MAR bortfall men är mer träffsäker vid bortfall som är MCAR.

För simpel imputering är täckningsgraden ganska låg och ligger flera gånger under 90 %, vilket stärker slutsatsen om att medelfelet är underskattat då simpel imputering används. Jämförs medelfelen för simpel imputering och MHDI där båda använder sig av Hot Deck syns tydligt effekten av att multipel imputering leder till mer korrekta medelfel.

För de tre multipla imputeringsmetoderna varierar täckningsgraden och ligger generellt lite lågt. Det innebär att medelfelet antagligen är något underskattad och inte har fångat all osäkerhet med multipla imputeringar samt att estimaten är något optimistiska.

MCAR 15 % 30 % 50 % Komp 0.950 0.950 0.953 LWD 0.950 0.954 0.957 SI 0.916 0.892 0.818 Amelia II 0.956 0.955 0.941 MICE 0.939 0.921 0.902 MHDI 0.949 0.942 0.925

Tabell 4.5: Täckningsgrad av konfidensintervall för estimat av 𝛽4𝐶 vid MCAR

MAR 15 % 30 % 50 % Komp 0.950 0.949 0.948 LWD 0.945 0.949 0.943 SI 0.926 0.894 0.872 Amelia II 0.941 0.922 0.900 MICE 0.933 0.920 0.910 MHDI 0.944 0.946 0.924

(30)

30

5. Slutsatser och diskussion

5.1 Slutsatser

Denna studie visar att mellan de tre multipla imputeringsmetoderna Amelia II, MICE och MHDI kan MICE och MHDI ge väntevärdesriktiga estimat i en logistisk regressionsanalys vid bortfall på kategoriska förklaringsvariabler. Amelia II ger i samma situation estimat som har en högre grad av bias. Alla tre multipla imputeringsmetoder ger medelfel som är något för låga och därmed inte fångar all osäkerhet med metoderna men som samtidigt är någorlunda korrekta.

Studien styrker även tidigare forskning som visar på att simpel imputering ger för låga medelfel och inte skapar estimat som är lika precisa som multipla imputeringsmetoder. Att LWD är en stabil metod för att hantera bortfall vid bortfall på förklaringsvariabler och att metoden fungerar något sämre vid högre andel bortfall när bortfallet är beroende av Y understryks även av studien. Det går även se en generell trend för metoderna i att högre andel bortfall ger mer bias i koefficientestimaten och att även om medelfelet för estimaten blir större vid högra andel bortfall så sjunker täckningsgraden. Detta tyder på att osäkerheten vid den högre andelen bortfall inte fångas i medelfelet då den inte ökat tillräckligt mycket.

Slutligen går det att se att för bortfall på kategoriska förklaringsvariabler ger både MICE och MHDI estimat i en logistisk regressionsanalys som är likartade med LWD, förutom vid bortfall som är MAR där dessa två metoder fungerar något bättre än LWD.

5.2 Diskussion

Det är intressant att se att både MICE och MHDI fungerar så bra för kategoriska variabler i den här undersökningen.

Frågan om vilken av MICE och MHDI eller LWD som ska användas är dock mer komplex än enbart om de är väntevärdesriktiga och har korrekta medelfel. En av fördelarna med LWD är att den är väldigt enkel att använda då den inte kräver några beräkningar eller tar längre tid. Dock har den andra negativa aspekter såsom förlust av information och styrka, och särskilt när stickprovet är litet eller andelen bortfall väldigt högt.

(31)

31

För MHDI finns det även en stor nackdel i att den metoden kräver ett relativt stort stickprov med inte alltför många variabler för att hitta bra donatorer vid bortfall. Den metoden är även främst anpassad för att de andra variablerna i datan är kategoriska med relativt få kategorier så att det går att hitta liknande objekt som kan donera värden. Ifall där det finns för få potentiella donatorer kommer metoden mer likna simpel imputering då samma värde behöver användas i de multipla imputeringarna och att medelfelet därmed blir mindre korrekt, alternativt att donatorer som har lägre likhet får användas.

Dock går det inte att dra slutsatser kring om LWD alltid är bättre än MI utifrån denna studie då förhållandena i denna studie på flera sätt gynnar LWD. Det är exempelvis ett stort stickprov så även om bortfallet är högt så finns det många kompletta objekt kvar.

Att Amelia II inte verkar fungera så bra är antagligen eftersom den är baserad på en multivariat normalfördelning och utvecklad för kontinuerliga variabler, dock så visar andra studier att metoder som är baserade på en multivariat fördelning kan fungera ganska bra även för kategoriska variabler så det är intressant att så inte är fallet i denna studie. Skulle vara bra att jämföra mer under vilka förutsättningar som metoder baserade på en multivariat fördelning fungerar på kategoriska variabler och om olika algoritmer vid metoder baserade på en multivariat fördelning ger olika resultat.

Denna studie är byggd på en simuleringsstudie med genererade data. Det hade varit intressant att även undersöka frågeställningen på ett verkligt data där bortfall hade kunnat genereras för att mäta samma sak men under andra förutsättningar. Det vore även intressant att testa metoderna i situationer som är mer krävande, exempelvis med bortfall på fler variabler varav utfallsvariabeln. Den här studien bygger på data där kategorierna för variablerna innehåller ungefär lika många observationer och det hade varit intressant att se om det hade gjort stor skillnad för hur metoderna fungerade om kategorierna varierade mer i storlek. MHDI hade antagligen påverkats starkt av detta i hur den hittar potentiella donatorer.

(32)

32

6. Referenser

6.1 Böcker

Allison, Paul D. 2001. Missing Data. Iowa: Sage Publications.

Little, Roderick & Donald Rubin. 2019. Statistical analysis with missing data, 3rd Edition. Wiley. Van Buuren, Stef. 2018. Flexible Imputation of Missing Data. 2nd Edition. CRC/Chapman & Hall, FL: Boca Raton.

6.2 Artiklar

Cranmer, Skyler & Jeff Gill. 2013. We have to Be Discrete About This: A Non-Parametric Imputation Technique for Missing Categorical Data. British Journal of Political Science, Vol. 43, No. 2, pp. 425-449.

Honaker, James, Gary King & Matthew Blackwell. 2011. Amelia II: A Program for Missing Data. Journal of Statistical Software, vol. 45, no. 7.

Honaker, James, Gary King & Matthew Blackwell. 2017. A Unified Approach to Measurement Error and Missing Data: Overview and Applications. Sociological Methods & Research, Vol. 46, no. 3, s.303-341.

Honaker, James, Jonathan N. Katz & Gary King. 2002. A Fast, Easy, and Efficient Estimator for Multiparty Electoral Data. Political Analysis, vol. 10, no. 1, s. 84-100.

Honaker, James & Gary King. 2010. What to Do about Missing Values in Time-Series Cross-Section Data. American Journal of Political Science, vol. 54, no. 2: s. 561-581.

Karangwa, Innocent, Danelle Kotze & Renette Blignaut. 2016. Multiple imputation of unordered categorical missing data: A comparison of the multivariate normal imputation and multiple imputation by chained equations. Brazilian Journal of Probability and Statistics, vol. 30, no. 4, s. 521-539.

King, Gary, James Honaker, Anne Joseph and Kenneth Scheve. 2001. Analyzing Incomplete Political Science Data: An Alternative Algorithm for Multiple Imputation. The American Political Science Review, vol. 95, no. 1: s. 49-69.

Rubin, Donald. 1976. Inference and missing data. Biometrika, vol. 63, no. 3: s. 581–592. Schafer, Joseph & John Graham. 2002. Missing Data: Our view of the state of the art. Psychological Methods, vol. 7, no. 2, s. 147-177.

Schouten, Rianne Margaretha, Peter Lugtig & Gerko Vink. 2018. Generating

(33)

33

Van Buuren, Stef & Karin Groothuis-Oudshoorn. 2011. MICE: Multivariate Imputation by Chained Equations in R. Journal of Statistical Software, vol. 45, no. 3.

Van der Palm, Daniël W., L. Andries van der Ark & Jeroen K. Vermunt. 2016. A comparison of incomplete-data methods for categorical data. Statistical Methods in Medical Research, vol. 25, no. 2, s. 754-774.

6.3 Paket i R som har använts för imputering

James Honaker, Gary King, Matthew Blackwell (2011). Amelia II: A Program for Missing Data. J ournal of Statistical Software, vol. 45, no. 7: 1-47.

Stef van Buuren, Karin Groothuis-Oudshoorn (2011). mice: Multivariate Imputation by Chained Equations in R. Journal of Statistical Software, vol 4, no. 3: 1-67.

Skyler Cranmer, Jeff Gill, Natalie Jackson, Andreas Murr and Dave Armstrong (2016). hot.deck: Multiple Hot-Deck Imputation. R package version 1.1.

References

Related documents

Härutöver ser vi att andelen med stort förtroende stiger med såväl utbildning, som kön (från kvinna till man) och mellanmänsklig tillit. Det tycks således finnas goda skäl att

Det är således angeläget att undersöka vilket stöd personalen är i behov av, och på vilket sätt stöd, till personal med fokus på palliativ vård till äldre personer vid vård-

In those with com- plete anthropometric data (n = 78), there was no significant effect of serum ferritin concentrations in relation to longitudinal growth, but there was a

In The Law of Peoples (1999), which is a treaty on international relations and justice, John Rawls took much efforts in developing a theory characterized by non-parochialism, meaning

För att undersöka skillnaden i utvecklad brusspänning när två in-signaler med olika amplitud skall förstärkas till samma spänningsnivå på en förstärkarutgång började jag

Det man kan lära av dessa värden är att, på grund utav att konceptfordonet är i ungefär samma mått som en dessa fordon, om värden för markfrigång, frontarean och lutningen

As previously discussed in section 4.2 meeting structures other than change request meetings (risk assessment and pro- ject management meetings), pre-project (pre-studies),

DNSG har alltså bestämt andelen kolhy- drat, det ämne som en typ-2-diabetiker inte tål, utifrån en preliminär review av 16 studi- er på knappt överviktiga icke-diabetiker