MATCHNINGSFÖRFARANDE – TEORI, METOD OCH - Arbetsmarknadsutbildningens effekter för individen

Teori och metod

I föreliggande rapport har en jämförelsegrupp till den aktuella deltagargruppen valts ut genom en matchningsmetod. Matchning korrigerar endast för selektion in i program baserad på observerbar data. Metoden kräver därför ett omfattande datamaterial för att generera korrekta resultat. Matchning kräver vidare att villkoret för conditional independence assumption (CIA) är uppfyllt. Villkoret innebär att när man har kontrollerat för all observerad karaktäristika ska det inte finnas någon skillnad i det utfall som jämförelsegruppen får och det utfall som deltagargruppen skulle ha fått om de inte hade deltagit. Detta innebär att alla variabler som påverkar både deltagande och utfallet i frånvaro av deltagande ska inkluderas i matchningen, Smith (2000). Frågan är om CIA är uppfyllt i föreliggande undersökning eller om det finns problem med selektion av delta-gare med avseende på ej observerade egenskaper. Det aktuella datamaterialet från Händeldatabasen erbjuder utförlig information om individerna och förut-om traditionella variabler sförut-om anger individegenskaper använder vi oss av en mängd tidsvariabler som beskriver individernas bakgrund som arbetssökande.

Sådana variabler kan också fånga upp icke-observerbara egenskaper. Analysen tar därför sin utgångspunkt i att CIA är uppfyllt.

Ett potentiellt problem med matchningsmetoder har med dimensionalitet att göra. Man vill ju ofta ha med så mycket information om individerna som möj-ligt och eftersom personer kan vara olika med avseende på en mängd olika egenskaper får man snabbt väldigt många variabler som är önskvärda i match-ningen. Rosenbaum och Rubin (1983) har emellertid visat att man kan använda sig av en funktion av dessa variabler som kallas the propensity score i den teoretiska litteraturen och på så sätt minska dimensionen vid matchning. Pro-pensity score-matchning innebär att man matchar deltagare och icke-deltagare baserat på deras estimerade sannolikhet att delta. Skattningen av sannolikheter-na görs här med en probit-modell.

Fördelningen av propensity score för deltagarna och icke-deltagarna (jämförelsepoolen) ska överlappa varandra för att matchningen ska få bra kvalitet. Ett vanligt tillvägagångssätt är att exkludera observationer med extremvärden på propensity score som hamnar utanför den gemensamma fördelningen, vad som brukar kallas common support. I föreliggande undersök-ning finns en mycket stor pool av jämförelsepersoner i förhållande till antalet deltagare. Förutsättningarna att hitta en nära match är därför mycket god.

Vad är det då för skillnad mellan matchning och vanlig regression? Match-ning är icke-parametrisk och undviker på så sätt antagande om en funktionell

form. Att undvika ett sådant antagande kan vara viktigt för väntevärdesriktiga resultat (Dehejia och Wahba, 1998; Smith och Todd, 2000). En annan fördel är att matchning belyser problemet med common support. Om det inte finns nå-gon ”tvilling” i jämförelsepoolen så kommer deltagaren inte att få nånå-gon match.

Detta upptäcker man vanligtvis inte med vanliga regressionsmetoder (Smith, 2000).

Teorin ger ingen vägledning till vilka variabler som ska inkluderas i match-ningen. Heckman, Ichimura, Smith och Todd (1998) visar emellertid att esti-mat som produceras genom esti-matchning kan vara känsliga för vilka variabler som används för att konstruera propensity score. Samma forskare påvisar att många estimatorer fungerar ganska bra när data för arbetsmarknadshistoria inkluderas i modellerna men inte annars (Heckman, Ichimura och Todd, 1997, s 608)

Det finns också flera metoder för matchning. Alla matchningsmetoder är konsistenta med stora urval, men om urvalet är litet kan utfallet variera beroen-de på vilken matchningsmetod som väljs. Vissa metoberoen-der har egenskaper som kan göra dem till ett bättre val i speciella situationer, Smith (2000). Den valda matchningsmetoden i föreliggande studie är s.k. nearest neighbor matching.

Detta är en vanlig metod som innebär att den icke-deltagare som är närmast i fråga om propensity score väljs för varje deltagare. Matchningen har gjorts med återläggning, vilket betyder att samma jämförelseperson i vissa fall kan tas ut flera gånger. Alla standardfel som rapporteras har justerats med hänsyn till detta.

Efter matchning kan effekterna av arbetsmarknadsutbildningen beräknas genom att subtrahera andelen som är i exempelvis arbete i deltagargruppen med motsvarande andel i jämförelsegruppen. Det betyder att effekten mäts i procentenheter. Effekten av arbetsmarknadsutbildning mäter skillnaden i chansen att finna ett arbete. Notera att jämförelsegruppen har tillgång till Arbetsförmedlingens alla tjänster och att ingen restriktion har satts på att jämförelsegruppen exempelvis inte får påbörja arbetsmarknadsutbildning.

Den effekt som mäts anger därför hur det går för en person som påbörjar arbetsmarknadsutbildning vid en viss tidpunkt, jämfört med om han eller hon inte hade påbörjat utbildningen vid just denna tidpunkt. En intressant fråga är vad jämförelsegruppen gör när deltagarna går i utbildningen. Alternativen till arbetsmarknadsutbildning är andra insatser eller reguljär utbildning. En kon-troll visar att 3 procent jämförelsegruppen någon gång har varit i arbetsmark-nadsutbildning under denna period och att 25 procent har varit i andra pro-gram. Dessutom har 7 procent påbörjat reguljär utbildning.

Tillvägagångssätt vid matchningen

En arbetsmarknadsutbildning kan beviljas i maximalt 6 månader i taget. Det finns dock inget hinder att bevilja flera perioder i arbetsmarknadsutbildning i följd för en arbetssökande som har behov, vilket gör att utbildningstiden kan bli betydligt längre. Variationen av tid i utbildning för personer som avslutar ut-bildning det andra kvartalet 2003 är därför mycket stor. Genomsnittstiden för det aktuella urvalet är 164 dagar, drygt fem månader, och medianen är 152 dagar. Den kortaste tiden som någon deltagare har är en dag och den längsta tiden knappt 500 dagar.

Vi vill studera effekten av arbetsmarknadsutbildning 6 månader efter avslut.

Tiden som en deltagare har i utbildning bör dock beaktas. Om en deltagare har varit 4 månader i utbildning mäts sysselsättningen 10 månader efter starttid-punkt (4+6=10). Det som kan kallas för uppföljningstid blir då 10 månader efter start. Om deltagaren istället är 5 månader i utbildning blir uppföljningsti-den 11 månader osv. Sedan matchas varje deltagare ihop med en jämförelse-person. Matchningen görs vid det datum när deltagaren påbörjade sin utbild-ning. Uppföljningstiden för jämförelsepersonen sätts lika med uppföljningsti-den för uppföljningsti-den deltagare uppföljningsti-denne matchas mot. På detta sätt skapas en hypotetisk uppföljningstid för jämförelsepersonerna och sysselsättningsstatus mäts efter ett hypotetiskt startdatum i utbildning. (Situationen för jämförelsepersonerna ska ju motsvara vad som skulle ha hänt med deltagarna om de inte hade gått in i utbildning vid den tidpunkt de gjorde).

Att matcha på exakt datum för varje individ är dock ogörligt och därför skapas fyra tidsperioder inom vilka matchning sker separat. Tidsperioderna framgår av tidsaxeln i figur B.1.

Figur B.1: Tidschema

20020101

x x

20020701 20021101 20030201 20030701 20031201 20020401 20020901 20021215 20030415

Period 1 Period 2 Period 3 Period 4

2:a kv.2003

Inflöde AUB Utflöde AUB

Vi låter tidsaxeln börja 2002-01-01 och utesluter ett fåtal personer som skrevs in i arbetsmarknadsutbildning tidigare än så. Observera att perioden 4 inkluderar det andra kvartalet 2003 när urvalet görs, men detta är nödvändigt för att få med de sökande med mycket korta tider i utbildning som skrivs in då.

Jämförelsepoolen består av ett slumpmässigt urval på 10 procent av alla som var inskrivna i Händel i respektive period. Matchning inom varje tidsperiod sker separat med den restriktionen att de jämförelsepersoner som matchas i en tidigare period inte får vara med i jämförelsepoolen i en senare period. Detta villkor sätts för att estimaten då blir mer effektiva. Av tabell B.1 framgår datu-men för tidsperioderna, antal månader i respektive period samt antalen i delta-gargrupperna och jämförelsepoolen.

För att åskådliggöra tillvägagångssättet ges ett exempel. Antag att en ut-bildningsdeltagare gick in i utbildning någon gång under perioden 1. En pool av jämförelsepersoner som var inskrivna den 1:a april, det vill säga i mitten av perioden skapas. Detta datum kallas ”startdatum”. För dessa personer skapas ett antal tidsvariabler nämligen:

a) Sammanlagd inskrivningstid från första gången man registrerades vid förmedlingen till och med ”startdatum”.

b) Sammanhängande obalanstid (arbetslöshet + program) i samma inskriv-ningsperiod innan ”startdatum”.

c) Sammanlagd tid i öppen arbetslöshet till och med ”startdatum”.

d) Antal perioder i öppen arbetslöshet före ”startdatum”.

e) Sammanlagd tid i arbetsmarknadspolitiska program till och med

”startdatum”.

f) Antal perioder i arbetsmarknadspolitiska program före ”startdatum”.

Samtliga tidsvariabler fångar indirekt faktorer som är svåra att mäta och ti-digare forskning har visat att sådana variabler ökar förklaringsvärdet i model-lerna. Den sammanlagda inskrivningstiden mäter hur länge en person av någon

anledning varit aktuell på Arbetsförmedlingen. Variabeln är tänkt att ge en indikation på hur länge man har velat ha stöd i sin arbetsmarknadssituation.

Den sammanlagda obalanstiden i samma inskrivningsperiod ska spegla hur svårt det var för personen att hitta arbete direkt innan arbetsmarknadsutbild-ningen. Övriga tidsvariabler (c - f) mäter, förutom svårmätta egenskaper hos individerna, karaktären på arbetsmarknaden.

Dessutom skapas en variabeln sysselsättningsstatus som anger om jämförelsepersonerna är arbetslösa, i program eller i arbete vid ”startdatum” det vill säga den 1 april i exemplet ovan. För deltagarna skapas motsvarande variabler, men för tidsvariablerna mäts alla tider fram till det verkliga inträdet i utbildningen och variabeln sysselsättningsstatus anger då inskrivningsorsak strax innan arbetsmarknadsutbildningen.

Matchningen sker sedan på sysselsättningsstatus, tidsvariabler samt övrig individkaraktäristika (se bilaga 3 där alla variabler som ingår i matchningen definieras). Den person i jämförelsepoolen som är mest lik deltagaren tas ut som ”tvilling” det vill säga jämförelseperson.

Denna procedur upprepas för alla deltagare som gick in i utbildning i perio-den 1 och upprepas därefter för deltagare i period 2, 3 och 4 tills alla deltagare har fått en motsvarande jämförelseperson. Den jämförelseperson som blir mat-chad i period 1 utesluts från poolen av potentiella jämförelsepersoner vid matchningen i påföljande perioder (2,3,4). På samma sätt utesluts personer som blir matchade i period 2 från påföljande perioder (3,4) och personer som blir matchade i period 3 från period 4. Detta görs för att erhålla mer effektiva esti-mat.

Det är viktigt att poängtera att ingen begränsning sätts att jämförelseperso-nerna inte får gå in i arbetsmarknadsutbildning vid en senare tidpunkt än vid matchningstillfället. Att utesluta sådana personer skulle skapa en systematik som kan leda till missvisande resultat.

Att perioderna 1 och 4 är längre än perioderna 2 och 3 beror på att antalet deltagare som går in i utbildning dessa tidsperioder är färre. Ju längre perioder desto större är risken att det uppstår fel på grund av att arbetsmarknadsläget kan förändras eller på grund av säsongseffekter.

Bilaga 2: Indelning av utbildningar

In document Arbetsmarknadsutbildningens effekter för individen (Page 39-44)