Skattning av modellerna - Analys av materialet

4. Analys av materialet

4.2 Skattning av modellerna

Innan tolkningen av resultaten börjar kan det vara värt att återigen notera att antalet observationer mellan de båda modellerna skiljer sig åt (se avsnitt 3.3), och att korrelationsanalysen visade på hög korrelation mellan vissa variabler, exempelvis skatteunderlag och tätortsgrad. Dessa iakttagelser ställer till problem främst för den långsiktiga modellen då denna bygger på mycket färre observationer än den tid- och kommunspecifika modellen. Ju färre observationer som finns desto instabilare blir resultaten från regressionsanalysen. Hög parvis korrelation mellan de förklarande

variablerna och ett högt R2_{-värde tillsammans med få signifikanta värden för de enskilda}

variablerna brukar vara indikatorer på linjärt beroende (Gujarati 1995). I Tabell 3 ser vi att i

relation till den tid- och kommunspecifika modellen så har den långsiktiga ett högt R2-värde

(0,43 mot 0,11) och endast fem variabler, exklusive konstanten, är signifikanta på en 10-

procentsnivå37, faktum som alltså väcker misstanke om linjärt beroende. Det bör dock

poängteras att ett R2-värde på 0,43 inte är särskilt högt det heller, utan borde ha legat runt

0,80 för att få klassas som högt. Dessa låga R2-värden till trots så är båda modellerna som

helhet statistiskt signifikanta.38 Ett av de enklaste sätten att korrigera för linjärt beroende är

att helt enkelt utesluta en av de två variabler som visat på stark korrelation, vilket borde leda till starkare statistiska samband hos den variabel som får vara kvar. De alternativa modeller som skattades visade dock inga sådana tecken, utan i vissa fall förvärrades till och

med resultaten.39 Den tid- och kommunspecifika modellen reducerar möjligheterna till

linjärt beroende som en följd av dess uppbyggnad, samtidigt har den fler observationer

vilket gör den mer pålitlig statistiskt sett.40

37_{Skulle signifikansnivån sträckas till 15 procent så skulle vi kunna inkludera ytterligare två variabler.} 38_{Hypotesen att den skattade funktionen som helhet skulle vara noll, kan förkastas i nära 100 procent av}

fallen. Se avsnitt 3.1 och stycket om p-värde och F-test.

39_{Jag har valt att inte redovisa dessa resultat, men de alternativa modellerna uteslöt växelvis variabler som}

visade på hög korrelation med varandra i korrelationsanalysen: Undervisningskostnader. Lärartäthet. Skatteunderlag.

40_{Faktum är att varianter av paneldatametoder kan användas just för att korrigera för linjärt beroende}

Tabell 3: Erhållna värden från de skattade modellerna Modell: Långsiktig Tid- och Kommunspecifik R2-värde: 0,4254 0,1078 Antal observationer: 287 1670 Beroende variabel: Meritvärde Koefficienten p- värde Koefficienten p- värde Andel pojkar -41,8326 0,1180 -20,5238 0,0000 Född utomlands 6,9201 0,6690 -22,4541 0,0080 Född i Sverige 5,3490 0,7130 -19,9666 0,0820 Föräldrarnas utbildningsnivå 42,4184 0,0000 33,3511 0,0000 Lokalkostnader -0,0003 0,0740 0,0001 0,4750 Elevvårdskostnader 0,0004 0,6610 0,0002 0,6020 Läromedelskostnader 0,0010 0,1280 -0,0005 0,1220 Skolmåltidskostnader -0,0008 0,2570 0,0001 0,8540 Undervisningskostnader 0,0003 0,1640 -0,0001 0,2190 Kvadratmeteryta per elev 0,1065 0,4910 -0,0512 0,6540

Lärartäthet -0,6349 0,5410 0,1455 0,7600

Pedagogisk utbildning 0,1963 0,0180 -0,1203 0,0160 Andel friskoleelever -0,1291 0,3730 0,2407 0,0210

Tidig skolstart -0,0029 0,9560 -0,0158 0,5580 Elever per skola -0,0045 0,6320 -0,0087 0,3820

Skatteunderlag 0,0133 0,0090 -0,0006 0,8490

Tätortsgrad -0,1849 0,0000 .. ..

Konstanten 117,9188 0,0000 161,3848 0,0000

Anmärkning: Bearbetning av data från Skolverkets databas för jämförelsetal och SALSA, se avsnitt 3.3 för genomgång av dessa. Variabelnamnen har förkortats i tabellen av utrymmes- skäl och kan i viss mån skilja sig ifrån de namn som ges i texten, se Bilaga A för fullständiga definitioner. Av skäl som nämns i texten bör även försiktighet iakttas när det gäller tolkningar av koefficienternas värde. Analysen av tabellen bör istället koncentreras till teckenstudie och statistisk signifikans.

Det finns som sagt skäl till att iaktta viss försiktighet vid analysen, speciellt när det gäller effekten av de enskilda variablerna på det genomsnittliga meritvärdet. Vid multipel regressionsanalys ska koefficienten framför en förklarande variabeln tolkas som den genomsnittliga förändringen av den beroende variabeln givet en enhets förändring av den oberoende variabeln, allt annat lika. En lång mening som kanske blir enklare att förstå med ett exempel från Tabell 3: Andelen pojkar bland avgångseleverna visar statistisk signifikans

i de båda modellerna41_{och har koefficientvärdet -41,8 respektive -20,5. I de båda} modellerna skulle detta betyda att om andelen pojkar ökar med en procentenhet, från exempelvis 51 till 52 procent, så skulle det genomsnittliga meritvärdet i kommunen sjunka med 41,8 respektive 20,5 poäng, förutsatt att ingen ändring sker i de andra variablerna. Dylika tolkningar bör man som läsare dock vara mycket försiktig med, då en jämförelse mellan de båda modellerna visar på att variablerna inte alltid är robusta, vare sig när det gäller koefficientens värde eller statistisk signifikans. På grund av detta kommer analysen av resultaten att koncentreras till en jämförelse av tecken (+ eller -) och endast i viss mån styrkan i bidraget från den enskilda variabeln. Med detta menar jag att en förklarande variabels betydelse för det genomsnittliga meritvärdet får en starkare position om den visar på statistisk signifikans och bibehåller sitt tecken i de båda skattningarna, som exempelvis andelen pojkar bland avgångseleverna.

Ett annat skäl till att inte tolka in för mycket i koefficienternas värde är att det ibland kan vara svårt att avgöra vad en förändring med en enhet egentligen innebär. Det här gäller främst föräldrarnas utbildningsnivå, som är ett medelvärde av den gemensamma utbildningsnivån hos föräldrarna. Problemet är att det bara finns tre kategorier av utbildningsnivåer, där den första avser genomgången folkskola eller grundskola, den andra gymnasieutbildning i högst tre år och den tredje fyra år på teknisk linje eller minst 20 poäng på universitet eller högskola. Det krävs alltså inte speciellt mycket för att nå den högsta utbildningskategorin och på så sätt skiljer sig inte en outbildad förälder så mycket från en utbildad. Fler kategorier vore att önska, så att exempelvis de med akademisk examen kunde urskiljas. Vidare bygger undersökningen av föräldrarnas utbildningsnivå alltså på en kategorisk variabel, som sedan gjorts om till en kontinuerlig variabel. Från början tillhörde föräldern kategori 1, 2 eller 3, men i slutändan exempelvis 2,5. Frågan är då hur man ska avgöra vad förändring med en enhet innebär. Modellen tolkar data som om det finns en

fortsättning efter 3 och tror att det går att öka en enhet från 2,5 till 3,5, men det går inte.42

Bortsett från problemen med tolkningen av koefficientvärdet för de två ovan genomgångna

41_{p-värdet är 0,1180 i den långsiktiga modellen, vilket inte skulle vara signifikant exempelvis på en 10}

procentsnivå men jag gör bedömningen att det ligger så pass nära att det är värt att ta risken. Speciellt då den visar sig mycket signifikant i den tid- och kommunspecifika modellen.

variablerna är dessa de enda som är statistiskt signifikanta i båda modellerna och som bibehåller sitt tecken, med andra ord de enda som är robusta för modellförändringen.

Till gruppen variabler som är statistiskt signifikanta i båda modellerna hör även

läromedelskostnader43 och andelen lärare med pedagogisk utbildning. Det som fördunklar

resultatet är att koefficienten byter tecken från positivt till negativt i båda fallen. Anledningen till detta är svår att analysera, men det kan vara något som döljer sig i att tätortsgraden har försvunnit ur den tid- och kommunspecifika modellen och att den faktor som ska kontrollera för kommunspecifika aspekter inte gör det på samma sätt. Vad än anledningen är så kan det konstateras att koefficienternas värde är lågt i båda modellerna. Näst intill noll vad gäller läromedelskostnader, något som skulle kunna tolkas som att skillnaden mellan ett positiv och ett negativt bidrag inte är så stort.

I Tabell 3 ser vi även variabler som är signifikanta i den ena modellen men inte i den andra samt att de byter tecken. Lokalkostnader och skatteunderlag är signifikanta i den långsiktiga modellen, medan båda variablerna som indikerar utländsk bakgrund och andelen friskoleelever är signifikanta i den tid- och kommunspecifika modellen. Märkvärdigt är hur spektakulärt signifikansnivån sjunker för alla dessa variabler. Från att med god marginal ha varit signifikanta på 10-procentsnivån, variablerna skatteunderlag och född utomlands till och med på 1-procentsnivån, i den ena modellen, för att sedan i den andra sjunka till långt under 50-procentsnivå i de flesta fallen. En möjlig tolkning är liksom ovan att det förmodligen är något i den kommunspecifika faktorn i den tid- och kommunspecifika modellen som försvagar skatteunderlagets signifikans. Försvagningen i skatteunderlaget kan också förklara skillnaderna mellan de båda modellerna när det gäller variablerna för utländsk bakgrund. Det skulle kunna vara så att denna variabel kontrollerar för den ekonomiska delen i socioekonomisk bakgrund i den långsiktiga modellen, och på så sätt omintetgör effekten från utländsk bakgrund, vilket är förenligt med tidigare studier (Skolverket 2006a). När effekten från skatteunderlaget uteblir i den tid- och kommunspecifika modellen så blir effekten starkare och med ”rätt” tecken hos

43_{Signifikant på 13-procentsnivå Om man är ännu mer riskbenägen skulle undervisningskostnader kunna}

indikatorerna för utländsk bakgrund. Det tvetydiga resultatet när det gäller utländsk bakgrund är jämförbara med de skattningar som gjorts inom ramen för Skolverkets årliga SALSA-studie. Resultaten skiftar från år till år, både vad gäller signifikans och koefficientvärde. I SALSA-studien påverkar dock andelen utlandsfödda meritvärdet negativt då den är signifikant medan att vara född i Sverige med utländska föräldrar bidrar

positivt.44

Den sista gruppen variabler är de som inte är signifikanta i någon av de båda modellerna och här återfinns de flesta av de från början förväntat svaga skolmiljövariablerna, nämligen kostnader för elevvård och skolmåltider, kvadratmeteryta per elev samt antalet elever per skola. Men även indikatorer som undervisningskostnader och lärartäthet visade sig extremt svaga statistiskt sett. När det gäller lärartäthet var det något mer väntat, eftersom resultat från Anderssons och Häkkinens (2005) utredning visade på samma sak. En svårighet med denna variabel är att, i likhet med föräldrarnas utbildning, definiera var gränsen går mellan vad som är stort och vad som är litet. Intuitivt är det lätt att tänka sig en skillnad i att undervisa en klass på 35 elever och en på 20. Men hur stor är skillnaden egentligen mellan en klass på 22 och en på 18 elever? Lärartätheten ökar också som en följd av att vissa elever behöver specialundervisning, elever som kanske inte höjer sitt meritvärde bara för att de får en extra resurs. Ett annat problem är misstanken om linjärt beroende med undervisningskostnader, som nämndes tidigare. Men att växelvis utesluta dem ledde som redan konstaterats inte till några förbättringar i de statistiska värdena. Teoretiskt bör båda också vara kvar för att även spegla erfarenhetsaspekten hos lärarkåren. Den sista variabeln i den här gruppen är den som indikerar tidig skolstart. Det kan konstateras att det negativa samband som existerar på skol- och elevnivå (Andersson och Häkkinen 2005, Fredriksson och Öckert 2006) inte återfinns på kommunnivå, och således att effekten av andelen elever som börjar skolan vid sex års ålder på kommunens totala genomsnittliga meritvärde är försumbar.

44_{Dessa resultat redovisas inte av Skolverket utan kan erhållas på begäran. De resultat som refereras till här är}

Slutligen det något förvånande resultatet från den långsiktiga modellen, nämligen att indikatorn för tätort är signifikant men med negativt tecken. En möjlig tolkning till detta är att den stjäl den effekt som förväntades av antal elever per skola då korrelationsanalysen (Tabell 1) visade på hög korrelation mellan dessa båda variabler.

Ska en modell väljas framför den andra? Egentligen inte, men om man vill så talar mer för den tid- och kommunspecifika. Detta då det sammanfattningsvis kan konstateras att den tid- och kommunspecifika modellen erhåller fler statistiskt signifikanta resultat, som också är förenliga med tidigare studier. Räknar man med alla variabler, även de som inte är signifikanta, så visar den tid- och kommunspecifika modellen på något bättre p-värden. Till detta ska läggas det som nämndes i inledningen till detta avsnitt om skillnaden i antalet observationer, vilket gör den långsiktiga modellen känsligare. En invändning skulle kunna

vara det lägre R2-värdet, men som vissa forskare hävdar så bör koncentrationen inte ligga

på att nå ett högt R2-värde som en garant för en bra modell utan stödet för modellen ska

komma från teorin (Gujarati 1995).

Genomgången ovan visar alltså på skilda resultat vilket gör de individuella bidragen svårtolkade. Skälet till detta kan vara linjärt beroende mellan variablerna, att variablerna inte mäter det dom avser mäta, men det kan också röra sig om att modellerna i sig är felaktiga. Andra variabler som inte fanns att tillgå på kommunnivå skulle ha varit med, exempelvis föräldrars engagemang i skolgången och kulturellt kapital (Skolverket 2006b), elevens tidigare resultat (ESO 2001b) och kanske variabler som mer direkt speglar psykosocial ohälsa (Svensk Facklitteratur 2002). Det kan också vara så att de variabler som ingår i modellerna gör det på fel sätt. Ett rimligt antagande är nämligen att vissa variabler bör ha en avtagande effekt, exempelvis de olika kostnadsposterna och lärartäthet. Med avtagande effekt menas att fram till en viss punkt så ökar resultaten i förhållande till hur mycket man spenderar på olika resurser. Efter den punkten spelar det ingen roll hur mycket mer pengar man lägger ner, effekten på resultatet avtar och kan till och med bli negativt. Ett sådant förhållande mellan de förklarande variablerna och den beroende variabeln kan kontrolleras för genom icke-linjära samband, ett så kallat exponentiellt samband, men det har inte gjorts i denna studie. Eventuellt så skulle de totala kostnaderna för alla år upp till

avgångsåret ingå då dessa bör ha påverkat hela skolgången och således avgångsbetygen. För dylika ändringar i modellspecifikationen har det dock inte funnits tidsutrymme för i denna uppsats.

In document Resurser och Resultat - Effekter av kommunala satsningar på elevernas betyg (Page 34-41)