Betygens likvärdighet En jämförelse mellan skolnivå och lärarnivå

(1)

Institutionen för pedagogik, didaktik och utbildningsstudier Examensarbete i utbildningsvetenskap inom allmänt utbildningsområde, 15 hp

Betygens likvärdighet

En jämförelse mellan skolnivå och lärarnivå

Markus Stoor

Handledare: Emil Bertilsson

Examinator: Henrik Román

Rapport nr: 2012vt00035

(2)

1

Sammanfattning

Syftet med studien är att undersöka hur mycket av problemet med bristande likvärdighet i betygsättningen som finns på lärar- respektive skolnivå. Avvikelsen mellan slutbetyg i grundskolan och kursbetyg i gymnasieskolan används som mått på bristande likvärdighet. Studien bygger på betygen från runt 1300 elever i åtta skolor under sex år i en mindre svensk kommun.

Flernivåanalys används för att ta fram inomklass-korrelationskoefficienter. Resultaten är att lärarnivån dominerar skolnivån stort i de studerade ämnena som är svenska, engelska, matematik, no-ämnen samt idrott och hälsa. Tillsammans står lärarnivån och skolnivån för runt tio procent av den totala avvikelsen. Idrott och hälsa har en har en något högre andel och pekas ut som mer problematiskt vad gäller bristande likvärdighet i betygsättningen.

Nyckelord: Betyg. Betygsättning. Likvärdighet. Flernivåanalys. Idrott och hälsa.

(3)

2

Innehållsförteckning

1. Inledning ...4

2. Bakgrund ...5

3. Tidigare forskning ...6

3.1 Betygsättning ...7

3.1.1 Betygsättning i olika grundskoleämnen...8

3.1.2 Betygsättning på gymnasiet ... 10

3.2 De nationella proven ... 11

3.3 Likvärdighet i betygsättningen ... 12

3.3.1 Kvantitativa undersökningar av likvärdig betygsättning ... 14

3.4 Lärarnivå – skolnivå ... 19

4. Teoretiska utgångspunkter ... 21

5. Syfte och frågeställningar ... 24

6. Metod ... 26

6.1 Datainsamling ... 27

6.2 Urval ... 28

6.3 Analys ... 30

6.3.1 Flernivåanalys ... 32

6.4 Etiska aspekter ... 34

6.5 Reflektioner över metoden ... 34

7. Resultat och analys... 36

7.1 Sambandet mellan nettoavvikelse i olika ämnen ... 36

7.2 Bakgrund och beskrivande statistik för huvudstudien ... 38

7.2.1 Bortfall ... 40

7.2.2 Operationalisering ... 43

7.2.3 Bakgrundsvariabler ... 44

7.3 Huvudresultat ... 47

7.4 Vad betyder huvudresultaten? ... 51

8. Diskussion... 54

(4)

3

9. Konklusion ... 58 10. Litteraturlista ... 59

(5)

4 1.

Inledning

Jag tycker att likvärdig betygsättning är viktig av två skäl. Mina elever förtjänar att inte behandlas godtyckligt i sitt gymnasieval. De förtjänar också en bra grundskoleutbildning. Dessa båda skäl kräver en likvärdig betygsättning. Att så är fallet vad gäller gymnasievalet står klart. Att en bra grundskoleutbildning hänger på likvärdig betygsättning är inte lika självklart. Att det ändå är så beror på att betygen används för att utvärdera inte bara eleverna utan också deras utbildning.

Men där gymnasieintagningen bara vinner på en ökad likvärdighet finns det en punkt där kvaliteten på grundskoleutbildningen börjar förlora på att knappa resurser läggs på att ytterligare öka likvärdigheten i betygsättningen. En punkt där ökad likvärdighet i betygsättningen slutar betala sitt pris. Så att undersöka likvärdighet i betygsättningen handlar för mig inte bara om att förstå den för att kunna öka den. Det handlar också om att förstå den för att bättre kunna avgöra när den i någon mening är lagom.

Så både för att kunna bidra till att öka likvärdigheten i betygsättningen och för att bättre förstå när det är nog och annat smakar bättre har jag valt att undersöka hur problemet fördelar sig mellan skolor och lärare.

Jag har gjort det med mycket hjälp. Tack till er som hjälpt mig.

Mitt intresse för kunskapsbedömning väcktes på allvar under det år jag hade förmånen att arbeta med Ingemar Wedman som vetenskaplig ledare. Tyvärr blev det året Ingemars sista. Det arbete jag lagt ner är tillägnat honom.

Markus Stoor

(6)

5

2. Bakgrund

Likvärdigheten i betygsättningen har varit på tapeten under det gångna årtiondet. Det syns inte minst på den stora mängd rapporter och utredningar som behandlat frågan. Ett exempel är SOU 2010:96 som behandlar elevers eventuella möjlighet att överklaga ett för lågt betyg och som något kontraintuitivt döpts till Riktiga betyg är bättre än höga betyg. Årligen levererar också Skolverket och Skolinspektionen sina båda uppföljningsrapporter.¹ Skolverket om det senaste årets utveckling vad gäller relationen mellan provresultat på de nationella proven och den senare betygsättningen.

Skolinspektionen om hur det gått med deras uppdrag att i efterhand omrätta ett urval av årets nationella prov. Landets skolor har fått en ny betygsskala och betygskriterier. Förändringen är delvis motiverad av att betygsättningen ska bli mer likvärdig. Ämnet är alltså utan tvekan aktuellt.

Att likvärdighet i betygssättningen används som motiv för att driva en förändring på systemnivå gör också att ämnet är angeläget att studera.

Sådana studier har genomförts. Den största beskrivs i en rapport från Skolverket, Provbetyg- Slutbetyg-Likvärdig bedömning? Som titeln antyder handlar den om provbetyg och slutbetyg från grundskolan. Avvikelsen mellan dessa är det centrala mått som ligger till grund för hela rapporten. Med det måttet som grund fastslås i rapporten att betygsättningen i landets grundskolor inte är likvärdig.² Numer publiceras måttet för allmänheten. Det sker årligen för varje skola i Skolverkets databas SIRIS. Det ger ett intryck av att måttet anses säga något viktigt.

Men för att måttet inte ska bli missvisande måste det vara meningsfullt att tala om betygsättning som ett skolfenomen snarare än som något som framförallt handlar om enskilda lärare. Hur det förhåller sig är en fråga som inte är helt utredd.

Samtidigt skildrar pedagogen Christian Lundahl i Bedömning för lärande den här utvecklingen som att trenden går mot allt enklare mått på skolans verksamhet och att den drivs av administrativa snarare än pedagogiska behov.³ Han uppmanar också till största tydlighet med vad den pedagogiska bedömningen syftar till.⁴ Hörsammar man den uppmaningen blir det viktigt att utreda vilken betydelse skolnivån respektive lärarnivån verkligen har för likvärdigheten i betygsättningen. Den här studien syftar till att närma sig denna fråga. Hur stor del av problemet ligger mellan skolor och hur stor del ligger mellan lärare i samma skola?

1 Exempel på sådana utgörs av Skolverket (2012b) och Skolinspektionen (2011).

2 Skolverket (2007) s. 64.

3 Lundahl (2011) s. 159 f.

4 Ibid. s. 157.

(7)

6

3. Tidigare forskning

Betygsättning är en del av ett livaktigt bredare forskningsfält om kunskapsbedömning. Jag kommer att börja med att redovisa ett par studier som sätter in betygsättningen i sitt sammanhang. Därefter kommer jag begränsa mig till att behandla ett brett men inte heltäckande urval av senare svensk forskning inom delområdet med viss tonvikt på utvärderingar av likvärdigheten i betygsättningen.

I sin avhandling beskriver Lundahl hur formaliserad kunskapsbedömning har växt fram i det svenska skolväsendet genom nedslag i tiden kring 1600-talet, på 1940-talet och under 1970–80- talen. Särskilt lyfter Lundahl relationen mellan kunskapsbedömning för skolans inre bruk och kunskapsbedömning avsedd för intressenter utanför skolan. I ett kapitel som redovisar det långa 1990-talet återkommer han till detta och beskriver hur betygen görs till skolans viktigaste resultatmått, hur betygens likvärdighet ges en central roll och hur de nationella proven åter utvecklas mot en mer normerande roll.⁵ Det här ett exempel på att svensk betygsättning idag i mycket riktar sig ut ur skolan, för extern värdering av skolan och för antagning till externa utbildningsanordnare. Den här dimensionen, intern – extern, lyfter Lundahl i en senare antologi, både i sitt avslutande kapitel och i sitt redaktörsarbete, genom att strukturera kapitlen efter den och tre andra dimensioner.⁶ En av dessa tre andra är rättvist – orättvist, de andra båda är synligt – osynligt och nationellt – internationellt. I antologins avslutningskapitel problematiserar han dagens fokus på likvärdighet i betygssättningen genom att kontrastera den mot de interna pedagogiska värden som den rättvisa externt motiverade bedömningen äventyrar.⁷ Dimensionerna extern – intern och rättvist – orättvist sitter alltså ihop. Så delas inte bara kunskapsbedömningen, utan även vetandet om kunskapsbedömningen. Hur denna uppdelning har sina rötter i den amerikanska progressivismen och två av dess förgrundsgestalter, John Dewey och Edward Lee Thorndike, beskriver Lundahl i inledningskapitlet till boken Bedömning för lärande.

Grovt sett betonar traditionen som växt från Dewey kunskapsbedömningens betydelse för fortsatt lärande internt i skolan. Traditionen från Thorndike betonar kunskapsbedömningens betydelse för externa administrativa och politiska beslut och därför med betydligt hårdare press på rättvisa i bedömningen.⁸ Då min studie placerar sig i Thorndikes tradition kommer översikten hädanefter huvudsakligen behandla verk i samma anda.

5 Lundahl (2006) ss. 379-392.

6 Lundahl (2010a) Dispositionen av verket i sin helhet och den i litteraturförteckningen angivna artikeln.

7 Ibid. s . 305f

8 Lundahl (2011) ss . 18-26.

(8)

7 3.1 Betygsättning

Under 1990-talet bytte Sverige betygsystem på grundskolan och gymnasiet. I sin avhandling undersöker Bengt Selghed betygsättande grundskollärares användning av och syn på det nya målrelaterade betygssystemet genom att intervjua 30 engelska-, svenska- och matematiklärare.

Han tolkar intervjuerna utifrån tre teman, ett fenomenografiskt, ett där han undersöker i vilka situationer betygssystemet stödjer lärarna i deras arbete och ett där han söker efter vad lärare läser in i ett betyg. Ett centralt resultat från intervjuerna är att elevens kunskaper visserligen är den viktigaste aspekten av vad lärare väger in vid betygssättning men att även andra aspekter förekommer. Det handlar både om aspekter knutna till eleven, som hur eleven agerar i skolarbetet och elevens personlighet men också administrativa aspekter, både skolinterna och externa.⁹ Alli Klapp Lekholm och Christina Cliffordson undersöker samma sak, betygens informationsinnehåll, med statistisk analys baserad på betyg, nationella provresultat och bakgrundsvariabler hos en årskull avgående grundskoleelever. I en första artikel finner de förutom en dominerande kunskapsdimension också en gemensam ämnesövergripande dimension som förklarar mellan tre och fem procent av variansen hos ämnesbetygen i svenska, engelska och matematik.¹⁰ I en senare artikel kopplar de med hjälp av enkätdata denna ämnesövergripande dimension till elevens motivation.¹¹ Deras resultat styrks av att Jörgen Tholin hittar gott om exempel på lokala betygskriterier som beskriver beteenden snarare än kunskaper.¹² I Tydliga mål och kunskapskrav i grundskolan behandlar utredaren också samma problematik, men relaterat till att kursplanerna i flera fall har vad han betecknar som värdegrundsmål som mål att uppnå inom ämnen.¹³ Selgheds administrativa aspekter kan kanske skönjas genom att Klapp Lekholm och Cliffordssons ämnesövergripande dimension har en negativ koppling till andelen högutbildade föräldrar på skolnivå. Tolkningen Klapp Lekholm och Cliffordsson gör är att det kanske finns en kompensatorisk betygssättning, i synnerhet kopplad till G-gränsen.¹⁴ Denna förklaring finns hos Selghed, där lärare av flera skäl kan tänka sig tumma på godkäntgränsen, såväl med beaktande av elevens framtidsplaner eller sin goda relation till eleven som genom externa krav eller av bekvämlighetsskäl.¹⁵Även Larissa Mickwitz finner i sin avhandling att godkäntgränsen går att rucka på för att hjälpa eleven att komma in på ett vanligt nationellt gymnasieprogram.¹⁶ I avhandlingen har hon har undersökt betygsättning ur ett nyinstitutionellt perspektiv där de officiellt styrande idéerna konkurrerar med andra inom den institutionella praktiken.

9 Selghed (2004) ss. 195-197.

10 Klapp Lekholm – Cliffordson (2008) s. 195.

11 Klapp Lekholm – Cliffordson (2009) s. 18.

12 Tholin (2006) Se exempelvis s. 166 för graverande exempel, 173 ff. för diskussion.

13 SOU 2007: 28. s. 93 f.

14 Klapp Lekholm – Cliffordson (2008) s. 195 f.

15 Selghed (2004) s. 196 f.

16 Mickwitz (2011a) s. 84.

(9)

8

Undersökningen bygger på nio lärarintervjuer. Hon beskriver en diskurs om det rätta betyget som saknar mottagare och därför möter motstånd från motparten det höga betyget som har gott om mottagare i form av elever, föräldrar och administration. Det gör att den lättare, kunskapsbedömande betygsättningen blir svår när den ska motiveras utåt.¹⁷

En annan källa till svårigheter i betygsättningen är betygsystemets utformning. Selghed finner när han undersöker i vilka situationer betygsystemet upplevs som ett stöd, att den vanligast förekommande kategorin är att stödet är otillräckligt (28 av 30 intervjuade lärare).¹⁸ Läser man Tholins avhandling om lokala betygskriterier ur perspektivet vilket stöd betygssystemet lämnar till läraren vid betygsättningen är det tydligt att det stödet brast.¹⁹ Tholins uppfattning får stöd i utredningen om skolans målsystem, Tydliga mål och kunskapskrav i grundskolan. Utredarens uppfattning är att själva målstyrningssystemet i mycket inte förstods, vilket han hänför till den höga förändringsgraden.²⁰Språket i kursplanerna med tillhörande betygskriterier anser utredaren kunde ha varit tydligare och greppet att inte ange innehåll i kursplaner och kriterier anser han vara felaktigt.²¹ Båda dessa problem relaterar han också till att inget kommentarsmaterial på ämnesnivå producerats.²² I en artikel där Mickwitz analyserar nämnda utredning tillsammans med andra policydokument hävdar hon att detta, föreställningen om betygsystemets otydlighet tillsammans med föreställningen om lärarnas oförmåga samexisterar med en tanke om ett uppnåeligt ideal där betyg är likvärdiga.²³

3.1.1 Betygsättning i olika grundskoleämnen

Olika grundskoleämnen har olika förutsättningar för betygsättning. Kunskaperna, färdigheterna och bedömningsformerna varierar. Tholin samlade in lokala betygskriterier från idrott och hälsa, engelska och kemi. Bedömningsformerna i dessa ämnen som de framträder i hans material är främst skriftliga prov inom kemi och engelska medan idrotten domineras av löpande bedömning under lektionerna. I engelskan finns också exempel på muntliga prov och på kemin nämns i några fall laborationer.²⁴ Detta ger också olika förutsättningar för jämförbarhet och likvärdighet vilket tas upp i utredningen om överprövning av betyg. I utredningen konstateras att den dokumentation av kunskaper och färdigheter som är nödvändig för att i efterhand pröva riktigheten av ett betyg är svårare att föra i vissa ämnen där kunskaper inte visas genom skriftliga

17 Mickwitz (2011a) s. 103 f.

18 Selghed (2004) s. 158.

19 Tholin (2006) s. 168 om bristfälliga instruktioner och fortbildning vid införandet. Ss 169-171 lokala betygskriterier som reaktion på centrala brister och 182 ff. om skolverkets implementering och andra myndigheters agerande.

20 SOU 2007: 28. s. 76.

21 Ibid. s. 130 f. samt s. 186.

22 Ibid. s. 163 f.

23 Mickwitz (2011b) ss. 213-215.

24 Tholin (2006) s. 171 f.

(10)

9

prov och arbeten.²⁵ Även i Tydliga mål och kunskapskrav i grundskolan behandlas området. Utredaren pekar på olikheter i målstrukturen ämnen sinsemellan som han menar kan försvåra samarbetet mellan lärare, men hävdar samtidigt att en strömlinjeformning inte får gå ut över behov som stammar ur ämnenas olika kunskapsformer.²⁶ Jan-Eric Gustavsson och Kajsa Yang-Hansen redogör för betygsutvecklingen mellan 1989 och 2007 uppdelat på olika ämnesgrupper.

Skillnaderna visar sig vara stora. Visserligen har betygsmedelvärdena har stigit i alla grundskolans ämnen men skillnaden mellan de tre ämnesgrupper de använder är avsevärd. Ämnen med nationella prov har grupperats för sig och betygen i dessa har stigit med värdet 0,09 på Cohens d (ett statistiskt mått, andel av den gemensamma standardavvikelsen). Den andra gruppen, bestående av de natur- och samhällsorienterande ämnena samt teknik har betygen stigit med 0,14 d. De fem praktisk-estetiska ämnena utgör den sista gruppen och de har en betydligt mer dramatisk betygsstegring på 0,43 d. Författarnas tolkning av detta är att de nationella proven har normerat betygen i de båda teoretiska ämnesgrupperna medan betygen i den praktisk-estetiska gruppen förmodligen i betydligt större grad höjts via inflation.²⁷ Meningsfullheten i att dela in grundskoleämnena i dessa ämnesgrupper bekräftas i stort av Staffan Stenhags klusteranalys. Detta gäller med undantag för teknikämnet som i klusteranalysen inte faller ut tillsammans med orienteringsämnena utan snarare ensamt för sig liksom vart och ett av de fem praktisk-estetiska ämnena.²⁸ Stenhag har vidare statistiskt undersökt olika ämnesbetygs förklaringsvärde för meritvärde och andra ämnesbetyg. Han finner att av engelska, svenska och matematik är det svenska och matematik som har högst förklaringsvärden. Svenskan har ett starkare samband med de samhällsorienterande ämnena medan för matematik är sambandet starkare med de naturorienterande ämnena.²⁹ Han finner också att höga matematikbetyg är bättre än höga svenskabetyg på att förutsäga höga meritvärden, liksom motsatsen om än skillnaden där är betydligt mindre. Detta kopplar han till de högre kraven (i form av lägre elevandelar med överbetyg) som finns i matematiken.³⁰ Ett möjligt skäl till att just matematiken skulle ha högre krav än andra ämnen framskymtar hos Göran Linde. Han beskriver att den kunskapssyn som kommer till uttryck i ämnets kursplaner innefattar att i bruket av matematik vara medveten om vad det i en lite mer analytisk mening är vad man gör.³¹ Det kan kontrasteras mot engelskan, där Lindes bedömning är att bruket av engelskan, själva kommunikationen, är det centrala.³² Stenhag gör dock en annan tolkning av Lindes resonemang. Han menar istället att det är den högre graden av precisering i matematikens betygskriterier som via bättre möjligheter för lärare att hålla emot

25 SOU 2010: 96. S. 121.

26 SOU 2007: 28. S. 94 f.

27 Gustafsson - Yang-Hansen (2009) s. 48 f.

28 Stenhag (2010) s. 113 f.

29 Ibid. s. 130-131.

30 Ibid s. 123.

31 Linde (2003) s.44.

32 Ibid. s. 50.

(11)

10

betygsinflation ger högre krav.³³ Vidare argumenterar han för att matematik är ett jämförelsevis lättbedömt skolämne.³⁴

Claes Annerstedt och Staffan Larsson har studerat idrottslärares uppfattningar om betygsättning. De finner att det idrottslärarna saknar vägledning om vad som ska bedömas och de är inte överens om vad som utgör viktigt kunskap inom ämnet. Vidare menar de att även kravnivån varierar starkt mellan lärare, och att den i vissa fall är så låg att närvaro räcker för godkänt betyg.³⁵ Att närvaro ingår i bedömningen i idrott på en del skolor visades också genom Tholins studie av de lokala betygskriterierna.³⁶ Annerstedt och Larsson finner dock att idrottslärare inte använder sig av vare sig lokala eller nationella betygskriterier och när de studerade idrottslärarna tillfrågas om vad de bedömer tar de upp aspekter som inte återfinns i kriterierna, såsom att göra sitt bästa och vara ambitiös.³⁷ De sammanfattar studiens resultat som att betygsättningen i idrottsämnet är godtycklig.³⁸

3.1.2 Betygsättning på gymnasiet

På gymnasieskolan är variationen mellan olika undervisningsämnen betydligt större än på grundskolan. På gymnasiet väljer också eleverna olika program, och undervisningsgrupper i de programgemensamma kärnämnena kan men måste inte delas in efter elevernas programtillhörighet. Helena Korp har undersökt hur de nationella proven används i olika gymnasiemiljöer. Hon finner att de används på olika sätt och kopplar skillnaderna till olika utbildningstraditioner och olika prestationsnivåer.³⁹ Det beskriver hon som ett problem vad gäller likvärdigheten i betygsättningen. Annika Karlsson bekräftar den bilden och kompletterar den med ett besläktat fenomen.⁴⁰ Hon finner att undervisningen anpassas efter undervisningsgruppen i sådan grad att likvärdigheten kan ifrågasättas.⁴¹ Också Skolverket beskriver i huvudrapporten om betygsättning på gymnasiet variation mellan olika program. På naturvetenskapsprogrammet är det vanligare än på andra program att eleverna får högre betyg i jämförelse med det resultat de skriver på de nationella proven. I speciellt matematik finns det dock yrkesförberedande program där många får högre kursbetyg än provbetyg. Det beror då på en mycket hög andel elever som skriver IG på det nationella provet varav ganska många sedan ändå klarar ett godkänt kursbetyg.⁴²

33 Stenhag (2010) s.111.

34 Ibid. s. 137 och s 161.

35 Annerstedt – Larsson (2010) s.108.

36 Tholin (2006), s. 154.

37 Annerstedt – Larsson (2010) s.110.

38 Ibid. (2010) s.112.

39 Korp (2006) s. 261 f.

40 Karlsson (2011) 99 f.

41 Ibid. ss. 92-94.

42 Skolverket (2009a) ss.53-57.

(12)

11 3.2 De nationella proven

I Varför nationella prov? går Lundahl igenom de externa provens historia i Sverige. Han beskriver hur de externa proven växer fram från 1920-talet till dagens situation. Bilden han tecknar av syftet med de externa proven är att de ursprungligen var tänkta som pedagogiska hjälpmedel men snart kom att kompletteras med målet att normera folkskolebetygen för att möjligöra dessas användning för urval till realskolan. Den betygsnormerande rollen tar sedan överhanden över den pedagogiskt stödjande under femtio- och sextiotal och proven ändrar också karaktär mot psykometrisk mätning med ökad fokus på reliabilitet och tidsåtgång och minskat fokus på validitet. Under sjuttiotalet tappar proven legitimitet och validiteten i bemärkelsen läroplanskoppling blir allt viktigare. Den betygsnormerande funktionen fortsätter dock att dominera. Med nittiotalets skolreformer tillkommer ytterligare ett syfte, utvärdering, samtidigt som syftet med pedagogiskt stöd ökar i betydelse. Trenden mot ökade validitetskrav fortsätter och proven utvecklas mot mer autentiska bedömningssituationer med negativa konsekvenser för bedömarreliabiliteten.⁴³ Lundahl menar vidare att användningen av provresultaten sedan nittiotalets skolreformer alltmer förskjutits mot att vara ett resultatmått för aktörer utanför själva skolan. Resultatmåttet går då mot att vara ett underlag för extern kontroll snarare än för intern utveckling. När betydelsen i resultatmått förskjuts på det här viset hävdar Lundahl att det leder till att skolan och lärarna inte bara blir ansvariga för själva resultatet utan också för kvaliteten på resultatmåttet.⁴⁴

I Skolverkets utredning Prövostenar i praktiken redogörs för hur lärare ser på om de nationella proven lyckas i sin pedagogiskt stödjande uppgift. Resultatet är generellt gott. Proven uppfattas som mångsidiga och breda. Vidare ses de som goda diagnostiska verktyg.⁴⁵ Den bedömningen delas av Riksrevisionen samma år (2004) medan myndigheten ställer sig mer skeptisk till kvaliteten som resultatmått.⁴⁶ Bedömarreliabiliteten hamnar då i fokus. Via forskning är det sedan tidigare känt att den för delar av provsystemet är låg. Detta gäller i högre årskurser och på delprov som kännetecknas av längre egen textproduktion. I en skolverksrapport återfinns interbedömarkorrelationer för grundskolans prov på mellan 0,97-0,99 för kortsvar på matematikprovets B1 del och 0,36-0,46 på svenskaprovets C-del.⁴⁷ Likaledes finner Eva Östlund-Stjärnegårdh att 36 av 60 uppsatser från prov i gymnasiet svenska B-kurs får samma provbetyg av samtliga tre rättare. Vidare bedömer elevens lärare texterna som i snitt värda betydligt högre provbetyg än vid senare omrättning.⁴⁸ Skolinspektionen bekräftar detta efter omfattande omrättningar och menar att syftena med provsystemet måste minskas, och att om det

43 Lundahl (2009).

44 Lundahl (2010b) ss. 228-235.

45 Skolverket (2004a) s. 56 ff.

46 Riksrevisionen (2004) s. 45 47 Skolverket (2009b) s.17 och s. 23.

48 Östlund-Stjärnegårdh (2002).

(13)

12

leder till att huvudsyftet blir betygsnormering så behöver provens autenticitet och därigenom deras validitet prioriteras ner till förmån för bedömarreliabiliteten.⁴⁹ Skolinspektionen menar vidare att de omfattande bedömningsanvisningarna utgör ett bedömarproblem ur ett betygsnormerande perspektiv⁵⁰, medan Lundahl ser just dessa omfattande bedömningsanvisningar som värdefulla ur en pedagogiskt stödjande synvinkel.⁵¹ Bedömningsskillnader på de nationella proven har också använts för att försöka mäta diskriminering.⁵² Hinnerich m.fl. finner inga systematiska skillnader mellan pojkar och flickor i blind omrättning men bekräftar att elevens lärare i snitt sätter högre provbetyg än omrättaren på just uppsatsen från provet i svenska B.⁵³ I en uppföljning finner de dock systematiska skillnader till nackdel för elever med utländsk bakgrund. Skillnaden är större för elever med utomeuropeisk härkomst.⁵⁴

3.3 Likvärdighet i betygsättningen

Ingemar Wedman hävdar att när grunden för betygssystemet byttes från relativt till målrelaterat fanns det tvekan från visst forskarhåll om den teoretiska möjligheten till likvärdighet. När en expertgrupp utredde betygsfrågan stannade man för vad som var den allmänna uppfattningen i skolväsendet, att gå över till ett kriterierelaterat system, men samtidigt minska behovet av jämförbarhet i betygen genom att lösa urvalsproblemet till den högre utbildningen på annat sätt än via betyg. Det politiska beslutet blev dock att införa kriterierelaterade betyg och ändå behålla betygen som urvalsgrundande och därigenom bortse från de enligt Wedman förutsägbara likvärdighetsproblemen.⁵⁵ Så långt de mätteoretiska förutsättningarna. Samtidigt ska de kanske inte överdrivas då exempelvis Helena Korp beskriver hur normrelaterad bedömning inrymmer kriterier och vice versa.⁵⁶ Lundahl beskriver dock att det lokala utvecklingsarbetet inte fick äventyras genom centralstyrning.⁵⁷ Förmodligen var den tanke om hur den nya styrningen skulle realiseras som i praktiken viktigare för de likvärdighetsproblem som uppstod efter nittiotalet skolreformer. Åtminstone framstår det som så i Riksrevisionen bedömning tio år efter att reformerna börjat genomföras. Då hade åter betygens likvärdighet börjat uppfattas som ett problem av vikt, och rapporten ger uttryck för att det hade kunnat se bättre ut om förutsättningar

49 Skolinspektionen (2011) s. 29 f.

50 Ibid. (2011) s. 13 f.

51 Lundahl (2009) s. 132, s. 139.

52 Det är intressant att kontrastera skolvärldens begrepp likvärdighet med det som möter läsaren i Hinnerich m.fl. artiklar, nämligen diskriminering. Alla likvärdighetsproblem handlar helt klart inte om diskriminering, samtidigt som vissa gör det. Gör vi i skolvärlden oss en tjänst eller en otjänst genom att inte särskilja?

53 Hinnerich m.fl. (2011a) s.689 54 Hinnerich m.fl. (2011b) s.23 55 Wedman (2004) ss. 311-313 56 Korp (2003) s. 103 ff.

57 Lundahl (2006) s. 373f.

(14)

13

av mer praktisk natur hade funnits på plats. Riksrevisionen pekar på att förutsättningar och krav på de professionella samtal som anses vara grunden för likvärdigheten i betygssystemet måste förbättras och tydliggöras. Därtill måste kommentarsmaterial med en hög grad av konkretion, exempelvis nämns elevlösningar, tas fram. Även ökad kontroll och uppföljning av betygens likvärdighet efterfrågas.⁵⁸ Betygens likvärdighet har då allt eftersom kommit att hamna i allt större belysning. 2000 var betygsättning ett tema för den nationella kvalitetsgranskningen, och ett genomgående resultat var att arbetet på skolorna var lågprioriterat och det gjorde att det inte fanns förutsättningar för de professionella samtal som betygsystemet krävde.⁵⁹ Samtidigt hade man inte möjlighet att uttala sig om annat än att förutsättningarna för likvärdighet inte förelåg.

Det beror på att om man verkligen ska visa och siffersätta den bristande likvärdigheten krävs det en parallell kunskapsbedömning att jämföra med.

Paralella kunskapsbedömningar låg till grund för flera undersökningar under åren 2003-2005.

I och med kombinationen av den stora nationella utvärderingen av grundskolan 2003, PISA 2003 och TIMSS 03 samt forskning av Christina Cliffordsson och Christina Wikström som alla sammantaget pekade på betygsinflation verkade den vara belagd.⁶⁰ Betygsinflation speglar visserligen bara betygsättning som inte är likvärdig tid från annan. Men med tanke på svårigheterna i att upprätthålla en jämn bedömningsnivå lärare emellan över landet i vanliga fall kan det nog uteslutas att det är möjligt om den nivån inte är densamma över tid. Därför betraktar jag betygsinflation som ett tydligt symptom på bristande likvärdighet. Betygsinflation i absolut mening är dock inte möjligt att undersöka med ledning av resultat på nuvarande nationella prov, eftersom de vare sig är konstruerade för eller i sin användning medger jämförelse över tid.⁶¹ I ett PM från 2012 beskriver Skolverket en vanlig tanke om drivkrafterna bakom betygsinflationen.

Incitamenten för lärare att kontinuerligt höja betygsnivån kan uppfattas som starka. När betygen är resultatmått framstår en lärare som sätter höga betyg som en skicklig lärare och en skola med höga betyg som en bra och attraktiv skola, vilket i båda fallen medför såväl prestige som i viss mån ekonomiska belöningar. Likaså kan det finnas ett tryck från elever och föräldrar att läraren ska sätta höga betyg.⁶² Perspektivet kallar Skolverket för ekonomiskt, och det tas också upp i nationalekonomers analys av situationen, exempelvis av Jonas Vlachos i ett kapitel av den

58 Riksrevisionen (2004) ss. 55-59 för stöd, s. 60 f. för kontroll. Först förverkligades kontrollen, och det har enligt mitt intryck varit den helt dominerande tanken i den allmänna debatten. Men att läsa det här idag och se hur den stödjande sidan nu på allvar håller på att bli verklighet, både ute i skolverksamheten och i form av kommentarsmaterial och Skolverkets kommande bedömningsportal stämmer till eftertanke. Var hade vi varit idag om detta hänt under nittiotalet?

59 Skolverket (2000) s. 46

60 Se Skolverket (2004a), (Skolverket 2004b), Skolverket (2004:c), Cliffordsson (2004) och Wikström (2005) 61 Skolverket (2012c) s. 5 f.

62 Ibid. s. 2 f.

(15)

14

omdebatterade antologin Konkurrensens konsekvenser.⁶³ Mickwitz verkar med utgångspunkt i nyinstitutionell teori benämna samma fenomen som att det rätta betyget saknar mottagare.⁶⁴ 3.3.1 Kvantitativa undersökningar av likvärdig betygsättning

En jämförelse mellan betyg och resultat från de nationella proven är det vanligast använda resultatmåttet på likvärdighet i betygsättningen. Andra möjligheter är jämförelser mellan betyg och resultat på andra kunskapsmätningar. I litteraturen finns exempel på jämförelser med resultat från PISA-undersökningen, med resultat på ett kommungemensamt prov, Stockholmsprovet i matematik, samt med jämförelser mellan grundskolans slutbetyg och senare gymnasiebetyg.

Skolverket har kommit med flera större rapporter som främst bygger på jämförelser med nationella prov. 2007 kom Provbetyg – Slutbetyg – Likvärdig bedömning? som är den hittills mest omfattande studien på grundskolebetygen. Två år senare, 2009, kom en motsvarande rapport för gymnasieskolan. Jämförelser mellan provbetyg och slut- respektive kursbetyg för grundskolan och gymnasiet hade dock tidigare behandlats i ett kapitel av den bredare skolverksrapport som 2003 diskuterar det nationella provsystemet. I och med att den rapporten inte hade fokus på likvärdig betygsättning utan på provsystemet avstod dock författarna från att med ledning i den presenterade statistiken dra någon sammanfattande slutsats om likvärdigheten. Som tidigare nämnts så är en begränsning med de nationella proven att de inte är användbara för att göra jämförelser av kunskapsnivån över tid. Detta gör att perspektivet om betyg är lika värda mellan olika år inte går att studera. Provbetyg – Slutbetyg – Likvärdig bedömning? inleder med att diskutera vilka övriga möjligheter och brister resultat från de nationella proven har som mått på likvärdighet. Rapportförfattarna gör en viktig distinktion mellan att uttala sig om betygsättningen på en enskild skola och att uttala sig om likvärdigheten i betygsättningen på systemnivå. De konstaterar att de nationella proven inte kan användas för att absolut fastställa felaktig betygssättning på en skola eftersom det inte finns några regler angående hur provbetyg och slutbetyg ska förhålla sig. Däremot menar de att variationen skolor emellan kan användas för att indikera situationen på nationell systemnivå.⁶⁵ Även tänkbara förklaringar till hur nettoavvikelse⁶⁶ mellan resultaten på de nationella proven och slutbetygen kan förklaras lyfts. Se tabell 1.

63 Vlachos (2011) s. 101 64 Mickwitz (2011a) s. 103 f.

65 Skolverket (2007) s. 12. Notera att även om en hög nettoavvikelse på en skola inte är ett absolut bevis på felaktig betygsättning i bemärkelsen regelbrott så innebär det ju inte att den är oproblematisk.

66 Nettoavvikelse är det begrepp som används i skolverksrapporterna för den aggregerade avvikelsen. Om avgångsklasserna på en skola till 80 procent fått samma slut- och provbetyg, till 15 procent högre slutbetyg än provbetyg och till 5 procent lägre slutbetyg än provbetyg är skolans nettoavvikelse + 10 procent. För en mer ingående förklaring av begreppet, se Skolverket (2007) s. 15.

(16)

15

Tabell 1. Förklaringar till variation i nettoavvikelse på skolnivå mellan provbetyg och slutbetyg

Inom ramen för betygsbestämmelserna Utom ramen

Påverkar inte likvärdigheten Påverkar likvärdigheten i betygsättningen negativt (a) Läraren har att ta hänsyn till fler

mål än de som ingår i nationella provet.

(b) Läraren har ett bredare underlag än provresultatet för att bedöma elevernas måluppfyllelse.

(c) Särskilda insatser sätts in för elever som inte klarat proven.

(d) Eleverna har arbetat med ett annat stoff än det provet behandlar.

(e) Lärare planerar undervisnings- momenten olika

(f) Lärare på olika skolor gör olika tolkningar av mål och betygskriterier, dels sinsemellan och dels i förhållande till de nationella proven.

(g) Lärare tolkar kursplanerna relativt elevgruppens förutsättningar (h) Lärarna bedömer proven olika

(i) Betygen sätts på andra grunder än provbetygen.

(j) Behörighetskraven gör att lärare inte gärna vill underkänna elever

(k) Konkurrensen ger betygsinflation och variation mellan skolor.

Bearbetning efter Skolverket (2007) ss. 18-21 samt ss.68-79. Orsaker som i rapporten bedöms som mer troliga i fet stil.

Med utgångspunkt i de statistiska resultaten diskuteras vilka förklaringar till avvikelser som kan tänkas vara mer troliga. Slutsatsen som presenteras är att avvikelsen till stor del förmodligen beror på faktorer som påverkar likvärdigheten negativt. Faktorn (i) i tabell 1 motsvarar alltså den tidigare behandlade problematiken med betygsättning på andra grunder än betygskriterierna såsom exempelvis närvaro och arbetsinsats under lektioner. Här har dock Cecilia Thorsen och Christina Cliffordsson visat på en intressant motsättning mellan likvärdig betygsättning och grundskolebetygens prognosförmåga, deras predikativa validitet. De finner att den tidigare faktor som Klapp-Lekholm och Cliffordsson knutit till ambition och som alltså utgör ett exempel på både bristande likvärdighet och på betygsättning som saknar grund i bestämmelserna faktiskt bidrar positivt till betygens prognosförmåga.⁶⁷ Faktor (j) är den tidigare diskuterade problematiken med godkäntgränsen och delar av faktor (f) kan knytas till den tidigare refererade otydligheten i betygssystemet. Sammantaget slås i både 2007 och 2009 års rapporter fast att betygsättningen vare sig på grundskolan⁶⁸ eller på gymnasiet⁶⁹ kan sägas vara likvärdig. För grundskolans del beräknas också variationen som standardavvikelsen och följs upp mellan 1998 och 2006. Resultatet är att det inte finns några klara tendenser under denna period utan

67 Thorsen – Cliffordsson (2012) 68 Skolverket (2007) s. 64.

69 Skolverket (2009a) s. 6.

(17)

16

spridningen ligger på ungefär samma nivå, vilket kan tolkas som att likvärdigheten i betygsättningen varken ökat eller minskat under denna tid.⁷⁰

För den enskilde eleven gäller att det nationella provet är en tydlig indikator på betyg. Enligt grundskolerapporten så får cirka 80 procent av eleverna samma slutbetyg som provbetyg.⁷¹ Vidare ser sambandet mellan provbetyg och slutbetyg mätt som korrelationskoefficienten ungefär ut som på de tidigare standardprovens tid. Den varierar något litet kring 0,8. Detta gäller inom alla tre ämnena samt år från år och utan tydliga trender. Möjligen kan man säga att engelskan når lite högre korrelation, och att beslutet att inte ange provbetyg 2002-2004 i engelska och svenska sänkte korrelationen något.⁷² Engelskans något högre korrelation kan kanske förknippas med de relativt sett större utprovningar som provkonstruktionsgruppen gör.⁷³ Elever som inte når upp till ett godkänt provbetyg är de vars betyg i störst utsträckning skiljer sig från provbetyget.

Siffrorna som redovisas för grundskolan är de från 2006, då fick 72 procent av eleverna som inte nådde godkänt provbetyg ändå godkänt slutbetyg. För svenskan var siffran 54 procent, för engelskan 34 procent. Det kan jämföras med samma siffror för elever som når godkänt provbetyg och får väl godkänd i slutbetyg, 19 procent, 14 procent respektive 10 procent.⁷⁴ Erica Lindahl visar också att elevens kön spelar roll. Flickor får i högre utsträckning än pojkar högre slutbetyg än provbetyg.⁷⁵ Resultatet bekräftas av Klapp-Lekholm och Cliffordsson i deras studier där de också knyter effekten till motivation.⁷⁶ Vidare finner Lindahl att elever med utländsk bakgrund får högre slutbetyg i förhållande till provbetyget i svenska och matematik, men vad av den effekten som förklaras av den högre andelen elever som inte når godkänt på proven specificeras inte.⁷⁷ Avseende kön gäller samma fenomen på gymnasieskolan, enligt Skolverkets huvudrapport för gymnasiet.⁷⁸

Vad gäller skillnader mellan de olika ämnena så har engelskan den minsta variationen i nettoavvikelse på skolnivå och matematiken den största.⁷⁹ Dessutom sker variationen i engelskan runt nollinjen, det vill säga att genomsnittsskolan har en mycket låg nettoavvikelse. Detta till skillnad från matematiken där genomsnittsskolan har en betydande nettoavvikelse i riktning högre slutbetyg än provbetyg. Svenskan intar ett mellanläge med en genomsnittlig nettoavvikelse på 8 procentenheter att jämföra med 21 procentenheter för matematiken och 0 för engelskan.⁸⁰ För matematiken gäller också att skolor med låga matematikbetyg avviker mer än skolor med höga

70 Skolverket (2007) s. 34 f.

71 Ibid. s. 27 f.

72 Ibid. s. 28 f, s. 63.

73 Lundahl (2009) s. 136f. för engelska, 143 f. för matematik samt 156 f. för svenska.

74 Skolverket (2007) s. 45.

75 Lindahl (2007) s. 8ff.

76 Klapp Lekholm – Cliffordson (2009), s. 18.

77 Lindahl (2007) s. 8ff.

78 Skolverket (2009a) s. 44 ff.

79 Skolverket (2007) s. 34. Standardavvikelser: Engelska 10,8. Svenska 11,1. Matematik 14,1.

80 Ibid. s. 32 ff.

(18)

17

matematikbetyg medan motsvarande resultat inte finns för engelskan och svenskan.⁸¹ I rapporten från 2003 presenterar författarna en tänkbar förklaring till ämnesskillnaden. Rapportförfattarna använder Lindes resonemang om olika kunskapssyn i matematik och engelska vilket de menar kan leda till högre krav i matematiken. Tanken är att det höga tryck som finns på att både sätta ett G både när det är obefogat och att efter ett elevresultat som inte når upp till godkänt sätta in extra resurser för att under återstoden av skoltiden åthjälpa identifierade brister och sedan sätta ett befogat G skapar både spridning och ökad genomsnittlig nettoavvikelse. Rapportförfattarna finner stöd för sin slutsats i poängfördelningen från poängsatta delprov i matematik och engelska.

Fördelningarna skevar, mot lägre betyg för matematik och mot högre betyg för engelska.⁸²⁸³ Förutom att undersöka variationen mellan skolor undersöker man också om det finns skolegenskaper som har betydelse. Till att börja med är en fråga om det finns stabilitet i nettoavvikelserna år från år inom samma ämne. Skolverket finner att så är fallet och ger exemplet matematik mellan år 2005 och 2006, korrelationskoefficienten är då 0,49.⁸⁴ Man undersöker också om det finns en samvariation mellan nettoavvikelser i engelska, svenska och matematik på samma skola samma år och finner då svagare samband baserade på ett år.⁸⁵ Detta går att tolka som att det i vissa skolor finns en skolkultur av hög eller låg betygssättning i förhållande till de nationella proven. Både grundskole- och gymnasierapporten undersöker också om huvudmannens betydelse. Båda rapporterna finner att nettoavvikelsen inte är beroende av om skolan är en fristående skola.⁸⁶ Grundskolerapporten undersöker också om skolkonkurrens har någon inverkan och finner att den inte har det. Måtten på grad av konkurrens som använts är om skolan ligger i en storstadsregion eller ej samt om skolan ligger i en kommun med fler än tre skolor eller ej.⁸⁷ Forskare har funnit annat. Christina och Magnus Wikström använder högskoleprovet och meritvärde istället för provbetyg och ämnesbetyg som mått. De finner att gymnasiefriskolor sätter högre betyg än kommunala gymnasium.⁸⁸ Vlachos använder resultat från nationella prov och kommer då fram till att dessa resultat kan ses som tillfälliga för den undersökta tiden och att situationen sedan förändrats så att det inte längre finns någon betydelsefull skillnad mellan friskolor och kommunala skolor.⁸⁹ Han finner dock en liten med signifikant effekt av ökad skolkonkurrens när han använder andelen elever i friskola som mått på konkurrenstrycket.⁹⁰

81 Skolverket (2007) ss. 59-62.

82 Skolverket (2003:a) ss. 102-107.

83 Se tidigare resonemang utifrån Linde och Stenhag om matematik samt till Klapp Lekholm, Mickvitz och Selgheds behandling av godkäntgränsen.

85 Ibid. s. 37. Samma mönster återfanns i rapporten från 2003, då rapporterades också korrelationskoefficienter: Svenska-engelska 0,22. Svenska-matematik 0,09. Engelska-matematik 0,24.

Skolverket (2003) s. 108 f.

86 Skolverket (2009a) ss. 58-60. Skolverket (2007) s. 56.

87 Skolverket (2007) ss. 51-54.

88 Wikström – Wikström (2005) s. 317-318.

89 Vlachos (2010) s. 34.

90 Ibid. s. 56 f.

(19)

18

Klapp-Lekholm finner heller inga stora effekter på något av de skolkaraktäristika hon använder när utbildningsbakgrunden hos föräldrarna hålls under kontroll.⁹¹

De studier som utförts med andra mått än resultat från nationella prov bekräftar bilden av bristande likvärdighet. I Provbetyg – Slutbetyg – Likvärdig bedömning? används data från PISA 2003 för att undersöka betydelsen av nettoavvikelse mellan provbetyg och slutbetyg. Resultatet är en signifikant statistisk koppling mellan nettoavvikelse och PISA-resultat i matematik. Däremot fanns ingen signifikant koppling mellan läsförmåga i PISA och nettoavvikelse i svenska.

Avsaknaden av den senare kopplingen anser rapportförfattarna vara av liten betydelse. Detta dels då det statistiska underlaget är mindre i läsförmågedelen och dels då överensstämmelsen mellan svenskämnets kursplan och betygskriterier samt PISA-undersökningens läsförmåga sämre.

Slutligen tillkom också vissa urvalseffekter rörande elever med annat modersmål än svenska.⁹² I samma rapport används också gymnasiebetyg i detta syfte, att utvärdera nettoavvikelsemåttet.

Data fanns endast på skolnivå, men den visar ett tydligt samband mellan nettoavvikelse och sämre sammantaget meritvärde från gymnasieskolan givet samma meritvärde från grundskolan.⁹³ Relationen grundskolebetyg-gymnasiebetyg har också använts av skolförvaltningen i Stockholm för att under en serie av år följa upp betygsättningen på grundskolan. De finner systematiska skillnader grundskolor emellan. För en mindre del av de undersökta skolorna är också dessa skillnader bestående under en lång följd av år. I rapporten för läsåret 2008/2009 är det tio av ursprungligen 47 grundskolor som under alla åtta undersökta år har legat antingen på den positiva eller på den negativa sidan vad gäller avvikelse.⁹⁴ I rapporten redogörs också för ett samband mellan resurstäthet och negativ avvikelse. Ju större resurstäthet en grundskola har desto sämre presterar elever från den skolan senare på gymnasiet. I rapporten tolkas detta som att grundskolan genom sin större resurstillgång kan kompensera för elevers svårigheter men att dessa sedan slår igenom på gymnasiet när stödet inte längre är tillgängligt.⁹⁵ I Stockholm har man nyligen infört ett gemensamt diagnostiskt test i matematik för intresserade gymnasieskolor. I och med att resultaten samlas in centralt kan de relateras till matematikbetyget eleven fått på sin grundskola och därigenom användas för att undersöka likvärdigheten i betygsättningen.

Resultatet av en sådan undersökning presenteras i en rapport från konsultbolaget SWECO. Man finner avvikelser på skolnivå, vilket tolkas av rapportförfattarna som en indikation på generös respektive restriktiv betygsättning.⁹⁶

91 Klapp-Lekholm (2011) Klapp-Lekholm undersöker egentligen inte betygsättningen, men eftersom hon använder sig av både betygsdata och resultat från de nationella proven bör hennes mått common grade dimension kunna användas som indikator på likvärdighet i bemärkelsen avvikelse från nationella prov.

93 Skolverket (2007) s. 41. Signifikanta korrelationskoefficienter på -0,41 samt -0,46.

94 Stockholms stad (2010) s. 3 f.

95 Stockholms stad (2010) s. 7.

96 Nilsson m.fl. Sweco (2011) s. 19 f. En alternativ tolkning kan vara den som framförs i Skolverkets rapport om gymnasiet Skolverket (2009a) s. 72 f., att en fördelningseffekt gör att om elever är kraftigt sorterade på kunskap så kommer elever inom ett betygssteg ligga genomsnittligt närmare ett högre steg för den kunnigare

(20)

19 3.4 Lärarnivå – skolnivå

Betyg sätts av lärare. Lärare arbetar på skolor tillsammans med andra lärare. Det gör att både lärarnivån och skolnivån är intressant för att förstå problematiken med likvärdig betygssättning.

Men det finns också andra aspekter än förståelse. Är man ute efter att åtgärda eller på annat sätt styra snarare än förstå kan det sätta begränsningar i vilken nivå man kan rikta sig till. Familjer kan till exempel välja skola, men inte välja lärare. Staten har via lagstiftning, skolverk och skolinspektion olika styrmöjligheter mot skolnivån respektive lärarnivån, vilket kan vara en grund för val av analysnivå. Ytterligare en anledning för val av analysnivå är vilken nivå man har tillgång till. Hur har de som studerar betygsättning hanterat dessa båda nivåer?

En skiljelinje går mellan kvalitativa och kvantitativa studier. Selghed, Karlsson samt Annerstedt & Larsson som alla intervjuat lärare har också lärarnivån som främsta analysnivå.⁹⁷ I de av Skolverkets rapporter som bygger på statistik dominerar skolnivån.⁹⁸ Detsamma gäller andra kvantitativa studier som Klapp Lekholms och Wikströms.⁹⁹¹⁰⁰ Men bilden är inte entydig.

Korp intervjuar lärare, men analysen sker på ämnesnivå, skolnivå och programnivå.¹⁰¹ Mickvitz gör gruppintervjuer där grupperna är sammansatta efter skola.¹⁰² I Skolverkets rapporter är visserligen skolnivån dominant, men lärarnivån kan återfinnas.¹⁰³ Tholin använder en kvalitativ metod men undersöker ett fenomen som bara finns på skolnivå.¹⁰⁴ Typfallen kan sägas vara Selghed och Klapp-Lekholm. Selghed hade som uttalat mål att få stor spännvidd på sina informanter och valde därför aktivt att inte intervjua lärare inom samma ämne på samma skola.¹⁰⁵ Analysen sker också helt och hållet på lärarnivå, vilket är i linje med studiens syfte. Klapp- Lekholm använder registerdata för att undersöka skolfaktorers betydelse på betyg, bland annat skolstorlek, geografisk belägenhet och friskola eller kommunal skola. Andra faktorer som också studerades på skolnivå var lärarrelaterade, som ålder och andel pedagogiskt utbildade. Dessa

gruppen än för den okunnigare gruppen. Frågan då är om grundskolor i Stockholm är så pass segregerade att det finns avsevärda kunskapsskillnader dem emellan och om generös betygsättning har ett samband med låg kunskapsnivå.

97 Annerstedt – Larsson (2010), Karlsson (2011), Selghed (2004).

98 Skolverket (2003), Skolverket (2007), Skolverket (2009a).

99 Klapp-Lekholm (2011) Wikström (2005).

100 Ett särfall är Stenhags studie vars syfte inte kräver analys på skol- eller lärarnivå. Dock förekommer inte resonemang om den eventuella vikten av att kontrollera för betygsättande lärare vilket kan uppfattas som viktigt då de statistiska resultaten från faktoranalysen av slutbetyg knyter so-ämnen till svenska och no-ämnen till matematik. Se Stenhag (2010) ss. 136-139.

101 Korp (2006) s. 108.

102 Mickwitz (2011:a).

103 Exempelvis Skolverket (2009a) s. 43, övriga exempel använder svagare indirekta metoder för att nå lärarnivån i brist på data.

104 Tholin (2006).

105 Selghed (2004), s. 100 ff.

(21)

20

lärarfaktorer hade det naturligtvis funnits goda skäl att mäta på lärarnivå istället för på skolnivå, vilket Klapp-Lekholm antyder även om hon inte skriver det rakt ut.¹⁰⁶

Problemet här är att när man arbetar med registerdata så får man ta vad som finns, och i den centralt tillgängliga statistiken finns inte uppgifter om undervisande eller betygsättande lärare.¹⁰⁷ I det statistiska materialet som ligger till grund för Skolverkets rapport om betygsättningen på gymnasiet finns uppgift om klass med, vilket möjliggjort en omfattande diskussion om betydelsen av klassnivån i jämförelse med skolnivån. Spridningen blir naturligt större eftersom klasserna är så pass mycket mindre än skolorna, men utredarna har också genomfört en flernivåanalys för att kunna avgöra hur mycket av variationen i nettoavvikelse mellan provbetyg och kursbetyg som finns på skol- respektive klassnivå. Av den variation som kan förklaras med dessa nivåer finns den helt övervägande delen på klassnivå. För matematik A 74 procent klass och 26 procent skola, för svenska A 90 procent klass och 10 procent skola samt för engelska A 88 procent klass och 12 procent skola. Resultatet antyder att den största delen av likvärdighetsproblemet ligger mellan lärare snarare än mellan skolor, men som påpekas i rapporten är klass och lärare inte samma sak.¹⁰⁸ I brist på data på lärarnivå kan ändå vissa indikationer på lärarnivåns betydelse användas. I Provbetyg – Slutbetyg – Likvärdig bedömning? använder rapportförfattarna den större korrelationen mellan nettoavvikelsen för svenska och engelska jämfört med något av ämnena och matematik som en indikation på att lärarnivån kan ha betydelse. Detta då det borde vara vanligare att samma lärare sätter betyg i svenska och engelska jämfört med något av ämnena och matematik.¹⁰⁹ I en senare uppföljningsrapport ges värdena på korrelationskoefficienterna för dessa samband.¹¹⁰ Samtidigt finns helt klart registerdata där betygsättande lärare ingår. Grönqvist och Vlachos undersöker lärarfaktorer genom att sammanställa registerdata från kommunala förvaltningar där betygsättande lärare finns som en konsekvens av kravet på lärarens namn i betygskatalogen. De beskriver dock datainsamlingen som både dyr och tidskrävande.¹¹¹ Även Sund som undersöker kamrateffekter på gymnasiet använder sig av data på inkluderande lärare hämtad från kommunal förvaltning.¹¹²

106 Klapp-Lekholm (2011), s. 604.

107 Skolverket (2007) s. 43.

109 Skolverket (2007) s. 37 och s. 64.

110 Skolverket (2012b) s. 30. Svenska-engelska 0,3 Svenska-matematik 0,1 Engeslka-matematik 0,2 111 Grönqvist och Vlachos (2008) s. 16.

112 Sund (2009) s. 331.

(22)

21

4. Teoretiska utgångspunkter

Den här studien undersöker likvärdig betygsättning. Vad som menas med likvärdig betygsättning är dock inte självklart. Till att börja med så är likvärdighet ett omtvistat begrepp.¹¹³ Det har använts i skolpolitiska sammanhang sedan åtminstone femtiotalet, men blev allt vanligare och kom delvis att ersätta jämlikhet från åttiotalet och framåt. Likvärdighet inrymmer en spänning mellan likhet och valfrihet, där det står klart att likvärdig inte betyder lika men heller inte att alla tänkbara valbara alternativ är likvärdiga.¹¹⁴ Von Greiff menar att begreppets underliggande betydelse är jämlikhet med avseende på möjligheter i livet och menar vidare att likvärdighet alltså innefattar ett traditionellt liberalt och socialistiskt jämlikhetsbegrepp. Vidare diskuterar han hur tyngdpunkten i användningen av begreppet i skolsammanhang skiftat från lika tillgång till skolan mot lika möjligheter i skolan. Detta menar han får konsekvenser i form av att skolan måste vara kompensatorisk.¹¹⁵ I den senaste rapporten från Skolverket om hur likvärdigheten i svensk skola utvecklas lyfts tre dimensioner av likvärdighet fram. Dessa tre utgörs av ovan nämnda lika tillgång och kravet på skolan att vara kompensatorisk samt lika kvalitet.¹¹⁶ Gemensamt för dessa båda rapporter är att diskussionen om likvärdighet förs för att kunna operationalisera likvärdigheten och båda landar i att använda ökande och minskande variation som indikation på ökande och minskande likvärdighet.¹¹⁷

Från likvärdighet till likvärdig betygsättning är det ytterligare ett steg. När det stod klart att likvärdigheten i betygsättningen fortfarande var ett problem utarbetade Skolverket en handlingsplan. Där definieras likvärdig betygsättning så här:

En rättvis betygsättning innebär att det betyg en elev fått i ett visst ämne eller i en viss kurs ska visa elevens kunskaper och färdigheter i det som ska ingå i kursen enligt kursplanen och som motsvarar betygskriterierna för betyget. Med likvärdig menas att måttstocken för bedömningen är densamma för alla elever. Ett betyg i en klass ska motsvara ett likadant betyg i en annan klass.¹¹⁸

Den här uppdelningen av rättvis och likvärdig kan tyckas överflödig, och när Skolverket i övrigt behandlar likvärdig betygsättning tycks distinktionen försvinna och hela betydelsen gå in under begreppet likvärdig betygsättning. Detta är exempelvis fallet i den omfattande diskussion som förs i rapporten Provbetyg – Slutbetyg – Likvärdig bedömning? om orsaker till bristande likvärdighet i betygsättningen. Den tänkbara förklaringen att lärarna sätter betyg på andra grunder än kursplanens mål och kriterier anser rapportförfattarna påverkar likvärdigheten i

113 Skolverket (2003b) s. 156.

114 Skolverket (2003b) s. 152 ff.

115 von Greiff (2009) s.30 f.

116 Skolverket (2012) ss. 11-13.

117 von Greiff (2009) s. 32. Skolverket (2012a) ss. 13-19 118 Skolverket (2004b) s. 3.

(23)

22

betygsättningen.¹¹⁹ I analogi med de hur likvärdighet operationaliserades som variation i de två tidigare refererade rapporterna om likvärdighet i skolan används variation i relationen provbetyg- slutbetyg som en indikation på likvärdighet i betygsättningen i skolverksrapporten från 2007, vilket inte skulle vara meningsfullt om likvärdigheten och rättvisan behandlades separat.¹²⁰

Med utgångspunkt i att föreliggande studie behandlar kvaliteten i omdömen om elevers kunskap och att likvärdighet tidigare har operationaliserats som variation kan det tyckas som om de klassiska mätteoretiska begreppen validitet och reliabilitet¹²¹ borde vara studiens främsta analytiska begrepp. Studiens övergripande ram skulle då bli att undersöka betygsättningens validitet och reliabilitet snarare än den mer oprecisa likvärdigheten. Min bedömning är dock att framställningen vinner mer på att använda sig av ett tydliggjort likvärdigt betygsättnings-begrepp.

Fördelen jag ser är att det underlättar anknytningen både till Skolverkets rapporter och till den vardagliga diskussionen samtidigt som jag bedömer nackdelen med förlusten av analytisk precision som liten.

En förutsättning blir då att tydliggöra den i studien använda innebörden av likvärdig betygsättning. I studien kommer begreppet användas som det framtonar i Provbetyg – Slutbetyg – Likvärdig bedömning? Det innebär alltså att likvärdig betygsättning innefattar både att eleven bedöms efter kursplan och betygskriterier och att bedömningen görs utifrån en lärare sinsemellan samstämmig uppfattning om innebörden av betygskriterierna. Konsekvenserna för operationaliseringen kommer att diskuteras närmare i metodavsnittet.

Vidare visar det sig vid närmare undersökning att även det för studien centrala begreppsparet skolnivå – lärarnivå inte är entydigt. I sin snävaste mening gäller det bara för lärare inom samma ämne som sätter betyg vid samma tidpunkt. Vidast möjligt gäller det både över längre tid och mellan flera ämnen. I den mest centrala litteraturen, Skolverkets båda huvudrapporter om relationen mellan provbetyg och slutbetyg respektive kursbetyg är huvudmåtten knutna till ett betygsättningstillfälle och till ett ämne. Samtidigt diskuteras både kopplingen ämnen emellan och den tidsmässiga aspekten. I gymnasierapporten rubriceras en sådan tolkning av skolnivån som en skolkultur i hur betyg sätts i bemärkelsen att skolan över längre tid och i flera ämnen avviker från andra skolor på liknande sätt.¹²² För grundskolan blir en tolkning som både är tids- och ämnesmässigt snäv ganska tömd på mening. Många högstadieskolor är så pass små att det bara finns en betygsättande lärare i varje ämne ett givet år. Med en snäv tolkning skulle alltså ingen skolnivå finnas på en sådan skola. I studien kommer jag att använda begreppsparet skolnivå och lärarnivå i en vidare bemärkelse. Jag kopplar skolnivån till den eventuella betygsättningskultur

119 Skolverket (2007) s. 20.

120 Skolverket (2007) ss. 12-14.

121 Korp (2003) s. 119 ff. Huvudsakligen om innebörden av begreppen, kort om begreppens historia i pedagogiken.

(24)

23

som åtminstone ämnesvis kan tänkas förekomma på en skola vid mer än ett betygsättningstillfälle.

Sammanfattningsvis kommer jag att använda likvärdighet i betygsättningen snarare än alternativa mer vetenskapliga begrepp. Jag ansluter där till begreppsanvändningen i områdets mest betydelsefulla litteratur, de båda större skolverksrapporterna från 2007 och 2009. När jag skiljer på skolnivå och lärarnivå menar jag att skolnivå har en betydelse som sträcker sig över mer än ett betygsättningstillfälle.