• No results found

Jämförelser mellan länder – vad är det som oftast jämförs? Vad är det framförallt som jämförs när forskare gör internationella utblickar kring betyg och summat

bedömning? I den ofta citerade artikeln Lessons from around the World: How Policies, Politics and Cultures Constrain and Afford Assessment Practices (2005) diskuterar Paul Black och Dylan Wiliam hur det kommer sig att det är så stora skillnader mellan bedömning och betygssättning i England, Frankrike, Tyskland och USA. De menar, givet alla andra sätt på vilka organiseringen av ett utbildningssystem kan variera på, att det heller inte är konstigt att det finns stora skillnader i synen på bedömning och hur man praktiskt ordnar den. Några saker som tycks avgörande är: typen av läroplan, ämnenas organisering, valfrihet, övergångar mellan skolformer, urval, synen på rättvisa, policy kring läromedel etc.

Det Black och Wiliam lyfter fram som centrala variabler för hur olika länder skiljer sig åt är när i åldrarna bedömningar görs, vem som gör dem (internt – externt), i hur många skalsteg betygen ges, om betyg är relaterade till externa tester, kvalificeringssystem (dvs. övergångarna till högre utbildningar). Varje land har en kombination av många olika formativa och summativa bedömningar för mer eller mindre tydliga syften. Vi kommer längre fram titta närmare på hur dessa variabler skiljer sig åt Europa. Det är i alla fall uppenbart att olika länder hittat sina vägar, vilket på gott och ont präglar deras system för betyg och bedömning (se även OECD 2005). Black och Wiliam beskriver som exempel det amerikanska betygssystemet:

Beginning in the third or fourth grade (and continuing through to postgraduate level!), almost all formally assessed student work is assessed on the same literal grade scale: A, B, C, D, F (fail), typically corresponding to percentage scores of 90–100, 80 – 89, 70 – 79, 60 – 69 and 0 – 60 respectively. Grades are cumulated by converting them back to numbers (A=4, B=3, C=2, D=1, F=0) and calculating the ‘grade- point average’ over the year. However, unlike scores or grades given in most European countries, the grade is usually not a pure measure of attainment, but will include how much effort the student put into the assignment, attendance, and sometimes even behaviour in class. Paul Dressel’s definition of a grade was ‘an inadequate report of an inaccurate judgement by a biased and variable judge of the extent to which a student has attained an undefined level of mastery of an unknown proportion of an indefinite material’ (Chickering, 1983), and while this may be a bit unfair, there can be little doubt that the meaning of a grade varies substantially from school to school, and even from teacher to teacher. (Black och Wiliam 2005, s. 257)

Traditioner och skilda uppfattningar kring skolan påverkar hur länder utformar sina bedömningssystem. Kring de olika variabler vi nämnde ovan där nationella skillnader finns, listar Black och Wiliam en rad faktorer som formar dessa variationer:

 beliefs about what constitutes learning; 


 beliefs in the reliability and validity of the results of various tools; 


 trust in the objectivity of formal testing; 


 a preference for and trust in numerical data, with bias towards a single number; 


 trust in the judgements and integrity of one’s children’s teachers; 


 trust in the judgements and integrity of the teaching profession as a whole; 


 belief in the value of competition between students; 


 belief in the value of competition between schools – the market model of 
education; 


 belief that test results are a meaningful indicator of school effectiveness; 


 fear of national economic decline and belief that education is crucial to improvement;

 belief that the key to schools’ effectiveness is strong top-down management. (Black och Wiliam 2005, s. 258f)

Det är med andra ord en hel del olika faktorer som bidrar till att länders bedömningssystem varierar. Trots artikelns namn, Lessons from around the world… förefaller den främsta lärdomen vara att vi inte kan lära så mycket av andra länders bedömningssystem, mer än att alla länder tycks slita med att få summativa och formativa bedömningar att passa ihop på ett funktionellt sätt:

Thus not only is there no ‘royal road’ to an assessment system that effectively serves both formative and summative functions that each country could follow, but it seems likely that the idiosyncratic road that will need to be taken in each country will also be very hard going. (Black och Wiliam 2005, s. 260)

I en studie av skillnaderna i bedömning mellan England, Sverige och Tyskland fokuserar Florian Waldow (2014) särskilt på betydelsen av hur man ser på rättvisa procedurer för urval, procedurial justice (se även kapitel 3). Waldow pekar på att den viktigaste funktionen betyg historiskt sett fyllt är att beteckna en merit. Meriter är alltid jämförbara. Poängen med meriter är att någon har bättre och andra sämre. På basis av meriter går det således att göra ett rättvist urval – förutsatt att om de som bestämmer vad en merit är har legitimitet. Det finns i varje meritokrati ”gatekeepers”, grindvakt, men vad en gatekeeper tycker är meriter och rättvisa sätt att bedöma dem kan variera väldigt. Grindvaktens hela legitimitet bygger på att andra ansluter sig till dess uppfattning om rättvis bedömning. Waldow pekar på att det är den proceduriella rättvisan som är viktigast för elever, och att just deras uppfattning därför är väldigt viktig för systemets legitimitet. Waldow visar att medan Tyskland och Sverige bygger sina examinationers legitimitet (av gymnasiestudenter) på en idé om

professionalism och att läraren känner sina elever, anses ett sådant system i England skapa orättvisa. Där anses snarare en bedömning vara rättvis när endast det man presterar vid examinationen spelar roll. Där är det självklart att examinatorn är helt extern.

Att det uppstår olika sätt att se på vad som är en rättvis examination har att göra med utbildningsväsendets struktur och dess behov av legitimitet avseende just examinationerna. I England finns en diskussion om respektive extern examinations svårighetsgrad (är de t.ex. lika svåra), i Tyskland diskuteras om det är lika svårt att få en examen i respektive Länder (Tyska delstater), i Sverige handlar diskussionen om likvärdig bedömning mellan enskilda skolor. En sak som förbryllar Waldow är att en central metod för att hantera dessa diskussioner om rättvisa i bedömningar finns i England och Tyskland men saknas i Sverige. Det gäller nämligen rätten att överklaga sitt betyg. Waldow menar att en anledning till att denna rätt inte finns i Sverige, och att regeringen 2006 – 2010 avfärdade förslagen från utredningen om rättvis bedömning till just en sådan rätt, kan spåras till att de svenska nationella proven alltjämt anses som en tillräcklig garant för en rättvis bedömning (Waldow 2014, s. 337). Precis som Black och Wiliam ovan, visar Waldow på den mängd sociala faktorer som gör att

bedömningssystem varierar länder emellan, och därför är svåra att jämföra. Försök saknas dock inte. Ett tema för de internationella jämförelserna är att forskare använder sitt eget ”hemlandsperspektiv” och utifrån det gör en utblick mot ett annat land. Exempelvis jämför den svenska forskaren Christina Wikström (2009) bedömning i Sverige med England (se även ”lektioner från Finland”, Hendrickson 2012, Dobbins och Martens 2012, från Shanghai och Singapore, Tan 2011). Kring högre utbildning och betyg finns ytterligare ett par artiklar men som faller utanför intresset för den här rapporten (t.ex. Billing 2004, Dahl, Lien, Lindberg- Sand 2009). Wikström beskriver hur England och Sverige från motsatta positioner gått mot en kriteriebaserad bedömning utifrån givna standards; England genom en utveckling som inneburit mer centralisering och Sverige genom mer decentralisering. Därmed ansluter sig båda länderna till det som Wikström beskriver som den dominerande internationella trenden, det som ibland kallas standards based curriculum.

Wikström lägger särskild vikt vid hur nationella prov används för accountability och betygssättning. Wikström menar att de engelska proven (Key stage test) har ett väldigt tydligt syfte, att ställa skolor till svars för låga resultat. De engelska testen är verkligen high stake för skolan. Detta har skapat debatt, forskning och bidragit till att reliabiliteten i testen ökar, menar Wikström. Samtidigt har validiteten äventyrats i det att skolor systematiskt arbetar för att klara testen, men därigenom begränsar sitt arbete utifrån läroplanen som är vidare i sitt anspråk än vad som kan mätas på detta sätt. Wikström ser ändå en positiv skillnad jämfört med Sverige och det är att de engelska proven tvingat fram forskning och debatt kring bedömning på ett sätt som inte skett i Sverige där nationella prov från statens sida beskrivs som low stake.

Efter de senaste PISA-mätningarna 2009 och 2012 har intresset för Sydkorea, Singapore och Shanghai ökat medan det minskat något för Finland (Waldow, Takayama et al. 2014). I ett försök att förklara varför flera Asiatiska länder lyckas så bra i dessa test har Charlene Tan (2011) analyserat en del skillnader och likheter mellan Singapore och Shanghai. Hon fokuserar särskilt på kulturens betydelse för studieresultaten.

Både Singapore och Shanghai är stora, rika och globala städer med en klart högre genomsnittlig

utbildningsnivå än andra städer i regionen. Utbildningspolicyn i både Singapore och Shanghai präglas av en ambition om att eleverna behöver rustas för en global kunskapsmarknad. I grunden finns också en utilitaristisk och teknokratisk utbildningsmoral, menar Tan, som i kombination skapar traditioner av att studieframgång är att prestera bra på prov och examinationer. Det finns höga förväntningar på eleverna och i t.ex. Shanghai läser mellan 50 – 60 procent av eleverna extra på kvällsskola i ämnen där de redan har höga betyg. I Singapore tillbringar en vanlig högstadieelev dagligen runt 3h av sin fritid med särskilda test och provböcker (assessment books) samt ytterligare 2h i kvällsskola (Tan 2011, s. 162).

Tan menar att det inte är konstigt att elever från dessa städer presterar bra på internationella

kunskapsmätningar då de både kan mycket och är vana vid att tävla med kunskapsresultat genom papper och penna prov. Det finns dock en ytlighet i lärandet menar Tan och hänvisar till studier av arbetsgivare som klagar på hur skolan fostrar framtidens arbetskraft. Arbetsgivarna upplever att de anställda ofta saknar nyfikenhet, förmåga att ifrågasätta och kan främst lösa problem i en ”papper och penna”-kontext. Detta oroar även den politiska nivå skriver Tan, men så länge eleverna presterar bra på internationella kunskapsmätningar och kulturen hyllar resultat på enskilda examina, så är det svårt med mer progressiva reformer (2011, s. 164).