Begreppslig bakgrund - Att bedöma språklig kompetens

Multiple choice (MC) är förmodligen det vanligaste selected response-formatet (flerval)

i storskaliga prov världen över och används även i de svenska nationella prov-materialen för språk. Det finns ett flertal varianter av flervalsformat, men i den här aktuella texten avses med MC den specifika uppgiftstyp som består av en fråga och ett antal svarsalternativ, av vilka provtagaren ska markera ett som det rätta genom att sätta ett kryss. Downing (2006) ger följande definition av selected

response: “… examinees are required to choose an answer to a question or a statement from a listing of several possible answers” (s. 287).

MC som svarsformat introducerades i USA under första världskriget för användning i Army Alpha-testet i syfte att effektivt sortera och klassificera ett

stort antal armérekryter som skulle matchas och utbildas för lämpliga uppgifter. Flervalsformatet visade sig lämpligare för ändamålet än öppna svarsformat där provtagaren själv ska formulera ett svar (Downing, 2006).

Ungefär 20 år senare introducerades maskinell rättning. Chapelle och Douglas (2006) nämner modellen IBM 805 Test Scoring Machine vilken lanserades redan

1935 och som hade kapacitet att rätta tio gånger snabbare än en människa. En erfaren operatör kunde rapportera upp till 1000 prov i timmen (16,7 prov/minut) genom att släppa ned ett svarsblad i taget.

Lindblad (1990, s. 279ff) hänvisar till Spolsky (1976) och beskriver hur flervals-formatet efter andra världskriget introducerades i en svensk kontext:

”På vetenskapsteorins område var det positivismen som gällde och i fråga om

mätningar givetvis statistiken. Det just sagda förklarar varför Spolsky kallar de

nya tendenser som gradvis ökade i användning under 1950- och 1960-talen för strukturalistisk-psykometriska. I Sverige kan dessa tendenser sägas ha slagit

igenom fullt ut i och med de nya centrala proven 1967 och, delvis, i de stan-dardprov i engelska i årskurs 6 och 8 som introducerades i början av 70-talet.”

Lindblad noterar att ett typiskt inslag i de prov som konstruerades enligt dessa principer var att de byggdes upp av discrete point items, d.v.s. bedömdes som rätt

eller fel (1 eller 0 poäng) och att detta tillät statistiska analyser. Dessa kunde i sin tur användas för att kontrollera och påverka provens mättillförlitlighet, reliabilitet. Lindblad (s. 281) konstaterar: ”Man kom därför att arbeta mycket med flervalsuppgifter, där i de flesta fall ett svar var rätt (eller i varje fall måste anses vara det bästa) och alla andra bedömdes som fel, även om graden av felaktighet kunde variera.”

IBM Model 805 Test Scoring Machine (IBM Corporation, 2002)

A. Hur många alternativ bör man använda?

Rodriguez (2005) redovisar i en metaanalys hur forskare i över 90 år har försökt komma fram till lämpligt antal MC-alternativ. Den vanligaste frågan har varit huruvida de bör vara tre, fyra eller fem. Lee och Winke (2013) noterar att ett stort antal källor propagerar för tre svarsalternativ och menar att “they are easier to write, have more effective distractors, and take less time to administer” (s. 100).

Rodriguez (2005) för ett liknande resonemang: “Using more options does little to improve item and test score statistics and typically results in implausible distractors” (s. 11).

Även Downing och Haladyna (1993) visar i en studie att tre svarsalternativ oftast är tillräckligt. Fler alternativ än så anses inte statistiskt funktionella, d.v.s. väljs inte av en tillräckligt stor procentandel provtagare. Downing (2006) konstaterar senare med viss förvåning att traditionen med antingen fyra eller fem svarsalternativ är stark, trots forskningsevidens.

Lee och Winke (2013) redovisar i en studie effekter av tre, fyra och fem svarsalternativ vid prövning av engelsk hörförståelse. Studien baseras på College Scholastic Ability Tests (CSAT) 2011, ett storskaligt high stakes-prov för

högskole-intagning i Sydkorea (N=648 946). När studien genomfördes 2011 användes fem svarsalternativ i provet, som fram till 1993 hade haft fyra alternativ. En brett sammansatt grupp referenter och provtagare ombads ta bort det svars-alternativ de ansåg minst sannolikt som det rätta. Detta gjordes i tre olika prov i två omgångar för att skapa prov med respektive fem, fyra och tre svars-alternativ per fråga, vilket resulterade i nio olika prov (3x3). Dessa prov gjordes av närmare tre hundra studenter i tre försöksgrupper vilka gjorde tre av nio prov vardera med en veckas intervall. Grupperna testades diagnostiskt för jämförbarhet.

Lee och Winke menar att de observerade signifikant högre lösningsfrek-venser (medelvärden uttryckta i procent) för prov med tre svarsalternativ (d.v.s. de är lättare), vilket de anser ligga i linje med tidigare forskning. De fann där-emot ingen signifikant skillnad när det gäller svårighetsgrad när de jämförde prov med fyra respektive fem alternativ, och kunde inte heller visa på något mönster avseende variationer i reliabilitetsdata mellan olika antal svarsalternativ och olika versioner. Lee och Winke spekulerar i huruvida de låga korrelatio-nerna mellan svarsformat beror på att fler alternativ eventuellt kan involvera andra färdigheter än hörförståelse: “… fewer options […] may rely less on construct irrelevant skills such as testwiseness, L1 reading speed, and test anxiety.” (s. 115ff). De

provkonstruktörer behöver betänka statistiska, affektiva och kontextuella fakto-rer för att avgöra det optimala antalet svarsalternativ. Även små skillnader i provresultat kan behövas för att finmaskigt differentiera provtagares presta-tioner, och ett prov behöver finna acceptans bland alla inblandade. Ska provet resultera i ett flertal betygssteg eller bara ge godkänt/inte godkänt? Kan accep-tans uppnås för prov med tre svarsalternativ om de ‒ korrekt eller inte ‒ uppfattas som lättare att gissa rätt på?

B. Vilken roll spelar det att provtagare kan gissa?

En kritik mot flervalsformat grundar sig på att provtagaren förmodas lättare kunna gissa sig till rätt svar än vid öppna format. Detta har föranlett studier kring eventuella gissningseffekter på provresultat och reliabilitet. Wikström (2013) redovisar några argument och sammanfattar: ”Det tycks […] råda enig-het kring det faktum att gissning är ett problem och att risken för korrekt giss-ning ökar om frågorna är av bristande kvalitet” (s. 77f). Det framgår dock inte om det är storskaliga, utprövade prov eller klassrumsprov som avses. Enligt Lindblad (1990) bör lärare vara försiktiga med att använda flervalsuppgifter i egna prov och inte ha alltför stor tilltro till att dessa självklart skulle vara mer ’objektiva’ än prov med öppna svarsformat.

Downing (2006) påpekar att reliabilitetsdata skulle försvagas om slump-mässig gissning vore ett allvarligt problem. Han konstaterar att detta typiskt inte är fallet i väl utvecklade prov, framför allt inte i prov med ett stort antal items. Han menar att den statistiska sannolikheten i ett prov med 30 flervalsfrågor att få 70% rätt är mycket låg (0,0000356), vilket skulle tala emot att slumpmässig gissning i någon större utsträckning skulle kunna påverka ett provresultat. Lee och Winke (2013) refererar till Rodriguez (2005) som, liksom Haladyna (2004), avfärdar slumpmässig gissning som en statistiskt försumbar faktor och i stället diskuterar provtagares strategier: ”Most test takers […] do not blindly guess; rather, they make educated guesses” (s. 102).

För att minska risken för att provtagare alltför enkelt ska kunna genomskåda felaktiga svarsalternativ manar Haladyna (2004) provkonstruktörer att använda rekommendationer för konstruktion av flerval som tillkom under 1980-talet. Dessa är enligt Downing (2006) ”based on a consensus of the educational measurement textbook authors and empirical research studies” (s. 290). Rekommendationerna

C. Vilka typer av kunskaper och färdigheter kan MC mäta?

Den domän av kunskaper och färdigheter som avses mätas är av stor vikt vid val av format. En vanlig kritisk synpunkt kring flervalsfrågor är att de mäter kunskap på lägre kognitiva nivåer, såsom enkla fakta och minneskunskaper, och att kunskaper på de högre kognitiva nivåerna hellre bör mätas på andra sätt (Wikström, 2013).

Downing (2006) hävdar å andra sidan att flervalsformatet är det lämpligaste för att mäta kognitiv förmåga, framför allt på högre nivå, såsom problem-lösning, syntes och utvärdering, och att det är mycket användbart och lämpligt för prov som avser inferenser till en vid domän av kunskaper, förmågor eller kognitiva färdigheter. En stor fördel som tas upp är att det flexibla och mång-sidiga flervalsformatet kan presenteras på alla nivåer av den kognitiva domänen. Detta gäller, enligt Downing, under förutsättning att provkonstruktionen genomförs på ett tillfredsställande sätt.

Haladyna (2004) tar upp två studier som jämför flervalsformat med öppna svarsformat avseende de kognitiva nivåer som prövas och finner att det är en frågas utformning snarare än formattyp som styr dess kognitiva komplexitet. Downing (2006) refererar till Rodriguez (2003) som konstaterar att frågor med likvärdig komplexitet, oavsett flervalsformat eller öppet svarsformat, uppvisar mycket hög korrelation. Downing hävdar att öppna svarsformat är mindre effektiva, ofta producerar mindre reliabla resultat och riskerar att täcka en för liten del av domänen, och konstaterar: “Constructed response items should be used only for those content skill areas that cannot be measured by selected response items.” (s. 288).

Downing förespråkar dock användning av öppna svarsformat vid prövning av t.ex. skriftlig produktion och kognitiv förmåga med hög komplexitets- och inferensnivå. Haladyna å sin sida rekommenderar varierade svarsformat för att optimera mätning av olikartade innehåll och kognitiva processer, eftersom de öppna svarsformat som finns för att testa högre kognitiva nivåer är fler än flervalsformaten.

D. Vad är viktigt att tänka på vid konstruktion av MC?

Såväl Downing (2006) som Haladyna (2004) återger de rekommendationer för konstruktion av MC som tidigare nämnts, och understryker att kritiken mot flervalsformatet oftast handlar om att det skulle generera bedömning av trivial kunskap på låg nivå; viss forskningsevidens tyder dock på att problemet inte ligger i själva flervalsformatet, utan i provkonstruktion som inte kvalitetssäkrats. Här följer en förkortad version av dessa rekommendationer.

• Undvik trivialt innehåll.

• Se till att innehållet i varje item hålls oberoende av och inte överlappar med andra. • Undvik items baserade på åsikter, eller börja med till exempel “According to …” • Ställ upp items vertikalt.

• Använd förkortningar sparsamt.

• Använd enklast möjliga språk så att läsförståelse inte interfererar med det som ska prövas.

• Undvik onödig mångordighet för att minimera lästid, både i stam och alternativ, utan att detta inverkar på innehållet som prövas och de kognitiva krav som ställs.

• Se till att anvisningarna i stammen är mycket klara.

• Undvik negationer i stammen. Om negation används, använd kursiv eller fet stil ‒ negationer kräver större arbetsminne hos provtagaren.

• Se till att bara ett svar är rätt.

• Gör distraktorerna plausibla, gärna i sig korrekta påståenden, men felaktiga svar på frågan.

• Variera plats för rätt svar och balansera facit så att rätt svar återfinns lika ofta på de olika positionerna.

• Gör alternativen ungefär lika långa.

• Placera alternativen i logisk eller numerisk ordning, till exempel alfabetiskt eller med hänsyn till hur långa de är (kortast till längst eller vice versa).

• Konstruera innehållsligt och grammatiskt homogena alternativ.

• Undvik att ge ledtrådar till rätt svar genom till exempel grammatisk inkonsekvens, iögonfallande rätt svar samt par eller tripplar av alternativ.

• Använd vanliga felaktiga elevsvar på öppna frågor för att skapa distraktorer. • Undvik humor i high-stakes-prov.

In document Att bedöma språklig kompetens (Page 51-57)