Frågor och reflektioner - Att bedöma språklig kompetens

En studie som denna, avseende en jämförelse mellan tre eller fyra distraktorer i flervalsfrågor, väcker naturligtvis ett antal följdfrågor, som till exempel:

• Treval vid flervalsfrågor av MC-format verkar generellt inte påverka upp-giftens reliabilitet negativt. Är det då självklart att använda tre distraktorer överlag? Eller hur många svarsalternativ bör egentligen användas? Bör till exempel läs- och hörförståelse hanteras olika i detta avseende? • Treval verkar göra uppgiften lättare. Riskerar MC-frågor med fler alternativ

att störas mer eller mindre än MC med färre alternativ eller öppna frågor, av irrelevanta faktorer eller förmågor? Hur mycket spelar andra faktorer än de som avses prövas in när provtagare ställs inför en flervalsfråga, såsom t.ex. läshastighet, minneskapacitet, testwiseness och provnervositet?

• Som argument för prov med flervalsfrågor, framförs ibland att dessa är mer ’objektiva’ än prov med öppna svarsalternativ. Är det så? Lindblad (1990) påpekar att det ’objektiva’ i flervalsprov handlar om bedömningen ‒ vad som ingår i provet och hur uppgifterna utformas är däremot sub-jektivt: ”Detta förbises ibland som en följd av ordets makt över tanken.” (s. 281) Ett liknande resonemang förs i Gemensam europeisk referens-ram för språk (Council of Europe/Skolverket, 2009, s. 186).

• Inför den omfattande digitaliseringen av de nationella proven i Sverige, som föreslås vara utbyggd 2022, är det inte orimligt att tänka sig att MC och andra flervalsformat blir populära eftersom de kan rättas maskinellt. Önskar då de som förespråkar effektiva prov med ’central’ rättning att vi går tillbaka till en uppgraderad variant av 1930-talets armétester i flervals-format och en centralt placerad IBM Model 805 Test Scoring Machine, som

och ’objektiva’ och väljer vi då bort domäner och färdigheter som inbegriper mer tidskrävande bedömningar?

• Det vore intressant att göra en liknande studie, med högre jämförbarhet avseende utprövningsgrupper, design och genomförande. Skulle en sådan studie ge liknande resultat som denna?

Överväganden kring vilka frågeformat som är lämpliga i en provuppgift bör utgå ifrån provets övergripande syfte, vilken typ av prov det är samt vad det avser pröva och indikera genom resultat. Denna studie utgick från en uppgift som avser pröva hörförståelse och som eventuellt kommer att ingå i ett natio-nellt, betygsstödjande prov av proficiency-typ för gymnasieskolan. För att eleven

ska ges goda möjligheter att visa sin förmåga varieras uppgiftstyper och skriv- respektive läsmängd hålls nere. I denna kontext förefaller MC med treval vara ett gott alternativ till öppna frågor.

Vid konstruktion av MC med tre distraktorer valdes att utgå från en version av uppgiften med fyra distraktorer och att, efter en mindre utprövning, stryka ett alternativ. Detta föll väl ut och kan vara ett led i att kvalitetssäkra de alterna-tiv som behålls i en trevalsfråga. Vilka distraktorer som tas bort, och på vilka grunder detta görs, är emellertid utan tvekan en mångfasetterad process som behöver diskuteras, dokumenteras och motiveras. Det kan vara värt att notera att i den här aktuella uppgiften var frågor med öppet svarsformat överlag mer reliabla och hade överlag högre lösningsfrekvens än flervalsfrågorna, i båda utprövningsgrupperna.

Enligt Downing (2006) är utbildning av provutvecklare en betydande inves-tering: ”… writing effective selected-response items is a non-trivial skill, requiring a great deal of costly professional time and effort from content experts” (s. 292). Han noterar även: “Per item costs are variable, but it is not unreasonable for a very high-stakes testing program to value its items at more than USD 1,000 per item.” Thorndike (1967) beskriver

itemkonstruktion som den förmodligen mest krävande tänkbara sortens krea-tivt skrivande: “Not only must the item writer understand content measured by the item but must determine whether the cognitive demand will involve recall, understand, or application. Originality and clarity are key features of well written test items.” (Haladyna, 2004, s. 65).

För att avslutningsvis återknyta till rubriken till detta kapitel, Är det farligt att köra MC?, skulle en slutsats kunna vara att konstruktionen behöver vara robust,

säker och funktionell om vi planerar att köra MC. Detta gäller även underlaget: noggrann bearbetning och provkörning med miniutprövningar ger värdefulla

data om MC:ns egenskaper och kvaliteter, såsom dess stabilitet och tillförlitlig-het. Provkonstruktörer bör också följa etablerade rekommendationer, eller trafikregler om så önskas, för att köra MC så säkert som möjligt.

Så här beskriver Downing (2006) konsten att köra MC:

”Item writing is both art and science. There are scientifically sound principles of item writing, but the creation of effective multiple-choice items requires the skillful application of these principles to the content to be tested. That is the art.”

(s. 293)

Referenser

Chapelle, C. A. & Douglas, D. (2006). Assessing Language through Computer Technology. Cambridge: Cambridge University Press.

Council of Europe/Skolverket. (2009). Gemensam europeisk referensram för språk: lärande, undervisning och bedömning. Stockholm: Skolverket.

www.skolverket.se > Om Skolverket > Publikationer.

Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. I

Psychometrika, September 1951, Volume 16, Issue 3, pp 297–334.

Downing, S. M. (2006). Selected-Response Item Formats in Test Development. I S. M. Downing & T. M. Haladyna (Red.), Handbook of Test Development

(s. 287–301). Mahwah: Lawrence Erlbaum Associates, Inc.

Erickson, G. (2009). ”Att bäras åt” ‒ Om den goda bedömningens flerfaldighet och ömsesidighet. I U. Tornberg, et al. Språkdidaktiska perspektiv. Om lärande och undervisning i främmande språk (s. 159–174). Stockholm: Liber.

Haladyna, T. M. (2004). Developing and Validating Multiple-Choice Test Items. New

York: Routledge Taylor & Francis Group.

Lee, H. S. & Winke, P. (2013). The differences among three-, four-, and five-option item formats in the context of a high-stakes English language listening test. I G. Fulcher & A. Ginther (Red.), Language Testing, 30,(1)

(s. 99–123). Singapore: SAGE Publications Ltd.

Lindblad, T. (1990). Prov och bedömning i främmande språk. I K. Thorsén (Red.), Undervisning i främmande språk. Kommentarmaterial Lgr 80. (s. 274–

298). Stockholm: Skolöverstyrelsen och Utbildningsförlaget.

Projektet Nationella prov i främmande språk. Engelska 5 och 6. Bedömning. http://nafs.gu.se/prov_engelska/engelska_gymn/bedomning

Rodriguez, M. C. (2005). Three options are optimal for multiple-choice items: A meta-analysis of 80 years of research. I Educational Measurement: Issues and Practice. 24(2), 3–13. Philadelphia: National Council on Measurement

Studentlitteratur. (1972). Konsten att göra flervalsfrågor. I allt väsentligt är innehållet

hämtat från Bengt Ramund: Hur ska man fråga? – en artikel i Under-visningsteknologi, 1967(8). Lund: Studentlitteratur.

Wikström, C. (2013). Konsten att göra bra prov – vad lärare behöver veta om kunskaps-mätning. Stockholm: Natur & Kultur.

Tre texter om test-taker feedback

In document Att bedöma språklig kompetens (Page 63-67)