Metoden - Hur många poäng måste jag ha för att få VG?

5. Diskussion

5.5 Metoden

Som beskrivits i 2.6 Samstämmighet bör man vara medveten om att analyser av enskilda prov kan visa på låg samstämmighet med styrdokument då det inte är säkert att enstaka prov täcker in ett helt område. Detta kan leda till ett missvisande resultat i denna undersökning. Dock är den enkät som genomförts ett sätt att kompensera för detta då lärarna där kan ange andra sätt att testa uppfyllandet av vissa betygskriterier. Dessutom är utgångspunkten inte att påtala brister i betygssättningen i helhet, utan det denna undersökning hoppas visa på är hur det ser ut i just dessa specifika prov. Vi är väl medvetna om att brister som framkommer här kan kompenseras under hela kursens gång, både i form av andra skriftliga prov och genom andra former av bedömning.

Det var ett stort bortfall i undersökningen, framförallt gällande enkäten. Vad detta beror på är något oklart, men en förklaring kan vara att vissa av lärarna är verksamma i ett område där de ofta är föremål för undersökningar och därigenom kan vara mindre motiverade att delta i fler. Dessutom fick informanterna information kring undersökning med relativt kort varsel före deras medverkan och de hade även begränsad tid till att svara. Dock var enkäten så pass kort-fattad att detta inte bör utgöra något större hinder.

En metod för att få in fler svar genom att sätta högre press på informanterna är att ha märkta kuvert så att det går att se vilka som skickat in enkätsvar (se Trost 2001). Då går det även att skicka påminnelser specifikt till de som inte svarat. Dock var det ett medvetet val att inte

be-gagna sig av sådana metoder i denna undersökning eftersom det kan ses som en inskränkning av informanternas anonymitet. Särskilt viktigt ansåg vi detta vara då undersökningen är av så pass liten omfattning. Därför gjordes bara allmänna påminnelser som kanske inte tas på lika stort allvar som en personligt inriktad.

Något som framkommit under undersökningens gång är de brister som Blooms reviderade taxonomi har för studier av de svenska betygskriterierna. Framförallt beror detta på utform-ningen av de svenska kriterierna där stor vikt läggs vid graden av självständighet som eleven uppvisar (jämför till exempel ”Eleven bidrar vid val av metoder (…)” och ”Eleven medverkar vid val av metod (…)”, se bilaga 2), något som inte taxonomin tar hänsyn till. Ett alternativ hade varit att byta ut kunskapsdimensionen mot en skala av ökande självständighet. Samtidigt förloras dock de olika kunskapsformerna som uppvisar stora likheter med de fyra kunskaps-formerna som beskrivs i SOU 1992:94 och som utgör en grund för kunskapssynen i läropla-ner och betygskriterier. Vidare talas det ofta om kunskaper och resultat i betygskriterierna, termer som är så vaga att de är svåra att kategorisera som fakta- eller begreppskunskap (till exempel ”Eleven (…) tillämpar sina kunskaper i kemi (…)”, se bilaga 2).

Ytterligare något som kan vara värt att diskutera är värdet av de olika betygskriterierna och provuppgifterna. Enligt den metod som använts här får varje uppgift/kriterium lika mycket värde, eller tyngd, som de ingående frågorna/kraven. Det vill säga, ett kriterium som egentli-gen går att dela upp i fem delkrav kommer att ge fem träffar i matrisen. Likaså kan en och samma uppgift ge upphov till flera träffar om det går att dela upp den i flera delfrågor. Som redan beskrivits under 3.3 Analys av prov- och betygskriterier kan man även ge provuppgif-terna ett värde efter hur många poäng de är värda i provet och på så sätt kommer provkon-struktörens val av betoning fram på ett bättre sätt. För att detta ska fungera krävs dock en likvärdig poängsättning mellan de olika prov som analyseras, något som inte kan garanteras. Om så inte är fallet finns det en risk att ett av proven omfattar fler poäng än det andra. Resul-tatet blir då att det prov som ger fler poäng får större vikt i analysen trots att de båda proven omfattar samma innehåll, både ur ett kvantitativt och ur ett kvalitativt perspektiv.

5.5.1 Reliabilitet

En fråga som är viktig att ställa sig både vid planering av en undersökning och i efterhand, då undersökningen utvärderas, är frågan om undersökningens reliabilitet, validitet och möjlighe-ter till generalisering av resultatet.

Gällande reliabiliteten finns det ett antal punkter som talar för att undersökningen verkligen är pålitlig. Något som talar för den valda kategoriseringsmodellen är den undersökning som Näsström (2009) genomfört, där resultatet visar att Blooms reviderade taxonomi var lämpli-gare för att analysera svenska styrdokument än Porters modell.

Vidare har undersökningen genomförts genom en metod som hämtat inspiration från både Porters metod (Porter 2002; Porter et al. 2007) och Webbs metod (Webb 1999, 2007) och även synpunkter från Bhola, Impara och Buckendahls (2003) utvärdering av analysmetoder togs i beaktande. Enligt detta genomfördes ett antal övningsanalyser innan de riktiga analy-serna genomfördes, dels på andra ämnens betygskriterier (kemi a och fysik a) och dels på prov inom området men som inte ingick i undersökning. På detta sätt nåddes en högre nivå av konsensus rörande hur uppgifter sorteras in i Blooms reviderade taxonomi mellan oss som agerade bedömare. Vi genomförde även analysen av betygskriterierna för kemi b i samråd, enligt direktiv i Webb (1999, 2007). Denna träning och analys i samråd anser vi har ökat sä-kerheten i våra bedömningar och framstegen var för oss tydligt märkbara. Det visar även re-sultatet från samstämmighetsanalysen, se 4.1 Samstämmighet mellan bedömarna

(interbedö-marreliabilitet). Om Webbs gränsvärde på 0,7 för acceptabel samstämmighet används (Webb 2007) så visar det sig att samstämmigheten för alla prov sammantaget är klart godkänd (0,83). Ser man till enskilda prov så är det på prov ett som samstämmighetsindexet ligger lägst (0,69). Dock anser Webb att värden som ligger mellan 0,6 och 0,7 är någonstans mellan en acceptabel (>0,7) och en icke acceptabel nivå (<0,6), och därför får detta värde ses som godkänt, om än på gränsen.

Den största avvikelsen mellan bedömningarna i denna undersökning berodde på vad som kategoriserades som faktakunskap och vad som kategoriserades som begreppskunskap. Många delar av kemin kan anses ligga mitt emellan dessa två begrepp, till exempel struktur-formler som beskriver molekylers utseende. Vissa av dessa är enkla och både struktur och namn kan läras in utantill som klart avgränsade bitar av information, alltså faktakunskap. Andra är komplexa och består snarare av sammansatta faktakunskaper (begreppskunskap). Gränsdragning mellan dessa båda försvårade kategoriseringsarbetet.

Något som till viss del kompenserar för dessa svårigheter är det faktum att ett snitt av be-dömningarna användes, och på så sätt kan en kunskapsdimension som en bedömare anser är

fakta och en annan anser är begrepp rent statistiskt hamna mitt emellan. Genom den kompen-sation som sker får en bedömares ”fel” mindre påverkan och reliabiliteten ökar. Tilläggas bör att fel placeras inom citationstecken då det inte finns något facit till analyserna utan de är som alla bedömningar subjektiva, även om det finns stöd form av tydliga förklaringar av de olika kategorierna. Viktigt är dock att en samstämmig syn råder inom en och samma undersökning. Subjektiviteten gör det svårt att garantera ett likvärdigt resultat om undersökningen upprepas av andra, men då Andersson och Krathwohl (2001) förtydligar sina kognitiva processer och kunskapsformer noga bör även denna aspekt av reliabiliteten vara på en acceptabel nivå.

Något som hade ökat metodens säkerhet är fler bedömare. Ju fler bedömarna är, desto högre blir reliabiliteten (Webb 1999). Det kan även diskuteras vilka som bör ingå i en grupp bedö-mare. Både ämnesexperter, styrdokumentsexperter och lärare nämns i litteraturen som lämp-liga bedömare (Bhola, Impara & Buckendahl 2003; Webb 1999, se 3.3 Analys av prov- och

betygskriterier), även om lärare visar sig ha lägre interbedömarreliabilitet än provexperter i Näsströms (2008) undersökning. Det är dock värt att påpeka att även det lägsta beräknade interbedömarsamstämmighets-indexet i denna undersökning (0,69) överstiger den högsta beräknade i Näsströms undersökning (0,65).

De svenska målen och betygskriterierna är relativt generella och vaga, vilket lätt leder till spretiga tolkningar (se till exempel Korp 2006; Näsström 2008; Selghed 2006). I och med detta kan reliabiliteten i undersökningar riktade mot det svenska betygssystemet bli något lägre än i undersökningar riktade mot till exempel det amerikanska betygssystemet, vilket har betydligt tydligare, mer detaljerade mål. I en undersökning som Näsström (2008) gjort dela-des de svenska målen upp i flera, enklare mål och andelen mål som hamnade i flera kategori-er minskade då från 89 % till 60 %, men Näsström tolkar detta som en relativt liten minsk-ning och detta bör innebära att skillnaderna i olika nationers betygssystem inte heller bör på-verka reliabiliteten alltför mycket.

5.5.2 Validitet

Något som kan påverka validiteten i undersökningen är den kategoriseringsmodell som vi valt att använda. Faktum är att betygskriterierna kan vara grundade på en helt annan kun-skapssyn än vad Blooms reviderade taxonomi är, och därför behöver inte det som i det svenska betygssystemet anses motsvara ett högt betyg överensstämma med det som i Blooms reviderade taxonomi värderas som mer komplexa kognitiva processer. Framförallt blir detta

ett giltigt ifrågasättande då flera författare skriver om de svenska betygskriterierna avsaknad av vetenskaplig grund (Andersson 1999; Jansdotter Samuelsson och Nordgren 2008, se 2.4.4

Betygskriteriernas funktion). Dock visar vårt resultat att de tre betygsstegen fördelar sig i matrisen på det sätt som kan förväntas av tre olika nivåer av alltmer fördjupade kognitiv för-ståelse (se fig. 1). Detta tyder trots allt på en jämförbar syn på kunskap mellan Blooms revi-derade taxonomi och de svenska betygskriterierna och validerar på så sätt användandet av denna kategoriseringsmodell i undersökningen. Dock hade en modifierad taxonomi kunna appliceras ännu bättre på de svenska betygskriterierna, något som diskuteras vidare i 5.1 Me-tod .

5.5.3 Generaliserbarhet

Eftersom informanterna är få till antalet och valda ur ett lokalt bekvämlighetsperspektiv kan resultatet från vår undersökning inte visa på några generella trender. Däremot visar under-sökningen verkliga exempel som kan jämföras med trender som beskrivs i litteraturen. En samstämmighetsanalys i större kvantitet ur ett nationellt perspektiv bör vara av intresse, då detta skulle kunna visa på eventuella brister och behov av åtgärder gällande samstämmighe-ten mellan kursplaner och prov. Detta är något som inte finns idag, även om likvärdighet i betygssättningen är ett hett ämne.

In document Hur många poäng måste jag ha för att få VG? (Page 48-52)