Validitet och kvalitetskriterier - FORSKNINGSFRÅGOR, UPPLÄGG- UPPLÄGG-NING OCH DATAINSAMLING

FORSKNINGSFRÅGOR, UPPLÄGG- UPPLÄGG-NING OCH DATAINSAMLING

5.4 Validitet och kvalitetskriterier

Validitet eller giltighet handlar om systematiska mätfel. Mäter de testupp-gifter och intervjufrågor vi valt det vi avser att mäta? Syftet i undervis-ningssekvensen är att eleverna ska lära sig evolutionsteorin för att beskriva, förstå, förklara och delvis förutsäga biologiska fenomen.

För att pröva detta har vi hämtat uppgifter från litteraturen, som har an-vänds i många undersökningar tidigare. De har alltså redan prövats av fors-kare, som är insatta i alternativa idéer inom området och dessutom kunniga i evolutionsteori. Dessa olika forskare ser liknande svårigheter i elevers el-ler studenters förståelse av evolutionsteorin. Många av uppgifterna har dessutom använts i olika länder och har översatts till flera olika språk. De får därför anses ha god innehållsvaliditet. Vår översättning till svenska från engelska skulle kunna påverka validiteten. Dock visar det sig i litteratur-genomgången att elever har liknande svårigheter att förstå och använda evolutionsteorin i olika länder. Prov och hemtentamen innehåller flera för eleverna nya uppgifter och i eftertestet finns dessutom åtminstone en för eleverna helt okänd uppgift. Detta medför att eleverna i testsituationer får

uppgifter med nya kontexter. Därmed anser jag att innehållsvaliditeten ökar.

Validitet används oftast i kvantitativa studier. Denna avhandling är kanske snarare att betrakta som en kvalitativ studie och det kan vara lämpligare att diskutera olika kvalitetskriterier (Larsson, 1994). Han menar att föreställ-ningar om kvalitet i vetenskapliga arbeten är fundamentala och presenterar olika kvalitetskriterier:

1. Kvaliteter i framställningen som helhet: perspektivmedvetenhet, intern logik,

etiskt värde

2. Kvaliteter i resultaten: innebördsrikedom, struktur, teoritillskott

3. Validitetskriterier: diskurskriteriet, heuristiskt värde, empirisk förankring,

konsistens, det pragmatiska kriteriet

Larsson påpekar att vissa företrädare för kvantitativa studier anser att kvali-tetskriterierna även är tillämpliga för dem, men författaren är skeptisk. Jag anser personligen att uppdelningen i kvantitativa och kvalitativa studier känns tveksam, men väljer att inte gå in i den diskussionen.

När det gäller kvaliteter i framställningen som helhet har jag i bakgrunden redogjort för vilken forskningstradition jag tillhör och vilken teoretisk platt-form min avhandling har. Jag försöker att tydligt visa mina forskningsfrå-gor och redovisar var i avhandlingen jag avser att besvara dem. Vad gäller etiska överväganden har samtliga elever skriftligen medgivit deltagande i undersökningen och jag har respekterat vissa elevers önskan att inte vilja ingå i intervjuer eller videoinspelningar. För omyndiga elever fick även föräldrarna skriva under. Alla elever är anonyma i avhandlingen. De infor-merades om att det de skrev på test eller sa i intervjuer skulle skrivas ut, men aldrig sättas i samband med deras namn. De flesta uppgifter som sam-lats in skulle jag dock inte betrakta som personligt känsliga utom kanske uppfattningar som religiös tro och andra livsåskådningar. Detta är dock en sak som endast eleven själv kan avgöra. Det kan vara möjligt för en elev att känna igen sitt eget svar eller uttalande. Risken att någon elev med säkerhet skulle kunna avgöra från vem någon annans uttalande eller svar kommer, anser jag dock vara liten.

Innebördsrikedom, som är en del av kvaliteter i resultaten, anser jag att jag ökar denna genom att undersöka elevernas sätt att förstå evolutionsteorin i sin helhet och dess delar med flera olika metoder, skriftliga test, intervjuer och smågruppsdiskussioner. Larsson (1994) skriver vidare att resultaten bör ha en så enkel och klar struktur som möjligt. Detta har jag försökt göra, men det är svårt att själv avgöra om det lyckats. När det gäller teoritillskott avslutar jag min avhandling med en vidareutvecklad hypotes till en

'ämnes-didaktisk teori för undervisning i biologisk evolution'. Min förhoppning är att denna ska upplevas som ett teoritillskott.

Larsson avslutar med validitetskriterier och först diskuterar han diskurskri-teriet som innebär att påståendena och argumenten klarar sig vid en pröv-ning mot andra. Jag har haft förmånen att arbeta inom ett projekt där vi pre-senterat delresultat på flera internationella konferenser. Vi har fått våra 'pa-per' accepterade för muntliga presentationer och dessutom har två 'pa'pa-per' publicerats i efterföljande refereebedömda konferensböcker (Wallin et al., 2001a; Hagman et al., 2003). Larssons nästa kriterium kallar han heuristiskt och han bedömer detta som centralt. Dess innebörd är att läsaren genom framställningen ska se någon aspekt av verkligheten på ett nytt sätt. Min förhoppning är att så är fallet, men att alla läsare skulle uppleva detta ver-kar stort och osannolikt. Det är kanske utifrån detta kriterium som läsaren kan göra en sluten generalisering. Denna studies empiriska förankring an-ser jag vara stark. Detta har flera orsaker bl.a. att jag har egen erfarenhet som lärare, att jag deltog i planering av undervisningssekvensen, att jag ob-serverade undervisning och att jag samlade in elevdata med flera olika me-toder. Konsistenskriteriet ser Larsson som tolkning som byggs upp av spe-let mellan del och helhet. Bygger de olika kapitlen i denna avhandling upp en helhet? Jag har försökt hålla helheten med hjälp av undervisning och lärande i evolutionsteori. Det sista kriteriet som Larsson tar upp är det pragmatiska. Jag hoppas att avhandlingsresultatet upplevs som användbart både av verksamma lärare och av forskare. Min förhoppning är att avhand-lingens resultat ska medverka till en förbättrad undervisning och att elever och studenter ska nå en förståelse av evolutionsteorin genom en undervis-ning som utgår ifrån deras förförståelse.

5.5 Reliabilitet

Reliabilitet eller tillförlitlighet är ett mått på ett tests precision. Reuterberg (1996) skriver att:

En förutsättning för att få en hög validitet är att mätinstrumentet också har en hög reliabilitet men en hög reliabilitet garanterar inte en hög validitet.

Det handlar främst om slumpmässiga mätfel. Det kan vara tillfälligheter under ett visst mättillfälle t.ex. eleverna ska direkt efter testtillfället ha ett stort betygsavgörande prov, det utförs en brandövning mitt i testtillfället m.m. Mig veterligen hände inget extraordinärt under de olika testtillfällena som ligger till grund för datainsamlingarna, utöver de bortfall som redovi-sats tidigare.

Vid kategorisering av elevsvar fungerar den person som utför dessa som mätinstrument. Reliabilitet har betydelsen pålitlighet hos uppmätta värden i

ett experiment, vilket bekräftas genom att detta kan upprepas med likartat resultat. Detta motsvarar interbedömarreliabilitet.

De flesta kategoriseringar av uppgifterna i de olika testen i denna avhand-ling bygger på analyser av i vilken utsträckning svaren innehåller alternati-va eller vetenskapliga idéer. Utifrån detta kategoriseras resonemangen i underkategorier. De alternativa idéerna kategoriseras utifrån vilken alterna-tiv idé de anses representera och de vetenskapliga utifrån de fem kompo-nenterna, 'variation', 'överlevnad', 'reproduktion', 'arv' och 'ackumulation'. Interbedömarreliabiliteten har undersökts för en av de öppna uppgifterna från för- och eftertest, nämligen geparduppgiften (se appendix 1). En inle-dande testning av reliabiliteten gjorde jag med hjälp av mina båda ämnes-didaktiska handledare, vilka inte är biologer. Jag valde slumpmässigt ut 50 svar och vi diskuterade kategoriseringssystemet. Vi kunde tillsammans kommunicera kategorierna och mina handledare kunde dessutom urskilja de olika komponenterna.

För att ytterligare analysera reliabiliteten i kategoriseringen gjorde jag själv om kategoriseringen av samtliga 333 elevsvar på geparduppgiften och jäm-förde mina båda kategoriseringstillfällen (tabell 5.2 och 5.3, samma per-son). Vid denna kategorisering diskriminerades inte mellan de olika alter-nativa idéerna, utan endast om svaret representerade alteralter-nativa eller veten-skapliga idéer och vilka komponenter svaret innehöll.

Tabell 5.2. Interbedömarreliabiliteten vid kategorisering av svar på geparduppgiften (n=333) utifrån om svaret representerar alternativa eller vetenskapliga idéer.

Interbedömarreliabilitet Idéer

samma person två personer

Alternativa eller

vetenskapliga idéer ^{98 %} ^{99 %}

Därefter skrev jag ner en instruktion över kategoriseringsförfarandets prin-ciper och en annan person i projektgruppen kategoriserade alla de 333 sva-ren (tabell 5.2 och 5.3, två personer). Vid alla dessa kategoriseringar ord-nades svaren slumpmässigt, både med avseende på testtyp (för- eller efter-test) och elevgrupp (experimentgrupper eller övriga). Resultatet från inter-bedömarreliabilitetstesten finns i tabell 5.2 och 5.3.

Efter en första jämförelse av kategoriseringsresultatet diskuterade vi våra respektive tolkningar av principerna för kategorisering och uppmärksam-made då att vi haft olika kriterier för komponenterna 'reproduktion' och 'ac-kumulation'. Vi kom överens om vilka kriterier vi skulle använda.

Reliabi-liteten med avseende på reproduktionskomponenten ändrades från 85 % till 95 %. Det blev dock ingen förbättring när det gäller ackumulationskompo-nenten. Denna första kontroll gjordes utan att vi studerade några konkreta elevsvar tillsammans. Efter detta diskuterade vi de återstående svaren, där vi gjort olika kategorisering, och vi lyckades enas om kategori i samtliga fall. Detta kategoriseringssystem används på flera uppgifter i avhandlingen, men ingen ytterligare kontroll av interbedömarreliabiliteten har gjorts.

Tabell 5.3. Interbedömarreliabiliteten vid kategorisering av svar på geparduppgiften (n=333). Sista raden repre-senterar de fem komponenterna sammantaget.

Interbedömarreliabilitet Komponent

samma person två personer

Variation 98 % 98 % Överlevnad 98 % 93 % Reproduktion 98 % 95 % Arv 95 % 95 % Ackumulation 97 % 89 % Sammantaget 89 % 77 %

DEL III

UNDERVISNING

DEL IV: Kapitel 7 – 11 DEL III: Kapitel 6

UNDERVISNINGSSEKVENS och UNDERVISNING ELEVERS KUNNANDE Formativ utvärdering Design Ämnesdidaktiska HYPOTESER som kan utvecklas till ämnesdidaktiska TEORIER Ämnes- didaktisk analys DEL V: Kapitel 12 – 13 DEL I: Kapitel 1 – 4

KAPITEL 6

UNDERVISNINGSSEKVENSEN

I detta kapitel aktualiseras den första av avhandlingens frågeställningar: 'Hur kan en undervisningssekvens i evolutionsteori som bygger på veten-skaplig grund och beprövad erfarenhet se ut?' Även om underlaget till detta kapitel i huvudsak härrör från exp3, bygger sekvensen på de två tidigare experimenten eftersom vi i projektet arbetade i en cyklisk process enligt figuren som inleder avhandlingens olika delar. Då vi utformade undervis-ningen till exp1 och exp2 hade vi inte explicit det jag nu kallar en ämnesdi-daktisk hypotes. Vi utgick från de litteraturstudier vi gjort om elevers idéer och undervisning i evolutionsteori (se kapitel 3 och 4; de som var publice-rade då) och vår egen beprövade erfarenhet. Mellan exp1 och exp2 hade våra analyser enbart gällt våra egna elevers uppfattningar om evolution ut-ifrån förtest. Mellan exp2 och exp3 utförde vi analyser av elevers kunnande och hade en ämnesdidaktisk hypotes inför designarbetet även om vi inte kallade den så vid denna tidpunkt.

Kapitlet inleds med en beskrivning av våra utgångspunkter därefter redo-görs för designprocessen där lektionssekvensen och undervisningen presen-teras.

In document Evolutionsteorin i klassrummet (Page 89-97)