Problem och fördelar vid olika typer av experimentella undersökningar : Inlägg vid seminariet "Kan vi stole på forskningen?" Oslo, november 1991

(1)

VTInotat

Nummer: TF 54-15 Datum: 1991-11-27

Titel: Problem Och fördelar vid olika typer av experimentella undersökningar. lnlägg vid seminariet "Kan vi stole på forskningen?" Oslo, november 1991

Författare: Nils Petter Gregersen

Avdelning: TF

Projektnummer: 54024-5

Projektnamn: Förarutbildning Uppdragsgivare: Egen FoU Distribution: Begränsad '

. Pa: §81 01 Linköping. Tel:_013-ZQ4Q_OQ. Telex 50125 VTISGIS. Telefax 013-14 1436

Inst/talet Besok. Olaus Magnus vag 32 Llnkopmg

(db

1

(2)

db ,

vi

Vägval:Dafilr-Institutet

NP Gregersen

Problem och fördelar vid olika typer av experimentella undersökningar

Inlägg vid seminariet "Kan vi stole på forskningen? Vurdering av forskningsmetoder

ved evaluering av föreropplaering", Leangkollen, 5-6. nov 1991. Nils Petter Gregersen

Vad är experiment?

Min avsikt är att visa på skillnaden mellan experimentella och icke experimentella studier, men att också visa att det är omöjligt att dra en strikt gräns mellan de båda. En experimentell studie är en empirisk studie där forskaren har kontroll över de bakomliggande faktorer som kan påverka det som skall mätas.

En icke experimentell studie är när forskaren inte har denna kontroll.

Låt oss tänka oss att vi vill evaluera en ny utbildningsform, tex det nu aktuella att

sänka åldersgränsen för övningskörning till 16 år.

Enklaste formen är att se hur det går för nya körkortstagare efter att 16-årsgränsen införts, dvs en före-efter design. Det huvudsakliga problemet är att man inte har något att jämföra med. Det finns en osäkerhet om det var 16-årsgränsen eller något

annat, tex tidstrend, nya regler el likn som orsakade en förändring. Vi har alltså

inte kontroll över dessa bakomliggande faktorer.

Ett minimikrav är alltså att vi kan jämföra med något.

Ett alternativ är då att vi jämför med de som under samma tidsperiod inte utnyttjar

möjligheten att börja vid 16 år. Vi anVänder de som börjar vid 17% år som

jämförelsegrupp.

Vi har 2 grupper. 16-års och 171/2-års grupper. Är detta ett experiment? Nej. Det finns också här många bakomliggande faktorer som vi inte har kontroll över. Om vi

antar att det är frivilligt att utnyttja lÖ-årsgränsen så har vi genast en olikhet i

grupperna. Man kan tex anta att de som väljer att börja vid 16 är speciella på olika sätt, tex att de är fler män, att de är mer initiativrika, att de gärna vill ut och köra bil så tidigt som möjligt, att de har speciellt intresserade föräldrar osv. Om 16-årsgruppen då skulle klara sig bättre vet vi inte om det var våråtgärd eller om det var olikhetema i gruppsammansättning som låg bakom.

En variant skulle kunna vara att dela Sverige i två delar. Halva får 16-årsgräns och andra halvan inte. Här får vi andra bakomliggande faktorer som kan snedvrida

(3)

resultaten, tex geografiska skillnader, väder, väglag, kultur, tätortsgrad, vägtyper,

mängd trañk osv. Alltså inget experiment.

Hur gör man då för att få grupperna lika? Praktiskt är detta i stort sett omöjligt.

Normalt, om man skall fördela till två grupper så att de blir lika är att använda

slumpen. Med slumpen kan man med ganska stor (och beräkningsbar) sannolikhet fördela bakomliggande faktorer lika i olika grupper, tex en försöks- och en experimentgrupp.

Vi tar då en grupp 15-åringar som vi slumpar i två grupper. Den ena erbjuds

16-ärsgräns, den andra får vänta till 17%. Vad får vi då för bekymmer? Jo, det

kommer att vara många i lö-årsgruppen som inte vill börja, och därför blir bortfall. Ett stort bortfall gör att en speciell grupp blir kvar, som då inte är lika

kontrollgruppen som består av både intresserade och ointresserade.

Låt oss istället ta en grupp 15-åringar och erbjuda dem att vara med i

16-ärsgruppen. De som tackar ja delar vi med slumpen in i två grupper varav den ena

får veta att de tyvärr inte fick plats. Då först har vi två lika grupper. Men försöket

är inte praktiskt genomförbart. Det kräver t ex praktiskt att man kan koncentrera

eleverna till ett begränsat antal skolor. Vi måste därför styra urvalet något.

Ytterligare ett problem med den sista designen är att grupperna är lika när de

fördelas, men de kommer inte att vara lika när de börjar sin utbildning.

171/2-årsgruppen börjar sin utbildning 11/2 år senare. Det kommer under denna tid att med accumulerade slumpvariationer troligen att bli mer osäkert med likheten, och

därmed kontrollen av de bakomliggande faktorerna.

Man berör här ett kämproblem, nämligen att det inte går att slumpfördela i två

grupper där skillnaden mellan grupperna skall vara t ex ålder, kön, handikapp, etc.

Dvs sådana kriterier som man inte "stoppar in själv". Grupperna kommer alltid att

vara olika.

Exempel på motsatsen är VTI:s Televerksstudie. Det vi ville var att prova effekt av

utbildning jämfört med vissa andra åtgärder. Vi fördelade förare till olika grupper

där varje grupp fick en typ av åtgärd. Är grupperna tillräckligt stora, vilket man kan

beräkna med sk "poweranalys" kan man med viss säkerhet säga att de är lika och att

resultaten inte beror på slumpen.

I Televerket hade vi nästan så. Vi fick dock kombinera slump och matchning, som

är ett annat sätt att hjälpa till att göra grupperna lika. Skälet här till att matchning

var nödvändig var att det inte fanns tillräckligt många urvalsenheter för att vara

säker på att slumpen inte inverkade. Vi matchade på variabler som tätortsgrad,

olycksrisknivå före försöket och antal förare bl a.

Resultatet visar att matchningen lyckades bra. Grupperna blev mycket lika i

(4)

Ett annat exempel på en experimentell design är det sk Skandiaprojektet. Här är

syftet att testa fortbildning av unga förare. Inbjudna som tackar ja fördelas

slumpmässigt i 4 grupper enl en faktoriell design (se bild).

Problemet är om de som tackar ja inte kommer. Ett annat exempel på detta är när

NTF skulle prova en ny modell för mc-fortbildning. Många var preliminärt

intresserade. När kursen skulle hållas var antalet verkligt intresserade färre, dvs få

anmälde sig. Väldigt få kom faktiskt till kursen.

I Televerket fanns inte detta problem eftersom åtgärden ingick som en del i jobbet. Här kan det mått av tvång som en organisation, skola, militärregemente eller företag

innebär, vara en positiv förutsättning.

Sammanfattningsvis: Det är viktigt att eftersträva så hög kontroll som möjligt på bakomliggande faktorer. Det är dock mycket sällan möjligt att få fullständig kontroll, och därmed uppfylla kriterierna för ett renodlat experiment.

Laboratorieexperiment

Ur kontrollsynpunkt är laboratorieexperiment bäst. I ett lab kan det mesta

kontrolleras och med slumpfördelning mellan grupper kan individuella olikheter och

andra bakomliggande faktorer"tas bort".

Den avgörande frågan är dock vad man studera i laboratorieexperiment. Utbildning

är ofta komplext, tar tid och skall bedrivas i fält med anknytning till existerande

skolor, organisationer, halkbanor etc. Det är svårt att isolera utbildningsåtgärder i

ett lab.

Vad man kan göra är att studera fragment av eller grundförutsättningar för utbildning. Man kan studera beteenden i simulator, göra reaktionstester etc. Man

kan också göra avgränsade studier på halkbana, som under vissa förutsättningar kan

kallas laboratorium.

Man vet aldrig heller hur verklighetstrogen laboratorietestad utbildning blir. Normalt brukar man säga att lab studier har hög kontroll men låg extern validitet, man rensar bort "verklighetens brus", så att resultaten inte går att lita på i verklig trañk.

Ett exempel på lab studie på halkbana som pågår vid VTI: Hypotesen är att vissa slags utbildningsinsatser ger större överskattning av förmågan hos eleven än andra

typer av utbildning. Vi tar en grupp elever som skall genomgå halkutbildning,

slumpar i två grupper, ger den ena gruppen en typ av övning, och den andra

gruppen en annan typ av övning. Sen mäter vi överskattning med en speciell metod.

Resultaten kan användas för att tolka resultat av tidigare utvärderingar och för att

(5)

Man inser lätt att fase-2 eller lö-årsgräns eller preliminärt körkort inte går att

utvärdera i laboratorieexperiment.

Utvärdering av "paket" eller delmoment?

Ytterligare en aspekt av detta med avgränsade eller komplexa utbildningar är hur vi

designar undersökningen för att förstå orsakerna till att vi får de resultat vi får. I

Frankrike fick man positiva resultat av lÖ-årsgränsen. Vad de gjorde var att testa ett

helt utbildningspaket. Man vet däremot ingenting om vad i paketet som var

avgörande för resultaten. Var det ökad erfarenhet eller var det större kontroll på privatläraren eller var det försäkringspremiedelen eller...?

Samma problem står vi inför nu. Om vi skall testa en svensk modell mot en kontrollgrupp så vet vi ingenting om vad som orsakade resultaten. Det som

hypotetiskt är mest intressant i hela tanken är att man får en ökad erfarenhet. För att

testa detta måste man ha en försöksgrupp och en kontrollgrupp där enbart ökade erfarenheten skiljer. Får vi då olika resultat i dessa grupper vet vi att skillnaden beror på erfarenhet, eftersom inget annat skiljer dem åt.

Ett annat exempel är vårt projekt "Integrerad förarutbildning" där vi testade ett

"paket" med samarbete trafikskola-hem, nya övningar för att öka insikten om de

egna begränsningarna och sk "berättande körning ". Vi hade bara två grupper, försöks och kontrollgrupp. Det blev ingen skillnad mellan grupperna. Vi har här problem att tolka varför resultaten blev som de blev. Kanske var en av åtgärderna bra och en annan dålig, så att de tog ut varandra? Här hade det behövts fler grupper så att vi hade kunnat hålla isär åtgärderna.

Om man skall ha flera grupper blir försöket större. Ekonomisk fråga bl a. Väljer vi

tex polisrapporterade olyckor som effektmått i 16-årsproj ektet behövs ca 5000 i

varje grupp för att man skall ha tillräckligt statistiskt underlag. För varje ny grupp

behövs alltså 5000 elever till, som bl a måste få plats på trafikskolorna och som

fördyrar effektmätningar mm.

Här kan man välja ett annat effektmått som inte kräver så stora grupper. Detta är ofta skälet till att_ man väljer självrapporterade olyckor. Man behöver inte så stora grupper. Sj älvrapporterade olyckor är dock mera osäkra. Man kan över- eller

underrapportera av olika skäl. Denna balans eller köpslående står alltid forskaren

inför.

Generaliserbarhet

Ofta ser man försök som genomförs på studenter. Sådana är sällan representativa för alla. När vi gör försök i Televerket så kan vi inte generalisera resultaten till

allmänheten, eftersom resultaten här mycket väl kan bero på en rad förutsättningar

(6)

Resultaten gäller inte heller självklart för alla företag, utan måste bedömas från fall

till fall. Hur speciella är förhållandena i Televerket?

Smittoeffekter

Ett ytterligare problem är att åtgärderna kan smitta från försöksgrupp till

kontrollgrupp. Har man fördelat slumpmässigt till flera grupper kan det hända att

fel grupp får del av åtgärden genom att t ex informationsmaterial eller läromedel

ligger framme, genom att man pratar och berättar för varandra, visar varandra osv. Ett liknande problem är att den ena gruppen känner sig orättvist behandlad. I

Televerket var t ex inte viljan att delta i gruppsamtal alltid lika hög som viljan att få

praktisk körträning. Kanske kan detta påverka motivationen att köra säkert

negativt.

Om man t ex slumpvis fördelar ungdomar till 16-årsförsöket kan det hända att

någon får vara med men inte bästa kompisen. Vad får detta för betydelse?

Etiska aspekter

Etiken begränsar våra möjligheter att göra väl kontrollerade experiment. Inom

utbildningsforskning tar sig detta t ex uttryck i att det lättare anses oetiskt att förvägra personer utbildning än att ge dem utbildning. Ibland kan det dock ur designsynpunkt vara nödvändigt att förvägra utbildning för att hålla kontroll på frivillighetsfaktom (se ovan). Etiska överväganden gör att vi ibland avstår från den "perfekta" designen.

Den grundläggande frågan är om ett försök anses kunna vara till skada eller strida

mot vår moraluppfattning.

Sammanfattning

Sammanfattningsvis kan man konstatera att det i stort sett är omöjligt att lägga upp

en utvärderingsstudie så att den är perfekt och uppfyller kraven på en experimentell

studie. Man ha alltid problem så fort man arbetar med "verkligheten" där alltid bakomliggande faktorer ligger och lurar. Strävan bör alltid vara att hälla dessa

under kontroll, och kan man inte få till lika grupper bör man mäta förväntat

störande faktorer så att man kan ha hjälp vid tolkningen. Körsträcka är ett

typexempel på detta om man skall mäta olyckor.

Ett bra kriterium på bra forskning är om forskaren öppet redovisar de fel och brister

som finns i en undersökning, och försöker tolka hur de kan påverka resultatens

giltighet.

(7)

EXPERIMENTELL STUDIE

Empirisk studie där forskaren

har kontroll över de

bakom-liggande faktorer som kan

påverka det som skall mätas

ICKE EXPERIMENTELL

STUDIE