Sammanfattning - Kontrollerade experiment

3.3 Kontrollerade experiment

3.3.5 Sammanfattning

De fördelar som testpersonerna upplevde med LEAP är direkt återkoppling, att de kunde bli mer självständiga och nackdelarna som de upplevde var att återkopplingen kunde vara lite svårförstådd och det är svårt att genomföra kvalitativ bedömning av studenters lösning. Sju av åtta testpersoner svarade även att de skulle föredra att använda ett automatiserat bedömningssystem istället för traditionell bedömning och där direkt återkoppling var den avgörande faktorn.

Sju av åtta testpersonerna menar även att quiz hade varit ett bra hjälpmedel för att hjälpa studenter att få ökad förståelse och 4 av testpersonerna menar även att ett quiz kan användas efter programmering för att verifiera att studenter uppnått den huvudsakliga förståelsen som uppgiften ville förmedla.

4 Analys och diskussion

I detta avsnitt analyserar och diskuterar vi kring studiens resultat, vilket involverar intervjuerna, LEAP och de kontrollerade experimenten. Det resultat som är mest centralt och viktigast för studien är experimenten eftersom vi genom dem samlat in data för att kunna svara på studiens frågeställning. Eftersom resultaten från experimenten är en utvärdering av LEAP hade det inte varit möjligt att samla in det mest centrala och viktigaste resultatet för studien utan LEAP.

4.1 Experiment, intervjuer och litteraturstudie

I en studie av Carter m. fl. [28] framkom det att åsikterna om bedömningssystem bland de intervjuade lärarna i studien var mer positiv ju mer erfarenhet av bedömningssystem de hade. De lärare utan tidigare erfarenhet av bedömningssystem ansåg att sådana system ej var lämpliga för att testa studenters kunskaper och att kvalitén på återkopplingen var låg. Detta resultat kan jämföras med resultatet från de intervjuer som vi genomförde med tre lärare på Malmö Högskola eftersom två av lärarna inte trodde på att använda automatiserade bedömningssystem vid programmeringskurser och att dessa två lärare aldrig tidigare använt ett bedömningssystem i deras programmeringskurser. Därav skulle deras negativa åsikter kunna bero på deras oerfarenhet av bedömningssystem.

I andra liknande studier [29] [18] [30] påpekar författarna det är just lärarna som avgör hur bra ett bedömningssystem är eftersom det är upp till lärarna att utforma uppgifterna och ta fram välgenomtänkta och heltäckande testfall. Utformningen av uppgifter och tillhörande testfall har även i tidigare studier identifierats som framgångsfaktorer för ett bedömningssystem [31] [29]. Detta eftersom det vid automatiserad bedömning krävs att uppgifters krav är mer precisa än vid manuell bedömning för att undvika tvetydigheter, särskilt när det handlar om indata och utdata [1]. När det gäller testfall är det viktigt att de är genomtänkta och heltäckande för att förhindra att felaktiga programmeringslös- ningar godkänns [32]. Men nackdelen med dessa framgångsfaktorer är att de kan kräva mer resurser än vad som krävs vid manuell bedömning, särskilt om antalet studenter är hanterbart manuellt. Tidigare studier [18] [33] menar att utformningen av uppgifter och testfall för automatiserade bedömningssystem kräver mer resurser än utformningen av uppgifter som bedöms manuellt. Men trots att utformningen av uppgifter och testfall för automatiserad bedömning kräver mer resurser hjälper enligt Enström [30] automatiserade bedömningssystem lärare att minska deras arbetsbelastning som läggs på att manuellt verifiera att studenternas programmeringslösning är korrekta. Uppgifterna och testfallen kan även återanvändas vid kommande terminer, vilket gör att det enbart initialt krävs ökade resurser på utformningen av uppgifterna och testfallen för bedömningssystemet.

Att verifiera lösningens korrekthet är en funktionalitetsbedömning, vilket är den typ av bedömning som LEAP genomför av studenternas lösningar. En fördel med att automati- sera funktionalitetsbedömningen är att ett bedömningssystem inte kommer godkänna en lösning förrän alla testfall passeras och om testfallen är väl genomtänkta och heltäckande är det lättare att garantera lösningens korrekthet än vid manuell bedömning. Därmed anser vi att ett bedömningssystem utför funktionalitetsbedömning snabbare och utförligare än vad en lärare gör.

Utifrån resultaten från de kontrollerade experimenten anser vi att när det kommer till bedömning av mer kvalitativa aspekter tror vi att bedömningen av en lärare är att föredra och detta stöds av tidigare studier [29] [18] [28]. Testpersonerna från experimenten menar dels att lärare kan bedöma aspekter som kodkvalité ochläsbarhet och dels att en lärare kan ge förbättringsförslag samt best practices vilket är betydligt svårare för ett bedömnings- system. Däremot är det inte säkert att studenter får kvalitativ återkoppling enbart för att återkopplingen ges av lärare, vilket lyftes fram av en testperson från de kontrollerade experimenten. En annan nackdel med manuell bedömning är att risken för subjektiv bedömning är större än vad den är för automatiserade bedömningssystem. En av testpersonerna ansåg att ett bedömningssystem inte lämpar sig att användas vid introduktionskurser utan att det istället borde användas vid mer avancerade kurser eftersom fokus i dessa kurser är problemlösning av specifika problem istället för utlärning inom ett specifikt ämne vilket är fokus i introduktionskurser. Detta stöds av Ahoniemi and Reinikainen [34] som menar att oerfarna studenter kräver grundlig och personlig återkoppling på deras programme- ringsuppgifter för att de ska lära sig av sina misstag och på så sätt kunna förbättra sina kunskaper. Däremot visar studien [35] hur ett bedömningssystem uppmuntrade och motiverade studenternas vilja att lära sig. Men trots att studien visar att de blir mer motiverade är fortfarande manuell bedömning att föredra framför automatisk bedömning när bedöm- ningen behandlar kvalitativa aspekter, vilket stöds av andra liknande studier [29] [18] [28]. En annan fördel med automatiserade bedömningssystem är att studenter, särskilt de bätt- re studenterna, blir mer självständiga eftersom ett bedömningssystem har möjligheten att vara tillgängligt dygnet runt. Som en av testpersonerna lyfte fram kan de studenter som har lättare för en del moment kräva mindre tid av en lärare eller labbassistent för att få deras uppgifter bedömda vilket gör att en lärare eller labbassistent har mer tid över till de som behöver mer personlig och grundlig återkoppling och hjälp.

Direkt återkoppling till studenterna är enligt resultatet från de kontrollerade experimenten den största fördelen med ett bedömningssystem, dock upplevde testpersonerna att nackdelarna med återkopplingen från ett bedömningssystem kan vara att den är svårförstådd och att återkopplingen från en lärare är mer givande eftersom en lärare kan förklara varför felet uppstod och även ge mer kvalitativ återkoppling kring studentens lösning. Detta är något som stöds av Ala-Mutka [18]. De intervjuade lärarna är inne i samma tänk som testpersonerna från de kontrollerade experimenten då lärarna menar att deras återkoppling är mer givande för studenter och återkoppling är en viktig del i studenternas utveckling vilket stöds av Carless [36]. Carless menar att återkoppling är den viktigaste aspekten för en kvalitativ utveckling hos studenterna. Ala-Mutka [18] menar att trots att lärarens åter- koppling kan vara av mer kvalitativ karaktär kompenseras kvalitén mot snabb återkoppling och tillgängligheten som ett bedömningssystem erbjuder. Carter m. fl. [28] presenterar i sin studie att en respondent från deras studie menar att direkt återkoppling med säm- re kvalité är att föredra gentemot detaljerad och kvalitativ återkoppling som ges veckor senare. Vårt resultat från de kontrollerade experimenten stödjer påståendet eftersom sju av de åtta testpersonerna skulle föredra att använda ett automatiserat bedömningssystem istället för traditionell bedömning och direkt återkoppling var enligt testpersonerna den avgörande faktorn.

Utifrån våra resultat är det svårt att avgöra hur ett bedömningssystem av den här typen har för påverkan på studenters programmeringskunskaper. Vi tror att det skulle krävas en studie, exempelvis en fallstudie som under en längre period analyserade effekterna av att använda ett bedömningssystem av den här typen i en programmeringskurs för att kunna avgöra om studenters programmeringskunskaper förbättras. Eftersom tidsramen för studien är begränsad till ett examensarbete på kandidatnivå var det inte möjligt att genomföra en fallstudie. Vi kan dock dra generella slutsatser utifrån andra studier och deras resultat. I en studie av Daly och Horgan [5] analyserade de under ett år effekterna av att använda det system de utvecklat, RoboProf, i en programmeringskurs för Java-programmering. Totalt ingick 300 studenter i studien och resultaten visar att de studenter som gjorde de uppgifter som fanns till RoboProf presterade signifikant mycket bättre än de studenter som inte gjorde det. Liknande resultat har även presenterats i andra studier [9] [2]. Resultaten från de kontrollerade experimenten visar att de studenter som ingick i studien har en positiv syn på användningen av ett bedömningssystem av den här typen i programmeringskurser och vår förhoppning är att användningen av LEAP i en programmeringskurs ska leda till resultat som visar att LEAP ökar studenters programmeringskunskaper i högre grad än enbart traditionell bedömning.

En av testpersonerna i de kontrollerade experimenten påpekar att en möjlig negativ aspekt av användningen av automatiska bedömningssystem är att studenters utrymme för kreativitet i sina lösningar hämmas. Detta resultatet från våra experiment är jämförbart med ett resultat som lyfts fram av Pieterse [29]. Pieterse menar att kraven för uppgifter som ska bedömas av ett automatiskt bedömningssystem måste vara mycket precisa och välde- finierade vilket kan leda till att lärare utformar uppgifter på ett sätt som gör det svårt för studenten att utnyttja sin fulla kreativitet i sin lösning [29]. Vi tycker av dessa skäl att uppgifter av mindre omfattning där design och struktur inte har någon påverkan på lösningens kvalité bör lämpa sig bra för bedömning av ett automatiskt bedömningssystem medans större uppgifter kan kräva en viss grad av manuell bedömning. Ett exempel på en uppgift av mindre omfattning är att implementera en funktion som itererar genom en vektor och utför en validering för att sortera ut element från vektorn. En sådan uppgift är väldigt svår att bedöma avseende design till skillnad från en uppgift där studenten ska skapa en applikation som fungerar som ett adressregister vilket kan designas och imple- menteras på en mängd olika vis och som sätter studentens kreativitet på prov. Vi tror även att bedömningssystem lämpar sig att användas vid kurser som involverar algorit- mer eftersom det då är möjligt att automatiskt testa om en algoritm har implementerats korrekt baserat på särskild indata. Denna slutsats är även något som stöds av Enström [30]. Vid intervjuerna med de tre lärarna vid Malmö Högskola framkom det att de efterfrå- gade möjligheten att använda quiz för att bedöma studenternas förståelse. Vi valde därför att i LEAP implementera möjligheten att använda ett quiz som en student måste av- klara innan studenten kan lämna in sin lösning till programmeringsuppgiften. Resultaten från de kontrollerade experimenten visar att testpersonerna är övervägande positiva till att använda quiz för att förbättra studenternas förståelse och kunskaper. Vi tror att an- vändningen av quiz får studenterna att på egen hand lära sig den bakomliggande teorin som är nödvändig för att sedan klara av att lösa programmeringsuppgiften och att ett quiz

kan säkerställa att studenterna faktiskt har uppnått tillräcklig förståelse. Att studenterna uppnått tillräcklig förståelse var en av de punkter som de intervjuade lärarna ansåg var viktigast och som de ansåg att ett bedömningssystem inte kan bedöma. Vi tror även att med quiz får studenterna en ökad förståelse för programmering vilket därmed hjälper studenterna att nå högre betyg vilket stöds av Woit och Mason [37]. I studien genomförde Woit och Mason under fem år en kurs där upplägget på kursen varierade varje år. Under det året då de använde quiz som en del av kursens moment fann de en korrelation mel- lan resultaten på quiz och resultatet på den sista tentamina i slutet på kursen. Resultatet visar att varje student fick ungefär ett betyg högre än de studenter från de resterande åren. De tankar och åsikter vi fört fram i detta avsnitt bygger på resultaten från de intervjuer och kontrollerade experiment som genomförts samt den insamlade information från litteraturstudien. Det går att diskutera kring validiteten i resultaten eftersom antalet per- soner som ingick i intervjuerna och de kontrollerade experimenten är relativt få. Det som dock talar för resultatens validitet är att personerna som ingick i de två momenten enligt oss är väldigt representativa för respektive tänkta målgrupp. De tre intervjuade lärarna har alla lång dokumenterad erfarenhet inom utlärning av programmering till studenter och de studenter som ingick i de kontrollerade experimenten har olika bakgrund, utbildningar, ålder och kön. Av detta skäl anser vi att våra resultat kan generaliseras till andra högskolor som har datavetenskapsutbildningar med programmeringskurser för som vi lyfte fram har vi fått en bra spridning på olika utbildningar och hur långt testpersonerna har kommit i deras utbildning.

Vi anser även att våra resultat kan generaliseras till andra programmeringsspråk, det vill säga vi anser att våra resultat hade varit av likartad karaktär oavsett vilket programme- ringsspråk som LEAP hade haft stöd för. Detta eftersom de kontrollerade experiment som vi genomförde fokuserade på hur testpersonen upplevde att använda LEAP och inte vad de tyckte om Java som programmeringsspråk. Men även för att LEAP använder sig av testfall för att verifiera funktionaliteten i studenters lösning och testfall är något som samtliga användbara programmeringsspråk har stöd för.

För att vi skulle samla in information och resultat från liknande studier och system ge- nomförde vi en litteraturstudie där vi samlade in material i form av forskningsartiklar. Vi samlade in forskningsartiklar genom att söka i följande databaser: IEEE, ACM och Springer. Vid sökningarna har vi använt följande nyckelord för att finna forskningsartiklar inom de ämnen vi ansåg som relevanta för studien: automated assessment, programming assessment, feedback, learning programming, quiz, programming testing, programming assignments plagiarism, programming courses versioncontrol, sandbox, sandboxing, Docker as sandbox, build automation, automated assessment using test cases.

In document LEAP: Automatic assessment of programming assignments (Page 32-37)