• No results found

Prediktionsmodeller gällande helårsstudenter och helårsprestationer

N/A
N/A
Protected

Academic year: 2021

Share "Prediktionsmodeller gällande helårsstudenter och helårsprestationer"

Copied!
44
0
0

Loading.... (view fulltext now)

Full text

(1)

Prediktionsmodeller gällande helårsstudenter

och helårsprestationer

Författare: Sanna Aspling (920829) och Filip Mattsson (950131)

Vårterminen 2020

Statistik, uppsats, kandidatkurs, 15hp Ämne: Statistik

Handelshögskolan vid Örebro universitet Handledare: Nicklas Pettersson

(2)

Sammanfattning

Helårsstudenter och helårsprestationer är en del av finansieringen för högskolor och

universitet i Sverige. Det är därför av intresse att prediktera framtida terminer för att kunna räkna på hur stor ersättningen kommer bli och utifrån det fördela sina resurser på bästa sätt. Syftet med uppsatsen har varit att ta fram en så god prediktionsmodell som möjligt för antalet helårsstudenter samt för helårsprestationer på individnivå. För att uppnå detta har olika statistiska metoder använts på data från fyra grundkurser inom handelshögskolan vid Örebro universitet. Utifrån resultaten kunde vikten av bra förklarande variabler fastställas samt svårigheterna i att uppnå en precis modell. En framtida studie kan vara att bygga på studien kring enskilda studenters prestationer genom att studera antalet helårsprestationer.

(3)

Innehållsförteckning

1. Inledning ... 1 1.1. Syfte ... 1 1.2. Disposition ... 1 2. Bakgrund ... 3 2.1. HST och HPR ... 3 2.2. Platsantagning på grundkurserna ... 4 2.3. Ämnesområden ... 4 2.3.1. Företagsekonomi ... 5 2.3.2. Nationalekonomi ... 5 2.3.3. Informatik ... 5 2.3.4. Statistik ... 6 2.4. Tidigare studier ... 6 3. Metod ... 7 3.1. Multipel regression ... 7 3.2. Stegvisurval ... 7 3.3 Korsvalidering ... 8 3.4 Krympningsmetoder ... 8 3.6. Principalkomponentanalys ... 9 4. Data ... 11 4.1. Avgränsningar av data ... 11 4.1.1. HPR ... 11 4.1.2. HST ... 11 4.2. Beskrivning av data ... 12 4.2.1. HPR ... 12 4.2.2 HST ... 14 5. Modell ... 18 5.1. HPR ... 18 5.2. HST ... 19

6. Resultat och analys ... 21

6.1. HPR ... 21

6.2. HST ... 24

(4)

7.1. HPR ... 26

7.2. HST ... 26

7.1. Möjliga förbättringar ... 27

8. Referenslista ... 29

(5)

1. Inledning

Antalet helårsstudenter (HST) och helårsprestationer (HPR) ligger till grund för en del av finansieringen vid alla Sveriges universitet. Det är därför av intresse att skapa

prediktionsmodeller som analysverktyg för detta ändamål.

I uppsatsen kommer handelshögskolan vid Örebro universitet att studeras. Handelshögskolan är en av åtta institutioner på universitet. Handelshögskolan erbjuder utbildning inom ämnena företagsekonomi (Fek), nationalekonomi (Nek), informatik (Inf) och statistik (Stat) som tillsammans utgör 139 kurser. De flesta av kurserna kan läsas som fristående eller inom ett program (Örebro universitet, 2019i). Det som kommer att fokuseras på i uppsatsen är en grundkurs för respektive ämne.

Den här uppsatsen kommer att baseras på en genomgående beskrivning av helårsprestationer på individnivå och antalet helårsstudenter på terminnivå. I synnerhet kommer varierande metoder att behandlas för att ta fram prediktionsmodeller för respektive ämne.

I denna uppsats analyseras data från en av Örebro universitets databaser gällande

höstterminen 2013 till höstterminen 2019. Den statistik som redovisas innefattar registrerade studenter och deras prestationer för varje termin inom fyra av handelshögskolans grundkurser. Kurserna innefattas av företagsekonomi, nationalekonomi, informatik och statistik. De

bortfall som förekommer är studenter vars prestation förekommer på termin som inte sammanfaller med den termin de registrerats vid.

1.1. Syfte

Genom att analysera data ämnar den här uppsatsen att ta fram en prediktionsmodell för respektive kurs gällande helårsprestationer på individnivå och antalet helårsstudenter på terminnivå. Detta görs genom användandet av multipel regression med varierade variabler med avseende på ändamål. Det finns också möjlighet att studera antalet helårsprestationer på terminnivå men det har inte valts att fördjupas i vid denna uppsats.

1.2. Disposition

Det andra kapitlet ger en ingående beskrivning kring huvudämnet och de kurser som valts att fokuseras på i denna uppsats. I det tredje kapitlet beskrivs de metoder som ligger till grund för framtagandet av uppsatsens modeller. Det fjärde kapitlet presenterar bakomliggande data som behandlas med beslutade avgränsningar. I det femte kapitlet beskrivs modellerna som ligger till grund för uppsatsens syfte. I sjätte kapitlet presenteras uppsatsens resultat från de metoder

(6)

som använts med tillhörande analyser. I det sjunde kapitlet avslutas studien med diskussioner och slutsatser från resultatet samt förslag på möjliga förbättringar.

(7)

2. Bakgrund

Högskolor och universitet i Sverige finansieras genom statliga medel som beslutas av riksdagen. En del av finansieringen ges av ett ersättningsbelopp som baseras på antalet helårsstudenter och antalet helårsprestationer, som bestäms av utbildningsdepartementet. Ersättningsbeloppen kan variera beroende på vilket utbildningsområde en kurs tillhör (Linköpings universitet, 2020). Det finns även ett takbelopp som anger den maximala ersättningen ett lärosäte kan få och beloppet kan variera mellan de olika högskolorna och universiteten. När alla helårsprestationer och helårsstudenter har multiplicerats med respektive ersättningsbelopp ges ett totalbelopp som då jämförs med takbeloppet. Om totalbeloppet visar sig vara lägre än takbeloppet kan ett belopp motsvarande 10 % av

takbeloppet sparas. Om det fortfarande kvarstår bidrag som inte kan sparas eller avräknas ska det beloppet betalas tillbaka till staten. Totalbeloppet kan även vara högre än takbeloppet och då kan tidigare års sparade anslag användas till att utjämna skillnader mellan åren. Om det fortfarande överstiger takbeloppet kan lärosätena spara de återstående helårsstudenter och helårsprestationer för avräkning till kommande år (Göteborgs universitet, 2019).

2.1. HST och HPR

Helårsstudenter bygger på antalet studenter som är förstagångsregistrerade och

fortsättningsregistrerade vid ett kurstillfälle. Antalet helårsstudenter beräknas genom att multiplicera antalet registrerade studenter med högskolepoängsomfattningen för kurstillfället och dividera det med 60, som står för antalet poäng på helårsstudier. Om en kurs har påbörjats och studenterna väljer att avbryta sina studier inom tre veckor ska de inte ingå i beräkningen (Universitetskanslersämbetet, u.å.). För att tydliggöra ges följande exempel: säg att 100 studenter registrerats på grundkursen i företagsekonomi. Kursen ges under ett halvår, vilket motsvarar en hel termin, och omfattar 30hp. För att beräkna antalet helårsstudenter

multipliceras 100 med 30 vilket ger 3000, som sedan divideras med 60 som ger 50 helårsstudenter för kurstillfället.

En helårsprestation speglar en students presterade poäng för heltidsstudier under ett läsår, det vill säga antalet klarade högskolepoäng under en viss period på en delkurs/kurs dividerat med 60 (Universitetskanslersämbetet, u.å.). För att tydliggöra ges följande exempel: säg att en student läst grundkursen i företagsekonomi som omfattar 30hp. Studenten lyckas klara 20 av möjliga 30hp. 20 divideras med 60 som ger en helårsprestation på 0,33. Som maximalt kan en helårsprestation gällande en kurs som omfattar 30hp uppgå till 0,5. Om man vill räkna på

(8)

antalet helårsprestationer för en kurs summerar man alla studenters uppnådda hp för kursen och delar med 60.

2.2. Platsantagning på grundkurserna

På en grundkurs antas programstudenter och studenter som läser kursen som fristående. Antalet studenter kan variera mellan olika kurser. Strandahl1, studievägledare vid Örebro

universitet, förklarar att de studenter som söker in genom program har en garanterad plats. Dem är också skyldiga, att när antagningen är klar så skall minst 10 % ha kommit in genom fristående kurs. Ett exempel kan beskrivas enligt följande: grundkursen i företagsekonomi på Örebro universitet antar 100 studenter. Därifrån går 30 studenter till ekonomiprogrammet (det blev 31 på grund av överintag), 28 studenter läser kursen med platsgaranti från andra program och 41 läser kursen som fristående. Hade programstudenter tagit upp fler platser så att de studenter som läser kursen som fristående varit under tio studenter hade de varit tvungna att ta in fler än 100 studenter, men det behövdes inte i detta fall. Generellt sett tar företagsekonomi, grundkurs, in 100 studenter, grundkursen i nationalekonomi tar in 160 studenter, informatik, grundkurs, tar in 80 studenter och grundläggande statistik tar in 130 studenter.

Strandahl förklarar även att det skett undantag under ett par terminer. Vid hösten 2016 och våren 2017 hade de fått ett utökat uppdrag av rektorn då Örebro universitet hade svårt att fylla sitt uppdrag. De tog in fler studenter på ekonomiprogrammet, civilekonomprogrammet samt fler fristående studenter för grundkursen i företagsekonomi. De hade även en utökning på systemvetenskapliga programmet under hösten 2016. Han avslutar med att förklara att antalet studenter på fristående kurser varierar mer än antalet programstudenter på grund av resurser, uppdrag och antalet studenter på andra kurser. De får ett uppdrag för hela handelshögskolan i antal studenter. Skulle det vara så att det blir få studenter på grundkursen i statistiken kan de kompensera upp det med att ta in fler studenter på grundkursen i företagsekonomi.

2.3. Ämnesområden

Uppsatsen kommer att behandla fyra olika ämnesområden utifrån handelshögskolan vid Örebro universitet. Utifrån de fyra ämnesområden kommer deras grundläggande kurser vara i fokus. Det är företagsekonomi, nationalekonomi, informatik och statistik. Kurserna bedrivs både på höstterminen och vårterminen.

(9)

2.3.1. Företagsekonomi

Grundkursen inom företagsekonomi är en introduktion för studier inom företagsekonomi. Den ger en generell bild över företagsvillkor och förutsättningar baserat på ämnets huvudområden (Örebro universitet, 2019e).

Kursen ges av 30hp och är uppdelad på åtta moment från våren 2014 till hösten 2014. Den innehåller fem delkurser varav varje delkurs har olika antal moment. (Örebro universitet, 2013a, 2013b, 2014a). Från våren 2015 till hösten 2019 har uppdelningen av moment förändras för kursen. Det är fortfarande fem delkurser men nu innefattar dessa tillsammans tolv moment. (Örebro universitet, 2014b, 2015a, 2016a, 2019a).

2.3.2. Nationalekonomi

Grundkursen inom nationalekonomi är uppbyggt i tre delar, mikroekonomi, makroekonomi och samhällsekonomisk analys. Begrepp som tas upp under kursens gång är ekonomiska institutioner, ekonomiska regleringar, resursfördelning och resursanvändning (Örebro universitet, 2019f).

För de som väljer att läsa ekonomiprogrammet samt civilekonomiprogrammet är grundkursen i nationalekonomi obligatorisk, där de läser den termin två. Det resulterar i att en stor del av de som läser kursen kommer att tillhöra ekonomiprogrammet eller civilekonomprogrammet. Resterande studenter som läser kursen har den som valfri kurs eller som fristående kurs (Örebro universitet, 2019f).

Kursen ges av 30hp som är indelad i tre delkurser som tillsammans utgör fem moment från våren 2014 till hösten 2014 (Örebro universitet, 2013c, 2014c). Från våren 2015 till hösten 2019 så utgör delkurserna tillsammans fyra moment (Örebro universitet, 2014d, 2015b, 2016b, 2017a, 2017b, 2018a, 2019b).

2.3.3. Informatik

Grundkursen inom informatik ger studenterna grundläggande kunskaper inom utveckling av IT-system. Syftet med kursen är att studenterna ska erhålla kunskap inom

systemutvecklingsarbete från ett helhetsperspektiv (Örebro universitet, 2019g).

Kursen ges av 30hp och är uppdelad på nio moment från våren 2014 till våren 2019. Den innehåller fyra delkurser varav varje delkurs har olika antal moment (Örebro universitet, 2013d, 2013e, 2014e, 2014f, 2015c, 2016c, 2016d, 2017c, 2018b, 2018c). Under hösten 2019 har kursen förändrats och innefattar nu elva moment (Örebro universitet, 2019c).

(10)

2.3.4. Statistik

Grundkursen inom statistik ger studenterna en uppfattning av genomförandet av statistiska undersökningar samt en statistisk tolkning av analysresultat. Kursen är en introduktion till statistisk teori och metodik som man har användning för vid statistiska analyser av data och urvalsundersökningar (Örebro universitet, 2019h). De som läser statistikerprogrammet har grundläggande statistik på termin ett men det flesta studenterna som läser grundläggande statistik kommer ifrån ekonomiprogrammet eller civilekonomprogrammet där de

rekommenderas att läsa kusen vid termin tre eller fyra (Örebro universitet, 2018f, 2019j, 2019k).

Kursen ges av 15hp och innehåller från våren 2014 till våren 2018 ett moment. Kursen förändras sedan och har från hösten 2018 till hösten 2019 istället tre moment (Örebro, universitet 2013f, 2014g, 2015d, 2018d, 2018e, 2019d).

2.4. Tidigare studier

Prestationsgraden för registrerade studenter för högskolor i Sverige 2015–2016 låg på 83%. Det resulterar i en ökning av prestationsgraden för sjätte året i rad. Med prestationsgraden menas hur många hp studenterna tar av det totala antalet hp som de registrerats för. Man beräknar prestationsgraden som kvoten av studenternas totala antal helårsprestationer med antalet helårsstudenter (Universitetskanslersämbetet, 2018).

Utifrån rapporten kan man se att Örebro universitet hade en prestationsgrad på 87% med 8 788 helårsstudenter läsåret 2015–2016 vilket är en ökning från 84% läsåret 2011–2012 (Universitetskanslersämbetet, 2018).

(11)

3. Metod

I denna uppsats kommer ett antal multipla regressioner att användas med anledning av att ta fram modeller för att prediktera helårsprestationer på individnivå. Det kommer även att tas fram modeller för att prediktera antalet helårsstudenter på terminnivå. Syftet är att ta fram en så god prediktionsmodell som möjligt för respektive kurs gällande helårsprestationer på individnivå samt antalet helårsstudenter.

I nedanstående avsnitt förklaras de valda metoderna. De valda metoderna gällande HPR kommer att behandlas enligt följande: Inledningsvis delas data in i tränings- och testdata genom metoden ”k-fold cross-validation”. Det görs för att ta reda på vilken modell med antalet variabler som ger lägst prediktionsfel. Därefter väljs den modell med absolut

minimum på prediktionsfelet. När antalet variabler är bestämt behandlas metoden ”forward selection” för att utläsa vilka av variablerna som utgör den slutgiltiga modellen.

De valda metoderna gällande HST kommer att behandlas enligt följande: Först används principalkomponentanalys för att reducera antalet förklarande variabler. Därefter delas data in i tränings- och testdata genom metoden LOOCV för Ridge regression och LASSO. Det görs för att ta reda på vilken modell som ger lägst testfel. Dessa modeller jämförs sedan med en modell gällande en enkel lagg. Med enkel lagg menas en modell som endast tar information om antalet helårsstudenter föregående år i beaktande. Sedan jämförs de predikterade värdena för de tre modellerna med de sanna värdena.

3.1. Multipel regression

De multipla regressionsmodellerna ges av följande

𝑌𝑘 = 𝛽0+ 𝛽1𝑋1+ 𝛽2𝑋2+ ⋯ + 𝛽𝑝𝑋𝑝+ 𝜖 (1)

𝑌𝑘 är responsvariabel för modell k där 𝑘 = 1, . . , 𝑛, 𝑋𝑗 är variabel j där 𝑗 = 1, … , 𝑝 och 𝛽𝑗 kvantifierar associationen mellan den variabeln och responsvariabeln och 𝜖 är feltermen. Koefficienten 𝛽𝑗 är den förväntade förändringen i 𝑌𝑘 till följd av att 𝑋𝑗 ändras med en enhet

och resterande variabler hålls konstanta (James, Witten, Hastie & Tibshirani, 2013, s.72).

3.2. Stegvisurval

”Forward selection” är en metod som innebär att börja med en tom modell som innehåller ett intercept men inga variabler. Det byggs stegvis upp p stycken enkla linjära regressioner och utifrån dem adderas variabeln med lägst residualkvadratsumma till i den tomma modellen. Sedan adderas en ny variabel med lägst residualkvadratsumma för den nya

(12)

tvåvariabelmodellen. På det sättet fortsätter metoden tills det att en bestämd regel inte längre uppfylls (James et al., 2013, s.78).

3.3 Korsvalidering

Korsvalidering används för att se hur väl en viss procedur förväntas att genomföras genom att skatta prediktionsfelet. Det bygger på principen att dela upp datasetet i en träningsdel och en testdel för att komma bort från dataläckage. ”Leave one out cross-validation”(LOOCV) och ”k-fold cross-validation” är två sätt att arbeta med korsvalidering. I LOOCV används en observation (𝑥1, 𝑦1) för testdelen och resterande observationer (𝑥2, 𝑦2), … , (𝑥𝑛, 𝑦𝑛) utgör träningsdelen. Testfelet utgörs av,

MSE1 = (𝑦1− 𝑦̂1)2 (2)

Det går att repetera metoden genom att varje observation tillhör testdelen. Det leder till n testfel och medelvärdet av dessa ger LOOCV estimatet för test MSE.

CV(𝑛)= 1

𝑛∑ MSE𝑖 𝑛

𝑖=1 (3)

(James et al., 2013, s.178).

I ”k-fold cross-validation” delas observationerna in i k grupper, som är ungefär lika stora. En grupp används till testdelen och resterande till träningsdelen. I testdelen beräknas sedan testfelet. Beräkningsproceduren upprepas sedan k gånger och för varje gång ändras gruppen för testdelen till någon av de andra grupperna. Processen resulterar i k stycken testfel och medelvärdet av dessa bildar prediktionsfelet,

CV(𝑘)= 1

𝑘∑ MSE𝑖 𝑘

𝑖=1 (4)

Som det går att utläsa är LOOCV ett specialfall av ”k-fold cross-validation” när 𝑘 = 𝑛. Vanligtvis sätts 𝑘 = 5 eller 𝑘 = 10. Dessa värden har visats ge beräkningar av testfel som varken har alltför hög bias eller väldigt hög varians. Om n är stort kan det bli beräkningsvärt dyrt att implementera metoden. Men om n är litet är det rimligt att sätta 𝑘 = 𝑛 (James et al., 2013, s.181, 184).

3.4 Krympningsmetoder

Ridge regression och LASSO är två metoder som anpassar en modell som i genomsnitt krymper koefficientuppskattningarna mot noll.Ridge regression är väldigt lik

(13)

mängden. Minstakvadratmetodens teknik uppskattar 𝛽0, 𝛽1, … , 𝛽𝑝 genom att använda värdet som minimerar RSS = ∑ (𝑦𝑖− 𝛽0− ∑𝑝 𝛽𝑗𝑥𝑖𝑗)2 𝑗=1 𝑛 𝑖=1 (5)

I synnerhet är det Ridge regression koefficientestimaten 𝛽̂𝑅 värdena som minimerar

RSS + 𝜆 ∑𝑝𝑗=1𝛽𝑗2 (6)

där 𝜆 ≥ 0 är en ”tuning parameter”, som fastställs separat. Den andra termen, ”shrinkage penalty”, är liten när 𝛽1, … , 𝛽𝑝 är nära noll, och har effekten att förväntas krympa estimaten av

𝛽𝑗 mot noll. När 𝜆 = 0 har den ingen effekt och Ridge regressionen kommer att producera estimaten av minstakvadratmetoden. När 𝜆 → ∞ kommer effekten av ”shrinkage penalty” öka och estimaten av Ridge regressionskoefficienterna kommer närma sig noll. Ridge

regressionen kommer att ta fram olika uppsättningar av koefficientestimat, 𝛽̂ 𝜆𝑅, för varje värde på 𝜆. För att bestämma 𝜆 väljs en ”grid” med 𝜆-värden och sedan beräknas

korsvalideringsfelet för varje värde på 𝜆. Värdet bestäms för det värde på 𝜆 som ger lägst korsvalideringsfel (James et al., 2013, s.215, 227).

Ridge regression kommer alltid generera en modell som inkluderar alla p variabler till

skillnad mot LASSO som kan exkludera variabler. LASSO koefficientestimat, 𝛽̂ 𝜆𝐿, är värdena som minimerar

RSS + 𝜆 ∑𝑝𝑗=1|𝛽𝑗| (7)

Om vi jämför (5) och (6) ser vi att LASSO och Ridge regression liknar varandra. Den enda skillnaden är att 𝛽𝑗2 har blivit ersatt av |𝛽𝑗|. Som med Ridge regression förväntas LASSO krympa estimaten mot noll. Skillnaden med LASSO är att den har effekten att tvinga några av koefficientestimaten till exakt noll när 𝜆 är tillräckligt stort (James et al., 2013, s.219).

3.6. Principalkomponentanalys

Principalkomponentanalys, på engelska ”principal components analysis” (PCA), är en metod som används för att härleda en lågdimensionell representation av en datauppsättning från en stor uppsättning av variabler. Varje dimension som tas fram av PCA är en linjärkombination av p funktioner. PCA används för att reducera antalet variabler till ett fåtal komponenter som förklarar det mesta av variationen i data. Den första komponenten förklarar maximal

(14)

finns inget riktigt svar på hur många principalkomponenter man ska använda sig av. Man vill använda ett så lågt antal principalkomponenter som möjligt för att förklara en betydande del i variationen i data. I praktiken tenderar man att kolla på de första principalkomponenterna för att hitta intressanta mönster i data. Om inga intressanta mönster hittas i de första är det mindre sannolikt att ytterligare komponenter är av intresse(James et al., 2013, s.374, 384).

(15)

4. Data

Uppsatsen är baserad på statistik från insamlingen av information om studenter som

registrerats på handelshögskolans program och kurser vid Örebro universitet från hösten 2013 till hösten 2019 (Emilson, 2020). Det som valts att fokusera på från materialet är alla

studenter för grundkursen i företagsekonomi, nationalekonomi, informatik och statistik.

Under processen bearbetas datamaterialet för att kunna skapa prediktionsmodeller för en helårsprestation och antalet helårsstudenter på en specifik kurs. Modellerna baseras på ett urval av tillgängliga variabler utifrån det tillgängliga datamaterialet, som kan tänkas vara relevanta för predikteringen. Samtidigt har det skapats nya variabler som kan tänkas vara intressanta.

4.1. Avgränsningar av data 4.1.1. HPR

Uppsatsen kommer endast att behandla de studenter som står registrerade på kurserna respektive hur de har presterat på kurserna. I datamaterialet finns också andra studenters prestation men som då inte har registrerats vid den givna terminen. Det anses problematiskt då det är svårt att fastställa när dem tidigare har registrerats på den givna kursen. Det kan tänka sig handla om omtentor som skrivits och då har studentens prestation fallit under en annan termin än den terminen de var registrerade på från början. För att enklare prediktera en students helårsprestation föll valet i att bara utgå från de som står registrerade för respektive termin. Möjligheten finns att göra en totalprognos på antalet helårsprestationer men det är inget denna uppsats behandlar.

En annan avgränsning som beslutats om är att hantera data från våren 2014 till hösten 2019 gällande HPR. Det beror på att information gällande uppnådd hp föregående termin kräver data från föregående termin vilket resulterar i avgränsningen då tillgängliga data börjar vid hösten 2013.

4.1.2. HST

Uppsatsen kommer endast hantera data från hösten 2014 till hösten 2019 gällande HST. Det beror på att de laggvariabler som kommer att användas som beskriver vilket program

studenterna kommer ifrån alternativt friståendestudenter är förskjutna med ett år på data som börjar vid hösten 2013.

(16)

4.2. Beskrivning av data 4.2.1. HPR

För att prediktera en helårsprestation studeras data på individnivå där tillgängliga variabler används. Några av dessa kodas om till dummys under bearbetningen för att enklare arbeta med urskiljningen av studenternas egenskaper. Det skapas dessutom en dummyvariabel, KursAndring, som arbetats fram via kursplaner från Örebro universitet för respektive kurs (Örebro universitet, 2013a, 2013b, 2013c, 2013d, 2013e, 2013f, 2014a, 2014b, 2014c, 2014d, 2014e, 2014f, 2014g, 2015a, 2015b, 2015c, 2015d, 2016a, 2016b, 2016c, 2016d, 2017a, 2017b, 2017c, 2018a, 2018b, 2018c, 2018d, 2018e, 2019a, 2019b, 2019c, 2019d). Den variabeln visar på om kursen har förändrats med avseende på antal moment. Till sist skapas en variabel som pekar på hur en student presterat föregående termin. Nedan listas de variabler som studeras för respektive kurs.

Tabell 1. Illustrerar alla variabler med tillhörande beskrivning som studeras gällande HPR

Variabelbeteckning Variabelbeskrivning

HPR Helårsprestation på individnivå, responsvariabel. Kan

anta minsta värde 0 och största värde 0,25 för kurs motsvarande 15hp och 0,5 för kurs motsvarande 30hp

Konman Studentens kön. Antar värde 1 om man, 0 annars

Alder Studentens ålder. Antar värden mellan 18 och 85

TerminDummy Termin då studenten läst kursen. 0 för höst, 1 för vår

ProgSDummy Antar värde 1 om studenten är annan programstudent, 0

annars

FrisDummy Antar värde 1 om friståendekursstudent, 0 annars

KursAndring Antar värde 0 tills det att kursen har förändrats med

avseende på moment, då antas värde 1

CeDummy Antar värde 1 om civilekonomprogramstudent, 0 annars

HPExTermin Studentens presterade hp föregående termin

Tabellen illustrerar bearbetade tillgängliga variabler utifrån datamaterialet samt KursAndring som utomstående variabel.

Tabell 2. Illustrerar vilka variabler som ingår för respektive kurs

Variabelbeteckning Fek/Inf Nek/Stat Eko Nek/Stat Rest

(17)

Konman X X X Alder X X X TerminDummy X X X ProgSDummy X FrisDummy X X KursAndring X X X CeDummy X HPExTermin X

Tabellen illustrerar fördelningen av variabler för respektive kurs samt avdelningar för kurserna i

nationalekonomi och statistik. Eko inkluderar endast ekonomiprogramstudenter och Rest inkluderar resterande studenter.

Tabell 3. Deskriptiv statistik gällande medelvärden

Variabelbeteckning Fek n = 1261 Nek Eko n = 1238 Nek Rest n = 668 Inf n = 859 Stat Eko n = 1002 Stat Rest n = 562 HPR 0,35 0,39 0,26 0,35 0,20 0,12 Konman 0,61 0,53 0,66 0,78 0,54 0,62 Alder 23,55 22,35 24,49 24,24 22,84 24,28 TerminDummy 0,51 0,55 0,47 0,47 0,56 0,30 ProgSDummy 0,27 0,049 FrisDummy 0,43 0,75 0,12 0,60 KursAndring 0,84 0,14 0,21 0,09 0,31 0,21 CeDummy 0,73 0,78 HPExTermin 22,11 27,43

Tabellen illustrerar fördelningen av variabler för respektive kurs samt avdelningar för kurserna i

nationalekonomi och statistik. Eko inkluderar endast ekonomiprogramstudenter och Rest inkluderar resterande studenter. n = antalet observationer. Resultaten är avrundade till två decimaler.

För ekonomiprogramstudenter gällande kurserna för nationalekonomi och statistik ingår variabeln CeDummy som antar värde 1 om student kommer från civilekonomprogrammet och 0 om student kommer från ekonomiprogrammet. Gällande de resterande för de kurserna ingår istället variabeln FrisDummy som antar värde 1 om studenten läser kursen som fristående och 0 om programstudent.

Variablerna skiljer sig åt i ett läge då det sågs intressant att titta på hur individer i fråga har presterat föregående termin. Därför läggs ekonomiprogramstudenter, som inkluderar studenter

(18)

från ekonomiprogrammet och studenter från civilekonomprogrammet, ihop som en grupp och de resterande läggs i en annan grupp gällande kurserna för nationalekonomi och statistik. Det på grund av att datamaterialet endast innehåller information utifrån handelshögskolans studenter. Resterande studenters föregående termin kan innefatta en kurs på Örebro

universitet som inte tillhandahålls på handelshögskolan och därför kommer dem modelleras separat. Det hade varit teoretiskt möjligt att behandla alla studenter i samma modell om man haft tillgång till dessa data, men som krävt metoder för att hantera möjliga bortfall.

Gällande kursen i företagsekonomi och informatik så läses de kurserna som första kurs för programstudenter alternativt som fristående eller som valfri kurs för andra programstudenter. Det innebär att det inte finns någon föregående termin att hämta information kring tidigare presterade hp på grund av begränsad datatillgång. Om ProgramSDummy och FrisDummy båda antar värdet 0 kommer studenten från ekonomiprogrammet, gällande kursen i företagsekonomi. Det samma gäller för kursen i informatik men då båda antar värdet 0 är studenten systemvetenskapsprogramstudent.

En möjlighet till att hantera avsaknaden av prestation föregående termin skulle kunna vara att titta på gymnasiebetyg för respektive student. Detta är dock ingen information som denna uppsats tillhandahåller.

4.2.2 HST

För att prediktera antalet helårsstudenter studeras data genom att samla in antalet individer per termin för respektive kurs. Utifrån bearbetningen kommer framtida modeller studeras på terminnivå till skillnad från helårsprestationer som studeras på individnivå. För predikteringen används tillgängliga variabler och utomstående variabler som kan tänkas vara intressanta.

En utomstående variabel är Soktryck som påvisar vad söktrycket låg på för kurserna för respektive termin (Universitets- och högskolerådet, u.å.). En annan är en dummyvariabel, UppdragD, som tyder på om kursen påverkats av ett ökat uppdrag för respektive termin (Strandahl2). Det skapas även laggade variabler. En laggad variabel är en variabel som

beskriver gårdagens värde. Då variablerna som används är uppdelade på terminsnivå kommer även det laggade variablerna vara förskjutna på terminsnivå. Variabler som beskriver vilket program studenterna kommer ifrån alternativt friståendestudenter är förskjutna med ett år. Detta för att få en likvärdig motsvarighet till dagens värde då studenter ofta läser vissa kurser specifikt för höstterminen alternativt vårterminen. Laggade variabler kan ge en bra prediktion

(19)

för antalet helårsstudenter då antalet helårsstudenter idag kan tänkas efterlikna antalet helårsstudenter föregående år.

Slutligen skapas variabler för Konjunkturen (Arbetsförmedlingen, 2019), arbetslösheten (SCB, 2020) och sysselsättningen (SCB, 2020) med tillhörande laggar. De kan tänkas vara intressanta då individer möjligen är mer benägna att söka sig till vidare studier om

arbetslösheten i samhället är hög och sysselsättningen är låg. Samma gäller om landet ligger i lågkonjunktur.

Tabell 4. Illustrerar alla variabler med tillhörande beskrivning som studeras gällande HST

Variabelbeteckning Variabelbeskrivning

AntalS Antal studenter på terminnivå, responsvariabel

TerminD Termin då studenten registrerats på kursen. 0 för höst, 1 för vår

KonjD Konjunkturindikator per halvår, ett halvår innan

KonjD2 Konjunkturindikator per halvår, ett år innan

KonjD3 Konjunkturindikator per halvår, ett och ett halvt år innan

KonjD4 Konjunkturindikator per halvår, två år innan

Arb Genomsnittlig arbetslöshet per halvår, ett halvår innan

Arb2 Genomsnittlig arbetslöshet per halvår, ett år innan

Sys Genomsnittlig sysselsättning per halvår, ett halvår innan

Sys2 Genomsnittlig sysselsättning per halvår, ett år innan

Soktryck Söktrycket på kursen

AntalLagg Antal studenter föregående år

EkoLagg Antal ekonomer föregående år

CivilLagg Antal civilekonomer föregående år

StatLagg Antal statistiker föregående år

AnnatLagg Antal resterande programstudenter föregående år

FrisLagg Antal friståendestudenter föregående år

SystemVLagg Antal systemvetenskapsstudenter föregående år

UppdragD Antar värde 1 för utökat uppdrag på kursen, 0 annars

MsrLagg Antal sportmanagementstudenter föregående år

(20)

Tabell 5. Illustrerar vilka variabler som ingår för respektive kurs

Variabelbeteckning Fek Nek/Stat Inf

AntalS X X X TerminD X X X KonjD X X X KonjD2 X X X KonjD3 X X X KonjD4 X X X Arb X X X Arb2 X X X Sys X X X Sys2 X X X Soktryck X X X AntalLagg X X X EkoLagg X X CivilLagg X StatLagg X X AnnatLagg X X X FrisLagg X X X SystemVLagg X X UppdragD X X MsrLagg X

Tabell 6. Deskriptiv statistik gällande medelvärde på terminsnivå

Variabelbeteckning Fek Nek Inf Stat

AntalS 103,3 159,3 73,0 134,0 KonjD 105,0 105,0 105,0 105,0 KonjD2 105,0 105,0 105,0 105,0 KonjD3 104,4 104,4 104,4 104,4 KonjD4 102,7 102,7 102,7 102,7 Arb 0,08 0,08 0,08 0,08 Arb2 0,07 0,07 0,07 0,07

(21)

Sys 0,67 0,67 0,67 0,67 Sys2 0,67 0,67 0,67 0,67 Soktryck 405,7 309,4 97,73 223,5 AntalLagg 103,7 156,0 72,18 128,9 EkoLagg 30,73 26,64 17,82 CivilLagg 73,18 60,45 StatLagg 4,46 5,0 16,0 AnnatLagg 7,27 7,27 5,18 3,91 FrisLagg 43,91 43,91 9,55 30,73 SystemVLagg 10,27 57,45 MsrLagg 10,0

Tabellen illustrerar fördelningen av variabler för respektive kurs. Antalet observationer är elva för alla kurser (HT14-HT19). Resultaten är avrundade till två decimaler.

Tabell 7. Illustrerar antalet studenter för respektive kurs

Termin Fek Nek Inf Stat

HT14 78 158 66 153 VT15 89 174 55 121 HT15 98 130 58 119 VT16 104 158 64 124 HT16 146 156 98 135 VT17 114 175 72 129 HT17 103 162 76 130 VT18 104 162 80 130 HT18 92 158 78 149 VT19 102 169 76 131 HT19 106 150 80 153

(22)

5. Modell

5.1. HPR

Det utförs multipla regressioner för grundkurserna. I tabell 2 visas variablerna som ligger till grund för modellerna för de fyra grundkurserna. Modellerna har sedan byggts på med

interaktionsvariabler mellan de förklarande variablerna. Dessa införs i tron om att två förklarande variabler interagerar med varandra. Variabeln för ålder läggs även till som kvadrerad. Syftet är att hitta en så god prediktionsmodell som möjligt.

Tabell 8. Illustrerar alla variabler som används för respektive kurs

Variabelbeteckning Fek/Inf Nek/Stat Eko Nek/Stat Rest

HPR X X X Konman X X X Alder X X X TerminDummy X X X ProgSDummy X FrisDummy X X KursAndring X X X CeDummy X HPExTermin X Alder2 X X X Konman.Alder X X X Konman.TerminDummy X X X Konman.ProgSDummy X Konman.FrisDummy X X Konman.KursAndring X X X Konman.CeDummy X Konman.HPExTermin X Konman.Alder2 X X X Alder.TerminDummy X X X Alder.ProgSDummy X Alder.FrisDummy X X Alder.KursAndring X X X

(23)

Alder.CeDummy X Alder.HPExTermin X TerminDummy.ProgSDummy X TerminDummy.FrisDummy X X TerminDummy.KursAndring X X X TerminDummy.CeDummy X TerminDummy.HPExTermin X TerminDummy.Alder2 X X X ProgramSDummy.KursAndring X ProgramSDummy.Alder2 X FrisDummy.KursAndring X FrisDummy.Alder2 X X KursAndring.Alder2 X X X Alder2.HPExTermin X KursAndring.HPExTermin X CeDummy.Alder2 X CeDummy.KursAndring X CeDummy.HPExTermin X

Tabellen illustrerar fördelningen av variabler till modellerna för respektive kurs samt avdelningar för kurserna i nationalekonomi och statistik. Eko inkluderar endast ekonomiprogramstudenter och Rest inkluderar resterande studenter.

5.2. HST

I tabell 5 visas variablerna som ligger till grund för modellerna för de fyra grundkurserna. Variablerna har sedan bearbetats med hjälp av principalkomponentanalys för att få ner antalet variabler då antalet observationer är få.

Tabell 9. Illustrerar alla variabler som används för respektive kurs

Variabelbeteckning Fek Nek/Stat Inf

AntalS X X X

TerminD X X X

Soktryck X X X

UppdragD X X

(24)

PcaArb X X X

PcaKonjD X X X

PcaLagg är en linjärkombination av variablerna EkoLagg, StatLagg, AnnatLagg, FrisLagg, SystemVLagg och MsrLagg för kursen i företagsekonomi. Där har den andra

principalkomponenten valts som ger en kumulativ förklarad variation på 87,15%. För nationalekonomi och statistik är PcaLagg en linjärkombination av variablerna EkoLagg, CivilLagg, StatLagg, AnnatLagg och FrisLagg. Den andra principalkomponenten har valts för båda kurserna och för nationalekonomi ger den en kumulativ förklarad variation på 90,91% och för statistik 86,59%. För kursen i informatik är PcaLagg en linjärkombination av variablerna AnnatLagg, FrisLagg och SystemVLagg. Även där har den andra

principalkomponenten valts som ger en kumulativ förklarad variation på 91,4%.

För alla fyra kurser gäller följande: PcaArb är en linjärkombination av variablerna Arb, Arb2, Sys och Sys2. Där har den andra principalkomponenten valts och ger en kumulativ förklarad variation på 98,76%. PcaKonjD är en linjärkombination av variablerna KonjD, KonjD2, KonjD3 och KonjD4. Där har den första principalkomponenten valts och ger en förklarad variation på 84,65%.

Som tidigare nämnts i uppsatsen så vill man ha så lågt antal principalkomponenter som möjligt som samtidigt förklarar en betydande del i variationen i data (James et al. 2013, s.374, 384). Detta har varit i åtanke vid valet av ovanstående komponenter.

(25)

6. Resultat och analys

6.1. HPR

Den slutgiltiga modellen med tillhörande variabler har tagits fram efter utförandet av ”k-fold cross-validation” som repeterats 20 gånger, med k = 10. Därefter har ”forward selection” använts. Resultatet visas i nedanstående tabeller.

Tabell 10. Illustrerar resultatet från modellen med lägst prediktionsfel för grundkursen i

företagsekonomi

Koefficienter Estimat Standardfel P-värde

Intercept 0,2410 0,1434 0,0930. Alder 0,0154 0,0108 0,1539 FrisDummy 0,7144 0,1847 0,0001*** Alder2 -3,560*10−4 1,983*10−4 0,0729. Konman.TerminDummy -0,0224 0,0143 0,1176 Konman.FrisDummy 0,0322 0,0163 0,0480* Konman.Alder2 -3,525*10−5 2,033*10−5 0,0831. Alder.FrisDummy -0,0545 0,0134 5,060*10−5*** Alder.KursAndring -3,891*10−4 5,883*10−4 0,5085 TerminDummy.KursAndring -0,0261 0,0168 0,1199 TerminDummy.Alder2 4,889*10−5 2,502*10−5 0,0509. FrisDummy.Alder2 8,667*10−4 2,376*10−4 2,760*10−4*** Justerat 𝑅2: 0,1073

Resultatet har utförts i R. Resultatet är avrundat till fyra decimaler. P-värde indikeras enligt följande: *** P <0,001, ** P <0,01, * P <0,05, . P <0,1

Modellen inkluderar elva förklarande variabler utifrån figur 1A. Den slutgiltiga modellen visas i tabell 10 och har en förklaringsgrad på 10,73%. Utifrån modellens elva förklarande variabler är det tre som inte är interaktionsvariabler.

(26)

Tabell 11. Illustrerar resultatet från modellen med lägst prediktionsfel för

ekonomiprogramstudenter för grundkursen i nationalekonomi

Koefficienter Estimat Standardfel P-värde

Intercept 0,0902 0,0160 2,11*10−8*** HPExTermin 0,0122 5,840*10−4 <2 *10−16*** CeDummy -0,0150 0,0103 0,1469 Konman.TerminDummy -0,0367 0,0124 0,0031** Konman.CeDummy -0,0108 0,0108 0,3195 TerminDummy.Alder2 8,168*10−5 1,884*10−5 1,57*10−5*** Justerat 𝑅2: 0,2728

Resultatet har utförts i R. Resultatet är avrundat till fyra decimaler. P-värde indikeras enligt följande: *** P <0,001, ** P <0,01, * P <0,05, . P <0,1

Modellen inkluderar fem förklarande variabler utifrån figur 2A. Den slutgiltiga modellen visas i tabell 11 och har en förklaringsgrad på 27,28%. Utifrån modellens fem förklarande variabler är det två som inte är interaktionsvariabler.

Tabell 12. Illustrerar resultatet från modellen med lägst prediktionsfel för resterande studenter

för grundkursen i nationalekonomi

Koefficienter Estimat Standardfel P-värde

Intercept 0,3437 0,0133 <2 *10−16***

Alder.FrisDummy -0,004 0,0006 3,34 *10−12***

Justerat 𝑅2: 0,0689

Resultatet har utförts i R. Resultatet är avrundat till fyra decimaler. P-värde indikeras enligt följande: *** P <0,001, ** P <0,01, * P <0,05, . P <0,1

Modellen inkluderar en förklarande variabel utifrån figur 3A. Den slutgiltiga modellen visas i tabell 12 och har en förklaringsgrad på 6,89%. Modellens förklarande variabel utgör en interaktionsvariabel mellan ålder och en dummy som tyder på om du läst kursen som fristående eller inte.

(27)

Tabell 13. Illustrerar resultatet från modellen med lägst prediktionsfel för grundkursen i

informatik

Koefficienter Estimat Standardfel P-värde

Intercept 0,3107 0,0644 1,64*10−6*** Alder 0,0063 0,0042 0,1388 FrisDummy -0,2605 0,0909 0,0043** Alder2 -1,644*10−4 7,023*10−5 0,0195* Konman.FrisDummy 0,0635 0,0395 0,1086 Alder.FrisDummy 0,0043 0,003 0,1487 Justerat 𝑅2: 0,0576

Resultatet har utförts i R. Resultatet är avrundat till fyra decimaler. P-värde indikeras enligt följande: *** P <0,001, ** P <0,01, * P <0,05, . P <0,1

Modellen inkluderar fem förklarande variabler utifrån figur 4A. Den slutgiltiga modellen visas i tabell 13 och har en förklaringsgrad på 5,76%. Utifrån modellens fem förklarande variabler är det tre som inte är interaktionsvariabler.

Tabell 14. Illustrerar resultatet från modellen med lägst prediktionsfel för

ekonomiprogramstudenter för grundkursen i statistik

Koefficienter Estimat Standardfel P-värde

Intercept 0,1045 0,0106 <2 *10−16***

HPExTermin 0,0039 3,452*10−4 <2 *10−16***

Konman.Alder2 -4,257*10−5 9,963*10−6 2,12*10−5***

Justerat 𝑅2: 0,1385

Resultatet har utförts i R. Resultatet är avrundat till fyra decimaler. P-värde indikeras enligt följande: *** P <0,001, ** P <0,01, * P <0,05, . P <0,1

Modellen inkluderar två förklarande variabler utifrån figur 5A. Den slutgiltiga modellen visas i tabell 14 och har en förklaringsgrad på 13,85%. Utifrån modellens två förklarande variabler är det HPExTermin som inte är en interaktionsvariabel.

(28)

Tabell 15. Illustrerar resultatet från modellen med lägst prediktionsfel för det resterande

studenter för grundkursen i statistik

Koefficienter Estimat Standardfel P-värde

Intercept 0,1387 0,0077 <2 *10−16***

Alder.FrisDummy -0,0014 3,887*10−4 3,9*10−4***

Justerat 𝑅2: 0,0205

Resultatet har utförts i R. Resultatet är avrundat till fyra decimaler. P-värde indikeras enligt följande: *** P <0,001, ** P <0,01, * P <0,05, . P <0,1

Modellen inkluderar en förklarande variabel utifrån figur 6A. Den slutgiltiga modellen visas i tabell 15 och har en förklaringsgrad på 2,05%. Modellens förklarande variabel utgör en interaktionsvariabel mellan ålder och en dummy som tyder på om du läst kursen som fristående eller inte.

6.2. HST

Vid utförandet av LOOCV för Ridge regression och LASSO har det tagits fram prediktioner för respektive termin som jämförs med det sanna värdet. Metodernas modeller jämförs även med en enkel lagg för att se möjliga förbättringar. Resultaten visas i tabellen nedan för respektive kurs.

Tabell 16. Illustrerar resultatet av jämförelsen på de sanna värdena med de predikterade

värdena

Kurs Enkel lagg

Corr RMSE Ridge regression Corr RMSE LASSO Corr RMSE Fek 0 25,11 0,84 17,77 0,77 17,29 Nek 0,07 18,04 0,81 11,29 0,82 12,34 Inf 0,13 16,53 0,71 11,44 0,6 11,96 Stat 0,23 16,35 0,81 12,09 0,7 12,76

Resultatet har utförts i R, avrundat till två decimaler. Corr står för korrelationen, RMSE står för ”root mean squared error” och enkel lagg är värdet från föregående år.

Resultaten för Ridge regression och LASSO ges av olika värden på lambda för respektive kurs. Lambda har valts ut genom att titta på vilket prövat lambda i ordning på ”grid” som ger lägst prediktionsfel. Detta kan utläsas från figur 7A-10A för respektive kurs. För

företagsekonomi är 𝜆 = 25,81 för Ridge regression och för LASSO är 𝜆 = 8,55. För nationalekonomi är 𝜆 = 18,99 för Ridge regression och för LASSO är 𝜆 = 2,06. För

(29)

informatik är 𝜆 = 30,19 för Ridge regression och för LASSO är 𝜆 = 3,94. Slutligen för statistik är 𝜆 = 21,56 för Ridge regression och för LASSO är 𝜆 = 4,06.

Tabell 17. Illustrerar resultatet på de predikterade antalet studenter för enkel lagg, Ridge och

LASSO för respektive kurs

Termin Fek

Enkel Ridge LASSO

Nek

Enkel Ridge LASSO

Inf

Enkel Ridge LASSO

Stat

Enkel Ridge LASSO

HT14 84 95 101 129 154 154 91 68 68 126 139 137 VT15 129 96 101 154 162 163 56 67 69 102 127 129 HT15 78 100 101 158 150 148 66 70 70 153 134 137 VT16 89 99 101 174 164 165 55 70 71 121 126 127 HT16 98 114 112 130 157 158 58 75 72 119 134 133 VT17 104 114 112 158 171 173 64 71 73 124 130 132 HT17 146 104 101 156 158 155 98 76 74 135 137 135 VT18 114 103 101 175 164 164 72 75 75 129 133 131 HT18 103 105 101 162 155 155 76 79 77 130 139 138 VT19 104 103 101 162 163 163 80 76 77 130 133 134 HT19 92 103 101 158 155 154 78 77 77 149 141 142 Resultatet har utförts i R, avrundat till heltal.

(30)

7. Slutsatser och diskussioner

7.1. HPR

Utifrån våra metoder har vi hittat en så god prediktionsmodell som möjligt som visas i våra resultat. För att ta fram modellerna utgick vi först ifrån metoden ”k-fold cross validation” för att hitta den storlek på modell som utgör lägst prediktionsfel. Med ”forward selection” ges den slutgiltiga modellen utifrån resultatet av ”k-fold cross validation”. Den slutgiltiga modellen varierar för respektive kurs och diskuteras nedan.

Utifrån modellen i tabell 10 så ser det ut som att variabeln FrisDummy har en betydande roll för prediktionen. Det kan tänkas vara förväntat att studenter som läser kursen som fristående skiljer sig från studenter som läser kursen inom ett program inom företagsekonomi.

Jämför vi informatik med företagsekonomi som utgår ifrån samma förklarande variabler så skiljer sig modellerna i tabell 13 och tabell 10 åt. En bidragande faktor till det skulle kunna vara att en större del av de som läser informatikkursen är studenter från systemvetenskapliga programmet jämfört med företagsekonomi där studenter från ekonomiprogrammet utgör en mindre del.

Utifrån modellen i tabell 11 kan vi se att antal poäng en student har uppnått föregående termin har en positiv effekt på hur en student kommer att prestera på kursen. Detsamma gäller för modellen i tabell 14 vilket vi hade förväntat oss då de utgår ifrån samma förklarande variabler.

Modellen i tabell 12 låga förklaringsgrad i jämförelse med modellen i tabell 11 för

ekonomiprogramstudenter skulle kunna förklaras av avsaknaden av variabeln HPExTermin. Detsamma gäller för modellen i tabell 15 i jämförelse med modellen i tabell 14 då modellerna för kursen i statistik och nationalekonomi utgår från samma variabler.

Sammanfattningsvis kan vi se betydelsen av bra förklarande variabler. För våra modeller har variabeln HPExTermin en betydande roll för modellernas prediktion samt förklaringsgrad.

7.2. HST

I jämförelse med resultaten från HPR så visar vi inte på några precisa prediktionsmodeller med tillhörande variabler. Detta för att våra resultat utgår från så få observationer att det inte blir lika meningsfullt.

(31)

Utifrån de olika utförda metoderna kan vi se liknande resultat för de fyra kurserna i tabell 16. Ridge regression och LASSO har en högre korrelation till det sanna värdet i jämförelse med en enkel lagg. Dessutom har dem ett lägre RMSE i jämförelse med enkel lagg. Det visar på att dem ger en bättre prediktion i jämförelse med att endast titta på hur antalet studenter har sett ut föregående år. Man bör dock ha i åtanke att även fast Ridge regression och LASSO har en hög korrelation till det sanna värdet kvarstår ett problem med få observationer. Modellerna består endast av elva observationer samt ett högt antal variabler vilket resulterar i få

kvarstående frihetsgrader. Med det sagt behöver inte resultatet av metoderna ge en god prediktionsmodell. Vi kan se i tabell 17 att de predikterade värdena för Ridge regression och LASSO generellt sett ger prediktioner nära det sanna värdet som visas i tabell 7. Även fast resultatet ser lovande ut medför få observationer en risk att passa väl in på data.

7.1. Möjliga förbättringar

Gällande HPR hade en viktig förbättring för vårt ändamål varit att ha tillgång till en databas som gäller för hela Örebro universitet samt databaser för resterande universitet i Sverige. Under den förutsättningen hade vi haft tillgång till variabeln HPExTermin för alla studenter som tidigare läst på universitetsnivå och på så vis kunnat uppnå bättre prediktionsmodeller.

I mån av tid hade vi även kunnat använda oss av metoderna Ridge regression och LASSO som användes för HST för att kunna jämföra resultaten.

För framtida studier skulle en aspekt kunna vara att titta på andra variabler, då vikten av bra förklarande variabler har en betydande roll för att hitta en god prediktionsmodell. Några möjliga variabler av intresse gällande helårsprestationer som vi inte hade tillgång till visas i tabellen nedan.

Tabell 18. Möjliga variabler

Variabler

Gymnasiebetyg/högskoleprov Examinator för respektive kurs Nyinflyttad till Örebro, dummy Svensk medborgare, dummy

Att ha tillgång till studenters gymnasiebetyg/högskoleprov skulle likt variabeln HPExTermin spegla en students tidigare prestation. Det skulle framförallt vara av intresse för de studenter

(32)

som inte har någon tidigare prestation på universitetsnivå. En annan aspekt skulle kunna vara att analysera om olika examinatorer kan tänkas ha en påverkan på en students prestation. Därefter skulle det kunna undersökas hur vida en students prestation varierar beroende på om denne är nyinflyttad för studier i Örebro eller tidigare bosatt där. Det skulle också kunna vara av intresse att titta på om en student är svensk medborgare eller inte. Båda dessa aspekter kan tänkas ha en positiv påverkan på en students prestation. Detta på grund av att de studenter som kommer utifrån möjligen är mer benägna att prestera på grund av en möjligen osäker ekonomisk trygghet.

En annan framtida studie skulle kunna vara att analysera totala antalet helårsprestationer för att närmare kunna räkna på ersättningsbeloppet.

En viktig förbättring gällande HST hade varit att ha tillgång till observationer längre bak i tiden. Ett annat alternativ hade kunnat vara att lägga samman samtliga fyra kurser i en modell som då hade genererat 44 observationer. För att särskilja kurserna hade tre dummies kunnat skapats. Problemet med få observationer hade dock kvarstått.

(33)

8. Referenslista

Arbetsförmedlingen. (2019). Arbetsmarknadsrapport 2019

https://arbetsformedlingen.se/om-oss/statistik-och-analyser/analyser-och-prognoser/arbetsmarknadsrapporter/2019[2020-05-11]

Emilson, P.-O. 2020. Copy of Genomströmning HH. [Excelfil]. E-post 8 april.

Göteborgs universitet. 2019. Utbildning på grund- och avancerad nivå.

https://medarbetarportalen.gu.se/ekonomi/ekonomi-goteborgs-universitet/ekonomisammanhangbegreppochfakta/utbildningpagrundnivaochavanceradniva?skipSS OCheck=true&referer=https%3A%2F%2Fwww.google.com%2F[2020-03-30]

James, G., Witten, D., Hastie, T. & Tibshirani, R. (2013). An Introduction to Statistical

Learning: with Applications in R, Springer. E-bok.

http://faculty.marshall.usc.edu/gareth-james/ISL/ [2020-01-21] Linköpings universitet. 2020. Intäkter av anslag.

https://insidan.liu.se/ekonomi/redovisning/anslagsintakter?l=sv[2020-03-30] SCB. (2020). Statistikdatabasen

https://www.statistikdatabasen.scb.se/pxweb/sv/ssd/[2020-05-11] Universitets- och högskolerådet. (u.å.)

https://statistik.uhr.se/[2020-04-27]

Universitetskanslersämbetet. 2018. Studenternas prestationsgrad fortsätter att öka.

https://www.uka.se/download/18.269f2ff01677e0282571a94/1544615150642/statistisk-analys-2018-12-13-studenternas-prestationsgrad-fortsatter-att-oka.pdf [2020-03-31]

Universitetskanslersämbetet. u.å. Utfall: Helårsstudenter (HST) och helårsprestationer (HPR)

per utbildningsområde.

https://www.uka.se/statistik--analys/statistikdatabas-hogskolan-i-siffror/beskrivningar-av-

statistiken-i-databasen-hogskolan-i-siffror/ekonomi/ekonomi/2018-02-23-utfall-helarsstudenter-hst-och-helarsprestationer-hpr-per-utbildningsomrade.html [2020-04-15]

Örebro universitet. 2013a. Kursplan: Företagsekonomi A, 30 högskolepoäng.

http://lily.oru.se/studieinformation/VisaKursplan?kurskod=F%D61001&termin=20132&sprak=sv

(34)

Örebro universitet. 2013b. Kursplan: Företagsekonomi A, 30 högskolepoäng.

http://lily.oru.se/studieinformation/VisaKursplan?kurskod=F%D61001&termin=20141&sprak=sv

[2020-04-23]

Örebro universitet. 2013c. Kursplan: Nationalekonomi A, 30 högskolepoäng.

http://lily.oru.se/studieinformation/VisaKursplan?kurskod=NA1001&termin=20132&sprak=sv

[2020-04-24]

Örebro universitet. 2013d. Kursplan: Informatik med systemvetenskaplig inriktning A, 30 högskolepoäng.

http://lily.oru.se/studieinformation/VisaKursplan?kurskod=IK1001&termin=20132&sprak=sv

[2020-04-24]

Örebro universitet. 2013e. Kursplan: Informatik med systemvetenskaplig inriktning A, 30 högskolepoäng.

http://lily.oru.se/studieinformation/VisaKursplan?kurskod=IK1001&termin=20141&sprak=sv

[2020-04-24]

Örebro universitet. 2013f. Kursplan: Statistik A, Grundläggande statistik, 15 högskolepoäng.

http://lily.oru.se/studieinformation/VisaKursplan?kurskod=ST1001&termin=20132&sprak=sv

[2020-04-24]

Örebro universitet. 2014a. Kursplan: Företagsekonomi A, 30 högskolepoäng.

http://lily.oru.se/studieinformation/VisaKursplan?kurskod=F%D61001&termin=20142&sprak=sv

[2020-04-23]

Örebro universitet. 2014b. Kursplan: Företagsekonomi A, 30 högskolepoäng.

http://lily.oru.se/studieinformation/VisaKursplan?kurskod=F%D61001&termin=20151&sprak=sv

[2020-04-23]

Örebro universitet. 2014c. Kursplan: Nationalekonomi A, 30 högskolepoäng.

http://lily.oru.se/studieinformation/VisaKursplan?kurskod=NA1001&termin=20142&sprak=sv

[2020-04-24]

Örebro universitet. 2014d. Kursplan: Nationalekonomi A, 30 högskolepoäng.

http://lily.oru.se/studieinformation/VisaKursplan?kurskod=NA1001&termin=20151&sprak=sv

(35)

Örebro universitet. 2014e. Kursplan: Informatik med systemvetenskaplig inriktning A, 30 högskolepoäng.

http://lily.oru.se/studieinformation/VisaKursplan?kurskod=IK1001&termin=20142&sprak=sv

[2020-04-24]

Örebro universitet. 2014f. Kursplan: Informatik med systemvetenskaplig inriktning A, 30 högskolepoäng.

http://lily.oru.se/studieinformation/VisaKursplan?kurskod=IK1001&termin=20151&sprak=sv

[2020-04-24]

Örebro universitet. 2014g. Kursplan: Statistik A, Grundläggande statistik, 15 högskolepoäng.

http://lily.oru.se/studieinformation/VisaKursplan?kurskod=ST1001&termin=20142&sprak=sv

[2020-04-24]

Örebro universitet. 2015a. Kursplan: Företagsekonomi, grundkurs, 30 högskolepoäng.

http://lily.oru.se/studieinformation/VisaKursplan?kurskod=FE100G&termin=20152&sprak=sv

[2020-04-23]

Örebro universitet. 2015b. Kursplan: Nationalekonomi, grundkurs, 30 högskolepoäng.

http://lily.oru.se/studieinformation/VisaKursplan?kurskod=NA100G&termin=20152&sprak=sv

[2020-04-24]

Örebro universitet. 2015c. Kursplan: Informatik med systemvetenskaplig inriktning, grundkurs, 30 högskolepoäng.

http://lily.oru.se/studieinformation/VisaKursplan?kurskod=IK100G&termin=20152&sprak=sv

[2020-04-24]

Örebro universitet. 2015d. Kursplan: Grundläggande statistik, 15 högskolepoäng.

http://lily.oru.se/studieinformation/VisaKursplan?kurskod=ST100G&termin=20152&sprak=sv

[2020-04-24]

Örebro universitet. 2016a. Kursplan: Företagsekonomi, grundkurs, 30 högskolepoäng.

http://lily.oru.se/studieinformation/VisaKursplan?kurskod=FE100G&termin=20171&sprak=sv

[2020-04-23]

Örebro universitet. 2016b. Kursplan: Nationalekonomi, grundkurs, 30 högskolepoäng.

http://lily.oru.se/studieinformation/VisaKursplan?kurskod=NA100G&termin=20162&sprak=sv

(36)

Örebro universitet. 2016c. Kursplan: Informatik med systemvetenskaplig inriktning, grundkurs, 30 högskolepoäng.

http://lily.oru.se/studieinformation/VisaKursplan?kurskod=IK100G&termin=20162&sprak=sv

[2020-04-24]

Örebro universitet. 2016d. Kursplan: Informatik med systemvetenskaplig inriktning, grundkurs, 30 högskolepoäng.

http://lily.oru.se/studieinformation/VisaKursplan?kurskod=IK100G&termin=20171&sprak=sv

[2020-04-24]

Örebro universitet. 2017a. Kursplan: Nationalekonomi, grundkurs, 30 högskolepoäng.

http://lily.oru.se/studieinformation/VisaKursplan?kurskod=NA100G&termin=20172&sprak=sv

[2020-04-24]

Örebro universitet. 2017b. Kursplan: Nationalekonomi, grundkurs, 30 högskolepoäng.

http://lily.oru.se/studieinformation/VisaKursplan?kurskod=NA100G&termin=20181&sprak=sv

[2020-04-24]

Örebro universitet. 2017c. Kursplan: Informatik med systemvetenskaplig inriktning, grundkurs, 30 högskolepoäng.

http://lily.oru.se/studieinformation/VisaKursplan?kurskod=IK100G&termin=20181&sprak=sv

[2020-04-24]

Örebro universitet. 2018a. Kursplan: Nationalekonomi, grundkurs, 30 högskolepoäng.

http://lily.oru.se/studieinformation/VisaKursplan?kurskod=NA100G&termin=20182&sprak=sv

[2020-04-24]

Örebro universitet. 2018b. Kursplan: Informatik med systemvetenskaplig inriktning, grundkurs, 30 högskolepoäng.

http://lily.oru.se/studieinformation/VisaKursplan?kurskod=IK100G&termin=20182&sprak=sv

[2020-04-24]

Örebro universitet. 2018c. Kursplan: Informatik med systemvetenskaplig inriktning, grundkurs, 30 högskolepoäng.

http://lily.oru.se/studieinformation/VisaKursplan?kurskod=IK100G&termin=20191&sprak=sv

(37)

Örebro universitet. 2018d. Kursplan: Grundläggande statistik, 15 högskolepoäng.

http://lily.oru.se/studieinformation/VisaKursplan?kurskod=ST110G&termin=20182&sprak=sv

[2020-04-24]

Örebro universitet. 2018e. Kursplan: Grundläggande statistik, 15 högskolepoäng.

http://lily.oru.se/studieinformation/VisaKursplan?kurskod=ST110G&termin=20191&sprak=sv

[2020-04-24]

Örebro universitet. 2018f. Utbildningsplan: Statistikerprogrammet, 180 högskolepoäng.

https://api.oru.se/oruapi/v1/utbildningsinformation/utbildning/SSK1K?typ=program&accept=html&r evision=1.000&termin=20202&sprak=sv[2020-06-02]

Örebro universitet. 2019a. Kursplan: Företagsekonomi, grundkurs, 30 högskolepoäng.

https://api.oru.se/oruapi/v1/utbildningsinformation/utbildning/FE100G?typ=kurs&accept=html&revi sion=1.000&sprak=sv[2020-04-23]

Örebro universitet. 2019b. Kursplan: Nationalekonomi, grundkurs, 30 högskolepoäng.

https://api.oru.se/oruapi/v1/utbildningsinformation/utbildning/NA100G?typ=kurs&accept=html&re vision=1.000&sprak=sv[2020-04-24]

Örebro universitet. 2019c. Kursplan: Informatik med systemvetenskaplig inriktning, grundkurs, 30 högskolepoäng.

https://api.oru.se/oruapi/v1/utbildningsinformation/utbildning/IK100G?typ=kurs&accept=html&revi sion=1.000&sprak=sv[2020-04-24]

Örebro universitet. 2019d. Kursplan: Grundläggande statistik, 15 högskolepoäng.

https://api.oru.se/oruapi/v1/utbildningsinformation/utbildning/ST110G?typ=kurs&accept=html&revi sion=1.000&sprak=sv[2020-04-24]

Örebro universitet. 2019e. Företagsekonomi, grundkurs, 30 hp.

https://www.oru.se/utbildning/kurser/kurs/foretagsekonomi-grundkurs-fe100g [2020-03-30]

Örebro universitet. 2019f. Nationalekonomi, grundkurs, 30 hp.

https://www.oru.se/institutioner/handelshogskolan/utbildning/kurser/kurser-hh/nationalekonomi-grundkurs-na100g [2020-03-30]

(38)

Örebro universitet. 2019g. Informatik med systemvetenskaplig inriktning, grundkurs, 30 hp.

https://www.oru.se/institutioner/handelshogskolan/utbildning/kurser/kurser-hh/informatik-med-systemvetenskaplig-inriktning-grundkurs-ik100g [2020-03-30]

Örebro universitet. 2019h. Grundläggande statistik, 15 hp.

https://www.oru.se/institutioner/handelshogskolan/utbildning/kurser/kurser-hh/grundlaggande-statistik-st110g [2020-03-30]

Örebro universitet. 2019i. Kurser.

https://www.oru.se/institutioner/handelshogskolan/utbildning/kurser/[2020-05-11] Örebro universitet. 2019j. Utbildningsplan: Ekonomiprogrammet, 180 högskolepoäng.

https://api.oru.se/oruapi/v1/utbildningsinformation/utbildning/SEK1K?typ=program&accept=html&r evision=2.000&termin=20202&sprak=sv[2020-06-02]

Örebro universitet. 2019k. Utbildningsplan: Civilekonomprogrammet, 240 högskolepoäng.

https://api.oru.se/oruapi/v1/utbildningsinformation/utbildning/SCE2Y?typ=program&accept=html&r evision=2.000&termin=20202&sprak=sv[2020-06-02]

(39)

9. Appendix/bilagor

Figur 1A. Illustrerar prediktionsfelen genom utförande av en repeterad ”k-fold

cross-validation” gällande grundkursen i företagsekonomi

Figur 2A. Illustrerar prediktionsfelen genom utförande av en repeterad ”k-fold

cross-validation” för ekonomiprogramstudenter gällande grundkursen i nationalekonomi

Pre di kt ions fe l Antal Variabler Pre di kt ions fe l Antal Variabler

(40)

Figur 3A. Illustrerar prediktionsfelen genom utförande av en repeterad ”k-fold

cross-validation” för resterande studenter gällande grundkursen i nationalekonomi

Figur 4A. Illustrerar prediktionsfelen genom utförande av en repeterad ”k-fold

cross-validation” gällande grundkursen i informatik

Pre di kt ions fe l Pre di kt ions fe l Antal Variabler Antal Variabler

(41)

Figur 5A. Illustrerar prediktionsfelen genom utförande av en repeterad ”k-fold

cross-validation” för ekonomiprogramstudenter gällande grundkursen i statistik

Figur 6A. Illustrerar prediktionsfelen genom utförande av en repeterad ”k-fold

cross-validation” för resterande studenter gällande grundkursen i statistik

Pre di kt ions fe l Pre di kt io ns fe l Antal Variabler Antal Variabler

(42)

Till vänster presenteras resultatet med LOOCV för Ridge regression och till höger för LASSO.

Figur 7A. Linjediagram av prediktionsfelen med avseende på prövat lambda i ordning på

”grid” för grundkursen i företagsekonomi

Till vänster presenteras resultatet med LOOCV för Ridge regression och till höger för LASSO.

Figur 8A. Linjediagram av prediktionsfelen med avseende på prövat lambda i ordning på

(43)

Till vänster presenteras resultatet med LOOCV för Ridge regression och till höger för LASSO.

Figur 9A. Linjediagram av prediktionsfelen med avseende på prövat lambda i ordning på

”grid” för grundkursen i informatik

Till vänster presenteras resultatet med LOOCV för Ridge regression och till höger för LASSO.

Figur 10A. Linjediagram av prediktionsfelen med avseende på prövat lambda i ordning på

(44)

R-kod HPR Fek:https://wtools.io/paste-code/b1cw Nek:https://wtools.io/paste-code/b1cz Inf: https://wtools.io/paste-code/b1cy Stat:https://wtools.io/paste-code/b1cx HST Fek:https://wtools.io/paste-code/b1cs Nek:https://wtools.io/paste-code/b1cu Inf:https://wtools.io/paste-code/b1iu Stat:https://wtools.io/paste-code/b1ct

References

Related documents

2 Visa fl iken Fält (Fields) och klicka på något av alternativen i gruppen Lägg till och ta bort (Add &amp; Delete) för att lägga till ett fält av mot- svarande datatyp. 3

Även om elevens lösningar på andra problemlösningsuppgifter inte kunde synliggöra alla av Krutetskiis matematiska förmågor som avsågs att synliggöras var elevens

04 Södermanlands län 21 Gävleborgs län 20 Dalarnas län 17 Värmlands län 19 Västmanlands län 24 Västerbottens län 25 Norrbottens län 22 Västernorrlands län. 08 Kalmar län

konsumenter blir lurade eller vilseledda av den märkning som ska finnas på livsmedelsförpackningar eller av den information som ska finnas på till exempel menyer. Erfarenhetsmodulen

Belysning god under mörker totalt men mer i högre nivår - kontinuerlig belysning längs med gatan med hängande lampor från ena sidan till andra - men mer tänkt för bilen - dock ger

Detta kan förklara de stora procentuellmässiga skillnaderna i utdelningarna som studien tittat på där resultatet för ett bolags utdelning över en konjunkturcykel ofta är

Hilton HHonors anknutna hotell hade även det stora globala närverket till förfogande vilket gjorde att kunden kunde ta ut poängen på exempelvis Maldiverna eller New York 30..

Dessa tekniska problem har enligt undersökningen lett till ökade kostnader för kundföretagen och även till helt oväntade kostnader då det i det ursprungliga projektet ofta inte