• No results found

Denna lektionsserie är utformad för att möta tre av fyra punkter i centralt innehåll i statistik, i ämnesplanen för matematik 2B och 2C. Det mål som inte berörs mer än indirekt är det fjärde målet ”Egenskaper hos normalfördelat material och beräk-ningar på normalfördelning med digitala verktyg”. Mål, lärandeobjekt, innehåll, övningar, inbäddning och formativ bedömning för denna lektionsserie i statistik presenteras i tabell 2 och 3 i uppsatsen. Kopplingen mellan bilagorna och lektion-erna – flödet – presenteras i figur 7 i uppsatsen.

Läraren bör här uppmärksammas på att en av punkterna i centralt innehåll: ”Orien-tering och resonemang när det gäller korrelation och kausalitet” egentligen inte ex-plicit ingår som centralt innehåll i 2C. I uppsatsen och lärarhandledningen till lekt-ionsserien har jag dock valt att inkludera den som en punkt i både 2B och 2C, eftersom jag hävdar att den är viktig i relation till förståelse och tolkning av regressionsanalys och en viktig ingång till diskussioner gällande rimlighet av statistiska resultat och analyser gällande samband.

1. LEKTION 1

Mål

Orientering i och grundläggande förståelse av:

-Processen och delarna i en statistisk undersökning -Statistiska samband

Aktiviteter

-Genomgång: delar i en statistisk undersökning -Diskussion av exempel 1 enligt EPA modellen -Genomgång: statistiskt samband

1.1 Introduktion och inramning med hjälp av exempel 1

En god idé vid introduktion och inramning av denna lektionsserie i statistik är att börja med ett aktuellt exempel, innan analyser påbörjas i R. Det finns förstås många möjliga exempel som tjänar syftet – att väcka intresse och få igång diskussionen – men för att visa idéen utgås här från exempel 1, se nästa sida.

Eleverna förväntas ha förberett sig enskilt inför denna lektion (se bilaga 3). Låt ele-verna läsa och diskutera exemplet i par och fundera över frågan: Anta att vi skulle göra en statistisk undersökning som undersöker detta (sambandet mellan ”att stän-digt ha mobilen inom räckhåll” och ”depression och självmordsbenägenhet”), hur skulle det kunna gå till? Notera: detta kan vara svårt för eleverna –det är inte me-ningen att de ska komma med ett färdigt svar (frågeställme-ningen i sig är knepig); ex-emplet är valt för att det är aktuellt, engagerande och relativt lätt att greppa vid en första anblick. Se även tips på frågor i tabell 1.

44

1.2 Exempel 1 satt i relation till generella steg i en statistisk undersökning

I figur 1 beskrivs den generella processen i en statistisk undersökning att ha som grund för diskussionerna – denna kan till exempel presenteras innan diskussionerna i par och vara öppen under dessa diskussioner. Figur 1 är inte bara användbar här, utan genom hela lektionsserien inklusive laborationen (en annan variant presenteras i figur 1 i uppsatsen).

Figur 1. Ett vanligt sätt att beskriva stegen i en statistisk undersökning.

Fråga

•Frågeställning

•Hypotes

Metoder för att hitta

svaret

•Vad är, och hur mäts, x och y? (förklarande- och responsvariabel)

•Följs personer över tid eller görs ett nedslag (enkät)?

•Finns data redan eller måste de samlas in?

Samla in information

•Ska vi undersöka "alla" eller "vissa"? (population/urval)

•Insamling av data (t.ex. register, journaler, nätet, enkät)

•Inmatning eller import av data till statistisk programvara

Svarar på frågan

•Statistisk analys av data med hjälp av programvara

•Tolkning av de statistiska resultaten

•Bedömning av rimlighet/felkällor

45

Diskutera tillsammans med eleverna i klass vad som behövs tas ställning till i de olika stegen i figur 1 om en statistisk undersökning skulle göras om sambandet i exempel 1 genom att till exempel be diskussionsparen komma med nyckelord eller frågor i relation till de olika delarna i figur 1 ovan; sammanställ på tavlan och syntetisera.

I tabell 1 ger exempel på möjligt innehåll och diskussionsfrågor i denna process. Tan-ken med exempel 1 är, förutom att rama in och engagera, att visa på att det kan vara svårt att få till ”den perfekta studien” och därigenom visa på att det är viktigt att 1) ha grundläggande förståelse för den statistiska processen för att 2) ha ett kritiskt förhållningssätt till tolkningar av (statistiska) undersökningar. Men också att ef-tersom det är svårt ibland att skapa ”den perfekta studien”, så går meningarna bland till exempel forskare isär, precis som i ovan exempel, även om de statistiska beräk-ningarna skulle vara korrekta.

Tabell 1. Exempel på möjligt innehåll och diskussionsfrågor, exempel 1.

Statistiskt steg, figur 1 Exempel på frågor och diskussionspunkter

Fråga Exempel på frågeformulering: Finns det ett samband mel-lan skärmtid och depression hos ungdomar?

Detta (och artikeln) implicerar riktningen skärmtid -> de-pression (x= skärmtid, y=dede-pression)

Metoder för att hitta svaret Skulle man kunna göra en enkätstudie som ställer frågor som: ”Under den senaste veckan, uppskatta hur många timmar per dag du tillbringar framför skärmar” och ”un-der den senaste veckan, hur deprimerad har du känt dig på en skala från 1-10”?

Problem: kommer man ihåg hur många skärmtimmar man haft? Viktigt att definiera skärmtid? Förstår alla vad som menas med att känna sig deprimerad? (möjliga fel-källor i steg 4)

Finns det andra relevanta frågor (sömn, motion, mat, har man känt sig deprimerad länge)? Varför?

Samla in information Hur kan vi samla in data till enkätundersökningen – post-enkäter till alla ungdomar i Sverige (dyrt! Hur få tag på adresser?); göra den i skolan eller klassen?

Om vi använder oss av urval enligt ovan, kan vi då uttala oss om alla ungdomar i Sverige? (koppling till steg 4) Kan man lägga ut enkäten på nätet? Kommer alla som ser länken att svara? Vilka tror ni svarar/inte svarar? (koppling till steg 4)

Svarar på frågan Vad innebär egentligen statistisk analys av data? Vad har ni gjort hittills (grafer, lägesmått)?

Vet alla vad data är? (koppling till steg 3)

Bedömning av rimlighet/felkällor: om vi gör en enkätun-dersökning enligt ovan och ser ett samband; hur vet vi då att det verkligen är så att skärmtid ger depression och inte tvärtom (att deprimerade ungdomar har mer skärmtid)?

Är det samma sak? Igen: vilka svarar/vilka svarar inte och hur påverkar de våra tolkningar?

46

1.3 Exempel 1 och statistiska samband (introduktion av korrelation)

Anta att klassen kommit fram till att skärmtid mäts som uppskattat antal timmar mobilanvändning den senaste veckan (x) och att depression uppskattas som depres-siva symptom under den senaste veckan, på en skala 1 till 10 (y). Båda mäts med hjälp av enkät. Anta vidare att 12 elever har svarat på enkäten och att deras resultat ser ut som dem presenterade i figur 2. Hur kan ett samband illustreras grafiskt? För-klara den grafiska representationen punktdiagram i figur 2 (varje punkt en elev – hens kombination av värde på x och y). Diskutera tillsammans om man kan se ett samband och hur det sambandet i så fall ser ut (positivt/negativt). Gäller det för alla elever (se till exempel eleven med x = 5 och y = 8 samt eleven med x = 22,5 och y = 3,5). Resultat på gruppnivå är inte samma sak som resultat på individnivå.

Figur 2. Exempel 1 och statistiskt samband - punktdiagram.

Förståelse av den grafiska representationen punktdiagram är nödvändig för att för-stå begrepp som korrelation och regressionsanalys i lektion 2 och 3. Ägna därför gärna tid åt att diskutera figur 2 i klass/i mindre grupper beroende på vad som fun-gerar bäst i just den aktuella klassen.

47

2. LEKTION 2

Mål

-Orientering i att använda programvara för att ta fram, beräkna och tolka olika represen-tationer av data (grundläggande grafer, läges- och spridningsmått samt korrelation) -Förståelse av kopplingen mellan korrelationmåttet och dess grafiska representation (punktdiagram)

-Grundläggande förståelse för begreppet kausalitet i relation till kritisk granskning av statistiska resultat

Aktiviteter

Genomgång i programvara med hjälp av exempel 2:

-Inmatning av data -Titta på data

-Visualisering av data (lådagram, histogram, punktdiagram) -Beskrivande mått (median, medelvärde, standardavvikelse) Genomgång (tavla och i programvara):

-Beräkning och tolkning av korrelation -Introduktion; kausalitet

Från och med nu är det tänkt att all undervisning i denna lektionsserie ska ske med hjälp av det digitala verktyget R. Tanken är att både lärare och elever använder programvaran vid genomgång. Läraren visar hur kod skrivs i R och eleverna följer läraren, för att sedan också prova själv och i grupp. I samband med att koden körs och resultat fås fram, tolkas och diskuteras resultaten. Vissa begrepp (se rubriker nedan) förklaras också mer detaljerat av läraren i relevanta avsnitt i R koden.

Till sin hjälp har läraren färdigpreparerad R kod som finns i bilaga 6, samt färdiga dataset (tillgängliga via: https://kau.app.box.com/v/MAGK30EkholmSelling2019). I bilaga 1 står hur koden klistras in i ett script i R och exekveras. Viktigt är att introdu-cera exempel 2 på ett tydligt och engagerande sätt innan analyserna påbörjas. Som hjälp till detta finns en beskrivning i bilaga 5.

Då den färdigpreparerade R koden är försedd med förklaringar, instruerande kom-mentarer och diskussionsfrågor kommer inte dessa aspekter att nämnas här. Nedan punktas däremot de förklaringar som behöver göras utöver det som står i R koden, i samband med aktuellt avsnitt i R koden. Kom ihåg att koppla körningen av R koden till de fyra generella stegen i statistiska undersökningar (se figur 1), där fokus i R ko-den ligger på det sista steget ”Försöker svara på frågan”. Detta steg är i R koko-den uppdelat i två: ”Lär-känna-data steg (deskriptiv statistik och visualisering)” och ”Stat-istisk metod/analys”.

2.1 Lägesmått med fokus på medelvärde och median

Detta torde vara repetition för eleverna, men viktigt att alla är med då beskrivande statistik alltid ingår som en första del i statistisk analys och så även i R koden för lektionerna. Måttens förhållande till varandra beroende på typ av fördelning belyses, se nedan. Se även länkar i bilaga 3 ”repetition av statistiska begrepp, inför lektions-serien”.

48

https://jaredkline.com/2019/02/12/dealing-with-skewness-in-machine-learning-data/

2.2 Spridningsmått, med fokus på standardavvikelse

Standardavvikelse används i denna lektionsserie som ett deskriptivt mått på variat-ion i data. Förstås har den andra viktiga tillämpningar, inte minst inom punkten

”Egenskaper hos normalfördelat material och beräkningar på normalfördelning med digitala verktyg” i läroplanen för matematik 2B/2C. I denna lektionsplan är det önsk-värt att begreppet har gåtts igenom och formeln introducerats. Detta kan knytas an till genom att till exempel belysa begreppet utifrån nedan figur. Se även länkar i bi-laga 3 ”repetition av statistiska begrepp, inför lektionsserien”. Viktigt i tolkningen av figuren nedan är att eleverna förstår att spridningen i ett material illustreras utifrån x-axeln inte y-axeln.

https://mathbitsnotebook.com/Algebra2/Statistics/STnormalDistribution.html

2.3 Grafiska representationer av data

De tre grafiska representationerna av data som gås igenom i denna lektionsserie är histogram, lådagram och punktdiagram, med fokus på tolkning av punktdiagram (som introduceras i lektion 1, se även 2.4). Både histogram och lådagram förväntas eleverna tidigare stött på i statistikundervisningen och de finns även representerade i länkar i bilaga 3 ”repetition av statistiska begrepp, inför lektionsserien”. Viktigt gäl-lande lådagram och histogram i denna lektionsserie är att de tjänar som olika gra-fiska, kompletterande, representationer av data (repetera gärna hur ett lådagram är uppbyggt!), och att det finns vissa förhållanden som gäller dem emellan, se till ex-empel illustration nedan.

49

https://ddttrh.info/relationship-between-and/relationship-between-box-plots-and-histo-grams-bar.php

2.4 Korrelation och kausalitet

Det är inte nödvändigt att kunna handräkna korrelationskoefficienter i denna lekt-ionsserie (eller i läromålen för matematik 2B/2C). Däremot står det i det centrala innehållet att statistikdelen i matematik 2B ska innehålla ”Orientering och resone-mang när det gäller korrelation och kausalitet”. En orientering i korrelation bör inne-hålla följande beskrivningar:

Att korrelationskoefficienten är ett mått på graden av linjärt samband mellan två variabler, x och y. Det kan vara bra för läraren att veta att det korrelationsmått som är vanligast, och som presenteras i läroböckerna för gymnasiet, egentligen heter Pe-arson’s korrelationskoefficient och kräver att både x och y ska vara kvantitativa (nu-meriska, helst kontinuerliga, variabler). Det går att beräkna samband och korrelation även för kategoriska/dikotoma variabler men det ingår inte här.

Att korrelationskoefficienten, betecknad r, kan anta följande värden: −𝟏 ≤ 𝒓 ≤ 𝟏.

Ju närmare värdet 0 r är, desto lägre grad av samband mellan x och y. Vidare medför r > 0 en positiv lutning på en tänkt linje (diskuteras mer i relation till nästa begrepp) och r < 0 en negativ lutning.

Det kan vara bra att visa lite olika exempel inför klassen och hjälpa till vid tolkning, till exempel enligt figur på nästa sida. Det finns även mycket digitalt material, som till exempel denna video: https://www.youtube.com/watch?v=ugd4k3dC_8Y, som kortfattat och pedagogiskt förklarar korrelationskoefficienten, inklusive hur den tol-kas. Videon kan användas som lärarhandledning, visas inför klass, eller som instude-ring för eleverna.

50

https://www.myassignmenthelp.net/correlation-assignment-help

När det gäller korrelation och kausalitet är det viktigt att återknyta till diskussion-erna kring exempel 1 i diskussionen av exempel 2. Se även kommentarer i relation till R kod (bilaga 6). Som lärarinläsning rekommenderas Baker (2019): “Correlation is not causation: Learn how to avoid the 5 traps that even pros fall into”, tillgänglig via https://leanpub.com/correlationandcausation. Vid tidsbrist rekommenderas att titta på dessa två videos:

https://www.youtube.com/watch?v=U-_f8RQIIiw https://www.youtube.com/watch?v=HUti6vGctQM

3. LEKTION 3

Mål

-Användande av programvara för att ta fram, beräkna och tolka enkel linjär regression -Grundläggande förståelse av statistiska modeller, i synnerhet enkel linjär regression, in-klusive principen för minstakvadratmetoden

-Förståelse av tolkning av regressionslinjen (lutningskoefficient och intercept)

-Förståelse av kopplingen mellan korrelation och enkel linjär regression, samt mellan räta linjens ekvation och enkel linjär regression i relation till dess grafiska representation (punktdiagram)

Aktiviteter

Genomgång i programvara med hjälp av exempel 3:

-Enligt genomgång i lektion 2

Genomgång (tavla och i programvara):

-Beräkning av enkel linjär regression med hjälp av minstakvadratmetoden

-Tolkning av regressionslinjen (lutningskoefficient och intercept); koppling till korrelation

51

All undervisning i lektion 3 sker med hjälp av R. I samband med att koden körs och resultat fås fram, tolkas och diskuteras resultaten. Vissa begrepp (se rubriker ne-dan) förklaras också mer detaljerat av läraren i relevanta avsnitt i R koden.

Till sin hjälp har läraren färdigpreparerad R kod som finns i bilaga 6, samt färdiga dataset i R format tillgängliga via: https://kau.app.box.com/v/MAGK30EkholmSel-ling2019). Viktigt är att introducera exempel 3 på ett tydligt och engagerande sätt innan analyserna påbörjas (se bilaga 5). Kom ihåg att koppla körningen av R koden till de fyra generella stegen i statistiska undersökningar (se figur 1), där fokus i R ko-den ligger på det sista steget ”Försöker svara på frågan”. Detta steg är i R koko-den uppdelat i två: ”Lär-känna-data steg (deskriptiv statistik och visualisering)” och ”Stat-istisk metod/analys”.

3.1 En statistisk modell: regressionsanalys (enkel linjär regression)

Nedan visas ett exempel på hur regressionsanalys inklusive principen för minstakvadratmetoden kan introduceras med hjälp av exempel 1 (lektion 1), om man vill rita på tavlan, men det görs mycket snyggare och mer pedagogiskt i följande länk: https://www.youtube.com/watch?v=JvS2triCgOY.

Det viktigaste här är att eleverna:

Kopplar räta linjens ekvation med formeln för enkel linjär regressionsanalys. Det vill säga att enkel linjär regression är en typ av statistisk modell av formen: y-hatt = b0 + b1x, som använder sig av räta linjens ekvation (y = kx + m) vid uträkningar av samband mellan en x- och en y-variabel; där x och y är mätvärden av insamlade data, med variation. Nämnas kan eventuellt att det i statistiska modeller av detta slag kan införas flera x-variabler samtidigt och att det då kallas för multipel linjär regression.

Förstår principen för minstakvadratmetoden, det vill säga att regressionslinjen inte ritas slumpmässigt givet ett antal mätpunkter i ett punktdiagram, utan i mitten av

”punktsvärmen”; eller mer korrekt: minstakvadratmetoden innebär att man mini-merar summan av kvadraterna på de i figuren ovan utritade vertikalavstånden. Tidi-gare nämnd video visar på ett pedagogiskt sätt hur b0 och b1 räknas ut enligt minstakvadratmetoden och kan användas antingen som lärarhandledning, visas för

52

eleverna, eller förstås som bas för handräkning inför klass om man så vill:

https://www.youtube.com/watch?v=JvS2triCgOY.

3.2 Tolkning av regressionslinjen

Det är inte nödvändigt att kunna handräkna skärningspunkt med y-axeln (eller inter-cept, som det kallas) och lutningskoefficient med hjälp av minstakvadratmetoden i denna lektionsserie (eller enligt centralt innehåll i matematik 2B/2C). Viktigast när det gäller regressionsanalysmomentet är också att eleverna kan tolka intercept och lutningskoefficient utifrån uträkningar gjorda i R i ord. Mer i detalj:

Att intercept (b0) tolkas som ett ”startvärde” för regressionslinjen; ett genomsnitt-ligt värde för y då x = 0; och att denna inte alltid har en vettig tolkning för alla data-material (ibland är det inte rimligt at x antar värdet 0).

Att lutningskoefficienten (b1) tolkas som ”när x ökar med en enhet, minskas/ökas y (beroende på om lutningen är positiv eller negativ) med i genomsnitt b1 enheter. ”I genomsnitt” är viktigt att få med i tolkningen, då regressionslinjen för varje givet värde på x representerar medelvärdet för y givet x; alla observerade data ligger inte på regressionslinjen – men regressionslinjen ligger ”i mitten av data” (minstakvadrat-metoden).

Det kan också nämnas att regressionsanalys kan användas för att prediktera, det vill säga förutsäga, nya observationer. Det är enkelt att visa genom att i en framtagen regressionsekvation (från exempel 3, skrivet i formen: y-hatt = b0 + b1x) välja ett värde på x som man vill predicera, sätta in det i ekvationen och räkna ut värdet för y-hatt – prediktionen av y.

3.3 Koppling mellan linjär regression och korrelation

Det finns matematiska likheter mellan korrelation och regressionsanalys – men fram-för allt är det meningen att eleverna i denna lektionsserie ska göra kopplingen att om korrelationen är > 0 kommer lutningskoefficienten på regressionslinjen vara po-sitiv, och tvärtom (se bilaga 7) och framför allt att båda kvantifierar statistiska sam-band.

Det är förstås viktigt att påpeka att i tolkning av regressionsanalyser gäller samma diskussion gällande kausalitet och rimlighet som för korrelation, se 2.4.

53

Related documents