Statistik med R: Lektionsserie i statistik för gymnasieskolans matematikkurs 2B och 2C

(1)

Statistik med R

Lektionsserie i statistik för gymnasieskolans matematikkurs 2B och 2C

Statistics in R: Lectures in statistics for course 2B and 2C in mathematics at the Swedish gymnasium

Katarina Ekholm Selling

Fakultet: Fakulteten för hälsa, natur- och teknikvetenskap Ämne/Utbildningsprogram: Matematik

Nivå/Högskolepoäng: 15 hp

Examinatorns namn: Eva Mossberg

Handledarens namn: Yvonne Liljekvist

Datum: 2019-12-07

(2)

(3)

Statistik med R: Lektionsserie i statistik för gymnasieskolans matematikkurs 2B och 2C [Statistics in R: Lectures in statistics for course 2B and 2C in mathematics at the Swedish gymnasium]

The author, Katarina Ekholm Selling, has made an online version of this work available un- der a Creative Commons Attribution-Noncommercial-Share Alike 3.0 License.

Creative Commons-licensen: http://creativecommons.org/licenses/by-nc-nd/3.0/deed.sv

(4)

(5)

Till Jonas, Jelmer och Antero

för att ni på olika sätt bidrog till

uppkomsten av den här uppsatsen

(6)

(7)

Abstract

Statistical literacy – the ability to interpret, critically judge, and communicate statistical information – is of major importance in today’s society as the ma- jority of us are continuously exposed to conclusions drawn from statistics both in media, at our workplace, in our community, and in school. In Sweden, sta- tistics is part of the mathematics curriculum in school at different levels, in- cluding in the gymnasium (years 10 to 12). The learning outcomes of the math- ematics curriculum also include the use of programming in mathematical prob- lem solving.

The aim of this thesis is to construct a realistic, structured, and appealing ses- sion of statistics within the mathematics courses 2B and 2C in the gymnasium, with aims in adherence with the expected learning outcomes in the curriculum.

Thus, this series of five lessons include an introduction to correlation and re- gression analysis, but also common graphical representations and displays of descriptive statistics such as the mean, median, and standard deviation; all cal- culated by using the much utilized non-commercial and open-source statistical software and programming language R. Throughout the series of lessons, the learning activities are anchored in the general process of statistical problem solving. The activities are primarily based on interactions with a dynamic soft- ware, enabling the students to explore and interact with properly introduced real world data from different disciplines. Other key activities include teacher- moderated discussions in both smaller groups and in class, with special em- phasis on critical thinking and related terms such as causality, as this is an important part of becoming statistically literate.

The goals and learning activities of the proposed series of five lectures in sta-

tistics are founded in scientific literature concerning the didactics of statistics,

in particular the competencies required in developing statistical literacy. Thus,

the proposed series may enhance the student’s statistical literacy; a competence

that they will have use of in their everyday lives irrespective of future career

path.

(8)

(9)

Sammanfattning

Som medborgare dagens samhälle är det viktigt att behärska statistical literacy – statistisk “läskunnighet”, eller -förståelse. Vi omges ständigt av statistisk in- formation; statistik beräknas, tolkas och diskuteras av forskare och av politiker, på arbetsplatser och i skolor och används som grund vid fattandet av beslut på olika nivåer. Att förstå och värdera den statistik som presenteras i till exempel media är också speciellt viktigt nu i tider av ”fake news” och ”alternativa fakta”.

Sedan slutet av 1960-talet ingår statistikämnet i matematikämnet i läroplanerna för både grundskolan och gymnasiet. Statistikdelarna i ämnesplanen i matema- tik för gymnasieskolan handlar om orientering i hur statistiska metoder och resultat används i dagligt bruk, med inslag av kritiskt ifrågasättande i form av diskussion kring kausalitet. Specifika statistiska metoder som ska täckas är regressionsanalys, korrelation och läges- och spridningsmått, med hjälp av di- gitala verktyg. Vidare innehåller statistikdelen genomgång av moment för be- räkning av sannolikheter.

Syftet med min uppsats är att skapa en genomförbar, strukturerad och engage- rande lektionsserie om fem lektioner inom statistikdelen i matematikämnet för elever i gymnasiet, som täcker tre av fyra mål i läroplanerna för matematikkur- serna 2B och 2C. I lektionsserien används det digitala verktyget R vid beräk- ningar. Lektionsserien omfattar beräkning av regressionsanalys, korrelation samt läges- och spridningsmått med hjälp av R, men också inslag av kritiskt ifrågasättande i form av diskussion kring kausalitet och rimlighet i tolkning av statistiska analyser. Lektionsserien förankras i den generella processen vid statistisk problemlösning och tar avstamp i statistikdidaktisk forskning. Verk- liga data från olika källor används genomgående i lektionsserien, för att knyta matematik- och statistikämnet till olika tillämpningsområden och för att syn- liggöra statistikens roll i samhällsdebatten. Lektionsserien kommer med lärar- handledning för de olika momenten inklusive inläsningstips och länkar, färdig- preparerad R kod med förklarande kommentarer för de olika momenten, fär- diga datamaterial att använda både i genomgångar men också i datalaborat- ioner som eleverna genomför i mindre grupper.

Aktiviteterna och momenten i lektionsserien har planerats i relation till kurs 2B och 2C i gymnasiet, men också för att främja elevernas statistical literacy;

en kompetens som är av stort värde för eleverna i deras vardag nu, men även i

framtiden.

(10)

(11)

Innehållsförteckning

1 INLEDNING ... 1

1.1 V

AD ÄR STATISTIK

? ... 1

1.1.1 Statistik och matematik ... 1

1.1.2 Statistik och digitala verktyg ... 2

1.2 S

TATISTIK I ÄMNESPLAN FÖR MATEMATIK

... 2

1.2.1 Är det viktigt att lära sig statistik i skolan? ... 3

1.2.2 Mer ”passande” inom andra ämnen? ... 4

1.3 S

^YFTE

... 4

2 LITTERATURGENOMGÅNG ... 5

2.1 S

TATISTIKDIDAKTISK FORSKNING

... 5

2.2 V

AD MENAS MED STATISTISK PROBLEMLÖSNING

?... 6

2.3 E

N MODELL OM STATISTISKT TÄNKANDE

... 7

2.3.1 Transnumeration ... 9

2.4 L

ITERACYBEGREPP INOM STATISTIKDIDAKTIK

... 11

2.4.1 Data literacy ... 11

2.4.2 Statistical literacy ... 12

2.5 S

AMMANFATTNING AV BEGREPP OCH MODELLER

... 13

2.6 H

UR KAN TEORIERNA ANVÄNDAS I SKOLAN

? ... 14

3 PRESENTATION AV LEKTIONSSERIE ... 17

3.1 F

ÖRVÄNTADE FÖRKUNSKAPER

... 17

3.2 U

PPBYGGNAD AV LEKTIONSSERIEN

... 17

3.2.1 Teoretiska ramar och övergripande mål ... 17

3.2.2 Mål, innehåll och aktiviteter med koppling till teorier ... 18

3.2.3 Lektionsserien – koppling till bilagor ... 22

4 DISKUSSION ... 25

4.1 V

AL AV UPPLÄGG FÖR LEKTIONSSERIE

... 25

(12)

4.1.1 Utmaningar i genomförandet av lektionsserien ... 26

4.2 S

TATISTIKÄMNET I SKOLAN

... 27

4.2.1 Motstånd till statistikämnet hos lärare? ... 27

4.2.2 Skilja på statistisk beräkning och statistisk tolkning? ... 29

4.3 A

VSLUTANDE KOMMENTARER

... 30

REFERENSER ... 31

BILAGA 1: FÖRBEREDELSER ... 35

BILAGA 2: R KOD, FÖRBEREDELSER ... 39

BILAGA 3: ELEVFÖRBEREDELSER, LEKTIONER ... 41

BILAGA 4: LÄRARHANDLEDNING, LEKTIONER ... 43

BILAGA 5: PRESENTATION AV EXEMPEL ... 53

BILAGA 6: R KOD, LEKTIONER ... 57

BILAGA 7: FORMATIVA UTVÄRDERINGAR ... 65

BILAGA 8: LÄRARHANDLEDNING, LABORATION ... 69

BILAGA 9: INTRODUKTION DATA, LABORATION ... 73

Figur- och tabellförteckning Tabell 1. Centralt innehåll under rubriken sannolikhet och statistik………...2

Figur 1. Generella steg i en statistisk undersökning………6

Figur 2. Förenklad version av Wild and Pfannkuchs modell………..8

Figur 3. Transnumeration i den undersökande cykeln………..10

Figur 4. Exempel: data literacy………11

Figur 5. Exempel: statistical literacy………...12

Figur 6. Sammankoppling av genomgångna begrepp och modeller……….13

Tabell 2. Övergripande mål och moment i lektionsserien………..20

Tabell 3. Mål och huvudsakliga aktiviteter i de fem lektionerna………21

Figur 7. Lektionsserien – koppling till bilagor………..23

(13)

1 1 INLEDNING

1.1 Vad är statistik?

Statistiken är, som vetenskap, interdisciplinär och statistiska metoder används i stort sett inom alla discipliner (Nationalencyklopedin). Statistiska resultat och tolkningar rapporteras således därför dagligen i till exempel media. Om jag skulle sammanfatta vad statistik är för mig, skulle jag säga att statistisk analys handlar om att med digitala verktyg dynamiskt analysera data med hjälp av beskrivande statistik, visualiseringar och statistiska modeller av olika slag; för att identifiera och hantera osäkerhet i data, söka mönster, samband eller skill- nader och för att prediktera nya observationer. Dessa statistiska analyser görs i syfte att svara på frågeställningar och hypoteser som ofta har sin bas i ett annat område. En annan viktig del inom statistiken innefattar planering av stu- dier och experiment inklusive insamlandet av data; denna planering är en för- utsättning för de statistiska analyserna. Sist men inte minst handlar statistik om att göra tolkningar och rimlighetsbedömningar av olika analysresultat, omsatta i den verklighet som studeras. Jo Hardin, professor vid institutionen för ma- tematik och statistik vid Pomona College, Kalifornien, USA sammanfattar det så här: ”Statistics is using data and knowledge about randomness to condense, communicate, and contextualize information and provide insight to the setting from which the data came.” (Hardin, American Statistical Association).

1.1.1 Statistik och matematik

Statistikämnet har sin naturliga bas inom matematiken men betraktas sedan

länge som en egen disciplin. Detta sammanfattas som följer av en känd statisti-

ker vid namn John Tukey, som var verksam bland annat vid Princeton Univer-

sity, New Jersey, USA: ”Statistics is a science, not a branch of mathematics,

but uses mathematical models as essential tools” (Brillinger). Att statistiken

har sin bas inom matematiken kan exemplifieras med att det i en statistikex-

amen ofta ingår matematikkurser som algebra, en- och flervariabelanalys och

diskret matematik, eftersom denna matematiska bas är nödvändig i yrkesutö-

vandet oavsett senare inriktning i yrkeslivet som statistiker. En väsentlig skill-

nad mellan matematisk och statistisk metodutveckling är dock att för statisti-

ken gäller att den, till skillnad från matematiken, inspirerats av problem inom

andra vetenskapliga discipliner (medicin, biologi, industriell teknik, beteende-

vetenskap, samhällsvetenskap för att nämna några) (Nationalencyklopedin).

(14)

2 1.1.2 Statistik och digitala verktyg

Den absoluta majoriteten av alla statistiska beräkningar och studier idag inne- fattar digitala verktyg i form av olika statistiska programvaror. Två program- varor och programmeringsspråk som på senare tid blivit alltmer populära inom statistik och ”data science”, och som numera dominerar räknat i antalet använ- dare är R och Python (R Core Team, 2019; Python, 2019). R är både ett pro- grammeringsspråk och en kraftfull statistisk icke-kommersiell programvara med öppen källkod. Majoriteten av den metodutveckling som sker inom sta- tistik och data science, inklusive metoder inom artificiell intelligens och ma- skininlärning, publiceras i paket (moduler) i R. Med vissa förkunskaper i pro- grammering är R ett relativt enkelt verktyg att använda för ämnesberäkningar.

1.2 Statistik i ämnesplan för matematik

Sedan slutet av 1960-talet ingår statistikämnet i matematikämnet i läroplanerna för både grundskola och gymnasiet och sedan 2018 ska programmering använ- das som ett verktyg vid problemlösning (Skolverket, 2011a och 2011b). I äm- nesplanen för gymnasiet ingår sannolikhet och statistik i matematikkurserna 1B och 1C samt 2B och 2C, och både B- och C-kurserna har i princip samma innehåll med avseende på statistik, se Skolverket (2011b). Det centrala inne- hållet i statistik sammanfattas i tabell 1.

Tabell 1. Centralt innehåll under rubriken sannolikhet och statistik.

Kurs 1B/1C

-Granskning av hur statistiska metoder och resultat används i samhället och inom vetenskap.

-Begreppen beroende och oberoende händelser samt metoder för beräkning av sannolikheter vid slumpförsök i flera steg med exempel från spel och risk- och sä- kerhetsbedömningar.

Kurs 2B/2C

-Statistiska metoder för rapportering av observationer och mätdata från undersökningar inklusive regressionsanalys med digitala verktyg.

-Orientering och resonemang när det gäller korrelation och kausalitet (2B).

-Metoder för beräkning av olika lägesmått och spridningsmått inklusive standardavvikelse, med digitala verktyg.

-Egenskaper hos normalfördelat material och beräkningar på normalfördelning med digitala verktyg.

https://www.skolverket.se/undervisning/gymnasieskolan/laroplan-program-och-am- nen-i-gymnasieskolan

Kortfattat kan sägas att statistikdelarna i matematik i läroplanen för gymnasie-

skolan handlar om orientering i hur statistiska metoder och resultat används i

(15)

3 dagligt bruk, med inslag av kritiskt ifrågasättande i form av diskussion kring kausalitet (se tabell 1). Specifika statistiska metoder som ska täckas är beräk- ning av regressionsanalys, korrelation och läges- och spridningsmått, med hjälp av digitala verktyg. Vidare innehåller både kurs 1 och 2 genomgång och metoder för beräkning av sannolikheter.

1.2.1 Är det viktigt att lära sig statistik i skolan?

Man kan tänka att statistik är en rättighet för alla. Genom statistik kan vi få reda på mer om vårt samhälle och hur det sköts. Men man behöver kunna förstå och använda statistiken på rätt sätt.

Statistiska centralbyrån (b)

Andemeningen i ovan citat handlar om vikten av statistical literacy – statistisk läskunnighet eller förståelse – bland medborgare i dagens samhälle. Begreppet beskrivs av Gal (2002) som förmågan att tolka, kritiskt granska, och kommu- nicera statistisk information av olika slag.

Som medborgare i dagens samhälle är det viktigt att behärska statistical lite- racy därför att statistisk information ständigt finns omkring oss och diskuteras av forskare, politiker, på arbetsplatser och i skolor och används som grund vid fattandet av beslut på olika nivåer och med olika stora konsekvenser. Att förstå och värdera den statistik som presenteras i till exempel media är också speciellt viktigt nu i tider av ”fake news” och ”alternativa fakta”. Statistisk information misstolkas nämligen ibland; medvetet och omedvetet, se till exempel ”Misle- ading statististics examples – discover the potential for misuse of statistics and data in the digital age”, Lebied (2018). En bra sammanfattning kring statisti- kens roll i politiken på senare tid har skrivits av Harford (2016), i artikeln

”How politicians poisoned statistics”.

Det är svårt att hitta undersökningar om hur svenska gymnasielever ser på sta-

tistikämnet. Eftersom statistik ingår inom matematikämnet kan det förstås vara

så att de ser på statistikämnet och -undervisningen som de gör på matema-

tikämnet och -undervisningen generellt. En undersökning genomförd av det

svenskgrundade mjukvarubolaget Qlik har dock visat att bland ungdomar mel-

lan 16 och 24 år, har nästan 80% svårt att avgöra om statistik i nyhetsrappor-

tering framställs på ett manipulativt sätt eller ej (Karlsson, 2019, originalun-

dersökningen finns tillgänglig här: https://www.qlik.com/us/bi/data-literacy-

report). Man kan därför undra om det är så att statistikdelen i matematikämnet

ändå har utmaningar av delvis annan art?

(16)

4 1.2.2 Mer ”passande” inom andra ämnen?

I podcasten ”Didaktorn”, avsnittet ”Förbannad statistik”, intervjuas SO-läraren Henric Isaksson, som säger att: ”Den svenska skolan har problem med att han- tera statistik i undervisningen”. Han menar att användandet och tolkningen av grafer samt beskrivande statistik förstås mycket lättare av eleverna när mo- mentet faller inom samhällsorienterade ämnen, jämfört med inom matema- tikämnet. Även om Isaksson inte genomfört en vetenskaplig studie utan ut- trycker sig utifrån egna erfarenheter, är hans åsikter intressanta att fundera över, eftersom min uppfattning är att han inte är ensam om att hysa dem. En av avsikterna med denna uppsats är därför att ta reda på om det finns någon forskning som stödjer eller motsäger Isakssons åsikter, vilket i så fall kan få bäring på hur en lektionsserie i statistik skulle kunna konstrueras och läromå- len i statistik uppnås bäst.

Intressant är också att reflektera över att Isaksson, tillsammans med Statistiska centralbyrån, arbetat fram en lärarhandledning (Statistiska centralbyrån (b)).

Jag har inte, på Statistiska centralbyråns hemsida, hittat någon lärarhandled- ning för matematiklärare i högstadiet eller gymnasiet, vilket, tänker jag, skulle falla sig än mer naturligt eftersom statistik ingår i matematikämnet i grundsko- lan och gymnasiet.

1.3 Syfte

Syftet med min uppsats är att skapa en genomförbar, strukturerad och engage-

rande lektionsserie om fem lektioner inom statistikdelen i matematikämnet för

elever i gymnasiet. Mer precist kommer jag utgå från av de tre första punkterna

i centralt innehåll för matematikkurserna 2B och 2C i konstruktionen av lekt-

ionsserien, som baseras på det digitala verktyget R. Lektionsserien kommer

således omfatta beräkning av regressionsanalys, korrelation samt läges- och

spridningsmått med hjälp av R, men också inslag av kritiskt ifrågasättande i

form av diskussion kring kausalitet och rimlighet i tolkning av statistiska ana-

lyser. Lektionsserien förankras i den generella processen vid statistisk pro-

blemlösning och tar avstamp i statistikdidaktisk forskning. Verkliga data från

olika källor kommer genomgående att användas i lektionsserien, för att knyta

matematik- och statistikämnet till olika tillämpningsområden och för att syn-

liggöra statistikens roll i samhällsdebatten.

(17)

5 2 LITTERATURGENOMGÅNG

I detta avsnitt beskrivs, i huvuddrag, några viktiga teorier och begrepp inom statistikdidaktisk forskning. I genomgången försöker jag ibland belysa teori- erna och begreppen med exempel tagna ur mitt arbete som statistiker. Teorige- nomgången följs av en summering kring hur forskningsresultaten kan använ- das i skolan. Noteras kan att jag avgränsat litteraturgenomgången till enbart statistikdidaktik och tar därför inte upp relaterade områden som programme- ring och digitala verktyg i skolan, matematikdidaktik och matematisk problem- lösning, samt forskning kring problemlösning i grupp.

2.1 Statistikdidaktisk forskning

Enligt Shoughnessy (2007) har statistikdidaktisk forskning ökat de senaste de- cennierna och huvudinriktningen på forskningen har varit vuxnas, studenters och elevers förståelse av statistiska begrepp. Vad som inte varit lika framträ- dande i forskningen är lärarnas kunskap och undervisningsmetoder i statistik- ämnet. Shoughnessy sammanfattar det så här:

Our teaching force is undernourished in statistical experience, as statistics has not often been part of many teachers’ own school mathematics programs. In many schools there is a tremendous need for professional development in the area of statistics.

Shoughnessy, 2007 (s. 959)

Shoughnessy (2007) beskriver vidare att det finns tre huvudtyper av modeller

inom statistikdidaktik: modeller gällande statistiskt tänkande, modeller gäl-

lande statistical literacy, samt utvecklings- och kognitiva modeller. I littera-

turgenomgången fokuseras på de första två huvudtyperna. Shoughnessy po-

ängterar att den första typen av modeller, gällande statistiskt tänkande, bör

uppfattas som normativa modeller av vad statistiker tycker är de viktigaste

koncepten och processerna inom sin egen disciplin. Den andra typen av mo-

deller, gällande statistical literacy, hjälper oss att bli informerade samhälls-

medborgare. Litteraturgenomgången nedan kommer dock också visa på att

dessa två typer av modeller är delvis sammanlänkade.

(18)

6 2.2 Vad menas med statistisk problemlösning?

Det viktigt att förstå den generella processen vid statistisk problemlösning för att förstå teorierna och begreppen i följande stycken, därför ges här en intro- duktion. Tänk dig att du är statistiker och av ett företag som vill anlita dig för att göra en undersökning får frågan: ”Är vår produkt bättre än andra liknande produkter som redan finns på marknaden?” (för övrigt en mycket vanlig fråga inom till exempel läkemedelsindustrin). Hur kan du hjälpa dem att svara på det? I en statistisk undersökning ingår allmänt de fem generella steg som pre- senteras i figur 1. Denna process anses vara universell inom statistiken, och beskrivs således i många läroböcker och dokument, se till exempel Dahmström (2011), Statistiska centralbyrån (c) och Shoughnessy (2007). En annan variant av figur 1 presenterad nedan, men med samma innehåll, återfinns i figur 1, bilaga 4.

Figur 1. Generella steg i en statistisk undersökning.

Utgångspunkten i en statistisk undersökning är ett problem (se figur 1) och detta problem uttrycks ofta i form av frågeställningar eller hypoteser. Fråge- ställningarna är sällan kristallklara i början av en statistisk undersökning, de behöver diskuteras i flera omgångar innan samsyn nås för att kunna operation- aliseras. Ta till exempel: ”Är vår produkt bättre än andra liknande produkter som redan finns på marknaden?”; frågan kan tyckas enkel men när den ska operationaliseras uppstår flera följdfrågor, till exempel: ”bättre på vilket sätt?”,

”hur mycket bättre ska den vara för att klassas som ’bättre’?” och ”vad menas egentligen med ’liknande produkter’?”. Detaljerade diskussioner och samsyn i denna fas är dock en förutsättning för kommande delar.

Problem

Planering

Data Analys

Tolkning

(19)

7 I planeringsfasen (figur 1) planeras hur data ska samlas in för att kunna svara på frågeställningen. I denna fas ingår således bestämmande av studiedesign, hur mycket data som behövs samlas in, vilka variabler som ska ingå samt hur de ska definieras och mätas. Det som skiljer planeringsfasen inom statistik från matematikens är att statistiska data är mycket stökigare på grund av till exem- pel risken för systematiska fel och bortfall (Shoughnessy, 2007). I datasteget samlas data in, matas in och checkas i programvara för att till exempel upp- täcka inmatningsfel; nya variabler behöver också ofta skapas för att bättre ut- trycka det som frågas. Omkodning av variabler och skapandet av nya variabler benämns ofta ”data management”.

I analyssteget, se figur 1, analyseras data med hjälp av beskrivande statistik och grafer för att ”lära känna” data. Vid analyserandet av dessa olika beskri- vande representationer av data upptäcks ofta oegentligheter i form av till ex- empel bortfall och inmatningsfel. Kanske upptäcks även att vissa av variab- lerna inte är uttryckta riktigt på det sätt som önskas. I dessa fall behöver man backa till datasteget och rätta till felen, för att kunna fortsätta analyserna. Efter det inledande ”lära känna data” analyserna görs ofta statistiska tester och mo- deller som tolkas utifrån rimlighet; inte bara beräkningsmässig rimlighet utan också kontextuell. Detta brukar ingå i begreppet modellvalidering. I valide- ringssteget är det också vanligt att backa till beskrivande statistik, och kanske även till datasteget, för att förstå och kunna tolka resultaten.

I sista steget, tolkning (figur 1), tolkas analysresultaten i relation till kontexten, generaliseringar till större grupper görs med hjälp av till exempel statistisk in- ferens (p-värden och konfidensintervall), övergripande konklusioner dras, kvarvarande felkällor, såsom bortfallsproblem eller svagheter i studiedesign, identifieras och resultaten kommuniceras till mottagare. Tolkning och kon- klusioner i det sista steget ska givetvis ge svar på problemet i första steget.

Poängteras kan att hela processen ofta är iterativ; cirkeln kan gås igenom mer än ett varv. Pilarna är heller inte alltid enkelriktade i realiteten, som exempli- fierats ovan.

2.3 En modell om statistiskt tänkande

Med figur 1, som innehåller för statistiker allmängiltiga problemlösningssteg,

som grund har Wild och Pfannkuch (1999) skapat en modell om tänkandet vid

statistisk problemlösning. Förståelse av denna modell förutsätter att läsaren är

bekant med hur en statistisk undersökning går till. Utgångspunkten i modellen

är den cykel som presenterats i figur 1 och som exemplifierades och förklara-

des i 2.2. Den kallas av Wild och Pfannkuch för undersökande cykel. Förfat-

tarna menar i sin modell att när statistiker arbetar med problemlösning, arbetar

(20)

8 de förutom med den undersökande cykeln även simultant i tre andra dimens- ioner: frågande cykel, disposition och typer av tänkande. I figur 2 presenteras en förenklad version av författarnas modell, där cykeln till vänster är den samma som tidigare presenterats i figur 1. Observera att tolkningen och över- sättningen av termerna är mina egna.

Figur 2. Förenklad version av Wild och Pfannkuchs (1999) modell. Min tolk- ning och översättning.

Medan basen i modellen, den undersökande cykeln (figur 2; vänster cykel), handlar om de allmänna stegen i statistisk problemlösning, handlar den frå- gande cykeln (figur 2; höger cykel) istället om tankeprocesserna kring egna och andras förutfattade meningar, viljor och känslor kring arbetet med och re- sultatet av en statistisk undersökning (Wild och Pfannkuch, 1999). Den frå- gande cykeln pågår simultant med arbetet i den undersökande cykeln och in- nehåller de fem beståndsdelarna: generera, söka, tolka, kritisera och bedöma.

Dessa fem delar beskriver, enligt Shoughnessy (2007), en metakognitiv pro- cess som skiljer statistisk problemlösning från matematisk problemlösning.

För att exemplifiera: Jag som statistiker får inte, under arbetet med en under-

sökning, påverkas av kundens önskemål om resultat i analyser och inte heller

mina egna åsikter och önskemål; resultat och tolkningar ska endast baseras på

vad data ”säger”. Det är en utmaning eftersom jag som statistiker måste vara

(21)

9 medveten om mina egna eller andras önskemål, men också vara medveten om att jag är medveten om dem, och hur detta i sin tur påverkar mig i den statist- iska problemlösningen. Det kan gälla till exempel vid samarbete med läkeme- delsföretag, då mycket står på spel både ekonomiskt och förstås säkerhets- samt etikmässigt. Oavsett om jag, som ansvarig statistiker, säger att ”ert läke- medel är inte bättre än konkurrenternas”, eller ”ert läkemedel är bättre än kon- kurrenternas” behöver jag vara säker på att det är det som data faktiskt ”säger”

och att den tolkning av de statistiska analyserna jag framför inte har influerats av mina eller andras önskemål.

De två sista dimensionerna i Wild och Pfannkuchs (1999) modell: typer av tänkande samt disposition, innehåller, i stort, olika typer av tänkande och stra- tegier som generellt är närvarande och önskvärda vid universell, matematisk respektive statistisk problemlösning (figur 2; rutorna). Dimensionen disposit- ion innehåller de mer universella delarna av problemlösning, som till exempel kreativitet, nyfikenhet, engagemang och uthållighet. Dimensionen typer av tänkande delas av författarna upp i en mer generell del och en del som är typisk vid statistisk problemlösning. Den generella delen beskriver de strategiska de- larna av matematisk problemlösning, såsom sökandet efter förklaringar, mo- dellering och applikation av olika tekniker (Shoughnessy, 2007). Den andra delen i dimensionen typer av tänkande består av delar som, enligt Wild och Pfannkuch (1999), är specifika för statistisk problemlösning, såsom identifi- kation av samt behovet av data, beaktandet av variation i data, resonerandet kring statistiska modeller och statistisk slutledning, integrering av det statist- iska och det kontextuella och transnumeration. En del av ovan har exemplifi- erats i 2.2; begreppet transnumeration beskrivs och exemplifieras i nästa stycke.

2.3.1 Transnumeration

Statistiskt tänkande innefattar utvinnandet av dold information från data, vilket förutsätter en ständigt pågående dialog mellan data, kontexten och använda- ren/tolkaren (Pfannkuch, Rubick och Yoon, 2002), för illustration se vänster cykel i figur 3. Den typ av tänkande som kallas för transnumeration inom statistikdidaktik agerar, enligt författarna, som en katalysator för denna dialog.

Begreppet har sin bas i Wild och Pfannkuchs (1999) modell om statistiskt tän-

kande (i dimensionen typer av tänkande, se figur 2) och författarna myntade

också begreppet (Shoughnessy, 2007). Begreppet lyfts fram separat eftersom

en hel del av statistikdidaktikforskningen fokuserar på just denna bit av Wild

och Pfannkuchs modell. Transnumeration sker enligt Pfannkuch, Rubick och

Yoon (2002) i tre steg i den, tidigare i figur 1 presenterade, undersökande cy-

keln (se figur 3).

(22)

10

Figur 3. Transnumeration i den undersökande cykeln.

Första steget i transnumeration sker, enligt Pfannkuch, Rubick och Yoon (2002), i de tre första stegen i den undersökande cykeln (se figur 3). Som tidi- gare nämnts, kan till exempel frågan ”Är vår produkt bättre än andra liknande produkter som redan finns på marknaden?” tyckas enkel att undersöka vid en första anblick, men för att översätta den till en statistiskt genomförbar fråge- ställning behöver den snävas in och konkretiseras för att sedan kopplas till stu- diedesign och insamling av data. Det finns flera möjliga följdfrågor för att kon- kretisera frågeställningen, varav en är ”bättre på vilket sätt?”. Är det produk- tens hållbarhet som testas, eller är det användarnas uppfattning av produkten;

eller är det kanske något annat såsom säkerhetsmässiga aspekter? Vidare är det viktigt att fastställa om det räcker med ett nedslag (till exempel via en enkät- undersökning av användare av produkten, alternativt ett hållbarhetstest av ett slumpmässigt urval av produkten) eller om produkten/användarna bör följas över tid, vilket är vanligt i till exempel medicinska studier. Det första steget i transnumeration handlar således om översättandet av problem eller frågeställ- ningar till precisa statistiska frågeställningar och hypoteser utifrån kontext, för att därigenom planera studiedesign och datainsamling. För att detta ska bli bra behövs en dynamisk dialog mellan användare – data – kontext (figur 3).

Det andra steget i transnumeration sker, enligt Pfannkuch, Rubick och Yoon (2002), då olika, multipla, representationer av data såsom grafer och deskrip- tiva mått, tabeller, men även resultat av modeller produceras, granskas och tol- kas för att försöka ”lära känna” data och vad data säger om verkligheten (figur

Användare

Kontext Data

Problem

Planering

Data Analys

Tolkning

Transnumeration

1

2 3

(23)

11 3). Olika representationer av data kan nämligen visa på olika mönster och sam- band i data. Det andra steget handlar således till stor del om dynamisk inter- aktion med data i statistisk programvara. Det tredje steget i transnumeration sker, enligt författarna, i kommunikation av de statistiska resultaten till motta- gargruppen; där kommunikationen är anpassad till mottagarna, förståelig, kor- rekt och övertygande, och där huvudfokus är att svara på själva frågeställ- ningen i den kontext där den ställdes.

2.4 Literacybegrepp inom statistikdidaktik

Den svenska översättningen av ordet literacy är läs- och skrivkunnighet. Nu- mera har begreppet vidgats till att även inkludera bland annat siffror, bilder, digitala medier samt social och kulturell medvetenhet; fokus ligger på kompe- tenserna som behövs för att vara ”litterat” inom ett område (UNESCO, 2006).

Två delvis relaterade literacybegrepp: data literacy och statistical literacy för- klaras nedan.

2.4.1 Data literacy

Termen data literacy definieras på Wikipedia som: “…the ability to read, work

with, analyze, and argue with data.” Bryla (2018) förklarar begreppet med föl- jande exempel: betrakta figur 4 och då speciellt de grönmarkerade sifforna.

Vad säger dessa sammanställningar av data? a) att det är 60% chans att det regnar mellan 2 och 10 millimeter, b) att det är 60% chans för regn inom de närmaste 24 timmarna, eller c) att det är 40% chans att det regnar mindre än två millimeter. (Rätt svar är alternativ b)). Dessa tre alternativ representerar tre olika tolkningar av informationen som beskriver två utfall – chansen för regn och förväntad nederbördsmängd. För att tolka informationen korrekt behövs bland annat en grundläggande uppfattning om begreppet data, hur data rapporteras och används - vid väderleksrapporter i detta fall - samt förståelse av begreppet ”chans” och sannolikheter.

Figur 4. Exempel: data literacy.

https://www.tableau.com/about/blog/2018/9/data-literacy-critical-skill-21st-century-94221

(24)

12 2.4.2 Statistical literacy

Begreppet statistical literacy beskrivs ofta som förmågan att tolka, kritiskt granska, och kommunicera statistisk information av olika slag (Gal, 2002).

Garfield och Ben-Zvi (2007) beskriver begreppet så här:

[Statistical literacy] involves understanding and using the basic language and tools of statistics: knowing what basic statistical terms mean, understanding the use of simple statistical symbols, and recognizing and being able to interpret different representations of data.

Garfield och Ben-Zvi, 2007 (s. 380)

Bilden i figur 5 kommer från ett föredrag av Gal och Kotelawala (Appleton, 2019). Precis som vid data literacy exemplet i figur 4 behöver tolkaren av figur 5 besitta vissa kompetenser gällande data och begrepp som sannolikheter. Men för att tolka figur 5 behövs även grundläggande kunskap om olika typer av datarepresentationer. Dessutom innefattar begreppet statitical literacy även kompetenser som kritiskt förhållningssätt – det vill säga att tolkaren automa- tiskt ställer sig frågan ”är det reportern säger överensstämmande med den re- presentation av data hen använder sig av i sitt argument?”. I exemplet i figur 5 bör tolkaren till exempel uppfatta att närmare inspektion av skalan på y-axeln leder till ett visst ifrågasättande av reporterns påstående, samt kanske också reflektera över hur ”school violence” definieras, vilka data som ligger till grund för påståendet och i vilken kontext uttalandet äger rum.

Figur 5. Exempel: statistical literacy.

http://nyccami.org/civic-statistics-and-statistical-literacy/

Begreppet statistical literacy består av många kompetenser som ska samverka.

I Gals modell av statistical literacy ingår två dimensioner som han kallar kun-

(25)

13 skap och disposition (Gal, 2002). Dimensionen kunskap innehåller bestånds- delar som kompetens, statistiskt och matematiskt kunnande och kunskap om kontexten. Den andra dimensionen, disposition, innefattar delar som attityder och kritiskt förhållningssätt. Både närvaron och synergin av alla ovan presen- terade delar bidrar alltså till statistical literacy. Noteras kan att även om det finns viss överlappning mellan Gals modell och Wild och Pfannkuchs modell i avsnitt 2.3, baseras Gals modell på vad ungdomar och vuxna behöver för att vara informerade samhällsmedborgare, medan Wild och Pfannkuchs modell baseras på hur statistiker tänker när de löser ett problem (Shoughnessy, 2007).

2.5 Sammanfattning av begrepp och modeller

Figur 6 skapades som ett försök att ställa begrepp och modeller i relation till varandra och infogas i uppsatsen med förhoppningen att den, trots sina förenk- lingar och brister, hjälper läsaren. Statistical literacy valdes som ”slutprodukt”

eftersom det är en viktig kompetens att besitta i dagens samhälle, där de flesta

av oss är statistikkonsumenter

(Bakker, 2004; Gal, 2002;

Garfield och Ben- Zvi, 2007; Shoughnessy, 2007). Begreppet innefattar både matematiskt- och statistiskt kunnande, men också kontextuellt kunnande och kritiskt ifrågasät- tande, där de första två kompetenserna i allmänhet kopplas till beräkningar och de senare till tolkningar av statistiska analyser; därav valet av orden ”beräk- ning” och ”tolkning” i figuren.

Figur 6. Sammankoppling av genomgångna begrepp och modeller.

(26)

14 Som grundförutsättningar i figur 6 har jag satt data literacy i meningen ”grund- läggande förståelse för vad data är” samt matematik- och grundläggande sta- tistikkunskaper, där jag tänker att dessa motsvarar det som står i läroplanerna för grundskola och gymnasium (Skolverket, 2011a och 2011b). Nästa steg in- nefattar grundläggande förståelse av den statistiska processen (figur 1), kallad undersökande cykel av Wild och Pfannkuch (1999), se även figur 2. Hjälpme- del för att utveckla denna förståelse, men också förståelsen av grundläggande statistiska begrepp, tänker jag är transnumeration som lärs framför allt via dy- namisk interaktion med data (Bakker, 2004; Pfannkuch, Rubick och Yoon, 2002; Shoughnessy, 2007); att vara bekant olika representationer av data (pre- senterad i figur 3). Jag har i figur 6 också infogat delar av den frågande cykeln (framför allt kritiskt förhållningssätt) (Wild och Pfannkuch, 1999), som även presenteras i figur 2. Betydelsen av kompetensen kritiskt förhållningssätt inom statistical literacy betonas också av Gal (2002).

2.6 Hur kan teorierna användas i skolan?

Det finns förstås flera sätt att använda statistikdidaktiska teorier i skolan. Teo- rin om statistiskt tänkande av Wild och Pfannkuch (1999) kan användas för att analysera elevernas och lärarnas statistiska tänkande, inte bara hur statistiker tänker. Detta framförs av till exempel Pfannkuch, Rubick och Yoon (2002) och Shoughnessy (2007). Vidare är användandet av teorier, enligt Shoughnessy, ett värdefullt verktyg inte bara inom ämnesdidaktiken och därigenom vid lekt- ionsplanering, utan också vid utformning av läroplaner. Detta menar också Bakker (2004), som vill att begreppet statistical literacy lyfts fram som centralt vid utveckling av framtida läroplaner i statistikämnet i skolan, vilket redan gjorts i till exempel Nya Zeeland (Ministry of Education, the New Zealand curriculum online). Ett exempel på ett relativt enkelt sätt att i ökad grad få in statistical literacy i undervisningen är, enligt Gordon och Nicholas (2009), an- vändandet av verkliga och välförankrade exempel i statistikundervisningen, vilket också stöds av andra studier (Merryman, 2006). Enligt författarna kan detta främja aktivt lärande, förståelsen av statistiska begrepp och kritiskt tän- kande, och därigenom statistical literacy.

Shoughnessy (2007) menar att en statistisk lärandemiljö som innefattar trans-

numeration skulle kunna uppkomma om lärare och läroplansutvecklare tog till

sig av de forskningsresultat som rekommenderar att elever borde ha större möj-

ligheter att skapa sina egna representationer av data istället för att primärt ar-

beta isolerat och statiskt (och inte verklighetsförankrat) med grafer och tabel-

ler. Detta är möjligt att göra från tidiga skolår och uppåt, hävdar Estrella

(27)

15 (2018), då arbetet med transnumeration inte inledningsvis förutsätter kompe-

tenser i programmering eller användandet av digitala verktyg, utan kan anpas-

sas efter kognitiv mognad genom att till exempel konkret respresentation. Men

för att kunna lära ut transnumeration behöver lärarna själva besitta den kom-

petensen. Lee et al. (2014) utförde en studie där de studerade lärares kompe-

tenser inom området och konkluderar att lärarutbildningar i högre grad än vad

som görs idag borde fokusera på att lära ut transnumeration.

(28)

16

(29)

17 3 PRESENTATION AV LEKTIONSSERIE

Syftet med den lektionsserie i statistik som presenteras nedan är att orientera eleverna i beräkning av regressionsanalys, korrelation samt läges- och sprid- ningsmått med hjälp av det digitala verktyget R. Lektionsserien innehåller också inslag av kritiskt ifrågasättande i form av diskussion kring kausalitet och rimlighet i tolkning av statistiska analyser. Det övergripande målet med lekt- ionsserien är att främja elevernas statistical literacy. Lektionsserien i sin helhet

presenteras i bilaga 1 – 9.

3.1 Förväntade förkunskaper

I lektionsserien förutsätts att eleverna har förkunskaper motsvarande statistik- delarna inom matematikkurs 1B/1C (se tabell 1) och inom de i grundskolan genomgångna statistikdelarna (Skolverket, 2011a och 2011b). Noteras bör att innehållet i lektionsserien täcker tre av fyra punkter i centralt innehåll för kurs 2B/2C. Den fjärde punkten ”Egenskaper hos normalfördelat material och be- räkningar på normalfördelningen” har, med fördel, en egen session (Shoug- nessy, 2007) och får gärna planeras in innan utförandet av denna lektionsserie.

Vidare är det gynnsamt om de matematikdelar i kurs 2B/2C som innefattar genomgång av räta linjens ekvation är avklarade. Faktum är att denna lektions- serie med fördel kan ses som en praktisk tillämpning av räta linjens ekvation.

Läsaren bör här uppmärksammas på att en av punkterna i centralt innehåll:

”Orientering och resonemang när det gäller korrelation och kausalitet”, se ta- bell 1, egentligen inte explicit ingår som centralt innehåll i 2C. I uppsatsen och lärarhandledningen till lektionsserien kommer jag dock att inkludera den som en punkt i både 2B och 2C, eftersom jag hävdar att den är viktig i relation till förståelse och tolkning av regressionsanalys och en viktig ingång till diskuss- ioner gällande rimlighet av statistiska resultat och analyser gällande samband.

3.2 Uppbyggnad av lektionsserien

3.2.1 Teoretiska ramar och övergripande mål

Konstruktionen av lektionsserien tar i utformning och moment avstamp i ge-

nomgången litteratur och är uppbyggd utifrån sammanställningen i figur 6. Det

övergripande målet med lektionsserien är således att främja elevernas

statistical literacy eftersom det är en viktig kompetens i dagens samhälle (Bak-

ker, 2004; Gal, 2002;

Garfield och Ben-Zvi, 2007; Shoughnessy, 2007). Då

(30)

18 begreppet innefattar både matematiskt- och statistiskt kunnande (benämnd be- räkning i figur 6), men också kontextuellt kunnande och kritiskt ifrågasättande (benämnd tolkning) har syftet varit att försöka få med, och framför allt sam- mankoppla, dessa två delar för eleverna igenom hela lektionsserien.

En förutsättning för att lärandet av statistiska begrepp och tolkning av statist- iska resultat ska upplevas meningsfullt är en grundläggande förståelse av den statistiska processen – delarna i en statistisk undersökning (figur 1). Därför har lektionsserien sin grund i denna process, vilket rekommenderas av till exempel Bakker (2004). Upplägget av lektionsserien har även inspirerats av Gordon och Nicholas (2009) samt Merrymans (2006) studier om användandet av verklig- hetsbaserade och engagerande exempel i statistikundervisningen för att främja statistical literacy.

Begreppet statistical literacy består av många kompetenser som ska samverka och detta, menar många forskare, uppnås bäst i dynamisk interaktion med, och i utvecklandet av ifrågasättandet av, data och statistiska resultat (Bakker, 2004;

Gal, 2002; Pfannkuch, Rubick och Yoon, 2002; Shoughnessy, 2007; Wild och Pfannkuch, 1999). I figur 6 har grundläggande statistisk kunskap satts som en grundförutsättning eller -kompetens för statistical literacy, eftersom det är så det presenteras av till exempel Gal (2002). Men det är också så att den dyna- miska interaktionen med data – transnumeration – kan hjälpa till vid begrepp- sinlärningen; pilarna kan gå åt båda hållen (Bakker, 2004).

3.2.2 Mål, innehåll och aktiviteter med koppling till teorier De tre punkterna i centralt innehåll i läroplanen som ligger till grund för upp- byggnaden av lektionsserien är ”Statistiska metoder för rapportering av obser- vationer och mätdata från undersökningar inklusive regressionsanalys med di- gitala verktyg”, ”Orientering och resonemang när det gäller korrelation och kausalitet” samt ”Metoder för beräkning av olika lägesmått och spridningsmått inklusive standardavvikelse med digitala verktyg” (Skolverket, 2011b). Lekt- ionsserien knyter även an till en annan central del inom matematik 2B/2C:

”Matematiska problem av betydelse för samhällsliv och tillämpningar i andra ämnen”. Operationaliseringen av centralt innehåll i mål, lärandeobjekt, inne- håll, inbäddning och formativ bedömning sammanfattas i tabell 2.

I tabell 3 presenteras lektionsspecifika mål och huvudsakliga aktiviteter i lekt-

ionsserien om fem lektioner. Den inledande lektionen handlar om att få ele-

verna att, via ett verkligt och engagerande exempel i dagspress (exempel 1, se

bilaga 5), reflektera kring hur en statistisk undersökning går till, som rekom-

menderas av Bakker (2004) samt Gordon och Nicholas (2009). Inför detta mo-

ment förväntas eleverna ha läst korta texter om hur en statistisk undersökning

(31)

19 går till, samt även funderat över exempel 1. Efter en lärarledd genomgång får eleverna diskutera parvis, varefter diskussionen förs i klass. Denna pedagogik följer den i skolan välbekanta EPA modellen, som främjar aktivt lärande (Mörk, 2015). I samband med övningen diskuteras också begreppet samband (i relation till exempel 1), som senare i lektionsserien knyts till korrelation och linjär regression; och rimlighet, som senare knyts till kausalitet. Aktiviteterna i lektion 1 utvecklar också elevernas förmåga till transnumeration (Pfannkuch, Rubick och Yoon, 2002), se även figur 3 och relaterad text.

Den andra lektionens huvudfokus är orientering i användandet av den statist- iska programvaran R för att ta fram, beräkna och tolka olika representationer av data (se tabell 3); även denna gång med hjälp av ett exempel i form av ett verkligt datamaterial (exempel 2, bilaga 5), som rekommenderas av bland andra Gordon och Nicholas (2009). Just denna dynamiska interaktion mellan användare och data är en mycket viktig del i utvecklingen den typ av statistiska tänkande som kallas transnumeration (Bakker, 2004; Pfannkuch, Rubick och Yoon, 2002; Shoughnessy, 2007). Transnumeration sker, enligt Pfannkuch, Rubick och Yoon (2002) i tre steg, varav det andra steget är i fokus vid aktivi- teterna i lektion 2 – 4, se figur 3 inklusive relaterad text. Interaktionen mellan användare och data är även viktig för att utveckla det kritiska förhållningssätt som präglar statistiskt tänkande (Wild och Pfannkuch, 1999) och som också är en viktig kompetens i statistical literacy (Gal, 2002; Garfield och Ben-Zvi, 2007). Vidare är syftet med lektion 2 att introducera eleverna till begreppet korrelation och måttets koppling till dess grafiska representation punktdia- gram. Kausalitet introduceras också som begrepp och diskuteras i relation till kritisk granskning av statistiska resultat.

I den tredje lektionen används exempel 3 (bilaga 5) för att dels återkoppla till

tidigare genomgångna begrepp som korrelation och beskrivande mått, där ele-

verna med fördel själv får prova ta fram och tolka dessa mått i ett nytt data-

material; men också för att introducera regressionsanalys och minstakvadrat-

metoden, koppling till korrelation och räta linjens ekvation (se tabell 3). Både

lektion 2 och lektion 3 genomförs i klass, med tanken att både lärare och elever

använder R vid genomgången. Läraren visar hur kods skrivs i R och eleverna

följer läraren samt provar själva. I samband med att koden körs och resultat fås

fram, tolkas och diskuteras resultaten. För eleverna nya begrepp, som till ex-

empel korrelation och linjär regression, förklaras också mer detaljerat av lära-

ren i anslutning relevanta avsnitt i R koden och problematiseras och diskuteras

gemensamt. Allt detta görs med koppling till de generella stegen i en statistisk

undersökning, presenterad i det inledande exemplet i lektion 1 (se även figur

1). I bilaga 7 finns en formativ utvärdering i två delar, som med fördel kan

läggas in i slutet av lektion 2 respektive 3, alternativt ges som läxa.

(32)

20 Tabell 2. Övergripande mål och moment i lektionsserien. Relation till centralt innehåll i ämnesplanen

¹

.

Lärandemål Lärandeobjekt Innehåll Övningar Inbäddning Formativ bedömning

Begreppsförståelse Statistisk undersökning Generella steg Population/urval

Korta sekvenser av programmering i R vid lärargenomgångar (individuellt)

Datorlaboration i R i mindre grupper, inklusive sammanfattning och tolkning, att presentera i i större grupp och att diskutera i klass

Lärarledda genom- gångar av begrepp och deras tolkningar, i R

Individuella exempelöv- ningar i R

Lärobok samt länkar till webbsidor

Två individuella be- dömningar i be- greppsförståelse och tolkning av analysresultat som sedan diskuteras parvis Interaktiv diskussion i klass vid diskussion av exempel och i samband med presentation av grupparbeten

Grafer Ta fram i R

Lådagram/boxplot Histogram Punktdiagram Lägesmått

Spridningsmått

Ta fram i R

Medelvärde, median Standardavvikelse

Skillnader/likheter/tolkning Korrelation Princip för uträkning av korrelation

Hur tolkas Ta fram i R

Regressionsanalys Princip för uträkning av regressionslinje med minstakvadratmetoden

Hur tolkas Ta fram i R

Referensram Flöde i statistisk undersökning Import/inmatning av data, analys av data i R i relation till ovannämnda läran- deobjekt; tolkning av resultat Kausalitet, samband Korrelation som sambandsmått;

Kausalitet – ifrågasättande/rimlighet Studiedesign Frågeställning i relation till studiedesign Matematiska funktioner och

statistiska modeller

Koppling: korrelation, regressionslinje, räta linjens ekvation

Statistiska fördelningar Symmetrisk/icke-symmetrisk Statistiken i

samhället

Vilka funktioner? Vetenskapliga och myndighetsrapporter Media

1”Statistiska metoder för rapportering av observationer och mätdata från undersökningar inklusive regressionsanalys med digitala verktyg”, ”Orientering och resonemang när det gäller korrelation och kausalitet”, ”Metoder för beräkning av olika lägesmått och spridningsmått inklusive standardavvikelse med digitala verktyg” (Skolverket, 2011b).

(33)

21 Tabell 3. Mål och huvudsakliga aktiviteter i de fem lektionerna.

Mål Aktiviteter

Lektion 1 Orientering i och grundläggande förståelse av:

-Processen och delarna i en statistisk undersökning -Statistiska samband

-Genomgång: delar i en statistisk undersökning -Diskussion av exempel 1 enligt EPA modellen -Genomgång: statistiskt samband

Lektion 2 -Orientering i att använda programvara för att ta fram, beräkna och tolka olika representationer av data

(grundläggande grafer, läges- och spridningsmått samt korrelation)

-Förståelse av kopplingen mellan korrelationmåttet och dess grafiska representation (punktdiagram)

- Grundläggande förståelse för begreppet kausalitet i relation till kritisk granskning av statistiska resultat

Genomgång i programvara med hjälp av exempel 2:

-Inmatning av data -Titta på data -Visualisering av data

(lådagram, histogram, punktdiagram) -Beskrivande mått

(median, medelvärde, standardavvikelse) Genomgång (tavla och i programvara):

-Beräkning och tolkning av korrelation -Introduktion; kausalitet

Lektion 3 -Användande av programvara för att ta fram, beräkna och tolka enkel linjär regression -Grundläggande förståelse av statistiska modeller, i synnerhet enkel linjär regression, inklusive principen för minstakvadratmetoden

-Förståelse av tolkning av regressionslinjen (lutningskoefficient och intercept) -Förståelse av kopplingen mellan korrelation och enkel linjär regression, samt mellan räta linjens ekvation och enkel linjär regression i relation till dess grafiska representation (punktdiagram)

Genomgång i programvara med hjälp av exempel 3:

-Enligt genomgång i lektion 2

Genomgång (tavla och i programvara):

-Beräkning av enkel linjär regression med hjälp av minstakvadratmetoden -Tolkning av regressionslinjen (lutningskoefficient och intercept); koppling till korrelation

Lektion 4 -Befästande av de förvärvade kunskaperna och begreppen från lektion 1–3 via statistisk problemlösning på nya data, i mindre grupper

-Datorlaboration i mindre grupper

Lektion 5 -Befästande av de förvärvade kunskaperna och begreppen från lektion 1–3 genom att presentera samt diskutera tolkningar av resultat med klasskamrater som analyserat andra datamaterial

-Presentationer och diskussioner av resultat och tolkningar i mindre grupper, med läraren som moderator

-Uppföljning och diskussion i klass

(34)

22 Under den fjärde lektionen är huvudaktiviteten att eleverna får arbeta med da- torlaboration i mindre grupper – helst två och två – fortfarande med verkliga data från olika tillämpningsområden (bilaga 9), för att befästa den kunskap som förvärvats under lektion 1 – 3 (tabell 3). Diskussion och återkoppling av denna statistiska problemlösning i mindre grupper sker företrädesvis under den av- slutande femte lektionen. Precis som i tidigare delar av lektionsserien är syftet med aktiviteterna i de avslutande delarna både förståelse av statistiska begrepp genom beräkning men också utveckling av elevernas statistiska tänkande i form av transnumeration (Bakker, 2004; Pfannkuch, Rubick och Yoon, 2002;

Shoughnessy, 2007) och kritiskt förhållningssätt (Wild och Pfannkuch, 1999).

Både beräkning och tolkning är viktiga delar i statistical literacy (Gal, 2002;

Garfield och Ben-Zvi, 2007) varför det är viktigt att få med båda delarna i en lektionsserie i statistik (figur 6). Nämnas kan också att huvudaktiviteten i lekt- ion 5, som involverar presentation och tolkning av resultat för klasskamrater, innefattar det tredje och sista steget i transnumeration (Pfannkuch, Rubick och Yoon, 2002, se även figur 3 och relaterad text) – vilket innebär att lektionsse- rien i sin helhet fångar upp hela denna process av statistiskt tänkande.

3.2.3 Lektionsserien – koppling till bilagor

I figur 7 visas kopplingen mellan de fem lektionerna i lektionsserien och bila- gorna till denna uppsats. Bilaga 1 innehåller de förberedelser läraren behöver göra och för att underlätta för läraren i förberedelserna bifogas tips på inläsning och exempelkod för orientering i R (bilaga 2). Bilaga 3 innehåller inläsnings- tips för eleverna och i figur 7 indikeras inför vilka lektioner dessa är lämpliga.

Bilaga 4 – 6 innehåller lärarhandledning för lektion 1 – 3, inklusive färdigpre- parerad R kod för alla moment samt tips på hur begrepp kan förklaras, intro- duceras och diskuteras. Bilaga 5 innehåller presentation av de exempel som används. Bilaga 7 innehåller en formativ utvärdering i två delar, där den första delen passar att göra som läxa mellan lektion två och tre, eller i slutet av lektion 2. Den andra delen passar bra att ha som läxa antingen inför lektion 4 eller under lektionstid i slutet av lektion 3. Bilaga 8 innehåller lärarhandledning in- för, under, och efter laborationen med tips på diskussionsfrågor och inramning och bilaga 9 innehåller introduktion av dataseten till laborationen. De dataset som används i lektionsserien är fritt tillgängliga att ladda ned via:

https://kau.app.box.com/v/MAGK30EkholmSelling2019.

(35)

23

Figur 7. Lektionsserien – koppling till bilagor

Lektion 1 Lektion 2 Lektion 3 Lektion 4 Lektion 5

8: Lärarhandledning, laboration 9: Introduktion data, laboration Online: Dataset i R format 1: Förberedelser

2: R kod, förberedelser 4: Lärarhandledning, lektioner 5: Presentation av exempel 6: R kod, lektioner

3: Läxa 1 3: Läxa 2

7: Utvärdering 1 3: Läxa 3

7: Utvärdering 2

LÄRARE ELEVER

(36)

24

(37)

25 4 DISKUSSION

Nedan diskuteras mitt val av upplägg för lektionsserien i statistik för matema- tikkurs 2B/2C i gymnasiet; jag diskuterar teorier i relation till aktiviteterna i lektionsserien samt identifierar några utmaningar. Efter detta diskuteras, med bas i teorier men också utifrån personliga reflektioner, huruvida lärandet om statistiska beräkningar och statistiska tolkningar bör separeras eller inte, och jag försöker mig också på några sammanfattande kommentarer.

4.1 Val av upplägg för lektionsserie

Statistiskt tänkande, inklusive transnumeration och statistical literacy, är del- vis besläktade teorier och begrepp, som inte uppstår automatiskt hos eleverna (eller lärarna) utan måste läras ut (Wild och Phannkuch, 1999; Pfannkuch, Ru- bick och Yoon, 2002, Gal, 2002). Hur gör man då det? En utgångspunkt torde vara att först definiera och exemplifiera huvudbeståndsdelarna i den statistiska processen för eleverna och därefter, allt eftersom, reflektera kring det statist- iska tänkandet i olika steg i processen. Ett sätt att lära ut statistical literacy verkar vara att använda verkliga och engagerande exempel som underlag (Gor- don och Nicholas, 2009; Merryman, 2006). Ett annat är att levandegöra data till exempel genom att kontextualisera och diskutera var data kommer ifrån för att ge eleverna en bättre förståelse för vad data står för, för att sedan låta ele- verna via statistisk programvara dynamiskt interagera med data (Bakker, 2004). Det är i denna kommunikation transnumeration uppstår (Pfannkuch, Rubick och Yoon, 2002; Lee et al., 2014), vilket är en viktig beståndsdel i såväl statistiskt tänkande som statistical literacy.

I lektionsserien presenterad i denna uppsats sker inramning via presentation av

den generella statistiska processen, där speciellt det inledande exemplet disku-

teras och kontextualiseras utan tillgång till faktiska data och eleverna aktivt får

tänka till kring studiedesign och mätning av variabler, för att följa Bakkers

(2004) råd. Kopplingen mellan statistiskt problem och lösning diskuteras

också, tydligt satt i förbindelse till den generella statistiska processen. Vidare

bygger lektionsserien på tre verkliga och engagerande exempel från olika till-

lämpningsområden, men med samma huvudtyp av statistiskt problem – att be-

räkna och tolka samband i form av korrelation och regressionsanalys. I ana-

lyserna används R, en statistisk programvara, för att möjliggöra för eleverna

att dynamiskt interagera med data. Fokus ligger, förutom på beräkningarna,

även på tolkning och rimlighetsbedömning av analysresultat. Vidare växlar

undervisningsformen mellan undervisning i helklass, gruppövning i form av

(38)

26 datorlaboration; arbete och diskussioner i mindre grupper och i klass. Jag tän- ker mig att denna variation bidrar till aktivt lärande och till en synergieffekt;

att med hjälp av olika typer av läraktiviteter ”så ett frö” gällande statistiskt tänkande som även är högst användbart för eleverna i andra aspekter av livet.

4.1.1 Utmaningar i genomförandet av lektionsserien

En utmaning i genomförandet av lektionsserien för både lärare och elever kan vara att serien bygger på att en ny programvara och ett nytt programmerings- språk, R, ska användas. Å andra sidan ska denna lektionsserie inte primärt ses som en programmeringsdel inom matematikämnet, utan R används som ett statistiskt hjälpmedel – ett digitalt verktyg. Lektionsserien innehåller färdig- preparerad kod för alla moment för att minska förarbetet för lärare och även lärarhandledning med tips på förberedelser. R har valts som digitalt verktyg eftersom det är ett känt programmeringsspråk och den mest använda statistiska programvaran idag – R är också kostnadsfritt att ladda ned. Det är dock värt att poängtera att lektionsseriens genomförande inte är avhängigt användandet av R. Det går att ha samma upplägg och göra ungefär samma beräkningar även i andra programvaror, såsom GeoGebra, Python och Microsoft Excel. Men det ligger utanför ramarna för denna uppsats.

Vidare kan en utmaning vara att få igång diskussioner i klass samt i grupperna under datorlaborationen. I lärarhandledningen rekommenderas därför använ- dandet av EPA modellen (Mörk, 2015). Som hjälp till lärare har också tips på öppna frågor och inledande förslag bifogats i läraranvisningarna respektive i R koden.

En svårighet, som noterats av Bakker (2004), kan vara att genomföra lektions- serien om elevernas uppmärksamhet riktas mot skärmen mer än mot läraren och den pågående diskussionen. Samtidigt menar han på att statistiska pro- gramvaror möjliggör dynamisk interaktion mellan användare/tolkare och data;

något som är svårt att göra för hand med verkliga data. Det är också viktigt att komma ihåg att det är i denna kommunikation transnumeration, en viktig del i både statistiskt tänkande och statistical literacy, agerar som katalysator (Pfannkuch, Rubick och Yoon, 2002). Jag tycker själv, utifrån egen erfarenhet, att begreppsförståelsen i statistikämnet gör sig bäst i symbios med dynamiskt användande av statistisk programvara, inte som separata lärmoment; därför har jag valt detta upplägg.