• No results found

Hypotesens roll i Datadriven Vetenskap

N/A
N/A
Protected

Academic year: 2021

Share "Hypotesens roll i Datadriven Vetenskap"

Copied!
27
0
0

Loading.... (view fulltext now)

Full text

(1)

Filosofi

C-Uppsats 15 HP Ventilerad 2020-06-02 Handledare Sebastian Lutz Examinator Matti Eklund

Filosofiska Institutionen vid Uppsala Universitet

och varför vi fortfarande behöver modeller

Av Max Sonebäck

(2)

Innehåll

1. Introduktion ... 1

1.1. Inledning ... 1

1.2. Syfte ... 2

1.3. Frågeställningar ... 2

1.4. Begrepp ... 2

2. Bakgrund... 4

2.1. Modeller och hypoteser ... 4

2.1.1. Vad är en modell? ... 4

2.1.2. Vad är en hypotes? ... 5

2.2. Korrelation och Kausalitet ... 8

2.2.1. Reichenbachs princip om gemensam orsak ... 8

2.2.2. Vikten av att göra skillnad på kausalitet och korrelation ... 9

2.2.3. Falska korrelationer i stora system ... 10

2.3. Andersons argument ... 11

2.3.1. Siffrorna talar för sig själva ... 11

2.3.2. Korrelationen ersätter kausaliteten ... 12

3. Diskussion ... 13

3.1. Andersons första ståndpunkt ... 13

3.1.1. Data och dess relation till modeller ... 14

3.1.2. Varför datan inte kan tala för sig själv ... 17

3.2. Andersons andra ståndpunkt ... 20

3.3 Sammanfattning ... 22

Källor ... 24

(3)

1

1. Introduktion

1.1. Inledning

Chris Anderson skrev 2008 en mycket provocerande artikel för tidskriften Wired hur den traditionella vetenskapliga metoden är döende och håller på att bytas ut mot datadriven vetenskap. Han argumenterar för att vi med tillräckligt stora datamängder kan använda oss av statistiska verktyg, linjär algebra och matematik för att på så vis beskriva verkligheten så som den verkligen är, utan att behöva använda oss av felaktiga modeller. Vi kommer då kunna frångå det gamla sättet att beskriva vetenskap på och således inte behöva förhålla oss till tidigare kunskaper, förutfattade meningar och förenklade förklaringar av verklighetens sanna natur. Siffrorna kommer att tala för sig själva. Vidare menar Anderson också att korrelationen kommer att ersätta kausaliteten, då han menar att korrelationen är tillräcklig.

Med hjälp av Big Data behöver vi inte längre veta varför något sker, så länge vi vet att det sker. Med tillräckligt stora datamängder räcker det med att hitta samband och mönster i datan för att generera ny kunskap.

Även om Anderson kommer med mycket grandiosa uttalanden tillför han mycket lite substans till sina argument. Han pratar mycket om hur tillräckligt stora mängder data skulle öppna dörren för att frångå den gamla skolan och istället gå in i en ny tidsålder av datadriven forskning, men han nämner aldrig hur Big Data tacklar och försöker lösa de problem vi står inför idag gällande tolkning av data och orsak-verkan-samband. Det blir därför intressant att analysera vilken roll modeller har inom datadriven forskning, att titta på hypotesens funktion och varför korrelation och kausalitet inte är så trivialt som Anderson påstår, även i ljuset av petabytes med data. Det blir även intressant att undersöka hur maskininlärning passar in i den här bilden, då Anderson lyfter att tillämpad matematik och statistiska analysverktyg tillåter oss att analysera data utan förutfattade antaganden om vår data.

Är verkligen den vetenskapliga metoden på väg ut och är hypotesens roll inom forskningen snart ett minne blott? Kan vi idag, eller kommer vi åtminstone inom en snar framtid att kunna skicka in massiva mängder data in i ett nätverk av algoritmer för att få ut en perfekt beskrivning av verkligheten på andra sidan? Eller är Big Data och maskininlärningens roll inom forskningen en helt annan?

(4)

2

1.2. Syfte

Syftet med den här uppsatsen är att argumentera mot idén om att hypotesfri forskning med hjälp av data och olika analysverktyg med fokus på maskininlärning, skulle kunna ersätta den vetenskapliga metoden. Jag kommer att argumentera för att maskininlärning applicerad på Big Data inte löser de filosofiska problem som den vetenskapliga metoden redan faller offer för. Jag kommer däremot också argumentera för Big Data och maskininlärningens roll inom modern forskning, då jag anser att det finns fantastiska möjligheter i att använda dessa verktyg som hypotesgeneratorer genom att hjälpa oss hitta mönster i datan som vi annars potentiellt hade missat.

1.3. Frågeställningar

• Kan datadriven forskning anses vara fri från modeller?

o Kan en datapunkt beskriva ett ting utan att använda sig av modeller?

o Går det att tolka och analysera data utan att applicera modeller?

• På vilket sätt påverkar Big Data hypotesens roll i valet av data och i granskning av resultatet?

• Tillåter Big Data att korrelationen ersätter kausaliteten i jakten på ny kunskap?

1.4. Begrepp

Nedan följer en kortfattad beskrivning om hur jag kommer använda mig av de nyckelord som jag använder mig av i följande uppsats.

Big Data – Begreppet Big Data är ett löst definierat ord som används på olika sätt i olika kontext. I denna uppsats kommer ordet användas för att beskriva datamängder som är av en storleksordning av petabytes eller större.

Maskininlärning – Maskininlärning är ett delområde inom Artificiell Intelligens som specifikt ämnar åt att utveckla datorers möjlighet att lära sig från och hantera stora mängder data.

Maskininlärningstekniker och -algoritmer bygger ofta på statistiska analyser, linjär algebra och applicerad matematik.

Övervakad maskininlärning – Övervakad maskininlärning (Supervised Machine learning) är ett begrepp som beskriver en typ av maskininlärningsalgoritm man tränar på ett tidigare

(5)

3 känt träningsset X som dessutom har ett känt facit Y. Med hjälp av dessa tränas sedan algoritmen i att hitta kopplingen F mellan attributen i X och värdet i Y, så att y = F(x) där y ∈ Y och x ∈ X. Målet är att F sedan ska generalisera till att prediktera Y rätt även för nya värden som inte återfinns i X.

Oövervakad maskininlärning – Oövervakad maskininlärning (Unsupervised Machine Learning) är en kategori av maskininlärningsalgoritmer som använder sig av input-data utan att ha ett facit om vad som bör upptäckas. Istället ämnar maskininlärningsalgoritmen att hitta de kluster, strukturer och korrelationer som finns i input-datan.

(6)

4

2. Bakgrund

2.1. Modeller och hypoteser 2.1.1. Vad är en modell?

Då Anderson argumenterar för att Big Data öppnar dörren för att frångå modeller helt och hållet för att istället komma direkt till kärnan, att kunna beskriva världen så som den verkligen är med hjälp av data blir det viktigt att fastslå vad en modell faktiskt är. Exakt vad Anderson menar med ordet modell är ytterst otydligt och kan betyda många olika saker i olika sammanhang. I denna uppsats kommer jag använda Lloyds (1998) beskrivning av en modell när jag diskuterar Andersons ståndpunkter.

Lloyd (1998) beskriver modeller som en representation av ett original där representationen har vissa, men inte nödvändigtvis fullständiga, likheter med originalet. I kontext av vetenskapen beskriver Lloyd (1998) en modell som ett ersättningssystem i syfte att undersöka och förklara det verkliga systemet modellen ämnar att representera. Låt mig illustrera detta med hjälp av ett exempel.

Tag ett arbiträrt verkligt system S exempelvis består av möjliga händelser K={k1, …, km} och möjliga händelser H={h1, …, hn}, där händelserna i K är orsaken till händelserna i H. Vi kan samtidigt låta S’ vara en modell som representerar S. S’ består av en mängd representationer av möjliga händelser K’={k’1, …, k’q} så att det för vissa k’ ∈ K’ finns ett k ∈ K som representeras av k’, samt representationerna H’={h’1, …, h’p} där det för vissa h’ ∈ H’ finns ett h ∈ H som representeras av h’ och där händelserna som representeras i K’ antas vara orsak till händelserna som representeras i H’. Ett system måste givetvis inte vara ett kausalt sådant för att kunna representeras av en modell, utan kan likväl beskrivas i termer av attribut eller egenskaper. Ett verkligt system bestående av attributen A={a1, …, av} kan således representeras av en modell med en representation av attributen A’={a’1, …, a’w} så att för vissa a’ ∈ A’ finns ett a ∈ A som representeras av a’. För exemplets skull kommer jag dock fortsätta utgå från systemet S och dess modellrepresentation S’.

Modellen S’ representerar således S och vi kan exempelvis med hjälp av K’ härleda till representationen i H’ för att sedan interpretera detta resultat som en prediktion av utfallet i H. S’ är dock inte en perfekt sådan representation då S’ enbart representerar de händelser i K och H som av olika skäl anses vara relevanta, tillsammans med de k’ som inte

(7)

5 representerar något k ∈ K och de h’ som inte representerar något h ∈ H. Att ha instanser av k’ som inte representerar något k ∈ K och instanser av h’ som inte representerar något h ∈ H är såklart inte önskvärt, men kan mycket väl uppstå i formuleringen av en modell. Då S’

enbart representerar en delmängd av de faktiska händelserna i S riskerar S’ att emellanåt prediktera utfall för händelser som representeras i H’ men som inte överensstämmer med det verkliga utfallet i H: en risk som vanligtvis, men inte nödvändigtvis, ökar i takt med att:

1. Antalet k’ ∈ K’ som inte korresponderar mot ett k ∈ K ökar och således bidrar till brus i modellen.

2. Antalet h’ ∈ H’ som inte korresponderar mot ett h ∈ H ökar och således bidrar till brus i modellen.

3. Antalet k’ ∈ K’ som korresponderar mot ett k ∈ K minskar och vi således missar att ta viktiga händelser i beaktande vid prediktering av H interpreterat från H’.

4. Antalet h’ ∈ H’ som korresponderar mot ett h ∈ H minskar och vi saknar således representationer i H’ för möjliga händelser i det verkliga utfallsrummet.

Med detta sagt kan resultaten från S’ fortfarande komma till användning, till exempel som en heuristisk funktion för utvecklandet av en ny, mer exakt modell S’’ eller som ett verktyg för att visualisera och förstå stora komplexa system genom att simplifiera dessa (Lloyd, 1998).

2.1.2. Vad är en hypotes?

Då Anderson hårt kritiserar hypotesens relevans i den datadrivna värld vi lever i idag blir det viktigt att etablera dess syfte inom den vetenskapliga metoden som grund för diskussionen.

Føllesdahl et al. (1995) beskriver relationen mellan teorier och modeller, där de påstår att alla teorier kan ses som modeller, även om alla modeller inte är teorier. Jag kommer här göra ansatsen att en teori är en eller flera sammanlänkade hypoteser som har rigoröst vetenskapligt stöd i form av empiriska data. Genom detta skiljer hypotesen från teorin enbart i form av attribut som också kan återfinnas i modeller, till exempel i vilken grad de kan generaliseras eller om de är föremål för ytterligare utredning eller ej. Därför måste alltså även hypoteser vara modeller, och samma resonemang som används för att beskriva relationen mellan teorier och modeller kan därför också användas för att beskriva relationen mellan hypoteser och modeller.

(8)

6 En hypotes kan således ses som en modell av det system vi ämnar undersöka som formuleras i början av vår studie i syfte att agera heuristisk ledning för undersökningens riktning. En hypotes, precis som en modell, fångar inte verkligheten i sin helhet utan ämnar istället att välja ut de attribut som vi tror är viktiga för förståelsen och för eventuella prediktioner vi vill göra inom systemet. Analogt med hur vi i sektion 2.1.1 beskrev modellen S’ kan vi genom en hypotes om systemet S välja ut de k’ i K’ vi tror är relevanta för att förstå systemet, samt de h’ i H’ som dessa k’ bör leda till. Føllesdahl et al. (1995) menar på att den i regel enda skillnaden mellan modeller och teorier, och således också i sin förlängning mellan modeller och hypoteser, är att teorier (och hypoteser) kan uttryckas språkligt, medan modeller kan vara ordlösa representationer. Vi kan alltså exempelvis ha en modell av en etanolmolekyl gjord av plastbollar och -stänger utan att modellen i sig är en hypotes, medan en potentiellt språkligt uttryckt hypotes av alkoholmolekylens struktur är en typ av modell.

En hypotes som inte är explicit uttryckt i ord, men som potentiellt kan uttryckas i ord och som används för att vägleda en vetenskaplig undersökning kommer i denna uppsats kallas för en implicit hypotes.

Hempel (1966, s. 11-13) menar på att det utan ledning av en hypotes blir omöjligt att ens påbörja en vetenskaplig process. Hur ska vi annars veta i vilken ände vi bör börja och vilka data som är värda att analysera? Total avsaknad av heuristisk ledning betyder att det blir omöjligt att särskilja irrelevant fakta från relevant sådan och leder i sin mest extrema form till att vi måste observera allt, allt från tidens början till dess ände; vi måste observera varenda atom i universum, varenda tanke som någon tänkt och så vidare. Det låter såklart bisarrt, men om vi inte tar allt i beaktande, hur kan vi då veta att alla relevanta fakta är tagna i beaktande? Utan en ledande hypotes för vårt problem blir det omöjligt att avgöra olika faktas relevans till vår undersökning, då relevans enbart kan bestämmas utifrån vad vi tror är viktigt att studera för ändamålet. Genom att svara på frågan ”Varför är det ljust ute?” med hypotesen ”Det är ljust ute för att solen är framme” kan vi enkelt avgöra att densiteten på bergarter i Östersjön förefaller sig högst irrelevant i relation till vår hypotes och bör således inte vara en del av vår modell. Har vi inga förutfattade meningar måste vi alltså studera allt då vi utan en hypotes inte kan vara säkra på att bergarternas densitet i Östersjön inte är orsaken till att det är ljust ute, och om vi är selektiva med vad vi väljer att studera så har vi,

(9)

7 förutsatt att selektionen inte är helt slumpmässig, de facto använt oss av en hypotes för att guida oss i selektionen.

Hypotesen fyller inte bara funktionen som pekpinne för vilka fakta som är värda att observera, utan även som ett verktyg för att sålla bort felaktiga föreställningar om världen.

För ett givet problem formuleras ofta flertalet hypoteser om vad orsaken till problemet är, där varje hypotes har sina egna implikationer. Hypotesen kan sedan testas mot experiment utformade efter att undersöka implikationerna. Hempel (1966, s. 6-11) beskriver exemplet om hypotesen H med implikationerna I. H kan då falsifieras på följande vis:

1) Om H är sann är också I sann.

2) Resultaten från våra experiment visar att I inte är sann.

3) H är inte sann.

Givet att premisserna 1) och 2) är korrekt formulerade kan vi med säkerhet falsifiera H. Hade premiss 2) däremot visat att I var sann hade vi inte kunnat påstå att vår hypotes stämmer, vi hade bara inte kunnat falsifiera H. Det här går enkelt att illustrera med ett exempel. Säg att vi har en hypotes om att Anders har förmågan att alltid välja rätt sida av ett mynt när han singlar slant. Vi kan då utföra följande experiment:

1) Om vår hypotes stämmer kommer Anders gissa rätt nästa gång han singlar slant.

2) Anders gissar på att myntet kommer visa klave.

3) Anders singlar slanten och slanten visar klave.

Vid första anblick ser det ut som att vår hypotes stämmer då Anders faktiskt gissade rätt. Vi kan dock inte påstå att hypotesen är sann trots att hypotesens implikationer inföll i vårt experiment. Vid upprepade försök kommer det visa sig att Anders inte alls besitter en speciell förmåga, utan kommer att gissa rätt ungefär 50% av gångerna. Oavsett hur många gånger Anders gissar rätt i rad räcker det med en misslyckad gissning för att vår hypotes ska kunna falsifieras, och oavsett hur många gånger hypotesens implikationer sammanfaller med verkligheten kan vi aldrig med säkerhet säga att vår hypotes stämmer, även om hypotesen stärks för varje experiment som visar att hypotesens implikationer sammanfaller med verkligheten.

(10)

8

2.2. Korrelation och Kausalitet

Anderson argumenterar för att vi inte längre behöver bry oss om kausalitet, han påstår att korrelation räcker och kommer ersätta kausalitetens roll inom forskningen. Det blir därför intressant att titta på vad det här har för implikationer.

2.2.1. Reichenbachs princip om gemensam orsak

En positiv probabilistisk korrelation kan matematiskt beskrivas på formeln:

(1) p(A∩B) > p(A) × p(B)

Det vill säga att sannolikheten för att både A och B sker är större än produkten av de individuella händelsernas probabiliteter (Hitchcock & Rédei, u.å.), där både A och B är två händelser.

Enligt Reichenbachs princip om gemensam orsak kan en probabilistisk korrelation mellan A och B förklaras genom att:

1. A är orsaken till B.

2. B är orsaken till A.

3. Det finns en händelse C som är orsak till både A och B.

Korrelationen som sådan säger ingenting om att det skulle vara fall 1), fall 2) eller fall 3) som sådan utan implicerar enbart (enligt Reichenbachs princip om gemensam orsak) att någon av dessa fall stämmer. I fallet där det finns en händelse C som orsakar både A och B kommer korrelationen mellan A och B i ekvation (1) att försvinna om vi tar hänsyn till C, vilket kan beskrivas enligt ekvation (2).

(2) p(A∩B) = p(A | C) × p(B | C)

Vi kallar då C för en avskärmande faktor för A och B, eller att C skärmar av A och B från varandra. Tyvärr går det inte på förhand att avgöra om A orsakar B, om B orsakar A eller om det existerar en avskärmande faktor C enbart med hjälp av korrelationen, korrelation är enbart är ett konstaterande av att två händelser sker tillsammans.

I denna uppsats kommer jag inte utgå från att alla korrelationer går att förklara med hjälp av Reichenbachs princip, däremot kommer jag att utgå från att tillräckligt många korrelationer gör det för att vi ändå måste ta detta i beaktande vid granskning av våra analysresultat.

(11)

9 2.2.2. Vikten av att göra skillnad på kausalitet och korrelation

I jakten på ny kunskap är vi ofta intresserade av orsakssamband, antingen vad som orsakat en given händelse alternativt för att förutse effekterna av dito. Det första steget är att hitta en relation värd att undersöka närmare, det andra steget är att fastslå om relationen enbart är korrelerande, om den är kausal eller om det finns en gemensam orsak till de båda, där det förstnämnda generellt sett är mycket enklare än de två sistnämnda.

Att korrelation inte är samma sak som kausalitet är inom vetenskapsvärlden en självklarhet.

Figur 1 visar till exempel på hur självmord genom hängning och USA:s spenderingar inom forskning, rymd och teknik mellan åren 1999 och 2009 har en oerhört kraftig korrelation på över 99,7%. Att dessa två parametrar skulle ha en kausal relation till varandra känns mycket osannolikt, trots dess starka korrelation till varandra.

Figur 1. Kurvan visar hur antalet självmord genom hängning har en positiv korrelation på över 99,7% med hur mycket USA spenderar på forskning, rymden och teknologi (Vigen, u.å.)

Det är självklart inte alltid så att vi måste veta varför något händer, många gånger räcker det bara med att veta att det händer. En klädesåterförsäljare behöver kanske inte veta varför de säljer mer kläder vissa månader jämfört med andra, vetskapen att de gör det kan mycket väl räcka för att planera sina utförsäljningar bättre. När det gäller att förstå det underliggande systemet, till exempel för att fastslå om korrelationen kommer fortsätta att hålla även i framtiden, kan vi dock inte utgå från korrelationen i sig utan vi måste försöka hitta orsaken till fenomenet. Tag vårt exempel om korrelationen mellan självmord och USA:s spenderingsvanor inom forskning, rymd och teknologi ovan och säg att USA skulle vilja

(12)

10 minska antalet självmord som sker i landet. En mycket effektiv idé, enbart baserat på korrelationen, skulle i så fall vara att minska hur mycket landet spenderar på forskning, rymd och teknologi och låta antalet självmord sjunka i takt med USA:s forskningskostnader. Rent intuitivt förstår vi dock att så inte är fallet, och att självmordutvecklingen inte skulle påverkas nämnvärt av en sådan förändring av landets budgetering för forskning. Om USA vill hitta en lösning på det ökande antalet självmord måste de alltså söka efter den underliggande orsaken till hängningarna och kan inte nöja sig med att hitta korrelerade händelser.

2.2.3. Falska korrelationer i stora system

Ramseyteori är en gren inom matematiken som studerar hur delsystem av ordning uppstår i större system, något som Calude och Longo (2017) använder sig av för att bevisa att tillräckligt stora datamängder kräver att falska (eng. spurious) korrelationer uppstår.

Ramseys ändliga teorem (eng. Finite Ramsey Theorem) beskriver Calude och Longo på följande vis:

If A is a finite set then [A]n is the set of all subsets of A containing exactly n elements (n-ary relations or n-sets on A). […] For all positive integers b, n, c there is a positive integer γ such that for every finite set A containing more than γ elements and for every partition P: [A]n→{1, 2, …, c} there exists a subset B of A containing b elements whose n-sets are monochromatic, i.e. P(x) has the same value (colour) for every x in [B]n (Calude & Longo, 2017 s. 605).

För att illustrera vad detta betyder kan vi använda oss av ett exempel. Antag att vi har en ändlig datamängd A = {v, w, y, z} och har den arbiträra korrelationsfunktionen P(x) = färg(x) där färgen antingen är någon av de c = 3 färgerna grön, blå eller röd för ett givet x.

Partitionerar vi då A till [A]2 kan vi då exempelvis få grupperna {{{v,w}, {v,y}, {v, z}}, {{w, y}, {w, z}}, {{y, z}}}, där vi kan påstå att den första gruppen är grön, den andra gruppen är blå och den tredje gruppen är röd. Det viktiga är dock inte hur permutationen av vår mängd ser ut, utan att vi för ett givet b och c, en arbiträr korrelationsfunktion P: [A]n → {1, 2, …, c} och en given storlek på våra n-mängder alltid kan hitta ett värde på A:s storlek γ som leder till att vi måste hitta korrelationer i vår data och att vi dessutom i förväg kan säga något om dessa korrelationer. Vi vet att vi i detta fall där γ = 4, måste hitta en korrelation mellan minst 2 n- mängder, oavsett hur vi partitionerar vår data. Vi vet inte i förväg vilken färg dessa kommer ha, men vi kan med säkerhet veta att de kommer att existera. För ett givet b, n, och c finns

(13)

11 det alltså alltid ett minsta värde för γ där detta är sant, och i takt med att γ ökar, ökar också frekvensen av denna typ av korrelation. Det här resonemanget är helt fristående från eventuella underliggande lagar i det verkliga systemet vi ämnar analysera, utan är en direkt produkt av databasens kardinalitet. Den här typen av falska korrelationer kallar Calude och Longo (2017) för Ramsey-korrelationer (eng. Ramsey-type correlations).

2.3. Andersons argument 2.3.1. Siffrorna talar för sig själva

Huvudtesen i Andersons artikel är att vi inte längre behöver hypoteser och modeller för att förstå världen; med de mängder av data som finns tillgängliga kan vi nu frångå förutfattade föreställningar och antaganden och felaktiga modeller för att istället beskriva världen så som den verkligen är med hjälp av datan. Genom att använda oss av applicerad matematik och statistiska analyser på data av petabyte-storlek kommer siffrorna istället att ”tala för sig själva”, utan att behöva begränsa sig till felaktiga modeller som sällan fångar hela sanningen.

We can stop looking for models. We can analyze the data without hypotheses about what it might show. We can throw the numbers into the biggest computing clusters the world has ever seen and let statistical algorithms find patterns where science cannot (Anderson, 2008).

Anderson lyfter Googles framfart inom marknadsföringsbranschen som ett praktexempel på detta. Utan att använda sig av något annat än applicerad matematik och stora mängder data över användare och trafikmönster till sin hjälp har Google bemästrat och erövrat marknadsföringsbranschen. Han menar att Big Data har möjliggjort för Google att förstå vilka annonser som ska kopplas ihop med vilka artiklar och hemsidor för att maximera sina resultat, utan att i förväg veta någonting alls om vare sig annonserna eller länkarna. Han poängterar dock att hans artikel inte handlar om marknadsföring, utan om forskning. Det modell-lösa angreppssättet som Anderson menar att Google använder sig av är precis lika tillämpningsbart inom vetenskapen och renderar således hypotesen obsolet. Genom att mata olika statistiska algoritmer med stora volymer flerdimensionella indata behöver vi i förväg inte veta vilka parametrar som är relevanta eller inte, detta sköter algoritmerna åt oss. Datan kommer då ”tala för sig själva”, utan att vi behöver använda oss av några modeller för att tolka den.

(14)

12 This is a world where massive amounts of data and applied mathematics replace

every other tool that might be brought to bear. Out with every theory of human behavior, from linguistics to sociology. Forget taxonomy, ontology, and psychology.

Who knows why people do what they do? The point is they do it, and we can track and measure it with unprecedented fidelity. With enough data, the numbers speak for themselves (Anderson, 2008).

Genom att analysera de mönster och korrelationer som finns att hitta i datamängderna behöver vi inte längre ta reda på varför något sker, så länge vi har tillräckligt mycket statistiskt underlag för att det sker, vilket leder oss till Andersons andra stora ställningstagande.

2.3.2. Korrelationen ersätter kausaliteten

Andersons kanske mest kontroversiella punkt är att med hjälp av Big Data behöver vi inte längre förstå vad som är orsak och vad som är verkan, utan att tillräckligt mycket statistiskt underlag för korrelerade relationer räcker för att förstå världen. Anderson gör det inte helt tydligt hur detta skulle gå till, men jag ska göra ett så ärligt försök som möjligt att representera hans argument rättvist.

Anderson menar att ju mer vi lär oss, desto mer märker vi att våra modeller inte stämmer överens med verkligheten. Med den mängd data vi har kan vi, istället för att från början ta fram modeller för att prediktera ett resultat och således testa vår hypotes, nu analysera petabytes av data och hitta mönster och korrelationer som vi hade missat med mer traditionella medel. För att illustrera sitt argument använder sig Anderson av J. Craig Venter som exempel, en mikrobiolog som använder sig av sekvenseringsmaskiner och

”superdatorer” för att sekvensera och analysera stora mängder organismer i både hav och luft. Det här har tillåtit Venter att upptäcka tusentals nya arter och organismer. Även om Anderson själv erkänner att Venter inte kan säga mycket om de organsimer som denne upptäckt genom denna metod, kan Venter ändå göra kvalificerade gissningar om arternas ursprung och hur de fungerar genom att studera hur dessa nya arters DNA-sekvenser korrelerar med redan kända arter. Anderson själv beskriver det på följande vis:

All [Venter] has is a statistical blip — a unique sequence that, being unlike any other sequence in the database, must represent a new species.

(15)

13 This sequence may correlate with other sequences that resemble those of species

we do know more about. In that case, Venter can make some guesses about the animals — that they convert sunlight into energy in a particular way, or that they descended from a common ancestor (Anderson, 2008).

Vidare gör Anderson följande ansats:

[T]he opportunity is great: The new availability of huge amounts of data, along with the statistical tools to crunch these numbers, offers a whole new way of understanding the world. Correlation supersedes causation, and science can advance even without coherent models (Anderson, 2008).

Sammanfattningsvis menar alltså Anderson att vi inte längre behöver formulera hypoteser inom forskningen då de datamängder som existerar idag är tillräckligt stora för att kunna beskriva verkligheten i mycket högre mån än vad modeller kan. Han menar att vi med tillräckligt mycket data inte behöver tolka vår data, utan att den massiva mängd information som finns tillgänglig ”talar för sig själv”. Vidare behöver vi inte inte heller bry oss om varför något sker, så länge vi har tillräckligt stort statistiskt underlag för att det sker. Korrelation är alltså ett tillräckligt kriterium för vetenskapen och att försöka förstå orsakssamband är inte längre nödvändigt när vi använder oss av Big Data.

3. Diskussion

I diskussionen kommer jag kritiskt att bemöta Andersons två huvudteser om att 1) forskning kan bedrivas utan modeller med hjälp av Big Data och 2) att korrelation kan ersätta

kausalitetens roll inom forskningen. Den röda tråden genom hela diskussionen kommer att vara modellers funktion i bland annat valet av datamängd, antaganden om datans natur och dess roll i granskandet av resultaten.

3.1. Andersons första ståndpunkt

För att bemöta Andersons utlåtande om att data kan processeras modell-löst och att siffror kan tala för sig själva kommer jag att bryta upp detta i två huvudpunkter. Den första huvudpunkten handlar om individuella datapunkters relation till modeller och den andra punkten kommer rikta in sig på de filosofiska problem som uppstår när vi står inför att analysera och dra slutsatser från en redan given datamängd.

(16)

14 3.1.1. Data och dess relation till modeller

Följande sektion kommer att delas in i tre underrubriker. Den första underrubriken kommer behandla ämnet kring individuella datapunkter som modeller, den andra punkten kommer belysa hur valet av datamängd är en indikator på en befintlig hypotes även i datadriven forskning och den tredje punkten bemöter hur de verktyg som används för analys inom Big Data, specifikt maskininlärning, också kan ses som modellrepresentationer av fenomenet de appliceras på.

3.1.1.1. Datapunkter är modeller av sitt original

Redan innan vi har nått stadiet att processera vår data är vi redan låsta till att använda oss av modeller, då varenda datapunkt någonsin lagrad är i sig en produkt av tidigare modeller, då det vore en omöjlighet att lagra data om ett ting i sin fulla kontext. När en bilhandlare lagrar information om en bil gör vi det kanske i form av produktionsår, färg, miltal och ett flertal fler parametrar, och även om datan är användbar för bilhandlarens syfte att sälja bilar går den knappast att kalla för något annat än en representation av sitt original. Ingenstans har bilhandlaren lagrat hur många passagerare bilen haft, antal atomer den består av eller hur många duvor som suttit på motorhuven Detta trots att denna information utgör en (om än mycket liten) del av bilens fulla kontext. Istället har bilhandlaren i linje med Hempels (1966, s. 11-13) idé om hypotesens roll använt sig av sina tidigare föreställningar och blivit guidad av en heuristisk idé om attributens relevans sett till en hypotes om vilka fakta om en bil som krävs för att lyckas sälja den. Det här gör bilhandlaren inte bara för att det vore en omöjlighet att lagra allting om allting, utan också för att majoriteten av alla de attribut som ändå går att mäta faller sig irrelevant i relation till hypotesen. Även om bilhandlaren vet att det tekniskt sett är möjligt att räkna antalet sandkorn under förarsätet så är detta inget hen kommer att mäta då det faller sig irrelevant till hypotesen, så pass irrelevant att hen antagligen inte ens kommer att tänka tanken.

Relationen mellan data och modeller handlar dock inte bara om vilka attribut vi valt för att representera ett ting, utan också var värdena för varje attribut kommer från. De attribut vi redan har i våra datamängder är även dessa produkter av tidigare modeller, då våra mätverktyg är produkten av modellföreställningar av verkligheten. Vi mäter längden på en ljudvåg, energimängden i en elektron och en spoles fältstyrka genom ett filter av hur vi förstår dem i form av modeller. Även om vi för argumentets skull för stunden accepterar att

(17)

15 Anderson har rätt i att data kan tala för sig själv och att det finns modell-lösa sätt att processera data på kommer vi ändå inte från att resultatet är en produkt av tidigare modeller, och således också en modell i sig själv. Då våra algoritmers hela värld består av den indata vi matar den med och vi enbart matar dem med datapunkter vars attribut är ett axplock av verkligheten kommer de slutsatser och upptäckter algoritmerna gör således också vara modeller. För att frångå detta måste vi på något vis hitta ett sätt att utan förutfattade meningar, utan antaganden om verklighetens natur och utan förenklade modeller hitta ett sätt att sammankoppla våra maskininlärningsalgoritmer med ”världssjälen” för att läsa av den sanna verkligheten i sin fulla kontext. Innan vi når den punkten har vi en lång rad filosofiska, tekniska och beräkningsvetenskapliga problem vi behöver lösa. Låt oss dock lämna individuella datapunkter och bilhandlaren för ett ögonblick och istället gå över till datamängder och kungen över Big Data, Google.

3.1.1.2. Valet av datamängd är ett bevis för en befintlig hypotes

Google, måttstocken för framgång i Andersons artikel, lär även de agera på precis samma sätt som bilhandlaren. Google använder sig knappast av data rörande elefanters kostvanor eller kinetiska förlopp i ribosomfunktioner hos möss i sina predikteringar av mänskligt beteende på nätet. Det här kan till synes vara ett trivialt påstående och jag tror inte ens Anderson själv tror att detta är något Google gör, men det väcker ändå den viktiga frågan:

varför? Varför använder inte Google data om elefanters kostvanor, om jordens avstånd till Pluto eller de geografiska koordinaterna för elsparkcyklar i Stockholm när de avgör vilken annons de ska visa för att maximera inkommande trafik från fotbollsintresserade kvinnor i åldrarna 18-23 i Ridgeville, South Carolina? Svaret är enkelt: för att även Google använder sig av modeller, vare sig de är explicit formulerade eller implicita hypoteser, i valet av data för sina analyser. De har en idé om vilka fakta som krävs för att få svar på sina frågor, vilka databaser de bör söka i eller vilka nya attribut som bör loggas genom deras analysverktyg för att driva försäljningar. Precis som Hempel (1966, s. 11-13) beskriver hypotesens essentiella roll för att inte famla i blindo, agerar Google utefter en föreställning om vilka data som behövs. Massimo Pigliucci, professor i filosofi vid City University i New York, sätter huvudet på spiken när han bemöter Andersons argument med följande citat:

Why collect certain pieces of information rather than others? Why use certain keywords to organize the search rather than others? Every choice we make in that

(18)

16 respect is a reflection of an, often unstated, set of assumptions and hypotheses

about what we want and expect from the data (Pigliucci, 2009 s. 534).

Även Andersons eget paradexempel visar alltså tydliga tecken på att inte leva efter det ideal som Anderson förespråkar.

3.1.1.3. Maskininlärningsalgoritmer är packade med antaganden om hur datan bör tolkas Våra problem med den perfekta modell-lösa dataanalysen stannar tyvärr inte där. Inte nog med att det görs selektioner och tolkningar redan i insamlandet av datan, det sker också antaganden och simplifieringar av datan i själva maskininlärningsalgoritmen. Detta görs antingen explicit av maskininlärningsingenjören eller som en implicit del av algoritmens struktur. Låt oss ta artificiella neurala nätverk som ett exempel, där storleken på de olika lagren måste bestämmas, om de ska vara täta (dense) eller faltningslager (convolutional), hur många kanaler som ska användas, vilka steg- och vadderingsstorlekar som bör användas och så vidare. Olika värden i alla dessa led kan givetvis leda till att algoritmen gör bättre eller sämre prediktioner och kan därför ses som bättre eller sämre modeller, men det gör inte algoritmen till mindre av en modellrepresentation av fenomenet. Neurala nätverk är knappast den enda metoden inom maskininlärning som gör sig skyldig till detta, utan antaganden om exempelvis datans distribution, dess kovariansmatris eller dess tröskelvärden görs i olika grad inom alla moderna maskininlärningsalgoritmer.

Det här är heller ingenting som enbart präglar övervakade maskininlärningsalgoritmer, utan är precis lika närvarande i oövervakade sådana. En mycket vanlig typ av oövervakad maskininlärning och som dessutom används mycket inom genforskning är klusteranalys (Handl et al., 2005 s. 3201-3202). Klusteranalys är dock inte ett isolerat och enkelspårigt analysverktyg, utan flera olika algoritmer existerar med sina egna antaganden om var klustrens avgränsningar bör dras baserat på till exempel datans kompakthet, sammanlänkningar och spatiala separation (Handl et al., 2005 s. 3202). Åter igen skulle alltså samma data kunna resultera i vilt skilda resultat, enbart baserat på vilken maskininlärningsalgoritm vi väljer att applicera för att tolka datan.

Varje algoritm, vare sig det gäller övervakad eller oövervakad maskininlärning, kommer att spotta ut en ”korrekt” beskrivning, potentiellt till och med en perfekt beskrivning av den inmatade datan, sett till algoritmens antaganden och värdet på dess hyperparametrar. Hur

(19)

17 väl dessa resultat sedan generaliserar i verkligheten går dock inte att avgöra utan vidare experiment. Processen går alltså att se som hypotesgenererande, i linje med Lloyds (1998) utlåtande om modellers användningsområden kan dessa resultat alltså användas som heuristisk ledning i fortsatta undersökningar kring till exempel vilka parametrar vi bör lägga till eller skala bort och leder potentiellt till att vi från dessa resultat kan skapa oss en ännu bättre, mer precis modell. Att kalla det för en sann och modell-lös återspegling av verkligheten är dock inte bara långsökt, det är rakt ut felaktigt.

3.1.2. Varför datan inte kan tala för sig själv

I föregående sektion har jag försökt redogöra för hur datapunkter i sig är modeller av det vi försöker mäta, hur valet av datamängd i sig är en reflektion av användandet av en hypotes samt hur även maskininlärningsalgoritmer är modellrepresentationer av verkligheten. I följande avsnitt ska jag fortsätta resonera kring varför det inte bara är svårt, utan rakt av omöjligt att frångå modeller när vi arbetar med data.

Anderson gör väldigt grandiosa uttalanden om hur Big Data tillåter oss att läsa verkligheten direkt ur datan, men går inte in närmare i detalj om hur detta går till mer än att det är möjligt på grund av de massiva mängderna data som finns tillgängliga. Varför detta utlåtande är problematiskt går enkelt att illustrera. Tag de 10 datapunkterna illustrerade i figur 1. Datamängden representerar en tvådimensionell entitet med ett okänt förhållande mellan attribut x och attribut y.

Figur 1. Ett exempel på en datamängd med en okänd underliggande funktion.

(20)

18 Vad ”säger” datapunkterna här egentligen om dess underliggande funktion? Vi kan självklart försöka beskriva relationen mellan våra datapunkter genom att dra en rät linje mellan varje datapunkt och låta detta beskriva den underliggande funktionen, men vi kan även anpassa ett polynom som beskriver sambandet, se figur 2. I och med att vi i detta exempel har 10 datapunkter vet vi att om vi väljer ett polynom av minst graden 9 kommer vi även då få en beskrivning av vår data som skär perfekt genom varje datapunkt.

Figur 2. Figuren visar hur samma datamängd kan beskrivas med hjälp av två olika funktioner, där båda funktionerna har ett minstakvadratfel som är lika med noll. Vad har datan egentligen ”sagt” om dess underliggande natur? Vilken funktion beskriver verkligheten?

Frågan blir då hur datan kan berätta för oss vilken funktion som beskriver verkligheten? Var i datan kan vi hitta svaret på hur verkligheten ser ut? Vi kan såklart göra en kvalificerad gissning om vilken funktion vi tror stämmer och vi kan samla in mer data, göra fler experiment och försöka beskriva de objekt vi representerar med vår data med hjälp av ännu fler attribut för att avgöra vilken funktion som ger oss de mest användbara resultaten. Vilken graf som bäst beskriver verkligheten är dock i det här skedet helt omöjligt att säga, då datan i sig kan inte diskriminera någon av dessa förklaringar: ur datans perspektiv beskrivs den perfekt av båda dessa funktioner. I detta exempel har jag knappast använd mig av Big Data, utan av endast 10 datapunkter. Det spelar dock ingen roll om vi har 10, 100 eller 1015 stycken datapunkter, det finns alltid ett oändligt antal funktioner som beskriver den befintliga datan perfekt. För att kunna läsa något ur datan måste vi först välja en modell att tolka den genom.

(21)

19 Ovanstående exempel illustrerar ett regressionsproblem för enkelhetens skull, men samma resonemang går lika bra att applicera i både klassificerings- och klusterproblem. Säg att vi har en datamängd med 2 attribut, x och y, (figur 3) som vi sedan vill dela in i ett antal kluster.

Figur 3. Ett exempel på en datamängd bestående av 300 datapunkter med attributen x och y.

Ännu en gång ställs vi inför frågan vad datan säger är en lämplig indelning. Hur många kluster påstår datan att vi behöver och var bör våra beslutsgränser dras? Åter igen finns det oändligt många sätt att segmentera datan på, varav 2 av dessa illustreras i figur 4. Vi kan justera våra algoritmers hyperparametrar, ställa in hur många kluster vi vill ha, justera var vi vill placera vår klustercenter och så vidare, men datan i sig säger ingenting om dessa indelningar.

Figur 4. Två olika sätt att segmentera datan illustrerad i figur 3, baserat på vilka antaganden vi gör om vår data.

Resultatet blir en produkt av datan och av de antaganden kring relationer som vi på förhand programmerar våra algoritmer till att hitta. Det här illustrerar vidare varför det inte bara är viktigt att förstå hypotesens roll inom vetenskapen, utan också varför det är viktigt att inte blunda för när vi faktiskt låter oss ledas av våra egna antaganden. En forskare som tror sig

(22)

20 arbeta helt modell-löst kan lätt bli lurad genom att upptäcka ett mönster som denna på förhand ”tvingat” sina algoritmer att hitta, även om ett sådant mönster saknar signifikans, medan en forskare som vet att denna jobbar utefter modeller också vet att dennas upptäcker behöver testas vidare för att anses vara signifikanta.

3.2. Andersons andra ståndpunkt

I följande sektion ska jag försöka redogöra för de fallgropar som finns i att nöja sig med enbart korrelationer, varför en hypotes krävs för att tolka de mönster vi upptäcker och vilka specifika problem gällande korrelationer som kan uppstå när vi använder oss av Big Data.

Förklaringsgraden vi kan få genom att studera kausala kontra korrelerade relationer skiljer sig avsevärt, något som Anderson själv poängterar utan att själv märka det. I hans eget exempel om mikrobiologen Venter nämner Anderson att vi nästan inte vet något alls om de nyupptäckta arterna, utan att allt vi har är ”statistiska blipp” och att vi kan göra ”vissa gissningar” om de nya arterna, baserat på hur deras gener korrelerar med andra, tidigare kända arter. Att utreda begreppet ”kunskap” i en filosofisk bemärkelse är något som överstiger omfattningen av denna uppsats, men vi tvingas ändå fråga oss själva om dessa upptäckter verkligen har givit oss någon avsevärd ny sådan. Jag tycker Pigliucci formulerar Andersons brister i sitt resonemang mycket väl:

Science, unlike advertizing, is not about finding patterns—although that is certainly part of the process—it is about finding explanations for those patterns (Pigliucci, 2009 s. 534).

Pigliucci poängterar senare att inte ens marknadsföringsbranschen agerar efter det paradigm Anderson propagerar för, men det är ändå denna del av Pigliuccis uttalande som förefaller sig vara mest intressant: när vi bedriver vetenskap är det framförallt orsaken till ett fenomen vi är intresserade av, då det är först när vi förstår orsaken som vi också har en möjlighet att påverka systemet. Visst kan korrelationer vara intressanta och visst kan vi använda oss av Big Data för att upptäcka samband som vi annars aldrig hade upptäckt, men korrelationen i sig säger oss inget mer än att mönstret existerar. Upptäckten om att det finns en positiv korrelation mellan säg exempelvis antalet aborter i Södermanland och priset för smörkola säger ingenting om orsak och verkan: enbart baserat på korrelationen är det enligt Reichenbachs princip precis lika rimligt att priset smörkola styr antalet aborter, som att ökad

(23)

21 abort skulle orsaka ett högre pris på smörkola. Om målet är att hitta lustiga mönster i datamängder så kan vi såklart nöja oss där, frågan är dock hur mycket klokare vi blivit och vilken nytta den här informationen ger oss. Är vi däremot ute efter att potentiellt sänka antalet aborter inom ett givet geografiskt område tjänar vi mycket mer på att söka kausala samband, till exempel genom att utforska hur utbildning och tillgänglighet av preventivmedel påverkar abortsiffrorna. För att gå från en simpel korrelation till att hitta ett orsakssamband krävs dock en hypotes, där jag här har använt mig av hypotesen att ”mer utbildning och högre tillgänglighet av preventivmedel sänker antalet aborter”. En hypotes kan självfallet genereras från en korrelation, vi kan till exempel bilda oss hypotesen att smörkolapriset skulle ha en inverkan på abortantalet i Södermanland, en hypotes som vi sedan kan testa och i detta fall falsifiera. Om vi däremot enbart skulle nöja oss redan vid korrelationen, utan att använda denna för att generera en hypotes om ett kausalt samband som sedan testas skulle vi på vår höjd ha genererat kuriosa snarare än en vetenskaplig upptäckt.

Fortsätter vi att ta Reichenbachs princip om gemensam orsak i beaktande belyser detta ytterligare problem med att stirra sig blind på korrelationer. Korrelationen säger nämligen inte heller något om att det skulle finnas en tredje parameter vi missat att ta med i våra beräkningar. Utan en hypotes och med blint förtroende till korrelationer finns alltid risken att vi missar viktiga fakta och utan heuristisk vägledning av hypotesen blir det en omöjlighet att kritiskt granska vårt resultat. Tar vi korrelationen mellan etnicitet och kriminalitet i beaktande är det mycket möjligt att vi skulle kunna skärma av dessa från varandra, exempelvis genom att ta socioekonomisk status med i beräknandet eller att sannolikheten för att ett brott anmäls påverkas av gärningsmannens etnicitet, som alltså skulle kunna vara mellanliggande orsaker som potentiellt skulle kunna skärma av etnicitet från kriminalitet.

Hade dessa parameter dock saknats i vår ursprungliga datamängd hade ingenting i korrelationen vittnat om detta. Ännu en gång gör mängden data ingen skillnad för det filosofiska resonemanget, oavsett står vi inför samma likgiltighet över om händelse A orsakar händelse B, om händelse B orsakar händelse A eller om det existerar en tredje händelse C som orsakar både A och B. Faktum är att om vi blint litar på korrelationen och vi gör en analys på en datamängd som har peta-, exa- eller till och med zettabytes av data över A och

(24)

22 B men som saknar att ta hänsyn till C, skulle denna analys potentiellt leda oss längre från sanningen än en modell skapad från några få bytes men som innehåller både A, B och C.

Hittills har jag bara nämnt de fall där vi har ”äkta” korrelationer i någon mån, men som redan nämnt i sektion 2.2.3 kan vi matematiskt påvisa hur vi i stora datamängder även riskerar att tvinga fram Ramsey-korrelationer, det vill säga korrelationer som uppstår enbart på grund av datamängdens storlek. Det blir således uppenbart att Big Data inte bara hjälper oss hitta de korrelationer som finns (vare sig det finns avskärmande faktorer eller inte) utan även de korrelationer som spontant uppstår på grund av storleken på datamängden och vår egen problemformulering, korrelationer som alltså saknar någon som helst förankring i underliggande verkliga lagar. Än mer problematiskt blir detta i ljuset av kunskapen att ju större datamängd vi har, desto fler Ramsey-korrelationer kommer oundvikligt att uppstå.

Söker vi därför blint efter korrelationer och ignorerar att jämföra våra resultat mot någon hypotes löper vi en mycket reell risk att lura oss själva till att det finns mening i bruset.

Självklart finns det olika metoder i olika sammanhang för att minimera den här typen av misstag, som att träna en maskininlärningsalgoritm alternativt anpassa en statistisk modell på en delmängd av vår ursprungliga datamängd och sedan se hur denna generaliserar över resterande data. I ett sådant läge kan vi dock återigen knappast påstå att vi arbetar utan modeller då vi, åsidosatt de punkter som lyfts i sektion 3.1, inte ens arbetar med hela den datamängd vi faktiskt har tillgänglig. Det blir också svårt att argumentera för att vi kan låta korrelationen ersätta kausaliteten, då vi systematiskt sållar bort korrelationer som de facto existerar i våra datamängder, vare sig de är äkta eller falska, och således implicit erkänner att korrelationer i sig inte nödvändigtvis bringar ny kunskap. Vidare är det inte heller lika enkelt att utföra den här typen av validering inom tillexempel klusteranalys, då det inte finns ett givet facit att jämföra mot. Just klusteranalys, som ämnar att partitionera en datamängd A i flera delmängder partitionerad av ett klusterkriterium P, som redan nämnts i sektion 3.1.1.3 som en vanlig metod inom bland annat genforskning, är också en av de analysmetoder som löper störst risk att luras av Ramsey-korrelationer.

3.3 Sammanfattning

Sammanfattningsvis kan vi alltså inte påstå att datadriven forskning i någon mån skulle vara mer modellfri än de mer traditionella sätten att bedriva forskning på, av flera anledningar:

(25)

23

• Datapunkter är förenklade representationer av sitt original och således också modeller

• Mätvärdena för en datapunkts attribut är modellbeskrivningar och således är även datapunkterna modeller i sig själva

• Valet av datamängd är en reflektion av att vi har en idé om vilka data vi tror vara användbara, och är således ett bevis på att vi använder oss av hypoteser och modeller

• Då våra analyser av data bygger ovanpå modeller (vår data) måste vårt analysresultat också vara en modell

• Maskininlärningsalgoritmer som används för dataanalys gör antaganden om datamängden och är således också en modell för att tolka datan.

Vi kan inte heller tillåta oss tro att stora mängder data på något vis skulle lösa de filosofiska problem vi redan har för att rättfärdiga att inte använda sig av hypoteser inom forskningen, då vi fortfarande behöver hypotesen som verktyg för att leda oss i valet av data och för att utvärdera våra analysresultat. Det finns dessutom fallgropar med att använda sig av stora datamängder där mer data inte alls behöver betyda att vi får bättre modeller om vi inte tar höjd för dessa.

Med allt detta sagt ska Big Datas roll inte förringas, utan Big Data och relevanta analysverktyg hade vi kanske aldrig hittat korrelationen mellan olika datapunkter eller mellan olika attribut, där dessa korrelationer mycket väl kan utgöra grunden för nya hypoteser för vidare forskning och analys. Vidare är problemen i ovanstående stycke inget som är unikt för datadriven forskning, utan är likväl ett problem inom mer traditionell sådan.

Det finns heller ingenting som hindrar oss från att algoritmisera processer för att hitta orsakssamband, till exempel genom att skärma av olika parametrar från varandra; faktum är att metoder för att hitta orsakssamband i datamängder redan existerar (Silva, 2011) (Korb, 2011). Bland annat används dessutom det redan nämnda verktyget k-fold cross validation (sektion 3.2) flitigt för att minimera risken för att träna våra maskininlärningsalgoritmer på missvisande mönster, det finns med andra ord verktyg för att möta vissa av de risker jag tagit upp i den här uppsatsen. Min poäng här är alltså inte att all dataanalys bör ske helt analogt och att vi inte bör använda oss av Big Data inom forskning, poängen är att vi utan hypotes står handfallna inför vårt resultat, att vi utan modeller saknar verktyg för att

(26)

24 beskriva verkligheten och att korrelation aldrig kommer kunna ersätta kausaliteten om vårt mål är att förstå oss på ett system. Bara för att vi automatiserar den vetenskapliga processen betyder inte det att vi blir fria från våra antaganden och hypoteser, det betyder bara att vi automatiserat och hårdkodat även dessa. Är vi dock medvetna om detta och arbetar metodiskt med hypoteser, analys och utvärdering av resultaten är datadriven forskning knappast en ny typ av forskning som kommer slå ut den vetenskapliga metoden, utan snarare ett sätt att kombinera den vetenskapliga metoden med mycket kraftfulla verktyg och ny teknologi.

Källor

Anderson, C. (2008) “The End of Theory: The Data Deluge Makes the Scientific Method Obsolete”, Wired.

Hämtad 2020-04-09.

https://www.wired.com/2008/06/pb-theory/

Calude, C.S., Longo, G. (2017) “The Deluge of Spurious Correlations in Big Data”. Found Sci 22, Sida 595–612. https://doi.org/10.1007/s10699-016-9489-4

Føllesdal, D., Walløe, L., Elster, J., Häggqvist, S. & Söderlind, M. (1995), Argumentationsteori, språk och vetenskapsfilosofi, 2. uppl. edn, Thales, Stockholm.

Handl, J., Knowles, J., and Kell, D.B. (2005). ”Computational cluster validation in post- genomic data analysis”. Bioinformatics, 21(15), Sida 3201-3202.

Hempel, C. G. (1966). Philosophy of natural science. Upper Saddle River, N.J;Englewood Cliffs, N.J;: Prentice Hall. Sida 6-13.

Hitchcock, C., Rédei, M. (u.å.) ”Reichenbach’s Common Cause Principle”, The Stanford Encyclopedia of Philosophy (Spring 2020 Edition), Edward N. Zalta (ed.).

Hämtad 2020-03-30.

https://plato.stanford.edu/archives/spr2020/entries/physics-Rpcc/

Korb K.B. (2011) ”Learning Graphical Models”. Sammut C., Webb G.I. (eds) Encyclopedia of Machine Learning. Springer, Boston, MA

(27)

25 Lloyd, E. (1998). ”Models in Science”. In The Routledge Encyclopedia of Philosophy. Taylor and Francis.

Hämtad 2020-03-26.

https://www-rep-routledge-com.ezproxy.its.uu.se/articles/thematic/models/v- 1/sections/models-in-science

doi:10.4324/9780415249126-Q072-1

Pigliucci M. (2009). ”The end of theory in science?”. EMBO reports, 10(6), Sida 534.

https://doi.org/10.1038/embor.2009.111

Silva R. (2011) ”Causality”. Sammut C., Webb G.I. (eds) Encyclopedia of Machine Learning.

Springer, Boston, MA

Vigen, T.(u.å.). Spurious Correlations.

Hämtad 2020-04-09.

https://www.tylervigen.com/spurious-correlations

References

Related documents

Unizon ställer sig bakom utredningens förslag till ändring av lagen (1904:26 s.1, 1 kap 8 a §²) om vissa internationella rättsförhållanden rörande äktenskap och förmyndarskap

Ett bra samarbete mellan olika kommundelsbibliotek inom Uppsala vore önskvärt för att kunna tillfredsställa låntagarnas behov, eftersom det visar sig att inte alla

En svårighet som kan uppstå om pedagogerna inte har kunskap om Gelman och Gallistels fem principer, är att barnen endast får med sig ett par av principerna istället för alla.

Svara i hela procent. 30) Med hur många procent har priset sänkts på DVD-R skivor? Svara i hela procent. Priset sänktes med 195 kr. Med hur många procent sänktes priset? Svara

Vi kan också se att tillhör man någon av de nordiska, kontinentala eller sydeuropeiska regimerna är chansen att synen på fertiliteten är för låg mindre

”Ja men det beror på innehållet därför att, dels vad jag själv tycker men också vad skolan tycker för det kan vara liksom som att värdegrunden att det inte ska vara

bokstäver, siffror, krumelurer. De börjar även låtsasskriva, de skriver då krumelurer som de anser är bokstäver. Genom att dra nytta av den erfarenhet som de skapat då de

• Med tanke på att det är relativt många resenärer som bor i stadsdelar som trafikeras av Flexlinjen, men inte har erfarenheter av dessa resor, behöver