• No results found

Regressionsanalys av global temperatur och växthusgaser

N/A
N/A
Protected

Academic year: 2022

Share "Regressionsanalys av global temperatur och växthusgaser"

Copied!
34
0
0

Loading.... (view fulltext now)

Full text

(1)

U.U.D.M. Project Report 2021:55

Examensarbete i matematik, 15 hp Handledare: Rolf Larsson

Examinator: Örjan Stenflo Oktober 2021

Department of Mathematics

Regressionsanalys av global temperatur och växthusgaser 1850-2016

Bichundo Mitachi

(2)
(3)

Sammanfattning

Syftet med det här examensarbete är att analysera vilken faktor som påver- kar den globala temperaturens ökning från 1850 - 2016. Under arbetet kom- mer vi göra en regressionsanalys med hjälp av den statistiska programvaran R. Vår grundmodell består av tre förklarande variabler. Vi är övertygade om att en av dem kommer förklara temperaturen, som är vår responsvaria- bel.Undersökning av residualplottar, förklaringsgrader, p-värde samt residual standardfel kommer hjälpa oss att få fram den bästa modellen till vår data.

Genom att analysera sju modeller med hjälp av multipel linjär regression och polynomtransformation, kommer vi fram till fyra modeller som uppfyller den linjära regressionens villkor. Slutligen efter modelljämförelse av de fyra modellerna, konstaterar vi att den eliminerade modellen 2 är den lämpligaste modellen som förklarar temperaturen bäst eftersom den har minimum AIC.

(4)

Förord

Det här arbetet är ett examensarbete som omfattar 15 högskolepoäng i kan- didatmatematik med huvud ämne statistik på Uppsala universitet. Under arbetet gång har jag lärt mig oerhört mycket och jag är tacksam för alla som har bidragit till genomförande av arbetet. Först och främst vill jag säga stort tack till min handledare Rolf Larsson för den bästa handledningen jag har fått under det här arbetet. Tack för alla dina fantastiska förslag, råd och stöd du har givit mig. Utan din enorma tålamod skulle jag inte slutfört arbetet.

Jag vill även tacka min bästa väninna Marie Nahimana som alltid har mo- tiverat och uppmuntrat mig att inte ge upp mina drömmar. Jag är tacksam för den stöttningen och insperationen du har givit mig.

(5)

Innehåll

1 Inledning 5

1.1 Syfte och frågeställning . . . 5

2 Teori 6 2.1 Enkel linjär regression . . . 6

2.2 Multipel linjär regression . . . 6

2.3 Förklaringsgrad och justerad förklaringsgrad . . . 7

2.4 Hypotestest och p-värden . . . 8

2.5 Multikollinearitet . . . 9

2.6 Variansinflationsfaktor - VIF . . . 10

2.7 Akaikes informationskriterium - AIC . . . 10

2.8 Residualanalys . . . 10

3 Beskrivning av data 11 3.1 Variabler . . . 11

3.1.1 Responsvariabel . . . 11

3.1.2 Förklarande variabler . . . 11

3.2 Variabeltransformation . . . 12

4 Analys av data 13 4.1 Korrelationsanalys . . . 13

4.2 Enkel linjär regression . . . 14

4.3 Multipel linjär regression . . . 15

4.4 Transformerade modeller . . . 17

4.5 Modelljämförelse . . . 19

5 Resultat 20 5.1 Prediktion . . . 20

6 Diskussion 21

(6)

1 Inledning

Globala klimatförändringar har varit en av världens pressande utmaningar de senaste åren. Mänskliga utsläpp av växthusgaser såsom koldioxid, dikvä- veoxid, metan och många andra har ökat oerhört mycket under 2000-talet.

Ökningen av den globala temperaturen och växthusgaser framför allt koldi- oxid, dikväveoxid och metan har varit en stor del av klimatpolitiken i hela världen. Två intressanta frågor har varit varför klimatet förändrar sig med tiden, och vad skulle göras för att kunna hindra eller minska förändringarna.

1.1 Syfte och frågeställning

Syftet med denna uppsats är att analysera samband mellan den globala tem- peraturen och växthusgaser. Målet är att ta fram en modell som bäst förklarar varför temperaturen ökar snabbt med tiden. Dessa frågor kommer vi besvara i vår analys.

• Finns det ett samband mellan ökningar av koldioxod, dikväveoxid, me- tan och den globala temperaturökningen?

• Kan vi prediktera framtida globala temperaturförändringar?

• Hur påverkar människornas liv och aktiviteter den temperaturföränd- ringen?

(7)

2 Teori

För att kunna genomföra arbetet kommer vi använder olika källor som våra referenser. Hela avsnitt 2 samt 3.2 kommer vi använda böckerna McClave and Sincich (2006) och Weisberg (2005) medan i avsnitt 3.1.1−3.1.2 kommer alla datamaterial hämtas från Ritchie and Roser (2017). Slutligen används Larsson (2021) multipel regression, kompendium, matematiska institutionen, Uppsala universitet i avsnitt 5.1.

2.1 Enkel linjär regression

Enkel linjär regression är en modell som förklarar samband mellan en respon- svariabel och en förklarande variabel. För enkel linjär regression kommer vi fokusera bara på hur den oberoende variabeln förutsäger den beroende vari- abeln. Modellen som användas för att definiera enkel linjär regression är

Yi = β0+ βixi+ i (1)

Där Yi är en beroende eller responsvariabel som är temperaturen i det här arbetet och xi är de oberoende eller förklarande variablerna, i är oberoende och normalfördelade med väntevärde noll och konstant varians.

2.2 Multipel linjär regression

Multipel linjär regression är en statistisk modell som används för att under- söka om det finns ett samband mellan responsvariabeln och två eller flera förklarande variabler. Multipel linjär regressionsmodellen definieras som föl- jande

Y = β0+ β1x1+ β2x2+ · · · + βkxk+  (2) Där β0 betecknar parametern för regressionsmodellens intercept. Parametern βj beskriver de förklarande variablernas xj effekt på responsvariablerna och

 är slumpfelet. Multipel regressionmodellen kan även uttryckas i matris och vektorform som följande,

Y = Xβ +  (3)

Där

(8)

Y =

 y1

y2 ...

yn

, β =

 β0

β1 ...

βk

, X =

1 x11 · · · xk1

1 x12 · · · xk2 ... ... ... ...

1 x1n · · · xkn

,  =

1

2 ...

n

2.3 Förklaringsgrad och justerad förklaringsgrad

Förklaringsgrad R2 är ett mått som förklarar hur väl modellen passar data och därmed presenterar ett mått på användbarhet för hela modellen. Den kan även definieras som ett mått på modellens kvalitet. Förklaringsgradens vär- de är mellan noll och ett. När R2 = 0 innebär fullständig brist på modellens anpassning till data eller att det inte finns linjärt samband mellan respon- svariabeln och de förklarande variablerna. Och när R2 = 1 innebär det en perfekt modellens anpassning som passerar varje datapunkt. Vi definierar förklaringsgrad som

R2 = SSyy− SSE

SSyy = 1 − SSE

SSyy = Förklarande variationer

Totala variationer (4) Där

• SSyy =P(yi− ¯y)2

• SSE = P(yi− ˆyi)2

där ˆyi betecknar skattade värdet av yi och ¯y betecknar medelvärdet av y.

Förklaringsgraden bör användas med försiktighet, eftersom det alltid är möj- ligt att göra R2 stort genom att lägga till en eller flera variabler till modellen, vilket kan tolkas som en nackdel med R2.

Användning av en justerad förklaringsgrad(R2a) är ett försök att redogöra för R2 automatiskt ökar när extra förklarande variabler läggs till i model- len. R2a är en modifiering av R2 som justerar antalet förklarande termer i en modell(k) i förhållande till antalet datapunkter(n). Den justerade förkla- ringsgraden definieras även som,

R2a= 1 −

 (n − 1) n − (k + 1)

  SSE SSyy



(5)

= 1 −

 (n − 1) n − (k + 1)



(1 − R2) (6)

Där k är totalt antal förklarande variabler i modellen, n är antalet observa- tioner och R2a≤ R2.

(9)

2.4 Hypotestest och p-värden

Vi kommer inte bedöma modellens användbarhet enbart baserat på R2 och R2a, istället kommer vi utföra ett hypotestest som involverar alla βj para- metrar förutom β0. Det vill säga att parametrarna i modellen kommer un- dersökas om de är signifikanta skilda från noll eller inte. Det innebär även att hypotestest ska göras för att undersöka om åtminstone en av de förkla- rande variablerna har en påverkan på responsvariabeln. Hypotestestet kan uttryckas på ett följande sätt,

H0 : β1 = β2 = · · · = βn = 0 (7) Ha : βj 6= 0,för något j (8)

Där j = 1, ..., n, H0 är en nollhypotes och Ha är alternativhypotes. Testet som ska användas för att testa hypoteserna ovan är en F-statistika. Den kom- mer ge förklaring om modellen är signifikant eller insignifikant. Dessutom är modellen betydelsefull om någon av βj koefficienterna inte är noll och obe- tydlig om alla koefficienter är noll. Teststatistikan ges av

F =

 SSyy − SSE k



 SSE

n − (k + 1)

 =

R2 k



 1−R2 n−(k+1)

 (9)

Nollhypotesen förkastas på signifikansnivå α om F > Fα med n-(k + 1) frihetsgrader. I det här arbetet kommer vi använda signifikansnivå α = 0.05.

Ibland kan det vara givande att undersöka om en viss förklarande variabel har en inverkan på responsvariabeln eller inte. Undersökningen kommer därför utföras med hjälp av att sätta upp följande hypoteser:

H0 : βj = 0 (10)

Ha : βj 6= 0 (11)

Där j = 1, ..., n. T-test kommer att användas för att testa hypotesen ovan.

T-testet är definierat som följande;

t =

β¯j

sp((X0X)−1)jj (12)

(10)

Där (X0X)−1jj är diagonalelement i matrisen som beskrivs på ett följande sätt;

(X0X)−1 =

h00 h01 · · · h0k h10 h11 · · · h1k

... ... ... ...

hk0 hk1 · · · hkk

 och

s2 = 1 n − k − 1

n

X

i=1

(yi− ˆyi)2 (13) Om |t| > tα/2(n + k − 1) förkastas nollhypotesen på signifikansnivå α.

När vi utför ett statistisk test, hjälper p-värdet oss att bestämma innebör- den av vår resultat i förhållande till nollhypotesen. Faktum är att p-värdet kan användas som ett alternativ till kritiska värden för att ge den minsta ni- vå vid vilken nollhypotesen skulle avvisas. Det är beviset mot nollhypotesen.

Ett mindre p-värde betyder att det finns starkare bevis för den alternativa hypotesen. Ju mindre p-värdet är, desto starkare är beviset för att nollhy- potesen ska förkastas. I den här uppsatsen förkastar vi H0 om p-värdet är mindre än 0.05.

2.5 Multikollinearitet

Multikollinearitet existerar när en förklarande variabel är stark korrelerade med en eller flera av de andra förklarande variablerna i en multipel regres- sionsmodell. Multikollinearitet kan även uppstå när två eller förklarande va- riabler har linjära samband med responsvariabeln. I vanliga fall skapar mul- tikollinearitet problem i en multipel regressionsmodell eftersom förklarande variablerna påverkar varandra. På grund av detta är de förklarande variab- lerna faktiskt inte längre oberoende, vilket medför svårighet att testa hur mycket kombinationer av de oberoende variablerna påverkar den beronde va- riabeln i modellen. En multipel regressionsmodell med hög multikollinearitet kommer att göra det svårare att uppskatta sambandet mellan var och en av de oberoende variablerna och den beroende variabeln. För att garantera att modellen är korrekt specificerad och fungerar korrekt finns det meto- der som används för att undersöka multikollinearitet. Vi kommer analysera multikollinearitet mellan de förklarande variablerna genom undersökning av variansinflationsfaktorn. Användning av VIF hjälper till att identifiera svå- righetsgraden av eventuella multikollinearitetsproblem så att modellen kan justeras.

(11)

2.6 Variansinflationsfaktor - VIF

En VIF ger ett mått på multikollinearitet bland de oberoende variablerna i en multipel regressionsmodell. Variansinflationsfaktorn bedömer hur myc- ket variansen för en uppskattad regressionskoeffient ökar om de förklarande variablerna är korrelerade. VIF möjliggör dessutom ett mått på hur mycket en variabel bidrar till standardfelet i modellen. När ett betydande multikol- linearitetsproblem uppstår, kommer VIF att vara högre för de inblandade variablerna. Efter att vi har identifierat dessa variabler kan olika metoder används för att eliminera eller kombinera kollinära variabler, vilket i sin tur löser multikollinearitetsproblemet. VIF kan beräknas som följande

V IF = 1

1 − R2j, (14)

Där R2j är en förklaringsgrad som fastställer värden av variationen i xj som förklaras av de andra förklaringsvariablerna.

En hög VIF indikerar att den associerade oberoende variabeln är mycket kol- linär med de andra variablerna i modellen. Om VIF = 1, betyder det att det inte finns multikollinearitet bland variablerna. Men om VIF är mellan 5 och 10indikerar det en hög korrelation som medför multikollinearitet och om VIF går över 10 kan vi anta att regressionskoefficienterna är dåligt uppskattade pga multikollinearitet.

2.7 Akaikes informationskriterium - AIC

Akaikes informationskriterium, AIC, är ett statistisk test som används för att utvärdera hur väl en modell passar de data den är tänkt att beskriva. AIC används även för att jämföra den goda passformen mellan olika modeller som övervägs och för att sedan välja den modellen som bäst passar data.

Modellens AIC värde ges av

AIC = 2k − 2 ln(L) (15)

Där L är modellen maximum likelihood och k är antalet parametrar i model- len, inklusive interceptet. Den önskade resultatet är att hitta lägsta möjliga AIC, vilket indikerar bästa balans mellan modellpassning och modellstorlek.

En bra modell är den som har minimum AIC bland alla andra modeller.

Detta innebär att ju lägre AIC, desto bättre modell.

2.8 Residualanalys

Residualanalys används för att bedöma lämpligheten av linjär regressionsmo- dell genom att definiera residualer och undersöka residualplottar. En residu-

(12)

alplot är ett diagram där residualpunkter är på den vertikala axeln och den oberoende variabeln är på den horisontella axeln. Om punkterna är slump- mässigt spridda runt den horisontella axeln, innebär det att en linjär regres- sionsmodell är lämplig för data, annars väljer man en icke-linjär modell. Jämn spridning av residualerna kring 0 innebär att variansen är konstant.

Residualer är skillnaden mellan det observerade värdet för den beroende va- riabeln yi och det värde som förutses av den uppskattade regressionsekvatio- nen ˆyi. Att residualerna måste ha konstant varians och vara normalfördelade med väntevärde 0 är villkoren för linjär regression. Normaliteten av residua- lerna kan undersökas genom att plotta en normalfördelningsplot, Q-Q plot.

Residualerna kan antas vara normalfördelade om och endast om punkterna approximativt följer en rät linje. Om punkterna inte följer en rät linje, medför det att antaganden om residualer inte uppfylld och då kan variabertransfor- mationer utföras. Residualerna definieras som följande;

ˆ

ei = yi− ˆyi, (i = 1, 2, · · · , n) (16) Både summan och medelvärdet för residualerna är lika med noll, det vill säga P ˆei = 0 och ¯ei = 0. Summan av residualerna är alltid noll, oavsett om datamängden är linjär eller icke-linjär.

3 Beskrivning av data

Alla datamaterial som används i detta uppsats hämtades från ourworldinda- ta.org. Datamaterialen består av fyra variabler och omfattar 188 observatio- ner under perioden 1850 - 2016. En av variablerna representerar responsva- riabel och resten agerar som förklarande variabler.

3.1 Variabler

3.1.1 Responsvariabel

• Global temperatur - Vi ser att de senaste decennierna har de globala temperaturerna stigit kraftigt till cirka 0.7°C högre. När vi förlänger tillbaka till 1850 se vi även att temperaturerna då var ytterligare 0.4°C kallare än de var tidigare. Totalt sett uppgår detta till en genomsnittlig temperaturökning på 1.1°C.

3.1.2 Förklarande variabler

• Koldioxid(CO2) - Den stora tillväxten av globalt utsläpp av koldioxid har haft en betydande inverkan på koncentration av koldioxid i jordens

(13)

atmosfär. Atmosfärisk koldioxid mäts i ppm (parts per million).

• Metan(CH4) - Atmosfärisk metan mäts i ppb (parts per billion). Det visar sig att koncentrationen av metan ökade betydligt under 1900- talet och särskilt under andra halvåret. Faktiskt fördubblades atmosfärisk metan från cirka 900 till 1800ppb från 1900 till år 2000.

• Dikväveoxid(N2O) - Koncentrationer av dikväveoxid mäts i ppb som metan och den ökar på samma sätt som metan.

3.2 Variabeltransformation

Det är vanligt att data inte alltid kommer i en form som är omedelbart lämp- lig för analys. Vi måste ofta transformera variablerna innan vi utför analysen.

Transformationer utförs för att uppnå vissa mål som att säkerställa linearitet, att uppnå normalitet eller att stabilisera variansen. Det finns olika metoder att transformera modellen, men i vårt arbete kommer vi använda endast po- lynomregression som är ett speciellt fall av linjär regression där förhållandet mellan den förklarande variabeln och responsvariabeln modelleras med hjälp av ett polynom snarare än en linje. I vanliga fall används polynomregression när förhållandet mellan den förklarande variabeln och responsvariabeln inte är linjärt, även om detta fortfarande anses vara ett speciellt fall av multipel linjär regression.Modellen för polynomregression beskrivs som följande;

yi = β0+ βixi+ β2x2i + · · · + βkxki + , (i = 1, 2, · · · , p) (17) vilken kan definieras som följande i matris form och i vektorn för uppskattade polynomregressions koefficienter;

y = Xβ +  (18)

och

β = (Xˆ TX)−1XTy (19)

Där

y =

 y1 y2 ...

yp

, β =

 β0 β1 ...

βk

, X =

1 x1 x21 · · · xk1 1 x2 x22 · · · xk2 ... ... ... ... ...

1 xp x2p · · · xkp

,  =

1

2 ...

p

(14)

4 Analys av data

4.1 Korrelationsanalys

Korrelationsanalys är en statistisk metod som används för att utvärdera för- hållandet mellan två kvantitativa variabler. En hög korrelation innebär att två eller flera variabler har en stark relation med varandra medan en svag kor- relation innebär att variablerna knappast är linjärt relaterade. Anledningen till att studera korrelationen mellan temperaturen och de förklarande variab- lerna i det här arbetet, är att undersöka om variablerna beror på varandra.

Om korrelation hittas mellan två variabler betyder det att när det sker en systematisk förändring i en variabel, så sker det även en systematisk föränd- ring i den andra. Variablerna förändras tillsammans under en viss tidsperiod.

Om det finns korrelation beroende på de uppmätta numeriska värdena, kan detta vara antingen positivt eller negativt. Dessutom existerar positiv korre- lation om en variabel ökar samtidigt med den andra och negativ korrelation existerar om den ena variabeln minskar när den andra ökar.

Figur 1: Scatterplot som visar förhållandet mellan temperaturen och de för- klarande variablerna.

Utifrån figur 1 kan vi konstatera att temperaturen som är vår responsva- riabel är positivt korrelerad med både CO2 och N2O, det innebar även att

(15)

det finns ett linjärt samband mellan responsvariabeln och de två förklaran- de variablerna. Därmed ser vi att det inte finns ett linjärt samband mellan responsvariabeln och CH4, vilket kan konstateras som korrelerade men inte perfekt korrelerade. När vi tittar närmare på de förklarande variablerna, ser vi att CO2 och N2O är positivt korrelerade men ingen av CO2 och N2O har något linjärt samband med CH4.

Nu kommer vi att studera VIF-faktorn för att undersöka om det existerar multikollinearitet mellan de förklarande variablerna. Tabellen nedan visar resultaten för VIF-värdet.

Förklarande variabel VIF-Värde

CO2 920.3

N2O 1136.7

CH4 33.7

Tabell 1: VIF-Värde för förklarande variablerna

Tabellen ovan visar väldigt höga VIF-värden. Detta kan ge en indikation att våra regressionskoeffienterna är dåligt uppskattade pga multikollinearitet.

Eftersom variablerna N2O och CO2 har högre VIF-värde än CH4, indikerar det att multikollinearitet kan uppstå om de här två variablerna inkluderas i en modell. Problemet löses genom att skatta en ny modell som exkluderar N2O. Efter exkludering av N2O undersöker vi om VIF-värdena fortfarande är lika höga.

Förklarande variabel VIF-Värde

CO2 19.5

CH4 19.5

Tabell 2: VIF-värde för förklarande variablerna

Värdena är fortfarande högre än 10 med de är mycket bättre och det finns ingen större indikation för multikollinearitet.

4.2 Enkel linjär regression

Först och främst genomförs enkel linjär regression på varje förklarande varia- bel med variabeln temperatur som responsvariabel. Anledning till att genom- föra enkel linjär regression är att undersöka om de förklarande variablerna har signifikant inverkan på responsvariabeln. Med hjälp av R får vi följande resultat för varje enskild variabel i enkel linjär regression,

(16)

Variabel P-värde R2 R2a CO2 < 2.2.10−16 0.9351 0.9336 N2O < 2.2.10−16 0.9352 0.9337 CH4 < 2.2.10−16 0.8822 0.8795

Tabell 3: p-värde, R2 och R2aför varje enskild variabel i enkel linjär regression Utifrån tabell 1 kan vi konstatera att alla förklarande variabler han en signifikant inverkan på responsvariabeln temperatur, på nivån 0.05. Vi ser även att förklarande variabeln som förklarar temperaturen mest är dikvä- veoxid (N2O) som har R2 = 0.9352 och metan (CH4) är den förklarande variabeln som förklarar temperaturen minst med R2 = 0.8822.

4.3 Multipel linjär regression

Först ska vi skatta en multipel regressionsmodell som omfattar alla förkla- rande variabler inklusive intercept. Grundmodellen sätts upp som följande:

T emp = β0+ β1(CO2) + β2(N 2O) + β3(CH4) (20)

Modell R2 Ra2

Grundmodell 93.65% 93.21%

Tabell 4: R2 och R2a av grundmodellen för multipel regression

I tabell 2 ser vi att grundmodellen förklarar 93.65% av responsvariabelns varians. Dessutom kommer vi använda samma förutsättningar till övriga för- klaringsgrader i det här arbetet.

Från figur 1 i avsnitt 4.1 ser vi att responsvariabel temperatur är positivt korrelerad med två av de tre förklarande variablerna, CO2 och N2O. Vi ser även att koldioxid och dikväveoxid har stark korrelation med varandra. Det visar sig att skillnaden mellan R2 i CO2 och N2O är väldigt liten enligt tabell 1med enkel linjär regression. Det innebär att vi antingen kan välja CO2 eller N2O. Figur 2 och figur 3 i appendix som visar förhållandet mellan tempera- turen och de två ovan nämna förklarande variablerna ser likadan ut. Och det är anledningen att vi bestämmer att eliminera variabeln dikväveoxid och en- dast behåller variabeln koldioxid. Den eliminerade modellen 1 genomförs som följande:

T emp = β0+ β1(CO2) + β2(CH4) (21)

(17)

Modell R2 R2a Eliminerade modell 1 93.52% 93.25%

Tabell 5: R2 och R2a av eliminerad modell för multipel regression Nästa steg är att utreda om grundmodellen och den eliminerade modellen är lämpliga för regression, och det kommer vi göra genom att studera modeller- nas residualer. Vi vet från tidigare i avsnitt 2.6 att residualplot är användbart för att kontrollera antagandet om linearitet och homoscedasticitet.

I figur 5 och figur 7 i appendix ser vi att antagandet om linearitet är uppfyllt eftersom de röda linjerna genom spridningsdiagrammet är raka och horison- tella, inte böjda. För att bedöma om antagandet om homoscedasticitet är uppfyllt, måste vi se till att residualerna är lika spridda runt linjen y = 0 utan något särskilt mönster. När vi tittar närmare på våra figurer, ser vi att punkterna på plottarna verkar vara slumpmässigt utspridda runt noll el- ler jämnt fördelade, så förutsättningen att residualerna har konstant varians verkar rimlig. I figur 6 och figur 8 i appendix undersöker vi normalfördel- ningsploten och här ser vi att punkterna i de Q-Q plottarna är mer eller mindre på en rätt linje, vilket indikerar att residualerna är normalfördelade.

Nästa modell innehåller endast en förklarande variabel och den kallar vi för eliminerad modell 2.

T emp = β0+ β1(CO2) (22)

Modell parameterskattning R2 R2a Eliminerad modell 2 0.0086836 93.51% 93.36 Tabell 6: Parameterskattning, R2 och R2a av eliminerade modell 2 P-värdet < 2e − 16 och figur 2 i appendix indikerar att den eliminerade modellen 2 har en statistiskt signifikant inverkan på responsvariabeln. Uti- från tabell 4, ser vi att parameterskattningen är 0.0086836. Denna koefficient representerar den genomsnittliga temperaturökning i °C för ytterligare 1 ppm i CO2, vilket betyder att om CO2 ökar med 1ppm ökar genomsnittstempe- raturen med 0.0086836°C. Faktum är att en positiv koefficient indikerar att när värdet på den oberoende variabeln ökar, tenderar medelvärdet för den beroende variabeln också att öka.

(18)

4.4 Transformerade modeller

Trots att residualplotarna i grundmodellen och den eliminerade modellen inte visar några oroande trender, kommer vi ändå utföra variabeltransformation.

Vi beslutar att transformera den förklarande variabeln CH4 eftersom den inte har ett linjärt samband med responsvariabeln temperatur. Anledningen till polynomtransformationen är att hitta den bäst passande modellen till vår data. Följande modeller kommer undersökas:

Modell 1 är en kvadratisk modell. Här kommer vi undersöka om modellen som innehåller (CH4)2 ger en bättre statistiskt signifikant passform än mo- dellen utan (CH4)2.

T emp = β0+ β1(CO2) + β2(CH4) + β3(CH4)2 (23)

Variabel parameterskattning Standardfel P-värde CO2 0.0095579 0.0020976 4.26e − 05

CH4 0.0001026 0.0005134 0.842544

(CH4)2 −0.0000717 0.0002357 0.762470

Tabell 7: parameterskattning, standardfelet och p-värde för modell 1

Modell R2 R2a Residual standardfel Modell 1 93.53% 93.08% 9.905e − 05

Tabell 8: R2 och R2a och residualstandardfel av transformerad modell 1 Baserat på värden från tabell 5, ser vi att variabeln CO2 har signifikant påverkan på responsvariabeln, på 0.05 nivån. P-värdet för övriga variabler är över vår gräns på 0.05, vilket innebär att de variablerna inte har signifikant inverkan på responsvariabeln. Utifrån tabell 5 ser vi att R2 av modell 1 är 93.53%och residualstandardfelet är 9.905e−05, och vi minns från tabell 3 att R2för eliminerad modell 1 är 93.52% och residualstandardfelet är 9.802e−05, se appendix. Det ser ut som att R2 av modell 1 har ökat jämfört med de eliminerade modellens R2 och även resisidualstandardfelen har ökat .Vi vet från tidigare att högre värde på R2 indikerar att modellen är bättre och lägre värde på residualstandardfelet indikerar att förutsägelserna är bättre.

CO2 och CH4 har positiva parameterskattningar men (CH4)2 har en negativ parameterskattning. En negativ koefficient antyder att när den oberoende variabeln ökar tenderar den beroende variabeln att minska.

(19)

Modell 2:

T emp = β0+ β1(CO2) + β2(CH4) + β3(CH4)2+ β4(CH4)3 (24)

Variabel parameterskattning Standardfel P-värde

CO2 0.006062 0.004019 0.13893

CH4 0.006537 0.006332 0.30781

(CH4)2 −0.005250 0.005084 0.30774

(CH4)3 0.001393 0.001366 0.31380

Tabell 9: parameterskattning, standardfel och p-värde för modell 2

Modell R2 R2a Residual standardfel Modell 2 93.69% 93.09% 9.9e − 05

Tabell 10: R2, Ra2 och residualstandardfel av transformerade modell 2 Här ser vi att ingen av de förklarande variablerna i tabell 6 har en sig- nifikant inverkan på responsvariabeln eftersom alla p-värden är högre än vår gränsnivå på 0.05. Standardfelet är tillräckligt mycket lägre för att vi ska kunna konstatera att förutsägelserna i modellen är bättre. Trots att tabell 7 visar att R2 och Ra2 har ökat en aning och att residualstandardfelet har minskat vilket innebär att modellen har förbättras, kan vi ändå dra slutsat- sen att inkludering av (CH4)3 inte är nödvändigt i vår modell.

Modell 3: En polynommodell som exkluderar variabeln CO2.

T emp = β0+ β1(CH4) + β2(CH4)2 (25)

Variabel parameterskattning Standardfel P-värde CH4 −9.049e − 04 5.578e − 04 0.11191 (CH4)2 6.597e − 04 2.078e − 04 0.00273

Tabell 11: Parameterskattning, standardfel och p-värde av modell 3

Modell R2 R2a Residual standardfel Modell 3 90.41% 89.98% 0.0001192

Tabell 12: R2, Ra2 och residualstandardfel av transformerad modell 3

(20)

R2, R2aoch residual standardfel har minskat enligt tabell 9, det kan beror på bland annat exkludering av variabeln CO2. Det visar sig i tabell 8 att en- dast (CH4)2 har en signifikant påverkan på responsvariabeln, på nivån 0.05.

Modell 4:

T emp = β0+ β1(CH4) + β2(CH4)2+ β3(CH4)3 (26) Variabler parameterskattning Standardfel P-värde

CH4 0.0144848 0.0035634 0.000202

(CH4)2 −0.0116595 0.0028330 0.000171 (CH4)3 0.0031508 0.0007232 8.05e − 05 Tabell 13: Parameterskattning,standardfel och p-värde av modell 4

Modell R2 R2a Residual standardfel Modell 4 93.35% 92.88% 0.0001005

Tabell 14: R2, Ra2 och residualstandardfel av transformerad modell 4 Här ser vi att R2, R2ahar ökat och residual standardfel har minskat enligt tabell 11. Dessutom har alla förklarande variabler i tabell 10 en statistisk signifikant påverkan på responsvariabeln på nivån 0.05.

4.5 Modelljämförelse

Innan vi kan besluta om vilken modell som passar vår data bäst, kommer vi undersöka och jämföra modellernas R2a och AIC.

Modell R2a AIC

Eliminerade modell 2 93.36% −731.28 Modell 1 93.08% −727.47 Modell 3 89.98% −710.96 Modell 4 92.88% −726.14 Tabell 15: Jämförelse mellan R2a och AIC

Utifrån tabell 13 ser vi att R2a i den eliminerade modellen 2 har högre värde än för de andra modellerna medan R2a i modell 3 har lägre värde än övriga modeller. Den eliminerad modellen 2 har lägre AIC-värde än alla andra modeller. Enligt avsnitt 2.7, är bästa modellen den som har minimum AIC.

Det är avgörande för att den eliminerad modellen 2 passar vår data bäst.

(21)

5 Resultat

Efter jämförelse av fyra modeller har vi kommit fram till att den eliminerad modellen 2 är den lämpligaste modellen till vår data. Det vill säga att den är modellen som förklarar responsvariabeln bäst. Vår slutliga modell är;

T emp = β0+ β1CO2 +  (27)

Med följande parameterskattningar,

Parameterskattning Intercept −0.0028421

CO2 0.0086836

Tabell 16: Parameterskattning för slutlig modellen

5.1 Prediktion

Efter jämförelse av AIC för de fyra modellerna, har vi kommit fram till att eliminerad modell 2 är den bästa modellen till vår data. I vanliga fall är det vettigt att göra en djupare undersökning genom att jämföra prediktion mellan modellerna. Först och främst kommer vi att undersöka modellernas prediktionsförmåga, därefter analyserar vi prediktionsintervallen med kon- fidensgraden 95%. Baserat på värden från tabell 15 kommer vi undersöka endast de två modellerna med lägre AIC-värde, det vill säga eliminerad mo- dell 2 och modell 1. Vi predikterar de sista sex åren och får följande värden:

Året Verklig temp Eliminerad modell 2 Modell 1

2011 4e-04 0.00056 0.00056

2012 5e-04 0.00058 0.00058

2013 5e-04 0.00060 0.00061

2014 6e-04 0.00062 0.00063

2015 8e-04 0.00064 0.00065

2016 8e-04 0.00067 0.00068

Tabell 17: Verkliga värdet och prediktionsvärde för eliminerad modell 2 och modell 1

Här ser vi skillnad mellan de predikterade värdena och de verkliga vär- dena. Det visar sig att år 2011 - 2014 har predikterat värde som överstiger de verkliga värdena samt åren 2015 och 2016 har predikterade värden som understiger de verkliga värdena i både eliminerad modell 2 och modell 1. De

(22)

predikterade värdena i de två modellerna är nästan samma, skillnaden är relativt liten.

Året Eliminerad modell 2 Modell 1 2011 (0.00036, 0.00076) (0.00036, 0.00078) 2012 (0.00038, 0.00078) (0.00038, 0.00081) 2013 (0.00041, 0.00080) (0.00040, 0.00084) 2014 (0.00042, 0.00082) (0.00042, 0.00086) 2015 (0.00044, 0.00084) (0.00043, 0.00088) 2016 (0.00047, 0.00087) (0.00046, 0.00092)

Tabell 18: Prediktionsintervall för eliminerad modell 2 och modell 1 De två tabellerna ovan fick vi genom att först skatta modellerna för alla år förutom 2011 − 2016 sedan gjorde vi prediktion för endaste 2011 − 2016 genom att använda koldioxidvärdena och metanvärdena för dessa år.

Prediktionsintervallen förutsäger i vilket intervall en framtida individuell ob- servationer kommer att falla. Tabell 18 visar prediktionsintervall på elimi- nerad modell 2 och modell 1. Det visar sig att prediktionsintervallen för de sex åren är bredare. Vi kan konstatera att den predikterade globala tempe- raturen ligger inom dessa intervall. Det vill säga att med 95% sannolikhet kommer den framtida globala temperaturen finnas inom det beräknade pre- diktionsintervallet. Det resulterar i att temperaturen ökar. Med endast 5%

sannolikhet att den framtida globala temperaturen inte kommer att ligga inom intervallet, kan vi nöja oss med resultatet.

6 Diskussion

Syftet med det här arbetet har varit att undersöka vilka förklarande variabler som har påverkan på temperaturökningen. Enkel regression genomförs för att undersöka om det existerar ett signifikant samband mellan temperaturen och de förklarande variablerna. Enligt tabell 3, har variablerna CO2 och N2O ungefär lika förklaringsgrad, skillnaden är relativt liten. Det leda till multi- kollinearitet undersökning som utförs genom att analysera VIF-faktorn. Efter genomförande av multipel regression, variabeltransformation samt jämförel- se av AIC för 4 modeller, har vi konstaterat att eliminerad modell 2 är den lämpligaste modellen som förklarar temperaturen. Vilket innebär att elimi- nerad modellen 2 är vår slutmodell och den omfattar endast en förklarande variabel, CO2.

(23)

Slutmodellen förklarar 93.51% av variationen i temperaturen, (se tabell 5).

Eftersom förklaringsgarden är ganska hög, betyder det att vår slutmodell för- klarar stor variation för vår data, vilket i sin tur innebär att det inte finns många variabler som har påverkan på temperaturens ökning. Resultatet verka vara rimligt eftersom de globala koldioxidutsläppen har ökat snabbt under de senaste 20 åren. Trots att det finns andra växthusgaser, så är det ett faktum är att koldioxidutsläpp är det främsta skälet för globala klimatförändringar enligt vår slutmodell. Det visar sig att den stora ökningen av de globala ut- släppen av koldioxid har haft en omfattande inverkan på koncentrationen av CO2 i jordens atmosfär, vilket leda till temperaturens ökning.

Det är självklart att även människors liv och aktiviteter har påverkan på tem- peraturförändringar. Utsläpp av växthusgaser, framför allt CO2 från mänsk- lig verksamhet är den främsta skälen för den globala uppvärmingen. Det finns flera faktorer som slutligen avgör nivåerna av koldioxidutsläpp globalt och befolkning är en av dem. Man kan förvänta sig att fler människor skulle inne- bära högre utsläpp. Dessutom tenderar utsläppen att öka när befolkningen ökar eftersom människornas förbrukning av el, värme, transporter och andra varor som kräver energi ökar betydligt. Utsläppen av koldioxid från energi och materialproduktion bildas från kol, olja, gas, cementproduktion och gas- fackling. Allt detta omfattas i människornas aktiviteter som i sin tur påverkar temperaturförändringar.

Slutligen studeras slutmodellens predikterade temperatur och prediktionsin- tevall för att kunna prediktera den framtida globala temperaturförändringar.

Det är avgörande att alla vår verkliga värden ligger i intervallet enligt tabell 8. Vi kan konstatera att den globala temperaturen kommer att förtsätta öka om utsläppen av koldioxid inte minskar. Vi drar slutsatsen att för att undvi- ka de värsta konsekvenserna av klimatförändringarna måste världen snarast minska utsläppen.

Referenser

Larsson (2021). Multipel regression, kompendium, matematiska institutio- nen, uppsala universitet.

McClave, J. T. and Sincich, T. (2006). Statistics. Number QA 276.12. M33 2006.

Ritchie, H. and Roser, M. (2017). Greenhouse gas emissions. OurWorldin- data. org.

(24)

Weisberg, S. (2005). Applied linear regression, volume 528. John Wiley &

Sons.

(25)

Appendix

Call:

lm(formula = Temp ~ CO2 + N2O + CH4, data = bones) Residuals:

Min 1Q Median 3Q Max

-2.347e-04 -8.214e-05 1.293e-05 6.825e-05 1.664e-04 Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) -0.0066208 0.0039046 -1.696 0.0972 . CO2 -0.0007019 0.0104662 -0.067 0.9468

N2O 0.0239348 0.0252251 0.949 0.3480

CH4 -0.0001722 0.0002045 -0.842 0.4043 ---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 9.813e-05 on 43 degrees of freedom Multiple R-squared: 0.9365,Adjusted R-squared: 0.9321 F-statistic: 211.5 on 3 and 43 DF, p-value: < 2.2e-16

Call:

lm(formula = Temp ~ CO2 + CH4, data = bones) Residuals:

Min 1Q Median 3Q Max

-2.471e-04 -7.830e-05 1.649e-05 7.129e-05 1.556e-04 Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) -0.0029277 0.0003108 -9.420 4.08e-12 ***

CO2 0.0091234 0.0015201 6.002 3.35e-07 ***

CH4 -0.0000461 0.0001552 -0.297 0.768

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 9.802e-05 on 44 degrees of freedom

(26)

Multiple R-squared: 0.9352,Adjusted R-squared: 0.9323 F-statistic: 317.5 on 2 and 44 DF, p-value: < 2.2e-16

Call:

lm(formula = Temp ~ CO2, data = bones) Residuals:

Min 1Q Median 3Q Max

-2.447e-04 -7.624e-05 9.344e-06 6.400e-05 1.617e-04 Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) -0.0028421 0.0001155 -24.60 <2e-16 ***

CO2 0.0086836 0.0003411 25.46 <2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 9.702e-05 on 45 degrees of freedom Multiple R-squared: 0.9351,Adjusted R-squared: 0.9336 F-statistic: 648.1 on 1 and 45 DF, p-value: < 2.2e-16

Call:

lm(formula = Temp ~ CO2 + CH4 + I(CH4^2), data = bones) Residuals:

Min 1Q Median 3Q Max

-2.486e-04 -8.186e-05 1.511e-05 7.241e-05 1.542e-04 Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) -0.0031319 0.0007414 -4.225 0.000122 ***

CO2 0.0095579 0.0020976 4.557 4.26e-05 ***

CH4 0.0001026 0.0005134 0.200 0.842544 I(CH4^2) -0.0000717 0.0002357 -0.304 0.762470 ---

(27)

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 9.905e-05 on 43 degrees of freedom Multiple R-squared: 0.9353,Adjusted R-squared: 0.9308 F-statistic: 207.3 on 3 and 43 DF, p-value: < 2.2e-16

Call:

lm(formula = Temp ~ CO2 + CH4 + I(CH4^2) + I(CH4^3), data = bones) Residuals:

Min 1Q Median 3Q Max

-2.629e-04 -8.030e-05 4.803e-06 7.171e-05 1.512e-04 Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) -0.004704 0.001711 -2.749 0.00877 **

CO2 0.006062 0.004019 1.508 0.13893

CH4 0.006537 0.006332 1.032 0.30781

I(CH4^2) -0.005250 0.005084 -1.033 0.30774 I(CH4^3) 0.001393 0.001366 1.020 0.31380 ---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 9.9e-05 on 42 degrees of freedom Multiple R-squared: 0.9369,Adjusted R-squared: 0.9309 F-statistic: 155.9 on 4 and 42 DF, p-value: < 2.2e-16

Call:

lm(formula = Temp ~ CH4 + I(CH4^2), data = bones) Residuals:

(28)

Min 1Q Median 3Q Max -2.924e-04 -8.625e-05 1.142e-05 5.708e-05 2.532e-04 Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) -1.365e-05 3.432e-04 -0.040 0.96846 CH4 -9.049e-04 5.578e-04 -1.622 0.11191 I(CH4^2) 6.597e-04 2.078e-04 3.175 0.00273 **

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.0001192 on 44 degrees of freedom Multiple R-squared: 0.9041,Adjusted R-squared: 0.8998 F-statistic: 207.5 on 2 and 44 DF, p-value: < 2.2e-16

Call:

lm(formula = Temp ~ CH4 + I(CH4^2) + I(CH4^3), data = bones) Residuals:

Min 1Q Median 3Q Max

-2.755e-04 -6.956e-05 9.057e-06 7.538e-05 1.645e-04 Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) -0.0061506 0.0014380 -4.277 0.000103 ***

CH4 0.0144848 0.0035634 4.065 0.000201 ***

I(CH4^2) -0.0116595 0.0028330 -4.116 0.000171 ***

I(CH4^3) 0.0031508 0.0007232 4.357 8.05e-05 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.0001005 on 43 degrees of freedom Multiple R-squared: 0.9335,Adjusted R-squared: 0.9288 F-statistic: 201.2 on 3 and 43 DF, p-value: < 2.2e-16

(29)

Figur 2: Scatter plot som visar förhållande mellan temperatur och koldioxid

Figur 3: Scatter plot som visar förhållande mellan temperatur och dikväve- oxid

(30)

Figur 4: Scatter plot som visar förhållande mellan temperatur och metan

Figur 5: Residualplot

(31)

Figur 6: Normalfördelningsplot

Figur 7: Residualplot

(32)

Figur 8: Normalfördelningsplot

Figur 9: Residualplot för modell 1

(33)

Figur 10: Normalfördelningsplot för modell 1

Figur 11: Residualplot för modell 2

(34)

Figur 12: Normalfördelningsplot för model 2

References

Related documents

Styrelsen och verkställande direktören för addVise inredning skyddsventilation ab (publ) får härmed avge förvaltningsberättelse för år 2007.05.01 –

Till årsstämman i addVise inredning skyddsventilation ab (publ) org nr 556363-2115 Jag har granskat årsredovisningen, koncernredovisningen och bokföringen samt styrelsens och

Konsumtionsutvecklingen utav trävaror i Europa har alltsedan 2003 utvecklats på ett positivt sätt där konsumtionen, enligt uppgifter från ECE Timber Committee, under 2005 ökade med

Råvarumarknaden i koncernens region präglas fortfarande av sågverkens vattenlager från stormar- na Gudrun och Per. Detta tillsammans med de för närvarande höga massavedspriserna

Aktieägarnas inflytande i Bergs Timber utövas via årsstämman som är Bolagets högsta beslutande organ. På årsstämman behandlas bolagets utveckling och beslut tas i centrala

[r]

time Magazine ranked Dr. oz as one of the world’s most influential people in 2008 and in September 2009 he will have his own talk show on uS television, produced by oprah

RR 32 innebär att moderbolaget i årsredovisningen för den juridiska personen tillämpar samtliga av EU godkända IFRS enligt koncernens tillämpning av dessa principer och uttalanden