• No results found

4. Slutsats och diskussion

4.3 Diskussion kring resultat

De slutsatser vi har dragit från resultaten kan vara påverkade av det inkompletta datamaterialet. Som det nämndes tidigare i rapporten, var svarsfrekvensen endast 33 procent i Statistiska centralbyråns urval och ungefär 54 procent av dessa gjordes det mätningar på. På grund av detta och att övriga hushåll i datamaterialet inte valdes slumpmässigt, är tyvärr datamaterialet inte proportionerligt till Sveriges hushållsfördelning. Det var tänkt att en bortfallsanalys skulle ha gjorts på de hushåll som inte ville delta i mätningarna,

men på grund av brist på datainformation kunde detta tyvärr inte göras möjligt. Hur mycket de svarande hushållen skiljer sig från de icke svarande hushållen förblir obesvarat.

Ungefär 21 procent av hushållen ville inte lämna ut vissa eller rentav någon information om deras bakgrund. Vid vidare undersökning har en del av dessa hushåll felaktig information om elförbrukningen och antalet apparater. En av orsakerna till detta är att det inte har varit möjligt att mäta på varje hushålls apparater. Andra orsaker kan vara att de inte ville lämna ut information om antalet apparater eller har missat att fylla i det. Anledningarna kan vara många. Slutligen bör resultaten från Norra och Södra Sveriges elförbrukning betraktas med försiktighet, på grund av att de geografiska lägena består av endast tio hushåll vardera. Exempelvis förbrukar två av hushållen i Norra Sverige mycket el för kalla apparater och drar därmed upp medelvärdet en hel del, och kan vara orsaken till den signifikanta skillnaden mellan Norra Sveriges och Södra Sveriges elförbrukning för kalla apparater.

Källförteckning

Litteratur

Bowerman, Bruce L., O’Conell, Richard T., och Koehler, Anne B., Forecasting, time series, and regression, 4. uppl., Brooks/Cole, 2005.

DeGroot, Morris H. och Schervish, Mark J., Probability and Statistics, 4. uppl., Pearson, 2011.

Energimyndigheten, Energimyndigheten : En hållbar energiförsörjning och en smart energianvändning, broschyr, Energimyndigheten, 2010

Johansson, Anna-Lena, Förbrukning av hushållsel – en studie av samband med olika förklaringsvariabler, Linköpings universitet, 2007

Kutner, Michael H., Nachtsheim, Christopher J., Neter, John och Li, William, Applied Linear Statistical Models, 5. uppl., McGraw Hill Higher Education, 2005.

Yen, Do Thi Kim, Data Modelling of Electricity Data in Sweden, Högskolan i Skövde, 2011

Zimmermann, Jean-Paul, End-use metering campaign in 400 households in Sweden, Energimyndigheten, 2009

Internet

Energimyndigheten, Förbättrad energistatistik i bebyggelsen, 2011-05-16, hämtad 2012-02-07 från

http://www.energimyndigheten.se/sv/Statistik/Forbattrad-energistatistik-i- bebyggelsen/

Energimyndigheten, Mätning av hushållsel på apparatnivå, 2011-07-28, hämtad 2012-02-07 från

http://www.energimyndigheten.se/sv/Statistik/Forbattrad-energistatistik-i- bebyggelsen/Matning-av-hushallsel-pa-apparatniva-/

Hastie, Travor och Tibshirani, Robert, Generalized additive models, Statistical Science, nr. 3, 1986, 297-318, hämtad våren 2012

http://www.stanford.edu/~hastie/Papers/gam.pdf

Miguel Lacerda, Cally Ardington och Murray Leibbrandt, Sequential Regression Multiple Imputation for Incomplete Multivariate Data using Markov Chain Monte Carlo, Southern Africa Labour and Development Research Unit, 2008, hämtad våren 2012

ResearchConsulation.com, Identifying Multicollinearity in Multiple Regression Statistics Help for Dissertation Students & Researchers, 2007, hämtad våren 2012 från

http://www.researchconsultation.com/multicollinearity-regression-spss- collinearity-diagnostics-vif.asp

SAS, Chapter 4 The GAM Procedure, hämtad våren 2012 från http://support.sas.com/rnd/app/papers/gam.pdf

SAS, The MI procedure, hämtad 1 maj 2012 från

http://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/vi ewer.htm#mi_toc.htm

Övrigt

Bilaga 1

R koden på kategorisering av hushållens familjetyp efter ålder.

# Skapar variabeln children som innehåller kolumnerna från data2 med varje # persons ålder.

children <- (data2[,c(6:11)])

# Barnen i varje hushåll delas in i kategorier. Den första loopen definierar att vi # ska loopa över de 6 kolumnerna i category medan den andra loopen # definierar att vi ska loopa över de 389 raderna. Först filtreras NA värdena # bort. Sedan kategoriseras barnen i tre olika grupper och får ett heltal (1000, # 2000 eller 3000) för att inte blanda ihop heltal med textsträngar i children. for(i in 1:6) {

for(n in 1:389) {

if(is.na(children[n,i])) { } else if(children[n,i] <= 5) { children[n,i] <- 1000 }

else if (children[n,i] >= 6 & children[n,i] <= 12) { children[n,i] <- 2000 }

else if (children[n,i] >= 13 & children[n,i] <= 17) { children[n,i] <- 3000 }

else { } }

}

# Skapar tomma vektorn category som ska innehålla kategoriseringen av ålder. category <- matrix(,389,1)

# Skapar en loop som går igenom alla raderna i children genom att skapa # variabeln temp som tilldelas värdena på den n:te raden i children. Loopen # lägger in varje hushålls kategori i variabeln category genom if else satser. För # att if else satserna ska fungera korrekt, får NA värdena värdet 9999, pga att # de annars räknas in i length argumenten.

for(n in 1:389) { temp <- children[n,]

temp[is.na(temp)] <- 9999

if ( (length(temp[temp==1000]) == 0) & (length(temp[temp==2000]) == 0) & (length(temp[temp==3000]) == 0) ) {

if (length(temp[temp >= 65 & temp <= 100]) > 0) { if (mean(temp[temp > 0 & temp < 100]) >= 65) { category[n] <- "pensionär" }

else {

category[n] <- "vuxen" } }

else if (length(temp[(temp < 65 & temp >= 20)]) > 0) { category[n] <- "vuxen" }

else {

category[n] <- "annat" } }

else if ( (length(temp[temp==1000]) <= length(temp[temp==3000])) & (length(temp[temp==2000]) <= length(temp[temp==3000])) ) { category[n] <- "tonåringsfamilj" }

else if ( (length(temp[temp==1000]) <= length(temp[temp==2000])) & (length(temp[temp==3000]) < length(temp[temp==2000]))) { category[n] <- "mellanbarnsfamilj" }

else {

category[n] <- "småbarnsfamilj" } }

Bilaga 2

Hitta mönster på de saknade värdena I SAS med koden: *Ods används för att skapa tabeller i proc mi;

ods trace on;

proc mi data=Cuppsats.data1 out=result;

var Belysning Inkomst Antal_Rum Antal_Personer Region Area; *Skapar tabell som visar mönstret på de saknade värdena; ods select misspattern;

*Sparar tabell i Cuppsats.missPatt;

ods output MissPattern=Cuppsats.missPatt; run;

Resultat:

The MI Procedure

Missing Data Patterns

Antal_ Antal_

Gr Belysning Inkomst Rum Personer Area Landsdel Freq Percent

1 X X X X X X 301 77.38 2 X X X X . X 3 0.77 3 X X X . X X 4 1.03 4 X X X . . X 1 0.26 5 X X . X X X 32 8.23 6 X X . . X X 1 0.26 7 X X . . . X 4 1.03 8 X . X X X X 8 2.06 9 X . X . X X 1 0.26 10 X . X . . X 2 0.51 11 X . . X X X 1 0.26 12 X . . . X X 20 5.14 13 X . . . . X 9 2.31 14 . X X X X X 1 0.26 15 . X . X X X 1 0.26 ---Group Means---

Antal_

Gr Belysning Inkomst Antal_Rum Personer Area Landsdel

1 833.958140 4.840532 4.308970 2.813953 108.516279 2.016611 2 698.833333 5.333333 3.333333 3.666667 . 1.666667 3 319.025000 3.250000 2.250000 . 62.250000 2.000000 4 207.900000 5.000000 8.000000 . . 2.000000 5 779.240625 4.687500 . 2.312500 88.359375 1.906250 6 262.400000 2.000000 . . 98.000000 2.000000 7 1204.075000 5.000000 . . . 2.000000 8 657.750000 . 3.625000 2.750000 99.625000 2.000000 9 806.900000 . 3.000000 . 85.000000 2.000000 10 1364.450000 . 3.500000 . . 2.000000 11 316.500000 . . 2.000000 85.000000 2.000000 12 633.450000 . . . 81.250000 1.950000 13 475.700000 . . . . 2.000000 14 . 6.000000 7.000000 4.000000 182.000000 2.000000 15 . 5.000000 . 4.000000 98.000000 2.000000

Bilaga 3

Kod för imputering I programmet R.

Data2 <- read.csv("data2red.csv", sep=";")

Data2 <- as.matrix(Data2test) # för att kunna använda data sen install.packages("mix") # innehåller MCMC imputering library(mix)

# Prelim.mix utför gruppering och sortering på vår datamängd med saknade # värden. Anger att matrisen Data2 innehåller två kategoriska variabler # (Inkomst och Familjetyp. Eftersom Inkomst är intervallskala får den här # klassas som kategorisk för att den ska anta rätt värden).

s <- prelim.mix(Data2, 2) # preliminära manipulationer margins <- 0

# diag(..) används för att specificera relationen mellan de kontinuerliga # variablerna och de kategoriska variablerna (här Inkomst och Familjetyp). # Eftersom Inkomst och Familjetyp innehåller 6 respektive 5 kategorier så ska # design vara en 30x30 matris.

design <- diag(rep(1,30))

thetahat <- ecm.mix(s, margins, design, maxits=1000) # hitta ML skattningar rngseed(123356) # seed för imputeringen # dabipf.mix genererar parametrarnas aposterioridragningar med MCMC # metoden.

newtheta <- dabipf.mix(s=s, margins=margins, design=design, start=thetahat) imputering <- imp.mix(s, newtheta, Data2test) #skapar multipla imputationer # Eftersom variablerna Antal rum och Antal personer fick enstaka negativa tal, # fick dessa värdet 1 (kolumn 5 och 6 i variabeln imputering). Resterande # imputerade värden på de variablerna och variabeln Area (kolumn 4 i # variabeln imputering) avrundades till närmaste heltal.

test <- imputering[,c(5,6)] test[test<1] <- 1

imputering[,c(5,6)] <- test

imputering[,c(4,5,6)] <- round(imputering[,c(4,5,6)],0)

Diagram på originaldata och imputerad data för varje bakgrundsvariabel (undantag Region, som inte behövde imputeras).

0% 5% 10% 15% 20% 25% 30% <75 75 - 99 100 - 125 >125 Andel Area i kvadratmeter

Area för originaldata och imputerad data

original imputerad 0% 5% 10% 15% 20% 25% 1 2 3 4 5 6 7 8 9 Andel Antal rum/hushåll

Antal rum för originaldata och imputerad data

original imputerad

0% 5% 10% 15% 20% 25% 30% 35% 40% 1 2 3 4 5 6 Andel Antal personer/hushåll

Antal personer för originaldata och imputerad data

original imputerad 0% 5% 10% 15% 20% 25% 30% 35% 40% 45% 50% Andel Inkomst i SEK/hushåll

Inkomst för originaldata och imputerad data

original imputerad 0% 5% 10% 15% 20% 25% 30% 35% 40% 45% Andel Familjetyper

Familjetyper för originaldata och imputerad data

original imputerad

Bilaga 5

Korrelationsmatriser på variabeln Belysning och

bakgrundsvariablerna för både originaldata och imputerad data.

Korrelationsmatris på Belysning och bakgrundsvariablerna, originaldata Belysning Inkomst Antal rum Area Antal

personer Inkomst 0,300 Antal rum 0,337 0,482 Area 0,384 0,455 0,791 Antal personer 0,414 0,494 0,449 0,418 Familjetyp 1 0,139 0,155 -0,026 0,019 0,341 Familjetyp 2 0,095 0,079 0,106 0,122 0,305 Familjetyp 3 0,203 0,154 0,266 0,203 0,434 Familjetyp 4 -0,148 -0,278 -0,087 -0,069 -0,339 Norrland -0,034 -0,030 -0,040 -0,078 -0,043 Götaland -0,046 0,023 -0,024 0,114 0,003

Familjetyp 1 Familjetyp 2 Familjetyp 3 Familjetyp 4 Norrland Familjetyp 2 -0,154

Familjetyp 3 -0,171 -0,165

Familjetyp 4 -0,160 -0,154 -0,171

Norrland 0,040 -0,009 -0,070 0,040

Götaland -0,019 -0,015 -0,026 0,081 -0,026

Belysning Inkomst Antal rum Area Antal personer Inkomst 0,317 Antal rum 0,375 0,514 Area 0,393 0,450 0,780 Antal personer 0,391 0,408 0,438 0,402 Familjetyp 1 0,117 0,117 -0,046 0,016 0,340 Familjetyp 2 0,066 0,013 0,090 0,080 0,309 Familjetyp 3 0,214 0,130 0,272 0,201 0,419 Familjetyp 4 -0,147 -0,178 -0,031 -0,066 -0,331 Norrland -0,034 -0,019 -0,075 -0,065 -0,049 Götaland -0,047 0,037 -0,012 0,110 0,002

Familjetyp 1 Familjetyp 2 Familjetyp 3 Familjetyp 4 Norrland Familjetyp 2 -0,163

Familjetyp 3 -0,175 -0,170

Familjetyp 4 -0,170 -0,165 -0,177

Norrland 0,026 -0,017 -0,069 0,025

Bilaga 6

Utskrift från Minitab då multipel linjär regression gjordes på imputerad data med belysning som responsvariabel och bakgrundsvariablerna som förklarande variabler.

The regression equation is

Belysning = - 91,1 + 4,25 Area + 164 Antal personer

Predictor Coef SE Coef T P VIF Constant -91,06 93,33 -0,98 0,330 Area 4,2515 0,8356 5,09 0,000 1,190 Antal personer 163,65 26,09 6,27 0,000 1,190 S = 588,007 R-Sq = 21,9% R-Sq(adj) = 21,4% Analysis of Variance Source DF SS MS F P Regression 2 37321708 18660854 53,97 0,000 Residual Error 386 133460204 345752 Total 388 170781913 6000 4000 2000 0 -2000 99,9 99 90 50 10 1 0,1 Residual P er ce nt 2000 1500 1000 500 0 6000 4000 2000 0 -2000 Fitted Value R es id ua l 4800 3600 2400 1200 0 -1200 160 120 80 40 0 Residual Fr eq ue nc y 350 300 250 200 150 100 50 1 6000 4000 2000 0 -2000 Observation Order R es id ua l

Normal Probability Plot Versus Fits

Histogram Versus Order

Residual Plots for Belysning

SAS koden på generaliserad additiv modell där responsvariabeln är Belysning och förklarande variablerna är bakgrundsvariablerna:

/* De två kategoriska variablerna Landsdel och Familjetyp anges som klassvariabler och som parametriska variabler. Resterande förklarande

variabler anges som "smoothing" parametrar där gcv metoden väljer värdet på "smoothing" parametern. Normalfördelningen väljs till denna modell. */

proc gam data=Cuppsats.Imputerad_data; class Landsdel Familjetyp;

model Belysning = param(Landsdel) param(Familjetyp) spline(Area)

spline(Antal_Rum) spline(Antal_Personer)

spline(Inkomst) / dist = Gaussian method = GCV; run;

Resultat:

The GAM Procedure Dependent Variable: Belysning

Regression Model Component(s): Landsdel Familjetyp Smoothing Model Component(s): spline(Area) spline(Antal_rum)

spline(Antal_personer) spline(Inkomst) Summary of Input Data Set

Number of Observations 389 Number of Missing Observations 0 Distribution Gaussian Link Function Identity

Class Level Information Class Levels Values

Landsdel 3 1, 2, 3 Familjetyp 5 1, 2, 3, 4, 5

Iteration Summary and Fit Statistics

Final Number of Backfitting Iterations 8 Final Backfitting Criterion 6.954979E-10 The Deviance of the Final Estimate 127640627.78

The backfitting algorithm converged.

Regression Model Analysis Parameter Estimates

Parameter Standard

Parameter Estimate Error t Value Pr > |t| Intercept -327.44259 229.84427 -1.42 0.1551 Landsdel 1 209.14239 265.82720 0.79 0.4319 Landsdel 2 200.61118 191.85140 1.05 0.2964 Landsdel 3 0 . . . Familjetyp 1 112.14234 113.11433 0.99 0.3221 Familjetyp 2 -37.47521 112.70036 -0.33 0.7397 Familjetyp 3 107.91106 113.04817 0.95 0.3404 Familjetyp 4 -14.30043 93.87671 -0.15 0.8790 Familjetyp 5 0 . . . Linear(Area) 4.46504 1.20843 3.69 0.0003 Linear(Antal_rum) -6.39933 33.67179 -0.19 0.8494 Linear(Antal_personer) 119.89537 42.67488 2.81 0.0052 Linear(Inkomst) 29.59311 26.32535 1.12 0.2617

Smoothing Model Analysis

Fit Summary for Smoothing Components

Num Smoothing Unique Component Parameter DF GCV Obs

Spline(Area) 0.999979 1.912272 165500 131

Spline(Antal_rum) 1.000000 0.000000235 18430 9

Spline(Antal_personer) 1.000000 8.5905091E-8 23702 6

Spline(Inkomst) 0.486355 1.887531 14352 6

Smoothing Model Analysis Analysis of Deviance Sum of Source DF Squares Chi-Square Pr > ChiSq Spline(Area) 1.91227 2107570 6.1787 0.0417 Spline(Antal_rum) 2.348942E-7 6.978783 0.0000 .

Spline(Antal_personer) 8.590509E-8 6.976411 0.0000 . Spline(Inkomst) 1.88753 758706 2.2243 0.3060

Bilaga 8

Resultat på regressionsmodeller från bakåt eliminering på hustyp, area, norra, södra och alla interaktionsvariablar för varje kombination av de 4 nämnda förklaringsvariablerna, för varje apparatgrupp. De understrukna värdena är de förklaringsvariabler som skiljer sig från modell 1.

Linjär regression på förbrukning för varje apparatgrupp mot hustyp och area Modell 2 Y β0 Area (A) Hustyp (H) Norra (N) Södra (S)

H*A H*N H*S A*N A*S R2 P-värde

AV 209,7 1,1 85,5 -153 282,3 - - - 2,2 -2,3 9,3 % < 0,001 Kall apparat 435,6 2,0 496,9 32,4 184,0 -3,2 934,4 119,9 - - 14,9 % < 0,001 Dator 63,26 2,8 - 414,6 594,0 - - - -4,4 -4,5 4,7 % 0,002 Matlagning 123,1 2,4 308,6 - - -2,6 - - - - 7,7 % < 0,001 Diskmaskin -63,5 2,1 217,7 56,7 80,6 -1,7 126,3 247,5 -0,9 -1,5 15,6 % < 0,001 Spelkonsol -12,0 0,2 11,7 6,3 22,0 -0,2 10,1 101,7 -0,2 -0,4 7,5 % < 0,001 Tvätt -49,1 1,8 148,8 -16,0 218,8 - - - 0,1 -2,4 18,1 % < 0,001 Belysning 137,7 5,4 191,6 397,2 592,3 - - - -4,6 -6,9 17,1 % < 0,001 Ventilation 43,8 - 168,1 - - - 2,1 % 0,004 Övrigt 47,0 - 126,3 - - - 3,0 % 0,001

Rapporttyp Report category Licentiatavhandling Examensarbete C-uppsats D-uppsats Övrig rapport _ ________________ Språk Language Svenska/Swedish Engelska/English _ ________________

Titel Elförbrukningen i svenska hushåll - En analys inom projektet ”Förbättrad energistatistik i bebyggelsen” för

Energimyndigheten

Title Electricity consumption in Swedish households – An analysis in the project “Improved energy statistics for settlements” for the Swedish Energy Agency

Författare Josefine Nilsson & Jing Xie

Author

Sammanfattning

Abstract

The Swedish Energy Agency conducted a project which is called “Improved energy statistics for settlements”. This report focuses on one field of the project: “households’ electricity use on device level”.

Various regression models are used in the analysis to analyze the relationship between electricity usage and different explanatory variables, for instance: background variables for the household, type of household, geographical setting, usage of different electrical devices and quantity of electrical devices used.

The data material consists of 389 households which are spread around the region of Märlardalen except for a few households from the communities of Kiruna and Malmö.

The conclusion we can draw from this thesis shows that the background variables for a household, its type, its geographical setting and the amount and type of devices it contains all have a contribution to the electricity usage in the household.

ISBN

_____________________________________________________ ISRN LIU-IDA/STAT-G--12/006--SE

_________________________________________________________________

Serietitel och serienummer ISSN

Title of series, numbering ____________________________________

Nyckelord Elförbrukning, belysning, hushåll, linjär regression, dummyvariabel, imputering, Markov Chain Monte Carlo, Generaliserad

Additiv Modell

Keyword Electricity consumption, light, household, linear regression, dummy variable, imputation, Markov Chain Monte Carlo, Datum

Date 2012-06

URL för elektronisk version

Avdelning, Institution

Division, Department

Related documents