• No results found

Prediktion av elproduktion: Modellering av icke reglerbara vattenkraftverk

N/A
N/A
Protected

Academic year: 2022

Share "Prediktion av elproduktion: Modellering av icke reglerbara vattenkraftverk"

Copied!
39
0
0

Loading.... (view fulltext now)

Full text

(1)

Student Vt 2012

Examensarbete, 15 hp Statistik C, 30 hp

Handledare: Johan Svensson

Prediktion av elproduktion.

Modellering av icke reglerbara vattenkraftverk.

Anton Edström Viktor Sjödin

(2)
(3)

Sammanfattning

Denna uppsats skrivs på uppdrag åt elhandelsföretaget Bixia. Uppsatsen handlar om

prognostisering av icke reglerbara vattenkraftverk. Det som prognostiseras är elproduktionen på timbasis för olika vattenkraftverk.

Uppdraget är att undersöka om det går att finna en generell modell/metod som kan appliceras på olika vattenkraftverk, samt att göra en specifik modell för varje kraftverk vi har data på.

Det insamlade datamaterialet består av elproduktion, nederbörd, temperatur, vindhastighet och global solinstrålning från nio kraftverk. Då det finns seriell autokorrelation i

elproduktionen så tillför vi en SARIMA del till regressionsmodellen.

De resulterande modellerna för de olika verken ger skilda förklaringsgrader. Det beror på att data från de mest närliggande observationerna på elproduktionen inte går att tillgå då vid prognostillfället och de närmaste observationerna av elproduktionen förklarar mer eller mindre mycket, beroende på vilket verk vi modellerar. Denna modell ger en bra justerad förklaringsgrad för en del verk men måste kompletteras alternativt ändras för andra verk.

Abstract

This paper was written on assignment for the electricity company Bixia. The paper is about electric power forecasting in hydropower plants. The prediction is electricity production in different hydropower plants.

The assignment is to find a general model / method that can be applied to the various hydropower plants. The collected data material consists of electricity production data from nine hydropower plants, additional data are wind, rain, temperature and global solar

insolation. We use a regression model with a SARIMA part because of the autocorrelation.

The result was that the method gave us models that have quite different predictive power. It may be that data from the closest observations of water production is not available when the prediction is made, and these data contains more or less information depending on which plant we are modeling. The method works but may need to be changed or developed for some hydropower plants.

(4)

Populär sammanfattning

Att Sverige har så mycket förnyelsebara energikällor beror till stor del på att vi har

vattenkraft. Den har gett oss ett stort försprång när vi nu ska ta oss an klimatpåverkningarnas framfart. Därför är det viktigt att vi kan lita på vattenkraften och att den ger elektricitet när det behövs.

Detta arbete skrivs åt elhandelsföretaget Bixia som säljer elektricitet till sina kunder. För Bixia är det viktigt att veta hur mycket elektricitet deras vattenkraft ger från dag till dag.

Uppgiften är att skapa en generell metod som kan förutse elproduktionen på timbasis.

Resultatet blev att modellerna vi får av metoden förklarar olika mycket av elproduktionen för de olika kraftverken. Modellerna är bra men metoden kan utvecklas så att modellerna förutser elproduktionen bättre.

Tillkännagivanden

Tack till Alain Angeralides, Johan Svensson och alla andra som gett kommentarer och råd om vårt arbete.

(5)

Innehåll

1 Inledning ... 1

1.1 Bakgrund ... 1

1.2 Syfte och problemformulering ... 3

1.3 Avgränsningar ... 3

1.4 Disposition... 3

2. Teori ... 4

2.1 Oberoende ... 4

2.2 Stationäritet ... 4

2.3 SARIMA ... 5

2.4 Box-Jenkins metod ... 6

2.5 Cross correlation ... 7

2.6 VIF ... 7

2.7 AIC ... 8

2.8 Prediktion och relativt fel ... 8

3. Metod ... 9

3.1 Datamaterialet ... 9

3.2 Metod ... 10

4. Modeller och Resultat ... 11

4.1 Modeller för elproduktion vid kraftverk Å ... 11

4.2 Sammanfattning arbetsgång och resultat för de nio kraftverken ... 14

4.3 Prognoser för elproduktion och relativt fel vid kraftverk Å ... 15

5 Diskussion och slutsatser ... 17

(6)

1

1 Inledning 1.1 Bakgrund

I det moderna samhälle vi lever i drivs allt fler saker av el och vardagslivets kvalitet är beroende av ett fungerande elnät. Vi ser en fungerande och pålitlig elförsörjning som en självklarhet.

Indirekt är det solens energi som driver vattenkraften, genom vattnets kretslopp där vattnet avdunstar av solvärmen och sedan kondenserar i snö och regn.1 Det bildas forsar, älvar och åar som driver vattenkraftverken. Vattenkraftverken omvandlar vattenströmmar till el då forsande vatten gör att verkets turbiner börjar snurra. Turbinen driver en generator som tar vara på energin i vattnet och omvandlar den till el, hur mycket energi som genereras beror av vattnets massa och fallhöjd. Vatten kan regleras av dammar och sparas i vattenmagasin. Det är på våren som det mesta vattnet rinner till men det är på vinterhalvåret som efterfrågan på el är som störst, därför fyller dammarna en mycket viktig funktion då de gör att man kan

hushålla med vattnet och använda det då efterfrågan på el är som störst. Då älvar är reglerade kan man bestämma och planera hur mycket vatten man ska släppa på och därav hur mycket el som ska produceras. Dock så regleras inte alla vattenkraftverk och det är just de icke

reglerbara vattenkraftverken som vårt arbete kommer att handla om.

Vattenkraftverken producerar ca 45 procent av den el som svenskarna använder.2 Vattenkraft är fortfarande Sveriges viktigaste förnybara energikälla, då vattenkraften inte förbrukar några ändliga naturresurser. Vattenkraften bidrar relativt lite till växthuseffekten och den påverkar nästan bara miljön när kraftverk och dammar byggs. Fastän vattenkraften har funnits länge så försöker man hela tiden förbättra den och det forskas bl.a. om lönsamheten i att reglera

vattendrag, man försöker även hitta lösningar på ekosystemets påverkan vid uppbyggnaden av vattenkraftverk. I Sverige finns det ca 1800 vattenkraftverk och sammantaget producerar de 65 TWh el under ett normalår. Norrland står för 80 % av den svenska vattenkraftens

elproduktion. Vattenkraft är driftsäkert och lätt reglerat efter marknaden då tekniken är väl prövad och utvecklad.

1 Svenskenergi. http://www.svenskenergi.se/sv/Om-el/Vattenkraft/, nedladdad dem 2012-05-23

2 Ibid

(7)

2 Vattenkraftverkens elproduktion varierar mycket mellan åren i Sverige och den varierar även dagligen.3 Vattenkraftens elproduktion beror av hur mycket nederbörd det är och varierar därför beroende på om vi har ett torr-, normal- eller våtår (30 TWh mellan högsta och lägsta notering). Elproduktionen i vattenkraftverken har ett stort inflytande på prisnivån för

elektricitet. Vattenrika år leder till mycket elproduktion och lägre elpriser. År då det inte är lika mycket nederbörd innebär att man vill spara el till vintern vilket innebär högre elpriser.

Vattenkraftens elproduktion avgör också hur mycket av den alternativa elproduktionen som behövs för att motsvara elkonsumtionen. Vattenkraften är en billig, miljövänlig och väl prövad energikälla som ofta föredras framför andra energikällor. Att kunna förutse vattenkraftens elproduktion är av stor vikt för elhandelsbolag då det ger dem en fördel på elmarknaden och underlättar balansansvaret.4

Figur.1 Ett diagram över hur mycket el vattenkraften i Sverige producerat per år mellan 1950 till 2005. Nollnivån motsvarar elproduktionens medelvärde som är 65 TWh/år.

3 Svenskenergi. http://www.svenskenergi.se/sv/Om-el/Vattenkraft/, nedladdad dem 2012-05-23

4 Svenska Kraftnät. http://www.svk.se/Energimarknaden/El/, nedladdad dem 2012-05-23

(8)

3

1.2 Syfte och problemformulering

Syftet med detta arbete är att skapa modeller för icke reglerade vattenkraftverk, vilket kommer att medföra mindre fel när elhandelsföretag köper och säljer el. En ineffektiv elmarknad leder till att elhandelsföretagen m.fl. förlorar pengar samt att miljön påverkas negativt. Prognoser hjälper även elhandelsföretagen att upprätthålla balansansvaret. Uppgiften är att hitta en generell modell som går att använda på ett visst antal vattenkraftverk som inte är reglerade. Modellen ska användas till att prognostisera elproduktion per timme, prognoser kommer att hjälpa elhandelsföretag att förutse hur mycket el som kommer att produceras.

Modellen ska i första hand användas till att göra prognoser på timbasis för nästkommande dag.

Går det att skatta specifika modeller för de nio kraftverken det finns data för och än viktigare går det att hitta en generell modell/metod som kan appliceras på nya kraftverk?

1.3 Avgränsningar

Det finns flera modeller som kan användas till att modellera en tidsserie. Vi kommer att inrikta oss på en regressionsmodell med en SARIMA del. Modellerna inkluderar bara andra ordningens interaktionstermer, detta för att det inte ska bli för många variabler samt att interaktioner av högre ordning rimligen är försumbara. Vi har resonerat oss fram till vilka lagg vi använder då inte CCF, ACF och PACF varit entydliga.

1.4 Disposition

Uppstatsen är uppdelat i fem delar, inledning, teori, metod, resultat samt slutssats och diskussion. Inledningen består av bakgrund till problemet och grundläggande fakta om vattenkraft. I inledningen skrivs även uppsatsens problemformulering och avgränsningar. I teoridelen presenteras valda delar av teorin som ingår i uppsatsen och det förklaras vad en tidsserie är. Metoddelen behandlar data samt den metod vi använder till att skapa

tidsseriemodellerna. I resultatdelen redovisas arbetsgången för ett av kraftverken samt en sammanfattning av resultaten för alla nio kraftverk. Då arbetet innefattat många modeller, skattade modeller, skattade ACF och PACF samt flera test, så redovisa valda delar av dessa i bilagor. Modellerna utvärderas genom att göra prognoser. I den sista delen drar vi slutsatser och diskuterar, här återkopplar vi till problemformuleringen. Modellerna jämnförs mot

varandra och granskas kritiskt hur de kunde gjorts annorlunda, slutligen berörs vidare arbeten.

(9)

4

2. Teori

Denna del behandlar teori om oberoende, stationäritet, SARIMA-processer, Box-Jenkins metoden, crosskorrelation, VIF, AIC och slutligen prognoser samt relativa fel.

2.1 Oberoende

Skillnaden mellan regression- och tidserieansatsen är att regressionen antar ett oberoende mellan observationerna vilket inte tidserien gör. I data där det finns autokorrelation passar det bättre att använda sig av en tidsserieansats. För att kontrollera om det finns autokorrelation i en tidsserie använder man sig med fördel av test. I uppsatsen används tre typer av test för att undersöka om autokorrelation, Durbin Watson test5, Runs test6 och Ljung-Box test7. Om testen visar på ett beroende mellan residualerna i en regressionsmodell så behandlas residualen som en SARIMA-process8. En regression med en SARIMA del definieras som,

, . 2.2 Stationäritet

Vid arbetet med tidsserier görs antagande om stationäritet9. Det finns två former av

stationäritet, svag och strikt. Där den svaga är den mest vanliga att modellera med. I en svagt stationär process gäller det att väntevärdet och variansen är konstant över tiden samt att kovariansen inte beror av tiden utan bara av tidsavståndet.

För en strikt stationär process ska de simultana fördelningarna vara samma för alla tidsserier oavsett vilket tidssteg vi tar. I denna uppsats används bara svag stationäritet. Då det är svårt att avgöra om en process är svagt stationär används med fördel Dickey-Fuller testet10. När en stationär process är vitt brus gäller två antaganden, observationerna ska vara oberoende samt likafördelade. Vitt brus har väntevärde noll och konstant varians11. Oberoendet mellan ger att kovariansen mellan observationerna är noll, vilket medför att korrelationen mellan observationerna är noll.

5 Andersson, Dennis R. etal. STATISTICS FOR BUSINESS AND ECONOMICS, Ohio, USA, Thomson Learning, 2009, 537-539.

6 Cryer,J.D & Kung-Sik Chan. Time Series Analysis with Applications in R, Andra upplagan, New York: Springer, 2008, 46.

7 Ibid, 182

8 Ibid, 262

9Ibid, 16f

10 Ibid, 128

11 Box, G.E.P & Jenkins, G.M. Time Series Analysis forecasting and control, San Fransisco, Californien, 1970, 46f.

(10)

5

2.3 SARIMA

SARIMA-processer modellerar autokorrelation. Residualen i en SARIMA-process är vitt brus.

En Autoregressive (AR)-process bygger på att observationer i tiden kan förklaras med hjälp av en linjärkombination av tidigare observationer. En AR-process med ett specifikt antal parametrar, en AR där slumptermen är vitt brus definieras som12,

.

En Moving average (MA)-process bygger på att observationer i tiden kan förklaras med hjälp av en linjärkombination av dess tidigare observationers variation. En MA-process med ett specifikt antal parametrar, en MA där slumptermen är vitt brus definieras som13,

.

Differentieringar genomförs på processer som inte är stationära, ett exempel på en differentiering är, = 14. En ARIMA-process har differentierats och är en kombination av AR- och MA-processer. En modell med specifikt antal parametarar skrivs ARIMA , där d:et står för antalet differentieringar som genomförs. De ARIMA- processer som innehåller säsongsvariation kallas SARIMA-processer och en modell med specifikt antal parametarar skrivs SARIMA 15 Där s är hur många tidssteg en säsong är, vilket avgör tidsstegen som parameterna kopplas till och P, Q och D är antalet säsongsparametrar och säsongsdifferentieringar.

12 Cryer,J.D & Kung-Sik Chan. Time Series Analysis with Applications in R,. 66-67

13 Ibid, 57

14 Ibid, 88

15 Ibid, 226

(11)

6

2.4 Box-Jenkins metod

Givet ett beroende mellan observationerna är Box-Jenkins en lämplig metod till att identifiera vilken typ av SARIMA process som verkar rimlig. Box-Jenkins metod grundas på tre steg modellval, skattning av variabler och utvärdering av modellen.16

1. Modellval. Kontrollera om processen är stationär. Om modellen inte är stationär skall den differentieras. Det ska också kontrolleras efter säsongstrender och möjliga

säsongsdifferentieringar. Sen används Autocorrelation function (ACF) och Partial autocorrelation function (PACF) för att identifiera kandidater till vilken SARIMA – process som verkar rimlig.

2. Skattning av variabler. Här skattas de variabler till den SARIMA modell som valdes i första steget. Vanlig skattningsmetod är maximum likelihood eller minsta kvadrat metoden.

3. Modellen utvärderas. Undersöker om modellen uppfyller kraven. De residualer som modellen ger ska vara vitt brus. Upprepa alla steg tills modellen klarar kraven.

ACF och PACF för ARMA-processer

För att identifiera hur seriell autokorrelation bör modelleras undersöks korrelationen mellan olika tidpunkter i processen. ACF beskriver korrelationen i en process mellan olika tidslagg17 och PACF beskriver korrelation i en process mellan olika lagg givet de mellanliggande tidslaggen i modellen. ACF- och PACF - verktygen används genom att jämföra ACF- och PACF- skattningar med hur de olika SARIMA processerna definieras i teorin, för att identifiera en lämplig modell.

16Box, G.E.P & Jenkins, G.M. Time Series Analysis forecasting and control, 18-19

17 Cryer,J.D & Kung-Sik Chan. Time Series Analysis with Applications in R, 109-112

18Ibid s.116

AR(p) MA(q) ARMA(p,q) givet p>0 och q>0

ACF exponentiellt avtagande Spik till lag q exponentiellt avtagande

PACF Spik till lag p exponentiellt avtagande exponentiellt avtagande

Tabell.1: Teoretiska ACF och PACF för ARMA processer18

(12)

7

2.5 Cross correlation

Om den beroende variabeln inte bara beror av de oberoende variablerna vid det givna tillfället utan även tidigare värden , så är cross-correlation function (CCF) ett verktyg till att identifiera vilka tidigare värden som är relevanta19. Om = + + , där är vitt brus oberoende av X, så definieras CCF,

(X, Y) =

,

där = 0, då k ≠ -d, vilket innebär att X och Y korrelerar då det är k tidssteg mellan dem.

2.6 VIF

Variance inflation factor (VIF) är ett mått på samvariationen mellan k stycken oberoende variabler i en modell. VIF definieras,

.

Där är förklaringsgraden av den i:te variabeln av de övriga givna oberoende variablerna i modellen. Ett högt VIF-värde indikerar att det finns problem med multikollinaritet20. En tumregel är att ett VIF-värde över 10 indikerar risk för

multikollinearitet. Multikollinaritet kan öka parametrarnas variansskattningar vilket kan ge en modell med hög förklaringsgrad men utan signifikanta variabler.

Stora stickprov ger dock robusta skattningar även om VIF är högt, då variansskattningarna för parametrarna inte skenar iväg.21 Då formeln för den i:te parameterns variansskattning ̂ ( ) går skriva om så att är i nämnaren, där är stickprovets storlek. Det ger att, givet allt annat lika, så minskar den skattade variansen av den i: te regressionskoefficienten om

stickprovsstorleken ökar. T.ex. Om utgångsprovet är 25 observationer och jämförelseprovet är 97 observationer, så blir den skattade variansen en fjärdedel så stor, , allt annat lika.

19 Cryer,J.D & Kung-Sik Chan. Time Series Analysis with Applications in R, 261

20 Kleinbaum, David G. etal. Applied Regression Analysis and Other Multivariable Methods, 4 uppl, Canada, Thomson Brooks/Cole, 310

21 O`Brien, Robert M. A Caution Regarding Rules of Thumb for Variance Inflation Factors, Quality & Quantity, 2007

(13)

8

2.7 AIC

Akaike information criterion (AIC) mäter hur bra en modell är anpassad till datamaterialet.

AIC definieras som22,

.

AIC är uppdelad i två termer, den första är en funktion av loglikelihooden och den andra tar hänsyn till antalet variabler i modellen. En modells AIC kan bara vara relevant när det jämnförs med andra modellers AIC, givet samma data. Desto lägre AIC desto mer förklarar modellen av datamateralet. Ett stort antal av variabler ökar AIC, då k är antalet skattade parametrar.

2.8 Prediktion och relativt fel

Prognos för ϳ tidssteg framåt definieras, ̂ 23. Då blir stort så blir ̂ = μ för alla ARMA processer24, där μ är väntevärdet för Y.

Prognosfelet definieras som, ( ) = ̂ . Prognosfelet ( ) har väntevärde noll då skattningen är unbiased och variansen är V( ( )).

Under antagande om att prognosfelet är normalfördelat så definieras ett prediktionsintervall för steg framåt som, ̂ ± .

För att utvärdera modeller används måttet relativt fel (RF). Detta ska ge en god fingervisning på hur exakt modellen skattar. Definitionen av uttrycket RF är,

RF = ̂

22 Chatfield, Christopher. The Analysis of Time Series An introduction, 6 uppl, Florida, CRC Press, 256

23 Cryer,J.D & Kung-Sik Chan. Time Series Analysis with Applications in R, 191

24 Ibid, 200-203

(14)

9

3. Metod

3.1 Datamaterialet

Datat är från nio olika vattenkraftverk och det finns 18960 observationer från varje verk.

Observationerna är gjorda under två år och två månader mellan 2010-01-01 till 2012-02-29.

1. Elproduktion(KWH/timme) 2. Nederbördsmängd (mm/timme) 3. Temperatur (Celsius)

4. Vindhastighet (m/s)

5. Global solinstrålning (W/ ).

Elproduktionen, Temperaturen, vindhastigheten och den globala solinstrålningen är mätt på timbasis. Nederbörden divideras med 24 för att få värden på timbasis då den är mätt på dygnsbasis. Nederbörden transformeras så att effekten av nederbörden på elproduktionen utjämnas och blir exponentiellt avtagande,25

= a + (1 - a) .

De första observationerna av nederbörd saknas på en del av verken, där imputeras

medelvärdet. När det byts mellan sommar- och vintertid uppstår det mätproblem, saknat värde ersätts med medelvärdet av de två närliggande observationerna och värden som är summan av två timmars elproduktion halveras.

Krafterk Medelvärde Standardavvikelse Varians Variationskoefficient

X 2634 1294 1675588 0,49148

Y 851 617 380104 0,72407

Z 937 630 398077 0,67343

Å 1947 929 862650 0,47712

A 133 45 1983 0,3349

B 755 363 131978 0,48112

C 794 453 205437 0,57113

D 377 159 25145 0,42072

E 838 623 387924 0,74368

Tabell.2 Statistik över elproduktionen för de olika kraftverken. Variationskoefficienten är ett normaliserat standardavvikelsemått26.

25 Brockwell, Peter.J. & Richard A. Davis. Time Series: Theory and Methods, 2 uppl, New York, Springer, 2006, 17

26 Wackerly, Dennis D., William Mendenhall III, Richard L. Scheaffer. Mathemathical Statistics with Applications, 7 uppl, Canada, Thomson Learning, 2008, 387

(15)

10 Förutsättningar vid prognostillfället

Prognosen ska göras senast kl 11:00 dagen före och datamaterialet från gårdagen inkommer kl 10:00. Det här medför att det inte går att använda data för elproduktionen de närmaste

timmarna innan det givna tillfället i modellen. Dock går det att använda prognoser för nederbörd, temperatur, vindhastighet och global solinstrålning för det givna tillfället.

3.2 Metod

Generell metod/tankegång med sex steg till att bygga prognosmodeller för elproduktionen vid de icke reglerbara vattenkraftverken.

1. CCF används till att identifiera vilka tidigare värden på de oberoende variablerna som korrelerar med elproduktionen.

2. Om det finns seriell autokorrelation så används Box-Jenkins metoden för att hitta vilken typ av SARIMA process som verkar rimlig.

3. Modellen modifieras beroende på förutsättningarna när data erhålls och när prognoserna utförs.

4. Undersök om någon Box-Cox transformation kan förbättra modellen. Det man vill förbättra är modellens justerade förklaringsgrad och hur den uppnår modellantagandena.

5. För att undersöka vilka förklaringsvariabler som ska ingå i modellen används stepwise AIC27, modellen kompletteras sedan med de huvudeffekter som valdes bort men återfinns i interaktionstermerna enligt hierarkiprincipen.

6. Det kommer att råda olika förutsättningar beroende på vilken timme det är som skall modelleras, därför används en modell för varje timme.

27 Faraway, Julian J. Extending the Linear Modell with R, Florida, Chapman & Hall/CRC, 2006, 19-21

(16)

11

4. Modeller och Resultat

Här redovisas arbetsgången för att identifiera en rimlig modell för ett av verken, kraftverk Å, det blir fyra olika modeller som kan jämföras. Sedan har samma resonemang använts för de andra åtta kraftverkens modeller som en kontroll av metoden. Avslutningsvis utvärderas modellerna för kraftverken genom att göra prognoser och beräkna RF. Vi redovisar enbart prognoserna för kraftverk Å.

4.1 Modeller för elproduktion vid kraftverk Å

Det är svårt att utläsa något ur CCF i figur 7, 8, 9 och 1028 då det finns skenkorrelationer men det finns mönster som visar att var tolfte alternativ var tjugofjärde lagg påverkar mest, därför resonerar vi oss fram till följande regressionsmodell att utgå ifrån.

Modell 1.29 En regressionsmodell med elproduktionen som beroende variabel. Elproduktionen beror rimligen av variablerna nederbördsmängd, temperatur, vindhastighet samt global

solinstrålning vid det givna tillfället ”t”, men även av dessa variabler de senaste dagarna.

Elproduktionen antas bero av de rådande förhållandena de senaste sex dagarna så modellen använder t.ex. nederbörden för 0, 12, 24, 36…144 timmar sedan som förklarande variabler.

Eftersom att nederbördsmängd, temperatur, vindhastighet och global solstrålning inte varierar så mycket mellan varje timme används var tolfte observation av de oberoende variablerna i modellen. Modellen innehåller interaktionstermer då t.ex. temperaturens effekt på

elproduktionen rimligen beror av vindstyrkan.

Skattar Modell 130. Den här modellen ger en justerad förklaringsgrad på 37,6% och modellantagandena brister då det finns mönster- samt en bristande homoscedascicitet och normalitet i residualen. Runs- och Durbin Watson testen visar att det finns beroende mellan observationerna.

28 Se bilaga 1

29 Se bilaga 2

30 Se bilaga 3

(17)

12 Modell 2 tar hänsyn till den seriella autokorrelationen i modell 1 och behandlar modell 1 residualen som en SARIMA-process

1000 900 800 700 600 500 400 300 200 100 1 1,0 0,8 0,6 0,4 0,2 0,0 -0,2 -0,4 -0,6 -0,8 -1,0

Lag

Autocorrelation

Autocorrelation Function for RES (with 5% significance limits for the autocorrelations)

Figur.2 Skattad ACF på modell 1 residualer.

200 180 160 140 120 100 80 60 40 20 1 1,0 0,8 0,6 0,4 0,2 0,0 -0,2 -0,4 -0,6 -0,8 -1,0

Lag

Partial Autocorrelation

Partial Autocorrelation Function for RES (with 5% significance limits for the partial autocorrelations)

Figur.3 Skattad PACF på modell 1 residualer.

ACF i figur 2 avtar exponentiellt och PACF i figur 3 har spikar i var 24 lagg vilket tyder på en SARIMA(2,0,0)( . Skattar Modell 231. Om SARIMA processen som identifierats ovan tillförs till modell 1 så ger den en justerad förklaringsgrad på 98,8% och det finns inte kvar något beroende enligt Durbin-Watson testet.

31 Se bilaga 4

(18)

13 Modell 332. De närmaste 47 observationerna av elproduktionen innan det givna tillfället är inte kända vid prognostillfället. Modell 3 innehåller därför AR-termer med start 48 timmar innan då det är dessa data som finns tillgängliga. Modellen inkluderar tidigare elproduktion upp till 168 timmar tidigare då PACF motiverar detta, alltså en vecka tidigare. Inkluderar även fyra interaktionstermer då tidigare elproduktion kan tänkas påverka effekten av t.ex.

tidigare nederbörd på elproduktionen. Det är inte aktuellt med en transformation av elproduktionen eller de oberoende variablerna, eftersom det inte förbättrar modellens justerade förklaringsgrad eller hur den klarar modellantagandena.

Använder stepwise AIC till att undersöka vilka variabler som ska finnas med i modellen.

Kompletterar sedan modellen enligt hierarkiprincipen med de huvudeffekter som plockas bort men som återfinns i interaktionstermerna, den resulterande modellen betecknas Modell 3*.

Skattar Modell 3*33, denna modell ger en justerad förklaringsgrad på 82,8% men vi ser i residualen och i testen att det finns ett oförklarat beroende mellan observationerna. Modellens VIF värden är högre än ”tumregeln” för flertalet variabler.

Modell 434. Det kommer att råda olika förutsättningar för prediktionerna, beroende på vilken timme på dygnet det är. Då dygnets första timme ska predikteras så kommer vi att känna elproduktionen 25 timmar tidigare men då dygnets sista timme ska predikteras så kommer förutsättningarna att vara sämre då vi inte känner elproduktionen de 47 tidigare timmarna.

För att göra så bra prognoser som möjligt så gör vi därför 24 stycken modeller, en för varje timme, där modellen för dygnets första timme får högst justerad förklaringsgrad och sedan blir den justerade förklaringsgraden successivt lite lägre för varje timme35.

Så beroende på vilken timme som ska predikteras så kompletteras modell 3* med närmre observationer av elproduktionen som förklarande variabel. Den sista timmen får enbart använda Modell 3* samtidigt som den första timmens modell kompletteras med 23 förklarande variabler.

32 Se bilaga 5

33 Se bilaga 6

34 Se bilaga 7

35 Se bilaga 8

(19)

14

4.2 Sammanfattning arbetsgång och resultat för de nio kraftverken

För de övriga åtta kraftverken finns det även skenkorrelationer i CCF och det finns mönster som pekar på att var tolfte alternativt var tjugofjärde lagg korrelerar mest. Modell 1

residualerna visar att det finns ett beroende mellan observationerna för alla verk.

Om modell 1 residualen ses som en SARIMA-process så identifierar Box-Jenkins metoden någon form av SAR process för alla verkens modeller. Då det genomgående skattas en

exponentiellt avtagande ACF, och där det är spikar i var tolfte alternativt var tjugofjärde lagg i den skattade PACF:n, vilket indikerar ett säsongsberoende. Om den identifierade SAR-

processen tillförs till modellen så ger samtliga verks modeller en hög justerad förklaringsgrad, 97,4 % som lägst förutom C som har 83,5 %.

Den enda modell som förbättras av en transformation är modellen för kraftverk X, där elproduktionen logaritmerades. Stepwise AIC ger modellerna olika variabler för de olika kraftverken och parameterskattningarna är inte samma för de olika kraftverken.

Verk Område Modell 1 Modell 2 Modell 3* Modell 4

X 4 21 99,7 95,1 95,1 - 97,2

Y 3 25,4 99,6 94,4 94,4 - 96,1

Z 2 15,1 99,4 92,7 92,7 - 95,0

Å 3 37,6 98,8 82,8 82,8 - 88,2

A 2 16,4 98,5 75,2 75,2 - 81,4

B 3 25,6 99,2 90,8 90,8 - 94,4

C 3 17,2 83,5 64,7 64,7 - 68,7

D 4 29,9 97,4 85,4 85,4 - 89,8

E 4 47,4 99,4 94,9 94,9 - 95,8

Tabell.3: Summering av den justerade förklaringsgraden för modell 1 till 4 för de olika verken

(20)

15

4.3 Prognoser för elproduktion och relativt fel vid kraftverk Å

Andra verks modeller har testats genom att göra prognoser men bara kraftverk Å redovisas.

Prognoserna är gjorda för två olika fyradygnsperioder. Den ena perioden är mellan 26-29 juli 201136 och den andra perioden är för 26-29 februari 2012.

90 80 70 60 50 40 30 20 10 1 2900

2800

2700

2600

2500

2400

2300

2200

Index

Data

Obs Skatt KI_U KI_Ö PI_U PI_Ö Variable

Obs vs Modell 2 Skattningar26-29 Februari 2012

Figur.4 Prognos för elproduktionen med modell 2

90 80 70 60 50 40 30 20 10 1 3500

3000

2500

2000

1500

Index

Data

OBS Skatt KI_U KI_Ö PI_U PL_Ö Variable

Obs vs Modell 3* Skattningar 26-29 Februari 2012

Figur.5 Prognos för elproduktionen med modell 3*

36 Se bilaga.9

(21)

16

90 80 70 60 50 40 30 20 10 1 4000

3500

3000

2500

2000

Index

Data

OBS Skatt KIU KIÖ PIU PIÖ Variable

Obs vs Modell 4 Skattningar 26 - 29 Februari 2012

Figur.6 Prognos för elproduktionen med modell 4

För att utvärdera modellerna beräknas medelvärdet av RF för de olika modellerna för de två fyradygnsperioderna.

Modell 2 Modell 3* Modell 4

RF Feb 1% 7.4% 7.5%

RF Juli 7.3% 46.2% 42 .4%

Tabell.4: Sammanställning av prediktionens RF medelvärde med modell 2 till 4 för de två prognostillfällena.

(22)

17

5 Diskussion och slutsatser

Här utvärderas modellerna och dess prognoser. Vi diskuterar, drar slutsatser, kritiserar och ger exempel på vidare undersökningar.

Utvärdering och modellval

Modell 1 beskriver inte data nöjsamt för något av verken, som tabell 3 visar. Detta för att modell 1 inte tar hänsyn till den seriella autokorrelationen. När autokorrelationen modeleras enligt Box-Jenkins metoden i modell 2 ger detta en mycket hög justerad förklaringsgrad för alla verk, med undantag verk C som tabell 3 visar. Elproduktionen i verk C går inte att förklara lika bra med en enklare SARIMA. Vi har undersökt om elproduktionen i verk C beskrivs bättre om processen differentieras, men utan lyckat resultat.

Modell 3* och modell 4 tar hänsyn till förutsättningarna som råder då prognosen ska göras.

Modell 4 har en högre justerad förklaringsgrad än modell 3* förutom för dygnets sista timme då det är samma modell. Modellernas antaganden brister då residualen och testen visar på ett beroende mellan observationerna. Beroendet förklaras av att de närmsta laggen inte används.

Alla modellerna har höga VIF värden för flertalet variabler vilket varnar för multikollinaritet, men det är vanligt i den här typen av tidsserieprocess och då vi har så många observationer så får vi inte några problem med robustheten i våra parameterskattningar.

I en jämförelse mellan prognoserna av modell 2, modell 3* och modell 4 så är prognosen av modell 2 näst intill felfri. Prognoserna av modell 3* och modell 4 liknar till stor del varandra och är, i jämförelse med prognoserna av modell 2, inte så träffsäkra. I en jämförelse av RF mellan prognoserna av modell 3* och modell 4, så predikterar modell 4 bättre i juliprognosen samtidigt som den predikterar lite sämre i februariprognosen, som tabell 4 visar. I en

jämförelse av RF mellan de olika prognosperioderna så blir prediktionen bättre av alla modeller i februariprognosen, som tabell 4 visar.

(23)

18 Modell 3* och modell 4 har en hög justerad förklaringsgrad men prognosfelen blir stora då elproduktionen varierar mycket, som vi ser i tabell 2. Att elproduktionen varierar mycket ser vi även på att prediktionsintervallen är väldigt brett jämfört med konfidensintervallen, vilket beror på att prediktionsintervallet utöver de skattade parametrarnas osäkerhet även tar hänsyn till variationen för den nya observationen37.

Figur 16 och 1738 visar att RF i juliprognoserna blir stora jämfört med hur hög justerad förklaringsgrad modellerna har. Detta går att sammankoppla med att elproduktionens variationskoefficient är hög som tabell 2 visar.

Modell 2 har den högsta justerade förklaringsgraden och lägst RF då vi jämför de olika modellerna, men den går inte att använda p.g.a. förutsättningarna vid prognostillfället. Därför blir den bästa modellen som går att hitta modell 4, denna modellerar de nio vattenkraftverkens elproduktion nöjsamt, med reservation för verk C. Därför är det rimligt att utgå ifrån modell 4 när man ska bygga prognosmodeller för andra kraftverk.

Metodkritik

Nedan kritiseras data och metoden som använts till att bygga modeller.

1. Om data för elproduktion närmare det givna tillfället erhålls innan prognosen ska göras så kan det bli bättre prediktioner, eftersom att en modell som innehåller närmre AR-termer har en högre justerad förklaringsgrad.

2. Det vore önskvärt om det fanns längre dataserier, då är det lättare att se om det finns säsongsmönster beroende på årstid. Med dessa data så tillför säsongsdummys för årstid och dess interaktionstermer försvinnande lite samtidigt som de mångdubblar antalet variabler.

3. Om data för nederbörd var på timbasis istället för på dygnsbasis, så skulle nederbörden rimligen förklara mer. Nederbördsdata på dygnsbasis förklarar inte mycket av

elproduktion/timme. T.ex. vid kraftverk Å så förklaras bara 1.6 % av elproduktionen av en regressionsmodell med nederbörd och tidigare nederbörd som oberoende variabler.

4. Det kan finnas fler förklarande variabler som vi inte har data på. Andra externa variabler som rimligen skulle tillföra modellen något kan t.ex. vara, andra naturfaktorer, om det finns andra verk tidigare i älven och avbrott i hela eller delar av produktionen.

37 Wackerly, Dennis D., William Mendenhall III, Richard L. Scheaffer. Mathemathical Statistics with Applications, 387

38 Se bilaga.9

(24)

19 5. Alla lagg för alla variabler har inte testats och det känns rimligt att det skulle finnas någon lagg som vi inte inkluderar i modellen som skulle tillföra något. Samtidigt så ska man inte tillföra variabler till modellen som inte verkar rimliga och modellen ska göras så enkel som möjligt39.

6. Prognoserna görs endast på två fyradygnsperioder, så utvärderingen av modellerna görs på ett litet stickprov.

Vidare arbeten

Vidare så kan det vara av intresse att summera elproduktionen för flera verk, t.ex. av alla verk som ligger i samma område. Givet att elproduktionen i de olika verken är oberoende av varandra så försvinner det en del av prognosfelet då flera kraftverk summeras, då kanske ett verk underskattar produktionen samtidigt som ett annat överskattar produktionen och vice versa40.

För att undersöka om det finns något beroende mellan prognosfelen för verk i samma område så undersöks korrelationen mellan modellernas residualer. På en 5 % signifikansnivå så finns det ett beroende i område 3 och 4 men inte i område 2 för de kraftverk det finns data på41. Men i praktiken så finns det många fler verk i de olika områdena vilket rimligen innebär att det blir många kovarianser att ta hänsyn till då variansen beräknas, vilket innebär att

prognostiseringsfelet inte behöver bli relativt mindre. Det skulle vara intressant att undersöka summering av elproduktionen för två eller flera verk mer utförligt.

Vidare så finns det alternativa metoder som skulle kunna tillämpas till att bygga modellet för elproduktion. ARCH och GARCH modeller lämpar sig bra då det inte är konstant varians och Functional Data Analysis modellerar in- och utflöde. Det hade varit intressant att jämföra modell 4 mot resultatet av alternativa metoder. Det kan tänkas att vår metod passar bättre för en del av kraftverken samtidigt som någon annan metod kanske bättre beskriver

elproduktionen för de verk där vi fick mindre bra resultat.

39 Cryer,J.D & Kung-Sik Chan. Time Series Analysis with Applications in R, 8

40 Wackerly, Dennis D., William Mendenhall III, Richard L. Scheaffer. Mathemathical Statistics with Applications, 271

41 Se bilaga.10

(25)

Litteraturförteckning

Svensk energi. (2012). Hämtat från http://www.svenskenergi.se/sv/Om-el/Vattenkraft/:

http://www.svenskenergi.se/sv/Om-el/Vattenkraft/ den 22 maj 2012 Svenska Kraftnät. (den 23 maj 2012). Hämtat från www.svk.se:

http://www.svk.se/Energimarknaden/El/, nedladdad dem 2012-05-23

Andersson, D. R., Sweeney, D. J., Williams, T. A., Freeman, J., & Shoesmith, E. (2009). Statistics for business and economics. Ohio, USA: Thomson Learning.

Box, G., & Jenkins, G. (1970). Time Series Analysis forecasting and control. San Fransisco, Kalifornien:

Holden-Day Series in Time Series Analysis.

Brockwell, P. J., & Davis, R. A. (2006). Time Series: Theory and methods (2 uppl.). New York: Springer.

Chatfield, C. (2004). The Analysis of Time Series (6 uppl.). Florida: CRC press.

Cryer, J. D., & Chan, K.-S. (2008). Time Series Analysis with Applications in R. New York: Springer.

Faraway, J. J. (2006). Extending the Linear Model with R. Florida: CRC.

Kleinbaum, D. G., Kupper, L. L., Nizam, A., & Muller, K. E. (2007). Applied regression analysis and other multivariable methods (4 uppl.).

Mendenhall, W., Scheaffer, R. L., & Wackerly, D. D. (2008). Mathematical Statistics With Applications (7 uppl.). Canada: Thomas Learning.

O Brien, R. M. (2007). A Caution Regarding Rules of Thumb for Variance Inflation Factors. Quality &

Quantity, ss. 673–690.

(26)

Bilaga.1

Cross Correlation Functions mellan elproduktion och de oberoende variablerna, vid kraftverk Å.

140 120 100 80 60 40 20 0 -20 -40 -60 -80 -100 -120 -140 1,0

0,8 0,6 0,4 0,2 0,0 -0,2 -0,4 -0,6 -0,8 -1,0

Lag

Cross Correlation

Cross Correlation Function mellan nederbörd och elproduktion

Figur.7 CCF mellan nederbörd och elproduktion vid kraftverk Å.

140 120 100 80 60 40 20 0 -20 -40 -60 -80 -100 -120 -140 1,0

0,8 0,6 0,4 0,2 0,0 -0,2 -0,4 -0,6 -0,8 -1,0

Lag

Cross Correlation

Cross Correlation Function mellan temperatur och elproduktion

Figur.8 CCF mellan temperatur och elproduktion vid kraftverk Å.

(27)

140 120 100 80 60 40 20 0 -20 -40 -60 -80 -100 -120 -140 1,0

0,8 0,6 0,4 0,2 0,0 -0,2 -0,4 -0,6 -0,8 -1,0

Lag

Cross Correlation

Cross Correlation Function mellan vindhastighet och elproduktion

Figur.9 CCF mellan Vindhastighet och elproduktion vid kraftverk Å.

140 120 100 80 60 40 20 0 -20 -40 -60 -80 -100 -120 -140 1,0

0,8 0,6 0,4 0,2 0,0 -0,2 -0,4 -0,6 -0,8 -1,0

Lag

Cross Correlation

Cross Correlation Function mellan global solinstrålning och elproduktion

Figur.10 CCF mellan global solinstrålning och elproduktion vid kraftverk Å.

(28)

Bilaga.2

Modell 1

= Elproduktionen vid tidpunkten t.

= Nederbördsmängd vid tidpunkten t.

= Temperatur vid tidpunkten t.

= Vindhastighet vid tidpunkten t.

= Global solinstrålning vid tidpunkten t.

= + * + * + * + * + * + * + * + * + * + * + * +

* + * +

* + * + * + * + * +

* + * + * + * + * +

* + * +

* + * + * + * + * + * + * + * + * + * + * + * +

* + * + * + * + * + * + * + * + * + * + * + * +

* * + * * + * * + * * +

* * + * * + * * +

* * + * * + * * + * * + * * + * * + * * +

* * + * * + * * + * * + * * + * * + * * +

(29)

* * + * * + * * + * * + * * + * * + * * +

~N(0,σ)

är oberoende stokastiska variabler.

Det blir alltså 78 parametrar som ska skattas och till vår hjälp använder vi oss av minitab som skattar parametrarna med minsta kvadrat metoden.

(30)

Bilaga.3

Skattad Modell 1 på vattenkraftverk Å.

S = 735,365 R-Sq = 37,9% R-Sq(adj) = 37,6%

Analysis of Variance

Source DF SS MS F P Regression 77 6184750252 80321432 148,53 0,000 Residual Error 18738 10132796637 540762

Total 18815 16317546889

4000 2000

0 -2000 -4000

99,99 99 90 50 10 1 0,01

Residual

Percent

4000 3000 2000 1000 0

2000 1000 0 -1000 -2000

Fitted Value

Residual

2200 1650 1100 550 0 -550 -1100 -1650 600 450 300 150 0

Residual

Frequency

18000 16000 14000 12000 10000 8000 6000 4000 2000 1 2000 1000 0 -1000 -2000

Observation Order

Residual

Normal Probability Plot Versus Fits

Histogram Versus Order

Mdl1 residualer för VP vid kraftverk Å

Figur.11 Residualer för modell 1.

Durbin-Watson statistic = 0,0345914

Runs Test: RES

Runs test for RES

Runs above and below K = -1,52903E-11 The observed number of runs = 744 The expected number of runs = 9402,09 9153 observations above K; 9663 below P-value = 0,000

References

Related documents

Eftersom verbaspekt är en vanligt förekommande kategori i världens språk, och en klar definition av densamma saknas, finns det en ambition att genom ABC-modellen skapa grunden till

ellt skulle kunna komma ifråga för ett bevarande. Vid detta första urval kom inventerarnas samlade kunskaper väl till pass med kännedom om de flesta av landets

Vattenkraftverket i Laxede innehåller totalt 75 m 3 turbinolja av typen TU68 fördelat på de tre aggregaten enligt tabell 7.1. För att all olja i kraftstationen ska komma ut i

Istället för att använda 2-dimensionella och linjära (eller tvådelat lin- jära) produktionsfunktioner används opt+data för omvandling mellan flöde, effekt och fallhöjd.. Figur

Om förenklade beräkningar genomförs gällande potentialen för drift av falsvärme med hjälp av sol- fångare under april, som är den månad med högst medelvärde för

Modellen kan stödja framtagandet av mer högupplösta modeller (kvantitativa) genom att visa vilka beståndsdelar som är viktigast att modellera, hur olika förmågor och

L&R refererar också min hänvisning till den utvärdering av den svenska pen- ningpolitiken som Marvin Goodfriend och Mervyn King gjorde, där dessa skriver att Riksbankens

Eftersom förutsättningarna som krävs för en fungerande åtgärd för uppströms respektive nedströms passage vid kraftverk skiljer sig åt, kan man inte använda samma