4. Modeller och Resultat
4.3 Prognoser för elproduktion och relativt fel vid kraftverk Å
Andra verks modeller har testats genom att göra prognoser men bara kraftverk Å redovisas.
Prognoserna är gjorda för två olika fyradygnsperioder. Den ena perioden är mellan 26-29 juli 201136 och den andra perioden är för 26-29 februari 2012.
90
Obs vs Modell 2 Skattningar26-29 Februari 2012
Figur.4 Prognos för elproduktionen med modell 2
90
Obs vs Modell 3* Skattningar 26-29 Februari 2012
Figur.5 Prognos för elproduktionen med modell 3*
36 Se bilaga.9
16
90 80 70 60 50 40 30 20 10 1 4000
3500
3000
2500
2000
Index
Data
OBS Skatt KIU KIÖ PIU PIÖ Variable
Obs vs Modell 4 Skattningar 26 - 29 Februari 2012
Figur.6 Prognos för elproduktionen med modell 4
För att utvärdera modellerna beräknas medelvärdet av RF för de olika modellerna för de två fyradygnsperioderna.
Modell 2 Modell 3* Modell 4
RF Feb 1% 7.4% 7.5%
RF Juli 7.3% 46.2% 42 .4%
Tabell.4: Sammanställning av prediktionens RF medelvärde med modell 2 till 4 för de två prognostillfällena.
17
5 Diskussion och slutsatser
Här utvärderas modellerna och dess prognoser. Vi diskuterar, drar slutsatser, kritiserar och ger exempel på vidare undersökningar.
Utvärdering och modellval
Modell 1 beskriver inte data nöjsamt för något av verken, som tabell 3 visar. Detta för att modell 1 inte tar hänsyn till den seriella autokorrelationen. När autokorrelationen modeleras enligt Box-Jenkins metoden i modell 2 ger detta en mycket hög justerad förklaringsgrad för alla verk, med undantag verk C som tabell 3 visar. Elproduktionen i verk C går inte att förklara lika bra med en enklare SARIMA. Vi har undersökt om elproduktionen i verk C beskrivs bättre om processen differentieras, men utan lyckat resultat.
Modell 3* och modell 4 tar hänsyn till förutsättningarna som råder då prognosen ska göras.
Modell 4 har en högre justerad förklaringsgrad än modell 3* förutom för dygnets sista timme då det är samma modell. Modellernas antaganden brister då residualen och testen visar på ett beroende mellan observationerna. Beroendet förklaras av att de närmsta laggen inte används.
Alla modellerna har höga VIF värden för flertalet variabler vilket varnar för multikollinaritet, men det är vanligt i den här typen av tidsserieprocess och då vi har så många observationer så får vi inte några problem med robustheten i våra parameterskattningar.
I en jämförelse mellan prognoserna av modell 2, modell 3* och modell 4 så är prognosen av modell 2 näst intill felfri. Prognoserna av modell 3* och modell 4 liknar till stor del varandra och är, i jämförelse med prognoserna av modell 2, inte så träffsäkra. I en jämförelse av RF mellan prognoserna av modell 3* och modell 4, så predikterar modell 4 bättre i juliprognosen samtidigt som den predikterar lite sämre i februariprognosen, som tabell 4 visar. I en
jämförelse av RF mellan de olika prognosperioderna så blir prediktionen bättre av alla modeller i februariprognosen, som tabell 4 visar.
18 Modell 3* och modell 4 har en hög justerad förklaringsgrad men prognosfelen blir stora då elproduktionen varierar mycket, som vi ser i tabell 2. Att elproduktionen varierar mycket ser vi även på att prediktionsintervallen är väldigt brett jämfört med konfidensintervallen, vilket beror på att prediktionsintervallet utöver de skattade parametrarnas osäkerhet även tar hänsyn till variationen för den nya observationen37.
Figur 16 och 1738 visar att RF i juliprognoserna blir stora jämfört med hur hög justerad förklaringsgrad modellerna har. Detta går att sammankoppla med att elproduktionens variationskoefficient är hög som tabell 2 visar.
Modell 2 har den högsta justerade förklaringsgraden och lägst RF då vi jämför de olika modellerna, men den går inte att använda p.g.a. förutsättningarna vid prognostillfället. Därför blir den bästa modellen som går att hitta modell 4, denna modellerar de nio vattenkraftverkens elproduktion nöjsamt, med reservation för verk C. Därför är det rimligt att utgå ifrån modell 4 när man ska bygga prognosmodeller för andra kraftverk.
Metodkritik
Nedan kritiseras data och metoden som använts till att bygga modeller.
1. Om data för elproduktion närmare det givna tillfället erhålls innan prognosen ska göras så kan det bli bättre prediktioner, eftersom att en modell som innehåller närmre AR-termer har en högre justerad förklaringsgrad.
2. Det vore önskvärt om det fanns längre dataserier, då är det lättare att se om det finns säsongsmönster beroende på årstid. Med dessa data så tillför säsongsdummys för årstid och dess interaktionstermer försvinnande lite samtidigt som de mångdubblar antalet variabler.
3. Om data för nederbörd var på timbasis istället för på dygnsbasis, så skulle nederbörden rimligen förklara mer. Nederbördsdata på dygnsbasis förklarar inte mycket av
elproduktion/timme. T.ex. vid kraftverk Å så förklaras bara 1.6 % av elproduktionen av en regressionsmodell med nederbörd och tidigare nederbörd som oberoende variabler.
4. Det kan finnas fler förklarande variabler som vi inte har data på. Andra externa variabler som rimligen skulle tillföra modellen något kan t.ex. vara, andra naturfaktorer, om det finns andra verk tidigare i älven och avbrott i hela eller delar av produktionen.
37 Wackerly, Dennis D., William Mendenhall III, Richard L. Scheaffer. Mathemathical Statistics with Applications, 387
38 Se bilaga.9
19 5. Alla lagg för alla variabler har inte testats och det känns rimligt att det skulle finnas någon lagg som vi inte inkluderar i modellen som skulle tillföra något. Samtidigt så ska man inte tillföra variabler till modellen som inte verkar rimliga och modellen ska göras så enkel som möjligt39.
6. Prognoserna görs endast på två fyradygnsperioder, så utvärderingen av modellerna görs på ett litet stickprov.
Vidare arbeten
Vidare så kan det vara av intresse att summera elproduktionen för flera verk, t.ex. av alla verk som ligger i samma område. Givet att elproduktionen i de olika verken är oberoende av varandra så försvinner det en del av prognosfelet då flera kraftverk summeras, då kanske ett verk underskattar produktionen samtidigt som ett annat överskattar produktionen och vice versa40.
För att undersöka om det finns något beroende mellan prognosfelen för verk i samma område så undersöks korrelationen mellan modellernas residualer. På en 5 % signifikansnivå så finns det ett beroende i område 3 och 4 men inte i område 2 för de kraftverk det finns data på41. Men i praktiken så finns det många fler verk i de olika områdena vilket rimligen innebär att det blir många kovarianser att ta hänsyn till då variansen beräknas, vilket innebär att
prognostiseringsfelet inte behöver bli relativt mindre. Det skulle vara intressant att undersöka summering av elproduktionen för två eller flera verk mer utförligt.
Vidare så finns det alternativa metoder som skulle kunna tillämpas till att bygga modellet för elproduktion. ARCH och GARCH modeller lämpar sig bra då det inte är konstant varians och Functional Data Analysis modellerar in- och utflöde. Det hade varit intressant att jämföra modell 4 mot resultatet av alternativa metoder. Det kan tänkas att vår metod passar bättre för en del av kraftverken samtidigt som någon annan metod kanske bättre beskriver
elproduktionen för de verk där vi fick mindre bra resultat.
39 Cryer,J.D & Kung-Sik Chan. Time Series Analysis with Applications in R, 8
40 Wackerly, Dennis D., William Mendenhall III, Richard L. Scheaffer. Mathemathical Statistics with Applications, 271
41 Se bilaga.10
Litteraturförteckning
Svensk energi. (2012). Hämtat från http://www.svenskenergi.se/sv/Om-el/Vattenkraft/:
http://www.svenskenergi.se/sv/Om-el/Vattenkraft/ den 22 maj 2012 Svenska Kraftnät. (den 23 maj 2012). Hämtat från www.svk.se:
http://www.svk.se/Energimarknaden/El/, nedladdad dem 2012-05-23
Andersson, D. R., Sweeney, D. J., Williams, T. A., Freeman, J., & Shoesmith, E. (2009). Statistics for business and economics. Ohio, USA: Thomson Learning.
Box, G., & Jenkins, G. (1970). Time Series Analysis forecasting and control. San Fransisco, Kalifornien:
Holden-Day Series in Time Series Analysis.
Brockwell, P. J., & Davis, R. A. (2006). Time Series: Theory and methods (2 uppl.). New York: Springer.
Chatfield, C. (2004). The Analysis of Time Series (6 uppl.). Florida: CRC press.
Cryer, J. D., & Chan, K.-S. (2008). Time Series Analysis with Applications in R. New York: Springer.
Faraway, J. J. (2006). Extending the Linear Model with R. Florida: CRC.
Kleinbaum, D. G., Kupper, L. L., Nizam, A., & Muller, K. E. (2007). Applied regression analysis and other multivariable methods (4 uppl.).
Mendenhall, W., Scheaffer, R. L., & Wackerly, D. D. (2008). Mathematical Statistics With Applications (7 uppl.). Canada: Thomas Learning.
O Brien, R. M. (2007). A Caution Regarding Rules of Thumb for Variance Inflation Factors. Quality &
Quantity, ss. 673–690.
Bilaga.1
Cross Correlation Functions mellan elproduktion och de oberoende variablerna, vid kraftverk Å.
Cross Correlation Function mellan nederbörd och elproduktion
Figur.7 CCF mellan nederbörd och elproduktion vid kraftverk Å.
140
Cross Correlation Function mellan temperatur och elproduktion
Figur.8 CCF mellan temperatur och elproduktion vid kraftverk Å.
140
Cross Correlation Function mellan vindhastighet och elproduktion
Figur.9 CCF mellan Vindhastighet och elproduktion vid kraftverk Å.
140
Cross Correlation Function mellan global solinstrålning och elproduktion
Figur.10 CCF mellan global solinstrålning och elproduktion vid kraftverk Å.
Bilaga.2
Modell 1
= Elproduktionen vid tidpunkten t.
= Nederbördsmängd vid tidpunkten t.
= Temperatur vid tidpunkten t.
= Vindhastighet vid tidpunkten t.
= Global solinstrålning vid tidpunkten t.
= + * + * + * + * + * + * + * + * + * + * + * +
* + * +
* + * + * + * + * +
* + * + * + * + * +
* + * +
* + * + * + * + * + * + * + * + * + * + * + * +
* + * + * + * + * + * + * + * + * + * + * + * +
* * + * * + * * + * * +
* * + * * + * * +
* * + * * + * * + * * + * * + * * + * * +
* * + * * + * * + * * + * * + * * + * * +
* * + * * + * * + * * + * * + * * + * * +
~N(0,σ)
är oberoende stokastiska variabler.
Det blir alltså 78 parametrar som ska skattas och till vår hjälp använder vi oss av minitab som skattar parametrarna med minsta kvadrat metoden.
Bilaga.3
Skattad Modell 1 på vattenkraftverk Å.
S = 735,365 R-Sq = 37,9% R-Sq(adj) = 37,6%
Analysis of Variance
Source DF SS MS F P Regression 77 6184750252 80321432 148,53 0,000 Residual Error 18738 10132796637 540762
Total 18815 16317546889
Mdl1 residualer för VP vid kraftverk Å
Figur.11 Residualer för modell 1.
Durbin-Watson statistic = 0,0345914
Runs Test: RES
Runs test for RES
Runs above and below K = -1,52903E-11 The observed number of runs = 744 The expected number of runs = 9402,09 9153 observations above K; 9663 below P-value = 0,000
Bilaga.4
Skattad Modell 2 på kraftverk Å.
S = 101,528 R-Sq = 98,8% R-Sq(adj) = 98,8%
Mdl1+SARIMA residualer för VP vid vattenkraftverk Å
Figur.12 Residualer för modell 2.
Durbin-Watson statistic = 1,99651
Runs Test: RES
Runs test for RES
Runs above and below K = -1,01780E-11 The observed number of runs = 8971 The expected number of runs = 9395,74 9346 observations above K; 9444 below P-value = 0,000
Bilaga.5
Modell 3
= * + * + * + * + * + * + * + * + * + * + * + * + * + Teoretisk Modell 1(Men utan ) + * * +
* * + * * + * * + där är vitt brus. är oberoende av varandra och oberoende av , , , och för alla t och för alla k. E( ) = 0 och V( ) =
Det blir alltså 95 parametrar som ska skattas, använder vi oss av minitab.
Bilaga.6
Skattad Modell 3* på vattenkraftverk Å.
S = 386,257 R-Sq = 82,9% R-Sq(adj) = 82,8%
Mdl 3* residualer vid kraftverk Å
Figur.13 Residualer för modell 3*.
Durbin-Watson statistic = 0,0855247
Runs Test: RES
Runs test for RES
Runs above and below K = -1,22484E-11 The observed number of runs = 1338 The expected number of runs = 9396,91 9425 observations above K; 9367 below P-value = 0,000
VP 72 h sedan -0,03849 0,01132 -3,40 0,001 14,000
Bilaga.7
Modell 4
= Modell 3* +∑
Där i är vilken timme på dygnet det är, i =1-24, vilket ger oss 24 olika modeller.
Bilaga.8
90 80 70 60 50 40 30 20 10 1 88 87 86 85 84 83
Index
Data
Radj%
Radj%EnkelMdl Variable
Radj% Flera Modeller vs En Modell
Figur.14 Justerad förklaringsgrad för modellerna för de fyra sista dygnens timmar vid kraftverk Å, beroende på om vi använder en modell för varje timme eller om vi använder den enklare modellen.
Bilaga.9
Prognoser av modell 2, modell 3* och modell 4 för elproduktionen vid kraftverk Å 26-29 juli 2011.
Obs vs Modell 2 Skattning 26-29 Juli 2011
Figur.15 Prognos för elproduktionen den 26-29 juli 2011 med modell 2.
90
Obs vs Modell 3* Skattning 26-29 Juli 2011
Figur.16 Prognos för elproduktionen den 26-29 juli 2011 med modell 3*.
90 80 70 60 50 40 30 20 10 1 2500
2000
1500
1000
500
0
-500
Index
Data
Obs Skatt KIU KIÖ PIU PIÖ Variable
Obs vs Modell4 Skattning 26-29 Juli 2011
Figur.17 Prognos för elproduktionen den 26-29 juli 2011 med modell 4.
Bilaga.10
Undersöker beroendet mellan prognosfelen i område 2.
150 100
50 0
-50 -100
-150 -200
2000
1000
0
-1000
-2000
A
Z
Residualerna för kraftverk Z och A plottade mot varandra
Figur.18 Korrelation mellan modell 3* residualerna för kraftverk A och Z.
Pearson correlation of Z and A = 0,005
Test av : att residualerna är oberoende ger p-värdet = 0,528