• No results found

Regressionsanalys av faktorer som påverkar skogsfastighetspriser i Sverige

N/A
N/A
Protected

Academic year: 2021

Share "Regressionsanalys av faktorer som påverkar skogsfastighetspriser i Sverige"

Copied!
34
0
0

Loading.... (view fulltext now)

Full text

(1)

Regressionsanalys av faktorer som påverkar

skogsfastighetspriser i Sverige

Simon Wallin simwal@kth.se Samuel Jangenstål samjan@kth.se

Handledare: Henrik Hult

Kurs: SA104X

Examensarbete inom Teknisk Fysik, grundnivå.

Institutionen för Matematik, inriktning Matematisk Statistik Kungliga Tekniska Högskolan

(2)

Matematisk Statistik

Förord

Vi vill tacka Martin Lindskog med medarbetare från Areal för den data som projektet grundas på. Utan dem hade arbetet inte varit möjligt. Vi vill

(3)

Matematisk Statistik

Sammanfattning

I denna studie utformas en prediktionsmodell för försäljningspri-ser på skogsfastigheter i Sverige. Syftet är att ge marknadsaktörer ett verktyg för att bedöma till vilket pris skogsfastigheter i Sverige förvän-tas säljas.

Modellen bygger på multipel linjär regressionsanalys av skogsfastig-heter sålda av fastighetsförmedlaren Areal mellan 2012 och 2014. De förklarande faktorerna som ingår i modellen är geografiskt läge, virkes-förråd, bonitet, befolkningstäthet och huggningsklasser.

Modellen lyckas prediktera försäljningspriset med en förklaringsgrad på 90.0 procent, vilket är tillräckligt högt för att målet ska anses va-ra uppfyllt. Denna studie har utöver prediktionsmodellen också funnit intressanta strukturella samband.

Abstract

In this study, a prediction model for selling prices of forest pro-perties in Sweden is constructed. The purpose is to give the market operators a tool for estimating the expected selling prices of properties. The model is based on multiple linear regression analysis of forest pro-perties sold by the real estate company Areal between 2012 and 2014. The explanatory factors used in the model are geographical position, standing stock of timber, standing volume fertility, population density and cutting classes.

(4)

INNEHÅLL Matematisk Statistik

Innehåll

1 Inledning 6 1.1 Bakgrund . . . 6 1.2 Syfte . . . 7 1.3 Tillvägagångssätt . . . 7 2 Teori 8 2.1 Multipel linjär regression . . . 8

2.1.1 Indikatorvariabel . . . 8 2.1.2 Indikatorvariabelfällan . . . 8 2.1.3 Minstakvadratanpassning . . . 9 2.1.4 T-test . . . 10 2.1.5 Förklaringsgrad . . . 11 2.1.6 Extremvärden . . . 11 2.2 Gauss-Markovs antaganden . . . 12

2.2.1 Icke normalfördelade residualer . . . 12

(5)

INNEHÅLL Matematisk Statistik 5 Diskussion 27 5.1 Modelljämförelse . . . 27 5.2 Multikolinjäriteter . . . 27 5.3 Strukturanalys . . . 28 5.4 Felkällor . . . 29

5.4.1 Obehandlade förklarande faktorer . . . 29

5.4.2 Kvalitativa förklarande faktorer . . . 29

5.4.3 Slumpmässiga avvikelser . . . 29

5.5 Prediktion . . . 30

5.6 Förslag på fortsatta studier . . . 30

6 Slutsats 31

7 Referenser 32

(6)

Matematisk Statistik

1

Inledning

1.1 Bakgrund

Skogen har historiskt sett utgjort en stark drivkraft för Sveriges ekonomi. Den är en av landets viktigaste naturtillgångar och över 50 procent av Sve-riges landareal består av skogsmark [1]. Skogsindustrin omsätter över 200 miljarder årligen och står för ungefär 12 procent av Sveriges varuexport [2]. Tidigare har Lantbruksnämnden reglerat försäljningen av skogsfastigheter och sedan 1990 sker den på en fri marknad [3]. Försäljning sker ofta via en mäklarfirma och ibland förekommer budgivning på fastigheten.

En skogsfastighets värde beror dels på produktionsvärden i form av lön-samhet från försäljning av fastighetens virke. Dessutom tillkommer övriga värden exempelvis markvärden, tomtbildningsmöjligheter samt rekreativa värden [4].

Figur 1: Skogsmarksprisers utveckling under 10 år (kr/m3sk).

(7)

1.2 Syfte Matematisk Statistik

1.2 Syfte

Syftet med denna studie är att utforma en modell som predikterar försälj-ningspriset på skogsfastigheter med hjälp av kvantifierbara förklarande fak-torer. Dessa faktorer är sådana som påverkar värdet hos en fastighet och därmed avgör försäljningspriset. Målet är att ge marknadsaktörer ett verk-tyg för att bedöma till vilket pris en fastighet förväntas säljas. Utöver att skapa prediktionsmodellen diskuteras även de förklarande faktorernas struk-turella samband med försäljningspriset.

1.3 Tillvägagångssätt

(8)

Matematisk Statistik

2

Teori

2.1 Multipel linjär regression

I multipel linjär regressionsanalys uppskattas värdet av en beroende variabel y (även benämnd responsvariabel ) med hjälp av ett antal förklarande fakto-rer xj (även benämnda kovariater ). Varje kovariat i en datapunkt kommer påverka den beroende variabeln y med en faktor βj (även benämnd

parame-ter ) enligt: y = k X j=0 βjxj. (1)

I (1) är k antalet kovariater som betraktas.

Värdet på x0 sätts till konstant lika med ett och därmed motsvarar värdet på β0det värde som den beroende variabeln y antar om alla andra kovariater

xj har värdet noll. Ett annat namn för β0 är intercept.

2.1.1 Indikatorvariabel

Indikatorvariabler är användbara i en modell för att beskriva faktorer som in-te är kvantifierbara. En indikatorvariabel är en kovariat som antar värdet ett eller noll beroende på om en given egenskap är närvarande eller frånvarande hos en datapunkt [6]. Exempel på en sådan är huruvida en skogsfastighet ligger nära en tätort (värde ett) eller inte nära en tätort (värde noll).

xij =

(

1, om fastigheten ligger nära en tätort.

0, annars. (2)

2.1.2 Indikatorvariabelfällan

En grupp indikatorvariabler kan vara ömsesidigt exklusiva, vilket innebär att en och endast en av dem får anta värdet ett för varje given datapunkt enligt:

X

j

xij = 1, ∀i. (3)

(9)

2.1 Multipel linjär regression Matematisk Statistik

En grupp kovariater som inte är indikatorvariabler kan också vara ömse-sidigt exklusiva om summan av deras värden är samma för varje datapunkt enligt: X j xij = C, ∀i. (4) I (4) är C en godtycklig konstant. 2.1.3 Minstakvadratanpassning

Parametrarna βj uppskattas genom en minstakvadratanpassning av kända observationer till följande modellen enligt:

yi = k X j=0 ˆ βjxij+ ei. (5)

I (5) är ˆβj minstakvadratskattningen av βj och eiär avvikelsen från modellen

i varje datapunkt i, hädanefter benämnd felet eller residualen. Residualerna från minstakvadratanpassningen följer normalekvationerna:

k

X

j=0

xjieˆi = 0. (6)

Skattningen på residualen beskrivs av:

ˆ ei = yi− k X j=0 xijβˆj. (7)

Om ˜βj är någon annan skattning av βj så definieras denna skattnings

residual ˜ei enligt: ˜ ei = yi− k X j=0 xijβ˜j. (8)

Skillnaden 4βj mellan minstakvadratskattningen och någon annan skatt-ning av βj definieras enligt:

(10)

2.1 Multipel linjär regression Matematisk Statistik

Från (6) erhålls att

k

P

j=0

xij4βj och ˆei är ortogonala. Från Pythagoras sats

erhålls därmed:

| ˜ei|2= |xij4βj|2+ | ˆei|2 ≥ | ˆei|2. (11)

Därmed visas det att minstakvadratanpassning ger skattningar av para-metrarna med de minsta residualerna. För att detta ska gälla måste dock Gauss-Markovs antaganden vara uppfyllda [6]. Dessa behandlas vidare un-der sektion 2.2.

Ur (5) och (6) erhålls följande uttryck för parametrarna ˆβj:

ˆ

βj = (xjixij)−1xjiyi. (12)

2.1.4 T-test

T-testet är en hypotesprövningsmetod som används för att kontrollera att värdet hos de förklarande variablernas parametrar är statistiskt signifikanta. Om så inte är fallet bör de plockas bort från regressionsmodellen.

För varje parametervärde prövas nollhypotesen H0, som säger att

parame-tervärdet βj för den förklarande faktorn xj är lika med noll och att

respon-svariabeln y är oberoende av den kovariaten. Alternativhypotesen HAsäger tvärtemot att kovariaten xj har en påverkan på responsvariabeln genom att

parametervärdet βj för den förklarande faktorn är skilt från noll.

Hypotes-prövningen beskrivs enligt:

H0 : βj = 0. (13)

HA: βj 6= 0. (14)

Hypoteserna prövas genom att beräkna ett t-värde enligt:

tj =

ˆ βj

σ( ˆβj)

. (15)

I (15) är σ den skattade standardavvikelsen.

(11)

2.1 Multipel linjär regression Matematisk Statistik

2.1.5 Förklaringsgrad

Förklaringsgraden R2 är ett mått på hur stor del av variationerna hos den beroende variabeln y som förklaras av kovariaterna xj. Alltså är

förklarings-graden ett mått på hur träffsäker modellen är. Linjära samband mellan va-riablerna följer: V ar(y) = V ar( k X j=0 xjβˆj) + V ar(ˆe). (16) R2 definieras då enligt: R2= V ar( k P j=0 xjβˆj) V ar(y) = 1 − V ar(ˆe) V ar(y). (17)

Enligt (17) ökar förklaringsgraden om residualerna minskas. Dock ökar R2 även då fler förklarande faktorer tas med i modellen. Om många förklarande faktorer inkluderas kan förklaringsgraden överskattas. Därför finns det ett korrigerat R2-värde som tar hänsyn till antalet kovariater enligt:

¯

R2 = R2− (1 − R2) k

n − k − 1. (18)

I (18) motsvaras antalet datapunkter av n och antalet kovariater av k. I denna studie används den korrigerade förklaringsgraden ¯R2 som mått på

förklaringsgraden [7].

2.1.6 Extremvärden

Extremvärden är observationer som skiljer sig kraftigt från de övriga obser-vationerna i en regression. För att erhålla en korrekt modell är det viktigt att exkludera extremvärden eftersom de kan förvränga uppskattningen av regressionsparametrarna.

För att se hur mycket en observation påverkar modellen kan Cook’s-avstånd undersökas. Cook’s-avståndet uppskattar till vilken utsträckning de beräk-nade regressionsparametrarna förändras när den i:te observationen tas bort från modellen enligt: di= n P l=0 (ˆyl− ˆyl(i))2 k × M SE . (19)

Medelkvadratsumman M SE för residualerna definieras som:

M SE = 1 n n X i=1 (ˆyi− yi)2. (20)

(12)

2.2 Gauss-Markovs antaganden Matematisk Statistik

2.2 Gauss-Markovs antaganden

Minstakvadratanpassning av data ger endast den bästa möjliga skattningen av parametrarna om Gauss-Markovs antaganden är uppfyllda. Här beskrivs brott mot dessa antaganden.

2.2.1 Icke normalfördelade residualer

I multipel linjär regressionsanalys antas residualerna ei vara normalfördela-de. Om så inte är fallet kan systematiska fel förekomma i modellen. Detta beror på centrala gränsvärdessatsen som visar att summan av många okän-da fördelningar alltid konvergerar till en normalfördelning. För att undersöka att residualerna är normalfördelade plottas felens distribution och jämförs med en normalfördelning. Om distributionerna följer varandra kan man anta att felen är av slumpmässig karaktär. Om så inte är fallet måste regressions-modellen omformuleras [7].

2.2.2 Heteroskedasticitet

När variansen hos residualerna ei inte är konstanta över de predikterade

värdena på responsvariabeln råder heteroskedasticitet. Detta innebär att fel-termens varians V ar(ei) kan beskrivas som en funktion av den beroende variablen yi. Motsatsen till detta kallas homoskedacticitet.

(13)

2.2 Gauss-Markovs antaganden Matematisk Statistik

Figur 2: Exempel på residualdiagram med heteroskedasticitet.

Ett grafiskt exempel på homoskedasticitet presenteras i Figur 3 :

Figur 3: Exempel på residualdiagram med homoskedasticitet.

(14)

2.2 Gauss-Markovs antaganden Matematisk Statistik

2.2.3 Multikolinjäritet

Multikolinjäritet är ett problem som inträffar då för hög korrelation råder mellan de förklarande variablerna, vilket kan leda till höga standardavvikel-ser och det kan göra kovariater insignifikanta. Problemet upptäcks genom att studera korrelationen mellan de förklarande variablerna exempelvis genom att plotta variablerna mot varandra enligt Figur 4 :

Figur 4: Multikolinjäritet mellan förklarande variablerna X och Y.

Ett mått på en kovariats grad av multikolinjäritet är variance of inflation factor, härifrån förkortat VIF. VIF ger ett värde som mäter hur mycket variansen på de skattade parametrarna ökar på grund av multikolinjäritet. För varje förklarande faktor j skapas en ny regressionsmodell där den valda förklarande faktorn är responsvariabel och de övriga förklarande faktorerna är kovariater. Regressionsanalys för de nya modellerna utförs enskilt där förklaringsgraden R2j för den j:te förklarande variabeln kan bestämmas. VIF för det motsvarande parametervärdet ˆβj beräknas enligt:

V IF ( ˆβj) =

1

(15)

2.2 Gauss-Markovs antaganden Matematisk Statistik

Om för hög multikolinjäritet inträffar behöver modellen omformuleras. Det finns flera tänkbara metoder för att undvika multikolinjäritet. En sådan är att sammanfoga variablerna genom att exempelvis multiplicera eller dividera variablerna med varandra. Multikolinjäritet är dock ett större problem för strukturanalyser än för prediktionsmodeller

(16)

Matematisk Statistik

3

Metod

Modellen som frågeställningen eftersträvar bygger på parameterskattningar-na från regressionen med den högsta möjliga förklaringsgraden samtidigt som Gauss-Markovs antaganden är uppfyllda. Regressionen görs i det statistiska analysprogrammet SPSS. Förklarande faktorer som i preliminära regressio-ner får ett p-värde på över 0.05 förkastas i senare regressioregressio-ner och ingår därför inte i prediktionsmodellen. För att extremvärden inte ska förvränga modellen exkluderas fastigheter som har Cook’s-avstånd större än 1.

3.1 Variabler

Den beroende variabeln heter försäljningspris och avser en fastighets försälj-ningspris per areal i enheten kronor per hektar skog. Valet motiveras med att modellen blir träffsäkrare när triviala linjära samband som priset gentemot arealen utesluts. Eftersom responsvariabeln mäts per areal kommer samtliga extensiva kovariater vara representerade med intensiva storheter som ock-så anges per areal. De studerade kovariaterna redogörs i sektionerna 3.1.1-3.1.10. Där redogörs även hypoteser gällande deras inverkan på modellen.

Försäljningspriset justeras varken efter konsumentprisindex eller skogspris-index eftersom under tiden data är inhämtad har båda legat på en tillräckligt stabil nivå för att inte ha någon inverkan på modellen [5][8].

(17)

3.1 Variabler Matematisk Statistik

3.1.1 Virkesförråd

Figur 6: Försäljningspriset hos de undersökta fastigheterna marke-rade på en Sverigekarta.

Beskriver hur stor virkesvolym som för närvarande finns på fastigheten. Anges i enheten kubikmeter skog per hektar. Till följd av en tidigare strukturanalys för-väntas kovariaten virkesförråd korrelera positivt med försäljningspris då ett stör-re virkesförråd möjliggör en mer omfat-tande avverkning av skogen [9].

3.1.2 Y-koordinat

Beskriver hur långt norrut fastigheten ligger med hjälp av Y-koordinaten i det geodetiska referenssystemet SWEREF-99, där Y-koordinaten är positionen i den syd-nordliga axeln. Kovariaten Y-koordinat förväntas korrelera negativt med försäljningspris då befolkningstät-heten samt tillgången till infrastruktur generellt sett är sämre i norra Sverige än i södra Sverige. Dessutom möjliggör kli-matet i södra Sverige en högre bördighet än i norra Sverige [5]. I Figur 6 ser man en trend mellan högre försäljningspriser och sydligare läge.

3.1.3 Bonitet

(18)

3.1 Variabler Matematisk Statistik

3.1.4 Tätort

En indikatorvariabel som antar värdet ett om avståndet mellan fastigheten och en tätort är mindre än en kilometer, annars antar den värdet noll. Definitionen på en

tätort är en sammanhängande bebyggelse med minst 200 invånare där av-ståndet mellan tomterna inte är högre än 200 meter [12]. Till följd av en tidigare strukturanalys förväntas kovariaten tätort korrelera positivt med försäljningspris, då skogen blir lättillgängligare för fler människor. Dessutom antas sannolikheten öka för att tomter ska bildas på fastigheten om den redan ligger i anslutning till en befintlig tätort [13].

3.1.5 Storstad

En indikatorvariabel som antar värdet ett om avståndet mellan fastigheten och en storstad är mindre än fem mil, annars antar den värdet noll. Defini-tionen av en storstad är i detta fall Stockholm, Göteborg och Malmö. Kova-riaten storstad förväntas korrelera positivt med försäljningspris av samma orsaker som för kovariaten tätort.

3.1.6 Befolkningstäthet

Beskriver hur hög befolkningstätheten var enligt statistiska centralbyrån den 31:a december 2014 i kommunen som skogsfastigheten ligger i. Anges i en-heten invånare per kvadratkilometer. Kovariaten befolkningstäthet förväntas korrelera positivt med försäljningspris av samma orsaker som för kovariaten tätort.

3.1.7 Huggningsklasser

Huggningsklasser är en grupp av kovariater som anger den procentuella an-delen av en fastighets areal som består av huggningsklasserna kalmark, röj-ningsskog, gallringsskog eller föryngringsavverkningsskog

Kalmark är skogsmark som är obehandlad eller ofullständigt behandlad där åtgärder behövs för att erhålla återväxt av skog. Kovariaten kalmark förvän-tas korrelera negativt med försäljningspris då det är en ytterligare kostnad för en köpare att plantera skog där.

Röjningsskog är plant- eller ungskog där flertalet härskande och medhärs-kande träd är mindre än 10 cm i brösthöjd.

(19)

hög-3.2 Data Matematisk Statistik

slutavverkning enligt skogsvårdslagen.

Föryngringsavverkningsskog är skog där beståndsåldern har uppnått en så-dan ålder att slutavverkning åtföljts av att återväxtåtgärder föreslås. Denna förklarande faktor förväntas korrelera positivt med försäljningspris då pro-duktionskostnaden för slutavverkningsskog är lägre jämfört med skog i de andra huggningsklasserna.

Huggningsklassen gallringssskog används som benchmark för att undvika fullständig multikolinjäritet [14].

3.1.8 Tillväxt

Kovariaten tillväxt beskriver hur stor virkesvolym per areal som förväntas växa på fastigheten under perioden 2012 till 2024. Anges i enheten kubikme-ter skog per hektar och år. Denna förklarande faktor förväntades korrelera positivt med försäljningspris då en högre tillväxt antas möjliggöra en mer omfattande avverkning av skogen, av samma orsak som virkesförråd.

3.1.9 Träslagsfördelning

Träslagsfördelningen är en grupp av kovariater som anger den procentuella andelen av virkesförrådet som består av tall, löv, björk eller gran. Trädslaget gran används som benchmark för att undvika fullständig multikolinjäritet.

3.1.10 Skogsmarksareal

Beskriver hur stor areal av fastigheten som består av produktiv skogsmark. Här exkluderas exempelvis skogsimpediment och naturreservat. Anges i en-heten hektar. Kovariaten skogsmarksareal är den enda kovariaten som ut-trycks i en extensiv storhet.

3.2 Data

Data som studeras kommer från skogsfastighetsförmedlaren Areal och består av skogsfastigheter sålda under åren 2012 till 2014. Totalt undersöktes 549 fastigheter. Till dessa fastigheter fanns information om dess försäljningspris, virkesförråd, Y-koordinat, areal produktiv skogsmark. För 188 av dessa fas-tigheter fanns även information om tillväxt, bonitet, träslagsfördelning samt avverkningsklassfördelning. Resterande kovariater erhålls från respektive fas-tighets position.

(20)

3.3 Tranformation av variabler Matematisk Statistik

3.3 Tranformation av variabler

(21)

Matematisk Statistik

4

Resultat

Studien resulterade i två separata modeller med högre förklaringsgrad än andra regressioner. Den första modellen, härifrån benämnd breda modellen, inkluderar fler förklarande faktorer men endast 179 datapunkter. Den andra modellen, härifrån benämnd långa modellen, inkluderade färre förklarande faktorer men 534 datapunkter. Exkluderandet av extremvärden resultera-de i att 9 datapunkter från breda moresultera-dellen och 15 datapunkter från långa modellen inte ingick i regressionerna som respektive modell baseras på. Ko-variaterna tillväxt, skogsmarksareal träslagsfördelning och huggningsklasser förutom andel kalmark är inte signifikanta och exkluderas därför ur model-lerna.

4.1 Breda modellen

Regressionen utfördes enligt modellen specificerad i (22) och försäljningspri-ces erhålls explicit i (23). Variablerna är angivna i Tabell 1. Kovariaten storstad har exkluderats ur denna modell eftersom den uppvisar fullstän-dig multikolinjäritet med tätort för fastigheterna som ingick i regressionen, vilket diskuteras vidare under sektion 5.2.

log(y) = β0+ β1log(x1) + β2x2+ β3log(x3) + β4x4+ β5log(x5) + β6x6 (22)

y = exp(β0+ β1log(x1) + β2x2+ β3log(x3) + β4x4+ β5log(x5) + β6x6) (23)

Tabell 1: Breda modellens variabler.

y Försäljningspris kr/ha x1 Virkesförråd m3skog/ha x2 Y-koordinat Intervallskala x3 Bonitet m3skog/ha x4 Tätort Indikatorvariabel x5 Befolkningstäthet invånare/km2 x6 Kalmark Procent 4.1.1 Tillförlitlighet

Modellen har en korrigerad förklaringsgrad på 0.900, vilket innebär att mo-dellen förklarar 90.0 procent av en fastighets försäljningspris.

(22)

4.1 Breda modellen Matematisk Statistik

vara användbar, vilket visas i Figur 7. Residualdiagramet i Figur 8 visar att homoskedasticitet råder, då residualerna är jämt fördelade över samtliga predikterade y-värden .

Samtliga kovariater som ingår i modellen har V IF < 5 (se Tabell 6 i Ap-pendix ), vilket tyder på att multikolinjäriteten är tillräckligt låg för att alla kovariater ska kunna användas. Dock finns en korrelationsgrad på −0.814 mellan kovariaterna logaritmerad bonitet och Y-koordinat (se Tabell 7 i Ap-pendix ), vilket diskuteras vidare under sektion 5.2.

(23)

4.1 Breda modellen Matematisk Statistik

Figur 8: Breda modellens residualdiagram.

4.1.2 Parametervärden

I regressionen har parametervärdena βj skattats till värdena enligt Tabell 2 nedan. Där presenteras även parametrarnas standardavvikelser samt deras p-värden.

Tabell 2: Breda modellens parametervärden.

Parameter βˆj Standardavvikelse p-värde

(24)

4.2 Långa modellen Matematisk Statistik

4.2 Långa modellen

Regressionen utfördes enligt modellen specificerad i (24) och försäljnignspri-set erhålls explicit i (25). Variablerna är angivna i Tabell 3.

log(y) = β0+ β1x1+ β2x2+ β3log(x3) + β4x4+ β5x5 (24)

y = exp(β0+ β1x1+ β2x2+ β3log(x3) + β4x4+ β5x5) (25)

Tabell 3: Långa modellens variabler.

(25)

4.2 Långa modellen Matematisk Statistik

Figur 10: Långa modellens residualdiagram.

4.2.1 Tillförlitlighet

Modellens korrigerade förklaringsgrad är 0.869, vilket innebär att modellen förklarar 86.9 procent av en fastighets försäljningspris.

Även i denna modell är residualerna normalfördelade enligt Figur 9. Re-sidualplotten i Figur 10 visar att homoskedasticitet råder.

Samtliga kovariater som ingår i modellen uppfyller kravet V IF < 5 (se Tabell 6 i Appendix ), vilket åter igen tyder på att multikolinjäriteten är tillräckligt låg för att alla kovariater ska kunna användas.

4.2.2 Parametervärden

(26)

4.2 Långa modellen Matematisk Statistik

Tabell 4: Långa modellens parametervärden.

Parameter βˆj Standardavvikelse p-värde

(27)

Matematisk Statistik

5

Diskussion

5.1 Modelljämförelse

Figur 11: Boniteten hos de under-sökta fastigheterna markerade på en Sverigekarta. Gröna fastighe-ter har hög bonitet och röda har låg bonitet.

Båda modellerna uppfyller Gauss-Markovs antaganden och har därmed giltiga para-meterskattningar ˆβj. Den långa

respek-tive breda modellen lyckas förklara för-säljningspriset med en förklaringsgrad på 86.9 respektive 90.0 procent. Modellernas skattade parametervärden för gemensam-ma kovariater skils åt modellerna emel-lan, se Tabell 2 och Tabell 4. Detta beror på att kovariater som finns i en modell men inte i den andra förklaras med hjälp av alternativa kovariater som absorberar en större del av förklaringsgraden. Det faktum att den breda modellen ger en högre förklaringsgrad än den långa visar på att modellen blev träffsäkrare av att lägga till nya relevanta förklarande fakto-rer. Den långa modellens residualfördel-ning är mer lik normalfördelresidualfördel-ning än den breda modellens residualfördelning, vil-ket antas bero på fler datapunkter. Men den breda modellens residualer anses föl-ja normalfördelningen tillräckligt bra för att modellen ska kunna anses giltig. Den-na studies slutgiltiga prediktionsmodell väljs till den breda modellen eftersom den har en högre förklaringsgrad.

5.2 Multikolinjäriteter

(28)

bå-5.3 Strukturanalys Matematisk Statistik

da kovariaterna ska vara signifikanta. Då modellen enbart används till prediktion är denna multikolinjäritet inget problem.

I den breda modellen hade kovariaten tätort fullständig multikolinjäritet med kovariaten storstad. Det beror på att samtliga fastigheter som uppfyll-de kravet för tätort också uppfylluppfyll-de kravet för storstad och vice versa. Därför exkluderades kovariaten storstad från modellen och dess inverkan kan för-klaras av kovariaten tätort. I den långa modellen är både storstad och tätort signifikanta, vilket tyder på att båda dessa egenskaper har separata bidrag till försäljningspriset.

5.3 Strukturanalys

Samtliga signifikanta parameterskattningar stödjer hypotesformuleringarna av kovariaternas inverkan på försäljningspriset från sektion 3.1. Detta stöd-jer denna studies hypoteser samt resultaten hos tidigare strukturanalyser för dessa kovariater.

Det fanns kovariater som hypotiserats ha en inverkan på försäljningspriset men som inte hade någon signifikans i regressionerna där de ingick. Kovaria-ten tillväxt hade visserligen en signifikans i regressioner där den ingick utan kovariaten bonitet. När bonitet användes försvann dess signifikans, vilket är ett tecken på kraftig multikolinjäritet mellan dessa kovariater. Därför utfor-mades en regression där det geometriska medelvärdet av bonitet och tillväxt definierades som en ny kovariat. Förhoppningen var att bådas inverkan skulle inkluderas i modellen. Regressionen resulterade i en lägre förklaringsgrad än modellen innehållandes enbart bonitet. Eftersom regressionerna med enbart kovariaten bonitet gav en högre förklaringsgrad exkluderades därför kovari-aten tillväxt från modellen. Detta skulle kunna tyda på att tillväxt har en inverkan på försäljningspriset, men ingen inverkan som inte kan förklaras bättre av boniteten.

(29)

5.4 Felkällor Matematisk Statistik

5.4 Felkällor

Den breda modellen lyckades förklara försäljningspriset med en förklarings-grad på 90.0 procent. De resterande 10.0 procenten kan bero på obehandlade förklarande faktorer, faktorer som är kvalitativa samt slumpmässiga avvikel-ser.

5.4.1 Obehandlade förklarande faktorer

En fallstudie av ett urval av fastigheter med försäljningspriser som avviker kraftigt från prediktionsmodellen visar att över- respektive underprediktera-de fastigheter i många fall har gemensamma egenskaper. Detta skulle kunna tyda på att förklarande faktorer saknas i modellen. En gemensam egenskap hos dessa fastigheter är medelskotningsavstånd. Det är ett mått på hur lång sträcka ett fordon måste färdas i ren skogsterräng för att nå en genom-snittlig punkt som ligger inom fastigheten. Ett högt medelskotningsavstånd antas leda till ett lägre försäljningspris eftersom det är kopplat till högre av-verkningskostnader. Fallstudierna visade att många av de underpredikterade fastigheterna har ett lågt medelskotningsavstånd, medan de överprediktera-de fastigheterna ofta har ett högt meöverprediktera-delskotningsavstånd, vilket ligger i linje med denna hypotes.

5.4.2 Kvalitativa förklarande faktorer

En fallstidue av fastigheter som exkluderas från modellen på grund av ett för högt Cook’s-avstånd visar på ett antal kvalitativa egenskaper som antas beskriva avvikelsen från modellen. Exempelvis beskrivs en fastighet ha en "milsvid utsikt" och "anor från 1200-talet", vilket är egenskaper som an-tas ha ökat försäljningspriset. Sådana egenskaper bör alltid beakan-tas då man försöker prediktera ett försäljningspris.

5.4.3 Slumpmässiga avvikelser

En viss slumpmässig avvikelse ingår alltid i statistiska modeller. Avvikelsen kan ibland förklaras av tillfälliga omständigheter. Om exempelvis många in-tressenter finns för en fastighet vid en given tidpunkt kommer försäljningspri-set troligen att öka. Skogsfastigheter har ofta få spekulanter och budgivning förekommer inte alltid. Detta leder enligt Ulrik Abelson till att prissprid-ningen hos fastigheterna kan bli stora [15].

(30)

5.5 Prediktion Matematisk Statistik

icke-vinstintressen och 50 procent hade blandade intressen [16]. Dessa fakto-rer bidrar troligen till slumpmässiga avvikelser hos skogsfastigheters försälj-ningspriser.

5.5 Prediktion

Prediktion antar att förhållandena är likadana som när modellen skapades. Förklarande faktorer, som under tiden data inhämtades var stabila och inte visade någon påverkan, kan mycket väl förändras i ett senare skede och på-verka försäljningspriset på ett sätt som gör modellen osäkrare. Som tidigare nämnt har konsumentprisindex varit relativt stabilt under tiden försäljning-arna som denna studie bygger på gjordes. Ett predikterat försäljningspris bör därför korrigeras med det aktuella konsumentprisindexet mot 2014 för den tid då försäljningen utförs.

5.6 Förslag på fortsatta studier

Förbättringar i den befintliga modellen kan göras för att öka dess förklarings-grad. Ytterligare kovariater att undersöka i en fortsatt studie med eventuell signifikans föreslås i sektion 5.3, som att inkludera medelskotningsavstånd som kovaiat och betrakta huggningsklasser fördelade på virkesförrådet istäl-let för arealen. Positionen skulle dessutom kunna utnyttjas bättre genom att exempelvis hypotisera om vilka platsrelaterade faktorer som påverkar försälj-ningspriset på en skogsfastighet. Indikatorvariabeln tätort kan göras om till en kontinuerlig variabel som beskriver logaritmen av avståndet från en tätort. Det logaritmiska beroendet motiveras av att avståndet till en tätort rimligt-vis får en mindre inverkan på försäljningspriset vid långa avstånd. Dessutom skulle ett större antal datapunkter förbättra säkerheten i regressionanalysen.

(31)

Matematisk Statistik

6

Slutsats

Försäljningspriset på en skogsfastighet i Sverige kan med hjälp av modellen framtagen i denna studie predikteras till en förklaringsgrad på 90.0 procent. Kovariaterna virkesförråd, Y-koordinat, tätort, kalmark, befolkningstäthet och bonitet ingår i den slutgiltiga modellen, vilkas bidrag följer de formulerade hypoteserna. En analys av fastigheter som avviker kraftigt från modellen antyder att några påverkande faktorer saknas i modellen. Övriga avvikelser från modellen får anses bero på kvalitativa och slumpmässiga faktorer.

(32)

Matematisk Statistik

7

Referenser

[1] Skogsstyrelsen. Fakta om skogen. [www]. Hämtad från <http://www.skogsstyrelsen.se/Upptack-skogen/Skog-i-Sverige/Fakta-om-skogen/>. Hämtat 2015-04-16.

[2] Skogsindustrierna. (2011). Skogsindustrin - En faktasamling. Stockholm: Skogsindustrierna. ISSN 1402-6740

[3] Riksdagen. Betänkande 1990/91:JoU26 Ändring i jordförvärvslagen m.m.. [www]. Hämtad från <http://www.riksdagen.se/sv/Dokument-Lagar/Utskottens-dokument/Betankanden

/Arenden/199091/JoU26/>. Hämtat 2015-04-27

[4] Ekwall, H. Skogsskötselns ekonomi. [www]. Hämtat från <http://www.skogsstyrelsen.se/Global/PUBLIKATIONER/Skogsskotselserien/PDF/18-Skogsskotselns%20ekonomi.pdf>. Publicerat 2009-06-22. Hämtat 2015-05-11

[5] LRF Konsult. Skogsbarometern 2014. [www]. Hämtat från <http://www.lrfkonsult.se/press/vara-

publikationer/skog1/prisstatistik/den-nedatgaende-trenden-ar-bruten—marknaden-for-skogsmark-har-stabiliserats-under-2014/>. Hämtat 2015-04-27

[6] Kleinbaum, David G. (2008). Applied Regression Analysis and Other Mul-tivariable Methods. 4. uppl. Druid Hills, GA: Brooks/Cole Cengage Learning. ISBN 0-495-38498-4

[7] Gujarati, Damodar N. (2009). Basic Econometrics. 5. uppl. New York, NY: McGraw-Hill Education. ISBN-13 978-007-127625-2

[8] SCB. Konsumentprisindex. [www]. Hämtat från <http://www.scb.se/sv/

Hitta−statistik/Statistik−efter- amne/Priser−och−konsumtion/Konsumentprisindex/Konsumentprisindex−KPI/33772/33779/Konsumentprisindex-KPI/272151/>. Hämtat 2015-04-27

[9] Swahn, K. (2013). Faktorer som förklarar marknadspriset för skogsfastig-heter i Kalmar län. Diss. Umeå: Kandidatarbete.

[10] Hägglund, Björn (1987). Handledning i bonitering med Skogshögskolans boniteringssystem. 2. uppl. Jönköping: Skogsstyr. ISBN 91-85-74864-1. [11] Gyllenstierna, L. (2014). Bonitet som värderingsunderlag Virkesproduk-tionsförmåga översatt till monetära värden. Diss. Umeå: Kandidatarbete.

[12] Nationalencyklopedin. Tätort. [www]. Hämtat från <http://www.ne.se/uppslagsverk/encyklopedi /lång/tätort>. Hämtat 2015-04-16

[13] Högberg, J. (2012). Vad påverkar marknadsvärdet på en skogsfastighet? - En statistisk analys av markvärdet. Diss. Uppsala: Masterarbete

[14] Christiansen, L. (2014). Skogsstatistik Årsbok 2014. Jönköping: Skogs-styrelsen. ISBN-13 978-91-87535-05-5

[15] Abelson, U. (2014). Fastighetsmarknaden: Tydligt bättre i söder. Skogs-värden, volym 4, 24-25.

(33)

Matematisk Statistik

8

Appendix

Tabell 5: Egenskaper Modell Bred Lång R2 0.903 0.871 Korrigerat R2 0.900 0.869 Maximalt Cook’s-avstånd 0.061 0.094 Tabell 6: VIF-värden Modell Bred Lång Storstad 1.156 Tätort 1.087 1.161 Logaritmerad befolkningstäthet 1.813 1.415 Y-koordinat 3.057 1.367 Virkesförråd 1.168 Logaritmerat virkesförråd 1.304 Logaritmerad bonitet 3.350 Kalmark 1.058

Tabell 7: Korrelationer hos den breda modell

(34)

Matematisk Statistik

Logaritmerat virkesförråd Logaritmerad bonitet Logaritmerad befolkningstäthet 0.412 0.590 Logaritmerat virkesförråd 0.427 Logaritmerad bonitet 0.427 Tätort 0.156 0.096 Y-koordinat -0.360 -0.814 Kalmark -0.107 0.111

Tätort Y-koordinat Kalmark Logaritmerad befolkningstäthet 0.269 -0.557 0.066 Logaritmerat virkesförråd 0.156 -0.360 -0.107 Logaritmerad bonitet 0.096 -0.814 0.111 Tätort -0.077 -0.075 Y-koordinat -0.077 -0.049 Kalmark -0.075 -0.049

Tabell 8: Korrelationer hos den långa modell

Logaritmerat försäljningspris Storstad Tätort

Storstad 0.207 0.316

Tätort 0.270 0.316

Logaritmerad befolkningstäthet 0.570 0.204 0.135

Y-koordinat - 0.697 - 0.015 - 0.056

Virkesförråd 0.758 0.087 0.221

Logaritmerad befolkningstäthet Y-koordinat Virkesförråd

Storstad 0.204 - 0.015 0.087

Tätort 0.135 - 0.056 0.221

Logaritmerad befolkningstäthet - 0.486 0.283

Y-koordinat - 0.486 - 0.286

References

Related documents

Boverket delar bedömningen att följande verksamheter kan undantas från till- ståndsplikt och anmälningsplikt utan att allmänna regler införs:.. • Användning av icke-förorenad

Vi välkomnar regeringen och Naturvårdsverket till en tät dialog med byggbranschens alla aktörer för att på bästa och snabbaste sätt verka för ökad återvinning och

Ekerö kommun år i grunden positiv till att införa föreslagna allmänna regler.. som skulle innebära att vissa verksamheter får undantag från

avfallsförbränning i specifika anläggningsändamål bör utredas för att omfattas av de allmänna reglerna inom ramarna för del 2 av uppdraget.. Inom några år kommer

Energigas Sverige, som är branschorganisationen för energigaserna i Sverige, tackar för inbjudan att lämna synpunkter på rubricerad rapport. Energigas Sverige har inga synpunkter

Verksamhet miljö och bygg bedömer att den redovisningen som Naturvårdsverket har remitterat, inte innebär någon lättnad i prövningen för verksamheter som använder avfall

Göteborgs Stad delar Naturvårdsverkets uppfattning att det kan vara lämpligt att undanta lagring, krossning och annan mekanisk bearbetning av jord-och bergmassor, betong,

Av de allmänna reglerna ska det tydligt framgå att lokalisering av en verksamhet som omfattas av bestämmelserna inte får medföra att verksamheten ger upphov till en sådan