• No results found

Estimation av bostadsrättspriser i Stockholms innerstad medelst multipel regressionsanalys.

N/A
N/A
Protected

Academic year: 2022

Share "Estimation av bostadsrättspriser i Stockholms innerstad medelst multipel regressionsanalys."

Copied!
44
0
0

Loading.... (view fulltext now)

Full text

(1)

Estimation av bostadsrättspriser i Stockholms innerstad medelst multipel regressionsanalys

Rickard Gunnvald F-09 ricgun@kth.se Patrik Gunnvald F-09 gunnvald@kth.se

Kurs SA104X Examensarbete inom teknisk fysik, grundnivå Institutionen för Matematik, inriktning Matematisk Statistik

Kungliga Tekniska Högskolan Handledare: Harald Lang

21 Maj 2012

(2)

Abstract

This report aims to study the condominium prices in central Stockholm and the factors that affect these prices. A linear regression model was set up and data about relevant covariates such as floor area, mortgage rates and where the condominium is situated were gathered to assess if and how they influence the price. The raw data was processed and enhanced to gain as much relevant information as possible to the model. To determine the covariates’ influence on the final price, regressions were ran and various tests were performed on the output data. This lead to that the covariates were either kept or excluded from the original model depending on the outcome of these tests. The above resulted in a model where all remaining covariates are significant for the final price of the condominium.

The authors draw the conclusion that, with the models limitations taken into account, the project satisfies one of our purposes to be able to give a correct price on a condominium in central Stockholm to an acceptable degree. The other purpose of giving more specific

information about what the individual characteristics of a condominium is regarded as fulfilled.

However, the authors also note that there are possibilities for additional model development which would be beneficial for the purposes of this project.

Sammanfattning

Rapportens syften är att studera dels bostadsrättspriser i Stockholms innerstad och dels de faktorer som påverkar dessa priser. En linjär regressionsmodell införs och data om relevanta kovariater såsom golvyta, bolåneräntor och vart bostadsrätten ligger samlades in för att bedöma om och hur de påverkar priset. Rådata behandlades och förbättrades för att få ut så mycket relevant information som möjligt till modellen. För att bestämma kovariaternas påverkan på slutpriset så kördes regressioner och olika test användes på resulterande data.

Detta ledde till att kovariaterna antingen behölls eller uteslöts från originalmodellen beroende på testresultaten. Ovan resulterade i två modeller där alla kvarvarande kovariater är

signifikanta för bostadsrättslägenhetens slutpris.

Författarna drar slutsatsen att - med modellens giltighetsområden och begräsningar i beaktande - arbetet uppfyller vårt ena syfte om att kunna sätta rätt pris på

bostadsrättslägenheter i Stockholms innerstad till en acceptabel grad. Det andra syftet om att kunna ge mer konkret information av vad specifika egenskaper är värda anser författarna vara uppfyllt, men noterar att det finns utrymme för vidare studier som skulle förbättra våra två modeller och till en högre grad uppfylla arbetets syften.

(3)

Innehåll

1 Inledning och syfte 1

2 Generellt om regressionsanalys 2

2.1 Terminologi . . . 2

2.2 Matematisk bakgrund . . . 3

2.2.1 Nödvändiga antaganden . . . 3

2.2.2 Linjär regressionsmodell . . . 3

2.2.3 Ordinary Least Square (OLS) . . . 4

2.2.4 Kort om hypotesprövning . . . 4

2.3 Test- och mätmetoder . . . 4

2.3.1 F-test . . . 4

2.3.2 p-värden . . . 5

2.3.3 White’s robust errors . . . 5

2.3.4 Bayesian information criterion (BIC) . . . 5

2.3.5 R2 och R2adj . . . 6

2.4 Fallgropar vid regressionsanalys . . . 7

2.4.1 "The Dummy Variable Trap" . . . 7

2.4.2 Multikollinearitet . . . 7

2.4.3 Heteroskedasticitet . . . 7

2.4.4 Endogenitet . . . 8

2.4.5 Utelämnande av relevanta kovariater . . . 8

2.4.6 Samtidighet . . . 8

2.4.7 Självselektion . . . 8

3 Metod 9 3.1 Allmänt om utförandet . . . 9

3.2 Beslutsregler . . . 9

3.3 Våra två grundmodeller . . . 10

3.3.1 Log-modell . . . 10

3.3.2 Våra kovariater . . . 11

3.4 Datainsamling . . . 14

3.5 Rensning och förbättring av erhållen data . . . 15

3.5.1 Slutpris, avgift och rum . . . 15

3.5.2 Våning . . . 15

3.5.3 Sekelskiftes, Nybyggt . . . 15

3.5.4 Områdesdummys . . . 16

3.5.5 OMXS30 . . . 17

(4)

INNEHÅLL INNEHÅLL

3.5.6 Bolåneräntor . . . 17

3.5.7 Blandtermsdummys . . . 17

3.5.8 Att transformera oberoende variabler . . . 18

4 Resultat 19 4.1 Tabeller och diagram . . . 19

4.2 Log-modellen . . . 24

4.3 Våra två slutmodeller . . . 25

4.3.1 Huvudmodellen . . . 25

4.3.2 Alternativmodellen . . . 25

4.4 Ytterligare resultat för huvudmodellen . . . 26

5 Diskussion 27 5.1 Resultatens påvisande och diskussion kring dessa . . . 27

5.1.1 Normalfördelningshistogram och residualplot . . . 27

5.1.2 Kort om Log-modellen . . . 27

5.1.3 Uteslutna kovariater . . . 27

5.1.4 Signifikanta kovariater . . . 29

5.2 Felkällor . . . 34

5.3 Övrigt kring resultaten . . . 35

5.4 Slutsatser och kommentarer . . . 35

5.5 Förslag för vidare undersökning . . . 36

6 Referenser 39

(5)

Kapitel 1

Inledning och syfte

Priserna på bostäder i Sverige i allmänhet och bostadsrätter i Stockholms innerstad i synnerhet är ständigt i medias rampljus. De som köpt en bostadsrätt i Stockholms innerstad för 10-20 år sedan har gjort en mycket god affär, då priserna gått stadigt uppåt1. Ett sänkt bolånetak i kombination med den finansiella krisen som pågått i stort sett sedan 2008 har bidragit till mer stabiliserade priser.

Att köpa en bostad är för många den största affär man gör i livet, varför allmänheten har ett stort intresse av att inte göra en dålig affär; särskilt med tanke på den rekordhöga skuldsättning som många hushåll utsätter sig för2. Således ställer sig den går i köptankar frågan: ”Vilket pris är rimligt att betala för den här bostadsrätten?”. Eftersom det är många parametrar som väger in kan det vara svårt både för köpare/säljare och mäklare att på ett tillförlitligt sätt uppskatta bostadens värde.

Syftet med detta arbete är att svara på bl.a. denna fråga, och på ett statistiskt underbyggt sätt ge en vägledning till vad priset bör vara. Ett ytterligare syfte är att kunna beskriva hur mycket de enskilda parametrarna bidrar till slutpriset, så att man som enskild person vet vad det är man betalar för och därigenom kan göra ett bättre övervägande mellan vad man vill ha och vad man är beredd att betala. Detta kan även underlätta investeringsbeslut gällande t.ex. nybygge av balkong eller öppen spis.

För att kunna svara på frågorna ovan använder vi oss av en regressionsmodell som vi tagit fram med hjälp av multipel regressionsanalys.

1http://www.maklarstatistik.se/media/9277/2011-01-18%20och%20decenniet%20som%20g%C3%A5tt.pdf

2http://www.ekonomifakta.se/sv/Fakta/Ekonomi/Hushallens−ekonomi/Hushallens−skulder/

(6)

Kapitel 2

Generellt om regressionsanalys

2.1 Terminologi

Yi= β0+ β1Xi1+ β2Xi2+ · · · + βkXik+ ei

Kovariat : ibland även kallad regressor, oberoende variabel eller endast variabel. Vanlig notation är X eller xi där i är en specifik kovariat i ekvationen. Detta är den som påverkar beroende variabeln.

Beta: är den koefficient som multipliceras med respektive kovariat.

Beroende variabel : ibland även kallad regressand eller observerad variabel. Vanlig notation Y eller yi.

Dummy-variabel : är en kovariat som endast antar värdena 0 eller 1.

Residual : eller felterm, är den del vi ej kan förklara med hjälp av vår ekvation. Vanlig notation eimen även andra notationer som ˆei, ei, u, ˆui förekommer för att kunna särskilja feltermer. Som notationen antyder erhålles för varje uppmätt värde yi ett specifikt ei.

Strukturtolkning : är när man undersöker huruvida en kovariat påverkar den beroende variabeln.

Benchmark : sätts bl.a. av praktiska skäl för att lättare kunna jämföra förändring av vissa kova- riater jämfört med ens benchmark eller för att undvika multikollinearitet (se 2.4.2).

Instrumentella variabler : införs för att avhjälpa endogenitet (se 2.4.4). Grundidén är att hitta nya kovariater som är väl korrelerade med den endogena kovariaten men okorrelerad med felter- men. När dessa hittas tas den endogena bort och de nya kovariaterna läggs till de gamla exogena kovariaterna. De gamla och nya kovariaterna kallas nu för instrumentella variabler.

Ceteris paribus: är latin för ”allt annat lika”. Används bland annat då man diskuterar hur en kovariat, om man endast hade ändrat den och inget annat, eller ceteris paribus påvekar den beroende variabeln.

(7)

2. Generellt om regressionsanalys 2.2. MATEMATISK BAKGRUND

2.2 Matematisk bakgrund

2.2.1 Nödvändiga antaganden

Då Ordinary Least Square (se 2.2.3) skall ge lämpliga estimatorer för koefficienterna i den linjära regressionsmodellen krävs att vissa grundantaganden är uppfyllda. Givet modellen i ekv. 2.3, i = 1, · · · , n skall följande gälla:

1. Feltermerna ei antas ha ett villkorat medelvärde lika med 0, dvs att:

E(ei|X1i, X2i, . . . , Xki) = 0 (2.1) Notera att kravet är att medelvärdet är 0. Alltså tillåts att enskilda Yi är över eller under regressionslinjen (vilket ger upphov till en felterm ei) så länge det förväntade medelvärdet av dessa feltermer är 0.

2. Feltermerna ei antas oberoende av varandra samt vara homoskedastiska (se 2.4.3) och ha en varians σ2, alltså:

E(e2i|X1i, X2i, . . . , Xki) = σ2 (2.2) där σ2 är okänd. Observera att homoskedasticitet inte är normalfallet då man behandlar verklig data. Det finns dock sätt att hantera detta problem, vilket kommer diskuteras senare i rapporten.

3. Feltermerna ei antas vara likafördelade. Ofta antas även att de är normalfördelade, vilket kan framstå som ett mer vågat antagande. Detta antagande har undersökts av oss och justifieras av Fig. 4.2.

4. Det får ej förekomma perfekt multikollinearitet (se 2.4.2).

2.2.2 Linjär regressionsmodell

Den generella linjära regressionmodellen definieras enligt:

Yi= β0+ β1Xi1+ β2Xi2+ . . . + βkXik+ ei (2.3) där Yiär observationer som beror på kovariaterna Xik. HL i (2.3) kan delas upp i två huvuddelar, den förklarade delen och den oförklarade delen. Modellen kan alltså endast förklara en del av det observerande värdet och resterande är en avvikelse, eller felterm, där modellen och verkligheten skiljer sig åt.

Regressionsmodellen (2.3) kan även uttryckas på matrisform enligt:

Y = Xβ + e (2.4)

där

Y =

 Y1

Y2

... Yn

∈ n × 1 X =

1 X11 X12 · · · X1k

1 X21 X22 · · · X2k

... ... ... . .. ... 1 Xn1 Xn2 · · · Xnk

∈ n × (k + 1)

(8)

2.3. TEST- OCH MÄTMETODER 2. Generellt om regressionsanalys

β =

 β0 β2 ... βk

∈ (k + 1) × 1 e =

 e1 e2 ... en

∈ n × 1

Modellen kräver att antagandena i 2.2.1 är uppfyllda.

2.2.3 Ordinary Least Square (OLS)

OLS eller Ordinary Least Square estimationen av Y definieras enligt:

Y = X ˆβ + ˆe (2.5)

som uppfyller normalekvationen

Xtˆe = 0 (2.6)

OLS estimationen av β är ˆβ och ˆe är residualerna av OLS:en. ˆβ minimerar kvadratsumman av residualerna1, dvs. det gäller att ˆete = |ˆˆ e|2minimeras.

2.2.4 Kort om hypotesprövning

Vid hypotesprövning ställer man upp en nollhypotes H0och en mothypotes H1. Sedan bestäm- mer man sig för vilken risknivå man vill ha när man säger att man kan förkasta nollhypotesen till förmån för mothypotesen. Risknivån 5% innebär att vi tar 5% risk att ha fel när vi förkastar nollhypotesen, dvs. säger att nollhypotesen är falsk. Man räknar sedan på observerad data för att se om nollhypotesen går att förkasta till förmån för mothypotesen. Det är detta som ligger till grund för besluten att kasta eller behålla en kovariat i den förklarande regressionsmodel- len. Exempelvis kan en nollhypotes vara: Kovariaten xi har ingen påverkan på den förklarande variabeln. Mothypotesen vi väljer blir således att xi har påverkan på den förklarande variabeln.

2.3 Test- och mätmetoder

2.3.1 F-test

Anta att vi har satt upp en nollhypotes och en mothypotes som exemplet beskrivet i 2.2.4. Vi vill alltså testa om en kovariats koefficient β är noll. Testvariabeln

F = ( ˆβ − β0) SE( ˆβ)

!2

(2.7)

följer under nollhypotesen en F (r, n − k − 1)-fördelning, där r = antal restriktioner och n,k enl. tidigare notation är antal observationer respektive antal kovariater. Om vi vill testa att en koefficient β1= 0 har vi en restriktion. Vill vi testa att β1= β2= 0 så har vi två restriktioner etc.

Under H0är β0= 0 och ˆβ samt SE( ˆβ) kan fås genom att göra en regression. För att kompensera för heteroskedasticitet (se 2.4.3) bör man beräkna White’s robus errors (se 2.3.3) innan man beräknar sitt F-värde. För höga F-värden kan vi förkasta nollhypotesen (exakt värde beror på situation). Detta värde kan sedan användas för att antingen förkasta eller behålla nollhypotesen direkt, eller för att beräkna ett p-värde.

1För bevis, se Lang, H. A Brief Introduction to Econometrics, s 6

(9)

2. Generellt om regressionsanalys 2.3. TEST- OCH MÄTMETODER

2.3.2 p-värden

En kovariats p-värde säger hur stor risk vi tar att ha fel när vi förkastar H0 (att kovariaten inte har betydelse för den förklarande variabeln). Det är alltså ett mått på hur stor risk vi tar att ha fel när vi säger att kovariaten har betydelse. Om en godtycklig kovariat har p-värdet 0,023 kan vi alltså säga att kovariaten har inverkan på den förklarande variabeln med 2,3% risk att ha fel.

P-värdet är krasst sett den yt-andel under F-distributionen som ligger bortom vårt F-värde.

Figur 2.1: Ett F-värde och dess relation till p-värdet. Här på risknivån α = 0, 05 som motsvaras av ett F-värde på 2,98

2.3.3 White’s robust errors

Även kallad “White’s heteroscedasticity-consistent estimator”. Används för att beräkna residualer som är konsistenta med observationer som har olika varians (se 2.4.3). Det gäller att White’s upp- skattade standardavvikelse, även kallad standardfelet (eng: standard error, därav SE-notationen), av koefficienten β3 ges av:

SE( ˆβ3) =pP( ˆuii)2

P ˆui2 , i = 1, · · · , n (2.8) där β3 är en koefficient i modellen och ˆui är felen associerade med denna. Notera skillnaden mellan felen eioch ui, vi har enligt ekv. (2.3):

ˆ

ei= Yi− ( ˆβ0+ ˆβ1Xi1+ ˆβ2Xi2+ . . . + ˆβkXik) (2.9) medan felet ui fås genom att köra en regression med de övriga kovariaterna på, i det här fallet, X3då vi undersöker β3. Den beroende variabeln är alltså X3och felet fås enligt:

ˆ

ui= Xi3− ( ˆβ00 + ˆβ01Xi1+ ˆβ20Xi2+ ˆβ40Xi4+ . . . + ˆβk0Xik) (2.10)

2.3.4 Bayesian information criterion (BIC)

Under antagandet att modellens residualer är oberoende och likafördelade enligt normalfördel- ningen (se 2.2.1) gäller att:

BIC = n ln(ˆσe2) + k ln(n) (2.11)

(10)

2.3. TEST- OCH MÄTMETODER 2. Generellt om regressionsanalys

där n = antal observationer ˆ

σ2= variansen hos residualen

k = antal kovariater inklusive interceptet

Fler kovariater kan öka förklarandegraden, men också resultera i ”overfitting”, vilket kan leta till svag prediktionsförmåga hos modellen då den kan överdriva små fluktuationer i data2. BIC löser detta genom att introducera en straffterm för antalet inkluderade kovariater, vilket alltså hjälper till att avgöra om en kovariat bör tas med eller ej. Här skall man välja den modell som minimerar BIC-värdet, dvs. om termen n ln(ˆσe2) minskar mer än k ln(n) då en till kovariat inkluderas så bör denna vara med i regressionsmodellen. Med andra ord har standardfelet alltså minskat så till den grad att den första termen blir mindre än strafftermen då en ytterligare kovariat adderas.

2.3.5 R

2

och R

2adj

En regressions R2är den andel av vår mätnings förändring av Yisom förklaras av våra kovariater och således blir 1 − R2den andel av förändringen som våra kovariater inte kan förklara. Ett R2 hyfsat nära 1 är således önskvärt. R2 är även kvadraten av korrelationskoefficienten mellan Y och X ˆβ. Matematiskt är

R2= 1 −SSR

SST (2.12)

där

SSR = Sum of Squares Residual =

n

P

i=1

|ˆei|2 SST = Sum of Squares Total =

n

P

i=1

(Yi− ¯Y )2

Generellt blir en uppskattad koefficient ytterst sällan exakt noll (dvs. ytterst sällan ingen som helst förklarandegrad), varför man så fort man lägger till en kovariat i modellen också ökar sitt R2. Observera att R2inte säger något om standardfelet hos koefficienten. Eftersom R2alltid ökar när en ny kovariat läggs till, så betyder det att ett högre R2 inte alltid innebär bättre precision i modellen. Ett sätt att komma till rätta med detta är att reducera R2med någon faktor då en ny kovariat läggs till, och detta är precis vad R2adj gör. Vidare är

R2adj = ¯R2= 1 − n − 1 n − k − 1

SSR

SST (2.13)

där n = antal observationer och k = antal kovariater i regressionsmodellen. För att R2adj skall bli högre måste SSR

SST minska mer än n − 1

n − k − 1 ökar, dvs. den oförklarade andelen måste minska mer än den nya större reduceringsfaktorn. Vi kan även notera att

n − 1

n − k − 1 > 1 ∀ n, k > 0 =⇒ Radj2 < R2

Som nämnt ovan måste man ha i åtanke om ett högre R2adj respektive R2 verkligen förbättrar modellen. För att komma fram till om en variabel skall inkluderas eller ej kan man bl.a. använda sig av p-värden och BIC enligt tidigare.

2http://en.wikipedia.org/wiki/Overfitting

(11)

2. Generellt om regressionsanalys 2.4. FALLGROPAR VID REGRESSIONSANALYS

2.4 Fallgropar vid regressionsanalys

2.4.1 "The Dummy Variable Trap"

Vid användande av flera dummyvariabler finns det risk att man hamnar i ”the Dummy Variable Trap”. Generellt, om det finns n st. dummyvariabler x1, . . . , xn där varje observation faller under exakt en och endast en av dessa dummyvariabler och summan av dessa dummyvariabler är lika med ett, allstå att:

n

X

i=1

xi= 1

för varje observation i så får vi perfekt multikollinearitet, vilket kan läsas mer om nedan. Ett exempel kan vara om man ska prediktera årsinkomst beroende på om man är (innerstadsbo), (förortsbo) eller (landsbygdsbo). Dessa dummys är ömsesidigt uteslutande och kollektivt uttöm- mande då varje person alltid hänförs till en och endast en av dessa kategorier, vilket således leder till den nyligen beskrivna situationen.

2.4.2 Multikollinearitet

Multikollinearitet uppstår då en av kovariaterna är en perfekt- eller nästan perfekt linjärkombi- nation av de andra kovariaterna.

Ex: Låt x1 och x2vara två godtyckliga kovariater. Om

corr(x1, x2) = 1 uppstår perfekt multikollinearitet corr(x1, x2) → 1 uppstår imperfekt multikollinearitet

Imperfekt multikollinearitet förhindrar inte att en prediktion kan göras, men kan innebära att en eller flera av kovariaterna estimeras oprecist. Betrakta situationen där vi använder en persons (ålder), (arbetslivserfarenhet) och (utbildningsnivå) för att uppskatta dennes lön. Räkningen (ålder) – (arbetslivserfarenhet) – (utbildningsnivå) är relativt konstant, dvs. vet vi två av ko- variaterna kan vi med god precision uppskatta den tredje. Således är den tredje en nästan perfekt linjärkombination av de första två och vi får multikollinearitet. Vid perfekt multikollinearitet fås ingen unik lösning till OLS-estimationen, och rent beräkningsmässigt innebär det division med noll3. I grunden handlar det om ett logiskt fel; koefficienten av, säg, x1 är effekten på den beroende variabeln då x1 ändras ceteris paribus. Men förändringen av x1 är beroende av förändringen av x2då de är linjärkombinationer av varandra vilket leder till en motsägelse. Mul- tikollinearitet uppstår ofta som ett rent logiskt fel av de som sätter upp regressionsmodellen, och kan vara olika svårt att upptäcka. Ett varningstecken på att multikollinearitet kan ha uppstått är ofta stora standardavvikelser på vissa kovariater, eller intuitivt felaktiga tecken på kovaria- ternas koefficienter. Detta som ett resultat av att det blir svårt för Excel att avgöra vilken av kovariaterna det är som egentligen har inverkan på den beroende variabeln. Ofta kan problemen avhjälpas genom att en av de berörda kovariaterna sätts till ett benchmark.

2.4.3 Heteroskedasticitet

Heteroskedasticitet betyder att kovariaternas feltermer ei inte har samma standardavvikelse, vilket är det vanliga fallet då man studerar data från verkliga världen. Det är viktigt att veta att Excel räknar med homoskedasticitet, dvs. att feltermerna har samma standardavvikelse.

Detta leder att man lätt får fel standardavvikelse för kovariaternas koefficienter, något som kan avhjälpas genom att använda White’s robust errors (se 2.3.3).

3För närmare beskrivning se Stock,J och Watson,M, Introduction to Econometrics, s. 239

(12)

2.4. FALLGROPAR VID REGRESSIONSANALYS 2. Generellt om regressionsanalys

2.4.4 Endogenitet

Endogenitet är ett bredare begrepp som rent matematiskt betyder att feltermen i ekvationen är korrelerad med någon kovariat. Det finns flera olika anledningar till att detta fenomen kan uppstå, som t.ex. samtidighet, mätfel, utelämnande av relevanta variabler, självselektion med mera. Detta betyder att koefficienten för den kovariat som är korrelerad med feltermen kommer att påverkas och få ett annat värde.

2.4.5 Utelämnande av relevanta kovariater

Detta betyder att man har missat att inkludera betydande kovariater. Vi kan alltså lösa en en- dogenitet, korrelation mellan feltermen och en kovariat, genom att inse vad för kovariat som kan gömma sig i vår okända felterm. Ett tydligt exempel på detta är om man kör en regression med

”Pris på bil” som beroende variabel och ”bränsleförbrukning” som kovariat. Eftersom låg bränsle- förbrukning i grunden är en bra sak, borde priset på bilen stiga. Om man hade kört en regression skulle man dock rimligtvis finna att koefficienten är positiv, dvs. att högre bränsleförbrukning ökar priset. I det här fallet så kan det vara kovariaten ”motoreffekt” som finns i feltermen efter- som en hög motoreffekt är något generellt positivt som alltså ökar både bränsleförbrukningen och priset på bilen.

2.4.6 Samtidighet

I vanliga fall har vi att kovariaterna påverkar den beroende variabeln. När samtidighet inträffar betyder det att den beroende variabeln också påverkar en eller flera kovariater. Detta sker exempelvis om vi vill bedöma om en större poliskår (kovariat) minskar antalet brott (beroende variabel), men ett högre antal brott får också följden att myndigheterna ökar poliskårens storlek.

2.4.7 Självselektion

Detta är ett vanligt problem som bland annat försäkringsbolag måste ta hänsyn till. Betrakta t.ex. en drulleförsäkring och dess premie. Priset eller försäkringspremien som någon skall betala för försäkringen skall, tillsammans med övriga försäkringstagare, något förenklat täcka försäkringsbolagets kostnader associerade med de skador som bolaget tvingas ersätta. Om bo- laget tar ett slumpvis stickprov ur befolkningen och undersöker hur stora kostnader de kommer behöva betala och prissätter drulleförsäkringen efter det kommer bolaget gå med förlust. Varför?

Därför att det sker en självselektion där generellt sett klantigare människor är benägna att skaffa en drulleförsäkring, vilket alltså ger högre kostnader än något slumpvis valt genomsnitt. Ofta kan en självselektion uppstå när individens fria vilja är med och påverkar.

(13)

Kapitel 3

Metod

3.1 Allmänt om utförandet

Till att börja med krävs idéer om vilka egenskaper det finns hos en lägenhet som påverkar dess pris. När författarna hade en föreställning om det så kontaktades många mäklarbyråer och statistikföretag i jakt på bästa tillgängliga data om bostadsobjekten. Därefter söktes mer data som inte var direkt relaterad till bostadsobjekten, t.ex. börskurser och räntenivåer. Rådata sammanställdes, kontrollerades och förbättrades vilket kan läsas mer om i 3.4 samt 3.5. Alla tänkbara kovariater som det fanns data om är med i första steget, det vill säga att modellerna var så stora som möjligt från början för att sedan minskas. Detta för att om alla kovariater är med från början finns den sanna/bästamodellen med som någon kombination- eller delmängd av dessa. Skulle regressionsarbetet börja med få kovariater och därefter byggas ut riskerar man att missa den, för vår tillgängliga data, bästa modellen. Således är det därför praxis att man utgår ifrån alla kovariater och kör regressioner, varefter modellen minskas. Nedan kan mer i detalj läsas vilka kovariater som var med från början och på vilka grunder de förkastas. De två slutgiltiga modellerna presenteras i 4.3.

3.2 Beslutsregler

Vi använder oss som grundregel av risknivå 5% (p-värde 0,05) vid beräknandet om de olika kova- riaterna är signifikanta för bostadsrättens slutpris, dvs. vi tar högst 5% risk att ha fel när vi säger att någon specifik kovariat har betydelse. Som ett komplement till denna regel används Bayesian Information Criterion (BIC). Som nämnt tidigare kan fler kovariater öka förklarandegraden, men också resultera i ”overfitting”, vilket kan leta till svag prediktionsförmåga hos modellen då den kan överdriva små fluktuationer i data. Enligt förfarandet i 2.3.4 väljer vi alltså den modell som minimerar BIC-värdet.

I resultat under 4.1 Tabeller och diagram återfinns värden på ∆BIC, vilket innebär förändringen i BIC då kovariaten utesluts ur den förklarande modellen. Då vi hela tiden vill välja den modellen som minimerar BIC ger detta att om ∆BIC är negativt så kan det vara lämpligt att utesluta kovariaten, medan om det är positivt så är det lämpligt att ha kvar den.

(14)

3.3. VÅRA TVÅ GRUNDMODELLER 3. Metod

3.3 Våra två grundmodeller

Som ett första steg gjordes en huvudmodell med syftet att uppskatta en godtycklig bostadsrätts slutpris samt bostadsrättens enskilda faktorers (dvs. kovariaternas) prispåverkan. Vi gjorde även en alternativmodell där den beroende variabeln är kvadratmeterpriset. Alternativmodellen har en lägre förklaringsgrad1 men trots detta tillför alternativmodellen en del ytterligare förklaring- ar och insikter för läsaren. Bland annat belyser den tydligare hur totalt antal rum påverkar det slutliga kvadratmeterpriset bättre än huvudmodellen. Detta gör att vi presenterar även denna modell som ett komplement till huvudmodellen.

Observationerna av priserna på sålda bostadsrätter antas uppfylla kraven 1 och 4 enligt 2.2.1 då vi tagit multikollinearitet i beaktande vid konstruktion av modellerna. Homoskedasticitet förutsätts inte vara uppfyllt utan justeras för m.h.a. White’s robust errors. Antagande 3 visar vi att det är uppfyllt i Fig. 4.2. Vad gäller oberoende observationer anser författarna detta antagande rimligt rent logiskt då försäljningspriset på t.ex. en 5:a på Södermalm inte bör påverka priset i märkbar mån på en 1:a i Vasastan. I grunden anser författarna att observationerna är ett slumpmässigt stickprov ur en stor population av bostadsrätter, varför det följer att antaganden om oberoende och identiskt fördelade är uppfyllda2. Det kan förvisso argumenteras för att om en lägenhet säljs till ett visst pris skapas en referens för övriga aktörer. Vi anser det dock inte rimligt att tro att denna referens bidrar i den omfattningen att den i allmänhet verkligen påverkar slutpriset på en specifik lägenhet bortsett från att den ger lägenhetsspekulanter ytterligare information om marknadspriset. Det är, som kommer visas under 4. Resultat, mängder av faktorer som påverkar en lägenhets pris. Vi anser att för att en tidigare försäljning ska kunna påverka priset på en annan försäljning bör:

• Lägenheterna vara snarlika i storlek, avgift, renoveringsstandard mm. samt ligga i samma område (helst närliggande hus).

• Försäljningarna bör ha gjorts inom ett rimligt tidsmässigt intervall så att makrodata och hushållens förväntningar inte ändrats i någon större utsträckning.

• De två spekulanter som stannar längst i budgivningen bör känna till det faktiskta slut- priset på den liknande lägenheten som nyligen sålts, och ha sådana liknande subjektiva bedömningar att de anser att det priset är en rimlig bedömning och ett riktmärke man bör lägga vikt vid. De bör också ha ungefär lika bråttom att köpa lägenheten så att inte den ena betalar mer för att den är i desperat behov av en lägenhet snarast.

Att alla dessa omständigheter är uppfyllda bedömer författarna som osannolikt och därmed anser vi att kravet på oberoende är uppfyllt.

3.3.1 Log-modell

I somliga fall är det lämpligt att transformera sin regressionsekvation genom att logaritmera (naturliga logaritmen) antingen den beroende variabeln, kovariaterna eller båda delarna. Det som skiljer de tre fallen är hur ekvationen sedan skall tolkas.

I) Yi= β0+ β1ln(Xi) + ei ←→ En 1 % förändring i X ger en förändring i Y på 0, 01β1. II) ln(Yi) = β0+ β1Xi + ei ←→ En förändring i X på en (1, 00) enhet ger en förändring på

100β1 % i Y .

1Se Tabell 4.1: Kort regressionsdata

2Stock,J och Watson,M, Introduction to Econometrics, s. 166

(15)

3. Metod 3.3. VÅRA TVÅ GRUNDMODELLER

III) ln(Yi) = β0+ β1ln(Xi) + ei←→ En 1 % förändring i X ger en β1 % förändring i Y . Detta beskriver elasticiteten av Y med avseende på X.

Genom att logaritmera en modell gör man det lättare att jämföra exempelvis hur ett års volon- tärarbete påverkar lönen över olika yrken, eftersom procentsatser kan säga mer än absoluta tal.

Det gör det också lättare att jämföra över tiden, eftersom pengars reella värde ändras över tid medan en procentsats alltid är en procentsats. Att logaritmera sin ekvation kan också vara ett sätt att få ner variansen på sina kovariat-koefficienter3. Vi anser att ingen av tolkningarna av de olika tre fallen presenterade ovan till fullo passar syftet med vårt arbete då absoluta siffror är mest relevanta. Att uppskatta hur mycket en lägenhet ökar i pris om man bygger till en bal- kong görs helt enkelt bäst i kronor istället för en procentsats. Vi har dock valt att i upplysande syfte göra en log-modell enligt fall II. av vår slutgiltiga huvudmodell. Detta för att observera eventuella förändringar i standardfel, R2, och ge läsaren ytterligare möjlighet att se vilka av kovariaterna som ger de största procentuella förändringarna på slutpriset för de kovariater där det är meningsfullt. Då denna modell ses mest som informativ kuriosa har vi valt att endast presentera värden och resultat men inte diskutera dem vidare. Av samma anledning har vi valt att inte beräkna några heteroskedasticitetskonsistena standardfel.

3.3.2 Våra kovariater

Nedan följer tabeller med information om våra två modeller. ’X’ anger att kovariaten finns i modellen och ’-’ anger således att den inte finns i modellen.

Beroende variabel Enhet Huvudmodell Alternativmodell Info

(Slutpris) SEK X - Detta är det värde vi försöker

estimera, det är på denna vari- abel regressionen sker.

(KvmSlutpris) SEK/m2 - X Samma som ovan

3Lang H, Universitetslektor i matematik, Handledarsamtal 2012-04-22

(16)

3.3. VÅRA TVÅ GRUNDMODELLER 3. Metod

Kovariat Enhet I huvudmodell I alternativmodell Info

(Avgift) SEK X X Anger bostadsrättens månads-

avgift.

(Rum) Antal X - Anger totala antalet rum i bo-

stadsrätten, noggrannhet halva rum.

(Våning) Antal X X Anger antal våningar från BV,

noggrannhet halva våningar.

(Yta) m2 X X Anger totala golvytan i bo-

stadsrätten.

(Hiss) Dummy X X Anger om hiss finns eller ej.

(Balkong) Dummy X X Anger om balkong finns eller

ej. Fransk balkong räknas ej som balkong.

(Öppen spis/kakelugn)

Dummy X X Anger om det finns öppen

spis och/eller kakelugn. Ej nog- grannhet kring antal öppna spisar/kakelugnar.

(Etage) Dummy X X Anger om bostadsrätten är en

etagelägenhet.

(Takvåning) Dummy X X Anger om bostadsrätten är en

takvåning.

(Sekelskiftes) Dummy X X Anger om 1880 ≤ byggår ≤

1915 för lägenhetsfastigheten.

(Nybyggt) Dummy X X Anger om 2000 ≤ byggår ≤

2012 för lägenhetsfastigheten.

(Östermalm/Gärdet) Dummy X X Anger att bostadsrätten är

såld på det område vi angett som Östermalm/Gärdet, se Fi- gur 3.2.

(Ekhagen Hjortha- gen Frihamnen)

Dummy X X Anger att bostadsrätten

är såld det områ- de vi angett som Ekha- gen/Hjorthagen/Frihamnen, se Figur 3.2.

(Östra Kungshol- men)

Dummy X X Anger att bostadsrätten är

såld på det område vi angett som Östra Kungsholmen, se Figur 3.2.

(Västra Kungshol- men/Essingen)

Dummy X X Anger att bostadsrätten är

såld på det område vi an- gett som Västra Kungshol- men/Essingen, se Figur 3.2.

(Södermalm) Dummy X X Anger att bostadsrätten är

såld på det område vi angett som Södermalm, se Figur 3.2.

(Vasatan/Norrmalm) Benchmark X X För att undvika multikolline-

aritet används området (Va- sastan/Norrmalm) som bench- mark, dvs. att alla andra om- rådesdummies ovan kommer ange prisskillnad jämfört med om bostaden skulle ligga i det- ta område. Anger att bostads- rätten är såld på det om- råde vi angett som Vasas- tan/Norrmalm, se Figur 3.2.

(17)

3. Metod 3.3. VÅRA TVÅ GRUNDMODELLER

Kovariat Enhet I huvudmodell I alternativmodell Info

(OMXS30) Punkter X X Skillnad (mätt vid stängning)

i punkter mellan OMXS30 vid försäljningsdag av bostadsrätt och OMXS30 en månad före försäljningsdag. För en över- sikt över hur OMXS30 har änd- rats under den för data aktuel- la perioden, se Fig. 3.1.

(Boprisindikatorn) Heltal X X Boprisindikatorn anger skill-

nad i procent mellan antal hus- håll som tror på stigande bo- stadspriser och antal hushåll som tror på sjunkande bostads- priser, således anger negativa tal att marknaden tror på sjun- kande priser och positiva tal in- dikerar stigande priser. Bygger på en undersökning om 1000 hushåll som utförs av SEB. Un- dersökning med 30 dagars in- tervall.

(Industri- produktionsindex)

Index X X Ihopslagning av de tre separa-

ta undersökningarna order och leveranser, lager samt kapa- citetsutnyttjande ihop till en undersökning, Konjunktursta- tistik för industrin. Härifrån tas Industriproduktionsindex, IPI, som ett mått på konjunk- tur. IPI är ett kalenderkorri- gerat kedjeindex, där 2005 = index 100. Månatlig undersök- ning/beräkning.

(Bolåneränta 3-mån) Procent - - Mappas med säljdatum. Viktat

medelvärde av de fyra storban- kerna Handelsbanken, Nordea, SEB och Swedbank vid givet datum.

(Bolåneränta 1 år) Procent - - Mappas med säljdatum. Viktat

medelvärde av de fyra storban- kerna Handelsbanken, Nordea, SEB och Swedbank vid givet datum.

(Bolåneränta 2 år) Procent - - Mappas med säljdatum. Viktat

medelvärde av de fyra storban- kerna Handelsbanken, Nordea, SEB och Swedbank vid givet datum.

(Bolåneränta 3 år) Procent X* X* Mappas med säljdatum. Viktat

medelvärde av de fyra storban- kerna Handelsbanken, Nordea, SEB och Swedbank vid givet datum.

(Bolåneränta 5 år) Procent - - Mappas med säljdatum. Viktat

medelvärde av de fyra storban- kerna Handelsbanken, Nordea, SEB och Swedbank vid givet datum.

(18)

3.4. DATAINSAMLING 3. Metod

Kovariat Enhet I huvudmodell I alternativmodell Info

(Balkong)*(Takvåning) Dummy X X Denna kovariat tas bara med

då bostadsrätten i fråga är bå- de en takvåning och har bal- kong (följer ur definiton på Dummy-variabel).

(Hiss)*(>2 våningar) Dummy X X Denna kovariat tas bara med

då bostadsrätten i fråga är bå- de en takvåning och är belä- gen på minst 3:e våningen. Ko- variaten (>2 våningar) är bara med i denna blandterm och fö- rekommer alltså ej enskilt.

(Avgift)/(Yta) SEK/m2 - X Anger hur många kronor per

kvadratmeter bostadsrättsför- eningen tar ut i avgift från sina medlemmar.

(Yta)/(Rum) m2 - X Anger hur många kvadratme-

ter lägenheten har per rum (dvs. det blir ett snittvärde).

(1rum) Dummy - X Anger om bostadsrätten har 1

rum

(1,5rum) Dummy - X Anger om bostadsrätten har

1,5 rum

(2-2,5rum) Dummy - X Anger om bostadsrätten har 2

eller 2,5 rum

(3-3,5rum) Benchmark - X Satt som benchmark av samma

anledning som områdesdum- myn (Vasastan/Norrmalm).

Anger om bostadsrätten har 3 eller 3,5 rum.

(≥4rum) Dummy - X Anger om bostadsrätten har 4

eller fler rum

*Räntorna testades först för att avgöra vilken som hade lägst p-värde och kontrollerade där- efter med BIC. Den bästa valdes ut och sattes in i modellen.

Figur 3.1: OMXS30’s stängningspunkter under perioden 2011-07-01 till 2012-04-01.

3.4 Datainsamling

För att kunna göra estimat har vi använt data från försäljningar av bostadsrätter i Stockholms innerstad under perioden 2011-08-01 – 2012-03-31. Data kommer från Slutpris.se4 och omfat-

4http://www.slutpris.se/

(19)

3. Metod 3.5. RENSNING OCH FÖRBÄTTRING AV ERHÅLLEN DATA

tar efter viss gallring ca 2630 observationer. Till detta kommer ytterligare data och statistik, t.ex. har banker kontaktats för att insamla data om deras bolåneräntor samt data för SEB’s boprisindikator. Slutligen har även data för Industriproduktionsindex hämtats från SCB, data för OMXS30 från OMXNasdaq och variationer i kvadratmeterpriser beroende på område från SBAB. Nedan följer en beskrivning av hur vi behandlat dessa data för att få så god information som möjligt.

3.5 Rensning och förbättring av erhållen data

3.5.1 Slutpris, avgift och rum

Sortering och kontroll att inga orimliga värden fanns. Bland annat fick två mätningar kastas då slutpris saknades, en avgift som var noterad som -1"kunde räknas ut då en lägenhet i samma bostadsförening och såld vid ungefär samma tidpunkt hittades. En 5-rummare med 18 kvm bostadsyta justerades till 1 rum då t.ex. försäljningspris m.m antydde att det var frågan om en en-rummare. Även själva försäljningen av en bostad kunde spåras via andra internetsidor för att kontrollera värden. Väldigt få, cirka 10 korrigeringar behövde göras.

3.5.2 Våning

280 mätningar saknade data om vilken våning de fanns på. Sökning efter gamla mäklarannonser ledde till att 175 mätningar kunde räddas medan övriga 105 fick kastas. Då insamling av viss data sker automatiskt hos ursprungskällan finns en risk att några inläsningar blir fel. Vissa våningar var uppenbart fel (t.ex. våning 55), medan andra inte var lika klara. Återigen genom att leta igenom gamla annonser kunde våning 55 rättas till 5,5, våning 32 till våning 1,5 etc. Våningar ned t.o.m. våning 8 kollades igenom. Då inga fel hittades på våning 9 samt 8 antogs slutpris.se:s datainsamlingsprogram inte ha problem med ensiffriga våningsplan.

3.5.3 Sekelskiftes, Nybyggt

Dessa två dummy-variabler skapades utifrån informationen om byggår. Uppdelningen efter byggår är gjord efter vad vi anser bör kunna ha en påverkan på slutpriset, då t.ex. (Sekelskiftes) kan vara korrelerad med, säg, takhöjd eller andra värdeskapande/värdeminskande variabler som ej finns med i tillgänglig data.

När byggårsdata kontrollerades saknades det information på uppemot 750 observationer. Av des- sa lyckades cirka 250 återskapas genom att tidigare försäljningar fanns på exakt samma adress.

För övrig data användes Hitta.se’s gatuvy för att se hur huset såg ut och därefter kunna göra bedömningar huruvida lägenheten befann sig i ett hus som var från sekelskiftet eller om det var nybyggt. Definitioner på årtal för respektive dummy-variabel återfinns i tabellerna med våra kovariater (se 3.3.2). Vidare användes information om området och närliggande bostadshus som stöd, vilket dock främst hjälpte för att avgöra om det var nybyggt eller ej. En mängd exempelbo- städer med redan känt byggår betraktades även och användes som stöd. Bedömningar gjordes i huvudsak av båda författarna samt även vid lite svårbedömda tillfällen av tredje person med viss kunskap på området. Om klassificeringen fortfarande kändes osäker så fick objektet tillhöra åter- stoden, dvs. inte till sekelskiftes- eller nybyggt-kategorin. Detta för att huvuddelen av objekten fanns där samt att dummy-variablernas påverkan skulle hållas så säkra som möjligt.

(20)

3.5. RENSNING OCH FÖRBÄTTRING AV ERHÅLLEN DATA 3. Metod

3.5.4 Områdesdummys

I originaldata fanns tillgång till adress och postnummer, genom detta kunde objekten placeras i sina respektive områden. En noggrann genomgång av samtliga objekt gjordes här för att tillse att objekten hamnade i rätt område. Uppdelningen av områden är gjord med hänsyn tagen till områden med betydande skillnad i prisnivå5 och/eller andra karaktäristika. Detta eftersom de områdeskaraktäristika (närhet till city m.m.) som gäller för t.ex. Östermalm inte gäller för Hjorthagen eller Ekhagen. Uppdelningen är inspirerad av SBABs Storstadsguide, Hemnet.se samt Mäklarstatistik.se.

Figur 3.2: Gjord områdesindelning av Stockholms innerstad

5https://www.sbab.se/flash/storstadsguiden/index.html (2012-04-11)

(21)

3. Metod 3.5. RENSNING OCH FÖRBÄTTRING AV ERHÅLLEN DATA

3.5.5 OMXS30

Dessa data testades av författarna på olika sätt, både att punkter vid stängning matchades mot försäljning samma dag men även att OMXS30-kursen försköts för att vi ville undersöka om t.ex.

höga eller låga stängningskurser för en månad sedan gav en möjlighet att spendera mer eller mindre pengar på en bostad. Slutligen valdes OMXS30 enligt tabellen över våra kovariater (se 3.3.2).

3.5.6 Bolåneräntor

Bolåneräntorna med olika löptid som användes är samtliga baserade på storbankernas, SEB, Han- delsbanken, Nordea samt Swedbanks räntor. Dessa fyra banker får representera aktuell mark- nadsränta då de tillsammans har ca 80% av hushållens totala lånestock per den 2012-03-146. Det är alltså rimligt att använda just dessa räntenivåer då sannolikheten är hög att köparen av bostaden lånar från någon av just dessa banker.

Trots att räntenivåerna för bankerna följer varandra någorlunda används här ett viktat medel- värde. Viktningen är gjord med avseende på respektive banks marknadsandel så att en ränta vars banks marknadsandel är större får större inflytande. Viktning har skett med hänsyn till respektive banks marknadsandel per den 2012-03-147. Varje mätning, försäljning av bostad, får räntan för det aktuella säljdatumet. Detta för att det är först då sluter det riktiga avtalet om lånet sluts, innan har de flesta spekulanter bara ett lånelöfte och räntan kan ha ändrats sedan dess.

3.5.7 Blandtermsdummys

Syftet med (Balkong)*(Takvåning) är som följer: Givet ett antagande om att en balkong med högt, fritt läge och vidsträckt utsikt är mer värd än en balkong nära bottenvåning eller väg har vi skapat denna blandterm. Då relevant information som sjöutsikt, högt fritt läge, eller vånings- plan av det totala antalet våningsplan saknas är detta ett substitut för att försöka påvisa bl.a.

utsiktens inverkan på balkongens värde. Takvåningar har även en tendens att kunna ha större mer spektakulära balkonger, t.ex. som takterasser eller en balkong som sträcker sig runt hela lägenheten. Alla balkonger måste givetvis inte vara av denna typ, men det prisas ändå in karak- täristiska drag hos balkonger som är specifika hos just takvåningar.

(Avgift)/(Yta): Substitut för avgift i alternativmodellen. Denna kovariat blir även ett mått på hur hög avgift per yta bostadsrättsföreningen måste hålla, och därmed i viss mån ett mått på bostadsrättsföreningens ekonomiska situation.

(Yta)/(Rum): Denna blandtermsdummy är medtagen i alternativmodellen där den visade sig vara mest lämplig. Den är även intressant då den ev. kan ge en fingervisning om svaret på frågor som: Är en trång femma mindre värd än en spatiös fyra? Blir det mer värt med en planlösning som gör att man får en sovalkov och förvandlar en 1:a till en 1,5:a?

Olika kombinationer av yta, avgift och rum har testats för att få högsta förklarandegrad och lägst standardfel. De kovariater som är förkryssade i tabellen för våra kovariater är således de som gav bäst resultat i dessa hänseenden för respektive modell.

6http://www.svd.se/naringsliv/swedbank−tappar−stort−pa−bolanen_6922479.svd (2012-04-11)

7Ibid

(22)

3.5. RENSNING OCH FÖRBÄTTRING AV ERHÅLLEN DATA 3. Metod

3.5.8 Att transformera oberoende variabler

Vissa kovariater kanske inte anses vara linjära i sin påverkan av den beroende variabeln, då kan det vara relevant att transformera dessa för att bättre passa kovariatens beteende. Betrakta t.ex. ett jordbruk där man vill modellera förändringen i produktion m.a.p. antal anställda. Låt Y vara produktionen av exempelvis sockerbetor i enheten ton och x vara antalet anställda. Då jordarealen och antal maskiner är fix lönar det sig till slut inte att anställa fler. Då kan man tänka sig att ha både x och x2 som kovariater där regressionen rimligtvis resulterar i olika tecken på koefficienterna. Detta är ett exempel på den ekonomiska lagen om avtagande marginalavkastning (eng: (law of ) diminishing marginal returns). Betrakta illustrationen nedan:

Figur 3.3: Graf med produktion sockerbetor [ton] på Y-axeln och antal anställda på x-axeln. Detta är endast ett tänkt exempel i illustrativt syfte som följer funktionen Y = 100x − x2

för 0 ≤ x ≤ 50, därefter Y = 2500 = konstant.

(23)

Kapitel 4

Resultat

4.1 Tabeller och diagram

Tabell 4.1: Kort regressionsdata Huvudmodell Alternativmodell

R2 0,9048 0,5465

R2adj 0,9042 0,5430

ˆ

σ 437 271 6 548

Nedan återfinns en kort beskrivning av vad efterföljande tabeller innehåller:

Tabell 4.2 och 4.3 : Här återfinns värden på de beslutsparametrar som räknats fram för kovaria- terna, samt vilka kovariater som uteslutits ur/tagits med till slutmodellen. Vilka kovariater som var minst respektive mest signifikanta framgår tydligt i dessa tabeller.

Tabell 4.4 och 4.5 : Av regressionen uträknade värden på de kvarvarande kovariaternas koeffe- cienter, samt standardfel och heteroskedasticitets-konsistenta standardfel till dessa. Hur stora faktiska bidrag som varje kovariat ger till slutpris/kvmslutpris kan ses här. T.ex. att i huvud- modellen estimeras varje våningsplan som lägenheten ligger från BV ge ∼= 32000 SEK extra i slutpris, med ett robust standardfel på 5338 SEK.

Tabell 4.6 och 4.7 : Observerade snittvärden på kovariaterna fördelade på antal rum hos lä- genheterna. Dessa tabeller ger en bättre överblick över hur insamlad data är fördelad på olika egenskaper, t.ex. hur stor andel har balkong av 1:or, 2:or osv. Tabellerna ger även en fingervisning om lägenheter av olika rumsstorlek i snitt är över- eller undervärderade av regressionsmodellen - och i så fall med hur mycket de i snitt är felvärderade.

(24)

4.1. TABELLER OCH DIAGRAM 4. Resultat

Tabell 4.2: Huvudmodellen med F,p- och BIC-värden för varje kovariat. Det anges även om kovariaten är medtagen (J) eller inte (N) i den slutgiltiga förklarande modellen.

(25)

4. Resultat 4.1. TABELLER OCH DIAGRAM

Tabell 4.3: Alternativmodellen med F,p- och BIC-värden för varje kovariat. Det anges även om kova- riaten är medtagen (J) eller inte (N) i den slutgiltiga förklarande modellen.

(26)

4.1. TABELLER OCH DIAGRAM 4. Resultat

Tabell 4.4: Huvudmodellen med estimerade betavärden och deras respektive standardfel (eng: standard error, därav notationen SE) för varje kovariat.

Tabell 4.5: Alternativmodellen med estimerade betavärden och deras respektive standardfel (eng: stan- dard error, därav notationen SE) för varje kovariat.

(27)

4. Resultat 4.1. TABELLER OCH DIAGRAM

Tabell 4.6: Data för huvudmodellen och dess kovariater uppdelad efter de sålda bostadsrätternas antal rum. En mängd information går att utläsa ur denna tabell; den beskriver i stort karakteri- stika för vår erhållna datamängd.

Tabell 4.7: Samma som ovan men för Alternativmodellen. Många kovariater är gemensamma men data om en del nya återfinns här.

(28)

4.2. LOG-MODELLEN 4. Resultat

4.2 Log-modellen

Nedan följer en tabell på värden för den logaritmerade huvudmodellen. Denna modell har värdena R2= 0.8974 och ett standardfel på 0.1287.

Tabell 4.8: Betavärden och deras standardfel för den logaritmerade modellen. Kovariaternas betavärden påverkar den beroende variabeln i enlighet med 3.3.1.

(29)

4. Resultat 4.3. VÅRA TVÅ SLUTMODELLER

4.3 Våra två slutmodeller

Nedan presenteras våra två slutgiltiga modeller utskrivna i enlighet med ekv. 2.3. För den som är familjär med denna formel är det lätt att själv sätta in rätt beta-värde ur tabellerna 4.4 och 4.5 vid respektive kovariat, här fås för enkelhets skull modellerna med alla beta-värden redan insatta vid respektive kovariat.

4.3.1 Huvudmodellen

Påminnelse: benchmark är satt som området (Vasastan/Norrmalm) vilket gör att koefficienter framför områdesdummys skall ses relativt detta område. (Slutpris) anges enl. tidigare i SEK.

(Slutpris) = 1 459 264 − 174 · (Avgif t) + 155 603 · (Rum) + 31 975 · (V ˙aning) + 48 489 · (Y ta)+

+ 105 399 · (Balkong) + 239 173 · ( ¨Oppenspis/Kakelugn) + 336 594 · (T akv ˙aning)+

+ 295 229 · (Sekelskif tes) − 174 070 · (N ybyggt) + 167 157 · ( ¨Ostermalm/G¨ardet)+

− 577 879 · (Ekhagen/Hjorthagen/F rihamnen) − 74 724 · ( ¨Ostra Kungsholmen)+

− 314 645 · (V ¨astra Kungsholmen/Essingen) − 229 492 · (S ¨odermalm)+

+ 4 168 · (Boprisindikatorn) − 277 004 · (Bol ˙anernta3 ˙ar) + 508 610 · (Balkong) ∗ (T akv ˙aning)

4.3.2 Alternativmodellen

Påminnelse: benchmark är satt som området (Vasastan/Norrmalm) samt rumskovariaten (3- 3,5rum) vilket gör att koefficienter framför områdesdummys skall ses relativt detta område och koefficienter framför rumsdummys ses relativt en 3 eller 3,5-rummare. (KvmSlutpris) anges enl.

tidigare i SEK/m2.

(KvmSlutpris) = 91 800 + 547 · (V ˙aning) − 123 · (Avgif t)/(Y ta) − 720 · (Y ta/Rum)+

+ 1 838 · (Balkong) + 2 821 · ( ¨Oppenspis/Kakelugn) + 6 745 · (T akv ˙aning)+

+ 4 852 · (Sekelskif tes) − 2 286 · (N ybyggt) + 2 054 · ( ¨Ostermalm/G¨ardet)+

− 12 017 · (Ekhagen/Hjorthagen/F rihamnen) − 1 751 · ( ¨Ostra Kungsholmen)+

− 8 080 · (V ¨astra Kungsholmen/Essingen) − 4 239 · (S ¨odermalm)+

+ 67 · (Boprisindikatorn) − 4 101 · (Bol ˙anernta3 ˙ar) + 5 063 · (Balkong) ∗ (T akv ˙aning)+

+ 14 868 · (1rum) + 5 933(1, 5rum) + 3 146 · (2 − 2, 5rum) − 1 751 · (≥ 4rum)

(30)

4.4. YTTERLIGARE RESULTAT FÖR HUVUDMODELLEN 4. Resultat

4.4 Ytterligare resultat för huvudmodellen

Figur 4.1: Graf över residualernas spridning

Figur 4.2: Diagram över residualerna i anknytning till nödvändigt matematiskt antagande 3.

(31)

Kapitel 5

Diskussion

5.1 Resultatens påvisande och diskussion kring dessa

5.1.1 Normalfördelningshistogram och residualplot

Normalfördelningshistogrammet i Figur 4 visar hur residualerna liknar en normalfördelning kring e = 0. Detta justifierar vårt antagande om att feltermerna är likafördelade och normalfördelade, vilket i sin tur (kombinerat med övriga antaganden) leder till att vår regression ger en riktig OLS-skattning.

Residualplotten i Figur 3 ger även den intressant information om hur felen är fördelade beroende på slutpriset på lägenheten. Ett generellt drag vi kan se är att residualerna tenderar att öka desto högre slutpriset blir. Vi kan också se att riktigt dyra lägenheter har de största residualerna, och att dessa lägenheter tenderar att bli undervärderade av vår modell (positiv felterm). Att betrakta residualplotten kan vara viktigt då man vill värdera någon dyr lägenhet.

5.1.2 Kort om Log-modellen

Enligt tidigare utsago (se 3.3.1) anser vi att tolkningen av denna modell inte passar våra syften.

Vi noterar därför endast kort att R2blev något sämre än i huvudmodellen samt att standardfelet fortfarande är i samma härad.

5.1.3 Uteslutna kovariater

Räntor : Betrakta beslutsparametrarna för boräntorna. Ur deras F- och p-värden kan utläsas att alla olika bindningstider var signifikanta i sig, men att den med bindningstid 3 år var den mest signifikanta. Ytterligare diskussion kring 3års-boräntan finns under 5.1.4.

OMXS30 : Man brukar säga att bopriserna följer med börsutvecklingen1, varför vi valde att ha med OMXS30 som en makrokovariat. Genom att titta på OMXS30s förändring de senaste 30 dagarna innan lägenhetsköpet gick igenom var tanken att en börsnedgång skulle kunna påverka slutpriset negativt och en uppgång skulle kunna påverka positivt, eftersom det till viss mån styr hur mycket pengar gemene man har att röra sig med samt dennes eventuella köplust. I Figur 3.1 visas hur OMXS30 har rört sig under den period vi betraktat. Resultatet var dock tydligt:

1http://www.privataaffarer.se/tt/borsen-paverkar-bopriser-234412

(32)

5.1. RESULTATENS PÅVISANDE OCH DISKUSSION KRING DESSA 5. Diskussion

förändringen i OMXS30 har med stor sannolikhet ingen inverkan på slutprisen hos lägenheterna.

En möjlig tolkning kan dels vara att gemene man inte är exponerad i så stor grad mot börsen att det spelar roll – åtminstone inte då man planerar ett lägenhetsköp. Om köparen av lägenheten inte är en förstagångsköpare är det även rimligt att anse att lejonparten av kapitalet kommer från försäljningen av köparens tidigare lägenhet och inte från börsen. Vidare kan tänkas att det pga. vår begränsade tidsperiod var svårt att fånga upp de stora makrorörelserna på börsen och hänföra dem till lägenhetspriserna, ett perspektiv på 5 års sikt kanske hade gett ett annorlunda resultat.

Industriproduktionsindex (IPI): Denna kovariat är ett index som enl. tidigare beskrivning är en sorts konjunkturindikator. Vi valde att ta med denna kovariat för att se om allmän hög- eller lågkonjunktur kan påverka köptrycket och därmed priserna på lägenheterna. Indexet har fluktu- erat mellan 85 och 103 under mätperioden, men hade som resultaten visar ingen vidare effekt på slutpriserna. IPI som var tänkt att fånga upp den mer industriella delen av konjunkturen (jmf med OMXS30 som mer är en finansiell indikator). Att IPI inte visade sig vara signifikant kan också här tänkas bero på vårt något korta tidsintervall. Återigen hade det varit intressant att se utfallet om data hade funnits över ett par år.

Hiss och (Hiss)*(>2våningar): I ursprungsdata fanns information om hiss fanns eller ej. Hiss kanske inte är det första en lägenhetsspekulant tänker på, men om man under flera års tid ska bära matkassar/möbler flera trappor varje gång kanske man inte har lust att betala fullt lika mycket? Med detta i åtanke skapade vi blandtermen (Hiss)*>(2våningar). Resultaten visar dock (p-värde 0,20 – 0,40 och negativa ∆BIC) att dessa kovariater inte är signifikanta. Att inte ens blandtermen var signifikant var lite förvånande i våra ögon. Tankar kring varför det blev så kan vara att det antingen finns tillräckligt med spekulanter på varje objekt som inte bryr sig om det finns hiss eller inte, eller att de som inte brydde sig oftast var bland de två som var kvar och bjöd högst i slutet. Om de två som ignorerade faktumet att hiss saknades var kvar i slutet och de som brydde sig redan hoppat av budgivningen så har således inte hiss betydelse för slutpriset.

Till syvende och sist kvarstår i alla fall faktumet att dessa kovariater var så pass insignifikanta att de uteslöts.

Etage: Som namnet antyder anger denna kovariat om lägenheten var en etagevåning eller ej.

Kovariaten blev utesluten, trots att man kanske hade förväntat sig att något lite speciellt som etage skulle vara en prisdrivande faktor. Spontant kanske man tänker sig en etagetakvåning med utsikt högt upp i huset, men det är också viktigt att komma ihåg att etagelägenheter också finns i källarplan eller mitt i bostadsrättshus. En etagevåning tar också golvyta från lägenheten.

Sedan kan man tänka sig att vissa tycker att etage är häftigt medan de som har barn och äldre människor kanske föredrar att bo på ett plan. Man kan möjligtvis tänka sig att mer spektaku- lära etagevåningar ökar priset medan källaretagevåningar etc. drar ned priset. Eftersom vi inte har information om exakt hur etagevåningarna såg ut finns här alltså en risk för utsläckning av priseffekterna mellan olika sorters etage. Detta är något man som insamlare av data kan tänka på i framtiden.

Avgift (OBS! Endast i alternativmodell): Att avgiften är signifikant och har en inverkan på slut- priset förstår nog de flesta. Avgiftskovariaten var en rest från huvudmodellen, som vi sedan kunde förkasta eftersom vi lagt till en kovariat (Avgift/yta). (Avgift/yta) hade högre förklarandegrad än bara avgift ensam, varför (Avgift/yta) blev den som var kvar. Som tidigare nämnts har det mani- pulerats med kovariater yta, avgift, rum bl.a. för att få fram de som gav bäst resultat i vår modell.

References

Related documents

Den omfördelning av hyresgäster som Andersson och Söderberg tänker sig ska äga rum till följd av avregleringen antas då leda till en mer effektiv fördelning av ”resurser- na”

Data innehåller information om antalet kontakter arbetssökanden fått (variabeln kontakter), kön (variabeln kvinna), om personen har ett nordiskt eller icke-nordiskt

Armin Halilovic: EXTRA ÖVNINGAR Integraler av funktioner som innehåller rotuttryck.

De variabler som bidrog mest till den totala stopptiden var F aktisk st¨ alltid, Sm˚ astopp samt M aterialbyte.. F aktisk st¨ alltid kan eventuellt minskas till under 10 minuter

Den negativa påverkan är att variansen på ˆ ökar eftersom det inte finns tillräckligt med variation i kovariaten för att veta vad den har för påverkan på den beroende

Faktorerna som påverkar hur lätt vagnen är att manövrera är vikten, val av hjul och storleken på vagnen. Val av material påverkar vikten i stor utsträckning och då vagnen ska

Denna studie har till syfte att undersöka hur betalningsviljan har ändrats med tiden för olika prognostiska faktorer på bostadsrätter.. Resultatet kan användas för att förutspå

Det är inte bara relevant för de som vill sälja utan kan kopplas till när det är bäst att köpa.. Mäklare som tjänar på att en fastighet säljs för mycket är så klart