• No results found

Analys av bostadsrättspriset i Stockholms innerstad

N/A
N/A
Protected

Academic year: 2021

Share "Analys av bostadsrättspriset i Stockholms innerstad"

Copied!
39
0
0

Loading.... (view fulltext now)

Full text

(1)

Stockholms innerstad

En multipel linjär regression ————————————————————

Kandidatexamensarbete i Teknisk Fysik

Anda Zhang

andaz@kth.se

Handledare Boualem Djehiche

Avdelningen för Matematisk Statistik Skolan för Teknikvetenskap Kungliga Tekniska Högskolan (KTH)

Stockholm, Sweden

(2)

Denna uppsats är ett kandidatexamensarbete i Teknisk Fysik på Kungliga Tek-niska Högskolan. Rapporten innefattar 15 högskolepoäng och genomfördes på Institutionen för Matematisk Statistik. Jag vill rikta min tacksamhet till Lars-Erik Ericson på Value Guard och Johan Winte på Lars-Erik Olsson för deras bidrag och råd som har gjort denna studie möjlig. Jag vill också tacka min handledare Boualem Djehiche som har visat stöd under hela kandidatexamensarbetet.

(3)

variablers inverkan på bostadsrättspriset i Stockholms innerstad. Resultatet kan användas till att prediktera och betrakta procentuella förändringar för slutpri-set av en bostadsrätt i Stockholms innerstad. Fem olika modeller konstruerades varefter de analyserades och jämfördes. Modellerna konstrueras med hjälp av data för alla sålda bostadsrätter i Stockholms innerstad mellan åren 2010 - 2014 från fastighetsförmedlingen Erik Olsson.

Resultatet av studien visar bland annat att boarean har störst positiv påverkan på slutpriset. Bland stadsdelarna i innerstaden är Östermalm stadsdelen som bidrar mest till ett dyrare bostadsrättspris. Samtliga modeller hade förklarings-grader på 89% − 94%.

(4)

sing a number of variables effect on the final prices of apartments in Stockholm’s inner districts. The result may be employed to predict and observe percentage changes on the final price of apartments in Stockholm in the future. Five models were constructed after which they were analysed and compared. The construc-tion of these models were supported by data from the real estate agency Erik Olsson.

The result of this study displays that living space have the highest positive influence on the final prices. Among all the inner city districts, Östermalm is the district that contributes the most to the final price growth. All five models had a coefficient of determination between 89% − 94%.

(5)

Innehåll

1 Inledning 1 1.1 Bakgrund . . . 1 1.2 Mål och Syfte . . . 1 2 Teori 2 2.1 Terminologi . . . 2 2.2 Regression . . . 2 2.2.1 Antagande . . . 2

2.2.2 Multipel linjär regression . . . 3

2.2.3 Minstakvadratmetoden . . . 4

2.2.4 Hypotesprövning . . . 4

2.3 Tester . . . 4

2.3.1 t-test . . . 4

2.3.2 F-test för allmän signifikans . . . 5

2.3.3 p-värde . . . 5 2.4 Variabelselektion . . . 5 2.4.1 Förklaringsgrad R2 och ¯R2 . . . . 5 2.4.2 Backward elimination . . . 6 2.4.3 Forward selection . . . 6 2.4.4 Stegvis regression . . . 6 2.4.5 AIC . . . 6 2.4.6 Transformation av variabler . . . 7 2.4.7 Probability-Probability plott . . . 7 2.4.8 Extremvärden . . . 7 2.5 Fallgropar . . . 8 2.5.1 Multikolinjäritet . . . 8 2.5.2 Heteroskedasticitet . . . 8 3 Metod 10 3.1 Idé . . . 10 3.2 Datainsamling . . . 10 3.3 Avgränsning . . . 10 3.4 Modellval . . . 11 3.5 Hypotes . . . 11 4 Genomförande 13 5 Resultat 14 5.1 Försök 1 . . . 14 5.2 Försök 2 . . . 16 5.3 Försök 3 . . . 18 5.4 Försök 4 . . . 20 5.5 Försök 5 . . . 22

(6)

6.2 Analys av Försök 2 . . . 25 6.3 Analys av Försök 3 . . . 25 6.4 Analys av Försök 4 . . . 26 6.4.1 Tillförlitlighet . . . 26 6.5 Analys av Försök 5 . . . 27 6.5.1 Tillförlitlighet . . . 27 6.6 Vidare studier . . . 28 7 Slutsats 29 8 Appendix 31

(7)

1

Inledning

1.1

Bakgrund

Stockholm utgör ett centrum för Skandinavien. Varje år strömmar människor till Stockholm för att uppleva den rika blandningen av kultur, nöjesliv och den välbevarade naturen. Kombinationen av dessa faktorer och en hållbar infra-struktur har bidragit till att Stockholm nyligen blivit utsedd till en av världens bästa städer [2]. Stockholms alltmera internationella status har lockat investe-ringar och karriärmöjligheter. Dessa faktorer i kombination med en nedåtgående bolåneränta och en stor efterfråga av bostadsrätter har medfört att bostadsrätts-priserna i Stockholm ständigt ökat. [1][3]

Ett bostadsköp är, för många, det viktigaste och svåraste beslutet man tar i livet. Oavsett om det gäller en bostadsinvestering eller om ett nytt hem, innebär beslutet med stor risk att skuldsätta sig. Därför är det av stor vikt att vid ett bostadsköp kunna göra en rimlig bedömning av bostadsrättens värde.

1.2

Mål och Syfte

Målet med studien är att genom en multipel linjär regressionsanalys behandla en handfull relevanta variabler och undersöka dess inverkan på slutpriset för bostadsrätter i Stockholms innerstad. Syftet med studien är att formulera en tillförlitlig modell för att prediktera slutpriset för en bostadsrätt.

(8)

2

Teori

2.1

Terminologi

För att läsaren ska känna sig bekväm med de notationer och termer som skall användas i texten har här nedan gjort en lista med termer och dess innebörd. Den vanliga modellen för en multipel linjär regression ser ut på följande sätt:

yi= β0+ β1xi1+ β2xi2+ β3xi3+ ... + βkxik+ i i = 1, 2, ..., n

• Responsvariabel : även kallad den beroende variabeln betecknas med y eller yi vid flera ekvationer (observationer).

• Kovariat : som ibland kallas regressor eller den oberoende variabeln har notationen xikoch definieras som den i:te observationen för den k:te

obe-roende variabeln.

• Beta: är koefficienterna till kovariaterna och betecknas β. De flesta pro-blemen inom regressionsanalysen är att uppskatta dessa.

• Dummy-variable: även kallad indikatorvariabel på svenska, är en kovariat som endast antar värdet 1 eller 0.

• Stokastiska feltermen: eller bara feltermen betecknas med  eller ivid

fle-ra observationer. Denna term finns med i ekvationen ovan för att ta med all information som yi inte kan uttryckas med hjälp av xs. [6]

• Residual : har notationen e eller mer generellt ei vid flera observationer.

Residualen definieras som: ei= yi− ˆyi. Notera skillnaden mellan residualen

och feltermen. Residualen för den i:te observationen är skillnaden mellan det faktiska värdet yi och det uppskattade värdet ˆyi. Medan feltermen är

skillnaden mellan det faktiska värdet yioch väntevärdet av yi. Residualen

kan alltså betraktas som en skattning av feltermen.[6] • BLUE: står för Best Linear Unbiased Estimator.

2.2

Regression

Regressionsanalys är en av många statistiska metoder för att prediktera relatio-ner mellan olika variabler. Fokuset ligger på att uppskatta sambanden mellan utvalda kovariater och responsvariabler.

2.2.1 Antagande

För minstakvadrat estimatorn skall vara BLUE (se 2.2.3) för en linjär regres-sionsmodell behöver följande antagande uppfyllas:

(9)

1. Feltermerna ei antas ha ett medelvärde lika med 0, med andra ord:

E(ei|xi1, xi2, ..., xik) = 0 (1)

2. Feltermerna har en konstant varians σ2 och är därmed homoskedastiska,

alltså:

E(ei|xi1, xi2, ..., xik) = σ2 (2)

När data behandlas i verkligheten är det sällan detta krav uppfylls. Vilket leder till ett problem som kallas heteroskedasticitet som diskuteras längre fram i rapporten.

3. Alla förklarande variabler är okorrelerade med feltermen. 4. Feltermerna ei antas vara okorrelerade med varandra.

5. Feltermerna är normalfördelade.

6. Ingen förklarande variabel får vara en perfekt linjär funktion av några av de andra förklarande variablerna. Det får alltså ej förekomma perfekt multikolinjäritet (se 2.5.1).

Dessa antagande kallas för Gauss-Markov antaganden och är nödvändiga för att ge lämpliga koefficienter vid användning av minstakvadratmetoden.

2.2.2 Multipel linjär regression

Den generella ekvationen för en multipel linjär regressionsmodell ser ut som följande:

yi= β0+ β1xi1+ β2xi2+ β3xi3+ ... + βkxik+ i i = 1, 2, ..., n (3)

Betydelserna av de beteckningar i ekvationen kan hittas i sektionen 2.1. Ekva-tionen kan med hjälp av matrisnotation uttryckas på följande sätt:

Y = Xβ +  (4) där Y =      y1 y2 .. . yn      , X =      1 x11 · · · x1k 1 x21 · · · x2k .. . . .. ... ... 1 xn1 · · · xnk      , β =      β0 β1 .. . βk      ,  =      1 2 .. . n     

(10)

2.2.3 Minstakvadratmetoden

Minstakvadratmetoden eller mer känd som OLS, Ordinary Least Square är en standardmetod för att skatta den teoretiska ekvationen (3). Estimationen av Y ges av:

ˆ

Y = X ˆβ (5)

där ˆY = Y − e och e är residualerna (skattningen av ). ˆβ kan uttryckas som: ˆ

β = A−1XTY (6)

som minimerar kvadratsumman av residualerna. Där A = XTX. Den skattade

regressionsekvationen blir:

yi= β0+ ˆβ1xi1+ ˆβ2xi2+ ... + ˆβkxik i = 1, 2, ..., n (7)

2.2.4 Hypotesprövning

Hypotesprövning används för att testa om de beräknade β-koefficienterna är statistiskt signifikanta och sanna för den framtagna regressionsmodellen. Vid en hypotesprövning införs en nollhypotes H0 (oftast den man tror inte är sannolik

att inträffa) och en mothypotes HA. Därefter besluts vilken risknivå man vill ha

på hypotesprövningen. En risknivå på 5% innebär en risk på 5% att ha fel om H0 förkastas. Det finns två typer av fel man kan göra inom hypotesprövning.

• Typ I fel. Förkasta en sann nollhypotes • Typ II fel. Förkasta ej en falsk nollhypotes

2.3

Tester

2.3.1 t-test

Ett t-test används oftast när enskilda β-koefficienter skall testas för regressions-ekvationen (3). I ett tvåsidigt t-test undersöks om varje enskild β bör vara noll. Detta betyder att motsvarande kovariat inte bör ingå i modellen. En matematisk formulering av hypotesen ser ut på följande sätt:

H0: β = 0

HA: β 6= 0

(8) För att få användbar information från ett t-test krävs att feltermerna i regres-sionsmodellen måste vara normalfördelade. t-värdet för varje skattad koefficient

ˆ

βj i ekvationen (7) beräknas enligt:

tj=

ˆ βj− βH0

SE( ˆβj)

j = 1, 2, ..., k (9) I ett tvåsidigt t-test är nollhypotesen oftast H0= 0, därmed reduceras ekvation

(9) till: tj = ˆ βj SE( ˆβj) j = 1, 2, ..., k (10)

(11)

Här är ˆβjden skattade regressionskoefficienten för den j:te variabeln och SE( ˆβj)

betecknar den estimerade standardavvikelsen av ˆβj.

Avgörandet för förkastningen av nollhypotesen baseras på t-värdena från regres-sionen. Dessa jämförs med de kritiska t-värdena tc från en tabell. Det kritiska

värdet särskiljer ’acceptans’ området från förkastningsområdet. Det kritiska vär-det beror på antalet frihetsgrader som ges av n − k − 1, där n är antalet obser-vationer och k är antalet estimerade koefficienter (β0 inkluderad). För att H0

skall förkastas måste följande villkor uppfyllas:

|tj| > tc (11)

t-test är begränsad till att endast testa en koefficient i taget. När situationer, som involverar tester av hypoteser med fler än en koefficient, uppstår används ett F-test. [6][7]

2.3.2 F-test för allmän signifikans

F-test används oftast för att testa allmän signifikans hos en regressionsmodell. Detta görs genom att undersöka om den övergripande kurvanpassningen för modellen försämras, givet olika restriktioner på modellen, för att överensstämma med nollhypotesen. [6] Nollhypotesen för ett F-test ges av:

H0: β1= β2= ... = βk = 0

HA: H0är inte sant

(12) F-värdet för allmän signifikans beräknas enligt:

F = P( ˆyi− ¯y)

2/k

P e2

i/(n − k − 1)

(13) För att besluta om att förkasta H0 måste följande krav uppfyllas:

F ≥ Fc (14)

2.3.3 p-värde

p-värdet för ett test beskriver den minsta signifikansnivån där nollhypotesen förkastas. Den beskriver styrkan hos beviset mot nollhypotesen. Givet en signi-fikansnivå α för ett test och att nollhypotesen inte förkastas vid den nivån. Om p-värdet för testet är mindre eller lika med α förkastas nollhypotesen. [7]

2.4

Variabelselektion

2.4.1 Förklaringsgrad R2 och ¯R2

Förklaringsgraden R2 är ett mått på hur stor del av den estimerade

regres-sionsekvationen förklarar förändringarna hos responsvariabeln. Värdet är alltså ett mått på hur bra ekvationen anpassar mätdatan. Förklaringsgraden för en modell definieras som:

R2= 1 −RSS TSS = 1 − P e2 i P(yi− ¯y)2 (15)

(12)

Ur detta samband ses att R2 måste ligga i intervallet:

0 ≤ R2≤ 1 (16)

Ett högt R2värde innebär att residualerna minimeras. Detta leder till en bättre

skattning av responsvariabeln. Ett stort problem med R2 är att värdet aldrig

kan minska när fler oberoende variabler adderas till modellen. En modell med ett större antal kovariater kommer alltid ha bättre eller lika bra R2.[6]

På grund av detta innebär inte alltid att ett högt R2värde har en bättre precision hos modellen. Detta problem kan lösas med att introducera ¯R2eller R2adj , vilket är R2med justerad antal frihetsgrader:

¯ R2= 1 −RSS/(n − k − 1) TSS/(n − 1) = 1 − P e2 i/(n − k − 1) P(yi− ¯y)2/(n − 1) (17) 2.4.2 Backward elimination

Metoden backward elimination väljer de bästa kovariaterna till en regressions-modell. Metoden utgår ifrån en modell med alla kovariater inkluderade. Under varje steg i processen elimineras en kovariat med det högsta p-värdet som över-stiger en förutbestämd signifikansnivå αcrit. Sedan omprövas den nya modellen

igen. När alla kovariaters p-värde är mindre än αcrit avslutas processen och

därmed fås den önskade modellen. 2.4.3 Forward selection

Forward selection är en omvänd backward elimination. Här startar en modell utan kovariater, dvs y = β0. Vid varje körning adderas en kovariat till

model-len genom att välja den med lägst p-värde som är mindre än αcrit. Processen

upprepas tills inga kovariater kan läggas till. 2.4.4 Stegvis regression

Denna metod är en kombination av backward elimination och forward selec-tion. Under varje körning kontrolleras att de tidigare inkluderade kovariaterna i regressionsmodellen ger signifikanta utslag med hypotesen βj= 0. De kovariater

som inte längre ger signifikans utesluts från modellen. 2.4.5 AIC

AIC står för Akaike Information Criterion är en metod för att bestämma vilka variabler som skall ingå i modellen genom att mäta den relativa kvaliten hos regressionsmodellen i frågan. Ekvationen till modellerna ges av följande:

AIC = n · ln RSS n



+ 2k (18)

där n är antalet observationer, k är antalet förklarande variabler i modellen och RSS är kvadratsumman av residualerna. Vid jämförelse mellan olika modeller är målet att försöka minimera AIC. [6]

(13)

2.4.6 Transformation av variabler

I vissa fall är det lämpligt att transformera variablerna i regressionsmodellen. Notera att minstakvadratmetoden endast kräver att koefficieterna βj är linjära

men tillåter att variablerna att vara icke-linjära. De vanligaste transformatio-nerna är dubbel-log form och semi-log form. Vid dubbel-log form logaritmeras både responsvariabeln och alla eller enstaka kovariater. Detta ger formen:

ln(y) = β0+ β1ln(x1) + β2ln(x2) + ... + βkln(xk) +  (19)

Denna funktionsform kan tolkas som att en ökning av en kovariat xj med 1%

motsvaras av en ökning av responsvariabeln med βj%, när övriga kovariater

hålls konstanta.

Semi-log form är när logaritmering endast appliceras på responsvariabeln y. Denna funktionsform är mer lämplig vid situationer där en ökning av en kovariat xj medför en förändring i responsvariabeln y med ökad takt. Med andra ord

när datan har ett exponentiellt beroende. Semi-log funktionsformen ser ut på följande sätt:

ln(y) = β0+ β1x1+ β2x2+ ... + βkxk+  (20)

Vid en ökning av en kovariat med 1 enhet, när de övriga kovariaterna hålls konstanta, fås en procentuell ökning av responsvariabeln. Responsvariabeln ökar med 100 · βj% då en kovariat ökar med 1 enhet.

2.4.7 Probability-Probability plott

P-P plott är en grafisk metod för att avgöra om en given datamängd följer en testfördelning genom att plotta deras kumulativa fördelningsfunktioner mot varandra. Detta kan användas för att bland annat undersöka om residualerna är normalfördelade.

2.4.8 Extremvärden

Extremvärden utgörs av observationer som har väldigt låga eller väldigt höga värden på responsvariabeln i jämförelse med andra observationer. Extremvär-den påverkar skattningen av parametrarna i regressionsmodellen, därför är det viktigt att finna dessa extremvärden i syftet att få en bättre modell. För att ta reda på hur stor påverkan en observation har för modellen används Cook’s avstånd. Cook’s avstånd är ett mått av effekten på de skattade parametrarna när i:te observationen tas bort från datamängden. Detta beräknas enligt:

Di=

Pn

l=0(ˆyl− ˆyl(i))2

k · MSE (21)

där MSE är medelkvadratsumman för residualerna och defineras som: MSE = 1 n n X i=1 (ˆyl− ˆyl(i))2 (22)

(14)

2.5

Fallgropar

2.5.1 Multikolinjäritet

Vid perfekt multikolinjäritet uppfylls inte antagandet 6 i sektion (2.2.1). Multi-kolinjäritet kan beskrivas som förändringen i en kovariat beror på en eller flera av de andra kovariaterna. En konsekvens av multikolinjäritet är att variansen och standardavvikelsen för de estimerade koefficienterna kommer att öka. Ur detta följer en minskning av t-värdet enligt ekvation (9). Hur upptäcks multi-kolinjäritet? I verkligheten är nästan alla förklarande variabler på något sätt relaterade till varandra. Så frågan är inte huruvida om det finns multikolinjäri-tet eller inte utan hur allvarlig den är och hur mycket man kan tillåta i en modell. Det enklaste sättet att upptäcka en korrelation mellan två kovariater är att använda korrelationskoefficienten c. Värdet på korrelationskoefficienten ligger mellan −1 < c < 1. Denna metod är dock mycket begränsad för modeller med mer än två kovariater. Korrelationskoefficienten är endast ett tillräckligt men ej nödvändigt test för multikolinjäritet.[6]

Ett enkelt och populär metod för att testa multikolinjäritet är att använda Variance Inflation Factor (VIF). VIF är en skattning av hur mycket multikolin-järitet har ökat variansen hos en skattad koefficient ˆβj. Värdet beräknas genom

att först bilda en regressionsmodell med en av kovariaterna som en funktion av de andra kovariaterna:

x1= α1+ α2x2+ α3x3+ ... + αkxk+ v (23)

där v är den vanliga feltermen. Sedan kan VIF beräknas för ˆβj enligt:

VIF( ˆβj) = 1 1 − R2 j (24) där R2

j är förklaringsgraden till ekvationen (23). Ett högt VIF medför en

minsk-ning av t-värdet vilket leder till risken att variabeln inte blir signifikant för modellen. En tumregel är att om VIF > 5 så råder allvarlig multikolinjäritet. Det finns tre saker man kan göra för att minska multikolinjäritet. Åtgärderna är följande: Slänga en den överflödiga variabeln, öka antalet observationer eller att inte göra något alls. [6]

2.5.2 Heteroskedasticitet

Heteroskedasticitet betyder att observationer från feltermerna ei inte har

kon-stant varians. Detta skapar felaktiga skattningar på koefficienternas varians vil-ket medför att signifikanstesterna, t-test och F-test, på dessa koefficienter blir inkorrekta. Detta kan resultera i att variablerna i modellen kan bli felaktigt in-kluderade eller exin-kluderade. [6]

En metod för att upptäcka heteroskedasticitet är att använda White Test. För detaljer för testet se sidan 279 i boken Introductory Econometrics: A Modern Approach av Wooldridge M. Jeffrey. Ett annat alternativ är att plotta resi-dualerna mot de skattade y-värdena och undersöka om datapunkterna har ett slumpmässigt mönster. Om residualerna är jämnt fördelade runt 0 betyder ett

(15)

homoskedasticisk beteende. En metod för att åtgärda heteroskedasticitet är att använda White’s consistent estimator. I denna studie används transformation av variabler för att få bort heteroskedasticitet.

(16)

3

Metod

3.1

Idé

I början av undersökningen formuleras idéer om vilka variabler (egenskaper) som kan ha stor betydelse för slutpriset på en bostadsrätt. Denna del av un-dersökningen kräver mycket sunt förnuft och försiktighet när de preliminära variablerna väljs ut.

3.2

Datainsamling

När idén är färdigställd och variablerna har valts ut följer datainsamlingen. All data som används i undersökningen har kommit från fastighetsförmedlingen Erik Olsson. Datan innehåller följande variabler:

• Våning • Antal rum

• Månadsavgift är månadsavgiften som betalas till bostadsföreningen. • Geografisk läge anger i vilken stadsdel bostadsrätten ligger.

• Storlek är arean på bostadsrätten i kvadratmeter. • Byggnadsår är året fastigheten byggdes.

• Försäljningsdatum är dagen bostadsrätten sålts. • Visningsdatum är visningsdagen för bostadsrätten. • Status är vilken typ av försäljning bostadsrätten har. • Pris är slutpriset på bostadsrätten vid försäljningen

I studien används endast data från en fastighetsförmedling eftersom varje fastig-hetsförmedling har olika processer för bostadsförsäljningen och evalueringen av priset en bostad. Datan från olika fastighetsförmedlingar kan därmed ha olika avvikelser.

3.3

Avgränsning

Givet tidsramen för denna studien behövdes en avgränsning. Fokuset i denna studie ligger på data mellan åren 2010 - 2014. Anledningen till valet är att data till de äldre årgångarna oftast saknas och att majoriteten av försäljningarna har också ägt rum under 2010 - 2014. Dessutom har händelser i världsekonomi mel-lan 2000 - 2009 varierat kraftigt vilket kan bidra till en instabilitet till modellen. Undersökningen begränsar också till att alla bostadsrätter ligger i Stockholms innerstad. I tabell 9 i appendix anges stadsdelarna där bostadsrätterna har sålts.

(17)

3.4

Modellval

Modellval är centralt inom regressionsanalysen. Det finns ett flertals metoder, som nämns i sektion 2.4, för att välja en modell som förklarar responsvariabeln. Innan dessa teoretiska metoder tillämpades, valdes responsvariabeln och de obe-roende variablerna som tros påverka responsvariabeln. De obeobe-roende variablerna valdes till: månadsavgift, byggnadsår, våning, storlek, antal rum, stadsdel och kvartal. Där stadsdel och kvartal är indikatorvariabler. I denna studie är bo-stadsrätterna belägna i 16 olika stadsdelar i Stockholms innerstad. Kvartalen är som vanligt indelad i 4 perioder och bestäms av försäljningsdatumet för bo-stadsrätten. Tanken bakom valet av variabeln stadsdel istället för: avståndet till Stockholms stadskärnan, är dels för att avståndet till Stockholms stadskär-na skiljer sig inte avsevärt mycket och anses därför inte lika viktig faktor vid köp av bostadsrätter i delområdena i Stockholms innerstad. Avstånd är dessutom svårt att mäta. Stadsdel är ett lättare mått och anses vara en viktigare faktor eftersom det är känt att bostadsrättspriserna skiljer sig för de olika stadsdelarna. I analysen testas följande tre funktionsformer:

Pris = β0+ β1· Storlek + β2· Månadsavgift +

+ β3· Våning + β4· Byggnadsår + β5· Antal rum +

+ βl· Stadsdel + βm· Kvartal + 

(25)

ln(Pris) = β0+ β1· Storlek + β2· Månadsavgift +

+ β3· Våning + β4· Byggnadsår + β5· Antal rum +

+ βl· Stadsdel + βm· Kvartal + 

(26)

ln(Pris) = β0+ β1· ln(Storlek) + β2· ln(Månadsavgift) +

+ β3· Våning + β4· Byggnadsår + β5· Antal rum +

+ βl· Stadsdel + βm· Kvartal + 

(27)

där l = 6, ..., 20 och m = 21, ..., 23.

3.5

Hypotes

En hypotes ställs upp innan analysen. Den anger tecknen på koefficienterna till de valda kovariaterna. Låt P = Pris, M = Månadsavgift, B = Byggnadsår, V = Våning, S = Storlek, A = Antal rum, K = Kvartal och G = Stadsdel. Hypotesen på tecknen ges av följande uttryck:

P = f (M ,− B,± + V , + S, + A,K,± G) + ± (28) Tecknen ovanför variablerna indikerar de hypotetiska resonemangen för hur vari-ablerna påverkar priset P . Tecknet för byggnadsår är svår att ha någon hypotes om, det är möjligt att äldre lägenheter bidrar till ett högre slutpris eftersom se-kelskiftslägenheterna är väldigt populära. Månadsavgift förväntas ha en negativ inverkan på priset eftersom en högre avgift bidrar till dyrare levnadskostnader i

(18)

bostadsrätten. En större boarea förväntas att öka priset på en bostadsrätt. Fle-ra rum leder oftast till en större boarea som i sin tur påverkar priset positivt. Därmed bör antal rum också påverka priset positivt. En högre våningsplan bör öka slutpriset eftersom det oftast innebär bättre utsikt och ljussättning. Priser-na borde vara högre i stadsdelarPriser-na närmast cityområdet, därför borde dessa ha positivt tecken. Stadsdelarna som ligger något längre bort är svårt att hypotise-ra. Samma svårighet gäller för kvartal. Det är möjligt att under vissa månader, som till exempel sommarperioden, när färre bostäder finns på marknaden, kan leda till en ökad efterfrågan och därmed ökat slutpris.

(19)

4

Genomförande

Hela analysen för studien utförs i programmet Rstudio. Signifikansnivån väljs till αcrit= 5%, vilket innebär att det finns en risk på 5% att ha fel om

nollhypo-tesen förkastas. Först görs en stegvis regression med alla variabler som nämndes i sektion 3.4. Processen kontrollerar att alla statistisk signifikanta kovariater be-hålls i regressionsmodellen. Vidare testas de kvarstående variablerna genom att manuellt bilda olika modeller med olika variabelkombinationer. I analysen an-vänds första kvartalet och stadsdelen Fredshäll som benchmark.

Antaganden som nämndes i sektion (2.2.1) krävs för att minstakvadratmetoden skall ge användbara resultat. Analysen av dessa antaganden utförs med hjälp av grafiskanalys av residualerna för respektive regressionsmodell.

Samtliga analyser utfördes på data mellan åren 2010 - 2014 där försäljnings-priset har normaliserats med januari 2010 som bas, med hjälp av bostadsin-dexen från Value Guard, för en rättvisare jämförelse. Först rensades alla sålda bostäder som inte ägde rum mellan åren 2010 - 2014. Därefter togs bostads-rätter bort för de fall där relevant information saknades. Sedan rensades alla bostadsrätter som inte hade statusen: till salu, där försäljningstypen inte var budgivning. Anledningen till detta är att undersökningen skall enbart fokusera på en typ av försäljning för att undvika modellfel. Därefter togs extremvärden i datamängden bort eftersom dessa kan bidra till för låga eller för höga värden för regressionsmodellen. Informationen som exkluderades var liten i förhållande till hela datamängden och därför bör det inte påverka modellens tillförlitlighet avsevärt.

(20)

5

Resultat

5.1

Försök 1

Med stegvis regression ges första regressionsmodellen av följande: Pris = β0+ β1· Storlek + β2· Månadsavgift + β3· Våning +

+ β4· Byggnadsår + β5· Antal rum + βl· Stadsdel + 

(29) En regressionstabellen till den ursprungliga regressionen visas i figur 10 i ap-pendix. Notera att kvartal är insignifikant för slutpriset. Nedan i tabell 1 visas en regressionssammanfattning för modellen med de enbart de signifikanta kova-riaterna. I tabellen finns bland annat kovariaternas koefficienter, standardfelen som står inom parentes, t-värden, p-värden och förklaringsgraden.

Modell 1 (Intercept) 10971369.35∗∗∗ (620085.97) t=17.69 Storlek 45183.67∗∗∗ (809.95) t=55.79 Månadsavgift −111.04∗∗∗ (11.40) t=−9.74 Våning 43995.24∗∗∗ (4863.05) t=9.05 Byggnadsår −5689.20∗∗∗ (322.99) t=−17.61 Antal rum 204335.30∗∗∗ (20157.25) t=10.14 Gamla Stan −580737.80∗∗ (208052.14) t=−2.79 Hjorthagen −209306.43∗ (84240.17) t=−2.49 Kungsholmen 264846.43∗∗∗ (57735.56) t=4.59 Ladugårdsgärdet 228045.68∗∗∗ (62390.94) t=3.66 Norrmalm 431820.07∗∗∗ (70710.41) t=6.11 Reimersholme 462702.61∗∗ (143437.42) t=3.23 Stadshagen 328704.13∗∗∗ (82043.34) t=4.01 Södermalm 176669.93∗∗ (56117.44) t=3.15 Vasastaden 369090.86∗∗∗ (56788.69) t=6.50 Östermalm 546502.60∗∗∗ (63969.08) t=8.54 R2 0.9162 R2 adj 0.9155 Antal observationer 2512 ∗∗∗p < 0.001,∗∗p < 0.01,p < 0.05

Tabell 1: Sammanfattning av regression; försök 1

Alla kovariater i försök 1 är statistiskt signifikanta och har samma tecken som hypotesen. Förklaringsgraden till modellen blev R2

adj = 0.9155 och den skattade

standardavvikelsen för residualerna blev 383100 kr. Nedan i 1 visas en residu-alplott för regressionen.

(21)

−2 −1 0 1 2 3 4 5 −4 −2 0 2 4 6 8

Beroende variabel: Pris

Standardiserade Skattade Värden

Standardiser

ade Residualer

Figur 1: Standardiserad residualplott för försök 1

Datapunkterna i figur 1 visar inget slumpmässigt mönster. Det implicerar att re-sidualen inte är konstant. Därmed dras slutsatsen att heteroskedasticitet råder. Vid undersökning av residualernas sannolikhetsfördelning används P-P plott. Resultat visas nedan i figur 2.

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

P−P Plott av Standardiserade Residualer Beroende variabel: Pris

Observerad Kumulativ Fördelning

F ör väntad K um ulativ F ördelning Figur 2: P-P plott för försök 1

(22)

att residualerna inte uppfyller normalfördelningsantagandet. Vidare utförs ett multikolinjäritetstest på modellen eftersom det misstänks om att storlek och antal rum är korrelerade. VIF används för testet och resultat visas i tabell 2 nedan.

xi: Storlek Antal rum Månadsavgift Våning Byggnadsår Stadsdel

VIF: 7.324 5.698 3.243 1.162 1.554 1.669 Tabell 2: VIF värden till kovariaterna i försök 1

Ur tabellen ovan observeras att det råder allvarlig multikolinjäritet mellan stor-lek och antal rum. Därför utesluts variabeln antal rum vid skapandet av den nya modellen.

5.2

Försök 2

Den nya regressionsmodellen ges av:

Pris = β0+ β1· Storlek + β2· Månadsavgift + β3· Våning +

+ β4· Byggnadsår + βl· Stadsdel + 

(30) Som i försök 1 följer nedan en sammanfattning av regressionen.

Modell 2 (Intercept) 10162420.68∗∗∗ (628669.35) t=16.17 Storlek 51440.76∗∗∗ (536.14) t=95.95 Månadsavgift −99.00∗∗∗ (11.59) t=−8.54 Våning 43385.96∗∗∗ (4971.33) t=8.73 Byggnadsår −5222.31∗∗∗ (326.83) t=−15.98 Gamla Stan −506252.41∗ (212568.09) t=−2.38 Hjorthagen −206049.47∗ (86121.77) t=−2.39 Kungsholmen 224630.07∗∗∗ (58886.07) t=3.82 Ladugårdsgärdet 194564.25∗∗ (63695.54) t=3.06 Norrmalm 369670.89∗∗∗ (72018.10) t=5.13 Reimersholme 439660.11∗∗ (146623.92) t=3.00 Stadshagen 287898.59∗∗∗ (83775.47) t=3.44 Södermalm 126995.67∗ (57152.16) t=2.22 Vasastaden 315861.98∗∗∗ (57808.84) t=5.46 Östermalm 507779.60∗∗∗ (65281.68) t=7.78 R2 0.9133 R2adj 0.9127 Antal observationer 2512 ∗∗∗p < 0.001,∗∗p < 0.01,p < 0.05

Tabell 3: Sammanfattning för regression; försök 2

En minskning av förklaringsgraden observeras men ändringen är ej signifikant. Här blev den skattade standardavvikelsen för residualerna 389500 kr. Nedan visas den standardiserade residualplotten som testar homoskededasticitet.

(23)

−2 −1 0 1 2 3 4 5 −4 −2 0 2 4 6 8

Beroende variabel: Pris

Standardiserade Skattade Värden

Standardiser

ade Residualer

Figur 3: Standardiserad residualplott för försök 2

Figur 3 är i liknelse med figur 1, vilket betyder att heteroskedasticitet fortfarande råder. Normalitetsantagandet verifieras i figur 4 nedan.

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

P−P Plott av Standardiserade Residualer Beroende variabel: Pris

Observerad Kumulativ Fördelning

F ör väntad K um ulativ F ördelning Figur 4: P-P plot för försök 2

Datapunkterna avviker fortfarande någorlunda från den räta linjen, därmed uppfyller residualerna inte normalitetsantagandet. Ett multikolinjäritetstest görs för att säkerhetsställa att ingen multikolinjäritet förekommer i modellen.

(24)

xi: Storlek Månadsavgift Våning Byggnadsår Stadsdel

VIF: 3.073 3.210 1.161 1.526 1.619 Tabell 4: VIF värden till kovariaterna i försök 2 Ingen multikolinjäritet råder i modellen.

5.3

Försök 3

Som en åtgärd till residualernas stora standardavvikelser och heteroskedasticitet logaritmeras responsvariabeln. Den tredje regressionsmodellen ges av följande:

ln(Pris) = β0+ β1· Storlek + β2· Månadsavgift + β3· Våning +

+ β4· Byggnadsår + βl· Stadsdel +  (31) Modell 3 (Intercept) 16.48∗∗∗ (0.21) t=77.54 Storlek 0.015∗∗∗ (0.00018) t=80.78 Månadsavgift −0.000018∗∗∗ (0.0000039) t=−4.73 Våning 0.013∗∗∗ (0.0017) t=8.11 Byggnadsår −0.0013∗∗∗ (0.00011) t=−11.76 Hjorthagen −0.11∗∗∗ (0.03) t=−3.71 Kungsholmen 0.08∗∗∗ (0.02) t=3.93 Ladugårdsgärdet 0.05∗ (0.02) t=2.32 Lilla Essingen −0.07∗∗ (0.03) t=−2.79 Norra Djurgården −0.12∗∗∗ (0.03) t=−3.63 Norrmalm 0.10∗∗∗ (0.02) t=4.25 Reimersholme 0.09. (0.05) t=1.82 Stadshagen 0.06∗ (0.03) t=2.25 Stora Essingen −0.08∗ (0.04) t=−2.20 Södermalm 0.04∗ (0.02) t=2.29 Vasastaden 0.11∗∗∗ (0.02) t=5.68 Östermalm 0.15∗∗∗ (0.02) t=6.79 R2 0.8919 R2 adj 0.891 Antal observationer 2512 ∗∗∗p < 0.001,∗∗p < 0.01,p < 0.05, .p < 0.05

Tabell 5: Sammanfattning för regression; försök 3

Ovan visas som vanligt en sammanfattning av regressionen. Förklaringsgraden hos modellen är 0.891, vilket är någorlunda sämre än försök 1 och 2 men fort-farande högt. Den skattade standardavvikelsen för residualerna blev 13.02%. Notera även att koefficienten är väldigt liten för månadsavgift. Detta implicerar att den har mycket liten procentuell inverkan på responsvariabeln och därmed saknar praktisk signifikans. En lösning till detta är att ha månadsavgift i en-heten kkr och låta en ökning med 1 enhet motsvara 1000 kr. Därmed skulle slutpriset till exempel minska med ungefär 1.8% för varje 1000 kronors ökning

(25)

i månadsavgift. −2 −1 0 1 2 3 4 5 −6 −4 −2 0 2 4

Beroende variabel: log(Pris)

Standardiserade Skattade Värden

Standardiser

ade Residualer

Figur 5: Standardiserad residualplott för försök 3

I figur 5 är majoriteten av datapunkterna jämnt fördelade kring 0. Notera att datapunkterna längst till höger liknar en svans vilket indikerar heteroskedas-ticitet. Men eftersom svansen endast utgör av ett fåtal punkter är det rimligt att förmoda homoskedasticitet. För att se om residualerna är normalfördelade används P-P plott.

(26)

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

P−P Plott av Standardiserade Residualer Beroende variabel: log(Pris)

Observerad Kumulativ Fördelning

F ör väntad K um ulativ F ördelning Figur 6: P-P plot för försök 3

Här noteras en förbättring jämfört med föregående försök. Datapunkterna är mycket mer anpassad till den räta linjen och därför antas normalfördelning hos residualerna.

5.4

Försök 4

I ett försök att förbättra regressionsmodellen logaritmerades variablerna må-nadsavgift och storlek. Den fjärde regressionsmodellen ges av:

ln(Pris) = β0+ β1· ln(Storlek) + β2· ln(Månadsavgift) +

+ β3· Våning + β4· Byggnadsår + βl· Stadsdel + 

(32) Tabell 6 sammanfattar regressionsförsöket 4. Koefficienterna till kovariaterna tolkas procentuellt när storlek eller månadsavgift ökas med 1% medan alla andra hålls konstanta. Förklaringsgraden har förbättrats från 0.891 till 0.9231. Den skattade standardavvikelsen för residualerna blev 10.94%. Återigen är kvartal och vissa stadsdelar insignifikanta. De resterande kovariaterna visar statistiskt signifikans och t-värdena uppfyller ekvationen (11).

(27)

Modell 4 (Intercept) 14.48∗∗∗ (0.17) t=83.52 log(Storlek) 0.89∗∗∗ (0.01) t=106.03 log(Månadsavgift) −0.07∗∗∗ (0.01) t=−8.23 Våning 0.01∗∗∗ (0.0014) t=9.79 Byggnadsår −0.0014∗∗∗ (0.000091) t=−15.60 Hjorthagen −0.11∗∗∗ (0.02) t=−4.61 Kungsholmen 0.10∗∗∗ (0.02) t=5.90 Ladugårdsgärdet 0.08∗∗∗ (0.02) t=4.42 Norrmalm 0.14∗∗∗ (0.02) t=7.18 Reimersholme 0.13∗∗ (0.04) t=3.05 Stadshagen 0.10∗∗∗ (0.02) t=4.40 Stora Essingen −0.07∗ (0.03) t=−2.48 Södermalm 0.06∗∗∗ (0.02) t=3.85 Vasastaden 0.12∗∗∗ (0.02) t=7.55 Östermalm 0.18∗∗∗ (0.02) t=9.92 R2 0.9237 R2 adj 0.9231 Antal observationer 2512 ∗∗∗p < 0.001,∗∗p < 0.01,p < 0.05

Tabell 6: Sammanfattning för regression; försök 4

Nedan i figur 7 presenteras en residualplott. Datapunkterna är slumpmässigt fördelade kring 0 vilket förmodar homoskedasticitet.

−3 −2 −1 0 1 2 3 −4 −2 0 2 4

Beroende variabel: log(Pris)

Standardiserade Skattade Värden

Standardiser

ade Residualer

Figur 7: Standardiserad residualplott för försök 4

(28)

vilket tolkas som att residualerna är normalfördelade. 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

P−P Plott av Standardiserade Residualer Beroende variabel: log(Pris)

Observerad Kumulativ Fördelning

F ör väntad K um ulativ F ördelning Figur 8: P-P plot för försök 4

5.5

Försök 5

För den sista modellen läggs variabeln antal rum tillbaka i regressionsmodellen. Regressionsekvationen ges av följande:

ln(Pris) = β0+ β1· ln(Storlek) + β2· ln(Månadsavgift) +

+ β3· Våning + β4· Byggnadsår + β5· Antal rum +

+ βl· Stadsdel + 

(33)

I tabell 7 visas att förklaringsgraden höjts för modellen, vilket är bra. Den skat-tade standardavvikelsen för residualerna har också minskat till 10.39%. Återigen ses att kvartal är insignifikant. Alla andra kovariater från försök 4 behåller sin statistiska signifikans och uppfyller ekvationen (11).

(29)

Modell 5 (Intercept) 15.40∗∗∗ (0.17) t=89.53 log(Storlek) 0.74∗∗∗ (0.01) t=63.47 log(Månadsavgift) −0.08∗∗∗ (0.01) t=−10.35 Våning 0.01∗∗∗ (0.0013) t=10.35 Byggnadsår −0.0016∗∗∗ (0.000087) t=−18.96 Antal rum 0.08∗∗∗ (0.0049) t=17.03 Hjorthagen −0.11∗∗∗ (0.02) t=−4.89 Kungsholmen 0.11∗∗∗ (0.02) t=6.90 Ladugårdsgärdet 0.09∗∗∗ (0.02) t=5.18 Norrmalm 0.16∗∗∗ (0.02) t=8.39 Reimersholme 0.13∗∗∗ (0.04) t=3.33 Stadshagen 0.11∗∗∗ (0.02) t=5.17 Stora Essingen −0.08∗∗ (0.03) t=−2.76 Södermalm 0.08∗∗∗ (0.02) t=5.14 Vasastaden 0.14∗∗∗ (0.02) t=9.08 Östermalm 0.19∗∗∗ (0.02) t=10.86 R2 0.9312 R2adj 0.9307 Antal observationer 2512 ∗∗∗p < 0.001,∗∗p < 0.01,p < 0.05

Tabell 7: Sammanfattning för regression; försök 5

I figurerna 9 och 10 kan man avläsa att det råder homoskedasticitet och norma-litet hos residualerna.

−3 −2 −1 0 1 2 3

−2

0

2

4

Beroende variabel: log(Pris)

Standardiserade Skattade Värden

Standardiser

ade Residualer

(30)

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

P−P Plott av Standardiserade Residualer Beroende variabel: log(Pris)

Observerad Kumulativ Fördelning

F ör väntad K um ulativ F ördelning Figur 10: P-P plot för försök 5 Tabell 8 visar att det råder multikolinjäritet hos modellen.

xi: log(Storlek) log(Månadsavgift) Våning Byggnadsår Antal rum Stadsdel

VIF: 5.964 2.822 1.160 1.506 4.797 1.665 Tabell 8: VIF värden till kovariaterna i försök 5

(31)

6

Diskussion

I följande sektioner diskuteras och analyseras resultaten från sektion 5.

6.1

Analys av Försök 1

Regressionsmodellen för försök 1 ges av ekvationen (29). Modellen har ett högt R2

adj vilket är väldigt bra. Alla kovariater förutom kvartal och enstaka stadsdelar

är också statistiskt signifikanta och uppfyller ekvation (11). Dock innehåller mo-dellen multikolinjäritet där storlek och antal rum är starkt positivt korrelerade. Detta presenteras i figur 11 i Appendix. Residualplotten i figur 1 visar hete-roskedasticitiskt beteende, vilket skapar felskattade koefficienter. Residualerna är inte heller normalfördelade. Orsaken till beteendet kan vara att spridningen av bostadsrättspriserna sträcker sig från hundratusentals kronor till ett flertal miljoner kronor. Eftersom modellen betraktar det faktiska slutpriset kommer residualernas inverkan på slutpriset vara mycket stor för en bostadsrätt med lågt slutpris och knappt något alls för en bostadsrätt med ett högre slutpris. Eftersom egenskaperna hos modell 1 strider emot Gauss-Markov’s antaganden så är regressionen inte tillförlitlig, och därmed förkastas modellen.

6.2

Analys av Försök 2

Borttagningen av variabeln antal rum i försök 2 minskade multikolinjäriteten till en accepterad nivå. Däremot var heteroskedasticitet och residualens fördelning fortfarande problematiska som i försök 1. Därför förkastas modellen och ingen vidare analys görs.

6.3

Analys av Försök 3

I försök 3 logaritmerades responsvariabeln pris. Här tolkas en ökning med 1 enhet hos någon av kovariaterna en ökning med 100 · β% för responsvariabeln när alla andra kovariaterna hålls konstanta. Som det har nämnts i sektion 5.3 är koefficienten för månadsavgift praktiskt insignifikant. Alternativet är att ange månadsavgift i enheten kkr och låta en ökning med 1 enhet motsvara 1000 kr. Därmed skulle slutpriset minska med ungefär 1.8% för varje 1000 kronors ökning i månadsavgift. Notera att om månadsavgift skulle haft en större pro-centuell inverkan på slutpriset än alla andra kovariater så skulle denna kovariat sänka slutpriset med väldigt mycket för en dyrare lägenhet. Detta skulle inne-bära att modellen inte skulle vara lämplig för att betrakta prisförändringar för bostadsrätter vars slutpris är avsevärt utanför prisintervallet för datamängden. Logaritmeringen minskade förklaringsgraden hos modellen till 0.8917, vilket är någorlunda sämre än försök 1 och 2 men fortfarande högt. Minskningen beror dels på uteslutandet av variabeln antal rum. Återigen är kovariaten kvartal in-signifikant. Samma sak gäller för ett antal stadsdelar. Resterande kovariater i försök 3 visar statistisk signifikans och uppfyller ekvationen (11). Alla tecken till koefficienterna är också i enighet med hypotesen. Problemet ligger i att resi-dualerna för modellen tenderar att vara heteroskedasticitetiskt. Det är svårt att

(32)

avgöra om modellen är fri från heteroskedasticitet på grund av svansen längst till höger i figuren 5.

6.4

Analys av Försök 4

För att konstruera en mer tillförlitlig modell logaritmerads variablerna månads-avgift och storlek. Modellen visade en förbättring av förklaringsgraden. Orsaken till detta är förmodligen att en procentuell ökning i de logaritmerade kovaria-terna ger ett mer signifikant utslag hos responsvariabeln för att residualernas inverkan på slutpriset är mer balanserat. All kovariater i modellen behöll sin signifikans och visades också uppfylla Gauss-Markov antagandena.

6.4.1 Tillförlitlighet

För att undersöka modellens tillförlitlighet gjordes ett tvåsidigt t-test för att kontrollera att samtliga kovariater i modellen var statistiskt signifikanta. t-värdena som hittas i tabell 6 uppfyller ekvation (11), där tc = 1.97. Detta

betyder att nollhypotesen kan förkastas och att samtliga koefficienter är skilda från noll på en 5% signifikansnivå.

I tabell 6 visas att månadsavgift och byggnadsår har en negativ inverkan på slutpriset. Tecknet för koefficienten till månadsavgiftens inverkan på slutpriset överensstämmer med hypotesen. En ökning av byggnadsår med 1 år ger en minskning av slutpriset med ungefär 0.14%. Detta kan tänkas vara rimligt ef-tersom de äldre bostadsrätterna i innerstad förmodas vara mer attraktiva än nybyggnationer. Här skulle det vara mer praktiskt signifikant att kolla på en ökning med 10 år.

En ökning med 10% på månadsavgiften ger en minskning av slutpriset med un-gefär 0.67%. Detta ses som rimligt då en dyrare kontinuerlig månadsutgift bör påverka köparens vilja till att betala mindre för en bostadsrätt. Båda stadsde-larna Hjorthagen och Stora Essingen bidrar också med en negativ inverkan till slutpriset. Detta kan bero på att både stadsdelarna ligger relativt långt ifrån Stockholms stadskärna jämfört med de andra stadsdelarna. En annan orsak kan också vara att tunnelbanan saknas eller svåråtkomlig i dessa två stadsdelar, vil-ket betyder att transporten till och från stadsdelarna försvåras.

Resterande kovariater har en positiv inverkan på slutpriset. Både storlek och våning har samma tecken som hypotesen. I tabell 11 i Appendix ses att storlek har störst inverkan på slutpriset. Att storleken är den viktigaste faktorn för slutpriset anses vara rimligt. En ökning med 10% av boarean innebär en ökning med ungefär 8.9% av slutpriset. Att en bostadsrätt på ett högre våningsplan kostar mer är rimligt då ett högre våningsplan innebär oftast mindre insyn och bättre utsikt och ljussättning. Östermalm tenderar också att vara stadsdelen som har mest positiv inverkan på slutpriset. Detta ses som rimligt med tanke på att Östermalm ligger väldigt nära Stockholms stadskärna och är känt som Stockholms rikemansområde. En förklaring till varför vissa av stadsdelarna inte var signifikanta för modellen är att endast fåtal datapunkter fanns att tillgå för dessa bostadsrätter.

(33)

6.5

Analys av Försök 5

I försök 5 återinfördes antal rum i modellen. Förklaringsgraden höjdes till 93.34%. Eftersom minstakvadrat estimatorn fortfarande är ’unbiased’ med mul-tikolinjäritet i modellen, så länge som modellen uppfyller Gauss-Markov anta-gandena, så är skattningarna av våra koefficienter fortfarande tillförlitliga. Kon-sekvenserna av multikolinjäritet som nämns i sektion 2.5.1 är väldigt liten på grund av datamängdens storlek. Därför ansågs att signifikansen som kovariaten antal rum tillförde till modellen mer övervägande än multikolinjäriteten. Det är dock värt att nämna att vid multikolinjäritet blir koefficienternas varians större och känsligare. Därmed kan tolkningen av koefficienterna ibland försvåras. Om man jämför modell 4 och modell 5 i vår analys så har vi inte dessa problem. I vårt fall får alltså göra en avvägning mellan om man vill ha en modell med mul-tikolinjäritet med en högre förklaringsgrad eller en modell utan mulmul-tikolinjäritet med en lägre förklaringsgrad.

6.5.1 Tillförlitlighet

Ett tvåsidigt t-test utfördes för att kontrollera att samtliga kovariater var signifi-kanta. Notera att t-värdet för storlek minskade, vilket var förväntat enligt teorin. Trots multikolinjäritet uppfyller alla t-värdena ekvationen (11). Standardfelen som anges i tabell 7 gav heller ingen signifikant ökning med multikolinjäriteten i modellen. Därmed antas att tillförlitligheten är hög för modellen. Notera också att förklaringsgraden är högre i denna modell vilket betyder att modellen för-klarar slutpriset bättre. Dock måste vi ta hänsyn till att endast 8 lägenheter ha sålts i stadsdelen Reimersholme vilket är väldigt få, som en konsekvens är dess standardfel högre än alla andra stadsdelar.

Kovariaternas tecken i denna modell följer modell 4. Dessutom är koefficienter-nas storlek i princip likadana för båda modellerna. Signifikansen för samtliga kovariater är också liknande här som i modell 4. Därmed kan samma resone-mang föras här som för modell 4.

Modell 5 anses vara den bästa modellen för att förklara slutpriset. Beslutet ba-seras på att modellen uppfyller Gauss-Markov antagandena och den har störst förklaringsgrad och minsta skattade standardavvikelse för residualerna. Dess-utom utelämnas inga av de viktigaste kovariaterna i modellen och att koeffici-enter till dessa har rimliga tecken. Vi anser att en bättre förklaringsgrad övervä-ger existensen av multikolinjäriteten i modellen. Denna modell anses att kunna prediktera slutpriset i framtiden under förutsättningen att amorteringskrav och bolåneräntan inte förändras, eftersom dessa faktorer har en stor inverkan på bland annat efterfrågan och därmed slutpriset. Modellen är också lämpad för att betrakta procentuella prisförändringar hos slutpriset. Dock är det värt att nämna att modellen är begränsad i att endast kunna prediktera och betrakta procentuella förändringar av slutpriset för en bostadsrätt för stadsdelarna som finns med i tabell 7. Anledningen till att de övriga insignifikanta stadsdelarna var att endast få datapunkter erhölls. En bredare modell hade varit att öka antalet datapunkter i de utelämnade stadsdelarna.

(34)

6.6

Vidare studier

Trots en hög förklaringsgrad hos modell 5, finns det fortfarande ungefär 7% som modellen inte kan förklara slutpriset. För att få en bättre modell skulle en utvidgning av modellen kunna göras genom att ta med faktorer som amorte-ringskrav, bolåneräntan, utbud och efterfrågan och tillgängligheten av hiss och balkong. Ett tungt amorteringskrav innebär en stor betalningsbelastning på kö-paren, vilket kan leda till att personen inte kommer vara lika villig att betala en högre summa för en bostadsrätt. En lägre bolåneränta sänker köparens kon-tinuerliga kostnader och på så sätt ha en större vinstmarginal om köparen till exempel skulle hyra ut sin bostadsrätt. Detta kan ses som ett incitament till att betala mer för en bostadsrätt. Faktorer som hiss och balkong är troligtvis mer betydelsefull för bostadsrätter som ligger på ett högre våningsplan.

(35)

7

Slutsats

Modellerna till försök 1,2 och 3 tenderar att ha heteroskedasticitet. Detta stri-der emot de nödvändiga antaganden som en multipel linjär regression kräver. På grund av detta förkastades dessa modeller. Modellerna till försök 4 och 5 uppfyller Gauss-Markov antagandena och därmed anses vara tillförlitliga för att kunna prediktera och betrakta procentuella förändringar hos bostadsrätts-priset i Stockholms innerstad. Slutbostadsrätts-priset på en bostadsrätt påverkades inte av när på året bostadsrätten såldes för samtliga modeller. Av dessa 2 modeller ut-sågs modell 5 till den bästa framtagna modellen. Däremot kunde modellen inte prediktera eller betrakta de procentuella förändringarna i slutpriset på bostads-rätter i alla de ursprungliga stadsdelarna som fanns med. Detta är dels på grund av att få bostadsrätter hade sålts från de uteslutna stadsdelarna, vilket bidrog till deras insignifikans i modellen. Vissa stadsdelar som visades vara signifikanta för modellen hade få datapunkter. Därmed kan skattningen av dessa koefficien-ter ha eventuella fel, vilket man måste ta hänsyn till.

Som det nämndes i sektion 6.6 har faktorer som utbud och efterfrågan, amorte-ringskravet och bolåneräntan också stor inverkan slutpriset på en bostadsrätt. Dessa faktorer uppmuntras att tas med i vidareforskningen i ämnet för att få en bättre modell. Men givet tidsramen för detta arbete så är modell 5 en hyfsad modell för att betrakta de procentuella förändringarna för bostadsrättspriset i Stockholms innerstad och en bra prediktionsmodell under förutsättningen att bolåneräntan och amorteringskraven inte ändras.

(36)

Referenser

[1] Andersson K. Nya prisrekord på stekhet bomarknad. Svenska dagbladet [Internet]. 2015 apr 16. Tillgänglig på: http://www.svd.se/naringsliv/ pengar/bostad/nya-prisrekord-pa-stekhet-bomarknad_4488819.svd [2] Economist Intelligence Unit. Best cities ranking and report

[Inter-net]. 2012. Tillgänglig på: http://pages.eiu.com/rs/eiu2/images/EIU_ BestCities.pdf

[3] Hedlund M, Andersson F. Bankerna inför nollränta. Dagens Nyhe-ter [InNyhe-ternet]. 2014 jul 09. Tillgänglig på: http://www.dn.se/ekonomi/ bankerna-infor-nollranta/

[4] Kleinbaum, David G, Applied Regression Analysis and Other Multivariable Methods. 4th ed. Druid Hills, GA: Brooks/Cole Cengage Learning; 2008 [5] Lang Harald, Elements of Regression Analysis. Stockholm; 2004.

[6] Studenmund A.H, Using Econometrics: A Practical Guide. 5th ed. Boston: Pearson and Addison-Wesley; 2006.

[7] Wooldridge M. Jeffrey, Introductory Econometrics: A Modern Approach. 5th ed. CENGAGE Learning; 2012.

(37)

8

Appendix

1 2 3 4 5 6 7 50 100 150 Korrelationsplott Antal rum Stor lek (m2)

Figur 11: Korrelationsplott mellan Antal rum och Storlek

Stadsdel Antalet sålda bostadsrätter

Fredshäll 48 Gamla Stan 4 Hjorthagen 34 Kristineberg 72 Kungsholmen 384 Ladugårdsgärdet 150 Lilla Essingen 63 Marieberg 65 Norra Djurgården 26 Norrmalm 70 Reimersholme 8 Stadshagen 43 Stora Essingen 19 Södermalm 737 Vasastaden 660 Östermalm 129

Tabell 9: Antalet lägenheter som sålts i de olika stadsdelarna mellan åren 2010-2014

(38)

Modell 1 (Intercept) 10020990.53∗∗∗ (611908.81) Storlek 45389.43∗∗∗ (802.54) Månadsavgift −104.68∗∗∗ (11.27) Våning 46729.18∗∗∗ (4633.45) Byggnadsår −5193.00∗∗∗ (318.83) Antal rum 183997.73∗∗∗ (19868.10) Gamla Stan −475822.29∗ (211626.88) Hjorthagen −210266.02∗ (86007.09) Kristineberg −57380.95 (71498.13) Kungsholmen 267888.15∗∗∗ (58942.64) Ladugårdsgärdet 218935.38∗∗∗ (63696.23) Lilla Essingen 54698.91 (73816.33) Marieberg 65802.72 (73188.22) Norra Djurgården −108694.02 (93493.26) Norrmalm 430371.42∗∗∗ (72179.66) Reimersholme 448995.94∗∗ (146454.15) Stadshagen 292267.87∗∗∗ (83404.50) Stora Essingen −104486.84 (103999.32) Södermalm 172202.26∗∗ (57289.10) Vasastaden 376236.67∗∗∗ (57955.89) Östermalm 553714.34∗∗∗ (65295.15) R2 0.92 R2 adj 0.92 Antal observationer 2512 ∗∗∗p < 0.001,∗∗p < 0.01,p < 0.05

(39)

Standardiserade β-koefficienter log(Storlek) 0.83 log(Månadsavgift) −0.09 Våning 0.06 Byggnadsår −0.13 Antal rum 0.20 Gamla Stan −0.01 Hjorthagen −0.04 Kungsholmen 0.10 Ladugårdsgärdet 0.06 Norrmalm 0.07 Reimersholme 0.02 Stadshagen 0.04 Stora Essingen 19 Södermalm 0.09 Vasastaden 0.16 Östermalm 0.11

Tabell 11: Antalet lägenheter som sålts i de olika stadsdelarna mellan åren 2010-2014

References

Related documents

För att undersöka och analysera lasten i nätstationer och slingor inom mellanspänningsnätet vid anslutning av laddgator och snabbladdningsstationer används fem olika fall varav två

Elev C förklarar angående strategier vid lyssnande att hen inte tänker på några särskilda strategier eller tillvägagångssätt för att förstå talad engelska, utan eleven ser

Bilderna av den tryckta texten har tolkats maskinellt (OCR-tolkats) för att skapa en sökbar text som ligger osynlig bakom bilden.. Den maskinellt tolkade texten kan

Usually, this is illustrated by the Thornton diagram (Fig. 5.4.1)[87] which distinguishes between several zones of film morphology. The diagram illus- trates different types of

Subject D, for example, spends most of the time (54%) reading with both index fingers in parallel, 24% reading with the left index finger only, and 11% with the right

För att kunna överklaga ska man anses vara berörd av planen och innefatta någon av grupperna över eller vara sakägare. Det finns ingen definition av vem som är sakägare i PBL men

[r]

Föräldrarna kände även att personalen hade outtalade förväntningar på dem som föräldrar (Wigert et al., 2014) beträffande vad föräldrarna ska ansvara för och vara delaktiga