• No results found

Bolåneräntor i Sverige: Enanalys av individuella räntor med multipel linjär regression

N/A
N/A
Protected

Academic year: 2021

Share "Bolåneräntor i Sverige: Enanalys av individuella räntor med multipel linjär regression"

Copied!
42
0
0

Loading.... (view fulltext now)

Full text

(1)

DEGREE PROJECT, IN APPLIED MATHEMATICS AND INDUSTRIAL , FIRST LEVEL

ECONOMICS

STOCKHOLM, SWEDEN 2014

Bolåneräntor i Sverige

EN ANALYS AV INDIVIDUELLA RÄNTOR MED

MULTIPEL LINJÄR REGRESSION

ANDRÉ BERGLUND, ERIK HELLGREN

(2)
(3)

Bolåneräntor i Sverige

En analys av individuella räntor med multipel

linjär regression

A N D R É B E R G L U N D

E R I K H E L L G R E N

Examensarbete inom teknik: Tillämpad matematik och industriell ekonomi (15 credits) Civilingenjörsutbildning i industriell ekonomi (300 credits)

Kungliga Tekniska Högskolan 2014 Handledare på KTH Tatjana Pavlenko Examinator Tatjana Pavlenko

TRITA-MAT-K 2014:03 ISRN-KTH/MAT/K--14/03--SE

Kungliga Tekniska Högskolan

Skolan för Teknikvetenskap

KTH SCI

SE-100 44 Stockholm, Schweden URL: www.kth.se/sci

(4)
(5)

Sammanfattning

I denna rapport undersöks hur ett antal kundspecifika faktorer som belåningrad, bank och inkomst påverkar svenska hushålls individuella bolåneräntor. Metoden som an-vänds är multipel linjär regression med transformeringar av förklarande variabler. Transformer som används är log-linjär, linjär-log, log-log samt styckvis linjär. Datan innehåller ett stickprov om ca. 7000 rörliga bolån från juli 2013 insamlade av orga-nisationen Villaägarna på frivillig basis. Variablerna belåningsgrad, lånets storlek och bank bidrar mest till att förklara räntan. Vår analys visar att stora lån i kombination med låg belåningsgrad tenderar till att ge lägst ränta samtidigt som det finns signifi-kanta skillnader i bolåneränta mellan bankerna även om deras listräntor är lika.

Abstract

This report investigates how a number of customer-specific factors affect individu-al interest rates for Swedish home mortgages. The method used is multiple linear regression with transformations of the explanatory variables. Transformations that we employ are log-linear, linear-log, log-log and piecewise linear. The dataset consists of approximately 7000 Swedish home mortgages with floating interest rates from July 2013. Loan to value ratio, loan size and the the choice of mortgage lender are iden-tified as the most important factors that influence individual interest rates. We find that large loans in combination with low loan to value ratio tend to lead to lower interest rates. There are also significant differences in interest rates depending on the mortgage lender.

(6)
(7)

Innehåll

1 Inledning 5

1.1 Bakgrund . . . 5

1.2 Problemformulering och frågeställning . . . 5

1.3 Syfte . . . 6

1.4 Rapportens disposition . . . 6

2 Statistisk analys 6 2.1 Generell metod . . . 6

2.2 Avgränsningar . . . 6

2.3 Linjär regression: teori . . . 7

2.3.1 Modellspecifikation . . . 7 2.3.2 Skattning av β . . . . 7 2.3.3 R2 och ¯R2 . . . . 8 2.3.4 BIC . . . 8 2.3.5 Backward elimination . . . 8 2.3.6 Dummy-variabler . . . 8 2.3.7 Transformation av variabler . . . 9 2.3.8 Heteroskedasticitet . . . 9

2.3.9 Whites konsistenta variansskattning . . . 9

2.3.10 Endogenitet . . . 9

2.3.11 Multikollinearitet . . . 10

2.3.12 F-test och t-test . . . 10

2.3.13 Q-Q plot . . . 11

2.4 Data . . . 11

2.4.1 Allmänt om datan . . . 11

2.4.2 Befintliga Variabler . . . 11

2.4.3 Orimliga värden . . . 12

2.4.4 Rensning av orimliga värden . . . 13

2.4.5 Skapade Variabler . . . 13 3 Genomförande 14 3.1 Allmänt om genomförandet . . . 14 3.1.1 Undvikande av multikollinearitet . . . 14 3.2 Modell 1 - linjär . . . 15 3.2.1 Modell . . . 15 3.2.2 Resultat . . . 15

3.3 Modell 2 - linjär med interaktioner . . . 17

3.3.1 Modell . . . 17

3.3.2 Resultat . . . 17

3.4 Modell 3 - logaritmerad beroende variabel . . . 18

3.4.1 Modell . . . 18

3.4.2 Resultat . . . 18

3.5 Modell 4 - transformerade förklarande variabler . . . 20

3.5.1 Modell . . . 20

3.5.2 Resultat . . . 20

3.6 Modell 5 . . . 22

3.6.1 Modell . . . 22

(8)

3.7 Modell 6 . . . 23 3.7.1 Modell . . . 23 3.7.2 Resultat . . . 24 3.8 Modell 7 . . . 25 3.8.1 Resultat . . . 26 4 Analys 28 4.1 Val av modell . . . 28 4.2 Mätfel . . . 28 5 Diskussion 29 5.1 Val av kovariater . . . 29

5.2 Individuell förhandling av räntan . . . 29

5.3 Modellspecifikation . . . 30

6 Internetrelaterade tjänster och deras påverkan på bolånemarknaden 30 6.1 Metod . . . 30

6.2 Information och sökkostnader . . . 30

6.3 Industriell omvandling och strategier . . . 31

6.4 Förutsägelser kring den digitala revolutionen på bolånemarknaden . . . 31

6.5 Utvecklingen av den svenska marknaden för bolån . . . 32

6.5.1 Analys av befintliga tjänster . . . 32

6.5.2 Regressionsmodellens bidrag . . . 33

6.6 Diskussion . . . 33

7 Slutsats 34

(9)

1

Inledning

1.1 Bakgrund

De senaste årens stigande bostadspriser har bidragit till att öka svenska hushålls skuld-sättningsgrad och därmed också deras känslighet mot räntor och ränteförändringar. Under fjärde kvartalet 2013 var hushållens skuldsättning 174.5% av den disponibla inkomsten (Fi-nansinspektionen, 2014). Bankernas marginaler på bolån, individuella ränterabatter och de vinster svenskarnas bolån genererar har under en längre tid varit föremål för flitig de-batt. Kunderna har uppmanats att informera sig och förhandla om villkoren för bolånen, vilket dock är lättare sagt än gjort.

Den svenska bolånemarknaden domineras av ett fåtal banker och bolåneinstitut. De-ras aktuella listräntor finns tillgängliga på internet och publiceDe-ras dagligen i tidningar. Listräntorna varierar inte i någon större utsträckning mellan bankerna utan ligger gene-rellt väldigt nära varandra. Listräntan kan ses som ett riktmärke på vilken ränta som kunden kan förvänta sig men den slutliga räntan är i de flesta fall förhandlingsbar. Varje enskilt bolån ger upphov till en kreditrisk för bolåneinstitutet vilket gör att räntan mås-te anpassas. Det finns således ingen garanti för att man kan förvänta sig att få låna till listräntan. Finansinspektionen (2013b) har föreslagit att bankerna1 ska bli skyldiga att redovisa vad som påverkar den individuella kundräntan som en åtgärd för att skapa ökad öppenhet kring bolåneräntan.

I kölvattnet av diskussionen i media kring så kallade ränterabatter har flera inter-nettjänster skapats för att bidra till mer öppenhet kring bolåneräntorna. Under 2012 lanserade SvD Räntekartan där användarna kan uppge sin ränta och jämföra med vilken ränta andra har uppgett att de har. Villaägarnas tjänst Räntekollen ger en indikation på det maximala förhandlingsutrymmet baserat på den personliga kreditrisken och bankens upplåningskostnad.

1.2 Problemformulering och frågeställning

En bolånetagares slutgiltiga bolåneränta förhandlas i regel mellan banktjänstemannen och kunden och behöver som sagt inte nödvändigtvis vara samma som listräntan. Allmänhetens insyn i vad som påverkar den bolåneränta som kunden slutligen får är begränsad eftersom bankerna inte delger allmänheten den internprissättning de använder sig av vid utlåning och räntan förhandlas individuellt. Prisättningsmodellen betraktas som en affärshemlighet och ett konkurrensmedel. Genom Yellow-Belly som har utvecklat tjänsten Räntekollen har vi fått tillgång till ett dataset med svenska bolånekunder, deras ränta och andra uppgifter som inkomst och bostadsvärde. Då datan samlats in på frivillig basis och enbart innehåller uppgifter om bolånekunder som använt Räntekollen kan den inte antas vara representativ för hela befolkningen. Vår analys gäller därför enbart för den intresserade bolånekunden. I den kvantitativa delen av detta examensarbete söker vi med hjälp av statistiska metoder svar på frågan:

(I) Vilka kundspecifika faktorer påverkar räntan för den intresserade bolånetagaren?

Då listräntan bara kan ses som ett riktmärke för boräntan har prisjämförelser mellan banker varit svåra och kunden har fått vända sig till flera olika banker för att få ett perspektiv på vad som är en rimlig ränta givet densammes ekonomiska situation. Ett annat alternativ har varit att fråga vänner och bekanta om vilken ränta de har. Detta kan vara

1

(10)

svårt i praktiken då även personernas privatekonomi behöver jämföras för att jämförelsen ska vara relevant. Under åren 2012 och 2013 har nya tjänster lanserats som använder sig av internet för bolånerådgivning och datainsamling, t.ex. Räntekartan och Räntekollen. Bolånetjänsters data över svenska bolån och tillhandahållande av relevant information till kunderna har potential att verka som omvandlingstryck på bolånebranschen. Detta leder till den andra frågeställningen som detta arbete besvarar:

(II) På vilket sätt har marknaden för bolån påverkats av internetrelaterade tjänster och vilka utmaningar står bolånebranschen inför?

1.3 Syfte

Syftet med denna rapport är tvådelat. Vi vill för det första undersöka vilka faktorer som påverkar bolåneräntan för konsumenten och bedöma om denna går att förklara med statis-tiska metoder. För det andra vill vi studera hur ökad digitalisering och informationsutbyte i allmänhet kan påverka marknaden för bolån.

1.4 Rapportens disposition

I detta examensarbete utreds två frågeställningar. I kapitel 3 och 4 behandlas frågeställ-ning I . I kapitel 5, ”Internetrelaterade tjänster och deras påverkan på bolånebranschen” behandlas frågeställning II där även resultaten från den statistiska analysen i kapitel 3 och 4 integreras.

2

Statistisk analys

2.1 Generell metod

För att söka svar på vår frågeställning om vilka kundspecifika faktorer som påverkar bolå-neräntan ämnar vi använda multipel linjär regressionsanalys på ett dataset innehållande befintliga bolån. Datan kommer från befintliga bolånekunder som själva uppgett sin nu-varande ränta och andra personliga uppgifter såsom inkomst och lånebelopp i syfte att se hur mycket förhandlingsutrymme deras bank teoretiskt har. Datan fångar upp de kvanti-tativa aspekterna av en kunds risk och potentiella affär med banken men utelämnar mjuka uppgifter hos bolånetagaren som också kan vara relevanta men är svåra eller omöjliga att studera med vår metod (se avsnitt 5.1). Genom en regressionsmodell kan vi få ökad insikt i hur de kvantitativa variablerna påverkar bolåneräntan.

2.2 Avgränsningar

De lån vi har valt att studera är existerande lån hos olika bolåneinstitut vilket medför att lån som inte blivit medgivna av bankerna inte heller är representerade i vår undersökning. Vidare har vi valt att begränsa oss till att undersöka rörliga bolån med 3-månadersränta. Ett befintlig lån med längre bindningstid, t. ex. tre år kan ha en ränta som bundits upp till tre år bakåt i tiden vilket gör att dessa inte är lämpliga för en undersökning då räntan varierar över tiden. Rörliga bolån däremot har en ränta som har bestämts tidigast tre månader bakåt i tiden. Vi har valt att utföra vår analys på data från juli 2013 eftersom listräntan då hade varit relativt stabil under föregående månader. Vi har även valt att begränsa undersökningen till de åtta största aktörerna som tillsammans har 95% av den svenska bolånemarknaden (Finansinspektionen, 2013a).

(11)

Datan innehåller uppenbara felinmatningar som sållas bort. Kriterierna som används för att göra detta är emellertid avgränsningar i sig (se avsnitt 2.4.3).

2.3 Linjär regression: teori

2.3.1 Modellspecifikation

Den multipla linjära regressionsmodellen är specificerad enligt följande:

yi= k

X

j=0

xijβj+ ei, i= 1, . . . , n (1)

där y kallas för beroende variabel, xj för förklarande variabel, βj för regressionskoefficient

eller kovariat och ei för felterm. I det här fallet finns n observationer med k förklarande

variabler. Ekvation (1) kan skrivas om till formen

Y = Xβ + e, (2) där Y =    y1 ... yn   , β=    β0 ... βk   , e=    e1 ... en    X =    1 x11 · · · x1k ... ... ... ... 1 xn1 · · · xnk    2.3.2 Skattning av β

Ordinary Least Squares (OLS) skattningen av β, betecknat ˆβ, minimerar Pn

i=1 ˆei2 genom

att lösa normalekvationerna

Xteˆ= 0, (3)

där ˆe = Y − X ˆβ. Då fås OLS-skattningen

ˆ

β= (XtX)−1XtY (4)

av β. För en härledning se (Lang, 2013). Denna modell bygger emellertid på att vissa antaganden om feltermernas natur. Dessa är:

1. E[e|X] = 0. Det betingade väntevärdet för feltermerna antas vara noll.

2. E[eet|X] = σ2I. Feltermerna antas ha samma varians (homoskedasticitet) och vara oberoende mellan observationer .

(12)

2.3.3 R2 och ¯R2

Vid en regressionsmodell är det önskvärt att anpassa en modell som med hjälp av kova-riaterna förklarar den beroende variabeln så bra som möjligt. R2 är ett mått på förkla-ringsgrad och är definierat enligt

R2= Pn i=1( ˆyi¯y)2 Pn i=1(yi¯y)2 = 1 − Pn i=1ˆei2 Pn i=1(yi¯y)2 , (5) därPn

i=1( ˆyi¯y)2 kallas för ESS (explained sum of squares) ochPni=1 ˆei2 för RSS (residual sum of squares). R2 mäter alltså hur bra modellen förklarar data. R2 tar inte hänsyn till

hur många förklarande variabler som finns med i modellen. Många förklarande variabler ökar förklaringsgraden men modellen kan då istället vara överspecificerad. ¯R2är definierat

enligt ¯ R2= 1 − n −1 n − k −1 Pn i=1ˆei2 Pn i=1(yi¯y)2 (6)

och är minskande i k, antalet förklarande variabler.

2.3.4 BIC

Vid val av vilka förklarande variabler som ska tas med i ekvation (1) kan BIC (Bayesian

Information Criterion) användas. Den modell som väljs med hjälp av BIC minimerar

nln(|ˆe|2) + kln(n). (7)

BIC är ökande i k för att motverka överspecificerade modeller.

2.3.5 Backward elimination

Vid val av linjär modell är det lätt att använda för många förklarande variabler, s.k.overfitting. Då finns en risk för att vissa variabler inte bär på någon egentlig information utan istället beskriver fluktuationer i feltermen. BIC kan då användas för val av modell. En metod för att göra detta kallas backward elimination och sker i följande steg:

1. Börja med samtliga variabler.

2. Ta bort den variabeln som förbättrar modellen mest enligt valt kriterium. I fallet med BIC är det variabeln som, om den tas bort, minskar BIC-värdet mest.

3. Fortsätt med ovanstående metod tills ingen förklarande variabel kan uteslutas. För att använda backward elimination är det viktigt att det inte råder multikollinearitet (se avsnitt 2.3.11 för en definition av multikollinearitet). Då kan relevanta variabler uteslutas tidigt eftersom de är för starkt korrelerade med andra variabler i modellen.

2.3.6 Dummy-variabler

Dummy-variabler används som förklarande variabler för att beskriva en binär egenskap, till exempel om man har a-kassa eller inte. Dummy-variabeln antar värdet 1 om personen i fråga är medlem i en a-kassa och 0 annars. Den tillhörande koefficienten beskriver hur mycket den beroende variabeln ökar eller minskar om dummy-variablen är 1. Då det kan existera interaktionseffekter mellan dummy-variabeln och andra förklarande variabler kan interaktioner av formen (a−kassa) · (lön) tas med.

(13)

2.3.7 Transformation av variabler

OLS används för linjära samband, men med transformation av variabler kan vissa icke-linjära samband skrivas linjärt. Tre välkända transformationer kommer att användas i detta arbete

1. log-linjär: ln(y) = β1x1+ e. I detta fall leder en absolut förändring av kovariaten x1 till en procentuell förändring av y då ∆y

y∆x1β1.

2. linjär-log: y = β1ln(x1) + e. En procentuell förändring av x1 leder i detta fall till en absolut förändring av y då ∆y ≈ β∆x

x .

3. log-log: ln(y) = β1ln(x1)+e. En procentuell förändring av xi leder till en procentuell

förändring av y eftersom ∆y

y ≈ β1

∆x

x . En närmare beskrivning återfinns i (Kennedy,

2008).

2.3.8 Heteroskedasticitet

Heteroskedasticitet uppstår när feltermernas varians skiljer sig mellan observationer, allt-så att E[eet|X] 6= σ2I. Ett typiskt fall av heteroskedasticitet är när feltermernas varians beror på kovariaternas värden. Heteroskedasticitet kan upptäckas genom att plotta resi-dualerna mot varje kovariat och man kan då grafiskt urskilja om feltermerna beror på kovariaternas värden. När modellen inkluderar många kovariater blir den metoden snabbt oöverskådlig. Istället kan man plotta residualerna mot de predikterade värdena för att få en uppfattning om variansen är konstant över observationer.

Heteroskedasticitet är ett tecken på att modellen kan vara felformulerad. Om heteroske-dasticitet upptäcks är det första steget därför att omformulera modellen, t. ex. genom att transformera variabler. Kvarstår problemet kan man använda sig av White’s korrigerade standardel (Lang, 2013).

2.3.9 Whites konsistenta variansskattning

Heteroskedastiska residualer ger felaktiga skattningar av regressionskoefficienternas stan-dardfel. Ett första steg för att åtgärda detta är att transformera variabler. Om heteroske-dastisitet återstår kan Halbert Whites metod användas. Whites konsistenta variansskatt-ning är då Cov( ˆβ) = (XtX)−1XtD(ˆe2)X(XtX)−1 = (XtX)−1(Xn i=0 ˆei2xtixi)(XtX)−1, (8) där D(ˆe)2är en n×n diagonalmatris n×n vilkens i:te diagonalelement är ˆe

i2.(Lang, 2013)

2.3.10 Endogenitet

Endogenitet uppstår då en eller flera kovariater är korrelerade med feltermen vilket strider mot ett av antagandena vid användningen av OLS som då inte kommer att ge konsistenta skattningar av β (Lang, 2013). Urvalsfel, selection bias, kan ge upphov till endogenitet. I vårt fall, då data samlats in från bolånetagare som själva uppgett vad de har för ränta, kan denna inte ses som representativ för hela populationen. Om vi istället inskränker undersökningen till att gälla den intresserade bolånekunden antar vi inte längre att vår data är representativ för alla bolånekunder och har således inget endogenitetsproblem.

(14)

När relevanta förklarande variabler inte är inkluderade i modellen hamnar de istället i feltermen. Om någon av våra kovariater är korrelerad med en variabel som inte tagits med i modellen är den då också korrelerad med feltermen vilket innebär endogenitet. Detta är inget problem vid prediktion men kan förändra tolkningen av regressionskoefficienterna.

2.3.11 Multikollinearitet

Multikollinearitet uppstår när kovariaterna är linjärt beroende eller nästan linjärt beroen-de. Förenklat kan då sägas att effekten av en viss förklarande variabel blir svår att isolera vilket ger upphov till stora skattningar av regressionskoefficientens standardfel (Hill m.fl., 2008). Multikollinearitet kan till exempel uppstå vid användningen av dummy-variabler. Om till exempel variabeln (kvinna) tas med samtidigt som variabeln (man) är dessa up-penbarligen linjärt beroende då (kvinna)+(man) = 1. Istället väljer man att bara ta med en dummy-variabel och välja den andra som referenspunkt, en s.k. benchmark. Ett mått på multikollinearitet är Variance inflation factors (VIF) och är för kovariat i definierat enligt V IFi = 1 1 − R2 i , (9) där R2

i fås genom att regressera kovariaten i mot resterande kovariater från modellen. Ett

högt R2

i och indikerar att kovariaten i väl förklaras av de andra kovariaterna. En tumregel

är att V IFi >10 är skadligt för modellen (Kennedy, 2008, s. 199).

2.3.12 F-test och t-test

För att testa om regressionsmodellens skattade kovariater är statistiskt signifikanta an-vänds students t-test. För att testa en skattad koefficient ˆβ tas värdet av testvariablen

t= ˆβ − β0

SE( ˆβ) (10)

fram, där SE( ˆβ) är standardavvikelsen för skattningen ˆβ och β0 är värdet det testas mot. Nollhypotesen β0 = 0 används då den skattade kovariatens statistiska signifikans kontrolleras. Under nollhypotesen har t en students t-fördelning med n−k−1 frihetsgrader där n = antal observationer och k = antal kovariater. Motsvarande p-värde är

p= 2P r(T ≥ |t|) (11)

där T är t(n − k − 1)-fördelad. Nollhypotesen ˆβ = β0 förkastas om p är mindre än en tidigare bestämd signifikansnivå α. (Lang, 2013)

För att testa nollhypotesen att en eller flera β = 0 kan ett F-test användas. Testvari-abeln för F-testet är F = n − k −1 r |ˆe∗|2 |ˆe|2 −1 ! (12) där r = antal restriktioner, |ˆe|2 är RSS för en komplett modells regression och |ˆe

∗|2 är RSS för samma modell med önskade kovariaters koefficienter satta till noll. Motsvarande p-värde är

p= P r(Z ≥ F ) (13)

där Z är F (r, n − k − 1)-fördelad. Nollhypotesen förkastas om p < α. F-testet och t-testet förutsätter att residualerna är normalfördelade. Om vi inte vet feltermernas fördelning för-utom att de är oberoende och identiskt fördelade finns inget exakt test för nollhypoteserna. F-testet är däremot fortfarande assymptotiskt giltigt för stora n. (Lang, 2013)

(15)

2.3.13 Q-Q plot

Q-Q plottar används för att jämföra sannolikhetsfördelningen av empirisk data mot en teoretisk fördelning, t.ex. normalfördelningen. Detta uppnås genom att plotta empiriska kvantiler mot teoretiska kvantiler för en jämförelsefördelning. De empiriska kvantilerna ges av n datapunkter z1,n≥, . . . ≥ zn,n sorterade i storleksordning. En Q-Q plot är en plot

av punkterna:  F−1 n − k+ 1 n+ 1  , zk,n  : k = 1, . . . , n,

där F är fördelningsfunktionen för jämförelsefördelningen, t.ex. Φ vid normalfördelning. Stämmer fördelningarna överens ska punkterna ligga approximativt på en linje. (Hult m.fl., 2012)

2.4 Data

2.4.1 Allmänt om datan

Den statistiska analysen är baserad på bolånedata, erhållen av vår sammarbetspartner Yellow-Belly. Datan, innehållande bolånetagares ränta och annan information om bolåne-tagaren, är insamlad genom Villaägarnas tjänst Räntekollen som tillhandahåller en modell av bankens teoretiska marginalkostnad för bolån. Användaren ombeds fylla i ett formulär med uppgifter vilka vi har fått ta del av.

De observationer för 3-månaderslån under juli 2013 vi har valt att avgränsa undersök-ningen till kan ses i figur 1. En delmängd bestående av observationer tillhörande bank1 kan ses i figur 2 där listräntan vid tidpunkten är markerad som en röd linje. I båda figurer kan man se att observationerna ser ut att bilda linjer vilket betyder att räntan ofta antar diskreta värden. En ränta om 3.0% förekommer exempelvis ofta.

Figur 1: Ränta observationer Figur 2: Ränta observationer bank1

2.4.2 Befintliga Variabler

De variabler som finns tillgängliga i datan följer nedan. Ibland finns två låntagare, men vi har enbart datan för bolånetagare A.

(16)

• (inkomst): Den viktade hushållsinkomsten. Viktat enligt (inkomst) = q(inkomstA) +

(1 − q)(inkomstB) där q = (inkomst(inkomstA)+(inkomstA) B).

• (ålder): Ålder låntagare A

• (skulder): Bolånetagarens skulder utöver bostadslånet

• (a-kassa): Dummy-variabel för om låntagare A är medlem i en a-kassa • (postnummer): Bostadens postnummer

• (fasta kostnader): Fasta boendekostnader (t. ex. avgift) som inte är räntekostnader, i SEK.

• (lånebelopp): Lånets storlek i SEK

• (värde): Bostadens uppskattade marknadsvärde i SEK • (belåningsgrad): (lånebelopp)

(värde)

• (banki): Dummy-variabel som är 1 om kunden har banki.

2.4.3 Orimliga värden

Då datan är insamlad via ett formulär på internet förekommer felinmatningar. Enstaka orimliga felinmatningar kan påverka OLS-skattningen av β mycket och göra att modellen anpassas dåligt i intervallet där de flesta observationerna ligger. Ett exempel på detta i datan är exempelvis (ålder) = 999. Observationerna tas antingen bort eller konverteras till rätt format. Notera att de gränser vi har satt upp för de olika variablerna även utgör avgränsningar för detta arbete.

Ålder

Data för ålder är rapporterad som antingen ålder i antal år eller födelseår vilket vi kon-verterar till enbart ålder i antal år. Alla observationer med en ålder under 18 år eller över 100 år ses som felaktiga och tas bort ur vårt dataset.

Bostadens värde

Bostäder med ett uppskattat värde över 100 000 SEK och under 15 000 000 SEK inklu-derar majoriteten av bostäderna på den svenska bostadsmarknaden och vi begränsar vårt dataset till detta intervall.

Lånebelopp

Justering för lånebelopp till följd av vår inskränkning av bostadens värde medför att en-dast observationer med lånebelopp i intervallet 100 000 - 15 000 000 SEK tas med.

Fasta kostnader

Alla observationer med fasta kostnader över 30 000 SEK anses orimliga med avseende på vår inskränking av bostadens värde och tas därmer bort ur vårt dataset.

Ränta

Observationer med en rörlig ränta under 1.5% och över 5% exkluderas ur vårt dataset. Den rörliga listräntan (3-mån) var under perioden för observationerna i intervallet 2-3%.

(17)

Under samma period var STIBOR 1.2-1.3% (Riksbanken) (relevant för bolåns upplånings-kostnad) och rapporterade upplåningsräntor omkring 2% (SBAB; Swedbank). Bolån med rörlig ränta under cirka 1.5% är förmodligen inte lönsamma för bankerna under perioden. Därmed är dessa bolån förhandlade under andra vilkor än övriga observationer. För den övre begränsningen på 5% har vi använt oss av Yellow-Bellys uträknade kostnader för ut-låning till en konsument med relativt hög risk och maximal beut-låningsgrad. De uppskattar att banken ska begära en ränta på minst 4% för denna kund (Villaägarna, 2013) och vi har begränsat vårt dataset att ta med observationer med 5% ränta.

Belåningsgrad

Kravet på en maximal belåningsgrad på 85% vid tecknande av bolån kombinerat med de senaste årens kraftiga prisuppgång på bostadsmarknaden medför att vi anser att belå-ningsgrader över 100% är orimliga. Vårt dataset begränsas därmed till observationer med en belåningsgrad mellan 0% och 100%.

Inkomst

Enbart observationer med inkomst i intervallet 8 000 - 150 000 SEK inkluderas. En må-nadsinkomst under 8 000 SEK anser vi orimligt låg och det finns möjligtvis en utomstående medlåntagare eller borgensman skriven på bolånet som hjälper till med betalning. Dessa observationer har inte samma förutsättningar som övriga. Den övre gränsen på 150 000 SEK inkluderar de flesta bolånetagarna samt exkluderar majoriteten av potentiella obser-vationer som missuppfattat månadsinkomst för årsinkomst.

2.4.4 Rensning av orimliga värden

Datasetet för rörliga bolån insamlade under juli månad innan rensning innehåller 6944 observationer. Efter rensning som sammanfattas i tabell 1 återstår 6269 observationer.

Tabell 1: Rensning av data ∆observationer Ålder -5 Bostadens värde -62 Fasta kostnader -61 Ränta -63 Lånebelopp -74 Belåningsgrad -107 Inkomst -303 total -675 2.4.5 Skapade Variabler (stockholm)

Dummy-variabel som är 1 om bostaden finns i stockholmsområdet, dvs postnumret börjar på 1. I Stockholm finns många bankkontor vilket kan påverka konkurrensen och räntorna.

(18)

(belåningsgrad topp)

Förhållandet mellan ränta och belåningsgrad är inte nödvändigtvis linjärt. SBAB:s modell för räntan i relation till belåningsgraden är inte linjär som figur 3 illustrerar. Vi ser att grafen ändrar stigning vid en belåningsgrad som är ca. 0.75. Låt oss därför införa variabeln

(belåningsgrad topp)= max((belåningsgrad) − 0.75, 0). (14)

Linjärkombinationen a(belåningsgrad topp) + b(belåningsgrad) beskriver då alla möjliga kombinationer av stigningar på intervallen [0, 0.75) och (0.75, 1]. Ett annat alternativ är att göra två separata regressioner, även kallat piecewise linear regression, för de två linjestyckena. Grafen i figur tre skiftar uppåt och nedåt beroende på lånets storlek vilket motiverar att ha med variabeln (lånebelopp) separat.

Figur 3: SBABs ränta för olika belåningsgrader 2014-03-20, bostadsvärde 2Mkr

3

Genomförande

3.1 Allmänt om genomförandet

För att svara på frågeställningen vilka kundspecifika faktorer som påverkar bolåneräntan kommer vi att anpassa olika linjära modeller till datan och utvärdera dessa. För varje linjär modell reducerar vi antalet förklarande variabler genom att använda oss av backward

eliminationoch funktionen stepwise i den statistiska programvaran R. Med hjälp av den

modell som bäst förklarar datan kan vi sedan dra slutsatser om vad som påverkar den slutgiltiga kundräntan.

3.1.1 Undvikande av multikollinearitet

För att undvika multikollinearitet använder vi dummy-variabler för de åtta olika bankerna med en bank som benchmark. Banken som används som benchmark är en av de största

(19)

aktörerna vilket minskar risken för multikollinearitet. Variabeln (värde) tas inte heller med i någon modell eftersom VIF då blir för högt. Vid transformering av enskilda variabler, t. ex. genom logaritmering kan också multikollinearitet uppstå om ursprungsvariabeln finns kvar i modellen.

3.2 Modell 1 - linjär

3.2.1 Modell

Som ett första steg för att anpassa en modell till datan genomför vi en linjär regression utan transformerade variabler. Modellen är

(ränta) = β0+ β1(inkomst) + β2(ålder) + β3(fasta kostnader) + β4(lånebelopp) + β5(belåningsgrad) + β6(skulder) + β7(a-kassa) + β8(stockholm) + β8(bank2) + . . . + β14(bank8) + e.

(15)

3.2.2 Resultat

Efter backward elimination återstår kovariaterna i tabell 3. Bank 2 och 8 samt variablerna för a-kassa, skulder och inkomst faller bort. Modellen har en förklaringsgrad R2 = 0.1494 och R2

= 0.1482. Figur 4 och 6 visar att residualerna inte är normalfördelade utan snedvridna åt höger. Linjen i figur 4 är anpassad med minstakvadratmetoden och ger de normalfördelningsparametrarna som passar residualernas fördelning bäst. Figur 6 är ett histogram över residualerna och kurvan i figur 6 är en plot av den normalfördelning som resulterar från minstakvadratanpassningen. Figur 5 visar tecken på heteorskedastici-tet; residualernas varians tycks bero på det predikterade värde ˆyi. I modell 3 (avsnitt 3.4)

transformeras därför den beroende variabeln (ränta). Tabell 2 visar vilka kovariater som elimineras med BIC och hur mycket det förbättrar modellen med avseende på BIC. Tabell 3 redovisar hur mycket varje återstående kovariat höjer RSS om den tas bort. Ett högt SS betyder alltså att kovariaten bidrar till mycket av förklaringsgraden.

Tabell 2: Uteslutna kovariater Kovariat ∆BIC (bank2) -7.29 (a-kassa) -6.30 (inkomst) -4.90 (skulder) -5.23 (bank8) -3.83 (stockholm) -3.27

Tabell 3: Analys av varians

Källa SS F (ålder) 11.57 71.38 (fasta kostnader) 0.76 3.00 (lånebelopp) 54.96 337.79 (belåningsgrad) 18.63 115.18 (bank3) 72.00 452.72 (bank4) 5.65 34.92 (bank5) 2.32 14.435 (bank6) 2.76 15.55 (bank7) 8.82 54.50 Residual 1012.00

(20)

Tabell 4: Koefficienttabell modell 1

ˆβ standardfel t-värde p-värde (Intercept) 2.7072e+00 3.3062e-02 8.19e+01 0.0000e+00 (ålder) 2.9614e-03 4.6536e-04 6.36e+00 2.1102e-10 (fasta kostnader) 6.7339e-06 1.4069e-06 4.79e+00 1.7373e-06 (lånebelopp) -8.2897e-08 4.8083e-09 -1.72e+01 4.1469e-65 (belåningsgrad) 2.5736e-01 2.8061e-02 9.17e+00 6.2087e-20 (bank3) -2.8837e-01 1.3624e-02 -2.12e+01 4.2661e-96

(bank4) -8.8712e-02 1.5760e-02 -5.63e+00 1.8931e-08

(bank5) 7.4949e-02 2.1809e-02 3.44e+00 5.9285e-04

(bank6) 6.2078e-02 1.9828e-02 3.13e+00 1.7513e-03

(bank7) -1.7180e-01 2.3272e-02 -7.38e+00 1.7602e-13

(21)

Figur 6: Histogram över residualerna 3.3 Modell 2 - linjär med interaktioner

3.3.1 Modell

Modell 1 tar hänsyn till att räntan kan skilja sig åt mellan olika banker genom användning-en av dummy-variabler. Regressionskoefficianvändning-entanvändning-en tillhörande dummy-variabeln för bank i tolkas som hur mycket räntan skiljer sig för en kund i bank i i jämförelse med banken som används som benchmark, allt annat lika. De andra kovariaterna justerar för om bolå-netagarna skiljer sig åt mellan bankerna, t. ex. att en bank har en högre genomsnittlig belåningsgrad. Finansinspektionen (2013b) menar dock att bankerna skiljer sig åt i sättet de tar hänsyn till de olika kundspecifika faktorerna. För en regressionsmodell skulle det-ta innebära att interaktionstermer mellan dummy-variablerna för de olika bankerna och resterande kovariater bör tas med. Interaktionstermerna är på formen (banki) · (kovariatj).

Modellen blir då

(ränta) = β0+ β1(inkomst) + β2(ålder) + β3(fasta kostnader) + β4(lånebelopp) + β5(belåningsgrad) + β6(skulder) + β7(a-kassa) + β8(stockholm) + β9(bank2) + . . . + β14(bank8) + (interaktioner) + e

(16) där (interaktioner) =P

i,j

βi,j(banki) · (kovariatj). Antalet interaktionstermer är 7 × 8 vilket

gör modellen stor.

3.3.2 Resultat

Modellen i (16) påvisar med våra data ett högt mått av multikollinearitet (VIF > 10). Det gör att backward elimination med BIC inte går att använda för att reducera modellen. Uteslutandet av en variabel i ett steg påverkar standardfelen på en eller flera kovariater för

(22)

mycket. Multikollinearitet leder också till att estimaten ˆβblir svåra att tolka då

standar-felen är höga. En linjär regression enligt modellen i (16), alltså utan backward elimination ger R2 = 0.1622 och R2 = 0.1547 vilket knappt skiljer sig från regressionen i (15). Pro-blemen med multikollinearitet gör att vi hädanefter inte kommer att ta med interaktioner i våra modeller. Om modellen däremot ska användas i prediktionssyfte är detta inget problem.

3.4 Modell 3 - logaritmerad beroende variabel

3.4.1 Modell

I modell 1 uppvisar residualerna en fördelning som är snedvriden åt höger. En idé kan därför vara att transformera den beroende variabeln (ränta) till ln(ränta). Modellen spe-cificeras som

ln(ränta) = β0+ β1(inkomst) + β2(ålder) + β3(fasta kostnader) + β4(lånebelopp) + β5(belåningsgrad) + β6(skulder) + β7(a-kassa) + β8(stockholm) + β9(bank2) + . . . + β14(bank8) + e.

(17) En absolut ökning av kovariaterna leder då till en procentuell ökning av den beroende variabeln.

3.4.2 Resultat

Modellen har en förklaringsgrad R2 = 0.1690 och R2 = 0.1678. Figur 7 visar att residu-alerna efter log-transformationen fortfarande inte är normalfördelade utan snedvridna åt höger, men i mindre utsträckning än i modell 1.

Tabell 5: uteslutna kovariater Kovariat ∆BIC (bank2) -8.10 (akassa) -6.65 (bank8) -5.83 (inkomst) -5.38 (stockholm) -4.29 (skulder) -4.02

Tabell 6: Analys av varians

Källa SS F (ålder) 1.40 77.10 (fasta kostnader) 0.05 2.94 (lånebelopp) 6.86 377.23 (belåningsgrad) 2.37 130.05 (bank3) 9.85 541.63 (bank4) 0.84 46.30 (bank5) 0.37 20.07 (bank6) 0.37 20.34 (bank7) 1.05 57.55 Residual 113.85

(23)

Tabell 7: Koefficienttabell modell 3

ˆβ standardfel t-värde p-värde (Intercept) 9.8706e-01 1.1075e-02 8.91e+01 0.0000e+00 (ålder) 1.0272e-03 1.5589e-04 6.59e+00 4.7741e-11 (fasta kostnader) 2.3337e-06 4.7128e-07 4.95e+00 7.5442e-07 (lånebelopp) -2.9258e-08 1.6107e-09 -1.82e+01 6.7153e-72 (belåningsgrad) 9.1063e-02 9.3998e-03 9.69e+00 4.8493e-22 (bank3) -1.0515e-01 4.5637e-03 -2.30e+01 8.0293e-113

(bank4) -3.3478e-02 5.2793e-03 -6.34e+00 2.4362e-10

(bank5) 3.0356e-02 7.3054e-03 4.16e+00 3.2928e-05

(bank6) 2.4394e-02 6.6419e-03 3.67e+00 2.4205e-04

(bank7) -5.9141e-02 7.7957e-03 -7.59e+00 3.7714e-14

(24)

3.5 Modell 4 - transformerade förklarande variabler

3.5.1 Modell

En modells förklarande variabler behöver inte nödvändigtvis visa ett linjärt samband. De förklarande variabler som beskriver den beroende variabeln, (ränta), med ett ickelinjärt samband behöver transformeras för att ge en relevant skattning i regressionsmodeller. De beskrivande variabler vi förmodar kan ha ett ickelinjärt samband är (lånebelopp) och (belåningsgrad).

Bankens intäkter för ett bolån bestäms av räntan och lånebeloppet. Deras kostnader för bolånet består av fasta samt rörliga kostnader. Om de fasta kostnaderna antas vara samma för alla bolånetagare borde räntan avta med lånets storlek med avtagande marginell ränteskillnad, dvs 2(ränta)

∂(lånebelopp)2 > 0. För att fånga upp denna i effekt i vår modell kan

(lånebelopp) transformeras till ln(lånebelopp).

Figur 3 indikerar att räntan som en funktion av belåningsgraden inte är linjär. Detta är även ekonomiskt intuitivt då bostäder med en låg belåningsgrad skulle behöva sjunka mycket i värde för att en kreditförlust skulle uppstå för banken. Den risken är nästan obefintlig för låga belåningsgrader men desto mer betydande vid höga belåningsgrader. Vi har tidigare skapat variabeln (belåningsgrad topp) som nu introduceras med förhoppning att denna i kombination med (belåningsgrad) bättre ska beskriva sambandet mellan ränta och belåningsgrad. Modellen blir då

(ränta) = β0+ β1(inkomst) + β2(ålder) + β3(fasta kostnader) + β4ln (lånebelopp) + β5(belåningsgrad) + β6(skulder) + β7(skulder) + β8(a-kassa)

+ β9(stockholm) + β10(bank2) + . . . + β16(bank8) + e.

(18)

3.5.2 Resultat

Efter backward elimination har kovariaterna i tabell 8 tagits bort ur modellen, de återstå-ende kovariaterna ses i tabell 9. Den reducerade modellen har förklaringsgrad R2 = 0.1615 och R2

= 0.1603. Intressant att notera är att den introducerade kovariaten (belåningsgrad topp) inte förbättrar modellen och därför utesluts enligt BIC-kriteriet. Figurerna 12 och 10 visar precis som modell 1 tecken på snedvridna residualer.

Tabell 8: uteslutna kovariater

Kovariat ∆BIC (stockholm) -8.23 (bank2) -8.16 (belåningsgrad topp) -6.98 (bank8) -6.08 (inkomst) -6.02 (skulder) -6.33 (akassa) -5.23

Tabell 9: Analys av varians

Källa SS F (ålder) 11.57 72.41 (fasta kostnader) 0.49 3.05 ln (lånebelopp) 60.65 379.51 (belåningsgrad) 30.93 193.56 (bank3) 70.08 438.55 (bank4) 5.58 34.92 (bank5) 2.87 17.96 (bank6) 2.30 14.39 (bank7) 8.15 51.00 Residual 1000.22

(25)

Tabell 10: Koefficienttabell modell 4

ˆβ standardfel t-värde p-värde (Intercept) 4.8099e+00 1.1351e-01 4.24e+01 0.0000e+00 (ålder) 2.8130e-03 4.6231e-04 6.08e+00 1.2371e-09 (fasta kostnader) 7.3254e-06 1.3978e-06 5.24e+00 1.6527e-07 ln(lånebelopp) -1.6266e-01 8.2205e-03 -1.98e+01 1.4085e-84 (belåningsgrad) 3.5093e-01 2.9361e-02 1.20e+01 1.4271e-32 (bank3) -2.8141e-01 1.3547e-02 -2.08e+01 9.5299e-93

(bank4) -8.7335e-02 1.5640e-02 -5.58e+00 2.4502e-08

(bank5) 8.3300e-02 2.1650e-02 3.85e+00 1.2044e-04

(bank6) 5.9082e-02 1.9676e-02 3.00e+00 2.6861e-03

(bank7) -1.6501e-01 2.3105e-02 -7.14e+00 1.0249e-12

(26)

3.6 Modell 5

3.6.1 Modell

Modell 4 visar tecken på snedvridna residualer (se figurerna 10 och 12). Låt oss därför mo-difiera modell 4 och transformera den beroende variabeln (ränta) till ln(ränta). Modellen blir då

ln(ränta) = β0+ β1(inkomst) + β2(ålder) + β3(fasta kostnader) + β4ln (lånebelopp) + β5(belåningsgrad) + β6(belåningsgrad topp) + β7(skulder) + β8(a-kassa) + β9(stockholm) + β10(bank2) + . . . + β16(bank8) + e.

(19)

3.6.2 Resultat

Modellens förklaringsgraderna är R2 = 0.1803 och R2 = 0.1791. Logaritmeringen bidrar till mindre snedvridna residualer, precis som i modell 3. Kovariaterna i tabell 11 tas bort efter backward elimination

Tabell 11: uteslutna kovariater

Kovariat ∆BIC (bank2) -8.57 (bank8) -6.89 (belåningsgrad topp) -6.96 (inkomst) -5.23 (skulder) -5.61 (akassa) -5.88

Tabell 12: Analys av varians

Källa SS F (ålder) 1.40 78.162 (fasta kostnader) 0.05 2.99 ln (lånebelopp) 7.37 411.19 (belåningsgrad) 3.82 213.08 (bank3) 9.46 526.99 (bank4) 0.82 46.12 (bank5) 0.43 24.45 (bank6) 0.35 19.30 (bank7) 0.98 54.34 Residual 112.31

Tabell 13: Koefficienttabell modell 5

ˆβ standardfel t-värde p-värde (Intercept) 1.7169e+00 3.8035e-02 4.51e+01 0.0000e+00 (ålder) 9.7817e-04 1.5491e-04 6.31e+00 2.9015e-10 (fasta kostnader) 2.5202e-06 4.6838e-07 5.38e+00 7.6885e-08 ln(lånebelopp) -5.6479e-02 2.7546e-03 -2.05e+01 1.7713e-90 (belåningsgrad) 1.2246e-01 9.8385e-03 1.24e+01 3.7848e-35 (bank3) -1.0285e-01 4.5393e-03 -2.27e+01 2.5858e-109

(bank4) -3.2920e-02 5.2409e-03 -6.28e+00 3.5818e-10

(bank5) 3.3298e-02 7.2544e-03 4.59e+00 4.5199e-06

(bank6) 2.3563e-02 6.5931e-03 3.57e+00 3.5443e-04

(27)

Figur 13: Q-Q plot för residualerna Figur 14: Plot över residualer

Figur 15: Histogram över residualerna 3.7 Modell 6

3.7.1 Modell

Kovariater med stora spann har ofta ett ickelinjärt samband med den beroende varia-beln. I denna modell logaritmeras (inkomst), (ålder), (fasta kostnader), (lånebelopp) och (skulder) tillsammans med den beroende variabeln. Av kovariaterna i föregående modell lo-garitmeras enbart (lånebelopp) med en ekonomisk motivering. Övriga kovariater av större storleksordning än den beroende variabeln kan även de logaritmeras av liknande anledning

(28)

eftersom de eventuellt inte har linjära samband över hela spannet. Modell 6 är därmed ln(ränta) = β0+ β1ln(inkomst) + β2ln(ålder) + β3ln(fasta kostnader) + β4ln (lånebelopp)

+ β5(belåningsgrad) + β6(belåningsgrad topp) + β7ln(skulder) + β8(a-kassa) + β9(stockholm) + β10(bank2) + . . . + β16(bank8) + e.

(20)

3.7.2 Resultat

Modellen har en förklaringsgrad R2 = 0.1802 och R2 = 0.1790. Vilket är likvärdigt med modell 5:s förklaringsgrad. Logaritmeringen av (inkomst), (ålder), (fasta kostnader) och (skulder) kan därför inte sägas förbättra modellen.

Tabell 14: uteslutna kovariater

Kovariat ∆BIC (bank2) -8.63 (bank8) -6.74 (belåningsgrad topp) -6.63 (a-kassa) -6.34 ln(inkomst) -5.69 ln(skulder) -5.81

Tabell 15: Analys av varians

Källa SS F ln(ålder) 1.29 71.67 ln(fasta kostnader) 0.06 3.29 ln(lånebelopp) 7.39 411.72 (belåningsgrad) 3.97 221.11 (bank3) 9.43 525.59 (bank4) 0.82 45.73 (bank5) 0.44 24.25 (bank6) 0.35 19.62 (bank7) 0.95 52.78 Residual 112.32

Tabell 16: Koefficienttabell modell 6

ˆβ standardfel t-värde p-värde (Intercept) 1.4776e+00 5.0307e-02 2.94e+01 9.2823e-178 ln(ålder) 4.7892e-02 7.2457e-03 6.61e+00 4.1680e-11 ln(fasta kostnader) 1.3730e-02 2.8463e-03 4.82e+00 1.4432e-06 ln(lånebelopp) -5.6553e-02 2.7402e-03 -2.06e+01 1.3204e-91 (belåningsgrad) 1.2524e-01 9.8929e-03 1.27e+01 2.7606e-36 (bank3) -1.0263e-01 4.5405e-03 -2.26e+01 8.2631e-109

(bank4) -3.2687e-02 5.2415e-03 -6.24e+00 4.7770e-10

(bank5) 3.3269e-02 7.2545e-03 4.59e+00 4.6068e-06

(bank6) 2.3874e-02 6.5943e-03 3.62e+00 2.9658e-04

(29)

Figur 16: Q-Q plot för residualerna Figur 17: Plot över residualer

Figur 18: Histogram över residualerna 3.8 Modell 7

Av våra sex modeller har ingen modell särskilt hög förklaringsgrad. Möjigtvis beror detta på att vår modell har svårt att beskriva ett linjärt samband för en bred typ av kunder och räntenivåer med tillgänglig data. De som har mycket låg och hög ränta kan ha erhållit denna under särskilda omständigheter som inte återspeglas i datan. I vår sista modell, modell 7, avgränsar vi därför vårt dataset ytterligare till att endast inkludera de kunder som ligger i intervallet 2.2%-3.0% ränta med förhoppningen att de bättre kan förklaras med en linjär modell. Ränteintervallet inkluderar ca. 70% av observationerna i de tidigare modellerna och är med avgränsningen (Ränta): 2.2%-3.0% en fortsättning på modell 6.

(30)

Modell 7 är specificerad som

ln(ränta) = β0+ β1ln(inkomst) + β2ln(ålder) + β3ln(fasta kostnader) + β4ln (lånebelopp) + β5(belåningsgrad) + β6(belåningsgrad topp) + β7ln(skulder) + β8(a-kassa) + β9(stockholm) + β10(bank2) + . . . + β16(bank8) + e.

(21)

3.8.1 Resultat

Modellen har en förklaringsgrad R2 = 0.2714 och R2= 0.2698. Efter backward elimination med BIC tas kovariaterna i tabell 17 bort och kovariaterna i tabell 18 återstår. Feltermerna tycks vara normalfördelade och har inte längre en tjockare högersvans vilket kan ses i figurerna 19 och 20. I figur 19 är linjen inte längre brantare mot slutet vilket skulle tytt på en tjock högersvans. I figur 21 finns ett beroende mellan predikterat värde och residual som beror på de begränsningar i ränta som gjorts. Residualplotten i figur 21 kan uppfattas som heteroskedastisk p.g.a. det sluttande intervallet men detta är inte nödvändigtvis sant utan beror på begränsningarna av variabeln ränta. Denna typ av avgränsning ger positiva feltermer för låga prediktioner och negativa för höga. För att undersöka heteroskedasticitet för ett begränsat intervall kan kovariaterna var för sig plottas mot feltermerna. Plottar mot de kontinuerliga kovariten visar inte tecken på heteroskedasticitet. I figur 22 är alla observationer med (bank3) = 1 till höger om den vertikala linjen och det går att se att

fördelningen för residualerna förändras beroende på dummy-variabelns värde. Detta är ett tecken på heteroskedasticitet. Regressionskoefficienten för (bank3) är negativ men det

finns ändå observationer med en ränta nära den övre begränsningen 3% vilket leder till att residualerna kan anta ett högre värde om dummy-variabeln är 1. Residualernas fördelning beror således i det här fallet på en av kovariaterna.

Den högre förklaringsgraden beror på att en stor del av den variationen som kan för-klaras med modellen härstammar från dummy-variablerna för de olika bankerna. Dessa beskriver ett avvikande från medelvärdet och förklarar relativt sett datan bättre om vari-ansen av variabeln (ränta) minskas.

Tabell 17: uteslutna kovariater

Kovariat ∆BIC (belåningsgrad topp) -7.28 (akassa) –7.02 (bank2) -6.48 ln (skulder) -5.83 (bank8) -3.11 ln (inkomst) -1.01

Tabell 18: Analys av varians

Källa SS F ln (ålder) 0.14 30.33 ln (fasta kostnader) 0.00 0.24 ln (lånebelopp) 1.69 349.33 (belåningsgrad) 0.91 188.37 (bank3) 3.01 622.37 (bank4) 0.39 79.71 (bank5) 0.72 147.81 (bank6) 0.79 163.45 (bank7) 0.07 15.02 Residual 20.75

(31)

Tabell 19: Koefficienttabell modell 7

ˆβ standardfel t-värde p-värde (Intercept) 1.2845e+00 3.1417e-02 4.09e+01 6.9819e-309

ln(ålder) 2.4697e-02 4.5510e-03 5.43e+00 6.0581e-08 ln(fasta kostnader) 5.3346e-03 1.7658e-03 3.02e+00 2.5337e-03 ln(lånebelopp) -3.4136e-02 1.7639e-03 -1.94e+01 4.6506e-80 (belåningsgrad) 7.1795e-02 6.3330e-03 1.13e+01 2.2502e-29 (bank3) -5.9393e-02 2.7519e-03 -2.16e+01 3.7056e-98

(bank4) -1.8672e-02 3.3203e-03 -5.62e+00 1.9883e-08

(bank5) 6.0214e-02 4.6454e-03 1.30e+01 1.0208e-37

(bank6) 5.3812e-02 4.3972e-03 1.22e+01 7.1524e-34

(bank7) -1.7347e-02 4.4759e-03 -3.88e+00 1.0790e-04

Figur 19: Q-Q plot för residualerna Figur 20: Histogram över residualerna

(32)

4

Analys

4.1 Val av modell

Förklaringsgraden för de olika modellerna skiljer sig inte åt i större utsträckning som ta-bell 20 illustrerar. Modellerna 3, 5, 6 och 7 med logaritmerad responsvariabel beskriver dock datan lite bättre. Framförallt bidrar de till att göra residualerna mindre snedvridna. I allmänhet lyckas våra modeller inte förklara vilken ränta en kund har på ett tillfredstäl-lande sätt för att användas i prediktionssyfte. Modellerna har trots idoga försök till att passa datan bättre med olika transformationer av de ingående variablerna inte förbättrats avsevärt. Att välja en enda, ’bästa’, modell kan därför tyckas onödigt. Vi finner emellertid att modellerna med logaritmerad responsvariabel inte ger lika utpräglat heteroskedastiska feltermer som exempelvis modell 1 och 4. Modell 5 är dessutom lätt att tolka ekonomiskt. Modell 6 är nästan identisk med modell 5 men är svårare att tolka då det är en log-log modell. Modell 7 med begränsat ränteintervall har en högre förklaringsgrad. Denna beror dock, som tidigare nämnt, på att den totala variationen minskats genom att bara räntor i intervallet (2.2, 3.0) tagits med. Valet faller därför på modell 5. Nedan följer en tolkning av några av kovariaterna i tabell 13 för små förändringar i kovariaterna, under antagan-det att alla andra kovariater hålls fixa. Sambanden gäller approximativt för små ∆. För bakomliggande teori se avsnitt 2.3.7.

• En ökning av belåningsgraden med ∆(belåningsgrad) höjer räntan med ∆(belåningsgrad)· 12.2% ceteris paribus.

• En ökning av (lånebelopp) med ∆% sänker räntan med −∆ · 0.0565% • (bank3) sänker räntan med e−0.103 vilket motsvarar −9.79%

Tabell 20: Resultat - sammanfattning Modell R2 R2 F frihetesgrader 1 0.1494 0.1482 122.2 6259 2 0.1622 0.1547 21.48 6212 3 0.1690 0.1678 141.5 6259 4 0.1615 0.1603 133.9 6259 5 0.1803 0.1791 153.0 6259 6 0.1802 0.1790 152.9 6259 7 0.2714 0.2698 177.4 4287 4.2 Mätfel

Det formulär som har använts vid insamling av datan verifierar inte att angivna uppgifter är korrekta. Detta kan innebära två typer av felaktiga data, användare som inte anger sanningsenliga uppgifter och användare som anger felaktiga uppgifter oavsiktligt.

För att reducera antal felaktiga observationer i rapportens dataset har vi infört ett antal avgränsningar (se avsnitt 2.4.3). Med dessa avgränsningar rensar vi bort felaktiga observationer som innehåller orimliga värden. Däremot kan felaktiga observationer inne-hållande endast rimliga värden fortfarande finnas kvar. Dessa observationer är ofta inte lika påtagligt dåliga för modellen i minstakvadratmening men de bidrar fortfarande till

(33)

felaktiga skattningar av β och möjligtvis till en minskad förklaringsgrad för modellerna. Typer av oavsiktliga felangivelser kan vara exempelvis en nolla för mycket eller för lite på de ekonomiska kovariaten, en felaktigt angiven bindningstid, angivelse av årsinkomst istället för månadsinkomst, etc.

5

Diskussion

5.1 Val av kovariater

I utformningen av modellerna tas hänsyn till ett antal konsumentspecifika faktorer. Fak-torn bank fångar upp skillnader i kundränta mellan olika banker samtidigt som konsu-mentspecifika faktorer är inkluderade för att fånga upp kundens risk och potentiella värde för banken. Att beskriva en konsuments risk med ett antal kvantitativa och diskreta vari-abler är komplicerat. Det finns ett antal faktorer som påverkar risken och många av dessa faktorer kan vara svåra att mäta. Utelämnande variabler kan leda till att modellens för-klaringsgrad är lägre än om de inkluderats i modellen. Utelämnade variabler kan dessutom ge upphov till endogenitet om de är korrelerade med inkluderade variabler.

Vi har inte haft möjlighet att använda data om vissa mjuka variabler, exempelvis

rela-tion mellan bank och konsument. Relationsfaktorn kan tyckas ovidkommande för kundens

riskprofil men den påverkar bankens insyn i kundens risk och kan därutöver subjektivt påverka bankens uppfattning om konsumenten och erbjuden ränta. Ytterligare intressanta faktorer att inkludera är typ av anställning, konsumentens övriga tjänster hos banken och

förmögenhet. Typ av anställning kan reflektera risk och framtidsutsikter inom olika yrken

och dessutom fånga upp faktorer som är svåra att mäta. En kund som är högt anställd inom en bransch med goda framtidsutsikter innebär förmodligen låg risk i form av arbets-skador, potentiell löneutveckling och framtida arbetslöshet. Därutöver kan denna faktor fånga upp andra svåruppmätta faktorer såsom typ av personlighet och riskbenägenhet.

Konsumentens övriga tjänster hos bankenär en faktor som förklaras bra av en kvantitativ

variabel men dessvärre har enbart banken en bra uppfattning om dess värde. Om andra viktiga konsumentspecifika faktorer utelämnats ur modellen är svårt att avgöra, eftersom bankerna inte är skyldiga att redovisa vilka faktorer de tar hänsyn till. Konsumentens

för-mögenhethar en inverkan på ett bolåns risk och är en viktig aspekt för bankens potentiella

kreditförlust. Förmögenhet är förenklat en förhöjning av bostadens värde och medför lägre belåningsgrad. Konsumenten är dock inte förpliktigad att behålla en förmögenhet och hur mycket vikt banken ger denna faktor är oklart.

Ett möjligt endogenitetsproblem kan ses i de utformade modellerna för kovariaten

ålder. Ålder har en positiv koefficient med innebörden att en höjning av ålder, allt annat

lika, leder till högre ränta. Vi ser ingen ekonomiskt intuitiv anledning till detta förutom skillnader i redan inkluderade kovariater. Regressionskoefficienten tillhörande kovariaten

Ålderkan därmed vara skattad felaktigt på grund av korrelation med t.ex. de ovan nämnda

utelämnade variablerna eller andra oförutsedda variabler. 5.2 Individuell förhandling av räntan

Snedvridningen av feltermernas fördelning och den tjocka högersvansen för flera av våra modeller kan bero på att bolånen förhandlas individuellt. De bolån som blir utgivna av banker har en ränta som är begränsad nedåt då de inte säljer bolån som de inte tjänar pengar på. Bolåneräntan är inte på samma sätt begränsad uppåt då banken gärna säljer ett bolån där kunden gjort en dålig förhandling och banken har stor marginal. Även om en kund utgör en liten risk för banken och har ett stort lån och alltså har möjligheten att

(34)

få en bra ränta behöver denne i regel aktivt förhandla om räntan med banken. Om denna typ av observationer finns med i vårt dataset skulle modellerna förmodligen inte kunna förklara dessa och ge dem en lägre skattad ränta, dvs. en positiv felterm. Man kan alltså säga att kundens förhandlingsstyrka finns med i feltermen .

5.3 Modellspecifikation

Modellerna i denna rapport beskriver inte datan väl. Det kan, som tidigare nämnt, bero på att aspekter som inte går att fånga upp med kvantitativa data påverkar räntan. En möjlig orsak är att modellerna är felspecificerade, vilket betyder att sambandet inte kan beskrivas på det sätt som är specificerat i modellen. Vi har gjort ett antal transformationer av kovariaterna och den beroende variabeln utan att kunna förbättra modellen avsevärt. Det går dock inte att utesluta att modellen kan specificeras annorlunda och att den då ger bättre resultat med avseende på förklaringsgraden. Modellerna kan dock fortfarande bidra till att besvara frågeställning I och kan ses som ett första steg för vidare modellering.

6

Internetrelaterade tjänster och deras påverkan på

bolå-nemarknaden

Informationsteknologins framfart i allmänhet och internet i synnerhet har radikalt föränd-rat förutsättningarna för både produktion och konsumtion av varor och tjänster. Internet anses påverka ekonomins transparens och bidra till att låta konsumenterna göra mer in-formerade val mellan produkter (Eliasson, 2002). I detta kapitel ska vi därför undersöka hur informationsteknologi och internet förutsågs påverka, har påverkat och i framtiden kan påverka den svenska marknaden för bolån.

6.1 Metod

För att svara på frågeställning II har vi kartlagt vilka internetrelaterade tjänster som finns på marknaden för bolån i Sverige genom research i tidningar och på tjänsternas hemsidor. Vidare har vi genomfört en litteraturstudie inom området industriell dynamik och teknisk omvandling. Relevanta vetenskapliga artiklar söktes fram med hjälp av Google Scholar och KTHB Primo. Söktermer som internet, mortgage market, competition, transperancy,

transformation, disintermediation, mortgage overages och digital transformation

använ-des i olika kombinationer för att hitta relevant litteratur. Källorna valanvän-des sedan efter relevans till denna rapports frågeställning och antalet citeringar. För att få insikt i hur just den svenska bolånemarknaden fungerar har vi använt rapporter från Riksbanken, Fi-nansinspektionen och Konkurrensverket. Litteraturstudien kompletteras med resultaten från den statistiska analysen.

6.2 Information och sökkostnader

Som konstaterats inledningsvis sätts räntorna i Sverige individuellt även om det finns listräntor som fungerar som riktmärke för räntan. Som kund är det därför svårt att jämföra priser mellan olika banker. Det krävs att man kontaktar flera olika banker för en offert och förhandlar om räntan för att få en uppfattning om vad som är en rimlig nivå. Den tid detta tar i anspråk utgör en sökkostnad för individen.

Enligt den neoklassiska nationalekonomin kommer företagen att sätta priser som är högre än det konkurrenskraftiga priset om sökkostnaderna är höga (Salop och Stiglitz, 1977). Informerade konsumenter som söker information om priser effektivt bidrar till att

(35)

sänka priserna även för dem som har höga sökkostnader eller inte alls jämför priser. Denna effekt torde dock delvis motverkas av att bolåneräntan är individuellt förhandlingsbar och inte är en handelsvara, vilket förutsätts i Salop och Stiglitz modell. Då räntan sätts individuellt kan den informerade kunden förhandla och sänka sin egen ränta men detta behöver inte nödvändigtvis leda till en generell prissänkning från bankens sida som gynnar alla kunder.

Brown och Goolsbee (2000) undersökte hur minskade sökkostnader genom prisjämfö-relser på internet påverkar priserna för livförsäkringar, som i likhet med bolån har indi-viduell prissättning och inte är en handelsvara. De finner att även om en bara en liten del av konsumenterna söker information effektivt så leder det till lägre priser generellt. Likheten mellan livförsäkringar och bolån är att varje lån eller försäkring bedöms efter individens risk. I bolånefallet borde därför samma effekt gälla om en del av konsumenterna söker information om priser effektivt, dvs. har relativt sett lägre sökkostnader än andra konsumenter.

6.3 Industriell omvandling och strategier

Reaktiv omvandling till följd av förändrade marknadsförhållanden är vanligt i branscher där informationsteknologi har en inverkan på marknaden, främst branscher där flera pro-ducenter är verksamma på internet. Internet bidrar med gemensamma, lättöversiktliga marknadsplatser vilket kan skifta maktförhållandet mellan konsument och producent till konsumentens fördel (Umit Kucuk och Krishnamurthy, 2007). I vilken utsträckning en bransch påverkas beror bl.a. på hur homogen produkten är. Ökad transparens av detta slag kan ge upphov till en transformering av producenternas affärsstrategier.

Andal-Ancion m.fl. (2003) identifierar drivkrafter bakom användningen av ny informa-tionsteknologi inom en bransch och kopplar dessa till vilka strategier företag kan använda sig av. När ny informationsteknologi minskar sökkostnader och möjliggör elektronisk le-verans av varor eller tjänster, kan det vara en gynnsam strategi att reducera antalet mellanhänder (disintermediation), och i förlängingen kostnaderna, till exempel genom e-handel. En hög kontraktsrisk försvårar detta. Då kan det istället vara klokt att behålla och utveckla relationen till mellanhänderna (remediation) (Andal-Ancion m.fl., 2003). 6.4 Förutsägelser kring den digitala revolutionen på bolånemarknaden Det har bedrivits mycket forskning som behandlar internets påverkan på bankmarknaden. Större delen av dessa forskningsartiklar är publicerade kring millenieskiftet då internet spåddes revolutionera bankmarknaden. Vi har undersökt vad den digitala utvecklingen för bankmarknaden förutspåddes leda till gällande bolån.

Tre huvudsakliga faktorer identifieras vid millenieskiftet som drivande för transforma-tionen inom banktjänster till privatpersoner - pristransparens, differentierad prissättning och mellanhandsreducering (Clemons och Hitt, 2000; Lilja, 1999).

Den totala andelen bolån som härstammade från internet-försäljning i USA år 2000 var liten (<1 %). Samtidigt fanns det redan då ett betydande antal bolånetjänster online vilket troligvis kan härledas till de relativt låga inträdesbarriärerna. Många av tjänsterna erbjöd kalkyleringar av räntebetalningar, värdering av konsumentens köpkraft och prisjämförel-se av tillgängliga listräntor. Antalet bolåneköpare som använde dessa tjänster var långt större än antalet sålda bolån online. I första hand skulle dessa tjänster medföra att pressa marginalerna som helhet långt före e-handeln blev dominant. (Clemons och Hitt, 2000)

Clemons och Hitt (2000) ansåg att små skillnader i kundlönsamhet tillsammans med homogena, standardiserade produkter gjorde bankerna känsliga för pristransparens. Detta

(36)

hade tidigare motverkats av geografisk differentiering - de flesta kunder hade valt en bank med kontor inom tre kilometer från deras bostad eller arbete. Många aktörer hade som affärsstrategi att knyta kunder till flera av sina tjänster med rabatter och därmed öka kundlönsamheten. Nyuppkomna internettjänster för prisjämförelse skulle kunna erodera flera av fördelarna med denna affärsstrategi. Konsumenters geografiska begränsningar skul-le minska, prisjämförelser få ökad betydelse och paketering av tjänster bli mindre lönsamt då kunden enklare skulle kunna jämföra alternativet att kombinera flera olika aktörer. (Clemons och Hitt, 2000)

Det begränsade antalet produktdimensioner förutspåddes också göra bolån till en ideal produkt att köpa och söka information om via internet, eftersom sökprocessen lätt kan standardiseras. Detta ansågs långsiktigt komma att reducera antal mellanhänder vid för-säljning av bolån (Clemons och Hitt, 2000; Lilja, 1999). I Sverige fanns år 1999 aktörer som sålde bolån via internet med betydligt lägre fasta kostnader än traditionella bostadsinsti-tut och minskade inträdesbarriärer ansågs kunna öppna bolånemarknaden för nya aktörer (Lilja, 1999).

6.5 Utvecklingen av den svenska marknaden för bolån

Den nya informationsteknologin har under det senaste decenniet skapat förutsättningar för bostadsinstitut att erbjuda sina tjänster elektroniskt. Informationsteknologin har även möjliggjort insamling och jämförelse av stora mängder data. Idag finns ett antal tjänster på bolånemarknaden som med stor sannolikhet kan härledas till detta.

6.5.1 Analys av befintliga tjänster

Alla svenska banker har under en längre tid erbjudit kunden möjlighet att kalkylera sina framtida månadskostnader, till exempel via deras respektive hemsidor. Två av banker-na använder dessutom en transparent prissättningsmodell för bolåneräntor. Resterande banker redovisar endast listräntor vilket medför att konsumenten är tvungen att göra en bolåneansökan hos banken för att få en uppfattning om vilken ränta de erbjuds. Tre ban-ker redovisar sina upplåningskostnader för bolån tillsammans med listräntan och ger på så sätt konsumenten en uppfattning om deras bruttomarginal.

På bolånemarknaden kan bankkontoren ses som mellanhänder i och med att de för-medlar krediter till slutkunden och vårdar kundrelationerna, men inte själva organiserar upplåningen. Skandiabanken och SBAB har inga mellanhänder i form av bankkontor utan bolånen förmedlas direkt till kund via internet och telefon. Deras strategi går ut på att reducera antalet mellanhänder (disintermediation).

På senare tid har det skapats tjänster för att ge konsumenterna ökad insyn i prissätt-ningen av bolån och hjälp vid förhandling. Vi har uppmärksammat två digitala tjänster, SvDs Räntekarta och Villaägarnas Räntekollen. Räntekartan är en kartläggning av bolå-netagare, deras adress, lånebelopp och bank. Det är ett verktyg med målsättning att ge en bättre insyn i vilka räntor andra privatpersoner i konsumentens närhet har erhållit. Insamling av data till tjänsten görs på frivillig basis. Räntekollen är ett verktyg för att beräkna bankens teoretiska kostnad för konsumentens bolån. Verktyget summerar upplå-ningskostnad och kreditrisk (vilket kräver avsatt kapital) och beräknar den räntenivå där banken inte tjänar pengar på låntagaren.

Det finns även tjänster som ger konsumenten möjlighet att låta ett företag förhandla räntan hos flera aktörer. Kunden uppger information om sin privatekonomi och bostad varefter onlinetjänsten hämtar in offerter från olika banker. Kunden kan då välja offerten med lägst ränta. Sådana tjänster, såvida de kan förmå bankerna att lämna offerter, bidrar

References

Outline

Related documents

Informanten på Handelsbanken och Nordea anser i likhet med SEB att det inte finns konkreta svar för vilken information som är viktig men anser i enlighet med författaren

Sedan klickar du på ”Fler alternativ för trendlinje” (sista alternativet) och där klickar du i att ekvationen ska visas och R2värdet ska visas (längst ned i rutan). Du får nu

De variabler som bidrog mest till den totala stopptiden var F aktisk st¨ alltid, Sm˚ astopp samt M aterialbyte.. F aktisk st¨ alltid kan eventuellt minskas till under 10 minuter

Data innefattar area för respektive substans och analys, det beräknade x-värdet (vilket beräknades med ekvationen erhållen från sex kalibreringslösningar, se Bilaga 2

I Om tv˚a tillst˚and kommunicerar tv˚asidigt ¨ar antingen b˚ada tillst˚anden best¨andiga eller b˚ada obest¨andiga.. I Om alla tillst˚and kommunicerar tv˚asidigt med varandra

Uppgift: Avläs ett 95 %-igt prediktionsintervall för en framtida observation från ultraljudsmätaren, då kalibreringsriggen ger mätvärdet 0.40 m/s?. Uppgift: Tänk efter vad det är

Eftersom föregå- ende simuleringarna visar på att t-testet inte bevarar signifikansnivån för denna typ av feltermer, är testet inte giltigt och bör därför inte användas, trots

Oberoende variabler som analyserades var medelvärdet av kroppsvikt, daglig mjölkavkastning (kg mjölk och ECM), mjölkens innehåll av laktos, protein och fett, hull, fodrets