Våldsbrott i Stockholms län och Uppsala län: En statistisk undersökning för att skatta effekten på våldsbrott med en multipel linjär regression genom studier av ungdomsbrottslighet i kombination med samhällsrelaterade faktorer

(1)

Våldsbrott i Stockholms län och Uppsala län

En statistisk undersökning för att skatta effekten på våldsbrott med en multipel linjär regression genom studier av ungdomsbrottslighet i kombination med samhällsrelaterade

faktorer

Shasika Fernando

Department of Statistics Uppsala University

Supervisor: Philip Fowler

2021

(2)

2

Abstract

This following report estimate the effect of violent crime with juvenile delinquency together with some societal factors with the help of a multiple regression of panel data. The results show that there are some variables that have a significant effect on violent crime. In my conclusion I discuss that the economic situation might contributes to violent crimes initially.

Nyckelord:

Våldsbrott, ungdomsbrottslighet, paneldata, fixed effects modell, robusta standardfel

(3)

3

Innehållsförteckning

1. Inledning och tidigare forskning ... 4

1.1 Syfte och frågeställning ... 6

1.2 Eventuella problem ... 6

2. Metod... 7

2.1 Data och beskrivning av variabler ... 7

2.2 Paneldata ... 8

2.3 Fixed effects model ... 9

2.3.1 Fixed effects transformation or within transformation ... 10

2.3.2 Robust standard errors ... 11

2.4 Antaganden för fixed effects modeller och diagnostik ... 12

3. Resultat ... 14

3.1 Individual fixed effects model ... 15

3.2 Testar antaganden ... 16

3.3 Slutgiltiga modellen: Fixed effect modell med robust standard error ... 18

3.3.1 Lagged fixed effects model ... 19

4. Diskussion och slutsats ... 21

Referenser ... 27

Bilagor ... 32

Bilaga 1 ... 32

Bilaga 2 ... 32

Bilaga 3 ... 33

Bilaga 4 ... 33

Bilaga 5 ... 34

Bilaga 6 ... 34

Bilaga 7 ... 35

(4)

4

1. Inledning och tidigare forskning

De senaste åren har den mediala rapporteringen rörande skjutningar, sprängningar, väpnade gängkonflikter och andra våldsbrott ökat (Sturup, 2020). Men relationen mellan den stora mediala uppmärksamheten och det verkliga antalet brott, alternativt anmälda sådana, är omdebatterat. Över tid ser trenden för vissa typer av brott ut att gå nedåt samtidigt som andra ökar mycket kraftigt, således kan den enkla frågan om brotten ökar eller minskar ha ett komplext och svårtolkat svar. Även för brottsstatistik som är avgränsad till ett specifikt brott, exempelvis brott mot person, pekar sifforna i olika riktning. Den trend som ändå allra

tydligast ser ut att öka statistiskt är de grova brott som begås i kriminell miljö (Sturup, 2020).

I kombination med detta skrivs det allt oftare om att genomsnittsåldern för den som begår brotten, framförallt i den kriminella miljön, sjunker. Den typ av brott som förr var förknippad med vuxna syns nu hos yngre personer, ibland även minderåriga (Hellberg, (2020); Wierup, (2020)).

Antalet territoriella nätverk har ökat markant det senaste decenniet och inom dessa framstår en tydlig hierarki; ett fåtal ledargestalter som genom hot och våld låter yngre personer,

ungdomar, begå de flesta av brotten. Eftersom förskjutningen mellan åldersgrupperna skett på detta visa talar man därför för en ökad ungdomsbrottslighet (Hellberg, (2020); Wierup, (2020)).

Vidare så menar Hellberg (2020) att brottsstatistiken kan peka åt olika håll beroende på hur den läses, av vem den läses och i vilket syfte den används samt hur avgränsad den alltså är till en viss typ av brott. Parallellt med ovanstående resonemang samtalar man även om hur brott av viss karaktär leder till andra av annan karaktär; hur upprepade narkotikauppgörelser och langning- kan leda till utpressning, hot och skadegörelse. I förlängningen även hur dessa leder till våldsbrott- med eller utan dödlig utgång (Wierup, (2020)).

Brottsförebyggande rådet, BRÅ, som ligger till grund för en stor den av den insamlade statistiken för Sverige i allmänhet och detta arbete i synnerhet, kan givet enbart ta hjälp av antalet anmälda brott. Tidigare forskning gjord vid Cambridge Universitet, som till viss del fortfarande befinner sig i ett tidigt stadie, menar istället på att samhället skulle ha nytta av ett system där brott tillskrivs olika värden beroende av dess karaktär. Ett mord blir således mer värt i statistiken än ett inbrott eller stöld (Lawrence, Neyroud, P. & Neyroud, E., (2016)). Med det menar man att det bör bli lättare att ringa in områden med hjälp av statistiken. Dessutom skulle det underlätta för studier av brottsutvecklingen då de grova våldsbrotten, som är

(5)

5 föremål för kommande arbete, fortfarande utgör en liten del av den totala brottsstatistiken.

Forskningen över brottskadeindex på Cambridge skulle, om den implementeras, kunna peka ut både hot spots och crime harm spots. Skillnaden mellan dessa är att det på den förstnämnda platsen statistiskt begås många brott. På en crime harm spot har polis eller annan myndighet istället tillskrivit exempelvis mord, dråp och misshandelsfall statistiskt högre värde och framträder istället platser där mer skada vållas (Lawrence, Neyroud, P. & Neyroud, E., (2016)). Detta skulle möjliggöra för framtida forskning att fastställa områden där brott med högre värde och mer skada begås respektive områden för upprepade brott med lägre värde begås- narkotikabrott och skadegörelse exempelvis. Genom möjligheten att fastslå områden på sådant sätt torde en mer omfattad bild av brottens samband kunna kartläggas. Vidare skulle det kunna användas för att forska på korrelationen mellan ungdomsbrottslighet- kanske oftare tillhörande hot spots- och våldsbrott- crime harm spot (Hellberg 2020).

I Sverige studeras forskningen från Cambridge hos Nationella Operativa Avdelningen, NOA, där förhoppningen är att finna ett sätt för tillämpning på svensk brottsstatistik med målet att kunna införa just punktinsatser mot viss typ av brottslighet för att stoppa den uppåtgående trenden i framförallt kriminella miljöer där brotten ökar som mest (Hellberg, 2020; Wierup, (2020); Sturup, (2017)).

Det ska nämnas att de valda brottstyperna; narkotikabrott, skadegörelse och stöld, är utvalda för att representera ungdomsbrottslighet just för att dessa typer är vanligast att ungdomar begår (BRÅ, Ungdomsbrottslighet, (2020)). Vidare är sambandet mellan våldsbrott och ungdomsbrottslighet, då menat just ovanstående brottstyper, inget nytt. Snarare är det en fostringsmetod där kriminella gäng fångar upp och rekryterar snabbare än myndigheter och instanser hjälper eller misslyckas i sina försök (Wierup, (2020)). Ändock är omfattande forskning på sambandet relativt låg. Dessutom har vi idag inte ett brottskadeindex på plats, något som troligen skulle kunna förklara sambandet mellan olika brottstyper enklare.

Sammanfattningsvis pekar inte statistiken övergripande lika rakt uppåt som den mediala rapporteringen emellertid vill få det att låta som, ökningen sker istället som allra tydligast i den kriminella miljön där statistiken även indikerar att genomsnittsåldern för brottsoffer och gärningsman är lägre än för andra sammanhang (BRÅ, Dödligt våld i Sverige 1990–2017).

Med ovanstående inledning som grund gör den här analysen anspråk på att försöka förklara våldsbrottens samband med ungdomsbrottslighet i korrelation till andra variabler.

(6)

6

1.1 Syfte och frågeställning

Syftet med denna undersökning är att försöka förutspå våldsbrott genom studier av ungdomsbrottsligheten i kombination med samhällsrelaterade faktorer i Stockholm- och Uppsala län där ungdomsbrottsligheten syftar till de mest förekommande brottstyperna bland unga; skadegörelse, stöld samt narkotikabrott (BRÅ, (2020)). Målet med undersökningen är att försöka finna en förklaring till våldsbrott med hjälp av de valda faktorerna i följande rapport på kommunnivå. Förhoppningen är att finna ett samband mellan ungdomsbrottslighet och våldsbrott, i given kombination med samhällsrelaterade faktorerna och avser därmed svara på följande frågeställning:

• Går det att skatta effekten på våldsbrott i kommunerna i Stockholms län och Uppsala län genom ungdomsbrottslighet i kombination med andra samhällsrelaterade faktorer?

1.2 Eventuella problem The Ecological Fallacy:

The ecological fallacy är termen för när antaganden om en individ görs baserat på

aggregerade data för en grupp. Med andra ord uppstår det då händelser på makronivå som används för att dra slutsatser på individnivå. Vid tolkning av resultat ska detta alltid has i åtanke, datan ska alltid tolkas i stigande led mellan olika grupper (individ-stad-stat-land exempelvis). Tolkas datan fallande mellan grupperna riskerar slutsatserna att bli felaktiga.

Detta blir relevant i mitt arbete då datan det baseras på är på kommunnivå, således ska

slutsatser på individnivå undvikas eftersom det skulle innebära att gå i fallande led (Robinson, (1950)).

Omvänd kausalitet:

Med begreppet omvänd kausalitet menas en situation där sambandet mellan ett resultat och en exponering inte beror på direkt kausalitet. Istället används termen för att förklara att en

förändring sker i exponeringen till följd av det konstaterade resultatet. Till exempel skulle det i denna analys kunna innebära att antalet narkotikabrott (exponering) har stor påverkan på våldsbrott (resultatet). Våldsbrotten kan i sin tur påverka antalet narkotikabrott och leda till att användningen ökar, den så kallade termen omvänd kausalitet uppstår- när sambandet fungerar åt båda hållen (Leszczensky & Wolbring, (2009)).

(7)

7

2. Metod

2.1 Data och beskrivning av variabler

Datan som används i detta arbete består av ett balanserad paneldata över Stockholm- och Uppsala län som utgörs av 34 kommuner mellan år 2010 och 2019. Detta ger ett stickprov om 340 observationer. Valet av denna period är baserad på tillgänglighet av data men framförallt intresse sett till den kraftigt ökade rapporteringen enligt ovan. Datan angående våldsbrott och ungdomsbrottslighet, det vill säga stöld, skadegörelse och narkotika samlades från

Brottsförebyggande rådet (BRÅ). Datan om inkomst, bostadspriser och medelålder samlades från Statistiska centralbyrån (SCB).

Arbetets avsikt är att analysera ett paneldata över en ungefärlig 10-års period för att främst få

ett tillräckligt stort stickprov och inte fler år då det är tidskrävandet att samla in data.

Datamaterialet som samlas relaterat till våldsbrott, ungdomsbrottslighet samt

samhällsrelaterade faktorer är från SCB, BRÅ och ekonomifakta. Data materialet har samlats till ett dokument i Excel.

Denna analys utfördes i det statistiska programmet R (R Core Team, (2020)) och med hjälp av plm-paketet (Croissant & Millo, (2008)).

I denna rapport syftar våldsbrott till brott mot 3 kap. Brott mot liv och hälsa, som är rapportens beroende variabel. Nedan följer en detaljerad förklaring av de variabler som är fokus i denna rapport. Observera att de oberoende variablerna stöld, skadegörelse och narkotika är lagar enligt svensk lag och detsamma gäller för den beroende variabeln, våldsbrott.

(8)

8 Tabell 1: Förklaring av variabler

Variabel Förklaring

Våldsbrott Antal anmälda brott enligt 3. kap Brott mot liv och hälsa per 100 000 invånare

Stöld Brott mot brottsbalken, 8-12 kap. Brott mot förmögenhet, 8 kap. Stöld, rån m. m. (per 100 000 invånare)

Skadegörelse Brott mot brottsbalken, 8-12 kap. Brott mot förmögenhet, 12 kap.

Skadegörelsebrott (per 100 000 invånare).

Narkotika Brott mot specialstraffrättsliga författningar. Brott mot narkotikastrafflagen, innehav (1-3 §). (per 100 000 invånare).

Inkomst Medelvärdet av det totalt intjänade inkomster i (tkr) per 100 000 invånare i kommunen för alla över 16 år för både män och kvinnor.

Medelålder Medelåldern för män och kvinnor i kommunen per 100 000 invånare.

Bostadspriser Köpeskillingen för småhus i kommunen beräknat i medelvärdet i (tkr).

Permanent bostad och ej tomträtt.

2.2 Paneldata

Studien utgår ifrån en regressionsanalys med hjälp av en multipel linjär regression med paneldata och dess metoder för att skatta effekten av den beroende variabeln. Paneldatan består av en tidsserie för varje tvärsnittsenhet som ingår i ett dataset. Det som kännetecknar ett paneldata är att samma tvärsnittsenheter följs under en given tidsperiod (Wooldridge, (2010)).

En enkel paneldatamodell kan se ut på följande sätt:

𝑦_𝑖𝑡 = 𝛼 + 𝛽𝑥_𝑖𝑡+ 𝑢_𝑖𝑡, (1)

där 𝑦_𝑖𝑡 är den beroende variabeln, 𝛼 är interceptet, 𝑢_𝑖𝑡är feltermen. I standardfallet antas 𝑢_𝑖𝑡vara oberoende och identiskt fördelad över individer och tid, med medelvärdet noll och variansen 𝜎_𝜇². 𝛽 är en 𝑘 × 1 vektor av parametrar som ska skattas, 𝑥_𝑖𝑡 är också en vektor av de oberoende variabler och där 𝑡 = 1, . . . , 𝑇; 𝑖 = 1, . . . , 𝑁. Indexet 𝑡 står för antal tidsperioder och i denna rapport är 𝑇 = 10 å𝑟. Indexet 𝑖 står för antal tvärsnittsenheter och i denna rapport syftar antal tvärsnittsenheter till antal kommuner, vilket är 34 kommuner, dvs.

(9)

9 𝑁 = 34 𝑘𝑜𝑚𝑚𝑢𝑛𝑒𝑟. Paneldatan består av N individer som observerats vid T regelbundna tidsperioder och antalet observationer i denna analys blir då N×T=340. Paneldata kan vara balanserade om alla individer är observerade vid alla tidsperioder eller obalanserade om individer inte är observerade vid alla tidsperioder (Verbeek, (2004)).

Paneldataanalys har många fördelar jämfört med analys med endast tidsserier eller endast analys av tvärsnittsdata. Till exempel bidrar paneldata till ökade stickprovsstorlek och tillåter analyser av komplicerade modeller (Gujarati, (2009)). Genom att använda en kombination av tvärsnittsenheter och tidserier bidrar paneldata till mer informativa data, fler frihetsgrader, mindre kollinearitet och mer effektivitet (Wooldridge (2010); Gujarati, (2009)). Nackdelen med paneldata är att samma problem med analys av tvärsnittsenheter och tidserier kan uppstå, dessa är heteroskedasticitet och autokorrelation (Wooldridge, (2010); Gujarati, (2009)).

Då datan består av ett paneldata så kommer en Fixed effect modell att undersökas med Within transformation som estimeringsteknik och undersöka dess antaganden och utföra vissa formella tester för att dra slutsatser om datat passar modellen eller ej (Gujarati, (2009);

Verbeek, (2004)).

Mer om fixed effect modell, within transformation och dess antaganden och formella tester tas upp nedan.

2.3 Fixed effects model

Det finns flera olika metoder och tekniker inom paneldataanalyser och i denna analys kommer Fixed effects modell att väljas före till exempel en alternativ modell Pooled Ordinary Least Squares model (Pooled OLS). En skillnad mellan dessa tekniker är att om det finns obemärkt heterogenitet, dvs. en obemärkt faktor som påverkar den beroende variabeln, och detta skulle vara korrelerad med någon av de oberoende variablerna är Pooled OLS inkonsekvent, medan en fixed effect-modell är konsekvent (Wooldridge, (2010); Gujarati, (2009); Verbeek, (2004))

Fixed effect modeller förutsätter att skillnader mellan tvärsnittsenheter kan fångas i en konstant term. Varje 𝛼_𝑖behandlas som en okänd parameter som skattas (se ekvation 2). Det förutsätts också att det ska finnas enhetsspecifik heterogenitet i modellen som kan vara korrelerad med de oberoende variablerna och måste tas bort från regressionen före

skattningen. Med heterogenitet i paneldata modeller menas att modell parametrarna (konstant- och lutningskoefficienter) varierar mellan individer. Användningen av fixed effects modeller

(10)

10 möjliggör en minskning av så kallade the omitted variable bias. Med the omitted variable bias menas att de variabler som inte är observerade i datasetet ändå har effekt på den beroende variabeln (Wooldridge, 2010; Baltagi, (2005)). I denna analys när det gäller våldsbrott, är det vanligt att ett stort antal variabler påverkar våldsbrott och att samla in alla dessa faktorer i ett dataset är mycket svårt och tidskrävande, och därmed leder detta till antagande om

förekomsten av observerade effekter.

Om vi utökar modellen till att omfatta de sex oberoende variabler som kommer att användas i denna analys tar den följande form:

𝑦_𝑖𝑡 = 𝛽₁𝑥_1𝑖𝑡+ 𝛽₂𝑥_2𝑖𝑡+ ⋯ + 𝛽₆𝑥_6𝑖𝑡+ 𝛼_𝑖 + 𝜀_𝑖𝑡, (2)

där 𝑥_1𝑖𝑡 är en av de oberoende variablerna, till exempel i denna rapport inkomst, för 𝑖 kommuner för tiden 𝑡. Koefficienten 𝛽₁ mäter effekten av den oberoende variabeln, 𝑥_1𝑖𝑡, på den beroende variabeln, 𝑦_𝑖𝑡, vilket är i denna analys är våldsbrott och 𝛼_𝑖 är intercept som är okänd, även kallad för individeffekt av den enskilda heterogeniteten, den återspeglar den icke observerbara variabeln som förklarar skillnaden inom de olika kommunerna som indexeras av 𝑖. Den sista termen, 𝜀_𝑖𝑡, är feltermen som fångar upp idiosyncratic error eller idiosyncratic disturbance (Greene, 2011). Denna felterm antas ha betingat medelvärde noll,

𝐸(𝜀_𝑖𝑡|𝑥_1𝑖𝑡, 𝑥_2𝑖𝑡, … , 𝑥_𝑝𝑖𝑡) = 0, dvs. feltermen antas vara okorrelerad med alla observationer av variabeln 𝑥_𝑝𝑖𝑡 för tvärsnittsenheterna 𝑖 och över tid 𝑡 (Greene, (2011); Wooldridge, (2010), Wooldridge, (2015)). Med idiosyncratic error menas här en felterm som icke-observerade faktorer som påverkar den beroende variabeln som både förändras över tid och över enheter (Verbeek, (2004); Wooldridge, (2010)).

Den modellen som jag kommer att undersöka med de valda oberoende variablerna ser ut på detta sätt:

𝑉å𝑙𝑑𝑠𝑏𝑟𝑜𝑡𝑡_𝑖𝑡 = 𝛽₁𝑆𝑡ö𝑙𝑑_𝑖𝑡+ 𝛽₂𝑆𝑘𝑎𝑑𝑒𝑔ö𝑟𝑒𝑙𝑠𝑒_𝑖𝑡+ 𝛽₃𝑁𝑎𝑟𝑘𝑜𝑡𝑖𝑘𝑎_𝑖𝑡 + 𝛽₄𝐼𝑛𝑘𝑜𝑚𝑠𝑡_𝑖𝑡+ 𝛽₅𝑀𝑒𝑑𝑒𝑙å𝑙𝑑𝑒𝑟_𝑖𝑡+ 𝛽₆𝐵𝑜𝑠𝑡𝑎𝑑𝑠𝑝𝑟𝑖𝑠_𝑖𝑡+ 𝛼_𝑖+ 𝜀_𝑖𝑡. (3)

2.3.1 Fixed effects transformation or within transformation

Med hjälp av Within transformation tillvägagångssätt eliminerar man den individspecifika effekten 𝛼_𝑖 genom att transformera modellen (se ekvation 4). För att vidare undersöka vad denna metod innebär, låt se denna model med en oberoende variabel för varje 𝑖,

(11)

11 𝑦_𝑖𝑡 = 𝛽₁𝑥_𝑖𝑡+ 𝛼_𝑖+ 𝜀_𝑖𝑡, (4)

där 𝑡 = 1,2, . . . , 𝑇. För att transformera, för varje 𝑖, tar man medelvärdet av denna ekvation vilket ger:

𝑦̅_𝑖 = 𝛽₁𝑥̅_𝑖+ 𝛼̅_𝑖+ 𝜀̅_𝑖, (5)

där 𝑦̅_𝑖 = 𝑇⁻¹∑^𝑇_𝑡=1𝑦_𝑖𝑡, 𝑥̅_𝑖 = 𝑇⁻¹∑^𝑇_𝑡=1𝑥_𝑖𝑡, 𝜀̅_𝑖 = 𝑇⁻¹∑^𝑇_𝑡=1𝜀_𝑖𝑡 och 𝛼̅_𝑖 = 𝛼_𝑖. Dessa kallas för time means för varje enhet 𝑖. Eftersom 𝛼_𝑖 är fixat över tid visas det i både ekvationerna. Om vi subtraherar ekvation (4) med ekvation (5) för varje 𝑡 får vi att:

𝑦_𝑖𝑡− 𝑦̅ = 𝛽_𝑖 ₁(𝑥_𝑖 − 𝑥̅ ) + 𝜀_𝑖 _𝑖𝑡− 𝜀̅, 𝑡 = 1, … , 𝑇, _𝑖 (6) vilket också kan skrivas: i

𝑦⃛_𝑖𝑡 = 𝛽₁𝑥⃛_𝑖𝑡+ 𝜀⃛_𝑖𝑡, 𝑡 = 1, … , 𝑇, (7)

där 𝑦⃛_𝑖𝑡 = 𝑦_𝑖𝑡 − 𝑦̅ är den så kallade time-demeaned datat för 𝑦, med samma resonemang för _𝑖 𝑥⃛_𝑖𝑡och 𝜀⃛_𝑖𝑡. Med time-demeaned menas när medelvärden för varje variabel inom enheten (within subject), både för den beroende och för de oberoende variablerna subtraheras från de observerade värdena för variablerna (Verbeek, (2004); Wooldridge, (2010); Allison, (2005)).

I denna transformering försvinner 𝛼_𝑖, vilket antyder att vi borde skatta ekvation (7) med hjälp av Pooled OLS. En pooled OLS skattning som är baserad på time -demeaned variabler kallas för fixed effects estimator eller within estimator (Wooldridge, (2012)).

2.3.2 Robust standard errors

Användning av paneldata kan generera problem som heteroskedasticitet och autokorrelation.

Dessa är vanliga vid användning av data på aggregerad gruppnivå, kluster, vilket i denna analys syftas till kommuner. Ett problem som uppstår är när observationer grupperas i kluster, med modellfel (model errors) som inte är korrelerade mellan kluster men korrelerade inom kluster (Cameron & Miller, (2015); Verbeek, (2004); Wooldridge, (2012)). I denna analys kan alltså modellfel i olika tidsperioder för vissa kommuner vara korrelerade medan de för andra kommuner kan antas vara okorrelerade. I sådana situationer kan precisionen på

standardfelens uppskattningar vara missvisande och inkonsekventa, vilket kan leda till missledande p-värden, t-statistika samt konfidensintervall (Cameron & Miller, (2015);

Verbeek, (2004); Wooldridge, (2012)).

(12)

12 Cameron and Miller, (2015) menar att statistiska slutsatser av OLS regression bör baseras på cluster - robust standard error (kluster – robust standardfel), om antalet kluster är stort.

Robust standard errors är en teknik för att erhålla väntevärdesriktiga (unbiased) standardfel för Ordinary leasat squares (OLS) koefficienter under heteroskedasticitet (Cameron & Miller, 2015). Om vi upptäcker heteroskedastiskt data i modellen kommer Gauss Markov –

antaganden att brytas. Denna antagandet är nödvändigt för OLS regression. Med Gauss – Markov antaganden menas att göra våra skattningar till BLUE, dvs. Best Linear unbiased Estimator, nämligen den bästa linjära väntevärdesriktiga estimatorn (Wooldridge, (2012)).

Den intresserade läsaren kan hitta mer om robusta standardfel i följande litteratur: (Cameron

& Miller (2015); Verbeek (2004); Wooldridge (2012); Arellano (1987); Stock & Watson (2008)). För att få fram de robusta standardfelen har jag använt mig av paketet sandwich i R med estimeringstekniken Heteroscedasticity and Autocorrelation Consistent Covariance Matrix Estimation (vcovHAC) som kontrollerar för heteroskedasticitet och autocorrelation (Zeileis, Köll & Graham, (2020)).

2.4 Antaganden för fixed effects modeller och diagnostik Antaganden FE1: Heteroskedasticitet

Heteroskedasticitet är ett vanligt problem vid analys med tidsserier och tvärsnittsanalyser.

Antagandet om att datat ska vara homoskedastiskt är oftast ett krav och nödvändigt för

regression. Mer matematiskt förklaras homoskedasticitet enligt (Wooldridge, (2010); Stock &

Watson (2015):

𝑣𝑎𝑟(𝜀_𝑖𝑡|𝑥_𝑖, 𝛼_𝑖) = 𝐸(𝜀_𝑖^´𝜀_𝑖| 𝑥_𝑖, 𝛼_𝑖) = 𝜎_𝜀²𝐼_𝑇, för alla 𝑡 = 1,2, . . , 𝑇,

där 𝐼_𝑇 är 𝑇 × 𝑇 identitetsmatris. Med detta menas att feltermen är det samma för alla värden på de oberoende variablerna. När detta antagande bryts så uppstår det problem med

heteroskedasticitet.

Undersökning av antagandet om homoskedasticitet kan göras genom att utföra ett Breusch – Pagan test för att undersöka detta. Testet utfördes med hjälp av funktionen bptest() som ingår i paketet plm i R (Breusch & Pagan, (1979)).

Noll hypotesen är att datat är homoskedastiskt och vi om lyckas förkasta noll hypotesen indikerar att datat är heteroskedastiskt och därav krävs det en robust standard error estimering för att försöka lösa detta. Om heteroskedasticitet finns i datat betyder det att det finns ett

(13)

13 beroende mellan en eller flera oberoende variablers värden och feltermens varians, dvs. med andra ord kan man säga att feltermens varians betingat på alla oberoende variabler inte är konstant. Detta kan leda till missvisande konfidensintervall, p-värden vilket leder till missvisande slutsatser (Wooldridge, (2015)). För mer överblick om hur Breusch-Pagan test och heteroskedasticitet se exempelvis Su & Chen (2013) och Su et al. (2015).

Antaganden FE2: Autokorrelation

Autokorrelation kan uppstå när feltermerna för samma enhet (i denna analys kommun) för olika år beror på varandra, mer precist att 𝑐𝑜𝑣(𝜀_𝑖𝑡, 𝜀_𝑖𝑠|𝑥_𝑖, 𝛼_𝑖) = 0 där 𝑡 ≠ 𝑠, med detta menas i denna studie att kovariansen mellan två feltermer för samma kommun för två olika år är skild från noll (Wooldridge, (2015); Wooldridge, (2010); Stock & Watson, (2015)).

För att undersöka antagandet om det finns autokorrelation eller inte kan man utföra ett så kallad Breusch – Godfrey/ Wooldridge test for serial correlation. Även detta test utfördes i R med hjälp funktionen pbgtest() som också ingår i paketet i plm (Breusch, (1978); Godfrey, (1978)).

Noll hypotesen är att det inte finns autokorrelation i feltermen med en fixed effects modell.

Om problem med autokorrelation uppstår kan man lösa detta med hjälp av en robust standard error estimering, precis som nämnd ovan. För mer läsning om detta hänvisas läsaren till (Verbeek, (2004), Wooldridge, (2010; 2015)).

Antaganden FE3: Multikollinearitet

För att undersöka om det förekommer multikollinearitet eller inte kan man undersöka Variace inflation factor (VIF). Ett VIF värde över 10 indikerar att det förekommer multikollinearitet i modellen, dvs en variabel med ett VIF värde över 10 indikerar att det utgör ett problem för modellen, då variabeln korrelerar högt med de andra variablerna (Farrar & Glauber, (1964);

Kutner, Nachtsheim & Neter, 2004). VIF värdet kan beräkans enligt följande (Kutner et al., 2004):

𝑉𝐼𝐹_𝑖 = ¹

1− 𝑅_𝑖², (8)

där 𝑅_𝑖² är förklaringsgraden för modellen då en av modellens oberoende variabel 𝑖 är satt som den beroende variabel.

(14)

14 Antaganden FE4: Tvärsektionell beroende

Tvärsektionell beroende (Cross sectional dependence) kan uppstå då olika enheters (i denna analys syftas på kommuners) feltermer för samma år är högt korrelerade med varandra (Pesaran 2004, Wooldridge, (2010)). Detta kan undersöka med hjälp av Pesaran Cross Sectional test eller Breusch-Pagan LM test och om problem med tvärsektionell beroende uppstår kan man lösa det genom en robust standard error estimering (Pesaran (2004);

Wooldridge 2010; Wooldridge 2015). Testet utfördes i R med hjälp av funktionen pcdtest() som finns i paketet plm (Baltagi, Feng, Kao, (2020); Breusch, Pagan, (1980); Pesaran, (2004);

Pesaran, (2015)).

Antaganden FE5: Strikt exogenitet och omvänd kausalitet

Vid analys av paneldata och dess metoder kan det uppstå problem med omvänd kausalitet.

Oftast ställer man frågan om X kan påverka Y och denna fråga är svår att svara på om omvänd kausalitet är närvarande. En fixed effect modell antar strikt exogenitet (Wooldridge, (2010); Stock & Watson (2015)), vilket menas:

𝐸(𝜀_𝑖𝑡|𝑥_𝑖𝑡, 𝛼_𝑖) = 0 för alla 𝑡 = 1,2, . . , 𝑇.

Detta menas att feltermen 𝜀_𝑖𝑡 inte är relaterat till variabeln 𝑥_𝑖𝑡 på något sätt i det förflutna, nutid och framtid. De oberoende variablerna påverkas inte helt av den beroende variabeln.

Denna antaganden om strikt exogenitet bryts om omvänd kausalitet finns och kommer därmed bidra till bias uppskattningar. Bellermare, Pepinsky, och Masaki (2017) tar upp att detta problem kan lösas om man laggar de oberoende variablerna i paneldatamodellen. En enkel laggad fixed effect modell (Lagged fixed effect model) kan se ut på detta sätt:

𝑦_𝑖𝑡 = 𝛽𝑥_𝑖𝑡−1+ 𝛼_𝑖 + 𝜀_𝑖𝑡 där 𝑡 = 1,2, . . , 𝑇 och 𝑖 = 1,2, . . , 𝑁. (9) För mer läsning se (Reed, (2015); Bellemare, Pepinsky & Masaki, (2017)).

3. Resultat

I denna del kommer resultaten av individual fixed effect - modellen att tas upp. Vidare kommer de formella tester för respektive antaganden att tas upp i följd av lösningar till eventuella problem som kan uppstå.

(15)

15

3.1 Individual fixed effects model

Tabell 2: Individual fixed effects model

Variable Estimate Std. Error t-value P-value

Stöld 0.046 0.016 2.900 0.004 **

Skadegörelse 0.006 0.011 0.595 0.551

Narkotika -0.026 0.032 -0.827 0.409

Medelålder 23.48 21.45 1.094 0.274

Inkomst -3.625 -0.684 -5.294 2.441e-07 ***

Bostadspris 0.041 0.016 2.524 0.012 *

Tabell 3: Individual fixed effects model fort.

R-Squared 0.260

Adj. R-Squared 0.151

F-statistic (p-value)

15.58 (2.51e-15)

De oberoende variablerna som är statistisk signifikanta är stöld, inkomst och bostadspriser enligt tabell 2. Vidare kan vi se att 0.046 är den förväntade skattade förändringen på den beroende variabeln om vi ökar stöld med en enhet, om de andra variabler hålls fasta. På samma sätt kan vi tolka skattningen -0.026 för variabeln narkotika, där den förväntade skattade förändringen på våldsbrott är negativt om vi ökar en enhet narkotika, samtidigt som

(16)

16 vi håller de andra variablerna fasta. I (Tabell 3) kan vi se att förklaringsgraden är 0.26, detta kan tolkas som att ungefär 26 procent av variationen i våldsbrott förklaras av modellen. Vi kan även se att F-testet visar att vi förkastar noll hypotesen om att modellen inte förklarar variationen i våldsbrott, då p-värdet är mindre än signifikansnivån på 0.05. Dvs. modellen förklarar en del av variationen i modellen. Se Bilaga 1 för fullständig output för modellen från R.

3.2 Testar antaganden FE1: Heteroskedasticitet

Tabell 4: Breusch-Pagan test Breusch-Pagan test

BP 576.4

P-value < 2.2e-16

Enligt (Tabell 4) kan vi se att vi får ett p-värde som är mindre än signifikansnivån på 0.05, vilket bidrar till att vi förkastar noll hypotesen om att datat är homoskedastiskt. Istället uppstår problemet med heteroskedasticitet. Lösning till heteroskedasticitet är att estimera fixed effect modellen med hjälp av robusta standardfel som tas upp längre ner i rapporten, se (Tabell 10).

Se (Bilaga 2) för output från R för heteroskedasticitet test.

FE2: Autokorrelation

Tabell 5: Breusch-Godfrey/Wooldridge test for serial correlation in panel models Breusch-Godfrey/Wooldridge test for serial correlation in panel models

Chi squared 26.68

P-value 0.002

P-värdet för Breusch – Godfrey/Wooldridge test är lika med 0.002 (Tabell 5), vilket är mindre än signifikansnivån på 0.05 som i sin tur bidrar till vi förkastar noll hypotesen om att det inte

(17)

17 finns någon autokorrelation i fixed effects modellen. Precis enligt (Tabell 4) en lösning till detta är att estimera fixed effect modellen med en robust standard estimering för att åtgärda problemet med autokorrelation. Se (Bilaga 3) för output från R för autokorrelation test.

FE3: Multikollinearitet

Tabell 6: VIF värden Variabel VIF Stöld 3.969 Skadegörelse 2.143

Narkotika 2.103 Medelålder 7.342 Inkomst 16.28 bostadspris 6.607

Dummy (Kommun)

1.265

Dummy (År) 1.278

Tabell 6 beskriver VIF värden för alla variabler. Det lägsta värdet är för dummy variablerna kommun och år som är 1,265 respektive 1,278, vilket kan tolkas som dessa variabler inte korrelerar med de andra variablerna. Det högsta VIF värdet är för inkomst som ligger på 16.28 som betyder att inkomst variabeln korrelerar med de andra variablerna. VIF-värdet för stöld, skadegörelse och narkotika är relativt låga vilket betyder att de inte korrelerar med de andra variablerna. Variablerna medelålder och bostadspriser har måttligt höga VIF-värden men lägre enligt tumregeln. Eftersom den oberoende variabeln inkomst har högt VIF-värde kommer denna variabel att tas bort från modellen. Speciellt då denna variabel är statistiskt signifikant enligt (Tabell 2), vilket är missvisande. Variabeln medelålder kommer även att tas bort från modellen då denna variabels VIF- värde är relativt högt. Se (Bilaga 4) för output från R för multikollinearitet.

FE4: Tvärsektionell beroende

(18)

18 Tabell 7: Pesaran CD test for cross-sectional dependence in panels

Pesaran CD test for cross-sectional dependence in panels

Z-value 6.401

P-value 1.546e-10

Pesaran CD test utfördes för att undersöka tvärsektionell beroende och resultatet av detta test visar att vi förkastar noll hypotesen om att det inte finns tvärsektionell beroende i modellen, då p-värdet är mindre än signifikansnivån på 0.05 (Tabell 7). Robust estimering av

standardfelen är lösningen även här. Se (Bilaga 5) för output från R för Pesaran CD test för tvärsektionell beroende.

3.3 Slutgiltiga modellen: Fixed effect modell med robust standard error

Denna del består av min slutgiltiga modell efter att kontrollerat för heteroskedasticitet, autokorrelation och tvärsektionell beroende som jag stötte på tidigare i analysen. I denna modell har robusta standardfel använts för att lösa detta problem för individual fixed effect- modellen. I denna modell har även variablerna inkomst och medelålder valts bort då på grund av höga VIF värden som är ett tecken för multikollinearitet. Se (Bilaga 6) för

sammanfattningen av modellen från R för.

Tabell 8: Fixed effect model with robust standard error

Stöld 0.065 0.016 3.938 0.0001 ***

Skadegörelse 0.011 0.011 1.005 0.315

Narkotika -0.033 0.029 -1.119 0.263

Bostadspris -0.030 0.010 -2.765 0.006 **

(19)

19 Tabell 9: Robust standard error model fort.

R-Squared: 0.175 Adj. R-Squared 0.074

16.04 (6.34e-12)

Tabell 10 visar att två förklarande variablerna stöld och bostadspriser är statistiskt signifikanta, vilket menas att dessa två variabler bidrar till modellen, dvs. förklarar effekten på den

beroende variabeln våldsbrott. Variablerna skadegörelse, narkotika bidrar inte till modellen, dvs. förklarar inte effekten på den beroende variabeln våldsbrott då dessa två variablerna inte är statistiskt signifikanta på en signifikansnivå på 0.05. Vidare kan vi se att 0.065 som är den förväntade skattade förändringen på den beroende variabeln våldsbrott om vi ökar stöld med en enhet, samtidigt som vi håller de andra variablerna konstanta. Vi kan även utläsa att den oberoende variabeln bostadspris som är statistiskt signifikant har en negativ effekt, då den förväntade skattade effekten på våldsbrott är -0.030 om ökar bostadspris med en enhet, när de andra variablerna hålls konstanta. Från tabell 11 kan vi se att F-testet visar att vi förkastar noll hypotesen om att modellen inte förklarar variationen i våldsbrott, då p-värdet är mindre än signifikansnivån på 0.05. Dvs. modellen förklarar en del av variationen i modellen. Vidare kan vi även utläsa att förklaringsgraden är 0.175, detta kan tolkas som att ungefär 17.5 procent av variationen i våldsbrott förklaras av denna modell.

3.3.1 Lagged fixed effects model

Tabell 10: Lagged fixed effects model

Stöldt-1 0.065 0.013 5.018 8.914e-07 ***

Skadegörelset-1 0.012 0.011 1.126 0.260

Narkotikat-1 -0.033 0.032 -1.033 0.302

Bostadsprist-1 -0.030 0.010 -3.202 0.0015 **

(20)

20 Tabell 11: Lagged fixed effects model fort.

R-Squared: 0.175 Adj. R-Squared 0.074

16.04 (6.34e-12)

Laggade oberoende variabler visar samma resultat vid modellen med robusta standardfel enligt (Tabell 11). Denna estimerings teknik ändrar inte skattningen av de oberoende

variablerna för att förklara den beroende variabeln våldsbrott, relativt små skillnader jämfört med modellen med robusta standardfel. Vidare kan vi kan se enligt (Tabell 12) att även i denna modell är samma variabler statistiskt signifikanta, stöld och bostadspriser. Se (Bilaga 7) för sammanfattningen av modellen för laggade fixed effect-modellen från R för.

(21)

21

4. Diskussion och slutsats

Av resultatet från Tabell 2 framgår att stöld, inkomst och bostadspris har en signifikant effekt på våldsbrott vid användning av individual fixed effects model. Detta innebär exempelvis att om vi ökar en enhet på stöld, och samtidigt håller resterande av variablerna konstanta bidrar det till en positiv effekt på våldsbrott. En enhetsökning av inkomst bidrar istället till en negativ effekt, alltså om inkomsten ökar minskar benägenheten att begå. Detta faller inom ramen för vad jag anser borde vara rimligt även i praktiken i enighet med inledningen. Stöld som är exempel på typer av brott som ungdomar är benägna att begå, har alltså ett tydligt samband med våldsbrott. Där nivåerna av stöld är högre tenderar våldsbrotten också att så vara. Teoretiskt, med ovanstående resultat som grund, kan man alltså visa på att

ungdomsbrottsligheten har en tydlig koppling till våldsbrott. Således skulle jag vilja anta att den mediala rapporteringen gällande ungdomar, den gängkriminella miljön och dess fostring till tyngre brottslighet likt våldsbrott stämmer överens eftersom den går att härleda med hjälp av ovanstående resultat. Stöld kanske är brott som är lättare att motivera i ung ålder än våldsbrott men utan att man inser det själv, korsas gränsen för vad som är rätt och fel ofta relativt snabbt.

Att kommuner med högre inkomst får brottsbenägenheten att minska förvånar mig inte enligt Tabell 2. Istället stämmer det väl överens med den bild jag, och säkerligen många andra med mig, gällande kommuner som har en pressad och försvårad ekonomisk utsatthet tenderar att få människor att bryta mot lagen i allmänhet och ungdomar att lockas till fel bana i synnerhet.

Kommuner med låg inkomst ökar risken för våldsbrott eftersom risken för att fastna i ungdomsbrottslighet är större. Kanske är det för att olika kommuner hamnar i utanförskap som ofta följer med dålig ekonomi som gör att brott i dessa kommuner uppstår.

Det går även att diskutera för de variablerna som inte framstår som statistiskt signifikanta i Tabell 2. Narkotikabrott till exempel visade sig inte påverka resultatet i den utsträckning jag inledningsvis hade förutspått. Anledningen till detta är troligen mycket komplex och beroende av vilka kommuner man tittar på, jag skulle ändå vilja anta att detta skulle kunna bero på att narkotikabrotten, framförallt brukande av narkotikaklassade preparat, blir allt vanligare bland samtliga kommuner. Detta innebär ju i praktiken att narkotikan sprider sig över flera

kommuner, således blir dessa brott inte längre lika lätta att härleda till annan typ av kriminalitet.

(22)

22 Vad säger bostadspriserna om resultatet i Tabell 2? Att bostadspriserna framgår som

statistiskt signifikanta i resultatet förvånade mig inte heller. Istället var det något jag inledningsvis trodde på, säkerligen till stor del beroende av det mediala fokus som lagts på vissa särskilt utsatta områden i såväl Stockholm- som Uppsala län. Resultatet visar att låga bostadspriser kan användas för att skatta våldsbrott. Med andra ord vill jag således diskutera för att det borde vara möjligt att skatta våldsbrott till geografiskt begränsade platser där man statistiskt sett kan se en längre historia av lägre bostadspriser. Bostadspriserna är ofta ett resultat av de samlande ekonomiska förutsättningar invånarna har, i ett visst område eller en viss kommun.

Att våldsbrotten skattas högre vid lägre bostadspriser antar jag handlar om den ekonomiska utsatthet som ofta följer dessa områden i kombination med den inkomstnivå bostadspriserna ofta speglar. Givetvis är detta inte något som jag anser är fullt applicerbart på alla kommuner med lägre bostadspriser. Bostadsmarknaden är en komplexitet i sig som är beroende av många fler faktorer än brottslighet. Infrastruktur, närhet till centrum och tillgång till arbete är, bara för att nämna några, faktorer som i allra högsta grad också har en påverkan. Med andra ord, jag diskuterar gärna för att bostadspriserna torde användas för att skatta våldsbrott med den förevändningen att det borde ske i relation till andra faktorer, som i denna rapport exempelvis ungdomsbrottslighet. Att enbart skatta utifrån bostadsmarknadens prisnivå riskerar i mina ögon att ge en skev bild av verkligheten eftersom det kan finnas långt många fler anledningar till lägre priser än enbart brottslighet. Detta är ytterst viktigt att ha i åtanke inför framtida forskning eller vidare diskussioner.

Efter utvärdering av antaganden visar det att det finns problem med heteroskedasticitet, autokorrelation, tvärsektionell beroende, multikollinearitet vilket kontrolleras genom att använda robusta standardfel. Det som alltså framgår av robusta standardfel i Tabell 8 följer samma resonemang som slutsatserna kring individual fixed effects model enligt Tabell 2.

Undersökningen av omvänd kausalitet med hjälp av en laggad fixed effect model gav inga vidare resultat, dvs. misstanke om omvänd kausalitet kvarstår vilket tolkas som att antagandet om strikt exogenitet bryts. Vilket kan tolkas som en svaghet i denna analys. Min modell redogör inte för när de oberoende variablerna, exempelvis stöld, inträffade i tid i relation till våldsbrott. Således är det väldigt enkelt att motivera omvänd kausalitet eftersom en eventuell stöld kan ha påverkat våldsbrottet lika mycket som våldsbrottet egentligen kan ha påverkat stölden då det av datan är svårt att läsa av detta förhållande i tid.

(23)

23 Hade vi kunnat fastställa tidpunkten för de oberoende variablerna, åter igen exempelvis stölden, och insett att de inträffade långt innan, möjligen så långt som ett år tidigare än våldsbrottet, hade det inledningsvis varit svårare att påvisa omvänd kausalitet då det är svårt att visa att våldsbrottet kan ha påverkat stölden eftersom den låg långt tillbaka i tiden i relation till våldsbrottet. Detta är bara möjligt om någon vid tidpunkten för stölden förutspått vad som skulle hända vid våldsbrottet. Den tanken kan vid första anblick verka tämligen orimlig men det är inte helt osannolikt att sådana förutsägelser förekommer emellanåt- därmed kan våldsbrottet påverka stölden även med en längre tidsperiod emellan och omvänd kausalitet argumenteras för även där eftersom en spekulering i händelser kan föreligga.

För att återgå är det intressanta med resultatet är att narkotikabrott inte framgår som statistiskt signifikant i någon av modellerna. Min teori är att detta kanske kan förklaras genom att narkotikabrott blivit vanligare överlag i vårt samhälle. Min inledande gissning var att

narkotikabrottsligheten skulle ha stor inverkan på våldsbrott eftersom det ofta är ett samband som lyfts fram, inte minst i den gängkriminella diskussionen. Är det istället möjligt att narkotikan blir allt vanligare utanför de kriminella kretsarna? Att narkotikan som säljs inte i första hand kanske brukas av de kommuner som begår stöld och skadegörelse utan istället brukas av de kommuner som inte begår dessa typer av brott. Därmed kan narkotika, som del av ungdomsbrottsligheten, inte skatta effekten på våldsbrott eftersom det av resultatet framgår att sambandet här inte är lika starkt.

Vad säger resultatet i förhållande till inledningen? Jo, statistiken och på det vis den används i denna analys kan tala för sambandet som finns mellan den typen av brott som begås av ungdomar som i kombination med den hierarki som växer sig allt tydligare ligger till grund för de våldsbrott som begås i vissa kommuner. Arbetet kan alltså till viss mån ligga till grund för att härleda det samband som finns mellan ungdomsbrottslighet och våldsbrott även om de båda givetvis kan existera sida vid sida utan kopplingar till varandra. Alla som begår

våldsbrott har inte varit kriminella i sin ungdom, andra har sysslat med ungdomsbrottslighet utan att någonsin begå ett våldsbrott. Vissa kommuner följer det sambandet som denna analys kan ligga till grund för att påvisa; att ungdomsbrottslighet kan användas för att skatta

våldsbrott i kommunerna i kombination med andra samhällsrelaterade faktorer då såväl inkomst som bostadspriser framgår som statistiskt signifikanta enligt individual fixed effect model och modellen med robusta standardfel är det stöld och bostadspriser som är statistiskt

(24)

24 signifikanta. För laggade fixed effect modellen visar det samma resultat som robust standard error modellen.

Detta arbete har inte som avsikt att peka ut särskilt utsatta kommuner, inte heller kommuner där brottsnivåerna är högre eller lägre. Syftet var att ta reda på om det går att skatta våldsbrott genom regression där ungdomsbrottslighet och vissa socioekonomiska faktorer står som oberoende variabler. Min slutsats är att detta går. Resultatet pekar på att våldsbrott kan skattas med samtliga variabler som var aktuella för detta arbete men där ett antal av de oberoende variablerna framstår som mer signifikanta för skattningen än de övriga.

Som ett vidare steg, vilket detta arbete inte berör med hänvisning till sitt inledande syfte, skulle de falla sig intressant att applicera det statistiska resultat som framkommit på olika områden avgränsade till kommuner. Det skulle som ett ytterligare led vara mycket intressant för framtida forskning att studera vidare på sambandet mellan ungdomsbrottslighet och våldsbrott genom att arbeta fram ett system för de olika brottens respektive värde samt på individnivå. Det, i kombination med vad denna analys mynnat ut i, skulle högst troligen visa på ett än starkare samband mellan våldsbrott och ungdomsbrottslighet än vad som redan framkommit i ovanstående resultat.

En begränsning i denna rapport är att datainsamlingen är på kommunnivå och inte individnivå.

Detta gör det svårt att peka ut grupper inom vissa kommuner, dvs. dra slutsatser över

individer och inte endast på kommunnivå då det ökar risken det så kallade ecological fallacy.

Ytterligare en svårighet med denna analys är att det inte går att peka ut särskilt utsatta

områden. Det hade varit intressant om det hade gått för då hade denna analys kunnat jämföras med rapporteringen av det ökade gängkriminella våldet. Resultatet hade då kanske kunnat peka i samma riktning eller visat på något helt annat. Vidare hade jag även kunnat visa på tesen att det finns ett ännu starkare samband mellan ungdomsbrottslighet och våldsbrott än vad resultatet visar eftersom mitt arbete hade kunnat jämföras med andra områdesspecifika studier.

Sammanfattningsvis mynnar min slutsats ut i att det går att skatta våldsbrott genom multipel linjär regression med hjälp av ungdomsbrottslighet och samhällsrelaterade faktorer. Jag anser att det är den ekonomiska situationen i kommuner som driver till att inledningsvis begå brott.

Ekonomin, oavsett förbättring eller försämring, blir sedan en drivande faktor, som i kombination med övriga variabler, fortsätter motivera till att begå nya, ofta grövre, brott.

(25)

25 Kanske är det en frustration över att inte kunna påverka en större strukturell situationen som driver detta?

Det viktiga med min slutsats är att förstå, att även om detta arbete faller väl ut i relation till min frågeställning, är frågan om brottslighet och vad som triggar vad mycket komplex där långt fler parametrar spelar in än de som berörs i denna uppsats.

(26)

26 ACKNOWLEGMENTS

Jag vill tacka min handledare Philip Fowler för hans vägledning, stöd och insiktsfulla idéer genom hela arbetet. Detta arbete skulle inte ha kommit långt utan hans tid och insatser. Jag är tacksam för alla möten och diskussioner som hjälpte mig på rätt spår under resans gång. Jag vill även tacka mina närmaste för stöd och motivation för att göra arbetet bättre.

(27)

27

Referenser

Allison, P. (2005). Fixed Effects Regression Methods for Longitudinal Data Using SAS, Cary, NC: SAS Institute Inc.

Angrist, J. D., & Pischke, J. S. (2008). Mostly harmless econometrics: An empiricist's companion. Princeton university press.

Baltagi, B. (2005). Econometric Analysis of Panel Data, third edition., John Wiley & Sons Ltd, The Atrium, Southern Gate, Chichester.

Baltagi, B.H., 2013. Econometric Analysis of Panel Data, 5th Edition. John Wiley & Sons, Ltd.

Baltagi B.H., Feng, Q., Kao, C. (2012). A Lagrange Multiplier test for cross-sectional

dependence in a fixed effects panel data model. Journal of Econometrics, 170, 164–177. URL:

https://www.sciencedirect.com/science/article/pii/S030440761200098X.

Bellemare, Marc F., Thomas B. Pepinsky, & Takaaki Masaki. (2017). Lagged Explanatory Variables and the Estimation of Causal Effects. Journal of Politics 79(3):949-63.

doi: 10.1086/690946.

Breusch, T. (1978). Testing for autocorrelation in dynamic linear models. Australian Economic Papers, 17, 334–355.

Breusch, T., Pagan, A. (1980). The Lagrange Multiplier Test and Its Applications to Model Specification in Econometrics. Review of Economic Studies, 47, 239–253.

https://doi.org/10.2307/2297111

BRÅ (2020). Gör din egen tabell över anmälda brott. Hämtad: [2020-11-15]. Tillgänglig:

http://statistik.bra.se/solwebb/action/index.

Colin Cameron, A., & Miller, D. L. (2015). A Practitioner’s guide to cluster-robust inference. The Journal of Human Resources, 50(2), 317-372. doi:10.3368/jhr.50.2.317.

Croissant Y, Millo G (2008). Panel Data Econometrics in R: The plm Package. Journal of Statistical Software, 27(2), 1-43. doi:10.18637/jss.v027.i02. URL:

https://doi.org/10.18637/jss.v027.i02

(28)

28 Engle, R. F. (1984), Wald, Likelihood Ratio and Lagrange Multiplier Tests in Econometrics.

In: Z. Griliches and M. D. Intriligator, eds., Handbook of Econometrics, Volume II, Elsevier Science, Amsterdam, 775–826.

Farrar, D., Glauber R., (1964). Multicollinearity in Regression Analysis ; The Problem Revisited. Sloan School of Management Massachusetts Institute of Technology, Massachusetts.

Godfrey LG (1978). “Testing against general autoregressive and moving average error models when the regressors include lagged dependent variables.” Econometrica, 46, 1293–1301.

Godfrey, L. (1988), Misspecification Tests in Econometrics. The Lagrange Multiplier Principle and Other Approaches, Cambridge University Press, Cambridge.

Gujarati, D. (2003). Basic Econometrics, 4^th ed., R. R. Donnelley & Sons Corporation, New York, NY.

Gujarati D., Dawn C. Porter (2009). Basic Econometrics. 5th Edition

Hausman, J. (1978). Specification Tests in Econometrics. Econometrica, Volume 46 (6):

1251-1271. doi:10.2307/1913827.

Hellberg, L. (2020). Har brottsligheten ökat? Kvartalet. Hämtad: [2020-12-30]. Tillgänglig:

https://kvartal.se/artiklar/har-brottsligheten-okat/

Hsiao C (2005). Why panel data? Singapore Econometrics. Rev 50(2):1–12. URL:

http://dx.doi.org/10.2139/ssrn.820204

Hsiao, C., 2014. Analysis of Panel Data, 5th Edition. Cambridge University Press, Cambridge.

Judge, G.G. (1980). Introduction to the theory and practice of econometrics, 2^nd ed. John Wiley & Sons Ltd. New York.

Leszczensky, L., & Wolbring, T. (2009). How to Deal With Reverse Causality Using Panel Data? Recommendations for Researchers Based on a simulation study. Socialogical Methods

& Research. doi: 10.1177/0049124119882473.

(29)

29 Manuel Arellano (1987), Computing Robust Standard Errors for Within Group Estimators.

Oxford Bulletin of Economics and Statistics, 49, 431-434. URL:

https://doi.org/10.1111/j.1468-0084.1987.mp49004006.x.

Pesaran, M. (2004). General Diagnostic Tests for Cross Section Dependence in Panels.

CESifo Working Paper Series. 1229. doi: 10.1007/s00181-020-01875-7.

Pesaran, M. (2015). Testing Weak Cross-Sectional Dependence in Large Panels. Econometric Reviews. 34, 1089–1117. doi: 10.1080/07474938.2014.956623. URL:

https://doi.org/10.1080/07474938.2014.956623.

Pustejovsky, J. E., & Tipton, E. (2018). Small-sample methods for cluster-robust variance estimation and hypothesis testing in fixed effects models. Journal of Business & Economic Statistics, 36(4), 672-683. doi: 10.1080/07350015.2016.1247004.

R Core Team. (2020). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL https://www.R-project.org/.

Reed, Robert, W. (2015). On the Practice of Lagging Variables to Avoid Simultaneity. Oxford Bulletin of Economics and Statistics. 77(6):897-905. URL:

http://dx.doi.org/10.1111/obes.12088.

Robinson, W. (1950). Ecological correlations and the behavior of individuals. American Sociological Review. 15: 351–57. URL: https://doi.org/10.2307/2087176.

SCB (2020). Befolkningens medelålder efter region och kön. År 1998 - 2019. Hämtad: [2020- 11-10]. Tillgänglig:

https://www.statistikdatabasen.scb.se/pxweb/sv/ssd/START__BE__BE0101__BE0101B/Befo lkningMedelAlder/

SCB (2020). Försålda småhus efter region (kommun, län, riket) och fastighetstyp. År 1981 – 2019. Hämtad: [2020-11-12]. Tillgänglig:

https://www.statistikdatabasen.scb.se/pxweb/sv/ssd/START__HE__HE0110__HE0110A/Sa mForvInk1/

(30)

30 SCB (2020). Sammanräknad förvärvsinkomst för boende i Sverige hela året efter region, kön, ålder och inkomstklass. År 1999 – 2018. Hämtad: [2020-11-10]. Tillgänglig:

https://www.statistikdatabasen.scb.se/pxweb/sv/ssd/START__HE__HE0110__HE0110A/Sa mForvInk1/

Sherman, L., Neyroud, P. & Neyroud, E. (2016). The Cambridge Crime Harm Index:

Measuring Total Harm from crime Based on Sentencing Guidelines. A Journal of Policy and Practice. Vol. 10(2). P. 171-183. URL: https://doi.org/10.1093/police/paw003.

Stock, J. H. & Watson. M.W. (2015). Introduction to Econometrics, 3rd ed., Harlow: Pearson Education Limited.

Sturup, J. (2017). Ökar den grova brottsligheten- eller inte?. Medicinsk vetenskap. Hämtad [2020-01-01]. URL: https://ki.se/forskning/grovt-vald-bade-minskar-och-okar.

Stock, James, H. & Watson, M. (2008), Heteroskedasticity-Robust Standard Errors for Fixed Effects Panel Data Regression, Econometrica, 76(1), 155-174. doi:10.1111/

j.0012-9682.2008.00821.x.

Su, L., & Chen, Q., (2013). Testing homogeneity in panel data models with interactive fixed effects. Econometric Theory. 29 (6), 1079-1135. doi: 10.1017/S0266466613000017

Su, L., Jin, S., & Zhang, Y., (2015). Specification test for panel data models with interactive fixed effects. Journal of Econometrics. 186 (1), 222-244. doi: 10.1016/j.jeconom.2014.06.018.

Su, L., Wei, J., & Zhang, Y., (2016). A Practical Test for Strict Exogeneity in Linear Panel Data Models with Fixed Effects. Economics Letters. (147) , 27-31. doi:

10.1016/j.econlet.2016.08.012

T.S. Breusch & A.R. Pagan (1979), A Simple Test for Heteroscedasticity and Random

Coefficient Variation. Econometrica 47, 1287–1294. URL: http://dx.doi.org/10.2307/1911963.

Verbeek, M. (2004). A Guide to Modern Econometrics, 2^nd ed., John Wiley & Sons Ltd, The Atrium, Southern Gate, Chichester.

(31)

31 White, H. (1980). A Heteroskedasticity-Consistent Covariance Matrix Estimator and a Direct Tests for Heteroskedasticity. Econometrica, 48(4), 817-838. doi:10.2307/1912934

Wierup, L. (2020). Gangsterparadiset: Så blev Sverige arena för gängkriminalitet, skjutningar och sprängdåd. Stockholm. Forum.

Wooldridge, J. M. (2002). Econometric Analysis of Cross Section and Panel Data, Massachusetts Institute of Technology, Cambridge, MA.

Wooldridge, J. M. (2012). Introductory Econometrics: A Modern Approach, 5th ed., South Western College Publishing

Wooldridge, J. M., (2010). Econometric Analysis of Cross Section and Panel Data, 2nd Edition. The MIT Press, Cambridge, Massachusetts.

Zeileis A, Köll S, Graham N (2020). “Various Versatile Variances: An Object-Oriented Implementation of Clustered Covariances in R.” _Journal of Statistical Software_, *95*(1), 1- 36. doi: 10.18637/jss.v095.i01 (URL: https://doi.org/10.18637/jss.v095.i01).

(32)

32

Bilagor

Bilaga 1

Individual fixed effects model, sammanfattningen av modellen från statistiska programvaran R.

Call:

plm(formula = Y ~ X, data = dataBrott, effect = "individual", model = "within", index = c("Kommun Identited", "År")) Balanced Panel: n = 34, T = 9, N = 306

Residuals:

Min. 1st Qu. Median 3rd Qu. Max.

-277.1926 -56.8801 -8.5223 56.8079 881.2457 Coefficients:

Estimate Std. Error t-value Pr(>|t|)

XStöld 0.046678 0.016091 2.9008 0.004033 **

XSkadegörelse 0.006600 0.011079 0.5957 0.551870 XNarkotika -0.026903 0.032533 -0.8270 0.409004 Xmedelålder 23.484660 21.459785 1.0944 0.274789 XInkomst -3.625785 0.684194 -5.2994 2.441e-07 ***

Xbostadspris 0.041858 0.016578 2.5249 0.012153 * ---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Total Sum of Squares: 4606100

Residual Sum of Squares: 3407700 R-Squared: 0.26016

Adj. R-Squared: 0.15169

F-statistic: 15.5895 on 6 and 266 DF, p-value: 2.5158e-15 Bilaga 2

Heteroskedastisitet test

(33)

33 Breusch-Pagan test

data: Y ~ X + factor(Kommun)

BP = 576.46, df = 39, p-value < 2.2e-16 Bilaga 3

Autokorrelation test

Breusch-Godfrey/Wooldridge test for serial correlation in panel models data: Y ~ X

chisq = 26.682, df = 9, p-value = 0.001579

alternative hypothesis: serial correlation in idiosyncratic errors

Bilaga 4

Multikollinearitet

GVIF Df GVIF^(1/(2*Df)) Stöld 1.575324e+01 1 3.969035 Skadegörelse 4.596151e+00 1 2.143864 Narkotika 4.425084e+00 1 2.103588 medelålder 5.391448e+01 1 7.342648 Inkomst 2.651669e+02 1 16.283946 bostadspris 4.366548e+01 1 6.607986 factor(Kommun) 5.477453e+06 33 1.265027 factor(År) 5.095983e+01 8 1.278503

GVIF^(1/(2*Df)) kan man tolka som den vanliga VIF värdet.

Pesaran CD test for cross-sectional dependence in panels

(34)

34 Bilaga 5

Tvärsektionell beroende

data: Y ~ X

z = 6.4007, p-value = 1.546e-10

alternative hypothesis: cross-sectional dependence

Bilaga 6

Robust standard error model, sammanfattningen av modellen från statistiska programvaran R.

Call:

plm(formula = Y ~ X1, data = dataBrott, effect = "individual", model = "within", index = c("Kommun Identited", "År")) Balanced Panel: n = 34, T = 10, N = 340

Residuals:

-279.7607 -66.8407 -6.7706 55.4274 955.4920 Coefficients:

X1Stöld 0.0659804 0.0131477 5.0184 8.914e-07 ***

X1Skadegörelse 0.0119776 0.0106358 1.1262 0.260991 X1Narkotika -0.0334991 0.0324111 -1.0336 0.302165 X1bostadspris -0.0303377 0.0094733 -3.2024 0.001508 **

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(35)

35 Total Sum of Squares: 5212100

F-statistic: 16.0443 on 4 and 302 DF, p-value: 6.3451e-12 Bilaga 7

Lagged fixed effect model, sammanfattningen av modellen från statistiska programvaran R.

Call:

plm(formula = Y ~ lag(X1), data = dataBrott, effect = "individual", model = "within", index = c("Kommun Identited",

"År"))

Balanced Panel: n = 34, T = 10, N = 340 Residuals:

-279.7607 -66.8407 -6.7706 55.4274 955.4920 Coefficients:

lag(X1)Stöld 0.0659804 0.0131477 5.0184 8.914e-07 ***

lag(X1)Skadegörelse 0.0119776 0.0106358 1.1262 0.260991 lag(X1)Narkotika -0.0334991 0.0324111 -1.0336 0.302165 lag(X1)bostadspris -0.0303377 0.0094733 -3.2024 0.001508 **

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(36)

36 Total Sum of Squares: 5212100

F-statistic: 16.0443 on 4 and 302 DF, p-value: 6.3451e-12