Kvantitativ Modellering av förmögenhetsrättsliga dispositiva tvistemål

(1)

Kvantitativ Modellering av

förmögenhetsrättsliga dispositiva tvistemål Kandidatuppsats i statistik 2014

Egil Martinsson

Handledare: Rolf Larsson Institutionen för statistik

Uppsala Universitet

(2)

Sammanfattning

I den här uppsatsen beskrivs en ansats till att med hjälp av statis- tiska metoder förutse utfallet i förmögenhetsrättsliga dispositiva tvis- temål, en typ av mål som bland annat innefattar fordrings- och uto- mobligatoriska skadeståndsmål.

Det har sedan länge funnits ett stort teoretiskt intresse för om det går att automatisera juridik, och i Sverige finns det fantastiska möjligheter för att utvinna rättsinformation. Ändå är svensk empirisk forskning på mål vid domstolar i allmänhet och tvistemål i synnerhet nästintill obefintlig.

Syftet med denna uppsats var därför att i en pilotstudie se om det var möjligt att med hjälp av observationer från tidigare mål förutse utfallet i nya.

Tvistemålsprocessen modellerades som en diskret slumpvariabel och dess utfallskategorier ordnades i tre grupper av stegvis uteslutande utfallsalternativ. Registerdata för 14821 avslutade tvistemål samlades in från åtta tingsrätter under Svea Hovrätt. Två binära och en multi- nomial regressionsmodell tränades på sammanlagt 13299 observationer från fem tingsrätter för att skatta betingade sannolikheter för utfallet i varje steg.

Modellerna testades genom att förutse utfallen för 1522 observatio- ner i övriga tre tingsrätter. Modellerna var felkalibrerade och misslyc- kades med att ge förväntningsriktiga sannolikhetsskattningar (Hosmer

& Lemeshew-test, p < 0.00) men kunde identifiera rätt utfallskatego- ri (AU C- och M

_{AU C}

-statistika > 0.5) och gav alla signifikant bättre pricksäkerhet (ACC = 0.63, 0.59 och 0.517) än en slumpmässig gissning då de användes för diskret klassificering (p < 0.00). Bäst åtskillnad gjordes mellan bifallna och ogillade mål.

Slutsatsen är att modellerna kunde identifiera och förutse tviste-

målens utfall bättre än slumpen.

(3)

Innehåll

1 Inledning 5

1.1 Syfte & Frågeställning . . . . 6

1.2 Tidigare forskning . . . . 7

1.3 Dispositiva tvistemål . . . . 9

1.4 Logistiska regressionsmodeller . . . . 11

1.5 Statistiska mått för modellprestation . . . . 13

1.5.1 Mått för diskret klassificering . . . . 13

1.5.2 ROC-Kurvor . . . . 16

1.5.3 Inferens för modellens prediktionsförmåga . . . . 20

2 Material & metod 25 2.1 Datainsamling . . . . 25

2.1.1 Rensning av insamlad data . . . . 30

2.2 Modellspecifikation . . . . 33

2.2.1 Val av statistisk klassificeringsmetod . . . . 35

2.3 Valideringsmetod . . . . 37

3 Resultat 38 3.1 Deskriptiv statistik . . . . 38

3.2 Modellskattning . . . . 41

3.2.1 Modellpassning för Okänt och Stadfäst Förlikning . . . 42

3.2.2 Val av multinomial modell . . . . 45

3.3 Validering . . . . 46

3.3.1 Kan modellen skatta utfallssannolikheter? . . . . 47

3.3.2 Kan modellerna skilja mellan utfallsalternativ? . . . . . 48

3.3.3 Kan modellen gissa på rätt utfall? . . . . 50

4 Sammanfattande diskussion 52

5 Appendix 55

(4)

Figurer

1.1 En möjlig indelning av rättsordningen. . . . 9

1.2 Klassificeringsmatris, 2 klasser . . . . 14

1.3 Klassificeringsmatris för K klasser . . . . 15

2.1 Samplingsrymd för tingsrätter . . . . 25

2.2 Potentiell organisering av utfallskategorier . . . . 34

2.3 Vald organisering av utfallskategorier . . . . 35

3.1 Variabeln omloppstid fördelat per utfall. . . . 40

3.2 Skattade sannolikheter för binära modeller, träningsdata . . . 43

3.3 ROC-graf för träningsdata, d

₁

och d

₂

. . . . 44

3.4 Multi-ROC för träningsdata, d

3

. . . . 46

3.5 Skattade sannolikheter mot omloppstid, valideringsdata . . . . 47

3.6 ROC-graf för valideringsdata, d

₁

och d

₂

. . . . 49

3.7 Multi-ROC för valideringsdata, d

3

. . . . . 50

5.1 Visualisering av vistemålsprocessen, Processgraf . . . . 61

(5)

Tabeller

1.1 Referensapparat för benämningar av utfall . . . . 10

2.1 Fördelningen av utfall per tingsrätt . . . . 27

2.2 Hur registerdata transformerades till variabler . . . . 31

2.3 Transformering av ’partställning’ . . . . 32

3.1 Deskriptiv statistik, kovariansmönster . . . . 39

3.2 Deskriptiv statistik för tvistemålens omloppstid . . . . 39

3.3 Prevalens för respektive utfallsalternativ. . . . 47

5.1 Exempel på transformerad data. Målnummer är maskerade. . 55

5.2 Exempel på rå registerdata. Vissa uppgifter är maskerade. . . 57

5.3 Binära logistiska regressionsmodeller, träningsdata . . . . 58

5.4 Multinomiala logistiska regressionsmodeller, träningsdata . . . 59

5.5 Resultat av validering . . . . 60

(6)

Kapitel 1 Inledning

Sveriges domstolar avgör hundratusentals mål varje år. Rättsprocessen är en aktivitet som är både standardiserad och väldokumenterad och den informa- tion som genereras är mestadels både digitaliserad, offentlig och lättillgänglig.

Med detta i åtanke hade man kunnat vänta sig att juridiken gett upphov till ett stort empiriskt forskningsområde och att konsultbyråer konkurrerade om att förse beslutsfattare med statistik och datadrivna modeller för att beskri- va hur rättsprocessen ser ut i realiteten. I verkligheten lyser det empiriska, datadrivna och därmed statistiska perspektivet på juridiken med sin från- varo. Med få undantag tycks den svenska rättsvetenskapen fortfarande vara begränsad till en forskningstradition vars huvudsakliga metoder är filosofiska resonemang och anekdotiska beskrivningar av praxis.

I denna uppsats är en bakomliggande tes att rättsprocessen är som vil- ken annan komplex process som helst vilken kan modelleras med hjälp av vanliga vetenskapliga metoder. Inom akademin tycks det däremot finnas ett motstånd mot denna tanke, vilket kanske bäst illustreras med ett citat från en mejlkonversation mellan mig och en känd juridikprofessor:

“Du söker, tror jag, efter någonting som inte finns - och som, inom parentes sagt, inte borde kunna finnas, eftersom juridiken inte är sådan, utan en konst, som inte kan fångas i flödesscheman, och som, om man ska vara ärlig, alldeles ligger utom räckvidd för lekmannen.”

I andra länder ser det annorlunda ut. Särskilt i USA finns det en äldre

tradition av samröre med empiriska vetenskaper och juridiken. Här finns stora

journaler som ‘Jurimetrics: The Journal of Law, Science, and Technology’ och

från näringslivet kan google-anknytna satsningen ‘Lex Machina’ nämnas, ett

företag som ägnar sig åt datadriven juridisk analys. I Sverige finns visserligen

(7)

viss jurimetrik i form av rättstatistik, men denna täcker nästan uteslutande brottmål. Det finns med andra ord en enorm gråzon av information som kan förädlas till statistik och användas för att förstå rättsprocessen. Denna uppsats fokuserar på en stor kategori av mål som ligger utanför den officiella statistiken, förmögenhetsrättsliga dispositiva tvistemål.

Domstolarnas informationssystem

Offentlighetsprincipen Gråzonen

Officiell rättsstatistik

Dokumentation av domstolarnas verksamhet

Typiskt här är att parterna tvistar om ekonomiska frågor och att de har möjligheten att förlikas eller att lägga ner målet. När processen ligger i parternas händer på detta sätt kan man tänka sig att det vore av särskilt intresse för dem att få någon slags bred uppfattning om vilken utgång som kan väntas av tvisten.

I brist på total information är det nära till att tolka rättsprocessen som en slumpmässig process och ett mål som en slumpvariabel. En ytterligare praktisk förenkling är att tolka dess utfall som diskret. Då mer information om målet tillförs borde man kunna tillskriva en ny sannolikhet för respektive utfall. Denna tanke är mycket gammal men i praktiken outforskad i en svensk kontext. Tanken med denna uppsats är att göra en pilotstudie där man med enkla metoder överger filosofiska resonemang kring möjligheten att modellera en juridisk process och faktiskt testar att göra det.

1.1 Syfte & Frågeställning

Syftet med studien är att se om det är möjligt att förutse utfallet i förmö- genhetsrättsliga dispositiva tvistemål med hjälp av en statistisk modell. Av praktiska skäl, mer beskrivna i detalj i kapitel 2, grupperas utfallen i tviste- mål för att separat försöka:

¹

1

Dessa utfallsalternativ benämns senare som d

₁

, d

₂

respektive d

₃

. Se avsnitt 2.2

(8)

1. Förutse om mål avgörs på annat sätt än genom stadfäst förlikning eller i rättegång.

2. Förutse om mål avslutas med stadfäst förlikning eller görs upp i rätte- gång

3. Förutse utfallet i rättegång

Detta undersöks genom att, för respektive utfallsalternativ besvara:

• Kan modellen skatta utfallssannolikheter?

• Kan modellen skilja mellan utfallsalternativ?

• Kan modellen gissa på rätt utfall?

Tvistemålsprocessen behandlas som en slumpmässig process. Avgräns- ningen görs till att undersöka mål för tingsrätter under Svea Hovrätt för undersökningsperioden 2009-2013. Tvistemålen som undersöks är de som i tingsrätternas databaser loggas under kategorin ’Övriga Tvistemål’, vilket inte omfattar förenklade tvistemål (’småmål’).

²

1.2 Tidigare forskning

Området som denna uppsats närmast faller inom kan kallas kvantitativ le- galprediktion. Teoretiskt grundar sig detta i tankar om juridiken som au- tomatiserbar. Denna fråga har fått stor teoretisk uppmärksamhet i Sverige, med ledande figurer från ’Uppsala School of legal thinking’ som Axel Häger- ström (1986-1939), Vilhelm Lundstedt (1882-1955) Karl Olivecrona (1987- 1980).

³

En framstående svensk samtida forskare på artificiell intelligens och IT är Peter Wahlgren, verksam vid Stockholms Universitet. I en internatio- nell kontext var det främst på 60 talet som man på allvar började försöka applicera matematisk logik, behaviouristisk analys, sannolikhetsteori, sta- tistik och kommunikations- och informationsteori på rättsvetenskapen.

⁴

Här kan Joseph Raz nämnas som började anlägga ett systemperspektiv på lagen samt Torstein Eckhoss och Nils Kristian Sundby som publicerade en teori där lagen presenterades som ett öppet dynamiskt system.

⁵

Till dags dato

2

Vilket i databasen kallas Målkategori 10/99

3

Wahlgren, Automation of legal reasoning: a study on artificial intelligence and law , s.71-.

4

Ibid., s.126.

5

Ibid., s.70.

(9)

framträder tre huvudsakliga perspektiv på automatisering av juridik: ‘rule based models’, ‘inductive case based models’ och ’associative models’.

⁶

En- ligt det första försöker man översätta rättsregler helt algoritmiskt. Det andra är en tillämpning av expertsystem där juridisk argumentation försöker ef- terliknas baserat på tidigare fall. Den tredje försöker inte efterlikna juridisk argumentation utan förlitar sig helt på observationer av utgången i tidigare fall. Ansatsen i denna uppsats faller kanske närmast inom den senare. Det bör dock nämnas att á priori specifikationen av modellen följer en struktur härledd från en regelbaserad systematisk tolkning av civilprocessen varför associationen (modellträningen) inte är oberoende av en viss tolkning av rättsreglerna.

Institutet för Rättsinformatik, Stockholms Universitet, står i Sverige ut bland de som anlägger ett, om än främst teoretiskt, mer teknologiskt per- spektiv på juridiken. Bland akademiska institutioner som i viss mån studerar juridiska frågor med empiriska metoder kan rättssociologiska institutionen i Lund nämnas. Den närmaste forskningen som har kunnat finnas som utnytt- jat mer systematiskt empiriska perspektiv på svenska dispositiva tvistemål är Mårten Schultz (Stockholms Universitet) forskning kring skadestånd och förtal. En av de få svenska probabilistiska tillämpningarna på juridik kan tillskrivas Staffan Malmgren (skaparen av Lagen.nu med mera), som i sin masteruppsats implementerar informationsextraheringsalgoritmer för att au- tomatiskt finna finna likheter mellan rättsfall.

⁷

Här låg däremot fokus på klassificering av dokument och text snarare än kvantifiering och prediktion.

När det kommer till produktionen av rättsstatistik är brottsförebyggan- de rådet (BRÅ) centralt, som varje år sammanställer statistik över antalet domar utslaget per brottstyp. Tack vare BRÅ rapporteras relativt detalje- rad statistik för brottmålen. Motsvarande rättsstatistik publiceras dock inte för övriga rättsområden. Här är det domstolsverket som sköter statistikpro- duktionen. På domstolsverket finns antagligen internt stora möjligheter att producera mer detaljerad statistik då de har tillgång till system som SIV (statistik i verksamheten), vilken kan användas för att analysera data från tingsrätternas informationssystem VERA. Den publicerade, officiella statisti- ken är däremot minimal. Tvistemål rapporteras exempelvis enbart utslaget på fyra kategorier helt utan att beskriva utgången i målen. Signifikansen i detta kanske bäst illustreras med att år 2012 avgjordes 90 732 brottmål och 86 517 tvistemål i svenska tingsrätter.

⁸

Med andra ord täcker den officiella statistiken enbart en bråkdel av svensk rättskipning, och ingen kan därför

6

Wahlgren, Automation of legal reasoning: a study on artificial intelligence and law , s.257-319.

7

Malmgren, ”Towards a theory of jurisprudential relevance ranking”.

8

Domstolsverket, Court statistics 2012 Official statistics of Sweden.

(10)

besvara de mest basala frågorna kring hur olika tvistemål tenderar att slu- ta. Detta bör jämföras med Finland, vars statistiska centralbyrå publicerar detaljerad statistik över utfallen i civilmål.

⁹

1.3 Dispositiva tvistemål

Juridiska frågor låter sig ogärna förenklas. Syftet här är att ge en, av utrym- messkäl, mycket förenklad icke-juridisk beskrivning av studieobjektet.

Ett mål i denna uppsats är en process där någon väckt talan och tagit en problematisk fråga till en tingsrätt för att avgöras. Ett tvistemål är en civil process mellan två personer (parterna) vilka kan vara juridiska personer (exempelvis företag) eller fysiska personer (människor). Dispositiva tvistemål är civilprocesser där parterna kan komma överens om att tvistefrågan (saken) avgörs genom förlikning. Förlikningen kan sedan fastställas i en dom.

Ett dispositivt tvistemål inleds med att en person (käranden) lämnar in en stämningsansökan till en tingsrätt där han pekar ut vad han vill (saken), varför (grunderna) och vem han vill skall prestera något (svaranden).

¹⁰

Att det är ett så kallat dispositivt tvistemål avgörs baserat på vad saken gäller.

¹¹

Civilrätt

Familjerätt Förmögenhetsrätt

Offentlig Rätt

statsrätt straffrätt förvaltningsrätt processrätt

civilprocess straffprocess förvaltningsprocess

indispositiv dispositiv

Sakrätt

Allmän Speciell

Obligationsrätt

Skadeståndsrätt Avtalsrätt

Allmän Speciell

Figur 1.1: En möjlig indelning av rättsordningen.

Det är svårt att sätta de problem som dispositiva tvistemål behandlar i en otvetydig rättslig kontext. Ett vanligt sätt att indela rättsordningen ges

9

FOS, Tingsrätternas avgöranden i civilmål .

10

42 kap Rättegångsbalken

11

1 kap 3d §, 33 kap, 5 § 2st, 6 § mfl Rättegångsbalken samt Domstolsverket, Domstols-

verkets handböcker, Tvistemål , Kap.5

(11)

i figur 1.1. När man talar om rättsreglers innehåll gör man vanligtvis indel- ningen civilrätt och offentlig rätt. Huvudgrenar inom den offentliga rätten är konstitutionell rätt (statsrätt), straffrätt, processrätten och förvaltnings- rätten.

¹²

Man kan säga att dispositiva civilprocessens rättsområde definierar hur tvistemålsförfarandet bör se ut och civilrätten ger innehåll till dess ma- teriella prövning. De dispositiva tvistemålsprocesser som observerats i denna uppsats ser uteslutande ut att vara frågor som regleras i förmögenhetsrätten.

Motsatsen gäller dock inte, alla förmögenhetsrättsliga dispositiva tvistemål vid de undersökta tingsrätterna faller inte inom den undersökningsram som denna uppsats använder sig av.

Dispositiva tvistemål kan grovt sagt avlutas med att de avvisas eller av- skrivs, med en tredskodom, genom förlikning eller genom att tingsrätten får ta ställning i sakfrågan i rättegång. Om parterna förlikas kan överens- kommelsen stadfästas genom dom, annars avskrivs målet. I domstolarnas databaser loggas dessa utfall efter sina så kallade avgörandetyper ’Slutliga Beslut’, ’Tredskodom’ och ’Dom’. Dessa avgörandetyper är vidare kategorise- rade efter utgångstyp. I tabell 1.1 beskrivs de utifrån den organisering som de förekommer i databaserna. Den högra kolumnen innehåller de förkortningar som används när vi definierar utfallet U för ett mål.

Avgörandetyp/-Utgång Förkortning Slutligt Beslut U = 1 :

-avvisat U = 1 : 1

-avskrivet U = 1 : 2

Tredskodom U = 2 :

-mot svarande U = 2 : 1

-mot kärande U = 2 : 2

Dom U = 3 :

-käromålet delvis bifallet U = 3 : 1 -käromålet helt bifallet U = 3 : 2 -käromålet ogillat U = 3 : 3

-Övrigt U = 3 : 4

-Stadfäst förlikning U = 3 : 5

Tabell 1.1: Referensapparat för avgörandetyper och dess associerade typer av utgång

Högerspaltens förkortningar överensstämmer med de förkortningar som används i figur 5.1. Vanligt när man talar om tvistemålsprocessen är att sär- skilja mellan två faser, förberedelsen och huvudförhandlingen. Enligt en sådan

12

Andersson och Strömholm, Svensk rätt: en översikt , p. 19.

(12)

uppdelning är det främst under den så kallade förberedelsen som målet kan avgörs genom att det avskrivs, avvisas, att tredskodom faller eller att par- terna når en förlikning. Under huvudförhandlingen, ’rättegången’, sakprövas frågan och tingsrätten dömer i målet.

¹³

För att kunna modellera den juridiska processen studerades den ur ett systemperspektiv. En mer detaljerad men allt annat än uttömmande beskriv- ning av den dispositiva tvistemålsprocessen och de möjliga besluten som kan avsluta ett sådant mål, hur de uppkommer och beslutens inbördes relationer relevanta för denna uppsats visualiseras med referenser till rättskällor i en processgraf i appendix.

1.4 Logistiska regressionsmodeller

Låt Y

_i

|X

_i

vara en multinomial slumpmässig variabel som kan anta värden benämnda 1 . . . K med sannolikheten Pr(Y = j|X

_i

) för j = 1, . . . , K där X

_i

är en vektor av p kända konstanter. Om sambandet mellan konstanterna X

_i

och den logaritmerade oddskvoten mellan varje kategori mot utfall K är linjärt kan vi skriva ln

_Pr(Y^Pr(Yⁱ^=j|Xⁱ⁾

i=K|Xi)

= β

_j

· X

_i

där β

_j

är en vektor av p parametrar. Detta kan visas vara ekvivalent med sannolikheten för respektive kategoriskt utfall vilket visas i ekvation 1.1.

¹⁴

Pr(Y

_i

= 1) = e

^β¹^·Xⁱ

1 + P

K−1

j=1

e

^β^j^·Xⁱ

.. .

Pr(Y

i

= K − 1) = e

^β^K−1^·Xⁱ

1 + P

K−1

j=1

e

^β^j^·Xⁱ

Pr(Y

_i

= K) = 1 1 + P

K−1

j=1

e

^β^j^·Xⁱ

(1.1)

Här tolkas lämpligen β

_j,z

∆ som ökningen i logodds för j mot utfall K vid förändringen ∆ av X

i,z

.

¹⁵

När vi skattar denna modell och K = 2 benämns modellen vanligtvis som en ’binär logistisk regressionsmodell’ eller kort ’Logit’. När K > 2 är den engelska benämningen ’Multinomial baseline logistic regression’ eller ’Multi- logit’. Den första benämningen följer av att sannolikheten för utfall Y = j (då

13

Domstolsverket, Domstolsverkets handböcker, Tvistemål , Kap.5.

14

Agresti, Categorical Data Analysis, s. 165-277.

15

Ibid.

(13)

j 6= K) ställs mot ’basfallet’ K. I denna uppsats kommer de att benämnas

’Binära Logistiska-’ respektive ’Multilogistiska-’ regressionsmodeller.

Vid skattning av modellens parametrar β

_k

använder man sig av n obser- vationer av Y

_i

och konstanterna X

_i

för varje observation i. För observerade värden av {Y

_i

, X

_i

} används här notationen {l

_i

, X

_i

}, där ’l’ står för ’label’. Låt därmed L = hl

₁

, . . . , l

_n

i

^T

representerar n observationer av en kategorisk vari- abel där l

_i

är observation i’s klass. Logistiska regressionsmodeller producerar

’scores’ med explicita tolkningar i form av den skattade relativa sannolikhe- ten för klasstillhörigheten för varje klass. Här representeras denna skattning för observation i som ˆ P

_i

= hˆ p

_i,1

, . . . , ˆ p

_i,K

i. Dessa värden kan givetvis tolkas utan att tillskriva dem denna mening, och den skattade regressionsmodellen reduceras då till en linjär diskriminantfunktion.

¹⁶

För inferens kring logistiska regressionsmodeller antas slumpmässigt ut- valda observationer och att logoddsen är en linjär kombination av linjärt obe- roende variabler. Lämpligheten med multilogistisk regression för att skatta sannolikheter är givetvis avhängig att den stokastiska process man observerat följer en multinomialfördelning med parametrar som följer strukturen i ekva- tion 1.1. En egenskap hos multinomialfördelningen är att man kan reducera modellen till separata binomialfördelningar för två kategorier eftersom vi an- tar att de kategoriska utfallen är oberoende. Då man modellerar beslut och det finns flera alternativ (K > 2) kallas antagandet vanligtvis ’antagandet om oberoendet från irrelevanta alternativ’ (IIA)

¹⁷

. Multilogistisk regressions IIA-antagande översätts empiriskt till brist på korrelation mellan oobserve- rade faktorer.

¹⁸

Om vi låter C vara en mängd av möjliga utfall benämnda 1, . . . , K för slumpvariabeln så at Y

_i

|X

_i

∈ C och n

_j

antalet observerade utall av klass j motsvarar en multilogistisk regressionsmodell med basklassen K resulta- ten av K − 1 binära regressionsmodeller vardera tränade (skattade) på ett reducerat dataset där regressionsmodell för klass j är tränad på n

_j

+ n

_K

observationer av antagna värden av kategorierna ˜ C

_j

= {j, K, j 6= K}. Varje sådan regressionsmodell kan även uttryckas som en binär regressionsmodell passad betingat på klassificering i en av de två kategorierna. C kan även par- titioneras på andra sätt om det är lämpligare för undersökningsfrågan eller den stokastiska process som genererat observationerna.

¹⁹

Låter man exem- pelvis passa separata binära modeller för klassificering i varje klass, så att C → ˜ C

_j

= {j, {2, . . . , K}} för varje j, förlorar man information och besvarar

16

Hastie, Tibshirani och Friedman, The elements of statistical learning: data mining, inference and prediction.

17

Engelsk översättning: Independence of irrelevant alternatives

18

Agresti, Categorical Data Analysis.

19

Ibid.

(14)

delvis en annan undersökningsfråga men undviker kravet på IIA.

²⁰²¹

I denna uppsats används regressionsmodeller för att diskriminera på en förutbestämd hierarkisk partitionering av utfallsrummet C med förgreningar i två och flera utfallsalternativ varför en kombination av enkel logistisk och multilogistisk regression används.

1.5 Statistiska mått för modellprestation

En modell som används för att förutse ett kategoriskt utfall kan bedömas på ett antal sätt. Vanligt inom statistiska analyser är att residualer utnytt- jas för att uttala sig om en specifik modells lämplighet. Sådana metoder är viktiga då det är modellens parametrar och därmed underliggande samband eller resulterande sannolikhetsskattningar som är av största intresse. Sådana metoder är ofta modellspecifika vilket medför att de är invecklade och kräver stor förståelse för den specifika modellen för att överhuvudtaget tolka dess resultat och antaganden. Kort sagt ger de komplicerade svar på komplicerade frågor.

Då en modell skall användas för att fatta beslut anses det här som mer relevant att besvara de frågor en icke-statistiker kan tänkas ställa. Eftersom modelleringen är tänkt att reducera en komplex juridisk process till lättbe- gripliga numeriska värden finns det ingen mening med att gå från juridisk komplexitet till statistisk komplexitet. Därför används genomgående mer in- tuitiva begrepp från vetenskaper som operationsanalys och maskinlärning snarare än statistisk jargong, och fokus ligger på mer praktiska frågor kring modellers prediktionsförmåga än rigorösa modellspecifika valideringsmeto- der.

För att undersöka hur väl modellerna lämpar sig för att skatta sanno- likheter används Hosmer & Lemeshew’s test och statistika (avsnitt 1.5.2).

För att se om modellerna över huvud taget kan på förhand skilja mål emel- lan efter dess utfall används ROC-analys (avsnitt 1.5.2). För frågan hur ofta modellerna gissar ’rätt’ används mått för diskret klassificering, definierade i 1.5.1. Metoder för inferens kring dessa mått ges i avsnitt 1.5.3.

1.5.1 Mått för diskret klassificering

Låt L = hl

₁

, . . . , l

_n

i

^T

representera n observationer av en kategorisk variabel där l

_i

är observation i’s klass.

20

Agresti, Categorical Data Analysis.

21

Hosmer och Lemeshow, Applied Logistic Regression.

(15)

Multilogistisk regression skattar den relativa sannolikheten för klasstill- hörigheten för varje klass. Om vi representerar denna skattning för obser- vation i som ˆ P

_i

= hˆ p

_i,1

, . . . , ˆ p

_i,K

i är ett naturligt val av klassificering ˆ l

_i

= arg max

_k∈1...K

(ˆ p

_i,k

) vilket innebär att vi låter observationens skattade klass vara den klassen med högst tillskrivet värde.

Binär logistisk regression ger en skattning (ˆ p

_i

) av sannolikheten för klasstill- hörighet till den positiva klassen för observation i. Här blir valet av klassifi- ceringsmetod friare. Genom att sätta ett visst tröskelvärde

²²

som detta värde måste överstiga kan vi översätta den kontinuerliga skattningen till en kate- gorisk klasskattning ˆ l

_i

. Tröskelvärde kan väljas efter att väga kostnaden för klassificeringsfel i den positiva respektive den negativa klassen, vilket beskrivs utförligt i avsnitt 1.5.2.

²³

Vid logistisk regression överensstämmer alltså varje tröskelvärde med en specifik klassificering medan multilogistisk regression enligt ovanstående me- tod ger precis en klassificering för observationerna oberoende av något fixerat tröskelvärde. Om ˆ L = hˆ l

₁

, . . . , ˆ l

_n

i

^T

är de skattade klasserna kan en klassifice- ring sammanfattas som de parvisa observationerna i hL, ˆ Li.

Klassificeringsmatris

Resultatet vid klassificeringen sammanställs lämpligast genom att korstabu- lera observerade (L) och skattade (ˆ L) utfallsklasser. Tabellen som då skapas benämns som en klassificeringsmatris

²⁴

.

Vid binär klassificering finns en väl utvecklad begreppsapparat för att beskriva klassificeringsmatrisen. Centrala begrepp sammanställs i figur 1.2.

True Negative N

N

False Positive

P Klassificeringsfel

FP

TN+FP

= 1 − Specificitet

False Negative

P True

Positive

FN

FN+TP

= 1 − Sensitivitet

Faktisk (l)

Prediktion (ˆ l)

Figur 1.2: Klassificeringsmatris, 2 klasser.

²⁵

22

Engelsk översättning: treshold eller cutoff

23

Fawcett, ”An introduction to ROC analysis”.

24

Engelska:Confusion Matrix

(16)

Utfallet kan vara negativt (N ) eller positivt (P ) och T N - True Negative - är därmed antalet korrekt klassificerade observationer då den sanna klassen är negativ. Med F P - False Positive - menas antalet negativa observationer som felaktigt klassificerats som positiva. Andelen korrekt klassificerade nega- tiva observationer benämns specificitet. För de observationer som är positiva representerar T P - True Positive - antalet korrekt klassificerade positiva observationer och F N - False Negative - antalet positiva observationer som felaktigt klassificerats som negativa. Av de positiva observationerna benämns andelen korrekt klassificerade som Sensitivitet.

²⁶

I en statistisk kontext motsvarar F P antalet T yp I-fel och F N anta- let T yp II-fel. Sensitivitet är en skattning av den marginella sannolikheten Pr(ˆ l = P |Y = P ) och Specificitet Pr(ˆ l = N |Y = N ).

²⁷²⁸

.

Den generaliserade klassificeringsmatrisen för flera klasser visas i tabell 1.5.1. Om vi kallar matrisen för M motsvarar M

_i,j

/n = ˆ P r(Y = i, ˆ l = j). Då det finns K > 2 klasser kan varje felklassificering ske på K − 1 sätt varför det inte finns någon direkt motsvarighet till Sensitivitet, Specif icitet, T N , F P , F N eller T P . De mått som används definieras därför här. Målet här är att kunna jämföra binär och multipel klassificering då en eller ett par utfall är av intresse vilket motsvarar en uppdelning i binära klassificerinsmatriser.

Två övergripande strategier återkommer vid statistisk klassificering för att beskriva hur kategorier jämförs. En mot alla- och Alla mot alla. I den första slås alla kategorier ihop och jämförs mot en, i den andra jämförs var- je kategori parvis. För att definiera analoga mått till binär Specificitet och Sensitivitet används begränsas av utrymmesskäl här analysen till respekti- ve klass positiva klassificeringsfel definierat genom en en mot alla-strategi.

1 1 2

. . . ^K

2 . . .

... ... . . . ...

K . . .

Prediktion (ˆ l)

Faktisk(l)

Figur 1.3: Klassificeringsmatris för K klasser

Här analyseras matrisen i termer av K vanliga 2 × 2 klassificeringsma- triser genom att slå ihop rader för varje klass enligt följande. Antalet korrekt klassificerade observationer- na för kategori j blir här T P

_j

= M

_j,j

och falska positiv blir övriga obser- vationer i rad j. Det positiva klassifi- ceringsfelet j definieras därmed som andelen utanför diagonalen för ko- lumn j enligt ekvation 1.2.

26

Fawcett, ”An introduction to ROC analysis”.

27

Om man antar heltäckande eller slumpmässigt stickprov

28

Mason och Graham, ”Areas beneath the relative operating characteristics (roc) and

relative operating levels (rol) curves: Statistical significance and interpretation”.

(17)

1 − Sensitivitet

j

= F N

_j

F N

_j

+ T P

_j

=

P

K

k6=j

M

_k,j

P

K

k6=j

M

k,j

+ M

j,j

(1.2) Eftersom detta mått enbart består av element från kolumn j ger samtliga K sensitiviteter tillsammans en heltäckande och icke-överlappande beskriv- ning av klassificeringsmatrisen där Sensitivitet

_j

är oberoende av prevalensen för kategori j.

²⁹

Fördelen med att reducera klassificeringen till en serie en mot alla-klassificeringar är att det är mycket intuitivt och ger prevalensoberoende skattningar av det

positiva klassificeringsfelet. Man analyserar däremot matrisen i termer av K binära klassificeringar och tar därför inte hänsyn till vilken kategori som felaktigt förutsågs vilket är ett problem om olika fel har olika kostnad.

³⁰

Ex- empelvis vore det antagligen värre med en modell som felaktigt förutser att ett mål blir bifallet om målet ogillas än om målet i verkligheten blev delvis bifallet.

I verkligheten finns det ett stort antal mått för att analysera klassifi- ceringsmatriser där den mest välutvecklade terminologin rör binär klassifice- ring. De få som nämnts hittils är andelen korrekt klassificerade för respektive klass (Sensitivitet och Specificitet eller Sensitivitet

_j

för multiklassproblem), vilka är mått som valts på grund av dess oberoende av klassprevalens och generaliserbarhet till multiklassproblem.

Slutligen definieras här träffsäkerheten (Accuracy, ACC) som den totala andelen korrekt klassificerad observationer det vill säga andelen som faller på diagonalen i klassificeringsmatrisen. Ett problematiskt mått då det är mycket beroende av relativ klassprevalens. Fördelen är att det har samma betydelse för binära- och multiklassproblem och måttet är mycket allmänt känt och är lätt att ta till sig. Inferens kring detta mått diskuteras mer i avsnitt 1.5.3.

1.5.2 ROC-Kurvor

ROC står för Receiver Operating Characteristic och är en presentation av avvägningen mellan Sensitivitet och Specificitet vid samtliga tröskelvärden.

Jämför med en (binär) klassificeringsmatris som representerar resultatet av en klassificering vid ett tröskelvärde. Genom att parametrisera sensitivitet och specificitet på tröskelvärdet t ger ekvation 1.3 punkten i ROC-kurvan för tröskelvärdet t.

ROC(t) = {Sensitivitet(t), 1 − Specif icitet(t)} (1.3)

29

En modell tillskriver antagligen högre priorisannolikhet för mer prevalenta klasser, med oberoende menas här relativt oberoende från verklig klassprevalens

30

Fawcett, ”An introduction to ROC analysis”.

(18)

Hela kurvan fås genom att variera t över intervallet [0, 1], se exempelvis figur 3.3 och figur 3.6.

³¹

Grafiskt representerar linjen över diagonalen prestandan för en modell som helt slumpmässigt kategoriserar observationerna. Desto längre ROC- kurvan rör sig upp mot vänstra hörnet desto bättre är modellen.

³²

ROC-kurvan är precis som de klassificeringsfel den representerar invariant av andelen negativa (’0’) respektive positiva (’1’) observationer (klasspreva- lensen). Det är inte heller beroende av att modellens skattade värden har en explicit sannolikhetstolkning. Det har därför blivit ett centralt verktyg för analys av klassificeringsmodeller.

³³

Eftersom ROC är en funktion av tröskelvärdet följer att generalisering- en till flera dimensioner är problematisk. Som beskrivits i tidigare avsnitt ger multilogistisk regression exakt en klassificeringsmatris då man för varje observation antar att den sanna klassen är den som har högst skattad san- nolikhet, ˆ l

_i

= arg max

_k∈1...K

(ˆ p

_i,k

). Det finns dock två generella metoder som utnyttjar information från alla K skattade sannolikheter för varje observa- tion.

Den första använder en mot alla-metoden och använder de skattade san- nolikheterna för en klass mot de övriga i taget.

³⁴

Den andra utnyttjar alla mot alla-metoden och undersöker de

^K₂

paren av klasser som går att forma. Om man tar ett sådant par, i och j så väljer man alla observationer vars sanna värden var i eller j. Båda dessa klasser har i sin tur var sin vektor av skattade sannolikheter. För ett givet trös- kelvärde kan man för klasserna i och j därmed få två klassificeringsmatriser och resulterande punkter till ROC-kurvan. Med andra ord genererar alla mot alla-metoden värden för 2 ·

^K₂

olika ROC-kurvor.

³⁵

I allmänhet anses det stora antalet ROC-grafer medföra att separeringen mellan klasser är för komplex för att visualisera med alla-mot-alla metoden.

³⁶

Ett försök görs i figur 3.4 och 3.7. För varje par av utfall väljs de observatio- nerna som tillhörde någon av kategorierna, och ROC-kurvor plottas för de skattade sannolikheterna betingat på klassificering av någon av kategorierna vilket borde vara en intuitiv representation som samtidigt innebär minimal förlust av information.

31

Fawcett, ”An introduction to ROC analysis”.

32

Mason och Graham, ”Areas beneath the relative operating characteristics (roc) and relative operating levels (rol) curves: Statistical significance and interpretation”.

33

Fawcett, ”An introduction to ROC analysis”.

34

Ibid.

35

Fawcett, ”An introduction to ROC analysis”; Hand och Till, ”A simple generalisation of the area under the ROC curve for multiple class classification problems”.

36

Fawcett, ”An introduction to ROC analysis”.

(19)

Sammanfattningsvis ger ROC-kurvan vid binär klassificering en 2-dimensionell helhetsbild av klassificeringsmodellens prestation som är oberoende av pre- valens och ett visst tröskelvärde, med enda antagandet om att de skattade värdena mäts på ordinalskala. Med multipla klasser kan vi jämföra avvägning- en mellan specificitet och sensitivitet genom att analysera klassificeringen i termer av binära klassificeringar.

Area Under the Curve (AUC)

Ytan under ROC-grafen och den horisontella axeln Sensitivitet = 0 på in- tervallet Specif icitet ∈ [0, 1] kallas ’Ytan under kurvan’, förkortat AUC och kan sägas sammanfatta en modells prestation vid alla möjliga tröskelvärden.

Ett annat vanligt namn är C- eller ρ-Statistikan.

³⁷

En perfekt modell har ett observerat AUC på 1 och en modell som inte presterat bättre än slumpen har ett AUC på 0.5. Lägre värden än 0.5 innebär att modellen systematiskt felklassificerat.

³⁸

Vid klassificering av en binär variabel då modellen har skattat sannolik- heten ˆ p

_i

= ˆ P (l

_i

= P ) för index i = 1 . . . n och Ω

_P

respektive Ω

_N

är två mängder av index som pekar ut positiva respektive negativa observationer så att l

_ω_P

= P och l

_ω_N

= N där ω

_P

och ω

_N

är index vardera slumpmässigt dragna så att ω

_P

∈ Ω

_P

och ω

_N

∈ Ω

_N

. Vi kan då beskriva AUC enligt ekvation 1.4.

³⁹

AU C

_obs

= Pr(ˆ p

_ω_P

> ˆ p

_ω_N

) (1.4) Med andra ord ger AU C

_obs

en skattning av sannolikheten för modellen att ge ett högre värde för en slumpmässigt vald positiv observation än till en slumpmässigt vald negativ observation.

⁴⁰

Metoden som används här för att beräkna AUC ges i ekvation 1.4.

⁴¹

Låt n

₀

och n

1

representera antalet negativa respektive positiva observationer.

Rangordna de skattade sannolikheterna i ˆ P från minsta till största värde

37

Hastie, Tibshirani och Friedman, The elements of statistical learning: data mining, inference and prediction.

38

Fawcett, ”An introduction to ROC analysis”.

39

Mason och Graham, ”Areas beneath the relative operating characteristics (roc) and relative operating levels (rol) curves: Statistical significance and interpretation”.

40

Hand och Till, ”A simple generalisation of the area under the ROC curve for multiple class classification problems”.

41

Rangsummemetoden är den vanligaste metoden som i sin tur kan skilja sig åt genom tieshantering. Vanligast, och använd i denna uppsats, är att ties tillskrivs ett medelvärde.

(Hand och Till, ”A simple generalisation of the area under the ROC curve for multiple class classification problems”; Macskassy och Provost, ”Confidence bands for ROC curves:

Methods and an empirical study”)

(20)

och summera rangerna för den positiva klassen till rangsumman S

₁

. Då ger ekvation 1.5 beräkningsformeln för observerad AUC.

⁴²

AU C

_obs

= S

₁

−

ⁿ¹⁽ⁿ₂¹⁺¹⁾

n

₀

· n

₁

= U

₁

n

₀

· n

₁

(1.5)

Som man ser är AU C

_obs

tätt kopplat till Mann-Whitney U statistikan U

₁

.

⁴³

och därmed även ekvivalent med ρ-statistikan.

⁴⁴

Vid multiklassproblem finns ingen direkt motsvarande värde för AUC.

Det finns dock två frekvent citerade metoder som används för att bedöma en klassificeringsalgoritms prestanda. Den första presenterades av Provost och Domingos som benämner måttet som AU C

_total

. Man kan säga att det grundar sig i en en mot alla-strategi och är ett vägt medelvärde av AUC för varje klass j mot de övriga, här benämnt AU C

j

. Måttet för hela modellen ges då nedan.

⁴⁵

AU C

_total

= AU C

_en:alla

= X

j∈ 1,...,K

AU C

_j

· ˆ p (j) (1.6) Här är ˆ p (j) den skattade sannolikheten för utfallet j. För att förstå inne- börden av AU C

_j

, låt Ω

_j

vara mängden index som pekar ut observationerna av klass j och ω

j

en slumpmässigt dragit index därifrån så att ω

j

∈ Ω

j

. Med andra ord gäller det att l

_ω_j

= j. Vidare är ˆ p

_ω_j_,j

någon skattad sannolikhet för observation ω

_j

att tillhöra klass j. Om vi på motsvarande sätt definierar Ω

^C_j

som index för alla observationer som inte tillhörde klass j så att ω

^C_j

∈ Ω

^C_j

så har vi AU C

_j

= Pr (ˆ p

_ω_j

> ˆ p

_ω^C

j

).

Innebörden av AU C

_en:alla

i 1.6 är lätt att visualisera och förstå som ett vägt medelvärde av K binära klassificeringar och används därför som ett deskriptivt mått i denna uppsats. Eftersom det är beroende av observerad prevalens gör det dock antaganden om kostnad för felklassificering. Hand &

Til föreslår därför en alla mot alla-metod där vad de kallar ’M’ beräknas.

⁴⁶

Metoden går ut på att para ihop klasser och var för sig beräkna AUC baserat på båda klassernas skattade sannolikheter och ta ett medelvärde av

42

Mason och Graham, ”Areas beneath the relative operating characteristics (roc) and relative operating levels (rol) curves: Statistical significance and interpretation”.

43

Mason och Graham, ”Areas beneath the relative operating characteristics (roc) and relative operating levels (rol) curves: Statistical significance and interpretation”; Hand och Till, ”A simple generalisation of the area under the ROC curve for multiple class classification problems”.

44

Hanley, McNeil m. fl., ”A method of comparing the areas under receiver operating characteristic curves derived from the same cases”.

45

Provost och Domingos, ”Tree induction for probability-based ranking”.

46

Fawcett, ”An introduction to ROC analysis”.

(21)

resultatet enligt ekvation 1.7.

⁴⁷

M = AU C

_alla:alla

= X

i, j ∈{1,...,K}

i<j

AU C

_j,i

+ AU C

_i,j

K(K − 1) = X

C={1,...,K}

(i,j)∈C×C i6=j

AU C

_i,j

2 ·

^K₂

(1.7)

En tolkning av AU C

i,j

är följande. Låt ˆ p

_ω_j_,j

vara någon skattad sanno- likhet för en observation ω

_j

att tillhöra klass j där ω

_j

∈ Ω

_j

och ω

_i

∈ Ω

_i

väljs slumpmässigt definieras AU C

_i,j

= Pr (ˆ p

_ω_j_,j

> ˆ p

_ω_i_,j

).

M uppnår 1 då modellen ger relativt större världen och 0.5 då Måttet har fått stort genomslag och beskrivs av Hand & Till som det lämpligaste måttet på hur väl en modell separerar klasserna. Det huvudsakliga problemet med måttet anses vara dess komplexitet vilket försvårar både tolkning och visualisering.

⁴⁸

I figur 3.4 och 3.7 kan M

_auc

− 1/6 tolkas som medelvärdet av ytan som avgränsas av kurvorna.

Alla K

²

möjliga AUC-värden för multiklassproblem presenteras i denna uppsats i en ’AUC-matris’ med de binära, alla mot alla-AU C

_j

värdena på diagonalen och de parvisa AU C

_i,j

värdena utanför diagonalen. Implemente- ringen kan ses i Appendix, kod 1.

1.5.3 Inferens för modellens prediktionsförmåga

Kalibrering; förmågan att skatta sannolikheten P r(Y = j|X)

Att en modell är kalibrerad innebär att de värden som den förutspår stämmer överens i magnitud med de (typer av) värden som den är tänkt att förutspå.

En modell med mycket god diskrimeringsförmåga kan alltså vara helt oka- librerad. Logistisk regression är tänkt att, efter transformation av logoddsen, producera sannolikheter. Frågan är därför om de skattade sannolikheterna kan användas direkt i termer av sannolikhetsskattningar.

⁴⁹

Ett vanligt test för att addressera denna fråga för logistisk regression och andra sannolikhetsskattande modeller är Hosmer & Lemeshew -testet som senare visats kunna generaliseras till multilogistisk regression.

⁵⁰

47

Hand och Till, ”A simple generalisation of the area under the ROC curve for multiple class classification problems”.

48

Fawcett, ”An introduction to ROC analysis”.

49

Hosmer och Lemeshow, Applied Logistic Regression.

50

Fagerland, Hosmer och Bofin, ”Multinomial goodness-of-fit tests for logistic regression

models”.

(22)

C ˆ

_M

=

G

X

g=1 K

X

k=1

O

_g,k

− ˆ E

_g,k

2

E ˆ

_g,k

=

G

X

g=1 K

X

k=1

Z

_g,k²

∼ χ

²(G−2)·(K−1)

(1.8)

O

_g,k

= X

i∈Ωg,k

Y

_i,k

E ˆ

_g,k

= X

i∈Ωg,k

ˆ

p

_i,k

≈ n G · ¯ p ˆ

_g,k

Statistikan ˆ C

_M

beräknas enligt ekvation 1.8. Metoden går ut på att man för varje klass k rangordnar de skattade sannolikheterna och delar in dem i G grupper (kvantiler). Här är Ω

_g,k

den mängd av index för som pekar ut den g’te kvantilen av sannolikhetsskatningar för klass k.

⁵¹

För varje sådan grupp g beräknas sedan det observerade antalet O

_g,k

och det förväntade antalet ˆ E

_g,k

enligt modellen (summan av de ≈ n/G skattade sannolikheterna för varje grupp).

⁵²

Genom simuleringar har ˆ C

_M

visats vara approximativt χ

²

-fördelad med (G − 2) · (K − 1) frihetsgrader vid en passande modell då n är stort och andelen ties liten. Ett vanligt värde för G är 10. Under dessa förutsättningar motsvarar sannolikheten för ˆ C

_M

sannolikheten att modellen passar.

⁵³

Hur detta implementerats kan ses i Appendix, kod 1.

Mått för diskret klassificering

Om vi antar att G och U är oberoende kategoriska variabler som kan anta värdena 1, . . . , K där P r(G = j) = p

_G,j

och P r(U = j) = p

_U,j

så följer av oberoendet att Pr(G = j ∩ U = j) = p

G,j

· p

_U,j

.

⁵⁴

Tolkningen här är l

_i

som det observerade slumpmässiga kategoriska ut- fallet av en dragen observation i och ˆ l

_i

den observerade (slumpmässiga) ka- tegoriska gissningen.

Nollhypotesen ‘oberoende mellan l

_i

och ˆ l

_i

’ enligt ett vanligt motsvaran- de χ

²

-test för oberoende mellan rader och kolumner innebär att varje ruta M

k,m

i klassificeringsmatrisen M har ett observerat antal som överensstäm- mer med dess förväntade värde under marginalfördelningen så att n · Pr(l

_i

=

51

Partitionen av de skattade sannolikheterna är vagt formulerad av Hosmer och Lemes- hew som ’Ω

_g

’, detta är den tolkning som används vid implementeringen

52

Approximativt eftersom n inte nödvändigtvis är delbart med G och beroende på hur ties hanteras

53

Fagerland, Hosmer och Bofin, ”Multinomial goodness-of-fit tests for logistic regression models”.

54

Agresti, Categorical Data Analysis, Kap.1.

(23)

k ∩ ˆ l

_i

= m) ≈ M

_i,j

. Ett signifikant test säger därmed att modellen kunde skilja på klasser vid en klassificering. Eftersom χ

²

-värdet inte förändras av permutationer av M säger det däremot ingenting om modellen skiljde dem åt på rätt sätt. Antagandet om förväntade frekvensers storlek är dessutom opraktiskt.

⁵⁵

Den observerade träffsäkerheten (ACC

_obs

) är andelen korrekt klassifice- rade observationer. Här motiveras hur binomialfördelningen används för in- ferens kring sannolikheten att modellen korrekt klassificerar en observation.

Klassificering motsvarar att gissa på ett utfall. Det är lätt att se att varje observation är antingen korrekt klassificerad eller inte, och ˆ l

_i

∩ l

_i

är därmed binär. Bortser vi helt från de förklarande variablerna X

_i

som skiljer sig åt mellan observationerna blir det lättare att tänka sig varje ˆ l

_i

∩ l

_i

som utfallet av ett identiskt binärt experiment och därmed ∼ Ber(ACC) där ACC är den okända sannolikheten för att observation i är korrekt klassificerad. Då varje experiment utförs på den data som modellen tränats på är observationerna uppenbart beroende sinsemellan. Vid n observationer från en annan popu- lation (valideringsdataset) antas här oberoende och resultatet av n sådana gissningar antas därmed vara binomialfördelat Bi(n, ACC).

Under antaganden blir Maximum-Likelihood skattningen av modellens pricksäkerhet därmed M LE(ACC) = ACC

_obs

och vi kan vidare utnyttja binomialfördelningen för att skatta konfidensintervall.

⁵⁶

Frågan rör nu hypotesprövning. Om ett signifikant värde på ACC skall indikera en pricksäkerhet som skiljer sig från en slumpmässig (oberoende) gissning ˆ l

_i

∩ l

_i

bör nollhypotesen reflektera ett ACC från en optimal giss- ningsstrategi där ˆ l

_i

och l

_i

är oberoende.

För att illustrera detta återgår vi till de oberoende variablerna G och U . Vi har G ∩ Y ∼ Ber(˜ p) där ˜ p = P r(G ∩ U ) = P

K

j=1

p

_G,j

p

_U,j

och resulta- tet av n simultana experiment är därmed binomialfördelat Bi(n, ˜ p). Fixera sannolikheterna p

_U,1

, . . . , p

_U,K

för U och välj sannolikheterna p

_G,1

, . . . , p

_G,K

som maximerar ˜ p. Man kan visa att ˜ p ≤ max (p

_U,1

, . . . , p

_U,K

), där högerle- det motsvarar ett G som konstant ’gissar’ på det utfall av U som har högst sannolikhet. Att så är fallet då K = 2 är mer intuitivt.

Om vi antar att l

_i

och ˆ l

_i

är oberoende och att n dragningar och giss- ningar sker med återläggning under identiska förhållanden är antalet kor- rekta gissningar därmed ∼ Bi(n, ACC). Frågan vid oberoende blir där- med vilken information om den verkliga prevalensen för respektive kategori som kan antas för att forma linjärkombinationen motsvarande ˜ p, ACC = P

K

j=1

Pr (ˆ l = j) · Pr (l = j). Vad skall anses vara en oberoende, oinforme-

55

Agresti, Categorical Data Analysis, Kap.3.

56

Ibid., Kap.1.

(24)

rad gissningsstrategi? En modell som inte kan forma sannolikheterna för ˆ l med någon information om sannolikheterna (klassprevalenserna) för l väl- jer kanske gissningsstrategin att gissa på varje utfall med lika sannolikhet.

Nollhypotesen är då ACC

_H₀

= P

K j=1

1

K

· Pr (l = j) =

_K¹

, vilket skulle ge ett onödigt signifikant resultat vid uppenbart sned klassfördelning. Vi ställer där- för upp en nollhypotes som antar att man åtminstone i gissningen vet den mest prevalenta klassen. Ett signifikant resultat innebär därmed en prick- säkerhet ACC bättre än en konsekvent gissning på den vanligaste klassen, ACC

_H₀

= max (p

_y,1

, . . . , p

_y,K

).

För att få en uppfattning om hur stor chansen för korrekt klassificering är för respektive utfallsalternativ skapas i multiklassfallet konfidensintervall för Sensitivitet

_j

med parametertolkningen Sensitivitet

_j

= P (l

_i

= ˆ l

_i

|l

_i

= j) för varje observation i och klass j. Detta motsvarar att man väljer en klass (kolumn i klassificeringsmatrisen) och studerar den marginella fördelningen genom att slå ihop kolumner och därmed dikotomisera utfallet. I det binära fallet blir parametrarna givetvis Sensitivitet respektive Specif icitet med motsvarande tolkning.

För K konfidensintervall vill man att alla täcker sina sanna parametrar med α = 0.05. Varje individuellt konfidensintervall j får därför ett värde på (1 − α

_j

)

^K

= 0.95 ⇔ α

_j

= 1 − 0.95

^1/K

(Bonferroni-korrektion). För samtliga konfidensintervall används Clopper-Pearsons ’exakta’ metod, vilket av vissa författare benämns som det mest konservativa.

⁵⁷

Modellprestation oberoende av kalibrering och klassprevalens Vid binär klassificering kan vi beräkna Mann-Whitney U-statistikans rela- tion till AUC enligt ekvation 1.5 för att dra slutsatser kring hela modellens förmåga att skilja mellan klasserna. Under följande antaganden är transfor- mationen av U enligt ekvation 1.5.3 approximativt normalfördelad.

⁵⁸

U −

ⁿ⁰₂ⁿ¹

q

n0n1(n0+n1+1)

12

=

U

n0n1

−

_2nⁿ⁰ⁿ¹

0n1

1 n0n1

q

n0n1(n0+n1+1) 12

= AU C

obs

−

¹₂

1 n0n1

q

n0n1(n0+n1+1) 12

= z ∼ N (0, 1) (1.9) För det första antas ett stort stickprov (n > 30) bestående av oberoen- de slumpmässigt utvalda observationer. Oberoende i denna kontext innebär att målen är inbördes orelaterade. Att bryta mot detta antagande kan in- nebära en överskattning av antalet frihetsgrader. För det andra antas lika

57

Agresti, Categorical Data Analysis, Kap.1.

58

Mason och Graham, ”Areas beneath the relative operating characteristics (roc) and

relative operating levels (rol) curves: Statistical significance and interpretation”.

(25)

varians i grupperna av skattade sannolikheter. Brist i detta leder till mindre signifikanta resultat. Ett signifikant rangsummetest då AU C > 0.5 innebär att sannolikheten för att en slumpmässigt vald positiv observation tillskrivs ett högre värde av modellen än en slumpmässigt vald negativ observation överstiger 0.5.

⁵⁹

För konfidensintervall finns det flera metoder. Här valdes den mest robus- ta. Det bredaste (mest konservativa) konfidensintervallet valdes med hjälp av

⁶⁰

:

σ

_max²

= AU C · (1 − AU C)

min {n

₀

, n

₁

} ≤ 1

4 · min {n

₀

, n

₁

} (1.10) Detta anses av flera författare gälla för samtliga kontinuerliga fördelningar av scores

⁶¹

. I denna uppsats redovisas konfidensintervall givet av AU C ± t

_df,α/2

· σ

_max

där df = min {n

₀

, n

₁

} − 1.

Inferens för multipel AUC är ett mindre utvecklat område. Oavsett om

AU C

_en:alla

(ekvation 1.6) eller AU C

_alla:alla

(ekvation 1.7) används för att här-

leda en vägd summa av binär AUC kan vi inte utnyttja normalfördelning- ens konvolutionsegenskaper då sannolikhetsskattningar för respektive klass är utförda på sammma observation och därmed inte oberoende. Hand & Til föreslår att den statistiska felmarginalen estimeras med hjälp av bootstrap- ping. Någon beskrivning av en lämplig implementering av detta har inte funnits, och inte heller forskning som prövar bootsrappen utan att göra för- delningsantaganden. Dessa redovisas därför utan varken konfidensintervall eller hypotesprövning.

59

Mason och Graham, ”Areas beneath the relative operating characteristics (roc) and relative operating levels (rol) curves: Statistical significance and interpretation”.

60

Cortes och Mohri, ”Confidence Intervals for the Area Under the ROC Curve.”

61

Ibid.

(26)

Kapitel 2

Material & metod

2.1 Datainsamling

Sammanlagt samlades data för 14822 tvistemål in från 8 tingsrätter, samtliga lydande under Svea Hovrätt. Tingsrätterna som omfattades av undersökning- en valdes på två sätt, de för modellskattning valdes med bekvämlighetsurval och de för validering slumpmässigt. Figur 2.1 visar hur samplingsrymden såg ut.

HD

Göta Skåne_Blekinge Svea Västra_Sverige Nedre_Norrland Övre_Norrland

Attunda Nacka Solna Stockholms Södertörns Södertälje Gotlands Eskilstuna Norrtälje Uppsala Nyköpings Västmanlands Falu Mora

Träning Validering

Figur 2.1: Samplingsrymden avgränsades till tingsrätter under Svea Hovrätt.

Grönmarkerade tingsrätter är icke-slumpmässigt utvalda tingsrätter som används för att träna modellen. Blåmarkerade tingsrätter är obundet slump- mässigt utvalda från de återstående tingsrätterna lydande under Svea Hov- rätt. Att pilarna ovanför tingsrätterna leder uppåt uttrycker att avgöranden i tingsrätter överklagas

¹

till respektive hovrätt.

Att en del tingsrätter inte valdes slumpmässigt var av praktiska anled- ningar. Geografisk närhet till Uppsala Universitet var ett krav för att kunna göra fysiska besök på tingsrätter och därmed sökningar i deras databaser.

1

Med undantag se Rättegångsbalken

(27)

Vid varje besök samlades nya register in, studerades och följdes upp med nya sökningar. Först när en tillräckligt god bild av hur tvistemålsprocessen dokumenterades och möjligheterna för dataextrahering gjordes det slump- mässiga urvalet av de resterande tingsrätterna under Svea Hovrätt. Dessa observationer benämns som valideringsdatasetet vilket lämnades helt orört fram till att modeller och tröskelvärden för klassificering beräknats med hjälp av träningsdatasetet.

Anledningen till att enbart Svea Hovrätt omfattades av det slumpmässiga urvalet följer av att om uppföljningsstudier kommer på fråga kan man i efter- hand utöka modellen för att förutse det slutliga resultatet sett från parternas perspektiv, det vill säga utgången i de mål som har överklagats. Eftersom alla insamlade mål för undersökningsperioden som överklagats hamnar i Svea Hovrätt och sedan Högsta Domstolen skulle man tillsammans med Hovrät- tens och Högsta Domstolens register ha ett nästintill heltäckande dataset vilket vore mycket intressant.

Förklaringen till avgränsningen i tidsperiod till 2009-2013 är liknande.

För varje avgörande med dom finns en skriven dom. Sedan 2009 har många tingsrätter

²

gått över från att huvudsakligen fysiskt handhålla dessa domar till att spara dem i ett maskinläsbart format (PDF). En ursprunglig tanke med undersökningen var att utnyttja de register (som här är det huvudsakliga datamaterialet) för att på ett strukturerat sätt slumpmässigt välja mål och extrahera information från dess skrivna domar.

Varje tingsrätt uppmanades skicka register enligt följande söktermer:

Status = Avslutat

Målgrupp/Måltyp = 10/99

Avslutandedatum = 2009-01-01 - 2013-11-27

Avgörandetyp = Dom

Per avgränsning:

1. Utgång = Delvis Bifallet

2. Utgång = Helt Bifallet

3. Utgång = Ogillat

4. Utgång = Övrigt

5. Utgång = Stadfäst Förlikning

Fördelningen av utfallen för respektive tingsrätt kan ses i tabell 2.1. Den avgörandetyp som i tabellen benämns ’ _OKÄNT ’ är de mål som inte avslutats

2

Detta framgick av samtal med Domstolsverket, Södertörns, Uppsalas och Attundas

tingsrätt. Någon offentlig föreskrift har detta inte kunnat styrkas med.

(28)

på de andra sätten vilket innebär att de bör ha avslutats med tredskodom eller slutligt beslut. Ursprungligen var tanken att enbart använda mål som avslutats genom dom men Nacka, Stockholm och Södertälje hade söksystem som möjliggjorde att samtliga mål skickades, och då utnyttjades även denna kategori.

OKÄNT SFÖRLIKNING HELT DELVIS OGILLAT ÖVRIGT TOTALT

ATTUNDA 0 720 138 24 92 144 1118

NACKA 1112 338 76 16 50 33 1625

SÖDERTÖRN 0 839 333 36 121 159 1488

SOLNA 0 493 180 36 146 186 1041

STOCKHOLM 5487 1363 277 52 567 281 8027

ESKILSTUNA 0 109 44 11 44 6 214

NYKÖPING 0 71 25 8 5 11 120

SÖDERTÄLJE 874 139 77 10 18 70 1188

Träning 6599 3753 1004 164 976 803 13299

Validering 874 319 146 29 67 87 1522

TOTALT 7473 4072 1150 193 1043 890 14821

Tabell 2.1: Fördelningen av utfall för insamlade mål per tingsrätt Innan målpopulation och undersökningsram kunde definieras krävdes att själva processen definierades. Liknande empiriska studier gick inte att finna i Sverige och allting gjordes därför från grunden. Absolut elementära frågor som vad som skall avgränsas till en observation och hur man kan veta vilka tillhörande attribut är kartlades. För att få reda på detta krävdes att systemet som genererar informationen studerades ur ett nytt perspektiv skiljt från det icke-empiriska juridiska perspektivet.

Först utfördes en processanalys av rättegångsprocessen där ’dispositiva

tvistemål’ operationaliserades, och dess utfall och datapunkter sattes i ett

sammanhang. Här utnyttjades dels ’ritningarna’ för hur processen bör se ut,

det vill säga lagtexten, främst Rättegångsbalk 1942:147. Lagtexten tolkades

sedan med hjälp av Domstolsverkets handbok om tvistemål. Resultatet av

sammanställdes i en processgraf, figur 5.1 som återfinns i appendix. Den

helt juridiska analysen gav en fingervisning till hur sökningar kunde utföras

för att extrahera data. Parallellt bildades en uppfattning om hur relationerna

mellan datapunkterna som finns tillgängliga för varje mål ser ut. Det fanns få

medel till buds för att definiera datastrukturerna varför en sammanvägning av

information från rättskällor användes tillsammans med upprepade sökningar

på plats vid tingsrätternas offentliga datorer, samtal med domstolsverket

och tingsrätternas arkivarier samt tingsnotarier, jurister och forskare. Hur

den information som slutligen utnyttjades antas höra samman modellerades

i ett Entity-Relationship (ER) diagram som kan ses i appendix.

(29)

Kort sagt har det handlat om att förenkla en komplex process beskri- ven främst i lagtext och juridisk doktrin till en observerbar slumpvariabel Mål

_i

med ett begränsat antal utfall, Mål

_i

∈ {utf all

₁

, . . . , utf all

_K

}. Centrala frågor har varit följande:

• Är ’mål’ en användbar definition för att unikt identifiera en juridisk process? Kan ett mål ses som en slumpvariabel?

• Vilka utfall kan ett (dispositivt tviste-) mål sluta med? Är utfallet uteslutande, det vill säga faller varje avslutat mål inom exakt en ut- fallskategori?

• Hur kan man välja mål så att utfallsrummet för varje mål är identiskt och uttömmande? Vilka avslutade mål kan anses vara utfall av samma process?

• Hur kan sökningar utformas på ett effektivt sätt utan att förminska reliabilitet och validitet?

• Vilken information (X

_i

) kan användas för att förutse utfallet för varje Mål

_i

?

Det finns inget kort svar på dessa frågor eftersom de är tätt knutna till juridiska frågeställningar. Av utrymmesskäl begränsas därför diskussionen till mycket kortfattade argument för den insamlingsmetod som till slut valdes.

Först och främst, att det skulle vara just ett mål som skulle vara det som är intressant att modellera är inte självklart. I 14 kap § 1 RB står att då någon väcker “...flera käromål mot samme svarande, skola de handläggas i en rättegång, om de stödja sig på väsentligen samma grund.”

Med andra ord kan en stämningsansökan leda till flera mål och flera yr- kanden kan finnas i ett och samma mål. Definitionen av målbegreppet har i stort lämnats till tingsrätterna att bedöma

³

men eftersom tingsrätter använ- der samma målhanteringssystem VERA antas här att sammanslagning/upp- delning av mål sker på ett likartat sätt.

⁴

Datamaterialet tillåter prövandet av sådana frågor, men det faller utanför ramen för denna uppsats.

Vilka utfall som ett mål kan sluta med för målkategorin ’10/99 Övriga Tvistemål’ visas i tabell 1.1. Teoretiskt kan det finnas ytterligare utfallskate- gorier. Vilka dessa var och hur data för dessa skulle samlas in klarnade först

3

Domstolsverket, Domstolsverkets handböcker, Tvistemål , Kap.2.

4