Kvantitativ Modellering av
förmögenhetsrättsliga dispositiva tvistemål Kandidatuppsats i statistik 2014
Egil Martinsson
Handledare: Rolf Larsson Institutionen för statistik
Uppsala Universitet
Sammanfattning
I den här uppsatsen beskrivs en ansats till att med hjälp av statis- tiska metoder förutse utfallet i förmögenhetsrättsliga dispositiva tvis- temål, en typ av mål som bland annat innefattar fordrings- och uto- mobligatoriska skadeståndsmål.
Det har sedan länge funnits ett stort teoretiskt intresse för om det går att automatisera juridik, och i Sverige finns det fantastiska möjligheter för att utvinna rättsinformation. Ändå är svensk empirisk forskning på mål vid domstolar i allmänhet och tvistemål i synnerhet nästintill obefintlig.
Syftet med denna uppsats var därför att i en pilotstudie se om det var möjligt att med hjälp av observationer från tidigare mål förutse utfallet i nya.
Tvistemålsprocessen modellerades som en diskret slumpvariabel och dess utfallskategorier ordnades i tre grupper av stegvis uteslutande utfallsalternativ. Registerdata för 14821 avslutade tvistemål samlades in från åtta tingsrätter under Svea Hovrätt. Två binära och en multi- nomial regressionsmodell tränades på sammanlagt 13299 observationer från fem tingsrätter för att skatta betingade sannolikheter för utfallet i varje steg.
Modellerna testades genom att förutse utfallen för 1522 observatio- ner i övriga tre tingsrätter. Modellerna var felkalibrerade och misslyc- kades med att ge förväntningsriktiga sannolikhetsskattningar (Hosmer
& Lemeshew-test, p < 0.00) men kunde identifiera rätt utfallskatego- ri (AU C- och M
AU C-statistika > 0.5) och gav alla signifikant bättre pricksäkerhet (ACC = 0.63, 0.59 och 0.517) än en slumpmässig gissning då de användes för diskret klassificering (p < 0.00). Bäst åtskillnad gjordes mellan bifallna och ogillade mål.
Slutsatsen är att modellerna kunde identifiera och förutse tviste-
målens utfall bättre än slumpen.
Innehåll
1 Inledning 5
1.1 Syfte & Frågeställning . . . . 6
1.2 Tidigare forskning . . . . 7
1.3 Dispositiva tvistemål . . . . 9
1.4 Logistiska regressionsmodeller . . . . 11
1.5 Statistiska mått för modellprestation . . . . 13
1.5.1 Mått för diskret klassificering . . . . 13
1.5.2 ROC-Kurvor . . . . 16
1.5.3 Inferens för modellens prediktionsförmåga . . . . 20
2 Material & metod 25 2.1 Datainsamling . . . . 25
2.1.1 Rensning av insamlad data . . . . 30
2.2 Modellspecifikation . . . . 33
2.2.1 Val av statistisk klassificeringsmetod . . . . 35
2.3 Valideringsmetod . . . . 37
3 Resultat 38 3.1 Deskriptiv statistik . . . . 38
3.2 Modellskattning . . . . 41
3.2.1 Modellpassning för Okänt och Stadfäst Förlikning . . . 42
3.2.2 Val av multinomial modell . . . . 45
3.3 Validering . . . . 46
3.3.1 Kan modellen skatta utfallssannolikheter? . . . . 47
3.3.2 Kan modellerna skilja mellan utfallsalternativ? . . . . . 48
3.3.3 Kan modellen gissa på rätt utfall? . . . . 50
4 Sammanfattande diskussion 52
5 Appendix 55
Figurer
1.1 En möjlig indelning av rättsordningen. . . . 9
1.2 Klassificeringsmatris, 2 klasser . . . . 14
1.3 Klassificeringsmatris för K klasser . . . . 15
2.1 Samplingsrymd för tingsrätter . . . . 25
2.2 Potentiell organisering av utfallskategorier . . . . 34
2.3 Vald organisering av utfallskategorier . . . . 35
3.1 Variabeln omloppstid fördelat per utfall. . . . 40
3.2 Skattade sannolikheter för binära modeller, träningsdata . . . 43
3.3 ROC-graf för träningsdata, d
1och d
2. . . . 44
3.4 Multi-ROC för träningsdata, d
3. . . . 46
3.5 Skattade sannolikheter mot omloppstid, valideringsdata . . . . 47
3.6 ROC-graf för valideringsdata, d
1och d
2. . . . 49
3.7 Multi-ROC för valideringsdata, d
3. . . . . 50
5.1 Visualisering av vistemålsprocessen, Processgraf . . . . 61
Tabeller
1.1 Referensapparat för benämningar av utfall . . . . 10
2.1 Fördelningen av utfall per tingsrätt . . . . 27
2.2 Hur registerdata transformerades till variabler . . . . 31
2.3 Transformering av ’partställning’ . . . . 32
3.1 Deskriptiv statistik, kovariansmönster . . . . 39
3.2 Deskriptiv statistik för tvistemålens omloppstid . . . . 39
3.3 Prevalens för respektive utfallsalternativ. . . . 47
5.1 Exempel på transformerad data. Målnummer är maskerade. . 55
5.2 Exempel på rå registerdata. Vissa uppgifter är maskerade. . . 57
5.3 Binära logistiska regressionsmodeller, träningsdata . . . . 58
5.4 Multinomiala logistiska regressionsmodeller, träningsdata . . . 59
5.5 Resultat av validering . . . . 60
Kapitel 1 Inledning
Sveriges domstolar avgör hundratusentals mål varje år. Rättsprocessen är en aktivitet som är både standardiserad och väldokumenterad och den informa- tion som genereras är mestadels både digitaliserad, offentlig och lättillgänglig.
Med detta i åtanke hade man kunnat vänta sig att juridiken gett upphov till ett stort empiriskt forskningsområde och att konsultbyråer konkurrerade om att förse beslutsfattare med statistik och datadrivna modeller för att beskri- va hur rättsprocessen ser ut i realiteten. I verkligheten lyser det empiriska, datadrivna och därmed statistiska perspektivet på juridiken med sin från- varo. Med få undantag tycks den svenska rättsvetenskapen fortfarande vara begränsad till en forskningstradition vars huvudsakliga metoder är filosofiska resonemang och anekdotiska beskrivningar av praxis.
I denna uppsats är en bakomliggande tes att rättsprocessen är som vil- ken annan komplex process som helst vilken kan modelleras med hjälp av vanliga vetenskapliga metoder. Inom akademin tycks det däremot finnas ett motstånd mot denna tanke, vilket kanske bäst illustreras med ett citat från en mejlkonversation mellan mig och en känd juridikprofessor:
“Du söker, tror jag, efter någonting som inte finns - och som, inom parentes sagt, inte borde kunna finnas, eftersom juridiken inte är sådan, utan en konst, som inte kan fångas i flödesscheman, och som, om man ska vara ärlig, alldeles ligger utom räckvidd för lekmannen.”
I andra länder ser det annorlunda ut. Särskilt i USA finns det en äldre
tradition av samröre med empiriska vetenskaper och juridiken. Här finns stora
journaler som ‘Jurimetrics: The Journal of Law, Science, and Technology’ och
från näringslivet kan google-anknytna satsningen ‘Lex Machina’ nämnas, ett
företag som ägnar sig åt datadriven juridisk analys. I Sverige finns visserligen
viss jurimetrik i form av rättstatistik, men denna täcker nästan uteslutande brottmål. Det finns med andra ord en enorm gråzon av information som kan förädlas till statistik och användas för att förstå rättsprocessen. Denna uppsats fokuserar på en stor kategori av mål som ligger utanför den officiella statistiken, förmögenhetsrättsliga dispositiva tvistemål.
Domstolarnas informationssystem
Offentlighetsprincipen Gråzonen
Officiell rättsstatistik
Dokumentation av domstolarnas verksamhet
Typiskt här är att parterna tvistar om ekonomiska frågor och att de har möjligheten att förlikas eller att lägga ner målet. När processen ligger i parternas händer på detta sätt kan man tänka sig att det vore av särskilt intresse för dem att få någon slags bred uppfattning om vilken utgång som kan väntas av tvisten.
I brist på total information är det nära till att tolka rättsprocessen som en slumpmässig process och ett mål som en slumpvariabel. En ytterligare praktisk förenkling är att tolka dess utfall som diskret. Då mer information om målet tillförs borde man kunna tillskriva en ny sannolikhet för respektive utfall. Denna tanke är mycket gammal men i praktiken outforskad i en svensk kontext. Tanken med denna uppsats är att göra en pilotstudie där man med enkla metoder överger filosofiska resonemang kring möjligheten att modellera en juridisk process och faktiskt testar att göra det.
1.1 Syfte & Frågeställning
Syftet med studien är att se om det är möjligt att förutse utfallet i förmö- genhetsrättsliga dispositiva tvistemål med hjälp av en statistisk modell. Av praktiska skäl, mer beskrivna i detalj i kapitel 2, grupperas utfallen i tviste- mål för att separat försöka:
11
Dessa utfallsalternativ benämns senare som d
1, d
2respektive d
3. Se avsnitt 2.2
1. Förutse om mål avgörs på annat sätt än genom stadfäst förlikning eller i rättegång.
2. Förutse om mål avslutas med stadfäst förlikning eller görs upp i rätte- gång
3. Förutse utfallet i rättegång
Detta undersöks genom att, för respektive utfallsalternativ besvara:
• Kan modellen skatta utfallssannolikheter?
• Kan modellen skilja mellan utfallsalternativ?
• Kan modellen gissa på rätt utfall?
Tvistemålsprocessen behandlas som en slumpmässig process. Avgräns- ningen görs till att undersöka mål för tingsrätter under Svea Hovrätt för undersökningsperioden 2009-2013. Tvistemålen som undersöks är de som i tingsrätternas databaser loggas under kategorin ’Övriga Tvistemål’, vilket inte omfattar förenklade tvistemål (’småmål’).
21.2 Tidigare forskning
Området som denna uppsats närmast faller inom kan kallas kvantitativ le- galprediktion. Teoretiskt grundar sig detta i tankar om juridiken som au- tomatiserbar. Denna fråga har fått stor teoretisk uppmärksamhet i Sverige, med ledande figurer från ’Uppsala School of legal thinking’ som Axel Häger- ström (1986-1939), Vilhelm Lundstedt (1882-1955) Karl Olivecrona (1987- 1980).
3En framstående svensk samtida forskare på artificiell intelligens och IT är Peter Wahlgren, verksam vid Stockholms Universitet. I en internatio- nell kontext var det främst på 60 talet som man på allvar började försöka applicera matematisk logik, behaviouristisk analys, sannolikhetsteori, sta- tistik och kommunikations- och informationsteori på rättsvetenskapen.
4Här kan Joseph Raz nämnas som började anlägga ett systemperspektiv på lagen samt Torstein Eckhoss och Nils Kristian Sundby som publicerade en teori där lagen presenterades som ett öppet dynamiskt system.
5Till dags dato
2
Vilket i databasen kallas Målkategori 10/99
3
Wahlgren, Automation of legal reasoning: a study on artificial intelligence and law , s.71-.
4
Ibid., s.126.
5
Ibid., s.70.
framträder tre huvudsakliga perspektiv på automatisering av juridik: ‘rule based models’, ‘inductive case based models’ och ’associative models’.
6En- ligt det första försöker man översätta rättsregler helt algoritmiskt. Det andra är en tillämpning av expertsystem där juridisk argumentation försöker ef- terliknas baserat på tidigare fall. Den tredje försöker inte efterlikna juridisk argumentation utan förlitar sig helt på observationer av utgången i tidigare fall. Ansatsen i denna uppsats faller kanske närmast inom den senare. Det bör dock nämnas att á priori specifikationen av modellen följer en struktur härledd från en regelbaserad systematisk tolkning av civilprocessen varför associationen (modellträningen) inte är oberoende av en viss tolkning av rättsreglerna.
Institutet för Rättsinformatik, Stockholms Universitet, står i Sverige ut bland de som anlägger ett, om än främst teoretiskt, mer teknologiskt per- spektiv på juridiken. Bland akademiska institutioner som i viss mån studerar juridiska frågor med empiriska metoder kan rättssociologiska institutionen i Lund nämnas. Den närmaste forskningen som har kunnat finnas som utnytt- jat mer systematiskt empiriska perspektiv på svenska dispositiva tvistemål är Mårten Schultz (Stockholms Universitet) forskning kring skadestånd och förtal. En av de få svenska probabilistiska tillämpningarna på juridik kan tillskrivas Staffan Malmgren (skaparen av Lagen.nu med mera), som i sin masteruppsats implementerar informationsextraheringsalgoritmer för att au- tomatiskt finna finna likheter mellan rättsfall.
7Här låg däremot fokus på klassificering av dokument och text snarare än kvantifiering och prediktion.
När det kommer till produktionen av rättsstatistik är brottsförebyggan- de rådet (BRÅ) centralt, som varje år sammanställer statistik över antalet domar utslaget per brottstyp. Tack vare BRÅ rapporteras relativt detalje- rad statistik för brottmålen. Motsvarande rättsstatistik publiceras dock inte för övriga rättsområden. Här är det domstolsverket som sköter statistikpro- duktionen. På domstolsverket finns antagligen internt stora möjligheter att producera mer detaljerad statistik då de har tillgång till system som SIV (statistik i verksamheten), vilken kan användas för att analysera data från tingsrätternas informationssystem VERA. Den publicerade, officiella statisti- ken är däremot minimal. Tvistemål rapporteras exempelvis enbart utslaget på fyra kategorier helt utan att beskriva utgången i målen. Signifikansen i detta kanske bäst illustreras med att år 2012 avgjordes 90 732 brottmål och 86 517 tvistemål i svenska tingsrätter.
8Med andra ord täcker den officiella statistiken enbart en bråkdel av svensk rättskipning, och ingen kan därför
6
Wahlgren, Automation of legal reasoning: a study on artificial intelligence and law , s.257-319.
7
Malmgren, ”Towards a theory of jurisprudential relevance ranking”.
8
Domstolsverket, Court statistics 2012 Official statistics of Sweden.
besvara de mest basala frågorna kring hur olika tvistemål tenderar att slu- ta. Detta bör jämföras med Finland, vars statistiska centralbyrå publicerar detaljerad statistik över utfallen i civilmål.
91.3 Dispositiva tvistemål
Juridiska frågor låter sig ogärna förenklas. Syftet här är att ge en, av utrym- messkäl, mycket förenklad icke-juridisk beskrivning av studieobjektet.
Ett mål i denna uppsats är en process där någon väckt talan och tagit en problematisk fråga till en tingsrätt för att avgöras. Ett tvistemål är en civil process mellan två personer (parterna) vilka kan vara juridiska personer (exempelvis företag) eller fysiska personer (människor). Dispositiva tvistemål är civilprocesser där parterna kan komma överens om att tvistefrågan (saken) avgörs genom förlikning. Förlikningen kan sedan fastställas i en dom.
Ett dispositivt tvistemål inleds med att en person (käranden) lämnar in en stämningsansökan till en tingsrätt där han pekar ut vad han vill (saken), varför (grunderna) och vem han vill skall prestera något (svaranden).
10Att det är ett så kallat dispositivt tvistemål avgörs baserat på vad saken gäller.
11Civilrätt
Familjerätt Förmögenhetsrätt
Offentlig Rätt
statsrätt straffrätt förvaltningsrätt processrätt
civilprocess straffprocess förvaltningsprocess
indispositiv dispositiv
Sakrätt
Allmän Speciell
Obligationsrätt
Skadeståndsrätt Avtalsrätt
Allmän Speciell
Figur 1.1: En möjlig indelning av rättsordningen.
Det är svårt att sätta de problem som dispositiva tvistemål behandlar i en otvetydig rättslig kontext. Ett vanligt sätt att indela rättsordningen ges
9
FOS, Tingsrätternas avgöranden i civilmål .
10
42 kap Rättegångsbalken
11
1 kap 3d §, 33 kap, 5 § 2st, 6 § mfl Rättegångsbalken samt Domstolsverket, Domstols-
verkets handböcker, Tvistemål , Kap.5
i figur 1.1. När man talar om rättsreglers innehåll gör man vanligtvis indel- ningen civilrätt och offentlig rätt. Huvudgrenar inom den offentliga rätten är konstitutionell rätt (statsrätt), straffrätt, processrätten och förvaltnings- rätten.
12Man kan säga att dispositiva civilprocessens rättsområde definierar hur tvistemålsförfarandet bör se ut och civilrätten ger innehåll till dess ma- teriella prövning. De dispositiva tvistemålsprocesser som observerats i denna uppsats ser uteslutande ut att vara frågor som regleras i förmögenhetsrätten.
Motsatsen gäller dock inte, alla förmögenhetsrättsliga dispositiva tvistemål vid de undersökta tingsrätterna faller inte inom den undersökningsram som denna uppsats använder sig av.
Dispositiva tvistemål kan grovt sagt avlutas med att de avvisas eller av- skrivs, med en tredskodom, genom förlikning eller genom att tingsrätten får ta ställning i sakfrågan i rättegång. Om parterna förlikas kan överens- kommelsen stadfästas genom dom, annars avskrivs målet. I domstolarnas databaser loggas dessa utfall efter sina så kallade avgörandetyper ’Slutliga Beslut’, ’Tredskodom’ och ’Dom’. Dessa avgörandetyper är vidare kategorise- rade efter utgångstyp. I tabell 1.1 beskrivs de utifrån den organisering som de förekommer i databaserna. Den högra kolumnen innehåller de förkortningar som används när vi definierar utfallet U för ett mål.
Avgörandetyp/-Utgång Förkortning Slutligt Beslut U = 1 :
-avvisat U = 1 : 1
-avskrivet U = 1 : 2
Tredskodom U = 2 :
-mot svarande U = 2 : 1
-mot kärande U = 2 : 2
Dom U = 3 :
-käromålet delvis bifallet U = 3 : 1 -käromålet helt bifallet U = 3 : 2 -käromålet ogillat U = 3 : 3
-Övrigt U = 3 : 4
-Stadfäst förlikning U = 3 : 5
Tabell 1.1: Referensapparat för avgörandetyper och dess associerade typer av utgång
Högerspaltens förkortningar överensstämmer med de förkortningar som används i figur 5.1. Vanligt när man talar om tvistemålsprocessen är att sär- skilja mellan två faser, förberedelsen och huvudförhandlingen. Enligt en sådan
12
Andersson och Strömholm, Svensk rätt: en översikt , p. 19.
uppdelning är det främst under den så kallade förberedelsen som målet kan avgörs genom att det avskrivs, avvisas, att tredskodom faller eller att par- terna når en förlikning. Under huvudförhandlingen, ’rättegången’, sakprövas frågan och tingsrätten dömer i målet.
13För att kunna modellera den juridiska processen studerades den ur ett systemperspektiv. En mer detaljerad men allt annat än uttömmande beskriv- ning av den dispositiva tvistemålsprocessen och de möjliga besluten som kan avsluta ett sådant mål, hur de uppkommer och beslutens inbördes relationer relevanta för denna uppsats visualiseras med referenser till rättskällor i en processgraf i appendix.
1.4 Logistiska regressionsmodeller
Låt Y
i|X
ivara en multinomial slumpmässig variabel som kan anta värden benämnda 1 . . . K med sannolikheten Pr(Y = j|X
i) för j = 1, . . . , K där X
iär en vektor av p kända konstanter. Om sambandet mellan konstanterna X
ioch den logaritmerade oddskvoten mellan varje kategori mot utfall K är linjärt kan vi skriva ln
Pr(YPr(Yi=j|Xi)i=K|Xi)
= β
j· X
idär β
jär en vektor av p parametrar. Detta kan visas vara ekvivalent med sannolikheten för respektive kategoriskt utfall vilket visas i ekvation 1.1.
14Pr(Y
i= 1) = e
β1·Xi1 + P
K−1j=1
e
βj·Xi.. .
Pr(Y
i= K − 1) = e
βK−1·Xi1 + P
K−1j=1
e
βj·XiPr(Y
i= K) = 1 1 + P
K−1j=1
e
βj·Xi(1.1)
Här tolkas lämpligen β
j,z∆ som ökningen i logodds för j mot utfall K vid förändringen ∆ av X
i,z.
15När vi skattar denna modell och K = 2 benämns modellen vanligtvis som en ’binär logistisk regressionsmodell’ eller kort ’Logit’. När K > 2 är den engelska benämningen ’Multinomial baseline logistic regression’ eller ’Multi- logit’. Den första benämningen följer av att sannolikheten för utfall Y = j (då
13
Domstolsverket, Domstolsverkets handböcker, Tvistemål , Kap.5.
14
Agresti, Categorical Data Analysis, s. 165-277.
15
Ibid.
j 6= K) ställs mot ’basfallet’ K. I denna uppsats kommer de att benämnas
’Binära Logistiska-’ respektive ’Multilogistiska-’ regressionsmodeller.
Vid skattning av modellens parametrar β
kanvänder man sig av n obser- vationer av Y
ioch konstanterna X
iför varje observation i. För observerade värden av {Y
i, X
i} används här notationen {l
i, X
i}, där ’l’ står för ’label’. Låt därmed L = hl
1, . . . , l
ni
Trepresenterar n observationer av en kategorisk vari- abel där l
iär observation i’s klass. Logistiska regressionsmodeller producerar
’scores’ med explicita tolkningar i form av den skattade relativa sannolikhe- ten för klasstillhörigheten för varje klass. Här representeras denna skattning för observation i som ˆ P
i= hˆ p
i,1, . . . , ˆ p
i,Ki. Dessa värden kan givetvis tolkas utan att tillskriva dem denna mening, och den skattade regressionsmodellen reduceras då till en linjär diskriminantfunktion.
16För inferens kring logistiska regressionsmodeller antas slumpmässigt ut- valda observationer och att logoddsen är en linjär kombination av linjärt obe- roende variabler. Lämpligheten med multilogistisk regression för att skatta sannolikheter är givetvis avhängig att den stokastiska process man observerat följer en multinomialfördelning med parametrar som följer strukturen i ekva- tion 1.1. En egenskap hos multinomialfördelningen är att man kan reducera modellen till separata binomialfördelningar för två kategorier eftersom vi an- tar att de kategoriska utfallen är oberoende. Då man modellerar beslut och det finns flera alternativ (K > 2) kallas antagandet vanligtvis ’antagandet om oberoendet från irrelevanta alternativ’ (IIA)
17. Multilogistisk regressions IIA-antagande översätts empiriskt till brist på korrelation mellan oobserve- rade faktorer.
18Om vi låter C vara en mängd av möjliga utfall benämnda 1, . . . , K för slumpvariabeln så at Y
i|X
i∈ C och n
jantalet observerade utall av klass j motsvarar en multilogistisk regressionsmodell med basklassen K resulta- ten av K − 1 binära regressionsmodeller vardera tränade (skattade) på ett reducerat dataset där regressionsmodell för klass j är tränad på n
j+ n
Kobservationer av antagna värden av kategorierna ˜ C
j= {j, K, j 6= K}. Varje sådan regressionsmodell kan även uttryckas som en binär regressionsmodell passad betingat på klassificering i en av de två kategorierna. C kan även par- titioneras på andra sätt om det är lämpligare för undersökningsfrågan eller den stokastiska process som genererat observationerna.
19Låter man exem- pelvis passa separata binära modeller för klassificering i varje klass, så att C → ˜ C
j= {j, {2, . . . , K}} för varje j, förlorar man information och besvarar
16
Hastie, Tibshirani och Friedman, The elements of statistical learning: data mining, inference and prediction.
17
Engelsk översättning: Independence of irrelevant alternatives
18
Agresti, Categorical Data Analysis.
19
Ibid.
delvis en annan undersökningsfråga men undviker kravet på IIA.
2021I denna uppsats används regressionsmodeller för att diskriminera på en förutbestämd hierarkisk partitionering av utfallsrummet C med förgreningar i två och flera utfallsalternativ varför en kombination av enkel logistisk och multilogistisk regression används.
1.5 Statistiska mått för modellprestation
En modell som används för att förutse ett kategoriskt utfall kan bedömas på ett antal sätt. Vanligt inom statistiska analyser är att residualer utnytt- jas för att uttala sig om en specifik modells lämplighet. Sådana metoder är viktiga då det är modellens parametrar och därmed underliggande samband eller resulterande sannolikhetsskattningar som är av största intresse. Sådana metoder är ofta modellspecifika vilket medför att de är invecklade och kräver stor förståelse för den specifika modellen för att överhuvudtaget tolka dess resultat och antaganden. Kort sagt ger de komplicerade svar på komplicerade frågor.
Då en modell skall användas för att fatta beslut anses det här som mer relevant att besvara de frågor en icke-statistiker kan tänkas ställa. Eftersom modelleringen är tänkt att reducera en komplex juridisk process till lättbe- gripliga numeriska värden finns det ingen mening med att gå från juridisk komplexitet till statistisk komplexitet. Därför används genomgående mer in- tuitiva begrepp från vetenskaper som operationsanalys och maskinlärning snarare än statistisk jargong, och fokus ligger på mer praktiska frågor kring modellers prediktionsförmåga än rigorösa modellspecifika valideringsmeto- der.
För att undersöka hur väl modellerna lämpar sig för att skatta sanno- likheter används Hosmer & Lemeshew’s test och statistika (avsnitt 1.5.2).
För att se om modellerna över huvud taget kan på förhand skilja mål emel- lan efter dess utfall används ROC-analys (avsnitt 1.5.2). För frågan hur ofta modellerna gissar ’rätt’ används mått för diskret klassificering, definierade i 1.5.1. Metoder för inferens kring dessa mått ges i avsnitt 1.5.3.
1.5.1 Mått för diskret klassificering
Låt L = hl
1, . . . , l
ni
Trepresentera n observationer av en kategorisk variabel där l
iär observation i’s klass.
20
Agresti, Categorical Data Analysis.
21
Hosmer och Lemeshow, Applied Logistic Regression.
Multilogistisk regression skattar den relativa sannolikheten för klasstill- hörigheten för varje klass. Om vi representerar denna skattning för obser- vation i som ˆ P
i= hˆ p
i,1, . . . , ˆ p
i,Ki är ett naturligt val av klassificering ˆ l
i= arg max
k∈1...K(ˆ p
i,k) vilket innebär att vi låter observationens skattade klass vara den klassen med högst tillskrivet värde.
Binär logistisk regression ger en skattning (ˆ p
i) av sannolikheten för klasstill- hörighet till den positiva klassen för observation i. Här blir valet av klassifi- ceringsmetod friare. Genom att sätta ett visst tröskelvärde
22som detta värde måste överstiga kan vi översätta den kontinuerliga skattningen till en kate- gorisk klasskattning ˆ l
i. Tröskelvärde kan väljas efter att väga kostnaden för klassificeringsfel i den positiva respektive den negativa klassen, vilket beskrivs utförligt i avsnitt 1.5.2.
23Vid logistisk regression överensstämmer alltså varje tröskelvärde med en specifik klassificering medan multilogistisk regression enligt ovanstående me- tod ger precis en klassificering för observationerna oberoende av något fixerat tröskelvärde. Om ˆ L = hˆ l
1, . . . , ˆ l
ni
Tär de skattade klasserna kan en klassifice- ring sammanfattas som de parvisa observationerna i hL, ˆ Li.
Klassificeringsmatris
Resultatet vid klassificeringen sammanställs lämpligast genom att korstabu- lera observerade (L) och skattade (ˆ L) utfallsklasser. Tabellen som då skapas benämns som en klassificeringsmatris
24.
Vid binär klassificering finns en väl utvecklad begreppsapparat för att beskriva klassificeringsmatrisen. Centrala begrepp sammanställs i figur 1.2.
True Negative N
N
False Positive
P Klassificeringsfel
FP
TN+FP
= 1 − Specificitet
False Negative
P True
Positive
FN
FN+TP
= 1 − Sensitivitet
Faktisk (l)
Prediktion (ˆ l)
Figur 1.2: Klassificeringsmatris, 2 klasser.
2522
Engelsk översättning: treshold eller cutoff
23
Fawcett, ”An introduction to ROC analysis”.
24
Engelska:Confusion Matrix
Utfallet kan vara negativt (N ) eller positivt (P ) och T N - True Negative - är därmed antalet korrekt klassificerade observationer då den sanna klassen är negativ. Med F P - False Positive - menas antalet negativa observationer som felaktigt klassificerats som positiva. Andelen korrekt klassificerade nega- tiva observationer benämns specificitet. För de observationer som är positiva representerar T P - True Positive - antalet korrekt klassificerade positiva observationer och F N - False Negative - antalet positiva observationer som felaktigt klassificerats som negativa. Av de positiva observationerna benämns andelen korrekt klassificerade som Sensitivitet.
26I en statistisk kontext motsvarar F P antalet T yp I-fel och F N anta- let T yp II-fel. Sensitivitet är en skattning av den marginella sannolikheten Pr(ˆ l = P |Y = P ) och Specificitet Pr(ˆ l = N |Y = N ).
2728.
Den generaliserade klassificeringsmatrisen för flera klasser visas i tabell 1.5.1. Om vi kallar matrisen för M motsvarar M
i,j/n = ˆ P r(Y = i, ˆ l = j). Då det finns K > 2 klasser kan varje felklassificering ske på K − 1 sätt varför det inte finns någon direkt motsvarighet till Sensitivitet, Specif icitet, T N , F P , F N eller T P . De mått som används definieras därför här. Målet här är att kunna jämföra binär och multipel klassificering då en eller ett par utfall är av intresse vilket motsvarar en uppdelning i binära klassificerinsmatriser.
Två övergripande strategier återkommer vid statistisk klassificering för att beskriva hur kategorier jämförs. En mot alla- och Alla mot alla. I den första slås alla kategorier ihop och jämförs mot en, i den andra jämförs var- je kategori parvis. För att definiera analoga mått till binär Specificitet och Sensitivitet används begränsas av utrymmesskäl här analysen till respekti- ve klass positiva klassificeringsfel definierat genom en en mot alla-strategi.
1
1 2
. . . K
2 . . .
... ... . . . ...
K . . .
Prediktion (ˆ l)
Faktisk(l)
Figur 1.3: Klassificeringsmatris för K klasser
Här analyseras matrisen i termer av K vanliga 2 × 2 klassificeringsma- triser genom att slå ihop rader för varje klass enligt följande. Antalet korrekt klassificerade observationer- na för kategori j blir här T P
j= M
j,joch falska positiv blir övriga obser- vationer i rad j. Det positiva klassifi- ceringsfelet j definieras därmed som andelen utanför diagonalen för ko- lumn j enligt ekvation 1.2.
26
Fawcett, ”An introduction to ROC analysis”.
27
Om man antar heltäckande eller slumpmässigt stickprov
28
Mason och Graham, ”Areas beneath the relative operating characteristics (roc) and
relative operating levels (rol) curves: Statistical significance and interpretation”.
1 − Sensitivitet
j= F N
jF N
j+ T P
j=
P
Kk6=j
M
k,jP
Kk6=j
M
k,j+ M
j,j(1.2) Eftersom detta mått enbart består av element från kolumn j ger samtliga K sensitiviteter tillsammans en heltäckande och icke-överlappande beskriv- ning av klassificeringsmatrisen där Sensitivitet
jär oberoende av prevalensen för kategori j.
29Fördelen med att reducera klassificeringen till en serie en mot alla-klassificeringar är att det är mycket intuitivt och ger prevalensoberoende skattningar av det
positiva klassificeringsfelet. Man analyserar däremot matrisen i termer av K binära klassificeringar och tar därför inte hänsyn till vilken kategori som felaktigt förutsågs vilket är ett problem om olika fel har olika kostnad.
30Ex- empelvis vore det antagligen värre med en modell som felaktigt förutser att ett mål blir bifallet om målet ogillas än om målet i verkligheten blev delvis bifallet.
I verkligheten finns det ett stort antal mått för att analysera klassifi- ceringsmatriser där den mest välutvecklade terminologin rör binär klassifice- ring. De få som nämnts hittils är andelen korrekt klassificerade för respektive klass (Sensitivitet och Specificitet eller Sensitivitet
jför multiklassproblem), vilka är mått som valts på grund av dess oberoende av klassprevalens och generaliserbarhet till multiklassproblem.
Slutligen definieras här träffsäkerheten (Accuracy, ACC) som den totala andelen korrekt klassificerad observationer det vill säga andelen som faller på diagonalen i klassificeringsmatrisen. Ett problematiskt mått då det är mycket beroende av relativ klassprevalens. Fördelen är att det har samma betydelse för binära- och multiklassproblem och måttet är mycket allmänt känt och är lätt att ta till sig. Inferens kring detta mått diskuteras mer i avsnitt 1.5.3.
1.5.2 ROC-Kurvor
ROC står för Receiver Operating Characteristic och är en presentation av avvägningen mellan Sensitivitet och Specificitet vid samtliga tröskelvärden.
Jämför med en (binär) klassificeringsmatris som representerar resultatet av en klassificering vid ett tröskelvärde. Genom att parametrisera sensitivitet och specificitet på tröskelvärdet t ger ekvation 1.3 punkten i ROC-kurvan för tröskelvärdet t.
ROC(t) = {Sensitivitet(t), 1 − Specif icitet(t)} (1.3)
29
En modell tillskriver antagligen högre priorisannolikhet för mer prevalenta klasser, med oberoende menas här relativt oberoende från verklig klassprevalens
30
Fawcett, ”An introduction to ROC analysis”.
Hela kurvan fås genom att variera t över intervallet [0, 1], se exempelvis figur 3.3 och figur 3.6.
31Grafiskt representerar linjen över diagonalen prestandan för en modell som helt slumpmässigt kategoriserar observationerna. Desto längre ROC- kurvan rör sig upp mot vänstra hörnet desto bättre är modellen.
32ROC-kurvan är precis som de klassificeringsfel den representerar invariant av andelen negativa (’0’) respektive positiva (’1’) observationer (klasspreva- lensen). Det är inte heller beroende av att modellens skattade värden har en explicit sannolikhetstolkning. Det har därför blivit ett centralt verktyg för analys av klassificeringsmodeller.
33Eftersom ROC är en funktion av tröskelvärdet följer att generalisering- en till flera dimensioner är problematisk. Som beskrivits i tidigare avsnitt ger multilogistisk regression exakt en klassificeringsmatris då man för varje observation antar att den sanna klassen är den som har högst skattad san- nolikhet, ˆ l
i= arg max
k∈1...K(ˆ p
i,k). Det finns dock två generella metoder som utnyttjar information från alla K skattade sannolikheter för varje observa- tion.
Den första använder en mot alla-metoden och använder de skattade san- nolikheterna för en klass mot de övriga i taget.
34Den andra utnyttjar alla mot alla-metoden och undersöker de
K2paren av klasser som går att forma. Om man tar ett sådant par, i och j så väljer man alla observationer vars sanna värden var i eller j. Båda dessa klasser har i sin tur var sin vektor av skattade sannolikheter. För ett givet trös- kelvärde kan man för klasserna i och j därmed få två klassificeringsmatriser och resulterande punkter till ROC-kurvan. Med andra ord genererar alla mot alla-metoden värden för 2 ·
K2olika ROC-kurvor.
35I allmänhet anses det stora antalet ROC-grafer medföra att separeringen mellan klasser är för komplex för att visualisera med alla-mot-alla metoden.
36Ett försök görs i figur 3.4 och 3.7. För varje par av utfall väljs de observatio- nerna som tillhörde någon av kategorierna, och ROC-kurvor plottas för de skattade sannolikheterna betingat på klassificering av någon av kategorierna vilket borde vara en intuitiv representation som samtidigt innebär minimal förlust av information.
31
Fawcett, ”An introduction to ROC analysis”.
32
Mason och Graham, ”Areas beneath the relative operating characteristics (roc) and relative operating levels (rol) curves: Statistical significance and interpretation”.
33
Fawcett, ”An introduction to ROC analysis”.
34
Ibid.
35
Fawcett, ”An introduction to ROC analysis”; Hand och Till, ”A simple generalisation of the area under the ROC curve for multiple class classification problems”.
36
Fawcett, ”An introduction to ROC analysis”.
Sammanfattningsvis ger ROC-kurvan vid binär klassificering en 2-dimensionell helhetsbild av klassificeringsmodellens prestation som är oberoende av pre- valens och ett visst tröskelvärde, med enda antagandet om att de skattade värdena mäts på ordinalskala. Med multipla klasser kan vi jämföra avvägning- en mellan specificitet och sensitivitet genom att analysera klassificeringen i termer av binära klassificeringar.
Area Under the Curve (AUC)
Ytan under ROC-grafen och den horisontella axeln Sensitivitet = 0 på in- tervallet Specif icitet ∈ [0, 1] kallas ’Ytan under kurvan’, förkortat AUC och kan sägas sammanfatta en modells prestation vid alla möjliga tröskelvärden.
Ett annat vanligt namn är C- eller ρ-Statistikan.
37En perfekt modell har ett observerat AUC på 1 och en modell som inte presterat bättre än slumpen har ett AUC på 0.5. Lägre värden än 0.5 innebär att modellen systematiskt felklassificerat.
38Vid klassificering av en binär variabel då modellen har skattat sannolik- heten ˆ p
i= ˆ P (l
i= P ) för index i = 1 . . . n och Ω
Prespektive Ω
När två mängder av index som pekar ut positiva respektive negativa observationer så att l
ωP= P och l
ωN= N där ω
Poch ω
När index vardera slumpmässigt dragna så att ω
P∈ Ω
Poch ω
N∈ Ω
N. Vi kan då beskriva AUC enligt ekvation 1.4.
39AU C
obs= Pr(ˆ p
ωP> ˆ p
ωN) (1.4) Med andra ord ger AU C
obsen skattning av sannolikheten för modellen att ge ett högre värde för en slumpmässigt vald positiv observation än till en slumpmässigt vald negativ observation.
40Metoden som används här för att beräkna AUC ges i ekvation 1.4.
41Låt n
0och n
1representera antalet negativa respektive positiva observationer.
Rangordna de skattade sannolikheterna i ˆ P från minsta till största värde
37
Hastie, Tibshirani och Friedman, The elements of statistical learning: data mining, inference and prediction.
38
Fawcett, ”An introduction to ROC analysis”.
39
Mason och Graham, ”Areas beneath the relative operating characteristics (roc) and relative operating levels (rol) curves: Statistical significance and interpretation”.
40
Hand och Till, ”A simple generalisation of the area under the ROC curve for multiple class classification problems”.
41
Rangsummemetoden är den vanligaste metoden som i sin tur kan skilja sig åt genom tieshantering. Vanligast, och använd i denna uppsats, är att ties tillskrivs ett medelvärde.
(Hand och Till, ”A simple generalisation of the area under the ROC curve for multiple class classification problems”; Macskassy och Provost, ”Confidence bands for ROC curves:
Methods and an empirical study”)
och summera rangerna för den positiva klassen till rangsumman S
1. Då ger ekvation 1.5 beräkningsformeln för observerad AUC.
42AU C
obs= S
1−
n1(n21+1)n
0· n
1= U
1n
0· n
1(1.5)
Som man ser är AU C
obstätt kopplat till Mann-Whitney U statistikan U
1.
43och därmed även ekvivalent med ρ-statistikan.
44Vid multiklassproblem finns ingen direkt motsvarande värde för AUC.
Det finns dock två frekvent citerade metoder som används för att bedöma en klassificeringsalgoritms prestanda. Den första presenterades av Provost och Domingos som benämner måttet som AU C
total. Man kan säga att det grundar sig i en en mot alla-strategi och är ett vägt medelvärde av AUC för varje klass j mot de övriga, här benämnt AU C
j. Måttet för hela modellen ges då nedan.
45AU C
total= AU C
en:alla= X
j∈ 1,...,K
AU C
j· ˆ p (j) (1.6) Här är ˆ p (j) den skattade sannolikheten för utfallet j. För att förstå inne- börden av AU C
j, låt Ω
jvara mängden index som pekar ut observationerna av klass j och ω
jen slumpmässigt dragit index därifrån så att ω
j∈ Ω
j. Med andra ord gäller det att l
ωj= j. Vidare är ˆ p
ωj,jnågon skattad sannolikhet för observation ω
jatt tillhöra klass j. Om vi på motsvarande sätt definierar Ω
Cjsom index för alla observationer som inte tillhörde klass j så att ω
Cj∈ Ω
Cjså har vi AU C
j= Pr (ˆ p
ωj> ˆ p
ωCj
).
Innebörden av AU C
en:allai 1.6 är lätt att visualisera och förstå som ett vägt medelvärde av K binära klassificeringar och används därför som ett deskriptivt mått i denna uppsats. Eftersom det är beroende av observerad prevalens gör det dock antaganden om kostnad för felklassificering. Hand &
Til föreslår därför en alla mot alla-metod där vad de kallar ’M’ beräknas.
46Metoden går ut på att para ihop klasser och var för sig beräkna AUC baserat på båda klassernas skattade sannolikheter och ta ett medelvärde av
42
Mason och Graham, ”Areas beneath the relative operating characteristics (roc) and relative operating levels (rol) curves: Statistical significance and interpretation”.
43
Mason och Graham, ”Areas beneath the relative operating characteristics (roc) and relative operating levels (rol) curves: Statistical significance and interpretation”; Hand och Till, ”A simple generalisation of the area under the ROC curve for multiple class classification problems”.
44
Hanley, McNeil m. fl., ”A method of comparing the areas under receiver operating characteristic curves derived from the same cases”.
45
Provost och Domingos, ”Tree induction for probability-based ranking”.
46
Fawcett, ”An introduction to ROC analysis”.
resultatet enligt ekvation 1.7.
47M = AU C
alla:alla= X
i, j ∈{1,...,K}
i<j
AU C
j,i+ AU C
i,jK(K − 1) = X
C={1,...,K}
(i,j)∈C×C i6=j
AU C
i,j2 ·
K2(1.7)
En tolkning av AU C
i,jär följande. Låt ˆ p
ωj,jvara någon skattad sanno- likhet för en observation ω
jatt tillhöra klass j där ω
j∈ Ω
joch ω
i∈ Ω
iväljs slumpmässigt definieras AU C
i,j= Pr (ˆ p
ωj,j> ˆ p
ωi,j).
M uppnår 1 då modellen ger relativt större världen och 0.5 då Måttet har fått stort genomslag och beskrivs av Hand & Till som det lämpligaste måttet på hur väl en modell separerar klasserna. Det huvudsakliga problemet med måttet anses vara dess komplexitet vilket försvårar både tolkning och visualisering.
48I figur 3.4 och 3.7 kan M
auc− 1/6 tolkas som medelvärdet av ytan som avgränsas av kurvorna.
Alla K
2möjliga AUC-värden för multiklassproblem presenteras i denna uppsats i en ’AUC-matris’ med de binära, alla mot alla-AU C
jvärdena på diagonalen och de parvisa AU C
i,jvärdena utanför diagonalen. Implemente- ringen kan ses i Appendix, kod 1.
1.5.3 Inferens för modellens prediktionsförmåga
Kalibrering; förmågan att skatta sannolikheten P r(Y = j|X)
Att en modell är kalibrerad innebär att de värden som den förutspår stämmer överens i magnitud med de (typer av) värden som den är tänkt att förutspå.
En modell med mycket god diskrimeringsförmåga kan alltså vara helt oka- librerad. Logistisk regression är tänkt att, efter transformation av logoddsen, producera sannolikheter. Frågan är därför om de skattade sannolikheterna kan användas direkt i termer av sannolikhetsskattningar.
49Ett vanligt test för att addressera denna fråga för logistisk regression och andra sannolikhetsskattande modeller är Hosmer & Lemeshew -testet som senare visats kunna generaliseras till multilogistisk regression.
5047
Hand och Till, ”A simple generalisation of the area under the ROC curve for multiple class classification problems”.
48
Fawcett, ”An introduction to ROC analysis”.
49
Hosmer och Lemeshow, Applied Logistic Regression.
50
Fagerland, Hosmer och Bofin, ”Multinomial goodness-of-fit tests for logistic regression
models”.
C ˆ
M=
G
X
g=1 K
X
k=1
O
g,k− ˆ E
g,k2E ˆ
g,k=
G
X
g=1 K
X
k=1
Z
g,k2∼ χ
2(G−2)·(K−1)(1.8)
O
g,k= X
i∈Ωg,k
Y
i,kE ˆ
g,k= X
i∈Ωg,k
ˆ
p
i,k≈ n G · ¯ p ˆ
g,kStatistikan ˆ C
Mberäknas enligt ekvation 1.8. Metoden går ut på att man för varje klass k rangordnar de skattade sannolikheterna och delar in dem i G grupper (kvantiler). Här är Ω
g,kden mängd av index för som pekar ut den g’te kvantilen av sannolikhetsskatningar för klass k.
51För varje sådan grupp g beräknas sedan det observerade antalet O
g,koch det förväntade antalet ˆ E
g,kenligt modellen (summan av de ≈ n/G skattade sannolikheterna för varje grupp).
52Genom simuleringar har ˆ C
Mvisats vara approximativt χ
2-fördelad med (G − 2) · (K − 1) frihetsgrader vid en passande modell då n är stort och andelen ties liten. Ett vanligt värde för G är 10. Under dessa förutsättningar motsvarar sannolikheten för ˆ C
Msannolikheten att modellen passar.
53Hur detta implementerats kan ses i Appendix, kod 1.
Mått för diskret klassificering
Om vi antar att G och U är oberoende kategoriska variabler som kan anta värdena 1, . . . , K där P r(G = j) = p
G,joch P r(U = j) = p
U,jså följer av oberoendet att Pr(G = j ∩ U = j) = p
G,j· p
U,j.
54Tolkningen här är l
isom det observerade slumpmässiga kategoriska ut- fallet av en dragen observation i och ˆ l
iden observerade (slumpmässiga) ka- tegoriska gissningen.
Nollhypotesen ‘oberoende mellan l
ioch ˆ l
i’ enligt ett vanligt motsvaran- de χ
2-test för oberoende mellan rader och kolumner innebär att varje ruta M
k,mi klassificeringsmatrisen M har ett observerat antal som överensstäm- mer med dess förväntade värde under marginalfördelningen så att n · Pr(l
i=
51
Partitionen av de skattade sannolikheterna är vagt formulerad av Hosmer och Lemes- hew som ’Ω
g’, detta är den tolkning som används vid implementeringen
52
Approximativt eftersom n inte nödvändigtvis är delbart med G och beroende på hur ties hanteras
53
Fagerland, Hosmer och Bofin, ”Multinomial goodness-of-fit tests for logistic regression models”.
54
Agresti, Categorical Data Analysis, Kap.1.
k ∩ ˆ l
i= m) ≈ M
i,j. Ett signifikant test säger därmed att modellen kunde skilja på klasser vid en klassificering. Eftersom χ
2-värdet inte förändras av permutationer av M säger det däremot ingenting om modellen skiljde dem åt på rätt sätt. Antagandet om förväntade frekvensers storlek är dessutom opraktiskt.
55Den observerade träffsäkerheten (ACC
obs) är andelen korrekt klassifice- rade observationer. Här motiveras hur binomialfördelningen används för in- ferens kring sannolikheten att modellen korrekt klassificerar en observation.
Klassificering motsvarar att gissa på ett utfall. Det är lätt att se att varje observation är antingen korrekt klassificerad eller inte, och ˆ l
i∩ l
iär därmed binär. Bortser vi helt från de förklarande variablerna X
isom skiljer sig åt mellan observationerna blir det lättare att tänka sig varje ˆ l
i∩ l
isom utfallet av ett identiskt binärt experiment och därmed ∼ Ber(ACC) där ACC är den okända sannolikheten för att observation i är korrekt klassificerad. Då varje experiment utförs på den data som modellen tränats på är observationerna uppenbart beroende sinsemellan. Vid n observationer från en annan popu- lation (valideringsdataset) antas här oberoende och resultatet av n sådana gissningar antas därmed vara binomialfördelat Bi(n, ACC).
Under antaganden blir Maximum-Likelihood skattningen av modellens pricksäkerhet därmed M LE(ACC) = ACC
obsoch vi kan vidare utnyttja binomialfördelningen för att skatta konfidensintervall.
56Frågan rör nu hypotesprövning. Om ett signifikant värde på ACC skall indikera en pricksäkerhet som skiljer sig från en slumpmässig (oberoende) gissning ˆ l
i∩ l
ibör nollhypotesen reflektera ett ACC från en optimal giss- ningsstrategi där ˆ l
ioch l
iär oberoende.
För att illustrera detta återgår vi till de oberoende variablerna G och U . Vi har G ∩ Y ∼ Ber(˜ p) där ˜ p = P r(G ∩ U ) = P
Kj=1
p
G,jp
U,joch resulta- tet av n simultana experiment är därmed binomialfördelat Bi(n, ˜ p). Fixera sannolikheterna p
U,1, . . . , p
U,Kför U och välj sannolikheterna p
G,1, . . . , p
G,Ksom maximerar ˜ p. Man kan visa att ˜ p ≤ max (p
U,1, . . . , p
U,K), där högerle- det motsvarar ett G som konstant ’gissar’ på det utfall av U som har högst sannolikhet. Att så är fallet då K = 2 är mer intuitivt.
Om vi antar att l
ioch ˆ l
iär oberoende och att n dragningar och giss- ningar sker med återläggning under identiska förhållanden är antalet kor- rekta gissningar därmed ∼ Bi(n, ACC). Frågan vid oberoende blir där- med vilken information om den verkliga prevalensen för respektive kategori som kan antas för att forma linjärkombinationen motsvarande ˜ p, ACC = P
Kj=1
Pr (ˆ l = j) · Pr (l = j). Vad skall anses vara en oberoende, oinforme-
55
Agresti, Categorical Data Analysis, Kap.3.
56
Ibid., Kap.1.
rad gissningsstrategi? En modell som inte kan forma sannolikheterna för ˆ l med någon information om sannolikheterna (klassprevalenserna) för l väl- jer kanske gissningsstrategin att gissa på varje utfall med lika sannolikhet.
Nollhypotesen är då ACC
H0= P
K j=11
K
· Pr (l = j) =
K1, vilket skulle ge ett onödigt signifikant resultat vid uppenbart sned klassfördelning. Vi ställer där- för upp en nollhypotes som antar att man åtminstone i gissningen vet den mest prevalenta klassen. Ett signifikant resultat innebär därmed en prick- säkerhet ACC bättre än en konsekvent gissning på den vanligaste klassen, ACC
H0= max (p
y,1, . . . , p
y,K).
För att få en uppfattning om hur stor chansen för korrekt klassificering är för respektive utfallsalternativ skapas i multiklassfallet konfidensintervall för Sensitivitet
jmed parametertolkningen Sensitivitet
j= P (l
i= ˆ l
i|l
i= j) för varje observation i och klass j. Detta motsvarar att man väljer en klass (kolumn i klassificeringsmatrisen) och studerar den marginella fördelningen genom att slå ihop kolumner och därmed dikotomisera utfallet. I det binära fallet blir parametrarna givetvis Sensitivitet respektive Specif icitet med motsvarande tolkning.
För K konfidensintervall vill man att alla täcker sina sanna parametrar med α = 0.05. Varje individuellt konfidensintervall j får därför ett värde på (1 − α
j)
K= 0.95 ⇔ α
j= 1 − 0.95
1/K(Bonferroni-korrektion). För samtliga konfidensintervall används Clopper-Pearsons ’exakta’ metod, vilket av vissa författare benämns som det mest konservativa.
57Modellprestation oberoende av kalibrering och klassprevalens Vid binär klassificering kan vi beräkna Mann-Whitney U-statistikans rela- tion till AUC enligt ekvation 1.5 för att dra slutsatser kring hela modellens förmåga att skilja mellan klasserna. Under följande antaganden är transfor- mationen av U enligt ekvation 1.5.3 approximativt normalfördelad.
58U −
n02n1q
n0n1(n0+n1+1)12
=
U
n0n1
−
2nn0n10n1
1 n0n1
q
n0n1(n0+n1+1) 12= AU C
obs−
121 n0n1
q
n0n1(n0+n1+1) 12= z ∼ N (0, 1) (1.9) För det första antas ett stort stickprov (n > 30) bestående av oberoen- de slumpmässigt utvalda observationer. Oberoende i denna kontext innebär att målen är inbördes orelaterade. Att bryta mot detta antagande kan in- nebära en överskattning av antalet frihetsgrader. För det andra antas lika
57
Agresti, Categorical Data Analysis, Kap.1.
58
Mason och Graham, ”Areas beneath the relative operating characteristics (roc) and
relative operating levels (rol) curves: Statistical significance and interpretation”.
varians i grupperna av skattade sannolikheter. Brist i detta leder till mindre signifikanta resultat. Ett signifikant rangsummetest då AU C > 0.5 innebär att sannolikheten för att en slumpmässigt vald positiv observation tillskrivs ett högre värde av modellen än en slumpmässigt vald negativ observation överstiger 0.5.
59För konfidensintervall finns det flera metoder. Här valdes den mest robus- ta. Det bredaste (mest konservativa) konfidensintervallet valdes med hjälp av
60:
σ
max2= AU C · (1 − AU C)
min {n
0, n
1} ≤ 1
4 · min {n
0, n
1} (1.10) Detta anses av flera författare gälla för samtliga kontinuerliga fördelningar av scores
61. I denna uppsats redovisas konfidensintervall givet av AU C ± t
df,α/2· σ
maxdär df = min {n
0, n
1} − 1.
Inferens för multipel AUC är ett mindre utvecklat område. Oavsett om
AU C
en:alla(ekvation 1.6) eller AU C
alla:alla(ekvation 1.7) används för att här-
leda en vägd summa av binär AUC kan vi inte utnyttja normalfördelning- ens konvolutionsegenskaper då sannolikhetsskattningar för respektive klass är utförda på sammma observation och därmed inte oberoende. Hand & Til föreslår att den statistiska felmarginalen estimeras med hjälp av bootstrap- ping. Någon beskrivning av en lämplig implementering av detta har inte funnits, och inte heller forskning som prövar bootsrappen utan att göra för- delningsantaganden. Dessa redovisas därför utan varken konfidensintervall eller hypotesprövning.
59
Mason och Graham, ”Areas beneath the relative operating characteristics (roc) and relative operating levels (rol) curves: Statistical significance and interpretation”.
60
Cortes och Mohri, ”Confidence Intervals for the Area Under the ROC Curve.”
61
Ibid.
Kapitel 2
Material & metod
2.1 Datainsamling
Sammanlagt samlades data för 14822 tvistemål in från 8 tingsrätter, samtliga lydande under Svea Hovrätt. Tingsrätterna som omfattades av undersökning- en valdes på två sätt, de för modellskattning valdes med bekvämlighetsurval och de för validering slumpmässigt. Figur 2.1 visar hur samplingsrymden såg ut.
HD
Göta Skåne_Blekinge Svea Västra_Sverige Nedre_Norrland Övre_Norrland
Attunda Nacka Solna Stockholms Södertörns Södertälje Gotlands Eskilstuna Norrtälje Uppsala Nyköpings Västmanlands Falu Mora
Träning Validering
Figur 2.1: Samplingsrymden avgränsades till tingsrätter under Svea Hovrätt.
Grönmarkerade tingsrätter är icke-slumpmässigt utvalda tingsrätter som används för att träna modellen. Blåmarkerade tingsrätter är obundet slump- mässigt utvalda från de återstående tingsrätterna lydande under Svea Hov- rätt. Att pilarna ovanför tingsrätterna leder uppåt uttrycker att avgöranden i tingsrätter överklagas
1till respektive hovrätt.
Att en del tingsrätter inte valdes slumpmässigt var av praktiska anled- ningar. Geografisk närhet till Uppsala Universitet var ett krav för att kunna göra fysiska besök på tingsrätter och därmed sökningar i deras databaser.
1
Med undantag se Rättegångsbalken
Vid varje besök samlades nya register in, studerades och följdes upp med nya sökningar. Först när en tillräckligt god bild av hur tvistemålsprocessen dokumenterades och möjligheterna för dataextrahering gjordes det slump- mässiga urvalet av de resterande tingsrätterna under Svea Hovrätt. Dessa observationer benämns som valideringsdatasetet vilket lämnades helt orört fram till att modeller och tröskelvärden för klassificering beräknats med hjälp av träningsdatasetet.
Anledningen till att enbart Svea Hovrätt omfattades av det slumpmässiga urvalet följer av att om uppföljningsstudier kommer på fråga kan man i efter- hand utöka modellen för att förutse det slutliga resultatet sett från parternas perspektiv, det vill säga utgången i de mål som har överklagats. Eftersom alla insamlade mål för undersökningsperioden som överklagats hamnar i Svea Hovrätt och sedan Högsta Domstolen skulle man tillsammans med Hovrät- tens och Högsta Domstolens register ha ett nästintill heltäckande dataset vilket vore mycket intressant.
Förklaringen till avgränsningen i tidsperiod till 2009-2013 är liknande.
För varje avgörande med dom finns en skriven dom. Sedan 2009 har många tingsrätter
2gått över från att huvudsakligen fysiskt handhålla dessa domar till att spara dem i ett maskinläsbart format (PDF). En ursprunglig tanke med undersökningen var att utnyttja de register (som här är det huvudsakliga datamaterialet) för att på ett strukturerat sätt slumpmässigt välja mål och extrahera information från dess skrivna domar.
Varje tingsrätt uppmanades skicka register enligt följande söktermer:
Status = Avslutat
Målgrupp/Måltyp = 10/99
Avslutandedatum = 2009-01-01 - 2013-11-27
Avgörandetyp = Dom
Per avgränsning:
1. Utgång = Delvis Bifallet
2. Utgång = Helt Bifallet
3. Utgång = Ogillat
4. Utgång = Övrigt
5. Utgång = Stadfäst Förlikning
Fördelningen av utfallen för respektive tingsrätt kan ses i tabell 2.1. Den avgörandetyp som i tabellen benämns ’ OKÄNT ’ är de mål som inte avslutats
2
Detta framgick av samtal med Domstolsverket, Södertörns, Uppsalas och Attundas
tingsrätt. Någon offentlig föreskrift har detta inte kunnat styrkas med.
på de andra sätten vilket innebär att de bör ha avslutats med tredskodom eller slutligt beslut. Ursprungligen var tanken att enbart använda mål som avslutats genom dom men Nacka, Stockholm och Södertälje hade söksystem som möjliggjorde att samtliga mål skickades, och då utnyttjades även denna kategori.
OKÄNT SFÖRLIKNING HELT DELVIS OGILLAT ÖVRIGT TOTALT
ATTUNDA 0 720 138 24 92 144 1118
NACKA 1112 338 76 16 50 33 1625
SÖDERTÖRN 0 839 333 36 121 159 1488
SOLNA 0 493 180 36 146 186 1041
STOCKHOLM 5487 1363 277 52 567 281 8027
ESKILSTUNA 0 109 44 11 44 6 214
NYKÖPING 0 71 25 8 5 11 120
SÖDERTÄLJE 874 139 77 10 18 70 1188
Träning 6599 3753 1004 164 976 803 13299
Validering 874 319 146 29 67 87 1522
TOTALT 7473 4072 1150 193 1043 890 14821
Tabell 2.1: Fördelningen av utfall för insamlade mål per tingsrätt Innan målpopulation och undersökningsram kunde definieras krävdes att själva processen definierades. Liknande empiriska studier gick inte att finna i Sverige och allting gjordes därför från grunden. Absolut elementära frågor som vad som skall avgränsas till en observation och hur man kan veta vilka tillhörande attribut är kartlades. För att få reda på detta krävdes att systemet som genererar informationen studerades ur ett nytt perspektiv skiljt från det icke-empiriska juridiska perspektivet.
Först utfördes en processanalys av rättegångsprocessen där ’dispositiva
tvistemål’ operationaliserades, och dess utfall och datapunkter sattes i ett
sammanhang. Här utnyttjades dels ’ritningarna’ för hur processen bör se ut,
det vill säga lagtexten, främst Rättegångsbalk 1942:147. Lagtexten tolkades
sedan med hjälp av Domstolsverkets handbok om tvistemål. Resultatet av
sammanställdes i en processgraf, figur 5.1 som återfinns i appendix. Den
helt juridiska analysen gav en fingervisning till hur sökningar kunde utföras
för att extrahera data. Parallellt bildades en uppfattning om hur relationerna
mellan datapunkterna som finns tillgängliga för varje mål ser ut. Det fanns få
medel till buds för att definiera datastrukturerna varför en sammanvägning av
information från rättskällor användes tillsammans med upprepade sökningar
på plats vid tingsrätternas offentliga datorer, samtal med domstolsverket
och tingsrätternas arkivarier samt tingsnotarier, jurister och forskare. Hur
den information som slutligen utnyttjades antas höra samman modellerades
i ett Entity-Relationship (ER) diagram som kan ses i appendix.
Kort sagt har det handlat om att förenkla en komplex process beskri- ven främst i lagtext och juridisk doktrin till en observerbar slumpvariabel Mål
imed ett begränsat antal utfall, Mål
i∈ {utf all
1, . . . , utf all
K}. Centrala frågor har varit följande:
• Är ’mål’ en användbar definition för att unikt identifiera en juridisk process? Kan ett mål ses som en slumpvariabel?
• Vilka utfall kan ett (dispositivt tviste-) mål sluta med? Är utfallet uteslutande, det vill säga faller varje avslutat mål inom exakt en ut- fallskategori?
• Hur kan man välja mål så att utfallsrummet för varje mål är identiskt och uttömmande? Vilka avslutade mål kan anses vara utfall av samma process?
• Hur kan sökningar utformas på ett effektivt sätt utan att förminska reliabilitet och validitet?
• Vilken information (X
i) kan användas för att förutse utfallet för varje Mål
i?
Det finns inget kort svar på dessa frågor eftersom de är tätt knutna till juridiska frågeställningar. Av utrymmesskäl begränsas därför diskussionen till mycket kortfattade argument för den insamlingsmetod som till slut valdes.
Först och främst, att det skulle vara just ett mål som skulle vara det som är intressant att modellera är inte självklart. I 14 kap § 1 RB står att då någon väcker “...flera käromål mot samme svarande, skola de handläggas i en rättegång, om de stödja sig på väsentligen samma grund.”
Med andra ord kan en stämningsansökan leda till flera mål och flera yr- kanden kan finnas i ett och samma mål. Definitionen av målbegreppet har i stort lämnats till tingsrätterna att bedöma
3men eftersom tingsrätter använ- der samma målhanteringssystem VERA antas här att sammanslagning/upp- delning av mål sker på ett likartat sätt.
4Datamaterialet tillåter prövandet av sådana frågor, men det faller utanför ramen för denna uppsats.
Vilka utfall som ett mål kan sluta med för målkategorin ’10/99 Övriga Tvistemål’ visas i tabell 1.1. Teoretiskt kan det finnas ytterligare utfallskate- gorier. Vilka dessa var och hur data för dessa skulle samlas in klarnade först
3
Domstolsverket, Domstolsverkets handböcker, Tvistemål , Kap.2.
4