Klassiﬁcering av neuropati baserat p˚a svettm¨onster

(1)

Klassificering av neuropati baserat p˚ a svettm¨ onster

Examensarbete f¨ or kandidatexamen i matematik vid G¨ oteborgs universitet Kandidatarbete inom civilingenj¨ orsutbildningen vid Chalmers

Johan Broberg Hussein Hamoodi Henrik H˚ akansson Jonathan Kerr

Institutionen f¨ or Matematiska vetenskaper CHALMERS TEKNISKA H ¨ OGSKOLA G ¨ OTEBORGS UNIVERSITET

G¨ oteborg, Sverige 2018

(2)

(3)

Klassificering av neuropati baserat p˚ a svettm¨ onster

Examensarbete f¨ or kandidatexamen i matematisk statistik vid G¨ oteborgs universitet Hussein Hammodi

Kandidatarbete i matematik inom civilingenj¨ orsprogrammet Automation och meka- tronik vid Chalmers

Johan Broberg

Kandidatarbete i matematik inom civilingenj¨ orsprogrammet Informationsteknik vid Chalmers

Henrik H˚ akansson

Kandidatarbete i matematik inom civilingenj¨ orsprogrammet Kemiteknik vid Chalmers Jonathan Kerr

Handledare: Aila S¨ arkk¨ a och Anders Hildeman Examinator: Maria Roginskaya och Ulla Dinger

Institutionen f¨ or Matematiska vetenskaper CHALMERS TEKNISKA H ¨ OGSKOLA G ¨ OTEBORGS UNIVERSITET

G¨ oteborg, Sverige 2018

(4)

(5)

F¨ orord

Vi vill tacka v˚ ara handledare Anders Hildeman och Aila S¨ arkk¨ a f¨ or betydande st¨ ottning och ett stort engagemang.

F¨ or projektet har tidslogg kontinuerligt f¨ orst individuellt per gruppmedlem. ¨ Aven en projektdag- bok har f¨ orts p˚ a veckobasis d¨ ar en gruppmedlem per vecka har summerat det utf¨ orda arbetet. H¨ ar f¨ oljer en bidragsrapport som f¨ ortydligar gruppmedlemmarnas individuella prestationer.

Ansvarsf¨ ordelning

Gruppmedlemmarna har s¨ allan haft ˚ aterkommande ansvarspunkter - d¨ aremot har arbetet delats upp s˚ a att vissa uppgifter har genomf¨ orts gemensamt i grupp och andra har delats ut till par eller enskilda gruppmedlemmar. Ett ansvarsomr˚ ade str¨ ackte sig oftast ¨ over en till tv˚ a veckor. Exempel p˚ a ett ansvarsomr˚ ade kunde vara att skriva en kodsnutt i R som skulle utf¨ ora en viss sak eller skriva p˚ a ett stycke i rapporten. Vilka som huvudsakligen jobbade med vad syns i styckena Metod och implementation samt rapportskrivande.

Skrivande av dagbok gjordes veckovis i av alla gruppmedlemmar i roterande ordning.

Planering

Gruppen lade vecka till vecka upp en plan f¨ or vad som beh¨ ovde g¨ oras och f¨ ordelade sedan gemen- samt arbetet sinsemellan. H¨ ar best¨ amdes ocks˚ a arbetstider och att g¨ ora listor i Trello, ett web- baserat planeringsverktyg, vilket mestadels sk¨ ottes av Henrik. F¨ or rapportskrivningen skedde mindre gemensam planering av vad som skulle g¨ oras och gruppmedlemmarna skrev nya stycken eller fyllde befintlig text d¨ ar det ans˚ ags beh¨ ovas.

Metod och implementation

Vilka metoder som skulle anv¨ andas diskuterades och beslutades gemensamt i gruppen. Sj¨ alva implementeringarna, i v˚ art fall kodsnuttar i R, gjordes antingen i par eller enskilt. Tabellen nedan visar de huvudsakliga implementeringar som varje person gjorde.

Metod Jonathan Johan Henrik Hussein

S¨ atta samma yttre och inre korsvalidering X X X

Testa olika modellfelsuppskattningar X X X

Dimensionsreducering (PCA och Backward stepwise) X X X X

Splittra data till tr¨ aning och validering X X

Grundl¨ aggande unders¨ okning av data X X X X

M¨ ojligg¨ ora modeller baserat p˚ a olika delm¨ angder fr˚ an data X X

Generering av resultat och plottar till rapport X

Logistisk regression X X X

Visualisera korrelationen X

Skapa och testa linj¨ arkombinationer av kovariater X X

Rapportskrivande

Tabellen nedan visar vilka personer som huvudsakligen har skrivit p˚ a de olika kapitlen eller delka-

pitlen. Dock har samtliga gruppmedlemmar kontinuerligt l¨ ast igenom alla delar i rapporten och

kommit med f¨ orb¨ attringsf¨ orslag.

(6)

Kapitel Delkapitel Jonathan Henrik Hussein Johan

Abstract X X X

Popul¨ arvetenskaplig X

Inledning Bakgrund X

Syfte X

Avgr¨ ansningar X

Data X X X X

Teori och Metod Klassificering X X

Logistisk Regression X X

Modellfel X X X X

Standardisering X X

Dimensionsreducering X X X

Implementation av modellval X X Unders¨ okning av variationer... X X

Resultat X

Diskussion Dimensionsreducering och... X X X

Val av kroppsdel X X

Hantering av tr¨ oskelv¨ arde X X

J¨ amf¨ orelse med tidigare forskning X

Framtida utveckling X X

Slutsats X X

Appendix J¨ amf¨ orelse mellan alla... X

ROC-kurvor X

Matematisk f¨ orklaring... X X

Spridning av kovariaterna X

(7)

Popul¨ arvetenskaplig presentation

Att uppt¨ acka sjukdomen perifer neuropati hos personer som ¨ ar tidigt i sjukdomsf¨ orloppet har l¨ ange varit sv˚ art eftersom det har saknats enkla och snabba metoder. Vi konstruerade en matematisk modell som bygger p˚ a m¨ atningar av patienters svettningar p˚ a vad eller fot f¨ or att avg¨ ora om patienten b¨ ar p˚ a sjukdomen eller inte. Modellen presterade mycket bra, vilket inneb¨ ar att tidigare testmetoder kan komma att ers¨ attas i framtiden.

Perifer neuropati inneb¨ ar att en eller flera perifera nerver, vilket ¨ ar nervtr˚ adar som inte ¨ ar en del av hj¨ arnan eller ryggm¨ argen, inte fungerar som de ska. Symptom som uppkommer tidigt ¨ ar stickningar och domningsk¨ anslor i armar och ben. Senare uppkommer ofta allvarligare besv¨ ar som avsaknad av k¨ ansel eller f¨ orsvagade muskler. Orsaken till att sjukdomen uppkommer ¨ ar olika fr˚ an fall till fall, vanliga exempel ¨ ar diabetes, cellgiftbehandling eller alkoholism. Det ¨ ar sj¨ alva orsaken som avg¨ or vilken behandling en patient ska f˚ a - men innan det kan ske m˚ aste l¨ akaren f˚ a reda p˚ a om patienten ens har perifer neuropati eller inte. De mest exakta metoder som anv¨ ands idag bygger p˚ a omfattande l¨ akarunders¨ okningar, vilka ofta f¨ orst p˚ ab¨ orjas n¨ ar patienten har haft besv¨ ar ett tag.

F¨ orhoppningen med den nya testmetoden ¨ ar att den ska vara lika precis men enklare och mindre tidskr¨ avande, s˚ a att patienter redan i f¨ orsta l¨ akarkontakten testas.

Det finns olika typer av neuropati beroende p˚ a hur m˚ anga och vilka typer av nerver som p˚ averkas.

I flera typer av perifer neuropati blir sm˚ a nervtr˚ adar som inte isoleras med ett h¨ olje av substansen myelin tidigt p˚ averkade av sjukdomen. Eftersom dessa typer av nerver p˚ averkar svettningsfunk- tionen kan onormal svettning tyda p˚ a perifier neuropati.

Man kan aktivera svettning hos en patient med hj¨ alp av en str¨ om av ¨ amnen som stimulerar re- ceptorer i svettk¨ ortlarna. I redan etablerade testmetoder har man bland annat f¨ ors¨ okt uppskatta hur mycket svett som produceras och sedan anv¨ anda det f¨ or att avg¨ ora huruvida patienten har neuropati eller inte. Den nya metoden ¨ ar att ist¨ allet anv¨ anda en specialtillverkad kamera som filmar hela svettf¨ orloppet i h¨ og uppl¨ osning. Det m¨ ojligg¨ or mer information om svettningen ¨ an vad de tidigare metoderna kunde ge, exempelvis hur mycket svett varje separat svettk¨ ortel producerar under testet.

I tidigare unders¨ okningar har man sett en stor skillnad i svettf¨ orlopp fr˚ an patienter som lider av neuropati mot kontrollpersoner. Det som vi ist¨ allet fokuserade p˚ a var att ta fram en matematisk modell som anv¨ ande en m¨ atning fr˚ an den specialtillverkade kameran f¨ or att avg¨ ora om m¨ atningen gjordes p˚ a en frisk eller sjuk individ. Inspelningar med kameran utf¨ orda p˚ a testpersonernas vader och f¨ otter anv¨ andes, och resultaten tyder p˚ a att m¨ atningar fr˚ an vaderna fungerar b¨ ast f¨ or att uppt¨ acka personer som har sjukdomen.

Modellen anv¨ ande stillbilder fr˚ an en inspelning med kameran vid tre olika tidpunkter under testet.

Fr˚ an varje bild ber¨ aknades ett antal m˚ att som relaterade till hur mycket patienten svettades vid den tidpunkten. Sedan anv¨ andes dessa utr¨ aknade m˚ att som indata till modellen. I det dataunderlag som vi anv¨ ande fanns det ¨ aven information om personernas sjukdomstillst˚ and, det vill s¨ aga om de hade neuropati eller inte. Sjukdomstillst˚ andet hade unders¨ okts med andra testmetoder ¨ an m¨ atning av svett. N¨ ar modellen ber¨ aknades utnyttjades b˚ ade information man k¨ ande till om svettningarna fr˚ an de tre stillbilderna och om personernas sjukdomstillst˚ and.

F¨ or att avg¨ ora hur bra modellen fungerade i praktiken skickades bara de m˚ att som ber¨ aknats fr˚ an stillbilderna in till modellen, och informationen om sjukdomstillst˚ andet var dolt. Modellen gav i sin tur tillbaka ett svar hur sannolikt det var att personen som m¨ atningen gjordes p˚ a hade perifer neuropati. Modellsvaren j¨ amf¨ ordes d˚ a med den k¨ anda informationen om personens verkliga sjukdomstillst˚ and. Trots att den matematiska modellen som anv¨ andes byggde p˚ a en relativt enkel metod kunde den i 96 % av fallen korrekt avg¨ ora om en en inspelning gjorts p˚ a en sjuk eller frisk person - utan att allts˚ a k¨ anna till den informationen p˚ a f¨ orhand.

Dock finns det en del arbete kvar att g¨ ora innan den nya metoden kan till¨ ampas i v˚ arden. Ex-

empelvis beh¨ over man ta st¨ allning till exakt vad man f¨ orv¨ antar sig att den matematiska modellen

ska ˚ astadkomma. Det g˚ ar att justera metoden s˚ a att den blir b¨ attre p˚ a att korrekt ge svaret att

de ¨ ar sjuka f¨ or personer som lider av perifer neuropati - men d˚ a p˚ a bekostnad av att fler som inte

b¨ ar p˚ a sjukdomen felaktigt f˚ ar svaret ¨ ar att de ¨ ar sjuka fr˚ an modellen. Det g˚ ar ocks˚ a att justera

(8)

s˚ a att m¨ atningar fr˚ an friska personer med stor sannolikhet bed¨ oms vara friska - nackdelen blir d˚ a

att fler sjuka felaktigt f˚ a svaret att de ¨ ar friska. Om syftet med testet fr¨ amst ¨ ar att f˚ anga upp

m˚ anga sjuka ¨ ar den f¨ orstn¨ amnda b¨ ast, men om man ist¨ allet vill filtrera ut de som s¨ akert ¨ ar sjuka

fr˚ an resten skulle den senare vara att f¨ oredra.

(9)

Sammanfattning

Syftet med unders¨ okningen var att avg¨ ora klassificerbarheten av patienter med perfier neuro- pati baserat p˚ a svettm¨ onster med hj¨ alp av logistisk regression. V˚ ar data inneh¨ oll tre grupper:

kontroller, neuropatiska och obekr¨ aftat neuropatiska, individer som misst¨ anks lida av neuropati men ¨ annu inte f˚ att det bekr¨ aftat. De obekr¨ aftat neuropatiska anv¨ andes bara i tr¨ aningm¨ angden och inte i valideringsm¨ angden. Data som anv¨ andes har m¨ atts p˚ a fot eller vad.

Klassificerbarheten unders¨ oktes f¨ or data uppm¨ att p˚ a patienters fot, vad samt f¨ or b˚ ada kropps- delarna tillsammans. Unders¨ okningen gjordes med tv˚ a korsvalideringar, en inre f¨ or att best¨ amma ett l¨ ampligt kovariatrum och en yttre f¨ or att avg¨ ora den faktiska klassificerbarheten.

Det b¨ asta s¨ attet att klassificera enligt unders¨ okningen var att anv¨ anda data fr˚ an enbart va- der och att anv¨ anda dimensionsreducering med principialkomponentanalys f¨ or 15 kovariater.

Med hundra simuleringar av v˚ ar modell blev medelv¨ ardet av arean under grafen fr˚ an recei- ver operating characteristic-kurvan 0.96 med en standardavvikelse p˚ a 0.01. Om de tv˚ a olika klassificeringsfelen v¨ arderades lika h¨ ogt och modellen designades s˚ a att b˚ ada feltyperna hade lika stor sannolikhet kunde den anv¨ anda metoden klassificera med ca 10 % fel. Under un- ders¨ okningen fanns problem med att datam¨ angden inneh¨ oll f˚ a neuropatiska patienter. F¨ or framtida forskning hade det varit intressant att ut¨ oka m¨ angden sjuka.

Abstract

The purpose of this investigation was to determine the ability to classify peripheral neuropa- thy patients based on data from sweat patterns using logistic regression. Our data contained three groups: controls, neuropathics and individuals believed to be neuropathic but were not yet confirmed. Subjects from the last group was only used as part of a training set and not as validation set. The data was measured from calves and feet.

The ability to classify patients was examined by using data from feet, calves, or both. Our investigation was conducted using two nested crossvalidations, one inner to determine the ap- propriate dimensional space and one outer to evaluate the performance of the classification.

The best way to classify was determined to be on data from only calves with dimensionality re-

duction using principal component analysis from 15 covariates. With one hundred simulations

of this method the area under the curve for the receiver operating characteristic-curve was on

average 0.96 with a standard deviation of 0.01. If the two possible types of classification errors

were considered equal and the model was designed to have the same proportion of errors the

method was able to classify with only about 10% error. A problem during the investigation

was that the data being used had very few neuropathic patients. For future research it would

be interesting to expand the data to contain more neuropathics.

(10)

Inneh˚ all

1 Inledning 1

1.1 Syfte . . . . 1

1.2 Avgr¨ ansningar . . . . 1

2 Data fr˚ an svettm¨ onster 2 3 Teori och metod 4 3.1 Klassificering . . . . 4

3.2 Logistisk regression . . . . 4

3.3 Uppskattning av modellfel . . . . 6

3.3.1 Tr¨ anings- och valideringsm¨ angd . . . . 7

3.3.2 Receiver Operating Characteristic (ROC) och Area Under Curve (AUC) . . 7

3.3.3 Akaike information criterion (AIC) . . . . 8

3.4 Standardisering . . . . 9

3.5 Dimensionsreducering . . . . 9

3.5.1 Principalkomponentanalys (PCA) . . . . 10

3.5.2 Stepwise selection . . . . 11

3.6 Implementation av modellval . . . . 11

3.6.1 Uppdelning till tr¨ aning och validering . . . . 11

3.6.2 Korsvalidering . . . . 12

3.6.3 Yttre korsvalidering . . . . 12

3.6.4 Modellurval i inre validering . . . . 13

3.7 Unders¨ okning av variationer i implementation . . . . 14

3.7.1 Observationer grupperat per kroppsdel . . . . 14

3.7.2 Obekr¨ aftat neuropatiska i tr¨ aningsm¨ angden . . . . 14

3.7.3 Unders¨ okning av modellvarianter . . . . 15

4 Resultat 15 5 Diskussion 18 5.1 Dimensionsreducering och uppskattning av modellfel . . . . 18

5.2 Val av kroppsdel f¨ or m¨ atning . . . . 18

5.3 Hantering av tr¨ oskelv¨ arde . . . . 19

5.4 J¨ amf¨ orelse med tidigare forskning . . . . 19

5.5 Framtida utveckling . . . . 19

6 Slutsatser 20 A J¨ amf¨ orelse mellan alla modellvariationer 23 B ROC-kurvor f¨ or olika kroppsdelar 24 C Matematiska f¨ orklaring av kovariater 25 C.0.1 CI300 . . . . 25

C.0.2 Hazard Mode . . . . 26

D Spridningen av kovariaterna i de olika grupperna 27 D.1 Data fr˚ an b˚ ade fot och vad . . . . 27

D.2 Data fr˚ an bara fot . . . . 28

D.3 Data fr˚ an bara fot . . . . 29

(11)

1 Inledning

Perifer neuropati[1] ¨ ar ett generellt begrepp f¨ or dysfunktionalitet av en eller flera perifera nerver, nervtr˚ adar som inte ¨ ar en del av hj¨ arnan eller ryggm¨ argen. Tidiga symptom ¨ ar exempelvis stick- ningar och domningsk¨ anslor i armar och ben. Senare uppkommer allvarligare komplikationer s˚ a som avsaknad av k¨ ansel eller f¨ orsvagade muskler. Den underliggande orsaken till besv¨ aren ¨ ar oftast helt individuell f¨ or varje fall, men vanliga exempel ¨ ar diabetes, cellgiftbehandling eller alkoholism.

Vilken typ av behandling som ¨ ar till¨ amplig beror helt p˚ a orsaken till besv¨ aren. Eftersom tillst˚ andet f¨ orv¨ arras med tiden ¨ ar det viktigt att behandling inleds s˚ a tidigt som m¨ ojligt.

Det finns olika typer av neuropati beroende p˚ a hur m˚ anga och vilka typer av nerver som p˚ averkas.

I flera typer av perifer neuropati blir sm˚ a nervtr˚ adar som inte isoleras med ett h¨ olje av substansen myelin, omyeliniserade nervtr˚ adar[2], tidigt p˚ averkade av sjukdomen. D¨ arf¨ or kan abnormitet i funktionen hos de omyeliniserade nervtr˚ adarna indikera ett tidigt stadium av perifer neuropati. D˚ a svettk¨ ortlar stimuleras av omyeliniserade nervtr˚ adar kan m¨ atning av svettuts¨ ondring[3] anv¨ andas f¨ or att detektera abnormitet i funktionen, vilket d˚ a kan inneb¨ ara b˚ ade under- och ¨ overproduktion av svett.

Id´ een att m¨ ata svettuts¨ ondring har till¨ ampats i flera olika varianter av tester. En av de mest anv¨ anda metoderna ¨ ar Quantitative sudomotor axon reflex test (QSART). Metoden g˚ ar ut p˚ a att f¨ orst stimulera svettk¨ ortlarna p˚ a en liten yta med hj¨ alp av en str¨ om av ¨ amnen som binder till receptorer i svettk¨ ortlarna. D¨ arp˚ a m¨ ats luftfuktigheten ¨ over ytan som stimulerats f¨ or att uppskatta volymen svett som produceras ¨ over tid fr˚ an ytan. I en studie[4] visades det att 74% av 125 personer som led av neuropati uppvisade anormala resultat p˚ a QSART j¨ amf¨ ort med en kontrollgrupp.

Provitera et al. [5] presenterade en modifierad variant av svettestet d¨ ar en specialtillverkad kame- ra filmade svettningen i h¨ og uppl¨ osning under 5 minuter. Denna metod ger ¨ aven information om svettningen hos varje svettk¨ ortel individuellt. Loavenbruck et al. [6] unders¨ okte resultat fr˚ an ka- meratestet mer ing˚ aende med fokus p˚ a m˚ atten total svettning, svetthastighet per svettk¨ ortel samt densitet av svettk¨ ortlar p˚ a olika kroppsdelar. Det konstaterades att den st¨ orsta skillnaden mellan kontrollgruppen och de neuropatiska personerna var som st¨ orst f¨ or stimuleringar p˚ a vad och fot.

Dessutom visades det att j¨ amf¨ ort med kontrollgruppen hade de neuropatiska l¨ agre svetthastighet per svettk¨ ortel i 90% av fallen p˚ a vaden och 80 % av fallen p˚ a foten.

Resultaten i Loavenbrucks unders¨ okning tyder p˚ a att personer med perifer neuropati uppvisar resultat fr˚ an svettester som i h¨ og grad ¨ ar skilda fr˚ an friska. Med den kunskap om maskininl¨ arning som numera finns l¨ attillg¨ anglig kan det t¨ ankas att filminspelningar fr˚ an svettestet l¨ ampar sig f¨ or att automatiskt best¨ amma patientens h¨ alsotillst˚ and. Vi unders¨ oker d¨ arf¨ or om det, med data fr˚ an svettester, g˚ ar att ta fram en klassificeringsmodell som kan avg¨ ora om en ny inspelning med kameran fr˚ an ett svettest kommer fr˚ an en frisk eller neuropatisk person.

1.1 Syfte

Syftet ¨ ar att unders¨ oka hur v¨ al klassificeringsmetoder kan till¨ ampas f¨ or att identifiera patienter som lider av perifer neuropati, baserat p˚ a observationer med de 15 olika m˚ atten. Vi vill ¨ aven ta reda p˚ a vilka m¨ atningar, utifr˚ an om de ¨ ar uppm¨ atta p˚ a vad, fot eller b˚ ada kroppsdelarna sammanslaget, som l¨ ampar sig b¨ ast f¨ or klassificering.

1.2 Avgr¨ ansningar

Klassificering och maskininl¨ arning ¨ ar breda omr˚ aden som omfattar fler relevanta metoder ¨ an vad som kunnat behandlas i detta projekt. Vi har valt att utg˚ a fr˚ an klassificeringsmetoden logistisk regression som ¨ ar en relativt enkel metod, f¨ or att snabbt kunna utf¨ ora och f˚ a f¨ orst˚ aelse f¨ or klassi- ficering. Vi har fokuserat p˚ a att utforska olika varianter av logistisk regression f¨ or att hitta en s˚ a bra slutgiltig modell som m¨ ojligt f¨ or denna klassificeringsmetod.

Under arbetets g˚ ang fick vi tillg˚ ang till nytt filmmaterial av patienters svettproduktion som inte har anv¨ ands. Detta material kom s˚ a pass sent och f¨ or att kunna anv¨ anda det hade de spatiella m˚ atten beh¨ ovts r¨ aknas ut ¨ aven f¨ or dessa filmer s˚ a att informationen skulle kunna anv¨ andas tillsammans

1

(12)

med den andra datan. Hade vi haft m¨ ojlighet att generera ytterligare data fr˚ an dessa filmer s˚ a kunde det m¨ ojligtvis ha bidragit till en b¨ attre klassificeringsmodell.

2 Data fr˚ an svettm¨ onster

Arbetet har gjorts p˚ a en datam¨ angd som best˚ ar av fem olika spatiala m˚ att utr¨ aknade fr˚ an de bilder som tagits med Loavenbrucks kamera, p˚ a n˚ agon av f¨ ors¨ okspersonens f¨ otter eller vader. Data kommer fr˚ an 401 filminspelningar av svettm¨ onster fr˚ an 185 olika f¨ ors¨ okspersoner, d¨ ar en inspel- ning motsvarar en observation. F¨ ors¨ okspersonerna best˚ ar av b˚ ade personer som lider av neuropati och personer som inte g¨ or det. F¨ or varje observation har de spatiala m˚ atten ber¨ aknats vid tre olika tidpunkter: 1, 10 samt 30 sekunder. Ett spatialt m˚ att f¨ or en viss tidpunkt ben¨ amns h¨ ar som kovariat och eftersom det finns fem m˚ att vid tre olika tidpunkter finns det allts˚ a sammanlagt 15 kovariater.

De fem spatiala m˚ atten ¨ ar:

• WAF (Wetness Area Fraction): Andel area av bild som t¨ acks med svett

• Intensity: Antal separata svettfl¨ ackar som andel av den totala bildarean. (D˚ a tv˚ a svettfl¨ ackar v¨ axer ihop r¨ aknas de som en enskild fl¨ ack)

• Avesize (Average Size): Den genomsnittliga arean av svettfl¨ ackar p˚ a en bild m¨ att i antal pixlar

• CI300: Ett klusterindex d¨ ar h¨ ogt v¨ arde indikerar att svettfl¨ ackar tenderar att existera n¨ ara varandra och l˚ agt v¨ arde indikerar att svettfl¨ ackar ¨ ar utspridda. (Se definition i C.0.1)

• Hazard Mode: Ett m˚ att p˚ a den genomsnittliga tomma ytan mellan fl¨ ackar p˚ a en bild (Se definition i C.0.2

F¨ or samtliga observationer noteras, f¨ orutom de 15 m˚ atten, ¨ aven om patienten har neuropati eller om denna tillh¨ or en kontrollgrupp med friska. Kontrollgruppen best˚ ar av 120 personer fr˚ an vilka det finns 301 observationer. 153 av observationerna i kontrollgruppen ¨ ar uppm¨ atta p˚ a patieternas vad och 148 p˚ a deras fot. De personer som ¨ ar diagnostiserade med neuropati uppg˚ ar till 18 perso- ner fr˚ an vilka det totalt finns 27 observationer, 18 p˚ a vad och 9 p˚ a fot. Gruppen neuropatiska ¨ ar allts˚ a klart underrepresenterad. Det finns ¨ aven observationer fr˚ an 47 personer som sj¨ alva uppgett att de har symptom av neuropati, men som inte f˚ att diagnosen perifer neuropati bekr¨ aftad. An- talet observationer fr˚ an den gruppen uppg˚ ar till 73 observationer, 45 p˚ a vad och 28 p˚ a fot. Dessa observationer har klassificerats som neuropatiska, men d˚ a personernas tillst˚ and inte ¨ ar helt s¨ akra har de s¨ arbehandlats fr˚ an de neuropatiska med bekr¨ aftad diagnos i samband med klassificeringen.

Tabell 1 visar en ¨ oversikt ¨ over dessa observationer.

Sjukdomsstatus

Frisk Bekr¨ aftat Neuropatisk Obekr¨ aftat Neuropatisk Totalt

Kroppsdel

Fot 148 9 28 185

Vad 153 18 45 216

Totalt 301 27 73 401

Tabell 1: Tabell som visar antalet observationer f¨ or de olika patienterna samt f¨ or de olika kroppsdelarna m¨ atningar gjorts p˚ a

2

(13)

1 0.87 1

0.79 0.91 1

0.72 0.59 0.64 1

0.45 0.32 0.4 0.84 1

0.05

−0.09

−0.02 0.46 0.83 1

0.78 0.78 0.69 0.24

−0.03

−0.31 1

0.62 0.83 0.72 0.15

−0.15

−0.44 0.86 1

0.55 0.76 0.76 0.16

−0.12

−0.42 0.77 0.93 1

−0.29

−0.33

−0.37

−0.27

−0.23

−0.07

−0.27

−0.26

−0.23 1

−0.14

−0.31

−0.31 0.09 0.19 0.32

−0.33

−0.45

−0.4 0.58 1

0.05

−0.07

−0.16 0.21 0.35 0.46

−0.2

−0.29

−0.28 0.33 0.74 1

−0.68

−0.66

−0.72

−0.77

−0.6

−0.25

−0.45

−0.4

−0.38 0.55 0.22 0.08 1

−0.51

−0.52

−0.6

−0.7

−0.77

−0.54

−0.22

−0.18

−0.18 0.49 0.25 0.04 0.79 1

−0.08 0.04

−0.09

−0.45

−0.72

−0.8 0.25 0.39 0.37 0.24

−0.05

−0.1 0.39 0.69 1

WAF_f1 WAF_f10 WAF_f30 intensity_f1 intensity_f10 intensity_f30 avesize_f1 avesize_f10 avesize_f30 CI300_f1 CI300_f10 CI300_f30 hazard_mode_f1 hazard_mode_f10 hazard_mode_f30

WAF_f1 WAF_f10

WAF_f30

intensity_f1intensity_f10intensity_f30avesiz e_f1

avesiz e_f10

avesiz e_f30

CI300_f1CI300_f10CI300_f30

hazard_mode_f1hazard_mode_f10hazard_mode_f30

−1.0 −0.5 0.0 0.5 1.0 Pearson Correlation

Figur 1: Visualisering av korrelationsmatrisen av kovariaterna. Bl˚ a indikerar negativ korrelation och r¨ od indikerar positiv korrelation. Ljusare f¨ arg inneb¨ ar korrelation n¨ armare 0.

M˚ anga av kovariaterna har en stark korrelation till varandra, vilket kan ses i korrelationsmatrisen i figur 1. Exempel p˚ a korvariater med stark korrelation ¨ ar WAF, Avesize och Hazard mode. CI300 uppvisar d¨ aremot en relativt svag korrelation till de ¨ ovriga.

F¨ or att j¨ amf¨ ora de tre grupperna och se hur de beter sig med olika m¨ atningar, s˚ a har vi skapat l˚ addigram som visar hur m¨ atningen p˚ a kontroll, bekr¨ aftad neuropatiska och obekr¨ aftad neuro- patiska sprider sig vilket vi kan se i figur 2 med tre olika typer av m¨ atningar. Fr˚ an figuren ser vi tydligt att m¨ atningarna p˚ a de obekr¨ aftade patienter ligger mycket n¨ ara p˚ a de neuropatiska patienter.

0.00 0.02 0.04 0.06

WAF_f1

0.00000 0.00005 0.00010 0.00015

intensity_f1

−20000 0 20000 40000

CI300_f1

Kontroll Bekräftad neuropatisk Obekräftad neuropatisk

Figur 2: L˚ addigram som visar hur olika kovariater sprider sig f¨ or de olika patienter beroende p˚ a deras h¨ alsol¨ age . I den v¨ anstra figuren har vi W AF

f 1

, mittersta har vi intensity

_{f 1}

och h¨ ogra har vi CI300

f 1

.

3

(14)

3 Teori och metod

Problemet som unders¨ oktes var kortfattat att utveckla en metod f¨ or att f¨ oruts¨ aga om nya obser- vationer, med ok¨ ant tillst˚ and, kommer fr˚ an friska eller neuropatiska personer. Detta kan brytas ned till 3 huvudsakliga delproblem: vilken klassificeringsmetod som skall anv¨ andas, hur valet av kovariater som anv¨ ands i klassificeringsmetoden genomf¨ ors samt hur modellens noggrannhet kan uppskattas.

I denna del beskrivs hur klassificering och logistisk regression till¨ ampades. Modellfel uppskattades med antingen korsvalidering tillsammans med AUC av ROC eller AIC

_c

. Dimensionsreducering gjordes med Stepwise Backward eller principalkomponentanalys.

3.1 Klassificering

I klassificeringsproblem vill man tilldela en observation av uppm¨ atta v¨ arden x

_i

= (x

_i1

, . . . , x

_ik

) till en av D diskreta klasser y

_i

= c

_d

d¨ ar d = 1, · · · , D [7]. F¨ or N stycken observationer ges varje observation som en rad i en matris X = (x

₁

, . . . , x

_N

)

^T

och motsvarande klasser ges som en kolumnvektor y = (y

₁

, . . . , y

_N

)

^T

enligt tabell 2. Varje vektorelement x

_ij

motsvarar h¨ ar v¨ ardet f¨ or en av k kovariater.

respons y kovariater X y

1

.. . y

_N

x

11

. . . x

1k

.. . . . . .. . x

_{N 1}

. . . x

_{N k}

Tabell 2: Matris f¨ or realiserad data d¨ ar en rad motsvarar en observation.

y kallas h¨ ar f¨ or responsvariabel och kan ses som en funktion av observationen x. I praktiken ¨ ar det ofta om¨ ojligt att hitta denna funktion exakt s˚ a ist¨ allet approximeras y med

ˆ

y = f (x),

d¨ ar f utg¨ ors av en klassificeringsmodell och ˆ y ¨ ar den estimerade klassen observationen x tillh¨ or. I v˚ art fall har observationerna klassificerats beroende p˚ a om m¨ atning utf¨ ors p˚ a en neuropatisk eller frisk person och d¨ arf¨ or har y tv˚ a m¨ ojliga klasser:

y =

0 om observationen uppm¨ atts p˚ a frisk person 1 om observationen uppm¨ atts p˚ a neuropatisk person

F¨ or att best¨ amma f (x) s˚ a att den beskriver sambandet mellan x och y v¨ al anv¨ ands tidigare uppm¨ atta observationer d¨ ar den korrekta klassen ¨ ar k¨ and. Dessa observationer med tillh¨ orande respons anv¨ ands f¨ or att tr¨ ana klassificerningsmodellen, vilket inneb¨ ar att f (x) anpassas till obser- vationernas riktiga klasser.

3.2 Logistisk regression

Logistisk regression ¨ ar en klassisk och v¨ al bepr¨ ovad klassificeringsmetod [8]. Den utg˚ ar fr˚ an att observationerna x och y kommer fr˚ an en stokastisk vektor χ respektive en stokastisk variabel Y och returnerar ett estimat av den betingade sannolikheten P (Y = 1 | χ = x). Att metoden estimerar sannolikheten att observationen tillh¨ or en viss klass ist¨ allet f¨ or bara klassen g¨ or att metoden blir b˚ ade flexibel och tolkningsbar av anv¨ andaren Logistisk regression kan ¨ aven anv¨ andas f¨ or ett godtyckligt antal klasser men i v˚ art fall r¨ acker det med endast klasserna frisk, Y = 0 och neuropatisk, Y = 1.

Med logistisk regression vill man anv¨ anda en linj¨ ar funktion av x f¨ or att beskriva P (Y = 1 | χ = x).

Samtidigt beh¨ over P (Y = 1 | χ = x) + P (Y = 0 | χ = x) = 1 g¨ alla och det returnerade v¨ ardet fr˚ an modellen ska vara i intervallet [0, 1] f¨ or att resultatet skall motsvara en sannolikhet [9]. S˚ a P (Y = 1 | χ = x) = β

0

+ β

1

x

1

. . . β

k

x

k

¨ ar n¨ odv¨ andigtvis inte en giltig modell. Ist¨ allet antas det

4

(15)

linj¨ ara sambandet g¨ alla f¨ or logaritmen av oddsen av sannolikheten P (Y = 1 | χ = x), kallad logit, vilket inneb¨ ar att

logit = log(odds) = log

P (Y = 1 | χ = x) 1 − P (Y = 1 | χ = x)

= β

0

+ β

1

x

1

. . . β

k

x

k

=

log

P (Y = 1 | χ = x) 1 − P (Y = 1 | χ = x)

= β

0

+

k

X

i=1

β

i

x

i

=⇒

P (Y = 1 | χ = x)

1 − P (Y = k | χ = x) = exp β

0

+

k

X

i=1

β

i

x

i

!

=⇒

g(x) := P (Y = 1 | χ = x) =

exp

β

0

+ P

k i=1

β

i

x

i

1 + exp

β

0

+ P

k i=1

β

i

x

i

. (1)

Funktionen g(x) ¨ ar allts˚ a resultatet fr˚ an den logistiska regressionsmodellen. Sj¨ alva modellantagan- det i logistisk regression bygger p˚ a att responsvariabeln f¨ or varje observation Y

i

, i = 1, · · · , N f¨ oljer en Bernoulli-f¨ ordelning. Y

i

antar allts˚ a v¨ ardet 1 med sannolikhet π

i

och v¨ ardet 0 med sannolikheten (1 − π

i

) d¨ ar P (Y

i

= 1|χ = x) = π

i

. Vi har att:

Y

i

∼ Bernoulli(π

i

),

P (Y

i

= y

i

) = π

_i^yⁱ

(1 − π

i

)

^1−yⁱ

(2) F¨ or att uppskatta parametrna i β = (β

0

, β

1

, . . . , β

k

) anv¨ ands maximum likelihood -metoden, vilket inneb¨ ar att likelihoodfunktionen L(β) maximeras med avseende p˚ a parametrarna β. Likelihood- funktionen beskriver hur troligt det ¨ ar att den observerade datan kommer fr˚ an en given distribu- tion med parametrarna β och genom att maximera funktion ges de mest troliga v¨ ardena ˆ β. Givet observerad data x

₁

, . . . , x

_N

med tillh¨ orande klasser y

₁

, . . . , y

_N

¨ ar likelihoodfunktionen definierad som

L(β) =

N

Y

i=1

P (Y

i

) =

N

Y

i=1

π

^y_iⁱ

(1 − π

i

)

^1−yⁱ

. Ofta anv¨ ands logaritmen av likelihoodfunktionen

`(β) =

N

X

i=1

log

π

^y_iⁱ

(1 − π

i

)

^1−yⁱ

(3)

d˚ a denna ofta har maxima i samma punkt som likelihoodfunktionen men ¨ ar enklare att optimera.

F¨ or att skriva (3) som en funktion av parametrarna β anv¨ ands (1) och (2):

`(β) =

N

X

i=1

log

π

^y_iⁱ

(1 − π

i

)

^1−yⁱ

=

N

X

i=1

y

i

log π

i

+ (1 − y

i

) log (1 − π

i

)

=

N

X

i=1

y

i

log π

i

− y

i

log(1 − π

i

) + log(1 − π

i

) =

N

X

i=1

y

i

log

π

i

1 − π

_i

+ log (1 − π

i

)

=

N

X

i=1

y

i



β

0

+

k

X

j=1

β

i

x

ij



 − log



1 + exp



β

0

+

k

X

j=1

β

i

x

ij









d¨ ar vi i den sista likheten har anv¨ ant att (1 − π

_i

) =

_1+exp(β¹

0+P βx)

. F¨ or att maximera `(β) tas

5

(16)

gradienten fram och s¨ atts lika med noll,

0 = ∇(`) =



 



 

 P

N

i=1

y

i

−

^e^β0+

Pk j=1βixij

1+e^β0+

Pk j=1βixij

P

N

i=1

y

_i

x

_i1

−

^xⁱ¹^e^β0+

Pk j=1βixij

1+e^β0+

Pk j=1βixij

. . . P

N

i=1

y

i

x

ip−1

−

^x^ip−1^e^β0+

Pk j=1βixij

1+e^β0+

Pk j=1βixij

,

vilket ger k stycken ickelinj¨ ara ekvationer, lika m˚ anga som antalet kovariater i modellen. L˚ at varje kvot

^e^β0+

Pk j=1βixij

1+e^β0+

Pk

j=1βixij

= p(y

_i

= 1|χ = x

_i.

, β) . I matrisform kan ∇(`) skrivas som:

∇(`) = X

^T

(y − p)

F¨ or att best¨ amma ˆ β anv¨ ands ofta Newton–Raphson algoritmen f¨ or vilken en iteration kan uttryc- kas

β

^new

= β

^old

− ∇

²

(`)

−1

∇(`)

∇

²

(`) = −X

^T

WX

D¨ ar ∇

²

(`) ¨ ar hessianmatrisen och W = p(1 − p), och kallas f¨ or viktmatrisen [10]. Vi f˚ ar:

β

^new

= X

^T

WX

⁻¹

X

^T

Wz

D¨ ar z = Xβ

^old

+ W

⁻¹

(y − p). Som begynnelsev¨ arde brukar β = 0 anv¨ andas. Algoritmen konver- gerar eftersom log-likelihood funktionen ¨ ar konkav.

Med de erh˚ allna v¨ ardena p˚ a ˆ β kan allts˚ a modellen estimera sannolikheten P (y = 1 | χ = x). F¨ or att klassificera observationer till en distinkt grupp, 0 eller 1, kan ett tr¨ oskelv¨ arde p

^∗

anv¨ andas.

Klassificeringsmodellen kan d˚ a skrivas som f (x) = h(g(x), p

^∗

) =

0 om g(x) < p

^∗

1 annars (4)

d¨ ar g(x) betecknar modellen f¨ or logistisk regression vilken ger den estimerade sannolikheten f¨ or att observationen kommer fr˚ an en neuropatisk. h(x, p

^∗

) betecknar klassificeringen som g¨ ors vilket

¨ ar beroende av v¨ ardet p˚ a p

^∗

. Tr¨ oskelv¨ ardet p

^∗

kan allts˚ a ses som en ytterligare parameter till modellen.

3.3 Uppskattning av modellfel

F¨ or att unders¨ oka hur v¨ al en tr¨ anad modell med logistisk regression g

_T

(x) fungerar kr¨ avs m˚ att som kan anv¨ andas f¨ or att dels j¨ amf¨ ora modeller emellan samt beskriva modellens prediktionsf¨ orm˚ aga.

Dessa m˚ att kan beskrivas som estimat av en funktion

Err = L(Y, g

_T

(χ)) (5)

d¨ ar L kan v¨ aljas till olika funktioner och g

_T

(χ) ¨ ar en modell vars parametrar har skattats med n(T ) antal observationer som finns i m¨ angden T = {(y

₁

, x

₁

), (y

₂

, x

₂

), ..., (y

_{n(T )}

, x

_{n(T )}

)}. M¨ angden T ben¨ amns h¨ ar som tr¨ aningsm¨ angd. L brukar v¨ aljas s˚ a att ett litet v¨ arde betyder att g

_T

¨ ar en bra prediktionsmodell f¨ or distributionen.

6

(17)

3.3.1 Tr¨ anings- och valideringsm¨ angd

N¨ ar parametrarna β hos modellen g

T

(χ) skattas, n¨ ar modellen tr¨ anas, maximeras likelihood- funktionen i ekvation (3) med hj¨ alp av tr¨ aningsm¨ angden. Parameterv¨ ardena ˆ β ¨ ar allts˚ a beroende av observationerna i tr¨ aningsm¨ angden, men det ¨ ar inte garanterat att dessa observationer repre- senterar den sanna distributionen. Modellfelet i ekvation (5) syftar till att beskriva felet av en godtycklig dragning fr˚ an den sanna distributionen, oberoende av vilka observationer som ing˚ att i tr¨ aningsm¨ angden.

Det finns olika tillv¨ agag˚ angss¨ att att ber¨ akna ett v¨ antev¨ ardesriktigt estimat av ekvation (5). Om observationer (y

i

, x

i

) ∈ T anv¨ ands f¨ or att estimera Err kommer de i de flesta fall att ge ett bias och det verkliga felet underskattas[10]. Detta eftersom modellen ¨ ar optimerad med avseende p˚ a tr¨ aningsm¨ angden. Om det finns mycket data ¨ ar uppdelning av observationer till tr¨ aningsm¨ angd och m¨ angden som anv¨ ands f¨ or felestimering, valideringsm¨ angd, en vanlig metod. Det inneb¨ ar att observationer antingen tillh¨ or tr¨ aningsm¨ angden T och anv¨ ands f¨ or parameterskattning, eller att de tillh¨ or valideringsm¨ angden f¨ or att estimera felet. Modellfelet estimeras d˚ a genom

d Err = ˆ L(y, g

_T

(X)) med X = (x

_{n(T )+1}

, ..., x

_N

)

^T

och y = (y

_{n(T )+1}

, ..., y

_N

)

^T

Med en slumpvis vald tr¨ anings- och valideringsm¨ angd blir d˚ a observationer som anv¨ ands f¨ or tr¨ aning och validering oberoende av varandra.

3.3.2 Receiver Operating Characteristic (ROC) och Area Under Curve (AUC) En modell med logistisk regression som fungerar bra kommer att ge sm˚ a sannolikheter f¨ or obser- vationer fr˚ an friska personer (y

i

= 0) och stora sannolikheter f¨ or observationer fr˚ an neuropatiska personer (y

_i

= 1). Genom att v¨ alja

L(Y, g

_T

(χ)) = 1 − P (g

_T

(χ

_a

) < g

_T

(χ

_b

) | Y

_a

= 0, Y

_b

= 1) = P (g

_T

(χ

_a

) ≥ g

_T

(χ

_b

) | Y

_a

= 0, Y

_b

= 1) (6) d¨ ar (χ

_a

, Y

_a

) och (χ

_b

, Y

_b

) ¨ ar tv˚ a oberoende dragningar fr˚ an distributionen, uppskattas modellens f¨ orm˚ aga att separera klasserna [11]. En f¨ ordel med detta m˚ att p˚ a modellfel ¨ ar att det beskriver hur v¨ al modellen klassificerar utan att p

^∗

beh¨ over best¨ ammas p˚ a f¨ orhand. D¨ arf¨ or anv¨ andes det b˚ ade f¨ or att j¨ amf¨ ora modeller sinsemellan samt f¨ or att utv¨ ardera klassificeringsf¨ orm˚ agan hos enskilda modeller. Detta gjordes med hj¨ alp av arean under kurvan, f¨ orkortat AUC, f¨ or en s˚ a kallad Receiver Operating Characteristic (ROC).

F¨ or att f¨ orenkla beskrivningen av klassificeringsresultat kan en f¨ orvirringsmatris anv¨ andas, vars utseende visas i tabell 3. D¨ ar kan man se modellens klassificeringar i relation till dess korrekta respons samt hur m˚ anga g˚ anger varje m¨ ojligt utfall intr¨ affat. Till exempel ges v¨ ardet f¨ or false positive, F P , av indikatorfunktionen 1(f (x

i

) = 1, y

i

= 0) som beskriver hur m˚ anga observationer som klassificerats som neuropatiska d¨ ar patienten faktiskt varit frisk.

Korrekt respons

Positiv Negativ

Positiv True Positive (TP) False Positive (FP) 1(f (x

_i

) = 1, y

_i

= 1) 1(f (x

_i

) = 1, y

_i

= 0) Predikerad

respons

Negativ False Negative (FN) True Negative (TN) 1(f (x

i

) = 0, y

i

= 1) 1(f (x

i

) = 0, y

i

= 0)

Tabell 3: Schematisk f¨ orvirringsmatris.

L˚ at T P R och F P R st˚ a f¨ or True Positive Rate samt False Positive Rate. T P R beskriver andelen

7

(18)

observationer fr˚ an neuropaatiska patienter som modellen klassificerat korrekt T P R = T P

T P + F N ,

medan F P R beskriver andelen observationer fr˚ an friska patienter som modellen klassificerat som neuropatiska

F P R = F P F P + T N .

En bra klassificeringsmodell k¨ annetecknas av h¨ og T P R och l˚ ag F P R.

Recieving Operator Characteristic-kurvan, ofta f¨ orkortad ROC-kurva ¨ ar en v¨ alanv¨ and metod f¨ or att utv¨ ardera tr¨ oskelv¨ ardesberoende bin¨ ar klassificering [12]. Metoden baseras p˚ a att se hur T P R f¨ or¨ andras f¨ or olika niv˚ aer av F P R. F¨ or att ˚ astadkomma detta ses T P R och F P R som funktioner av tr¨ oskelv¨ ardet p

^∗

;

T P R(p

^∗

) = y

^T

· ˆ y

kyk = y

^T

· h(g(X), p

^∗

)

kyk samt

F P R(p

^∗

) = (I

N x1

− y)

^T

· ˆ y

k (I

_{N x1}

− y) k = (I

N x1

− y) · h(g(X), p

^∗

) k (I

_{N x1}

− y) k ,

d¨ ar g(X) ¨ ar resultatet fr˚ an v˚ ar logistiska regressionsmodell och h(g(X), p

^∗

) ¨ ar klassificeringen gjord med tr¨ oskelv¨ ardet p

^∗

givet realiseringarna i X och motsvarande responsv¨ arden i y.

F¨ or n˚ agot best¨ amt v¨ arde av respektive funktion ger inverserna T P R

⁻¹

(p

^∗

) och F P R

⁻¹

(p

^∗

) ett tr¨ oskelv¨ arde p

^∗

vilket g¨ or det m¨ ojligt att uttrycka den ena funktionen som en funktion av den andra. Genom att anta ett best¨ amt v¨ arde s p˚ a F P R kan d˚ a T P R uttryckas som

ROC(s) = T P R F P R

⁻¹

(s) , s ∈ [0, 1].

ROC-kurvan kan anv¨ andas f¨ or att visualisera hur v¨ al klassificeringen lyckas separera klasserna med olika tr¨ oskelv¨ arden p

^∗

[10] och arean under denna kurva, AUC (Area Under Curve), kan anv¨ andas till att estimera Err i ekvation (6). Modeller utv¨ arderas allts˚ a med hj¨ alp av

d Err = ˆ L = 1 − AUC = 1 − Z

1

0

ROC(s)ds (7)

som antar v¨ arden mellan 0 och 1. Vid d Err = 0.5 eller st¨ orre ¨ ar klassificeringen inte tillf¨ orlitlig alls, eftersom slumpm¨ assiga gissningar kommer ge lika bra eller b¨ attre resultat. Ju n¨ armare d Err ¨ ar 1, desto tillf¨ orlitligare ¨ ar klassificeringen[12]. F¨ or att ekvation (7) skulle ge ett v¨ antev¨ ardesriktigt estimat av ekvation (6) anv¨ andes enbart valideringsm¨ angden f¨ or att ta fram ROC(s) samt dess motsvarande AUC.

3.3.3 Akaike information criterion (AIC)

Det finns metoder f¨ or att uppskatta modellfelet Err utan att anv¨ anda valideringsm¨ angd. Det kr¨ avs d˚ a ett m˚ att p˚ a hur mycket information som g˚ ar f¨ orlorad d˚ a g(X) anv¨ ands f¨ or att approximera Y . En funktion som kan v¨ aljas som m˚ att p˚ a modellfel ¨ ar d˚ a

L(Y, g

_T

(χ)) = −2E

_T

E

a

[log P (Y

a

|g

_T

(χ

a

))] (8) [13], d¨ ar (χ

_a

, Y

_a

) ¨ ar en observation fr˚ an stickprovet a, vilket ¨ ar oberoende av tr¨ aningsm¨ angden T . Akaike visade 1973 att det maximerade likelihood-v¨ ardet var en approximation av ekvation 8 med en bias ungef¨ ar lika stor som antalet kovariater k [13]. Detta gav upphov Akaike Information Criterion (AIC)[14] och skrivs:

AIC = 2k − 2`.

8

(19)

d¨ ar ` ¨ ar log likelihood-funktionen f¨ or modellen som ges i ekvation (3) anpassad p˚ a tr¨ aningsm¨ angden.

F¨ or att AIC skall estimera ekvation (8) perfekt kr¨ avs ett o¨ andligt stort stickprov. Detta inneb¨ ar att AIC ¨ ar en bra approximation om N ¨ ar stort relativt k. Om ett litet stickprov anv¨ ands (

^N_k

<

40)[13] b¨ or ist¨ allet AIC

c

anv¨ andas. AIC

c

¨ ar AIC med en andra ordningens korrekturterm f¨ or liten stickprovsstorlek och lyder

d Err = AIC

_c

= 2k − 2` + 2k(k + 1) N − k − 1

d¨ ar k ¨ ar antalet kovariater f¨ or den modell som har flest kovariater[13]. D˚ a max(

^N_k

) < 27 f¨ or projektet har AIC

_c

anv¨ ants f¨ or att j¨ amf¨ ora modeller med olika antal kovariater.

3.4 Standardisering

Standardisering g¨ ors f¨ or att tr¨ aningen av klassificeringsmodeller inte skall p˚ averkas av kovariaters olika skalning. Om kovariater har v¨ aldigt olika medelv¨ arden och varians kan detta annars f¨ ordr¨ oja eller helt f¨ orhindra att modellens uppskattning av koefficienter konvergerar. Detta p˚ a grund av att m˚ anga optimeringsalgoritmer, s˚ a som Newton-Raphsonalgoritmen[10], utforskar sin kostnadsfunk- tion stegvis med en konstant stegl¨ angd f¨ or alla variabler.

L˚ at X

_∗,i

vara en kolumnvektor med v¨ arden f¨ or en kovariat i f¨ or alla givna observationer X. Normalt s¨ att utf¨ ors standardisering genom att data transformeras med formeln

X

_∗,i

− X

_∗,i

s(X

_∗,i

) ,

d¨ ar X

_∗,i

¨ ar kovariatv¨ ardenas stickprovsmedelv¨ arde och s(X

_∗,i

) dess stickprovsstandardavikelsen.

Den transformerade datan har d˚ a medelv¨ arde 0 och standardavikelse 1.

Om ett dataset har kraftigt avvikande v¨ arden, s.k. outerliers, kan dessa komma att p˚ averka stan- dardiseringen d˚ a b˚ ade X

∗,i

och s(X

∗,i

) ¨ ar k¨ ansliga f¨ or kraftigt avvikande v¨ arden. Eftersom det finns outliers i v˚ ar data f¨ or ett antal kovariater (se figur 2) gjordes standardisering enligt

X

_∗,i

− m(X

_∗,i

) M AD(X

_∗,i

)

d¨ ar m(X

_∗,i

) ¨ ar medianen och M AD(X

_∗,i

) st˚ ar f¨ or Median Absolute Deviation som uttrycks M AD(X

∗,i

) = median (X

∗,i

− m(X

∗,i

)) .

3.5 Dimensionsreducering

D˚ a antalet kovariater k ¨ ar m˚ anga kan det finnas anledning att f¨ ors¨ oka v¨ alja bort vissa, eller p˚ a andra s¨ att minska antalet parametrar som skall estimeras. De tv˚ a fr¨ amsta anledningarna ¨ ar att

¨ oka modellens prestation genom att undvika ¨ overtr¨ aning och att g¨ ora modellen mer tolkbar [14].

Om det finns ett logistiskt samband mellan X och y och antalet observationer N >> k s˚ a kom- mer modellens uppskattade parametrar ha b˚ ade l˚ agt bias och l˚ ag varians. Om d¨ aremot N inte ¨ ar mycket st¨ orre ¨ an k s˚ a kommer de skattade parametrarnas varians att ¨ oka och modellen ¨ overtr¨ anas, vilket leder till att den inte presterar v¨ al p˚ a ny data. D˚ a N < k ¨ ar klassificeringsproblemet linj¨ art obest¨ amt och det saknas d˚ a en b¨ asta uppskattning vilket ¨ aven inneb¨ ar att parametrarnas vari- ans blir o¨ andlig[14]. Antalet observationer ¨ ar f¨ or v˚ ar data alltid st¨ orre ¨ an antalet kovariater, men f¨ orh˚ allandet kan ¨ and˚ a f¨ orb¨ attras s˚ a att N >> k genom dimensionsreducering. Detta g¨ aller speciellt d˚ a t.ex. bara m¨ atningar fr˚ an fot anv¨ ands, eftersom N ¨ ar mindre i ett s˚ adant fall.

Genom att minska antalet kovariater kan allts˚ a variansen av de skattade parametrarna minskas.

Problemet ¨ ar att om alla kovariater inneh˚ aller unik och relevant information f¨ or klassificeringen

9

(20)

kommer en reducering av antalet dimensioner ¨ oka modellens bias. Detta ¨ ar vad som kallas f¨ or the bias variance tradeoff [10]. Utmaningen med dimensionsreducering handlar allts˚ a om att, om m¨ ojligt, representera data med f¨ arre kovariater p˚ a ett s¨ att som samtidigt beh˚ aller det mesta av den relevanta informationen. De metoder vi anv¨ ant f¨ or att reducera antalet dimensioner tas upp i detta kapitel.

3.5.1 Principalkomponentanalys (PCA)

Principalkomponentanalys (PCA) ¨ ar en metod som ofta anv¨ ands d˚ a man har flera korrelerade kovariater, f¨ or att representera X av observationer som ett mindre antal linj¨ ara kombinationer av de givna kovariaterna[14]. Dessa linj¨ ara kombinationer, ¨ aven kallade principalkomponenter v¨ aljs s˚ a att s˚ a mycket varians som m¨ ojligt beh˚ alls i X efter transformationen. Metoden reducerar allts˚ a dimensionen av X utan att f¨ orhoppningsvis tappa relevant information vilket kan resultera i en b¨ attre klassificering. De nya kovariater som returneras av metoden, principalkomponenterna, ¨ ar

¨

aven helt okorrelerade vilket ocks˚ a kan ge b¨ attre resultat n¨ ar klassificeringsmodeller ska anpassas till data X.

Figur 3: Punktmoln i IR

²

med dess tv˚ a principalkomponenter. Bild h¨ amtad fr˚ an Wikipedia.

¹

Observationerna x

i

, i ∈ [1, N ] i X kan ses som ett punktmoln i IR

^k

. Principalkomponenterna ¨ ar ett upps¨ attning ortogo- nala vektorer d¨ ar den f¨ orsta komponenten motsvarar den riktning med st¨ orst spridning i X, den andra komponenten motsvarar den ortogonala riktningen med n¨ ast st¨ orst sprid- ning, och s˚ a vidare till den sista komponenten som motsvarar den ortogonala riktningen med minst spridning. Ett exem- pel p˚ a ber¨ aknade principalkomponenter f¨ or punktmoln IR

²

kan ses i figur 3.

Kovariansen mellan alla kovariater kan sammanfattas i en k × k-matris, kovariansmatrisen, h¨ ar betecknad Σ. Genom att se en observation som en vektor av stokastiska variab- ler, χ = (K

1

, K

2

, ..., K

k

)

^T

, ¨ ar ett element i kovariansmatri- sen

Σ

ij

= Cov (K

i

, K

j

) = E (K

i

− µ

K_i

) K

j

− µ

K_j

[15]. Med de realiseringar av v¨ arden p˚ a kovariater som finns i X estimeras elementen med

Σ

ij

= 1 N − 1

N

X

n=1

X

ni

− X

∗,i

X

nj

− X

∗,j

d¨ ar X

_∗,i

motsvarar medelv¨ ardet f¨ or kolumnen i i X och s˚ aledes ett estimat f¨ or E [K

_i

]. Egenvek- torerna f¨ or Σ, sorterade fr˚ an st¨ orsta till minsta korresponderande egenv¨ arde, motsvarar principal- komponenterna z

₁

, z

₂

, ..., z

_k

av X [16]. z

₁

¨ ar d˚ a den principalkomponent d¨ ar dess riktning ¨ ar den st¨ orsta variansen f¨ or observationerna i X, z

₂

den n¨ ast st¨ orsta och s˚ a vidare.

Sj¨ alva dimensionsreduceringen gjordes med ett underrum av principalkomponenterna. F¨ or att f¨ orst hitta matrisen med samtliga k principalkomponenter, h¨ ar kallad rotationsmatrisen Z:

Z = [z

₁

, z

₂

, ..., z

_k

] ,

ber¨ aknades den utifr˚ an observationerna i tr¨ aningsm¨ angden. Samtliga observationer, i b˚ ade tr¨ anings- och valideringsm¨ angd transformerades sedan till matrisen T enligt

T = X · Z.

D¨ arefter tr¨ anades och validerades modeller med de i f¨ orsta komponenterna f¨ or i ∈ (1, 2, ..., k).

Detta innebar k iterationer d¨ ar en kolumn i T anv¨ andes i den f¨ orsta iterationen, tv˚ a kolumner i den andra, tills alla kolumner anv¨ andes i den sista iterationen. Det antalet principalkomponenter som gav det minsta modellfelet Err valdes som den b¨ asta varianten.

1Licenserad med Creative Commons Attribution 4.0 International https://creativecommons.org/licenses/by/

4.0/

10

(21)

3.5.2 Stepwise selection

Stepwise selection ¨ ar ett iterativt tillv¨ agag˚ angss¨ att f¨ or att v¨ alja bort kovariater d˚ a en klassifice- ringsmetod tr¨ anas flera g˚ anger och f¨ or varje g˚ ang tas antingen en kovariat bort eller l¨ aggs till. Det finns olika s¨ att att implementera metoden Vid backwards stepwise selection ¨ ar alla kovariater med till en b¨ orjan och succesivt tas den kovariat bort som har minst p˚ averkan p˚ a det uppskattade felet i modellen. I forward stepwise selection sker processen i omv¨ and ordning. Klassificeringsmodellen tr¨ anas f¨ orst med alla kombinationer av endast en kovariat och beh˚ aller sedan den som har st¨ orst p˚ averkan p˚ a felet. Detta upprepas f¨ or n¨ asta kovariat och modellen l¨ agger succesivt till den av de kvarvarande kovariaterna som har st¨ orst p˚ averkan p˚ a felet.

Det g˚ ar teoretiskt att testa alla m¨ ojliga kombinationer av kovariater och d˚ a skulle det ocks˚ a g˚ a att hitta den optimala kovariatupps¨ attningen f¨ or klassificeringsmetoden med den givna datan, men ofta ¨ ar det inte ber¨ akningsm¨ assigt praktiskt att s¨ oka igenom hela utfallsrummet av kovariatkom- binationer. Stepwise selection ¨ ar ett ber¨ akningsm¨ assigt effektivare s¨ att att hitta en tillr¨ akligt bra kombination av kovariater.

Enbart backwards stepwise selection anv¨ andes och implementerades enligt f¨ oljande:

1. Fr˚ an b¨ orjan har man den totala m¨ angden av kovariaterna A = {v

1

, · · · , v

k

}.

2. Err

total

m¨ ats (med AIC eller AUC) med samtliga kovariater.

3. En kovariat v

_i

v¨ aljas bort fr˚ an kovariatm¨ angden och felet Err i fr˚ anvaro av denna kovariaten m¨ ats.

4. Steg 3 upprepas med alla kovariater i = 1, · · · , k. Man sparar de k olika Err.

5. V¨ alj indexet i f¨ or det minsta Err

_i

med (i = 1, · · · , k) och ta bor det motsvarande vs

_i

fr˚ an m¨ angden A, eftersom den tillf¨ or modellen med det minsta f¨ orb¨ attringen.

6. M¨ angden A uppdateras till A = {v

1

, · · · , v

i−1

, v

i+1

, · · · v

k

}.

7. Stegen 2-6 upprepas tills det blir en kovariat kvar i m¨ angden A.

8. Den modellen med det minsta Err

i

d¨ ar i = 1, · · · , k v¨ aljs som b¨ asta modellen.

3.6 Implementation av modellval

F¨ or att kunna avg¨ ora hur v¨ al logistisk regression kunde separera gruppen neuropatiska fr˚ an kon- trollgruppen, dvs validera logistisk regression som modell, uppskattades modellfelet med hj¨ alp av -AUC av ROC f¨ or valideringsm¨ angden baserat p˚ a en modellparametrar skattade med tr¨ aningsm¨ angden.

I logistisk regression beh¨ ovs kovariatrummet f¨ orst vara reducerat innan parametrar kan skattas, d¨ arf¨ or f¨ oregicks modellvalideringen av modellurval d¨ ar en dimensionsreduceringsmetod anv¨ andes f¨ or att hitta ett l¨ ampligt kovariatrum.

3.6.1 Uppdelning till tr¨ aning och validering

Responsen i observationer antas vara beroende av personen som m¨ atningarna gjorts p˚ a. I v˚ ar data finns det flera observationer av samma personer. D¨ arf¨ or skulle inte en slumpm¨ assig uppdelning mel- lan tr¨ anings- och valideringsdata n¨ odv¨ andigtvis kunna betraktas som tv˚ a oberoende datam¨ angder.

N¨ ar observationerna delades upp till tr¨ anings- och valideringsm¨ angd lades d¨ arf¨ or alla observationer fr˚ an en person i samma grupp.

Om medelv¨ ardet f¨ or responsvariabeln Y ¨ ar lika i b˚ ade tr¨ anings- och valideringsm¨ angd inneh˚ aller de b˚ ada m¨ angderna samma andel friska och sjuka vilket tenderar att ge l¨ agre varians i valide- ringsresultatet och modellanpassningen blir b¨ attre ¨ an om andelen friska respektive sjuka skiljer sig kraftigt mellan grupperna [17]. F¨ or att ˚ astadkomma detta gjordes en stratifierad uppdelning d¨ ar observationer fr˚ an kontrollgruppen och de bekr¨ aftat neuropatiska delades upp i validerings- och tr¨ aningsm¨ angd separat. Eftersom vi dessutom ville undvika ett beroende mellan tr¨ anings- och

11

(22)

valideringsm¨ angd gjordes uppdelningen med avseende p˚ a antal personer ist¨ allet f¨ or antal observa- tioner. Konsekvensen av detta blev att stickprovsmedelv¨ ardena av Y i de olika grupperna inte blev fullst¨ andigt identiska d˚ a antal observationer per person skiljer sig n˚ agot.

De observationer som anv¨ andes f¨ or validering var fr˚ an personer i kontrollgruppen och gruppen av bekr¨ aftat neuropatiska. Observationer fr˚ an de obekr¨ aftat neuropatiska anv¨ andes aldrig som valideringsm¨ angd, men i vissa fall i tr¨ aningsm¨ angden.

3.6.2 Korsvalidering

Ett problem med uppdelningen till tr¨ aning- och valideringsm¨ angder f¨ or denna data ¨ ar att antalet observationer ¨ ar starkt begr¨ ansat, s¨ arskilt f¨ or bekr¨ aftat neuropatiska personer. Det inneb¨ ar att risken ¨ ar stor f¨ or att f˚ a neuropatiska personer hamnar i valideringsm¨ angden, vilket i sin tur leder till att estimaten av modellfelet f˚ ar h¨ og varians och blir op˚ alitliga. D¨ arf¨ or anv¨ andes korsvalidering f¨ or att dela upp data till tr¨ aning och validering, vilket m¨ ojligg¨ or att alla observationer kan anv¨ andas till validering[10].

Tillv¨ agag˚ angss¨ attet f¨ or korsvalidering ¨ ar att f¨ orst f¨ ordela alla observationer till P olika delm¨ angder som vi kallar mappar. En observation f¨ orekommer endast i en av mapparna, och antalet obser- vationer i de olika mapparna ¨ ar ungef¨ ar samma. Tr¨ aningen och valideringen itereras sedan P g˚ anger. I varje iteration utg¨ or en av mapparna valideringsm¨ angden, medan resterande mappar utg¨ or tr¨ aningsm¨ angden. En mapp utg¨ or valideringsm¨ angd endast i en av iterationerna [10]. I figur 4 visas en iteration av korsvalidering med P = 4, n¨ ar andra mappen anv¨ andes som valideringsm¨ angd och observationer i resterande mappar anv¨ ands som tr¨ aningsm¨ angd.

1 Träning

2 Validering

3 Träning

4 Träning

Figur 4: De olika mapparna som anv¨ ands f¨ or tr¨ aning och validering, vid den andra iterationen. Varje ruta innefattar en mapp med observationer. Tr¨ aningsm¨ angden utg¨ ors av alla observationer som finns i gula mappar, medan valideringsm¨ angden enbart inneh˚ aller observationer fr˚ an den andra mappen.

Uppdelningen till mapparna gjordes enligt 3.6.1, d¨ ar antalet personer i en mapp fr˚ an en klass motsvarade 1/P av de olika personerna fr˚ an klassen. Eftersom alla personer inte stod f¨ or exakt lika m˚ anga observationer blev storlekarna p˚ a de olika mapparna n˚ agot varierande.

Det har visats att om P v¨ aljs till ett v¨ arde mellan 2 och 5 f˚ ar valideringsresultaten en h¨ ogre varians

¨ an om P v¨ aljs till 10 [17]. Samtidigt blir variansen h¨ ogre d˚ a P v¨ aljs f¨ or stort, i extremfallet P = N blir variansen h¨ ogre ¨ an om P = 5[18]. D¨ arf¨ or ¨ ar 5 eller 10 vanliga val av P .

Eftersom antalet observationer fr˚ an de bekr¨ aftat neuropatiska ¨ ar mycket f˚ a anv¨ andes P = 4.

F¨ or vissa fall, t.ex. d˚ a bara observationer uppm¨ atta p˚ a fot unders¨ oktes, hade ett st¨ orre v¨ arde p˚ a P inneburit att valideringsm¨ angden ibland bara inneh˚ allit endast en observation fr˚ an klassen neuropatiska. Precis som i fallet P = N skulle d˚ a troligen variansen av resultatet bli stor ¨ aven f¨ or P ≥ 5.

3.6.3 Yttre korsvalidering

Implementationen med korsvalidering syftade till att uppskatta felet av en modell med para- metrar och dimensionsreducering. F¨ or att hitta vilken dimensionsreducering som b¨ ast passade tr¨ aningsm¨ angden beh¨ ovdes ¨ aven d˚ a modellfel uppskattas. D¨ arf¨ or delades implementationen upp till tv˚ a valideringar: en yttre validering n¨ ar modellfelet hos modeller som genomg˚ att dimensionsre- ducering testades, samt en inre validering som returnerade vilken dimensionsreducering som skulle anv¨ andas i den yttre valideringen.

12

(23)

Den yttre korsvalideringen anv¨ andes f¨ or att unders¨ oka hur bra logistisk regression som modell kun- de till¨ ampas f¨ or att skilja klasserna. F¨ or varje iteration av korsvalideringen ber¨ aknades parametrar- na till en modell baserat p˚ a ett kovariatrum best¨ amt av en inre korsvalidering p˚ a tr¨ aningsm¨ angden.

Innan modellen tr¨ anades standardiserades tr¨ anings- och valideringsm¨ angderna enligt 3.4 med v¨ arden p˚ a median och MAD fr˚ an tr¨ aningsm¨ angden. Modellparametrar skattades sedan med hj¨ alp av tr¨ aningsdata, och validering genomf¨ ordes genom att applicera denna tr¨ anade modell p˚ a den standardiserade valideringsm¨ angden.

Med

g =





 g

κ(1)

.. . g

_κ(i)

.. . g

_{κ(N )}







d¨ ar κ(i) motsvarar mappen som observation i tillh¨ or och g

_κ(i)

¨ ar den modellen som har anpassats av tr¨ aningsm¨ angden (dvs alla mappar f¨ orutom κ(i)) anges felet f¨ or modellerna g som best¨ ams genom korsvalideringen ben¨ amns h¨ ar som CV(g).

Efter att alla iterationer av den yttre korsvalideringen k¨ orts anv¨ andes alla modeller framtagna genom inre korsvalidering genom

CV(g) = 1 − AUC (9)

AIC

c

anv¨ andes inte h¨ ar eftersom m˚ attet mer beskriver hur v¨ al modeller passar observationerna snarare ¨ an att beskriva hur v¨ al klassificeringen med modellen blev.

3.6.4 Modellurval i inre validering

F¨ or att hitta ett l¨ ampligt kovariatrum baserat p˚ a tr¨ aningsm¨ angden anv¨ andes inre korsvalide- ringen d¨ ar dimensionreduceringsmetoderna Backward Stepwise Selection(3.5.2) eller PCA(3.5.1) anv¨ andes. Backwise Stepward Selection gav en m¨ angd med kovariater medan PCA gav ett antal principalkomponenter.

I varje varv av n˚ agon av dimensionreduceringsmetoderna gjordes en ny uppdelning av tr¨ aningsm¨ angd till fyra mappar och fyra valideringsiterationer genomf¨ ordes. Modellfelet CV uppskattades antingen som i (9) eller med

CV(g) = AIC

c

.

H¨ ar testade endast en modellvariant g, eftersom AIC

c

ber¨ aknas utan korsvalidering. Den kovari- atm¨ angden respektive de m f¨ orsta principalkomponenterna, beroende p˚ a dimensionsreducerings- metod, som gav minst v¨ arde f¨ or n˚ agot av dessa m˚ att anv¨ andes sedan i yttre korsvalidering. Inre korsvalidering med PCA exemplifieras i figur 5.

13

(24)

Figur 5: Inre korsvalidering d˚ a PCA anv¨ ands som dimensionsreducering och observationer x; κ(x) = 4 anv¨ ands som valideringsm¨ angd. 1. Tr¨ aningsm¨ angd, x; κ(x) 6= 4, anv¨ ands till modellurval. 2. Det antal komponenter m som ger l¨ agst fel i inre korsvalidering v¨ aljs och skickas till yttre korsvalidering. 3. Para- metrar f¨ or g

−4

skattas med hj¨ alp av samma data som anv¨ ants i inre korsvalidering och antal komponenter m fr˚ an inre korsvalidering. 4. Modellfel av g

−4

uppskattas med hj¨ alp av valideringsm¨ angd.

3.7 Unders¨ okning av variationer i implementation

Metoden f¨ or klassificering med logistisk regression testades i flera variationer med avseende p˚ a fyra olika aspekter:

1. Vilka observationer som anv¨ andes beroende p˚ a vilken kroppsdel m¨ atningarna ¨ ar gjorda p˚ a:

vad, fot eller dessa kombinerade.

2. Med eller utan observationer fr˚ an neuropatiska personer vars diagnos inte fastst¨ allts i tr¨ aningsm¨ angd.

3. Metod f¨ or dimensionsreducering: ingen, PCA eller Backward Stepwise Selection

4. Metod f¨ or modellj¨ amf¨ orelse i inre korsvalidering n¨ ar n˚ agon dimensionsreduceringsmetod anv¨ andes: korsvalidering och AU C eller AIC

c

Alla m¨ ojliga kombinationer provades, vilket totalt uppg˚ ar till 30 stycken.

3.7.1 Observationer grupperat per kroppsdel

Modeller med observationer fr˚ an tre olika m¨ angder baserat p˚ a vilken kroppsdel de uppm¨ atts p˚ a tes- tades. De tre observationsm¨ angderna var observationer fr˚ an enbart vad, observationer fr˚ an enbart fot eller observationer fr˚ an b˚ ada. F¨ or var och en av m¨ angderna anv¨ andes samtliga observationer i m¨ angden f¨ or b˚ ade modelltr¨ aning och validering.

3.7.2 Obekr¨ aftat neuropatiska i tr¨ aningsm¨ angden

Samtidigt som det fanns v¨ aldigt f˚ a observationer fr˚ an neuropatiska personer som f˚ att en be- kr¨ aftad l¨ akardiagnos var dessa observationer ofta lika de neuropatiska som inte hade en bekr¨ aftad l¨ akardiagnos. De som inte hade en bekr¨ aftad diagnos ans˚ ags f¨ or os¨ akra f¨ or att uppskatta modellfel med, men eftersom de var s˚ a pass lika de bekr¨ aftat neuropatiska testades modeller som tr¨ anats med de bekr¨ aftat neuropatiska i tr¨ aningsm¨ angden. F¨ or dessa modeller blev antalet observationer fr˚ an neuropatiska i tr¨ aningsm¨ angden markant fler. F¨ or exempelvis fot best˚ ar d˚ a tr¨ aningsm¨ angden av drygt 30 observationer ist¨ allet f¨ or knappt 7, vilket troligen f˚ angar mer av distributionen.