Klassificering av neuropati baserat p˚ a svettm¨ onster
Examensarbete f¨ or kandidatexamen i matematik vid G¨ oteborgs universitet Kandidatarbete inom civilingenj¨ orsutbildningen vid Chalmers
Johan Broberg Hussein Hamoodi Henrik H˚ akansson Jonathan Kerr
Institutionen f¨ or Matematiska vetenskaper CHALMERS TEKNISKA H ¨ OGSKOLA G ¨ OTEBORGS UNIVERSITET
G¨ oteborg, Sverige 2018
Klassificering av neuropati baserat p˚ a svettm¨ onster
Examensarbete f¨ or kandidatexamen i matematisk statistik vid G¨ oteborgs universitet Hussein Hammodi
Kandidatarbete i matematik inom civilingenj¨ orsprogrammet Automation och meka- tronik vid Chalmers
Johan Broberg
Kandidatarbete i matematik inom civilingenj¨ orsprogrammet Informationsteknik vid Chalmers
Henrik H˚ akansson
Kandidatarbete i matematik inom civilingenj¨ orsprogrammet Kemiteknik vid Chalmers Jonathan Kerr
Handledare: Aila S¨ arkk¨ a och Anders Hildeman Examinator: Maria Roginskaya och Ulla Dinger
Institutionen f¨ or Matematiska vetenskaper CHALMERS TEKNISKA H ¨ OGSKOLA G ¨ OTEBORGS UNIVERSITET
G¨ oteborg, Sverige 2018
F¨ orord
Vi vill tacka v˚ ara handledare Anders Hildeman och Aila S¨ arkk¨ a f¨ or betydande st¨ ottning och ett stort engagemang.
F¨ or projektet har tidslogg kontinuerligt f¨ orst individuellt per gruppmedlem. ¨ Aven en projektdag- bok har f¨ orts p˚ a veckobasis d¨ ar en gruppmedlem per vecka har summerat det utf¨ orda arbetet. H¨ ar f¨ oljer en bidragsrapport som f¨ ortydligar gruppmedlemmarnas individuella prestationer.
Ansvarsf¨ ordelning
Gruppmedlemmarna har s¨ allan haft ˚ aterkommande ansvarspunkter - d¨ aremot har arbetet delats upp s˚ a att vissa uppgifter har genomf¨ orts gemensamt i grupp och andra har delats ut till par eller enskilda gruppmedlemmar. Ett ansvarsomr˚ ade str¨ ackte sig oftast ¨ over en till tv˚ a veckor. Exempel p˚ a ett ansvarsomr˚ ade kunde vara att skriva en kodsnutt i R som skulle utf¨ ora en viss sak eller skriva p˚ a ett stycke i rapporten. Vilka som huvudsakligen jobbade med vad syns i styckena Metod och implementation samt rapportskrivande.
Skrivande av dagbok gjordes veckovis i av alla gruppmedlemmar i roterande ordning.
Planering
Gruppen lade vecka till vecka upp en plan f¨ or vad som beh¨ ovde g¨ oras och f¨ ordelade sedan gemen- samt arbetet sinsemellan. H¨ ar best¨ amdes ocks˚ a arbetstider och att g¨ ora listor i Trello, ett web- baserat planeringsverktyg, vilket mestadels sk¨ ottes av Henrik. F¨ or rapportskrivningen skedde mindre gemensam planering av vad som skulle g¨ oras och gruppmedlemmarna skrev nya stycken eller fyllde befintlig text d¨ ar det ans˚ ags beh¨ ovas.
Metod och implementation
Vilka metoder som skulle anv¨ andas diskuterades och beslutades gemensamt i gruppen. Sj¨ alva implementeringarna, i v˚ art fall kodsnuttar i R, gjordes antingen i par eller enskilt. Tabellen nedan visar de huvudsakliga implementeringar som varje person gjorde.
Metod Jonathan Johan Henrik Hussein
S¨ atta samma yttre och inre korsvalidering X X X
Testa olika modellfelsuppskattningar X X X
Dimensionsreducering (PCA och Backward stepwise) X X X X
Splittra data till tr¨ aning och validering X X
Grundl¨ aggande unders¨ okning av data X X X X
M¨ ojligg¨ ora modeller baserat p˚ a olika delm¨ angder fr˚ an data X X
Generering av resultat och plottar till rapport X
Logistisk regression X X X
Visualisera korrelationen X
Skapa och testa linj¨ arkombinationer av kovariater X X
Rapportskrivande
Tabellen nedan visar vilka personer som huvudsakligen har skrivit p˚ a de olika kapitlen eller delka-
pitlen. Dock har samtliga gruppmedlemmar kontinuerligt l¨ ast igenom alla delar i rapporten och
kommit med f¨ orb¨ attringsf¨ orslag.
Kapitel Delkapitel Jonathan Henrik Hussein Johan
Abstract X X X
Popul¨ arvetenskaplig X
Inledning Bakgrund X
Syfte X
Avgr¨ ansningar X
Data X X X X
Teori och Metod Klassificering X X
Logistisk Regression X X
Modellfel X X X X
Standardisering X X
Dimensionsreducering X X X
Implementation av modellval X X Unders¨ okning av variationer... X X
Resultat X
Diskussion Dimensionsreducering och... X X X
Val av kroppsdel X X
Hantering av tr¨ oskelv¨ arde X X
J¨ amf¨ orelse med tidigare forskning X
Framtida utveckling X X
Slutsats X X
Appendix J¨ amf¨ orelse mellan alla... X
ROC-kurvor X
Matematisk f¨ orklaring... X X
Spridning av kovariaterna X
Popul¨ arvetenskaplig presentation
Att uppt¨ acka sjukdomen perifer neuropati hos personer som ¨ ar tidigt i sjukdomsf¨ orloppet har l¨ ange varit sv˚ art eftersom det har saknats enkla och snabba metoder. Vi konstruerade en matematisk modell som bygger p˚ a m¨ atningar av patienters svettningar p˚ a vad eller fot f¨ or att avg¨ ora om patienten b¨ ar p˚ a sjukdomen eller inte. Modellen presterade mycket bra, vilket inneb¨ ar att tidigare testmetoder kan komma att ers¨ attas i framtiden.
Perifer neuropati inneb¨ ar att en eller flera perifera nerver, vilket ¨ ar nervtr˚ adar som inte ¨ ar en del av hj¨ arnan eller ryggm¨ argen, inte fungerar som de ska. Symptom som uppkommer tidigt ¨ ar stickningar och domningsk¨ anslor i armar och ben. Senare uppkommer ofta allvarligare besv¨ ar som avsaknad av k¨ ansel eller f¨ orsvagade muskler. Orsaken till att sjukdomen uppkommer ¨ ar olika fr˚ an fall till fall, vanliga exempel ¨ ar diabetes, cellgiftbehandling eller alkoholism. Det ¨ ar sj¨ alva orsaken som avg¨ or vilken behandling en patient ska f˚ a - men innan det kan ske m˚ aste l¨ akaren f˚ a reda p˚ a om patienten ens har perifer neuropati eller inte. De mest exakta metoder som anv¨ ands idag bygger p˚ a omfattande l¨ akarunders¨ okningar, vilka ofta f¨ orst p˚ ab¨ orjas n¨ ar patienten har haft besv¨ ar ett tag.
F¨ orhoppningen med den nya testmetoden ¨ ar att den ska vara lika precis men enklare och mindre tidskr¨ avande, s˚ a att patienter redan i f¨ orsta l¨ akarkontakten testas.
Det finns olika typer av neuropati beroende p˚ a hur m˚ anga och vilka typer av nerver som p˚ averkas.
I flera typer av perifer neuropati blir sm˚ a nervtr˚ adar som inte isoleras med ett h¨ olje av substansen myelin tidigt p˚ averkade av sjukdomen. Eftersom dessa typer av nerver p˚ averkar svettningsfunk- tionen kan onormal svettning tyda p˚ a perifier neuropati.
Man kan aktivera svettning hos en patient med hj¨ alp av en str¨ om av ¨ amnen som stimulerar re- ceptorer i svettk¨ ortlarna. I redan etablerade testmetoder har man bland annat f¨ ors¨ okt uppskatta hur mycket svett som produceras och sedan anv¨ anda det f¨ or att avg¨ ora huruvida patienten har neuropati eller inte. Den nya metoden ¨ ar att ist¨ allet anv¨ anda en specialtillverkad kamera som filmar hela svettf¨ orloppet i h¨ og uppl¨ osning. Det m¨ ojligg¨ or mer information om svettningen ¨ an vad de tidigare metoderna kunde ge, exempelvis hur mycket svett varje separat svettk¨ ortel producerar under testet.
I tidigare unders¨ okningar har man sett en stor skillnad i svettf¨ orlopp fr˚ an patienter som lider av neuropati mot kontrollpersoner. Det som vi ist¨ allet fokuserade p˚ a var att ta fram en matematisk modell som anv¨ ande en m¨ atning fr˚ an den specialtillverkade kameran f¨ or att avg¨ ora om m¨ atningen gjordes p˚ a en frisk eller sjuk individ. Inspelningar med kameran utf¨ orda p˚ a testpersonernas vader och f¨ otter anv¨ andes, och resultaten tyder p˚ a att m¨ atningar fr˚ an vaderna fungerar b¨ ast f¨ or att uppt¨ acka personer som har sjukdomen.
Modellen anv¨ ande stillbilder fr˚ an en inspelning med kameran vid tre olika tidpunkter under testet.
Fr˚ an varje bild ber¨ aknades ett antal m˚ att som relaterade till hur mycket patienten svettades vid den tidpunkten. Sedan anv¨ andes dessa utr¨ aknade m˚ att som indata till modellen. I det dataunderlag som vi anv¨ ande fanns det ¨ aven information om personernas sjukdomstillst˚ and, det vill s¨ aga om de hade neuropati eller inte. Sjukdomstillst˚ andet hade unders¨ okts med andra testmetoder ¨ an m¨ atning av svett. N¨ ar modellen ber¨ aknades utnyttjades b˚ ade information man k¨ ande till om svettningarna fr˚ an de tre stillbilderna och om personernas sjukdomstillst˚ and.
F¨ or att avg¨ ora hur bra modellen fungerade i praktiken skickades bara de m˚ att som ber¨ aknats fr˚ an stillbilderna in till modellen, och informationen om sjukdomstillst˚ andet var dolt. Modellen gav i sin tur tillbaka ett svar hur sannolikt det var att personen som m¨ atningen gjordes p˚ a hade perifer neuropati. Modellsvaren j¨ amf¨ ordes d˚ a med den k¨ anda informationen om personens verkliga sjukdomstillst˚ and. Trots att den matematiska modellen som anv¨ andes byggde p˚ a en relativt enkel metod kunde den i 96 % av fallen korrekt avg¨ ora om en en inspelning gjorts p˚ a en sjuk eller frisk person - utan att allts˚ a k¨ anna till den informationen p˚ a f¨ orhand.
Dock finns det en del arbete kvar att g¨ ora innan den nya metoden kan till¨ ampas i v˚ arden. Ex-
empelvis beh¨ over man ta st¨ allning till exakt vad man f¨ orv¨ antar sig att den matematiska modellen
ska ˚ astadkomma. Det g˚ ar att justera metoden s˚ a att den blir b¨ attre p˚ a att korrekt ge svaret att
de ¨ ar sjuka f¨ or personer som lider av perifer neuropati - men d˚ a p˚ a bekostnad av att fler som inte
b¨ ar p˚ a sjukdomen felaktigt f˚ ar svaret ¨ ar att de ¨ ar sjuka fr˚ an modellen. Det g˚ ar ocks˚ a att justera
s˚ a att m¨ atningar fr˚ an friska personer med stor sannolikhet bed¨ oms vara friska - nackdelen blir d˚ a
att fler sjuka felaktigt f˚ a svaret att de ¨ ar friska. Om syftet med testet fr¨ amst ¨ ar att f˚ anga upp
m˚ anga sjuka ¨ ar den f¨ orstn¨ amnda b¨ ast, men om man ist¨ allet vill filtrera ut de som s¨ akert ¨ ar sjuka
fr˚ an resten skulle den senare vara att f¨ oredra.
Sammanfattning
Syftet med unders¨ okningen var att avg¨ ora klassificerbarheten av patienter med perfier neuro- pati baserat p˚ a svettm¨ onster med hj¨ alp av logistisk regression. V˚ ar data inneh¨ oll tre grupper:
kontroller, neuropatiska och obekr¨ aftat neuropatiska, individer som misst¨ anks lida av neuropati men ¨ annu inte f˚ att det bekr¨ aftat. De obekr¨ aftat neuropatiska anv¨ andes bara i tr¨ aningm¨ angden och inte i valideringsm¨ angden. Data som anv¨ andes har m¨ atts p˚ a fot eller vad.
Klassificerbarheten unders¨ oktes f¨ or data uppm¨ att p˚ a patienters fot, vad samt f¨ or b˚ ada kropps- delarna tillsammans. Unders¨ okningen gjordes med tv˚ a korsvalideringar, en inre f¨ or att best¨ amma ett l¨ ampligt kovariatrum och en yttre f¨ or att avg¨ ora den faktiska klassificerbarheten.
Det b¨ asta s¨ attet att klassificera enligt unders¨ okningen var att anv¨ anda data fr˚ an enbart va- der och att anv¨ anda dimensionsreducering med principialkomponentanalys f¨ or 15 kovariater.
Med hundra simuleringar av v˚ ar modell blev medelv¨ ardet av arean under grafen fr˚ an recei- ver operating characteristic-kurvan 0.96 med en standardavvikelse p˚ a 0.01. Om de tv˚ a olika klassificeringsfelen v¨ arderades lika h¨ ogt och modellen designades s˚ a att b˚ ada feltyperna hade lika stor sannolikhet kunde den anv¨ anda metoden klassificera med ca 10 % fel. Under un- ders¨ okningen fanns problem med att datam¨ angden inneh¨ oll f˚ a neuropatiska patienter. F¨ or framtida forskning hade det varit intressant att ut¨ oka m¨ angden sjuka.
Abstract
The purpose of this investigation was to determine the ability to classify peripheral neuropa- thy patients based on data from sweat patterns using logistic regression. Our data contained three groups: controls, neuropathics and individuals believed to be neuropathic but were not yet confirmed. Subjects from the last group was only used as part of a training set and not as validation set. The data was measured from calves and feet.
The ability to classify patients was examined by using data from feet, calves, or both. Our investigation was conducted using two nested crossvalidations, one inner to determine the ap- propriate dimensional space and one outer to evaluate the performance of the classification.
The best way to classify was determined to be on data from only calves with dimensionality re-
duction using principal component analysis from 15 covariates. With one hundred simulations
of this method the area under the curve for the receiver operating characteristic-curve was on
average 0.96 with a standard deviation of 0.01. If the two possible types of classification errors
were considered equal and the model was designed to have the same proportion of errors the
method was able to classify with only about 10% error. A problem during the investigation
was that the data being used had very few neuropathic patients. For future research it would
be interesting to expand the data to contain more neuropathics.
Inneh˚ all
1 Inledning 1
1.1 Syfte . . . . 1
1.2 Avgr¨ ansningar . . . . 1
2 Data fr˚ an svettm¨ onster 2 3 Teori och metod 4 3.1 Klassificering . . . . 4
3.2 Logistisk regression . . . . 4
3.3 Uppskattning av modellfel . . . . 6
3.3.1 Tr¨ anings- och valideringsm¨ angd . . . . 7
3.3.2 Receiver Operating Characteristic (ROC) och Area Under Curve (AUC) . . 7
3.3.3 Akaike information criterion (AIC) . . . . 8
3.4 Standardisering . . . . 9
3.5 Dimensionsreducering . . . . 9
3.5.1 Principalkomponentanalys (PCA) . . . . 10
3.5.2 Stepwise selection . . . . 11
3.6 Implementation av modellval . . . . 11
3.6.1 Uppdelning till tr¨ aning och validering . . . . 11
3.6.2 Korsvalidering . . . . 12
3.6.3 Yttre korsvalidering . . . . 12
3.6.4 Modellurval i inre validering . . . . 13
3.7 Unders¨ okning av variationer i implementation . . . . 14
3.7.1 Observationer grupperat per kroppsdel . . . . 14
3.7.2 Obekr¨ aftat neuropatiska i tr¨ aningsm¨ angden . . . . 14
3.7.3 Unders¨ okning av modellvarianter . . . . 15
4 Resultat 15 5 Diskussion 18 5.1 Dimensionsreducering och uppskattning av modellfel . . . . 18
5.2 Val av kroppsdel f¨ or m¨ atning . . . . 18
5.3 Hantering av tr¨ oskelv¨ arde . . . . 19
5.4 J¨ amf¨ orelse med tidigare forskning . . . . 19
5.5 Framtida utveckling . . . . 19
6 Slutsatser 20 A J¨ amf¨ orelse mellan alla modellvariationer 23 B ROC-kurvor f¨ or olika kroppsdelar 24 C Matematiska f¨ orklaring av kovariater 25 C.0.1 CI300 . . . . 25
C.0.2 Hazard Mode . . . . 26
D Spridningen av kovariaterna i de olika grupperna 27 D.1 Data fr˚ an b˚ ade fot och vad . . . . 27
D.2 Data fr˚ an bara fot . . . . 28
D.3 Data fr˚ an bara fot . . . . 29
1 Inledning
Perifer neuropati[1] ¨ ar ett generellt begrepp f¨ or dysfunktionalitet av en eller flera perifera nerver, nervtr˚ adar som inte ¨ ar en del av hj¨ arnan eller ryggm¨ argen. Tidiga symptom ¨ ar exempelvis stick- ningar och domningsk¨ anslor i armar och ben. Senare uppkommer allvarligare komplikationer s˚ a som avsaknad av k¨ ansel eller f¨ orsvagade muskler. Den underliggande orsaken till besv¨ aren ¨ ar oftast helt individuell f¨ or varje fall, men vanliga exempel ¨ ar diabetes, cellgiftbehandling eller alkoholism.
Vilken typ av behandling som ¨ ar till¨ amplig beror helt p˚ a orsaken till besv¨ aren. Eftersom tillst˚ andet f¨ orv¨ arras med tiden ¨ ar det viktigt att behandling inleds s˚ a tidigt som m¨ ojligt.
Det finns olika typer av neuropati beroende p˚ a hur m˚ anga och vilka typer av nerver som p˚ averkas.
I flera typer av perifer neuropati blir sm˚ a nervtr˚ adar som inte isoleras med ett h¨ olje av substansen myelin, omyeliniserade nervtr˚ adar[2], tidigt p˚ averkade av sjukdomen. D¨ arf¨ or kan abnormitet i funktionen hos de omyeliniserade nervtr˚ adarna indikera ett tidigt stadium av perifer neuropati. D˚ a svettk¨ ortlar stimuleras av omyeliniserade nervtr˚ adar kan m¨ atning av svettuts¨ ondring[3] anv¨ andas f¨ or att detektera abnormitet i funktionen, vilket d˚ a kan inneb¨ ara b˚ ade under- och ¨ overproduktion av svett.
Id´ een att m¨ ata svettuts¨ ondring har till¨ ampats i flera olika varianter av tester. En av de mest anv¨ anda metoderna ¨ ar Quantitative sudomotor axon reflex test (QSART). Metoden g˚ ar ut p˚ a att f¨ orst stimulera svettk¨ ortlarna p˚ a en liten yta med hj¨ alp av en str¨ om av ¨ amnen som binder till receptorer i svettk¨ ortlarna. D¨ arp˚ a m¨ ats luftfuktigheten ¨ over ytan som stimulerats f¨ or att uppskatta volymen svett som produceras ¨ over tid fr˚ an ytan. I en studie[4] visades det att 74% av 125 personer som led av neuropati uppvisade anormala resultat p˚ a QSART j¨ amf¨ ort med en kontrollgrupp.
Provitera et al. [5] presenterade en modifierad variant av svettestet d¨ ar en specialtillverkad kame- ra filmade svettningen i h¨ og uppl¨ osning under 5 minuter. Denna metod ger ¨ aven information om svettningen hos varje svettk¨ ortel individuellt. Loavenbruck et al. [6] unders¨ okte resultat fr˚ an ka- meratestet mer ing˚ aende med fokus p˚ a m˚ atten total svettning, svetthastighet per svettk¨ ortel samt densitet av svettk¨ ortlar p˚ a olika kroppsdelar. Det konstaterades att den st¨ orsta skillnaden mellan kontrollgruppen och de neuropatiska personerna var som st¨ orst f¨ or stimuleringar p˚ a vad och fot.
Dessutom visades det att j¨ amf¨ ort med kontrollgruppen hade de neuropatiska l¨ agre svetthastighet per svettk¨ ortel i 90% av fallen p˚ a vaden och 80 % av fallen p˚ a foten.
Resultaten i Loavenbrucks unders¨ okning tyder p˚ a att personer med perifer neuropati uppvisar resultat fr˚ an svettester som i h¨ og grad ¨ ar skilda fr˚ an friska. Med den kunskap om maskininl¨ arning som numera finns l¨ attillg¨ anglig kan det t¨ ankas att filminspelningar fr˚ an svettestet l¨ ampar sig f¨ or att automatiskt best¨ amma patientens h¨ alsotillst˚ and. Vi unders¨ oker d¨ arf¨ or om det, med data fr˚ an svettester, g˚ ar att ta fram en klassificeringsmodell som kan avg¨ ora om en ny inspelning med kameran fr˚ an ett svettest kommer fr˚ an en frisk eller neuropatisk person.
1.1 Syfte
Syftet ¨ ar att unders¨ oka hur v¨ al klassificeringsmetoder kan till¨ ampas f¨ or att identifiera patienter som lider av perifer neuropati, baserat p˚ a observationer med de 15 olika m˚ atten. Vi vill ¨ aven ta reda p˚ a vilka m¨ atningar, utifr˚ an om de ¨ ar uppm¨ atta p˚ a vad, fot eller b˚ ada kroppsdelarna sammanslaget, som l¨ ampar sig b¨ ast f¨ or klassificering.
1.2 Avgr¨ ansningar
Klassificering och maskininl¨ arning ¨ ar breda omr˚ aden som omfattar fler relevanta metoder ¨ an vad som kunnat behandlas i detta projekt. Vi har valt att utg˚ a fr˚ an klassificeringsmetoden logistisk regression som ¨ ar en relativt enkel metod, f¨ or att snabbt kunna utf¨ ora och f˚ a f¨ orst˚ aelse f¨ or klassi- ficering. Vi har fokuserat p˚ a att utforska olika varianter av logistisk regression f¨ or att hitta en s˚ a bra slutgiltig modell som m¨ ojligt f¨ or denna klassificeringsmetod.
Under arbetets g˚ ang fick vi tillg˚ ang till nytt filmmaterial av patienters svettproduktion som inte har anv¨ ands. Detta material kom s˚ a pass sent och f¨ or att kunna anv¨ anda det hade de spatiella m˚ atten beh¨ ovts r¨ aknas ut ¨ aven f¨ or dessa filmer s˚ a att informationen skulle kunna anv¨ andas tillsammans
1
med den andra datan. Hade vi haft m¨ ojlighet att generera ytterligare data fr˚ an dessa filmer s˚ a kunde det m¨ ojligtvis ha bidragit till en b¨ attre klassificeringsmodell.
2 Data fr˚ an svettm¨ onster
Arbetet har gjorts p˚ a en datam¨ angd som best˚ ar av fem olika spatiala m˚ att utr¨ aknade fr˚ an de bilder som tagits med Loavenbrucks kamera, p˚ a n˚ agon av f¨ ors¨ okspersonens f¨ otter eller vader. Data kommer fr˚ an 401 filminspelningar av svettm¨ onster fr˚ an 185 olika f¨ ors¨ okspersoner, d¨ ar en inspel- ning motsvarar en observation. F¨ ors¨ okspersonerna best˚ ar av b˚ ade personer som lider av neuropati och personer som inte g¨ or det. F¨ or varje observation har de spatiala m˚ atten ber¨ aknats vid tre olika tidpunkter: 1, 10 samt 30 sekunder. Ett spatialt m˚ att f¨ or en viss tidpunkt ben¨ amns h¨ ar som kovariat och eftersom det finns fem m˚ att vid tre olika tidpunkter finns det allts˚ a sammanlagt 15 kovariater.
De fem spatiala m˚ atten ¨ ar:
• WAF (Wetness Area Fraction): Andel area av bild som t¨ acks med svett
• Intensity: Antal separata svettfl¨ ackar som andel av den totala bildarean. (D˚ a tv˚ a svettfl¨ ackar v¨ axer ihop r¨ aknas de som en enskild fl¨ ack)
• Avesize (Average Size): Den genomsnittliga arean av svettfl¨ ackar p˚ a en bild m¨ att i antal pixlar
• CI300: Ett klusterindex d¨ ar h¨ ogt v¨ arde indikerar att svettfl¨ ackar tenderar att existera n¨ ara varandra och l˚ agt v¨ arde indikerar att svettfl¨ ackar ¨ ar utspridda. (Se definition i C.0.1)
• Hazard Mode: Ett m˚ att p˚ a den genomsnittliga tomma ytan mellan fl¨ ackar p˚ a en bild (Se definition i C.0.2
F¨ or samtliga observationer noteras, f¨ orutom de 15 m˚ atten, ¨ aven om patienten har neuropati eller om denna tillh¨ or en kontrollgrupp med friska. Kontrollgruppen best˚ ar av 120 personer fr˚ an vilka det finns 301 observationer. 153 av observationerna i kontrollgruppen ¨ ar uppm¨ atta p˚ a patieternas vad och 148 p˚ a deras fot. De personer som ¨ ar diagnostiserade med neuropati uppg˚ ar till 18 perso- ner fr˚ an vilka det totalt finns 27 observationer, 18 p˚ a vad och 9 p˚ a fot. Gruppen neuropatiska ¨ ar allts˚ a klart underrepresenterad. Det finns ¨ aven observationer fr˚ an 47 personer som sj¨ alva uppgett att de har symptom av neuropati, men som inte f˚ att diagnosen perifer neuropati bekr¨ aftad. An- talet observationer fr˚ an den gruppen uppg˚ ar till 73 observationer, 45 p˚ a vad och 28 p˚ a fot. Dessa observationer har klassificerats som neuropatiska, men d˚ a personernas tillst˚ and inte ¨ ar helt s¨ akra har de s¨ arbehandlats fr˚ an de neuropatiska med bekr¨ aftad diagnos i samband med klassificeringen.
Tabell 1 visar en ¨ oversikt ¨ over dessa observationer.
Sjukdomsstatus
Frisk Bekr¨ aftat Neuropatisk Obekr¨ aftat Neuropatisk Totalt
Kroppsdel
Fot 148 9 28 185
Vad 153 18 45 216
Totalt 301 27 73 401
Tabell 1: Tabell som visar antalet observationer f¨ or de olika patienterna samt f¨ or de olika kroppsdelarna m¨ atningar gjorts p˚ a
2
1 0.87 1
0.79 0.91 1
0.72 0.59 0.64 1
0.45 0.32 0.4 0.84 1
0.05
−0.09
−0.02 0.46 0.83 1
0.78 0.78 0.69 0.24
−0.03
−0.31 1
0.62 0.83 0.72 0.15
−0.15
−0.44 0.86 1
0.55 0.76 0.76 0.16
−0.12
−0.42 0.77 0.93 1
−0.29
−0.33
−0.37
−0.27
−0.23
−0.07
−0.27
−0.26
−0.23 1
−0.14
−0.31
−0.31 0.09 0.19 0.32
−0.33
−0.45
−0.4 0.58 1
0.05
−0.07
−0.16 0.21 0.35 0.46
−0.2
−0.29
−0.28 0.33 0.74 1
−0.68
−0.66
−0.72
−0.77
−0.6
−0.25
−0.45
−0.4
−0.38 0.55 0.22 0.08 1
−0.51
−0.52
−0.6
−0.7
−0.77
−0.54
−0.22
−0.18
−0.18 0.49 0.25 0.04 0.79 1
−0.08 0.04
−0.09
−0.45
−0.72
−0.8 0.25 0.39 0.37 0.24
−0.05
−0.1 0.39 0.69 1
WAF_f1 WAF_f10 WAF_f30 intensity_f1 intensity_f10 intensity_f30 avesize_f1 avesize_f10 avesize_f30 CI300_f1 CI300_f10 CI300_f30 hazard_mode_f1 hazard_mode_f10 hazard_mode_f30
WAF_f1 WAF_f10
WAF_f30
intensity_f1intensity_f10intensity_f30avesiz e_f1
avesiz e_f10
avesiz e_f30
CI300_f1CI300_f10CI300_f30
hazard_mode_f1hazard_mode_f10hazard_mode_f30
−1.0 −0.5 0.0 0.5 1.0 Pearson Correlation
Figur 1: Visualisering av korrelationsmatrisen av kovariaterna. Bl˚ a indikerar negativ korrelation och r¨ od indikerar positiv korrelation. Ljusare f¨ arg inneb¨ ar korrelation n¨ armare 0.
M˚ anga av kovariaterna har en stark korrelation till varandra, vilket kan ses i korrelationsmatrisen i figur 1. Exempel p˚ a korvariater med stark korrelation ¨ ar WAF, Avesize och Hazard mode. CI300 uppvisar d¨ aremot en relativt svag korrelation till de ¨ ovriga.
F¨ or att j¨ amf¨ ora de tre grupperna och se hur de beter sig med olika m¨ atningar, s˚ a har vi skapat l˚ addigram som visar hur m¨ atningen p˚ a kontroll, bekr¨ aftad neuropatiska och obekr¨ aftad neuro- patiska sprider sig vilket vi kan se i figur 2 med tre olika typer av m¨ atningar. Fr˚ an figuren ser vi tydligt att m¨ atningarna p˚ a de obekr¨ aftade patienter ligger mycket n¨ ara p˚ a de neuropatiska patienter.
0.00 0.02 0.04 0.06
WAF_f1
0.00000 0.00005 0.00010 0.00015
intensity_f1
−20000 0 20000 40000
CI300_f1
Kontroll Bekräftad neuropatisk Obekräftad neuropatisk
Figur 2: L˚ addigram som visar hur olika kovariater sprider sig f¨ or de olika patienter beroende p˚ a deras h¨ alsol¨ age . I den v¨ anstra figuren har vi W AF
f 1, mittersta har vi intensity
f 1och h¨ ogra har vi CI300
f 1.
3
3 Teori och metod
Problemet som unders¨ oktes var kortfattat att utveckla en metod f¨ or att f¨ oruts¨ aga om nya obser- vationer, med ok¨ ant tillst˚ and, kommer fr˚ an friska eller neuropatiska personer. Detta kan brytas ned till 3 huvudsakliga delproblem: vilken klassificeringsmetod som skall anv¨ andas, hur valet av kovariater som anv¨ ands i klassificeringsmetoden genomf¨ ors samt hur modellens noggrannhet kan uppskattas.
I denna del beskrivs hur klassificering och logistisk regression till¨ ampades. Modellfel uppskattades med antingen korsvalidering tillsammans med AUC av ROC eller AIC
c. Dimensionsreducering gjordes med Stepwise Backward eller principalkomponentanalys.
3.1 Klassificering
I klassificeringsproblem vill man tilldela en observation av uppm¨ atta v¨ arden x
i= (x
i1, . . . , x
ik) till en av D diskreta klasser y
i= c
dd¨ ar d = 1, · · · , D [7]. F¨ or N stycken observationer ges varje observation som en rad i en matris X = (x
1, . . . , x
N)
Toch motsvarande klasser ges som en kolumnvektor y = (y
1, . . . , y
N)
Tenligt tabell 2. Varje vektorelement x
ijmotsvarar h¨ ar v¨ ardet f¨ or en av k kovariater.
respons y kovariater X y
1.. . y
Nx
11. . . x
1k.. . . . . .. . x
N 1. . . x
N kTabell 2: Matris f¨ or realiserad data d¨ ar en rad motsvarar en observation.
y kallas h¨ ar f¨ or responsvariabel och kan ses som en funktion av observationen x. I praktiken ¨ ar det ofta om¨ ojligt att hitta denna funktion exakt s˚ a ist¨ allet approximeras y med
ˆ
y = f (x),
d¨ ar f utg¨ ors av en klassificeringsmodell och ˆ y ¨ ar den estimerade klassen observationen x tillh¨ or. I v˚ art fall har observationerna klassificerats beroende p˚ a om m¨ atning utf¨ ors p˚ a en neuropatisk eller frisk person och d¨ arf¨ or har y tv˚ a m¨ ojliga klasser:
y =
0 om observationen uppm¨ atts p˚ a frisk person 1 om observationen uppm¨ atts p˚ a neuropatisk person
F¨ or att best¨ amma f (x) s˚ a att den beskriver sambandet mellan x och y v¨ al anv¨ ands tidigare uppm¨ atta observationer d¨ ar den korrekta klassen ¨ ar k¨ and. Dessa observationer med tillh¨ orande respons anv¨ ands f¨ or att tr¨ ana klassificerningsmodellen, vilket inneb¨ ar att f (x) anpassas till obser- vationernas riktiga klasser.
3.2 Logistisk regression
Logistisk regression ¨ ar en klassisk och v¨ al bepr¨ ovad klassificeringsmetod [8]. Den utg˚ ar fr˚ an att observationerna x och y kommer fr˚ an en stokastisk vektor χ respektive en stokastisk variabel Y och returnerar ett estimat av den betingade sannolikheten P (Y = 1 | χ = x). Att metoden estimerar sannolikheten att observationen tillh¨ or en viss klass ist¨ allet f¨ or bara klassen g¨ or att metoden blir b˚ ade flexibel och tolkningsbar av anv¨ andaren Logistisk regression kan ¨ aven anv¨ andas f¨ or ett godtyckligt antal klasser men i v˚ art fall r¨ acker det med endast klasserna frisk, Y = 0 och neuropatisk, Y = 1.
Med logistisk regression vill man anv¨ anda en linj¨ ar funktion av x f¨ or att beskriva P (Y = 1 | χ = x).
Samtidigt beh¨ over P (Y = 1 | χ = x) + P (Y = 0 | χ = x) = 1 g¨ alla och det returnerade v¨ ardet fr˚ an modellen ska vara i intervallet [0, 1] f¨ or att resultatet skall motsvara en sannolikhet [9]. S˚ a P (Y = 1 | χ = x) = β
0+ β
1x
1. . . β
kx
k¨ ar n¨ odv¨ andigtvis inte en giltig modell. Ist¨ allet antas det
4
linj¨ ara sambandet g¨ alla f¨ or logaritmen av oddsen av sannolikheten P (Y = 1 | χ = x), kallad logit, vilket inneb¨ ar att
logit = log(odds) = log
P (Y = 1 | χ = x) 1 − P (Y = 1 | χ = x)
= β
0+ β
1x
1. . . β
kx
k=
log
P (Y = 1 | χ = x) 1 − P (Y = 1 | χ = x)
= β
0+
k
X
i=1
β
ix
i=⇒
P (Y = 1 | χ = x)
1 − P (Y = k | χ = x) = exp β
0+
k
X
i=1
β
ix
i!
=⇒
g(x) := P (Y = 1 | χ = x) =
exp
β
0+ P
k i=1β
ix
i1 + exp
β
0+ P
k i=1β
ix
i. (1)
Funktionen g(x) ¨ ar allts˚ a resultatet fr˚ an den logistiska regressionsmodellen. Sj¨ alva modellantagan- det i logistisk regression bygger p˚ a att responsvariabeln f¨ or varje observation Y
i, i = 1, · · · , N f¨ oljer en Bernoulli-f¨ ordelning. Y
iantar allts˚ a v¨ ardet 1 med sannolikhet π
ioch v¨ ardet 0 med sannolikheten (1 − π
i) d¨ ar P (Y
i= 1|χ = x) = π
i. Vi har att:
Y
i∼ Bernoulli(π
i),
P (Y
i= y
i) = π
iyi(1 − π
i)
1−yi(2) F¨ or att uppskatta parametrna i β = (β
0, β
1, . . . , β
k) anv¨ ands maximum likelihood -metoden, vilket inneb¨ ar att likelihoodfunktionen L(β) maximeras med avseende p˚ a parametrarna β. Likelihood- funktionen beskriver hur troligt det ¨ ar att den observerade datan kommer fr˚ an en given distribu- tion med parametrarna β och genom att maximera funktion ges de mest troliga v¨ ardena ˆ β. Givet observerad data x
1, . . . , x
Nmed tillh¨ orande klasser y
1, . . . , y
N¨ ar likelihoodfunktionen definierad som
L(β) =
N
Y
i=1
P (Y
i) =
N
Y
i=1
π
yii(1 − π
i)
1−yi. Ofta anv¨ ands logaritmen av likelihoodfunktionen
`(β) =
N
X
i=1
log
π
yii(1 − π
i)
1−yi(3)
d˚ a denna ofta har maxima i samma punkt som likelihoodfunktionen men ¨ ar enklare att optimera.
F¨ or att skriva (3) som en funktion av parametrarna β anv¨ ands (1) och (2):
`(β) =
N
X
i=1
log
π
yii(1 − π
i)
1−yi=
N
X
i=1
y
ilog π
i+ (1 − y
i) log (1 − π
i)
=
N
X
i=1
y
ilog π
i− y
ilog(1 − π
i) + log(1 − π
i) =
N
X
i=1
y
ilog
π
i1 − π
i+ log (1 − π
i)
=
N
X
i=1
y
i
β
0+
k
X
j=1
β
ix
ij
− log
1 + exp
β
0+
k
X
j=1
β
ix
ij
d¨ ar vi i den sista likheten har anv¨ ant att (1 − π
i) =
1+exp(β10+P βx)
. F¨ or att maximera `(β) tas
5
gradienten fram och s¨ atts lika med noll,
0 = ∇(`) =
P
Ni=1
y
i−
eβ0+Pk j=1βixij
1+eβ0+
Pk j=1βixij
P
Ni=1
y
ix
i1−
xi1eβ0+Pk j=1βixij
1+eβ0+
Pk j=1βixij
. . . P
Ni=1
y
ix
ip−1−
xip−1eβ0+Pk j=1βixij
1+eβ0+
Pk j=1βixij
,
vilket ger k stycken ickelinj¨ ara ekvationer, lika m˚ anga som antalet kovariater i modellen. L˚ at varje kvot
eβ0+Pk j=1βixij
1+eβ0+
Pk
j=1βixij
= p(y
i= 1|χ = x
i., β) . I matrisform kan ∇(`) skrivas som:
∇(`) = X
T(y − p)
F¨ or att best¨ amma ˆ β anv¨ ands ofta Newton–Raphson algoritmen f¨ or vilken en iteration kan uttryc- kas
β
new= β
old− ∇
2(`)
−1∇(`)
∇
2(`) = −X
TWX
D¨ ar ∇
2(`) ¨ ar hessianmatrisen och W = p(1 − p), och kallas f¨ or viktmatrisen [10]. Vi f˚ ar:
β
new= X
TWX
−1X
TWz
D¨ ar z = Xβ
old+ W
−1(y − p). Som begynnelsev¨ arde brukar β = 0 anv¨ andas. Algoritmen konver- gerar eftersom log-likelihood funktionen ¨ ar konkav.
Med de erh˚ allna v¨ ardena p˚ a ˆ β kan allts˚ a modellen estimera sannolikheten P (y = 1 | χ = x). F¨ or att klassificera observationer till en distinkt grupp, 0 eller 1, kan ett tr¨ oskelv¨ arde p
∗anv¨ andas.
Klassificeringsmodellen kan d˚ a skrivas som f (x) = h(g(x), p
∗) =
0 om g(x) < p
∗1 annars (4)
d¨ ar g(x) betecknar modellen f¨ or logistisk regression vilken ger den estimerade sannolikheten f¨ or att observationen kommer fr˚ an en neuropatisk. h(x, p
∗) betecknar klassificeringen som g¨ ors vilket
¨ ar beroende av v¨ ardet p˚ a p
∗. Tr¨ oskelv¨ ardet p
∗kan allts˚ a ses som en ytterligare parameter till modellen.
3.3 Uppskattning av modellfel
F¨ or att unders¨ oka hur v¨ al en tr¨ anad modell med logistisk regression g
T(x) fungerar kr¨ avs m˚ att som kan anv¨ andas f¨ or att dels j¨ amf¨ ora modeller emellan samt beskriva modellens prediktionsf¨ orm˚ aga.
Dessa m˚ att kan beskrivas som estimat av en funktion
Err = L(Y, g
T(χ)) (5)
d¨ ar L kan v¨ aljas till olika funktioner och g
T(χ) ¨ ar en modell vars parametrar har skattats med n(T ) antal observationer som finns i m¨ angden T = {(y
1, x
1), (y
2, x
2), ..., (y
n(T ), x
n(T ))}. M¨ angden T ben¨ amns h¨ ar som tr¨ aningsm¨ angd. L brukar v¨ aljas s˚ a att ett litet v¨ arde betyder att g
T¨ ar en bra prediktionsmodell f¨ or distributionen.
6
3.3.1 Tr¨ anings- och valideringsm¨ angd
N¨ ar parametrarna β hos modellen g
T(χ) skattas, n¨ ar modellen tr¨ anas, maximeras likelihood- funktionen i ekvation (3) med hj¨ alp av tr¨ aningsm¨ angden. Parameterv¨ ardena ˆ β ¨ ar allts˚ a beroende av observationerna i tr¨ aningsm¨ angden, men det ¨ ar inte garanterat att dessa observationer repre- senterar den sanna distributionen. Modellfelet i ekvation (5) syftar till att beskriva felet av en godtycklig dragning fr˚ an den sanna distributionen, oberoende av vilka observationer som ing˚ att i tr¨ aningsm¨ angden.
Det finns olika tillv¨ agag˚ angss¨ att att ber¨ akna ett v¨ antev¨ ardesriktigt estimat av ekvation (5). Om observationer (y
i, x
i) ∈ T anv¨ ands f¨ or att estimera Err kommer de i de flesta fall att ge ett bias och det verkliga felet underskattas[10]. Detta eftersom modellen ¨ ar optimerad med avseende p˚ a tr¨ aningsm¨ angden. Om det finns mycket data ¨ ar uppdelning av observationer till tr¨ aningsm¨ angd och m¨ angden som anv¨ ands f¨ or felestimering, valideringsm¨ angd, en vanlig metod. Det inneb¨ ar att observationer antingen tillh¨ or tr¨ aningsm¨ angden T och anv¨ ands f¨ or parameterskattning, eller att de tillh¨ or valideringsm¨ angden f¨ or att estimera felet. Modellfelet estimeras d˚ a genom
d Err = ˆ L(y, g
T(X)) med X = (x
n(T )+1, ..., x
N)
Toch y = (y
n(T )+1, ..., y
N)
TMed en slumpvis vald tr¨ anings- och valideringsm¨ angd blir d˚ a observationer som anv¨ ands f¨ or tr¨ aning och validering oberoende av varandra.
3.3.2 Receiver Operating Characteristic (ROC) och Area Under Curve (AUC) En modell med logistisk regression som fungerar bra kommer att ge sm˚ a sannolikheter f¨ or obser- vationer fr˚ an friska personer (y
i= 0) och stora sannolikheter f¨ or observationer fr˚ an neuropatiska personer (y
i= 1). Genom att v¨ alja
L(Y, g
T(χ)) = 1 − P (g
T(χ
a) < g
T(χ
b) | Y
a= 0, Y
b= 1) = P (g
T(χ
a) ≥ g
T(χ
b) | Y
a= 0, Y
b= 1) (6) d¨ ar (χ
a, Y
a) och (χ
b, Y
b) ¨ ar tv˚ a oberoende dragningar fr˚ an distributionen, uppskattas modellens f¨ orm˚ aga att separera klasserna [11]. En f¨ ordel med detta m˚ att p˚ a modellfel ¨ ar att det beskriver hur v¨ al modellen klassificerar utan att p
∗beh¨ over best¨ ammas p˚ a f¨ orhand. D¨ arf¨ or anv¨ andes det b˚ ade f¨ or att j¨ amf¨ ora modeller sinsemellan samt f¨ or att utv¨ ardera klassificeringsf¨ orm˚ agan hos enskilda modeller. Detta gjordes med hj¨ alp av arean under kurvan, f¨ orkortat AUC, f¨ or en s˚ a kallad Receiver Operating Characteristic (ROC).
F¨ or att f¨ orenkla beskrivningen av klassificeringsresultat kan en f¨ orvirringsmatris anv¨ andas, vars utseende visas i tabell 3. D¨ ar kan man se modellens klassificeringar i relation till dess korrekta respons samt hur m˚ anga g˚ anger varje m¨ ojligt utfall intr¨ affat. Till exempel ges v¨ ardet f¨ or false positive, F P , av indikatorfunktionen 1(f (x
i) = 1, y
i= 0) som beskriver hur m˚ anga observationer som klassificerats som neuropatiska d¨ ar patienten faktiskt varit frisk.
Korrekt respons
Positiv Negativ
Positiv True Positive (TP) False Positive (FP) 1(f (x
i) = 1, y
i= 1) 1(f (x
i) = 1, y
i= 0) Predikerad
respons
Negativ False Negative (FN) True Negative (TN) 1(f (x
i) = 0, y
i= 1) 1(f (x
i) = 0, y
i= 0)
Tabell 3: Schematisk f¨ orvirringsmatris.
L˚ at T P R och F P R st˚ a f¨ or True Positive Rate samt False Positive Rate. T P R beskriver andelen
7
observationer fr˚ an neuropaatiska patienter som modellen klassificerat korrekt T P R = T P
T P + F N ,
medan F P R beskriver andelen observationer fr˚ an friska patienter som modellen klassificerat som neuropatiska
F P R = F P F P + T N .
En bra klassificeringsmodell k¨ annetecknas av h¨ og T P R och l˚ ag F P R.
Recieving Operator Characteristic-kurvan, ofta f¨ orkortad ROC-kurva ¨ ar en v¨ alanv¨ and metod f¨ or att utv¨ ardera tr¨ oskelv¨ ardesberoende bin¨ ar klassificering [12]. Metoden baseras p˚ a att se hur T P R f¨ or¨ andras f¨ or olika niv˚ aer av F P R. F¨ or att ˚ astadkomma detta ses T P R och F P R som funktioner av tr¨ oskelv¨ ardet p
∗;
T P R(p
∗) = y
T· ˆ y
kyk = y
T· h(g(X), p
∗)
kyk samt
F P R(p
∗) = (I
N x1− y)
T· ˆ y
k (I
N x1− y) k = (I
N x1− y) · h(g(X), p
∗) k (I
N x1− y) k ,
d¨ ar g(X) ¨ ar resultatet fr˚ an v˚ ar logistiska regressionsmodell och h(g(X), p
∗) ¨ ar klassificeringen gjord med tr¨ oskelv¨ ardet p
∗givet realiseringarna i X och motsvarande responsv¨ arden i y.
F¨ or n˚ agot best¨ amt v¨ arde av respektive funktion ger inverserna T P R
−1(p
∗) och F P R
−1(p
∗) ett tr¨ oskelv¨ arde p
∗vilket g¨ or det m¨ ojligt att uttrycka den ena funktionen som en funktion av den andra. Genom att anta ett best¨ amt v¨ arde s p˚ a F P R kan d˚ a T P R uttryckas som
ROC(s) = T P R F P R
−1(s) , s ∈ [0, 1].
ROC-kurvan kan anv¨ andas f¨ or att visualisera hur v¨ al klassificeringen lyckas separera klasserna med olika tr¨ oskelv¨ arden p
∗[10] och arean under denna kurva, AUC (Area Under Curve), kan anv¨ andas till att estimera Err i ekvation (6). Modeller utv¨ arderas allts˚ a med hj¨ alp av
d Err = ˆ L = 1 − AUC = 1 − Z
10
ROC(s)ds (7)
som antar v¨ arden mellan 0 och 1. Vid d Err = 0.5 eller st¨ orre ¨ ar klassificeringen inte tillf¨ orlitlig alls, eftersom slumpm¨ assiga gissningar kommer ge lika bra eller b¨ attre resultat. Ju n¨ armare d Err ¨ ar 1, desto tillf¨ orlitligare ¨ ar klassificeringen[12]. F¨ or att ekvation (7) skulle ge ett v¨ antev¨ ardesriktigt estimat av ekvation (6) anv¨ andes enbart valideringsm¨ angden f¨ or att ta fram ROC(s) samt dess motsvarande AUC.
3.3.3 Akaike information criterion (AIC)
Det finns metoder f¨ or att uppskatta modellfelet Err utan att anv¨ anda valideringsm¨ angd. Det kr¨ avs d˚ a ett m˚ att p˚ a hur mycket information som g˚ ar f¨ orlorad d˚ a g(X) anv¨ ands f¨ or att approximera Y . En funktion som kan v¨ aljas som m˚ att p˚ a modellfel ¨ ar d˚ a
L(Y, g
T(χ)) = −2E
TE
a[log P (Y
a|g
T(χ
a))] (8) [13], d¨ ar (χ
a, Y
a) ¨ ar en observation fr˚ an stickprovet a, vilket ¨ ar oberoende av tr¨ aningsm¨ angden T . Akaike visade 1973 att det maximerade likelihood-v¨ ardet var en approximation av ekvation 8 med en bias ungef¨ ar lika stor som antalet kovariater k [13]. Detta gav upphov Akaike Information Criterion (AIC)[14] och skrivs:
AIC = 2k − 2`.
8
d¨ ar ` ¨ ar log likelihood-funktionen f¨ or modellen som ges i ekvation (3) anpassad p˚ a tr¨ aningsm¨ angden.
F¨ or att AIC skall estimera ekvation (8) perfekt kr¨ avs ett o¨ andligt stort stickprov. Detta inneb¨ ar att AIC ¨ ar en bra approximation om N ¨ ar stort relativt k. Om ett litet stickprov anv¨ ands (
Nk<
40)[13] b¨ or ist¨ allet AIC
canv¨ andas. AIC
c¨ ar AIC med en andra ordningens korrekturterm f¨ or liten stickprovsstorlek och lyder
d Err = AIC
c= 2k − 2` + 2k(k + 1) N − k − 1
d¨ ar k ¨ ar antalet kovariater f¨ or den modell som har flest kovariater[13]. D˚ a max(
Nk) < 27 f¨ or projektet har AIC
canv¨ ants f¨ or att j¨ amf¨ ora modeller med olika antal kovariater.
3.4 Standardisering
Standardisering g¨ ors f¨ or att tr¨ aningen av klassificeringsmodeller inte skall p˚ averkas av kovariaters olika skalning. Om kovariater har v¨ aldigt olika medelv¨ arden och varians kan detta annars f¨ ordr¨ oja eller helt f¨ orhindra att modellens uppskattning av koefficienter konvergerar. Detta p˚ a grund av att m˚ anga optimeringsalgoritmer, s˚ a som Newton-Raphsonalgoritmen[10], utforskar sin kostnadsfunk- tion stegvis med en konstant stegl¨ angd f¨ or alla variabler.
L˚ at X
∗,ivara en kolumnvektor med v¨ arden f¨ or en kovariat i f¨ or alla givna observationer X. Normalt s¨ att utf¨ ors standardisering genom att data transformeras med formeln
X
∗,i− X
∗,is(X
∗,i) ,
d¨ ar X
∗,i¨ ar kovariatv¨ ardenas stickprovsmedelv¨ arde och s(X
∗,i) dess stickprovsstandardavikelsen.
Den transformerade datan har d˚ a medelv¨ arde 0 och standardavikelse 1.
Om ett dataset har kraftigt avvikande v¨ arden, s.k. outerliers, kan dessa komma att p˚ averka stan- dardiseringen d˚ a b˚ ade X
∗,ioch s(X
∗,i) ¨ ar k¨ ansliga f¨ or kraftigt avvikande v¨ arden. Eftersom det finns outliers i v˚ ar data f¨ or ett antal kovariater (se figur 2) gjordes standardisering enligt
X
∗,i− m(X
∗,i) M AD(X
∗,i)
d¨ ar m(X
∗,i) ¨ ar medianen och M AD(X
∗,i) st˚ ar f¨ or Median Absolute Deviation som uttrycks M AD(X
∗,i) = median (X
∗,i− m(X
∗,i)) .
3.5 Dimensionsreducering
D˚ a antalet kovariater k ¨ ar m˚ anga kan det finnas anledning att f¨ ors¨ oka v¨ alja bort vissa, eller p˚ a andra s¨ att minska antalet parametrar som skall estimeras. De tv˚ a fr¨ amsta anledningarna ¨ ar att
¨ oka modellens prestation genom att undvika ¨ overtr¨ aning och att g¨ ora modellen mer tolkbar [14].
Om det finns ett logistiskt samband mellan X och y och antalet observationer N >> k s˚ a kom- mer modellens uppskattade parametrar ha b˚ ade l˚ agt bias och l˚ ag varians. Om d¨ aremot N inte ¨ ar mycket st¨ orre ¨ an k s˚ a kommer de skattade parametrarnas varians att ¨ oka och modellen ¨ overtr¨ anas, vilket leder till att den inte presterar v¨ al p˚ a ny data. D˚ a N < k ¨ ar klassificeringsproblemet linj¨ art obest¨ amt och det saknas d˚ a en b¨ asta uppskattning vilket ¨ aven inneb¨ ar att parametrarnas vari- ans blir o¨ andlig[14]. Antalet observationer ¨ ar f¨ or v˚ ar data alltid st¨ orre ¨ an antalet kovariater, men f¨ orh˚ allandet kan ¨ and˚ a f¨ orb¨ attras s˚ a att N >> k genom dimensionsreducering. Detta g¨ aller speciellt d˚ a t.ex. bara m¨ atningar fr˚ an fot anv¨ ands, eftersom N ¨ ar mindre i ett s˚ adant fall.
Genom att minska antalet kovariater kan allts˚ a variansen av de skattade parametrarna minskas.
Problemet ¨ ar att om alla kovariater inneh˚ aller unik och relevant information f¨ or klassificeringen
9
kommer en reducering av antalet dimensioner ¨ oka modellens bias. Detta ¨ ar vad som kallas f¨ or the bias variance tradeoff [10]. Utmaningen med dimensionsreducering handlar allts˚ a om att, om m¨ ojligt, representera data med f¨ arre kovariater p˚ a ett s¨ att som samtidigt beh˚ aller det mesta av den relevanta informationen. De metoder vi anv¨ ant f¨ or att reducera antalet dimensioner tas upp i detta kapitel.
3.5.1 Principalkomponentanalys (PCA)
Principalkomponentanalys (PCA) ¨ ar en metod som ofta anv¨ ands d˚ a man har flera korrelerade kovariater, f¨ or att representera X av observationer som ett mindre antal linj¨ ara kombinationer av de givna kovariaterna[14]. Dessa linj¨ ara kombinationer, ¨ aven kallade principalkomponenter v¨ aljs s˚ a att s˚ a mycket varians som m¨ ojligt beh˚ alls i X efter transformationen. Metoden reducerar allts˚ a dimensionen av X utan att f¨ orhoppningsvis tappa relevant information vilket kan resultera i en b¨ attre klassificering. De nya kovariater som returneras av metoden, principalkomponenterna, ¨ ar
¨
aven helt okorrelerade vilket ocks˚ a kan ge b¨ attre resultat n¨ ar klassificeringsmodeller ska anpassas till data X.
Figur 3: Punktmoln i IR
2med dess tv˚ a principalkomponenter. Bild h¨ amtad fr˚ an Wikipedia.
1Observationerna x
i, i ∈ [1, N ] i X kan ses som ett punktmoln i IR
k. Principalkomponenterna ¨ ar ett upps¨ attning ortogo- nala vektorer d¨ ar den f¨ orsta komponenten motsvarar den riktning med st¨ orst spridning i X, den andra komponenten motsvarar den ortogonala riktningen med n¨ ast st¨ orst sprid- ning, och s˚ a vidare till den sista komponenten som motsvarar den ortogonala riktningen med minst spridning. Ett exem- pel p˚ a ber¨ aknade principalkomponenter f¨ or punktmoln IR
2kan ses i figur 3.
Kovariansen mellan alla kovariater kan sammanfattas i en k × k-matris, kovariansmatrisen, h¨ ar betecknad Σ. Genom att se en observation som en vektor av stokastiska variab- ler, χ = (K
1, K
2, ..., K
k)
T, ¨ ar ett element i kovariansmatri- sen
Σ
ij= Cov (K
i, K
j) = E (K
i− µ
Ki) K
j− µ
Kj[15]. Med de realiseringar av v¨ arden p˚ a kovariater som finns i X estimeras elementen med
Σ
ij= 1 N − 1
N
X
n=1
X
ni− X
∗,iX
nj− X
∗,jd¨ ar X
∗,imotsvarar medelv¨ ardet f¨ or kolumnen i i X och s˚ aledes ett estimat f¨ or E [K
i]. Egenvek- torerna f¨ or Σ, sorterade fr˚ an st¨ orsta till minsta korresponderande egenv¨ arde, motsvarar principal- komponenterna z
1, z
2, ..., z
kav X [16]. z
1¨ ar d˚ a den principalkomponent d¨ ar dess riktning ¨ ar den st¨ orsta variansen f¨ or observationerna i X, z
2den n¨ ast st¨ orsta och s˚ a vidare.
Sj¨ alva dimensionsreduceringen gjordes med ett underrum av principalkomponenterna. F¨ or att f¨ orst hitta matrisen med samtliga k principalkomponenter, h¨ ar kallad rotationsmatrisen Z:
Z = [z
1, z
2, ..., z
k] ,
ber¨ aknades den utifr˚ an observationerna i tr¨ aningsm¨ angden. Samtliga observationer, i b˚ ade tr¨ anings- och valideringsm¨ angd transformerades sedan till matrisen T enligt
T = X · Z.
D¨ arefter tr¨ anades och validerades modeller med de i f¨ orsta komponenterna f¨ or i ∈ (1, 2, ..., k).
Detta innebar k iterationer d¨ ar en kolumn i T anv¨ andes i den f¨ orsta iterationen, tv˚ a kolumner i den andra, tills alla kolumner anv¨ andes i den sista iterationen. Det antalet principalkomponenter som gav det minsta modellfelet Err valdes som den b¨ asta varianten.
1Licenserad med Creative Commons Attribution 4.0 International https://creativecommons.org/licenses/by/
4.0/