Feature selection with support vector machines in functional genomics

(1)

UPTEC X 04 029 ISSN 1401-2138 JAN 2004

BJÖRN LINDH

Feature selection with

support vector machines in functional genomics

Master’s degree project

(2)

Molecular Biotechnology Programme

Uppsala University School of Engineering

UPTEC X 04 029 Date of issue 2004-01 Author

Björn Lindh

Title (English)

Feature Selection with Support Vector Machines in Functional Genomics

Title (Swedish)

Egenskapsurval med supportvektormaskiner inom funktionell genomik Abstract

There has been a rapid development of new measurement technologies to monitor the expression activity of the genome. The invention of micro-arrays permits simultaneous measurements of a large number of mRNA-molecules. This holds the promise to define diseases in molecular terms and could provide a basis for medical diagnoses. In this context it is crucial to develop computational analysing techniques that can classify and therefore differentiate between samples from normal and disease states. Support vector machines (SVM) is a learning system, which earlier have proved promising characteristics for this purpose. In this study we evaluated support vector machines for feature selection in gene expression data, and tried to give answer to the question why SVM seems to have other characteristics compared to less sophisticated classifiers. Also an alternative capacity evaluation method to “Leave One Out” (LOO) is discussed. The results showed how sparseness of data can affect the learning capacity and that either choice of margin softness or kernel seemed to affect the generalisation property of the system. This gives a hint of how to shape an SVM for classification of gene expression data.

Keywords

Lärande system, SVM, supportvektormaskin, cancerklassificering, microarray, genexpressionsdata

Supervisor: Jesper Tegnér

Scientific reviewer: Bengt Persson

Language: svenska ^Security

ISSN 1401-2138 Classification

Supplementary bibliographical information

Pages

40 Biology Education Centre Biomedical Center Husargatan 3 Uppsala

Box 592 S-75124 Uppsala Tel +46 (0)18 4710000 Fax +46 (0)18 555217

(3)

Egenskapsurval med supportvektormaskiner inom funktionell genomik

Björn Lindh

Populärvetenskaplig sammanfattning

Kan man träna en dator till att känna igen cancer? Det tror professor Jesper Tegnér som driver ett projekt vid Linköpings Universitet om just detta. För knappt 10 år sedan uppfann en rysk matematiker vid namn Vapnik ett lärande system som han kallade Supportvektormaskin (SVM). Det kan appliceras på cancerceller på följande sätt. Alla mRNA-koncentrationer i en cell med känd sekvens kan idag mätas i en så kallad mikroarrayanalys. Låt varje mRNA-koncentration vara en parameter med en egen axel i ett koordinatsystem. Mäts 5000 gener kommer således ett 5000- dimensionellt rum att skapas där varje cell får en viss koordinat beroende på sitt specifika genuttryck. Om en cell är en tumörcell av ett visst slag kommer koordinaten för denna cell hamna en bit bort i rummet i jämförelse med friska celler p.g.a. att några gener är utslagna i tumörcellen. Supportvektormaskinen räknar då ut det mest optimala hyperplanet som skiljer punktmängden av friska celler och punktmängden av tumörceller åt. Planet kan sedan användas som en urskiljningsregel vid test av nya celler. På så sätt kan en dator ”tränas” i att känna igen cancer.

Metoden har många fördelar gentemot den idag brukliga mikroskopmetoden. Allt sker automatiskt i en maskin, snabbt och enkelt, men framförallt erhålls direkt information om vilka gener som orsakar åkomman och en behandling kan sättas in just där. SVM har testats för andra system såsom postnummerigenkänning i brevsorteringsmaskiner med gott resultat, men kan nu alltså även användas för cancerklassificering. Min specifika uppgift har varit undersöka vissa inställningsparametrar för att ställa in maskinen så att den fungerar optimalt för detta syfte.

Examensarbete 20 p i Molekylär bioteknikprogrammet

Uppsala universitet Januari 2004

(4)

1. Inledning 2

1.1. Bakgrund 2

1.2. Problembeskrivning 4

1.3. Syfte och omfattning 5

1.4. Tidigare arbeten 5

1.5. Disposition 5

2. Teori supportvektormaskiner 6

2.1. Perceptronen 9

2.2. K¨arnmetoder 11

2.3. Optimeringsteori 15

2.4. SVM 19

2.5. Implementering av SVM 20

2.6. J¨amf¨orelse med andra metoder 21

3. Mikroarraysystem 21

3.1. Microarrayteknik 21

4. Material och metoder 22

4.1. Data 22

4.2. Mjukvaruimplementering 23

4.3. Simuleringar 23

4.4. L¨amna-en-utanf¨or 24

5. Resultat 24

5.1. Gleshetstest 24

5.2. Marginalberoende 25

5.3. K¨arntest 26

6. Diskussion 27

6.1. Felk¨allor 29

6.2. Slutsatser 29

6.3. Framtida forskning 29

7. Tack till 31

Referenser 31

1

(5)

FUNKTIONELL GENOMIK

BJ ¨ ORN LINDH

Sammanfattning. Under den senaste tiden har en snabb utveckling skett av nya mätmetoder av genomets aktivtitet. Uppfinnandet av mikroarrayer till˚ ater simultana mätningar av ett stort antal mRNA-molekyler. Detta lovar gott inför att definiera sjukdomar i molekylära termer och kan utgöra en bas för medicinska diagnoser. Av stor vikt är att utveckla dataanalystekniker som kan klassificera och därför skilja mellan prov fr˚ an normalt respektive sjukt tillst˚ and. Supportvektormaskiner (SVM) är ett lärande system som tidigare har visat goda egenskaper i detta syfte [18]. I denna studie vill vi utvärdera sup- portvektormaskiner för egenskapsurval i genuttrycksdata, samt besvara fr˚ agan om varför SVM verkar ha andra egenskaper än andra mindre sofistikerade klassificerare. ¨ Aven en alternativ kapacitetsutvärderingsmetod till lämna en utanför (LOO) diskuteras. Resultaten visar hur glesheten av data kan p˚ averka inlärningskapaciteten samt att varken val av mjukhet p˚ a marginalen eller val av kärna verkar ha betydelse för systemets generaliseringsegenskaper. Detta ger en fingervisning om hur en SVM bör formges för klassificering av genex- pressionsdata.

1. Inledning

Biologin befinner sig för närvarande under stor utveckling. I tidskriften Sci- ence lista för de viktigaste upptäckterna ˚ ar 2003 handlade sju av de tio första om bioteknik. Detta är en syn vi har vant oss vid det senaste deceniet. De revolu- tionerande upptäckterna handlar i stort sett uteslutande om insikter i hur livspro- cesser g˚ ar till p˚ a molekylär niv˚ a. I och med en s˚ adan först˚ aelse börjar man ocks˚ a f˚ a insikt i hur dessa kan förändras. Detta kommer inte bara att inom en snar framtid innebära en mängd nya revolutionerande tekniska och medicinska tillämpningar, utan det kommer även att förändra synen p˚ a människan och p˚ a liv radikalt hos gemene man.

En revolutionerande följd av denna utveckling är att biologens uppgifter och krav p˚ a kunskaper förändras. D˚ a biologin g˚ ar ner p˚ a molekylär niv˚ a kräver detta även kunskaper i fysik, matematik, datavetenskap och teknik. Inte bara utnyttjandet av biologiska organismer i tekniska processer kräver allt mer av dessa kunskaper. ¨ Aven nya tekniker för att p˚ a ett effektivt sett kunna först˚ a biologiska fenomen kräver mer av s˚ adana kunskaper. Experiment är ofta mycket dyra att genomföra, men med datamodeller över molekylära system och effektiva sökmetoder i världsomspännande databaser med biologisk information kan antalet experiment minimeras. I framtiden krävs ett allt större samarbete mellan biologi och teknik, den saken är klar. Det jag talar om är genombrottet för molekylär bioteknik.

1.1. Bakgrund. Biologin har n˚ att ett stadium där analysprocesser för biologisk data har automatiserats och stora mängder information kan erh˚ allas p˚ a kort tid.

2

(6)

Ett välkänt exempel är att DNA-sekvensen hos människa och en mängd andra organismer redan har blivit fullständigt kodade. Att analysera stora mängder bi- ologisk information och systematisera denna har i biologikretsar kommit att kallas för -omik. Det benämns proteomik om det handlar om proteiner, genomik om det handlar om gener, metobolik om det handlar om metaboliter etc. Under de 4-5 senaste ˚ aren har det ocks˚ a skett en snabb utveckling av nya mätmetoder för att f˚ a en inblick i genomets aktivitet. Utveckling av biologiska chips och mikroarraysystem ger oss möjlighet att p˚ a ett effektivt sätt studera simultana mätningar p˚ a ett stort antal mRNA-molekyler. Detta är lovande inför möjligheten att definiera sjukdomar i molekylära termer och kan komma att utgöra en bas för medicinska diagnoser.

I det sammanhanget ¨ar det av stor vikt att utveckla dataanalystekniker som kan klassificera och d¨armed skilja mellan prov fr˚ an normalt respektive sjukt tillst˚ and.

När funktionen klassificeras parallellt p˚ a en mängd gener och resultaten systematis- eras benänms detta funktionell genomik. En viktig uppgift är att utveckla effektiva analystekniker för dessa stora datamängder, som kan användas för att skilja mellan exempelvis olika tumörer eller andra skilda genetiska tillst˚ and hos en cell.

Ett hitintills mycket populärt angreppssätt för att lösa s˚ adana problem har varit att använda lärande system, det vill säga algoritmer som lär sig känna igen mönster i data av olika former med hjälp av träningsdata. De mest använda systemen in- om biologin idag torde vara neurala nätverk, vilka även har sin idégrund inom biologin. I neurala nätverk har processer som finns i biologiska nervsystem försökt efterliknas. När n˚ agra ryska matematiker (Vapnik 1992 [5], 1995 [26]) kombinerade dessa kunskaper med välkända matematiska redskap s˚ asom optimering, statistiska inlärningsteori och kärnmaskiner föll bitarna förv˚ anansvärt väl p˚ a plats och man skapade den s˚ a kallade supportvektormaskinen, SVM:en. Metoden läts mogna i n˚ agra ˚ ar och i slutet p˚ a 90-talet blev SVM det mest användbara lärande systemet för praktiska tillämpningar. D˚ a mikroarraytekniken uppfanns testades olika lärande system för att analysera de stora datamängder som detta system genererar. SVM:n gav goda resultat [6], vilket inte är förv˚ anande d˚ a supportvektormaskiner redan tidigare kunde användas lyckosamt i en rad olika praktiska tillämpningar, s˚ asom handskifts-, siffer- och röstigenkänning. Det mest kända exemplet i Sverige är nog postverkets brevsorteringsmaskin [7], som använder en SVM för att känna igen postnummer p˚ a brev. Maskinen tränas med ett relativt stort antal data för att sedan kunna känna igen nya siffror.

Biologiska till¨ampningar av SVM som har dykt upp under de senaste tre ˚ aren

¨ar [30]:

• Gensökning i DNA: En bit av en DNA-sträng är +1 om det är en del av en gen och -1 om den inte är det. Sekvensbaserad genklassificering: Ställ ja- och nejfr˚ agor till en bit DNA.

• Sekund¨arstruktursprediktion hos protein.

• 3D-struktursprediktion hos proteiner.

• Proteinlokalisation i cellen [?].

Med dessa exempel vill jag understryka att metoden är mycket generell även om denna rapport främst beskriver klassificering av cancertyper med lärande system varav den mest användbara är SVM.

˚ Ar 2000 publicerades den artikel som f¨orst beskrev hur man kan anv¨anda SVM:en

f¨or att beskriva m¨onster i de genetiska data som genereras d˚ a man analyserar

celler med mikroarrayanalys [6]. Cancerklassificering har delvis varit komplicerat,

(7)

eftersom det historiskt sett fr¨amst f¨orlitat sig p˚ a specifika biologiska insikter snarare

än systematiska och statistiska metoder. I 30 ˚ ar har metoden att klassificera cancer varit densamma, men med SVM introduceras en ny. Tidigare har klassificering gjorts med morfologisk närvaro av tumören, vilket givetvis har sina begränsningar.

N˚ agra fördelar med SVM:en är att det g˚ ar att sp˚ ara tumörer utan synliga sp˚ ar, den g˚ ar att skilja mellan likartade cancertyper samt att metoden automatiserar klassificeringsprocessen. ¨ Annu är dock mikroarrayteknik relativt dyrt. En stor fördel

är dock att tekniken inte bara kan användas för att klassificera cancerklasser, utan

¨aven att ge information om nya klasser och underklasser som inte g˚ ar att urskilja med traditionella tekniker [9].

Genuttrycksexperiment producerar högdimensionell data genom att m˚ anga gener mäts parallellt. Provtätheten är ofta l˚ ag p˚ a grund av stora experimentkonstnader.

Ur dataanalyssynpunkt är för sm˚ a datamängder inte tillfredställande och det blir inte bättre av att datan är mycket brusig beroende p˚ a olika typer av mätstörningar.

Vid en biologisk fr˚ ageställning kommer sällan alla dessa 10000-tals dimensioner, dvs gener, att vara relevanta. Det är därför av stor vikt att försöka hitta metoder som kan s˚ alla bort onödigt information. Detta kallas egenskapsurval. Det förh˚ aller sig emellertid s˚ a att olika metoder ger olika mängder av informativa gener, medan korrektheten hos klassificeringen med lärande system har varit relativt hög över lag [18].

En mycket intressant detalj vid tidigare undersökningar av SVM:en är att den beter sig annorlunda än andra metoder i den bemärkelsen att den i hög grad tar hänsyn till andra egenskaper än vad som vanligtvis görs med de andra metoderna [18]. Det finns s˚ aledes stor anledning att studera metoden närmare.

Idén med SVM:en som följande [7]. Först presenteras träningsdata för SVM:en i form av en träningsmängd S = {(x 1 , y 1 ), . . . , (x l , y l )}, x i ∈ R ⁿ , y i ∈ Y = {−1, 1}.

SVM:en skapar med hjälp av träningsmängden en matematisk regel för hur nya exempel skall klassificeras mellan de tv˚ a olika klasserna som definierar tecknet p˚ a y. Hur SVM:en formulerar klassificeringsregeln kan delas upp i tv˚ a faser. I den första fasen beskrivs objekteten med hjälp av sina egenskaper som vektorer i ett m˚ angdimensionellt egenskapsrum. En dimension för varje egenskap. Varje vektor projiceras in i ett nytt rum, eventuellt med annan, ofta högre, dimension än det ursprungliga. Det görs p˚ a ett s˚ adant sätt att de olika klasserna kan separeras med ett hyperplan i R ⁿ . Uppgiften är att hitta en bra s˚ adan beslutsregel, gärna den bästa. Med bra menas här goda generaliseringsegenskaper och en effektiv algoritm som kräver f˚ a beräkningar och även kan behandla stora datamängder.

Med beslutsregel menas att om ett nytt exempel introduceras tilldelas det y- värdet 1 eller -1 beroende p˚ a vilken sida av planet det befinner sig. P˚ a detta sätt väljer allts˚ a algoritmen vilken klass ett nyintroducerat exempel tillhör.

I detta arbete har jag studerat ett specifikt problem. Man b¨or emellertid ha i

˚ atanke att SVM:en, som tidigare p˚ apekats, ¨ar en mycket generell metod, som kan anv¨andas i m˚ anga sammanhang, b˚ ade inom biologin och inom andra vetenskaper.

1.2. Problembeskrivning. Grundsyftet med denna studie ¨ar att finna metoder

för att ur stora datamängder göra bestämningar av genetiska nätverk. Med ett

genetiskt nätverk menas en karta över en mängd gener av vilken det framg˚ ar hur

genernas uttryck p˚ averkar varandra. F¨or att studera metoder som kan anv¨andas

l¨oses ett mindre problem: cancerklassificering. Det finns m˚ anga t¨ankbara metoder

för att lösa klassificeringsproblem. En av de mest användbara metoderna hittills

(8)

har varit det lärande systemet supportvektormaskiner (SVM). SVM:en visar sig ta vara p˚ a andra egenskaper än tidigare använda metoder, som andra lärande system och statistiska metoder. Det är relevant att ta reda p˚ a varför.

Det är ocks˚ a av stor betydelse att undersöka parameterinställningar till SVM:en i kombination med olika egenskaper av genuttrycksdata, vilka kontrollerar vilka egenskaper en SVM kan upptäcka.

1.3. Syfte och omfattning. Utifr˚ an presentationen av det givna problemet ovan, kan syftet och omfattningen sammanfattas enligt f¨oljande:

Syftet med detta examensarbete ¨ar att:

(1) Teoretiskt f¨orst˚ a de matematiska processerna bakom supportvektormaski- nen.

(2) Utvärdera supportvektormaskiner för egenskapsurval i genuttrycksdata, samt besvara fr˚ agan om varför SVM verkar ha helt andra egenskaper än andra mindre sofistikerade klassificerare.

Omfattningen p˚ a arbetet ¨ar:

(1) Grundligt först˚ a hur en SVM fungerar och kunna förklara detta teoretiskt samt kunna först˚ a dess programmeringskod.

(2) ¨ Oversiktligt redogöra för vad som görs inom forskningsfältet för tillfället.

(3) Jämföra olika SVM, med olika parameterinställningar och kärnor och testa p˚ a mikroarraydata, dels artificiell och biologisk.

1.4. Tidigare arbeten. Vapnik och hans medarbetare lade grunden för teorin i hans tv˚ a artiklar [5] och [10]. Därefter började metoden tillämpningas inom olika omr˚ aden som [8], [26] och [19]. 1999 applicerades metoden för första g˚ angen p˚ a genexpressionsdata av Brown [6] och har sedan dess följts upp av ett antal artiklar exempelvis [2] och [29].

Mitt arbete kan ses som en uppföljning av Nilsson och Tegners tidigare arbete [18] med att utvärdera olika metoder för klassificering av genexpressionsdata. Oli- ka metoder utvärderades och jämfördes. Det visas att SVM:en har bättre gener- aliseringsegenskaper än andra klassificeringsmetoder, som t-test, PCA, klustring- stekniker, självorganiserande träd och variansfilter. SVM:en betedde sig ocks˚ a an- norlunda jämfört med andra metoder. D˚ a metoderna utvärderades med lämna en utanför (LOO) (se kapitel 5.1.5) felklassificerades andra punkter med SVM än de som felklassificerades av andra metoder. SVM:en utnyttjar s˚ aledes andra egen- skaper i inlärningsprocessen än andra inlärningsmetoder. Därav följer intresset av en fördjupning i först˚ aelsen av SVM:ens egenskaper.

Aven andra resultat i litteraturen [10], [6] och [2] visar p˚ ¨ a att klassificering fr˚ an mikroarraydata ofta ger tillfredsställande resultat jämfört med andra maskintest och kliniska diagnoser. Detta trots stora störningar i datan.

Ytterligare arbeten som berör detta arbete är bland andra [2] som undersöker mikroarraydata och visar att polynomiella kärnor ger samma resultatprestanda som lineära. S˚ alunda spelar inte kärnteori n˚ agon central roll vad gäller att hitta rätt parameterinställningar till SVM:en. Alferis visar ocks˚ a flertalet exempel p˚ a att risken generellt sett är stor för överanpassning i högdimensionela datamängder.

1.5. Disposition. Rapporten är strukturerad p˚ a följande sätt:

• Kapitel 2 beskriver de olika matematiska komponenterna i teorin f¨or sup-

portvektormaskiner: perceptronen, k¨arnmetoder, optimering och statistisk

(9)

inlärningsteori. I delkapitelet SVM beskrivs hur dessa komponenter knyts ihop och bildar en enhetlig teori. Därefter följer en kort beskrivning av im- plementering och vad som skiljer SVM:en fr˚ an andra metoder, framför allt fr˚ an det klassiska neurala nätverket.

• I kapitel 3 beskrivs hur data har genererats, b˚ ade artificiell och biologisk.

Det finns ocks˚ a beskrivet vilka program som har använts och hur simuler- ingsförsöken är uppbyggda.

• Kapitel 4 inneh˚ aller erh˚ allna resultat fr˚ an simuleringsf¨ors¨oken.

• Kapitel 5 diskuterar resultat, slutsatser, felk¨allor samt f¨orslag p˚ a fortsatt forskning.

• I kapitel 6 tackas alla som har bidriagit till arbetet.

2. Teori supportvektormaskiner

Supportvektormaskiner (SVM) är en familj av lärande algoritmer, vilka för till- fället anses som en av de mest effektiva för tillämpade problem. Det är en metod som

är starkt p˚ a frammarsch. I m˚ anga sammanhang har SVM bättre inlärningsegenskaper

än exempelvis neurala nätverk, som är den mest kända algoritmfamiljen bland lärande system [4]. Syftet med SVM:er och andra inlärningsalgoritmer är att med hjälp av inlärningsdata känna igen mönster och p˚ a s˚ a sätt kunna avgöra egenskaper hos ny data som presenteras för algoritmen. Det har utvecklats m˚ anga andra arti- ficiella inlärningstekniker, som exempelvis neurala nätverk, Fischers diskriminant, klassificerings- och regressionsträd (CART), klustringstekniker och olika statistiska tekniker. SVM tycks emellertid för tillräckligt komplicerade system vara den mest användbara. SVM:er har ocks˚ a den fördelen att den är baserad p˚ a en mycket elegant och h˚ allfast matematisk grund, vilket gör det möjligt att ha god kontroll över dess processer. SVM:en är ett resultat av teoretisk forskning, snarare än av prövning.

Förutom detta faktum kan dess största fördelar sammanfattas p˚ a följande sätt [7]:

Goda generaliseringsegenskaper: Metoden klarar sig relativt bra fr˚ an över- inlärning, mycket bättre än exempelvis neurala nätverk. Det finns ocks˚ a metoder för att reglera och kontrollera detta fenomen.

H¨ og ber¨ akningshastighet: Dual form g¨or att allt kan ber¨aknas i ett steg.

Dessutom finns det väl utvecklade algoritmer för de optimeringsproblem som uppkommer. Algoritmen är s˚ a konstruerad att den enbart använder information fr˚ an en relevant delmängd av inlärningsdatan, s˚ a kallade sup- portvektorerna (förklaras nedan).

Robust: Antalet fria parametrar ¨okar inte med antalet dimensioner.

Anm: Generaliseringsegenskaper Med generaliseringsegenskaper menas för- m˚ agan hos en hypotes att korrekt klassificera data som inte är i tränings- mängden.

Overinlärning är ett problem för inlärningsalgoritmer. Med begreppet menas ¨ att en algoritm ibland kan hitta en komplicerad regel som perfekt klassificerar objekten i träningsmängden. Regeln kan dock vara oanvändbar för att klassificera nya observationer om den är alltför relaterad till träningsmängden. Vi säger att en s˚ adan regel inte generaliserar bra. Lärande system är alltid en avvägning mellan

¨overinl¨arning och enkel approximation p˚ a beslutslinjen.

Hur g˚ ar kontrollen av ¨overinl¨arningsprocessen till? Svaret kommer fr˚ an den

statistiska inlärningsteorin [27]. Denna teori är ganska sn˚ arig och jag nöjer mig

(10)

med att presentera huvudresultaten. Förenklat skulle man kunna säga att Vap- nik och medarbetare har med den statistika inlärningsteorin hittat en länk mellan förm˚ agan hos en algoritm att lära sig en regel som är bra p˚ a att klassificera och samtidigt har bra generaliseringsegenskaper. Detta är en implikation i m˚ anga steg fr˚ an den statiska inlärnigsteorins huvudsats:

ER(f ) ≤ R(f ^∗ ) + c

r V Cdim N

där E är väntevärdesoperatorn, R risk (definieras R(f) = P (f(X) 6= Y )), f = en inlärningsregel med empirisk riskminimering p˚ ˆ a träningsdatan, f ^∗ = en inlärningsregel generaliseringsmaximering, V Cdim = ett m˚ att p˚ a överanpassning och N = antalet observationer i träningsmängden. Andemeningen med satsen är att risken hos en inlärningsalgoritm att klassificera fel är proportionell mot kvadra- troten ur VC-dimensionen. En utförligare definition p˚ a VC-dimension hittas under kapitlet kärnmaskiner.

Satsen leder fram till ett minimeringsproblem av den s˚ a kallade strukturella risken för felklassificering, vilken minimeras genom att minimera marginalen, eller ekvivalent maximera viktvektorn för hyperplanet. Detta är ett optimeringsprob- lem med unik lösning, som visar sig ha m˚ anga goda egenskaper. Dels är det ett kvadratiskt programmeringsproblem, vilket det finns effektiva lösningsmetoder till.

Dels reduceras problemets lösning genom optimeringslärans KKT-villkor automa- tiskt ner till att bara bero p˚ a de vektorer som ligger närmast det avskiljande hy- perplanet. Endast denna delmängd av träningsexempel ger s˚ aledes fullständig in- formation om lösningen och har därför f˚ att namnet supportvektorer.

L˚ angt ifr˚ an alla inlärningsdatamängder är lineärt separabla, vilken ovan beskriv- da perceptron kräver. Ett sätt att lösa detta problem är att introducera begreppet kärnor. Kärnmetoden ger unik optimallösning till samtliga ickelineära system med

ändlig träningsmängd (förutsatt lämpligt val av kärna) genom att projicera prob- lement in i ett rum, som ofta (men inte alltid) har högre dimension än indatarum- met. Det fina är att en s˚ a kallad dual representation fortfarande gör det möjligt att definiera projektion endast implicit genom en inre produkt, vilket implicerar att antalet parametrar d˚ a inte kommer att öka med antalet dimensioner. Dimension- beroendet utrönes utförligare i kapitlet om statistisk inlärningsteori. Det finns dock tv˚ a problem som uppkommer vid användningen av kärnor:

(i) Hur erh˚ alls ett separerande hyperplan som generaliserar bra ¨aven i ett h¨og- dimensionellt egenskapsrum?

(ii) Hur behandlar man h¨ogdimensionella rum rent ber¨akningstekniskt.

SVM:en l¨oser problem (i) genom att konstruera en γ-marginal och mjuka marginaler.

Definition finns i kapitlet Supportvektormaskiner. En stor γ-marginal ger nämligen liten VCdim. Problem (ii) löses genom inre produkter och kärnteori [27]. Mercers sats implicerar att om bara kärnor väljs p˚ a ett lämpligt sätt s˚ a g˚ ar det att kontollera VCdim även för högdimensionella eller till och med ∞-dimensionella egenskapsrum (Hilbertrum). En s˚ adan kärna är radiella basfunktioner, vilket följande exempel visar.

Exempel Schackbr¨ ade: Exemplet visa hur ett schackbrädemönster kan˚ ater- skapas genom att använda en SVM med radiell basfunktionkärna. 100 re- spektive 400 punkter slumpas ut p˚ a ett 4 x 4 rutor stort schackbrädemönster.

Om punkten hamnar p˚ a en vit ruta ger vi dess tillhörande y-värde värdet 1,

(11)

Figur 1. 100 punkter slumpas ut p˚ a ett schackbräde. SVM:en f˚ ar information om punkterna hamnade p˚ a vit eller svart ruta och försöker därefter ˚ aterskapa schackmönstret. I detta fall har radiella basfunktioner använts som kärna.

Figur 2. Samma test som ovan fast f¨or 400 tr¨aningspunkter

annars -1. SVM:en l˚ ats sedan försöka ˚ aterskapa rutmönstret med hjälp av träningsdatan. I det här fallet används exponentiella radiella basfunktioner som kärna, vilket är en projektion in i ett Hilbertrum där träningsexemplerna kan separeras lineärt med ett hyperplan (se figur 1 och figur 2).

I följande kapitel fördjupas de olika delarna mer i detalj. Först presenteras de

olika matematiska omr˚ adena: perceptronen, k¨arnteorin, optimeringteorin och statis-

tiska inlärningsteorin var för sig. Därefter knyts delarna ihop under delkapitlet Sup-

portvektormaskiner. P˚ a slutet diskuteras ¨aven kort implementerings-tekniker samt

(12)

O

X X

O O

O

Figur 3. Med hjälp av träningsdata skapas ett beslutsplan med en normal w. Detta illustreras här i R ² .

en jämförelse i teori och prestanda med andra metoder. Det mesta materialet i detta kapitel är hämtat ur [7] och [27].

Slutligen vill jag ocks˚ a nämna att SVM:en även kan användas, förutom till binär klassificering, till ickelineär (och lineär) regression [7].

2.1. Perceptronen. Den lineära diskriminanten, eller som den ocks˚ a kallas: per- ceptronen, beskrevs första g˚ angen av Frank Rosenblatt 1956 [25]. Den är grundidén för all artificiell inlärning och har sedan dess introduktion enbart förfinats och gen- eraliserats till mer avancerade problem, men har fortfarande samma grundstomme.

Det enklaste fallet är en binär klassificerare som lär sig skilja mellan tv˚ a klasser.

Detta g˚ ar att generalisera mycket enkelt till separation mellan flera klasser. Jag nöjer mig däremot med att presentera teorin för separation mellan tv˚ a klasser.

För att kunna skapa en beslutsregel behövs en träningsmängd:

Def: Träningsmängd För X ⊆ R ⁿ , ett indatarum och Y = {−1, 1}, ut- datarum definieras en träningsmängd: S = {(x 1 , y 1 ), . . . , (x l , y l )} ⊆ (X × Y ) ^l , där x i är exempel, y i tillhörande ettiketter och l antalet exempel.

Utifr˚ an denna mängd skapas en beslutsregel i form av ett hyperplan som delar in rummet i tv˚ a halvrum. I 3 nedan visas hur ett s˚ adant hyperplan definierat av träningsdatan skulle se ut i tv˚ a dimensioner. Ett där den ena klassen hör hem- ma och ett för den andra klassen. Hyperplanet kan beräknas med m˚ anga olika metoder, vilka oftast bygger p˚ a statistiska metoder eller optimeringsmetoder. I fal- let med SVM:er uppst˚ ar ett kvadratiskt programmeringsproblem, som diskuteras under kapitlet optimeringslära.

Klassificeringen i perceptronen g˚ ar till p˚ a följande sätt. L˚ at f : X ⊆ R ⁿ → R vara en klassificeringsfunktion p˚ a s˚ a sätt att x = (x 1 , . . . , x n ) ⁰ antingen har en egenskap som definieras av f , annars är den negativ. Vi säger d˚ a att x är positiv.

Detta gäller om f(x) ≥ 0, annars är den negativ. Anta att klassen av s˚ adana funktioner F = {f |f lineär} av lineära funktioner p˚ a formen f (x) = hw, xi + b, där (w, b) ∈ R ⁿ × R, x ∈ X är parametrarna som kontrollerar beslutsregeln. Dessa ges av sgn(f (x)), (sgn(0) = 1). Det gäller allts˚ a att finna en s˚ a bra beslutsregel som möjligt. Med bra menas här en regel som kan klassificera träningsdatan korrekt och

även kunna generalisera regeln till nyintroducerade exempel. Det är bara möjligt

(13)

om datan är lineärt separabel. Om vi antar att s˚ a är fallet, kan vi l˚ ata beslutsregelns parametrar i f (x) helt bestämmas av inlärningsdatan. I det lineära fallet bildar f ett hyperplan. Hyperplanet kan s˚ aledes ses som ett affinet delrum av R ⁿ i n − 1 dimensioner, som otvetydigt definierar tv˚ a distinkta klasser. w är normalvektorn till planet. b kallas för viktning eller bias om man vill använda ett utländskt ord.

Utg˚ aende fr˚ an ovanst˚ aende teori kan perceptronsalgoritmen beskrivas som f¨oljande:

(1) Utg˚ a fr˚ an w o , b o = 0

(2) Om marginalen ≤ 0 för ett träningsexempel, dvs exemplet är felklassificerat, flytta w och b ett steg i riktning s˚ a att marginalen ökas.

(3) Fortsätt tills exemplet är p˚ a rätt sida om planet.

(4) Upprepa de tidigare stegen för alla träningsexempel tills alla ligger p˚ a rätt sida om hyperplanet.

Denna enklaste form av perceptronen kräver att träningsdatan är lineärt sepa- rabel. Det behöver den naturligtvis inte vara. Jag kommer nu att diskutera ett sätt att lösa detta problem. Men först n˚ agra definitioner:

Def: Marginalen f¨or ett exempel (x i , y i ) med avseende p˚ a hyperplanet (w, b) ges av:

γ i = y i (hw, x i i + b)

Anm: Det är dock brukligt att använda sig av en normerad marginal för att f˚ a goda egenskaper hos det optimeringsproblem som uppkommer (se kap.

opimeringsl¨ara). Planet p˚ a normerad form blir d˚ a:

( 1 kwk w, 1

kwk b)

Den geometriska marginalen m¨ater det Euklidiska avst˚ andet mellan punk- terna och det separerande hyperplantet i X.

Marginalen γ s till S definieras som den maximala marginalen ¨over alla hyper- plan, vilket ben¨amns maximala marginalhyperplanet. Storleken av dess marginal

är alltid positiv för lineärt separabla träningsmängder. Det kan nu bevisas (se [7]) att ett hyperplan kommer att hittas inom ett ändligt antal iterationssteg med per- ceptronalgoritmen.

Def: Fixera γ > 0, definiera slapp marginalvariabel till exemplet (x i , y i ) med avseende p˚ a hyperplanet (w, b) och m˚ almarginalen som

ξ((x i , y i ), (w, b), γ) = ξ i =

= max(0, γ − y i (hw, x i i + b))

Om ett exempel (x i , y i ) ¨ar p˚ a fel sida om γ blir s˚ aledes ξ i positivt och dess storlek ger ett m˚ att p˚ a hur mycket p˚ a fel sida om den korrekta marginalen den befinner sig.

Detta tillvägag˚ angssätt har m˚ anga fördelar. Vi behöver inte kräva lineär separa-

bilitet hos data och vi f˚ ar ett m˚ att p˚ a exempel som med stor sannolikhet inneh˚ aller

stora mätfel. Metoden är allts˚ a särskilt gynnsam för ickelineärseparabel data med

stora st¨orningar.

(14)

Vi ska observera n˚ agra saker ang˚ aende planets ekvation. Det inses lätt att w kan beskrivas som en lineärkombination av träningspunkter

w = X l i=1

α _i y _i x _i

Notera att α i ¨ar proportionell mot antalet missklassificeringar f¨or respektive i.

Det vill säga att sv˚ arklassificerade punkter erh˚ alls stora α, av vilket det följer att det därför g˚ ar enkelt att detektera punkter med till exempel stora mätfel. I kapitlet optimeringsmetoder nedan beskrivs hur man beräknar dessa.

Fördelen med att kunna skriva w som en lineärkombination gör att vi kan beskri- va beslutsregeln direkt utifr˚ an en träningmängd S med en s˚ a kallad dual beslut- sregel. Detta är en av de vinnande egenskaperna hos SVM:en. Den duala beslut- sregeln ser ut p˚ a följande sätt:

h(x) = sgn(hw, xi + b) =

= sgn(h X l j=1

α j y j x i , xi + b) =

= sgn(

X l j=1

α j y j hx i , xi + b)

Det innebär att endast den inre produkten mellan exemplen behöver beräknas. Icke lineärseparabla kan d˚ a lösas genom att ändra rummets inre produkt. Jag kommer att diskutera detta djupare i kapitlet nedan om kärnmetoder. Formen för indata är oftast enbart samtliga inre produktkombinationer samlade i en matris:

G = (hx i , x j i) ^l _i,j=1 G kallas f¨or en Grammatris.

Perceptronen är allts˚ a en algoritm som hittar ett separerande hyperplan. I kapit- let optimeringslära kommer jag att diskutera hur detta kan göras p˚ a bästa sätt. Där presenteras ocks˚ a mera effektiva algoritmer.

Anm: ¨ Aven neurala n¨atverk bygger p˚ a perceptronen. Se figur 7 i kapitel 2.6.

En av förutsättningarna för algoritmen är som nämnts att datan som presen- teras krävs vara lineärt separabel. För data med stora störningar g˚ ar detta att lösa med slappa variabler. Om algoritmen skall lära sig känna igen mönster som uppen- bart inte är lineärt separabla m˚ aste dock en annan teknik användas nämligen att introducera kärnfunktioner.

2.2. K¨ arnmetoder. Supportvektormaskiner är medlemmar i klassen av en större klass av inlärningsalgoritmer, vilken brukar benämnas kärnmetoder. Idéen med kärnmetoder är att avbilda indata indirekt ickelinjärt in i ett teoretiskt rum, ett s˚ a kallat egenskapsrum, E, genom att byta ut den inre produkten i indatarummet mot en kärnfunktion K(x, z). E väljs ofta till ett högdimensionellt rum p˚ a s˚ a sätt att träningsdatans klasser blir lineärt separabla. Detta är enligt [34] alltid möjligt för ändliga träningsmängder S.

Kärnmetoder kan studeras helt för sig själv och har utvecklats sedan 60-talet,

l˚ angt innan den första SVM:en s˚ ag dagens ljus. Teorin smälter dock förv˚ anansvärt

fint in och är en högst naturlig komponent i teorin för supportvektormaskiner.

(15)

X X

Φ

Φ(χ)

Φ(Ο) Φ(Ο)

Φ(Ο) Φ(Ο) Φ(Ο) Φ(χ)

Φ(χ) Φ(χ) Φ(χ)

Φ(χ) Φ(χ) Φ(χ) X

O

O O O

O

O X

X

Figur 4. M˚ anga system kräver en ickelinär beslutsregel. Rummet kan d˚ a transformeras in i ett rum, ofta av högre dimension, där beslutsregeln är lineär.

Vi börjar med att definiera en avbildning för projektionen av datan in i egen- skapsrummet. L˚ at oss kalla den för en m˚ alfunktion:

φ : X → E = {φ(x)|x ∈ X}

x = (x 1 , . . . , x n ) 7→ φ(x) = (φ 1 (x), . . . , φ d (x)),

Kvantiteterna som introduceras i E kallas egenskaper medan orginalkvantiteter- na kallas attribut.

Uppgiften är att välja φ p˚ a s˚ adant sätt att E blir lineärt separabelt (se 4). Om en s˚ adan avbildning har lyckats hittas kan sedan ett separerande hyperplan finnas i detta rum med perceptronalgoritmen. Den explicita egenskapavbildningen behöver dock inte kännas till. I stället byts skalärprodukten, det vill säga Grammatrisen G, ut till en kärnfunktion K. Det som krävs av en funktion för att den skall kallas kärnfunktion är:

Def: K¨arnfunktion kallas en funktion K, s˚ adan att ∀x, z ∈ X g¨aller att:

K(x, z) = hφ(x), φ(z)i d¨ar φ : X → F

Definitionen kommer ursprungligen fr˚ an integrationsteorin och anv¨ands bland annat vid skal¨arproduktbyten i Hilbertrum.

Hur kommer d˚ a beslutsfunktionen att se ut? P˚ a primal form f˚ ar vi f¨oljande funktion:

f (x) = X l

i=1

w i φ i (x) + b

Om denna skrivs p˚ a dual form erh˚ alls i stället följande beslutsfunktion. Jämför denna med beslutsfunktionen som beskrevs i perceptronkapitlet:

f (x) = X l i=1

α i y i hφ i (x), φ(x)i + b

(16)

Vi behöver s˚ aledes bara beräkna alla hφ i (x), φ(x)i = K(x i , x). Om skalärprodukten nu byts ut mot en kärnfunktion kan allts˚ a beslutsfunktionen skrivas p˚ a en form som inneh˚ aller K:

f (x) = X l

i=1

α i y i K(x i , x) + b

Kärnmetodklassen definierar s˚ aledes implicit klassen av möjliga mönster genom att introducera ett begrepp för likhet mellan data.

Nu till n˚ agra karaktäristiska egenskaper hos kärnor. Följande egenskaper gäller för kärnor:

Cauchy-Schwarz:

K(x, z) ² = hφ(x)φ(z)i ² ≤ kφ(x)k ² kφ(z)k ² =

= hφ(x)φ(x)ihφ(z)φ(z)i = K(x, x)K(z, z) Symmetriska:

K(x, z) = hφ(x)φ(z)i = hφ(z)φ(x)i = K(z, x)

Det finns ocks˚ a m˚ anga metoder att skapa nya kärnor utifr˚ an gamla. Här följer n˚ agra räkneregler som gäller för kärnor. Bevis finns i [7]:

Proposition: Räkneregler för kärnor L˚ at K 1 och K 2 vara kärnor i X × X, X ⊆ R ⁿ , a ∈ +, f (·) en reellvärd funktion p˚ a X,

φ : X → R ⁿ

med K 3 , en kärna över R ⁿ × R ⁿ , och B en symmetrisk positivt semidefinit n × n-matris. D˚ a gäller att följande funktioner är kärnor:

(1) K(x, z) = K 1 (x, z) + K 2 (x, z), (2) K(x, z) = aK 1 (x, z),

(3) K(x, z) = K 1 (x, z)K 2 (x, z), (4) K(x, z) = f (x)f (z),

(5) K(x, z) = K 3 (φ(x), φ(z)), (6) K(x, z) = x ⁰ Bx.

För att kärnkonceptet skall framg˚ a ännu tydligare presenteras nedan n˚ agra av de mest använda exemplena i tillämpade problem.

Ex: Generell polynomk¨arna

Kärnan är p˚ a formen K(x, y) = (hx, yi + C) ⁿ . Konceptet framg˚ ar med ett specialfall i R ² (här C = 0 och n = 2):

hx, yi ² = h(x ₁ , x ₂ ), (y ₁ , y ₂ )i ² = x ² ₁ y ₁ ² + x ² ₂ y ₂ ² + 2x ₁ y ₁ x ₂ y ₂ =

= h(x ² ₁ , x ² ₂ , √

2x 1 x 2 ), (y ₁ ² , y ₂ ² , √ 2y 1 y 2 )i

Detta är ocks˚ a en skalärprodukt i ett lineärt rum med tre dimensioner, med axlarna x ² ₁ , x ² ₂ och √

2x 1 x 2 . I detta rum är betydligt fler träningsmängder

separabla. Kärnan plockar p˚ a s˚ a sätt ut vissa egenskaper ur data och gör

den i n˚ agon mening mer separabel. Detta utan att ber¨akningsordningen

p˚ a problemet stiger. Det g˚ ar ocks˚ a mycket enkelt att visa att om bara

lämplig kärna väljs är alla träningsmängder separabla (utom specialfallet

d˚ a: x i = x j om y i 6= y j , i 6= j).

(17)

Ex: Radiella k¨arnfunktioner

Kärnan är p˚ a formen K(x, y) = K(kx − yk). Till skillnad fr˚ an det klas- siska angreppssättet med radiella basfunktioner kommer vid användningen

av SVM antalet funktioner vara antalet supportvektorer och line¨ar-kombinationskoefficienterna vara vikterna i SVM:en, vilket g¨or att dessa parametrar blir optimala i

stället för att de ska bestämmas heuristiskt. Se fig 1 ovan Schack Ex: Tv˚ alagers nevralt nätverk

Kärnan är p˚ a formen K(x, y) = tanh(κxx ⁰ + θ), där κ och θ är parame- trar som kallas styrka respektive tröskel. Beslutsfunktionen är d˚ a ett tv˚ alagers neuralt nätverk.

Valet av kärna blir en balansg˚ ang mellan goda separationsegenskaper och överinlärning.

En ökning av dimensionsantalet ger ofta det senare problemet och tvärtom. Det finns dock metoder inom statistisk inlärningsteori som gör graden av över-inlärningen kontrollerbar om bara kärnfunktionen väljs p˚ a rätt sätt. Det g˚ ar d˚ a att till och med välja ∞-dimensionella rum och utnyttja teorin fr˚ an funktionalanalys för fördelaktiga egenskaper hos Hilbertrum. Det som behövs är ett m˚ att p˚ a generaliseringsegen- skaperna. ¨ Aven inom detta omr˚ ade är det Vapnik och medarbetare [28], som har utrett detaljerna. De definierar ett begrepp som de kallar Vapnik-Chovalvski-dimension (VCdim), vilket visar sig vara proportionellt mot överinlärning i en viss mening.

Med detta verktyg kan överinlärningsprocessen kontrolleras. Detta är dock mycket tekniskt och jag kommer inte att g˚ a in p˚ a detaljerna utan hänvisar till [27]. En förenklad sammanfattning av huvudresultaten följer dock:

Till en lineärt separabel träningsmängd finns det alltid flera olika separerande hy- perplan. Det behövs ett principiellt sätt att välja det mest optimala i n˚ agon mening.

M˚ anga fungerande metoder har utvecklats som exempelvis Bayes, MDL, Statistisk inl¨arningsteori med mera. Det jag menar med en bra metod i detta sammanhang

är en metod med goda generaliserande egenskaper, det vill säga en metod, som begränsar risken för överanpassning. Med VCdim menas den största delmängd av X, som kan delas av en beslutsregel. I praktiken för de exempel som här behandlas gäller det att V Cdim = dim(X) + 1. Felmarginalen blir enligt VCteori:

ε = e O( V Cdim

N ) = e O( ( ^R _γ ) N )

Här betyder e O beräkningsordningen, V Cdim VC-dimensionen (ovan definierad),N antal träningsexempel och R den empiriska risken (ovan definierad).

Detta innebär att vi minimerar risken för överanpassning genom att välja det maximala marginalhyperplanet i egenskapsrummet. Det vill säga att SVM:en kon- trollerar sin kapacitet genom att öka marginalen inte genom att öka antalet frihets- grader. Ett fördelaktigt val av kärna är s˚ aledes om den marginalen är s˚ a stor som möjligt. Tv˚ a sorters marginaler finns:

(i)

f unc = min

i y i f (x i ) (ii)

geom = min

i

y i f (x i )

kf k

(18)

Om vi fixerar den funktionella marginalen till 1, blir den den geometriska marginalen

1 kwk . Det är allts˚ a p˚ a detta sätt marginalen kan maximeras genom att minimera normen p˚ a viktvektorn. Följande minimeringsproblem erh˚ alles:

minimera kwk ² = hw, wi

d˚ a y _i (hw, x _i i + b) ≥ 1

Inom optimeringsläran brukar ett s˚ adant problem kallas för kvadratiskt pro- grameringsproblem (QP). Hur ett s˚ adant löses diskuteras i nästa delkapitel.

Det finns en i lärande-system-kretsar välkända tumregeln kallad dimension- alitetsförbannelsen, som i en tolkning säger att ju högre dimension ett rum har desto större risk finns det för överanpassning. Det har p˚ a ovan beskrivna sätt kringg˚ atts, vilket kan ses som ett motbevis.

2.3. Optimeringsteori. Optimeringslära är en gren av den tillämpade matem- atiken som omfattar användningen av matematiska modeller och metoder för att finna ett bästa handlingalternativ i olika beslutssituationer. Teorin utvecklade spo- radiskt hand i hand med den tidiga matematiska analysens. Först under andra värdskriget började optimering ses som ett eget delomr˚ ade inom matematiken, d˚ a under namnet Research on (military) operations, OR. I samband med utvecklan- det av datorn har den blivit en allt mer nödvändig komponent i optimeringteorins lösningsmetoder och idag ses optimeringsteori snarare som en datavetenskap än matematik, om än med matematisk grundstomme. Följande teori är hämtad främst ur [15] och [7].

Ett optimeringsproblem beskrivs oftast i form av en m˚ alfunktion, vilken beskriv- er hur m˚ alvariabeln maximeras eller minimeras. Vi begränsar till˚ atenheten hos lösningar med s˚ a kallade bivillkor, vilka ger restriktioner för hur lösningar f˚ ar se ut. Man brukar klassificera optimeringsproblem efter formen p˚ a m˚ alfunktionen tillsammans med bivillkoren. Av orsaker som förklaras nedan kommer det vid träning av en SVM alltid att uppst˚ a ett optimeringsproblem med en kvadratisk m˚ alfunktion, emedan samtliga bivillkor kommer att vara lineära. S˚ adana problem brukar benämnas kvadratiska optimeringsproblem (QP). Kvadratiska problem är relativt vanliga (om inte i närheten s˚ a vanliga som lineära problem (LP), där även m˚ alfunktionen är lineär) och det finns väl utvecklade algoritmer för att lösa dessa problem effektivt. Optimeringsläran ger oss tillg˚ ang till nödvändiga och tillräckliga villkor för att en given funktion skall vara en lösning till s˚ adana problem. ¨ Aven dualitetsteori kommer att komma till användning.

Ett generellt optimeringsproblem kan skrivas p˚ a f¨oljande form:

Def: (Optimeringsproblem, prim¨ar form) Givet funktionerna f, g i , i = 1, . . . , k och h j , j = 1, . . . , m, definierade p˚ a omr˚ adet Ω ∈ R ⁿ ,

minimera f (w), w ∈ Ω, d˚ a g i (w) ≤ 0, i = 1, . . . , k,

h j (w) = 0, j = 1, . . . , m,

d¨ar f kallas objektfunktion och g i , h j kallas olikhets- respektive likhets-

bivillkor.

(19)

Det omr˚ ade d¨ar objektsfunktionen definieras kallas till˚ atet omr˚ ade och kan beteck- nas:

A = {w ∈ Ω : g(w) ≤ 0, h(w) = 0}

En optimallösning till ett optimeringsproblem kallas en punkt w ^∗ ∈ R s˚ adan att det inte finns n˚ agon annan punkt w ∈ R för vilken det gäller att f(w) < f(w ^∗ ).

En s˚ adan punkt kallas ocks˚ a ett globalt minimum. Observera att ett maximer- ingsproblem alltid kan beskrivas som ett minimeringsproblem genom att negera m˚ alfunktionen. En punkt w ^∗ ∈ Ω kallas ett lokalt minimum till f (w) om ∃ε > 0 s˚ adant att f¨oljande utsaga ¨ar sann: ∀w ∈ Ω, f(w) ≥ f(w ^∗ ) och kw − w ^∗ k < ε.

Man kan d˚ a beskriva likhetsvillkor som tv˚ a lika olikhetsvillkor fast med olika rik- tningar p˚ a olikheterna. Det g˚ ar ocks˚ a att beskriva olikhetsvillkor med likhetsvillkor genom anv¨andningen av s˚ a kallade slappa variabler :

Def: slappa variabler betecknas ξ och transformerar olikhetsbivillkor till lik- hetsvillkor p˚ a f¨oljande s¨att:

g i (w) ≤ 0 ⇔ g i (w) + ξ i = 0, d¨ar ξ i ≤ 0

Jämförs detta med begreppet slappa variabler som introducerades i samband med perceptronen inses snart att det är samma begrepp.

Def: En reellv¨ard funktion f kallas konvex f¨or w ∈ R ⁿ om, ∀w, u ∈ R ⁿ och

∀θ ∈ (0, 1), g¨aller det att

f (θw + (1 − θ)u) ≤ θf (w) + (1 − θ)f (u)

Om ett optimeringsproblem uppfyller att Ω, objektsfunktionen samt att samtliga bivillkor ¨ar konvexa s¨ags optimeringsproblemet vara ett konvext optimeringsproblem.

Ett enkelt test för att se om en funktion är konvex är att undersöka om dess Hessian är positivt semi-definit. Konvexitet är en egenskap som ger m˚ anga fördelar i optimeringsteorin. Det stora fördelen med att arbeta med konvexa problem är att varje lokalt minimum är ocks˚ a globalt, vilket är en mycket fördelaktig situation.

QP ¨ar alltid konvexa.

Def: Aktiva bivillkor Ett bivillkor g i (x) ≤ b i sägs vara aktivt för en lösning x 0 om g i (x 0 ) = b i . Annars sägs villkoret vara inaktivt (se 5).

Vad kan vi använda för optimalitetsvillkor? De klassiska Karush-Kuhn-Tuckervillkoren (KKT) ger oss nödvändiga optimalitetskriterier. Dessa karaktäriserar optimallösningen till problemet och hjälper oss att formulera lösningsmetoder för att hitta denna.

Antag att vi har ett ickelinj¨art problem, till exempel ett kvadratiskt problem p˚ a formen

minimera f (w), w ∈ Ω, d˚ a g _i (w) ≤ 0, i = 1, . . . , k,

Det till˚ atna omr˚ adet X är illustrerat som skärningen mellan mängderna som definieras av bivillkoren. Gradienten till alla bivillkor 5g i pekar alltid ut fr˚ an detta omr˚ ade. Detta innebär att vi kan använda oss av följande begrepp.

Def: Kon En kon definieras av m¨angden:

(20)

Figur 5. Aktiva bivillkor. För en lösning som finns vid roten av den utritade normalen i bilden är endast detta bivillkor aktivt.

Observera att marginalen alltid ¨ar riktad ut˚ at fr˚ an det till˚ atna omr˚ adet, vilket alltid ¨ar konvext.

Figur 6. I detta fall ligger gradienten till m˚ alfunktionen inuti konen som sp¨anns upp av normalerna till de aktiva bivillkoren.

KKT-villkoret ¨ar s˚ aledes uppfyllt och vi har en optimall¨osning.

{C = y|y = X s i=1

α i h i , α i ≥ 0, i = 1, . . . , s}

Om gradienten till m˚ alfunktionen (vi förutsätter att f ∈ C ¹ ) inte ligger i konen av aktiva bivillkor för en viss randpunkt x kan punkten inte vara en optimallösning (inses geometriskt, se 6).

KKT-villkoren s¨ager d˚ a att:

(1)

∇f (x) = X m i=1

v i ∇g i (x)

(21)

v i ≥ 0, i = 1, . . . , m (2)

g i (x) ≤ b i , i = 1, . . . , m (3)

v i (b i − g i (x)) = 0, i = 1, . . . , m

(1) kallas dual till˚ atenhet och säger just att för att x ska kunna vara en opti- mallösning m˚ aste gradienten ligga i konen av aktiva bivillkor. Aktiviteten hos bivil- lkoren kommer in i tredje bivillkoret (3), komplementaritetsvillkoret, som säger att antingen är x ett villkor aktivt (g i = b i ) eller s˚ a är ger bivillkorsgradienten inget bidrag till lineärkombinationen i konen (v i = 0). Detta visar sig vara mycket vik- tigt d˚ a vi p˚ a detta sätt kommer att kunna reducera stora separationsproblem till problem som endast använder farliga exempel, s.k. supportvektorer, dvs punkter som ligger närmast beslutsplanet. Se kapitlet om supportvektorer.

Villkor (2) kallas den primala till˚ atenheten och ¨ar helt enkelt de ursprungliga bivillkoren som givetvis m˚ aste vara uppfyllda.

Vi kommer att anv¨anda en metod fr˚ an 1797 utvecklad av Lagrange [1]. Det ¨ar egentligen en generalisering av Fermats resultat fr˚ an 1629 [1]. Ytterligare generalis- ering av resultatet gjordes av Karush, Kuhn-Tucker 1951 [11].

Def: Lagrangefunktion Givet ett optimeringsproblem med en given objekts- funktion f (w) och likhetsbivillkor h i (w) = 0, i = 1, . . . , m definieras La- grangefunktionen till optimeringsproblemet som

L(w, β) = f (w) + X m i=1

β i h i (w) d¨ar koefficienterna β i ∈ R kallas Lagrangemultiplar.

Sats: Lagrange Ett nödvändigt villkor for en normal punkt w att vara ett minimum till f (w) d˚ a h i (w) = 0, i = 1, . . . , m, med f, h i ∈ C ¹ , är

∂L(w ^∗ , β ^∗ )

∂w = 0

∂L(w ^∗ , β ^∗ )

∂β = 0

för vissa värden β ^∗ . Ovan ställda krav är ocks˚ a tillräckligt förutsatt att L(w ^∗ , β ^∗ ) är en konvex funktion p˚ a w.

Det primala problemet kan transformeras till ett dualt genom att sätta alla derivatorna med avseende p˚ a de primala variablerna till Lagrangianen till 0, och sedan substituera de uppkomna relationerna in i Lagrangianen. P˚ a s˚ a sätt kan beroendet av samtliga primala variabler elimineras. Detta motsvarar att explicit beräkna Lagrangedualitetskriteriet:

θ(α, β) = inf

w∈Ω L(w, α, β)

Den resulterande funktionen inneh˚ aller bara duala ariabler och ska maximeras,

vilket ger ett enklare problem ¨an det tidigare. Vi kommer att se explicit hur detta

till¨ampas p˚ a det optimeringsproblem som uppkommer i n¨asta delkapitel.

(22)

2.4. SVM. Det är dags att knyta ihop teorierna fr˚ an de föreg˚ aende kapitlena, dvs att knyta ihop perceptronen, kärnteorin fr˚ an funktionalanalysen, optimeringsläran, statistiska inlärningteorin tillsammans med implementationstekniker fr˚ an dataveten- skapen till en enhetlig teori. Det var precis det Vapik gjorde när han för första g˚ angen 1992 fick de olika delarna att samverka [5]. M˚ alet med SVM:en är allts˚ a att effektivt hitta ett bra separerande hyperplan mellan de olika klasserna av punkter i egenskapsrummet. Med bra menas, som tidigare nämnts, ett hyperplan med goda generaliseringsegenskaper och en effektiv algoritm som kräver f˚ a beräkningar och som kan behandla även stora datamängder.

Det finns ett antal vägar att g˚ a för att hitta optimala hyperplan. N˚ agra sätt är att maximera antalet supportvektorer, marginalen eller marginalfördelningen. Ett annat sätt som är ekvivalent med att maximera marginalen är att minimera normen (2-normen) p˚ a viktvektorn w, vilket förklaras som: Funktionen som associeras till hyperplanet (w, b) ändras inte om vi skalar om parameriseringen till (λw, λb), λ ∈ R ⁺ , däremot ändras normen p˚ a normalen och marginalen. Vi kan s˚ aledes välja skalning fr˚ an början innan vi p˚ abörjar optimeringen. Som marginal använder vi den geometriska marginalen och vi fixerar marginalen s˚ a att:

f (x ⁺ ) = hw, x ⁺ i + b = +1 f (x ⁻ ) = hw, x ⁻ i + b = −1 d¨ar x ⁺ /x ⁻ ¨ar en positiv respektive negativ punkt.

Anm: Denna ekvation kan användas för att beräkna viktningen (biasen), b, genom att bara bryta ut b i n˚ agon av ekvationerna ovan.

Vi kan nu ber¨akna marginalen γ genom att betrakta avst˚ andet mellan de tv˚ a kon- vexa m¨angderna som de olika klasserna definierar:

f (x ⁺ ) − f (x ⁻ ) = hw, (x ⁺ − x ⁻ )i = 2

Om vi fixerar den funktionella marginalen till 1, blir den geometriska marginalen precis halva avst˚ andet mellan dessa klasser, det vill s¨aga _kwk ¹ enligt:

h w

kwk , (x ⁺ − x ⁻ )i = 2 kwk

Marginalen beror allts˚ a uteslutande p˚ a normalvektorn och den maximeras om normen av normalvektorn minimeras.

maximeraγ ⇔ minimerakwk 2 ⇔ minimera 1 2 hw, wi Vi kan s˚ aledes st¨alla upp f¨oljande sats:

Sats: För en givet lineärt separabel träningsmängd S = {(x 1 , y 1 ), . . . , (x l , y l )} ⊆ (X × Y ) ^l är hyperplanet (w, b) som löser optimeringsproblemet:

minimera w,b 1

2 hw, wi, w ∈ Ω, d˚ a γ i (hw, x i i + b) ≥ 1, i = 1, . . . , l,

det maximala marginalhyperplanet med geometrisk marginal γ = _kwk ¹

(23)

Om detta problem skrivs om p˚ a dual form genom att samma substituering som beskrivs i kapitlet för optimering ovan erh˚ alls följande QP (för detaljer se [7]):

max α W (α) = X

i

α i − 1 2

X

i,j

α i α j y i y j K(x i , x j )

α i ≥ 0 X

i

α i y i = 0 vilket har f¨oljande l¨osning:

⇒ γ = 1

kwk = ( X

i∈sv

α ^∗ _i ) ⁻

¹²

⇔ w = X

i∈sv

α ^∗ _i

Vi har nu utg˚ aende fr˚ an perceptronen kommit fram till lösningen p˚ a ett optimer- ingsproblem. Denna inneh˚ aller en skalärprodukt, som kan bytas ut mot en kärna K. Därmed har samtliga ovan beskrivna teorier har knutits ihop. P˚ a detta sätt kan allts˚ a en beslutsregel f beräknas utifr˚ an en träningsmängd S.

2.5. Implementering av SVM. Det finns olika varianter för implementering av en SVM. Oftast används följande omskrivning av minimeringsproblemet som nämns i kapitlet ovan:

W (α) = X

i

α i − 1 2

X

i,j

α i α j y i y j K(x i , x j )

α i ≥ 0 X

i

α i y i = 0

Minimeras W uppkommer ännu ett QP, vilket det finns m˚ anga väl utvecklade algoritmer för att lösa [7]. Den mest använda benämns Sekvensiell minimaloppti- mering (SMO), vilken uppdaterar tv˚ a vikter w simultant i varje steg. Optimerin- genssteget sker sedan med en s˚ a kallad brantaste lutningen-metod, som i varje steg uppfyller de lineära bivillkoren [23].

Om fördelningar antas vara överlappande är det vanligt att s˚ a kallade mjuka marginaler införs. Här kan ν anta värdena 1 eller 2 vilket medför n˚ agot olika egen- skaper:

minimera < w, w > +C X l i=1

ξ _i ^ν

d˚ a y i (< w, x i > +b) ≤ 1 − ξ i

ξ i ≥ 0, i = 1, . . . , n

Aven detta ¨ar ett QP och kan l¨osas med SMO-algoritmen. ¨

(24)

Figur 7. SVM som ett tv˚ alagersn¨atverk.

2.6. J¨ amf¨ orelse med andra metoder. SVM:en skiljer sig fr˚ an andra metoder dels i prestanda vad gäller klassificering av genexpressionsdata. Det finns ocks˚ a rent teoretiska skillnader i hur SVM:en är uppbyggd i jämförelse med andra system och i synnerhet i jämförelse med neurala nätverk, vilka jag finner intressanta att ta upp.

För genexpressionsdata har en del utvärderingar av SVM i jämförelse med andra metoder gjorts. Den mest utförliga torde vara [34] som skriver att SVM fungerar minst 25 % bättre än det bästa neurala nätverket (Pedersen och Nielsen [22]) i fr˚ aga om generaliseringsegenskaper.

I ett tidigare examensarbete för Jesper Tegner har Roland Nilsson, som tidigare nämnts jämfört olika inlärningsmetoder [18]. Här jämförs olika binära klassificering mot varandra. Det visas att SVM:en har bättre generaliseringsegenskaper än andra klassificeringsmetoder, som t-test, PCA, klustringstekniker, självorganiserande träd och variansfilter. SVM:en betedde sig ocks˚ a annorlunda jämfört med andra metoder.

Skillnaden mellan neurala nätverk och supportvektormaskiner är att neurala nätverk h˚ aller konfidensintervallet fixt medan den empiriska risken minimeras. Sup- portvektormaskinen minimerar i stället konfidensintervallet medan den empiriska risken h˚ alls fix [20]. SVM blir härigenom betydligt enklare att kontrollera, även om neurala nätverk ofta ger goda resultat vid tillämpningar. Neurala nätverk fungerar som ett fram˚ atmatat nät av perceptroner där signalerna mellan noderna modifieras, ofta med hjälp av sigmoida funktioner. I SVM:en används endast en perceptron.

För att komma ˚ at olineäriteter ändras i stället skalärprodukten för det linjära rum- met som träningsdatan definierar. SVM:er och neurala nätverk har stora teoretiska likheter. Det g˚ ar att skissa upp en SVM som ett tv˚ alagersnätverk enligt figur 7.

I SVM:en uppkommer ocks˚ a ett annorlunda optimeringsproblem än i neurala nätverk. Det har fördelen att vara ett begränsat bivillkorsproblem, vars m˚ alfunktion

är kvadratiskt. Till s˚ adana problem, vilka benämns kvadratiska programmeringsprob- lem finns det m˚ anga väl kända lösningsmetoder, som alla har den stora fördelen att de endast utnyttjar den indata som ligger närmast beslutsregeln. All annan data s˚ allas automatiskt bort. Det gör att algoritmer som bygger p˚ a denna teknik

är mycket minnes- och beräkningseffektiva. De ovan beskrivna egenskaperna är de mest väsentliga skillnaderna, men det finns även andra, som inte tas upp i detta arbete.

3. Mikroarraysystem

3.1. Microarrayteknik. Mikroarrayer är en teknik som utför simultana mätningar av tusentals RNA-transkript genom att använda oligonukleotidprober immobilicer- ade p˚ a en glasskiva, ofta med mycket liten storlek (därav namnet mikroarrayer) [18]

och [13]. Tekniken detekterar den relativa f¨orekomsten av olika mRNA-molekyler

(25)

som motsvarar transkriberade gener. Den stora fördelen med tekniken är att tusen- tals gener kan detekteras parallellt. Om detta görs för flera olika cellpopulationer,

är det möjligt att göra unika jämförelser.

Mikroarrayer är en ordnad mängd sm˚ a mätpunkter som inneh˚ aller 10-20 mg DNA. Dessa mätpunkter motsvaras av tusentals punkter p˚ a en liten glasskiva eller ett plastmembran där kända DNA-sekvenser fästs till specifika positioner. DNA- sekvenserna har antingen genererats via PCR av l˚ anga DNA-fragment eller synte- tiserats av korta oligonukleotider direkt p˚ a glaset.

Till respektive mätpunkt kan sedan cDNA hybridiseras med mRNA, som extra- herats fr˚ an cellprover. Detta görs genom att tillsätta komplementära oligodeoxythymid- inmolekyler (oligo(dT)) vilka är bundna till en fast yta i form av en kromatografisk kolonn eller en samling magnetiska kulor. RNA är instabilt och bryts snabbt ner.

Därför transkriberas de snabbt tillbaka till mer stabilt cDNA med enzymet re- verserat transkriptas. Reaktionen startar fr˚ an poly(A)-svansen och fortlöper längs med hela molekylen.

För detektion märks mikroarray-DNA:et in med fluorescerande färger. Fluoro- forer med olika ljusabsorbansspektra används för varje prov. De märkta cDNA- proverna benämns prober och används som sonder för den ordnade samlingen av punkter som arrayen är uppbyggd av. Färgerna kan detekteras direkt med ögat d˚ a de belyses med laserljus av specifika v˚ aglängder. För kvalitativ detektion används emellertid en spektrofotometer som genererar data i form av mättal för varje brunn och för respektive cell.

Den teknik som används i dagsläget brukar klassificeras beroende p˚ a längden av den immobilicerade proben. Tillverkningsprocesserna mellan olika mikroarraysys- tem kan ocks˚ a skilja en del. Den mest använda tekniken hittills har varit Affymetrix GeneChip [14], vilka har korta prober (25 nukleotider).

Den data som tekniken genererar utgör ofta ett stort antal mätvärden. Först bearbetas mätvärdena med olika statistiska metoder för att korrigera eventuella metodstörningar. Detta är dock sv˚ art och stora störningar och variationer i kvalitet,

är n˚ agot som m˚ aste tas hänsyn till. Därefter kan olika klassificeringsmetoder ap- pliceras som exempelvis SVM:er.

4. Material och metoder 4.1. Data.

4.1.1. Syntetisk data. Den syntetiska data som har använts best˚ ar av tv˚ a multi- dimensionella normalfördelningar. Väntevärdet i varje dimension är detsamma för b˚ ada fördelningarna, med undantag för en dimension, för viken väntevärdet skiljer med ett visst reglerbart avst˚ and. P˚ a s˚ a sätt kan den teoretiskt korrekta beslutsregeln exakt bestämmas, nämligen som ett hyperplan med normal som är en ortonormal enhetvektor med nollskild komponent i den väntevärdesskiljande dimensionen. (Se mer under kapitlet mjukvaruimplementering.)

Biologiska nätverk har dock inte normalfördelad struktur [18]. En exakt beskrivn- ing av dess struktur är sv˚ ar att fastställa i termer av vedertagna statistiska fördelningar.

Ett alternativ ¨ar d˚ a att skapa syntetiska n¨atverk med egenskaper som biologiska

nätverk kan förväntas ha. För att kunna utvärdera SVM:en även för stora träningsmängder,

vilka det i dagsläget inte finns tillg˚ ang till, är syntetiska nätverk ett bra alternativ.

Feature selection with support vector machines in functional genomics

UPTEC X 04 029 ISSN 1401-2138 JAN 2004

BJÖRN LINDH

Feature selection with

support vector machines in functional genomics

Master’s degree project

Molecular Biotechnology Programme

Uppsala University School of Engineering

UPTEC X 04 029 Date of issue 2004-01 Author

Björn Lindh

Title (English)

Feature Selection with Support Vector Machines in Functional Genomics

Title (Swedish)

Egenskapsurval med supportvektormaskiner inom funktionell genomik Abstract

Keywords

Lärande system, SVM, supportvektormaskin, cancerklassificering, microarray, genexpressionsdata

Supervisor: Jesper Tegnér

Scientific reviewer: Bengt Persson

Language: svenska Security

ISSN 1401-2138 Classification

Supplementary bibliographical information

Pages

40

Biology Education Centre Biomedical Center Husargatan 3 Uppsala

Box 592 S-75124 Uppsala Tel +46 (0)18 4710000 Fax +46 (0)18 555217

Egenskapsurval med supportvektormaskiner inom funktionell genomik

Björn Lindh

Populärvetenskaplig sammanfattning

Examensarbete 20 p i Molekylär bioteknikprogrammet

Uppsala universitet Januari 2004

1. Inledning 2

1.1. Bakgrund 2

1.2. Problembeskrivning 4

1.3. Syfte och omfattning 5

1.4. Tidigare arbeten 5

1.5. Disposition 5

2. Teori supportvektormaskiner 6

2.1. Perceptronen 9

2.2. K¨arnmetoder 11

2.3. Optimeringsteori 15

2.4. SVM 19

2.5. Implementering av SVM 20

2.6. J¨amf¨orelse med andra metoder 21

3. Mikroarraysystem 21

3.1. Microarrayteknik 21

4. Material och metoder 22

4.1. Data 22

4.2. Mjukvaruimplementering 23

4.3. Simuleringar 23

4.4. L¨amna-en-utanf¨or 24

5. Resultat 24

5.1. Gleshetstest 24

5.2. Marginalberoende 25

5.3. K¨arntest 26

6. Diskussion 27

6.1. Felk¨allor 29

6.2. Slutsatser 29

6.3. Framtida forskning 29

7. Tack till 31

Referenser 31

1

FUNKTIONELL GENOMIK

BJ ¨ ORN LINDH

1. Inledning

1.1. Bakgrund. Biologin har n˚ att ett stadium där analysprocesser för biologisk data har automatiserats och stora mängder information kan erh˚ allas p˚ a kort tid.

2

I det sammanhanget ¨ar det av stor vikt att utveckla dataanalystekniker som kan klassificera och d¨armed skilja mellan prov fr˚ an normalt respektive sjukt tillst˚ and.

Biologiska till¨ampningar av SVM som har dykt upp under de senaste tre ˚ aren

¨ar [30]:

• Gensökning i DNA: En bit av en DNA-sträng är +1 om det är en del av en gen och -1 om den inte är det. Sekvensbaserad genklassificering: Ställ ja- och nejfr˚ agor till en bit DNA.

• Sekund¨arstruktursprediktion hos protein.

• 3D-struktursprediktion hos proteiner.

• Proteinlokalisation i cellen [?].

Med dessa exempel vill jag understryka att metoden är mycket generell även om denna rapport främst beskriver klassificering av cancertyper med lärande system varav den mest användbara är SVM.

˚ Ar 2000 publicerades den artikel som f¨orst beskrev hur man kan anv¨anda SVM:en

f¨or att beskriva m¨onster i de genetiska data som genereras d˚ a man analyserar

celler med mikroarrayanalys [6]. Cancerklassificering har delvis varit komplicerat,

eftersom det historiskt sett fr¨amst f¨orlitat sig p˚ a specifika biologiska insikter snarare

än systematiska och statistiska metoder. I 30 ˚ ar har metoden att klassificera cancer varit densamma, men med SVM introduceras en ny. Tidigare har klassificering gjorts med morfologisk närvaro av tumören, vilket givetvis har sina begränsningar.

N˚ agra fördelar med SVM:en är att det g˚ ar att sp˚ ara tumörer utan synliga sp˚ ar, den g˚ ar att skilja mellan likartade cancertyper samt att metoden automatiserar klassificeringsprocessen. ¨ Annu är dock mikroarrayteknik relativt dyrt. En stor fördel

Language: svenska ^Security

Idén med SVM:en som följande [7]. Först presenteras träningsdata för SVM:en i form av en träningsmängd S = {(x 1 , y 1 ), . . . , (x l , y l )}, x i ∈ R ⁿ , y i ∈ Y = {−1, 1}.

ER(f ) ≤ R(f ^∗ ) + c