• No results found

Feature selection with support vector machines in functional genomics

N/A
N/A
Protected

Academic year: 2022

Share "Feature selection with support vector machines in functional genomics"

Copied!
36
0
0

Loading.... (view fulltext now)

Full text

(1)

UPTEC X 04 029 ISSN 1401-2138 JAN 2004

BJÖRN LINDH

Feature selection with

support vector machines in functional genomics

Master’s degree project

(2)

Molecular Biotechnology Programme

Uppsala University School of Engineering

UPTEC X 04 029 Date of issue 2004-01 Author

Björn Lindh

Title (English)

Feature Selection with Support Vector Machines in Functional Genomics

Title (Swedish)

Egenskapsurval med supportvektormaskiner inom funktionell genomik Abstract

There has been a rapid development of new measurement technologies to monitor the expression activity of the genome. The invention of micro-arrays permits simultaneous measurements of a large number of mRNA-molecules. This holds the promise to define diseases in molecular terms and could provide a basis for medical diagnoses. In this context it is crucial to develop computational analysing techniques that can classify and therefore differentiate between samples from normal and disease states. Support vector machines (SVM) is a learning system, which earlier have proved promising characteristics for this purpose. In this study we evaluated support vector machines for feature selection in gene expression data, and tried to give answer to the question why SVM seems to have other characteristics compared to less sophisticated classifiers. Also an alternative capacity evaluation method to “Leave One Out” (LOO) is discussed. The results showed how sparseness of data can affect the learning capacity and that either choice of margin softness or kernel seemed to affect the generalisation property of the system. This gives a hint of how to shape an SVM for classification of gene expression data.

Keywords

Lärande system, SVM, supportvektormaskin, cancerklassificering, microarray, genexpressionsdata

Supervisor: Jesper Tegnér

Scientific reviewer: Bengt Persson

Language: svenska Security

ISSN 1401-2138 Classification

Supplementary bibliographical information

Pages

40

Biology Education Centre Biomedical Center Husargatan 3 Uppsala

Box 592 S-75124 Uppsala Tel +46 (0)18 4710000 Fax +46 (0)18 555217

(3)

Egenskapsurval med supportvektormaskiner inom funktionell genomik

Björn Lindh

Populärvetenskaplig sammanfattning

Kan man träna en dator till att känna igen cancer? Det tror professor Jesper Tegnér som driver ett projekt vid Linköpings Universitet om just detta. För knappt 10 år sedan uppfann en rysk matematiker vid namn Vapnik ett lärande system som han kallade Supportvektormaskin (SVM). Det kan appliceras på cancerceller på följande sätt. Alla mRNA-koncentrationer i en cell med känd sekvens kan idag mätas i en så kallad mikroarrayanalys. Låt varje mRNA-koncentration vara en parameter med en egen axel i ett koordinatsystem. Mäts 5000 gener kommer således ett 5000- dimensionellt rum att skapas där varje cell får en viss koordinat beroende på sitt specifika genuttryck. Om en cell är en tumörcell av ett visst slag kommer koordinaten för denna cell hamna en bit bort i rummet i jämförelse med friska celler p.g.a. att några gener är utslagna i tumörcellen. Supportvektormaskinen räknar då ut det mest optimala hyperplanet som skiljer punktmängden av friska celler och punktmängden av tumörceller åt. Planet kan sedan användas som en urskiljningsregel vid test av nya celler. På så sätt kan en dator ”tränas” i att känna igen cancer.

Metoden har många fördelar gentemot den idag brukliga mikroskopmetoden. Allt sker automatiskt i en maskin, snabbt och enkelt, men framförallt erhålls direkt information om vilka gener som orsakar åkomman och en behandling kan sättas in just där. SVM har testats för andra system såsom postnummerigenkänning i brevsorteringsmaskiner med gott resultat, men kan nu alltså även användas för cancerklassificering. Min specifika uppgift har varit undersöka vissa inställningsparametrar för att ställa in maskinen så att den fungerar optimalt för detta syfte.

Examensarbete 20 p i Molekylär bioteknikprogrammet

Uppsala universitet Januari 2004

(4)

1. Inledning 2

1.1. Bakgrund 2

1.2. Problembeskrivning 4

1.3. Syfte och omfattning 5

1.4. Tidigare arbeten 5

1.5. Disposition 5

2. Teori supportvektormaskiner 6

2.1. Perceptronen 9

2.2. K¨arnmetoder 11

2.3. Optimeringsteori 15

2.4. SVM 19

2.5. Implementering av SVM 20

2.6. J¨amf¨orelse med andra metoder 21

3. Mikroarraysystem 21

3.1. Microarrayteknik 21

4. Material och metoder 22

4.1. Data 22

4.2. Mjukvaruimplementering 23

4.3. Simuleringar 23

4.4. L¨amna-en-utanf¨or 24

5. Resultat 24

5.1. Gleshetstest 24

5.2. Marginalberoende 25

5.3. K¨arntest 26

6. Diskussion 27

6.1. Felk¨allor 29

6.2. Slutsatser 29

6.3. Framtida forskning 29

7. Tack till 31

Referenser 31

1

(5)

FUNKTIONELL GENOMIK

BJ ¨ ORN LINDH

Sammanfattning. Under den senaste tiden har en snabb utveckling skett av nya m¨atmetoder av genomets aktivtitet. Uppfinnandet av mikroarrayer till˚ ater simultana m¨atningar av ett stort antal mRNA-molekyler. Detta lovar gott inf¨or att definiera sjukdomar i molekyl¨ara termer och kan utg¨ora en bas f¨or medicinska diagnoser. Av stor vikt ¨ar att utveckla dataanalystekniker som kan klassificera och d¨arf¨or skilja mellan prov fr˚ an normalt respektive sjukt tillst˚ and. Supportvektormaskiner (SVM) ¨ar ett l¨arande system som tidigare har visat goda egenskaper i detta syfte [18]. I denna studie vill vi utv¨ardera sup- portvektormaskiner f¨or egenskapsurval i genuttrycksdata, samt besvara fr˚ agan om varf¨or SVM verkar ha andra egenskaper ¨an andra mindre sofistikerade klassificerare. ¨ Aven en alternativ kapacitetsutv¨arderingsmetod till l¨amna en utanf¨or (LOO) diskuteras. Resultaten visar hur glesheten av data kan p˚ averka inl¨arningskapaciteten samt att varken val av mjukhet p˚ a marginalen eller val av k¨arna verkar ha betydelse f¨or systemets generaliseringsegenskaper. Detta ger en fingervisning om hur en SVM b¨or formges f¨or klassificering av genex- pressionsdata.

1. Inledning

Biologin befinner sig f¨or n¨arvarande under stor utveckling. I tidskriften Sci- ence lista f¨or de viktigaste uppt¨ackterna ˚ ar 2003 handlade sju av de tio f¨orsta om bioteknik. Detta ¨ar en syn vi har vant oss vid det senaste deceniet. De revolu- tionerande uppt¨ackterna handlar i stort sett uteslutande om insikter i hur livspro- cesser g˚ ar till p˚ a molekyl¨ar niv˚ a. I och med en s˚ adan f¨orst˚ aelse b¨orjar man ocks˚ a f˚ a insikt i hur dessa kan f¨or¨andras. Detta kommer inte bara att inom en snar framtid inneb¨ara en m¨angd nya revolutionerande tekniska och medicinska till¨ampningar, utan det kommer ¨aven att f¨or¨andra synen p˚ a m¨anniskan och p˚ a liv radikalt hos gemene man.

En revolutionerande f¨oljd av denna utveckling ¨ar att biologens uppgifter och krav a kunskaper f¨or¨andras. D˚ a biologin g˚ ar ner p˚ a molekyl¨ar niv˚ a kr¨aver detta ¨aven kunskaper i fysik, matematik, datavetenskap och teknik. Inte bara utnyttjandet av biologiska organismer i tekniska processer kr¨aver allt mer av dessa kunskaper. ¨ Aven nya tekniker f¨or att p˚ a ett effektivt sett kunna f¨orst˚ a biologiska fenomen kr¨aver mer av s˚ adana kunskaper. Experiment ¨ar ofta mycket dyra att genomf¨ora, men med datamodeller ¨over molekyl¨ara system och effektiva s¨okmetoder i v¨arldsomsp¨annande databaser med biologisk information kan antalet experiment minimeras. I framtiden kr¨avs ett allt st¨orre samarbete mellan biologi och teknik, den saken ¨ar klar. Det jag talar om ¨ar genombrottet f¨or molekyl¨ar bioteknik.

1.1. Bakgrund. Biologin har n˚ att ett stadium d¨ar analysprocesser f¨or biologisk data har automatiserats och stora m¨angder information kan erh˚ allas p˚ a kort tid.

2

(6)

Ett v¨alk¨ant exempel ¨ar att DNA-sekvensen hos m¨anniska och en m¨angd andra organismer redan har blivit fullst¨andigt kodade. Att analysera stora m¨angder bi- ologisk information och systematisera denna har i biologikretsar kommit att kallas f¨or -omik. Det ben¨amns proteomik om det handlar om proteiner, genomik om det handlar om gener, metobolik om det handlar om metaboliter etc. Under de 4-5 senaste ˚ aren har det ocks˚ a skett en snabb utveckling av nya m¨atmetoder f¨or att f˚ a en inblick i genomets aktivitet. Utveckling av biologiska chips och mikroarraysystem ger oss m¨ojlighet att p˚ a ett effektivt s¨att studera simultana m¨atningar p˚ a ett stort antal mRNA-molekyler. Detta ¨ar lovande inf¨or m¨ojligheten att definiera sjukdomar i molekyl¨ara termer och kan komma att utg¨ora en bas f¨or medicinska diagnoser.

I det sammanhanget ¨ar det av stor vikt att utveckla dataanalystekniker som kan klassificera och d¨armed skilja mellan prov fr˚ an normalt respektive sjukt tillst˚ and.

N¨ar funktionen klassificeras parallellt p˚ a en m¨angd gener och resultaten systematis- eras ben¨anms detta funktionell genomik. En viktig uppgift ¨ar att utveckla effektiva analystekniker f¨or dessa stora datam¨angder, som kan anv¨andas f¨or att skilja mellan exempelvis olika tum¨orer eller andra skilda genetiska tillst˚ and hos en cell.

Ett hitintills mycket popul¨art angreppss¨att f¨or att l¨osa s˚ adana problem har varit att anv¨anda l¨arande system, det vill s¨aga algoritmer som l¨ar sig k¨anna igen m¨onster i data av olika former med hj¨alp av tr¨aningsdata. De mest anv¨anda systemen in- om biologin idag torde vara neurala n¨atverk, vilka ¨aven har sin id´egrund inom biologin. I neurala n¨atverk har processer som finns i biologiska nervsystem f¨ors¨okt efterliknas. N¨ar n˚ agra ryska matematiker (Vapnik 1992 [5], 1995 [26]) kombinerade dessa kunskaper med v¨alk¨anda matematiska redskap s˚ asom optimering, statistiska inl¨arningsteori och k¨arnmaskiner f¨oll bitarna f¨orv˚ anansv¨art v¨al p˚ a plats och man skapade den s˚ a kallade supportvektormaskinen, SVM:en. Metoden l¨ats mogna i n˚ agra ˚ ar och i slutet p˚ a 90-talet blev SVM det mest anv¨andbara l¨arande systemet f¨or praktiska till¨ampningar. D˚ a mikroarraytekniken uppfanns testades olika l¨arande system f¨or att analysera de stora datam¨angder som detta system genererar. SVM:n gav goda resultat [6], vilket inte ¨ar f¨orv˚ anande d˚ a supportvektormaskiner redan tidigare kunde anv¨andas lyckosamt i en rad olika praktiska till¨ampningar, s˚ asom handskifts-, siffer- och r¨ostigenk¨anning. Det mest k¨anda exemplet i Sverige ¨ar nog postverkets brevsorteringsmaskin [7], som anv¨ander en SVM f¨or att k¨anna igen postnummer p˚ a brev. Maskinen tr¨anas med ett relativt stort antal data f¨or att sedan kunna k¨anna igen nya siffror.

Biologiska till¨ampningar av SVM som har dykt upp under de senaste tre ˚ aren

¨ar [30]:

• Gens¨okning i DNA: En bit av en DNA-str¨ang ¨ar +1 om det ¨ar en del av en gen och -1 om den inte ¨ar det. Sekvensbaserad genklassificering: St¨all ja- och nejfr˚ agor till en bit DNA.

• Sekund¨arstruktursprediktion hos protein.

• 3D-struktursprediktion hos proteiner.

• Proteinlokalisation i cellen [?].

Med dessa exempel vill jag understryka att metoden ¨ar mycket generell ¨aven om denna rapport fr¨amst beskriver klassificering av cancertyper med l¨arande system varav den mest anv¨andbara ¨ar SVM.

˚ Ar 2000 publicerades den artikel som f¨orst beskrev hur man kan anv¨anda SVM:en

f¨or att beskriva m¨onster i de genetiska data som genereras d˚ a man analyserar

celler med mikroarrayanalys [6]. Cancerklassificering har delvis varit komplicerat,

(7)

eftersom det historiskt sett fr¨amst f¨orlitat sig p˚ a specifika biologiska insikter snarare

¨an systematiska och statistiska metoder. I 30 ˚ ar har metoden att klassificera cancer varit densamma, men med SVM introduceras en ny. Tidigare har klassificering gjorts med morfologisk n¨arvaro av tum¨oren, vilket givetvis har sina begr¨ansningar.

N˚ agra f¨ordelar med SVM:en ¨ar att det g˚ ar att sp˚ ara tum¨orer utan synliga sp˚ ar, den g˚ ar att skilja mellan likartade cancertyper samt att metoden automatiserar klassificeringsprocessen. ¨ Annu ¨ar dock mikroarrayteknik relativt dyrt. En stor f¨ordel

¨ar dock att tekniken inte bara kan anv¨andas f¨or att klassificera cancerklasser, utan

¨aven att ge information om nya klasser och underklasser som inte g˚ ar att urskilja med traditionella tekniker [9].

Genuttrycksexperiment producerar h¨ogdimensionell data genom att m˚ anga gener m¨ats parallellt. Provt¨atheten ¨ar ofta l˚ ag p˚ a grund av stora experimentkonstnader.

Ur dataanalyssynpunkt ¨ar f¨or sm˚ a datam¨angder inte tillfredst¨allande och det blir inte b¨attre av att datan ¨ar mycket brusig beroende p˚ a olika typer av m¨atst¨orningar.

Vid en biologisk fr˚ agest¨allning kommer s¨allan alla dessa 10000-tals dimensioner, dvs gener, att vara relevanta. Det ¨ar d¨arf¨or av stor vikt att f¨ors¨oka hitta metoder som kan s˚ alla bort on¨odigt information. Detta kallas egenskapsurval. Det f¨orh˚ aller sig emellertid s˚ a att olika metoder ger olika m¨angder av informativa gener, medan korrektheten hos klassificeringen med l¨arande system har varit relativt h¨og ¨over lag [18].

En mycket intressant detalj vid tidigare unders¨okningar av SVM:en ¨ar att den beter sig annorlunda ¨an andra metoder i den bem¨arkelsen att den i h¨og grad tar h¨ansyn till andra egenskaper ¨an vad som vanligtvis g¨ors med de andra metoderna [18]. Det finns s˚ aledes stor anledning att studera metoden n¨armare.

Id´en med SVM:en som f¨oljande [7]. F¨orst presenteras tr¨aningsdata f¨or SVM:en i form av en tr¨aningsm¨angd S = {(x 1 , y 1 ), . . . , (x l , y l )}, x i ∈ R n , y i ∈ Y = {−1, 1}.

SVM:en skapar med hj¨alp av tr¨aningsm¨angden en matematisk regel f¨or hur nya exempel skall klassificeras mellan de tv˚ a olika klasserna som definierar tecknet p˚ a y. Hur SVM:en formulerar klassificeringsregeln kan delas upp i tv˚ a faser. I den f¨orsta fasen beskrivs objekteten med hj¨alp av sina egenskaper som vektorer i ett m˚ angdimensionellt egenskapsrum. En dimension f¨or varje egenskap. Varje vektor projiceras in i ett nytt rum, eventuellt med annan, ofta h¨ogre, dimension ¨an det ursprungliga. Det g¨ors p˚ a ett s˚ adant s¨att att de olika klasserna kan separeras med ett hyperplan i R n . Uppgiften ¨ar att hitta en bra s˚ adan beslutsregel, g¨arna den b¨asta. Med bra menas h¨ar goda generaliseringsegenskaper och en effektiv algoritm som kr¨aver f˚ a ber¨akningar och ¨aven kan behandla stora datam¨angder.

Med beslutsregel menas att om ett nytt exempel introduceras tilldelas det y- v¨ardet 1 eller -1 beroende p˚ a vilken sida av planet det befinner sig. P˚ a detta s¨att v¨aljer allts˚ a algoritmen vilken klass ett nyintroducerat exempel tillh¨or.

I detta arbete har jag studerat ett specifikt problem. Man b¨or emellertid ha i

˚ atanke att SVM:en, som tidigare p˚ apekats, ¨ar en mycket generell metod, som kan anv¨andas i m˚ anga sammanhang, b˚ ade inom biologin och inom andra vetenskaper.

1.2. Problembeskrivning. Grundsyftet med denna studie ¨ar att finna metoder

f¨or att ur stora datam¨angder g¨ora best¨amningar av genetiska n¨atverk. Med ett

genetiskt n¨atverk menas en karta ¨over en m¨angd gener av vilken det framg˚ ar hur

genernas uttryck p˚ averkar varandra. F¨or att studera metoder som kan anv¨andas

l¨oses ett mindre problem: cancerklassificering. Det finns m˚ anga t¨ankbara metoder

f¨or att l¨osa klassificeringsproblem. En av de mest anv¨andbara metoderna hittills

(8)

har varit det l¨arande systemet supportvektormaskiner (SVM). SVM:en visar sig ta vara p˚ a andra egenskaper ¨an tidigare anv¨anda metoder, som andra l¨arande system och statistiska metoder. Det ¨ar relevant att ta reda p˚ a varf¨or.

Det ¨ar ocks˚ a av stor betydelse att unders¨oka parameterinst¨allningar till SVM:en i kombination med olika egenskaper av genuttrycksdata, vilka kontrollerar vilka egenskaper en SVM kan uppt¨acka.

1.3. Syfte och omfattning. Utifr˚ an presentationen av det givna problemet ovan, kan syftet och omfattningen sammanfattas enligt f¨oljande:

Syftet med detta examensarbete ¨ar att:

(1) Teoretiskt f¨orst˚ a de matematiska processerna bakom supportvektormaski- nen.

(2) Utv¨ardera supportvektormaskiner f¨or egenskapsurval i genuttrycksdata, samt besvara fr˚ agan om varf¨or SVM verkar ha helt andra egenskaper ¨an andra mindre sofistikerade klassificerare.

Omfattningen p˚ a arbetet ¨ar:

(1) Grundligt f¨orst˚ a hur en SVM fungerar och kunna f¨orklara detta teoretiskt samt kunna f¨orst˚ a dess programmeringskod.

(2) ¨ Oversiktligt redog¨ora f¨or vad som g¨ors inom forskningsf¨altet f¨or tillf¨allet.

(3) J¨amf¨ora olika SVM, med olika parameterinst¨allningar och k¨arnor och testa p˚ a mikroarraydata, dels artificiell och biologisk.

1.4. Tidigare arbeten. Vapnik och hans medarbetare lade grunden f¨or teorin i hans tv˚ a artiklar [5] och [10]. D¨arefter b¨orjade metoden till¨ampningas inom olika omr˚ aden som [8], [26] och [19]. 1999 applicerades metoden f¨or f¨orsta g˚ angen p˚ a genexpressionsdata av Brown [6] och har sedan dess f¨oljts upp av ett antal artiklar exempelvis [2] och [29].

Mitt arbete kan ses som en uppf¨oljning av Nilsson och Tegners tidigare arbete [18] med att utv¨ardera olika metoder f¨or klassificering av genexpressionsdata. Oli- ka metoder utv¨arderades och j¨amf¨ordes. Det visas att SVM:en har b¨attre gener- aliseringsegenskaper ¨an andra klassificeringsmetoder, som t-test, PCA, klustring- stekniker, sj¨alvorganiserande tr¨ad och variansfilter. SVM:en betedde sig ocks˚ a an- norlunda j¨amf¨ort med andra metoder. D˚ a metoderna utv¨arderades med l¨amna en utanf¨or (LOO) (se kapitel 5.1.5) felklassificerades andra punkter med SVM ¨an de som felklassificerades av andra metoder. SVM:en utnyttjar s˚ aledes andra egen- skaper i inl¨arningsprocessen ¨an andra inl¨arningsmetoder. D¨arav f¨oljer intresset av en f¨ordjupning i f¨orst˚ aelsen av SVM:ens egenskaper.

Aven andra resultat i litteraturen [10], [6] och [2] visar p˚ ¨ a att klassificering fr˚ an mikroarraydata ofta ger tillfredsst¨allande resultat j¨amf¨ort med andra maskintest och kliniska diagnoser. Detta trots stora st¨orningar i datan.

Ytterligare arbeten som ber¨or detta arbete ¨ar bland andra [2] som unders¨oker mikroarraydata och visar att polynomiella k¨arnor ger samma resultatprestanda som line¨ara. S˚ alunda spelar inte k¨arnteori n˚ agon central roll vad g¨aller att hitta r¨att parameterinst¨allningar till SVM:en. Alferis visar ocks˚ a flertalet exempel p˚ a att risken generellt sett ¨ar stor f¨or ¨overanpassning i h¨ogdimensionela datam¨angder.

1.5. Disposition. Rapporten ¨ar strukturerad p˚ a f¨oljande s¨att:

• Kapitel 2 beskriver de olika matematiska komponenterna i teorin f¨or sup-

portvektormaskiner: perceptronen, k¨arnmetoder, optimering och statistisk

(9)

inl¨arningsteori. I delkapitelet SVM beskrivs hur dessa komponenter knyts ihop och bildar en enhetlig teori. D¨arefter f¨oljer en kort beskrivning av im- plementering och vad som skiljer SVM:en fr˚ an andra metoder, framf¨or allt fr˚ an det klassiska neurala n¨atverket.

• I kapitel 3 beskrivs hur data har genererats, b˚ ade artificiell och biologisk.

Det finns ocks˚ a beskrivet vilka program som har anv¨ants och hur simuler- ingsf¨ors¨oken ¨ar uppbyggda.

• Kapitel 4 inneh˚ aller erh˚ allna resultat fr˚ an simuleringsf¨ors¨oken.

• Kapitel 5 diskuterar resultat, slutsatser, felk¨allor samt f¨orslag p˚ a fortsatt forskning.

• I kapitel 6 tackas alla som har bidriagit till arbetet.

2. Teori supportvektormaskiner

Supportvektormaskiner (SVM) ¨ar en familj av l¨arande algoritmer, vilka f¨or till- f¨allet anses som en av de mest effektiva f¨or till¨ampade problem. Det ¨ar en metod som

¨ar starkt p˚ a frammarsch. I m˚ anga sammanhang har SVM b¨attre inl¨arningsegenskaper

¨an exempelvis neurala n¨atverk, som ¨ar den mest k¨anda algoritmfamiljen bland l¨arande system [4]. Syftet med SVM:er och andra inl¨arningsalgoritmer ¨ar att med hj¨alp av inl¨arningsdata k¨anna igen m¨onster och p˚ a s˚ a s¨att kunna avg¨ora egenskaper hos ny data som presenteras f¨or algoritmen. Det har utvecklats m˚ anga andra arti- ficiella inl¨arningstekniker, som exempelvis neurala n¨atverk, Fischers diskriminant, klassificerings- och regressionstr¨ad (CART), klustringstekniker och olika statistiska tekniker. SVM tycks emellertid f¨or tillr¨ackligt komplicerade system vara den mest anv¨andbara. SVM:er har ocks˚ a den f¨ordelen att den ¨ar baserad p˚ a en mycket elegant och h˚ allfast matematisk grund, vilket g¨or det m¨ojligt att ha god kontroll ¨over dess processer. SVM:en ¨ar ett resultat av teoretisk forskning, snarare ¨an av pr¨ovning.

F¨orutom detta faktum kan dess st¨orsta f¨ordelar sammanfattas p˚ a f¨oljande s¨att [7]:

Goda generaliseringsegenskaper: Metoden klarar sig relativt bra fr˚ an ¨over- inl¨arning, mycket b¨attre ¨an exempelvis neurala n¨atverk. Det finns ocks˚ a metoder f¨or att reglera och kontrollera detta fenomen.

H¨ og ber¨ akningshastighet: Dual form g¨or att allt kan ber¨aknas i ett steg.

Dessutom finns det v¨al utvecklade algoritmer f¨or de optimeringsproblem som uppkommer. Algoritmen ¨ar s˚ a konstruerad att den enbart anv¨ander information fr˚ an en relevant delm¨angd av inl¨arningsdatan, s˚ a kallade sup- portvektorerna (f¨orklaras nedan).

Robust: Antalet fria parametrar ¨okar inte med antalet dimensioner.

Anm: Generaliseringsegenskaper Med generaliseringsegenskaper menas f¨or- m˚ agan hos en hypotes att korrekt klassificera data som inte ¨ar i tr¨anings- m¨angden.

Overinl¨arning ¨ar ett problem f¨or inl¨arningsalgoritmer. Med begreppet menas ¨ att en algoritm ibland kan hitta en komplicerad regel som perfekt klassificerar objekten i tr¨aningsm¨angden. Regeln kan dock vara oanv¨andbar f¨or att klassificera nya observationer om den ¨ar alltf¨or relaterad till tr¨aningsm¨angden. Vi s¨ager att en s˚ adan regel inte generaliserar bra. L¨arande system ¨ar alltid en avv¨agning mellan

¨overinl¨arning och enkel approximation p˚ a beslutslinjen.

Hur g˚ ar kontrollen av ¨overinl¨arningsprocessen till? Svaret kommer fr˚ an den

statistiska inl¨arningsteorin [27]. Denna teori ¨ar ganska sn˚ arig och jag n¨ojer mig

(10)

med att presentera huvudresultaten. F¨orenklat skulle man kunna s¨aga att Vap- nik och medarbetare har med den statistika inl¨arningsteorin hittat en l¨ank mellan f¨orm˚ agan hos en algoritm att l¨ara sig en regel som ¨ar bra p˚ a att klassificera och samtidigt har bra generaliseringsegenskaper. Detta ¨ar en implikation i m˚ anga steg fr˚ an den statiska inl¨arnigsteorins huvudsats:

ER(f ) ≤ R(f ) + c

r V Cdim N

d¨ar E ¨ar v¨antev¨ardesoperatorn, R risk (definieras R(f) = P (f(X) 6= Y )), f = en inl¨arningsregel med empirisk riskminimering p˚ ˆ a tr¨aningsdatan, f = en inl¨arningsregel generaliseringsmaximering, V Cdim = ett m˚ att p˚ a ¨overanpassning och N = antalet observationer i tr¨aningsm¨angden. Andemeningen med satsen ¨ar att risken hos en inl¨arningsalgoritm att klassificera fel ¨ar proportionell mot kvadra- troten ur VC-dimensionen. En utf¨orligare definition p˚ a VC-dimension hittas under kapitlet k¨arnmaskiner.

Satsen leder fram till ett minimeringsproblem av den s˚ a kallade strukturella risken f¨or felklassificering, vilken minimeras genom att minimera marginalen, eller ekvivalent maximera viktvektorn f¨or hyperplanet. Detta ¨ar ett optimeringsprob- lem med unik l¨osning, som visar sig ha m˚ anga goda egenskaper. Dels ¨ar det ett kvadratiskt programmeringsproblem, vilket det finns effektiva l¨osningsmetoder till.

Dels reduceras problemets l¨osning genom optimeringsl¨arans KKT-villkor automa- tiskt ner till att bara bero p˚ a de vektorer som ligger n¨armast det avskiljande hy- perplanet. Endast denna delm¨angd av tr¨aningsexempel ger s˚ aledes fullst¨andig in- formation om l¨osningen och har d¨arf¨or f˚ att namnet supportvektorer.

L˚ angt ifr˚ an alla inl¨arningsdatam¨angder ¨ar line¨art separabla, vilken ovan beskriv- da perceptron kr¨aver. Ett s¨att att l¨osa detta problem ¨ar att introducera begreppet k¨arnor. K¨arnmetoden ger unik optimall¨osning till samtliga ickeline¨ara system med

¨andlig tr¨aningsm¨angd (f¨orutsatt l¨ampligt val av k¨arna) genom att projicera prob- lement in i ett rum, som ofta (men inte alltid) har h¨ogre dimension ¨an indatarum- met. Det fina ¨ar att en s˚ a kallad dual representation fortfarande g¨or det m¨ojligt att definiera projektion endast implicit genom en inre produkt, vilket implicerar att antalet parametrar d˚ a inte kommer att ¨oka med antalet dimensioner. Dimension- beroendet utr¨ones utf¨orligare i kapitlet om statistisk inl¨arningsteori. Det finns dock tv˚ a problem som uppkommer vid anv¨andningen av k¨arnor:

(i) Hur erh˚ alls ett separerande hyperplan som generaliserar bra ¨aven i ett h¨og- dimensionellt egenskapsrum?

(ii) Hur behandlar man h¨ogdimensionella rum rent ber¨akningstekniskt.

SVM:en l¨oser problem (i) genom att konstruera en γ-marginal och mjuka marginaler.

Definition finns i kapitlet Supportvektormaskiner. En stor γ-marginal ger n¨amligen liten VCdim. Problem (ii) l¨oses genom inre produkter och k¨arnteori [27]. Mercers sats implicerar att om bara k¨arnor v¨aljs p˚ a ett l¨ampligt s¨att s˚ a g˚ ar det att kontollera VCdim ¨aven f¨or h¨ogdimensionella eller till och med ∞-dimensionella egenskapsrum (Hilbertrum). En s˚ adan k¨arna ¨ar radiella basfunktioner, vilket f¨oljande exempel visar.

Exempel Schackbr¨ ade: Exemplet visa hur ett schackbr¨adem¨onster kan˚ ater- skapas genom att anv¨anda en SVM med radiell basfunktionk¨arna. 100 re- spektive 400 punkter slumpas ut p˚ a ett 4 x 4 rutor stort schackbr¨adem¨onster.

Om punkten hamnar p˚ a en vit ruta ger vi dess tillh¨orande y-v¨arde v¨ardet 1,

(11)

Figur 1. 100 punkter slumpas ut p˚ a ett schackbr¨ade. SVM:en f˚ ar information om punkterna hamnade p˚ a vit eller svart ruta och f¨ors¨oker d¨arefter ˚ aterskapa schackm¨onstret. I detta fall har radiella basfunktioner anv¨ants som k¨arna.

Figur 2. Samma test som ovan fast f¨or 400 tr¨aningspunkter

annars -1. SVM:en l˚ ats sedan f¨ors¨oka ˚ aterskapa rutm¨onstret med hj¨alp av tr¨aningsdatan. I det h¨ar fallet anv¨ands exponentiella radiella basfunktioner som k¨arna, vilket ¨ar en projektion in i ett Hilbertrum d¨ar tr¨aningsexemplerna kan separeras line¨art med ett hyperplan (se figur 1 och figur 2).

I f¨oljande kapitel f¨ordjupas de olika delarna mer i detalj. F¨orst presenteras de

olika matematiska omr˚ adena: perceptronen, k¨arnteorin, optimeringteorin och statis-

tiska inl¨arningsteorin var f¨or sig. D¨arefter knyts delarna ihop under delkapitlet Sup-

portvektormaskiner. P˚ a slutet diskuteras ¨aven kort implementerings-tekniker samt

(12)

O

X X

X X

X X

O O

O O

O

Figur 3. Med hj¨alp av tr¨aningsdata skapas ett beslutsplan med en normal w. Detta illustreras h¨ar i R 2 .

en j¨amf¨orelse i teori och prestanda med andra metoder. Det mesta materialet i detta kapitel ¨ar h¨amtat ur [7] och [27].

Slutligen vill jag ocks˚ a n¨amna att SVM:en ¨aven kan anv¨andas, f¨orutom till bin¨ar klassificering, till ickeline¨ar (och line¨ar) regression [7].

2.1. Perceptronen. Den line¨ara diskriminanten, eller som den ocks˚ a kallas: per- ceptronen, beskrevs f¨orsta g˚ angen av Frank Rosenblatt 1956 [25]. Den ¨ar grundid´en f¨or all artificiell inl¨arning och har sedan dess introduktion enbart f¨orfinats och gen- eraliserats till mer avancerade problem, men har fortfarande samma grundstomme.

Det enklaste fallet ¨ar en bin¨ar klassificerare som l¨ar sig skilja mellan tv˚ a klasser.

Detta g˚ ar att generalisera mycket enkelt till separation mellan flera klasser. Jag n¨ojer mig d¨aremot med att presentera teorin f¨or separation mellan tv˚ a klasser.

F¨or att kunna skapa en beslutsregel beh¨ovs en tr¨aningsm¨angd:

Def: Tr¨aningsm¨angd F¨or X ⊆ R n , ett indatarum och Y = {−1, 1}, ut- datarum definieras en tr¨aningsm¨angd: S = {(x 1 , y 1 ), . . . , (x l , y l )} ⊆ (X × Y ) l , d¨ar x i ¨ar exempel, y i tillh¨orande ettiketter och l antalet exempel.

Utifr˚ an denna m¨angd skapas en beslutsregel i form av ett hyperplan som delar in rummet i tv˚ a halvrum. I 3 nedan visas hur ett s˚ adant hyperplan definierat av tr¨aningsdatan skulle se ut i tv˚ a dimensioner. Ett d¨ar den ena klassen h¨or hem- ma och ett f¨or den andra klassen. Hyperplanet kan ber¨aknas med m˚ anga olika metoder, vilka oftast bygger p˚ a statistiska metoder eller optimeringsmetoder. I fal- let med SVM:er uppst˚ ar ett kvadratiskt programmeringsproblem, som diskuteras under kapitlet optimeringsl¨ara.

Klassificeringen i perceptronen g˚ ar till p˚ a f¨oljande s¨att. L˚ at f : X ⊆ R n → R vara en klassificeringsfunktion p˚ a s˚ a s¨att att x = (x 1 , . . . , x n ) 0 antingen har en egenskap som definieras av f , annars ¨ar den negativ. Vi s¨ager d˚ a att x ¨ar positiv.

Detta g¨aller om f(x) ≥ 0, annars ¨ar den negativ. Anta att klassen av s˚ adana funktioner F = {f |f line¨ar} av line¨ara funktioner p˚ a formen f (x) = hw, xi + b, d¨ar (w, b) ∈ R n × R, x ∈ X ¨ar parametrarna som kontrollerar beslutsregeln. Dessa ges av sgn(f (x)), (sgn(0) = 1). Det g¨aller allts˚ a att finna en s˚ a bra beslutsregel som m¨ojligt. Med bra menas h¨ar en regel som kan klassificera tr¨aningsdatan korrekt och

¨aven kunna generalisera regeln till nyintroducerade exempel. Det ¨ar bara m¨ojligt

(13)

om datan ¨ar line¨art separabel. Om vi antar att s˚ a ¨ar fallet, kan vi l˚ ata beslutsregelns parametrar i f (x) helt best¨ammas av inl¨arningsdatan. I det line¨ara fallet bildar f ett hyperplan. Hyperplanet kan s˚ aledes ses som ett affinet delrum av R n i n − 1 dimensioner, som otvetydigt definierar tv˚ a distinkta klasser. w ¨ar normalvektorn till planet. b kallas f¨or viktning eller bias om man vill anv¨anda ett utl¨andskt ord.

Utg˚ aende fr˚ an ovanst˚ aende teori kan perceptronsalgoritmen beskrivas som f¨oljande:

(1) Utg˚ a fr˚ an w o , b o = 0

(2) Om marginalen ≤ 0 f¨or ett tr¨aningsexempel, dvs exemplet ¨ar felklassificerat, flytta w och b ett steg i riktning s˚ a att marginalen ¨okas.

(3) Forts¨att tills exemplet ¨ar p˚ a r¨att sida om planet.

(4) Upprepa de tidigare stegen f¨or alla tr¨aningsexempel tills alla ligger p˚ a r¨att sida om hyperplanet.

Denna enklaste form av perceptronen kr¨aver att tr¨aningsdatan ¨ar line¨art sepa- rabel. Det beh¨over den naturligtvis inte vara. Jag kommer nu att diskutera ett s¨att att l¨osa detta problem. Men f¨orst n˚ agra definitioner:

Def: Marginalen f¨or ett exempel (x i , y i ) med avseende p˚ a hyperplanet (w, b) ges av:

γ i = y i (hw, x i i + b)

Anm: Det ¨ar dock brukligt att anv¨anda sig av en normerad marginal f¨or att f˚ a goda egenskaper hos det optimeringsproblem som uppkommer (se kap.

opimeringsl¨ara). Planet p˚ a normerad form blir d˚ a:

( 1 kwk w, 1

kwk b)

Den geometriska marginalen m¨ater det Euklidiska avst˚ andet mellan punk- terna och det separerande hyperplantet i X.

Marginalen γ s till S definieras som den maximala marginalen ¨over alla hyper- plan, vilket ben¨amns maximala marginalhyperplanet. Storleken av dess marginal

¨ar alltid positiv f¨or line¨art separabla tr¨aningsm¨angder. Det kan nu bevisas (se [7]) att ett hyperplan kommer att hittas inom ett ¨andligt antal iterationssteg med per- ceptronalgoritmen.

Def: Fixera γ > 0, definiera slapp marginalvariabel till exemplet (x i , y i ) med avseende p˚ a hyperplanet (w, b) och m˚ almarginalen som

ξ((x i , y i ), (w, b), γ) = ξ i =

= max(0, γ − y i (hw, x i i + b))

Om ett exempel (x i , y i ) ¨ar p˚ a fel sida om γ blir s˚ aledes ξ i positivt och dess storlek ger ett m˚ att p˚ a hur mycket p˚ a fel sida om den korrekta marginalen den befinner sig.

Detta tillv¨agag˚ angss¨att har m˚ anga f¨ordelar. Vi beh¨over inte kr¨ava line¨ar separa-

bilitet hos data och vi f˚ ar ett m˚ att p˚ a exempel som med stor sannolikhet inneh˚ aller

stora m¨atfel. Metoden ¨ar allts˚ a s¨arskilt gynnsam f¨or ickeline¨arseparabel data med

stora st¨orningar.

(14)

Vi ska observera n˚ agra saker ang˚ aende planets ekvation. Det inses l¨att att w kan beskrivas som en line¨arkombination av tr¨aningspunkter

w = X l i=1

α i y i x i

Notera att α i ¨ar proportionell mot antalet missklassificeringar f¨or respektive i.

Det vill s¨aga att sv˚ arklassificerade punkter erh˚ alls stora α, av vilket det f¨oljer att det d¨arf¨or g˚ ar enkelt att detektera punkter med till exempel stora m¨atfel. I kapitlet optimeringsmetoder nedan beskrivs hur man ber¨aknar dessa.

F¨ordelen med att kunna skriva w som en line¨arkombination g¨or att vi kan beskri- va beslutsregeln direkt utifr˚ an en tr¨aningm¨angd S med en s˚ a kallad dual beslut- sregel. Detta ¨ar en av de vinnande egenskaperna hos SVM:en. Den duala beslut- sregeln ser ut p˚ a f¨oljande s¨att:

h(x) = sgn(hw, xi + b) =

= sgn(h X l j=1

α j y j x i , xi + b) =

= sgn(

X l j=1

α j y j hx i , xi + b)

Det inneb¨ar att endast den inre produkten mellan exemplen beh¨over ber¨aknas. Icke line¨arseparabla kan d˚ a l¨osas genom att ¨andra rummets inre produkt. Jag kommer att diskutera detta djupare i kapitlet nedan om k¨arnmetoder. Formen f¨or indata ¨ar oftast enbart samtliga inre produktkombinationer samlade i en matris:

G = (hx i , x j i) l i,j=1 G kallas f¨or en Grammatris.

Perceptronen ¨ar allts˚ a en algoritm som hittar ett separerande hyperplan. I kapit- let optimeringsl¨ara kommer jag att diskutera hur detta kan g¨oras p˚ a b¨asta s¨att. D¨ar presenteras ocks˚ a mera effektiva algoritmer.

Anm: ¨ Aven neurala n¨atverk bygger p˚ a perceptronen. Se figur 7 i kapitel 2.6.

En av f¨oruts¨attningarna f¨or algoritmen ¨ar som n¨amnts att datan som presen- teras kr¨avs vara line¨art separabel. F¨or data med stora st¨orningar g˚ ar detta att l¨osa med slappa variabler. Om algoritmen skall l¨ara sig k¨anna igen m¨onster som uppen- bart inte ¨ar line¨art separabla m˚ aste dock en annan teknik anv¨andas n¨amligen att introducera k¨arnfunktioner.

2.2. K¨ arnmetoder. Supportvektormaskiner ¨ar medlemmar i klassen av en st¨orre klass av inl¨arningsalgoritmer, vilken brukar ben¨amnas k¨arnmetoder. Id´een med k¨arnmetoder ¨ar att avbilda indata indirekt ickelinj¨art in i ett teoretiskt rum, ett s˚ a kallat egenskapsrum, E, genom att byta ut den inre produkten i indatarummet mot en k¨arnfunktion K(x, z). E v¨aljs ofta till ett h¨ogdimensionellt rum p˚ a s˚ a s¨att att tr¨aningsdatans klasser blir line¨art separabla. Detta ¨ar enligt [34] alltid m¨ojligt f¨or ¨andliga tr¨aningsm¨angder S.

K¨arnmetoder kan studeras helt f¨or sig sj¨alv och har utvecklats sedan 60-talet,

l˚ angt innan den f¨orsta SVM:en s˚ ag dagens ljus. Teorin sm¨alter dock f¨orv˚ anansv¨art

fint in och ¨ar en h¨ogst naturlig komponent i teorin f¨or supportvektormaskiner.

(15)

X X

Φ

Φ(χ)

Φ(Ο) Φ(Ο)

Φ(Ο) Φ(Ο)

Φ(Ο) Φ(Ο) Φ(Ο) Φ(χ)

Φ(χ) Φ(χ) Φ(χ)

Φ(χ) Φ(χ) Φ(χ) X

O

O O O

O

O

O X

X

X

X

X

Figur 4. M˚ anga system kr¨aver en ickelin¨ar beslutsregel. Rummet kan d˚ a transformeras in i ett rum, ofta av h¨ogre dimension, d¨ar beslutsregeln ¨ar line¨ar.

Vi b¨orjar med att definiera en avbildning f¨or projektionen av datan in i egen- skapsrummet. L˚ at oss kalla den f¨or en m˚ alfunktion:

φ : X → E = {φ(x)|x ∈ X}

x = (x 1 , . . . , x n ) 7→ φ(x) = (φ 1 (x), . . . , φ d (x)),

Kvantiteterna som introduceras i E kallas egenskaper medan orginalkvantiteter- na kallas attribut.

Uppgiften ¨ar att v¨alja φ p˚ a s˚ adant s¨att att E blir line¨art separabelt (se 4). Om en s˚ adan avbildning har lyckats hittas kan sedan ett separerande hyperplan finnas i detta rum med perceptronalgoritmen. Den explicita egenskapavbildningen beh¨over dock inte k¨annas till. I st¨allet byts skal¨arprodukten, det vill s¨aga Grammatrisen G, ut till en k¨arnfunktion K. Det som kr¨avs av en funktion f¨or att den skall kallas k¨arnfunktion ¨ar:

Def: K¨arnfunktion kallas en funktion K, s˚ adan att ∀x, z ∈ X g¨aller att:

K(x, z) = hφ(x), φ(z)i d¨ar φ : X → F

Definitionen kommer ursprungligen fr˚ an integrationsteorin och anv¨ands bland annat vid skal¨arproduktbyten i Hilbertrum.

Hur kommer d˚ a beslutsfunktionen att se ut? P˚ a primal form f˚ ar vi f¨oljande funktion:

f (x) = X l

i=1

w i φ i (x) + b

Om denna skrivs p˚ a dual form erh˚ alls i st¨allet f¨oljande beslutsfunktion. J¨amf¨or denna med beslutsfunktionen som beskrevs i perceptronkapitlet:

f (x) = X l i=1

α i y i i (x), φ(x)i + b

(16)

Vi beh¨over s˚ aledes bara ber¨akna alla hφ i (x), φ(x)i = K(x i , x). Om skal¨arprodukten nu byts ut mot en k¨arnfunktion kan allts˚ a beslutsfunktionen skrivas p˚ a en form som inneh˚ aller K:

f (x) = X l

i=1

α i y i K(x i , x) + b

K¨arnmetodklassen definierar s˚ aledes implicit klassen av m¨ojliga m¨onster genom att introducera ett begrepp f¨or likhet mellan data.

Nu till n˚ agra karakt¨aristiska egenskaper hos k¨arnor. F¨oljande egenskaper g¨aller f¨or k¨arnor:

Cauchy-Schwarz:

K(x, z) 2 = hφ(x)φ(z)i 2 ≤ kφ(x)k 2 kφ(z)k 2 =

= hφ(x)φ(x)ihφ(z)φ(z)i = K(x, x)K(z, z) Symmetriska:

K(x, z) = hφ(x)φ(z)i = hφ(z)φ(x)i = K(z, x)

Det finns ocks˚ a m˚ anga metoder att skapa nya k¨arnor utifr˚ an gamla. H¨ar f¨oljer n˚ agra r¨akneregler som g¨aller f¨or k¨arnor. Bevis finns i [7]:

Proposition: R¨akneregler f¨or k¨arnor L˚ at K 1 och K 2 vara k¨arnor i X × X, X ⊆ R n , a ∈ +, f (·) en reellv¨ard funktion p˚ a X,

φ : X → R n

med K 3 , en k¨arna ¨over R n × R n , och B en symmetrisk positivt semidefinit n × n-matris. D˚ a g¨aller att f¨oljande funktioner ¨ar k¨arnor:

(1) K(x, z) = K 1 (x, z) + K 2 (x, z), (2) K(x, z) = aK 1 (x, z),

(3) K(x, z) = K 1 (x, z)K 2 (x, z), (4) K(x, z) = f (x)f (z),

(5) K(x, z) = K 3 (φ(x), φ(z)), (6) K(x, z) = x 0 Bx.

F¨or att k¨arnkonceptet skall framg˚ a ¨annu tydligare presenteras nedan n˚ agra av de mest anv¨anda exemplena i till¨ampade problem.

Ex: Generell polynomk¨arna

K¨arnan ¨ar p˚ a formen K(x, y) = (hx, yi + C) n . Konceptet framg˚ ar med ett specialfall i R 2 (h¨ar C = 0 och n = 2):

hx, yi 2 = h(x 1 , x 2 ), (y 1 , y 2 )i 2 = x 2 1 y 1 2 + x 2 2 y 2 2 + 2x 1 y 1 x 2 y 2 =

= h(x 2 1 , x 2 2 ,

2x 1 x 2 ), (y 1 2 , y 2 2 , 2y 1 y 2 )i

Detta ¨ar ocks˚ a en skal¨arprodukt i ett line¨art rum med tre dimensioner, med axlarna x 2 1 , x 2 2 och

2x 1 x 2 . I detta rum ¨ar betydligt fler tr¨aningsm¨angder

separabla. K¨arnan plockar p˚ a s˚ a s¨att ut vissa egenskaper ur data och g¨or

den i n˚ agon mening mer separabel. Detta utan att ber¨akningsordningen

p˚ a problemet stiger. Det g˚ ar ocks˚ a mycket enkelt att visa att om bara

l¨amplig k¨arna v¨aljs ¨ar alla tr¨aningsm¨angder separabla (utom specialfallet

d˚ a: x i = x j om y i 6= y j , i 6= j).

(17)

Ex: Radiella k¨arnfunktioner

K¨arnan ¨ar p˚ a formen K(x, y) = K(kx − yk). Till skillnad fr˚ an det klas- siska angreppss¨attet med radiella basfunktioner kommer vid anv¨andningen

av SVM antalet funktioner vara antalet supportvektorer och line¨ar-kombinationskoefficienterna vara vikterna i SVM:en, vilket g¨or att dessa parametrar blir optimala i

st¨allet f¨or att de ska best¨ammas heuristiskt. Se fig 1 ovan Schack Ex: Tv˚ alagers nevralt n¨atverk

K¨arnan ¨ar p˚ a formen K(x, y) = tanh(κxx 0 + θ), d¨ar κ och θ ¨ar parame- trar som kallas styrka respektive tr¨oskel. Beslutsfunktionen ¨ar d˚ a ett tv˚ alagers neuralt n¨atverk.

Valet av k¨arna blir en balansg˚ ang mellan goda separationsegenskaper och ¨overinl¨arning.

En ¨okning av dimensionsantalet ger ofta det senare problemet och tv¨artom. Det finns dock metoder inom statistisk inl¨arningsteori som g¨or graden av ¨over-inl¨arningen kontrollerbar om bara k¨arnfunktionen v¨aljs p˚ a r¨att s¨att. Det g˚ ar d˚ a att till och med v¨alja ∞-dimensionella rum och utnyttja teorin fr˚ an funktionalanalys f¨or f¨ordelaktiga egenskaper hos Hilbertrum. Det som beh¨ovs ¨ar ett m˚ att p˚ a generaliseringsegen- skaperna. ¨ Aven inom detta omr˚ ade ¨ar det Vapnik och medarbetare [28], som har utrett detaljerna. De definierar ett begrepp som de kallar Vapnik-Chovalvski-dimension (VCdim), vilket visar sig vara proportionellt mot ¨overinl¨arning i en viss mening.

Med detta verktyg kan ¨overinl¨arningsprocessen kontrolleras. Detta ¨ar dock mycket tekniskt och jag kommer inte att g˚ a in p˚ a detaljerna utan h¨anvisar till [27]. En f¨orenklad sammanfattning av huvudresultaten f¨oljer dock:

Till en line¨art separabel tr¨aningsm¨angd finns det alltid flera olika separerande hy- perplan. Det beh¨ovs ett principiellt s¨att att v¨alja det mest optimala i n˚ agon mening.

M˚ anga fungerande metoder har utvecklats som exempelvis Bayes, MDL, Statistisk inl¨arningsteori med mera. Det jag menar med en bra metod i detta sammanhang

¨ar en metod med goda generaliserande egenskaper, det vill s¨aga en metod, som begr¨ansar risken f¨or ¨overanpassning. Med VCdim menas den st¨orsta delm¨angd av X, som kan delas av en beslutsregel. I praktiken f¨or de exempel som h¨ar behandlas g¨aller det att V Cdim = dim(X) + 1. Felmarginalen blir enligt VCteori:

ε = e O( V Cdim

N ) = e O( ( R γ ) N )

H¨ar betyder e O ber¨akningsordningen, V Cdim VC-dimensionen (ovan definierad),N antal tr¨aningsexempel och R den empiriska risken (ovan definierad).

Detta inneb¨ar att vi minimerar risken f¨or ¨overanpassning genom att v¨alja det maximala marginalhyperplanet i egenskapsrummet. Det vill s¨aga att SVM:en kon- trollerar sin kapacitet genom att ¨oka marginalen inte genom att ¨oka antalet frihets- grader. Ett f¨ordelaktigt val av k¨arna ¨ar s˚ aledes om den marginalen ¨ar s˚ a stor som m¨ojligt. Tv˚ a sorters marginaler finns:

(i)

f unc = min

i y i f (x i ) (ii)

geom = min

i

y i f (x i )

kf k

(18)

Om vi fixerar den funktionella marginalen till 1, blir den den geometriska marginalen

1

kwk . Det ¨ar allts˚ a p˚ a detta s¨att marginalen kan maximeras genom att minimera normen p˚ a viktvektorn. F¨oljande minimeringsproblem erh˚ alles:

minimera kwk 2 = hw, wi

a y i (hw, x i i + b) ≥ 1

Inom optimeringsl¨aran brukar ett s˚ adant problem kallas f¨or kvadratiskt pro- grameringsproblem (QP). Hur ett s˚ adant l¨oses diskuteras i n¨asta delkapitel.

Det finns en i l¨arande-system-kretsar v¨alk¨anda tumregeln kallad dimension- alitetsf¨orbannelsen, som i en tolkning s¨ager att ju h¨ogre dimension ett rum har desto st¨orre risk finns det f¨or ¨overanpassning. Det har p˚ a ovan beskrivna s¨att kringg˚ atts, vilket kan ses som ett motbevis.

2.3. Optimeringsteori. Optimeringsl¨ara ¨ar en gren av den till¨ampade matem- atiken som omfattar anv¨andningen av matematiska modeller och metoder f¨or att finna ett b¨asta handlingalternativ i olika beslutssituationer. Teorin utvecklade spo- radiskt hand i hand med den tidiga matematiska analysens. F¨orst under andra v¨ardskriget b¨orjade optimering ses som ett eget delomr˚ ade inom matematiken, d˚ a under namnet Research on (military) operations, OR. I samband med utvecklan- det av datorn har den blivit en allt mer n¨odv¨andig komponent i optimeringteorins l¨osningsmetoder och idag ses optimeringsteori snarare som en datavetenskap ¨an matematik, om ¨an med matematisk grundstomme. F¨oljande teori ¨ar h¨amtad fr¨amst ur [15] och [7].

Ett optimeringsproblem beskrivs oftast i form av en m˚ alfunktion, vilken beskriv- er hur m˚ alvariabeln maximeras eller minimeras. Vi begr¨ansar till˚ atenheten hos l¨osningar med s˚ a kallade bivillkor, vilka ger restriktioner f¨or hur l¨osningar f˚ ar se ut. Man brukar klassificera optimeringsproblem efter formen p˚ a m˚ alfunktionen tillsammans med bivillkoren. Av orsaker som f¨orklaras nedan kommer det vid tr¨aning av en SVM alltid att uppst˚ a ett optimeringsproblem med en kvadratisk m˚ alfunktion, emedan samtliga bivillkor kommer att vara line¨ara. S˚ adana problem brukar ben¨amnas kvadratiska optimeringsproblem (QP). Kvadratiska problem ¨ar relativt vanliga (om inte i n¨arheten s˚ a vanliga som line¨ara problem (LP), d¨ar ¨aven m˚ alfunktionen ¨ar line¨ar) och det finns v¨al utvecklade algoritmer f¨or att l¨osa dessa problem effektivt. Optimeringsl¨aran ger oss tillg˚ ang till n¨odv¨andiga och tillr¨ackliga villkor f¨or att en given funktion skall vara en l¨osning till s˚ adana problem. ¨ Aven dualitetsteori kommer att komma till anv¨andning.

Ett generellt optimeringsproblem kan skrivas p˚ a f¨oljande form:

Def: (Optimeringsproblem, prim¨ar form) Givet funktionerna f, g i , i = 1, . . . , k och h j , j = 1, . . . , m, definierade p˚ a omr˚ adet Ω ∈ R n ,

minimera f (w), w ∈ Ω,a g i (w) ≤ 0, i = 1, . . . , k,

h j (w) = 0, j = 1, . . . , m,

d¨ar f kallas objektfunktion och g i , h j kallas olikhets- respektive likhets-

bivillkor.

(19)

Det omr˚ ade d¨ar objektsfunktionen definieras kallas till˚ atet omr˚ ade och kan beteck- nas:

A = {w ∈ Ω : g(w) ≤ 0, h(w) = 0}

En optimall¨osning till ett optimeringsproblem kallas en punkt w ∈ R s˚ adan att det inte finns n˚ agon annan punkt w ∈ R f¨or vilken det g¨aller att f(w) < f(w ).

En s˚ adan punkt kallas ocks˚ a ett globalt minimum. Observera att ett maximer- ingsproblem alltid kan beskrivas som ett minimeringsproblem genom att negera m˚ alfunktionen. En punkt w ∈ Ω kallas ett lokalt minimum till f (w) om ∃ε > 0adant att f¨oljande utsaga ¨ar sann: ∀w ∈ Ω, f(w) ≥ f(w ) och kw − w k < ε.

Man kan d˚ a beskriva likhetsvillkor som tv˚ a lika olikhetsvillkor fast med olika rik- tningar p˚ a olikheterna. Det g˚ ar ocks˚ a att beskriva olikhetsvillkor med likhetsvillkor genom anv¨andningen av s˚ a kallade slappa variabler :

Def: slappa variabler betecknas ξ och transformerar olikhetsbivillkor till lik- hetsvillkor p˚ a f¨oljande s¨att:

g i (w) ≤ 0 ⇔ g i (w) + ξ i = 0, d¨ar ξ i ≤ 0

J¨amf¨ors detta med begreppet slappa variabler som introducerades i samband med perceptronen inses snart att det ¨ar samma begrepp.

Def: En reellv¨ard funktion f kallas konvex f¨or w ∈ R n om, ∀w, u ∈ R n och

∀θ ∈ (0, 1), g¨aller det att

f (θw + (1 − θ)u) ≤ θf (w) + (1 − θ)f (u)

Om ett optimeringsproblem uppfyller att Ω, objektsfunktionen samt att samtliga bivillkor ¨ar konvexa s¨ags optimeringsproblemet vara ett konvext optimeringsproblem.

Ett enkelt test f¨or att se om en funktion ¨ar konvex ¨ar att unders¨oka om dess Hessian ¨ar positivt semi-definit. Konvexitet ¨ar en egenskap som ger m˚ anga f¨ordelar i optimeringsteorin. Det stora f¨ordelen med att arbeta med konvexa problem ¨ar att varje lokalt minimum ¨ar ocks˚ a globalt, vilket ¨ar en mycket f¨ordelaktig situation.

QP ¨ar alltid konvexa.

Def: Aktiva bivillkor Ett bivillkor g i (x) ≤ b i s¨ags vara aktivt f¨or en l¨osning x 0 om g i (x 0 ) = b i . Annars s¨ags villkoret vara inaktivt (se 5).

Vad kan vi anv¨anda f¨or optimalitetsvillkor? De klassiska Karush-Kuhn-Tuckervillkoren (KKT) ger oss n¨odv¨andiga optimalitetskriterier. Dessa karakt¨ariserar optimall¨osningen till problemet och hj¨alper oss att formulera l¨osningsmetoder f¨or att hitta denna.

Antag att vi har ett ickelinj¨art problem, till exempel ett kvadratiskt problem p˚ a formen

minimera f (w), w ∈ Ω,a g i (w) ≤ 0, i = 1, . . . , k,

Det till˚ atna omr˚ adet X ¨ar illustrerat som sk¨arningen mellan m¨angderna som definieras av bivillkoren. Gradienten till alla bivillkor 5g i pekar alltid ut fr˚ an detta omr˚ ade. Detta inneb¨ar att vi kan anv¨anda oss av f¨oljande begrepp.

Def: Kon En kon definieras av m¨angden:

(20)

Figur 5. Aktiva bivillkor. F¨or en l¨osning som finns vid roten av den utritade normalen i bilden ¨ar endast detta bivillkor aktivt.

Observera att marginalen alltid ¨ar riktad ut˚ at fr˚ an det till˚ atna omr˚ adet, vilket alltid ¨ar konvext.

Figur 6. I detta fall ligger gradienten till m˚ alfunktionen inuti konen som sp¨anns upp av normalerna till de aktiva bivillkoren.

KKT-villkoret ¨ar s˚ aledes uppfyllt och vi har en optimall¨osning.

{C = y|y = X s i=1

α i h i , α i ≥ 0, i = 1, . . . , s}

Om gradienten till m˚ alfunktionen (vi f¨oruts¨atter att f ∈ C 1 ) inte ligger i konen av aktiva bivillkor f¨or en viss randpunkt x kan punkten inte vara en optimall¨osning (inses geometriskt, se 6).

KKT-villkoren s¨ager d˚ a att:

(1)

∇f (x) = X m i=1

v i ∇g i (x)

(21)

v i ≥ 0, i = 1, . . . , m (2)

g i (x) ≤ b i , i = 1, . . . , m (3)

v i (b i − g i (x)) = 0, i = 1, . . . , m

(1) kallas dual till˚ atenhet och s¨ager just att f¨or att x ska kunna vara en opti- mall¨osning m˚ aste gradienten ligga i konen av aktiva bivillkor. Aktiviteten hos bivil- lkoren kommer in i tredje bivillkoret (3), komplementaritetsvillkoret, som s¨ager att antingen ¨ar x ett villkor aktivt (g i = b i ) eller s˚ a ¨ar ger bivillkorsgradienten inget bidrag till line¨arkombinationen i konen (v i = 0). Detta visar sig vara mycket vik- tigt d˚ a vi p˚ a detta s¨att kommer att kunna reducera stora separationsproblem till problem som endast anv¨ander farliga exempel, s.k. supportvektorer, dvs punkter som ligger n¨armast beslutsplanet. Se kapitlet om supportvektorer.

Villkor (2) kallas den primala till˚ atenheten och ¨ar helt enkelt de ursprungliga bivillkoren som givetvis m˚ aste vara uppfyllda.

Vi kommer att anv¨anda en metod fr˚ an 1797 utvecklad av Lagrange [1]. Det ¨ar egentligen en generalisering av Fermats resultat fr˚ an 1629 [1]. Ytterligare generalis- ering av resultatet gjordes av Karush, Kuhn-Tucker 1951 [11].

Def: Lagrangefunktion Givet ett optimeringsproblem med en given objekts- funktion f (w) och likhetsbivillkor h i (w) = 0, i = 1, . . . , m definieras La- grangefunktionen till optimeringsproblemet som

L(w, β) = f (w) + X m i=1

β i h i (w) d¨ar koefficienterna β i ∈ R kallas Lagrangemultiplar.

Sats: Lagrange Ett n¨odv¨andigt villkor for en normal punkt w att vara ett minimum till f (w) d˚ a h i (w) = 0, i = 1, . . . , m, med f, h i ∈ C 1 , ¨ar

∂L(w , β )

∂w = 0

∂L(w , β )

∂β = 0

f¨or vissa v¨arden β . Ovan st¨allda krav ¨ar ocks˚ a tillr¨ackligt f¨orutsatt att L(w , β ) ¨ar en konvex funktion p˚ a w.

Det primala problemet kan transformeras till ett dualt genom att s¨atta alla derivatorna med avseende p˚ a de primala variablerna till Lagrangianen till 0, och sedan substituera de uppkomna relationerna in i Lagrangianen. P˚ a s˚ a s¨att kan beroendet av samtliga primala variabler elimineras. Detta motsvarar att explicit ber¨akna Lagrangedualitetskriteriet:

θ(α, β) = inf

w∈Ω L(w, α, β)

Den resulterande funktionen inneh˚ aller bara duala ariabler och ska maximeras,

vilket ger ett enklare problem ¨an det tidigare. Vi kommer att se explicit hur detta

till¨ampas p˚ a det optimeringsproblem som uppkommer i n¨asta delkapitel.

(22)

2.4. SVM. Det ¨ar dags att knyta ihop teorierna fr˚ an de f¨oreg˚ aende kapitlena, dvs att knyta ihop perceptronen, k¨arnteorin fr˚ an funktionalanalysen, optimeringsl¨aran, statistiska inl¨arningteorin tillsammans med implementationstekniker fr˚ an dataveten- skapen till en enhetlig teori. Det var precis det Vapik gjorde n¨ar han f¨or f¨orsta g˚ angen 1992 fick de olika delarna att samverka [5]. M˚ alet med SVM:en ¨ar allts˚ a att effektivt hitta ett bra separerande hyperplan mellan de olika klasserna av punkter i egenskapsrummet. Med bra menas, som tidigare n¨amnts, ett hyperplan med goda generaliseringsegenskaper och en effektiv algoritm som kr¨aver f˚ a ber¨akningar och som kan behandla ¨aven stora datam¨angder.

Det finns ett antal v¨agar att g˚ a f¨or att hitta optimala hyperplan. N˚ agra s¨att ¨ar att maximera antalet supportvektorer, marginalen eller marginalf¨ordelningen. Ett annat s¨att som ¨ar ekvivalent med att maximera marginalen ¨ar att minimera normen (2-normen) p˚ a viktvektorn w, vilket f¨orklaras som: Funktionen som associeras till hyperplanet (w, b) ¨andras inte om vi skalar om parameriseringen till (λw, λb), λ ∈ R + , d¨aremot ¨andras normen p˚ a normalen och marginalen. Vi kan s˚ aledes v¨alja skalning fr˚ an b¨orjan innan vi p˚ ab¨orjar optimeringen. Som marginal anv¨ander vi den geometriska marginalen och vi fixerar marginalen s˚ a att:

f (x + ) = hw, x + i + b = +1 f (x ) = hw, x i + b = −1 d¨ar x + /x ¨ar en positiv respektive negativ punkt.

Anm: Denna ekvation kan anv¨andas f¨or att ber¨akna viktningen (biasen), b, genom att bara bryta ut b i n˚ agon av ekvationerna ovan.

Vi kan nu ber¨akna marginalen γ genom att betrakta avst˚ andet mellan de tv˚ a kon- vexa m¨angderna som de olika klasserna definierar:

f (x + ) − f (x ) = hw, (x + − x )i = 2

Om vi fixerar den funktionella marginalen till 1, blir den geometriska marginalen precis halva avst˚ andet mellan dessa klasser, det vill s¨aga kwk 1 enligt:

h w

kwk , (x + − x )i = 2 kwk

Marginalen beror allts˚ a uteslutande p˚ a normalvektorn och den maximeras om normen av normalvektorn minimeras.

maximeraγ ⇔ minimerakwk 2 ⇔ minimera 1 2 hw, wi Vi kan s˚ aledes st¨alla upp f¨oljande sats:

Sats: F¨or en givet line¨art separabel tr¨aningsm¨angd S = {(x 1 , y 1 ), . . . , (x l , y l )} ⊆ (X × Y ) l ¨ar hyperplanet (w, b) som l¨oser optimeringsproblemet:

minimera w,b 1

2 hw, wi, w ∈ Ω,a γ i (hw, x i i + b) ≥ 1, i = 1, . . . , l,

det maximala marginalhyperplanet med geometrisk marginal γ = kwk 1

(23)

Om detta problem skrivs om p˚ a dual form genom att samma substituering som beskrivs i kapitlet f¨or optimering ovan erh˚ alls f¨oljande QP (f¨or detaljer se [7]):

max α W (α) = X

i

α i 1 2

X

i,j

α i α j y i y j K(x i , x j )

α i ≥ 0 X

i

α i y i = 0 vilket har f¨oljande l¨osning:

⇒ γ = 1

kwk = ( X

i∈sv

α i )

12

⇔ w = X

i∈sv

α i

Vi har nu utg˚ aende fr˚ an perceptronen kommit fram till l¨osningen p˚ a ett optimer- ingsproblem. Denna inneh˚ aller en skal¨arprodukt, som kan bytas ut mot en k¨arna K. D¨armed har samtliga ovan beskrivna teorier har knutits ihop. P˚ a detta s¨att kan allts˚ a en beslutsregel f ber¨aknas utifr˚ an en tr¨aningsm¨angd S.

2.5. Implementering av SVM. Det finns olika varianter f¨or implementering av en SVM. Oftast anv¨ands f¨oljande omskrivning av minimeringsproblemet som n¨amns i kapitlet ovan:

W (α) = X

i

α i 1 2

X

i,j

α i α j y i y j K(x i , x j )

α i ≥ 0 X

i

α i y i = 0

Minimeras W uppkommer ¨annu ett QP, vilket det finns m˚ anga v¨al utvecklade algoritmer f¨or att l¨osa [7]. Den mest anv¨anda ben¨amns Sekvensiell minimaloppti- mering (SMO), vilken uppdaterar tv˚ a vikter w simultant i varje steg. Optimerin- genssteget sker sedan med en s˚ a kallad brantaste lutningen-metod, som i varje steg uppfyller de line¨ara bivillkoren [23].

Om f¨ordelningar antas vara ¨overlappande ¨ar det vanligt att s˚ a kallade mjuka marginaler inf¨ors. H¨ar kan ν anta v¨ardena 1 eller 2 vilket medf¨or n˚ agot olika egen- skaper:

minimera < w, w > +C X l i=1

ξ i ν

a y i (< w, x i > +b) ≤ 1 − ξ i

ξ i ≥ 0, i = 1, . . . , n

Aven detta ¨ar ett QP och kan l¨osas med SMO-algoritmen. ¨

(24)

Figur 7. SVM som ett tv˚ alagersn¨atverk.

2.6. J¨ amf¨ orelse med andra metoder. SVM:en skiljer sig fr˚ an andra metoder dels i prestanda vad g¨aller klassificering av genexpressionsdata. Det finns ocks˚ a rent teoretiska skillnader i hur SVM:en ¨ar uppbyggd i j¨amf¨orelse med andra system och i synnerhet i j¨amf¨orelse med neurala n¨atverk, vilka jag finner intressanta att ta upp.

F¨or genexpressionsdata har en del utv¨arderingar av SVM i j¨amf¨orelse med andra metoder gjorts. Den mest utf¨orliga torde vara [34] som skriver att SVM fungerar minst 25 % b¨attre ¨an det b¨asta neurala n¨atverket (Pedersen och Nielsen [22]) i fr˚ aga om generaliseringsegenskaper.

I ett tidigare examensarbete f¨or Jesper Tegner har Roland Nilsson, som tidigare n¨amnts j¨amf¨ort olika inl¨arningsmetoder [18]. H¨ar j¨amf¨ors olika bin¨ara klassificering mot varandra. Det visas att SVM:en har b¨attre generaliseringsegenskaper ¨an andra klassificeringsmetoder, som t-test, PCA, klustringstekniker, sj¨alvorganiserande tr¨ad och variansfilter. SVM:en betedde sig ocks˚ a annorlunda j¨amf¨ort med andra metoder.

Skillnaden mellan neurala n¨atverk och supportvektormaskiner ¨ar att neurala n¨atverk h˚ aller konfidensintervallet fixt medan den empiriska risken minimeras. Sup- portvektormaskinen minimerar i st¨allet konfidensintervallet medan den empiriska risken h˚ alls fix [20]. SVM blir h¨arigenom betydligt enklare att kontrollera, ¨aven om neurala n¨atverk ofta ger goda resultat vid till¨ampningar. Neurala n¨atverk fungerar som ett fram˚ atmatat n¨at av perceptroner d¨ar signalerna mellan noderna modifieras, ofta med hj¨alp av sigmoida funktioner. I SVM:en anv¨ands endast en perceptron.

F¨or att komma ˚ at oline¨ariteter ¨andras i st¨allet skal¨arprodukten f¨or det linj¨ara rum- met som tr¨aningsdatan definierar. SVM:er och neurala n¨atverk har stora teoretiska likheter. Det g˚ ar att skissa upp en SVM som ett tv˚ alagersn¨atverk enligt figur 7.

I SVM:en uppkommer ocks˚ a ett annorlunda optimeringsproblem ¨an i neurala n¨atverk. Det har f¨ordelen att vara ett begr¨ansat bivillkorsproblem, vars m˚ alfunktion

¨ar kvadratiskt. Till s˚ adana problem, vilka ben¨amns kvadratiska programmeringsprob- lem finns det m˚ anga v¨al k¨anda l¨osningsmetoder, som alla har den stora f¨ordelen att de endast utnyttjar den indata som ligger n¨armast beslutsregeln. All annan data s˚ allas automatiskt bort. Det g¨or att algoritmer som bygger p˚ a denna teknik

¨ar mycket minnes- och ber¨akningseffektiva. De ovan beskrivna egenskaperna ¨ar de mest v¨asentliga skillnaderna, men det finns ¨aven andra, som inte tas upp i detta arbete.

3. Mikroarraysystem

3.1. Microarrayteknik. Mikroarrayer ¨ar en teknik som utf¨or simultana m¨atningar av tusentals RNA-transkript genom att anv¨anda oligonukleotidprober immobilicer- ade p˚ a en glasskiva, ofta med mycket liten storlek (d¨arav namnet mikroarrayer) [18]

och [13]. Tekniken detekterar den relativa f¨orekomsten av olika mRNA-molekyler

(25)

som motsvarar transkriberade gener. Den stora f¨ordelen med tekniken ¨ar att tusen- tals gener kan detekteras parallellt. Om detta g¨ors f¨or flera olika cellpopulationer,

¨ar det m¨ojligt att g¨ora unika j¨amf¨orelser.

Mikroarrayer ¨ar en ordnad m¨angd sm˚ a m¨atpunkter som inneh˚ aller 10-20 mg DNA. Dessa m¨atpunkter motsvaras av tusentals punkter p˚ a en liten glasskiva eller ett plastmembran d¨ar k¨anda DNA-sekvenser f¨asts till specifika positioner. DNA- sekvenserna har antingen genererats via PCR av l˚ anga DNA-fragment eller synte- tiserats av korta oligonukleotider direkt p˚ a glaset.

Till respektive m¨atpunkt kan sedan cDNA hybridiseras med mRNA, som extra- herats fr˚ an cellprover. Detta g¨ors genom att tills¨atta komplement¨ara oligodeoxythymid- inmolekyler (oligo(dT)) vilka ¨ar bundna till en fast yta i form av en kromatografisk kolonn eller en samling magnetiska kulor. RNA ¨ar instabilt och bryts snabbt ner.

D¨arf¨or transkriberas de snabbt tillbaka till mer stabilt cDNA med enzymet re- verserat transkriptas. Reaktionen startar fr˚ an poly(A)-svansen och fortl¨oper l¨angs med hela molekylen.

F¨or detektion m¨arks mikroarray-DNA:et in med fluorescerande f¨arger. Fluoro- forer med olika ljusabsorbansspektra anv¨ands f¨or varje prov. De m¨arkta cDNA- proverna ben¨amns prober och anv¨ands som sonder f¨or den ordnade samlingen av punkter som arrayen ¨ar uppbyggd av. F¨argerna kan detekteras direkt med ¨ogat d˚ a de belyses med laserljus av specifika v˚ agl¨angder. F¨or kvalitativ detektion anv¨ands emellertid en spektrofotometer som genererar data i form av m¨attal f¨or varje brunn och f¨or respektive cell.

Den teknik som anv¨ands i dagsl¨aget brukar klassificeras beroende p˚ a l¨angden av den immobilicerade proben. Tillverkningsprocesserna mellan olika mikroarraysys- tem kan ocks˚ a skilja en del. Den mest anv¨anda tekniken hittills har varit Affymetrix GeneChip [14], vilka har korta prober (25 nukleotider).

Den data som tekniken genererar utg¨or ofta ett stort antal m¨atv¨arden. F¨orst bearbetas m¨atv¨ardena med olika statistiska metoder f¨or att korrigera eventuella metodst¨orningar. Detta ¨ar dock sv˚ art och stora st¨orningar och variationer i kvalitet,

¨ar n˚ agot som m˚ aste tas h¨ansyn till. D¨arefter kan olika klassificeringsmetoder ap- pliceras som exempelvis SVM:er.

4. Material och metoder 4.1. Data.

4.1.1. Syntetisk data. Den syntetiska data som har anv¨ants best˚ ar av tv˚ a multi- dimensionella normalf¨ordelningar. V¨antev¨ardet i varje dimension ¨ar detsamma f¨or b˚ ada f¨ordelningarna, med undantag f¨or en dimension, f¨or viken v¨antev¨ardet skiljer med ett visst reglerbart avst˚ and. P˚ a s˚ a s¨att kan den teoretiskt korrekta beslutsregeln exakt best¨ammas, n¨amligen som ett hyperplan med normal som ¨ar en ortonormal enhetvektor med nollskild komponent i den v¨antev¨ardesskiljande dimensionen. (Se mer under kapitlet mjukvaruimplementering.)

Biologiska n¨atverk har dock inte normalf¨ordelad struktur [18]. En exakt beskrivn- ing av dess struktur ¨ar sv˚ ar att fastst¨alla i termer av vedertagna statistiska f¨ordelningar.

Ett alternativ ¨ar d˚ a att skapa syntetiska n¨atverk med egenskaper som biologiska

n¨atverk kan f¨orv¨antas ha. F¨or att kunna utv¨ardera SVM:en ¨aven f¨or stora tr¨aningsm¨angder,

vilka det i dagsl¨aget inte finns tillg˚ ang till, ¨ar syntetiska n¨atverk ett bra alternativ.

References

Related documents

Man kan faktiskt g¨ora ett konfidensintervall f¨or medianen med konfidensgrad minst lika med 1 − α helt utan n˚ agra som helst antaganden om den bakom- liggande f¨ordelningen

Br¨ unhilde kan kontakta sin bank med hj¨ alp av sin mobil. Hon har en id´ e om hur hon kan spara pengar. Varje dag sent p˚ a kv¨ allen g˚ ar hon in p˚ a sitt konto och ¨ overf¨

Till exempel fick jag inte med n˚ agot Ljus- och Optikland i f¨ orsta f¨ ors¨ oket, och pilen mot Kosmologi, som ligger utanf¨ or den h¨ ar kartan, borde peka mer upp˚ at,

L¨ osningen till uppgift 2(b)(ii) fr˚ an provduggan Vi m˚ aste visa tv˚ a

Po¨ angen p˚ a godk¨ anda duggor summeras och avg¨ or slutbetyget.. L¨ osningarna skall vara v¨ almotiverade och

L˚ at y(t) vara andelen av populationen som ¨ar smittad efter tiden t dygn, r¨aknad fr˚ an uppt¨ack- ten... Observera att ¨amnets koncentration ¨ar samma som m¨angden av

Rutinen som anv¨ands f¨ or att definiera operatorn, kan ha antingen ett eller tv˚ a argument, men eftersom funktionen normalt definieras i samma modul som inneh˚

Matematiska institutionen Stockholms