Multivariat tolkning av sensordata

(1)

Multivariat tolkning av sensordata

Totalförsvarets forskningsinstitut, FOI

Hanna Smedh

Examensarbete i matematisk statistik 3, 30 högskolepoäng

(2)

(3)

Hotbilden,vadgäller kemiskavapen, ärständigtunderförändringvilketgör

attbehovet av att kunna indikera ochidentiera möjliga hot växer. För att

kunnahittaochklassiceragiftigaämnentarmanluftproversomsedananal-

yseras. Databestår i dennauppsatsavbåde kemiska stridsmedelochgiftiga

industrikemikalier.

Multivariata metoder såsom principalkomponentanalys används här för att

försöka förklaradatamaterialet. De principalkomponenter som fås från den-

na analys används sedan till en beslutsträdsanalys. Målet med beslutsträd-

sanalysen äratt bygga upp en klassicerare för de ämnen som ingår i data-

mateialet.

Uppsatsen börjar med en teoridel som beskriver de metoder som används

och fortsätter sedan med en del som beskriver hur försöken gick till. Slutli-

gen presenteras resultat och en diskussion kringdetta.

Abstract

Threats, intermsof chemicalweapons, areconstantly changing.This means

that the need of quick indication and identication of potential threats are

growing.In ordertond andclassify toxicsubstances, airsamplesare taken

and then analyzed. Data, in this paper, consists of both chemical warfare

agents and toxic industrialchemicals.

Multivariate methods such as principal component analysis are used to try

to explain the data. The principal components obtained from this analysis

arethenusedinadecisiontreeanalysis.Theaimofthedecisiontreeanalysis

isto build aclassier for the substances included indata.

The rst part of this essay introduces the theory of the methods used. It

then continues with a part that describes how the trials took place. Finally,

itpresents results and a discussion.

(4)

(5)

Denna uppsatsskrevssom en deli minmagisterexamenimatematiskstatis-

tik.

Jag skulle vilja tacka er som hjälp mig utföra detta arbete. Tack till alla

erpåFOI för ett trevligtbemötandeochför ervilja attsvara påfrågor. Ett

särskilt storttack tillminhandledarePärWästerby,FOI, förallden tidoch

energi du lagt ner. Även mina handledare på universitetet Peter Anton och

Leif Nilsson ska hastort tack!

Hanna Smedh

(6)

(7)

1 Introduktion 6

1.1 Syfte . . . 6

1.2 Bakgrund . . . 6

1.3 Tidigare resultat . . . 6

1.4 Program . . . 7

2 C/TIC-varningsinstrument 7 2.1 Jonmobilitetsspektrometri . . . 7

2.2 Lagring av data . . . 8

3 Teori 9 3.1 Varför multivariatametoder? . . . 9

3.2 Principalkomponentanalys (PCA) . . . 9

3.2.1 Standardisering av data . . . 10

3.2.2 Geometrisktolkning av PCA . . . 12

3.2.3 Beräkning av principalkomponenter . . . 13

3.2.4 Antalprincipalkomponenter . . . 14

3.3 Beslutsträd . . . 15

3.3.1 Uppbyggnad av beslutsträd . . . 16

3.3.2 Kostnadsfunktionen. . . 22

3.3.3 Skattningav klassiceringsträdets noggrannhet . . . . 23

4 Metod 24 4.1 Datamaterial . . . 24

4.1.1 Kemiskastridsmedel . . . 25

4.1.2 Giftigaindustrikemikalier . . . 25

4.1.3 Databehandling . . . 25

4.2 Analys . . . 30

5 Resultat 30 5.1 Kemiskastridsmedel . . . 30

5.1.1 Principalkomponentanalys . . . 30

5.1.2 Beslutsträd . . . 35

5.1.3 Validering . . . 43

5.1.4 Prediktionförmåga/testkörning . . . 44

5.2 Giftiga industrikemikalier. . . 46

5.2.1 Principalkomponentanalys . . . 46

5.2.2 Beslutsträd . . . 51

5.2.3 Validering . . . 55

(8)

6 Diskussion 58

A Resultat, giftiga industrikemikalier 60

(9)

1.1 Syfte

Syftet med denna uppsats är att undersöka om multivariata metoder kan

bidratillenbättreförståelse avspektrumdata(fördenition avspektrum se

kapitel 4.1). Data ska behandlas med principalkomponentanalys och sedan

studeras för att seom principalkomponenternakananvändas för att beskri-

va datamaterialet.I förlängningen ska det även undersökas om multivariata

metoder kan leda till en bättre klassiceringsalgoritm än de som används

idag.

1.2 Bakgrund

Hotbilden, vad gäller kemiska vapen, förändras ständigt och behovet av att

kunna indikera och identiera möjliga hot växer [3]. Idag görs bedömnin-

gen att sannolikheten är minimal för att Sverige kommer att bli utsatt för

ett militärt väpnat angrepp från en annan stat under minst en tioårsperiod

framöver.Detärtrots dettamycketviktigtattupprätthållaen högkunskap-

snivådåman påsenareårinsetthurstorskada även icke-militära,avsiktliga

och oavsiktligahot kanorsaka.

OavsiktligaCBRN-händelser (kemiska,biologiska,radiologiskaochnukleära

hot och risker) bedöms idag vara det CBRN-hot som är mest sannolikt

att inträa. Sådana är ofta olyckor och kan exempelvis ske i samband med

kemikalietillverkning eller vidtransportav farligt gods.

BetraktarmaniställetutifrånettglobaltperspektivkommerCBRN-stridsmedel

inomensnarframtidvaraettavdestörstahoten.Tekniken förframställning

av dessa stridsmedel utvecklas hela tiden men trots detta tror man att det

endastärett fåtalhögindustrialiseradestater somkanutveckla nyatyperav

kemiska stridsmedel [2].

1.3 Tidigare resultat

Vidtidigareanalyseravdettadataharmananväntsigavunivariatametoder

ochtittatpåutvaldavariablerföratttolkaochklassiceraettspektrum.Man

har därmed inte tagit någon hänsyn till de samband som kan råda mellan

spektrummets olikavariabler.

(10)

Programmen som har använts i denna rapport är MATLAB 2007b, SIMCA

ochTrimScan.

2 C/TIC-varningsinstrument

Förattupptäckaochidentierafrämmandeämnenharförsvarettillsinhjälp

ett antal olika instrument och tillvägagångssätt. Ett av de instrument som

används i detta syfte är C/TIC-varningsinstrument LCD. Det är detta in-

strumentsomanvändsförattutföradeexperiment(sekapitel4.1)somligger

tillgrund för denna uppsats. Enbild av detta instrument kanses i gur 2.

C/TIC-varningsinstrumentLCD är ett instrumentför detektering och iden-

tiering av luftburna kemiska stridsmedel samt giftiga industrikemikalier.

Instrumentet utför såkallad punktdetektering vilket innebär attdet endast

indikerar i instrumentets närmaste omgivning. Instrumentet används både

som en deli soldatens personligaskyddutrustning ochmonterat i fordon.

2.1 Jonmobilitetsspektrometri

För att detektera och identiera olika kemiska ämnen använder sig instru-

mentet av jonmobilitetsspektrometri, se gur 1. Ett luftprov tas genom att

en äkt suger in luft i instrumentet. Väl inne passerar luftprovet över två

inloppshål, ett för varje jonmobilitetsspektrometer (en för nervgaser och en

för hud- och vävnadsskadande gaser). Det interna lufttrycket reduceras och

luftprovetpumpasin ispektrometrarnaviade tvåinloppshålen.Luftprovets

ämnen leds sedan in i joniseringskammaren där de joniseras av en elektrisk

urladdning. Komplexaväxlingsreaktionerskapar sedan kluster av joner med

hög respektive låg rörlighet. Dessa förs sedan, med hjälp av elektriska fält,

mot elektroniskagrindarsom öppnas förattsläppa injonklustrernai de två

spektrometrarnas luftrum. Inne i luftrummet påverkar ett homogent elek-

triskt fält jonerna och dessa separeras med avseende på deras rörlighet. De

jonersom har hög rörlighetfärdas fortare än de jonermed lågvilketgör att

jonerna med hög rörlighetnår andraänden av driftrummetsnabbare där de

ger upphov tillströmpulser. Dessaströmpulser processas och sedananvänds

programmetsinbyggda programvara för tolking.

(11)

Figur1:Jonmobilitetsspektrometer.

2.2 Lagring av data

Data lagras på instrumentets interna minne där man sedan kan åternna

data frånde senaste 72timmarna. Datalagras iett sådantformat attinläs-

ning till dator lätt kan göras via programvaran LCD(TrimScan). Data som

lagrasinnehålleruppgifteromvilkaämnenochkoncentrationerinstrumentet

detekterat under perioden.

Figur2:C/TIC-varningsinstrument LCD.

(12)

3.1 Varför multivariata metoder?

I många fall när man vill titta påsamband och kunna prediktera utfallan-

vänder man sig av univariata metoder där man plockarut den variabelsom

verkar hamest betydelse för utfallet. Dettagör man trots attman ide allra

esta fall har betydligt mycket mer information att tillgå. Vad gäller spek-

trumdataharmanoftaett stortantalvariablermenplockarendastutenoch

studerar denna.För attpåett bättresätt tatillvaraallden informationsom

nns i datamaterialet kan man istället använda multivariata datamodeller

där hänsyntastilleventuellasambandmellande olikavariablerna. Oftaled-

er detta också till att okända samband mellan variabler uppdagas och man

kan få en helt ny syn på hurvariablerna hängerihop. Utöver upptäckten av

eventuellasamband harmanäven möjlighetatthittasåkalladeoutliers som

påett ellerannatsätt särskiljersigfråndetresterandedatamaterialet.Detta

kanledatillbättrekunskaperomhurochvadsompåverkarmätningarnaoch

på så sätt ge bättre restriktioner för hur och när en modell är pålitlig. Ett

exempelpådettaskullekunna varaattmanupptäckerattspektra avämnen

somuppmätsunderextremaförhållandenkanskeintegeretträttvistresultat

och kan skilja sigmycket åtmellan mätningarna.En multivariat aspektgör

även att små förändringar som till exempel mätskillnader mellan olika in-

strumentkanupptäckas och skulledessa mätfelintevara helt slumpmässiga

kan även detta upptäckas ochman kan göra något åtdem [5].

3.2 Principalkomponentanalys (PCA)

Principalkomponentanalyskananvändasförattförklarakovariansstrukturen

hos ett antal variabler genom att bilda okorrelerade linjärkombinationer av

dessa, så kallade principalkomponenter. Detta kan i många fall leda till att

mankanminskaantaletvariablerimodellen.Ävenomallaursprungligavari-

abler behövs föratt förklaraallvariabilitetså kanman ofta med ett mindre

antal principalkomponenter förklara stora delar av variansen i datamateri-

alet. Detta betyder att man ofta kan gå från ett stort antal beroende vari-

ablertillendast ett fåtal,okorrelerade, linjärkombinationeravdessa. Princi-

palkomponentanalys leder oftatillattman upptäcker sambandsom tidigare

intevaritkändaochdärmedökarförståelsenfördata [7].Exempelpåsådana

sambandillustrerasigur3därprincipalkomponenterplottatsmotvarandra

i ett så kallad spridningsdiagram.

(13)

ter. Dessa genereras på ett sådant sätt att de kommer att vara ortogonala

mot varandra[1].

Figur3: Exempelpå hur uppdelningenkan se ut när data processats medprinci-

palkomponentanalys ochdeolikaprincipalkomponenternas värdenritatsinisprid-

ningsdiagram. Varjefärgrepresenterar idessadiagram ettämne.

3.2.1 Standardisering av data

Standardisering av data kan utgöra skillnaden mellan en mycket väl och en

mycketdåligtfungerande analys. Dataförprocessas imångafallför attupp-

fylla de antaganden som krävs för en påföljande analys. Ett problem man

oftastöter på isamband med analys av stora datamängderär attvariabler-

nas varians skiljer sig åt,till exempel kande olikavariablerna vara mätta i

olikaenheter. DettamedföriPCAattvariablermedstörrevariansfårstörre

inverkan på modelleringen än de variabler som har lägre varians. Detta be-

höver dock inte innebära några problem utan kan i stället i en del analyser

vara en fördel. Innebär det ett problem för fortsatt analys kan man genom

att standardisera variablerna (vilket i PCA motsvarar att använda korrela-

tionsmatrisenistället för kovariansmatrisen)kommarunt problemet.

(14)

innebär attman för var och en av observationerna på en variabel drar bort

variabelns medelvärde. Dettager en centreringav datapunkternarunt origo

d.v.s. vi får variabelmedelvärden noll. Illustrativt visas skalning och cen-

trering av variableri gur 4 respektive gur 5[8].

Figur4: Skalning av variablerna för attundvika problem medolika varians. Vari-

ablerna representeras här av stående rektanglarvars längdger ettmått på obser-

vationernasspridning och vars lägegerett måttpå variabelns medelvärde.

Figur 5: Centrering av variablerna inför principalkomponentanalys. Variablerna

representerashäravståenderektanglarvarslängdgerettmåttpåobservationernas

spridningochvarsläge gerettmått på variabelnsmedelvärde.

(15)

Antag att aktuellt data ligger lagrat i en matris av storlek

N × K

^där

N

står för antalet objekt och

K

^för ^antalet ^variabler ^som observerats. Utifrån dennamatriskannuett

K

-dimensionelltrumspännas uppdärvarjevariabel representeras aven koordinataxel,

K = 3

^ger koordinatsystemettillvänsteri

gur6.I detta

K

-dimensionellarum placerasnuvarochen av de

N

^stycken

objekten ut. Varjeobjekt kommer alltså utifrånsina observerade värden att

hamnanågonstansidettarum.Genomattmanitidigarebehandlingavdata

harsubtraheratvarjevariabelsmedelvärdekommernualltdataattcentreras

runtorigo.

Nästasteg ärattberäknadenförstaprincipalkomponenten.Mankanbeskri-

vadennaförstakomponentsomdenriktning,genomdetuppspändarummet,

somhar störstvarians.Denna linjekommerautomatisktattgåigenomorigo

(i och med den tidigare centreringen). Varje punkt i rymden (alltså varje

objekt) avbildas nu på linjen och får på så sätt ett nytt värde utifrån var

den träar linjen.Detta värde kallasförscore. Förattfå framövrigaprinci-

palkomponenter gårmantillvägapåliknandesätt. Principalkomponent2får

man genom att plocka ut den linje som bäst förklarar återstående variation

hos datat. Denna kommer också den att gågenom origo och vara ortogonal

mot den första principalkomponenten. Dessa två första principalkomponen-

ter kanses som ettplan belägeti det

K

-dimensionellarummetochdata kan nu projekteras på detta,vilket ger en bild av datamaterialetsstruktur.

Figur6:Exempelbeståendeavdatai3dimensioner.Tillvänster:Detrevariablerna

representeradeavkoordinataxlar.Tillhöger:objektenutplaceradeidetuppspända

rummetutifrån de observeradevärdena.

(16)

Antag att data består av

K

^stycken ^variabler

Y 1 , Y 2 , . . . , Y K

^och ^att ^man

genomprincipalkomponentanalys villreduceradettadatamaterialmen ändå

behållasåmycketinformationsommöjligt.Låt

Y 1 , Y 2 , . . . , Y K

^bilda^en^slumpvek-

tor

Y ⁰ = [Y 1 , Y 2 , . . . , Y K ]

^och^låt^dennes kovariansmatris,

Σ

^,^haegenvärdena:

λ 1 ≥ λ 2 ≥ . . . ≥ λ K ≥ 0

^. ^Till^att^börja ^med^bildas linjärkombinationeravde ursprungligavariablerna:

P C 1 =

^a

⁰ ₁ Y = a 11 Y 1 + a 12 Y 2 + . . . + a 1K Y K

P C 2 =

^a

⁰ ₂ Y = a 21 Y 1 + a 22 Y 2 + . . . + a 2K Y K

.

P C K =

^a

⁰ _K Y = a K1 Y 1 + a K2 Y 2 + . . . + a KK Y K

Därefterräknas variansenförvarjelinjärkombinationut, alltså variansenför

varje principalkomponent.

V AR (P C i ) =

^a

⁰ _i ^P

^a

i i = 1, 2, . . . , K COV (P C i , P C j ) =

^a

⁰ _i ^P

^a

j i, j = 1, 2, . . . , K

Den första principalkomponenten är den linjärkombination som har störst

varians, den andra den med näst högst varians o.s.v. För att principalkom-

poenterna ska vara okorrelerade ställs kravet att

COV

^a

⁰ _i

^Y

,

^a

⁰ _j

^Y

= 0, j >

i

^. ^En linjärkombination av variabler kan multipliceras med vilken konstant som helst och pådettasätt ökavariansen. Förattundvikadetta sätter man

upp en restriktion som säger att

a i 0

a i = 1

^.

Närvariansenmaximeratsirespektiveprincipalkomponentkommerden

i : te

principalkomponentenatt ges av:

P C i =

^e

⁰ _i

^Y

= e _i1 Y ₁ + e _i2 Y ₂ + . . . + e iK Y K , i = 1, 2, . . . , K

där

λ i

^är ^egenvärdet ^tillegenvektorn e

i

^,^och:

V AR (P C i ) =

^e

⁰ _i ^P

^e

i = λ i i = 1, 2, . . . , K

COV (P C i , P C j ) =

^e

⁰ _i ^P

^e

j = 0 i 6= j

^[7]

(17)

Enständigtåterkommande frågavidprincipalkomponentanalys ärhurmån-

ga av dessa nya komponenter som ska användas för vidare analys av data.

Detnns ingetdirekt svarpådennafrågamendet nnsnågra tumregleratt

gåefternärmanställsinfördettaproblem.Enavdessatumreglerärattvälja

såmångakomponenter attde tillsammansförklarar80%avdatamaterialets

varians, en annan är att plotta upp den kummulativa förklarade variansen

och ta med de principalkomponenter som tillför en viss procentuell ökning

av denförklarade variansen(se gur7).Även en såkallad scree-plot,segur

8,kananvändas tilldettaändamål.I dettadiagramplottasprincipalkompo-

nenterna mothurmycketvarians de förklararochman letarefterknänsom

visarpåatt förklaringsgradenminskarrejältmellanen komponentochnästa

[7].

Figur7: Paretoplott över förklarad varians vid PCA. Staplarna visar hur stor del

avdatatstotalavarianssomförklarasavvarochenavdefyraförstaprincipalkom-

ponenterna och linjenvisar motsvarandekummulativa procentsats.

(18)

Figur8:Scree-plot överförklaradvarians avde25 första principalkomponenterna.

Punkterna visar hur mycket varians som förklaras av respektive principalkompo-

nenterna.

3.3 Beslutsträd

Beslutsträd, även kallde klassiceringsträd, består av ett antal noder som

delarupp datamaterialetenligt,påförhand,givnakriterier.Om datamateri-

alet

X

^består^av

n

^uppmätta^spektra ^på

N

^stycken ^ämnen^så^kommer^detta,

genom att följa beslutsträdets delningskriterier, att gå från datamaterialet

X

^till

k

^stycken ^delmängder ^av ^detta;

X ₁ , X ₂ , . . . , X k

^. ^Ett^tänkbart ^träd ^för

denna uppdelning skullekunna se utsom trädet i gur 9.

I gur 9 är noder belägna på samma nivå disjunkta. Element som benner

sig i

X 1

^kan ^alltså ^inte ^även ^benna ^sigⁱ

X 2

^och ^vice ^versa. ^Det ^gäller ^även

att

X 1 ∪X 2 = X

^,âllaêlement^delasâlltsåûppênligt^det^kriterium^som^råder

igällandenod.De noder som omgesav en rektangel,iställetför en cirkel,är

de noder som ger den slutgiltiga uppdelningen av elementen. När man nått

framtilldessa noderhar man alltsåklassicerat klart.Varjesådanslutgiltig

nod representerar en klass (i detta fall ett ämne), dock kan det nnas era

slutnoder som representerar samma klass. Generelltsett kan uppbyggnaden

av beslutsträd beskrivassom problemet atthittade logiskadelningskriterier

som påmest korrekta sätt klassicerar data [6].

(19)

X

X 1

X 3

X 7 X 8

X 13 X 14

X 4

X 9 X 10

X 2

X 5 X 6

X 11 X 12

X 15 X 16

Figur9:Beslutsträd

3.3.1 Uppbyggnad av beslutsträd

För attkunna bygga upp det beslutsträd som ska användas för attskilja de

olika objekten i en datamängd åt måste man välja ut vad det är man ska

titta på när man delar upp data. För data som ska delas in i era klasser

medsammafelklassceringskostnad(kostnadenförattklassiceraett objekt

fel är lika stor för objekten från samtliga klasser, det är inte värre att felk-

lassicera ett objekt från klass

i

^än ^ett ^objekt ^från ^klass

j

⁾ ^nns ^det ^två

olikakriterier som man oftastväljer mellan, dessa två är:Ginis kriterium

(The Gini Criterion) ochTwoings kriterium(The Twoing Criterion). In-

nan dessa två kriterier presenteras introduceras de variabler och funktioner

av variabler som används av klassiceringskriterierna.

Tillattbörjamed görs antagandet att delningsalgoritmenbenner sigi nod

t

ôch ^nu ^ska ^hitta ^den ûppdelning âv datamaterialet i denna nod som ger den bästa uppdelningen enligt det kriterium som valts. En mängd

{s}

^in-

nehållandessplittningskriterierdenieras sedan pågivet data.För attfå ett

måttpåhurbrauppdelningenavdataärdenierasävenengoodness-of-split-

funktion

θ (s, t)

^där ^den ^bästa uppdelningen av data ärden uppdelningsom maximerardenna.

(20)

Datamaterialet som ska delas upp antas bestå av

n

^stycken ^klasser ^och ^de

olika klassernas proportioner i nod

t

^betecknas ^med ^p

= [p 1 , . . . , p n ]

^. ^Den

splittningsregelsom väljs i

t

^kommer^att ^dela ^upp datamaterialetitvå delar (då trädetärbinärt)ochskickaden enadelentillen nodtillvänsterochden

andratillen nodtillhöger. Datamaterialetsuppdeladeproportionerbeteck-

nas med

P L

^och

P R

^, ^där

P R = 1 − P L

^.

Vidareantasattgoodness-of-split-funktionen

θ (s, t)

^kan^skrivas^som^en^funk-

tion

f (P L , P R ,

^p

_L ,

^p

_R )

^där ^p

_L = (p 1,L , . . . , p n,L )

^är ^den ^proportion ^av ^de

n

stycken klasserna i den vänstra noden

t L

^och ^p

R = (p _1,R , . . . , p n,R )

^propor-

tionen av de

n

^stycken ^klassernaⁱ ^den ^högra ^noden

t R

^.

För varje uppdelning

s

^denieras ^också ^tal

α j , 0 ≤ α j ≤ 1

^, ^och

β j = 1 − α j

sådana att

P L = ^P _j α j p j

^,

P R = ^P _j β j p j

^,

p j,L = ^α _P ^j ^p ^j

L

,

p j,R = ^β _P ^j ^p ^j

R

och

θ (s, t) = f (α,

^p

)

^.

En ny funktion

φ (

^p

)

introduceras. Denna funktion anger nodens orenhet ochhar egenskaperna att den är konvex ip , har ett maximum dåalla

p j

^är

lika och ett minimum då något av

p j = 1

^. ^Ett ^samband ^mellan ^detta ^oren-

hetsmåttochgoodness-of-split-funktionendenierasdärefterpåföljandesätt:

θ (s, t) = φ (

^p

) − P L φ (

^p

_L ) − P R φ (

^p

_R ) .

[4]

Ginis kriterium Ginis kriterium är den vanligast förekommande kriteri-

umet för attberäkna orenhetsfunktionen (impurity function) och denieras

som följer:

φ (

^p

) = ^P j p j (1 − p j )

Ginis kriterium delar upp datamängdengenom att skilja ut en klass, av så

stor storleksom möjligt,fråndetresterande datamaterialet.Giniskriterium

försökerattseparera de olikaklassernaåtgenomatttittapåenklassitaget.

Denna beslutskriterie är snabb och lätt att använda vilketgör att den med

små förändringar kan anpassas till ett datamaterial där de olika klasserna

förknippas med olikafelklassiceringskostnader [4].

(21)

Låt datamaterialet X vara mängden av 100 stycken objekt indelade i fyra

klasserochlåtproportionsvektornseutpåföljandesätt:p

= [0.4, 0.3, 0.2, 0.1]

^.

Den optimala uppdelningen av dessa objekt skulle alltså vara den som slu-

tari fyra noder där allaobjekt tillhörande klass

i

^hamnarⁱ ^samma ^slutnod,

i = 1, 2, 3, 4

^. ^Givet ^en ^mängd beslutskriterier skulle då det träd som representerar dennauppdelningkunna seut som trädeti gur 10.

X

X 1 X 2

X 3 X 4

X 5 X 6

Figur10:Exempelpåettoptimaltbeslutsträdsomdetskullekunnaseutiexempel

1,Giniskriterium.

Idettaoptimalabeslutsträd skullealltså nod

X 1

^bestå ^av ^de⁴⁰observationerna tillhörande klass 1, nod

X 3

^bestå ^av ^de ³⁰ observationerna tillhörande klass 2,nod

X ₅

^bestå ^av ^de ²⁰ observationerna tillhörande klass 3 och slut- ligen nod

X 6

^bestå ^av ^de ¹⁰observationerna tillhörande klass4.

För att koppla samman detta exempel med den föregående teorin följer nu

en genomgångav hursjälvauppdelningenavdata skullekunna seutidetta

exempel.

Metodenkananvändasinomenradolikaområden.Ettexempelskullekunna

vara då datamaterialetantas bestå av uppmätta hälsovärden hos 100 per-

soner. Av dessa antas 40 personer ha problem med fetma, 30 stycken av de

övrigaantas vara diabetiker, 20avde nu återståendeantasha hjärtproblem

och de 10 övrigaantas vara utan känd sjukdom. De värden som mätts upp,

tidigarekallade hälsovärden skullekunna vara exempelvis: blodsockerhalt,

(22)

vilopuls, ålder, vikt, längd

. . .

^. ^Antag ^även ^att ^målet ^med beslutsträdet är att dela upp de 100 individerna i de fyra klasserna: Problem med fetma

Diabetiker Hjärtsjuka samt Utan känd sjukdom.

Skulle beslutsträdet kunna dela upp datamaterialet optimalt som i detta

exempelsåskullede 40personerna medfetmaproblem,genomuppdelningen

inod

X

^hamnaⁱ

X 1

^och^de ⁶⁰^övriga^skulle^hamnaⁱ

X 2

^.Uppdelningeninod

X ₂

^skulle ^särskilja^de ³⁰^med ^diabetes ^från återståendeo.s.v.

Antag att beslutsalgoritmen benner sig i nod

X

^och ^ska ^hitta ^den ^bästa

uppdelningen enligt Ginis algoritm i denna nod. De olika uppmätta vari-

ablernadenieras som en mängd

{s}

innehållandessplittningskriterier. Den uppdelningsom maximerar

θ (s, t)

^är^den ^bästa ^uppdelning ^som ^kan ^göras ⁱ

nod

X

^.

Datamaterialetbestår idetta exempelav 4stycken klasser. Deolikaklasser-

nasproportioneridenförstanoden,nod

X

^,^kan^beskrivas^avproportionsvek- torn p

= [0.4, 0.3, 0.2, 0.1]

^.

Densplittningsregelsom väljsi

X

^kommer^att ^dela^upp datamaterialetitvå delar. När uppdelningen skett kommer klassernas proportioner i den tillde-

ladenoden attförändras,dessanyaklassproportionerlåtervibetecknasmed

p

L = (p _1,L , . . . , p _4,L )

^samt ^med ^p

_R = (p _1,R , . . . , p _4,R )

^.

Förattfåredapåvilken uppdelningsom ärdenbästa användsorenhetsmåt-

tet,

φ (

^p

)

^. Î ^detta êxempelânvänds

φ (

^p

) = ^P _j p j (1 − p j )

^där

j = 1, ..., 4

^.

Goodness-of-split-funktionenkannuskrivassom

θ (s, X) = φ (

^p

)−P L φ (

^p

_L )−

P R φ (

^p

_R ) = ^P _j=1 ⁴ p j (1 − p j ) − P L P ₄

j=1 p j,L (1 − p j,L ) − P R P ₄

j=1 p j,R (1 − p j,R )

^.

Antag att splittningskriteriet längd ger följande proportioner:

P L = 0.5

och

P R = 0.5

^samt^p

_L = (0.4, 0.3, 0.2, 0.1)

^och ^p

_R = (0.4, 0.3, 0.2, 0.1)

^.

Detta skulle ge

θ (langd, X) = 0.7 − 0.5 (0.7) − 0.5 (0.7) = 0

^. ^Att ⁱ ^nod

X

^dela ^data ^med ^avseende ^på splittningskriteriet längd ger alltså ingen förbättringav uppdelningen.

Antag istället att det aktuella splittningskriteriet är blodsockerhalt och

attdettasplittningskriterium skulledela uppdatamaterialetenligtföljande:

P L = 0.4

^och

P R = 0.6

^samt ^p

_L = (1, 0, 0, 0)

^och^p

_R = (0, 0.5, 1/3, 1/6)

^.

(23)

Detta ger

θ (blodsockerhalt, X) = 0.7 − 0.4(0) − 0.6( ¹¹ ₁₈ ) = ¹ ₃

^vilket ⁱ ^fall-

etmeddettadatamaterialärden bästauppdelningenavdatadåden största

klassen skiltsfrån övriga.

Det är dock i ytterst få fall denna optimala uppdelning nås och ett mer

verklighetstroget exempelvisas därför här nedan.

Exempel 2

Låt som i tidigare exempel X vara mängden av 100 stycken observation-

er indelade i fyra klasser och låt proportionsvektorn se ut på följande sätt:

p

= [0.4, 0.3, 0.2, 0.1]

^.^Givet^en^mängdbeslutskriterierskulledådetträdsom representerar en uppdelningav observationerna kunna se utsom i gur 11.

X

X 1

X 3 X 4

X 2

X 5

X 7 X 8

X 6

Figur11:Beslutsträd,Ginis kriterium

I detta icke optimala beslutsträd skulle fördelningen av objekten i noderna

kunna seut som i tabell1.

(24)

Nod

X 3

^(klass ¹⁾

X 4

^(klass²⁾

X 6

^(klass ²⁾

X 7

^(klass³⁾

X 8

^(klass ⁴⁾

Klass 1 34 4 2

Klass 2 5 21 2 2

Klass 3 3 2 13 2

Klass 4 1 9

Tabell 1:Exempel påhur uppdelningenavdataiexempel2 skulle kunnaseut.

Twoings kriterium Dettaär ett annat vanligt förekommande kriterium.

Twoings kriterium försöker dela upp objekten från de

n

^stycken ^klasserna ⁱ

två ungefär lika stora delmängder. Detta angreppssätt har en viktig fördel

och det är att den ger information om likheter mellan klasser. I varje nod

sorterasklasserna till tvågrupper[4].

Denitionen av Twoings kriteriumser utsom följer:

φ (s, t) = ^P ^L ₄ ^P ^R ^h ^P _j |p j,L − p j,R | ⁱ ²

Exempel 3

Låt X vara mängden av 100 stycken objekt indelade i fyra klasser och låt

proportionsvektorn se ut på följande sätt: p

= [0.4, 0.3, 0.2, 0.1]

^. ^Med ^T^wo-

ings kriterium som orenhetsmått skulleman kunna få trädet i gur 12 med

motsvarande uppdelningi tabell2.

X

X 1 X 2

Figur12:Beslutsträd,Twoings kriterium

(25)

Nod

X 1

^(Klass ¹⁾

X 1

^(Klass²⁾

Klass 1 38 2

Klass 2 30

Klass 3 20

Klass 4 10

Tabell 2: Exempel på hur uppdelningen av objekten i exempel 3 skulle kunna se

ut.

3.3.2 Kostnadsfunktionen

För att hitta det träd som på ett så bra sätt som möjligt delar upp data

utan att för den delen dela upp det i allt för små grupper (som sedan kan

bli svåra att använda vid körningar på nya data) kan man välja att titta

på den så kallade kostnadsfunktionen. Kostnaden av ett träd är summan

över alla slutnoders skattade sannolikheter multiplicerat med kostnaden av

noden.Idefallbeslutsträdetärett klassiceringsträd,alltsåharsommålatt

klassiceraettobjekttillenvissklass,ärkostnadenavenvissnoddensamma

somsummanavmissklassiceringskostnadenavobservationernaidennanod.

Det nns olika sätt att räkna ut denna kostnadsfunktion bland andra nns

återläggningmetodenochen metod där man använder sigav korsvalidering.

Återläggningsmetoden Använder man sig av denna metod får man en

kostnadsomigrundenbaseraspådetdatamaterialsomanväntsförattskapa

originalträdet vilket medför att man med denna metod ofta underskattar

kostnaden man skulle ha om man använde sig av trädet för att klassicera

nyadata.

Korsvalidering Om man istället använder sig av korsvalidering plockar

man bort en viss mängd av data, anpassar ett nytt träd och räknar sedan

ut kostnaden för att klassicera det borttagna materialet med hjälp av det

nyss skapade trädet. Till slut sammanvägs de beräknade kostnaderna och

man får ut en kostnad för hela datamaterialet. När man beräknat denna

kostnadsfunktionärdetsedanrelativtenkeltattplottakostnaderna(se gur

13) som en funktion av antalet noder i trädet och utifrån denna plott hitta

det minstaträd varskostnadligger inom en standardavvikelse fråndet träd

med den allralägsta kostnaden.

(26)

Figur 13: Exempel på en kostnadsfunktion. Här plottas antalet noder mot kost-

nadernaför respektivenod.Denstreckade linjen motsvarar enkostnadsom ligger

en standardavvikelse från detträd medden allralägstakostnaden.

3.3.3 Skattning av klassiceringsträdets noggrannhet

För att skatta ett klassiceringsträds noggrannhet, få ett mått på hur bra

trädetär påattklassicera, nns det tre olikasätt attgåtillväga. Dessatre

äråtersubstitution, testmängd och korsvalidering.

Återsubstitution. Detta mått på trädets klassiceringsnoggrannhet är

proportionenav de objekt som felklassicerasav det klassiceringsträd som

skapatsavheladatamängden.Dennaproportion,

R (d)

^,^beräknas^på^följande

sätt:

R (d) = 1 N

N

X

i=1

X (d (x i ) 6= j n )

X

^används ^här ^som ^en indikatorfunktion och är lika med ett om uttrycket

d (x n ) 6= j n

^är ^sant ^och ^noll ^annars.

d (x)

^betecknar ⁱ ^detta ^fall klassicer- arenochX äralltsåett ide fall

d (x)

klassicerar objektettillfel grupp.För beräkning av detta estimat används alltså samma datamaterial som använ-

des för attbyggaupp trädet.

(27)

manupp det tillgängligadatati tvådelmängder,

Y 1

^och

Y 2

^och ^låter^antalet

enheteridelmängdernabetecknasav

N 1

^respektive

N 2

^.Noggrannhetsmåttet blir i detta fall proportionen av de enheter tillhörande

Y 2

^som felklassi- cerasavdet klassiceringsträdsom skapatsmedutgångfråndelmängden

Y 1

^.

Beräkningarna görs på följandevis:

R Y ₂ (d) = 1 N 2

X

(x n ,j n )∈Y ₂

X (d (x n ) 6= j n )

Proportionen,detvillsäganoggrannhetsmåttetberäknasnupåendatamängd

som intevaritmed ochsatt upp klassiceringsreglerna.

Korsvalidering. Även här delasdatamaterialetupp men istället föri två

delmängder delar man nu upp datat i

m

^stycken ^jämnstora delmängder,

Y ₁ , Y ₂ , . . . , Y m

^. ^På ^liknande ^sätt ^som ⁱ ^de ^två ^tidigaretillvägagångssätten så räknasäven här en proportion avfelklassicerade enheter ut. Denna gångär

det antalfelklassiceringarav den delmängd somej varitmed dåklassicer-

ingsreglernatagits fram. Dettagörs på följandesätt:

R Y m (d m ) = 1 N m

X

(x n ,j n )∈Y m

X (d m (x n ) 6= j n ) d m (x)

^beräknas ^alltså^från ^delmängden

Y − Y m

^.

4 Metod

4.1 Datamaterial

Det data som ligger till grund för detta arbete består av två datamaterial.

Detena datamaterialetbestårav uppmätningarpåkemiskastridsmedel och

detandraavuppmätningarpågiftigaindustrikemikalier.Datamaterialetut-

görs av spektran, se gur 14.

Närdet gällerkemiskastridsmedelgåruppmätningentillsåattinstrumentet

börjar mäta med endast ren luft i omlopp, därefter kopplas gasödet om så

attinstrumentet numäterdetkemiskastridsmedlet.Koncentrationenavdet

kemiskastridsmedletärkändochkonstantunderförsöketochmanutfördet-

ta under konstant luftfuktighet. I slutet av mätningen stängs gasen av och

instrumentet återgårtillattmätarenluftigen.Despektran somfåskommer

(28)

den rena luften och ämnet kommer de bestå av varierande koncentrationer

och närden iförvägvalda koncentrationen nåtts kommerde spektra som fås

bestå av konstant koncentration av ämnet.

Uppmätningarna av de spektran som används i datamaterialet över gifti-

ga industrikemikalier är inte lika rena och har genererats med så kallade

snitester.Vid dessa tester öppnasen burk med det rena ämnet ivätskefas,

sedan förs instrumentet mot burken och när instrumentet indikerar ämnet

förs det sedan bort från burken. I dessa experiment är varken temperatur

eller luftfuktighet kända inte heller får man konstanta koncentrationer av

ämnet.

4.1.1 Kemiska stridsmedel

Följandesexkemiskastridsmedelharanvändsidettaarbete:RyskVX(RVX),

VX (VX), Senapsgas (HD), Soman (GD), Sarin (GB), samt Tabun (GA).

Datamaterialet för uppbyggnaden av klassiceringsmetoden består av to-

talt 720 spektra (120 spektra per ämne). Varje spektrum består av 1948

variabler; sammanslagningen av koncentrationerna uppmätta i positiv och

negativ mod,se kaptitel 4.1.3.

4.1.2 Giftiga industrikemikalier

Idettaarbetehar följandesexgiftigaindustrikemikalieranvänts:metylamin,

bromkloretan,allylklorid,akrylonitril,dimetylaminochsvavelsyra. Datama-

terialet för uppbyggnaden av klassiceringsmetoden består av totalt 180

spektra (30 spektra per ämne). Varje spektrum består även här av 1948

variabler; sammanslagningen av koncentrationerna uppmätta i positiv och

negativ mod,se kaptitel 4.1.3.

4.1.3 Databehandling

Datamaterialet består av jonmobilitetsspektra uppmätta i laboratoriemiljö.

Varjeexperiment ger observationer ibåde positivochnegativ mod.De upp-

mättavärdenaläses infråninstrumentetviaprogramvaranLCD(Trimscan)

där de sedan kankonverteras till Excel-eller MATLAB-format.

Bådamoderna,segur14ochgur15,innehållerviktiginformationangående

den eventuellanärvaronavett ämneochkommerdärför bådatvåattanvän-

das i den fortsatta analysen. Detta sker genom att de två modernas spek-

tra läggs efter varandra och på så sätt bildar ett nytt spektrum, gur 16.

(29)

experiment ger ertalet spektra där ämneskoncentrationen går från noll till

maxkoncentration och sedan tillbaka till noll igen. Det första spektrumet

innehålleralltsåingetämnedåinstrumentet intehunnitexponerasfördetta.

Dådet endastärde spektra med ämnesinnehållsom ärintressanta föranal-

ysenmåstedessa pånågotsätt särskiljasfrånde tommaspektrumen. Idetta

arbetehardettagjortsgenomattgrasktstuderaallaspektraförenmätning

och därefterplocka utde spektra som förögat ser utattinnehållahalter av

ämnet.Despektra med störst ämnesinnehållärde somanvänds tilluppbyg-

gnaden av modellen medan de med lite mindre används till testkörningen.

Då mätningar i verkligheten inte utförs i laboratorier har ett ertal exper-

iment gjorts på varje ämne för att på så sätt kunna fånga upp eventuella

dagskillnadersåattdessaislutändaninteskannasmedsomen förklarande

variabeli klassiceringen.

För att data från de olika mätomgångarna, se gur 17, ska vara jämför-

barahar en delförändringar gjorts.Tillattbörjamed yttadesdataisidled

såatt RIP/RIN-toppen ärplacerad på sammaställe för allaspektra och al-

la ämnen,gur 18.Detta anses acceptabelt dådet egentligen inte är denna

placering somär den viktiga,man ärmer intresserad av förhållandetmellan

dessa toppar och övriga. En föryttning medför alltså endast att vi får lika

skala på x-axeln för alla spektra vi tittar på. Efter detta kapas data av i

början på vardera mod då varje ny mätningmedför en störning inom detta

områdesegur 19.Störningen beror påelektronisktbrus som genereras när

det elektriskafältet,i början av varje mätning,tillfälligtbryts.

(30)

Figur14:Positivmod.

Figur15:Negativ mod.

(31)

Figur 16:Sammanslagning avpositivoch negativmod.

Figur17:Spektrum innanbehandling.

(32)

Figur18: Spektrum underbehandling.

Figur19:Spektrum efterbehandling.

(33)

Analys av data görs genom att man till en början tittar på PCA-plottarna

förattpåsåsättseomeventuellauppdelningaravobjektenigrupperverkar

vara möjligt. Att granska PCA-plottarna ger inte svar på denna fråga men

omman med ögat kanse mer eller mindretydligagrupperär sannolikheten

större att en vidare klassicering eller uppdelning av objekten lyckas. Även

paretoplottar över hur stor del av variansen som principalkomponenterna

förklarar granskas för att senare kunna bestämma antalet principalkompo-

nenter som manvill ska beskrivadatamaterialet.Vadgäller klassicering av

ämnenahar sedan beslutsträd använts.Uppbyggnaden av dessa beslutsträd

görs med hjälp av de principalkomponenter som valts ut och det är med

avseende på dessa principalkomponenter samt summor av dessa som data

diskrimineras. Efter uppbyggnaden av ett träd valideras detta och ett mått

påhur bra trädet klararav att klassiceradata erhålles.

5 Resultat

Datamaterialet som analyserats bestod, som tidigare angivits, av data från

både kemiska stridsmedel och giftiga industrikemikalier. Analys har utförts

med data uppdelat i dessa grupper ochredovisas därför separat under olika

rubriker.

5.1 Kemiska stridsmedel

5.1.1 Principalkomponentanalys

Datamaterialetbestår av spektra frånsex ämnen. Målet med principalkom-

ponentanalysen är i detta fall att, med färre variabler än de ursprungliga

1948, påett bra sätt kunna beskriva data ochi förlängningen hitta de prin-

cipalkomponenter eller kombinationer av dessa som skiljer de olika ämnena

åt.

Dådetslutgiltigamåletärattkunna särskiljadeolikaämnenafrånvarandra

användsdärför,tillprincipalkomponentanalysen,de spektrasommest skiljer

sig mellan de olika ämnena. Dessa spektra fås genom ämnesvis maximering

avvariablerna.Detdatamaterialsom självaprincipalkomponentanalysenut-

förspåbestårav sexspektraperämne(sexexperimentharutförts perämne

och det är inom dessa experiment som variablerna maximerats). När prin-

cipalkomponenterna tagits fram används motsvarandeprincipalkoecienter

för attberäkna övrigt datamaterialsscores.

(34)

görs en paretoplott, se gur 20, som visar den kumulativt förklarade vari-

ansen samt en scree-plott, se gur 21,som plottarupp förklarad varians för

var och en av de första principalkomponenterna. Dessa två plottar används

som stödibeslutetmen dåde skillnadersom nns mellanspektraärsåpass

små har det ianalysen tillen början använts 10principalkomponenter trots

attplottarna pekarpå att cirka 4 skulle räcka.Plottarna ärtrots dettavik-

tigadå de ger en bildöver omdet ärett tiotal, ett hundratal eller upp mot

tusen principalkomponenter som kanvara av värde ien fortsatt analys.

Figur 20:Paretoplott, kemiska stridsmedel.

(35)

Figur 21:Scree-plott, kemiska stridsmedel.

Igur 23-25betecknasde olikaämnenaav olikatecken ochfärger (gur22).

Figurerna beskriver två angivna principalkomponenters återskapade värden

(scores) plottade mot varandra. Dessa återskapade värden är de som erhål-

litsdådetstoradatamaterialetåterskapatsmedhjälpavdekoecientersom

principalkomponentanalysen gett.

Enstudie av plottarna visar att det verkar troligt att man utifrån ett antal

principalkomponenter ochkombinationerav dessa kandela upp datamateri-

alet ämnesvis, vilket är vad som behövs för attkunna bygga upp en klassi-

eringsmodell.

Exempelvis kan grupp nummer 4, Soman, som i plottarna representeras av

gulapunkter,tillstoradelarsärskiljasfrånövrigtdatamaterialgenomatttit-

ta påprincipalkomponent 3 (se gur 24) då observationerna av detta ämne

verkar haett lägre värde pådenna variabelänobservationerfrånövrigaäm-

nen.

(36)

Figur22:Representationenavämnenispridningsdiagramförkemiskastridsmedel.

Figur23: Principalkomponent 1plottad motprincipalkomponent 2,hela datama-

terialet.

(37)

Figur24:Principalkomponent 1 plottad mot principalkomponent 3,hela datama-

terialet.

(38)

tillhjälpförattförstådatamaterialetsstruktur.Dessakoecienterärdekon-

stanter originaldatats variabelvärden multipliceras med innan de summeras

till värdet på motsvarande principalkomponent. I gur 26 är det koecien-

terna till den första principalkomponenten som visas. Denna principalkom-

ponentläggerstor vikt vidhurdataser utruntRIP- respektiveRIN-toppen

(RIP- och RIN-topp, se gur16).

Figur26:Koecienterna tillprincipalkomponent 1,PC1.

5.1.2 Beslutsträd

Som tidigare nämnts så används, i den fortsatta analysen, 10 principal-

komponenter. Då även summor av dessa principalkomponenter kan utgöra

bradiskriminerarefördatamaterialethardessainkluderatsianalysen.Detta

ger totalt 175 variabler att diskriminiera mellan. Uppbyggnaden av själva

beslutsträdet utförs med inbyggda MATLAB-funktioner.

Trädet som alltså grundar sig på de 175 variablerna byggs upp med Gi-

ni's kriterium som beslutsalgoritm. De beslutskriterier som fås enligt dessa

specikationer och en körning på hela datamaterialet ger beslutsalgoritmen

(39)

i gur 28 en schematisk bild över hur denna uppdelning ser ut. Nodernas

sirormotsvarar sirornai gur 27.

Decision tree for classication

1if x13<478.091 then node 2else node 3

2if x1<-123.53 then node 4 else node 5

3if x110<-3197.6 then node 6else node 7

4class =5

5class =4

8class =2

9class =3

10if x82<-479.4then node 12else node 13

14class = 2

15class = 6

16class = 2

17class = 1

18class = 4

19class = 2

Figur 27:Beslutskriterier, kemiska stridsmedel.

Spridningsdiagramöverde variablersom nns med i modellenochsom allt-

så enligt det kriterie som använts ärde bästa uppdelarna av data redovisas

här nedan. I gur 29 ses hur variabel 13, det vill säga

P C1 + P C3

^, ^skiljer

helagrupp5frånövrigagrupper(observationernafrånde olikagruppernaär

plottade i ordning längs x-axeln). Detta genom att skicka de observationer

medvärdepåvariabel13mindreän

478.091

^till^nod² ^och^de ^övriga^till^nod

3.Man kan även se attett fåtal av observationerna i grupp4 skiljs från det

resterande datamaterialet. Det som sker i första noden är att grupp 5 och

ett fåtalobservationerfrån grupp 4skiljs från övriga observationer.

I den andra noden är det variabel 1, det vill säga

P C1

^som ^delar ^data-

materialet. I denna nod skiljs de observationer frångrupp 4 som följde med

grupp5iförstanodenfrånjustgrupp5.Uppdelningenavdessaobservation-

(40)

er kan ses i gur 30. I denna nod är det alltså ett värde under

−123.53

^på

variabel1som skickardata tillnod4 och iannat falltillnod5. Att noterai

dennanodärattdet datasom delashär endastbestår av grupp5ochnågra

observationer från grupp 4 vilket gör att det endast är dessa variabler som

ska skiljas åt.

Uppdelningen fortsätterinod3 därdet ärvariabel110, det villsäga

P C2 + P C4 + P C6

^som ^delar ^upp datamängdengenom attdeladatamaterialetvid variabelvärdet

−3197.6

^. ^T^rädet ^skiljer ⁱ ^denna ^nod ^ut ^grupp ³ tillsammans med några observationer från grupp 2, se gur 31. Grupp 3 särskiljs sedan

från det fåtal observationer från grupp 2 i nod 6. Dettagenom attåterigen

titta på variabel 13, alltså

P C1 + P C3

^, ^se ^gur ^32. ^I ^denna ^nod ^skickas

observationer med värden, på variabel 13, understigande

906.971

^till ^nod ⁸

ochresterande observationer tillnod 9.

1

2 4 5

3

6 8 9

7

10

12 16 17

13 18 19

11 14 15

Figur28: Beslutsträd.

(41)

Figur29: Variabel13 PC1+PC3, linje 478.091.

Figur30:Variabel1PC1, linje -123.53.

(42)

Figur31:Variabel 110PC2 +PC4+PC6, linje -3197.6.

Figur32:Variabel 13PC1 +PC3, linje906.971.

(43)

nod7delasdata,liktnod1och6,genomattvariabel13användssomdelare.

I denna nod skiljs de observationer som har ett variabelvärde under

1141.7

från de med ett värde över, se gur 33. Nod 7 kommer att skilja ut i prin-

cip hela grupp 6 samt ett par observationer från grupp 2 från det i denna

nodåterståendedatamaterialet.Dessaobservationer,frångrupp6ochgrupp

2, skiljs sedan åt i nod 11. I denna nod är det värdet på variabel 4, alltså

P C4

^, ^som ^kommer ^att ^vara ^avgörande ^för uppdelningen. Överstiger värdet

−1592.76

^anses observationer tillhöra grupp 6, i annat fall grupp 2. Denna uppdelning kan ses i gur 35.

Nod10skiljer grupp1 ochden största delenav grupp 2frångrupp 4genom

att titta på variabel 82, det vill säga

P C1 + P C4 + P C6

^. ^En observation med ett värde under

−479.4

^hamnar ⁱ ^nod ^12, ^övriga ⁱ ^nod ^13, ^se ^gur ^34.

De observationer som hamnar i nod 12 är alla observationer från grupp 1

samt de esta från grupp 2. Dessa två grupperskiljs åt genom attbetrakta

variabel 2, det vill säga

P C2

^. ^Ett ^värde ^på ^denna ^variabel ^som ^överstiger

−45.9391

klassicerar observationen till grupp1 och ett värde under klassi-

cerarobservationentillgrupp 2. Dettakan ses i gur 36.

Den sista nod som delar data är nod 13. I denna skiljs grupp 4 från ett

mindre antal observationer från grupp 2. I nod 13 skiljs observationerna åt

genomvariabel 3,alltså

P C3

^, ^och ^värdet ^som ^skiljer ^dessa ^åt ^är

609.761

^, ^se

gur 37.

(44)

Figur33:Variabel 13PC1 +PC3, linje1141.7.

Figur34:Variabel 82PC1 +PC4+PC6, linje -479.4.

(45)

(46)

Figur37:Variabel 3PC3, linje 609.761.

5.1.3 Validering

Trädet som tagits fram enligt de kriterier som specicerats valideras nu för

attse omett mindre träd kan geett likvärdigt resultat.I praktiken betyder

dettaattmaninod2eventuelltskullekunna stannaochsäga attallaobser-

vationersomhamnardärtillhörgrupp5.Dåträdetärtänkt attanvändaspå

nytt data där man intehar någon kunskap omvad det ärför ämneman kör

kanett träd som göralltför nauppdelningar orsaka felklassiceringar.Det

skullekunna vara såattde fåtaletobservationerfrångrupp 4 som hamnari

nod2 består av felaktigamätdataeller har en koncentration som egentligen

integår attklassicera och alltså intebeskriverämne 4 påett bra sätt.

Valideringen görs med korsvalidering och ger beslutskriterierna i gur 38

och motsvarande träd i gur 39. Kostnadsfunktionen för denna validering

visas igur 40.

Dettaträd ärnågot mindre ändet träd som föreslogs tillen börjanochblir

det träd som i fortsatta studier kommer att användas för att se hur bra

algoritmen ärpåatt prediktera vilketämne ett givetspektrum speglar.

(47)

2if x1<-123.53 then node 4 else node 5

4class =5

5class =4

8class =2

9class =3

10if x82<-479.4then node 12else node 13

13class = 4

14class = 2

15class = 6

16class = 2

17class = 1

Figur38:Beslutskriterier efterkorsvalidering,kemiskastridsmedel.

5.1.4 Prediktionförmåga/testkörning

För att få ett mått på hur bra det valda beslutsträdet är påatt klassicera

nya data görs nu en testkörning på spektra som inte varit med och skapat

modellen.Dettanyadata kommerfrånsammamätningar som det datasom

använts i framtagandet av beslutsträdet men består av de spektra som inte

valtsuttilldetta ändamål.Det betyder attdet datasom testkörningen körs

påideallraestafallinteinnehållerlikahögkoncentrationavämnetsomde

spektra som nns imodellen.Rimligtvisborde detta geen litesämre klassi-

ceringsförmåga.

Totalt används 48 spektra per ämne till denna testkörning. Resultatet pre-

senteras i tabell 3.

(48)

1

2 4 5

3

6 8 9

7

10

12 16 17

13

11 14 15

Figur39: Minimaltbeslutsträdefter korsvalidering.

Figur40: Kostnadsfunktion,kemiskastridsmedel.

(49)

RVX VX HD GD GB GA

RV X

⁴⁸

V X

⁴⁶ ²

HD

⁷ ⁴¹

GD

⁵ ¹ ³⁹ ³

GB

² ⁶ ² ³⁸

GA

³ ⁴ ¹ ⁴⁰

Tabell3:Prediktionstabell övernya spektraklassiceradeenligtbeslutsträdigur

38. Raderna representerar ämnets tillhörighet och kolumnerna klassicering efter

beslutsträd. Totalt klassicerades här

87 , 5%

^korrekt.

5.2 Giftiga industrikemikalier

5.2.1 Principalkomponentanalys

Principalkomponentanalysenför industrikemikalierna har utförts på samma

sätt somprincipalkomponentanalysenav spektra förkemiskastridsmedel, se

kapitel 5.1.1. Dock användes 3 istället för 6 spektra perämne. Detta dådet

endastfanns3experimentutfördaförvarochenavdesexindustrikemikalier-

na. Totalt användes alltså 18 spektra.

Paretoplotten,gur 41och scree-plotten, gur42ger en antydan omattdet

endastskullebehövascirkatreprincipalkomponenter.Somtidigarepoängter-

atskanrelativt små skillnader vara av betydelse och även i dettafall har de

tioförstaprincipalkomponenterna används i den fortsatta analysen.

(50)

Figur41:Paretoplott,giftiga industrikemikalier

Figur42: Scree-plott,giftigaindustrikemikalier

(51)

gur43). Figurerna beskriver de tvåangivna principalkomponenternasåter-

skapadevärden(scores)plottademotvarandra.Dessaåterskapadevärdenär

de som erhållits då det stora datamaterialetåterskapats med principalkom-

ponentskoecienterna från principalkomponentanalysen.

Bilderna tyder på att det bör vara möjligt att hitta regler för att särskil-

ja de olika ämnenaifrånvarandra.

Figur43:Representationenavämnenispridningsdiagramförkemiskastridsmedel.

(52)

terialet.

(53)

terialet.

(54)

I uppbyggnaden av beslutsträdet för giftiga industrikemikalier har det an-

vänts tio principalkomponenter. Precis som i föregående datamaterial har

även kombinationer av dessa tioprincipalkomponenter använtssom möjliga

diskrimineringsvariabler. Totalt nns det alltså även här 185 variabler att

diskrimineramellan. De beslutskriterier som fås då Gini's algoritmanvänds

åternnsigur47.Enschematiskbildöverdessabeslutskriteriervisasigur

48.Nodernassiror motsvarar sirorna i gur 47.

1 if x136<2135.59then node 2else node 3

2 if x23<-2862.04then node 4else node 5

3 class =5

5 if x39<1142.97 then node 8 else node 9

7 if x61<503.237 then node 12else node 13

9 if x157<0.673896then node 16 else node 17

10class =2

12class =4

13class =1

16class =2

18class =4

19class =5

20class =6

21class =4

22class =2

23class =5

25class =2

26class =6

27class =3

Figur47:Beslutskriterier, giftigaindustrikemikalier.

(55)

1

2

4

6 10 11

18 19

7 12 13

5

8

14 20 21

15 22 23

9 16 17

24 26 27

25 3

Figur 48:Beslutsträd,giftigaindustrikemikalier.

(56)

Figur49: Variabel136 PC3+PC5 +PC6, linje 2135.59.

Då en djupare analys gjordes av plottarna för kemiska stridsmedel, se kapi-

tel 5.1.2, redovisas i detta kapitel endast de första plottarna över de giftiga

industrikemikalierna. Resterande plottar med kommentarer åternns i ap-

pendix.

De spridningsdiagram som redovisas här är plottar över de variabler som

nns medi beslutsträdet och därmedde variablersom delar det givnadata-

materialetpåbästa sätt.Figur49visarhuruppdelningen iden förstanoden

ser ut. Här skiljer variabel 136, bestående av PC3+PC5+PC6, ut de esta

observationer tillhörande grupp 5 från övrigt data. I denna nod skickas de

observationer vars värde på variabel 136 understiger 2135.59 till nod 2 och

de övriga till nod 3. De observationer som hamnar i nod 3 kommer endast

frångrupp 5.

Nästa nod, nod2, tittarpåvärdetpå variabel23

(

^PC2+PC4

)

^, ^se^gur ^50.^I

denna nod skickas de esta observationer från grupp 1 och grupp 4 till nod

4, även ett par av de återståendeobservationerna från grupp5 hamnar här.

Gränsvärdet i dennanodär -2862.04.

I gur 51 visas hur data delas upp i nod 4. Data delas i denna nod med

avseende på variabel 93 som består av PC1+PC6+PC8. Ett värde över -

8512.62skickarobservationerna tillnod 6och övrigatill nod7.

(57)

Figur50: Variabel23 PC2+PC4, linje -2862.04.

Figur51: Variabel93 PC1+PC6 +PC8, linje-8512.62.

(58)

Beslutsträdet som tagits fram ovan valideras nu för att ta reda på om ett

likvärdigt resultat kan nås med ett mindre träd. Valideringen utförs med

korsvalidering och resulterar i beslutskriterierna i gur 52. En schematisk

bild över dessa beslutskriterier visas i gur 53. Nodernas siror motsvarar

sirorna igur 52.Kostnadsfunktionensom denna valideringgav åternns i

gur 54.

1 if x136<2135.59then node 2else node 3

3 class =5

5 if x39<1142.97 then node 8 else node 9

7 class =1

9 if x157<0.673896then node 14 else node 15

10class =2

11class =4

12class =6

13class =2

14class =2

16class =3

17class =2

Figur52: Beslutskriterierefter korsvalidering, giftigaindustrikemikalier.

(59)

1

2

4

6 10 11

7

5

8 12 13

9 14 15

16 17

3

Figur53:Minimalt beslutsträd,giftiga industrikemikalier.

Valideringav beslutsträdetför giftigaindustrikemikalier resulterar ien rela-

tivtstor förminskning.Antalet slutnoder minskas från14 till9.

5.2.4 Prediktionförmåga/testkörning

Dådatamaterialetförde giftigaindustrikemikaliernaär betydligtmindreän

detfördekemiskastridsmedlenåterstårdetinteentillräckligtstordatamängd

för testkörning.

(60)

Figur54:Kostnadsfunktion,giftigaindustrikemikalier.

(61)

Resultaten tyder på att multivariata metoder kan vara mycket användbara

när det kommer till tolkning och klassicering av sensordata. Spridnings-

diagrammen som presenterats visar på att de olika ämnena hamnar i mer

ellermindreavgränsade klusternärmanplottar2principalkomponentermot

varandra. Detta innebär att man genom att endast titta på dessa två prin-

cipalkomponenter kangöra en grovindelningav data.Lägger man sedantill

ytterliggare några principalkomponenter kan grupperna särskiljas på ännu

bättre sätt. Tittar man på den dimensionsreducerande eekten av PCA så

sermanattdimensionenpådatagårfrån1948variablertill10principalkom-

ponenter. Detta underlättar en illustrativ tolkning av data och gör attman

lättarefår en översikt överden stora datamängden.

Attväljabeslutsträd somklassiceringsmetodvarinteheltsjälvklart.Meto-

dendökuppunderdeninledandelitteraturstudienochverkadevaraenmetod

som skulle kunna passa ändamålet. På grund av att metoden var relativt

okänd föross såhar en heldeltidlagts påinläsningav bakomliggandeteori

och implementering. Detta har medfört att en djupare analys av de olika

val man kan göra inom denna metod ej utförts. Trots att metoden endast

testats på en relativt grundläggande nivå så har resultaten varit goda. Det

nns alltså stora möjligheter att gå vidare med denna metod och hitta de

valav parametrarsom ärde bästaför detta data.

En annan sak som skulle behöva utredas är hur man går tillväga för att

bygga en modell som kan hantera okända spektrum från ämnen som inte

nns medi modellen.I de träd som tagitsframi dennarapportklassiceras

allaokändaspektrumsomnågotavdeämnensomfannsmediuppbyggnaden

avträdet.Ettspektrumavett ämnesomintennsmedibeslutsträdetkom-

mer alltså ändå attklassiceras som någotav dessa ämnen.

Till sist skulle det även vara intressant att titta på hur man väljer ut det

data som används för att bygga träden. Datamaterialsurvalet till detta ar-

betet har gjorts genom att graskt tolka alla spektra och se om det verkar

innehålla en viss koncentration av ämnet eller inte. Urvalet av data skulle

medfördelkunnagörasutifrånvilkakoncentrationeravde olikaämnenasom

faktiskt ärmöjligaattmäta.

En viktig fördel med beslutsträd är att de är relativt lätta att tolka och

förstå.

(62)

[1] Statistics Toolbox 6, Users guide. The MathWorks, 2007.

[2] TotalförsvaretsforskningsintitutFOI.http://www.faktasamlingcbrn.foi.se/).

[3] Totalförsvarets forskningsintitut FOI. KEMISKA VAPEN - hot, verkan

och skydd).

[4] Breiman Leo. Technical note: Some properties of splitting criteria. Ma-

chine Learning,24(1):4147, July 1996.

[5] Bro Rasmus. Multivariate calibration what is in chemometrics for the

analytical chemist? Analytica Chimica Acta, pages 185194,2003.

[6] Leo Breiman Jerome H. Friedman Richard A. Olshen Charles J. Stone.

Classication And Regression Trees. Chapman & Hall/CRC, 1993.

[7] Richard A. Johnson Dean W. Wichern. Applied Multivariat Statistical

Analysis. Pearson Education, 2007.

[8] L. Eriksson E. Johansson N. Kettaneh-Wold S. Wold. Introduction to

Multi- and Megavariate Data Analysis using Projection Methods (PCA

PLS). UMETRICS, 1999.

Multivariat tolkning av sensordata