Multivariat tolkning av sensordata
Totalförsvarets forskningsinstitut, FOI
Hanna Smedh
Examensarbete i matematisk statistik 3, 30 högskolepoäng
Hotbilden,vadgäller kemiskavapen, ärständigtunderförändringvilketgör
attbehovet av att kunna indikera ochidentiera möjliga hot växer. För att
kunnahittaochklassiceragiftigaämnentarmanluftproversomsedananal-
yseras. Databestår i dennauppsatsavbåde kemiska stridsmedelochgiftiga
industrikemikalier.
Multivariata metoder såsom principalkomponentanalys används här för att
försöka förklaradatamaterialet. De principalkomponenter som fås från den-
na analys används sedan till en beslutsträdsanalys. Målet med beslutsträd-
sanalysen äratt bygga upp en klassicerare för de ämnen som ingår i data-
mateialet.
Uppsatsen börjar med en teoridel som beskriver de metoder som används
och fortsätter sedan med en del som beskriver hur försöken gick till. Slutli-
gen presenteras resultat och en diskussion kringdetta.
Abstract
Threats, intermsof chemicalweapons, areconstantly changing.This means
that the need of quick indication and identication of potential threats are
growing.In ordertond andclassify toxicsubstances, airsamplesare taken
and then analyzed. Data, in this paper, consists of both chemical warfare
agents and toxic industrialchemicals.
Multivariate methods such as principal component analysis are used to try
to explain the data. The principal components obtained from this analysis
arethenusedinadecisiontreeanalysis.Theaimofthedecisiontreeanalysis
isto build aclassier for the substances included indata.
The rst part of this essay introduces the theory of the methods used. It
then continues with a part that describes how the trials took place. Finally,
itpresents results and a discussion.
Denna uppsatsskrevssom en deli minmagisterexamenimatematiskstatis-
tik.
Jag skulle vilja tacka er som hjälp mig utföra detta arbete. Tack till alla
erpåFOI för ett trevligtbemötandeochför ervilja attsvara påfrågor. Ett
särskilt storttack tillminhandledarePärWästerby,FOI, förallden tidoch
energi du lagt ner. Även mina handledare på universitetet Peter Anton och
Leif Nilsson ska hastort tack!
Hanna Smedh
1 Introduktion 6
1.1 Syfte . . . 6
1.2 Bakgrund . . . 6
1.3 Tidigare resultat . . . 6
1.4 Program . . . 7
2 C/TIC-varningsinstrument 7 2.1 Jonmobilitetsspektrometri . . . 7
2.2 Lagring av data . . . 8
3 Teori 9 3.1 Varför multivariatametoder? . . . 9
3.2 Principalkomponentanalys (PCA) . . . 9
3.2.1 Standardisering av data . . . 10
3.2.2 Geometrisktolkning av PCA . . . 12
3.2.3 Beräkning av principalkomponenter . . . 13
3.2.4 Antalprincipalkomponenter . . . 14
3.3 Beslutsträd . . . 15
3.3.1 Uppbyggnad av beslutsträd . . . 16
3.3.2 Kostnadsfunktionen. . . 22
3.3.3 Skattningav klassiceringsträdets noggrannhet . . . . 23
4 Metod 24 4.1 Datamaterial . . . 24
4.1.1 Kemiskastridsmedel . . . 25
4.1.2 Giftigaindustrikemikalier . . . 25
4.1.3 Databehandling . . . 25
4.2 Analys . . . 30
5 Resultat 30 5.1 Kemiskastridsmedel . . . 30
5.1.1 Principalkomponentanalys . . . 30
5.1.2 Beslutsträd . . . 35
5.1.3 Validering . . . 43
5.1.4 Prediktionförmåga/testkörning . . . 44
5.2 Giftiga industrikemikalier. . . 46
5.2.1 Principalkomponentanalys . . . 46
5.2.2 Beslutsträd . . . 51
5.2.3 Validering . . . 55
6 Diskussion 58
A Resultat, giftiga industrikemikalier 60
1.1 Syfte
Syftet med denna uppsats är att undersöka om multivariata metoder kan
bidratillenbättreförståelse avspektrumdata(fördenition avspektrum se
kapitel 4.1). Data ska behandlas med principalkomponentanalys och sedan
studeras för att seom principalkomponenternakananvändas för att beskri-
va datamaterialet.I förlängningen ska det även undersökas om multivariata
metoder kan leda till en bättre klassiceringsalgoritm än de som används
idag.
1.2 Bakgrund
Hotbilden, vad gäller kemiska vapen, förändras ständigt och behovet av att
kunna indikera och identiera möjliga hot växer [3]. Idag görs bedömnin-
gen att sannolikheten är minimal för att Sverige kommer att bli utsatt för
ett militärt väpnat angrepp från en annan stat under minst en tioårsperiod
framöver.Detärtrots dettamycketviktigtattupprätthållaen högkunskap-
snivådåman påsenareårinsetthurstorskada även icke-militära,avsiktliga
och oavsiktligahot kanorsaka.
OavsiktligaCBRN-händelser (kemiska,biologiska,radiologiskaochnukleära
hot och risker) bedöms idag vara det CBRN-hot som är mest sannolikt
att inträa. Sådana är ofta olyckor och kan exempelvis ske i samband med
kemikalietillverkning eller vidtransportav farligt gods.
BetraktarmaniställetutifrånettglobaltperspektivkommerCBRN-stridsmedel
inomensnarframtidvaraettavdestörstahoten.Tekniken förframställning
av dessa stridsmedel utvecklas hela tiden men trots detta tror man att det
endastärett fåtalhögindustrialiseradestater somkanutveckla nyatyperav
kemiska stridsmedel [2].
1.3 Tidigare resultat
Vidtidigareanalyseravdettadataharmananväntsigavunivariatametoder
ochtittatpåutvaldavariablerföratttolkaochklassiceraettspektrum.Man
har därmed inte tagit någon hänsyn till de samband som kan råda mellan
spektrummets olikavariabler.
Programmen som har använts i denna rapport är MATLAB 2007b, SIMCA
ochTrimScan.
2 C/TIC-varningsinstrument
Förattupptäckaochidentierafrämmandeämnenharförsvarettillsinhjälp
ett antal olika instrument och tillvägagångssätt. Ett av de instrument som
används i detta syfte är C/TIC-varningsinstrument LCD. Det är detta in-
strumentsomanvändsförattutföradeexperiment(sekapitel4.1)somligger
tillgrund för denna uppsats. Enbild av detta instrument kanses i gur 2.
C/TIC-varningsinstrumentLCD är ett instrumentför detektering och iden-
tiering av luftburna kemiska stridsmedel samt giftiga industrikemikalier.
Instrumentet utför såkallad punktdetektering vilket innebär attdet endast
indikerar i instrumentets närmaste omgivning. Instrumentet används både
som en deli soldatens personligaskyddutrustning ochmonterat i fordon.
2.1 Jonmobilitetsspektrometri
För att detektera och identiera olika kemiska ämnen använder sig instru-
mentet av jonmobilitetsspektrometri, se gur 1. Ett luftprov tas genom att
en äkt suger in luft i instrumentet. Väl inne passerar luftprovet över två
inloppshål, ett för varje jonmobilitetsspektrometer (en för nervgaser och en
för hud- och vävnadsskadande gaser). Det interna lufttrycket reduceras och
luftprovetpumpasin ispektrometrarnaviade tvåinloppshålen.Luftprovets
ämnen leds sedan in i joniseringskammaren där de joniseras av en elektrisk
urladdning. Komplexaväxlingsreaktionerskapar sedan kluster av joner med
hög respektive låg rörlighet. Dessa förs sedan, med hjälp av elektriska fält,
mot elektroniskagrindarsom öppnas förattsläppa injonklustrernai de två
spektrometrarnas luftrum. Inne i luftrummet påverkar ett homogent elek-
triskt fält jonerna och dessa separeras med avseende på deras rörlighet. De
jonersom har hög rörlighetfärdas fortare än de jonermed lågvilketgör att
jonerna med hög rörlighetnår andraänden av driftrummetsnabbare där de
ger upphov tillströmpulser. Dessaströmpulser processas och sedananvänds
programmetsinbyggda programvara för tolking.
Figur1:Jonmobilitetsspektrometer.
2.2 Lagring av data
Data lagras på instrumentets interna minne där man sedan kan åternna
data frånde senaste 72timmarna. Datalagras iett sådantformat attinläs-
ning till dator lätt kan göras via programvaran LCD(TrimScan). Data som
lagrasinnehålleruppgifteromvilkaämnenochkoncentrationerinstrumentet
detekterat under perioden.
Figur2:C/TIC-varningsinstrument LCD.
3.1 Varför multivariata metoder?
I många fall när man vill titta påsamband och kunna prediktera utfallan-
vänder man sig av univariata metoder där man plockarut den variabelsom
verkar hamest betydelse för utfallet. Dettagör man trots attman ide allra
esta fall har betydligt mycket mer information att tillgå. Vad gäller spek-
trumdataharmanoftaett stortantalvariablermenplockarendastutenoch
studerar denna.För attpåett bättresätt tatillvaraallden informationsom
nns i datamaterialet kan man istället använda multivariata datamodeller
där hänsyntastilleventuellasambandmellande olikavariablerna. Oftaled-
er detta också till att okända samband mellan variabler uppdagas och man
kan få en helt ny syn på hurvariablerna hängerihop. Utöver upptäckten av
eventuellasamband harmanäven möjlighetatthittasåkalladeoutliers som
påett ellerannatsätt särskiljersigfråndetresterandedatamaterialet.Detta
kanledatillbättrekunskaperomhurochvadsompåverkarmätningarnaoch
på så sätt ge bättre restriktioner för hur och när en modell är pålitlig. Ett
exempelpådettaskullekunna varaattmanupptäckerattspektra avämnen
somuppmätsunderextremaförhållandenkanskeintegeretträttvistresultat
och kan skilja sigmycket åtmellan mätningarna.En multivariat aspektgör
även att små förändringar som till exempel mätskillnader mellan olika in-
strumentkanupptäckas och skulledessa mätfelintevara helt slumpmässiga
kan även detta upptäckas ochman kan göra något åtdem [5].
3.2 Principalkomponentanalys (PCA)
Principalkomponentanalyskananvändasförattförklarakovariansstrukturen
hos ett antal variabler genom att bilda okorrelerade linjärkombinationer av
dessa, så kallade principalkomponenter. Detta kan i många fall leda till att
mankanminskaantaletvariablerimodellen.Ävenomallaursprungligavari-
abler behövs föratt förklaraallvariabilitetså kanman ofta med ett mindre
antal principalkomponenter förklara stora delar av variansen i datamateri-
alet. Detta betyder att man ofta kan gå från ett stort antal beroende vari-
ablertillendast ett fåtal,okorrelerade, linjärkombinationeravdessa. Princi-
palkomponentanalys leder oftatillattman upptäcker sambandsom tidigare
intevaritkändaochdärmedökarförståelsenfördata [7].Exempelpåsådana
sambandillustrerasigur3därprincipalkomponenterplottatsmotvarandra
i ett så kallad spridningsdiagram.
ter. Dessa genereras på ett sådant sätt att de kommer att vara ortogonala
mot varandra[1].
Figur3: Exempelpå hur uppdelningenkan se ut när data processats medprinci-
palkomponentanalys ochdeolikaprincipalkomponenternas värdenritatsinisprid-
ningsdiagram. Varjefärgrepresenterar idessadiagram ettämne.
3.2.1 Standardisering av data
Standardisering av data kan utgöra skillnaden mellan en mycket väl och en
mycketdåligtfungerande analys. Dataförprocessas imångafallför attupp-
fylla de antaganden som krävs för en påföljande analys. Ett problem man
oftastöter på isamband med analys av stora datamängderär attvariabler-
nas varians skiljer sig åt,till exempel kande olikavariablerna vara mätta i
olikaenheter. DettamedföriPCAattvariablermedstörrevariansfårstörre
inverkan på modelleringen än de variabler som har lägre varians. Detta be-
höver dock inte innebära några problem utan kan i stället i en del analyser
vara en fördel. Innebär det ett problem för fortsatt analys kan man genom
att standardisera variablerna (vilket i PCA motsvarar att använda korrela-
tionsmatrisenistället för kovariansmatrisen)kommarunt problemet.
innebär attman för var och en av observationerna på en variabel drar bort
variabelns medelvärde. Dettager en centreringav datapunkternarunt origo
d.v.s. vi får variabelmedelvärden noll. Illustrativt visas skalning och cen-
trering av variableri gur 4 respektive gur 5[8].
Figur4: Skalning av variablerna för attundvika problem medolika varians. Vari-
ablerna representeras här av stående rektanglarvars längdger ettmått på obser-
vationernasspridning och vars lägegerett måttpå variabelns medelvärde.
Figur 5: Centrering av variablerna inför principalkomponentanalys. Variablerna
representerashäravståenderektanglarvarslängdgerettmåttpåobservationernas
spridningochvarsläge gerettmått på variabelnsmedelvärde.
Antag att aktuellt data ligger lagrat i en matris av storlek
N × K
därN
står för antalet objekt och
K
för antalet variabler som observerats. Utifrån dennamatriskannuettK
-dimensionelltrumspännas uppdärvarjevariabel representeras aven koordinataxel,K = 3
ger koordinatsystemettillvänsterigur6.I detta
K
-dimensionellarum placerasnuvarochen av deN
styckenobjekten ut. Varjeobjekt kommer alltså utifrånsina observerade värden att
hamnanågonstansidettarum.Genomattmanitidigarebehandlingavdata
harsubtraheratvarjevariabelsmedelvärdekommernualltdataattcentreras
runtorigo.
Nästasteg ärattberäknadenförstaprincipalkomponenten.Mankanbeskri-
vadennaförstakomponentsomdenriktning,genomdetuppspändarummet,
somhar störstvarians.Denna linjekommerautomatisktattgåigenomorigo
(i och med den tidigare centreringen). Varje punkt i rymden (alltså varje
objekt) avbildas nu på linjen och får på så sätt ett nytt värde utifrån var
den träar linjen.Detta värde kallasförscore. Förattfå framövrigaprinci-
palkomponenter gårmantillvägapåliknandesätt. Principalkomponent2får
man genom att plocka ut den linje som bäst förklarar återstående variation
hos datat. Denna kommer också den att gågenom origo och vara ortogonal
mot den första principalkomponenten. Dessa två första principalkomponen-
ter kanses som ettplan belägeti det
K
-dimensionellarummetochdata kan nu projekteras på detta,vilket ger en bild av datamaterialetsstruktur.Figur6:Exempelbeståendeavdatai3dimensioner.Tillvänster:Detrevariablerna
representeradeavkoordinataxlar.Tillhöger:objektenutplaceradeidetuppspända
rummetutifrån de observeradevärdena.
Antag att data består av
K
stycken variablerY 1 , Y 2 , . . . , Y K
och att mangenomprincipalkomponentanalys villreduceradettadatamaterialmen ändå
behållasåmycketinformationsommöjligt.Låt
Y 1 , Y 2 , . . . , Y K
bildaenslumpvek-tor
Y 0 = [Y 1 , Y 2 , . . . , Y K ]
ochlåtdennes kovariansmatris,Σ
,haegenvärdena:λ 1 ≥ λ 2 ≥ . . . ≥ λ K ≥ 0
. Tillattbörja medbildas linjärkombinationeravde ursprungligavariablerna:P C 1 =
a0 1 Y = a 11 Y 1 + a 12 Y 2 + . . . + a 1K Y K
P C 2 =
a0 2 Y = a 21 Y 1 + a 22 Y 2 + . . . + a 2K Y K
.
.
.
P C K =
a0 K Y = a K1 Y 1 + a K2 Y 2 + . . . + a KK Y K
Därefterräknas variansenförvarjelinjärkombinationut, alltså variansenför
varje principalkomponent.
V AR (P C i ) =
a0 i P
ai i = 1, 2, . . . , K COV (P C i , P C j ) =
a0 i P
aj i, j = 1, 2, . . . , K
Den första principalkomponenten är den linjärkombination som har störst
varians, den andra den med näst högst varians o.s.v. För att principalkom-
poenterna ska vara okorrelerade ställs kravet att
COV
a0 i
Y,
a0 j
Y= 0, j >
i
. En linjärkombination av variabler kan multipliceras med vilken konstant som helst och pådettasätt ökavariansen. Förattundvikadetta sätter manupp en restriktion som säger att
a i 0
a i = 1
.Närvariansenmaximeratsirespektiveprincipalkomponentkommerden
i : te
principalkomponentenatt ges av:
P C i =
e0 i
Y= e i1 Y 1 + e i2 Y 2 + . . . + e iK Y K , i = 1, 2, . . . , K
där
λ i
är egenvärdet tillegenvektorn ei
,och:V AR (P C i ) =
e0 i P
ei = λ i i = 1, 2, . . . , K
COV (P C i , P C j ) =
e0 i P
ej = 0 i 6= j
[7]Enständigtåterkommande frågavidprincipalkomponentanalys ärhurmån-
ga av dessa nya komponenter som ska användas för vidare analys av data.
Detnns ingetdirekt svarpådennafrågamendet nnsnågra tumregleratt
gåefternärmanställsinfördettaproblem.Enavdessatumreglerärattvälja
såmångakomponenter attde tillsammansförklarar80%avdatamaterialets
varians, en annan är att plotta upp den kummulativa förklarade variansen
och ta med de principalkomponenter som tillför en viss procentuell ökning
av denförklarade variansen(se gur7).Även en såkallad scree-plot,segur
8,kananvändas tilldettaändamål.I dettadiagramplottasprincipalkompo-
nenterna mothurmycketvarians de förklararochman letarefterknänsom
visarpåatt förklaringsgradenminskarrejältmellanen komponentochnästa
[7].
Figur7: Paretoplott över förklarad varians vid PCA. Staplarna visar hur stor del
avdatatstotalavarianssomförklarasavvarochenavdefyraförstaprincipalkom-
ponenterna och linjenvisar motsvarandekummulativa procentsats.
Figur8:Scree-plot överförklaradvarians avde25 första principalkomponenterna.
Punkterna visar hur mycket varians som förklaras av respektive principalkompo-
nenterna.
3.3 Beslutsträd
Beslutsträd, även kallde klassiceringsträd, består av ett antal noder som
delarupp datamaterialetenligt,påförhand,givnakriterier.Om datamateri-
alet
X
beståravn
uppmättaspektra påN
stycken ämnensåkommerdetta,genom att följa beslutsträdets delningskriterier, att gå från datamaterialet
X
tillk
stycken delmängder av detta;X 1 , X 2 , . . . , X k
. Etttänkbart träd fördenna uppdelning skullekunna se utsom trädet i gur 9.
I gur 9 är noder belägna på samma nivå disjunkta. Element som benner
sig i
X 1
kan alltså inte även benna sigiX 2
och vice versa. Det gäller ävenatt
X 1 ∪X 2 = X
,allaelementdelasalltsåuppenligtdetkriteriumsområderigällandenod.De noder som omgesav en rektangel,iställetför en cirkel,är
de noder som ger den slutgiltiga uppdelningen av elementen. När man nått
framtilldessa noderhar man alltsåklassicerat klart.Varjesådanslutgiltig
nod representerar en klass (i detta fall ett ämne), dock kan det nnas era
slutnoder som representerar samma klass. Generelltsett kan uppbyggnaden
av beslutsträd beskrivassom problemet atthittade logiskadelningskriterier
som påmest korrekta sätt klassicerar data [6].
X
X 1
X 3
X 7 X 8
X 13 X 14
X 4
X 9 X 10
X 2
X 5 X 6
X 11 X 12
X 15 X 16
Figur9:Beslutsträd
3.3.1 Uppbyggnad av beslutsträd
För attkunna bygga upp det beslutsträd som ska användas för attskilja de
olika objekten i en datamängd åt måste man välja ut vad det är man ska
titta på när man delar upp data. För data som ska delas in i era klasser
medsammafelklassceringskostnad(kostnadenförattklassiceraett objekt
fel är lika stor för objekten från samtliga klasser, det är inte värre att felk-
lassicera ett objekt från klass
i
än ett objekt från klassj
) nns det tvåolikakriterier som man oftastväljer mellan, dessa två är:Ginis kriterium
(The Gini Criterion) ochTwoings kriterium(The Twoing Criterion). In-
nan dessa två kriterier presenteras introduceras de variabler och funktioner
av variabler som används av klassiceringskriterierna.
Tillattbörjamed görs antagandet att delningsalgoritmenbenner sigi nod
t
och nu ska hitta den uppdelning av datamaterialet i denna nod som ger den bästa uppdelningen enligt det kriterium som valts. En mängd{s}
in-nehållandessplittningskriterierdenieras sedan pågivet data.För attfå ett
måttpåhurbrauppdelningenavdataärdenierasävenengoodness-of-split-
funktion
θ (s, t)
där den bästa uppdelningen av data ärden uppdelningsom maximerardenna.Datamaterialet som ska delas upp antas bestå av
n
stycken klasser och deolika klassernas proportioner i nod
t
betecknas med p= [p 1 , . . . , p n ]
. Densplittningsregelsom väljs i
t
kommeratt dela upp datamaterialetitvå delar (då trädetärbinärt)ochskickaden enadelentillen nodtillvänsterochdenandratillen nodtillhöger. Datamaterialetsuppdeladeproportionerbeteck-
nas med
P L
ochP R
, därP R = 1 − P L
.Vidareantasattgoodness-of-split-funktionen
θ (s, t)
kanskrivassomenfunk-tion
f (P L , P R ,
pL ,
pR )
där pL = (p 1,L , . . . , p n,L )
är den proportion av den
stycken klasserna i den vänstra noden
t L
och pR = (p 1,R , . . . , p n,R )
propor-tionen av de
n
stycken klassernai den högra nodent R
.För varje uppdelning
s
denieras också talα j , 0 ≤ α j ≤ 1
, ochβ j = 1 − α j
sådana att
P L = P j α j p j
,P R = P j β j p j
,p j,L = α P j p j
L
,
p j,R = β P j p j
R
och
θ (s, t) = f (α,
p)
.En ny funktion
φ (
p)
introduceras. Denna funktion anger nodens orenhet ochhar egenskaperna att den är konvex ip , har ett maximum dåallap j
ärlika och ett minimum då något av
p j = 1
. Ett samband mellan detta oren-hetsmåttochgoodness-of-split-funktionendenierasdärefterpåföljandesätt:
θ (s, t) = φ (
p) − P L φ (
pL ) − P R φ (
pR ) .
[4]
Ginis kriterium Ginis kriterium är den vanligast förekommande kriteri-
umet för attberäkna orenhetsfunktionen (impurity function) och denieras
som följer:
φ (
p) = P j p j (1 − p j )
Ginis kriterium delar upp datamängdengenom att skilja ut en klass, av så
stor storleksom möjligt,fråndetresterande datamaterialet.Giniskriterium
försökerattseparera de olikaklassernaåtgenomatttittapåenklassitaget.
Denna beslutskriterie är snabb och lätt att använda vilketgör att den med
små förändringar kan anpassas till ett datamaterial där de olika klasserna
förknippas med olikafelklassiceringskostnader [4].
Låt datamaterialet X vara mängden av 100 stycken objekt indelade i fyra
klasserochlåtproportionsvektornseutpåföljandesätt:p
= [0.4, 0.3, 0.2, 0.1]
.Den optimala uppdelningen av dessa objekt skulle alltså vara den som slu-
tari fyra noder där allaobjekt tillhörande klass
i
hamnari samma slutnod,i = 1, 2, 3, 4
. Givet en mängd beslutskriterier skulle då det träd som repre- senterar dennauppdelningkunna seut som trädeti gur 10.X
X 1 X 2
X 3 X 4
X 5 X 6
Figur10:Exempelpåettoptimaltbeslutsträdsomdetskullekunnaseutiexempel
1,Giniskriterium.
Idettaoptimalabeslutsträd skullealltså nod
X 1
bestå av de40observation- erna tillhörande klass 1, nodX 3
bestå av de 30 observationerna tillhörande klass 2,nodX 5
bestå av de 20 observationerna tillhörande klass 3 och slut- ligen nodX 6
bestå av de 10observationerna tillhörande klass4.För att koppla samman detta exempel med den föregående teorin följer nu
en genomgångav hursjälvauppdelningenavdata skullekunna seutidetta
exempel.
Metodenkananvändasinomenradolikaområden.Ettexempelskullekunna
vara då datamaterialetantas bestå av uppmätta hälsovärden hos 100 per-
soner. Av dessa antas 40 personer ha problem med fetma, 30 stycken av de
övrigaantas vara diabetiker, 20avde nu återståendeantasha hjärtproblem
och de 10 övrigaantas vara utan känd sjukdom. De värden som mätts upp,
tidigarekallade hälsovärden skullekunna vara exempelvis: blodsockerhalt,
vilopuls, ålder, vikt, längd
. . .
. Antag även att målet med beslutsträdet är att dela upp de 100 individerna i de fyra klasserna: Problem med fetmaDiabetiker Hjärtsjuka samt Utan känd sjukdom.
Skulle beslutsträdet kunna dela upp datamaterialet optimalt som i detta
exempelsåskullede 40personerna medfetmaproblem,genomuppdelningen
inod
X
hamnaiX 1
ochde 60övrigaskullehamnaiX 2
.UppdelningeninodX 2
skulle särskiljade 30med diabetes från återståendeo.s.v.Antag att beslutsalgoritmen benner sig i nod
X
och ska hitta den bästauppdelningen enligt Ginis algoritm i denna nod. De olika uppmätta vari-
ablernadenieras som en mängd
{s}
innehållandessplittningskriterier. Den uppdelningsom maximerarθ (s, t)
ärden bästa uppdelning som kan göras inod
X
.Datamaterialetbestår idetta exempelav 4stycken klasser. Deolikaklasser-
nasproportioneridenförstanoden,nod
X
,kanbeskrivasavproportionsvek- torn p= [0.4, 0.3, 0.2, 0.1]
.Densplittningsregelsom väljsi
X
kommeratt delaupp datamaterialetitvå delar. När uppdelningen skett kommer klassernas proportioner i den tillde-ladenoden attförändras,dessanyaklassproportionerlåtervibetecknasmed
p
L = (p 1,L , . . . , p 4,L )
samt med pR = (p 1,R , . . . , p 4,R )
.Förattfåredapåvilken uppdelningsom ärdenbästa användsorenhetsmåt-
tet,
φ (
p)
. I detta exempelanvändsφ (
p) = P j p j (1 − p j )
därj = 1, ..., 4
.Goodness-of-split-funktionenkannuskrivassom
θ (s, X) = φ (
p)−P L φ (
pL )−
P R φ (
pR ) = P j=1 4 p j (1 − p j ) − P L P 4
j=1 p j,L (1 − p j,L ) − P R P 4
j=1 p j,R (1 − p j,R )
.Antag att splittningskriteriet längd ger följande proportioner:
P L = 0.5
och
P R = 0.5
samtpL = (0.4, 0.3, 0.2, 0.1)
och pR = (0.4, 0.3, 0.2, 0.1)
.Detta skulle ge
θ (langd, X) = 0.7 − 0.5 (0.7) − 0.5 (0.7) = 0
. Att i nodX
dela data med avseende på splittningskriteriet längd ger alltså ingen förbättringav uppdelningen.Antag istället att det aktuella splittningskriteriet är blodsockerhalt och
attdettasplittningskriterium skulledela uppdatamaterialetenligtföljande:
P L = 0.4
ochP R = 0.6
samt pL = (1, 0, 0, 0)
ochpR = (0, 0.5, 1/3, 1/6)
.Detta ger
θ (blodsockerhalt, X) = 0.7 − 0.4(0) − 0.6( 11 18 ) = 1 3
vilket i fall-etmeddettadatamaterialärden bästauppdelningenavdatadåden största
klassen skiltsfrån övriga.
Det är dock i ytterst få fall denna optimala uppdelning nås och ett mer
verklighetstroget exempelvisas därför här nedan.
Exempel 2
Låt som i tidigare exempel X vara mängden av 100 stycken observation-
er indelade i fyra klasser och låt proportionsvektorn se ut på följande sätt:
p
= [0.4, 0.3, 0.2, 0.1]
.Givetenmängdbeslutskriterierskulledådetträdsom representerar en uppdelningav observationerna kunna se utsom i gur 11.X
X 1
X 3 X 4
X 2
X 5
X 7 X 8
X 6
Figur11:Beslutsträd,Ginis kriterium
I detta icke optimala beslutsträd skulle fördelningen av objekten i noderna
kunna seut som i tabell1.
Nod
X 3
(klass 1)X 4
(klass2)X 6
(klass 2)X 7
(klass3)X 8
(klass 4)Klass 1 34 4 2
Klass 2 5 21 2 2
Klass 3 3 2 13 2
Klass 4 1 9
Tabell 1:Exempel påhur uppdelningenavdataiexempel2 skulle kunnaseut.
Twoings kriterium Dettaär ett annat vanligt förekommande kriterium.
Twoings kriterium försöker dela upp objekten från de
n
stycken klasserna itvå ungefär lika stora delmängder. Detta angreppssätt har en viktig fördel
och det är att den ger information om likheter mellan klasser. I varje nod
sorterasklasserna till tvågrupper[4].
Denitionen av Twoings kriteriumser utsom följer:
φ (s, t) = P L 4 P R h P j |p j,L − p j,R | i 2
Exempel 3
Låt X vara mängden av 100 stycken objekt indelade i fyra klasser och låt
proportionsvektorn se ut på följande sätt: p
= [0.4, 0.3, 0.2, 0.1]
. Med Two-ings kriterium som orenhetsmått skulleman kunna få trädet i gur 12 med
motsvarande uppdelningi tabell2.
X
X 1 X 2
Figur12:Beslutsträd,Twoings kriterium
Nod
X 1
(Klass 1)X 1
(Klass2)Klass 1 38 2
Klass 2 30
Klass 3 20
Klass 4 10
Tabell 2: Exempel på hur uppdelningen av objekten i exempel 3 skulle kunna se
ut.
3.3.2 Kostnadsfunktionen
För att hitta det träd som på ett så bra sätt som möjligt delar upp data
utan att för den delen dela upp det i allt för små grupper (som sedan kan
bli svåra att använda vid körningar på nya data) kan man välja att titta
på den så kallade kostnadsfunktionen. Kostnaden av ett träd är summan
över alla slutnoders skattade sannolikheter multiplicerat med kostnaden av
noden.Idefallbeslutsträdetärett klassiceringsträd,alltsåharsommålatt
klassiceraettobjekttillenvissklass,ärkostnadenavenvissnoddensamma
somsummanavmissklassiceringskostnadenavobservationernaidennanod.
Det nns olika sätt att räkna ut denna kostnadsfunktion bland andra nns
återläggningmetodenochen metod där man använder sigav korsvalidering.
Återläggningsmetoden Använder man sig av denna metod får man en
kostnadsomigrundenbaseraspådetdatamaterialsomanväntsförattskapa
originalträdet vilket medför att man med denna metod ofta underskattar
kostnaden man skulle ha om man använde sig av trädet för att klassicera
nyadata.
Korsvalidering Om man istället använder sig av korsvalidering plockar
man bort en viss mängd av data, anpassar ett nytt träd och räknar sedan
ut kostnaden för att klassicera det borttagna materialet med hjälp av det
nyss skapade trädet. Till slut sammanvägs de beräknade kostnaderna och
man får ut en kostnad för hela datamaterialet. När man beräknat denna
kostnadsfunktionärdetsedanrelativtenkeltattplottakostnaderna(se gur
13) som en funktion av antalet noder i trädet och utifrån denna plott hitta
det minstaträd varskostnadligger inom en standardavvikelse fråndet träd
med den allralägsta kostnaden.
Figur 13: Exempel på en kostnadsfunktion. Här plottas antalet noder mot kost-
nadernaför respektivenod.Denstreckade linjen motsvarar enkostnadsom ligger
en standardavvikelse från detträd medden allralägstakostnaden.
3.3.3 Skattning av klassiceringsträdets noggrannhet
För att skatta ett klassiceringsträds noggrannhet, få ett mått på hur bra
trädetär påattklassicera, nns det tre olikasätt attgåtillväga. Dessatre
äråtersubstitution, testmängd och korsvalidering.
Återsubstitution. Detta mått på trädets klassiceringsnoggrannhet är
proportionenav de objekt som felklassicerasav det klassiceringsträd som
skapatsavheladatamängden.Dennaproportion,
R (d)
,beräknaspåföljandesätt:
R (d) = 1 N
N
X
i=1
X (d (x i ) 6= j n )
X
används här som en indikatorfunktion och är lika med ett om uttrycketd (x n ) 6= j n
är sant och noll annars.d (x)
betecknar i detta fall klassicer- arenochX äralltsåett ide falld (x)
klassicerar objektettillfel grupp.För beräkning av detta estimat används alltså samma datamaterial som använ-des för attbyggaupp trädet.
manupp det tillgängligadatati tvådelmängder,
Y 1
ochY 2
och låterantaletenheteridelmängdernabetecknasav
N 1
respektiveN 2
.Noggrannhetsmåttet blir i detta fall proportionen av de enheter tillhörandeY 2
som felklassi- cerasavdet klassiceringsträdsom skapatsmedutgångfråndelmängdenY 1
.Beräkningarna görs på följandevis:
R Y 2 (d) = 1 N 2
X
(x n ,j n )∈Y 2
X (d (x n ) 6= j n )
Proportionen,detvillsäganoggrannhetsmåttetberäknasnupåendatamängd
som intevaritmed ochsatt upp klassiceringsreglerna.
Korsvalidering. Även här delasdatamaterialetupp men istället föri två
delmängder delar man nu upp datat i
m
stycken jämnstora delmängder,Y 1 , Y 2 , . . . , Y m
. På liknande sätt som i de två tidigaretillvägagångssätten så räknasäven här en proportion avfelklassicerade enheter ut. Denna gångärdet antalfelklassiceringarav den delmängd somej varitmed dåklassicer-
ingsreglernatagits fram. Dettagörs på följandesätt:
R Y m (d m ) = 1 N m
X
(x n ,j n )∈Y m
X (d m (x n ) 6= j n ) d m (x)
beräknas alltsåfrån delmängdenY − Y m
.4 Metod
4.1 Datamaterial
Det data som ligger till grund för detta arbete består av två datamaterial.
Detena datamaterialetbestårav uppmätningarpåkemiskastridsmedel och
detandraavuppmätningarpågiftigaindustrikemikalier.Datamaterialetut-
görs av spektran, se gur 14.
Närdet gällerkemiskastridsmedelgåruppmätningentillsåattinstrumentet
börjar mäta med endast ren luft i omlopp, därefter kopplas gasödet om så
attinstrumentet numäterdetkemiskastridsmedlet.Koncentrationenavdet
kemiskastridsmedletärkändochkonstantunderförsöketochmanutfördet-
ta under konstant luftfuktighet. I slutet av mätningen stängs gasen av och
instrumentet återgårtillattmätarenluftigen.Despektran somfåskommer
den rena luften och ämnet kommer de bestå av varierande koncentrationer
och närden iförvägvalda koncentrationen nåtts kommerde spektra som fås
bestå av konstant koncentration av ämnet.
Uppmätningarna av de spektran som används i datamaterialet över gifti-
ga industrikemikalier är inte lika rena och har genererats med så kallade
snitester.Vid dessa tester öppnasen burk med det rena ämnet ivätskefas,
sedan förs instrumentet mot burken och när instrumentet indikerar ämnet
förs det sedan bort från burken. I dessa experiment är varken temperatur
eller luftfuktighet kända inte heller får man konstanta koncentrationer av
ämnet.
4.1.1 Kemiska stridsmedel
Följandesexkemiskastridsmedelharanvändsidettaarbete:RyskVX(RVX),
VX (VX), Senapsgas (HD), Soman (GD), Sarin (GB), samt Tabun (GA).
Datamaterialet för uppbyggnaden av klassiceringsmetoden består av to-
talt 720 spektra (120 spektra per ämne). Varje spektrum består av 1948
variabler; sammanslagningen av koncentrationerna uppmätta i positiv och
negativ mod,se kaptitel 4.1.3.
4.1.2 Giftiga industrikemikalier
Idettaarbetehar följandesexgiftigaindustrikemikalieranvänts:metylamin,
bromkloretan,allylklorid,akrylonitril,dimetylaminochsvavelsyra. Datama-
terialet för uppbyggnaden av klassiceringsmetoden består av totalt 180
spektra (30 spektra per ämne). Varje spektrum består även här av 1948
variabler; sammanslagningen av koncentrationerna uppmätta i positiv och
negativ mod,se kaptitel 4.1.3.
4.1.3 Databehandling
Datamaterialet består av jonmobilitetsspektra uppmätta i laboratoriemiljö.
Varjeexperiment ger observationer ibåde positivochnegativ mod.De upp-
mättavärdenaläses infråninstrumentetviaprogramvaranLCD(Trimscan)
där de sedan kankonverteras till Excel-eller MATLAB-format.
Bådamoderna,segur14ochgur15,innehållerviktiginformationangående
den eventuellanärvaronavett ämneochkommerdärför bådatvåattanvän-
das i den fortsatta analysen. Detta sker genom att de två modernas spek-
tra läggs efter varandra och på så sätt bildar ett nytt spektrum, gur 16.
experiment ger ertalet spektra där ämneskoncentrationen går från noll till
maxkoncentration och sedan tillbaka till noll igen. Det första spektrumet
innehålleralltsåingetämnedåinstrumentet intehunnitexponerasfördetta.
Dådet endastärde spektra med ämnesinnehållsom ärintressanta föranal-
ysenmåstedessa pånågotsätt särskiljasfrånde tommaspektrumen. Idetta
arbetehardettagjortsgenomattgrasktstuderaallaspektraförenmätning
och därefterplocka utde spektra som förögat ser utattinnehållahalter av
ämnet.Despektra med störst ämnesinnehållärde somanvänds tilluppbyg-
gnaden av modellen medan de med lite mindre används till testkörningen.
Då mätningar i verkligheten inte utförs i laboratorier har ett ertal exper-
iment gjorts på varje ämne för att på så sätt kunna fånga upp eventuella
dagskillnadersåattdessaislutändaninteskannasmedsomen förklarande
variabeli klassiceringen.
För att data från de olika mätomgångarna, se gur 17, ska vara jämför-
barahar en delförändringar gjorts.Tillattbörjamed yttadesdataisidled
såatt RIP/RIN-toppen ärplacerad på sammaställe för allaspektra och al-
la ämnen,gur 18.Detta anses acceptabelt dådet egentligen inte är denna
placering somär den viktiga,man ärmer intresserad av förhållandetmellan
dessa toppar och övriga. En föryttning medför alltså endast att vi får lika
skala på x-axeln för alla spektra vi tittar på. Efter detta kapas data av i
början på vardera mod då varje ny mätningmedför en störning inom detta
områdesegur 19.Störningen beror påelektronisktbrus som genereras när
det elektriskafältet,i början av varje mätning,tillfälligtbryts.
Figur14:Positivmod.
Figur15:Negativ mod.
Figur 16:Sammanslagning avpositivoch negativmod.
Figur17:Spektrum innanbehandling.
Figur18: Spektrum underbehandling.
Figur19:Spektrum efterbehandling.
Analys av data görs genom att man till en början tittar på PCA-plottarna
förattpåsåsättseomeventuellauppdelningaravobjektenigrupperverkar
vara möjligt. Att granska PCA-plottarna ger inte svar på denna fråga men
omman med ögat kanse mer eller mindretydligagrupperär sannolikheten
större att en vidare klassicering eller uppdelning av objekten lyckas. Även
paretoplottar över hur stor del av variansen som principalkomponenterna
förklarar granskas för att senare kunna bestämma antalet principalkompo-
nenter som manvill ska beskrivadatamaterialet.Vadgäller klassicering av
ämnenahar sedan beslutsträd använts.Uppbyggnaden av dessa beslutsträd
görs med hjälp av de principalkomponenter som valts ut och det är med
avseende på dessa principalkomponenter samt summor av dessa som data
diskrimineras. Efter uppbyggnaden av ett träd valideras detta och ett mått
påhur bra trädet klararav att klassiceradata erhålles.
5 Resultat
Datamaterialet som analyserats bestod, som tidigare angivits, av data från
både kemiska stridsmedel och giftiga industrikemikalier. Analys har utförts
med data uppdelat i dessa grupper ochredovisas därför separat under olika
rubriker.
5.1 Kemiska stridsmedel
5.1.1 Principalkomponentanalys
Datamaterialetbestår av spektra frånsex ämnen. Målet med principalkom-
ponentanalysen är i detta fall att, med färre variabler än de ursprungliga
1948, påett bra sätt kunna beskriva data ochi förlängningen hitta de prin-
cipalkomponenter eller kombinationer av dessa som skiljer de olika ämnena
åt.
Dådetslutgiltigamåletärattkunna särskiljadeolikaämnenafrånvarandra
användsdärför,tillprincipalkomponentanalysen,de spektrasommest skiljer
sig mellan de olika ämnena. Dessa spektra fås genom ämnesvis maximering
avvariablerna.Detdatamaterialsom självaprincipalkomponentanalysenut-
förspåbestårav sexspektraperämne(sexexperimentharutförts perämne
och det är inom dessa experiment som variablerna maximerats). När prin-
cipalkomponenterna tagits fram används motsvarandeprincipalkoecienter
för attberäkna övrigt datamaterialsscores.
görs en paretoplott, se gur 20, som visar den kumulativt förklarade vari-
ansen samt en scree-plott, se gur 21,som plottarupp förklarad varians för
var och en av de första principalkomponenterna. Dessa två plottar används
som stödibeslutetmen dåde skillnadersom nns mellanspektraärsåpass
små har det ianalysen tillen början använts 10principalkomponenter trots
attplottarna pekarpå att cirka 4 skulle räcka.Plottarna ärtrots dettavik-
tigadå de ger en bildöver omdet ärett tiotal, ett hundratal eller upp mot
tusen principalkomponenter som kanvara av värde ien fortsatt analys.
Figur 20:Paretoplott, kemiska stridsmedel.
Figur 21:Scree-plott, kemiska stridsmedel.
Igur 23-25betecknasde olikaämnenaav olikatecken ochfärger (gur22).
Figurerna beskriver två angivna principalkomponenters återskapade värden
(scores) plottade mot varandra. Dessa återskapade värden är de som erhål-
litsdådetstoradatamaterialetåterskapatsmedhjälpavdekoecientersom
principalkomponentanalysen gett.
Enstudie av plottarna visar att det verkar troligt att man utifrån ett antal
principalkomponenter ochkombinationerav dessa kandela upp datamateri-
alet ämnesvis, vilket är vad som behövs för attkunna bygga upp en klassi-
eringsmodell.
Exempelvis kan grupp nummer 4, Soman, som i plottarna representeras av
gulapunkter,tillstoradelarsärskiljasfrånövrigtdatamaterialgenomatttit-
ta påprincipalkomponent 3 (se gur 24) då observationerna av detta ämne
verkar haett lägre värde pådenna variabelänobservationerfrånövrigaäm-
nen.
Figur22:Representationenavämnenispridningsdiagramförkemiskastridsmedel.
Figur23: Principalkomponent 1plottad motprincipalkomponent 2,hela datama-
terialet.
Figur24:Principalkomponent 1 plottad mot principalkomponent 3,hela datama-
terialet.
Figur25:Principalkomponent 3 plottad mot principalkomponent 4,hela datama-
terialet.
tillhjälpförattförstådatamaterialetsstruktur.Dessakoecienterärdekon-
stanter originaldatats variabelvärden multipliceras med innan de summeras
till värdet på motsvarande principalkomponent. I gur 26 är det koecien-
terna till den första principalkomponenten som visas. Denna principalkom-
ponentläggerstor vikt vidhurdataser utruntRIP- respektiveRIN-toppen
(RIP- och RIN-topp, se gur16).
Figur26:Koecienterna tillprincipalkomponent 1,PC1.
5.1.2 Beslutsträd
Som tidigare nämnts så används, i den fortsatta analysen, 10 principal-
komponenter. Då även summor av dessa principalkomponenter kan utgöra
bradiskriminerarefördatamaterialethardessainkluderatsianalysen.Detta
ger totalt 175 variabler att diskriminiera mellan. Uppbyggnaden av själva
beslutsträdet utförs med inbyggda MATLAB-funktioner.
Trädet som alltså grundar sig på de 175 variablerna byggs upp med Gi-
ni's kriterium som beslutsalgoritm. De beslutskriterier som fås enligt dessa
specikationer och en körning på hela datamaterialet ger beslutsalgoritmen
i gur 28 en schematisk bild över hur denna uppdelning ser ut. Nodernas
sirormotsvarar sirornai gur 27.
Decision tree for classication
1if x13<478.091 then node 2else node 3
2if x1<-123.53 then node 4 else node 5
3if x110<-3197.6 then node 6else node 7
4class =5
5class =4
6if x13<906.971 then node 8else node 9
7if x13<1141.7 then node 10else node 11
8class =2
9class =3
10if x82<-479.4then node 12else node 13
11if x4<-1592.76 then node 14else node 15
12if x2<-45.9391 then node 16else node 17
13if x3<609.761 then node 18else node 19
14class = 2
15class = 6
16class = 2
17class = 1
18class = 4
19class = 2
Figur 27:Beslutskriterier, kemiska stridsmedel.
Spridningsdiagramöverde variablersom nns med i modellenochsom allt-
så enligt det kriterie som använts ärde bästa uppdelarna av data redovisas
här nedan. I gur 29 ses hur variabel 13, det vill säga
P C1 + P C3
, skiljerhelagrupp5frånövrigagrupper(observationernafrånde olikagruppernaär
plottade i ordning längs x-axeln). Detta genom att skicka de observationer
medvärdepåvariabel13mindreän
478.091
tillnod2 ochde övrigatillnod3.Man kan även se attett fåtal av observationerna i grupp4 skiljs från det
resterande datamaterialet. Det som sker i första noden är att grupp 5 och
ett fåtalobservationerfrån grupp 4skiljs från övriga observationer.
I den andra noden är det variabel 1, det vill säga
P C1
som delar data-materialet. I denna nod skiljs de observationer frångrupp 4 som följde med
grupp5iförstanodenfrånjustgrupp5.Uppdelningenavdessaobservation-
er kan ses i gur 30. I denna nod är det alltså ett värde under
−123.53
påvariabel1som skickardata tillnod4 och iannat falltillnod5. Att noterai
dennanodärattdet datasom delashär endastbestår av grupp5ochnågra
observationer från grupp 4 vilket gör att det endast är dessa variabler som
ska skiljas åt.
Uppdelningen fortsätterinod3 därdet ärvariabel110, det villsäga
P C2 + P C4 + P C6
som delar upp datamängdengenom attdeladatamaterialetvid variabelvärdet−3197.6
. Trädet skiljer i denna nod ut grupp 3 tillsammans med några observationer från grupp 2, se gur 31. Grupp 3 särskiljs sedanfrån det fåtal observationer från grupp 2 i nod 6. Dettagenom attåterigen
titta på variabel 13, alltså
P C1 + P C3
, se gur 32. I denna nod skickasobservationer med värden, på variabel 13, understigande
906.971
till nod 8ochresterande observationer tillnod 9.
1
2
4 5
3
6
8 9
7
10
12
16 17
13
18 19
11
14 15
Figur28: Beslutsträd.
Figur29: Variabel13 PC1+PC3, linje 478.091.
Figur30:Variabel1PC1, linje -123.53.
Figur31:Variabel 110PC2 +PC4+PC6, linje -3197.6.
Figur32:Variabel 13PC1 +PC3, linje906.971.
nod7delasdata,liktnod1och6,genomattvariabel13användssomdelare.
I denna nod skiljs de observationer som har ett variabelvärde under
1141.7
från de med ett värde över, se gur 33. Nod 7 kommer att skilja ut i prin-
cip hela grupp 6 samt ett par observationer från grupp 2 från det i denna
nodåterståendedatamaterialet.Dessaobservationer,frångrupp6ochgrupp
2, skiljs sedan åt i nod 11. I denna nod är det värdet på variabel 4, alltså
P C4
, som kommer att vara avgörande för uppdelningen. Överstiger värdet−1592.76
anses observationer tillhöra grupp 6, i annat fall grupp 2. Denna uppdelning kan ses i gur 35.Nod10skiljer grupp1 ochden största delenav grupp 2frångrupp 4genom
att titta på variabel 82, det vill säga
P C1 + P C4 + P C6
. En observation med ett värde under−479.4
hamnar i nod 12, övriga i nod 13, se gur 34.De observationer som hamnar i nod 12 är alla observationer från grupp 1
samt de esta från grupp 2. Dessa två grupperskiljs åt genom attbetrakta
variabel 2, det vill säga
P C2
. Ett värde på denna variabel som överstiger−45.9391
klassicerar observationen till grupp1 och ett värde under klassi-cerarobservationentillgrupp 2. Dettakan ses i gur 36.
Den sista nod som delar data är nod 13. I denna skiljs grupp 4 från ett
mindre antal observationer från grupp 2. I nod 13 skiljs observationerna åt
genomvariabel 3,alltså
P C3
, och värdet som skiljer dessa åt är609.761
, segur 37.
Figur33:Variabel 13PC1 +PC3, linje1141.7.
Figur34:Variabel 82PC1 +PC4+PC6, linje -479.4.
Figur35:Variabel4PC4, linje -1592.76.
Figur36:Variabel2PC2, linje -45.9391.
Figur37:Variabel 3PC3, linje 609.761.
5.1.3 Validering
Trädet som tagits fram enligt de kriterier som specicerats valideras nu för
attse omett mindre träd kan geett likvärdigt resultat.I praktiken betyder
dettaattmaninod2eventuelltskullekunna stannaochsäga attallaobser-
vationersomhamnardärtillhörgrupp5.Dåträdetärtänkt attanvändaspå
nytt data där man intehar någon kunskap omvad det ärför ämneman kör
kanett träd som göralltför nauppdelningar orsaka felklassiceringar.Det
skullekunna vara såattde fåtaletobservationerfrångrupp 4 som hamnari
nod2 består av felaktigamätdataeller har en koncentration som egentligen
integår attklassicera och alltså intebeskriverämne 4 påett bra sätt.
Valideringen görs med korsvalidering och ger beslutskriterierna i gur 38
och motsvarande träd i gur 39. Kostnadsfunktionen för denna validering
visas igur 40.
Dettaträd ärnågot mindre ändet träd som föreslogs tillen börjanochblir
det träd som i fortsatta studier kommer att användas för att se hur bra
algoritmen ärpåatt prediktera vilketämne ett givetspektrum speglar.
1if x13<478.091 then node 2else node 3
2if x1<-123.53 then node 4 else node 5
3if x110<-3197.6 then node 6else node 7
4class =5
5class =4
6if x13<906.971 then node 8else node 9
7if x13<1141.7 then node 10else node 11
8class =2
9class =3
10if x82<-479.4then node 12else node 13
11if x4<-1592.76 then node 14else node 15
12if x2<-45.9391 then node 16else node 17
13class = 4
14class = 2
15class = 6
16class = 2
17class = 1
Figur38:Beslutskriterier efterkorsvalidering,kemiskastridsmedel.
5.1.4 Prediktionförmåga/testkörning
För att få ett mått på hur bra det valda beslutsträdet är påatt klassicera
nya data görs nu en testkörning på spektra som inte varit med och skapat
modellen.Dettanyadata kommerfrånsammamätningar som det datasom
använts i framtagandet av beslutsträdet men består av de spektra som inte
valtsuttilldetta ändamål.Det betyder attdet datasom testkörningen körs
påideallraestafallinteinnehållerlikahögkoncentrationavämnetsomde
spektra som nns imodellen.Rimligtvisborde detta geen litesämre klassi-
ceringsförmåga.
Totalt används 48 spektra per ämne till denna testkörning. Resultatet pre-
senteras i tabell 3.
1
2
4 5
3
6
8 9
7
10
12
16 17
13
11
14 15
Figur39: Minimaltbeslutsträdefter korsvalidering.
Figur40: Kostnadsfunktion,kemiskastridsmedel.
RVX VX HD GD GB GA
RV X
48V X
46 2HD
7 41GD
5 1 39 3GB
2 6 2 38GA
3 4 1 40Tabell3:Prediktionstabell övernya spektraklassiceradeenligtbeslutsträdigur
38. Raderna representerar ämnets tillhörighet och kolumnerna klassicering efter
beslutsträd. Totalt klassicerades här
87 , 5%
korrekt.5.2 Giftiga industrikemikalier
5.2.1 Principalkomponentanalys
Principalkomponentanalysenför industrikemikalierna har utförts på samma
sätt somprincipalkomponentanalysenav spektra förkemiskastridsmedel, se
kapitel 5.1.1. Dock användes 3 istället för 6 spektra perämne. Detta dådet
endastfanns3experimentutfördaförvarochenavdesexindustrikemikalier-
na. Totalt användes alltså 18 spektra.
Paretoplotten,gur 41och scree-plotten, gur42ger en antydan omattdet
endastskullebehövascirkatreprincipalkomponenter.Somtidigarepoängter-
atskanrelativt små skillnader vara av betydelse och även i dettafall har de
tioförstaprincipalkomponenterna används i den fortsatta analysen.
Figur41:Paretoplott,giftiga industrikemikalier
Figur42: Scree-plott,giftigaindustrikemikalier
gur43). Figurerna beskriver de tvåangivna principalkomponenternasåter-
skapadevärden(scores)plottademotvarandra.Dessaåterskapadevärdenär
de som erhållits då det stora datamaterialetåterskapats med principalkom-
ponentskoecienterna från principalkomponentanalysen.
Bilderna tyder på att det bör vara möjligt att hitta regler för att särskil-
ja de olika ämnenaifrånvarandra.
Figur43:Representationenavämnenispridningsdiagramförkemiskastridsmedel.
Figur44: Principalkomponent 1plottad motprincipalkomponent 2,hela datama-
terialet.
Figur45: Principalkomponent 1plottad motprincipalkomponent 3,hela datama-
terialet.
Figur46:Principalkomponent 2 plottad mot principalkomponent 3,hela datama-
terialet.
I uppbyggnaden av beslutsträdet för giftiga industrikemikalier har det an-
vänts tio principalkomponenter. Precis som i föregående datamaterial har
även kombinationer av dessa tioprincipalkomponenter använtssom möjliga
diskrimineringsvariabler. Totalt nns det alltså även här 185 variabler att
diskrimineramellan. De beslutskriterier som fås då Gini's algoritmanvänds
åternnsigur47.Enschematiskbildöverdessabeslutskriteriervisasigur
48.Nodernassiror motsvarar sirorna i gur 47.
Decision tree for classication
1 if x136<2135.59then node 2else node 3
2 if x23<-2862.04then node 4else node 5
3 class =5
4 if x93<-8512.62then node 6else node 7
5 if x39<1142.97 then node 8 else node 9
6 if x53<-2636.79then node 10else node 11
7 if x61<503.237 then node 12else node 13
8 if x117<-6246.16then node 14else node 15
9 if x157<0.673896then node 16 else node 17
10class =2
11if x2<-5179.56 then node 18else node 19
12class =4
13class =1
14if x5<-1328.03 then node 20else node 21
15if x1<-7179.85 then node 22else node 23
16class =2
17if x22<-1883.19 then node 24else node 25
18class =4
19class =5
20class =6
21class =4
22class =2
23class =5
24if x26<-4030.57 then node 26else node 27
25class =2
26class =6
27class =3
Figur47:Beslutskriterier, giftigaindustrikemikalier.
1
2
4
6
10 11
18 19
7
12 13
5
8
14
20 21
15
22 23
9
16 17
24
26 27
25 3
Figur 48:Beslutsträd,giftigaindustrikemikalier.
Figur49: Variabel136 PC3+PC5 +PC6, linje 2135.59.
Då en djupare analys gjordes av plottarna för kemiska stridsmedel, se kapi-
tel 5.1.2, redovisas i detta kapitel endast de första plottarna över de giftiga
industrikemikalierna. Resterande plottar med kommentarer åternns i ap-
pendix.
De spridningsdiagram som redovisas här är plottar över de variabler som
nns medi beslutsträdet och därmedde variablersom delar det givnadata-
materialetpåbästa sätt.Figur49visarhuruppdelningen iden förstanoden
ser ut. Här skiljer variabel 136, bestående av PC3+PC5+PC6, ut de esta
observationer tillhörande grupp 5 från övrigt data. I denna nod skickas de
observationer vars värde på variabel 136 understiger 2135.59 till nod 2 och
de övriga till nod 3. De observationer som hamnar i nod 3 kommer endast
frångrupp 5.
Nästa nod, nod2, tittarpåvärdetpå variabel23
(
PC2+PC4)
, segur 50.Idenna nod skickas de esta observationer från grupp 1 och grupp 4 till nod
4, även ett par av de återståendeobservationerna från grupp5 hamnar här.
Gränsvärdet i dennanodär -2862.04.
I gur 51 visas hur data delas upp i nod 4. Data delas i denna nod med
avseende på variabel 93 som består av PC1+PC6+PC8. Ett värde över -
8512.62skickarobservationerna tillnod 6och övrigatill nod7.
Figur50: Variabel23 PC2+PC4, linje -2862.04.
Figur51: Variabel93 PC1+PC6 +PC8, linje-8512.62.
Beslutsträdet som tagits fram ovan valideras nu för att ta reda på om ett
likvärdigt resultat kan nås med ett mindre träd. Valideringen utförs med
korsvalidering och resulterar i beslutskriterierna i gur 52. En schematisk
bild över dessa beslutskriterier visas i gur 53. Nodernas siror motsvarar
sirorna igur 52.Kostnadsfunktionensom denna valideringgav åternns i
gur 54.
Decision tree for classication
1 if x136<2135.59then node 2else node 3
2 if x23<-2862.04then node 4else node 5
3 class =5
4 if x93<-8512.62then node 6else node 7
5 if x39<1142.97 then node 8 else node 9
6 if x53<-2636.79then node 10else node 11
7 class =1
8 if x117<-6246.16then node 12else node 13
9 if x157<0.673896then node 14 else node 15
10class =2
11class =4
12class =6
13class =2
14class =2
15if x22<-1883.19 then node 16else node 17
16class =3
17class =2
Figur52: Beslutskriterierefter korsvalidering, giftigaindustrikemikalier.
1
2
4
6
10 11
7
5
8
12 13
9
14 15
16 17
3
Figur53:Minimalt beslutsträd,giftiga industrikemikalier.
Valideringav beslutsträdetför giftigaindustrikemikalier resulterar ien rela-
tivtstor förminskning.Antalet slutnoder minskas från14 till9.
5.2.4 Prediktionförmåga/testkörning
Dådatamaterialetförde giftigaindustrikemikaliernaär betydligtmindreän
detfördekemiskastridsmedlenåterstårdetinteentillräckligtstordatamängd
för testkörning.
Figur54:Kostnadsfunktion,giftigaindustrikemikalier.
Resultaten tyder på att multivariata metoder kan vara mycket användbara
när det kommer till tolkning och klassicering av sensordata. Spridnings-
diagrammen som presenterats visar på att de olika ämnena hamnar i mer
ellermindreavgränsade klusternärmanplottar2principalkomponentermot
varandra. Detta innebär att man genom att endast titta på dessa två prin-
cipalkomponenter kangöra en grovindelningav data.Lägger man sedantill
ytterliggare några principalkomponenter kan grupperna särskiljas på ännu
bättre sätt. Tittar man på den dimensionsreducerande eekten av PCA så
sermanattdimensionenpådatagårfrån1948variablertill10principalkom-
ponenter. Detta underlättar en illustrativ tolkning av data och gör attman
lättarefår en översikt överden stora datamängden.
Attväljabeslutsträd somklassiceringsmetodvarinteheltsjälvklart.Meto-
dendökuppunderdeninledandelitteraturstudienochverkadevaraenmetod
som skulle kunna passa ändamålet. På grund av att metoden var relativt
okänd föross såhar en heldeltidlagts påinläsningav bakomliggandeteori
och implementering. Detta har medfört att en djupare analys av de olika
val man kan göra inom denna metod ej utförts. Trots att metoden endast
testats på en relativt grundläggande nivå så har resultaten varit goda. Det
nns alltså stora möjligheter att gå vidare med denna metod och hitta de
valav parametrarsom ärde bästaför detta data.
En annan sak som skulle behöva utredas är hur man går tillväga för att
bygga en modell som kan hantera okända spektrum från ämnen som inte
nns medi modellen.I de träd som tagitsframi dennarapportklassiceras
allaokändaspektrumsomnågotavdeämnensomfannsmediuppbyggnaden
avträdet.Ettspektrumavett ämnesomintennsmedibeslutsträdetkom-
mer alltså ändå attklassiceras som någotav dessa ämnen.
Till sist skulle det även vara intressant att titta på hur man väljer ut det
data som används för att bygga träden. Datamaterialsurvalet till detta ar-
betet har gjorts genom att graskt tolka alla spektra och se om det verkar
innehålla en viss koncentration av ämnet eller inte. Urvalet av data skulle
medfördelkunnagörasutifrånvilkakoncentrationeravde olikaämnenasom
faktiskt ärmöjligaattmäta.
En viktig fördel med beslutsträd är att de är relativt lätta att tolka och
förstå.
[1] Statistics Toolbox 6, Users guide. The MathWorks, 2007.
[2] TotalförsvaretsforskningsintitutFOI.http://www.faktasamlingcbrn.foi.se/).
[3] Totalförsvarets forskningsintitut FOI. KEMISKA VAPEN - hot, verkan
och skydd).
[4] Breiman Leo. Technical note: Some properties of splitting criteria. Ma-
chine Learning,24(1):4147, July 1996.
[5] Bro Rasmus. Multivariate calibration what is in chemometrics for the
analytical chemist? Analytica Chimica Acta, pages 185194,2003.
[6] Leo Breiman Jerome H. Friedman Richard A. Olshen Charles J. Stone.
Classication And Regression Trees. Chapman & Hall/CRC, 1993.
[7] Richard A. Johnson Dean W. Wichern. Applied Multivariat Statistical
Analysis. Pearson Education, 2007.
[8] L. Eriksson E. Johansson N. Kettaneh-Wold S. Wold. Introduction to
Multi- and Megavariate Data Analysis using Projection Methods (PCA
PLS). UMETRICS, 1999.