Analys av ljudspektroskopisignaler med artificiella neurala eller bayesiska nätverk

(1)

Institutionen f¨or Fysik, Kemi och Biologi

Examensarbete

Analys av ljudspektroskopisignaler med artificiella

neurala eller bayesiska n¨

atverk

Petter Hagqvist

LITH-IFM-A-EX–10/2282–SE

IFM

Link¨opings universitet 581 83 Link¨oping

(2)

(3)

Examensarbete LITH-IFM-A-EX–10/2282–SE

Analys av ljudspektroskopisignaler med artificiella

neurala eller bayesiska n¨

atverk

Petter Hagqvist

Handledare: David Brohall

Acosense AB

Anders Bj¨ork

IVL Svenska Milj¨oinstitutet AB

Examinator: Martin Holmberg

IFM

(4)

(5)

Avdelning, Institution Division, Department Till¨ampad Fysik

Department of Physics, Chemistry and Biology Link¨opings universitet, SE-581 83 Link¨oping, Sweden

Datum Date 2010-04-29 Spr˚ak Language Svenska/Swedish Engelska/English Rapporttyp Report category Licentiatavhandling Examensarbete C-uppsats D-uppsats ¨Ovrig rapport ISBN ISRN

Serietitel och serienummer Title of series, numbering

ISSN

URL f¨or elektronisk version

Titel Title

Analys av ljudspektroskopisignaler med artificiella neurala eller bayesiska n¨atverk Analysis of Acoustic Spectroscopy Signals using Artificial Neural or Bayesian Networks

F¨orfattare Author

Petter Hagqvist

Sammanfattning

Vid analys av fluider med akustisk spektroskopi finns ett behov av att finna mul-tivariata metoder för att utifr˚an akustiska spektra prediktera storheter s˚asom viskositet och densitet. Användning av artificiella neurala nätverk och bayesis-ka nätverk för detta syfte utreds genom teoretiska och praktiska undersökningar. Förbehandling och uppdelning av data samt en handfull linjära och olinjära mul-tivariata analysmetoder beskrivs och implementeras. Prediktionsfelen för de olika metoderna jämförs och PLS (Partial Least Squares) framst˚ar som den starkaste kandidaten för att prediktera de sökta storheterna.

Abstract

When analyzing fluids using acoustic spectrometry there is a need of finding mul-tivariate methods for predicting properties such as viscosity and density from ac-oustic spectra. The utilization of artificial neural networks and Bayesian networks for this purpose is analyzed through theoretical and practical investigations. Pre-processing and division of data along with a handful of linear and non-linear mul-tivariate methods of analysis are described and implemented. The errors of pre-diction for the different methods are compared and PLS (Partial Least Squares) appear to be the strongest candidate for predicting the sought-after properties.

Nyckelord Keywords

Akustisk spektroskopi, Multivariat statistisk analys, Artificiella neurala n¨atverk, Bayesiska n¨atverk, Acoustic spectroscopy, Multivariate Statistical Analysis, Arti-ficial Neural Networks, Bayesian Networks

http://urn.kb.se/resolve?urn=urn:nbn:se:liu:diva-56429 —

LITH-IFM-A-EX–10/2282–SE

(6)

(7)

”Any sufficiently advanced technology is indistinguishable

from magic.”

Arthur C. Clarke, Profiles of The Future, 1961 (Clarke’s tredje lag) Engelsk-lankesisk fysiker och science fiction-f¨orfattare (1917 - 2008)

(8)

(9)

Abstract

When analyzing fluids using acoustic spectrometry there is a need of finding mul-tivariate methods for predicting properties such as viscosity and density from ac-oustic spectra. The utilization of artificial neural networks and Bayesian networks for this purpose is analyzed through theoretical and practical investigations. Pre-processing and division of data along with a handful of linear and non-linear mul-tivariate methods of analysis are described and implemented. The errors of pre-diction for the different methods are compared and PLS (Partial Least Squares) appear to be the strongest candidate for predicting the sought-after properties.

Sammanfattning

Vid analys av fluider med akustisk spektroskopi finns ett behov av att finna mul-tivariata metoder för att utifr˚an akustiska spektra prediktera storheter s˚asom viskositet och densitet. Användning av artificiella neurala nätverk och bayesis-ka nätverk för detta syfte utreds genom teoretiska och praktiska undersökningar. Förbehandling och uppdelning av data samt en handfull linjära och olinjära mul-tivariata analysmetoder beskrivs och implementeras. Prediktionsfelen för de olika metoderna jämförs och PLS (Partial Least Squares) framst˚ar som den starkaste kandidaten för att prediktera de sökta storheterna.

(10)

(11)

Tack

Stort tack till alla som hjälpt mig p˚a olika sätt med detta arbete; mina handledare Anders Björk och David, min examinator Martin Holmberg, John Noble, mina föräldrar, Oscar Cardfelt, Felix Törner, personalen p˚a Gustaf Fagerberg AB i Göteborg, Janne Hellman och kanske främst Eva-Lena Grundén som stöttat mig med god mat, kärlek och kloka tankar.

(12)

(13)

Inneh˚

all

1 Introduktion 1 1.1 Bakgrund . . . 1 1.2 M˚al och syfte . . . 2 1.3 Typografiska konventioner . . . 2 2 Metod 5 2.1 Explorativ dataanalys . . . 5

2.2 Unders¨okning av tidigare arbete inom omr˚adet . . . 5

2.3 Studier av artificiella neurala n¨atverk och bayesiska n¨atverk . . . . 5

2.4 Utv¨ardering av intressanta metoder . . . 6

2.5 Implementation i LabVIEWTM . . . 6

3 Teori 7 3.1 Aktiv akustisk spektroskopi . . . 7

3.2 Passiv akustisk spektroskopi . . . 7

3.3 Multivariat dataanalys . . . 8

3.3.1 Multipel linj¨ar regression, MLR . . . 8

3.3.2 Principalkomponentsanalys, PCA och principalkomponents-regression, PCR . . . 9

3.3.3 Partial Least Squares eller Projection to Latent Structures, PLS . . . 10

3.3.4 Artificiella neurala n¨at, ANN . . . 11

3.3.5 Bayesiska n¨at, BN . . . 14

3.3.6 NN-PCA . . . 15

(14)

xii Inneh˚all

3.3.7 Hybridmodell . . . 15

3.3.8 Transformation av data . . . 16

3.3.9 Uppdelning av material . . . 17

3.3.10 Validering . . . 18

3.4 Insamling, behandling och strukturering av data . . . 20

3.4.1 Datainsamling och behandling . . . 20

3.4.2 Strukturering av data . . . 20

3.5 Tidigare arbete inom multivariat analys f¨or akustisk spektroskopi . 21 4 Resultat 23 4.1 Explorativ dataanalys . . . 23

4.1.1 PCA . . . 23

4.1.2 PLS . . . 25

4.2 Bayesiska n¨atverk . . . 26

4.3 J¨amf¨orelse mellan PLS och NN-PCA . . . 27

4.3.1 Optimering av PLS . . . 27

4.3.2 Optimering av neurala n¨atverk . . . 27

4.3.3 J¨amf¨orelse . . . 28

4.4 J¨amf¨orelse mellan PLS och hybrid . . . 29

4.4.1 Optimering av hybridmodellen . . . 29

4.4.2 J¨amf¨orelse . . . 30

4.5 J¨amf¨orelse mellan PLS och MLR . . . 30

4.6 J¨amf¨orelse mellan PLS och PCR . . . 30

4.7 Oversikt ¨¨ over modeller . . . 31

4.8 Implementation i LabVIEW . . . 33

4.9 Anpassning av PLS till specifik m¨atapplikation . . . 33

4.9.1 Prediktion av provtagningstider . . . 33

4.9.2 Kalibrering och optimering . . . 33

5 Diskussion 35

6 Slutsatser 39

(15)

Kapitel 1

Introduktion

1.1 Bakgrund

Inom processindustrin finns ett behov av att övervaka och kontrollera produk-tionsförlopp i realtid. Detta förenklar automatisering av processen, ökar effekti-viteten och kan ge högre kvalitet p˚a slutprodukten. Fermenterings och nedbryt-ningsreaktioner är dock sv˚ara att övervaka kontinuerligt d˚a bestämning av proces-sparametrarna i dagsläget ofta kräver s˚a kallad off-line analys. Dessa mätningar och provtagningar är invasiva och kan p˚averka produktionen exempelvis genom introduktion av bakterier. Offlinemätningar utförs ofta manuellt av en operatör och tar längre tid än in-line mätningar. När prov tas fr˚an ett flöde riskerar man ¨

aven att detta inte är representativt för hela flödet[18][3][19].

Chalmers School of Entrepreneurship (CSE), ABB och IVL Svenska Miljöinstitutet AB utvecklar en patenterad teknik för att med aktiva akustiska spektroskopi-metoder kunna utföra inlineanalys av processvätskor. Denna teknik har m˚anga fördelar jämfört med traditionellt använda metoder. Processvätskan är aldrig i kontakt med mätinstrumentet. Instrumenteringen kan fästas utanp˚a existerande rör, installationen kräver allts˚a inte att produktionen avbryts[18][19].

Tekniken kan användas för att bestämma olika variationer i mediet s˚asom visko-sitet, denvisko-sitet, koncentration av kemiska föreningar och partikelstorlekar[5]. Ef-tersom analysen kan utföras i realtid möjliggörs kontinuerlig övervakning och kon-troll. Detta förhindrar att processen utvecklas i en icke önskvärd riktning med kvalitetsförsämringar, effektivitetsförsämringar eller till och med förlust av hela produktionssatser till följd[19].

Artificiella neurala och bayesiska nätverk är matematiska verktyg som kan användas vid icke-linjär multivariat analys av data. Fördelen med dessa b˚ada konstruktio-ner är att de kan tränas till att för vissa indata producera särskilda utdata[32][4]. Ett s˚adant nätverk som tränats p˚a rätt sätt skulle kunna användas för att tolka

(16)

2 Introduktion signalen fr˚an ljudspektroskopi och vidare f¨or att erh˚alla kvantitativa data s˚asom densitet, viskositet etcetera[18].

1.2 M˚

al och syfte

M˚alet med studien är att översiktligt utreda förutsättningarna för att använda ar-tificiella neurala och bayesiska nätverk vid analys av signaler fr˚an ljudspektroskopi. Den eller de metoderna som anses lämpligast skall jämföras med konventionella multivariata metoder, exempelvis PCR, PLS och MLR.

Den metod som anses ha bäst förutsättningar skall anpassas, undersökas och im-plementeras för användning i ett mätsystem.

1.3 Typografiska konventioner

Programkod skrivs med med denna typs¨attning: exempel p˚a hur

programkod kan se ut

Tabell 1.1. Typer och typsnitt.

Beskrivning Typs¨attning Exempel

Skal¨arer Kursiva gemener och versaler n

Matriser Fet versal X

Vektorer Fet gemen y

Skattningar Circumflex accent yˆ

Medelv¨arde av vektor Streck/makron y

Transponat Upph¨ojt versalt T XT

(17)

1.3 Typografiska konventioner 3

Tabell 1.2. F¨orkortningar som anv¨ands i rapporten.

Namn Beskrivning

ANN Artificiellt Neuralt N¨atverk

BN Bayesiskt N¨atverk

FFT Fast Fourier Transform, snabb fouriertransform

MLR Multipel Linj¨ar Regression

NiHL Noder i Hidden Layer

PC Principalkomponent

PCA Principalkomponentanalys

PLS Partial Least Squares, kallas ¨aven Projection to Latent Structures

PRM Partial M-Regression

R2X Förklarad varians för X-matrisen R2Y Förklarad varians för Y-matrisen

RMSE Root Mean Square Error

RMSEC Root Mean Square Error of Calibration RMSECV Root Mean Square Error of Cross-Validation

RMSEP Root Mean Square Error of Prediction

(18)

(19)

Kapitel 2

Metod

Studien genomf¨ors i ett antal steg beskrivna nedan i kronologisk ordning:

2.1 Explorativ dataanalys

I ett första steg analyseras existerande datamaterial fr˚an akustiska spektrosko-pimätningar. Detta görs för att examensarbetaren skall kunna bekanta sig med da-tamaterialet och bilda sig en uppfattning om hur arbetet lämpligen kan fortsättas. För att utforska datamaterialet används programvaran MATLAB fr˚an MathWorks tillsammans med verktyget TOMCAT[13]. I samr˚ad med examinator och handle-dare bestäms vilka analysmetoder som skall användas under de senare delarna av studien.

2.2 Unders¨

okning av tidigare arbete inom omr˚

adet

Efter den initala analysen i det föreg˚aende steget utförs en kort litteraturstudie med syfte att kartlägga vilka metoder som tidigare använts för att tolka akustiska spektroskopisignaler.

2.3 Studier av artificiella neurala n¨

atverk och

bay-esiska n¨

atverk

I detta steg studeras artificiella neurala nätverk och bayesiska nätverk med inrikt-ning p˚a en möjlig applicering för att analysera data fr˚an akustiska spektroskopi-signaler.

(20)

6 Metod

2.4 Utv¨

ardering av intressanta metoder

När intressanta metoder isolerats utvärderas de genom att befintligt datamaterial undersöks. Resultaten fr˚an dessa undersökningar jämförs med befintliga analys-metoder.

2.5 Implementation i LabVIEW

TM

Om en framtagen metod anses vara tillfredsst¨allande skall denna implemente-ras i National InstrumentsTM_{programvara LabVIEW}TM_{. Metoden skall ¨}_{aven om}

(21)

Kapitel 3

Teori

3.1 Aktiv akustisk spektroskopi

Aktiv akustisk spektroskopi baseras p˚a interaktionen mellan akustiska v˚agor med frekvenser under ultraljudsomr˚adet, det vill säga under 20kHz och partiklar sus-penderade i en fluid. Med partiklar menas i detta sammanhang volymer av gas-, vätske- eller fastfas, företrädesvis i en annan fas än fluiden. D˚a akustiska signaler sänds in i en processfluid kommer de att utbreda sig som mekaniska v˚agor. Om v˚aglängden i fluiden är större än partiklarnas storlek och mellanrummet dem emel-lan kommer fasvinkeln förändras och en frekvensberoende absorption förekomma. Speciellt stora förändringar av v˚agorna förväntas uppträda d˚a frekvensen p˚a signa-len matchar de suspenderade partiklarnas resonansfrekvenser. Resonansfrekvensen ¨

ar beroende av partiklarnas egenskaper samt deras interaktioner med det omgi-vande mediet och med andra partiklar. Dessa resonansfrekvenser finns i nästan alla fall under 20kHz. Partiklarna i fluiden kommer själva ge upphov till akus-tiska signaler förutom de fr˚an sändaren utsända signalerna. Dessa partikelegna vibrationer emitteras fr˚an de suspenderade partiklarna bland annat p˚a grund av kollisioner som uppst˚ar p˚a grund av flödet i röret. Emitterade vibrationer oavsett uppkomst kan mätas med en vibrationssensor för att ge en resulterande signal fr˚an systemet. Tekniken beskrivs utförligt i det aktuella patentet[18].

3.2 Passiv akustisk spektroskopi

Om inget ljud skickas in i fluiden kommer endast vibrationer som uppst˚ar spon-tant i fluiden kunna uppmätas. Fluidens rörelseenergi kommer att omvandlas till mekaniska v˚agor som sedan kan uppmätas. Denna teknik benämns passiv akustisk spektroskopi[5]. I detta arbete kommer endast data fr˚an passiv akustisk spektro-skopi användas.

(22)

8 Teori

3.3 Multivariat dataanalys

För att uttolka önskad information fr˚an frekvensspektra, se avsnitt 3.4.1, används multivariat dataanalys. I varje spektrum ses frekvenskomponenterna som vari-abler. D˚a en mängd mätningar gjorts används dessa observationer för att ska-pa och kalibrera en matematisk modell för att prediktera partiklarnas eller pro-cessvätskans egenskaper. Denna modell verifieras mot ytterligare observationer och används för att göra prediktioner av sökta egenskaper. En rad tekniker finns för att skapa s˚adana modeller[21]. Här följer en kort beskrivning av grundläggande tekniker samt tekniker som använts i detta arbete.

3.3.1 Multipel linj¨

ar regression, MLR

Vid multipel linjär regression används de ursprungliga variablerna X för att skatta m˚alvariabeln y. MLR är en utökning av den monovariata linjära regressionsmo-dellen d˚a x används för att bestämma y enligt

y = kx + m (3.1)

som kanske känns igen fr˚an högstadiematematiken. I MLR utökas k och x till att täcka in fler variabler:

y =

K

X

i=1

kixi+ m (3.2)

där K är antalet variabler. Med vektornotation kan detta istället skrivas som.

y = Xb + f (3.3) d¨ar y =      y1 y2 .. . yN      , X =      1 x11 . . . x1K 1 x21 . . . x2K .. . ... . .. ... 1 xN 1 . . . xN K      , b =      b1 b2 .. . bN      och f =      f1 f2 .. . fN     

N är antalet observationer,b är en koefficientvektor och f är en vektor inneh˚allandes felen.

För att skatta b enligt minsta-kvadratmetoden används följande formel: ˆ

b = (XTX)−1XTy (3.4)

För att (XTX) skall kunna inverteras krävs antalet observationer är minst lika stort som antalet variabler. Även om s˚a är fallet uppkommer problem d˚a tv˚a eller flera variabler är kolinjära eller nära korrelerade. Om tv˚a variabler är kolinjära innebär det att den ena kan skrivas som en produkt av den andra och en skalär. I detta fall existerar inget unikt ˆb. Utifall tv˚a variabler är nära korrelerade kommer beräkningen bli numeriskt instabil och kan ge d˚aliga prediktioner[20, 5].

(23)

3.3 Multivariat dataanalys 9

3.3.2 Principalkomponentsanalys, PCA och

principalkom-ponentsregression, PCR

För att kringg˚a problemen med kolinearitet och det faktum att det är vanligt att antalet observationer understiger antalet variabler utformades principalkom-ponentsanalys, PCA. Detta är en metod för att komprimera datamaterial med m˚anga dimensioner(variabler) till ett mindre antal icke-korrelerade, ortogonala dimensioner. Detta ˚astadkoms genom att finna de linjära kombinationer av de ursprungliga variablerna som täcker in s˚a mycket som möjligt av variansen i da-tamaterialet. Detta kan tänkas som en rotation av enhetsvektorerna till att följa variationerna i datat s˚a bra som möjligt. PCA ger en överblick över multidimen-sionellt data och kan underlätta tolkning och först˚aelse av materialet. Ett vanligt förfarande, efter att ha transformerat det ursprungliga datat, är att de första prin-cipalkomponenterna plottas mot varandra för visualisering av data. En intuitiv beskrivning av PCA och projicering till principalkomponenter finns i ”Multivariate Calibration and Classification” skriven av Næs och medförfattare[20, 22]. Ytterli-gare en egenskap vid PCA är att den första principalkomponenten inneh˚aller störst varians, den andra näst mest och s˚a vidare[20].

Figur 3.1. ¨Oversikt ¨over PCA i tre dimensioner [15].

Om MLR appliceras p˚a de nya variabler som skapas vid PCA kallas detta förfarande principalkomponentsregression, PCR (ej att förväxlas av teknisk biolog med Po-lymerase Chain Reaction som används vid DNA-amplifiering, även den förkortad PCR). Regressionsekvationen skrivs:

y = Tq + f (3.5)

där T = XP, P är principalkomponenternas enhetsvektorer, q är regressionsko-efficienter och f är en felvektor. T kallas ibland för ”score”-matrisen och P för ”loading”-matrisen[5].

Eftersom m˚alet med PCA bland annat är att reducera antalet variabler används bara de A första variablerna/komponenterna till att skapa regressionsmodellen.

(24)

10 Teori Om A väljs p˚a ett bra sätt kommer PCR-metoden att ge stabilare regressionsko-efficienter och bättre prediktioner än vanlig MLR[22].

Bestämning av A för PCA görs enligt Næs med flera lämpligast genom att studera egenvärden och därigenom sluta sig till hur stor inverkan komponenten har. För att bestämma antalet komponenter vid PCR kan även ett valideringsset användas[22]. D˚a PCA/PCR är beroende av enheten p˚a variablerna kan det vara klokt att stan-dardisera data innan PCA/PCR utförs. Detta utförs genom att samtliga variabler divideras med dess standardavvikelse s˚a att alla variabler har standardavvikelse 1. Det kan ocks˚a underlätta att centrera variablerna kring deras medelvärde s˚a att de alla efter transformation har medelvärde 0 genom att subtrahera medelvärdet för samtliga variabler, kombinationen av dessa behandlingar kallas auto-skalning:

∀ i 6 K : Xautoskalad=

xi− xi

σ(xi)

(3.6) där i betecknar variabel i X-matrisen, K är antalet variabler, xi är en radvektor

och σ(xi) betecknar standardavvikelsen f¨or xi. Xautoskalad ¨ar den autoskalade

X-matrisen. Utifall att en variabel endast ger brus som signal kommer detta att viktas upp och viktiga variabler kan eventuellt viktas ned. Det är därför inte ett självklart val att skala det ursprungliga datamaterialet[22, 20, 35, 5].

3.3.3 Partial Least Squares eller Projection to Latent

Structu-res, PLS

Partial Least Squares-regression eller Projection to Latent Structures som det ocks˚a kallas[35] är en vidareutveckling av PCA/PCR. För att undvika problemet med att välja ut lämpliga komponenter används de riktningar i de observerade variablerna X som bäst förklarar variansen i m˚alvariabeln y och maximerar ko-variansen mellan y och X. Detta leder till att den första PLS-komponenten inte beskriver maximal varians s˚asom den första PCA-komponenten, utan maximal ko-varians med m˚alvariabeln. P˚a detta sätt riskerar man inte som i PCA att de första komponenterna modellerar varians som inte har med m˚alvariabeln att göra[22, 2]. M˚alvariabeln y kan vid PLS ersättas av m˚alvariablerna Y d˚a det existerar algo-ritmer för att göra PLS med mer än en m˚alvariabel, Næs och medförfattare re-kommenderar dock inte detta för prediktion[22]. Wold och medförfattare nämner att om m˚alvariablerna kan antas vara korrelerade skall de predikteras ihop, annars inte[35].

Algoritmerna för PLS är relativt avancerade och kommer inte att beskrivas ing˚aende här. För en introduktion till PLS rekommenderas referenserna [2] och [35], som ¨

aven ger en insikt i hur algoritmerna fungerar. De grundläggande sambanden inom PLS beskrivs enklast genom att först införa dessa definitioner:

T och U ¨ar ”score”-matriser som inneh˚aller information om observationerna och deras likheter och olikheter. P och Q ¨ar ”loading”-matriser som transformerar

(25)

T och U tillbaka till X respektive Y. E, F och G är residual-, det vill säga felmatriser. b betecknar relationen mellan U och T vid linjär PLS[5].

X = TPT + E (3.7)

Y = UQT + F (3.8)

U = bTT+ G (3.9)

Relationen (3.9) kan bytas ut mot icke-linj¨ara modeller. ¨Aven en yttre relation:

Y = f ( ˆY) (3.10)

kan användas för att ersätta

Y = ˆY (3.11)

med en icke-linj¨ar relation s˚asom ett artificiellt neuralt n¨at[5].

3.3.4 Artificiella neurala n¨

at, ANN

Uppbyggnad

Artificiella neurala nät (ANN) är matematiska konstruktioner inspirerade av bi-ologiska neuronala funktioner. Grundelementet är en s˚a kallad artificiell neuron (AN). Den fungerar enligt följande (se figur 3.2):

• Elementen i en vektor om N v¨arden x = (x1..xN) skickas till lika m˚anga

”input” noder.

• D¨ar multipliceras de med vikter enligt w · x d¨ar w =    w1 .. . wN   

Detta steg kan även ses som en rad multiplikationer av skalärer och en sum-mation, därav summationstecknet i skissen 3.2. Det är dessa vikter som ger varje AN dess egenskaper. Vikterna anpassas under träningen av nätverket och definierar tillsammans med nätverkets geometri ett ANN:s funktion. • Ett s˚a kallat ”bias”-värde som kan ses som en ”input” node med konstant

x = 1 adderas till den tidigare summan efter att ha multiplicerats med vikten b.

• Resultatet av föreg˚aende operation används som argument för en respons-funktion σ. En vanlig responsrespons-funktion är den sigmoida funktionen[32]:

σ(z) = 1

1 + ecz (3.12)

där c är en konstant som bestämmer geometrin hos funktionen. Den sigmoida funktionen kan ersättas med i princip vilken funktion som helst[23].

(26)

12 Teori

Stimuli in

Stimulus ut

Insignaler

Utsignal

w

Σ

1

w

2

w

N

b

Figur 3.2. Schematisk skiss ¨over biologisk respektive artificiell neuron, fritt utifr˚an ”Medical Physiology ”[9] och ”An Introduction to Adaptive Algorithms and Intelligent Machines”[32].

• Det v¨arde som erh˚alls ¨ar neuronets utsignal

D˚a flera AN kopplas samman i ett nätverk erh˚alls ett ANN. Detta nätverk kan utformas p˚a olika sätt. Nedan beskrivs ett ”layered feedforward neural network” (FFNN)[32], se figur 3.3.

IN, HN och ON betecknar ”input”,”hidden” respektive ”output”-noder där endast HN och ON är artificiella neuron, IN distribuerar endast information. Neuronen delas in i lager: ”input”- ”hidden”- och ”output”-lager där alla lager som inte tar emot information utifr˚an eller presenterar information ut˚at är ”hidden”. Ett ANN kan vara av godtycklig storlek och ett större nätverk kan vara robustare gentemot brus än ett litet. För att skapa ett stort nätverk med bättre prediktiv

(27)

IN

ON

HN

Figur 3.3. ”Layered feedforward neural network”, FFNN.

förm˚aga och bättre hantering av brus krävs dock fler observationer och som vid alla multivariata metoder till˚ater ett större dataunderlag mer avancerade modeller. Det är dock viktigt att inte skapa ett nätverk med fler parametrar än vad som kan bestämmas utifr˚an tillgängliga observationer[32, 11].

L¨arande

Den stora fördelen med ANN är att de kan tränas till att ge en önskad utsignal för en viss insignal även om det modellerade systemet är icke-linjärt. I jämförelse med andra icke-linjära tekniker blir modellerna mindre komplexa[23] och kan kännas ganska intuitiva för en person insatt i nervsystemets funktion. Bestämning av

(28)

14 Teori topologin (nätverkets utseende) och validering av den skapade modellen är mycket viktiga när ANN används för att undvika överanpassning till data[11, 23]. Det finns m˚anga algoritmer för träning av artificiella neurala nätverk, nedan beskrivs ett par som är relevanta för arbetet[14].

”Back-propagation”-algoritmen

Den mest kända algoritmen för att träna ett FFNN är ”back-propagation” tek-niken. Den fungerar genom att nätverkets utdata efter varje beräkning utifr˚an indata jämförs med referensvärden. Skillnaden mellan beräknade m˚alvariabler och referensvärden propageras bak˚at, ett lager i taget, för att anpassa vikterna till att minska detta fel. Denna process görs om för alla observationer som används för att träna nätverket (se avsnittet ”Validering”, sidan 18). En s˚adan anpass-ning av vikter kallas för en epok eller träningscykel. Anpassningen fortsätter tills regressionskoefficienterna (vikterna) konvergerar, Næs och medförfattare[23] nämner att minst 10000 epoker krävs för att träna ett typiskt ANN. Algoritmen för ”back-propagation” finns väl beskriven i Wahdes ”An Introduction to Adaptive Algorithms and Intelligent Machines”[33]. Viktiga aspekter p˚a konstruktion och validering av artificiella neurala nätverk diskuteras i en översiktsartikel skriven av Despagne och Massart[11].

Levenberg-Marquardts metod

I detta arbete används den implementation av Levenberg-Marquardts metod som finns i ”Neural Networks Toolbox” för MATLAB. Denna metod är avsedd att användas för sm˚a nätverk (minnes˚atg˚angen är beroende p˚a kvadraten av antalet artificiella neuron) med endast en utvariabel. Algoritmen är dokumenterat snabb och använder sig av en linjär approximation av den underliggande funktionen för att finna minimum för kvadratsumman av felen som d˚a kan beräknas i ett en-da steg. Approximationen är endast god nära minima och kan leda till högre fel. För att balansera detta används en kompromiss mellan denna metod och riktningen med den brantaste lutningen. En riktning och en steglängd bestäms och värdet i den nya punkten utvärderas. En förbättring leder till att den nya punkten används för nästa iteration. Vid försämring förkastas den nya punk-ten. Algoritmen använder sig av förbättringen eller försämringen i tidigare steg för att bestämma den nya steglängden, en d˚alig utveckling leder till en kortare steglängd. Kombinationen av dessa metoder gör att iterationen kan konvergera mycket snabbt[14]

3.3.5 Bayesiska n¨

at, BN

Ett bayesiskt nätverk (BN) är en grafisk representation av kunskapen kring ett system. Det best˚ar av noder som representerar var sin variabel och pilar som representerar kausala samband dem emellan. Ett BN kan tränas p˚a ett liknande

(29)

sätt som ett ANN med skillnaden att nätverkets topologi inte är givet fr˚an början. Detta m˚aste ocks˚a utrönas fr˚an träningsdata eller tidigare kunskap. Bayesiska nätverk ger typiskt information om sannolikheter inom systemet och tack vare sina direkta kausala samband kan den simultana sannolikhetsfördelningen karak-teriseras med färre parametrar än med en modell där sambanden inte är riktade (dessa konstruktioner kallas Markovnätverk). ANN kan ses som specialfall av bayesiska nätverk[8, 4].

P˚a grund av detta arbetes avgränsningar kommer inte Bayesiska nätverk behandlas i detalj. För en bra introduktion till ämnet rekommenderas Charniaks ”Bayesian Networks without Tears”[8] eller Ben-Gals ”Bayesian Networks”[4].

Under en intervju med Dr. John Noble, universitslektor p˚a Linköpings Universitet och medförfattare till boken ”Bayesian Networks: An Introduction”[26], framkom att bayesiska nät inte är väl lämpade för den aktuella applikationen. Den existe-rande kunskapen om samband mellan olika variabler i systemet är mycket liten och därigenom finns inte mycket att vinna genom att implementera bayesiska nätverk för prediktion. Det skulle vara möjligt att tillämpa bayesiska nät p˚a systemet men vinsten skulle vara mycket begränsad d˚a de kausala sambanden mellan variablerna skulle vara mycket sv˚ara att bestämma[27].

3.3.6 NN-PCA

För att projicera ner det stora antalet variabler som är aktuellt vid akustisk spektroskopi[5] kan ett antal av de mest betydande PCA-komponenterna användas för att träna ett artificiellt neuralt nätverk[11]. Detta minskar antalet noder i ”input-layer” och därigenom antalet parametrar som m˚aste bestämmas. Denna metod benämns i detta arbete NN-PCA. Även PLS-komponenter kan användas p˚a liknande sätt men d˚a dessa är framtagna för att maximera endast den linjärt korrelerade informationen kan relevant icke-linjär information förkastas. Denna metod rekommenderas inte av Despagne och Massart[11] och kommer därför inte att undersökas.

3.3.7 Hybridmodell

Anders Björk föreslog i samtal med författaren användningen av en hybridmodell som baseras p˚a b˚ade PLS och ANN, detta med förhoppningen att kunna kombinera robustheten hos PLS med icke-lineariteten hos ANN. Modellen utformas genom att en PLS-modell anpassas till datat. Residualen för X-matrisen E transformeras med PCA och ”scores” för ett antal av de mest betydande komponenterna används för att tillsammans med ”scores” fr˚an PLS-modellen träna ett ANN.

Y = AN N ([TP LSTP CA]) + Rhybrid (3.13)

där TP LS betecknar scores för PLS:en, TP CA betecknar scores för PCA:n och

(30)

16 Teori

Figur 3.4. Hybridmodell, schematisk skiss.

3.3.8 Transformation av data

Vid PCA och PLS rekommenderar Despagne och Massart autoskalning av vari-abler, se ekvation 3.6[11]. Vid användning av ANN är detta inte nödvändigt, förutom vid eventuella komprimeringssteg. Däremot rekommenderas skalning av variablerna till den valda responsfunktionens omf˚ang för att undvika att ”mätta” denna. Om linjära överföringsfunktioner används vid ”output”-lagret är det inte nödvändigt att skala y[11]. Skalningen utförs enligt:

m = (x − xmin) (xmax− xmin)

(rmax− rmin) + rmin (3.14)

där m är en av k skalade variabler skapade fr˚an den motsvarande ursprungliga variabelvektorn x. rmin och rmax betecknar ändpunkterna i responsfunktionens

omf˚ang. F¨or en sigmoid eller hypertangent funktion rekommenderas rmin = −1

och rmax= 1 av Despagne och Massart f¨or skalning av indata[11].

När mätsystemet skall implementeras kommer endast ett spektrum ˚at g˚angen att predikteras. För att kunna autoskala dessa spektra en och en används samma para-metrar för autoskalning som för kalibreringssetet. Alternativet är att kontinuerligt bilda medelvärden och räkna ut standardavvikelser efterhand som prediktionerna görs. Vilken av dessa metoder som är bäst lämpad har inte kunnat avgöras uti-fr˚an det existerande datamaterialet. Det är tänkbart att den senare metoden kan

(31)

kompensera för drift i systemet men den kan ocks˚a dölja en dylik förändring som kräver ˚atgärd.

3.3.9 Uppdelning av material

Om tillräckligt datamaterial finns tillgängligt är det tillr˚adligt att använda sig av extern validering, i motsats till korsvalidering, se avsnittet 3.3.10. Det ursprungli-ga datat delas d˚a upp i kalibrerings- och valideringsdata[5]. Detta kan utföras med slumpmässig fördelning, blockvis fördelning eller med en algoritm s˚asom Kennard-Stones metod eller duplexmetoden. Beroendet mellan dataseten vid användning av matematiska algoritmer är n˚agot som bör tas i ˚atanke vid användning av de b˚ada senare. De ger dock fördelen av att extrapolering i prediktionsdelen kan undvikas d˚a dessa f˚angar upp en stor del av variansen i det ursprungliga datat. Kalibreringsdatat används för att anpassa den valda modellen och valideringsda-tat används för att utvärdera modellen exempelvis genom att räkna ut RMSEP (se ekvation 3.17). Eftersom de b˚ada seten bör vara oberoende av varandra är det inte lämpligt att använda sig av blockindelning enligt Despagne och Massart[11]. I detta fall kan det dock finnas en mening i och med att man simulerar det verk-liga fallet d˚a de predikterade punkterna alla kommer efter kalibreringspunkterna tidsmässigt[11].

Om ANN används s˚a bör datamaterialet delas in i tre delar, förutom kalibrerings-och valideringsset bör även ett övervakningsset skapas. Detta används vid träning av nätverket för att undvika överanpassning. Felet för prediktionen av ¨ overvak-ningssetet används för att avbryta träningen av ett ANN. Despagne och Massart föresl˚ar ett idealfall där kalibreringssetet inneh˚aller Nk punkter. Validerings och

¨

overvakningsseten skall d˚a inneh˚alla mellan Nk

2 och Nkpunkter vardera. ¨ Overvak-ningssetet kan ses som en del av kalibreringssetet d˚a det anv¨ands f¨or att anpassa modellen[11].

Uppdelning av datamaterial som använts i detta arbete illustreras av figur 3.5. Valideringssetet kommer att användas för att optimera parametrarna för de olika metoderna. Anledningen till detta är att jämförelsen mellan metoderna är central. Det som undersöks är vilken metod som med kända ”optimala” parametrar kan ge den bästa prediktionen. Om ett set med data skulle användas till att optimera parametrarna skulle antalet observationer som kan användas till kalibreringssetet bli ännu färre och resultaten osäkrare.

Kennard-Stones algoritm

Denna metod för att selektera ett kalibreringsset utifr˚an ett antal datapunkter baseras p˚a att för varje punkt välja den som maximerar det euklidiska avst˚andet till den senast valda. Detta ger ett kalibreringset som inneh˚aller maximal varians ifr˚an datamaterialet[11].

(32)

18 Teori

Figur 3.5. Uppdelning av material. Till vänster: uppelning för NN-PCA och hybrid. Till höger: för alla andra modeller. Vitt avser kalibreringsset, ljusgr˚att valideringsset och mörkgr˚att övervakningssetet.

Duplexmetoden

Duplexmetoden bygger p˚a Kennard-Stones algoritm med en korrigering för att det data som finns tillhands inte alltid svarar mot det som skall predikteras. D˚a ex-trapolering är sv˚art att undvika i verkligheten fördelar duplexmetoden de punkter som tas fram med Kennard-Stones algoritm till de olika seten p˚a ett alternerande sätt. Detta ger valideringsdata som även testar metodens extrapolationsförm˚aga. Skillnaden mot randomiserad uppdelning blir att en möjlig skev fördelning med större varians i valideringssetet undviks[11]. I detta arbete används duplexmeto-den för uppdelning av dataseten. Detta val görs för att minska beroendet mellan seten som finns vid blockindelning samt att blockindelning inte är ett rekommen-derat förfarande[11].

3.3.10 Validering

Validering ¨ar en mycket viktig del av den multivariata dataanalysen. I och med valideringen utv¨arderas den konstruerade modellen med avseende p˚a antal kom-ponenter A, transformationer av data, kalibreringsmetod etcetera[24].

Korsvalidering

Korsvalidering är ett sätt att uppskatta modellens prediktionsförm˚aga genom att stegvis eliminiera k värden fr˚an det ursprungliga datat, bygga en modell för det ˚aterst˚aende datat och validera med de k punkter som eliminerades. Detta upprepas tills alla punkter n˚agon g˚ang varit eliminerade. Denna metod rekommenderas inte vid prediktion med ANN d˚a eliminering av en datapunkt kan innebära stora förändringar i modellens beteende enligt Despagne och Massart[11].

(33)

M˚att p˚a modellerings och predikteringsf¨orm˚aga

Ett vanligt m˚att p˚a hur pass bra modellen predikterat calibreringsdatat ¨ar ”Root Mean Square Error”, RMSE

RM SE =pM SE(ˆy) =pE(ˆy − y)2 _(3.15)

där E() betecknar väntevärdet för ett uttryck, ˆy är de predikterade och y är de observerade värdena p˚a m˚alvariabeln[24]. Ett empiriskt värde p˚a RMSE kan erh˚allas med ”Root Mean Square Error of Calibration”, RMSEC som beräknas enligt: RM SEC = s X( ˆy_k− y_k)2 Nk− 1 (3.16) där Nkär antalet predikterade punkter i kalibreringssetet och ˆykoch ykbetecknar

predikterade och observerade v¨arden i kalibreringssetet. RMSEC rekommenderas inte av Naes med flera i ”Multivariate Calibration and Classification” d˚a detta fel endast s¨ager n˚agot om modelleringsfelet och inte om prediktionsfel[25].

Ist¨allet advokeras uppdelning av materialet(se 3.3.9) och anv¨andning av ”Root Mean Square Error of Prediction”, RMSEP[25]:

RM SEP = s

X(ˆy_v− y_v)2 Nv

(3.17)

d¨ar ˆyv och yv betecknar predikterade och observarade v¨arden i valideringssetet.

Nv ¨ar antalet observationer i valideringssetet.

Vid korsvalidering används ”Root Mean Square Error of Cross Validation”, RM-SECV: RM SECV = v u u t N X i=1 (ˆyCV i− yi)2 N , här visas RMSECV för k = 1 (3.18) där i betecknar den utelämnade observationen och ˆyCV iär prediktionen av yi fr˚an

modellen baserad p˚a de kvarvarande punkterna[25].

Detektion av ”outliers” bland predikterade punkter

Vid kontinuerlig prediktion av data kan det vara ¨onskv¨art att finna punkter som ¨

ar mycket olika de som användes för att kalibrera modellen. Detta för att att inte dessa punkter skall tolkas som lika p˚alitliga som alla andra. I detta arbete används storheten Hotellings T2_f¨_{or att finna s˚}_{adana punkter. Denna storhet visar}

hur l˚angt bort fr˚an punktmolnets centrum en viss punkt är. Det finns även andra metoder för att identifiera outliers. T2 _{valdes d˚}_{a den ¨}_{ar v¨}_{aldokumenterad och}

(34)

20 Teori

T2= n(x − µ)TS−1(x − µ) (3.19)

Ovan uttrycks Hotellings T2 _f¨_{or kolumnvektorn/observationen x i medelv¨}_arden

för de olika variablerna µ, antalet observationer n och kovariansmatrisen S[30]. En funktion som indikerade vilka punkter som med visst konfidens var ”outliers” skapades i LabVIEW för användning vid realtidsprediktion.

3.4 Insamling, behandling och strukturering av

data

3.4.1 Datainsamling och behandling

För att samla in signaler används ett program skrivet av Oscar Cardfeldt i Lab-VIEW. Den insamlade signalen överförs till frekvensdomän genom fouriertrans-formering (FFT) och medelvärdesbildas över 100 mätpunkter innan det bildade medelvärdesspektrumet sparas i ASCII-filer[7]. Dessa filer läses in och strukture-ras upp av skript skrivna i MATLAB. Datat spastrukture-ras i binär form som ”.mat”-filer. För att underlätta ˚atkomst till datat har ytterligare skript skrivits som p˚a ett en-kelt sätt läser in det önskade datasetet och returnerar det i en strukturerad form (se ”setDATA.m” i appendix A).

D˚a ett referensprov tas trycker en operatör p˚a en strömbrytare som leder till att den aktuella tidpunkten skrivs till en fil. Dessa filer används senare för att hämta spektrumet innan den aktuella tidpunkten. Provtagningen i sig antas p˚averka flödet i röret s˚a pass mycket att spektra inhämtade kort efter provtagning inte kan anses vara representativa för fluiden i röret. Operatörerna skriver in de uppmätta referensvärdena i en kalkylbladsfil med tiden angiven för analysen. Dessa filer läses in till MATLAB och paras ihop med det spektrum som sparats närmast innan provtagningstillfället. Dessa spektra med tillhörande referensvärden används för att skapa modellen.

3.4.2 Strukturering av data

Autoskalning och uppdelning i kalibrerings-, prediktions- och eventuella ¨ overvak-ningsset är relativt beräkningsintensiva operationer. Därför används binära flaggor för att indikera om dessa operationer utförts eller inte. P˚a s˚a sätt behöver inte samma beräkningar utföras flera g˚anger. Rutinerna för autoskalning och uppdel-ning kontrollerar om operationerna redan utförts och returnerar i s˚a fall det redan processade datat.

Den datastruktur som används i MATLAB beskrivs utförligare i appendix A: ”initializeDATA.m”. Översiktligt kan dock sägas att datamaterialet samt flaggor som indikerar autoskalning och liknande lagras tillsammans med allmänna samt metodspecifika parametrar i en hierarisk datastruktur.

(35)

3.5 Tidigare arbete inom multivariat analys f¨or akustisk spektroskopi 21

3.5 Tidigare arbete inom multivariat analys f¨

or

akustisk spektroskopi

Inom multivariat analys eller kemometri som det ocks˚a kallas[5] med inriktning mot akustisk spektroskopi och akustiska mätningar är PLS och varianter av PLS de vanligast förekommande metoderna när ett urval av publicerade artiklar g˚as igenom[17, 16, 5, 28, 31]. Även olika former av wavelettransformer har applicerats p˚a akustisk data och kombineras med PLS eller PCR[12, 5]. Forskningen som be-drivs parallellt rörande NIR-spektroskopi använder liknande analysmodeller och det är rimligt att kunskap spiller över fr˚an detta fält. Detta var fallet med ”Ortho-gonal Signal Correction” som ursprungligentogs fram av Wold och medförfattare för NIR[34] och senare applicerades p˚a akustiska mätningar av Björk[5].

Neurala nätverk har använts ihop med akustiska emissioner för att bestämma vilket träslag som användes vid en flisraffinör[36] och det indikeras i patentet som beskriver aktiv akustisk spektroskopi att neurala nät har kan vara en lämplig metod att använda:

”In real cases the situations are far more complicated and multivariate statistical analysis or neural networks are for instance used to evaluate the measured acoustic spectra.”[18]

(36)

(37)

Kapitel 4

Resultat

4.1 Explorativ dataanalys

Data fr˚an en processindustri användes för den explorativa dataanalysen. Ett sex-tiotal referensvärden fanns för temperatur, densitet, viskositet och flöde, värden som uppmätts manuellt genom off-line mätning. Vidare fanns även automatiska referensmätningar av temperatur var 30:e sekund under en längre period. Da-tamaterialet behandlades med datorprogrammet MATLAB fr˚an MathWorks till-sammans med verktyget TOMCAT[13]. Detta resulterade i en rad PCA- och PLS-undersökningar varav ett urval presenteras här.

4.1.1 PCA

I en principalkomponentsanalys som baseras p˚a FFT:er fr˚an 17278 mätpunkter in-samlade under sex dagar kan grupperingar ses i rummet som spänns upp av första, andra och tredje principalkomponenten (se figur 4.1). De grupperingar som ligger längst fr˚an centrum best˚ar nästan enbart av data fr˚an en viss dag. Detta tyder p˚a att signalen ändras mycket över tiden och att olika produktionsförfaranden och därigenom spektralsignaturer är aktuella olika dagar. Ingen referensdata fanns att tillg˚a för de aktuella dagarna. Vidare slutsatser kan inte dras utifr˚an PCA-plottarna.

Genom att titta p˚a förklaringsgraderna i figur 4.2 är det möjligt att se hur stor del av variansen som förklaras i de olika principalkomponenterna. I detta exempel krävs det 17 komponenter för att förklara 95% av variansen men bara 3 stycken för att förklara 80%. Som jämförelse kan nämnas att antalet principalkomponen-ter som senare användes vid PCR var 33 stycken och den förklarade variansen var 100% baserat p˚a ett mindre dataset än vad som användes vid den explora-tiva dataanalysen. En enklare undersökning av eventuellt tidsberoende utfördes genom att de olika principalkomponenterna plottades mot tiden (figur 4.3) och

(38)

24 Resultat

Figur 4.1. PCA f¨or data fr˚an ett antal dagar.

genom linj¨arregression. Ingen av dessa metoder visade p˚a n˚agot tidsberoende hos komponenterna.

(39)

4.1 Explorativ dataanalys 25

Figur 4.2. Ackumulerad f¨orklaringsgrad i principalkomponentsanalysen visualiserad i figuren 4.1. Notera den logaritmiska skalan f¨or antalet komponenter.

Figur 4.3. Plot av de fem f¨orsta principalkomponenternas v¨arden mot tiden.

4.1.2 PLS

I figuren 4.4 kan värden p˚a RMSEC, här kallat RMS, RMSECV samt RMSEP ses. Utifr˚an dessa figurer är det möjligt att se att PLS kan modellera alla önskade parametrar om än med varierande precision. För samtliga PLS-modeller användes

(40)

26 Resultat

Figur 4.4. Predikterade och observerade v¨arden. Vita rutor avser valideringsdata och svarta ”diamanter” ¨ar kalibreringsdata.

˚atta latenta variabler, korsvalidering med k=1 och autoskalad in- och utdata. I plotten för flöde ses att endast ett f˚atal punkter har använts för att modellera höga värden, dessa punkter kan vara outliers eller s˚a kan det helt enkelt vara s˚a att höga flöden inte är s˚a vanliga. Med ett större dataunderlag och riktlinjer gällande storleken p˚a de flöden som skall modelleras skulle beslut kunna tas huruvida dessa punkter kan betraktas som outliers eller modelleras för sig. Eftersom endast en explorativ analys utfördes gjordes inga antaganden om detta i det aktuella fallet.

4.2 Bayesiska n¨

atverk

Efter vad som framkommit utifr˚an artiklar[8, 4] och intervju[26] kommer inte bay-esiska nätverk implementeras för prediktion. Se teoriavsnittet 3.3.5 för utförligare förklaring.

(41)

4.3 J¨amf¨orelse mellan PLS och NN-PCA 27

4.3 J¨

amf¨

orelse mellan PLS och NN-PCA

För att i enlighet med arbetets m˚al kunna utvärdera artificiella neurala nätverks förm˚aga att analysera signalerna fr˚an aktiv ljudspektroskopi utfördes en jämförelse mellan s˚adana och PLS som tidigare använts för detta syfte[5].

All data autoskalas innan den används för modellering. Vid b˚ade PLS och NN-PCA används 40% av observationerna till validering. För nätverken används 20% av observationerna även till att övervaka träningen av nätverket. En del av data-materialet kommer fr˚an samma processindustri som den explorativa dataanalysen men även data fr˚an en undersökning av partikelstorlekar används.

4.3.1 Optimering av PLS

För att bestämma lämpligt antal latenta variabler s˚a att prediktionsfelet mini-meras beräknas RMSEP (baserat p˚a valideringssetet) för alla antal latenta vari-abler mellan 1 och 50. Det antal varivari-abler som ger lägst fel används senare vid jämförelser med andra metoder. P˚a grund av arbetets omfattning m˚aste anta-gandet att l˚agt RMSEP indikerar en bra modell göras. Att utforma modeller är till stor del ett hantverk men d˚a det var tvunget att automatisera arbetet kunde utformning och anpassning inte utföras för hand.

4.3.2 Optimering av neurala n¨

atverk

För att finna optimala topografier hos nätverk användes en simpel iterativ process där prediktionsfelet minimerades. Enligt Despagne och Massart behöver endast ett dolt lager användas d˚a detta är tillräckligt för att ˚astadkomma universal approx-imation och fler lager inte innebär ett förbättrat resultat[11]. Detta underlättar bestämningen av topografin betydligt d˚a endast antalet noder i det dolda lagret och antalet principalkomponenter m˚aste bestämmas. Dessa parametrar bestämdes enligt följande algoritm där en kvadrat används för att söka av det diskreta rum-met:

1. Sätt antalet principalkomponenter till ett initialt värde 2. Sätt antalet noder i dolda lagret till ett initialt värde

3. Felen i en tänkt kvadrat med centrum i den initiala koordinaten räknas ut. RMSEP för startpunkten, de omkringliggande 8 punkterna och för de 16 punkter som omger dessa 8 beräknas. RMSEP räknas ut som ett medelvärde för 10 observationer.

4. Identifiera punkten med minsta RMSEP.

5. Om denna punkt har lägre RMSEP än startpunkten, sätt den till ny start-punkt och upprepa steg 3-5.

(42)

28 Resultat

Figur 4.5. Predikteringsfel f¨or ANN beroende av parametrar. Exempel fr˚an prediktion av viskositet.

4.3.3 J¨

amf¨

orelse

D˚a en topografi bestämts utförs ett större antal anpassningar av nät med denna topografi. Prediktionsfelen sparas och presenteras i histogram tillsammans med prediktionsfelet för en PLS-modell för samma data. Antalet latenta variabler i PLS-modellen bestäms iterativt för att finna det antal som ger ett minimerat prediktionsfel. I följande histogram presenteras resultatet fr˚an tv˚a jämförelser baserade p˚a samma datamaterial som den explorativa dataanalysen, i ena fallet används viskositet som m˚alvariabel och det andra den automatiskt genererade temperaturinformationen. Det bör belysas att detta inte är mätningar där ljud sänds in i mediet utan passiva mätningar där endast ljud som uppkommer fr˚an mediet självt uppmätts.

Samtliga jämförelser baserade p˚a data fr˚an processindustrin uppvisar liknande ut-seende. Prediktionsfelet för PLS är lägre än ett uppskattat väntevärde för histo-grammet. D˚a PLS-modellen visar sig vara bättre lämpad för prediktion än ANN används den som referens för jämförelse med andra metoder. Endast vid ett tillfälle fanns att ett medelvärde av RMSEP fr˚an 100 anpassade ANN var lägre än RMSEP för PLS. Vid detta fall var antalet observationer mycket stort, över 5000 stycken observationer av partikelstorlekar användes.

D˚a mätsystemet ämnar ersätta manuell provtagning uppst˚ar ett problem. De ma-nuella provtagningarna är dyra och tidskrävande och m˚aste därför minimeras men

(43)

4.4 J¨amf¨orelse mellan PLS och hybrid 29

Figur 4.6. Predikteringsfel för ANN, tv˚a olika dataset, röd streckad linje avser RMSEP för PLS.

de m˚aste ocks˚a vara tillräckligt m˚anga för att ge god säkerhet vid kalibrering-en. Här m˚aste en avvägning göras mellan kostnad för provtagningar och predik-tionsförm˚aga. D˚a antalet tillgängliga kalibreringspunkter inte kommer att uppg˚a till tusental kommer troligtvis inte artificiella neurala nätverk överträffa PLS-modellers prediktionsförm˚aga vid liknande mätapplikationer med passiv akustisk spektroskopi.

4.4 J¨

amf¨

orelse mellan PLS och hybrid

En jämförelse liknande den mellan PLS och ANN utförs mellan PLS och hybrid-modellen.

4.4.1 Optimering av hybridmodellen

D˚a hybridmodellen skall användas krävs tre parametrar: antalet latenta variab-ler för PLS-delen, antalet principalkomponenter för PCA och antalet noder i HL för nätverket. Detta medför ytterligare en dimension till optimeringsproblemet jämfört med att optimera för NN-PCA. Algoritmen anpassades för detta fall med en kub istället för en kvadrat:

1. Sätt antalet latenta variabler till ett initialt värde 2. Sätt antalet principalkomponenter till ett initialt värde 3. Sätt antalet noder i dolda lagret till ett initialt värde

4. RMSEP för startpunkten, de omkringliggande 26 punkterna och för de 98 punkter som omger dessa 26 beräknas. RMSEP räknas ut som ett me-delvärde för 10 observationer.

(44)

30 Resultat 5. Identifiera punkten med minsta RMSEP.

6. Om denna punkt har lägre RMSEP än startpunkten, sätt den till ny start-punkt och upprepa steg 4-6.

7. Om startpunkten har l¨agst RMSEP s˚a ¨ar parametrarna optimerade.

4.4.2 J¨

amf¨

orelse

Figur 4.7. Predikteringsfel för hybrid, röd streckad linje avser RMSEP för PLS.

Denna jämförelse utfördes med samma datamaterial som jämförelsen med ANN. I stort visar hybriden samma egenskaper som nätverken d˚a den mestadels är sämre ¨

an PLS och ger olika stora fel fr˚an fall till fall. Värt att nämna är att i det enda fall d˚a ANN gav lägre prediktionsfel än PLS gav hybriden ett ännu lägre medelfel.

4.5 J¨

amf¨

orelse mellan PLS och MLR

Det stora problemet vid skapandet av en MLR-modell är att det krävs ett mycket stort antal observationer för att deras antal skall överstiga antalet variabler som är minst 2048. Att de dessutom kan antas vara nära korrelerade[5] (se ”MLR”, sidan 8) kräver ett ännu större antal observationer. För att erh˚alla tillräckligt mycket data användes automatiskt insamlad temperaturdata som m˚alvariabel. D˚a en jämförelse gjordes mellan MLR och PLS fanns att RMSEP för metoderna var 1,04 respektive 0,49. Detta i kombination med kravet p˚a antalet observationer gör att multipel linjär regression passar d˚aligt för ändam˚alet.

4.6 J¨

amf¨

orelse mellan PLS och PCR

D˚a principalkomponentregression jämfördes med PLS användes samma data som vid jämförelsen med ANN. En optimeringsalgoritm liknande den för PLS framtogs

(45)

4.7 Översikt över modeller 31 där antalet principalkomponenter användes som oberoende variabel. D˚a b˚ada me-toderna optimerats med avseende p˚a det föreliggande materialet bestämdes RM-SEP för PCR till 0,51 och 0,56 för PLS. För PCR användes 33 principalkomponen-ter vars sammanlagda förklarande varians var 100%. För PLS användes 8 latenta variabler med 90% respektive 88% förklarad varians för X- och Y-matrisen. D˚a all varians, vilken även innefattar brus, används för PCR-modellen är risken stor att modellen endast kan prediktera under kalibreringstiden. Modellen blir inte stabil över tid och en modell med lägre förklarad varians är att föredra[1].

4.7 Oversikt ¨

¨

over modeller

I tabellen 4.7 presenteras en ¨oversikt ¨over de framtagna modeller som beskrivs i tidigare avsnitt.

(46)

32

Resultat

FIXME!!!

Tabell 4.1. Översikt över framtagna modeller. Asterisk indikerar ett medelvärde av RMSEP fr˚an 100 st anpassningar.

Typ LV PC NiHL RMSEP R2X (%) R2Y (%) Antal referenspunkter Datamaterial M˚alvariabel

PLS 8 - - 0,56 88,7 94,6 66 Processindustri Viskositet

NN-PCA - 4 1 0,81* - 56,8 66 Processindustri Viskositet

Hybrid 4 4 1 0,88* - 46,9 66 Processindustri Viskositet

PCR - 33 - 0,51 99,5 73,3 66 Processindustri Viskositet

PLS 27 - - 0,49 62,5 26,0 4197 Processindustri Temperatur

MLR - - - 1,04 - 97,3 4197 Processindustri Temperatur

PLS 18 - - 0,62 49,0 78,4 841 Processindustri Temperatur

NN-PCA - 20 1 0,91* - 17,7 841 Processindustri Temperatur

(47)

4.8 Implementation i LabVIEW 33

4.8 Implementation i LabVIEW

Utifr˚an de Jongs algoritm för PLS, ”SIMPLS”[10] och den implementation av denna som finns i TOMCAT[13] skrevs algoritmen om för National Instruments programvara LabVIEW. Identiska dataset användes i TOMCAT och LabVIEW för att verifiera att samma resultat erhölls fr˚an de b˚ada implementationerna.

4.9 Anpassning av PLS till specifik m¨

atapplikation

4.9.1 Prediktion av provtagningstider

D˚a det framkom att det vid vissa provtagningar inte registrerats n˚agon tidpunkt med strömbrytaren utformades en PLS-modell som tränades med alla tillgängliga spektra. Som m˚alvariabel användes nollor och ettor där en etta betecknar en prov-tagning. Denna modell användes för att prediktera tidpunkter för provtagningar. Spektra fr˚an 90 minuter innan fram till de angivna tiderna i kalkylbladsfilerna pre-dikterades för att finna tiden d˚a provet faktiskt tagits fr˚an röret. Denna modell gav i vissa fall klara och tydliga toppar omkring med en amplitud p˚a 0,2 samt en bredd p˚a en observation. I andra fall syntes inga klara toppar. D˚a metoden kräver manuell inspektion av topparna för att undvika felaktiga resultat användes inte modellen för att f˚a fram ytterligare kalibreringsdata.

4.9.2 Kalibrering och optimering

D˚a mätapparaturen förändrades efter att datat som användes för studien insamlats kan inte de framtagna resultaten användas för att kalibrera eller optimera n˚agon modell. Däremot kan rutinerna ˚ateranvändas d˚a nytt data finns tillgängligt. Tro-ligtvis kommer uppställningen p˚a processindustrin användas till aktiva akustiska mätningar och d˚a kommer ytterligare undersökningar krävas för att bestämma prediktionsmodellernas utformning.

(48)

(49)

Kapitel 5

Diskussion

P˚a grund av oförutsedda omständigheter kunde inte aktiv akustisk spektrosko-pi utvärderas inom detta examensarbete. Datamaterial fanns inte tillgängligt i tillräckligt stor utsträckning i god tid. Tillg˚angen till datamaterial har visat sig vara en mycket viktig faktor för bestämma vilka metoder som kan användas. De mätningar som referensmaterialet baseras p˚a är dyra och är begränsande för hur komplexa modeller som är lämpliga.

Ett artificiellt neuralt nätverk kan teoretiskt prediktera de sökta storheterna bättre ¨

an PLS d˚a det även tar hänsyn till icke-linjära samband. Det krävs dock ett myc-ket större datamaterial för att träna ett nätverk med tillräcklig storlek d˚a det tenderar att modellera brus om inte det förh˚allandevis stora antalet vikter och lo-adingmatrisen kan kalibreras tillräckligt. Om stora mängder kalibreringsdata finns tillgängligt skulle neurala nätverk kunna användas men om data är lättillgängligt ¨

ar troligtvis nyttan med akustisk spektroskopi liten.

Resultatet fr˚an detta arbete kan endast appliceras p˚a de mätningar med passiv akustisk spektroskopi som undersökts. De kan vara vägledande d˚a de aktuella metoderna skall utvärderas inför användandet av akustisk spektroskopi i liknan-de situationer med avseenliknan-de p˚a mätsystemets utformning, mätapplikation och tillg˚ang p˚a referensdata.

Det är möjligt att aktiv akustisk spektroskopi skulle kunna introducera fler icke-linjära samband mellan akustiska signaler och sökta storheter som ett artificiellt neuralt nätverk skulle kunna prediktera bättre än linjär PLS. Vid aktiva mätningar kommer ytterligare ing˚aende variabler introduceras i form av det ing˚aende ljudet. Om detta ljud h˚alls konstant kommer dessa variabler att elimineras och antalet variabler vara lika stort som vid passiva mätningar. Problemet med antalet ka-libreringspunkter kvarst˚ar dock, eftersom komplexiteten hos systemet ökar med introduktionen av akustiska vibrationer till rör och fluid. Det är därför inte rim-ligt att antalet kalibreringspunkter som krävs för att uppn˚a samma kvalitet p˚a prediktionen minskar.

(50)

36 Diskussion Möjligheten för att med god tillg˚ang till kalibreringsdata erh˚alla en bättre pre-diktion ökar med användandet av aktiv akustisk spektroskopi d˚a den frekvens-beroende absorptionen och liknande effekter torde f˚a större betydelse vid ana-lysen. Denna möjlighet m˚aste dock ställas emot det eventuellt ökade behovet av kalibreringsdata för att skapa en modell. En aktiv akustisk mätuppställning med väldigt god tillg˚ang till kalibreringsdata skulle kunna använda sig av olika feedback-konstruktioner som varierar det ing˚aende ljudet och analyserar frekvens-spektra, fasförändringar och impulssvar dynamiskt. Komplexiteten p˚a ett s˚adant ¨

okar dock dramatiskt och de eventuella vinsterna i prediktionsförm˚aga är osäkra. Det vore därför intressant att utföra mätningar p˚a ett välkänt system där kalibre-ringsdata genereras kontinuerligt för att undersöka s˚adana fr˚agor som behovet av kalibreringsdata när mätningarna utförs med aktiv istället för passiv akustisk spektroskopi.

Uppdelningen av datamaterialet kan ha p˚averkat resultaten i viss utsträckning. Duplexmetoden ger en uppdelning som ger goda matematiska förutsättningar för att skapa valideringsset. Förhoppningen var att den eventuella tidskorrelationens inverkan skulle minskas. När tekniken skall implementeras kommer inga liknande uppdelningar göras, all tillgänglig information kommer att användas till att skapa en modell. Eventuellt kan korsvalidering användas för att bestämma antalet laten-ta variabler som skall användas. Scenariot kommer att likna en blockuppdelning där tidskorrelationen inte kommer att kunna bortses fr˚an. Att en blockuppdel-ning inte användes i detta arbete grundas i att m˚alet med arbetet var att jämföra metoder i allmänhet inte deras stabilitet gentemot ”nya” data. Resultatet fr˚an jämförelse med blockuppdelning skulle emellertid vara intressant utifr˚an en imple-mentationssynvinkel för att undersöka uppdelningens inverkan p˚a prediktionsfel och residualer.

¨

Aven användningen av RMSEP och uppdelningen i kalibrerings- och valideringsset kan diskuteras d˚a det inte kommer att användas för att utforma modeller inför slutlig implementering. ˚Aterigen beror valet av arbetssätt p˚a att m˚alet avser en utvärdering av metoderna generellt och inte specifikt för en särskild tillämpning. Det är möjligt att artificiella neurala nätverk eller hybridmodellen har lägre predik-tionsfel än PLS för just den storlek p˚a dataset och den m˚alvariabel som användes. Detta kan inte uteslutas utan större dataunderlag. Det som undersökningarna visar är endast att storleken p˚a kalibreringssetet inte är tillräckligt stort för att träna ett neuralt nätverk till bättre prediktiv förm˚aga än en PLS-modell baserad p˚a samma antal observationer. Gränsen för när artificiella neurala nät ger bättre prediktioner skulle kunna ligga mellan antalet kalibreringspunkter och det tota-la antalet observationer i datasetet. Allts˚a skulle fler observationer behövas för att utröna om gränsen verkligen g˚ar där. Detta resonemang leder dock till ett stegvis ökat behov av data ända tills datamaterialet är tillräckligt omfattande för att visa att nätverket är bättre än PLS, om det ens n˚agon g˚ang inträffar. De un-dersökningar som gjordes med temperatur som m˚alvariabel antogs vara tillräckligt lika de för de andra m˚alvariablerna s˚a att slutsatserna fr˚an temperatur-modellerna kan appliceras även p˚a de andra. Om detta antagande är sant s˚a kan gränsen för antalet nödvändiga observationer vid användandet av artificiella neurala nät

(51)

37 höjas avsevärt jämfört med storleken p˚a kalibreringsseten. I likhet med andra fr˚ageställningar skulle fr˚agan om likheten mellan prediktion av temperatur och andra m˚alvariabler kunna utredas närmre med större tillg˚ang till datamaterial. Om framtiden p˚avisar en möjlighet att använda artificiella neurala nätverk i och med nya mätapplikationer finns en grund för att snabbt kunna utvärdera om det ¨

ar lämpligt eller ej. Vidare kan framtagna strukturer och funktioner användas för att med relativt liten arbetsinsats jämföra alternativa metoder för multivariat analys av akustisk spektroskopidata.

P˚a basis av de resultat som framkommit verkar PLS och liknande metoder vara bäst lämpade för användning vid applikationer liknande de undersökta. Exempel-vis skulle ”Partial M-Regression”, PRM[29] eller ”Wavelet Transform-Multi Re-solution Spectra”, WT-MRS[6] undersökas med liknande metoder som använts i detta arbete. Valet av analysmodell kan bara till en viss del p˚averka hela mätuppställningens prestanda. Därför är det viktigt att instrumentet som hel-het utvärderas och förbättras utifr˚an vilka förändringar som ger störst ökningar i prestanda och att inte fokusera alltför mycket p˚a den multivariata statistiska analysen.

(52)

(53)

Kapitel 6

Slutsatser

PLS visade sig vara bättre lämpat för prediktering av sökta egenskaper utifr˚an akustisk spektroskopidata än alla andra metoder som undersöktes. Bayesiska nätverk visade sig inte vara lämpliga för ändam˚alet och undersöktes därför in-te närmare. Vid en vidareutveckling av tekniken föresl˚as därför att PLS eller liknande metoder s˚asom PRM[29] eller WT-MRS används[6].

(54)

(55)

Litteraturf¨

orteckning

[1] Intervju med Dr. Anders Bj¨ork, G¨oteborg, 26/11 2009.

[2] Herv´e Abdi. Encyclopedia of measurement and statistics, chapter Partial Le-ast Square Regression PLS-Regression. A Sage reference publication. SAGE, Thousand Oaks California, USA, 2007. ISBN 978-1-412-91611-0.

[3] Yvonne Aitom¨aki. Towards a Measurement of Paper Pulp Quality: Ultraso-nic Spectroscopy of Fiber Suspensions. Licentiatavhandling, Lule˚a Tekniska Universitet, 2006.

[4] Irad Ben-Gal. Bayesian networks. Encyclopedia of Statistics in Quality and Reliability, 2007.

[5] Anders Bj¨ork. Chemometric and signal processing methods for real time monitoring and modeling : Applications in the pulp and paper industry. PhD thesis, KTH, Chemistry, 2007.

[6] Anders Bj¨ork and Lars-G¨oran Danielsson. Spectra of wavelet scale coefficientd from process acoustic measurements as input for pls modeling of pulp quality. Journal of Chemometrics, 16:521–528, 2002.

[7] Oscar Cardfeldt. Passive Acoustic Spectroscopy as a detection method of viscosity and other process parameters. Master’s thesis, Chalmers tekniska h¨ogskola, 2009.

[8] Eugene Charniak. Bayesian networks without tears. AI Magazine, 12:50–63, 1991.

[9] Barry W. Connors. Medical Physiology, chapter 11 Physiology of Neurons, pages 280–294. Elsevier Saunders, 2005.

[10] S. de Jong. SIMPLS: an alternative approach to partial least squares regres-sion. Chemometrics and Intelligent Laboratory Systems, 18:251–263, 1993. [11] Fr´ed´eric Despagne and D. Luc Massart. Neural networks in multivariate

calibration. The Analyst, 123:157R–178R, 1998.

(56)

42 LITTERATURF ¨ORTECKNING [12] Erdal Din¸c, Fatma Demirkaya, Dumitru Baleanu, Y¨ucel Kadioglu, and Ekrem Kadioglu. New approach for simultaneous spectral ana-lysis of a complex mixture using the fractional wavelet transform. Communications in Nonlinear Science and Numerical Simulation, 15 (4):812–818, 2010. ISSN 1007-5704. doi: DOI:10.1016/j.cnsns. 2009.05.021. URL http://www.sciencedirect.com/science/article/ B6X3D-4W8VW2X-D/2/6eff6999108a76b716997344d559557d.

[13] Michal Daszykowski et al. TOMCAT: A MATLAB toolbox for multi-variate calibration techniques. Chemometrics and Intelligent Laborato-ry Systems, 85(2):269–277, 2007. ISSN 0169-7439. doi: DOI:10.1016/ j.chemolab.2006.03.006. URL http://www.sciencedirect.com/science/ article/B6TFP-4JX9V38-1/2/00ff2babbcd6ff49edfd761b3a61a217. [14] T. Hill and P. Lewicki. STATISTICS Methods and Applications. StatSoft,

2007.

[15] Lydia E. Kavraki. Dimensionality reduction methods for molecular motion, May 2010. URL http://cnx.org/content/m11461/1.10.

[16] Andriy Kupyna, Elling-Olav Rukke, Reidar Barfod Sch¨uller, H˚akon Helland, and Tomas Isaksson. Partial least square regression on frequency shift applied to passive acoustic emission spectra. Journal of Chemometrics, 21(3-4):108– 116, 2007.

[17] Andriy Kupyna, Elling-Olav Rukke, Reidar Barfod Sch¨uller, and Tomas Isaksson. The effect of flow rate, accelerometer location and tempera-ture in acoustic chemometrics on liquid flow: Spectral changes and ro-bustness of the prediction models. Chemometrics and Intelligent Labo-ratory Systems, 93(1):87–97, 2008. ISSN 0169-7439. doi: DOI:10.1016/ j.chemolab.2008.04.007. URL http://www.sciencedirect.com/science/ article/B6TFP-4SCD9WK-1/2/3e75d19a7c32a1ffe105b6bbd6a218f7. [18] Thomas Liljenberg, Stefan Backa, Lennart Thegel, and Mats ˚Abom. Active

acoustic spectroscopy. United States Patent No. 20040006409, January 2004. URL http://www.freepatentsonline.com/20040006409.html.

[19] Tobias Lindgren and Sven Hamp. Biomass monitoring using acoustic spectroscopy. IEEE Sensors Journal, 6:1068–1075, 2006.

[20] Tormod Næs, Tomas Isaksson, Tom Fearn, and Tony Davies. Multivariate Calibration and Classification, chapter Appendix A, pages 285–315. NIR Publications, 2004.

[21] Tormod Næs, Tomas Isaksson, Tom Fearn, and Tony Davies. Multivaria-te Calibration and Classification, chapMultivaria-ter 2 Introduction, pages 5–9. NIR Publications, 2004.

[22] Tormod Næs, Tomas Isaksson, Tom Fearn, and Tony Davies. Multivariate Calibration and Classification, chapter 5 Data compression by PCR and PLS, pages 27–38. NIR Publications, 2004.