• No results found

Multivariat dataanalys för att undersöka temperaturmätningar av pelletskulor

N/A
N/A
Protected

Academic year: 2021

Share "Multivariat dataanalys för att undersöka temperaturmätningar av pelletskulor"

Copied!
51
0
0

Loading.... (view fulltext now)

Full text

(1)

Multivariat dataanalys för att undersöka

temperaturmätningar av pelletskulor

En studie för LKAB med syftet att undersöka

temperaturvariationer mellan två mätsystem

Hanna Vikman

Umeå Universitet

Statistikerprogrammet 180 hp

(2)

Förord

Denna uppsats är en kandidatuppsats skriven i samarbete med LKAB i Malmberget på Forskning och Utveckling (FoU), avdelning TFP. Kandidatuppsatsen genomfördes under tidsperioden mars 2018 till maj 2018 och är examensarbete för mina studier på

statistikerprogrammet vid Umeå Universitet, institutionen för Handelshögskolan och enheten för statistik.

Jag vill i detta förord rikta ett tack till all personal på LKAB som gett mig ett trevligt och uppmuntrande bemötande. Ett speciellt stort tack vill jag ge till Christoffer Wennström, handledare på LKAB och Anders Lundqvist, handledare på enheten för statistik vid Umeå Universitet. Christoffer Wennström, forskningsingenjör på LKAB, har tålmodigt och med stor noggrannhet introducerat mig till förädlingsprocessen på LKAB. Ditt engagemang och din höga ambitionsnivå har varit ett stort stöd i den stundtals påfrestande processen. Anders Lundqvist, Universitetslektor vid Handelshögskolan vid Umeå universitet, har under hela processen bidragit med enastående vägledning, konkreta tips och ideer. Den positiva inställning och det engagemang du genomgående har haft, har gjort mitt arbete både lättare och roligare. Tack till er båda för att ni bidragit med er expertis och tid! Ni har varit ett stort stöd i mitt arbete med det engagemang ni visat! Jag vill även rikta ett stort tack till Kristina Andersson, sektionschef på avdelningen TFP på FoU i Malmberget, som under hela

examensarbetet funnits tillgänglig och snabbt svarat på mina frågor. Tack för ditt stöd och att jag fick skriva mitt examensarbete på din avdelning! Dessutom vill jag tacka mina

(3)

Sammanfattning

LKAB (Loussavaara-Kiirunavaara AB) är en högteknologisk gruv- och mineralkoncern som främst arbetar med att bryta och förädla järnmalm. Den huvudsakliga delen av järnmalmen blir till pelletskulor. Detta arbete är genomfört på LKAB:s avdelning Forskning och Utbildning i Malmberget. I denna kandidatuppsats behandlas temperaturdata från två olika mätsystem i förädlingsprocessen av pelletskulor. Det ena mätsystemet är väl implementerat och ligger idag till grund för produktionen av pelletskulor. Detta system har dock

begränsningar då temperaturen inte mäts i direkt anslutning till de blivande pelletskulorna. Önskvärt är att mäta temperaturen nära produkten och därför har forskare på LKAB tagit fram ett nytt mätsystem som gör detta.

Metoder som används i uppsatsen är principalkomponentanalys (PCA), Partial Least Squares (PLS) och multivariat regressionsanalys. Syftet med arbetet är att undersöka mätsystemen och eventuella samband mellan dem. Med PLS undersöks om det är möjligt att prediktera temperaturer i det nyutvecklade mätsystemet med temperaturer från det befintliga

mätsystemet.

Studien visade inget samband mellan mätsystemen. Resultatet kan dock inte generaliseras, då det enligt sakkunniga på LKAB bör finnas ett samband mellan det nyutvecklade- och det befintliga mätsystemet. Resultatet kan bero på datamaterialets utformning och ett antagande som gjorts kring hastighet i produktionen. Vidare tyder studiens resultat på att

(4)

Abstract

Title: Study of temperature measurements using multivariate data analysis

A study written on behalf of LKAB with the purpose of examining temperatures from two systems that measure temperatures

LKAB (Loussavaara-Kiirunavaara AB) is an international high-tech mining and mineral group that mainly works with mining and processing iron ore. The majority of the iron ore is manufactured into pellets. This bachelor thesis is written at LKAB’s department ​Research

and Development ​in Malmberget. In this study temperature data from two different systems

that measure temperatures in the process where iron ore becomes pellets is analyzed. One measurement system is old, and one is newly developed. The old system has a disadvantage because the temperature is not measured close to the product. It is desirable to measure the temperature close to the product and therefore, researchers at LKAB have developed a new measurement system for this.

The methods used in the study are principal component analysis (PCA), Partial Least Squares (PLS) and multivariate regression analysis. The aim of the study is to analyze the

measurement systems and the relationship between them. PLS is used to predict temperatures in the newly developed measurement system with temperatures from the existing

(5)

Populärvetenskaplig sammanfattning

Ett av Sveriges största exportbolag är Luossavaara-Kiirunavaara AB (LKAB) som är en högteknologisk gruv- och mineralkoncern som bryter och förädlar järnmalm. Bolaget är en global leverantör av järnmalm. Mängden järnmalmsprodukter som producerades år 2017 uppgick till 27.2 miljarder ton. Av dessa järnmalmsprodukter är den huvudsakliga pelletskulor. LKAB har en stor betydelse, inte bara för Norrbotten och orterna Gällivare, Kiruna och Svappavaara, där bolaget bedriver gruvverksamhet i form av brytning och förädling av järnmalm, utan för hela Sverige.

För att LKAB ska kunna bibehålla sin position som ett världsledande exportföretag av

järnmalmsprodukter är det av yttersta vikt att deras huvudsakliga produkt, pelletskulor, håller högsta kvalitet. Kännedom om hela tillverkningsprocessen krävs för att kunna producera högkvalitativa pelletskulor. Den här uppsatsen är skriven på uppdrag av LKAB med syftet att undersöka temperaturer i tillverkningsprocessen av pelletskulor i Malmberget. Det finns idag två olika mätsystem för temperaturer, ett befintligt och ett nyutvecklat system.

(6)

Innehållsförteckning

Inledning 1 1.1 Bakgrund 1 1.2 Syfte 2 1.3 Avgränsningar 2 1.4 Sekretess 2 2. LKAB i Malmberget 3 3. Metod 5 3.1 Undersökningsmetod 5 3.2 Tillförlitlighet 5 4. Teori 6

4.1 Multivariat dataanalys (MVDA) 6

4.2 Förbehandling av data 7

4.3 Principalkomponentanalys (PCA) 7

4.3.1 Matematisk presentation av PCA 8

4.4 Partial Least Squares (PLS) 10

4.4.1 Matematisk presentation av PLS 10

4.4.2 NIPALS algoritm för PLS 1​1

4.4.3 PLS tidsserieanalys med laggade variabler 13

4.5 Validation för PCA och PLS 14

4.6 Multivariat regression 16

4.6.1 Test av multivariat regressionsmodell 16

5. Genomförande 18 5.1 ​Programvara 18 5.2 ​Datamaterial 18 5.3 Statistisk metod 19 5.3.1 Metod PCA 19 5.3.2 Metod PLS 20

5.3.3 Metod övrig analys 2​1

5.3.4 Metod multivariat regressionsmodell 2​1

6. Resultat 2​2

6.1 Resultat för PCA 23

6.2 Resultat för PLS 26

6.3 Övrig analys 32

6.4 Resultat för multivariat regressionsmodell 34

(7)

7.1 Företagsnytta och vidare studier 37

8. Referenslista 39

Bilaga A. Korrelationstest 42

(8)

1. Inledning

Uppsatsens första kapitel presenterar det företag som studien skrivits med. Vidare kommer studiens syfte och avgränsningar att presenteras i detta syfte. Slutligen redovisas de

sekretessregler som gäller för studien.

1.1 Bakgrund

LKAB (Luossavaara-Kiirunavaara AB) är en gruv- och mineralkoncern som sedan slutet av 1800-talet har arbetat med att utvinna och förädla järnmalm. År 2017 producerade LKAB 27.2 miljarder ton järnmalmsprodukter där den huvudsakliga produkten är pelletskulor (LKAB, u.åa). För att skapa pelletskulor måste järnmalmen genomgå flera steg däribland brytning, malning och sintring. Sintring betyder att råkulor, det som ska bli pelletskulor, upphettas i en pelletsugn tills dess att deras partiklar delvis smälter ihop. Sintringsprocessen härdar kulorna och efter denna process klarar pelletskulorna av hård belastning.

Temperaturen är viktig för att pelletskulorna ska bli optimalt behandlade i sintringsprocessen och det är önskvärt att mäta temperaturen så nära kulorna som möjligt (Drugge 2008). I LKAB:s pelletsverk i Malmberget finns så kallade gratevagnar vilket är vagnar som

pelletskulorna färdas på genom förädlingsprocessen (LKAB u.åb). Som ett försök testas ett nyutvecklat system för temperaturmätning i en av gratevagnarna. Förhoppningen är att detta system, som mäter temperaturen av blivande pelletskulor i gratevagnar, ska kunna användas som ett komplement till befintliga temperaturmätningar som inte mäter lika nära produkten. Systemet skickar temperaturdata från gratevagnar till en mottagare som lagrar all data. LKAB:s önskemål är att analysera temperaturmätningar från gratevagnar för att få kunskap om temperaturmätningen samt om och hur mätsystemet kan användas i förädlingsprocessen. LKAB:s kvalitetspolicy lyder:

“LKAB skall överträffa kundernas nuvarande och framtida förväntningar genom att engagera alla i ständiga förbättringar. Vi ska sträva mot noll fel i allt vi gör och varje

(9)

Policyn uttrycker hur viktigt en god kvalitet är för LKAB. Den talar också om att varje medarbetare är delaktig i kvalitetsarbetet. För att undvika att göra misstag samt uppnå och bibehålla en hög kvalitét och därmed efterleva sin policy är det av största vikt att vara

medveten om vad som sker i hela processen. Det krävs kunskap om hur alla delar i processen påverkar produktkvaliteten för att kunna ta ansvar för sitt kvalitetsarbete. Med LKAB:s policy och önskemål som bakgrund är det av stort intresse att undersöka temperaturmätningar från både befintliga temperaturmätning i vindboxar och från det nyutvecklade mätsystemet i gratevagnen.

1.2 Syfte

Syftet med denna uppsats är att analysera temperaturdata från LKAB:s förädlingsprocess av järnmalm i Malmberget. Vidare är syftet att skapa tolkningsbarhet för det nyutvecklade mätsystemet och undersöka om det är möjligt att prediktera temperaturer i det nya mätsystemet med det befintliga mätsystemet.

1.3 Avgränsningar

Uppsatsen avgränsas till att endast omfatta LKAB:s verksamhet i Malmberget och temperaturobservationer från en tidsperiod som omfattar 16 dagar. I det befintliga mätsystemet har 16 vindboxar, det vill säga 16 mätpunkter, använts. I det nyutvecklade mätsystemet i gratevagnen har 4 mätpunkter använts. Dessa avgränsningar har gjorts till följd av begränsad datorkapacitet. På grund av tidsmässiga skäl har även en teoretisk avgränsning vad gäller statistiska metoder gjorts.

1.4 Sekretess

(10)

2. LKAB i Malmberget

I LKAB:s verksamhet i Malmberget bryts magnetit (Fe3o4) i en underjordsgruva. Sedan krossas och anrikas järnmalmen och blir då så kallad slurry. Att järnmalmen anrikas betyder att de korn som inte innehåller järnmalm sorteras bort vilket gör att koncentrationen av järnmalm ökar. Därefter förädlas slurryn i pelletsverket MK3 (LKAB, 2012). I pelletsverket blandas järnmalmsslig med vatten och bindemedel. Järnmalmsslig är torkad slurry. Det vanligaste bindemedlet är bentonit, men även andra bindemedel förekommer (LKAB, 2012). Blandningen med järnmalmsslig, vatten och bindemedel förs sedan vidare till rulltrummor där blandningen blir till råkulor. Storleken på råkulorna är betydelsefull för att slutprodukten, pelletskulorna, ska nå de kvalitetsmål som finns. Varje rulltrumma följs av en sortering, där de råkulor som inte uppfyller kravet på att vara mellan 9-16 mm i diameter sorteras bort (LKAB, 2018).

Råkulorna skickas därefter vidare till en 90 meter lång pelletsugn med 30 vindboxar. Varje vindbox är 3 meter lång. Råkulorna transporteras genom pelletsugnen liggandes på

gratevagnar. I pelletsverket MK3 i Malmberget finns 144 gratevagnar som är

sammankopplade med varandra. Gratevagnarna har en bredd på 3.5 meter och en längd på 1.5 meter (LKAB, 2018). Det befintliga mätsystemet för att mäta temperatur finns i vindboxarna, där mätinstrumentet sitter i mitten av varje vindbox. Det nyutvecklade mätsystemet är beläget i en av gratevagnarna och där finns sex mätpunkter (Wennström 2018).

(11)

förmåga att stå emot belastning. Den nästkommande delen, bränning, upphettar råkulorna till ungefär 1300℃ vilket gör att partiklarna i järnmalmen till viss del smälter ihop och det kallas sintring. Bränningsdelen ökar råkulornas belastningsförmåga ytterligare. Den sista delen i pelletsugnen kyler ned råkulorna till förvaringstemperatur (LKAB, 2018). I figur 1 presenteras en schematisk bild av pelletsugnen i MK3.

Figur 1​. Bild över LKAB:s pelletsugn i pelletsverket MK3 i Malmberget. Pelletsugnens olika

temperaturzoner är utmarkerade (LKAB, u.åd).

I pelletsugnen sker en exoterm reaktion när magnetit (Fe3​o4​) oxiderar till hematit (Fe2​o3​) (Drugge 2008). En exoterm reaktion är en kemisk reaktion där värme utsöndras (Taylor 2017, 125). Den värme som utsöndras vid den exoterma reaktionen återanvänds i pelletsugnen vilket illustreras i figur 1 genom pilarna som går bakåt i pelletsugnen. Denna exoterma reaktion är viktig för hela LKAB:s verksamhet då den påverkar företagets totala

(12)

råkulornas storlek. Det är viktigt att råkulornas storlek är enhetligt då mängden gas som går igenom bädden på gratevagnarna annars blir ojämn (Drugge 2008).

3. Metod

Arbetet inleddes med en omfattande inläsning på LKAB, dels på företaget och dels på processen att tillverka pelletskulor. Inläsningen omfattade även de statistiska metoder som berörs i denna uppsats. Information inhämtades från faktablad, rapporter och litteratur. Även muntlig information från personer på LKAB med expertis inom processområdet inhämtades.

3.1 Undersökningsmetod

Holme och Solvang (1997, 13) menar att det finns två metoder för att genomföra en

undersökning; kvantitativ och kvalitativ metod. Den ena metoden behöver dock inte utesluta den andra eftersom de två metoderna kan kombineras. En kvantitativ metod har mer betoning på att bearbeta data och genomföra statistiska analyser för att hitta förklaringar eller

generalisera resultat (Andersen 1998, 31). Vidare säger Andersen att en kvalitativ metod fokuserar på att skapa förståelse och hitta mönster, snarare än att matematiskt hitta

förklaringar som vid kvantitativ metod. Denna uppsats är baserad på en kvantitativ metod då den handlar om att skapa modeller för att förklara en egenskap.

3.2 Tillförlitlighet

Reliabilitet och validitet är två begrepp som ligger till grund för att hjälpa en forskare att genomföra en undersökning på ett noggrant, säkert och trovärdigt sätt. Reliabilitet betyder att en mätning få samma resultat om mätningen upprepas, oavsett vem som utför mätningen. Validitet innebär att mäta det som är avsett att mäta (Cohen, Manion och Morrison 2007, 179). En hög reliabilitet säkerställs i detta arbete av att temperaturmätningar sker maskinellt vilket gör att variationer eller fel på grund av den mänskliga faktorn kan undvikas. Således bör resultatet bli detsamma om mätningen upprepas. En hög validitet motsvaras i detta arbete av att mätinstrumentet mäter det som är avsett att mätas. Detta kan diskuteras då det

(13)

och inte i direkt anslutning till råkulor/pelletskulor. För att höja arbetets tillförlitlighet och precision så har ett stort datamaterial med många temperaturmätningar använts.

4. Teori

I detta kapitel presenteras de teoretiska utgångspunkter som uppsatsen baseras på. Kapitlet inleds med en introduktion av multivariat dataanalys som helhet, för att sedan presentera metoderna principalkomponentanalys, Partial Least Square och multivariat regression.

4.1 Multivariat dataanalys (MVDA)

Det finns många metoder för att hitta och förklara samband mellan variabler. I vissa fall som till exempel då datamaterial innehåller korrelerade variabler, ett begränsat antal observationer eller en grupp av variabler som används för att förklara en annan grupp av variabler, så kan traditionella statistiska metoderna såsom linjär regression stöta på problem eller vara helt verkningslösa. Multivariat dataanalys (MVDA) innefattar metoder som lämpar sig väl för tillfällen som de ovan nämnda (Eriksson et al. 2001, 1).

MVDA kan hantera såväl kvalitativa som kvantitativa data och är bra på att grafiskt

(14)

som till exempel PLS. PLS används för att identifiera samband mellan två grupper av variabler. Eriksson et al. (2001, 10) menar att ytterligare ett användningsområde för PLS är prediktion. För såväl PCA som PLS gäller att ​scores​ ger information om hur observationerna förhåller sig till varandra och ​loadings​ ger information om hur variablerna förhåller sig till varandra.

4.2 Förbehandling av data

Om ett datamaterial består av variabler uppmätta på olika skalor så bör datamaterialet förbehandlas innan en PCA- eller PLS-analys. Detta görs för att undvika att en eller flera variabler får ett felaktigt inflytande i modell. Det vanligaste sättet att förbehandla ett

datamaterial är enligt Eriksson et al. (2001, 44) att standardisera variablerna genom skalning och centrering. Den vanligaste metoden för skalning är UV-skalning (​unit-variance scaling) vilket ger alla variabler en varians som är 1. UV-skalning är en effektiv metod för att vikta variabler mot varandra, så att påverkan ökar från variabler som är mindre inflytelserika medan påverkan minskar från variabler som är mer inflytelserika. Eriksson et al. (2001, 228) påpekar dock att det finns en risk att vissa utmärkande variabler som bör ha större påverkan i en modell försvinner med skalning då det ger samtliga variabler lika stor inverkan på

modellen. Efter skalning följer i standardiseringsprocessen centrering. Medelvärdet för varje variabel beräknas för att sedan subtraheras från datamaterialet. Detta medför att varje variabel efter genomförd centrering har ett medelvärde som är 0 (Eriksson et al. 2001, 47).

4.3 Principalkomponentanalys (PCA)

(15)

4.3.1 Matematisk presentation av PCA

PCA går ut på att minska dimensionen, det vill säga antalet variabler, i ett datamaterial, utan att förlora alltför mycket viktig information. Detta görs genom att utnyttja samband inom ett datamaterial för att skapa nya variabler, så kallade principalkomponenter, som är

linjärkombinationer av de ursprungliga variablerna i datamaterialet. Principalkomponenterna är okorrelerade med varandra och ordnade i storleksordning utifrån hur stor varians de förklarar (Mardia, Kent och Bibby 1979, 13-14).

Antag att x = (x , , .., x )1 x2 . m är ​m​ stycken stokastiska variabler som antas komma från en m​-dimensionell sannolikhetsfördelning med väntevärdesvektor ​och kovariansmatris​ μ Σ . PCA går ut på att skapa nya, okorrelerade variabler, y = (y , y , .., y ).1 2 . m De nya variablerna

kallas för principalkomponenter och är linjärkombinationer av de ,

yi i = 1 . , .., m,

ursprungliga variablerna. Därmed definieras enligt (Mardia, Kent och Bibby 1979,yi 214-216),

a x a x .. a x x ,

yi= i1 1+ i2 2+ . + im m= ai

vikterna, ai, i linjärkombinationerna är än så länge inte bestämda. Vidare följer bestämning av dessa.

(16)

multiplikator​, som är en metod som används för att hitta maximum till en funktion givet ett eller flera villkor, användas (Everitt och Dunn 2001, 50). Detaljer för ​Lagranges

multiplikator ​presenteras i bland annat Konishi (2014, appendix B) och Chatfield och Collins

(1980, 58-61). Val av för att maximera variansen för görs under villkoret,ai yi

1. aiai= 1 ,

utan detta villkor skulle variansen kunna öka obegränsat genom att öka storleken på ai′ (Everitt och Dunn 2001, 50). Principalkomponenterna ska också vara okorrelerade med varandra, vilket är orsaken till att det finns ytterligare ett villkor som måste vara uppfyllt vid val av ai. Varje principalkomponent ska vara okorrelerad med samtliga tidigare

principalkomponenter, varav följande villkor måste vara uppfyllt när väljs (Everitt ochai′ Dunn 2001, 50),

2. ajai = 0 , där i < j .

Det visar sig enligt Everitt och Dunn (2001, 50) att vi kan utnyttja egenvärdesuppdelning av kovariansmatrisen för att bestämma Σ ai′. Författarna visar att det val av som maximerarai′ variansen för samt uppfyller villkor 1 och 2 ovan är den normaliserade egenvektornyi tillhörande det ​i​:te största egenvärdet Man visar också att egenvärdena iλi.

egenvärdesuppdelningen av Σ ​motsvarar variansen som respektive principalkomponent förklarar. Därmed ges den varians som den ​i​:te principalkomponenten förklarar av ochλi den ​i​:te principalkomponenten förklarar / λim av den totala variansen i datamaterialet.

i=1λi

(17)

Tekniskt sett så ger varje egenvektor upphov till en principalkomponent, men det är endast de med störst egenvärden som väljs ut till en slutlig PCA-modell. Målet är att ha så få

principalkomponenter som möjligt utan att göra alltför stor informationsförlust. En närmare beskrivning av metoder för att välja antal principalkomponenter ges i avsnitt 4.5. För ytterligare teori om principalkomponentanalys och matrisalgebra, se bland annat Mardia, Kent och Bibby (1979).

4.4 Partial Least Squares (PLS)

PLS är en förkortning för Partial Least Squares. Metoden används för att prediktera utfall och hitta samband mellan två matriser som representerar förklaringsvariabler och X Y som representerar responsvariabler (Eriksson et al. 2001, 71). PLS är en särskilt populär metod för kemiska processer på grund av metodens förmåga att hantera komplexa samband och

inkompletta datamaterial. Vidare menar Eriksson et al. (2001, 71) att PLS fungerar bra för datamaterial med många och starkt korrelerade X- och Y-variabler. Innan PLS standardiseras vanligtvis datamaterialet, enligt beskrivning i avsnitt 4.2. Om det finns information på

förhand om hur betydelsefulla variablerna är så kan detta användas i skalningen så att variabler som på förhand är mer betydelsefulla för modellen får större inflytande medan inflytandet från variabler som inte är lika betydelsefulla för modellen minskar (Eriksson et al. 2001, 73).

4.4.1 Matematisk presentation av PLS

Antag att är en X ​n ​x ​m​ matris, med ​n​ rader och ​m​ kolumner och att är en ​n​ x ​p​ matris,Y med ​n​ rader och ​p​ kolumner. PLS skapar komponenter genom att maximera kovariansen mellan variabler i och X Y . Detta görs genom att följande linjära kombinationer skapas från

och​ (Jackson 1991, 283), X Y P E X = T ′ + (3) C F Y = T ′ + (4)

(18)

respektive ​p​ x​ r​. och är residualmatriser. Metodiken för PLS är att skapa komponenterE F där kovariansen mellan X- och Y-komponenten är maximerad. Varje komponent är linjärt oberoende av alla tidigare komponenter. Det finns olika tillvägagångssätt för detta, men samtliga sätt handlar dock om att stegvis ta bort observationer från och X Y så att en ny matris, Xnew, skapas. Den nya matrisen innehåller färre komponenter som har hög

förklaringsgrad. Det sätt som används i denna uppsats och som kommer att beskrivas i det följande avsnittet är NIPALS algoritm (Esbensen 2010, 139).

4.4.2 NIPALS algoritm för PLS

I algoritm 1 presenteras NIPALS algoritm. Därefter följer en beskrivning av tillvägagångssättet för NIPALS algoritm.

Algoritm 1. NIPALS algoritm

1. Definiera startvärden: , X1 ← X Y1 ← Y 2. för = d 1 , ...,r gör följande: 3. Sd = X Yd d 4. wd = Eigmax {S S } dd 5. td = X w d d 6. cd = t td d Y td d 7. pd = t td d X td d 8. Xd+1= Xd− tdpd, Yd+1 = Yd− tdcd

(19)

Algoritmen inleds med att definiera startvärden som maximerar kovariansen mellan ochX Kovariansmatrisen mellan ​och definieras som,

. Y X Y cov(X, )Y = 1 X Y n−1 ′ (5)

Den första komponenten, w1, beräknas genom att kovariansen mellan och X Y maximeras. Det egenvärde ​S​1 som maximerar kovariansen multipliceras med sitt transponat vilket ger w1 enligt,

arg w S S w

w1 = max 11

Eig {S S }

w1 = max 11

Beräkningarna ovan upprepas tills dess att alla egenvärden har beräknats. Med hjälp av der framtagna wi-vektorerna beräknas sedan scorevektorerna på följande sätt (Esbensen 2010,ti 140),

w

ti= Xi i (6)

För att exemplifiera, så beräknas till exempel första kolumnen i scorematrisen genomT enligt ekvation (6). Genom att skriva om och med summationstecken enligt w t1 = X1 1 X Y följande, , p X = ∑m d = 1 tdd Y = ∑p c , d = 1 tdd

så kan loadingmatriserna, och beräknas. Det visar sig att motsvarande kolumner förC P loadingvektorerna och kan skrivas på följande sätt,ci pi

(20)

De slutliga kolumnerna i , och skapas genom att scorevektorerna tas bort från ochT C P X . När dessa utesluts från originalmatriserna skapas nya matriser utan den information som Y

tillhör de borttagna scorevektorerna. De nya matriserna, en för och en för X Y , presenteras i sin generella form i steg 8 i NIPALS algoritm. Efter en repetition av NIPALS algoritm ser de uppdaterade matriserna ut på följande sätt (Esbensen 2010, 141),

,

X p

X2 ← − t11 Y2 ← − tY 1 c . 1

De nya matriserna uppdateras efter varje repetition av NIPALS algoritm. Steg 3 till 8 i NIPALS algoritm upprepas tills dess att önskat antal komponenter har skapats. Detta ger samtliga score- och loadingvektorer (w , td d, p ,d cd) för repetition d = 1 . r, .., , för kovariansmatrisen i (5). En matris för egenvektorer, W, en matris för scores, , och tvåT matriser för loadings, och , har då skapats. Dessa matriser är fyllda med tillhörandeP C vektorer enligt,

, , , .

w , .., w ]

W = [ 1 . r T = [t , .., t ]1 . r P = [p , .., p ]1 . r C = [c , .., c ]1 . r

Den nya matrisen, Xnew, som skapas i PLS består av komponenter som är okorrelerade, ortogonala mot varandra och innehåller maximalt av variansen från . De är ordnade iX fallande skala efter hur stor varians de förklarar. Önskvärt är att antalet komponenter är tillräckligt många för att information om Y inte ska lämnas kvar i . Val av antalX komponenter beskrivs närmare i avsnitt 4.5.

4.4.3 PLS tidsserieanalys med laggade variabler

Tidsserier behandlar datamaterial bestående av observationer som är insamlade över tid. De används bland annat för att identifiera och modellera samband, systematisk variation och beroenden mellan variabler. Tidsserier används också för att göra prognoser för framtiden (Fuller 1976, 10).

(21)

att förskjuta variabler. Variabler i såväl som X Y kan laggas vilket gör att datamaterialet utökas. En variabel kan också laggas med flera olika laggar. Laggade variabler har notationen index för det första värdet och index t t − 1 för den första variabel som laggas vilket

motsvarar värdet närmast innan . Den sista variabel som laggas har index t t − L, där L motsvarar antalet laggar (Eriksson et al. 2001, 317).

4.5 Validation för PCA och PLS

Hur många principalkomponenter eller komponenter som behövs i en PCA- respektive PLS-modell beror på datamaterialet och dess komplexitet. Det finns olika metoder för detta, men likadan metod kan användas för PCA och PLS vid val av antal principal komponenter och komponenter. För enkelhetens skull kommer därför både principalkomponenter och komponenter att benämnas som komponenter i resterande del av detta delkapitel. En avvägning mellan ​degree of fit​ som ges av R​2​X och ​the predictive ability​ som ges av Q​2​X

görs vid valet av antal komponenter. R2​X är ett mått för hur väl anpassad modellen är till

datat och hur stor del av variationen som förklaras av varje komponent. Q2​X är ett mått för

hur väl ny data kan predikteras och hur stor del av variationen i ​X​ som kan predikteras av respektive komponent. R2​X kan anta värden mellan 0 och 1, där 0 är ingen anpassning till

data och 1 är perfekt anpassning till data. R2​X ökar i takt med att modellens komplexitet ökar.

Q2​X antar också värden mellan 0 och 1, men når inte sitt högsta värde vid störst komplexitet.

Istället ökar Q2​X med modellens komplexitet tills den når en brytpunkt och istället sjunker

ned. Därför måste en trade-off mellan att ett högt R2​X värde, utan att prediktionsförmågan

försakas i för hög grad göras (Eriksson et al. 2001, 65 och 105).

(22)

RMSEP (​Root Mean Square Error of Prediction​) är ett mått för medelfelet i prediktionen. I tillägg till att RMSEP ger information om prediktionsförmåga så kan det användas som ett underlag för val av antalet komponenter. RMSEP kan beräknas med korsvalidering vilket med R-paketet pls (Mevik, Wehrens och Liland 2016) ger två olika värden, CV och CVadj. Den förstnämnda är en standardberäkning och den andra är en korrigerad beräkning som tar hänsyn till bias. RMSEP värdet beräknas enligt formeln,

, MSEP R =

(y −y ) nn i=1 i ︿ i2

där är observerade- och yi ︿yi är predikterade värden, beräknade med samtliga observationer utom den ​i​:te (Simpson u.å).

PCA och PLS är känsliga för outliers och därför bör sådana observationer elimineras. Författarna Eriksson et al. (2001, 60) skiljer på starka och moderata outliers, där en stark outlier är tillräckligt kraftfull för att kunna påverka en PCA- eller PLS modell vilket inte en moderat outlier är. För att undersöka om det finns outliers i en PCA- eller PLS modell kan Hotelling’s T², som är en generalisering av det traditionella t-testet användas. Outliers kan också identifieras i scoreplotten som visar observationernas spridning. Moderata outliers hittas i residualmatrisen. Vidare kan samband mellan variabler identifieras i en loadingplot eftersom variabler som är nära varandra har samband. Variablernas placering i loadingplotten ger även information om deras påverkan på modellen. Desto längre från origo en variabel befinner sig, desto större påverkan har den på modellen (Eriksson et al. 2001, 55-60).

(23)

För att undersöka korrelation mellan variabler och komponenter i en PCA modell kan funktionen ​dimdesc​ i R användas. Den ger information om korrelation mellan variabler och komponenter och i utskriften för ​dimdesc​ ges även ett p-värde för korrelationens signifikans.

4.6 Multivariat regression

Vid multivariat regression analyseras samband mellan flera responsvariabler och en eller flera förklaringsvariabler. Syftet med multivariat regression kan vara att beskriva eller förstå samband. Metoden kan också användas för prediktion. Antag att Y ​är en ​n ​x​ m​ matris med responsvariabler där ​n​ är antalet observationer och ​m​ är antalet variabler. Vidare är en ​n​ xX

(p+1) ​matris där den första kolumnen endast innehåller ettor, vilket ger oss intercept i

modellen. Därefter innehåller varje kolumn i observationerna för de X ​p förklaringsvariablerna i tur och ordning. är en B ​(p+1)​ x​ m ​matris med

regressionskoefficienter och är en ε ​n ​x ​m​ matris med residualer. Den multivariata regressionsmodellen skrivs då på följande sätt (Timm 2002, 219),

,

B Y = X + ε

Följande antaganden gäller för en multivariat regressionsmodell (Rencher 2002, 339)

1.E(Y )= XB eller E(ε)= 0, där är oberoende och okorrelerade residualer.ε

2.cov(Y )i = Σ, för alla i = 1 2 . n, , .., , där Yi är den ​i​:te raden i matrisen Y .

3.cov(Y ,i Yj)= 0, för alla i / j= , där 0 är en ​m ​x​ m​ matris.

4.6.1 Test av multivariat regressionsmodell

När en multivariat regressionsmodell skapas tas hänsyn till korrelation mellan både

förklaringsvariabler och responsvariabler. En regressionsmodell som inte är multivariat har inte flera responsvariabler vilket betyder att korrelation mellan responsvariabler inte behöver tas i beaktning. De traditionella statistiska tester som vanligtvis används för att testa

(24)

teststatistika som kan användas vid hypotestester, som till exempel MANOVA, vid

multivariat regressionsanalys. MANOVA är multivariat regressionsanalys motsvarigheten till ANOVA. I tillägg till de antaganden för en multivariat regressionsmodell, som presenterats i kapitel 4.6 så gäller modellantaganden för ANOVA även för MANOVA (Rencher 2002, 184).

Låt ​B ​= ​, där ​B​0​ ​är den första raden i ​B​ och ​B​1​ är övriga rader. Då innehåller ​B​0 intercepten, som är ​m​ stycken och ​B​1 alla regressionskoefficienter som är kopplade till förklaringsvariablerna. Då kan följande hypotestest göras,

H0 : B1 = 0 = , Ha : B1 / 0

där är en 0 ​p​ x ​m​ matris (Rencher 2002, 329).

Hypotesprövningen kan göras med Wilks lambdastatistika, , som ges av och Λ E E + H E. är modellens ​residual sum of squares and products​ vilket är residualmatrisen för den fullständiga modellen. E + H är modellens ​total sum of squares and products​ vilket är residualmatrisen plus det bidrag som ges då modellen skattas under H0​. Under H0​ skrivs Wilks lambdastatistika som,

= ,

Λ |E+H| |E|

(25)

5. Genomförande

I detta kapitel presenteras datamaterial, val av variabler och programvaror som har använts i studien. Slutligen presenteras tillvägagångssättet för den statistiska analysen.

5.1 Programvara

Alla statistiska analyser har genomförts i dataprogrammet R Studio (R Core Team 2017), hädanefter förkortad till R. Även Microsoft Excel har använts i detta arbete.

För att genomföra analysen har flera externa R-paket använts. FactoMineR (Le, Josse och Husson 2008), factoextra (Kassambara och Mundt 2017) och pls (Mevik, Wehrens och Liland 2016) har använts för att genomföra multivariat dataanalys i form av PCA och PLS. Paketet lubridate (Grolemund och Wickham 2011) har använts för att standardisera variabeln tid.

5.2 Datamaterial

Datamaterialet i denna uppsats är kvantitativ data och är hämtat från LKAB:s interna system. Innan den statistiska analysen påbörjades genomfördes en omfattande databearbetning. Dels organiserades, sammanställdes och överfördes datamaterialet från LKAB:s interna

lagringsplats till programvaran R och dels undersöktes datamaterialet. En stor del av

datamaterialet behövde behandlas i Microsoft Excel (2016) innan det kunde föras över till R. Observationer med kraftigt avvikande värden som, i samråd med sakkunniga på LKAB därmed misstänktes vara felaktiga mätvärden, togs bort. Datamaterialet ställdes upp i matriser för att vara anpassade till multivariat dataanalys.

Data från det befintliga mätsystemet, alltså vindboxar och det nyutvecklade mätsystemet i en gratevagn i LKAB:s pelletsverk MK3 i Malmberget har använts i studien. Datamaterialet kommer från sammanlagt 16 olika dygn som valdes utifrån tillgänglighet till data och minst bortfall. Totalt består datamaterialet av 1 300 182 temperaturobservationer, varav 1 057 852 observationer kommer från vindboxar och 242 330 observationer från gratevagnen.

(26)

representerar en variabel. Vindbox variablerna är döpta som Vindbox_3, Vindbox_4, ... , Vindbox_18, vilket kommer från namngivningen i LKAB:s interna system, där siffran motsvarar numret på vindboxen. Numret på vindboxen motsvarar vindboxens position i pelletsugnen. Ett lågt nummer innebär att vindboxen är belägen i början av pelletsugnen. Vindbox 3, ... , 18 valdes för studien på grund av att det är där den största delen av

uppvärmning, sintring och oxidation sker. Variablerna på gratevagnen har namnen TC1, TC2, TC3 och TC4. Valet av gratevagnens mätpunkter valdes med anledning att de är de vitala för denna studie, de två utelämnade mätpunkterna mäter inte det som avses att undersöka. Dess position på gratevagnen är sekretessbelagt och framgår därför inte i denna uppsats. Därutöver är tid, i sekunder, också en variabel.

Alla variabler med temperaturer är uppmätta i grader Celsius (°C). Variabeln tid var i sitt ursprungsformat en tidsstämpel med formatet timme:minut:sekund. Variabeln tid har omvandlats från formatet som tidsstämpel till sekunder. Detta gjordes för att kunna identifiera gratevagnens position i pelletsugnen och synkronisera den med vindboxarna. Datamaterialet har standardiserats enligt avsnitt 4.2 i denna uppsats, med funktionen ​scale​ i R. Data för hastigheten som gratevagnen har färdats med genom pelletsugnen under de dagar som ligger till grund för analysen har hämtats från LKAB:s interna system. Ett genomsnitt för de aktuella dagarna har beräknats och ligger till grund för alla statistiska analyser.

5.3 Statistisk metod

Alla statistiska test för signifikansanalys i denna uppsats genomförs på signifikansnivån 0.05. Den statistiska analysen inleddes med att datamaterialet undersöktes. Temperaturvärden från vindbox 3 till 18 samt gratevagnens samtliga mätpunkter analyserades med hjälp av R kommandot ​summary​. Korrelationstest genomfördes för att undersöka eventuella samband mellan variabler. Ett korrelationstest gjordes mellan samtliga variabler utom tid och ett mellan gratevagnens variabler.

5.3.1 Metod PCA

(27)

undersöka hur många principalkomponenter som skulle användas i modellen.

Korsvalideringsmetoderna generalized cross-validation och smooth cross-validation samt en screeplot undersöktes. Vidare undersöktes observationernas och variablernas spridning, samband mellan variabler och principalkomponenter och variablernas cos2 ​värden.

5.3.2 Metod PLS

PLS-analysen inleddes med att skapa en laggad variabel. För att göra detta behövde gratevagnens temperaturobservationer matchas ihop med temperaturobservationerna från vindboxarna. Tidpunkten för när gratevagnen var vid respektive vindbox beräknades. För varje tidpunkt som gratevagnen var vid en vindbox hämtades temperaturen från den aktuella vindboxen. Den laggade variabeln skapades genom att hämta motsvarande temperatur för en tidpunkt och en vindbox innan den aktuella, det vill säga ​t​-1. Detta itererades för samtliga vindboxar som ingår i denna analys och för alla varv som gratevagnen gått igenom

pelletsugnen. Temperaturobservationerna från vindboxar samt laggade vindboxar sparas i en - matris och temperaturobservationerna från gratevagnen sparades i en - matris. I tabell

X Y

1 och 2 följer en presentation av och X Y där det framgår hur temperaturobservationerna har ordnats. VB_lag1 i tabell 1 är den laggade variabelns temperaturobservationer och VB är vindboxarnas temperaturobservationer. VB_lag1 och VB motsvarar . TC1, TC2, TC3 ochX TC4 motsvarar Y . En rad i och X Y motsvarar en tidpunkt. Ett varv består i denna uppsats av 16 tidpunkter; vindbox 4 till vindbox 19. Den sista temperaturobservationen på ett varv finns för samtliga variabler utom VB. Denna temperaturobservation saknas för VB då

(28)

​Tabell 2. ​Variablerna i . Observationerna är från närY

Tabell 1. ​Variablerna i .X gratevagnens position var vid aktuell vindbox.

Därefter tog arbetet med att skapa PLS modeller vid och det gjordes med funktionen ​plsr​ och kommandot ​method="oscorespls"​, vilket gjorde att modellen skapades med NIPALS

algoritm. Antalet komponenter valdes med korsvalidering, men undersöktes också ytterligare.

5.3.3 Metod övrig analys

LKAB eftersträvar en jämn temperatur på gratevagnen och därför jämfördes variablerna i Y . Observationerna som ställs upp i Y plottades för TC1, TC2, TC3 och TC4. Därefter gjordes en pair matrix för alla variabler i och X Y. En pair matrix visar hur variabler samvarierar genom att alla variabler plottas parvis mot varandra. En punkt i en pair matrix motsvarar ett observationspar.

5.3.4 Metod multivariat regressionsmodell

En multivariat regressionsmodell med Y, enligt tabell 2, som responsvariabel och X, enligt tabell 1, som förklaringsvariabler skapades. Med MANOVA och teststatistikan Wilks lambda testades hypotesen H0: VB_lag1 och VB har inte någon effekt på någon av

(29)

6. Resultat

Korrelationstestet, som genomförs på signifikansnivå 5 %, har nollhypotes att det inte finns något samband (ingen korrelation som är skild från 0) mellan variabler och alternativhypotes att det finns ett samband (en korrelation som är skild från 0) mellan variabler.

Korrelationstestet genomfördes med Pearsons korrelationskoefficient och i bilaga A finns korrelationskoefficienter och p-värden mellan samtliga variabler. En grafisk presentation av korrelationstestet ges av figur 2. Korrelationstestet mellan samtliga variabler utom tid presenteras till vänster i figur 2 och korrelationstestet mellan gratevagnens variabler presenteras till höger i figur 2. Prickarnas storlek och färgintensitet beror på styrkan på korrelationen. Desto mörkare blå färg på pricken, desto starkare positiv korrelation mellan variablerna. Desto mörkare röd färg på pricken, desto starkare negativ korrelation mellan variablerna. Samband upptäcktes mellan flera variabler. Starka positiva samband hittades mellan närliggande vindboxar medan starka negativa samband upptäcktes mellan vindboxar belägna långt ifrån varandra. Inget samband upptäcktes mellan någon av gratevagnens variabler och någon vindbox. Stark positiv korrelation upptäcktes mellan TC2, TC3 och TC4 och svag negativ korrelation upptäcktes mellan TC1 och samtliga resterande Y variabler.

Figur 2. ​Till vänster korrelationstest mellan samtliga variabler förutom tid och till höger

(30)

6.1 Resultat för PCA

Cross-validation med metoden generalized cross-validation och smooth cross-validation gav 13 respektive 4 principalkomponenter. Den screeplot som skapades presenteras i figur 3. Screeplotten visar att principalkomponent 1 och 2 förklarar 35.2 % respektive 25.4 % av datamaterialets totala varians. Sammanlagt förklarar de fyra första principal komponenterna 81.5 % av datamaterialets totala varians.

Figur 3. ​ Screeplot som visar hur stor del av den totala variansen förklaras av respektive

principalkomponent.

Analysen valdes att göras på 2 principalkomponenter och plottar och information som

presenteras i resterande del av detta avsnitt om PCA ger därmed information för de två första principalkomponenterna.

I figur 4 och 5 presenteras contributionplots. I dessa är principalkomponent detsamma som dimension, det vill säga principalkomponent 1 är ekvivalent med dimension 1 och

(31)

röda linjen anses vara värdefulla för en modell. Resultatet visade att vindbox 15, vindbox 16, vindbox 17, vindbox 13 och vindbox 18 är de fem variabler som bidrar mest

principalkomponent 1. Motsvarande för principalkomponent 2 är vindbox 4, vindbox 5, vindbox 6, vindbox 7 och vindbox 3. Samtliga nämnda överstiger den streckade, röda linjen i grafen och de är alla vindboxar. Ingen av variablerna som tillhör gratevagnen finns med bland de tio mest bidragande variablerna för varken principalkomponent 1 eller 2. Även bidraget till principalkomponent 1 och 2 tillsammans undersöktes. Inte heller här fanns någon av

gratevagnens variabler med bland de 10 variabler mest störst bidrag.

Figur 4.​ De tio variabler som bidrar mest till principal komponent 1.

(32)

I figur 6 är loadingkoordinater för alla variabler plottade i en korrelationscirkel. Färgen på variabeln beror på dess bidrag till modellen. Variabler som är positivt korrelerade med en principalkomponent är på samma sida som principalkomponenten i koordinatsystemet. Variabler som är negativt korrelerade med en principalkomponent är på motsatt sida i koordinatsystemet jämfört med principalkomponenten. Resultatet gav att alla variabler är negativt korrelerade med principalkomponent 2. Vindboxar med låga nummer, alla variabler i gratevagnen och tid är negativt korrelerade med principalkomponent 1.

Figur 6.​ Loadings för alla variabler, där färgen beror på variabelns bidrag till modellen.

I figur 7 plottas variablernas cos2​ värden i en korrelationscirkel. Ju närmare

korrelationscirkel, det vill säga den yttre cirkeln, en variabel befinner sig, desto bättre är den representerad av motsvarande principalkomponent. Variablernas position i koordinatsystemet anger korrelationen mellan variabel och principalkomponent på samma sätt som i figur 6. Variabler med låga cos2​-värden har svart färg, variabler med medelhöga cos2​ värden blå färg

och variabler med höga cos2​-värden röd färg. Utmärkande i figur 7 är variablerna TC1, TC2,

TC3, TC4 och tid. Samtliga av dessa variabler är nära origo och har därmed låga cos2-​värden

(33)

Figur 7.​ Cos​2​ värden för samtliga variabler där färgen beror på cos²-värdet.

Funktionen ​dimdesc​ i R gav för principalkomponent 1 signifikanta p-värden för samtliga variabler. Resultatet är därmed att samtliga variabler är signifikant korrelerade till

principalkomponent 1. För komponent 2 hade samtliga variabler utom Vindbox_18 och TC4 signifikanta p-värden. De lägsta p-värdena för både dimension 1 och 2 tillhör variablerna i vindboxarna. Fullständigt resultat av ​dimdesc​ för principalkomponent 1 och

principalkomponent 2 finns i bilaga B.

6.2 Resultat för PLS

(34)

Tabell 3. ​Förklarade varians (%) för responsvariablerna i PLS-modellen med somX förklaringsvariabler och Y som responsvariabler. Värdena under “2 komponenten” är de

kumulativa värdena för den förklarade variansen.

(35)

Figur 8.​ RMSEP värden för variablerna i PLS modellen med X som förklaringsvariablerY och Y som responsvariabler.

I figur 9 presenteras plottar för modellens scores och loadings, dels för och X Y separat och dels för och X Y tillsammans. Plotten längst upp till vänster visar scores och loadings för

De röda markeringarna motsvarar variablerna VB och VB_lag1 och de svarta .

X

markeringarna motsvarar observationer. I denna plot visas komponenterna, som ges av förklaringsvariablernas loadings. Komponenterna ges av,

Komponent 1: − 0.518* VB − 0.874* VB_lag1 Komponent 2: 0.938* VB − 0.384* VB_lag1

(36)

scorevärde på ungefär -4.5, båda för komponent 2. Observation 17 har dessutom ett scorevärde på nästan -8 för komponent 1, vilket är utmärkande jämfört med övriga observationers scorevärden för komponent 1.

Figur 9.​ Scores- och loadingsplottar för PLS modell med som förklaringsvariabler och X Y som responsvariabler.

För modellen plottades observerade värden mot predikterade värden för respektive

förklaringsvariabel. Resultatet visas nedan i figur 10, där observerat värde finns på x-axeln och predikterat värde finns på y-axeln av grafen. De predikterade värdena följer inte den räta linjen. De predikterade värdena har samma mönster för alla variabler. Resultatet visar att TC1 utmärker sig genom att både ha predikterade och observerade värden som är lägre än övriga responsvariablers. Plottarna för TC3 och TC4 ser tämligen lika ut, medan TC2 har såväl predikterade som observerade värden med lägre värden, men fortfarande betydligt högre än de för TC1. Resultatet av figur 10 är att modellen inte gör bra prediktioner av

(37)

Figur 10.​ Plottar över observerade värden och predikterade värden för modellen med somX förklaringsvariabler och Y som responsvariabler.

Med anledning av att den framtagna modellen inte var bra på att förklara Y med hjälp av ,X så skapades ytterligare en PLS modell. På grund av att TC1 urskiljde sig så mycket från övriga variabler och inte ingår i någon komponent så beslutades att inte ha med TC1 i den andra modellen. Den outlier, observation 17, som hittades vid analysen av den första modellen uteslöts också i den andra modellen. Den andra modellen skapades således utan observation 17 och med Ynew bestående av TC2, TC3 och TC4 som responsvariabler och ,X oförändrad, som förklaringsvariabler.

(38)

högre andel förklarad varians jämfört med den första modellen. Dessa skillnader var dock så små att de var försumbara.

Figur 11 visar att det lägsta RMSEP-värdet för samtliga responsvariabler i den andra modellen gavs vid 2 komponenter. TC2 hade det lägsta RMSEP-värdet av

responsvariablerna. Enligt figur 13 bör modellen innehålla två komponenter, vilket stämmer överens med resultatet som gavs vid korsvalidering.

Figur 11.​ RMSEP värden för TC2, TC3 och TC4 i den andra PLS modellen, med somX förklaringsvariabler och Ynew som responsvariabler.

På samma sätt som för den första modellen, så plottades observerade värden mot predikterade värden för respektive responsvariabel. Resultatet var jämförbart med det för den första

modellen, som visas grafiskt i figur 10, med stora skillnader mellan predikterade- och observerade värden. Det var endast små skillnader mellan komponenterna i den andra modellen jämfört med den första modellen. Komponenterna som visas grafiskt i figur 12 i plotten längst upp till vänster, ser ut som följer,

(39)

Vidare visar plottarna i figur 12 på en spridning i datamaterialet eftersom observationerna inte är samlade i plotten. Ytterligare ett resultat är att TC3 och TC4 har snarlika loading- och scorevärden. TC2 avviker något från dem genom att ha ett lägre loadingvärde, ungefär 10 för komponent 1 och ett något högre loadingvärde, ungefär 7 för komponent 2.

​Figur 12.​ Scores- och loadingplottar för den andra PLS modellen, med somX förklaringsvariabler och Ynew som responsvariabler.

6.3 Övrig analys

(40)

Figur 13. ​Observerade värden för TC1, TC2, TC3 och TC3 plottade. Den blåa linjen

representerar medelvärdet av de plottade observationerna, för respektive variabel.

Slutligen så plottades TC1, TC2, TC3, TC4, VB_lag1 och VB mot varandra vilket presenteras i figur 14. Varje punkt motsvarar ett observationspar och det plottas för

(41)

Figur 14.​ Pairs matrix för variablerna i och .X Y

6.4 Resultat för multivariat regressionsmodell

(42)

7. Diskussion

Förädlingsprocessen av järnmalm för att skapa pelletskulor är ytterst komplex och beror på många faktorer, där temperaturer är en. Att modellera en sådan process är därmed svår och svårigheten blir extra påtaglig när en ny metod ska undersökas vilket har varit fallet i mitt arbete. Analysen av temperaturdata från vindboxar och gratevagn har bidragit med mycket information, även om de modeller som har tagits fram för att förklara temperaturer i ett mätsystem, med ett annat mätsystem, inte har lyckats med sitt syfte. PLS modellerna med vindbox- och laggad vindbox data som förklaringsvariabler och gratevagnens mätpunkter som responsvariabler kunde inte prediktera temperaturvärden i gratevagnen och den förklarade variansen för responsvariablerna var ytterst låg. Det finns flera tänkbara anledningar till att PLS modellerna inte fungerade för att varken förutse eller förklara

gratevagnens temperaturmätningar. Den mest intuitiva anledningen ur en statistisk synvinkel kan tänkas vara att temperaturerna från vindboxarna inte har något samband med

gratevagnens temperaturer och därmed inte kan användas som förklaringsvariabler i en modell för att förklara gratevagnens temperaturer. Denna förklaring verkar dock inte särskilt trolig då det är gasen i vindboxarna som styr temperaturen i pelletsugnen. Den nämnda anledningen stöds inte heller av sakkunniga på LKAB som menar att det är ytterst otänkbart att vindboxarna inte har något samband alls med gratevagnen. Med denna bakgrund

föreligger ett antal andra förklaringar som anses vara mer sannolika till att PLS-modellerna inte uppfyller det tänkta syftet. Den kanske troligaste förklaringen kan vara att hastigheten för gratevagnen har varit för generell. Hastigheten har beräknats som ett genomsnitt av

hastigheten under de dagar som analysen baseras på. Hastigheten har använts för att beräkna gratevagnens position i pelletsugnen och därmed i förhållande till vindboxarna. På grund av olika anledningar så varierar gratevagnens hastighet. Den temperaturdata som studien baseras på har valts utifrån kriteriet att uppehåll i produktionen, det vill säga stillastående

gratevagnar, inte fick förekomma. Den genomsnittliga hastigheten som använts för att beräkna gratevagnens position kan trots detta ha varit för generell för att matcha ihop

(43)

hos TC1, TC2, TC3 och TC4. Detta är därmed en tänkbar och mer sannolik anledning till resultatet för PLS-modellerna.

Ytterligare en tänkbar förklaring till att PLS-modellerna inte lyckades med sitt ändamål hade kunnat vara TC1, som var helt annorlunda än resterande tre variabler på gratevagnen. Med anledning av detta skapades en ny PLS-modell som inte skiljde sig nämnvärt från den första modellen. Resultatet avvisar att TC1 skulle vara orsaken till PLS-modellernas obefintliga förmåga att förklara temperaturer i gratevagnen. En slutsats av detta är däremot att TC1 bör undersökas av LKAB då detta mätinstrument med all sannolikhet inte fungerar korrekt.

Som tidigare nämnt gav analysen information som är viktig och som bör tillgodogöras av LKAB. Sakkunniga på LKAB menar att det är viktigt att temperaturfördelningen över bädden på gratevagnen är jämn. Detta för att dels producera en produkt som håller en jämn och hög kvalitet och dels för att undvika ojämnt slitage på utrustning i pelletsugnen. Analysen av gratevagnens variabler, som alltså visade att TC1 inte fungerar korrekt, visade även tendenser på att värmespridningen inte är jämn över gratevagnens bädd. Två av variablerna, TC3 och TC4, var väldigt lika varandra vilket innebär att temperaturen är jämn mellan de två

mätpunkterna. Jämfört med dessa två var TC2 annorlunda på ett sätt som inte talar för att temperaturen är jämn över hela gratevagnen vilket bör undersökas vidare av LKAB.

Den multivariata regressionsmodell som skapades kunde inte heller förklara Y med hjälp av . Det kan vara en indikation på att problemet inte huvudsakligen ligger i modellval, utan X

kanske snarare beror på någon annan anledning, eventuellt någon av de förklarat i den initierande delen av detta avsnitt. Något som inte kan bortses ifrån är dock att den

multivariata regressionsmodellen inte fullt uppfyller de grundläggande antaganden som finns för såväl modellen som den använda teststatistikan Wilks lambda. Resultaten från modellen blir på grund av icke uppfyllda antagandena därför varken tillfredsställande i syfte att skaX förklara Y eller i syfte att skapa tillförlitliga resultat. Det bör därför tas i beaktning och kan vara en förklaring till att den multivariata regressionsmodellen inte fungerade som önskat, även om det nog ligger närmare till hands att tro, som tidigare nämnt, att det inte var

(44)

att inte heller PCA eller PLS modellerna kom helt till sin rätt i studien. Visserligen hade datamaterialet många observationer, men med endast två förklaringsvariabler och fyra responsvariabler blev inte modellernas förmåga att hantera flera variabler utnyttjad till sin fulla potential.

7.1 Företagsnytta och vidare studier

Rekommendationen till LKAB är att se över mätinstrumentet TC1 på gratevagnen då det inte fungerar korrekt. Förhoppningen att denna uppsats ska vara ett underlag för LKAB i

ytterligare forskning på området. Vidare forskning på de frågor som har aktualiserats i denna uppsats skulle behövas. Nya studier skulle kunna fastställa om och hur mätsystemen faktiskt samverkar med varandra. För att underlätta vidare studier rekommenderas starkt att bygga ut mätsystemet med en funktion som identifierar gratevagnens positionen i pelletsugnen. Den tidsstämpel som finns idag ger visserligen information om klockslag, men information om gratevagnens position framkommer inte. Att identifiera gratevagnens position med hjälp av hastighet och tid innebär tidskrävande beräkningar. Min studie indikerar på att det blir en för stor osäkerhet och felmarginal på gratevagnens position av att beräkna den med hjälp av en genomsnittshastighet, vilket kan antas bero på att gratevagnen inte rör sig i en konstant hastighet. Trots att det datamaterial som använts har valts utifrån att hastigheten för

gratevagnen inte ska ha varit avvikande åt varken extremt låg eller extremt hög, så tyder det på att identifieringen av gratevagnen med genomsnittshastigheten inte har varit felfri. Att beräkna gratevagnens position med genomsnittshastigheten för betydligt kortare sekvenser hade varit önskvärt, men det var tyvärr inte möjligt på grund av den tidsbegränsning detta arbete haft. Det tidskrävande arbetet ligger inte bara i att beräkna hastigheten för många sekvenser i ett stort datamaterial, utan också och kanske framförallt i den efterföljande statistiska analysen. En större datamängd och en större skillnad i hastighet inom

datamaterialet skulle innebära ännu större problem med detta. Det skulle därför ge såväl tidsvinning som betydligt säkrare analyser att ha en positionsstämpel på gratevagnen. Jag rekommenderar därför starkt att LKAB bör se över möjligheten med positionsstämpel.

(45)

mycket data och möjligtvis finns ett behov av att strukturera upp datamaterialet på ett sätt som gör det mer tolkningsbart men också lättillgängligt. Vidare studier av mätsystemet skulle dock behövas för att kunna använda det nyutvecklade mätsystemet på bästa sätt och därmed utnyttja dess fulla potential. Framtida studier kan genomföras på liknande sätt, men då måste säkerheten för gratevagnens position måste vara större. Annars är ett annat alternativ för vidare studier att endast undersöka gratevagnen, då det avlägsnar problemet med att matcha ihop vindboxar och gratevagn. Då kan det dock föreligga ett behov av att utöka antalet

mätpunkter på gratevagnen. Det vore också intressant att undersöka ett större datamaterial, då storleken på mitt datamaterial begränsades av datorkapacitet och fler laggar. I min studie undersöks endast en, men det kan finnas en fördröjning innan det som sker i en vindbox visar sig på gratevagnen vilket framtida studier bör undersöka. Vidare studier där fler variabler tas med i studien vore också väldigt intressant.

Jag kan konstatera att mer forskning behövs för att undersöka om de tendenser till en

värmespridning över gratevagnen som inte är jämn, som jag såg i min studie stämmer. Detta anser jag är viktigt att undersöka för LKAB. En jämn värmespridning är enligt tidigare forskning eftersträvansvärd då det bidrar till en jämn produktkvalitet och mindre slitage på utrustning i pelletsugnen. Att tendenser i denna studier tyder på att så inte är fallet i LKAB:s pelletsverk MK3 i Malmberget betyder att det finns möjligheter till såväl kostnadsbesparing som högre och jämnare produktkvalitet. En fullständig förståelse för det nyutvecklade mätsystemet skulle kunna medföra att det kan användas som ett verktyg för LKAB i styrningen av pelletsugnen. I dagsläget styrs pelletsugnen av resultat från pelletskulor som redan har gått igenom pelletsugnen. Det nyutvecklade mätsystemet, med kontinuerlig

(46)

8. Referenslista

Andersen, Ib. (1998). ​Den uppenbara verkligheten: val av samhällsvetenskaplig metod​. Lund: Studentlitteratur.

Byron, Frederick W. & Fuller, Robert W. (1970). ​Mathematics of classical and quantum

physics. Vol. 2​. Reading, Mass.: Addison-Wesley.

Cohen, Louis, Manion, Lawrence & Morrison, Keith. (2007). ​Research methods in education​. 6. uppl. London: Routledge.

Chatfield, Christopher & Collins, Alexander J. (1980). ​Introduction to multivariate analysis. London: Chapman and Hall.

Drugge, Roland. (2008). ​Lkab. ​LKAB internt material.

Eriksson, Lennart, Johansson, Erik, Kettaneh-Wold, Nouna & Wold, Svante. (2001). ​Multi-

and megavariate data analysis principles and applications.​ Umeå: Umetrics AB.

Esbensen, Kim H. (2010). ​Multivariate data analysis - in practice​. 5. uppl. Esbjerg: Ålborg University.

Everitt, Brian S. & Dunn, Graham. (2001). ​Applied multivariate data analysis.​ 2. uppl. London: Arnold.

Fuller, Wayne A. (1976). ​Introduction to statistical time series​. New York: Wiley.

Grolemund, Garrett & Wickham, Hadley. (2011). ​Dates and times made easy with lubridate. Journal of statistical software, 40(3), 1-25. http://www.jstatsoft.org/v40/i03/. [R-Paket]. Holme, Idar M. & Solvang, Bernt K. (1997). ​Forskningsmetodik: om kvalitativa och

kvantitativa metoder​. 2., [rev. och utök.] uppl. Lund: Studentlitteratur.

(47)

Kassambara, Alboukadel & Mundt, Fabian. (2017). ​Factoextra: extract and visualize the

results of multivariate data analyses. ​R package version 1.0.5.

https://CRAN.R-project.org/package=factoextra. [R-Paket].

Le, Sébastien, Josse, Julie & Husson, François. (2008). ​FactoMineR: an R package for

multivariate analysis.​ Journal of statistical software, 25(1), 1-18, doi: 10.18637/jss.v025.i01.

[R-paket].

LKAB. (u.åa). ​Lkab i korthet​. https://www.lkab.com/sv/om-lkab/lkab-i-korthet/ (Hämtad 2018-04-06).

LKAB. (u.åb). ​Pelletisering​.

https://www.lkab.com/sv/om-lkab/fran-gruva-till-hamn/foradla/pelletisering/?_t_id=1B2M2Y 8AsgTpgAmY7PhCfg%3d%3d&_t_q=grate+&_t_tags=language%3asv%2csiteid%3aa836b5 55-1d02-4962-8916-2fa77b3b5c29&_t_ip=81.170.129.95&_t_hit.id=Knowit_EPi_Site_KitM odules_Generic_Models_Pages_StandardPage/_4700fb7f-d3ea-4470-a697-d71a7d55161c_sv &_t_hit.pos=1 (Hämtad 2018-04-06).

LKAB. (u.åc). ​Styrdokument och policyer​.

https://www.lkab.com/sv/om-lkab/bolagsstyrning/styrdokument-och-policyer/ (Hämtad 2018-04-06).

LKAB. (u.åd). ​Presentation av mk3. ​LKAB internt material.

LKAB. (2012). ​Pelletizing Malmberget (Bandugnsverket buv Malmbergets kulsinterverk 3 mk3)​. LKAB internt material.

LKAB. (2018). ​Drifthandbok v2 pelletiseringsanläggning lkab mk3​. LKAB internt material. Mardia, Kantilal V., Kent, John T. & Bibby, John. (1979). ​Multivariate analysis​. London: Academic P.

Mevik, Björn-Helge, Wehrens, Ron & Liland, Kristian H. (2016). ​Pls: partial least squares

and principal component regression. ​R package version 2.6-0.

https://CRAN.R-project.org/package=pls. [R-Paket].

R Core Team (2017). ​R: a language and environment for statistical computing.​ R foundation for statistical computing. https://www.R-project.org/. [Programvara].

(48)

Simpson, Gavin. (u.å). ​Rmsep​.

https://www.rdocumentation.org/packages/analogue/versions/0.17-0/topics/RMSEP (Hämtad 2018-05-17).

Taylor, Travis S. (2017). ​Introduction to rocket science and engineering​. Boca Raton: CRC Press.

(49)
(50)
(51)

References

Related documents

Skogslandet kom emellertid att även utnyttjas av svenska och finska nybyggare som under 1700- och 1800-talen drog upp till inlandet från kusten.. Till

En mycket effektivare formel f¨ or att ber¨ akna ett n¨ armev¨ arde till π f˚ ar man genom att utnyttja sambandet arctan 1 = arctan 1/2 + arctan 1/3 och sedan anv¨

Input är en inbyggd funktion i python som skriver ut en sträng (ledtext) och som därefter väntar på att användaren skall mata in något.. Variabeln namn tilldelas värdet av

Betrakta oberoende f¨ors¨ok s˚ adana att en succ´e intr¨affar (p˚ a varje f¨ors¨ok) med sannolikhet p. Man forts¨atter att utf¨ora f¨ors¨oken tills en succ´e intr¨affar

Š Subjektiv tolkning kan ge upphov till olika inringningar. Š Quine-McCluskey löser

Personen avböjer samtliga förebyggande åtgärder - blåsdysfunktion. • Personen avböjer samtliga förebyggande åtgärder

En stokastisk variabel ξ ¨ar normalf¨ordelad med parametrarna µ och σ &gt; 0 om den har t¨atheten (se fig. Bj¨orup &amp; Ed´en: Analys i en och flera dimensioner s.. En

Ber¨akna v¨antev¨ardet och variansen f¨or summan av tio oberoende stokastiska variabler, som alla ¨ar likformigt f¨ordelade i intervallet (1,