Data mining för resurseffektivaretillverkning och produktion

(1)

Data mining för resurseffektivare

tillverkning och produktion

ANTON BERGKVIST

DAWIT SNÖGREN

MG100X Examensarbete inom Industriell Produktion

Stockholm, Sverige 2014

(2)

Data mining för resurseffektivare

tillverkning och produktion

av

Anton Bergkvist

Dawit Snögren

MG100X Examensarbete inom Industriell Produktion

KTH Industriell teknik och management

Industriell produktion

(3)

F¨

orord

Vi vill tacka Microsoft Sverige som bjöd in oss till Microsoft BI konferens som gav oss först˚aelse och insikt i vad ämnet Data mining kom att handla om. Ett tack till PWC som presenterade hur de önskar använda fram˚atriktade modeller vid interna analyser av företaget. Detta ökade v˚ar först˚aelse för Data minings breda potential, vilket fick oss att v˚aga undersöka nya användningsomr˚aden. Avslutningsvis vill vi tacka Per Johansson som varit v˚ar handledare och mentor genom projektet. Han har hjälp oss konfrontera problem och lett oss i rätt riktning samt hjälpt oss avgränsa projektet.

(4)

Sammanfattning

Hur g˚ar en organisation fr˚an att vara informationsrik till att bli insiktsfull - och hur tar man bästa beslut utifr˚an denna insikt? Det strömmar otroligt stora mängder data genom produktion- och tillverkningssystem. Företag saknar ofta kunskap kring hur denna information skall användas. Data mining är de verktyg som kan användas för att ta reda p˚a den informationen. Genom att upptäcka mönster och relationer i stora mängder data har Data mining gjort det möjligt att finna den kunskap man tidigare inte trodde fanns. Syftet med denna rapport är att undersöka om dessa verktyg kan användas för att öka resurseffektiviteten i tillverkning och produktion. Inom forskning, företagsekonomi, finansbranchen, myndigheter samt produktionsbo-lag appliceras Data mining till problemlösning och optimering. Läkemedelnsbranchen använder Data mining i syfte att effektivisera i produktionscykeln, men ocks˚a till att upptäcka kundmönster som är kopplade till läkemedlet. Data mining är uppbyggd av matematiska och statistiska metoder s˚a som, beslutsträd, regressionsanalys, ge-netiska algoritmer och neurala nätverk. Dessa gör det möjligt att upptäcka mönster och relationer i data. För att kunna utnyttja dessa metoder med goda resultat är det viktigt att den data man analyserar är specifik. Det innebär att data bör fil-treras fr˚an anomaliteter, saknade värden och felaktigt insamlad data. I Microsoft Excel är det möjligt att använda Data mining som analysverktyg. Genom verktyget Associate observeras relationer och mönster i en uppsättning data. Forecast är ett verktyg som beräknar ett sannolikt utfall genom att analyser historisk data, medan Highlight Exceptions identifierar undantag.

En empirisk studie utfördes i syfte att identifiera kritiska systemfel i en process, resultatet tyder p˚a att Associateverktyget är användbart vid resurseffektivisering. Utfallet i studien för Highlight Exceptions visar sig vara begränsad, vi fann dock att verktyget är användbart vid data hantering. Vid förutsägande modeller ifr˚agasätter vi tillförlitligheten till resultaten d˚a verktyget är datakänsligt. Rapporten visar att Data mining är ett användbart verktyg i syfte öka resurseffektiviteten.

(5)

Abstract

Is it possible for a data-rich organisation to become insight-rich and how does one optimise its decisions? Large amounts of information flows through production- and manufacturing systems. Businesses lack knowledge of how to use their stored data. Data mining are those techniques that can be used to detect patterns and identify relationships. Data mining has made it possible to find undiscovered knowledge in large amount of data. The purpose of this thesis is to examine if these techniques can be used to increase the resource efficiency within production and manufacturing. Within research, business economics, finance, governments as well as production are all using Data mining for problem solving and optimisation. The healthcare industry uses Data mining to improve the production cycle and to find valuable customer behavior. Data mining uses decision trees, multiple regression analysis, geospatial analysis and neural networks to create mathematical models. In order to use these methods and provide a good answer, it is necessary that the analyzed data is specific. Meaning that the data should be filtered from anomalies, missing values and incorrect data. Microsoft Excel makes it possible to use Data mining as an analysis tool. Using the tool, Associate, allows one to identify patterns in a set of data. Forecast is a tool that calculates a likely outcome of the future by analyzing the historical data. Whilst Highlight Exceptions detects exceptions.

An empirical study was made in order to identify critical errors in a system, the result indicates that the Associate tool is useful and thus able to increase the re-source efficiency. Highlight Exception has shown to be useful in order to prepare data. When using Forecast, one should question the reliability of the result since the tool is data sensitive. The thesis shows that Data mining is a useful tool in order to increase the resource efficiency.

(6)

Inneh˚

all

1 Introduktion 8 1.1 Syfte och m˚al . . . 8 1.2 Avgränsningar . . . 8 2 Definitioner 9 2.1 Beslutsträd . . . 9 2.2 Data . . . 10 2.3 Databas . . . 10 2.4 Descriptive Analytics . . . 10 2.5 Genetiska algoritmer . . . 10 2.6 Neurala nätverk . . . 10 2.7 Klusteranalys . . . 11 2.8 Regressionsanalys . . . 12 2.9 Stödvektormaskiner . . . 12 2.10 SQL . . . 12 2.11 SSAS . . . 13 2.12 Predictive Analytics . . . 13 3 Data mining 14 3.1 Vad är Data mining . . . 14

3.2 Varf¨or Data mining . . . 14

3.3 Datahantering . . . 15 3.3.1 Förbereda data . . . 15 3.3.2 Begränsning . . . 16 3.3.3 Metod . . . 16 3.3.4 Validering . . . 18 3.4 Användning . . . 18

(7)

4 Data mining med Microsoft Excel 20

4.1 Forecast . . . 20

4.2 Associate . . . 22

4.3 Highlight Exceptions . . . 25

5 Resultat och diskussion 27 5.1 Forecast . . . 27

5.2 Associate . . . 28

5.3 Highlight Exceptions . . . 28

5.4 Begr¨ansningar och Tillf¨orlitlighet . . . 29

6 Slutsats 31

(8)

Introduktion

Den enormt stora mängd tillgängliga data som finns inom tillverkning och produk-tion inneh˚aller värdefull information. Information som ger värde till företag i form av kunskap och först˚aelse. Att ha kunskap och god insikt i sin produktion ger makt i tillverkning och produktionssammanhang. Detta eftersom kunskap ger möjligheten att bevara värdefulla arv samt underlättar invecklade problem och förm˚agan att skapa kärnkompetenser. Den växande volymen företagsdata ger upphov till m˚anga utmaningar, där n˚agra är att utvinna, lagra, organisera och använda information som finns i den lagrade datan. Att kunna se mönster, strukturer och relationer i den lagrade informationen kan vara sv˚art, speciellt d˚a det är tusentals data med flera variabler. Vi vill med denna rapport besvara fr˚agan; kan Data mining öka resursef-fektiviteten vid tillverkning och produktion?

1.1 Syfte och m˚

al

M˚alet med rapporten är att diskutera och utröna huruvida Data mining är ett användbart kvantitativt verktyg för industriföretag vid resurs- och tillg˚angoptimering. M˚alet med den litteraturstudie som gjorts är att först˚a Data mining och anv¨ andnings-omr˚aden för Data mining. Därefter koppla den kunskapen resurseffektiv produktion och tillverkning. Syftet med den empiriska studien är att undersöka om Data mi-ningverktygen i Microsoft Excels Analysis ToolPak kan, i praktiken, användas till resurseffektivisering.

1.2 Avgr¨

ansningar

I denna rapport fokuseras det p˚a olika användningsomr˚adena för Data mining. De användningsomr˚aden som presenteras har begränsats för att kunna kopplas till re-surseffektivisering. Empirin har begränsats till tre verktyg i Microsoft Excel med tilläggsprogrammet Analysis ToolPak. Data mining bygger p˚a matematiska och sta-tistiska modeller; härledningar och bevis för modellerna har uteslutits.

(9)

Definitioner

I litteraturstudien p˚aträffades en rad olika begrepp, metoder och termer. Beslut-sträd, Genetiska algoritmer, Neurala nätvärk, Klusteranalys, Regressionsanalys och Stödvektormaskiner är matematiska instrument som är bra att ha en kännedom om.

2.1 Beslutstr¨

ad

Ett beslutsträd är ett träd som spänner upp tänkbara resultat med avseende p˚a tidigare givna beslut. I Figur 2.1 illustreras hur ett beslutsträd kan se ut [1].

Figur 2.1: Beslutsträdet illustrerar en person som tar till v˚ald mot sig själv, mot andra eller mot ett förem˚al med respektive utfall [2].

(10)

2.2 Data

Begreppet data har en bred betydelse. I denna rapport refereras data till en samling information.

2.3 Databas

En databas är ett lager där information organiseras och sparas. Databasen förenklar s˚aledes sökningar och möjligheten att hämta segment av den inneh˚allande datan.

2.4 Descriptive Analytics

Descriptive Analytics är en kategori för beskrivande statistik, vilket används vid identifiering mönster, trender, relationer och förh˚allanden mellan data. Förh˚allandet mellan dessa data ska vara icke-trivial, värdesättande samt enkel för att kunna p˚averka datan med en handling som gör skillnad inom organisationen.

2.5 Genetiska algoritmer

¨

Ar en kvalificerad lösning som används för att härma beteenden. Den finner sin in-spiration fr˚an biologin där starka beteenden förs vidare. Metoden bygger p˚a att finna approximativa prognoser d˚a traditionella lösningar tar för l˚ang tid. Den genetiska algoritmen beräknar ett sannolikt utfall baserat p˚a tidigare funna mönster [3].

2.6 Neurala n¨

atverk

Inom datavetenskap används begreppet neurala nätverk. Det är en modell inspi-rerat fr˚an det centrala nervsystemet. Modellen används inom Data mining främst för mönsterigenkänning och för maskininlärning. Figur 2.2 beskriver hur processen ser ut. Neurala nätverk har stor användning inom prognoser men även för pro-blemlösning med multipla variabler [4].

(11)

Figur 2.2: Neuralan¨atverk finner dolda m¨onster i data [5].

2.7 Klusteranalys

Metoden att kategorisera objekt efter liknande data kallas klusteranalys. Klustera-nalys kan inte generaliseras med en modell utan beräknas med varierande modeller fr˚an ett exempel till ett annat. Vanligtvis definieras klusteranalys som flerdimen-sionell optimering. I Figur 2.3 illustreras en klusteranalys där olika grupper länkas samman till en referenspunkt som är placerad i mitten. Det förekommer även sam-band mellan de olika grupperna, dessa samsam-band beskrivs av nätverkets länkar [6].

(12)

Figur 2.3: Klusteranalysen visar samband mellan olika grupper till en specifik refe-renspunkt [7].

2.8 Regressionsanalys

Regressionsanalys är en statistisk metod som bäst anpassar en modell utifr˚an obser-verad data. Med hjälp av regressioner är det möjligt att finna samband mellan data citereg.

2.9 St¨

odvektormaskiner

En st¨odvektormaskin ¨ar en statistisk klassificerare. Egenskaperna p˚aminner om regressionsanalysen [8].

2.10 SQL

Structured Query Language, ¨ar ett standardiserat programspr˚ak som s¨oker och upp-daterar en databas [9].

(13)

2.11 SSAS

SSAS, SQL Server Analysis Services, är flerdimensionell OLAP, Online Analys Pro-cess, och Data mining server. Det är ett informationslager där analyser görs. För att använda Microsoft Excels Data mining verktyg krävs en SSAS [10].

2.12 Predictive Analytics

Predictive Analytics är en kategori för fram˚atriktade analyser. Där ing˚ar Neurala nätvärk, Regressionsanalyser, Stödvektormaskiner och Genetiska algoritmer [11].

(14)

Data mining

Företag besitter idag stora mängder data men saknar ofta kunskap kring hur den skall användas. Under 1960-talet började företag successivt överföra insamlad data till databaser och p˚a s˚a vis har information blivit mer lättillgänglig i större volymer. Sedan dess har mängden data ökat p˚atagligt, under de senaste ˚aren har den insam-lade datavolymen varit lika stor som all tidigare insamlad data tillsammans. Efter införandet av databaser blev nästa stora steg för datahantering när ’The World Wi-de Web’ introduceraWi-des unWi-der 1990-talet. D˚a möjliggjordes det information kunde flöda utanför det interna nätverket och blev följatligen snabbare tillgängligt. Även utvecklingen av noggrannare mätinstrument har bidragit till att större fluktuationer kunnat uppmätas, det vill säga att variationen i datan har ökat. Det kan konstateras att ökad volym, ökad hastighet samt större variation p˚a data bidragit till behovet av Data mining. Det krävs s˚aledes att inom en rimlig tid kunna analysera stora mängder varierande data [12].

3.1 Vad ¨

ar Data mining

Data mining är ett kraftfullt verktyg som används för att analysera och finna mönster samt beteenden i stora datamängder. Metoderna bygger sina beräkningar p˚a avancerade matematiska och statistiska modeller. Dessa modeller är Beslut-sträd, Genetiska algoritmer, Klusteranalys, Neurala nätverk, Regressionsanalys samt Strödvektormaskiner [13] [14].

3.2 Varf¨

or Data mining

Data mining ger en ökad först˚aelse för företagets egna produkter samt dess kunder. Gemensamt leder det till att förbättring företaget. Det har tidigare nämnts att Data mining används för att analysera stora mängder data. Det krävs dock inte enbart att datamängden är stor för att använda Data mining. Det räcker med att datamängden ¨

(15)

att använda för att finna mönster. Genom att applicera Data mining p˚a historisk data kan man förutse vad ett sannolikt utfall är där information saknas. En stor och viktig användning av Data mining är att kunna förklara varför vissa processer lyckas medan andra misslyckas.

3.3 Datahantering

Som tidigare nämnts lagras stora mängder data i databaser, denna data kom-mer ifr˚an observationer som gjorts vid produkt- eller tillverkningsprocesser, ma-terialplanering, kvalitetskontroller, planering etc. Den insamlade datan inneh˚aller värdefull information och kunskap som kan, om den integreras i företaget p˚a rätt sätt, förbättra beslut och öka produktiviteten i företaget [11]. Det är därför viktigt att den data man arbetar med är s˚a specifik som möjligt.

3.3.1 F¨orbereda data

Att förbereda data är en tidskrävande process, men ocks˚a nödvändig för ett lyckat arbete. Detta eftersom kvaliteten p˚a den ackumulerade datan m˚aste vara hög, d˚a resultat och analys beror av den. Data är en avgörande faktorn i bestämmandet av kvaliteten p˚a analysen. Att arbeta med r˚adata, dvs obehandlad data, kan vara vilseledande, det är därför viktigt att bearbeta den. Detta eftersom den kan inneh˚alla anomaliteter, saknade värden, dubblerad data, felaktigt insamlad data, utg˚aende data etc. Det är viktigt och nödvändigt att sortera den insamlade data, samt att kategorisera den. De data som inte är p˚a tabellform bör konverteras till tabellform för att kunna utnyttja egenskaperna inom Data mining, d˚a datan mestadels best˚ar av m˚anga olika variabler. dvs multipla variabler i form av en matris. I Figur 3.2 illustreras hur datan bör ställas upp innan p˚abörjad analys. I Figur 3.2 framg˚ar det ocks˚a hur information kategoriseras, för att göra den lättillgänglig genom att ha Namn, ˚Alder, Kön, Blodtryck etc som olika kategorier [14].

(16)

Figur 3.1: Exempeldata med multiplavariabler [13].

3.3.2 Begr¨ansning

När den insamlade datan förberetts är nästa steg i processen att avgränsa data. Att använda all den insamlade data är inte alltid praktiskt eller nödvändigt, speciellt d˚a antalet observationer eller undersökningar är stor. Genom att rensa den insam-lade data kan korrupt, felaktig, irrelevant eller ofullständig data etc upptäckas och korrigeras [14]. Det kan vara lättare att dra samma slutsatser utifr˚an en mindre mängd observationer. D˚a mängden data reducerats genom stickprov är det viktigt att jämföra statistiken av stickprovet med statistiken för ursprungsdatan [13].

3.3.3 Metod

Resultaten av analysen kommer helt bero av vilken modell eller metod som används i studien. S˚aledes är det viktigt att utvald data används med en modell som överensst¨ a-mmer med det studien syftar p˚a. Det är ocks˚a viktigt att m˚alet med studien ¨ overensst-¨

ammer med den data som analyseras. När datan är insamlad och en lämplig av-gränsning är gjord är nästa steg i Data mining processen att välja en lämplig metod. Det finns olika metoder och matematiska modeller för att analysera data. Inom Da-ta mining kategoriseras dessa inom Descriptive Analytics eller Predective Analytics [14]. Genom den förstnämnda kan trender, förh˚allanden, korrelationer etc upptäckas, den sistnämnda används för att göra fram˚atriktade analyser om framtiden.

Det finns ingen universiell bästa Data mining metod för tillverkning. I stället ökar användandet av kombinerade Data mining algoritmer, för att utnyttja fördelarna med respektive metod. Figur 3.3 visar sambanden mellan olika produktion- och till-verkningsprocesser med Data mining funktioner. Det har visats att vissa metoder

(17)

¨

ar mer frekvent använda inom en speciell del av tillverkningsprocessen. Dessa in-kluderar, fram˚atriktad analys i tillverkningsprocessen, association i produktdesign, klassifikation inom kvalitetskontroller, underh˚all och konceptbeskrivning. Figur 3.4 visar att det finns en tydlig länk mellan tillverkningsprocesser och fram˚atriktad analys, samtidigt visar Figur 3.3 att det finns ett starkt förh˚allande mellan tillverk-ningsprocesser och Neurala nätvärk. S˚aledes kan kan Neurala nätvärk användas som en användbar metod i tillverkningsprocesser i syfte för fram˚atriktad analys [15].

Figur 3.2: L¨ankar och korrealtioner mellan tillverkningsomr˚aden och Data mining funktioner [15].

(18)

Figur 3.3: L¨ankar och korrealtioner mellan tillverkningsomr˚aden och Data mining metoder [15].

3.3.4 Validering

Validering görs för att utvärdera träffsäkerheten i modellen samt för att avgöra vilka mönster i modellen som är intressanta och vilka som är ointressanta. De intressanta mönster är de mönster som levererar användbar kunskap om en given tillämpning och har en viss grad validitet [16]. Validering är ocks˚a att jämföra resultatet med tidigare kända resultat. En modell som inte är träffsäker och som inte matchar datan kan inte producera ett korrekt resultat och g˚ar s˚aledes inte att använda [14].

3.4 Anv¨

andning

Inom forskning och företagsekonomi, finansiella institutioner, myndigheter och pro-duktionsbolag används idag Data mining. Inom banksektorn används det till att förebygga kortbedrägeri [12]. Data mining är användbart inom problemlösning, ex-empelvis till att hantera finansiella portföljer, optimering av reklamkampanjer och kontrollering av försäkringsbedrägerier [14]. Redan 1999 användes olika Data mining tekniker s˚a som beslutsträd, regressionsanalys och neurala nätvärk till att förutsp˚a komponenthaveri p˚a flygplan. Resultatet ledde till en ny utformining för att förbygga felen i komponenterna [11]. I en litteraturstudie som gjordes 2004 utvecklads en förutsägande modell för optimering av mekaniska egenskaper i galvaniserad st˚al. Modellen baseras p˚a klusteranalys och neurala nätvärk [17]. Studier har visat att

(19)

Data mining är effektivt inom läkemedelsbranschen där det används för att tillverka läkemedel mot prognoser samt i effektiviseringssyfte i produktionscykeln för en en-skild tablett. Stora mängder data samlas in under livscykeln för medicinen s˚a som marknadsanalyser i form av information fr˚an doktorer, patienter och konsumtion av medicinen. Men ocks˚a fr˚an tillverkningsprocesser. Data mining som appliceras p˚a läkar- och patientdata kan bidra till först˚aelse för vilka kvaliteter p˚a medicinen som kunderna föredrar, vad nya kunder anser om läkemedlet och varför vissa kunder inte väljer att använda läkemedlet. S˚aledes är det möjligt att upptäcka kundmönster som ¨

ar kopplat till l¨akemedlet [18].

Data mining används idag främst för att söka efter lönsamma kunder och först˚a dessa kunders behov. Men även till att förutse kundflöden för att p˚a s˚a vis kunna förutse försäljning och önskad volym i lager. Den sistnämnda funktionen är en av de absolut vanligaste medel för att förutse försäljning och anpassning av lager d˚a den grundas p˚a tidsserieanalys [12].

Figur 3.4: Data mining i produktion [11]

I Figur 3.1 illustreras en integrering av en Data mining process. Processen inleds med att ett fel identifieras. Därefter samlas oberbetad data in, denna data filtreras och anpassas s˚a det är möjligt att bygga en modell utifr˚an datan. När modellen är fram-ställd är nästa steg att tillämpa den i tillverkningsprocessesen. Därefter utvärderas

(20)

Data mining med Microsoft Excel

Data mining har ett brett spektrum, och kan tillämpas i stort sett p˚a vad som helst givet att det finns tillräckligt med data. I denna studie begränsas användandet till tre analyseringsverktyg i Microsoft Excel tilläggsapplikation, Analysis ToolPak. Det kommer visas exempel samt teorier kring hur dessa verktyg kan användas för att resurseffektivisera inom produktion och tillverkning.

4.1 Forecast

Att kunna förutse en tillverkningsprocess, kvalitet, underh˚all, defekter, produktions-eller tillverkningssystem har avgörande betydelse. Forecast är en funktion som ber¨ ak-nar ett sannolikt utfall genom att analysera historisk data. Forecast bygger p˚a Regressionsanalys eller Neurala nätverk för att skapa en förutsägande modell, s˚aledes kategoriseras Forecast i Predictive Analytics [11]. I nedanst˚aende exempel illustre-ras hur försäljningen utvecklats över en tre˚arsperiod samt ett sannolikt utfall p˚a kommande sex m˚anader.

(21)

Figur 4.1: F¨ors¨aljningshistorik

I Figur 4.1 illustreras försäljningsutvecklingen över den givna tre˚arsperioden. Tydligt för det tre världsdelarna är att försäljningen har ökat stadigt. Det krävs d˚a att anpassa varutillg˚angar till efterfr˚agan. Figur 4.1 indikerar p˚a fortsatt utvecklingen upp˚at. Det är d˚a med stor risk företagsledningen drar förhastade slutsatser och ökar sin produktion mer än nödvändigt.

(22)

Figur 4.2: F¨ors¨aljningshistorik med fram˚atriktad analys

I Figur 4.2 har en approximativ utvecklingsprognos använts, baserad p˚a historisk försäljning. Som Figuren 4.2 illustrerar kommer en ökad produktion i samtliga tre världsdelar, p˚a sex m˚anaders sikt, ge negativ effekt d˚a försäljningen i Europa och Oceanien tycks ha en ned˚atg˚aende trend. Nordamerika som historiskt haft en volatil försäljning verkar p˚a kort sikt möta en svag nedg˚ang men p˚a en sexm˚anaders horisont kunna väga upp sin försäljning till att möta nya motst˚and. Analysen kan med goda skäl ligga till grund för beslut av ökad, minskad respektive bibeh˚allen produktion.

4.2 Associate

Associate är en funktion utvecklad till att finna relationer, upprepningar och mönster mellan en uppsättning data i en databas. Metoden är främst framtagen i syfte att minimera kostnader vid marknadsföring men även för att finna logiska varuplace-ringar p˚a varugolvet s˚a väl som p˚a lager [12]. Det har under senare ˚ar utvecklats appliceringsomr˚aden för associate inom produktion d˚a det använts inom telekom-branschen för att identifiera de händelser som sker innan ett problem uppst˚ar. Det har därför blivit möjligt att förutse när och varför problem uppst˚ar.

(23)

sam-band. M˚alet är att finna de systemfel, Outlines, som med största sannolikhet leder till att ett systemet havererar. De Outlines som anges är tagna fr˚an en uppsättning data. Det har totalt gjorts hundra tester fr˚an det att systemet startats tills det ha-vererar. Totalt upptäcktes 1000 systemfel under de 100 testkörningarna, gemensamt för alla tester är att de avslutades med att ’Systemet Havererar’. Datan är fiktiv men skall ge en god uppfattning om hur Associate kan användas för att förbättra en produkt med ett effektivt tillvägag˚angsätt.

Figur 4.3: Funna samband

I Figur 4.3 observeras det hur samtliga Outlines pekar mot ’Systemet Havererar’. Det innebär att samtliga systemfel slutligen leder till systemhaveri. Det observeras att det finns en relation mellan Outline 15 och Outline 5 samt Outline 8 och Outline 29. Vad som är intressesant är att se hur stor p˚averkan dessa fel har p˚a systemet samt att se p˚a med hur stor sannolikhet dessa fel inträffar. Sannolikhetsgraden justeras till den grad endast de starkaste sambanden i datan betraktas. De sex vanligaste orsakerna till haveri illustreras i Figur 4.4, Outline 2, 8, 15, 23, 28 och 32. Det är därför lämpligt att korrigera dessa systemfel först. Det visar sig även finnas tydliga

(24)

Outline 5 respektive Outline 29 uppst˚ar, som i sin tur minskar risken f¨or haveri.

Figur 4.4: Starkast samband

Slutsatsen är att av alla kända systemfel g˚ar det att minska risken för haveri ge-nom att lösa de sex systemfelen som har de starkaste sambanden till att systemet havererar.

(25)

4.3 Highlight Exceptions

Highligt Exceptions är en funktion som identifierar undantag i en uppsättning data. Undantagen kallas Outlines och bör identifieras innan resterande data analyseras. Outlines kan vara fel som uppst˚ar i ett system. Genom att utesluta Outlines kommer noggrannare resultat att presenteras. Detta verktyg är användbart innan p˚abörjad Data miningprocess, det vill säga vid datahantering. D˚a funktionen kan användas till att filtrera data. Highlight Exceptions använder matematiska och statistiska me-toder som kategoriseras under Descriptive statistics.

Nedan presenteras ett exempel hur Highlight Exception fungerar, samt en analys av resultatet. Exemplet bygger p˚a en databas inneh˚allande ett kundregister med ¨

over tiotusen registrerade kunder. Hightlight Exceptions identifiera de kunder som anses vara undantag.

(26)

Om kundregistret ska analyseras rekommenderas det att undersöka vilka undantag som existerar i datan. Genom att utesluta undantagsfallen är det möjligt att redovisa ett mer tillförlitligt resultat.

Figur 4.6: Utdrag fr˚an undantag fr˚an personregister

De personer som i Figur 4.6 anses vara undantag är gulmarkerade och den data som identifierats som utstickande är färgad i en klarare gul färg. Personen med ID-nummer 15112 betraktas som ett undantag och som figuren illusterar är det ˚aldern som f˚ar personen i fr˚aga att sticka ut. Vid närmare undersökning av personen framg˚ar det att det inte är ˚aldern i sig som utgör ett undantag, d˚a finns fler 54-˚ariga kvinnor. Det är i relation till resterande data som medför att personen tolkas som ett undantag. Hade kvinnan exempelvis varit 30 ˚ar yngre skulle hon inte betraktas som ett undantag med givna parametrar. S˚a som att vara 54 ˚ar, gift, äga tre bilar, en lön över medel, men endast ett barn. Mannen med ID-nummer 15115 anses även han som ett undantag d˚a han äger tre bilar. I relation till resterande datan brukar 56-˚ariga män fr˚an Europa som lever ensamma med ett barn äga mindre än tre bilar. Slutligen framg˚ar av figuren att personen med ID-nummer 15140 även anses vara ett undantag med avseende p˚a hennes ˚alder. D˚a kvinnor fr˚an Oceanien med en högre utbildning, äger fyra bilar och är 35 ˚ar gamla har generellt f˚att barn samt äger färre bilar.

(27)

Resultat och diskussion

Data mining har skapat intelligenta verktyg som är användbara i syfte att resursef-fektivisera. Verktygen kan användas i de produktion- och tillverkniningsystem där det önskas att minimera resurs˚atg˚angen, givet att det finns möjlighet att samla in data.

5.1 Forecast

Genom aktiv användning av förutsägande modeller tror vi att det är möjligt att minimera förluster vid konjukturnedg˚ang. Antag att ett företag som sysslar med massproduktion ser en negativ trend i sin fram˚atriktade prognos. Det är d˚a möjligt att använda denna analys som beslutsunderliggande för att minska produktionen och istället sälja av varor i lager. Detta ger möjlighet att minska det bundna kapi-talet samt att minska kostnaderna för att h˚alla produktionen ig˚ang. Det är ocks˚a möjlig att använda förutsägande modeller ˚at andra h˚allet, det vill säga att inför högkonjuktur kunna ställa om produktionen s˚a att ledningen hinner ta beslut för att förbereda lagret och därigenom öka sin leveransprecision. Med hjälp av diagrammet i Figur 4.2 kan inköp och planering av produktion göras. I diagrammet observeras en ned˚atg˚aende trend för Europa, beroende p˚a företagets strategi, bör ledningen vara observanta. Vi menar att inköp av material till produktionen eventuellt bör minska. Medan inköpen i Oceanien, som enligt analysen beräknats till fortsatt stabil, bör vara oförändrad. Det mest kritiska beslutet är gällande marknaden i Nordamerika där försäljningshistoriken haft en övergripande volatil upp˚atg˚aende trend. Vi drar slutsatsen att produktionen bör ökas i Nordamerika, minskas i Europa och bibeh˚allas i Oceanien. Det är p˚a s˚a vis möjligt att leverera varorna i rätt kvantitet, rätt kvalitet och vid rätt tidpunkt enligt Just in time [19].

(28)

strategi [20]. Lean är en metod som baseras p˚a att eliminera samtliga parametrar i en produktion som inte bidrar med n˚agot värde till slutkunden. Ett användningsomr˚ade vi ser med Data mining, kopplat till Scania är att skapa försäljningsprognoser och s˚aledes anpassa inköp av komponenter därefter. För att tillämpa Lean krävs att kom-ponenterna är tillgängliga när beställningen fr˚an kunden görs. Det blir d˚a tydligt var och när företaget bör öka respektive minska en leveransorder av komponenter. S˚aledes skapas möjligheter att minska sin överproduktion för att p˚a s˚a vis minime-ra det bundna kapitalet. Att minimeminime-ra det bundna kapitalet har en stor betydelse för företagens balansräkningar, detta leder till ökad kreditvärdighet d˚a företagets ˚aterbetalningsförm˚aga ökar.

5.2 Associate

Att använda Associationsverktyget till ändam˚alet att minimera risken för ett system-haveri framg˚ar tydligt i exempel 4.2. Det visar att Data mining är effektivt vid felsökning av system. Genom att fastställa vilken maskin eller vilket typ av systemfel som orsakar ett haveri kan ett företag minimera spill vid tillverkning, minimera sina kostnader vid produktionsstopp samt minimera antalet felproducerade varor. S˚aledes ¨

ar det möjligt att effektivisera b˚ade produktion och tillverkning samt förbättra pro-duktens kvalitet. Genom att ˚atgärda de orsaker som med största sannolikhet leder till felproduktion blir det tydligt hur ett företag kan förbättra utnyttjande av in-stoppade resurser och s˚aledes uppn˚a önskat resultatet mer effektivt. Denna typ av studie har tidigare används, där man skapade en associationsregel för att upptäcka defekter vid tillverkning av halvledare. Där man, likt oss, fastställde en association mellan olika maskiner och deras inverkan p˚a felskapade produkter [15]. Vi tror att associationsregler är användbara för industriföretag. D˚a det är möjligt att förbättra precisionen p˚a reklam, marknadsföring, produktplacering och lagerplacering som as-socieras med ökad effektivitet.

5.3 Highlight Exceptions

I exemple 4.3 beskrivs hur Highlight Exceptions kan användas för att upptäcka un-dantag ur stora databaser. Ett användningsomr˚ade för denna funktion är att iden-tifiera mätbara systemfel i en process, exempelvis vid tillverkning av kretskort eller för att identifiera systemfelen i exempel 4.2. Men även till förberedelse av data i den

(29)

fram˚atriktade analysen fr˚an exempel 4.1. Undantag ur denna försäljningshistorik bör observeras d˚a försäljningen kan p˚averkas positivt eller negativt av oregelbundna s˚a väl som planerade orsaker. Dessa orsaker f˚ar definieras fr˚an fall till fall. Det kan exempelvis vara lämpligt att ta med utfallen fr˚an en marknadskampanj som en pla-nerad orsak, medan en nedsatt försäljning orsakat av ett strömavbrott bör uteslutas d˚a företaget inte kan p˚averka orsaken och förhoppningsvis inte är ett ˚aterkommande problem. Om s˚a är fallet skall även dessa undantag användas vid analysen.

Vid ett studiebesök p˚a Scania observerades en maskin. Den var programmerad att ansätta skruvförband med förbestämt moment. Genom att automatisera processen kunde företaget sparar in är ett par minuter per monterad motor. Det observerades att maskinen hade ett systemfel, vilket var att maskinens precision var bristan-de d˚a den ˚aterkommande missade gängorna. Vi tror att Highlight Exceptions är användbart i detta fall, d˚a produktionsystemet använder sig av robotar. Vi antar att informationen i produktionssystemen best˚ar av stora mängder data med flera va-riabler. Det är sv˚art samt tidskrävande att manuellt analysera och finna avvikelser i datan. Har information rörande produktionssystemet lagrats p˚a ett effektivt sätt ¨

ar det möjligt att genom Hightlight Exceptions finna vilka avvikelser som sannolikt orsakar felet. Är detta ett ˚aterkommande produktionsfel, med okänd orsak, kommer produktiviteten att minska.

5.4 Begr¨

ansningar och Tillf¨

orlitlighet

Vi har upptäckt begränsningar under projektets g˚ang bland annat hur analysens snabbhet p˚averkas av datavolymen. Det rekommenderas att vid analys av större volymer nyttja kraftfullare databaser. D˚a dessa vanligtvis finns p˚a större företag är det inte n˚agot avgörande problem. Dock har det begränsat oss under projektet d˚a vi skapat en lokal databas p˚a en laptop. Vi har även upptäckt vikten av att vara kritisk i sitt användande av Microsoft Excel, eftersom det i programmet inte framg˚ar vilka matematiska eller statistiska metoder som används vid respektive verktyg. Den fram˚atriktade analysen beskriver endast ett sannolikt utfall och inte en konkret sanning. S˚aledes ifr˚agasätter vi tillförlitligheten till förutsägande modeller.

(30)

Det framg˚ar i en studie att Neurala nätverk ger ett mer korrekt utfall än Regression-sanalyser [11]. Exempelvis är vektyget Forecast en förutsägande modell och är i grun-den uppbyggd av Regressionsanalyser eller Neurala nätvärk. Det är dock sv˚art att fastställa vilken av dessa metoder Microsoft bygger Forecastverktyget p˚a eller om det är en kombination av dessa. S˚aledes bör precisionen i resultatet ifr˚agasättas. I Figur 5.1 illustreras tv˚a utfall grundat p˚a samma historisk, där samtliga ing˚aende variabler h˚alls konstanta, förutom tidsintervallet. Det bl˚a samt det röda utfallet re-presenteras av tv˚a respektive fyra ˚ars historisk data.

Figur 5.1: Tv˚a utfall baserat p˚a ett l˚ang- och korttidsintervall

Det framg˚ar i Figur 5.1 att det analyserade intervallet p˚averkar utfallen. Vi drar slutsatsen att tillförlitligheten i resultatet beror av tidsintervallet. Det är analyti-kerns ansvar att urvalet av intervall speglar företagets nuvarande situation bäst. I 3.3 redogörs vikten av analytikerns beslut av vilket intervall som skall beaktas, vil-ken data som ska inkluderas samt vilvil-ken metod som ska användas. S˚aledes vill vi betona vikten inneh˚allet i avnitt 3.3 Datahantering.

(31)

Slutsats

Vi tror att det främsta användningsomr˚adet för Data mining, kopplat till resur-seffektivisering, är inom Descriptive statistics. Vi anser att man bör vara kritisk till de resultat som ges av Predictive analytics. Litteraturstudien visar p˚a att Data mining förekommer inom produktion och tillverkning. I den empiriska studien har Associatevektyget i Microsoft Excel visat sig vara effektivt i ändam˚alet att resursef-fektivisera. Därför anser vi att Data mining gör det möjligt att resurseffektivisera och därför rekommenderar vi företag att implementera Data mining i nästa steg att ¨

(32)

Uppf¨

oljning

För att kunna använda Forecast krävs en bättre först˚aelse till dess tillförlitlighet, samt klargöra vilka faktorer som p˚averkar resultatet. Microsoft Excel levererar re-sultat som kan vara sv˚ara att tolka. Det krävs att användaren har god kännedom i de metoder som finns för att presentera data. Microsoft har utvecklat program som kan förenkla först˚aelsen av resultaten exempelvis Power Pivot, Geospatial Data Exploration och Power View [21]. Dessa funktioner finns som tilläggsprogram för Microsoft Excel och används generellt till att p˚a ett tydligt och lättförst˚aeligt sätt kunna översk˚ada och presentera data. Det fordras även att kunna avgöra vilken data som krävs för att kunna ge svar p˚a de fr˚agor som ställts. S˚aledes torde ett viktigt steg vara att optimera datainsamlingen vid tillverkning och produktionsprocesser. Det är intressesant att undersöka om det finns alternativa program som kan användas vid Data mining samt jämföra hur resultaten skiljer sig. Vi tror att en lämplig uppföljning är att använda programmerings program, där det är möjligt att kontrol-lera tillförlitligheten i metod och kod.

(33)

Litteraturf¨

orteckning

[1] Kungliga Tekniska H¨ogskolan, “Beslutstr¨ad,” 2014. [2] Certec, 2014.

[3] J. W. Peter Nordin, Humanioder - Sj¨alvl¨arande robotar och artificiell intelligens. Liber, 2003.

[4] Helge Malmgren, “Neuralan¨atverk,” 2003. [5] Gamedev, “Neuralt n¨atverk,” 2014.

[6] S. K.Foss, Rhetorical Criticism: Exploration and Practice. Waveland Press, 2008.

[7] Wordpress, “Clustering,” 2014.

[8] David Meyera, Friedrich Leischa, Kurt Hornikb, “St¨odvektorsmaskin,” 2003. [9] Microsoft, “Sql,” 2014.

[10] Microsoft, “Ssas,” 2014.

[11] J. . T. M. Choudhary, A.K. ; Harding, “Data mining in manufacturing: A review based on the kind of knowledge,” Journal of Intelligent Manufacturing, no. 4, pp. 501–521, 2008.

[12] J. Liebowitz, Big Data and Business Analytics. 6000 Broken Sound Parkway NW, Suite 300: Taylor Francis Group, 2013.

[13] W. P. L. A. K. Krzysztof J. Cios, Roman W. Swiniarski, Data Mining - A Knowledge Discovery Approach. 233 Spring Street, New York, NY 10013, USA:

(34)

[14] W. P. M. Myatt, Glenn J. Johnson, Making Sense of Data II : A Practical Guide to Data Visualization, Advanced Data Mining Methods, and Applications. Hoboken, NJ, USA: Wiley, 2009.

[15] C. W. H. C. M. K. T. H. . S. T. W. Chen, F. C., “Cycle time prediction and control based on production line status and manufacturing data mining.,” In IEEE International Symposium on Semiconductor Manufacturing, pp. 327–330, 2005.

[16] C. N. J. . D. K. Ng, Amos H.C.; Dudas, DSimulation-Based Innovization Using Data Mining for Production Systems Analysis. 236 Gray’s Inn Road, London, WC1X 8HB , United Kingdom: Springer London, 2011.

[17] M. A. G. G. J. A. . R. V. L. Mere, J. B. O., “Estimation of mechanical proper-ties of steel strip in hot dip galvanising lines,” Iron making and Steel making, pp. 327–330, 2012.

[18] P. S. Miral Kothari, “Data mining ; tablet – medicine manufacturing,” Inter-national Journal of Electronics and Computer Science Engineering, p. 43–50, 2004.

[19] S. J. S. Takao Enkawa, Handbook of Industrial Engineering: Technology and Operations Management. John Wiley Sons, Inc, 2001.

[20] Leif ¨Ostling, “Scania,” 2014.

[21] Projectbotticelli, “Geospatial data exploration with excel power view and sha-repoint, microsoft business analytics with office 2013, sharepoint 2013 and sql server 2012, introduction to data mining with microsoft sql server, introduction to powerpivot for sql server 2012, multidimensional analysis with microsoft excel and sql server,” 2014.