• No results found

Data mining för resurseffektivaretillverkning och produktion

N/A
N/A
Protected

Academic year: 2021

Share "Data mining för resurseffektivaretillverkning och produktion"

Copied!
34
0
0

Loading.... (view fulltext now)

Full text

(1)

Data mining för resurseffektivare

tillverkning och produktion

ANTON BERGKVIST

DAWIT SNÖGREN

MG100X Examensarbete inom Industriell Produktion

Stockholm, Sverige 2014

(2)

Data mining för resurseffektivare

tillverkning och produktion

av

Anton Bergkvist

Dawit Snögren

MG100X Examensarbete inom Industriell Produktion

KTH Industriell teknik och management

Industriell produktion

(3)

orord

Vi vill tacka Microsoft Sverige som bj¨od in oss till Microsoft BI konferens som gav oss f¨orst˚aelse och insikt i vad ¨amnet Data mining kom att handla om. Ett tack till PWC som presenterade hur de ¨onskar anv¨anda fram˚atriktade modeller vid interna analyser av f¨oretaget. Detta ¨okade v˚ar f¨orst˚aelse f¨or Data minings breda potential, vilket fick oss att v˚aga unders¨oka nya anv¨andningsomr˚aden. Avslutningsvis vill vi tacka Per Johansson som varit v˚ar handledare och mentor genom projektet. Han har hj¨alp oss konfrontera problem och lett oss i r¨att riktning samt hj¨alpt oss avgr¨ansa projektet.

(4)

Sammanfattning

Hur g˚ar en organisation fr˚an att vara informationsrik till att bli insiktsfull - och hur tar man b¨asta beslut utifr˚an denna insikt? Det str¨ommar otroligt stora m¨angder data genom produktion- och tillverkningssystem. F¨oretag saknar ofta kunskap kring hur denna information skall anv¨andas. Data mining ¨ar de verktyg som kan anv¨andas f¨or att ta reda p˚a den informationen. Genom att uppt¨acka m¨onster och relationer i stora m¨angder data har Data mining gjort det m¨ojligt att finna den kunskap man tidigare inte trodde fanns. Syftet med denna rapport ¨ar att unders¨oka om dessa verktyg kan anv¨andas f¨or att ¨oka resurseffektiviteten i tillverkning och produktion. Inom forskning, f¨oretagsekonomi, finansbranchen, myndigheter samt produktionsbo-lag appliceras Data mining till probleml¨osning och optimering. L¨akemedelnsbranchen anv¨ander Data mining i syfte att effektivisera i produktionscykeln, men ocks˚a till att uppt¨acka kundm¨onster som ¨ar kopplade till l¨akemedlet. Data mining ¨ar uppbyggd av matematiska och statistiska metoder s˚a som, beslutstr¨ad, regressionsanalys, ge-netiska algoritmer och neurala n¨atverk. Dessa g¨or det m¨ojligt att uppt¨acka m¨onster och relationer i data. F¨or att kunna utnyttja dessa metoder med goda resultat ¨ar det viktigt att den data man analyserar ¨ar specifik. Det inneb¨ar att data b¨or fil-treras fr˚an anomaliteter, saknade v¨arden och felaktigt insamlad data. I Microsoft Excel ¨ar det m¨ojligt att anv¨anda Data mining som analysverktyg. Genom verktyget Associate observeras relationer och m¨onster i en upps¨attning data. Forecast ¨ar ett verktyg som ber¨aknar ett sannolikt utfall genom att analyser historisk data, medan Highlight Exceptions identifierar undantag.

En empirisk studie utf¨ordes i syfte att identifiera kritiska systemfel i en process, resultatet tyder p˚a att Associateverktyget ¨ar anv¨andbart vid resurseffektivisering. Utfallet i studien f¨or Highlight Exceptions visar sig vara begr¨ansad, vi fann dock att verktyget ¨ar anv¨andbart vid data hantering. Vid f¨oruts¨agande modeller ifr˚agas¨atter vi tillf¨orlitligheten till resultaten d˚a verktyget ¨ar datak¨ansligt. Rapporten visar att Data mining ¨ar ett anv¨andbart verktyg i syfte ¨oka resurseffektiviteten.

(5)

Abstract

Is it possible for a data-rich organisation to become insight-rich and how does one optimise its decisions? Large amounts of information flows through production- and manufacturing systems. Businesses lack knowledge of how to use their stored data. Data mining are those techniques that can be used to detect patterns and identify relationships. Data mining has made it possible to find undiscovered knowledge in large amount of data. The purpose of this thesis is to examine if these techniques can be used to increase the resource efficiency within production and manufacturing. Within research, business economics, finance, governments as well as production are all using Data mining for problem solving and optimisation. The healthcare industry uses Data mining to improve the production cycle and to find valuable customer behavior. Data mining uses decision trees, multiple regression analysis, geospatial analysis and neural networks to create mathematical models. In order to use these methods and provide a good answer, it is necessary that the analyzed data is specific. Meaning that the data should be filtered from anomalies, missing values and incorrect data. Microsoft Excel makes it possible to use Data mining as an analysis tool. Using the tool, Associate, allows one to identify patterns in a set of data. Forecast is a tool that calculates a likely outcome of the future by analyzing the historical data. Whilst Highlight Exceptions detects exceptions.

An empirical study was made in order to identify critical errors in a system, the result indicates that the Associate tool is useful and thus able to increase the re-source efficiency. Highlight Exception has shown to be useful in order to prepare data. When using Forecast, one should question the reliability of the result since the tool is data sensitive. The thesis shows that Data mining is a useful tool in order to increase the resource efficiency.

(6)

Inneh˚

all

1 Introduktion 8 1.1 Syfte och m˚al . . . 8 1.2 Avgr¨ansningar . . . 8 2 Definitioner 9 2.1 Beslutstr¨ad . . . 9 2.2 Data . . . 10 2.3 Databas . . . 10 2.4 Descriptive Analytics . . . 10 2.5 Genetiska algoritmer . . . 10 2.6 Neurala n¨atverk . . . 10 2.7 Klusteranalys . . . 11 2.8 Regressionsanalys . . . 12 2.9 St¨odvektormaskiner . . . 12 2.10 SQL . . . 12 2.11 SSAS . . . 13 2.12 Predictive Analytics . . . 13 3 Data mining 14 3.1 Vad ¨ar Data mining . . . 14

3.2 Varf¨or Data mining . . . 14

3.3 Datahantering . . . 15 3.3.1 F¨orbereda data . . . 15 3.3.2 Begr¨ansning . . . 16 3.3.3 Metod . . . 16 3.3.4 Validering . . . 18 3.4 Anv¨andning . . . 18

(7)

4 Data mining med Microsoft Excel 20

4.1 Forecast . . . 20

4.2 Associate . . . 22

4.3 Highlight Exceptions . . . 25

5 Resultat och diskussion 27 5.1 Forecast . . . 27

5.2 Associate . . . 28

5.3 Highlight Exceptions . . . 28

5.4 Begr¨ansningar och Tillf¨orlitlighet . . . 29

6 Slutsats 31

(8)

Introduktion

Den enormt stora m¨angd tillg¨angliga data som finns inom tillverkning och produk-tion inneh˚aller v¨ardefull information. Information som ger v¨arde till f¨oretag i form av kunskap och f¨orst˚aelse. Att ha kunskap och god insikt i sin produktion ger makt i tillverkning och produktionssammanhang. Detta eftersom kunskap ger m¨ojligheten att bevara v¨ardefulla arv samt underl¨attar invecklade problem och f¨orm˚agan att skapa k¨arnkompetenser. Den v¨axande volymen f¨oretagsdata ger upphov till m˚anga utmaningar, d¨ar n˚agra ¨ar att utvinna, lagra, organisera och anv¨anda information som finns i den lagrade datan. Att kunna se m¨onster, strukturer och relationer i den lagrade informationen kan vara sv˚art, speciellt d˚a det ¨ar tusentals data med flera variabler. Vi vill med denna rapport besvara fr˚agan; kan Data mining ¨oka resursef-fektiviteten vid tillverkning och produktion?

1.1

Syfte och m˚

al

M˚alet med rapporten ¨ar att diskutera och utr¨ona huruvida Data mining ¨ar ett anv¨andbart kvantitativt verktyg f¨or industrif¨oretag vid resurs- och tillg˚angoptimering. M˚alet med den litteraturstudie som gjorts ¨ar att f¨orst˚a Data mining och anv¨ andnings-omr˚aden f¨or Data mining. D¨arefter koppla den kunskapen resurseffektiv produktion och tillverkning. Syftet med den empiriska studien ¨ar att unders¨oka om Data mi-ningverktygen i Microsoft Excels Analysis ToolPak kan, i praktiken, anv¨andas till resurseffektivisering.

1.2

Avgr¨

ansningar

I denna rapport fokuseras det p˚a olika anv¨andningsomr˚adena f¨or Data mining. De anv¨andningsomr˚aden som presenteras har begr¨ansats f¨or att kunna kopplas till re-surseffektivisering. Empirin har begr¨ansats till tre verktyg i Microsoft Excel med till¨aggsprogrammet Analysis ToolPak. Data mining bygger p˚a matematiska och sta-tistiska modeller; h¨arledningar och bevis f¨or modellerna har uteslutits.

(9)

Definitioner

I litteraturstudien p˚atr¨affades en rad olika begrepp, metoder och termer. Beslut-str¨ad, Genetiska algoritmer, Neurala n¨atv¨ark, Klusteranalys, Regressionsanalys och St¨odvektormaskiner ¨ar matematiska instrument som ¨ar bra att ha en k¨annedom om.

2.1

Beslutstr¨

ad

Ett beslutstr¨ad ¨ar ett tr¨ad som sp¨anner upp t¨ankbara resultat med avseende p˚a tidigare givna beslut. I Figur 2.1 illustreras hur ett beslutstr¨ad kan se ut [1].

Figur 2.1: Beslutstr¨adet illustrerar en person som tar till v˚ald mot sig sj¨alv, mot andra eller mot ett f¨orem˚al med respektive utfall [2].

(10)

2.2

Data

Begreppet data har en bred betydelse. I denna rapport refereras data till en samling information.

2.3

Databas

En databas ¨ar ett lager d¨ar information organiseras och sparas. Databasen f¨orenklar s˚aledes s¨okningar och m¨ojligheten att h¨amta segment av den inneh˚allande datan.

2.4

Descriptive Analytics

Descriptive Analytics ¨ar en kategori f¨or beskrivande statistik, vilket anv¨ands vid identifiering m¨onster, trender, relationer och f¨orh˚allanden mellan data. F¨orh˚allandet mellan dessa data ska vara icke-trivial, v¨ardes¨attande samt enkel f¨or att kunna p˚averka datan med en handling som g¨or skillnad inom organisationen.

2.5

Genetiska algoritmer

¨

Ar en kvalificerad l¨osning som anv¨ands f¨or att h¨arma beteenden. Den finner sin in-spiration fr˚an biologin d¨ar starka beteenden f¨ors vidare. Metoden bygger p˚a att finna approximativa prognoser d˚a traditionella l¨osningar tar f¨or l˚ang tid. Den genetiska algoritmen ber¨aknar ett sannolikt utfall baserat p˚a tidigare funna m¨onster [3].

2.6

Neurala n¨

atverk

Inom datavetenskap anv¨ands begreppet neurala n¨atverk. Det ¨ar en modell inspi-rerat fr˚an det centrala nervsystemet. Modellen anv¨ands inom Data mining fr¨amst f¨or m¨onsterigenk¨anning och f¨or maskininl¨arning. Figur 2.2 beskriver hur processen ser ut. Neurala n¨atverk har stor anv¨andning inom prognoser men ¨aven f¨or pro-bleml¨osning med multipla variabler [4].

(11)

Figur 2.2: Neuralan¨atverk finner dolda m¨onster i data [5].

2.7

Klusteranalys

Metoden att kategorisera objekt efter liknande data kallas klusteranalys. Klustera-nalys kan inte generaliseras med en modell utan ber¨aknas med varierande modeller fr˚an ett exempel till ett annat. Vanligtvis definieras klusteranalys som flerdimen-sionell optimering. I Figur 2.3 illustreras en klusteranalys d¨ar olika grupper l¨ankas samman till en referenspunkt som ¨ar placerad i mitten. Det f¨orekommer ¨aven sam-band mellan de olika grupperna, dessa samsam-band beskrivs av n¨atverkets l¨ankar [6].

(12)

Figur 2.3: Klusteranalysen visar samband mellan olika grupper till en specifik refe-renspunkt [7].

2.8

Regressionsanalys

Regressionsanalys ¨ar en statistisk metod som b¨ast anpassar en modell utifr˚an obser-verad data. Med hj¨alp av regressioner ¨ar det m¨ojligt att finna samband mellan data citereg.

2.9

St¨

odvektormaskiner

En st¨odvektormaskin ¨ar en statistisk klassificerare. Egenskaperna p˚aminner om regressionsanalysen [8].

2.10

SQL

Structured Query Language, ¨ar ett standardiserat programspr˚ak som s¨oker och upp-daterar en databas [9].

(13)

2.11

SSAS

SSAS, SQL Server Analysis Services, ¨ar flerdimensionell OLAP, Online Analys Pro-cess, och Data mining server. Det ¨ar ett informationslager d¨ar analyser g¨ors. F¨or att anv¨anda Microsoft Excels Data mining verktyg kr¨avs en SSAS [10].

2.12

Predictive Analytics

Predictive Analytics ¨ar en kategori f¨or fram˚atriktade analyser. D¨ar ing˚ar Neurala n¨atv¨ark, Regressionsanalyser, St¨odvektormaskiner och Genetiska algoritmer [11].

(14)

Data mining

F¨oretag besitter idag stora m¨angder data men saknar ofta kunskap kring hur den skall anv¨andas. Under 1960-talet b¨orjade f¨oretag successivt ¨overf¨ora insamlad data till databaser och p˚a s˚a vis har information blivit mer l¨attillg¨anglig i st¨orre volymer. Sedan dess har m¨angden data ¨okat p˚atagligt, under de senaste ˚aren har den insam-lade datavolymen varit lika stor som all tidigare insamlad data tillsammans. Efter inf¨orandet av databaser blev n¨asta stora steg f¨or datahantering n¨ar ’The World Wi-de Web’ introduceraWi-des unWi-der 1990-talet. D˚a m¨ojliggjordes det information kunde fl¨oda utanf¨or det interna n¨atverket och blev f¨oljatligen snabbare tillg¨angligt. ¨Aven utvecklingen av noggrannare m¨atinstrument har bidragit till att st¨orre fluktuationer kunnat uppm¨atas, det vill s¨aga att variationen i datan har ¨okat. Det kan konstateras att ¨okad volym, ¨okad hastighet samt st¨orre variation p˚a data bidragit till behovet av Data mining. Det kr¨avs s˚aledes att inom en rimlig tid kunna analysera stora m¨angder varierande data [12].

3.1

Vad ¨

ar Data mining

Data mining ¨ar ett kraftfullt verktyg som anv¨ands f¨or att analysera och finna m¨onster samt beteenden i stora datam¨angder. Metoderna bygger sina ber¨akningar p˚a avancerade matematiska och statistiska modeller. Dessa modeller ¨ar Beslut-str¨ad, Genetiska algoritmer, Klusteranalys, Neurala n¨atverk, Regressionsanalys samt Str¨odvektormaskiner [13] [14].

3.2

Varf¨

or Data mining

Data mining ger en ¨okad f¨orst˚aelse f¨or f¨oretagets egna produkter samt dess kunder. Gemensamt leder det till att f¨orb¨attring f¨oretaget. Det har tidigare n¨amnts att Data mining anv¨ands f¨or att analysera stora m¨angder data. Det kr¨avs dock inte enbart att datam¨angden ¨ar stor f¨or att anv¨anda Data mining. Det r¨acker med att datam¨angden ¨

(15)

att anv¨anda f¨or att finna m¨onster. Genom att applicera Data mining p˚a historisk data kan man f¨orutse vad ett sannolikt utfall ¨ar d¨ar information saknas. En stor och viktig anv¨andning av Data mining ¨ar att kunna f¨orklara varf¨or vissa processer lyckas medan andra misslyckas.

3.3

Datahantering

Som tidigare n¨amnts lagras stora m¨angder data i databaser, denna data kom-mer ifr˚an observationer som gjorts vid produkt- eller tillverkningsprocesser, ma-terialplanering, kvalitetskontroller, planering etc. Den insamlade datan inneh˚aller v¨ardefull information och kunskap som kan, om den integreras i f¨oretaget p˚a r¨att s¨att, f¨orb¨attra beslut och ¨oka produktiviteten i f¨oretaget [11]. Det ¨ar d¨arf¨or viktigt att den data man arbetar med ¨ar s˚a specifik som m¨ojligt.

3.3.1 F¨orbereda data

Att f¨orbereda data ¨ar en tidskr¨avande process, men ocks˚a n¨odv¨andig f¨or ett lyckat arbete. Detta eftersom kvaliteten p˚a den ackumulerade datan m˚aste vara h¨og, d˚a resultat och analys beror av den. Data ¨ar en avg¨orande faktorn i best¨ammandet av kvaliteten p˚a analysen. Att arbeta med r˚adata, dvs obehandlad data, kan vara vilseledande, det ¨ar d¨arf¨or viktigt att bearbeta den. Detta eftersom den kan inneh˚alla anomaliteter, saknade v¨arden, dubblerad data, felaktigt insamlad data, utg˚aende data etc. Det ¨ar viktigt och n¨odv¨andigt att sortera den insamlade data, samt att kategorisera den. De data som inte ¨ar p˚a tabellform b¨or konverteras till tabellform f¨or att kunna utnyttja egenskaperna inom Data mining, d˚a datan mestadels best˚ar av m˚anga olika variabler. dvs multipla variabler i form av en matris. I Figur 3.2 illustreras hur datan b¨or st¨allas upp innan p˚ab¨orjad analys. I Figur 3.2 framg˚ar det ocks˚a hur information kategoriseras, f¨or att g¨ora den l¨attillg¨anglig genom att ha Namn, ˚Alder, K¨on, Blodtryck etc som olika kategorier [14].

(16)

Figur 3.1: Exempeldata med multiplavariabler [13].

3.3.2 Begr¨ansning

N¨ar den insamlade datan f¨orberetts ¨ar n¨asta steg i processen att avgr¨ansa data. Att anv¨anda all den insamlade data ¨ar inte alltid praktiskt eller n¨odv¨andigt, speciellt d˚a antalet observationer eller unders¨okningar ¨ar stor. Genom att rensa den insam-lade data kan korrupt, felaktig, irrelevant eller ofullst¨andig data etc uppt¨ackas och korrigeras [14]. Det kan vara l¨attare att dra samma slutsatser utifr˚an en mindre m¨angd observationer. D˚a m¨angden data reducerats genom stickprov ¨ar det viktigt att j¨amf¨ora statistiken av stickprovet med statistiken f¨or ursprungsdatan [13].

3.3.3 Metod

Resultaten av analysen kommer helt bero av vilken modell eller metod som anv¨ands i studien. S˚aledes ¨ar det viktigt att utvald data anv¨ands med en modell som ¨overensst¨ a-mmer med det studien syftar p˚a. Det ¨ar ocks˚a viktigt att m˚alet med studien ¨ overensst-¨

ammer med den data som analyseras. N¨ar datan ¨ar insamlad och en l¨amplig av-gr¨ansning ¨ar gjord ¨ar n¨asta steg i Data mining processen att v¨alja en l¨amplig metod. Det finns olika metoder och matematiska modeller f¨or att analysera data. Inom Da-ta mining kategoriseras dessa inom Descriptive Analytics eller Predective Analytics [14]. Genom den f¨orstn¨amnda kan trender, f¨orh˚allanden, korrelationer etc uppt¨ackas, den sistn¨amnda anv¨ands f¨or att g¨ora fram˚atriktade analyser om framtiden.

Det finns ingen universiell b¨asta Data mining metod f¨or tillverkning. I st¨allet ¨okar anv¨andandet av kombinerade Data mining algoritmer, f¨or att utnyttja f¨ordelarna med respektive metod. Figur 3.3 visar sambanden mellan olika produktion- och till-verkningsprocesser med Data mining funktioner. Det har visats att vissa metoder

(17)

¨

ar mer frekvent anv¨anda inom en speciell del av tillverkningsprocessen. Dessa in-kluderar, fram˚atriktad analys i tillverkningsprocessen, association i produktdesign, klassifikation inom kvalitetskontroller, underh˚all och konceptbeskrivning. Figur 3.4 visar att det finns en tydlig l¨ank mellan tillverkningsprocesser och fram˚atriktad analys, samtidigt visar Figur 3.3 att det finns ett starkt f¨orh˚allande mellan tillverk-ningsprocesser och Neurala n¨atv¨ark. S˚aledes kan kan Neurala n¨atv¨ark anv¨andas som en anv¨andbar metod i tillverkningsprocesser i syfte f¨or fram˚atriktad analys [15].

Figur 3.2: L¨ankar och korrealtioner mellan tillverkningsomr˚aden och Data mining funktioner [15].

(18)

Figur 3.3: L¨ankar och korrealtioner mellan tillverkningsomr˚aden och Data mining metoder [15].

3.3.4 Validering

Validering g¨ors f¨or att utv¨ardera tr¨affs¨akerheten i modellen samt f¨or att avg¨ora vilka m¨onster i modellen som ¨ar intressanta och vilka som ¨ar ointressanta. De intressanta m¨onster ¨ar de m¨onster som levererar anv¨andbar kunskap om en given till¨ampning och har en viss grad validitet [16]. Validering ¨ar ocks˚a att j¨amf¨ora resultatet med tidigare k¨anda resultat. En modell som inte ¨ar tr¨affs¨aker och som inte matchar datan kan inte producera ett korrekt resultat och g˚ar s˚aledes inte att anv¨anda [14].

3.4

Anv¨

andning

Inom forskning och f¨oretagsekonomi, finansiella institutioner, myndigheter och pro-duktionsbolag anv¨ands idag Data mining. Inom banksektorn anv¨ands det till att f¨orebygga kortbedr¨ageri [12]. Data mining ¨ar anv¨andbart inom probleml¨osning, ex-empelvis till att hantera finansiella portf¨oljer, optimering av reklamkampanjer och kontrollering av f¨ors¨akringsbedr¨agerier [14]. Redan 1999 anv¨andes olika Data mining tekniker s˚a som beslutstr¨ad, regressionsanalys och neurala n¨atv¨ark till att f¨orutsp˚a komponenthaveri p˚a flygplan. Resultatet ledde till en ny utformining f¨or att f¨orbygga felen i komponenterna [11]. I en litteraturstudie som gjordes 2004 utvecklads en f¨oruts¨agande modell f¨or optimering av mekaniska egenskaper i galvaniserad st˚al. Modellen baseras p˚a klusteranalys och neurala n¨atv¨ark [17]. Studier har visat att

(19)

Data mining ¨ar effektivt inom l¨akemedelsbranschen d¨ar det anv¨ands f¨or att tillverka l¨akemedel mot prognoser samt i effektiviseringssyfte i produktionscykeln f¨or en en-skild tablett. Stora m¨angder data samlas in under livscykeln f¨or medicinen s˚a som marknadsanalyser i form av information fr˚an doktorer, patienter och konsumtion av medicinen. Men ocks˚a fr˚an tillverkningsprocesser. Data mining som appliceras p˚a l¨akar- och patientdata kan bidra till f¨orst˚aelse f¨or vilka kvaliteter p˚a medicinen som kunderna f¨oredrar, vad nya kunder anser om l¨akemedlet och varf¨or vissa kunder inte v¨aljer att anv¨anda l¨akemedlet. S˚aledes ¨ar det m¨ojligt att uppt¨acka kundm¨onster som ¨

ar kopplat till l¨akemedlet [18].

Data mining anv¨ands idag fr¨amst f¨or att s¨oka efter l¨onsamma kunder och f¨orst˚a dessa kunders behov. Men ¨aven till att f¨orutse kundfl¨oden f¨or att p˚a s˚a vis kunna f¨orutse f¨ors¨aljning och ¨onskad volym i lager. Den sistn¨amnda funktionen ¨ar en av de absolut vanligaste medel f¨or att f¨orutse f¨ors¨aljning och anpassning av lager d˚a den grundas p˚a tidsserieanalys [12].

Figur 3.4: Data mining i produktion [11]

I Figur 3.1 illustreras en integrering av en Data mining process. Processen inleds med att ett fel identifieras. D¨arefter samlas oberbetad data in, denna data filtreras och anpassas s˚a det ¨ar m¨ojligt att bygga en modell utifr˚an datan. N¨ar modellen ¨ar fram-st¨alld ¨ar n¨asta steg att till¨ampa den i tillverkningsprocessesen. D¨arefter utv¨arderas

(20)

Data mining med Microsoft Excel

Data mining har ett brett spektrum, och kan till¨ampas i stort sett p˚a vad som helst givet att det finns tillr¨ackligt med data. I denna studie begr¨ansas anv¨andandet till tre analyseringsverktyg i Microsoft Excel till¨aggsapplikation, Analysis ToolPak. Det kommer visas exempel samt teorier kring hur dessa verktyg kan anv¨andas f¨or att resurseffektivisera inom produktion och tillverkning.

4.1

Forecast

Att kunna f¨orutse en tillverkningsprocess, kvalitet, underh˚all, defekter, produktions-eller tillverkningssystem har avg¨orande betydelse. Forecast ¨ar en funktion som ber¨ ak-nar ett sannolikt utfall genom att analysera historisk data. Forecast bygger p˚a Regressionsanalys eller Neurala n¨atverk f¨or att skapa en f¨oruts¨agande modell, s˚aledes kategoriseras Forecast i Predictive Analytics [11]. I nedanst˚aende exempel illustre-ras hur f¨ors¨aljningen utvecklats ¨over en tre˚arsperiod samt ett sannolikt utfall p˚a kommande sex m˚anader.

(21)

Figur 4.1: F¨ors¨aljningshistorik

I Figur 4.1 illustreras f¨ors¨aljningsutvecklingen ¨over den givna tre˚arsperioden. Tydligt f¨or det tre v¨arldsdelarna ¨ar att f¨ors¨aljningen har ¨okat stadigt. Det kr¨avs d˚a att anpassa varutillg˚angar till efterfr˚agan. Figur 4.1 indikerar p˚a fortsatt utvecklingen upp˚at. Det ¨ar d˚a med stor risk f¨oretagsledningen drar f¨orhastade slutsatser och ¨okar sin produktion mer ¨an n¨odv¨andigt.

(22)

Figur 4.2: F¨ors¨aljningshistorik med fram˚atriktad analys

I Figur 4.2 har en approximativ utvecklingsprognos anv¨ants, baserad p˚a historisk f¨ors¨aljning. Som Figuren 4.2 illustrerar kommer en ¨okad produktion i samtliga tre v¨arldsdelar, p˚a sex m˚anaders sikt, ge negativ effekt d˚a f¨ors¨aljningen i Europa och Oceanien tycks ha en ned˚atg˚aende trend. Nordamerika som historiskt haft en volatil f¨ors¨aljning verkar p˚a kort sikt m¨ota en svag nedg˚ang men p˚a en sexm˚anaders horisont kunna v¨aga upp sin f¨ors¨aljning till att m¨ota nya motst˚and. Analysen kan med goda sk¨al ligga till grund f¨or beslut av ¨okad, minskad respektive bibeh˚allen produktion.

4.2

Associate

Associate ¨ar en funktion utvecklad till att finna relationer, upprepningar och m¨onster mellan en upps¨attning data i en databas. Metoden ¨ar fr¨amst framtagen i syfte att minimera kostnader vid marknadsf¨oring men ¨aven f¨or att finna logiska varuplace-ringar p˚a varugolvet s˚a v¨al som p˚a lager [12]. Det har under senare ˚ar utvecklats appliceringsomr˚aden f¨or associate inom produktion d˚a det anv¨ants inom telekom-branschen f¨or att identifiera de h¨andelser som sker innan ett problem uppst˚ar. Det har d¨arf¨or blivit m¨ojligt att f¨orutse n¨ar och varf¨or problem uppst˚ar.

(23)

sam-band. M˚alet ¨ar att finna de systemfel, Outlines, som med st¨orsta sannolikhet leder till att ett systemet havererar. De Outlines som anges ¨ar tagna fr˚an en upps¨attning data. Det har totalt gjorts hundra tester fr˚an det att systemet startats tills det ha-vererar. Totalt uppt¨acktes 1000 systemfel under de 100 testk¨orningarna, gemensamt f¨or alla tester ¨ar att de avslutades med att ’Systemet Havererar’. Datan ¨ar fiktiv men skall ge en god uppfattning om hur Associate kan anv¨andas f¨or att f¨orb¨attra en produkt med ett effektivt tillv¨agag˚angs¨att.

Figur 4.3: Funna samband

I Figur 4.3 observeras det hur samtliga Outlines pekar mot ’Systemet Havererar’. Det inneb¨ar att samtliga systemfel slutligen leder till systemhaveri. Det observeras att det finns en relation mellan Outline 15 och Outline 5 samt Outline 8 och Outline 29. Vad som ¨ar intressesant ¨ar att se hur stor p˚averkan dessa fel har p˚a systemet samt att se p˚a med hur stor sannolikhet dessa fel intr¨affar. Sannolikhetsgraden justeras till den grad endast de starkaste sambanden i datan betraktas. De sex vanligaste orsakerna till haveri illustreras i Figur 4.4, Outline 2, 8, 15, 23, 28 och 32. Det ¨ar d¨arf¨or l¨ampligt att korrigera dessa systemfel f¨orst. Det visar sig ¨aven finnas tydliga

(24)

Outline 5 respektive Outline 29 uppst˚ar, som i sin tur minskar risken f¨or haveri.

Figur 4.4: Starkast samband

Slutsatsen ¨ar att av alla k¨anda systemfel g˚ar det att minska risken f¨or haveri ge-nom att l¨osa de sex systemfelen som har de starkaste sambanden till att systemet havererar.

(25)

4.3

Highlight Exceptions

Highligt Exceptions ¨ar en funktion som identifierar undantag i en upps¨attning data. Undantagen kallas Outlines och b¨or identifieras innan resterande data analyseras. Outlines kan vara fel som uppst˚ar i ett system. Genom att utesluta Outlines kommer noggrannare resultat att presenteras. Detta verktyg ¨ar anv¨andbart innan p˚ab¨orjad Data miningprocess, det vill s¨aga vid datahantering. D˚a funktionen kan anv¨andas till att filtrera data. Highlight Exceptions anv¨ander matematiska och statistiska me-toder som kategoriseras under Descriptive statistics.

Nedan presenteras ett exempel hur Highlight Exception fungerar, samt en analys av resultatet. Exemplet bygger p˚a en databas inneh˚allande ett kundregister med ¨

over tiotusen registrerade kunder. Hightlight Exceptions identifiera de kunder som anses vara undantag.

(26)

Om kundregistret ska analyseras rekommenderas det att unders¨oka vilka undantag som existerar i datan. Genom att utesluta undantagsfallen ¨ar det m¨ojligt att redovisa ett mer tillf¨orlitligt resultat.

Figur 4.6: Utdrag fr˚an undantag fr˚an personregister

De personer som i Figur 4.6 anses vara undantag ¨ar gulmarkerade och den data som identifierats som utstickande ¨ar f¨argad i en klarare gul f¨arg. Personen med ID-nummer 15112 betraktas som ett undantag och som figuren illusterar ¨ar det ˚aldern som f˚ar personen i fr˚aga att sticka ut. Vid n¨armare unders¨okning av personen framg˚ar det att det inte ¨ar ˚aldern i sig som utg¨or ett undantag, d˚a finns fler 54-˚ariga kvinnor. Det ¨ar i relation till resterande data som medf¨or att personen tolkas som ett undantag. Hade kvinnan exempelvis varit 30 ˚ar yngre skulle hon inte betraktas som ett undantag med givna parametrar. S˚a som att vara 54 ˚ar, gift, ¨aga tre bilar, en l¨on ¨over medel, men endast ett barn. Mannen med ID-nummer 15115 anses ¨aven han som ett undantag d˚a han ¨ager tre bilar. I relation till resterande datan brukar 56-˚ariga m¨an fr˚an Europa som lever ensamma med ett barn ¨aga mindre ¨an tre bilar. Slutligen framg˚ar av figuren att personen med ID-nummer 15140 ¨aven anses vara ett undantag med avseende p˚a hennes ˚alder. D˚a kvinnor fr˚an Oceanien med en h¨ogre utbildning, ¨ager fyra bilar och ¨ar 35 ˚ar gamla har generellt f˚att barn samt ¨ager f¨arre bilar.

(27)

Resultat och diskussion

Data mining har skapat intelligenta verktyg som ¨ar anv¨andbara i syfte att resursef-fektivisera. Verktygen kan anv¨andas i de produktion- och tillverkniningsystem d¨ar det ¨onskas att minimera resurs˚atg˚angen, givet att det finns m¨ojlighet att samla in data.

5.1

Forecast

Genom aktiv anv¨andning av f¨oruts¨agande modeller tror vi att det ¨ar m¨ojligt att minimera f¨orluster vid konjukturnedg˚ang. Antag att ett f¨oretag som sysslar med massproduktion ser en negativ trend i sin fram˚atriktade prognos. Det ¨ar d˚a m¨ojligt att anv¨anda denna analys som beslutsunderliggande f¨or att minska produktionen och ist¨allet s¨alja av varor i lager. Detta ger m¨ojlighet att minska det bundna kapi-talet samt att minska kostnaderna f¨or att h˚alla produktionen ig˚ang. Det ¨ar ocks˚a m¨ojlig att anv¨anda f¨oruts¨agande modeller ˚at andra h˚allet, det vill s¨aga att inf¨or h¨ogkonjuktur kunna st¨alla om produktionen s˚a att ledningen hinner ta beslut f¨or att f¨orbereda lagret och d¨arigenom ¨oka sin leveransprecision. Med hj¨alp av diagrammet i Figur 4.2 kan ink¨op och planering av produktion g¨oras. I diagrammet observeras en ned˚atg˚aende trend f¨or Europa, beroende p˚a f¨oretagets strategi, b¨or ledningen vara observanta. Vi menar att ink¨op av material till produktionen eventuellt b¨or minska. Medan ink¨open i Oceanien, som enligt analysen ber¨aknats till fortsatt stabil, b¨or vara of¨or¨andrad. Det mest kritiska beslutet ¨ar g¨allande marknaden i Nordamerika d¨ar f¨ors¨aljningshistoriken haft en ¨overgripande volatil upp˚atg˚aende trend. Vi drar slutsatsen att produktionen b¨or ¨okas i Nordamerika, minskas i Europa och bibeh˚allas i Oceanien. Det ¨ar p˚a s˚a vis m¨ojligt att leverera varorna i r¨att kvantitet, r¨att kvalitet och vid r¨att tidpunkt enligt Just in time [19].

(28)

strategi [20]. Lean ¨ar en metod som baseras p˚a att eliminera samtliga parametrar i en produktion som inte bidrar med n˚agot v¨arde till slutkunden. Ett anv¨andningsomr˚ade vi ser med Data mining, kopplat till Scania ¨ar att skapa f¨ors¨aljningsprognoser och s˚aledes anpassa ink¨op av komponenter d¨arefter. F¨or att till¨ampa Lean kr¨avs att kom-ponenterna ¨ar tillg¨angliga n¨ar best¨allningen fr˚an kunden g¨ors. Det blir d˚a tydligt var och n¨ar f¨oretaget b¨or ¨oka respektive minska en leveransorder av komponenter. S˚aledes skapas m¨ojligheter att minska sin ¨overproduktion f¨or att p˚a s˚a vis minime-ra det bundna kapitalet. Att minimeminime-ra det bundna kapitalet har en stor betydelse f¨or f¨oretagens balansr¨akningar, detta leder till ¨okad kreditv¨ardighet d˚a f¨oretagets ˚aterbetalningsf¨orm˚aga ¨okar.

5.2

Associate

Att anv¨anda Associationsverktyget till ¨andam˚alet att minimera risken f¨or ett system-haveri framg˚ar tydligt i exempel 4.2. Det visar att Data mining ¨ar effektivt vid fels¨okning av system. Genom att fastst¨alla vilken maskin eller vilket typ av systemfel som orsakar ett haveri kan ett f¨oretag minimera spill vid tillverkning, minimera sina kostnader vid produktionsstopp samt minimera antalet felproducerade varor. S˚aledes ¨

ar det m¨ojligt att effektivisera b˚ade produktion och tillverkning samt f¨orb¨attra pro-duktens kvalitet. Genom att ˚atg¨arda de orsaker som med st¨orsta sannolikhet leder till felproduktion blir det tydligt hur ett f¨oretag kan f¨orb¨attra utnyttjande av in-stoppade resurser och s˚aledes uppn˚a ¨onskat resultatet mer effektivt. Denna typ av studie har tidigare anv¨ands, d¨ar man skapade en associationsregel f¨or att uppt¨acka defekter vid tillverkning av halvledare. D¨ar man, likt oss, fastst¨allde en association mellan olika maskiner och deras inverkan p˚a felskapade produkter [15]. Vi tror att associationsregler ¨ar anv¨andbara f¨or industrif¨oretag. D˚a det ¨ar m¨ojligt att f¨orb¨attra precisionen p˚a reklam, marknadsf¨oring, produktplacering och lagerplacering som as-socieras med ¨okad effektivitet.

5.3

Highlight Exceptions

I exemple 4.3 beskrivs hur Highlight Exceptions kan anv¨andas f¨or att uppt¨acka un-dantag ur stora databaser. Ett anv¨andningsomr˚ade f¨or denna funktion ¨ar att iden-tifiera m¨atbara systemfel i en process, exempelvis vid tillverkning av kretskort eller f¨or att identifiera systemfelen i exempel 4.2. Men ¨aven till f¨orberedelse av data i den

(29)

fram˚atriktade analysen fr˚an exempel 4.1. Undantag ur denna f¨ors¨aljningshistorik b¨or observeras d˚a f¨ors¨aljningen kan p˚averkas positivt eller negativt av oregelbundna s˚a v¨al som planerade orsaker. Dessa orsaker f˚ar definieras fr˚an fall till fall. Det kan exempelvis vara l¨ampligt att ta med utfallen fr˚an en marknadskampanj som en pla-nerad orsak, medan en nedsatt f¨ors¨aljning orsakat av ett str¨omavbrott b¨or uteslutas d˚a f¨oretaget inte kan p˚averka orsaken och f¨orhoppningsvis inte ¨ar ett ˚aterkommande problem. Om s˚a ¨ar fallet skall ¨aven dessa undantag anv¨andas vid analysen.

Vid ett studiebes¨ok p˚a Scania observerades en maskin. Den var programmerad att ans¨atta skruvf¨orband med f¨orbest¨amt moment. Genom att automatisera processen kunde f¨oretaget sparar in ¨ar ett par minuter per monterad motor. Det observerades att maskinen hade ett systemfel, vilket var att maskinens precision var bristan-de d˚a den ˚aterkommande missade g¨angorna. Vi tror att Highlight Exceptions ¨ar anv¨andbart i detta fall, d˚a produktionsystemet anv¨ander sig av robotar. Vi antar att informationen i produktionssystemen best˚ar av stora m¨angder data med flera va-riabler. Det ¨ar sv˚art samt tidskr¨avande att manuellt analysera och finna avvikelser i datan. Har information r¨orande produktionssystemet lagrats p˚a ett effektivt s¨att ¨

ar det m¨ojligt att genom Hightlight Exceptions finna vilka avvikelser som sannolikt orsakar felet. ¨Ar detta ett ˚aterkommande produktionsfel, med ok¨and orsak, kommer produktiviteten att minska.

5.4

Begr¨

ansningar och Tillf¨

orlitlighet

Vi har uppt¨ackt begr¨ansningar under projektets g˚ang bland annat hur analysens snabbhet p˚averkas av datavolymen. Det rekommenderas att vid analys av st¨orre volymer nyttja kraftfullare databaser. D˚a dessa vanligtvis finns p˚a st¨orre f¨oretag ¨ar det inte n˚agot avg¨orande problem. Dock har det begr¨ansat oss under projektet d˚a vi skapat en lokal databas p˚a en laptop. Vi har ¨aven uppt¨ackt vikten av att vara kritisk i sitt anv¨andande av Microsoft Excel, eftersom det i programmet inte framg˚ar vilka matematiska eller statistiska metoder som anv¨ands vid respektive verktyg. Den fram˚atriktade analysen beskriver endast ett sannolikt utfall och inte en konkret sanning. S˚aledes ifr˚agas¨atter vi tillf¨orlitligheten till f¨oruts¨agande modeller.

(30)

Det framg˚ar i en studie att Neurala n¨atverk ger ett mer korrekt utfall ¨an Regression-sanalyser [11]. Exempelvis ¨ar vektyget Forecast en f¨oruts¨agande modell och ¨ar i grun-den uppbyggd av Regressionsanalyser eller Neurala n¨atv¨ark. Det ¨ar dock sv˚art att fastst¨alla vilken av dessa metoder Microsoft bygger Forecastverktyget p˚a eller om det ¨ar en kombination av dessa. S˚aledes b¨or precisionen i resultatet ifr˚agas¨attas. I Figur 5.1 illustreras tv˚a utfall grundat p˚a samma historisk, d¨ar samtliga ing˚aende variabler h˚alls konstanta, f¨orutom tidsintervallet. Det bl˚a samt det r¨oda utfallet re-presenteras av tv˚a respektive fyra ˚ars historisk data.

Figur 5.1: Tv˚a utfall baserat p˚a ett l˚ang- och korttidsintervall

Det framg˚ar i Figur 5.1 att det analyserade intervallet p˚averkar utfallen. Vi drar slutsatsen att tillf¨orlitligheten i resultatet beror av tidsintervallet. Det ¨ar analyti-kerns ansvar att urvalet av intervall speglar f¨oretagets nuvarande situation b¨ast. I 3.3 redog¨ors vikten av analytikerns beslut av vilket intervall som skall beaktas, vil-ken data som ska inkluderas samt vilvil-ken metod som ska anv¨andas. S˚aledes vill vi betona vikten inneh˚allet i avnitt 3.3 Datahantering.

(31)

Slutsats

Vi tror att det fr¨amsta anv¨andningsomr˚adet f¨or Data mining, kopplat till resur-seffektivisering, ¨ar inom Descriptive statistics. Vi anser att man b¨or vara kritisk till de resultat som ges av Predictive analytics. Litteraturstudien visar p˚a att Data mining f¨orekommer inom produktion och tillverkning. I den empiriska studien har Associatevektyget i Microsoft Excel visat sig vara effektivt i ¨andam˚alet att resursef-fektivisera. D¨arf¨or anser vi att Data mining g¨or det m¨ojligt att resurseffektivisera och d¨arf¨or rekommenderar vi f¨oretag att implementera Data mining i n¨asta steg att ¨

(32)

Uppf¨

oljning

F¨or att kunna anv¨anda Forecast kr¨avs en b¨attre f¨orst˚aelse till dess tillf¨orlitlighet, samt klarg¨ora vilka faktorer som p˚averkar resultatet. Microsoft Excel levererar re-sultat som kan vara sv˚ara att tolka. Det kr¨avs att anv¨andaren har god k¨annedom i de metoder som finns f¨or att presentera data. Microsoft har utvecklat program som kan f¨orenkla f¨orst˚aelsen av resultaten exempelvis Power Pivot, Geospatial Data Exploration och Power View [21]. Dessa funktioner finns som till¨aggsprogram f¨or Microsoft Excel och anv¨ands generellt till att p˚a ett tydligt och l¨attf¨orst˚aeligt s¨att kunna ¨oversk˚ada och presentera data. Det fordras ¨aven att kunna avg¨ora vilken data som kr¨avs f¨or att kunna ge svar p˚a de fr˚agor som st¨allts. S˚aledes torde ett viktigt steg vara att optimera datainsamlingen vid tillverkning och produktionsprocesser. Det ¨ar intressesant att unders¨oka om det finns alternativa program som kan anv¨andas vid Data mining samt j¨amf¨ora hur resultaten skiljer sig. Vi tror att en l¨amplig uppf¨oljning ¨ar att anv¨anda programmerings program, d¨ar det ¨ar m¨ojligt att kontrol-lera tillf¨orlitligheten i metod och kod.

(33)

Litteraturf¨

orteckning

[1] Kungliga Tekniska H¨ogskolan, “Beslutstr¨ad,” 2014. [2] Certec, 2014.

[3] J. W. Peter Nordin, Humanioder - Sj¨alvl¨arande robotar och artificiell intelligens. Liber, 2003.

[4] Helge Malmgren, “Neuralan¨atverk,” 2003. [5] Gamedev, “Neuralt n¨atverk,” 2014.

[6] S. K.Foss, Rhetorical Criticism: Exploration and Practice. Waveland Press, 2008.

[7] Wordpress, “Clustering,” 2014.

[8] David Meyera, Friedrich Leischa, Kurt Hornikb, “St¨odvektorsmaskin,” 2003. [9] Microsoft, “Sql,” 2014.

[10] Microsoft, “Ssas,” 2014.

[11] J. . T. M. Choudhary, A.K. ; Harding, “Data mining in manufacturing: A review based on the kind of knowledge,” Journal of Intelligent Manufacturing, no. 4, pp. 501–521, 2008.

[12] J. Liebowitz, Big Data and Business Analytics. 6000 Broken Sound Parkway NW, Suite 300: Taylor Francis Group, 2013.

[13] W. P. L. A. K. Krzysztof J. Cios, Roman W. Swiniarski, Data Mining - A Knowledge Discovery Approach. 233 Spring Street, New York, NY 10013, USA:

(34)

[14] W. P. M. Myatt, Glenn J. Johnson, Making Sense of Data II : A Practical Guide to Data Visualization, Advanced Data Mining Methods, and Applications. Hoboken, NJ, USA: Wiley, 2009.

[15] C. W. H. C. M. K. T. H. . S. T. W. Chen, F. C., “Cycle time prediction and control based on production line status and manufacturing data mining.,” In IEEE International Symposium on Semiconductor Manufacturing, pp. 327–330, 2005.

[16] C. N. J. . D. K. Ng, Amos H.C.; Dudas, DSimulation-Based Innovization Using Data Mining for Production Systems Analysis. 236 Gray’s Inn Road, London, WC1X 8HB , United Kingdom: Springer London, 2011.

[17] M. A. G. G. J. A. . R. V. L. Mere, J. B. O., “Estimation of mechanical proper-ties of steel strip in hot dip galvanising lines,” Iron making and Steel making, pp. 327–330, 2012.

[18] P. S. Miral Kothari, “Data mining ; tablet – medicine manufacturing,” Inter-national Journal of Electronics and Computer Science Engineering, p. 43–50, 2004.

[19] S. J. S. Takao Enkawa, Handbook of Industrial Engineering: Technology and Operations Management. John Wiley Sons, Inc, 2001.

[20] Leif ¨Ostling, “Scania,” 2014.

[21] Projectbotticelli, “Geospatial data exploration with excel power view and sha-repoint, microsoft business analytics with office 2013, sharepoint 2013 and sql server 2012, introduction to data mining with microsoft sql server, introduction to powerpivot for sql server 2012, multidimensional analysis with microsoft excel and sql server,” 2014.

References

Related documents

Rutinen som anv¨ands f¨ or att definiera operatorn, kan ha antingen ett eller tv˚ a argument, men eftersom funktionen normalt definieras i samma modul som inneh˚

Varf¨ or l¨ agger vi s˚ a mycket tid p˚ a att hitta l¨ osningar och s¨ att att ber¨ akna deter- minanter d˚ a, jo f¨ or determinanter anv¨ ands t.ex. f¨ or att

Detta g¨aller alla tal vars dyadiska utveckling ¨ar ¨andlig; man beh¨over inte kasta fler kast ¨an vad som anges av den position d¨ar sista ettan finns i utvecklingen.. Det betyder

B˚ ada tv˚ a anv¨ands och ¨ar viktiga i moderna ekonomier, men penningpolitiken anv¨ands f¨or b˚ ada finjustering och grov- styrningen, medan finanspolitiken justeras p˚ a

Det enklaste t¨ ankbara s¨ attet att h¨ arleda hela kapaciteten skulle vara att anta att alla N atomer i en kristall har samma vibrationsfrekvens, och sedan helt enkelt

Antalet kunder som bes¨ oker de tv˚ a aff¨ arerna en timme kan beskrivas med Poissonf¨ ordelningar.. Det genomsnittliga antalet kunder som bes¨ oker de tv˚ a aff¨ arerna ¨ ar

Vid bed¨ omningen av l¨ osningarna av uppgifterna i del 2 l¨ aggs stor vikt vid hur l¨ osningarna ¨ ar motiverade och redovisade. T¨ ank p˚ a att noga redovisa inf¨ orda

Denna s¨ okmotor kommer dock att baseras p˚ a ett redan f¨ ardigt ramverk och anledningen till att ett redan f¨ ardigt ramverk anv¨ ands ¨ ar f¨ or att det tar mycket l¨ angre tid