• No results found

Funktioner i företags data mining-verktyg

N/A
N/A
Protected

Academic year: 2022

Share "Funktioner i företags data mining-verktyg"

Copied!
42
0
0

Loading.... (view fulltext now)

Full text

(1)

EXAMENSARBETE

LARS GUSTAVSSON PONTUS ÖSTERHOLM

Institutionen för Industriell ekonomi och samhällsvetenskap Avdelningen för Systemvetenskap

SYSTEMVETENSKAPLIGA PROGRAMMET C-NIVÅ Data- och Systemvetenskap

Vetenskaplig handledare: Alf Töyrä

2004:201 SHU

Samhällsvetenskapliga och ekonomiska utbildningar

Funktioner i företags

data mining-verktyg

(2)

Förord

Förord

Denna C-uppsats är skriven på Data och systemvetenskapliga sektionen vid Luleå tekniska universitet. Detta är det sista steget i vår strävan att nå kandidatexamen i Data och systemvetenskap.

Vi vill börja med att tacka vår handledare Alf Töyrä för hans hjälp under hela uppsatsskrivandet. Vi vill även tacka alla andra lärare på institutionen som har läst vår uppsats till seminarier och som varit till stor nytta. Ett stort tack går även ut till de respondenter som vi fått intervjua, att de verkligen tog sig tid till att svara på våra frågor. Till sist vill vi ge ett Stort tack till Anna Lindström och Linda Öhman, för att de hjälpt oss att hitta referenser, korrekturläst vår uppsats och som varit ett tillförlitligt stöd genom hela arbetet.

Mycket nöje.

(3)

Sammanfattning

Sammanfattning

I denna uppsats undersöker vi vilka funktioner som är implementerade i företags data mining-verktyg. De funktioner vi undersöker, är sådana vi identifierat i litteratur. I uppsatsen beskriver vi vad ett datalager är och vi beskriver även mer ingående vad data mining är. Fallstudien har skett genom kvalitativa djupintervjuer med respondenter från fyra olika organisationer, där respondenterna arbetar som expertanvändare av verktygen. Slutsatsen som vi kommit fram till är att verktygen inte har alla funktioner, som vi identifierat, implementerade och att funktionerna skiljer sig mycket mellan företagens verktyg.

(4)

Abstract

Abstract

In this essay we examine which functions are implemented in corporation’s data mining tools. The functions we examine are those that we have identified in the literature. The essay describes what a Data Warehouse is and more thoroughly, it describes what Data Mining means. The case study has been conducted through qualitative deep-interview with respondents from four different organizations, where the respondents work as super users at their tool. Our conclusion is that the tools do not have all the identified functions implemented and that the functions differ a lot between the companies’ tools.

(5)

Innehållsförteckning

1 INLEDNING 1

1.1BAKGRUND_________________________________________________________ 1 1.2FORSKNINGSFRÅGA__________________________________________________ 2 1.3SYFTE _____________________________________________________________ 2 1.4AVGRÄNSNINGAR____________________________________________________ 2

2 METOD 3

2.1FORSKNINGSANSATS _________________________________________________ 3 2.2FORSKNINGSMETOD _________________________________________________ 3 2.2.1FALLSTUDIE_______________________________________________________ 4 2.2.2LITTERATURSTUDIER________________________________________________ 4 2.2.3ANALYSMETOD ____________________________________________________ 5

3 TEORI 6

3.1DATALAGER________________________________________________________ 6 3.1.1VAD KAN ETT DATALAGER GÖRA_______________________________________ 6 3.1.2BEGRÄNSNINGAR HOS ETT DATALAGER__________________________________ 7 3.2DATA MINING_______________________________________________________ 7 3.3DATA MININGS RÖTTER ______________________________________________ 8 3.4EN GENERELL SYN PÅ DATA MINING_____________________________________ 8 3.4.1FÖRBEREDA INFRASTRUKTUREN _______________________________________ 8 3.4.2MÖNSTERANALYS __________________________________________________ 8 3.4.3MÖNSTERTOLKNING_________________________________________________ 9 3.4.4EXPLOATERING_____________________________________________________ 9 3.5TVÅ OLIKA STILAR AV DATA MINING___________________________________ 10 3.5.1RIKTAD DATA MINING ______________________________________________ 10 3.5.2ORIKTAD DATA MINING _____________________________________________ 11 3.6DATA MININGTEKNIKER_____________________________________________ 11 3.6.1KLASSIFICERING___________________________________________________ 12 3.6.2ASSOCIERING_____________________________________________________ 13 3.6.3SEKVENS_________________________________________________________ 13 3.6.4KLUSTER_________________________________________________________ 13 3.7VISUALISERINGSMETODER___________________________________________ 13 3.8ANVÄNDNING AV DATA MINING FÖR ATT LÖSA SPECIFIKA PROBLEM_________ 14 3.8.1FÖRBÄTTRADE MARKNADSFÖRINGSKAMPANJER__________________________ 15 3.8.2FÖRBÄTTRADE OPERATIONELLA PROCEDURER___________________________ 15 3.9DATA MININGS PROCESSCYKEL _______________________________________ 16 3.9.1IDENTIFIERA RÄTT AFFÄRSPROBLEM___________________________________ 17 3.9.2TRANSFORMERA DATA TILL HANDLINGSBARA RESULTAT___________________ 17 3.9.3ANVÄNDA RESULTATEN_____________________________________________ 19 3.10OLAP ___________________________________________________________ 19 3.10.1MOLAP ________________________________________________________ 20 3.11INTELLIGENT DATA MINING _________________________________________ 21 3.11.1ÖVERVAKAD INLÄRNING___________________________________________ 21 3.12BEGRÄNSNINGAR HOS DATA MINING __________________________________ 22 3.13SAMMANFATTNING AV IDENTIFIERADE FUNKTIONER_____________________ 22

(6)

Innehållsförteckning

4 EMPIRI 24

4.1FÖRETAGSPRESENTATION____________________________________________ 24 4.1.1TULLVERKET _____________________________________________________ 24 4.1.2NORRBOTTENS LÄNS LANDSTING______________________________________ 25 4.1.3SSABOXELÖSUND_________________________________________________ 25 4.1.4FÖRENINGSSPARBANKEN____________________________________________ 25 4.2SAMMANSTÄLLNING AV INTERVJUFRÅGOR______________________________ 26 4.2.1STÖDJER VERKTYGET AD HOC FRÅGOR OCH HUR SKAPAS DESSA I SÅ FALL? ____ 26 4.2.2HAR VERKTYGET STÖD FÖR ATT IDENTIFIERA MÖNSTER I DATALAGRET OCH

KLARAR DET ATT GÖRA DETTA AUTOMATISKT? _______________________________ 26 4.2.3VAD HAR VERKTYGET FÖR VISUALISERINGSMÖJLIGHETER? _________________ 27 4.2.4VISAR VERKTYGET SANNOLIKHETEN ATT DESS ANALYSER STÄMMER? ________ 27 4.2.5GÅR DET ATT SE HUR VERKTYGET ANVÄNDER MODELLER FÖR ATT GÖRA

ANALYSER? ___________________________________________________________ 27 4.2.6FÖRBÄTTRAR VERKTYGET MODELLERNA ITERATIVT?______________________ 27 4.2.7KAN VERKTYGET GÖRA NÅGRA FÖRUTSÄGANDE ANALYSER? _______________ 27 4.2.8SAMMANFATTNINGSTABELL ÖVER VARJE FÖRETAGS VERKTYGS FUNKTIONER __ 28

5 ANALYS 29

5.1AD HOC___________________________________________________________ 29 5.2IDENTIFIERA MÖNSTER______________________________________________ 29 5.3GOD VISUALISERING________________________________________________ 29 5.4SANNOLIKHET _____________________________________________________ 29 5.5ÅSKÅDLIGGÖRA MODELLER__________________________________________ 30 5.6FÖRBÄTTRA MODELLER ITERATIVT____________________________________ 30 5.7FÖRUTSÄGANDE ANALYSER __________________________________________ 30

6 SLUTSATS OCH DISKUSSION 31

6.1SLUTSATS_________________________________________________________ 31 6.2RESULTATDISKUSSION_______________________________________________ 31 6.3METODDISKUSSION_________________________________________________ 32 6.4FORTSATT FORSKNING ______________________________________________ 33

7 KÄLLFÖRTECKNING 34

Bilaga A - Ordlista

(7)

Inledning

1 Inledning

Data mining och datalager är termer som allt fler företag kommer i kontakt med idag när de strävar efter att utveckla sin organisation. Det finns en mängd olika verktyg för att hantera datalager och göra analyser. Vi vill med denna uppsats undersöka, genom intervjuer, vilka funktioner som dagens företag har i sina data mining-verktyg, utan att ta hänsyn till vilket verktyg det är de använder.

Vi har i denna uppsats försökt att använda oss av svensk terminologi. Data warehouse, som är ett vanligt begrepp bland data mining, har vi valt att kalla datalager efter svenska språknämndens rekommendation. I uppsatsen finns ett antal ord som är markerade med kursiv stil, detta är ord som vi har förklarat i en ordlista som återfinns i Bilaga A i slutet av uppsatsen

1.1 Bakgrund

Datalager är något företag satsar mer och mer resurser på och som sprider sig snabbt i hela landet och i resten av världen. Data mining är en självklar aktivitet mot ett datalager och det finns en mängd olika data mining-verktyg med en mängd olika funktioner att använda när det är dags att analysera företagets lagrade data. (Marakas, 2003) Berry och Linoff (2000) poängterar att data mining i sig inte bara är ett verktyg, utan att data mining är en process som innehåller ett antal kritiska steg, där valet av verktyg endast är ett av dessa steg.

Varför har då data mining ökat i popularitet de senaste åren? Berry och Linoff (2000) menar att detta är på grund av den explosionsartade ökningen av data som företag producerar idag. I mitten av 1900-talet hade inte ens de största företagen i världen mer än en knapp megabyte data sparat, i form av anteckningar, faktureringsböcker och arkiv. De största företagen i dag har databaser vars utrymme mäts i terrabytes. Detta är en data mängds ökning på över 100,000 gånger och den största anledningen till denna extrema ökning är det stegrande användandet av datorer och automatiska rutiner. För att kunna analysera dessa mängder data, har behovet av kraftiga analysverktyg, data mining-verktyg uppkommit.

Även Marakas (2003) menar att den största anledningen till varför data mining har blivit ett såpass hett ämne som det faktiskt är idag, beror på den enorma ökning av företagsdata som företag idag producerar. Han menar även att människans brister i att hantera data, lockar företag till att använda data mining för att analysera sina enorma mängder data. Ytterligare en anledning till varför popularitet kring data mining ökar, anser Marakas vara att data mining-verktyg börjat arbeta mer självständigt och automatiserat, med bland annat lärande maskiner, som jobbar mycket billigare än den ”armé” av högbetalda statistiker som det skulle behövas för att utföra liknande analyser. Dock är inte människans roll helt utspelad ännu, då vi fortfarande behövs för att avgöra om verktygens analyser och slutsatser är av relevans för företaget eller inte.

Det finns som sagt en mängd olika verktyg från flera olika leverantörer och när ett företag väljer data mining-verktyg, finns mängder av aspekter att titta på.

Verktygen skiljer sig ofta ganska mycket från varandra och varje verktyg har styrkor och svagheter. Styrkorna och svagheterna hos verktygen ligger oftast i

(8)

Inledning

vilka funktioner verktygen klarar av och hur verktyget använder sig av dessa.

(Barry & Linoff, 2000) Tillverkare av data mining-verktyg har ofta ett stort antal funktioner, som köpare kan välja på, till sina verktyg. (www.sas.com:2, www.spss.com:2)

Med denna uppsats ska vi undersöka vilka funktioner som företag har valt implementera i sina data mining-verktyg. Anledningen till att vi vill undersöka detta är för att se hur pass långt företag kommit i sin utveckling av data mining.

Vi anser även att genom denna undersökning kommer vi att få fram intressant information om vilka slags funktioner det är som är vanligast förekommande hos företag i deras data mining-verktyg.

I litteraturen nämns inget om vilka funktioner som bör ingå i ett data mining- verktyg, där beskrivs alla funktioner likvärdigt. Däremot nämns vissa funktioner mer frekvent i litteraturen. På grund av detta har vi valt att göra en undersökning på de funktioner som är mest förekommande i den litteratur vi har läst.

1.2 Forskningsfråga

Vilka data mining-funktioner har företag implementerade?

1.3 Syfte

Syftet med denna undersökning är att ge en bild över data mining-funktioner, som företag har valt att implementera. Vi ska ur litteratur identifiera ett antal funktioner som ett data mining–verktyg kan ha. Vi ska även undersöka om de identifierade funktionerna finns implementerade hos företag, samt undersöka om funktionerna faktiskt används av företagen.

Denna uppsats riktas mot företag som idag använder data mining och vill utveckla den verksamheten, samt företag som planerar ett införande av data mining i sin verksamhet. Vi anser de har nytta av denna uppsats då den ger en god beskrivning av data mining och dess möjligheter, samt att den visar på vilka funktioner företag valt att implementera och vilka av dessa som används. Vi anser också att uppsatsen är intressant för alla som är intresserade av att lära sig om data mining.

1.4 Avgränsningar

Vi har valt att avgränsa oss till ett antal funktioner som vi identifierat i teorin och vi kommer inte att titta på andra eventuella funktioner som företagens verktyg kan komma att ha. Vi avgränsar från att ta hänsyn till vilket data mining-verktyg företagen använder sig av. Vår empiriska avgränsning är att företagen ska använda verktygen dagligen och att respondenterna är insatta i sitt företags alla användningsområden för verktyget.

(9)

Metod

2 Metod

För att på ett systematiserat sätt undersöka verkligheten använder vi oss utav en metod. Här nedan kommer vi beskriva den metod vi valt att använda oss av i denna undersökning. Detta är för att läsaren ska kunna bedöma våra resultat och själva utvärdera trovärdigheten.

Den hantverksmässiga sidan av uppsatsskrivande kallas för metod. Det är den lära om vilka instrument som kan användas för att samla in den behövda informationen. Information som samlas in brukar kallas för data eller fakta. De data som har samlats in kallas för empiri, som kommer ifrån det grekiska ordet emperia, där peria betyder ”försök” eller ”prövning”. (Halvorsen, 1992)

2.1 Forskningsansats

Det finns ett antal olika undersökningsmetoder, explorativa, deskriptiva och hypotesprövande (Patel, 2003). Vi anser att den metod som passar bäst för denna uppsats bäst är den deskriptiva undersökningsmetoden. Med en deskriptiv metod innebär det att undersökningen är beskrivande (Ibid.). I vårt fall kommer vi först att beskriva teorin och sedan kommer vi med hjälp av fallstudier beskriva verkligheten.

I en deskriptiv undersökning kan de framtagna beskrivningarna vara dåtida eller nutida. Här begränsas undersökningen till de delar av ämnet som är av intresse.

Beskrivningarna av de olika aspekterna är väldigt noggranna och grundliga, där varje aspekt kan beskrivas var för sig, men det kan även förekomma beskrivningar av samband av olika aspekter. Vid deskriptiva studier förekommer oftast endast en datainsamlingsmetod (Patel, 2003).

2.2 Forskningsmetod

Ordet kvalitativ står för kvaliteter, det är alltså egenskaper eller framträdande drag hos något. När en kvalitativ metod används handlar det om att det är något som ska karaktäriseras. I kvalitativa metoder spelar mätningen en underordnad roll, med det menas att siffror inte är det väsentliga för analysen. Detta är vad som skiljer kvalitativa metoder från kvantitativa. Dock är det svårt att göra en undersökning helt utan att använda mängdavvikelser, vilket gör att det ofta förekommer även i kvalitativa undersökningar. I kvalitativa metoder är det texten som är det centrala uttryckssättet och arbetsmaterialet. Detta kan tyckas underligt då fallstudier sker på miljöer, personer och händelser, men eftersom att det är forskarens anteckningar i form av text som ligger till grund för den fortsatta analysen, är det texten som blir det centrala.

Ett kännetecken för kvalitativ metod är dess flexibilitet. I en kvantitativ undersökning får inte frågeställning ändras mellan intervjuerna, då anses det att resultaten inte går att jämföra. Däremot i en kvalitativ undersökning är det inga problem att formulera om frågorna mellan intervjuerna, då samma frågeställning anses kunnas tolkas olika av olika personer och att det är helt i sin ordning att utnyttja information som erhålls av en tillfällighet. Intervjuerna i sig är även flexibla, då många följdfrågor kan ställas med grund av de svar som erhålls av de förberedda frågorna. (Repstad, 1999)

(10)

Metod

Vi har valt att använda oss av en kvalitativ metod, då vi anser att det är lämpligt eftersom det är egenskaper hos data mining-verktyg, i form av funktioner, som vi ska undersöka och ordet kvalitativ betyder just egenskaper och framträdande drag.

Kvalitativ metod passar oss också eftersom att vi kommer att skriva ut våra intervjuer ord för ord. Det är sedan denna text som kommer att ligga till grund för vår analys. Vi tror också att en flexibel forskningsmetod kommer att passa oss bra, då vi tror att vi kommer få mycket ny information under fallstudierna, som kan leda till att vi får möjligheten att modifiera vårt intervjuunderlag.

2.2.1 Fallstudie

Fallstudie innebär att undersökningen görs på en mindre avgränsad grupp. Här kan ett fall vara en individ, en grupp individer, en organisation eller en situation.

Det är fritt att studera fler än ett fall om så önskas. Det viktiga här är att få en så täckande information som möjligt och ett bra helhetsperspektiv av fallet. (Patel, 2003)

Vi har planerat att genomföra våra fallstudier med kvalitativa intervjuer. Vi ska börja med att ta kontakt med ett antal företag för vilka vi kommer att förklara vad vår uppsats handlar om och att vi vill intervjua personer som dagligen jobbar med data mining och är väl insatta i företagets verktyg. Vi ska välja företag med olika inriktning och olika mål med sin verksamhet för att försöka få en bred bild av hur data mining används inom olika organisationer. När vi fått kontakt med lämpliga personer på företagen, skickar vi ut en mall till dem om vad intervjun skall handla om och mer exakt vad vi vill ha svar på. Anledningen att vi valt kvalitativa intervjuer är för att vi anser att det passar vår uppsats bäst, då vi har en kvalitativ undersökningsmetod. Vi ska spela in intervjuerna på band, för att vi ska kunna koncentrerar oss på vad respondenterna säger och därigenom kunna ställa följdfrågor när det är något extra intressant eller något som vi inte förstår. Vi kommer sedan att skriva ut intervjuerna, i ett ordbehandlingsprogram, i stort sätt ordagrant för att sedan kunna analysera dem. Intervjuerna ska leda till att vi får insikt i hur de jobbar med data mining-verktygen, samt vilka av de funktioner som vi identifierat i litteraturen som verktygen har.

I en kvalitativ intervju är temat för intervjun klart och det handlar om att styra respondenten i rätt riktning, dock ska inte ett strikt schema användas för intervjun.

Följdfrågor bör ställas för att uppmuntra respondenten att tänka igenom och fördjupa sig i sina svar. Det bör inte vara fasta frågor med fast ordning, utan intervjun bör i största möjliga mån likna ett samtal. Det ska finnas möjlighet att ändra intervjumallen under och efter intervjuer, då olika respondenter kan ha olika möjlighet att svara på frågor. Det är rekommenderat att intervjuhandledningen endast är som en minneslapp för den som intervjuar, för att denne ska komma ihåg alla ämnen som ska tas upp i intervjun. (Repstad, 1999)

2.2.2 Litteraturstudier

Den litteratur vi har grundat våra teorier på är till stor del hämtad från Luleå tekniska universitets bibliotek. Vi har sökt i LIBRIS och Lucia som är två av bibliotekets databaser. De sökord som vi använt är ”data mining”, ”data

(11)

Metod

warehouse”, ”datalager”, ”dataanalys”. Vi har även använt oss av Internet för att slå upp vissa ord som förekommer i litteraturen, men som ej förklaras där.

2.2.3 Analysmetod

Analysen av material kan utföras på olika sätt och det finns inga generella rekommendationer eller regler, utan det viktiga är att klassifikation och analys av materialet sker utifrån frågeställningen. Om problemställning är vag, kan det vara bra att börja med att klassificera materialet efter olika ämnen som förekommer.

Det kan göras genom att markera viktiga saker i marginalen och därefter klippa i materialet och sortera upp urklippen efter de olika ämnena. Med hjälp av dataprogram kan textavsnitten få olika kodningar för att på det sättet sortera upp dem, och på det sättet undvika att klippa i papper och sortera dem på det viset.

(Repstad, 1999)

Vi kommer att utgå från denna metod för att analysera våra insamlade data. Vi kommer att skriva ut våra nerskrivna intervjuer och sedan färgkoda dessa med överstrykningspennor för att sortera dem efter ämne (olika färger på olika ämnen), i vårat fall, efter funktioner. När vi är klara med färgkodningen kommer vi att sammanställa alla ämnen genom att klippa och klistra i ordbehandlaren och på det sättet sortera intervjumaterialet efter funktionerna. Vi kommer sedan att koppla intervjumaterialet till det teoriavsnitt där funktionerna finns beskrivna.

Anledningen till att vi valde denna analysmetod är att vi kommer att skriva ut våra intervjuer och därigenom är det lätt att sitta och färgmarkera på papperet de olika ämnena. Vi tror att denna metod passar oss, då våra intervjuer kommer att bli ganska långa och vi räknar med att få med mycket material i dem som inte kommer att vara relevant för vår forskningsfråga. Genom denna analysmetod räknar vi med att lätt kunna sortera ut viktig information ur vårat intervjumaterial.

(12)

Teori

3 Teori

I detta avsnitt av uppsatsen beskrivs först datalager och sedan data mining. Denna teori kommer att ligga som grund för det vi redovisar i empiriavsnittet senare i uppsatsen.

3.1 Datalager

Ett datalager är en logisk sammanhållen datamängd, som är avsett för analys och som speglar flera tidsperioder genom att data regelbundet hämtas från andra register. Det kan även vara en generell kunskapsbank för en organisation, men det vanligaste är att det är avgränsat till ett fåtal av organisationens verksamhetsområden. (Peter Söderström, 1997)

”A data warehouse is a copy of transaction data specifically structured for querying, analysis, and reporting.”

(Marakas, 2003, s.5)

Med hjälp av citatet ovan vill Marakas (2003) försöka förklara datalager genom att förtydliga det. För det första säger citatet att ett datalager är en databas som innehåller kopior av transaktionsdata. Det säger även att datalager är en egen separat databas som inte hör ihop med organisationens övriga informationssystem eller databaser. Marakas menar även att data i ett datalager är statiskt, när kopian av en transaktion lagts in i datalagret kommer den inte att ändras däri. Detta ger att ett datalager i allmänhet inte blir mindre, utan har en tendens att växa till enorma proportioner. Ur definitionen ovan kan även utläsas att data i ett datalager är specifikt strukturerat, det innebär att datalagret inte tar hänsyn till hur data lagrats i databaserna som det kopierats ifrån, utan det har sitt eget specifika sätt att lagra data på och sin egen struktur. Till sist går det även att i citatet utläsa syftet med datalager: frågeställning, analys och rapportering. Datalager blir en central repertoar för all organisatorisk data som anses värdefull för utforskning av nya relationer, trender och gömda värden. Datalagret blir den vanligaste fokuseringspunkten för alla som arbetar inom organisationen och som vill lära sig mer om sin verksamhet. (Ibid.)

Det finns inga regler som säger vilken struktur ett datalager ska ha, dock ska datalagret följa en struktur och inte blanda flera strukturer. Ett datalager kan alltså vara normaliserat eller icke normaliserat. Det kan även innehålla en relationsdatabas, multidimensionell databas, hierarkisk databas eller en objektdatabas. (Marakas, 2003)

3.1.1 Vad kan ett datalager göra

Datalager minskar tiden från det att något händer i verksamheten, till att det rapporteras för ledningen. Ett exempel är säljrapporter som skrivs ut en gång i månaden, de brukar vara ledningen till handa ungefär en vecka efter månadsslutet.

Detta gör att beslut måste fattas på gammal historisk data. Med ett datalager kan rapporter ges dagligen och det ger beslutsfattare möjlighet att hitta lösningar som de annars hade missat. (Marakas, 2003)

(13)

Teori

De olika databaser i en organisation kan ses som ett pussel. Om endast en del av företag är intressant räcker det med att titta på en pusselbit, men om det är en helhetsbild av företaget som är av intresse, måste ett sätt att sammanfoga alla pusselbitar hittas. Med ett datalager sammanfogas alla pusselbitar från företagets olika delar såsom, order, betalning, materialplanering, försäljning och reklamationer. Med ett datalager kan en kunds väg spåras genom hela företaget.

Tack vare detta kan ledningen ställa en fråga som: Finns det något samband mellan vart en kund köper en produkt och hur mycket pengar som går åt i supportkostnad? (Marakas, 2003)

Eftersom ett datalager innehåller data från flera år bakåt kan man lätt se historiska trender och med hjälp av det förutse framtida trender. Framförallt säsongsbetonade varor är lätt att urskilja med hjälp av ett datalager. (Ibid.)

I vanliga informationssystem kan det vara krångligt att dra ut rapporter, ofta krävs att en programmerare skriver ett program för att skapa den rapport som efterfrågas och det kan ta flera veckor. Med ett datalager kan slutanvändaren själv skapa dessa rapporter, eftersom att den själv kan skapa egna ad hoc frågor som ställs mot datalagret. (Ibid.)

3.1.2 Begränsningar hos ett datalager

Ett datalager kan skapa rapporter på data som finns i datalagret, men det kan aldrig skapa data. Om till exempel den geografiska spridningen av försäljning av en produkt önskar men adresserna över vart produkterna sålts inte finns lagrade, kan ett datalager inte lösa problemet, om inte ett sätt att hämta in den nödvändiga data in i datalagret finns. Ett datalager kan upptäcka att data är smutsig, men för att rätta till det måste det ändras i företagets informationssystem eftersom att det är där som datafångsten sker. (Marakas, 2003)

3.2 Data mining

Enligt Marakas (2003) är datalager i dag ett hett ämne för många företag och det hetaste ämnet inom datalager är data mining. Nästan alla företag idag som har ett datalager anser att data mining är framtiden för deras datalager. Data mining är en process för att ur rådata hitta, för organisationen, viktiga affärsrelationer, så kallade mönster. Dessa affärsrelationer ska sedan användas för att förbättra verksamheten, ge stöd åt kritiska beslut och ge organisationen ett övertag gentemot konkurrenter. Ett datalager har flera olika fördelar, men det används som bäst när det används till data mining. Visst kan det tyckas att ”data mining”

bara är ett häftigt modeord för dataanalys, men enligt Marakas är det mer än så.

Han vill med de två nedanstående punkterna, kortfattat visa på vad data mining egentligen är. (Ibid.)

• En samling kraftfulla dataanalysverktyg som ska användas för att analysera extremt stora datamängder. Rätt använt kan det hitta mönster och information som ligger djupt begravd i organisationens datalager

• Data mining är inte ett verktyg, utan en samling av flera verktyg som kan kombineras för att få ut mest möjliga mängd information ur en samling data

(14)

Teori

Barry och Linoff (2000) menar att data mining taget ur ett affärssammanhang, handlar om att extrahera meningsfulla mönster och regler ur stora kvantiteter information. De trycker på att detta är väldigt användbart i alla områden där det finns stora mängder data och någonting värt att lära sig. För ett företag är något värt att lära sig, om den resulterade kunskapen är värd mer pengar än vad det kostar att upptäcka den. (Ibid.)

3.3 Data Minings rötter

Många tror att data mining är något nytt, men innebörden av ordet har funnits sedan 60-talet då det kallades statistisk analys. De tre företag som då ledde vägen var SAS Institute Inc., SPSS Inc. och IBM, och dessa tre är idag fortfarande väldigt aktiva inom området. Från början innebar statistisk analys rutinerna Correlation, Regression, Chi-square och Cross-tabulation. Dessa tekniker finns fortfarande kvar i dagens moderna data mining. Men data mining har blivit mycket mer än dessa fyra statistiska funktioner, i dag är det mer insiktsfulla och kraftfulla verktyg som kan förklara och förutse data. På 80-talet kom mer kraftfulla tekniker såsom heuristisk resonering och neurala nätverk, dessa kan ses som början till Artificiell Intelligens (AI). (Marakas, 2003)

3.4 En generell syn på data mining

Marakas (2003) beskriver fyra övergripande punkter som handlar om data mining.

Det börjar med förberedelse av data och slutar med exploatering av nyvunnen information.

3.4.1 Förbereda infrastrukturen

Det första som ska göras är att identifiera och förbereda infrastrukturen. Det är i infrastrukturen som data mining-aktiviteten kommer att ske. Den ska minst bestå av en hårdvaruplattform, en databashanterare och ett eller flera data mining- verktyg. Hårdvaruplattformen är ytterst sällan samma som används till organisationens övriga verksamhet. När data flyttas till mining-plattformen förbereds ofta data, det kan handla om att integrera data från olika delar av organisationens verksamhet. En metadatakatalog skapas som innehåller information om data, var det kom ifrån, hur gammalt det är, hur det inhämtades, vilka enheter det representerar och så vidare. Metadatakatalogen fungerar lite som en innehållsförteckning över vad för data som finns. (Marakas, 2003)

3.4.2 Mönsteranalys

När ett antal mönster har hittats måste varje mönster analyseras. De olika mönstren kommer att ha olika statistiska starkheter och ju starkare de är, desto större är chansen att exploatering av dem kan vara gynnsam, i Figur 1 illustreras hur olika starka relationer kan vara. Om ett mönster inte är starkt idag men blir starkare över tiden, är det en indikation på en framtida förändring och kan hjälpa till att förutse ändringar i marknadsläget. Dock går det inte att bara se till styrkan, ett mönster kan också representera en ”falsk positiv”. Det innebär att den starka relationen mellan två variabler bara är slumpmässig och därför meningslös. Detta uppkommer på grund av att det ofta är stora datamängder som utforskas och att

(15)

Teori

viss slumpmässighet då är ofrånkomligt. En tredje aspekt att titta på är om en relation har någon affärssignifikans. Även om det är en stark relation och den inte är en ”falsk positiv” kan det hända att den inte har någon affärssignifikans vilket gör att det inte finns någon användning av relationen. (Marakas, 2003)

3.4.3 Mönstertolkning

När analyssteget är klart ska mönstren tolkas, utan tolkning är mönstren värdelösa. För att tolka mönstren behövs både teknisk och affärsmässig expertis.

Saker som bör tänkas på vid mönstertolkning är: (Marakas, 2003)

• trender inom verksamheten

• säsongsbetoning av verksamheten

• målgruppen vilken mönstret kan appliceras på

• mönstrets styrka och möjligheten att använda det som grund för framtida behov

• storleken på målgruppen som mönstret passar in på

• mönstrets geografiska utsträckning och dess tidsfaktorer såsom dag, vecka, månad och år

3.4.4 Exploatering

När de övriga faserna är klara är det dags att exploatera mönstret, alltså att verksamheten använder den information de fått på bästa sett. Detta kan göras på olika sätt: (Marakas, 2003)

• Specifika säljerbjudanden

• Paketera produkter för att attrahera den tilltänkta målgruppen

• Introducera nya produkter

Figur 1: Olika starka relationer (Marakas, 2003, s.24)

En perfekt relation

En stark relation

En svag relation

(16)

Teori

• Prissätta produkter på ett ovanligt sätt

• Marknadsföring riktad mot en viss målgrupp

Marakas (2003) menar att det är möjligt att förbereda verksamheten på framtida omställningar baserat på antagen tillväxt hos ett mönster som idag är svagt men beräknas växa med tiden. Det går även se vilka målgrupper och vilka slags människor som hör ihop med olika mönster och därigenom kunna styra sin reklam mot ”rätt” människor. (Ibid.)

3.5 Två olika stilar av data mining

Det finns två olika stilar inom data mining. Riktad data mining är en stil där arbetet sker uppifrån och ner, det vill säga att arbetet sker utifrån ett resultat och därefter försöker analytikern förstå varför resultatet blev som det blev. Denna form av data mining kallas ofta för förutsägande modellering, där användaren exakt vet vad det är som ska förutses. Den andra stilen, oriktad data mining, arbetar från andra hållet, det vill säga att arbetet sker genom ett ”nerifrån och upp”

tillvägagångssätt. Här får data tala för sig själv. Oriktad data mining hittar mönster i data och låter sedan användaren välja om dessa mönster är relevanta eller inte.

Dock används oftas inte bara den ena eller den andra stilen, utan oftast används en blandning av bägge stilar. (Berry & Linoff, 2000)

3.5.1 Riktad data mining

Riktad data mining arbetar genom en såkallad svart låda modell. Detta illustreras i Figur 2, där pilarna som går mot lådan (som symboliserar data mining-verktyget) är inmatade värden och pilen som kommer ut från lådan är resultatet av de inmatade värdena som analyserats. Här bryr sig användaren inte alls om hur modellen arbetar utan denne är endast intresserad av att få fram bästa möjliga resultat. Detta tillvägagångssätt används när användaren vet vad denna letar efter och när denna kan rikta data mining processen mot ett visst mål.

(Berry & Linoff, 2000)

I vanliga fall används redan tidigare kända exempel, detta skulle kunna vara tänkbara personer till en marknadsföringskampanj som redan har fått ett visst erbjudande. Till dessa personer kopplas den insamlade informationen till okända exempel, såsom som eventuella kandidater som ännu inte blivit kontaktade. En sådan modell kallas för en förutsägande modell då den gör förutsägelser, baserade på historisk data, på okända exempel. Dessa modeller kan svara på frågor som:

(Ibid.)

• Vem kommer troligtvis att svara på vårt nästa erbjudande, baserat på historiken av tidigare marknadsföringskampanjer?

Figur 2: Svart låda (Barry & Linoff, 2000, s.41)

(17)

Teori

• Vilken är den bästa medicinska behandlingen, baserat på tidigare erfarenheter?

• Vilken maskin kommer troligtvis att haverera nästa gång?

• Vilka kunder kommer troligtvis att sluta vara kunder hos oss, under de närmaste sex månaderna?

• Vilka transaktioner är troligtvis bedrägerier, baserat på tidigare kända bedrägerier?

Förutseende modeller använder sig av erfarenhet för att få fram ett relevant resultat. Med mer relevanta data och med högre erfarenhet fås ett mer trovärdigt resultat. Genom att använda sig av data där resultatet redan är känt, kan modellen tränas för att få fram mer korrekta resultat. Däremot blir aldrig en förutseende modell med 100 % exakthet. De är ändå användningsfulla för beslutsfattaren inom ett företag, när denna ska ta beslut som grundas på stora mängder information.

(Berry & Linoff, 2000)

3.5.2 Oriktad data mining

Då förutsägande modeller används vid sökningar efter kända problem, används oriktad data mining till att upptäcka helt mönster i data mängderna. Dessa mönster bidrar till ny insikt i data organisationen har lagrat och kan visa sig vara väldigt informativa. (Berry & Linoff, 2000)

Berry och Linoff (2000) har valt att presentera denna form av data mining genom en semitransparent låda, som återges i Figur 3. Till skillnad från den ”svarta lådan”, har användaren här möjligheten att se hur data mining-verktyget arbetar – dess val av modeller, algoritmer, variabler, hur beräkningarna sker och så vidare - för att komma fram till ett resultat. Här menar de att det viktiga är att få reda på vad som händer, men dessutom att titta på hur modellen kommer fram till detta.

Fast även om data mining-verktyget kan finna mönster och lägga fram beslutsförslag till lösningar, behövs fortfarande människans omdöme för att tolka om resultat är av relevans eller inte. (Ibid.)

”Advanced algorithms can find patterns in the data, but only people can determine whether the patterns have any significance and what the patters might mean”

(Barry & Linoff, 2000, s.40)

3.6 Data miningtekniker

Medan populariteten för data mining växer med en extrem hastighet, har utvecklingen av nya och innovativa tekniker för att gräva i datalager ökat kraftigt.

Tekniker ska inte förväxlas med funktioner, då funktioner använder sig av en eller flera tekniker för att utföra sitt syfte. Många av de nya teknikerna är förbättringar

Figur 3: Semitransparent låda (Barry & Linoff, 2000, s.41)

(18)

Teori

av äldre tekniker, medan några kan klassas som helt innovativa. Men på grund av bristen av standarder bland leverantörer, blir nya innovativa tekniker ofta begränsade till en specifik leverantörs plattform och kan därför inte klassas som en standard inom data mining. På grund av detta har Marakas (2003) valt att sammanfatta de vanligaste teknikerna som används idag, och undvikit specifika leverantörstekniker, till fyra grundläggande teknikkategorier: Klassificering, Association, Sekvens och Kluster. (Ibid.)

3.6.1 Klassificering

I klassificeringstekniken ingår data mining-processer vars syfte är att identifiera regler som definierar om ett objekt eller en händelse tillhör en särskild klass av data. Denna kategori av tekniker går, enligt Marakas (2003), att bredast appliceras på olika typer av affärsproblem. Tekniken innefattar två subprocesser: (Ibid.)

• byggandet av en modell

• klassificeringsförutsägning

Anta att ett företag, till exempel, vill titta på tidigare obestämda köpemönster i en kundbas. En klassificeringsmodell kan då skapas för att kartlägga de olika kundernas attribut (ålder, kön, inkomst och så vidare) med olika produktköp (till exempel, lyxiga bilar, konsertbiljetter, kläder och så vidare). Tilldelad ett antal förutsägande attribut, kan modellen användas mot en lista med kunder för att fastställa vilka kunder som troligtvis kommer att göra att speciellt köp den närmaste månaden. Klassificeringsmodellen kan då i fortsättningen användas mot den aktuella kundbasen för att generera listor med lämpliga kunder för riktad reklam genom till exempel, e-postutskick eller telefonförsäljning. Genom att bygga och förbättra en förutsägande modell över affärsproblemet, kan data mining-klassificeringsmetoder oftast ge användbara och väldigt exakta svar på frågor. (Marakas, 2003)

Marakas (2003) menar att det generellt kan sägas att klassificeringsmetoder utvecklar modeller som bygger på vanliga ”OM - SÅ regler”. Då tanken är att få insikt i möjliga medlemmar av en klass, är standard ansatsen vid själva klassificering att titta på om medlemmen uppfyller de regler som är förbestämda och därefter placera in medlemmen i en av tre möjliga subklasser: (Ibid.)

• Exakt regel: Denna regel tillåter inga undantag, det vill säga, varje objekt (i detta fall, varje medlem) uppfyller den regel som är satt till 100 procent i klassen. Denna ansats skapar den högsta sannolikhetsklassen av medlemmar – 100 procent sannolikhet.

• Stark regel: Med denna regel är några undantag, inom en viss radie av regeln, godkända. Den här ansatsen skapar en subklass med en stark sannolikhet med- lemmar – 90-100 procent sannolikhet.

• Sannolikhetsregel: Denna regel hänför villkorliga sannolikheter till sannolik- heten. Denna ansats skapar en mätbar sannolikhets subklass av medlemmar X-procent sannolikhet.

(19)

Teori

3.6.2 Associering

Associeringsteknik, eller länkanalys som det även kallas, genomsöker alla poster eller transaktioner från operationella system efter mönster som med stor sannolikhet kommer att repeteras. Denna teknik resulterar till utvecklingen av en associationsalgoritm som kopplar samman en serie händelser eller föremål med en annan serie händelser eller föremål. De mönster som härleds fram genom algoritmen kan komma att beskrivas som, till exempel, Åttiotre procent av alla poster som innehåller artiklarna A, B och C, innehåller även artiklarna D och E.

Den procentsats som presenteras i associeringsalgoritmens resultat, kan beskrivas som regelns trovärdighetsfaktor. (Marakas, 2003)

Market basket analysis är ett vanligt exempel på en associeringsmetod. Det är en metod där en detaljhandlare kan gräva i data som genererats av kassaapparaterna i sin detaljhandel. Genom att analysera och jämföra kundens ”varukorg”, det vill säga de varor kunden har betalat för i kassan, med hundratusentals andra varukorgar, kan detaljhandlaren finna samband mellan olika produkter. Exempel på detta skulle kunna vara en regel som säger: Sextionio procent av kunder som handlar läsk, handlar även chips. Denna typ av information kan vara användbar vid placeringen av produkter för att på det sättet få kunden att köpa mer.

Detaljhandlaren skulle kunna, från exemplet ovan, sätta upp en chipsreklamskylt vid läskhyllan för att få fler kunder att stoppa ner en chipspåse i varukorgen. Även fast vissa produkter, såsom mjölk och yoghurt, har en självklar samhörighet, kan den data mining-teknik användas mycket lyckat för att hitta mindre självklara, dock inte mindre användningsfulla, samband mellan produkter. (Marakas, 2003)

3.6.3 Sekvens

Denna teknik går ut på att förutse något genom att titta på olika tidigare händelser.

Till exempel att när föräldrar hyr en barnfilm, kommer de inom två veckor handla leksaker som har anknytning till filmen. Detta betyder att en reklambladskampanj för leksaker med anknytning till film borde vara kopplad till en hyrvideobutiks kundlista. Från en typisk sekvensanalys bör ett mönster med händelser, som sker innan en speciell händelse som är av intresse, fås fram. (Marakas, 2003)

3.6.4 Kluster

Ibland kan det vara väldigt svårt, eller rent av omöjligt att identifiera parametrar för klassificering av data. I sådana fall kan klustermetoden användas. Det handlar om att gruppera data baserat på dess likheter. Ett exempel är om analys av kreditkortsköp vill göras. Med klustermetoden kan då framkomma att affärskort ofta används för att köpa måltider på veckodagarna som har medelkostnad större än 250 dollar och att privata kreditkort som används till måltider oftast används på helgerna och medelkostnaden ligger på 175 dollar, samt att en flaska vin ingår i notan i sextiofem procent av fallen. (Marakas, 2003)

3.7 Visualiseringsmetoder

Visualisering innebär att numerisk data konverteras till enkla och överskådliga bilder. Rådata kan komma från en mängd olika källor såsom undersökningar, sattelitfoton, datasimuleringar och så vidare. Rådata av detta slag är ofta

(20)

Teori

svårtolkat på grund av mängden data, att den ofta är komplex och mönstren ej är tydliga. Den mänskliga hjärnan kan hantera stora mängder visuell information och känna igen miljoner olika fysiska objekt. Visualiseringstekniker används för att hjälpa till vid analysering av komplex data genom att koppla fysiska egenskaper till data och därigenom dra nytta av det mänskliga visualiseringssystemet.

Exempel på sätt att visualisera data är ljuseffekter, färger, riktningar, storlek, avstånd mellan objekt, hastighet och genomskinlighet. (Marakas, 2003) Även Dunham (2003) påpekar att visualisering är väldigt viktigt för att användaren ska kunna tolka resultat och data som mining-verktyget presenterar, ett exempel på hur detta kan illustreras visas i Figur 4.

I vissa fall kan syftet med data mining helt enkelt vara att på ett enkelt sätt beskriva vad som händer i en komplicerad databas på ett sätt som ökar förståelsen för folket, produkterna eller processerna som producerade data från första början.

En bra beskrivning av ett beteende leder ofta till en förklaring av "beteendet".

Visualisering är ett kraftfullt sätt att beskriva data mining. Det kan vara svårt att hitta meningsfulla visualiseringar, men ibland kan det vara guld värt, då människor är extremt bra på att utvinna "fakta" ur visuella scener. (Barry &

Linoff, 2000)

3.8 Användning av data mining för att lösa specifika problem

En stor styrka hos data mining är dess breda urval av metodologier som kan appliceras på en problemgrupp. Eftersom data mining är en självklar aktivitet mot ett datalager, är data minings användningsområde till störst del att arbeta mot samtliga datalager, data marts och beslutsstödsområden inom industrier som försäljning, tillverkning, telekommunikation, transportering, försäkring och sjukvård. Inom försäljningsområdet kan data mining användas till att hitta nya försäljningstrender eller till exempel planera investeringsstrategier. Det finns även möjligheter att använda data mining vid förbättring av marknads-

Figur 4: Visualisering av ett 3D-stapeldiagram (Marakas, 2003, s.99)

(21)

Teori

föringskampanjer, resultatet används sedan för att bättre förstå sina kunder och ge dem mer fokus och ”support”. (Westphal & Blaxton, 1998)

För att identifiera bedrägerier och kriminella trender kan polisen och andra under- sökande enheter använda sig av data mining. Data mining-metodologier kan hjälpa analytiker att finna viktiga mönster, till exempel genom analys av kommunikation mellan olika brottslingar, hitta spår efter pengatvätt eller rörelsen av en seriemördare. (Ibid.)

3.8.1 Förbättrade marknadsföringskampanjer

Att marknadsföra en produkt eller ett företag kostar mycket pengar vid framtagning av design, produktion och distribution av marknadsföringsmaterial.

Westphal och Blaxton (1998) menar att om inte marknadsföringskampanjen är riktad mot rätt kundgrupp kan företaget förlora stora mängder pengar på grund av tappad försäljning. Skulle marknadsföringsmaterialet visas på fel sorts medium eller vid fel tidpunkt, kan kampanjen visa sig vara väldigt ineffektiv.

Inkonsekvent data i form av felaktiga namn, adresser och andra ofullständiga datafält leder oftast till misslyckad marknadsföring. Detta är givetvis bortkastade företagsresurser som skulle kunna användas på ett bättre sätt. Idag finns olika data mining-tekniker för att effektivisera marknadsföringsprocessen. Företag har tjänat miljontals dollar genom att förbättra sin marknadsföring genom data mining- tekniker. (Wesphal & Blaxton, 1998)

3.8.2 Förbättrade operationella procedurer

Ett annat område där data mining kan förbättra en organisations funktionalitet är genom de operationella och kommunikativa delarna inom organisationen. Här är organisationens struktur en viktig källa av information. Organisationens struktur är ofta hierarkisk och stel. Koncernchefen sitter högst upp i hierarkin följt av VD:n och så vidare (Figur 5 (a)). Fast denna figur visar oftast inte hur organisationen fungerar i operationella termer egentligen. Inom en organisation finns mängder av informella subgrupper och mindre sociala nätverk. Dessa subgrupper kan definieras av hur ofta individer kommunicerar med varandra, vilka som arbetat tillsammans tidigare i olika projekt eller till exempel vart individen vänder sig när denna är i behov är hjälp (Figur 5 (b)). (Westphal &

Blaxton, 1998)

Figur 5: Organisatoriska strukturer (Westphal & Braxton, 1998)

Formel Informell

(a) (b)

(22)

Teori

Information om organisationens subgrupper finns oftast inte sparad i organisationens databas, utan måste hämtas in genom noga planerade enkäter och intervjuer vilket kan vara oerhört tidskrävande och som dessutom bara är aktuell en kortare tid efter undersökningen. Skulle dock informationen sparas i en databas och sedan analyseras med hjälp av data mining, skulle detta kunna skapa en realistisk modell över hur organisationen egentligen arbetar. Genom en sådan modell skulle det gå att finna befintliga problem i viktiga processer i organisationen och se vilka processer som faktiskt hindras, istället för att stöttas av den nuvarande strukturen. Det finns mängder av exempel på obalanserade samarbeten mellan avdelningar inom företag som försämrat den övergripande prestationen i organisationen. Detta kan vara scenarios där det visar sig att marknadsföringsavdelningen och försäljningsavdelningen knappt har någon kommunikation mellan sig eller att ekonomiavdelnings ledning nästan inte alls har någon kontakt till resten av företaget. Upptäckter av de ohälsosamma förhållandena kan leda till omstrukturering inom företag och genom detta uppnå företagets mål. (Westphal & Braxton, 1998)

3.9 Data minings processcykel

Data mining kan appliceras på ett flertal problem inom en stor mängd industrier.

De vanligaste applikationerna finns dock inom marknadsföring, mer specifikt inom kundrelationshantering (Customer Relationship management, CRM). Det används till att söka efter nya kunder, bibehålla nuvarande kunder och öka kundernas värde. Andra vanliga områden för data mining är till exempel att öka förståelsen för kundernas beteende eller att optimera tillverkningsprocessen av en viss produkt.

Det finns mängder av data mining-verktyg och även fast de har mycket gemensamt, har varje verktyg sina egna unika karaktärsdrag. Industrier skiljer sig

Transformera data till handlingsbar information genom data miningtekniker.

Identifiera affärsproblem och areor där analys av data kan tillhandahålla värde.

Handla på informationen.

Mät dina handlingsresultat för att ge insikt i hur du ska utnyttja din data.

Figur 6: Data minings processcykel (Westphal & Braxton, 1998, s.43)

(23)

Teori

ifrån varandra, företag inom samma industri har olika strategier och olika tillvägagångssätt. Allt detta påverkar ansatsen till data mining. (Berry & Linoff, 2000)

Processcykeln för data mining har fyra huvuddelar (Figur 6). Dessa är ”identifiera rätt affärsproblem”, ”transformera data till handlingsbara resultat”, ”använd resultaten” samt ”mäta resultaten”. Det finns inga genvägar, för att lyckas med data mining krävs alla dessa fyra processer. Resultaten måste diskuteras och expertisen kommer att växa när organisationen lär sig att fokusera på rätt affärsproblem, lär sig sina data- och modelleringstekniker och att förbättra sina data mining-tekniker. Framgångsrik data mining är ett exempel på organisatorisk inlärning. (Ibid.)

3.9.1 Identifiera rätt affärsproblem

Den första delen i kretsloppet är troligen den svåraste. Att identifiera rätt affärsproblem är inte något som data mining-användaren kan göra själv. Här handlar det mycket om att kommunicera med andra anställda i organisationen, som är lite grand av experter inom sitt område, det är de som kan förklara för data mining-användaren vad för slags problem de vill att data mining-verktyget ska analysera. Dock ska data mining-användaren inte låsa sig helt vid experternas idéer om vad som är problem, då experterna kan ha en låst syn på problemet. Det kan även vara bra att se på problem ur andra synvinklar. (Berry & Linoff, 2000)

3.9.2 Transformera data till handlingsbara resultat

I denna process är det ett antal steg som ska genomföras. Det första som ska göras är att identifiera och samla in data. Det handlar om att samla in all data som behövs för analysen och ofta är det all data som finns tillgänglig inom området.

Det är viktigt att data är komplett, till exempel data från en undersökning kan vara svår att använda eftersom den bara stämmer för de personer som svara på undersökningen. Med det menas att det bästa är att använda data som finns om alla kunder i kundregistret. Ytterligare ett exempel på hur viktigt det är att ha all nödvändig data insamlad, är till exempel när ett företag med planer på att skapa en förutsägande modell över vilka som mest troligt skulle komma att svara på deras nästkommande katalogutskick. Företaget hade sparat data om alla sina kunder som svarat på tidigare katalogutskick och vad de hade handlat. De hade dock inte sparat information om vilka de hade skickat katalogen till tidigare år och därför visste de inte vilka som inte hade svarat på tidigare katalogutskick. Därför gick det inte att göra en förutsägande modell om vilka som troligen skulle svara på årets katalogutskick. (Berry & Linoff, 2000)

Nästa steg är att validera, kontrollera och rensa data. Detta är viktigt eftersom det är dessa data som avgör hur bra analysresultatet blir. De punkter som bör beaktas är: (Ibid.)

• Är alla fält ifyllda? Kommer avsaknad av data vara ett problem?

• Är värdena i fälten inom de bestämda gränserna?

• Är värdena i fälten rimliga?

(24)

Teori

• Är fördelningen i de individuella fälten förklarbar?

Data som är kritisk för verksamheten är ofta väldigt korrekt, medan data som bara samlas in men ingen egentligen tittar på ofta kan vara felaktig. Många gånger är det först vid införandet av data mining som all sådana data, som är oväsentlig i den dagliga verksamheten, börjar användas. (Berry & Linoff, 2000)

Därefter ska data ändras till rätt nivå. Data mining-algoritmer jobbar på enskilda datarader, därför behöver all data som till exempel beskriver en kund bli en rad.

Det handlar ofta om att sammanfatta data, tills all data befinner sig på rätt nivå.

Ett exempel är om en affär har lagrat data för varje produkt vilka kunder som har handlat den produkten, där blir det en rad för varje gång någon kund har handlat produkten. Det sammanfattas för varje kund istället, så att varje kund blir en rad där man ser vilka och hur många produkter kunden har handlat. (Ibid.)

Nästa steg är att lägga till härledda variabler. Dessa variabler härleds ur den data som finns i datalagret och är ofta summeringar av till exempel hur mycket en kund har handlat för under ett år och dylikt. (Ibid.)

Det sista steget i förberedelsen av data är att kontrollera att de avvikande resultaten i data är ungefär mellan 15-30 % av all data. Detta är för att modellen annars kommer att förutse samma sak varje gång den används. Om den avvikande data är för lite, finns det ett antal tekniker som kan användas för att höja procenten avvikande data. Därefter delas data in ett antal grupper eller filer, vanligtvis en träningsgrupp, en testgrupp och en utvärderingsgrupp. Detta görs för att kunna köra modellen flera gånger med olika data och se hur väl resultaten stämmer överens. (Ibid.)

Nu när all data är förbered och grupperad ska det väljas modelleringsteknik. Här beror det på vilket verktyg som används hur modelleringsteknik väljs. Vissa verktyg kan själva testa olika modelleringstekniker och välja vilken teknik som är mest lämplig att tillämpa. Det finns även verktyg där användaren själv får välja

Figur 7: Gainkurvor (Barry & Linoff, 2000, s.56)

(25)

Teori

och testa modelleringstekniker samt avgöra vilken som genererar bästa svaret.

(Ibid.)

Slutligen ska sannolikheten hos de olika modellerna testas. Olika data mining- tekniker har olika sätt att mäta resultatet. Ett sätt att mäta är med en ”confusion matrix”, den visar med staplar eller tabeller hur stor procent av utfallen från modellen som sannolikt blir rätt och fel. Ett annat sätt att mäta är med en så kallad gainkurvor (Figur 7). Där syns grafer för de testade modeller och den graf som har brantast stigning är den modell som har störst sannolikhet att den stämmer bäst. (Berry & Linoff, 2000)

3.9.3 Använda resultaten

Data mining gör ingen nytta om inte resultaten från data mining-arbetet används.

Användningen av resultatet kan ske på ett antal olika sätt. Här följer några exempel över hur resultat från data mining kan användas. (Berry & Linoff, 2000)

• Insikter: Under själva analysarbetet kan mycket nya fakta ha kommit fram om organisationen. Denna fakta måste då delges alla i organisationen för att komma till användning.

• Engångsresultat: Resultatet från analysen kan gälla för en enskild aktivitet, som till exempel en marknadsföringskampanj. Kampanjen bör genomföras på sådant sätt att riktlinjerna för kampanjen, som analysen gett, följs.

• Komma ihåg resultat: Analysen kan ha gett mycket intressant information om kunder och då bör denna information vara tillgänglig i till exempel en databas eller ett datalager.

• Laga data: Ibland kan en data mining-process grund sin analys på data som är felaktig och ger därför markant sämre resultat vid analysen. I detta fall används resultatet för att rensa och rätta till felaktig data som påträffats.

• Mäta modellens effektivitet: Detta handlar om att jämföra modellens utslag mot hur det egentligen gick i verkligheten, hur många av kunderna nappade egentligen på det erbjudandet i reklamkampanjen och hur väl stämde det med modellens förutsägelse. ”Confusion matrix” och Gainkurvor som vi nämnt i ett tidigare stycke kan lätt göras om så den även kan mäta en modells effektivitet. För förutseende modeller blir ofta resultatet sämre än det som modellen förutspått. Skillnaden mellan verklighet och förutsägelse blir ofta större, desto längre bort i tid förutsägelsen är jämfört med det data som den baseras på.

3.10 OLAP

Online Analytical Processing, OLAP, är en generell beteckning för multidimensionella data mining-verktyg. Ett exempel på sådant verktyg är MOLAP, som beskrivs vidare i avsnitt 3.10.1. OLAP är framtaget av E.F Codd och det är även han som skapade begreppet relationsdatabas. OLAP fungerar genom att det hämtar data från datalagret, in till arbetsstationen som OLAP programmet körs ifrån. I arbetsstationen analyseras data för att ge svar på frågan användaren ställt. (Söderström, 2001)

(26)

Teori

Enligt Marakas (2003) utvecklade Codd OLAP för att han ansåg att de operationella databaserna inte var bra nog för dataanalys. Codd tog fram tolv regler för att definiera ett OLAP verktyg och dessa är: (Ibid.)

• Begrepp kan ses i flera dimensioner

• Transparens (Att hela strukturen är synlig)

• Åtkomlighet (Klara att komma åt olika datakällor)

• Rimligt konstanta svarstider

• Klient – server

• Alla dimensioner likvärdiga

• Dynamiskt gles matrishantering

• Flera användare

• Obegränsad korsdimensionalitet

• Heuristisk sökning

• Flexibel rapportering

• Obegränsat antal dimensioner

Marakas (2003) hävdar dock att det idag inte finns något verktyg implementerat som följer alla regler som Codd definierat, han menar även att det är nästintill omöjligt att följa alla tolv regler när ett OLAP-verktyg implementeras.

OLAP används för mer komplexa frågeställningar än vad traditionella OLTP system klara av. OLAP kan ses som en utökning av de funktioner som finns i SQL. OLAP används mot datalager eller data marts. Två viktiga grundstenar i OLAP är att det stöder ad hoc frågor och dess multidimensionella syn på data.

(Dunham, 2003)

3.10.1 MOLAP

Multidimensionell Online Analytical Processing, MOLAP, använder sig av en multidimensionell databas. Den kan hantera större volymer än OLAP och data ligger inte på arbetsstationen, utan på en server. (Söderström, 2001)

MOLAP analyserar data ur flera dimensioner. I det exempel som illustreras i Figur 8, analyseras data ur marknadsperspektiv, produktperspektiv och tidsperspektiv. De olika perspektiven kan innehålla flera medlemmar. Till exempel kan marknadsregionen bestå av norr, söder, öster, väster och centralt, produktperspektivet innehåller alla produkter som säljs och tidsperspektivet kan delas upp i månader, kvartal eller år. (Marakas, 2003)

Exemplet i Figur 8 visar hur MOLAP använder tre dimensioner, men faktum är att MOLAP kan organisera och analysera data i n-dimensionella kuber. När MOLAP ska organisera data som en flerdimensionell kub, lagras data i en flerdimensionell vektor, där varje cell i vektorn representerar en korsning mellan alla dimensioner.

Tack vare detta kan hur många dimensioner som helst analyseras på samma gång

(27)

Teori

och kan skapa hur många multidimensionella vyer av data som helst. Dock när en kub med många dimensioner skapas, betyder det att många celler i kuben kommer att sakna ett värde. Om till exempel en multidimensionell kub analyserar ett säljsystem över produkt, region, tid, försäljning, volym och snittförsäljning jämt emot budgeterad försäljning, är det troligt att inte alla produkter sålts i alla affärer eller regioner under en viss tidsperiod. Generellt kan sägas att desto fler dimensioner kuben har, desto mer tomma fält blir det. Detta gör att kuberna blir väldigt hårddiskkrävande, då plats allokeras till alla celler, även de som är tomma.

Men tack vare ny teknik inom komprimering och komplex indexering, kan plats sparas och ändå säkra korta svarstider. (Marakas, 2003)

3.11 Intelligent data mining

I dag tror många att datorn är det enda som klarar av de mest komplexa beräkningar som kan tänkas, men det beror på att hänsyn inte tas till den mänskliga hjärnan. Hjärnan är idag fortfarande den absolut mest avancerade informationsprocessorn som existerar på jorden, därför har det utvecklats program som ska efterlikna hjärnans struktur och principer. Det handlar om ”Artificiella neurala nätverk”, ANN. (Marakas, 2003) ANN är en datateknologi som är vanligt använd för mönsteridentifiering och mönsterklassificering. Det är uppbyggt av ett antal sammankopplade noder. (Westphal & Blaxton 1998)

3.11.1 Övervakad inlärning

Neurala nätverks inlärningsprocess börjar med att det får indata, nätverket gör en analys av data och lämnar tillbaka svaret på analysen. De indata som matas in är ett problem som redan hittats en lösning på. Den kända lösningen matas in i det neurala nätverket och om testresultatet inte stämmer överens med det neurala nätverkets analys av data, kommer det neurala nätverket att försöka hitta vad det gjorde fel i analysen. Det neurala nätverket kommer sedan att ändra i sina modeller baserat på de beräkningar som gjorde att analysen blev fel. Detta

Figur 8: MOALP kuber(Marakas, 2003, s.75)

References

Related documents

Malung-Sälens kommun ställer sig till fullo bakom det samlade yttrandet som Avfall Sverige och Sveriges Kommuner och Regioner lämnat till regeringen (se bilaga 1, SKR

I handläggningen av detta ärende har deltagit hovrättslagmannen Ylva Osvald, hovrättsrådet Li Brismo och tekniska rådet..

Eftersom myndighetens registerförfattning endast medger elektroniska utlämnanden i särskilt angivna situationer kan det medföra att en person som exempelvis förekommer som part i

När en myndighet inte tillför underlaget till det enskilda målet eller ärendet ska myndigheten se till att information kan lämnas om vilken eller vilka databaser eller andra

Utöver garantipensionen påverkas även förutsättningarna för utbetalning av förmånen garantipension till omställningspension (som kan utgå till efterlevande).. Regeringen

bakgrunden har juridiska fakultetsnämnden vid Uppsala universitet inget att erinra mot förslagen i betänkandet SOU 2019:53. Förslag till yttrande i detta ärende har upprättats

omfattande bränder och andra allvarliga olyckor även av stor vikt att det finns goda möjligheter att snabbt kunna få hjälp från andra länder med förstärkningsresurser

I uppdraget ingår att lämna förslag på ett oberoende skiljeförfarande (ibland benämnt skiljedomsförfarande) för de årliga hyresförhandlingarna mellan hyresmarknadens