• No results found

Concept description genom klustring

N/A
N/A
Protected

Academic year: 2021

Share "Concept description genom klustring"

Copied!
85
0
0

Loading.... (view fulltext now)

Full text

(1)

VID INSTITUTIONEN FÖR DATA OCH AFFÄRSVETENSKAP 2007:MI02

Concept description genom klustring

Evy Rydin

VT 2007

(2)

Concept description genom klustring Engelsk titel:

Concept description by cluster analysis Författare:

Evy Rydin

Färdigställd (år):

2007

Handledare:

Cecilia Sönströd och Ulf Johansson

(3)

Jag vill tacka mina handledare Cecilia Sönströd och Ulf Johansson för att ni bidragit med stöd, uppmuntran och hjälp under arbetet med denna studie. Tack vare er har jag inte bara tillfört mig själv en mängd ny kunskap utan också en liten del till forskningen.

Borås , juni 2007 Evy Rydin

(4)

Concept description is a data mining problem witch aims at an understandable description of concepts and classes, not at exact predictions. The purpose of this study is to show how a prototype based clustering analysis can create understanding of an underlying domain, according to concept description. Experiments were performed with data from the poker domain. The sample was gathered from games at low- limit, short handed tables, at one of the biggest site at Internet for online poker games. The two experiments performed used the same sample with differences in attributes. Clustering analysis was performed using the prototype based algorithm K-means. To solve the data mining problem in a satisfying way, results are presented with diagrams and tables possible to analyze. The clusters generated by the experiments turned out to be well separated. The hidden information, extracted [by clustering experiments, was verified by domain theory. Analysis of results showed that the prototype based algorithm K-means is a method well suited to obtain understanding of the underlying domain.

Keywords:

data mining, concept description, descriptive modelling, clustering, prototype-based clustering, K-means, poker

(5)

Sammanfattning

Concept description är en data mining-uppgift som strävar efter en begriplig beskrivning av koncept och klasser, inte exakta prediceringar. Syftet med studien är att visa hur prototypbaserad klustring kan skapa förståelse för en datamängds underliggande domän, enligt concept description. Experiment har utförts med data från pokerdomänen. Datamängden samlades in från ett low-limit, shorthanded bord, hos en av de stora Internetsiterna för online pokerspel. De två experimenten utfördes med samma datamängd, men där uppsättningen attribut skiljde sig åt. Klustringen utfördes med den prototypbaserade klustringsalgoritmen K-means. För att data mining–

uppgiften skulle lösas på tillfredställande vis, presenterades experimentens resultat i diagram och tabeller som var möjliga att analysera. Klustren som experimenten resulterade i visar sig vara väl separerade. Den dolda informationen, som lyftes fram av klustringsexperimenten, kunde verifieras av domänens teori. Analysen av resultatet visade att klustring med den prototypbaserade klustringsalgoritmen K-means är en metod som går bra att använda för att skapa förståelse i en datamängds underliggande domän.

Nyckelord:

data mining, concept description, deskriptiv modellering, klustring, prototypbaserade kluster, K-means, poker

(6)

Innehåll

1 Inledning ...1

1.1 Bakgrund ...1

1.2 Tidigare forskning ...2

1.3 Problemformulering ...2

1.4 Syfte och målgrupp ...3

1.5 Avgränsningar ...3

1.6 Förväntat resultat ...4

1.7 Begreppsbeskrivning ...4

1.8 Disposition...5

2 Metod ...7

2.1 Kunskapskaraktärer ...7

2.2 Vetenskapligt perspektiv ...7

2.2.1 Positivism vs hermeneutik ...7

2.2.2 Kvalitativ metod vs kvantitativ metod ...8

2.2.3 Forskningsansats ...8

2.3 Teorin och empirins roll ...9

2.3.1 Metodansats ...9

2.3.2 Litteraturstudier...10

2.3.3 Datainsamling ...10

2.4 Analysmetod...11

2.5 Presentationsmetod...12

2.6 Utvärderingsmetod ...12

3 Data mining ...15

3.1 Inledning...15

3.2 CRISP-DM ...16

3.2.1 Data mining-processen...16

3.3 Data mining-uppgifter ...17

3.3.1 Prediktiva uppgifter...18

3.3.2 Deskriptiva uppgifter ...18

3.3.3 Data mining uppgifter enligt CRISP-DM ...19

3.4 Concept description ...20

3.5 Klustring...22

3.6 K-means ...25

3.6.1 K-means styrkor och svagheter...26

3.7 Normalisering ...26

4 Poker ...28

4.1 Historik...28

4.2 Ordlista ...29

4.3 Allmänna pokerregler...31

4.4 Texas Hold’em ...33

4.5 Spelartyper...34

4.6 Shorthanded hold’em ...36

5 Utformning av den empiriska studien...38

(7)

5.1 Experimentets syfte ...38

5.2 Urval...38

5.3 Preparering av data ...40

5.4 Modellering ...40

6 Experiment...42

6.1 Experiment 1 ...42

6.1.1 Syfte ...42

6.1.2 Datan ...42

6.1.3 Beskrivning ...42

6.2 Experiment 2 ...43

6.2.1 Syfte ...43

6.2.2 Datan ...43

6.2.3 Beskrivning ...43

7 Resultat ...44

7.1 Experiment 1 ...45

7.1.1 Kluster 0...46

7.1.2 Kluster 1...47

7.1.3 Kluster 2...48

7.1.4 Kluster 3...49

7.2 Experiment 2 ...50

7.2.1 Kluster 0...51

7.2.2 Kluster 1...52

7.2.3 Kluster 2...53

7.2.4 Kluster 3...54

7.3 Sammanställning ...55

8 Resultatanalys ...56

9 Slutsatser...58

10 Diskussion...60

10.1 Uppfyllande av syfte ...60

10.2 Utvärdering av metod ...60

10.2.1 Generalitet ...60

10.2.2 Reliabilitet ...60

10.2.3 Validitet ...61

10.2.4 Replikation...61

10.3 Fortsatt forskning ...61

11 Referenser ...63

11.1 Tryckt material ...63

11.2 Uppsatser och artiklar...63

11.3 Elektroniskt material ...64

11.4 Figurförteckning ...65

11.5 Tabellförteckning ...66

12 Bilagor ...67

12.1 Experiment 1 ...67

12.2 Experiment 2 ...69

(8)

1 Inledning

Syftet med detta kapitel är att beskriva den bakgrund som har lagt grunden till funderingarna kring det problemområde som skall undersökas.

Inledningen motiverar det aktuella problemområdet och de förväntade resultatet. Den beskrivning av begrepp som presenteras syftar till att ge en tydligare, förklarande bild av problemområdet.

1.1 Bakgrund

Datorernas snabba framväxt har gjort det möjligt att i mycket stora datamängder kunna finna mönster. Dagens stora databaser kräver automatiserad teknik för att man skall kunna hantera den data som dagligen fylls på. Data mining definieras som en process att finna mönster i data, mönstren måste vara meningsfulla, det handlar om att skapa beslutsunderlag genom att analysera den lagrade datan (Witten och Frank, 2005). För en affärsverksamhet kan det handla om att lära känna sina kunder och deras beteenden, för att kunna anpassa verksamheten och på så vis växa sig starka på marknaden. Data mining delas generellt upp i två grupper, prediktiva och deskriptiva uppgifter (Tan, Steinbach och Kumar, 2006). CRISP-DM (Cross Industry Standard Process for Data Mining) Beskriver en data mining uppgift som inte faller direkt under någon av dessa grupper, concept description. Concept description har som mål att ge en beskrivning av ett koncept eller en klass. Passande tekniker för concept description är konceptuell klustring (Chapman et al. 1999).

Data mining är ett område som tangerar flera andra discipliner, bland annat artificiell intelligens (AI). Inom AI har det länge funnits intresse för forskning rörande spel och spelteorier. Schack, Otello och Backgammon är vanliga spel att utveckla intelligenta agenter för. Intresse finns även för kortspel som till exempel Poker och Bridge. Det är stora skillnader mellan brädspel och kortspel. I ett brädspel har båda spelarna kännedom om spelets status, vilket man inte har i ett kortspel. Spelarna känner inte till varandras kort och inte heller de som fortfarande finns i leken.

Genom att samla in data från spel kan man undersöka den underliggande domänen och därmed få kännedom om hur spelet spelas. Många Internetsiter erbjuder tjänster att samla in data från pågående online spel. Genom tillgången på dessa data har man möjligheten att analysera det pågående spelet för att lära sig hur motståndarna spelar och hur man själv som spelare bemöter detta.

Leanderson (2006) och Johansson, Sönströd och Niklasson (2006) ville ta reda på om man automatiskt kunde skapa beslutsunderlag ur en komplex datamängd, pokerdata, enligt concept description. Man använde sig av prediktiva modelleringstekniker och lyckades visa att concept description

(9)

med prediktiv modellering fann regler som visade varför en spelare var framgångsrik eller inte.

Denna undersökning är en studie inom ramen för den forskning som bedrivs inom områdena data mining och artificiell intelligens på Högskolan i Borås.

Studien använder sig av en deskriptiv data mining-uppgift, prototypbaserad klustring, för att erhålla förståelse enligt concept description. Data mängden som används är insamlad från en pokersite på Internet.

1.2 Tidigare forskning

Concept description är en uppgift som inte faller inom de gängse ramarna i data mining; dvs. som prediktiv eller deskriptiv uppgift. Enligt Chapman et al. (1999) är syftet med concept description att ge insikt i en datamängd, inte att skapa kompletta, exakta, prediktiva modeller.

Jansson och Lundqvist (2004) ville i sin C-uppsats undersöka om prediktiv modellering var en teknik som kunde användas för concept description och, redan nämnda Leandersson (2006) och Johansson, Sönströd och Niklasson (2006) ville skapa automatiska beslutsunderlag ur en datasamling. Dessa undersökningar använde sig av teknikerna G-REX (Johansson, König och Niklasson, 2003 se Leandersson, 2006) och J48. i sina experiment. G-REX är en regelextraheringsteknik baserad på genetisk programmering och J48 genererar beslutsträd baserade på C4.5 ((Quinlan, 1993, se Leandersson, 2006) implementerat i Weka1.

Concept description via prediktiv modellering har studerats med skilda datamängder. Sönströd och Johansson (2007) argumenterar för den beskriv- ning av concept description som CRISP DM2 ger. I undersökningen argumenterar man för vikten av en modells exakthet (accuracy) och begriplighet (comprehensibility). I artikeln presenteras två experiment utförda på 10 olika publika datamängder, där man har använt sig av teknikerna G-REX och J48. Det första experimentet syftade till att se hur väl de teknikerna agerade när målet vara att bygga en modell och sedan beskriva klassificeringen modellen genererade. Det andra experimentet gällde hur väl uppgiften av att endast beskriva datan fulländades. Det resultatet gav en regel för varje teknik. Resultaten visade att ansatsen fungerade bra och gav begripliga regler med hög exakthet.

1.3 Problemformulering

Den tidigare forskningen har visat att prediktiv modellering lämpar sig för concept description genom att ge exakta och begripliga regelmässiga

1 http://www.cs.waikato.ac.nz/ml/weka/

2 http://www.crisp-dm.org/

(10)

samband. Då klustring är en deskriptiv data mining-uppgift, och en rekom- menderad metod (Chapman et al. 1999), är det intressant att nu undersöka om man även via klustring kan nå, för människan, begripliga beskrivningar.

Sönströd och Johansson (2007) menar att det ofta är viktigt att använda andra tekniker för att beskriva medlemmarna i ett kluster för att få tillgång till dess information. Kan man då inte nå begripliga resultat, som skapar förståelse för en datamängds underliggande domän, genom klustring?

Klustring kan utföras med flera olika tekniker. En av de enklaste och populäraste algoritmerna är K-means. De kluster som genereras representeras av en prototyp. Denna är baserad på medelvärden av klustrets instanser (Tan, Steinbach och Kumar, 2006). Kan man ur dessa prototyper få en förståelse för den underläggande datamängdens domän? Hur skall man göra för att kunna få förståelse för domänen genom klustring?

Dessa frågor leder tillsammans med inledningen och den tidigare forskningen fram till studiens huvudsakliga frågeställning:

Hur kan prototypbaserad klustring användas för concept description?

För att kunna nå fram till det önskade kunskapsbidraget behövs nedanstående delfråga besvaras. Det svaret kommer att vara grundläggande för att huvudfrågan skall kunna besvaras.

ƒ Kan den generella klustringsalgoritmen K-means användas för att, från en datamängd, skapa förståelse av den underliggande domänen?

Studien kommer att tillföra forskningen inom data mining kunskap om hur man med en prototypbaserad klustring kan skapa förståelse för en datamängds underliggande domän enligt concept description.

1.4 Syfte och målgrupp

Syftet med studien är att undersöka hur man kan använda klustring för concept description. Genom att använda en generell prototypbaserad klustringsalgoritm, K-means, vill man finna förståelse för den underliggande domänen i en datamängd.

Studien riktar sig till forskare inom området data mining och intressenter inom näringslivet. De senare kan få en vägledning om hur man med hjälp av klustring kan skapa förståelse för en datamängd som skall användas som beslutsunderlag inom den egna verksamheten.

1.5 Avgränsningar

Experimentet har som teknisk begränsning, data mining-verktyget Weka.

Weka är ett verktyg som är tillgängligt på Internet och som innehåller färdiga algoritmer för klustring och filter för normalisering av data.

(11)

Experimenten använder SimpleKmeans, en vanlig K-means algoritm (se 3.6), och tillhörande normaliseringsfilter. Det kan tänkas att det finns algoritmer eller andra typer av normalisering som är bättre lämpade, men undersökningen är inte en jämförande analys av olika klustringsalgoritmer.

Att finna den bäst lämpade klustringstekniken ligger därför utanför avgränsningen.

1.6 Förväntat resultat

Författaren hoppas att resultatet av experimenten skall uppvisa väl separerade kluster. Ett sådant resultat visar att det finns dold information som ger förståelse för en datamängds underliggande domän.

Författaren förväntar sig att resultatet av studien skall visa hur man kan använda prototypbaserad klustring för concept description. Den tidigare forskningen menar att klustring behöver andra tekniker för att beskrivas, vilket inte kan garantera ett framgångsrikt resultat.

1.7 Begreppsbeskrivning

Nedan presenteras centrala begrepp som förekommer i uppsatsen. Syftet är att underlätta för läsaren och förklara hur de olika begreppen hör samman.

Begreppen följs av en kort förklaring som utvecklas längre fram i kapitel 3 som beskriver data mining och kapitel 4 som behandlar pokerteori.

ƒ Data mining

Ett sätt att automatiskt upptäcka värdefull information som kan vara dold i stora datamängder. (se kap 3)

ƒ Deskriptiv data mining

Deskriptiva uppgifter har som mål att erhålla mönster som summerar underliggande relationer i datan. (se kap 3.3.2) Klustring är en deskriptiv data mining-uppgift som ger kluster som resultat.

ƒ Kluster

Klustring försöker att hitta nära relaterade grupper, kluster, i en stor datamängd. Man vill finna de objekt som är mest lika varandra i datamängden och gruppera dessa. Objekten i en grupp, ett kluster, är mer lika varandra än något objekt i ett annat kluster. Ju mer lika varandra objekten i gruppen är, ju mer distinkt blir klustret.

ƒ K-means

En prototypbaserad klustringsteknik (algoritm) där varje grupp (kluster) representeras av dess centroid, medelvärdet av en grupp punkter.

Steg 1 för algoritmen är att först välja ett antal punkter, önskat antal kluster, som initiala centroider.

Steg 2 är att skapa klustren genom att låta varje punkt kopplas till sin

(12)

närmaste centroid, därefter omberäknas centroiden. Steg 2 upprepas tills centroiderna inte längre förändras. (se kap 3.6)

ƒ Centroid

K-means ger som resultat en centroider för varje kluster. Centroiden är en representant för klustret, en prototyp. Varje individ i klustret liknar denna prototyp mer än någon annan prototyp i datamängden (se kap 3.5).

ƒ Concept description

Strävar efter en begriplig beskrivning av concept och klasser. Syftet är inte att utveckla kompletta prediktiva modeller utan att ge insikt. (se kap 3.4)

ƒ Texas Hold’em

Den pokertyp som står som teoretiskt underlag för den insamlade datamängd undersökningen använder i de empiriska experimenten. (se kap 4.4)

1.8 Disposition

Dispositionen är till för att öka läsarens förståelse för uppsatsens upplägg.

Syftet för varje kapitel får en kort förklaring samt en beskrivning över hur de är relaterade till varandra.

1. Inledning

Syftet med detta kapitel är att beskriva den bakgrund som har lagt grunden till funderingarna kring det problemområde som skall undersökas.

Inledningen motiverar det aktuella problemområdet och det förväntade resultatet. Den beskrivning av begrepp som presenteras syftar till att ge en tydligare, förklarande bild av problemområdet.

2. Metod

Syftet med detta kapitel är att beskriva och argumentera för undersökningens valda metod. Här redogörs det vetenskapliga förhållningssättet, vilket även knyts till redan etablerade källor inom vetenskapsteorin. Detta förhållningssätt grundas utifrån kunskapsbehovet och dess karaktär.

3. Data mining

Detta kapitel skall ge förståelse inom området data mining. Teorin som presenteras har tillsammans med den tidigare forskningen format den ursprungliga forskningsidén till en frågeställning. Den ligger också till grund för det praktiska arbetet med experimentet.

4. Poker

Syftet med detta kapitel är att ge en förståelse för den domän experimentets datamängd representerar. Här presenteras de centrala begreppen som används av pokerspelare världen över. Hur man spelar ett parti poker och

(13)

vilka regler som gäller för varje satsningsrunda. De olika spelartyperna presenteras och vilken typ som förväntas att vara vinnare respektive förlorare enligt teorin. Kapitlet ligger till grund för experimentets val av attribut och den analys som skall göra det möjligt att identifiera en viss spelartyp.

5. Utformning av den empiriska studien

Syftet med detta kapitel är att beskriva experimentets syfte och den datamängd som skall användas till experimenten. De attribut som är viktiga för experimenten gås igenom och prepareringen av datan beskrivs. Sist följer en kort presentation av modelleringsverktyget som används.

6. Experiment

Syftet med detta kapitel är att beskriva hur experimentet utförs så att det skall kunna upprepas om så önskas.

7. Resultat

Syftet med detta kapitel är att presentera resultaten av experimenten.

Resultaten beskrivs i form av tabeller och diagram med förklarande text Då svaret på problemformuleringen är kopplat till metoden, består den förklarande texten och tabeller även av analysen av experimentets resultat jämfört med vad teorin för den undersökta domänen säger.

8. Resultatanalys

Syftet med kapitlet är att analysera resultatet av klustringsexperimenten för att se om det uppfyllt sitt syfte. Diskussionen som förs skall visa att den använda klustringsmetoden kan användas för att skapa förståelse i den underliggande datamängden.

9. Slutsats

Syftet med detta kapitel är att presentera de slutsatser undersökningen har lett fram till. Slutsatsen är resultatet av analysen och skall besvara de frågeställningar som ställdes inledningsvis.

10. Diskussion

Syftet med detta är att reflektera över vad undersökningen lett fram till. Har undersökning uppfyllt sitt syfte? Metoden kommer att utvärderas utifrån den beskrivna metoden och en diskussion om fortsatt forskning presenteras.

(14)

2 Metod

Syftet med detta kapitel är att beskriva och argumentera för undersökningens valda metod. Här redogörs det vetenskapliga förhållnings- sättet, vilket även knyts till redan etablerade källor inom vetenskapsteorin.

Detta förhållningssätt grundas utifrån kunskapsbehovet och dess karaktär.

2.1 Kunskapskaraktärer

Utifrån frågeformuleringen karaktäriseras kunskapsbehoven och kunskaps- strategierna. Genom att karaktärisera det kunskapsbehov som eftersöks underlättar det för den vetenskapliga metodansatsen. Karaktäriseringen utgår från de kunskapsformer som finns beskrivna i Goldkuhls (1998) dokument

”kunskapande”. Undersökningens huvudsakliga frågeställning är:

Hur kan prototypbaserad klustring användas för concept description?

Kunskapskaraktären för huvudfrågan har identifierats som deskriptiv kunskap. Det innebär egenskapsbestämmande och beskriver egenskaper hos en kategoriserad och studerad företeelse. Man talar inte om varför något är på ett visst sätt. Den är också normativ, vägledande för hur man bör handla och kan ge riktlinjer för hur man bör handla.

Den kunskap som eftersöks är deskriptiv, då undersökningen syftar till att visa om en specifik teknik, prototypbaserad klustring, har de egenskaper som behövs för att användas vid concept description. Den är normativ i avseendet att kunskapen skall ge en vägledning av hur man kan gå till väga för att beskriva en datamängd enligt concept description genom prototypbaserad klustring.

Svaret kommer att fås efter att först ha behandlat studiens delfråga:

ƒ Kan den generella klustringsalgoritmen K-means användas för att, från en datamängd, skapa förståelse av den underliggande domänen?

De kunskapskaraktärer som identifierats är deskriptiv kunskap. Syftet är att visa att en viss algoritm är lämpad att använda på en på en datamängd för att nå fram till den kunskap som efterfrågas i huvudfrågan.

Frågan kommer att besvaras genom att klustringsalgoritmen K-means kommer att användas studiens planerade experiment. Den domän som undersöks, för att skapa underliggande förståelse för, är pokerdomänen.

2.2 Vetenskapligt perspektiv 2.2.1 Positivism vs hermeneutik

Det finns två huvudsakliga vetenskapliga synsätt.

(15)

Hermeneutiken som betonar helheten. Helheten har större betydelse än dess delar. Enskilda element som kan verka lika kan i en helhet få olika betydelse.

Man ser på helheten ur olika perspektiv och får sin förståelse genom tolkning. Förståelsen är viktigare än förklaring. En hermeneutisk ansats förespråkar kvalitativt förhållningssätt.

Positivismen som bygger på rådata i form av observationer. Man producerar kunskap om lagmässiga samband. Vetenskapens värde ligger i dess tekniska och sociala tillämpningar. Positivismen förespråkar kvantitativa mätmetoder och man anser att det finns en sann verklighet där förklaring är viktigare än förståelse.

De huvuddrag som finns i dagens positivism är den grundläggande tron till vetenskaplig rationalitet. Kunskapen man eftersöker skall vara empiriskt prövbar. Bedömningar och förklaringar som i hermeneutiken bygger tolkning ersätts i positivismen av mätningar. Metoderna som används i en positivistisk undersökning skall ge tillförlitlig kunskap som kan preciseras i validitet, och reliabilitet. Det är viktigt att forskaren är objektiv och inte låter sig påverkas av utomvetenskapliga värderingar. (Wallen, 1996)

2.2.2 Kvalitativ metod vs kvantitativ metod

Forskningsarbete utgår från frågeställningar, problem eller funderingar. Som forskare måste man besvara frågor om hur något faktisk förhåller sig i verkligheten. Det är detta som styr vilken forskningsmetod som använd för att besvara problemställningen.

En kvalitativ metod kräver en hermeneutisk ansats. I den kvalitativa forsk- ningen är forskaren subjektiv. Forskningen är flexibel och frågeställningarna fördjupas successivt. Resultatet bygger på ett mindre antal individer och ett stort antal variabler. Det går på djupet i specifik kontext (Olsson &

Sörensen, 2001).

Den positivistiska ansatsen förespråkar kvantitativ metod, där forskaren är objektiv och står utanför. Forskningen är strukturerad och frågeställningarna är entydiga och formulerade i förväg. Relationen mellan teori och forskning bygger på bekräftelse, hypotesprövning. Resultatet bygger på ett stort antal individer och begränsat antal variabler. Resultaten är generella och variablerna entydiga, valida och reliabla. Den kvantitativa metoden delas in i beskrivande, deskriptiva och förklarande, explanativa projekt. (ibid.)

2.2.3 Forskningsansats

Vetenskapliga metoder är genomsyrade av en uppsättning epistemologiska och ontologiska ställningstaganden. Epistemologi är kunskap om kunskap, hur man kan veta och hur man når kunskap. Epistemologin hänger samman med uppfattningen om verkligheten, ontologin, läran om varandet eller

(16)

existensen av något. Ontologin baserar på en realistisk uppfattning som hävdar att studieobjektet i sig är en källa till kunskap. Objektivism är en ontologisk ståndpunkt som säger att sociala företeelser och deras betydelse har en existens som är oberoende av sociala aktörer. Objektivism betyder också att sociala företeelser och de kategorier vi använder i vår vardag är en existens som är oberoende av aktörerna (Bryman, 2002, s 30). Subjek- tivismen är verkligheten beroende av iakttagaren vilket gör den mångtydig och relativ. Hur verkligheten ser ut beror på studieobjektet, det vill säga vilken verklighet det är som skall studeras. Tolkningar kan göras på många olika sätt. Konstruktivism är sociala företeelser och deras mening är något som aktörerna hela tiden får till stånd. Det sociala samspelet skapas inte, utan är under en ständig förändring, och en forskares presentation av verkligheten kan inte anses som slutgiltig.

Genom att beskriva den vetenskapliga positioneringen kan en bild skapas av hur undersökningen skall genomföras. I den planerade undersökningen skall ett experiment utföras på en kvantitativ datamängd. Datamängden är insamlad utan att man har någon kännedom om dess population, men det är god representation av populationen inom domänen den representerar.

I problemformuleringens frågeställning skapades förutsättningar för ett empirisk positivistiskt förhållningssätt. En positivistisk ansats som förespråkar ett kvantitativt förhållningssätt. Resultatet som skall besvara forskningsfrågan är resultatet av ett empiriskt experiment, utförd på en kvantitativ datamängd. Denna kvantitativa ansats präglas av objektivitet och neutralitet. Dock kräver analysen av resultatet från det empiriska experimentet viss tolkning. Där kan man inte undgå att författarens förförståelse har haft viss betydelse. För att undersökningen inte skall präglas av författarens subjektivitet vid presentationen av resultatet och för att eftersträva nödvändig objektivitet och neutralitet, presenteras resultaten av analysen som bilagor där läsaren själv kan göra en objektiv bedömning.

2.3 Teorin och empirins roll

2.3.1 Metodansats

Deduktion handlar om att samla in fakta från teorin och utifrån dem göra observationer och sedan komma fram till ett resultat. Utifrån detta resultat kan man bekräfta sin hypotes eller förkasta den. Beroende av resultatet kan en omformulering av teorin ske.

”Utifrån det man vet inom ett område, härleder eller deducerar forskaren en eller flera hypoteser som skall underkastas en empirisk granskning”

(Bryman, 2002, s 20)

(17)

Forskningsansatsen som presenterats och problemformuleringens frågeställning leder till att undersökningen kommer att ha en deduktiv metodansats. För att kunna genomföra de planerade experiment som skall besvara den presenterade frågeställningen krävs en föregående litteratur- studie.

2.3.2 Litteraturstudier

Litteraturstudien omfattar både teori inom området data mining och poker samt den pågående forskning inom området data mining som presenteras i det inledande kapitlet. Teorin kommer att skapa den grund experimenten skall planeras från och skall säkerställa experimentets korrekthet. Det är viktigt att data mining uppgiften som utförs är den rätta och utförs på ett korrekt vis. Pokerteorin är nödvändig för att säkerställa vilka attribut som är viktiga för experimentet och för analysen av resultatet, som då kommer att jämföras med det pokerteorin förespråkar.

2.3.3 Datainsamling

Studien bygger på tidigare forskning inom data mining och pokerteori.

Problemformuleringen skall besvaras och syftet uppfyllas genom att experiment utförs på en datamängd från den valda problemdomänen. Valet av datamängd syftar till att möjliggöra experiment i en intressant och komplex domän. Resultatet som erhålls skall inte lägga grunden till nya spelstrategier utan är endast tänkta för att beskriva den domän som behandlas.

På Högskolan i Borås bedrivs forskning inom data mining. Inom ramen för denna forskning har datan som används i denna undersökning samlats in av forskare inom AIM-gruppen. Den har samlats in från en ledande pokersite med hjälp av ett verktyg som är utformat för detta. Sådana verktyg finns tillgängliga på Internet; till exempel PokerOffice3 och PokerTracker4. Programvaran samlar automatiskt in data om hur varje spelare agerar. Datan hanterar inte vilka kort som spelas, utan det är spelarnas beteende i relation till vinst och antal spelade händer som kan analyseras. Den datamängd som samlas in är densamma som man som manuell observatör av spelet kan samla in. Skillnaden är att programvaran automatiserar insamlandet.

Datamängden är insamlad från pokerspel av varianten Texas Hold’em.

Datan sparades under insamlingen i en sql-databas. Dessa data sammanställdes med hjälp av sql-frågor och sparades i ett Excel-dokument för att kunna användas i experimentet.

3 http://www.pokeroffice.com

4 http://.pokertracker.com

(18)

2.4 Analysmetod

Med utgångspunkt från problemformuleringen och valet av datamängdens domän skall resultat av två experiment analyseras. Anledningen till att utföra två experiment var för att undersöka om det blir skillnad mellan klustren om vissa av attributen är aggregerade eller inte.

Resultatet av experimentet består av kluster genererade av data mining- verktyget Weka. Valet av algoritm för klustringen föll på SimpleKmeans, som är en vanlig K-means algoritm. Den beskrivs mer ingående i kapitel 3.6.

Motiveringen till valet av algoritm är att K-means ger ett resultat som lämpar sig för studiens syfte. Concept description kräver inte exakta modeller, därför är prototyperna lämpliga att använda till att beskriva individerna i varje kluster.

Resultatet i form av centroider, prototyper som representerar klustrens individer, är inga exakta värden. De är medelvärden för klustren och sparas i en fil som är öppningsbar i MS Excel. För att göra datan begriplig skapas diagram i Excel. Relationen mellan attributen och en framgångsrik respektive icke framgångsrik spelare undersöks. Dessa ställs sedan i relation till vad pokerteorin säger. Diagrammen visar kurvor över hur spelarna i varje kluster agerar, hur frekventa deras handlingar (attributen) är. Då diagrammens värden är normaliserade kan dessa jämföras med varandra. En topp betyder således ett högt värde och en dal ett lågt. Det blir på så vis möjligt att bedöma om en spelare agerat aggressivt eller passivt (eller tight/löst) i en viss situation. Standardavvikelsen, måttet på hur mycket de olika värdena i en population avviker från medelvärdet, presenteras tillsammans med klustrens centroider i diagrammen. Det möjliggör en jämförande bedömning av klustrens attribut, men även för specifika attribut mellan de olika klustren.

Vid analysen studeras även de föreslagna kriterierna vid concept description (Sönströd & Johansson, 2007) exakthet (accuracy) och begriplighet (comprehensibility). De tillsammans med den grundläggande teorin ger insikt i datan. För att kunna mäta exaktheten i modellen har författaren i prepareringen av datan, valt ut 1/3 av de mest framgångsrika spelarna som vinnare och 1/3 av de minst framgångsrika spelarna som förlorare. Detta är ett godtyckligt val, men baserar sig på den tidigare forskning som gjorts med prediktiv modellering (Leandersson, 2006).

Hela den klustrade populationen studeras sedan i ytterligare en fil (.arff).

Filen är av samma typ som den experimenten utförs på, med skillnaden att varje objekt har tillförts till en klass. Utifrån klasstillhörigheten, om objektet är en framgångsrik eller icke framgångsrik spelare, kan en procentuell exakthet beräknas. Instanserna i de två olika experimentens kluster jämförs för att kunna bedöma likheten mellan dem.

(19)

2.5 Presentationsmetod

Undersökning dokumenteras med beskrivande text som belyser de områden som har behandlats. I vissa delar används illustrationer till att förtydliga en text för läsaren.

Den teoretiska referensramen och experimenten som resultatet och slutsats bygger på presenteras i separata delar i texten. Resultatet av experimenten kommer att visas i form av tabeller och diagram med förklarande text.

2.6 Utvärderingsmetod

De flesta undersökningar som presenteras har inte möjligheten att vara exakta mätningar. Därför sätts kriterier för att bedöma kvaliteten på den vetenskapliga forskningen. Fyra viktiga begrepp är reliabilitet, replikation, validitet och generalitet (Bryman, 2002). För att en kritisk utvärdering av resultatet skall kunna göras, använder författaren sig av dessa rekommenderade kriterier.

ƒ Generalitet

I en kvantitativ forskning är det viktigt att man kan applicera resultaten på andra data än de som varit aktuella i den undersökningen. Det är viktigt att urvalet har en så bra representation av populationen som möjligt. Man bör också ställa sig frågan vad urvalet representerar och svaret skall vara en representation av urvalsprocessen (ibid.). Författaren avser med kriteriet generalitetet den betydelse undersökningen har för den studerade populationen.

ƒ Reliabilitet

Reliabiliteten handlar om hur väl vi mäter ett begrepp. Måttet skall vara så stabilt att urvalet inte varierar, det vill säja att mätningen av en grupp inte skall skilja sig om de mäts två gånger efter varandra (ibid.). För att uppnå detta skall datamängden som samlas in vara tillräckligt stor och dokumentationen av experimentet detaljerat. Även resultat och slutsatser kräver noggrann dokumentering.

ƒ Validitet

Validitet går ut på att bedöma om undersökningens resultat hänger ihop eller inte. Begreppsvaliditet eller teoretisk validitet handlar i grunden om att om måttet på ett begrepp återspeglar det som det anses beteckna (kan man identifiera en specifik spelstrategi?). Intern validitet handlar om det råder ett kausalt förhållande mellan två variabler. Om x orsakar y, kan man då vara säker på att det är x som orsakar variationen i y och inte en annan faktor som ger upphov till ett skenbart orsaksförhållande? Den interna validiteten väcker frågan om hur pass övertygande vi kan vara om den oberoende variabeln är ansvarig för variationen i y. Extern validitet frågar om resultaten kan generaliseras över undersökningens

(20)

kontext. Det är i kvantitativa sammanhang en fråga om urval.

För att uppnå de tre validetskriterierna skall slutsatser granskas noga för att säkerställa att det som man ämnar mäta är det som återspeglas av studien. Undersökningen kommer att använda sig av ett flertal variabler för att skapa kluster, på så vis kan kausala samband kunna påvisas.

Slutligen kommer datamängdens urval ifråga om storlek och population vara avgörande för den externa validiteten.

ƒ Replikation

Resultatet av forskningen bör vara opåverkad av kännetecken som rör forskaren. Är undersökningen inte objektiv och neutral kan en bild av verkligheten framstå som skev och kan ifrågasättas. För att kunna kontrollera detta upprepar forskare varandras experiment. Går det inte att reproducera en forskares resultat kan man ifrågasätta dess validitet (ibid.). För att en replikation skall vara möjlig har författaren avsikten att beskriva förloppet detaljerat. Programvara för att samla in datan, insamling av den och data mining-verktyget som används i experi- menten är tillgänglig från Internet, vilket möjliggör för andra forskare att utföra en upprepning av undersökningen.

(21)

3 Data mining

Detta kapitel skall ge förståelse inom området data mining. Teorin som presenteras har tillsammans med den tidigare forskningen format den ursprungliga forskningsidén till en frågeställning. Den ligger också till grund för det praktiska arbetet med experimentet.

3.1 Inledning

Där ingen annan källa anges följer avsnittet Tan, Steinbach & Kumar (2006).

Syftet med data mining är att förstå data och kunna göra prediceringar utifrån en stor datamängd. Data mining kan hjälpa till att hitta dolda strukturer och modeller. Med datoriserade verktyg kan man automatiskt generera modeller utan att behöva göra alltför ingående tester, man låter datorn göra arbetet med associationsregler och beslutsträd. Dagens allt snabbare datorer har möjliggjort teknikerna. Det finns databashanterare som kan hantera mycket stora mängder data. Det finns affärsmässiga behov att analysera stora mängder av data.

Data mining är en process som automatiskt upptäcker värdefull information i stora datasamlingar. Data mining tekniker är utvecklade för att upptäcka tidigare okända och användbara mönster som annars skulle vara okända. Det finns tekniker som även förutsäger resultatet av en framtida observation. All upptäckt av information inkluderas inte inom data mining. Söker vi efter information på Internet är denna funktion relaterad till information retrieval (IR). Även om detta kräver sofistikerade algoritmer och datastrukturer stödjer de sig på traditionella datavetenskapliga tekniker, även om data mining tekniker har använts för att förbättra IR-system.

Data mining byggs på idéer som urval, estimering och hypotesprövning från statistiken, sökalgoritmer, modelleringstekniker och lärande teorier från artificiell intelligens, pattern recognition och machine learning. Data mining har snabbt tagit till sig idéer från andra områden, där vissa områden är naturliga anhängare. Databassystem behövs för att kunna lagra och hantera stora mängder data. Figur 1 beskriver de relationer som finns mellan data mining och andra områden.

Figur 1 Data minings relationer till andra discipliner (fritt efter Tan, Steinbach och Kumar, 2006 sid 6)

(22)

3.2 CRISP-DM

Cross-Industry Standard Process for Data Mining (CRISP-DM) är ett konsortium som utvecklar en standardiserad process modell för data mining.

Det är inte byggt på ett akademiskt teoretisk vis eller av en elit bakom lyckta dörrar, utan är baserad på verkliga erfarenheter av hur man i affärsverksamheter utför data mining-projekt (Chapman et al. 1999, förord).

3.2.1 Data mining-processen

Figur 2 och den beskrivande texten som följer visar hur data mining processen i ett projekt ser ut enligt CRISP-DM (2000, Chapman et al. 1999).

Ett data mining–projekt består av 6 faser. Resultatet i en fas ger vilken som skall utföras härnäst. Pilarna indikerar de viktigaste beroendena mellan de olika faserna. Den yttre cirkeln symboliserar data minings cykliska natur.

Processen fortsätter alltid efter det att ett resultat utvecklats. Efterföljande processer kan alltid dra nytta av de föregående erfarenheterna

Figur 2 Data mining processen (fritt efter CRISP-DM (2000))

(23)

ƒ Verksamhets förståelse

den initiala fasen som fokuserar på ett projekts mål och krav ur ett verksamhetsperspektiv. Utifrån mål och krav definieras ett data mining problem och en preliminär plan designas hur målen skall uppnås

ƒ Dataförståelse

Fasen startar med en initial data mängd och fortgår genom att man bekantar sig med den. Man identifierar kvalitetsproblem och upptäcker intressanta delmängder som kan ge upphov till hypoteser för dold information.

ƒ Preparering av data

Förberedelser görs för att datan skall passa det verktyg som man vill använda sig av vid modelleringen. Detta kan utföras flera gånger och inte i någon bestämd ordning. Förberedelserna inkluderar tabell-, register- och attributval, såväl som att transformering och rensning av en datamängd för det valda modelleringsverktyget.

ƒ Modellering

I denna fas finns det möjlighet att välja mellan flera olika tekniker. Man måste anpassa datamängden till tekniken. Det finns olika tekniker som kan användas på samma datamängd och vissa tekniker kräver en specifik typ av data. För att kunna använda en önskad teknik, kan man ofta behöva gå tillbaka ett steg och preparera datan på nytt.

ƒ Utvärdering

Utvärdering kan ske när man anser att man byggt en eller flera modeller med hög dataanalytisk kvalitet. Innan man fortsätter till den slutliga utvecklingen av modellen är det viktigt att göra en utvärdering av stegen som man tagit för att skapa den. Man måste betrakta om man nått de verksamhetsmål man satt upp och om det är något som man inte beaktat som saknas.

ƒ Införande

Att skapa modellen är inte slutet av projektet. Även om den föreslagna modellen ökar kunskapen om datan måste den erhållna kunskapen organiseras och presenteras på ett sätt så att kunden kan använda den.

Beroende på vilka kraven är, kan denna fas vara att skapa en rapport eller att implementera resultatet i en iterativ data mining-process.

3.3 Data mining-uppgifter

Där ingen annan källa anges följer avsnittet Tan, Steinbach & Kumar (2006).

Data mining delas ofta upp i två huvudkategorier:

(24)

3.3.1 Prediktiva uppgifter

De prediktiva uppgifterna predicerar värdet av ett speciellt attribut baserat på värdet av andra attribut. Attributet som prediceras är målvariabeln eller den beroende variabeln, medan attributen som används till att skapa prediceringen är förklarande eller oberoende variabler.

Prediktiv modellering refererar till att bygga modeller av målvariabeln som en funktion av de förklarande variablerna. Det finns två typer av prediktiv modellering:

Klassificering

Används till diskreta målvariabler, till exempel vid predicering om en Internetanvändare, som vill göra on-line inköp, kommer att göra det eller inte. Målvariabeln är i detta fall binär (ja/nej) men det kan lika gärna vara flera klasser.

Regression

Används till kontinuerliga målvariabler, till exempel att förutsäga en framtida kostnad. Det är ett värde som är ständigt föränderligt.

Målet för båda uppgifterna är att skapa en modell som minimerar felet mellan det predicerade och det sanna värdet. Prediktiv modellering kan användas till att identifiera kunder som svarar på en marknadsundersökning, predicering av förändringar i ekosystemet eller bedöma om en patient har en speciell sjukdom.

3.3.2 Deskriptiva uppgifter

Målet är att härleda mönster som summerar underliggande relationer i datan.

Deskriptiv data mining-uppgifter är ofta utforskande i sin natur och kräver upprepande postprocessings-tekniker för att validera och förklara resultaten.

Det finns tre typer av deskriptiva data mining-uppgifter:

Associationsanalys

Används för att upptäcka mönster som beskriver utmärkande drag i data som är starkt associerade till varandra. De mönster som upptäcks representeras som implikationsregler eller utmärkande delmängder. Målet är att plocka fram de mest intressanta mönstren på ett effektivt sätt. En användbar applikation för associationsanalys kan vara att hitta grupper av gener som har besläktad funktionalitet, identifiera webbsidor som har gemensam åtkomst eller att förstå relationerna mellan olika element i våra klimatsystem.

Associationsanalys kan användas för att finna produkter som ofta köps samtidigt. Man kan då upptäcka en regel som {IF blöjor THEN mjölk}.

(25)

Vissa regler kan användas för att hitta andra potentiella varor som tenderar att köpas samtidigt.

Klustring

Klustring försöker att hitta grupper av nära relaterade observationer så att de som tillhör samma kluster är mer lika varandra än observationer som tillhör ett annat kluster. Klustring har används för att gruppera kundgrupper, hitta områden i havet som har märkbar påverkan på jordens klimat eller att komprimera data.

Om det finns två naturliga kluster i en datamängd av artiklar som grupperas efter tema, baserat på ordpar, skall en bra klustringsalgoritm kunna urskilja dessa två kluster, baserad på likheterna av orden som förekommer i artiklarna.

Upptäckt av avvikelser

Uppgiften är att upptäcka observationer som är signifikant olika från den övriga datan. Målet är att algoritmen skall upptäcka riktiga avvikelser och därmed undvika att felaktigt märka normala objekt som anomalier. Man använder tekniken när man vill upptäcka bedrägerier, intrång i nätverk, ovanliga mönster i sjukdomar och störningar i ekosystemet.

3.3.3 Data mining uppgifter enligt CRISP-DM

Enligt CRISP-DM (Chapman et al. 1999) finns det klasser av olika typer av data mining-uppgifter. Ofta används de i kombination med varandra för att lösa verksamhetsproblem

ƒ Data description and summarization

Målet är att ge en kortfattad beskrivning av datamängdens karaktärsdrag.

Det ger användaren en översikt av datans struktur. Kan ibland ensamt vara ett objekt för data mining-projekt, men är oftast ett delmål i de tidiga faserna.

ƒ Segmentation

Målet är att separera data i intressanta och meningsfulla delgrupper eller klasser. Klustring är teknik som kan användas för att finna okända och dolda strukturer i datamängden, som tillåter segmentering. I litteraturen kan det förvillande nog vara så att segmentering kallas klustring eller klassificering.

ƒ Classification

Förutsätter att det finns en uppsättning objekt, som vars attribut har något utmärkande drag, som tillhör olika klasser. Klassetiketten är diskret och känd för alla objekt. Uppdraget är att bygga modeller som fördelar objekten till rätt klass.

(26)

ƒ Prediction

Liknar klassificering, men med skillnaden att klassetiketten inte är ett diskret värde utan ett kontinuerligt.

ƒ Dependency analysis

Består i att finna en modell som beskriver signifikanta beroenden mellan dataobjekt eller händelser. Beroenden kan som kan användas som prediktiva modeller, men används oftast för att skapa en förståelse.

ƒ Concept description

Målet att skapa begripliga beskrivningar av koncept och klasser.

Följande avsnitt beskriver concept description mer ingående.

3.4 Concept description

Concept description har olika betydelse beroende på vilken källa man vill citera. Undersökningen grundar begreppet på det som Chapman et al. (1999) menar är concept description. Det faller varken under prediktiva eller deskriptiva data mining uppgifter utan får stå som en egen uppgift.

Målet för Concept description är, som nämndes, att ge begripliga beskrivningar av koncept eller klasser. Syftet är inte att utveckla kompletta, exakta prediktiva modeller utan att få en insikt i datamängden. Modeller som endast beskriver intressanta delar av en datamängd är helt acceptabla.

Modellen bör beskriva det aktuella konceptet på ett exakt och begripligt vis (Sönströd & Johansson, 2007). CRISP-DM rekommenderar användande av deskriptiva tekniker som klustring, men det har visats att även prediktiva tekniker kan ge modeller med de önskade egenskaperna (ibid.).

Concept description har stark koppling till segmentering och klassificering.

Segmentering leder till uppräkning av objekt till ett koncept eller en klass utan någon begriplig beskrivning. Typiskt är segmentering, något som görs innan concept description utförs. Tekniker som conceptual clustering utför segmentering och concept description på samma gång (Chapman et al.

1999).

Concept description kan också uppnås genom klassificering. En del klassificeringstekniker producerar begripliga modeller som kan betraktas som concept description. Den största skillnaden är dock att klassificering strävar efter att vara komplett. Klassificering appliceras på alla instanser i en population, medan concept description inte behöver vara komplett. Det räcker att viktiga delar beskrivs. Passande tekniker är regelextrahering och konceptuell klustring (ibid.).

(27)

Exempel

Man har till exempel redan en modell och beslutsfattare vill ha en förklaring av modellen eller prediceringar gjorda utifrån den. Uppgiften är då inte att beskriva datamängden utan att beskriva de prediceringar den givit.

Ett exempel på detta skulle kunna vara att undersöka vem som skulle få ett kampanjerbjudande, när det finns befintliga modeller från liknande kampanjer. De reglerna som beskriver lojala kunder kan var enligt följande:

If SEX = male and AGE > 51 then CUSTOMER = loyal If SEX = female and AGE > 21 then CUSTOMER = loyal

If PROFESSION = manager and AGE < 51 then CUSTOMER = disloyal If FAMILY STATUS = bachelor and AGE < 51 then CUSTOMER = disloyal (regler från Chapman et al. 1999).

En modell byggs på den historiska datan och används sedan för att fastställa mottagaren av kampanjerbjudandet. Beslutsfattaren vill ha en beskrivning av prediceringen snarare än modellen från träningsdatan (Sönströd &

Johansson, 2007).

Vill man rikta kampanjen mot de kunder som tidigare visat sig vara lojala kan en beskrivning av datan visa vem kampanjen bör rikta sig mot. De lojala kunderna man bör rikta sig mot är män över 51 år och kvinnor över 21 år.

(28)

3.5 Klustring

Där ingen annan källa anges följer avsnittet Tan, Steinbach & Kumar (2006).

Som tidigare nämnde i kap 3.3.2 grupperas dataobjekten, baserade på den information som beskriver dem och deras relationer, vid klustring. Målet är att finna objekt i gruppen som är likartade till varandra och olika från andra grupper i datamängden. Ju större likheter gruppen har och ju mer olika de är varandra desto mer distinkt blir klustringen.

original

fyra kluster

två kluster

sex kluster Figur 3 Olika sätt att klustra

( fritt efter Tan, Steinbach och Kumar, 2006 , sid 491)

Figur 3 visar hur man kan klustra en uppsättning av punkter. Figurernas form indikerar deras tillhörighet. I den tredje och fjärde figuren har två kluster delats upp i fyra och sex kluster. Man kan inte med säkerhet säga att detta är rätt eller om det är en produkt av det mänskliga ögat. Figurerna visar att definitionen av kluster är oprecis och beroende av den data som presenteras och det önskade resultatet.

Klustring är relaterat till andra tekniker som används för att dela upp data i grupper. Klustring kan ses som ett sätt att tilldela en okänd grupp en klassetikett (kluster). Till skillnad från klassificering där supervised classi- fication får nya omärkta objekt en klassetikett utifrån kända klassers etiketter. Därför refereras ibland klustring till unsupervised classification.

Målet med klustring är att dela in data i grupper som är meningsfulla eller användbara eller båda. Klustring har en viktig roll inom flera områden på verkliga praktiska problem.

Klustring för förståelse betyder att man skapar klasser, eller grupperar objekt i meningsfulla grupper, vars karaktärsdrag liknar varandra. De spelar roll för

(29)

oss för att vi skall kunna förstå världen vi lever i. Människan är tränad för att kunna urskilja sådana grupper. Klustring är ett sätt att genom automatik kunna finna sådana grupper i en datamängd. Många forskningsområden är behjälpta av ett sådant hjälpmedel:

ƒ Biologi; här analyseras stora mängder av genetisk information. Klustring hjälper till att finna gener med liknande funktioner.

ƒ Information retrieval; vid sökning på Internet finns stora mängder av dokument som kan grupperas i sökresultat. Sådana kluster kan sedan producera en hierarkisk struktur som kan hjälpa användaren att utforska sökresultaten.

ƒ Klimatforskning; klustring hjälper till att hitta mönster i atmosfären och i haven för att vi skall lära oss att förstå hur vårt klimat påverkas av olika faktorer.

ƒ Psykologi och medicin; en sjukdom kan ha flera variationer. Klustring kan indela dessa i subkategorier.

ƒ Affärsverksamhet; Man kan ur stora datamängder särskilja mindre grupper som man kan använda för fortsatt analys och i marknadsföringssammanhang.

En del tekniker karaktäriserar varje kluster som en prototyp. Ett dataobjekt som är representativt för alla objekt i klustret. Dessa prototyper kan användas som bas till andra data som skall analyseras, eller till dataprocess- tekniker. Klustring för nytta är en studie av tekniker för att finna den mest representativa prototypen.

ƒ Summarization; genom att reducera data till klusterprototyper kan tid- och minneskomplexitet minskas. Beroende av analysens typ, antalet prototyper och vilken noggrannhet prototyperna representerar, kan resultatet jämföras som om gällande data hade använts.

ƒ Komprimering av tex. bilder och ljud kan göras, om många dataobjekt är lika och ett visst infomationsbortfall kan accepteras, när en omfattande reduktion av data är nödvändig.

ƒ Effektivt hitta ”nearest neighbor”; Klustring finner dessa på ett effektivt sätt. Om två prototyper är långt från varandra kan de inte vara närmsta granne.

En klustring ger som resultat kluster. Kluster är användbara objektgrupper.

Det finns olika typer av kluster, det typer som är aktuella för studien beskrivs i nedanstående stycken.

(30)

Väl separerade kluster

Ett väl separerat kluster är en uppsättning av objekt där varje objekt är närmare/mer likt varandra än något annat objekt som inte finns i klustret.

Den idealiska definitionen är när data innehåller naturliga kluster som är skiljda från varandra. Alla objekt i klustret är då avskiljda från alla andra objekt i ett annat kluster. Avståndet mellan en punkt i det ena klustret är mindre än avståndet till någon annan punkt i något annat kluster (se Figur 4)

Figur 4 Väl separerat kluster

(fritt efter Tan, Steinbach och Kumar, 2006 sid 496) Prototypbaserade kluster

Ett kluster där varje objekt är närmare prototypen som definierar klustret än prototypen som definierar de andra klustren. Då attributen kan vara kontinuerliga är prototypen ett medelvärde av alla objekt i klustret, en centroid. För många typer av data kan prototypen ses som en central punkt och klustren verifieras då som centrum baserade. Objekten i ett centrumbaserat kluster är närmare centrum i klustret än centrum i något annat kluster (se Figur 5)

Figur 5 Prototypbaserat kluster

(fritt efter Tan, Steinbach och Kumar, 2006 sid 496)

Det finns många olika typer av algoritmer för klustring. Resultaten kan se lite olika ut. Det syfte man har med klustringen styr vilken typ av algoritm man väljer. Det finns de som ger prototypbaserade kluster som resultat, vilket K-means är den vanligaste och den som används i denna studie. Den beskrivs närmare längre fram.

Andra algoritmer kan ge hierarkiska (nästlade) kluster, dessa organiseras i en trädstruktur. Det finns de som ger exklusiva eller motsatsen överlappande kluster. I ett exklusivt kluster tillhör ett objekt endast ett kluster medan det i ett överlappande kan tillhöra mer än ett kluster. Det används för att återspegla att ett objekt samtidigt tillhör en annan grupp. Man kan till exempel både vara anställd på en skola och samtidigt student där.

(31)

En klustring kan vara komplett eller partiell. Vid komplett klustring tilldelas varje objekt till ett kluster, medan partiell klustring inte gör det.

Motivationen för att använda sig av partiell klustring är att några objekt kan tillhöra väldefinierade grupper. Många gånger representerar objekten i datamängden störningar, uteliggare eller har en ointressant bakgrund. För att finna de viktiga teman som datamängden kan innehålla söker man efter kluster som knyter an till det allmänna temat. Komplett klustring behövs om man till exempel behöver organisera dokument för sökning och måste garantera att alla dokument är sökbara.

3.6 K-means

Där ingen annan källa anges följer avsnittet Tan, Steinbach & Kumar (2006).

En prototypbaserad klustringsalgoritm som finner ett användarspecificerat antal kluster. Varje kluster representeras av en centroid. Centroiden är vanligen medelvärdet av en grupp punkter som är karaktäristiskt applicerbara på objekten i den studerade datamängden.

Det är en av de äldsta och mest spridda klustringsalgoritmen. K-means är en enkel teknik. Den väljer först en initial centroid, där användaren specificerar antal kluster. Varje punkt tilldelas till den närmaste centroiden och varje grupp av punkter som tilldelats till en centroid är ett kluster. Centroiderna i varje kluster uppdateras baserat på punkterna som tilldelats till klustret.

Detta repeteras till dess att inga punkter ändras i klustret, det vill säga när centroiderna är stabila. När algoritmen terminerar har en naturlig grupp identifierats.

1. Välj K punkter som initiala centroider

2. Skapa K kluster genom att tilldela varje punkt till dess närmsta centroid

3. Omkalkylera centroiderna för varje kluster

4. repetera punkt 2 -3 tills centroiderna inte förändras längre Figur 6 K-means algoritm

Det är en vanlig ansats att man initialt använder en slumpmässigt vald centroid, men ofta blir resultatet dåligt, beroende av hur datamängden ser ut.

Istället kan man utföra multipla körningar, med olika uppsättningar av slumpmässigt valda centroider. Resultatet beror av hur datan ser ut och hur många kluster som söks.

En optimal klustring kommer att erhållas så länge två initiala centroider är någonstans i ett par av kluster. Centroiderna kommer att omfördela sig själva. Om antalet kluster blir fler, är det högst troligt att minst ett par kluster

(32)

kommer att ha en initial centroid. Då kommer K-means att distribuera centroider mellan paren och endast ett lokalt minimum kan fås.

Centroiderna kan uppdateras inkrementellt. Strategin ska garantera att inga tomma kluster produceras. Alla kluster startar med en punkt och denna kommer alltid att bli tilldelad till samma kluster. Används inkrementell uppdatering kan, relativt vikten av punkterna som läggs till, bli justerade.

Det kan resultera i bättre noggrannhet (accuracy) och snabbare samman- strålning (convergence). Det svåra kan vara att välja relativ vikt.

Nackdelen är att man introducerar ett beroende av ordningen av de producerade klustren, istället kan processordningen adresseras slumpmässigt för bättre resultat. Inkrementell uppdatering är dyrare än den vanliga K- means som inte är beroende av ordningen.

3.6.1 K-means styrkor och svagheter

Tekniken är enkel och används på många olika datatyper. Den är ganska effektiv, med avseende på både tids- och minneskomplexiteten. Det är endast datapunkter och centroider som lagras

K-means har begränsningar när det gäller att hitta olika typer av kluster.

Speciellt naturliga kluster, när de har o-sfäriska former eller då de varierar i storlek eller täthet.

Det blir problem om datan innehåller uteliggare (outliers). Om uteliggare finns blir prototypen inte representativ för klustret och SSE5 blir högre.

Dessa behöver därför avlägsnas. I vissa fall måste de dock finnas kvar och kan betraktas som viktiga. Till exempel vid komprimering av data, då alla punkter måste finnas kvar och vid finansiella analyser, då man vill upptäcka avvikelser.

För att avlägsna uteliggare måste de identifieras i förprocesseringen av datamängden eller före klustringen. Även små kluster (som kan bestå av uteliggare) kan behöva avlägsnas

3.7 Normalisering

Datan som skall klustras bör normaliseras före körning. Man får då en jämnare fördelning och mer jämförbara värden på ibland väldigt olika attribut. Vill man sedan studera standardavvikelsen för de olika attributen i klustren har man direkt jämförbara värden Det förenklar evalueringen och tydliggör spridningen av olika attribut inom ett kluster. Yang (2006) talar om vikten av normalisering och testar sina data med två olika typer av

5 Sum of squared error, mäter kvaliteten av klustringen, summan av Euklidesavståndet till närmaste centroid. Ju lägre SSE, ju bättre representerar prototypen klustret.

(33)

normalisering, vilka visar olika resultat vid klustringen. Innehåller sedan klustren för de olika normaliserade datan samma instanser ökar klustringens trovärdighet.

(34)

4 Poker

Syftet med detta kapitel är att ge en förståelse för den domän experimentets datamängd representerar. Här presenteras de centrala begreppen som används av pokerspelare världen över. Hur man spelar ett parti poker och vilka regler som gäller för varje satsningsrunda. De olika spelartyperna presenteras och vilken typ som förväntas att vara vinnare respektive förlorare enligt teorin. Kapitlet ligger till grund för experimentets val av attribut och den analys som skall göra det möjligt att identifiera en viss spelartyp.

4.1 Historik

Där ingen annan källa anges följer avsnittet, Arnold (2003)

Poker uppfanns i Nordamerika utvecklat ur Bouilotte ett franskt spel från 1800-talet. I Bouilotte spelade man med en kortlek bestående av 20 kort, ess, kund, dam, 9 och 8 i de fyra färgerna, samt ett trettonde kort som lades med bildsidan upp. Detta kort var gemensamt och spelaren kunde använda det för att förbättra sin hand. Satsningen var liknande den i nutida pokerspel och korten rankades efter fyrtal, triss eller par, där högsta handen vann potten.

Andra spel som nämns som pokerns förfäder är det persiska kortspelet As- nas som spelas med 20 – 25 kort beroende på om man är fyra eller fem spelare. Det franska spelet Poque som spelades ungefär som Bouilotte och Asnas är troligen det som get upphov till namnet poker. Man kan härleda pokerns ursprung från trakterna kring New Orleans som varit franskt territorium.

Inte förrän i på 1850-talet började man spela med 52 kort och den nya varianten kallades ofta för bluff. Nu blev istället färg sedd som en värdefull hand, men stege, kåk och färgstege kom efterhand också med i rang- ordningen. Att kortleken nu innehöll 52 kort gav spelarna möjlighet att förbättra sina händer och fler kort gav möjlighet till byten. Byten gjordes till en del av spelet, Mörkpoker (draw poker). 1865 nämndes för första gången Stötpoker (stud poker) och snart fylldes det på med flera andra varianter; spit poker, jackpot poker, whiskey poker etc. Fortfarande spelas en mängd olika varianter av poker, därför är det svårt att fastställa officiella regler för spelet.

Pokern har ändrat sig från att vara ett spel förknippat med salooner och flodbåtar till att nuförtiden samla spelare på kasinon och spelklubbar. Det finns turneringar där pokerproffsen samlas. Att man numera kan spela poker på Internet och att televisionen insett pokerns dragningskraft har fått det 200- åriga spelet att vara mer populärt idag än någonsin förut.

(35)

4.2 Ordlista

Där ingen annan källa anges följer avsnittet, Arnold (2003)

Poker spelas på engelska, även i Sverige. Därför används de engelska uttrycken och ibland har de blivit försvenskade till en slags svengelska. Om man till exempel vill satsa så ”bettar” man, höjer man så ”raisar” man.

Därför kommer även dessa uttryck att användas vid beskrivningen av hur pokerspel går till. Dessutom kommer engelska förkortningar för kortens valörer att användas; Ess (Ace) betecknas A, kung (King) med K, dam (Queen) med Q, knekt (Jack) med J och tior med T för Ten.

Ante

En obligatorisk insats som läggs i potten innan spelet startar. Används normalt inte i Hold’em. Räknas inte som satsningar.

Betta (satsa)

En spelare satsar ett antal spelmarker. Det kan vara fastställt exakt hur mycket som får satsas (fixed limit), en min- och maxgräns (spread limit) eller fritt (no-limit).

Bettingrunda

Under en bettingrunda har alla spelare möjlighet att satsa en gång. Ett satsningsintervall delas upp i flera bettingrundor. I ett satsningsintervall kan den spelare som satsade först välja att satsa en gång till och då påbörjas en ny bettingrunda. Följande rundor pågår till dess att insatserna är lika höga och satsningsintervallet avslutas.

Big blind

I Texas Hold’em görs en andra obligatoriskt bet vilken normalt är dubbelt så stor som den föregående small blind.

Blind

En obligatorisk satsning som görs innan given. Skiljer sig från anten då den räknas som ett aktivt bett. I Texas Hold’em har man två blinds (se small blind och big blind).

Bluffa

Att få sina medspelare att tro att man har en bättre eller sämre hand än man egentligen har och på så vis få dem att lägga sig så att man kan vinna med en lågt rankad hand respektive att stanna kvar i spelet och satsa mer.

Checka

Den som checkar fortsätter att vara med i given utan att satsa något för närvarande. Efterföljande spelare får checka, ända tills någon satsar. Den spelare som tidigare checkat får stanna i spelet genom att syna eller höja.

(36)

Check-raise

Innebär att man först checkar och därefter gör en höjning när efterföljande spelare satsar eller höjer.

Flop (floppen)

De första av de fem gemensamma korten som ligger öppna på bordet i Texas Hold’em.

Gemensamma kort (community cards)

De fem gemensamma kort som ligger synliga på för alla spelare bordet.

(floppen, turn och river).

Hålkort (hole cards)

De två kort varje spelare har på hand som kan kombineras med de gemensamma korten. En spelare kan använda 0, 1 eller 2 av sina hålkort.

Höja (raise)

En spelare bidrar med spelmarker motsvarande det hittills högsta satsade och lägger dessutom till ytterligare spelmarker (till exempel synar två och höjer två).

Limit Texas Hold’em

Det är vanligt att man sätter en mini- och maximigräns för insatserna.

Loose spelare

En spelare som gärna dras med av spelet och därför ibland satsar något förhastat.

Lägga sig (fold)

Spelaren slänger sina kort och avsäger sig potten. Spelaren återfår inte satsade marker. Ingen annan spelare får se de slängda korten.

On the button

”Att sitta på knappen”. Att vara den nominella given, representeras av en bricka som cirkulerar runt i turordning för varje giv.

Potten

De samlade insatser vilka spelarna satsat under en spelomgång och den med högst rankad hand vid spelomgångens slut vinner.

Pottodds

Förhållandet mellan storleken på potten och hur mycket det kostar att syna en bet. Att räkna pottodds är en av nycklarna till framgång. Ju större potten är desto mer lönar det sig att syna och tvärtom. Jaga inte efter en liten pott om du inte kan vinna den.

River

Det femte och sista gemensamma kortet.

References

Related documents

Beslut om att ett arrangemang, ett projekt eller en verksamhet inom förvaltningen ska kunna vara aktuellt för sponsring fattas av Tekniska nämnden. När ett sponsringsbeslut fattats

Tre av eleverna upplevde även ett syfte i att kunna lära för framtiden vilket inkluderade studier, eller som en bas för att kunna arbeta inom vissa yrken..

För att företag skall kunna upprätthålla en effektiv risk management måste den vara utformad som en återkommande systematisk process samt utgöra en integrerad del av

För att komplettera tidigare forskning och för att ge ytterligare grund att utveckla sjuksköterskans omvårdnad till de familjer där barnet under nyföddhetsperioden misstänks

En allmän känsla av att det inte finns resurser att tillgodose en god beredskap även om de upplever en allmän oro inför en förändrad samhällsbild.

Syfte Syftet med denna studie var att belysa erfarenheterna vårdare till närstående med höggradigt gliom samt att beskriva vårdarnas behov av information och

I dag medför Rymdstyrelsens begränsade möjligheter att delta i Copernicus och ESA:s övriga jordobservationsprogram och Rymdsäkerhetsprogrammet att Sverige och svenska aktörer

Uppgift: Hur stort behöver n vara för att vi ska ha minst 80 % sannolikhet att upptäcka att μ 6= 0 när det sanna μ-värdet är 1.. (Pröva