Úvod do shlukové analýzy

(1)

Úvod do shlukové analýzy

(2)

Shluková analýza

● Statistický přístup

● Především pro deskriptivní úlohy dataminingu

● Vyhledává a utváří shluky ve vstupních datech

(3)

Základní pojmy

● Atribut – reprezentuje například měřenou veličinu

● Vektor – složený z hodnot jednotlivých atributů

● Objekt – entita, ze kterých se skládají vstupní data a je charakterizován vektorem

● Příklad - Objektem bude člověk, atributy jsou výška, váha, barva očí. Vektor pak může vypadat:

(184,78,“hnědé“)

(4)

Typy atributů

● Reálný (kontinuální): 1.548; 2.456; 3; 81.789...

● Spočetná (konečná) skupina čísel: počet dětí, věk

● Dichotomické: ano/ne

● Kategoriální (nominální): hnědá, červená, žlutá...

(5)

Standardizace atributů

● Rozsah jednoho atributu může převážit rozsah druhého

● Výška člověka versus počet dětí

● Výpočet odečtením průměrné hodnoty atributu a vydělením směrodatnou odchylkou daného atributu

(6)

Koeficienty asociace objektů

● Rozdílné od statistického pojetí koeficientů asociace

● Pro objekty reprezentované výhradně dichotomickými atributy

● Využívá se asociační tabulky

● Počet atributů, kde oba mají 1 -> a

● Počet atributů, kde oba mají 0 -> d

● Počet atributů, kde první má 0 a druhý 1 -> b

● Počet atributů, kde první má 1 a druhý 0 -> c

(7)

Metriky I.

● Využívá geometrického modelu

● Zobrazuje objekty o p atributech do p-rozměrného prostoru

● Nezápornost

● Symetrie

● Totožnost

● Trojúhelníková nerovnost

(8)

Metriky II.

● Euklidovská

● Manhattanská

● Čebyševova

(9)

Hierarchické aglomerativní metody shlukování

● Zpočátku každý objekt ve vstupních datech tvoří samostatný shluk

● V iteracích se slučují vždy dva „nejpodobnější“

shluky

● V poslední iteraci jsou všechny objekty sloučeny v jeden shluk

(10)

Koeficienty (ne)podobnosti shluků

● Určují podobnost shluků

● Několik metod, uvedeny budou 3 nejintuitivnější

● Nezápornost

● Identita

● Symetrie

● Příklady metod:

Nejbližší soused

Nejvzdálenější soused Centroidní

(11)

Metoda nejbližšího souseda

(12)

Metoda nejvzdálenějšího souseda

(13)

Metoda centroidní

(14)

Dendrogram

● Diagram zobrazující kroky shlukování

(15)

Hierarchické divizivní metody shlukování

● Zpočátku všechny objekty vstupních dat tvoří jeden shluk

● V iteracích se rozdělují vždy dva nejméně „podobné“

shluky

● V poslední iteraci všechny objekty tvoří samostatný shluk

(16)

Nehierarchické metody shlukování I.

● Neuplatňuje se hierarchická struktura

● Pro dobré rozložení se musí hodnotit kvalita vznikajících shluků a případně jejich složení modifikovat

● Kvalita je hodnocena „funkcionálem kvality

rozkladu“, který může sledovat vlastnosti jako je třeba vnitroshluková podobnost objektů nebo

izolovanost shluků

● Metody mají dvě fáze: určit ideální počet shluků a provést samotné shlukování

(17)

Nehierarchické metody shlukování II.

● Počet shluků je volen buď analytikem, a nebo je

výsledkem sledování hodnot zmíněného funkcionálu

● Metody zachovávající počet shluků: pouze přiřazují objekty do shluků

● Metody optimalizující počet shluků: optimalizace počtu shluků, pro kterou je potřeba poskytnout kriteria, za kterých má dojít ke sloučení/rozdělení shluků

(18)

K-Means algoritmus

● Nehierarchický algoritmus zachovávající počet shluků

● Používá eukleidovskou metriku a reprezentaci shluků pomocí jejich centroidů

● Spočívá v přiřazení objektu k tomu shluku, který je mu nejblíž, po přiřazení se přepočítá těžiště

(centroid) a objekty se znovu přiřazují novým

těžištím. Konec nastává například v momentě kdy žádný objekt nebyl přeřazen

(19)

TwoStep algoritmus

● Hierarchický algoritmus, schopný sám určit optimální počet shluků

● Dvě fáze: pre-clustering a clustering

● Pre-clustering: používá se CF-tree (cluster feature), strom díky kterému se získá prvotní odhad počtu shluků, který je znatelně menší než celkový počet objektů

● Clustering: K výslednému rozřazení se používá