Úvod do shlukové analýzy
Shluková analýza
● Statistický přístup
● Především pro deskriptivní úlohy dataminingu
● Vyhledává a utváří shluky ve vstupních datech
Základní pojmy
● Atribut – reprezentuje například měřenou veličinu
● Vektor – složený z hodnot jednotlivých atributů
● Objekt – entita, ze kterých se skládají vstupní data a je charakterizován vektorem
● Příklad - Objektem bude člověk, atributy jsou výška, váha, barva očí. Vektor pak může vypadat:
(184,78,“hnědé“)
Typy atributů
● Reálný (kontinuální): 1.548; 2.456; 3; 81.789...
● Spočetná (konečná) skupina čísel: počet dětí, věk
● Dichotomické: ano/ne
● Kategoriální (nominální): hnědá, červená, žlutá...
Standardizace atributů
● Rozsah jednoho atributu může převážit rozsah druhého
● Výška člověka versus počet dětí
● Výpočet odečtením průměrné hodnoty atributu a vydělením směrodatnou odchylkou daného atributu
Koeficienty asociace objektů
● Rozdílné od statistického pojetí koeficientů asociace
● Pro objekty reprezentované výhradně dichotomickými atributy
● Využívá se asociační tabulky
● Počet atributů, kde oba mají 1 -> a
● Počet atributů, kde oba mají 0 -> d
● Počet atributů, kde první má 0 a druhý 1 -> b
● Počet atributů, kde první má 1 a druhý 0 -> c
Metriky I.
● Využívá geometrického modelu
● Zobrazuje objekty o p atributech do p-rozměrného prostoru
● Nezápornost
● Symetrie
● Totožnost
● Trojúhelníková nerovnost
Metriky II.
● Euklidovská
● Manhattanská
● Čebyševova
Hierarchické aglomerativní metody shlukování
● Zpočátku každý objekt ve vstupních datech tvoří samostatný shluk
● V iteracích se slučují vždy dva „nejpodobnější“
shluky
● V poslední iteraci jsou všechny objekty sloučeny v jeden shluk
Koeficienty (ne)podobnosti shluků
● Určují podobnost shluků
● Několik metod, uvedeny budou 3 nejintuitivnější
● Nezápornost
● Identita
● Symetrie
● Příklady metod:
Nejbližší soused
Nejvzdálenější soused Centroidní
Metoda nejbližšího souseda
Metoda nejvzdálenějšího souseda
Metoda centroidní
Dendrogram
● Diagram zobrazující kroky shlukování
Hierarchické divizivní metody shlukování
● Zpočátku všechny objekty vstupních dat tvoří jeden shluk
● V iteracích se rozdělují vždy dva nejméně „podobné“
shluky
● V poslední iteraci všechny objekty tvoří samostatný shluk
Nehierarchické metody shlukování I.
● Neuplatňuje se hierarchická struktura
● Pro dobré rozložení se musí hodnotit kvalita vznikajících shluků a případně jejich složení modifikovat
● Kvalita je hodnocena „funkcionálem kvality
rozkladu“, který může sledovat vlastnosti jako je třeba vnitroshluková podobnost objektů nebo
izolovanost shluků
● Metody mají dvě fáze: určit ideální počet shluků a provést samotné shlukování
Nehierarchické metody shlukování II.
● Počet shluků je volen buď analytikem, a nebo je
výsledkem sledování hodnot zmíněného funkcionálu
● Metody zachovávající počet shluků: pouze přiřazují objekty do shluků
● Metody optimalizující počet shluků: optimalizace počtu shluků, pro kterou je potřeba poskytnout kriteria, za kterých má dojít ke sloučení/rozdělení shluků
K-Means algoritmus
● Nehierarchický algoritmus zachovávající počet shluků
● Používá eukleidovskou metriku a reprezentaci shluků pomocí jejich centroidů
● Spočívá v přiřazení objektu k tomu shluku, který je mu nejblíž, po přiřazení se přepočítá těžiště
(centroid) a objekty se znovu přiřazují novým
těžištím. Konec nastává například v momentě kdy žádný objekt nebyl přeřazen
TwoStep algoritmus
● Hierarchický algoritmus, schopný sám určit optimální počet shluků
● Dvě fáze: pre-clustering a clustering
● Pre-clustering: používá se CF-tree (cluster feature), strom díky kterému se získá prvotní odhad počtu shluků, který je znatelně menší než celkový počet objektů
● Clustering: K výslednému rozřazení se používá