• No results found

Úvod do shlukové analýzy

N/A
N/A
Protected

Academic year: 2022

Share "Úvod do shlukové analýzy"

Copied!
19
0
0

Loading.... (view fulltext now)

Full text

(1)

Úvod do shlukové analýzy

(2)

Shluková analýza

Statistický přístup

Především pro deskriptivní úlohy dataminingu

Vyhledává a utváří shluky ve vstupních datech

(3)

Základní pojmy

Atribut – reprezentuje například měřenou veličinu

Vektor – složený z hodnot jednotlivých atributů

Objekt – entita, ze kterých se skládají vstupní data a je charakterizován vektorem

Příklad - Objektem bude člověk, atributy jsou výška, váha, barva očí. Vektor pak může vypadat:

(184,78,“hnědé“)

(4)

Typy atributů

Reálný (kontinuální): 1.548; 2.456; 3; 81.789...

Spočetná (konečná) skupina čísel: počet dětí, věk

Dichotomické: ano/ne

Kategoriální (nominální): hnědá, červená, žlutá...

(5)

Standardizace atributů

Rozsah jednoho atributu může převážit rozsah druhého

Výška člověka versus počet dětí

Výpočet odečtením průměrné hodnoty atributu a vydělením směrodatnou odchylkou daného atributu

(6)

Koeficienty asociace objektů

Rozdílné od statistického pojetí koeficientů asociace

Pro objekty reprezentované výhradně dichotomickými atributy

Využívá se asociační tabulky

Počet atributů, kde oba mají 1 -> a

Počet atributů, kde oba mají 0 -> d

Počet atributů, kde první má 0 a druhý 1 -> b

Počet atributů, kde první má 1 a druhý 0 -> c

(7)

Metriky I.

Využívá geometrického modelu

Zobrazuje objekty o p atributech do p-rozměrného prostoru

Nezápornost

Symetrie

Totožnost

Trojúhelníková nerovnost

(8)

Metriky II.

Euklidovská

Manhattanská

Čebyševova

(9)

Hierarchické aglomerativní metody shlukování

Zpočátku každý objekt ve vstupních datech tvoří samostatný shluk

V iteracích se slučují vždy dva „nejpodobnější“

shluky

V poslední iteraci jsou všechny objekty sloučeny v jeden shluk

(10)

Koeficienty (ne)podobnosti shluků

Určují podobnost shluků

Několik metod, uvedeny budou 3 nejintuitivnější

Nezápornost

Identita

Symetrie

Příklady metod:

Nejbližší soused

Nejvzdálenější soused Centroidní

(11)

Metoda nejbližšího souseda

(12)

Metoda nejvzdálenějšího souseda

(13)

Metoda centroidní

(14)

Dendrogram

Diagram zobrazující kroky shlukování

(15)

Hierarchické divizivní metody shlukování

Zpočátku všechny objekty vstupních dat tvoří jeden shluk

V iteracích se rozdělují vždy dva nejméně „podobné“

shluky

V poslední iteraci všechny objekty tvoří samostatný shluk

(16)

Nehierarchické metody shlukování I.

Neuplatňuje se hierarchická struktura

Pro dobré rozložení se musí hodnotit kvalita vznikajících shluků a případně jejich složení modifikovat

Kvalita je hodnocena „funkcionálem kvality

rozkladu“, který může sledovat vlastnosti jako je třeba vnitroshluková podobnost objektů nebo

izolovanost shluků

Metody mají dvě fáze: určit ideální počet shluků a provést samotné shlukování

(17)

Nehierarchické metody shlukování II.

Počet shluků je volen buď analytikem, a nebo je

výsledkem sledování hodnot zmíněného funkcionálu

Metody zachovávající počet shluků: pouze přiřazují objekty do shluků

Metody optimalizující počet shluků: optimalizace počtu shluků, pro kterou je potřeba poskytnout kriteria, za kterých má dojít ke sloučení/rozdělení shluků

(18)

K-Means algoritmus

Nehierarchický algoritmus zachovávající počet shluků

Používá eukleidovskou metriku a reprezentaci shluků pomocí jejich centroidů

Spočívá v přiřazení objektu k tomu shluku, který je mu nejblíž, po přiřazení se přepočítá těžiště

(centroid) a objekty se znovu přiřazují novým

těžištím. Konec nastává například v momentě kdy žádný objekt nebyl přeřazen

(19)

TwoStep algoritmus

Hierarchický algoritmus, schopný sám určit optimální počet shluků

Dvě fáze: pre-clustering a clustering

Pre-clustering: používá se CF-tree (cluster feature), strom díky kterému se získá prvotní odhad počtu shluků, který je znatelně menší než celkový počet objektů

Clustering: K výslednému rozřazení se používá

References

Related documents

U této metody je t eba dávat pozor na rozdíl mezi statickou metodou a m ením za ustáleného (stacionárního) stavu. Ustálený stav je stav, kdy jsou všechny m

Měření lidské práce je nedílnou součástí každého výrobního procesu. Znalost spotřeby lidských zdrojů je důležitým faktorem přípravy výroby. I když v obecném

Jelikož kontura vlákna k dispozici je, použije se přímá metoda, metoda Secant použita nebude. Toto těžiště následně slouží jako střed kružnic tvořící mezikruží

Nejúčinnějšími metodami na redukci šumu byly Log- MMSE a JMAP SAE, a naopak Wienerova metoda se prokázala jako neefektivní při úlohách s odhadnutým šumem, zejména

Čtvrtou dokončovací operací je 5osé obrábění jedné konkávní části nástrojem s kulovým zakončením o průměru 12 mm.. Výsledkem těchto separátních obrábění je

Dle výše popsaným výpočtům lze následně provést rozdělení obecné plochy na potřebné jednotlivé ele- menty tak, aby vlastní obrábění těchto částí probíhalo

Z palety vyjme víko, nasadí jej na chladič, doklepe paličkou a zkontroluje správné dolehnutí těsnění.. Z palety vyjme víko, nasadí jej na chladič, doklepe

Jsou-li tuhá tělesa vystavena náhlému, konstantnímu nebo periodicky proměnnému zatížení, vytváří se v materiálu napětí, která vedou jednak k dokonale pružné deformaci,