NUMERICKÁ KLASIFIKACE
1


SHLUKOVÁNÍ
orozpoznání objektů, které jsou si dostatečně podobné, aby mohly být dány do stejné skupiny
o
ozjištění odlišností mezi skupinami
2

DISKONTINUUM VS. KONTINUUM
oEvoluční teorie predikuje diskontinuum – druhy
•taxonomové hledají diskontinuity dané odlišnostmi mezi druhy
o
oSvět ekologie nejčastěji kontinuální
•metody schopné rozpoznat shluky podobných objektů, zatímco ignorují několik hraničních
•
o
oNelze očekávat diskontinuity ve společenstvech, aniž by prostředí bylo diskontinuální (nebo
nevzorkujeme opačné konce gradientů) Whittaker 1962
3

PROČ MÁ SMYSL VĚCI KLASIFIKOVAT?
4
vlnová délka (~ ekologický gradient)

PROČ MÁ SMYSL VĚCI KLASIFIKOVAT?
5
vlnová délka (~ ekologický gradient)

PROČ MÁ SMYSL KLASIFIKOVAT?
Obsah obrázku text, mapa Popis byl vytvořen automaticky
6

KLASIFIKACE
osmyslem je najít diskontinuity (v jinak často kontinuální realitě), které můžeme pojmenovat –
například proto, abychom si usnadnili komunikaci
ocílem je seskupit podobné objekty (vzorky, druhy) do skupin, které jsou vnitřně homogenní, dobře
popsatelné a zároveň dobře odlišitelné od ostatních skupin
•
•pokud analyzuji vzorky – daná skupina obsahuje vzorky s podobným druhovým složením (např. podobná
stanoviště)
•pokud analyzuji druhy – daná skupina obsahuje druhy s podobným ekologickým chováním
•
o
7

TYPOLOGIE
„SYSTÉM TYPŮ“
ovýsledek shlukování objektů na kontinuálním gradientu
ovýsledkem typy, pomocí nichž lze popsat kontinuum
otyto typy  samozřejmě nejsou ani „přirozené“, ani jediné „správné“
•
8

KLASIFIKACE
OBECNÉ ROZDĚLENÍ
9

OTÁZKY, KTERÉ BYCH SI MĚL POLOŽIT PŘED TÍM,
NEŽ ZAČNU NĚCO KLASIFIKOVAT
oPro jaký účel klasifikaci dělám?
•chci klasifikovat můj datový soubor (srovnat knihy v mojí domácí knihovničce)
•chci vytvořit obecný klasifikační systém, který bude použitelný i na další soubory (vytvořit
knihovnický systém kategorizace knih, používaný i v jiných knihovnách)
•
oPodle jakých kritérií budu objekty klasifikovat?
•kritérium, podle kterého budu posuzovat, jestli si jsou objekty více či méně podobné (knihy budu
třídit podle obsahové podobnosti nebo např. podle velikosti)
•odpovídá výběru indexu podobnosti mezi vzorky
•
oJak stanovím hranice mezi jednotlivými skupinami?
•pravidla, podle kterých budu přiřazovat objekty do skupin
•odpovídá výběru klasifikačního algoritmu
•
•
•
o
10

KLASIFIKACE
11


KLASIFIKACE
12


KLASIFIKACE
NEHIERARCHICKÁ
•K-means partitioning
•(shlukování metodou K-průměrů)
onehierarchická metoda – všechny shluky jsou si rovny
ominimalizuje sumy čtverců vzdáleností vzorků od centroidů shluku
ona začátku uživatel zvolí počet shluků (k)
oiterativní metoda, začne od náhodného přiřazení vzorků do shluků, postupně přehazuje vzorky mezi
shluky a hledá optimální řešení ovýsledek do určité míry záleží na počátečním rozmístění shluků do
vzorků a je proto dobré proces mnohokrát zopakovat (najít stabilní řešení), protože metoda má
tendenci nacházet lokální minima
•
o
13

IDENTIFIKACE “SPRÁVNÉHO K“
oSpuštění kmeans přes cascadeKM
oCalinski – Harabasz criterion (~ F-ratio: MSmezi shluky/MSuvnitř shluků)
•Nejvyšší hodnota ~ optimum
•Hodnota K, při které C-H crit. Vzroste, může být taky zajímavá
14
K-means pro k = 2-10

DALŠÍ METODY PATRITIONING
oK-means
•Kompatibilní pouze s na metrickými distancemi
•Jinak nutné přepočítat nepodobnosti na vzdálenosti pomocí PCoA
-Spočte se PCoA, a do K-mean se použije prvních X os, které vyscětlují 90 nebo 95% variability
-Arbitrární, ale funguje
oPartitioning around the medoids
•Centrum není průměr, ale nějaký konkrétní bod (medoid)
•Použitelné na jakoukoliv nepodobnost
•Má být robustnější než k-means
–
15

KLASIFIKACE
16


KLASIFIKACE
HIERARCHICKÁ A AGLOMERATIVNÍ
•Shluková analýza  (cluster analysis )
ohierarchická metoda
•shluky jsou hierarchicky uspořádány
oaglomerativní metoda
•shluky jsou tvořeny ‘odspodu’, tzn. postupným shlukováním jednotlivých vzorků do větších skupin
ozákladní volby:
•míra nepodobnosti mezi vzorky (distance measure)
•shlukovací (klastrovací) algoritmus (clustering algorithm)
•
o
17

SHLUKOVÁ ANALÝZA (CLUSTER ANALYSIS)
18
Výsledek shlukové analýzy je ovlivněn celou řadou rozhodnutí, které provádíme
na různých úrovních
zpracování dat

SHLUKOVÁ ANALÝZA (CLUSTER ANALYSIS)
SHLUKOVACÍ ALGORITMY
19
•Metoda jednospojná  (single linkage)
matice podobností
páry vzorků seřazené podle podobností
výsledný dendrogram

SHLUKOVÁ ANALÝZA (CLUSTER ANALYSIS)
SHLUKOVACÍ ALGORITMY
•Metoda jednospojná (single linkage, nearest neighbour)
ovzorky se pojí ke shluku, ve kterém je jim nejpodobnější vzorek
opřidám se ke skupině, ve které je ten, kdo je mí nejvíc sympatický
•
•Metoda všespojná (complete linkage, farthest neighbour)
ovzorky se připojí ke shluku až v okamžiku, kdy shluk obsahuje všechny podobné vzorky ozjistím
nejnesympatičtější jedince ve všech sjkupinách a přidám se ke skupině ve které je ten nejmíň
nesympatický
o
20
single linkage
complete linkage
single linkage
complete linkage

SHLUKOVÁ ANALÝZA (CLUSTER ANALYSIS)
DENDROGRAM
ozáleží na tom, které vzorky jsou spojeny na které úrovni
onezáleží na tom, který vzorek (skupina) je vpravo a který vlevo
o
21

METODA JEDNOSPOJNÁ VS VŠESPOJNÁ
22
metoda jednospojná se výrazně řetězí

SHLUKOVÁ ANALÝZA (CLUSTER ANALYSIS)
SHLUKOVACÍ ALGORITMY
•Average linkage (např. UPGMA)
ozahrnuje řadu metod, které stojí mezi single a complete linkage a v ekologii jsou smysluplnější
oUPGMA (unweighted pair-group method using arithmetic averages) – vzorek se připojí ke shluku, ke
kterému má největší (neváženou) průměrnou podobnost se všemi jeho vzorky opřidám se ke skupině, ve
které jsou mi všichni v průměru nejsympatičtější
•
o
o
23

SHLUKOVÁ ANALÝZA (CLUSTER ANALYSIS)
SHLUKOVACÍ ALGORITMY
•Wardova metoda (Ward’s minimum variance method) ominimalizuje součet čterců vzdáleností mezi
vzorky a centroidy jejich shluků ojsou spojovány ty shluky (vzorky) jejichž shluknutí povede k
nejmenšímu nárůstu součtu čtverců vnitroshlukových vzdáleností ovýsledné shluky mají tendenci být
hypersférické a zhruba stejné velikosti oneměla by se kombinovat se Sørensenovým (Bray-Curtis)
indexem nepodobnosti, možno pouze s metrickými distancemi
o
o
o
24

KOFENETICKÁ VZDÁLENOST
oVzdálenost mezi dvěma vzorky definovaná jako nepodobnost v rámci skupiny v níž jsou dva vzorky
spojené do jednoho klastru
25
d(SUJ-MVP)

VZTAH MEZI ORIGINÁLNÍ NEPODOBNOSTÍ A KOFENETICKOU VZDÁLENOSTÍ
26


KLASIFIKACE
27
… PŘÍŠTĚ