NUMERICKÁ KLASIFIKACE 1 SHLUKOVÁNÍ orozpoznání objektů, které jsou si dostatečně podobné, aby mohly být dány do stejné skupiny o ozjištění odlišností mezi skupinami 2 DISKONTINUUM VS. KONTINUUM oEvoluční teorie predikuje diskontinuum – druhy •taxonomové hledají diskontinuity dané odlišnostmi mezi druhy o oSvět ekologie nejčastěji kontinuální •metody schopné rozpoznat shluky podobných objektů, zatímco ignorují několik hraničních • o oNelze očekávat diskontinuity ve společenstvech, aniž by prostředí bylo diskontinuální (nebo nevzorkujeme opačné konce gradientů) Whittaker 1962 3 PROČ MÁ SMYSL VĚCI KLASIFIKOVAT? 4 vlnová délka (~ ekologický gradient) PROČ MÁ SMYSL VĚCI KLASIFIKOVAT? 5 vlnová délka (~ ekologický gradient) PROČ MÁ SMYSL KLASIFIKOVAT? Obsah obrázku text, mapa Popis byl vytvořen automaticky 6 KLASIFIKACE osmyslem je najít diskontinuity (v jinak často kontinuální realitě), které můžeme pojmenovat – například proto, abychom si usnadnili komunikaci ocílem je seskupit podobné objekty (vzorky, druhy) do skupin, které jsou vnitřně homogenní, dobře popsatelné a zároveň dobře odlišitelné od ostatních skupin •pokud analyzuji vzorky – daná skupina obsahuje vzorky s podobným druhovým složením (např. podobná stanoviště) •pokud analyzuji druhy – daná skupina obsahuje druhy s podobným ekologickým chováním oVýsledné shluky lze považovat za „typy“ •Umožňují popsat kontinuum •Vzhledem k subjektivitě klasifikací nemají tyto typy nárok na označení ani „přirozené“, ani „jediné správné“ • • o 7 KLASIFIKACE OBECNÉ ROZDĚLENÍ 8 OTÁZKY, KTERÉ BYCH SI MĚL POLOŽIT PŘED TÍM, NEŽ ZAČNU NĚCO KLASIFIKOVAT oPro jaký účel klasifikaci dělám? •chci klasifikovat můj datový soubor (srovnat knihy v mojí domácí knihovničce) •chci vytvořit obecný klasifikační systém, který bude použitelný i na další soubory (vytvořit knihovnický systém kategorizace knih, používaný i v jiných knihovnách) • oPodle jakých kritérií budu objekty klasifikovat? •kritérium, podle kterého budu posuzovat, jestli si jsou objekty více či méně podobné (knihy budu třídit podle obsahové podobnosti nebo např. podle velikosti) •odpovídá výběru indexu podobnosti mezi vzorky • oJak stanovím hranice mezi jednotlivými skupinami? •pravidla, podle kterých budu přiřazovat objekty do skupin •odpovídá výběru klasifikačního algoritmu • • • o 9 SYSTÉM KLASIFIKAČNÍCH METOD 10 KLASIFIKACE 11 K-MEANS PARTITIONING ominimalizuje sumy čtverců vzdáleností vzorků od centroidů shluku •Vyžaduje metrické nepodobnosti •Sørensenovým (Bray-Curtis) indexem nepodobnosti třeba odmocnit •Nelze-li použít metrické d., lze použít PCoA osy ona začátku uživatel zvolí počet shluků (k) •Analýza se obvykle zkouší pro nějaký rozsah k (k = 2 – xx) •Na základě této zkoušky se vybere vhodné k – subjektivně nebo na dákladě diagnostiky oiterativní metoda, začne od náhodného přiřazení vzorků do shluků, postupně přehazuje vzorky mezi shluky a hledá optimální řešení ovýsledek do určité míry záleží na počátečním rozmístění shluků do vzorků a je proto dobré proces mnohokrát zopakovat (najít stabilní řešení), protože metoda má tendenci nacházet lokální minima • • o 12 PARTITIONING AROUND MEDOIDS - PAM oObdoba k-means oMísto centroidů se shluky staví okolo konkrétních bodů (= reprezentativních pozorování, medoidů) v datasetu oCílem nalézt rozdělení do skupin, které minimalizuje sumu vzdáleností mezi medoidy a jednotlivými pozorováními oŘešení obvykle stabilnější než k-means (to nutně neznamená lepší) oUmožňuje pracovat s libovolnými nepodobnostmi 13 KLASIFIKACE 14 PROČ HIERARCHIE? oNehierarchické klasifikační metody dovedou dobře popsat shluky podél jednoho nebo dvou gradientů •Klasifikace po celou dobu uvažuje vztahy se všemi vzorky v datasetu oVariabilita ve složení společenstev je často složitější •Např. na první úrovni les-bezlesí •Dále gradienty v lese a bezlesí, které mohou fungovat jinak oHierarchie umožňuje zacílení na menší podsoubor v rámci datasetu, přičemž ostatní vzorky jsou ignorovány oOrdinační osy jsou taky hierarchické 15 KLASIFIKACE HIERARCHICKÁ A AGLOMERATIVNÍ •Shluková analýza (cluster analysis ) ohierarchická metoda •Shluky jsou hierarchicky uspořádány oaglomerativní metoda •Shluky jsou tvořeny ‘odspodu’, tzn. postupným shlukováním jednotlivých vzorků do větších skupin ozákladní volby: •Míra nepodobnosti mezi vzorky (distance measure) •Shlukovací (klastrovací) algoritmus (clustering algorithm) •Definice interpretovatelných shluků na dendrogramu • o 16 SHLUKOVÁ ANALÝZA (CLUSTER ANALYSIS) 17 Výsledek shlukové analýzy je ovlivněn celou řadou rozhodnutí, které provádíme na různých úrovních zpracování dat SHLUKOVÁ ANALÝZA (CLUSTER ANALYSIS) SHLUKOVACÍ ALGORITMY 18 •Metoda jednospojná (single linkage) matice podobností páry vzorků seřazené podle podobností výsledný dendrogram SHLUKOVÁ ANALÝZA (CLUSTER ANALYSIS) SHLUKOVACÍ ALGORITMY •Metoda jednospojná (single linkage, nearest neighbour) ovzorky se pojí ke shluku, ve kterém je jim nejpodobnější vzorek opřidám se ke skupině, ve které je ten, kdo je mí nejvíc sympatický • •Metoda všespojná (complete linkage, farthest neighbour) ovzorky se připojí ke shluku až v okamžiku, kdy shluk obsahuje všechny podobné vzorky ozjistím nejnesympatičtější jedince ve všech sjkupinách a přidám se ke skupině ve které je ten nejmíň nesympatický o 19 single linkage complete linkage single linkage complete linkage SHLUKOVÁ ANALÝZA (CLUSTER ANALYSIS) DENDROGRAM ozáleží na tom, které vzorky jsou spojeny na které úrovni onezáleží na tom, který vzorek (skupina) je vpravo a který vlevo o 20 METODA JEDNOSPOJNÁ VS VŠESPOJNÁ 21 metoda jednospojná se výrazně řetězí SHLUKOVÁ ANALÝZA (CLUSTER ANALYSIS) SHLUKOVACÍ ALGORITMY •Average linkage (např. UPGMA) ozahrnuje řadu metod, které stojí mezi single a complete linkage a v ekologii jsou smysluplnější oUPGMA (unweighted pair-group method using arithmetic averages) – vzorek se připojí ke shluku, ke kterému má největší (neváženou) průměrnou podobnost se všemi jeho vzorky opřidám se ke skupině, ve které jsou mi všichni v průměru nejsympatičtější • o o 22 SHLUKOVÁ ANALÝZA (CLUSTER ANALYSIS) SHLUKOVACÍ ALGORITMY •Wardova metoda (Ward’s minimum variance method) ominimalizuje součet čterců vzdáleností mezi vzorky a centroidy jejich shluků •Vyžaduje metrické distance (spočte se i s jinými, ale výsledek je diskutabilní) •Se Sørensenovým (Bray-Curtis) indexem pouze po odmocnění nepodobností ojsou spojovány ty shluky (vzorky) jejichž shluknutí povede k nejmenšímu nárůstu součtu čtverců vnitroshlukových vzdáleností ovýsledné shluky mají tendenci být hypersférické a zhruba stejné velikosti •To obvykle chceme o o o 23 STANOVENÍ INTERPRETOVATELNÝCH SHLUKŮ oDůležitá je hrubá topologie dendrogramu, ne detaily na koncích větví oShluky stanovíme „seříznutím konců větví“ •Buď definujeme k (počet shluků) •Nebo výšku dendrogramu, kde se provede řez a podle toho se definují shluky o o 24 DIAGNOSTIKA KLASIFIKACÍ oInformuje o kvalitě klasifikace oUmožňuje stanovit k v k-means a PAM oUmožňuje stanovit interpretovatelné shluky v hierarchických metodách oPřístupů je řada •Shoda mezi příslušností do shluků a nepodobností v původní matici •Analýza indikačních druhů 25 DIAGNOSTIKA POMOCÍ ŠÍŘKY SILUETY (SILHOUETTE WIDTH) oKlíčový parametr šířka siluety (silhouette width) •Definovaný pro jednotlivé body •s = (b – a) / max (a, b) -a – průměrná nepodobnost mezi daným bodem a dalšími body ve shluku kam patří -b – průměrná nepodobnost mezi daným bodem a sousedním shlukem (kam daný bod nepatří) •S = 1: ideální klasifikace (bod leží ve středu svého shluku) •S = +- 0: hraniční body; S = 0, je-li bod ve shluku sám •S < 0: nesprávně klasifikované body (mají blíž k jinému shluku než ke svému) oPrůměrná SW charakterizuje celkovou kvalitu celé klasifikace •Lze porovnávat různá k nebo počty shluků v hclust •Lze porovnávat různé metody (např. PAM vs. hclust), i třeba různé indexy nepodobnosti. oVelmi univerzální metoda 26 SILHOUETTE PLOT o 27 POPIS VLASTNOSTÍ SHLUKŮ oBoxploty oJednocestná ANOVA 28 ANALÝZA DIAGNOSTICKÝCH DRUHŮ oKorelace druhů se shluky •Např. phi-coeficient (= Pearson r pro 0/1 data) oTest signifikance •Fisher exact •Permutační •P-hodnoty by se měly upravit kvůli mmnohonásobnému prorovnání 29 PROMÍTNUTÍ VÝSLEDKŮ NUMERICKÉ KLASIFIKACE DO ORDINAČNÍHO DIAGRAMU 30 Je vhodné, aby míra nepodobnosti mezi vzorky byla v obou metodách (numerické klasifikaci i ordinační analýze) stejná. PCoA (Bray-Curtis) + Hclust (Ward-sqrt(Bray-Curtis)) KLASIFIKACE 31 … PŘÍŠTĚ