NUMERICKÁ KLASIFIKACE 1 SHLUKOVÁNÍ orozpoznání objektů, které jsou si dostatečně podobné, aby mohly být dány do stejné skupiny o ozjištění odlišností mezi skupinami 2 DISKONTINUUM VS. KONTINUUM oEvoluční teorie predikuje diskontinuum – druhy •taxonomové hledají diskontinuity dané odlišnostmi mezi druhy o oSvět ekologie nejčastěji kontinuální •metody schopné rozpoznat shluky podobných objektů, zatímco ignorují několik hraničních • o oNelze očekávat diskontinuity ve společenstvech, aniž by prostředí bylo diskontinuální (nebo nevzorkujeme opačné konce gradientů) Whittaker 1962 3 PROČ MÁ SMYSL VĚCI KLASIFIKOVAT? 4 vlnová délka (~ ekologický gradient) PROČ MÁ SMYSL VĚCI KLASIFIKOVAT? 5 vlnová délka (~ ekologický gradient) PROČ MÁ SMYSL KLASIFIKOVAT? Obsah obrázku text, mapa Popis byl vytvořen automaticky 6 KLASIFIKACE osmyslem je najít diskontinuity (v jinak často kontinuální realitě), které můžeme pojmenovat – například proto, abychom si usnadnili komunikaci ocílem je seskupit podobné objekty (vzorky, druhy) do skupin, které jsou vnitřně homogenní, dobře popsatelné a zároveň dobře odlišitelné od ostatních skupin • •pokud analyzuji vzorky – daná skupina obsahuje vzorky s podobným druhovým složením (např. podobná stanoviště) •pokud analyzuji druhy – daná skupina obsahuje druhy s podobným ekologickým chováním • o 7 TYPOLOGIE „SYSTÉM TYPŮ“ ovýsledek shlukování objektů na kontinuálním gradientu ovýsledkem typy, pomocí nichž lze popsat kontinuum otyto typy samozřejmě nejsou ani „přirozené“, ani jediné „správné“ • 8 KLASIFIKACE OBECNÉ ROZDĚLENÍ 9 OTÁZKY, KTERÉ BYCH SI MĚL POLOŽIT PŘED TÍM, NEŽ ZAČNU NĚCO KLASIFIKOVAT oPro jaký účel klasifikaci dělám? •chci klasifikovat můj datový soubor (srovnat knihy v mojí domácí knihovničce) •chci vytvořit obecný klasifikační systém, který bude použitelný i na další soubory (vytvořit knihovnický systém kategorizace knih, používaný i v jiných knihovnách) • oPodle jakých kritérií budu objekty klasifikovat? •kritérium, podle kterého budu posuzovat, jestli si jsou objekty více či méně podobné (knihy budu třídit podle obsahové podobnosti nebo např. podle velikosti) •odpovídá výběru indexu podobnosti mezi vzorky • oJak stanovím hranice mezi jednotlivými skupinami? •pravidla, podle kterých budu přiřazovat objekty do skupin •odpovídá výběru klasifikačního algoritmu • • • o 10 KLASIFIKACE 11 KLASIFIKACE 12 KLASIFIKACE NEHIERARCHICKÁ •K-means partitioning •(shlukování metodou K-průměrů) onehierarchická metoda – všechny shluky jsou si rovny ominimalizuje sumy čtverců vzdáleností vzorků od centroidů shluku ona začátku uživatel zvolí počet shluků (k) oiterativní metoda, začne od náhodného přiřazení vzorků do shluků, postupně přehazuje vzorky mezi shluky a hledá optimální řešení ovýsledek do určité míry záleží na počátečním rozmístění shluků do vzorků a je proto dobré proces mnohokrát zopakovat (najít stabilní řešení), protože metoda má tendenci nacházet lokální minima • o 13 IDENTIFIKACE “SPRÁVNÉHO K“ oSpuštění kmeans přes oCalinski – Harabasz criterion (~ F-ratio: MSmezi shluky/MSuvnitř shluků) •Nejvyšší hodnota ~ optimum •Hodnota K, při které C-H crit. Vzroste, může být taky zajímavá 14 K-means pro k = 2-10 DALŠÍ METODY PATRITIONING oK-means •Limitované použití na metrické distance •Jinak nutné přepočítat nepodobnosti na vzdálenosti pomocí PCoA oPartitioning around the medoids •Centrum není průměr, ale nějaký konkrétní bod (medoid) •Použitelné na jakoukoliv nepodobnost •Má být robustnější než k-means – 15 KLASIFIKACE 16 KLASIFIKACE HIERARCHICKÁ A AGLOMERATIVNÍ •Shluková analýza (cluster analysis ) ohierarchická metoda •shluky jsou hierarchicky uspořádány oaglomerativní metoda •shluky jsou tvořeny ‘odspodu’, tzn. postupným shlukováním jednotlivých vzorků do větších skupin ozákladní volby: •míra nepodobnosti mezi vzorky (distance measure) •shlukovací (klastrovací) algoritmus (clustering algorithm) • o 17 SHLUKOVÁ ANALÝZA (CLUSTER ANALYSIS) 18 Výsledek shlukové analýzy je ovlivněn celou řadou rozhodnutí, které provádíme na různých úrovních zpracování dat SHLUKOVÁ ANALÝZA (CLUSTER ANALYSIS) SHLUKOVACÍ ALGORITMY 19 •Metoda jednospojná (single linkage) matice podobností páry vzorků seřazené podle podobností výsledný dendrogram SHLUKOVÁ ANALÝZA (CLUSTER ANALYSIS) SHLUKOVACÍ ALGORITMY •Metoda jednospojná (single linkage, nearest neighbour) ovzorky se pojí ke shluku, ve kterém je jim nejpodobnější vzorek opřidám se ke skupině, ve které je ten, kdo je mí nejvíc sympatický • •Metoda všespojná (complete linkage, farthest neighbour) ovzorky se připojí ke shluku až v okamžiku, kdy shluk obsahuje všechny podobné vzorky ozjistím nejnesympatičtější jedince ve všech sjkupinách a přidám se ke skupině ve které je ten nejmíň nesympatický o 20 single linkage complete linkage single linkage complete linkage SHLUKOVÁ ANALÝZA (CLUSTER ANALYSIS) DENDROGRAM ozáleží na tom, které vzorky jsou spojeny na které úrovni onezáleží na tom, který vzorek (skupina) je vpravo a který vlevo o 21 METODA JEDNOSPOJNÁ VS VŠESPOJNÁ 22 metoda jednospojná se výrazně řetězí SHLUKOVÁ ANALÝZA (CLUSTER ANALYSIS) SHLUKOVACÍ ALGORITMY •Average linkage (např. UPGMA) ozahrnuje řadu metod, které stojí mezi single a complete linkage a v ekologii jsou smysluplnější oUPGMA (unweighted pair-group method using arithmetic averages) – vzorek se připojí ke shluku, ke kterému má největší (neváženou) průměrnou podobnost se všemi jeho vzorky opřidám se ke skupině, ve které jsou mi všichni v průměru nejsympatičtější • o o 23 SHLUKOVÁ ANALÝZA (CLUSTER ANALYSIS) SHLUKOVACÍ ALGORITMY •Wardova metoda (Ward’s minimum variance method) ominimalizuje součet čterců vzdáleností mezi vzorky a centroidy jejich shluků ojsou spojovány ty shluky (vzorky) jejichž shluknutí povede k nejmenšímu nárůstu součtu čtverců vnitroshlukových vzdáleností ovýsledné shluky mají tendenci být hypersférické a zhruba stejné velikosti oneměla by se kombinovat se Sørensenovým (Bray-Curtis) indexem nepodobnosti, možno pouze s metrickými distencemi o o o 24 KOFENETICKÁ VZDÁLENOST oVzdálenost mezi dvěma vzorky definovaná jako nepodobnost v rámci skupiny v níž jsou dva vzorky spojené do jednoho klastru 25 d(SUJ-MVP) VZTAH MEZI ORIGINÁLNÍ NEPODOBNOSTÍ A KOFENETICKOU VZDÁLENOSTÍ 26 KLASIFIKACE 27 TWINSPAN TWO WAY INDICATOR SPECIES ANALYSIS odivisivní metoda •začíná dělením celého souboru vzorků a postupuje směrem dolů •skupina se dále nedělí, pokud je příliš malá, nebo bylo dosaženo dělení do požadované úrovně opolytetická metoda •každé dělení závisí na několika (indikačních) druzích (x monotetická metoda – dělení ovlivňuje jediný druh) ometoda velmi oblíbená mezi vegetačními ekology •ale – algoritmus je poměrně složitý, né zcela popsaný a s řadou arbitrárních kroků. Proto má také řadu zarytých odpůrců: "TWINSPAN too unstable and tricky: Better avoided." (Jari Oksanen) ovzorky jsou uspořádány podle první osy korespondenční analýzy (CA, DCA) a podle ní jsou rozděleny do dvou shluků (vzorky s pozitivním skóre a negativním skóre) ometoda ošetří vzorky, které leží blízko středu osy, a které tak mají velkou pravděpodobnost, že budou špatně klasifikovány o 28 TWINSPAN TWO WAY INDICATOR SPECIES ANALYSIS opseudospecies •metoda primárně funguje pro kvalitativní data •kvantitativní informace se dodává rozdělením druhů na pseudospecies podle relativní abundance (cut levels), např. 1, 5, 10, 20 %. o 29 Lepš & Šmilauer (2003) TWINSPAN TWO WAY INDICATOR SPECIES ANALYSIS opseudospecies •metoda primárně funguje pro kvalitativní data •kvantitativní informace se dodává rozdělením druhů na pseudospecies podle relativní abundance (cut levels), např. 1, 5, 10, 20 %. ovýsledkem je (mimo jiné) tabulka podobná fytocenologické •snímky z určitých klastrů a druhy s vysokou fidelitou k dané skupině jsou seskupeny dohromady ometoda vhodná v případě, že jsou data strukturovaná podle jednoho výrazného gradientu ovhodné na hledání (několika málo) ekologicky interpretovatelných skupin v datech 30 TWINSPAN 31 Výsledná tabulka je seřazena ve dvou směrech – sloupce jsou seřazeny podle výsledků dělení, druhy jsou seřazeny do bloků podle druhů charakteristických pro jednotlivé skupiny snímků. Takto tabulka připomíná tabulku fytocenologických snímků. MODIFIKOVANÝ TWINSPAN (ROLEČEK ET AL. 2009) ona rozdíl od původního algoritmu (a) umožňuje modifikovaný TWINSPAN (b) dopředu stanovit cílový počet skupin oalgoritmus se po každém dělení na dvě skupiny rozhoduje, kterou ze skupin bude dále dělit – vybere tu, která je více „heterogenní“ na základě její betadiverzity omíru betadiverzity je nutné zvolit (např. Jaccardův index podobnosti) oJUICE, R o o o 32 okde je to možné, dělení je doplněno indikátorovými druhy o 33 TWINSPAN 1,2,3,4,5,6,7,10,11,17,18,19 8,9,12,13,14,15,16,20 0 1 Lolium perenne 5 Agrostis stolonifera 1 Ranunculus flammula 1 PROMÍTNUTÍ VÝSLEDKŮ NUMERICKÉ KLASIFIKACE DO ORDINAČNÍHO DIAGRAMU 34 data z údolí Vltavy, klasifikace metodou TWINSPAN (Zelený & Chytrý 2007) Je vhodné, aby míra nepodobnosti mezi vzorky byla v obou metodách (numerické klasifikaci i ordinační analýze) stejná (ze zvolených příkladů ten vlevo je vhodné řešení, vpravo nevhodné) DCA + TWINSPAN NMDS (Bray-Curtis) + TWINSPAN INTERPRETACE VÝSLEDKŮ NUMERICKÉ KLASIFIKACE opromítnutí výsledků do ordinačního diagramu oporovnání skupin na základě externích kritérií (např. měřených proměnných prostředí) oporovnání skupin na základě druhového složení – stanovení charakteristických druhů o 35 PROMÍTNUTÍ VÝSLEDKŮ NUMERICKÉ KLASIFIKACE DO ORDINAČNÍHO DIAGRAMU 36 data z údolí Vltavy, klasifikace metodou TWINSPAN (Zelený & Chytrý 2007) Je vhodné, aby míra nepodobnosti mezi vzorky byla v obou metodách (numerické klasifikaci i ordinační analýze) stejná (ze zvolených příkladů ten vlevo je vhodné řešení, vpravo nevhodné) DCA + TWINSPAN NMDS (Bray-Curtis) + TWINSPAN