KLASIFIKACE 1 TWINSPAN TWO WAY INDICATOR SPECIES ANALYSIS odivisivní metoda •začíná dělením celého souboru vzorků a postupuje směrem dolů •skupina se dále nedělí, pokud je příliš malá, nebo bylo dosaženo dělení do požadované úrovně opolytetická metoda •každé dělení závisí na několika (indikačních) druzích (x monotetická metoda – dělení ovlivňuje jediný druh) ometoda velmi oblíbená mezi vegetačními ekology •ale – algoritmus je poměrně složitý, ne zcela popsaný a s řadou arbitrárních kroků. Proto má také řadu zarytých odpůrců: "TWINSPAN too unstable and tricky: Better avoided." (Jari Oksanen) ovzorky jsou uspořádány podle první osy korespondenční analýzy (CA) a podle ní jsou rozděleny do dvou shluků (vzorky s pozitivním skóre a negativním skóre) ometoda ošetří vzorky, které leží blízko středu osy, a které tak mají velkou pravděpodobnost, že budou špatně klasifikovány o 2 TWINSPAN TWO WAY INDICATOR SPECIES ANALYSIS opseudospecies •metoda primárně funguje pro kvalitativní data •kvantitativní informace se dodává rozdělením druhů na pseudospecies podle relativní abundance (cut levels), např. 1, 5, 10, 20 %. o 3 Lepš & Šmilauer (2003) TWINSPAN TWO WAY INDICATOR SPECIES ANALYSIS opseudospecies •metoda primárně funguje pro kvalitativní data •kvantitativní informace se dodává rozdělením druhů na pseudospecies podle relativní abundance (cut levels), např. 1, 5, 10, 20 %. ovýsledkem je (mimo jiné) tabulka podobná fytocenologické •snímky z určitých klastrů a druhy s vysokou fidelitou k dané skupině jsou seskupeny dohromady ometoda vhodná v případě, že jsou data strukturovaná podle jednoho výrazného gradientu ovhodné na hledání (několika málo) ekologicky interpretovatelných skupin v datech oMožnost klasifikovat snímky i druhy •Two-way metoda •Využívá symetričnosti chi-square distance 4 TWINSPAN 5 Výsledná tabulka je seřazena ve dvou směrech – sloupce jsou seřazeny podle výsledků dělení, druhy jsou seřazeny do bloků podle druhů charakteristických pro jednotlivé skupiny snímků. Takto tabulka připomíná tabulku fytocenologických snímků. MODIFIKOVANÝ TWINSPAN (ROLEČEK ET AL. 2009) ona rozdíl od původního algoritmu (a) umožňuje modifikovaný TWINSPAN (b) dopředu stanovit cílový počet skupin oalgoritmus se po každém dělení na dvě skupiny rozhoduje, kterou ze skupin bude dále dělit – vybere tu, která je více „heterogenní“ na základě její betadiverzity omíru betadiverzity je nutné zvolit (např. Jaccardův index podobnosti) oV R je možné využít funkci cuth v package twinspan (ovšem pouze s využitím total-chisq distance jako míry nepodobnosti). o o o 6 okde je to možné, dělení je doplněno indikátorovými druhy o 7 TWINSPAN 1,2,3,4,5,6,7,10,11,17,18,19 8,9,12,13,14,15,16,20 0 1 Lolium perenne 5 Agrostis stolonifera 1 Ranunculus flammula 1 TWINSPAN SOFTWARE oOriginální program v jazyku FORTRAN (Mark Hill 1979) •Zcela zastaralý programovací jazyk •Algoritmu už přesně nikdo nerozumí (ani původní autor) •Algoritmus nelze převést do jiných jazyků (přes snahu nejlepších mozků ve vegetační ekologii) •Implementace jinde (R, Juice): pouze wrapper okolo původního Fortran algoritmu ohttps://github.com/jarioksa/twinspan •Autor Jari Oksanen •Klasický Twinspan, modifikovaný pouze s omezenými možnostmi •Celkem dobře implementováno včetně výstupů ohttps://www.sci.muni.cz/botany/juice/ •Program Juice – Luboš Tichý •Klikací okna, nutno importovat data do Juice formátu • 8 ISOPAM oIsometric feature mapping and partitioning around medoids oKombinuje ordinační metodu Isomap a PAM •Isomap – PCoA, která se zaměřuje pouze na nepodobnosti mezi podobnými vzorky. Následně analyzuje nepodobnosti mezi takto vzniklými skupinami oHierarchické uspořádání •Uživatel volí c.max (maximální počet clusterů v každém dělení) a l.max (maximální počet úrovní) •Isomap zkouší různé kombinace a zdaleka ne vždy dojde až k c.max/l.max •Sieve – má-li se klasifikace zaměřit na nepodobnosti pouze mezi indikačně významnými druhy; lze nastavit T/F -Posiluje význam presence/absence -Velmi snižuje význam variability dominance druhů s vysokou frekvencí • o 9 ISOPAM oVytváří pěkné výsledky – zvlášť jsou-li promítány do PCoA oDobře implementovaný v R oPěkné výstupy včetně popisu shluků oNáročný na výkon počítače •Maximálně jednotky tisíc vzorků • 10