NUMERICKÁ KLASIFIKACE 1 SHLUKOVÁNÍ orozpoznání objektů, které jsou si dostatečně podobné, aby mohly být dány do stejné skupiny o ozjištění odlišností mezi skupinami 2 DISKONTINUUM VS. KONTINUUM oEvoluční teorie predikuje diskontinuum – druhy •taxonomové hledají diskontinuity dané odlišnostmi mezi druhy o oSvět ekologie nejčastěji kontinuální •metody schopné rozpoznat shluky podobných objektů, zatímco ignorují několik hraničních • o oNelze očekávat diskontinuity ve společenstvech, aniž by prostředí bylo diskontinuální (nebo nevzorkujeme opačné konce gradientů) Whittaker 1962 3 PROČ MÁ SMYSL VĚCI KLASIFIKOVAT? 4 vlnová délka (~ ekologický gradient) PROČ MÁ SMYSL VĚCI KLASIFIKOVAT? 5 vlnová délka (~ ekologický gradient) PROČ MÁ SMYSL KLASIFIKOVAT? Obsah obrázku text, mapa Popis byl vytvořen automaticky 6 KLASIFIKACE osmyslem je najít diskontinuity (v jinak často kontinuální realitě), které můžeme pojmenovat – například proto, abychom si usnadnili komunikaci ocílem je seskupit podobné objekty (vzorky, druhy) do skupin, které jsou vnitřně homogenní, dobře popsatelné a zároveň dobře odlišitelné od ostatních skupin • •pokud analyzuji vzorky – daná skupina obsahuje vzorky s podobným druhovým složením (např. podobná stanoviště) •pokud analyzuji druhy – daná skupina obsahuje druhy s podobným ekologickým chováním • o 7 TYPOLOGIE „SYSTÉM TYPŮ“ ovýsledek shlukování objektů na kontinuálním gradientu ovýsledkem typy, pomocí nichž lze popsat kontinuum otyto typy samozřejmě nejsou ani „přirozené“, ani jediné „správné“ • 8 KLASIFIKACE OBECNÉ ROZDĚLENÍ 9 OTÁZKY, KTERÉ BYCH SI MĚL POLOŽIT PŘED TÍM, NEŽ ZAČNU NĚCO KLASIFIKOVAT oPro jaký účel klasifikaci dělám? •chci klasifikovat můj datový soubor (srovnat knihy v mojí domácí knihovničce) •chci vytvořit obecný klasifikační systém, který bude použitelný i na další soubory (vytvořit knihovnický systém kategorizace knih, používaný i v jiných knihovnách) • oPodle jakých kritérií budu objekty klasifikovat? •kritérium, podle kterého budu posuzovat, jestli si jsou objekty více či méně podobné (knihy budu třídit podle obsahové podobnosti nebo např. podle velikosti) •odpovídá výběru indexu podobnosti mezi vzorky • oJak stanovím hranice mezi jednotlivými skupinami? •pravidla, podle kterých budu přiřazovat objekty do skupin •odpovídá výběru klasifikačního algoritmu • • • o 10 KLASIFIKACE 11 KLASIFIKACE 12 KLASIFIKACE NEHIERARCHICKÁ •K-means partitioning •(shlukování metodou K-průměrů) onehierarchická metoda – všechny shluky jsou si rovny ominimalizuje sumy čtverců vzdáleností vzorků od centroidů shluku ona začátku uživatel zvolí počet shluků (k) oiterativní metoda, začne od náhodného přiřazení vzorků do shluků, postupně přehazuje vzorky mezi shluky a hledá optimální řešení ovýsledek do určité míry záleží na počátečním rozmístění shluků do vzorků a je proto dobré proces mnohokrát zopakovat (najít stabilní řešení), protože metoda má tendenci nacházet lokální minima • o 13 IDENTIFIKACE “SPRÁVNÉHO K“ oSpuštění kmeans přes cascadeKM oCalinski – Harabasz criterion (~ F-ratio: MSmezi shluky/MSuvnitř shluků) •Nejvyšší hodnota ~ optimum •Hodnota K, při které C-H crit. Vzroste, může být taky zajímavá 14 K-means pro k = 2-10 DALŠÍ METODY PATRITIONING oK-means •Kompatibilní pouze s na metrickými distancemi •Jinak nutné přepočítat nepodobnosti na vzdálenosti pomocí PCoA -Spočte se PCoA, a do K-mean se použije prvních X os, které vyscětlují 90 nebo 95% variability -Arbitrární, ale funguje oPartitioning around the medoids •Centrum není průměr, ale nějaký konkrétní bod (medoid) •Použitelné na jakoukoliv nepodobnost •Má být robustnější než k-means – 15 KLASIFIKACE 16 KLASIFIKACE HIERARCHICKÁ A AGLOMERATIVNÍ •Shluková analýza (cluster analysis ) ohierarchická metoda •shluky jsou hierarchicky uspořádány oaglomerativní metoda •shluky jsou tvořeny ‘odspodu’, tzn. postupným shlukováním jednotlivých vzorků do větších skupin ozákladní volby: •míra nepodobnosti mezi vzorky (distance measure) •shlukovací (klastrovací) algoritmus (clustering algorithm) • o 17 SHLUKOVÁ ANALÝZA (CLUSTER ANALYSIS) 18 Výsledek shlukové analýzy je ovlivněn celou řadou rozhodnutí, které provádíme na různých úrovních zpracování dat SHLUKOVÁ ANALÝZA (CLUSTER ANALYSIS) SHLUKOVACÍ ALGORITMY 19 •Metoda jednospojná (single linkage) matice podobností páry vzorků seřazené podle podobností výsledný dendrogram SHLUKOVÁ ANALÝZA (CLUSTER ANALYSIS) SHLUKOVACÍ ALGORITMY •Metoda jednospojná (single linkage, nearest neighbour) ovzorky se pojí ke shluku, ve kterém je jim nejpodobnější vzorek opřidám se ke skupině, ve které je ten, kdo je mí nejvíc sympatický • •Metoda všespojná (complete linkage, farthest neighbour) ovzorky se připojí ke shluku až v okamžiku, kdy shluk obsahuje všechny podobné vzorky ozjistím nejnesympatičtější jedince ve všech sjkupinách a přidám se ke skupině ve které je ten nejmíň nesympatický o 20 single linkage complete linkage single linkage complete linkage SHLUKOVÁ ANALÝZA (CLUSTER ANALYSIS) DENDROGRAM ozáleží na tom, které vzorky jsou spojeny na které úrovni onezáleží na tom, který vzorek (skupina) je vpravo a který vlevo o 21 METODA JEDNOSPOJNÁ VS VŠESPOJNÁ 22 metoda jednospojná se výrazně řetězí SHLUKOVÁ ANALÝZA (CLUSTER ANALYSIS) SHLUKOVACÍ ALGORITMY •Average linkage (např. UPGMA) ozahrnuje řadu metod, které stojí mezi single a complete linkage a v ekologii jsou smysluplnější oUPGMA (unweighted pair-group method using arithmetic averages) – vzorek se připojí ke shluku, ke kterému má největší (neváženou) průměrnou podobnost se všemi jeho vzorky opřidám se ke skupině, ve které jsou mi všichni v průměru nejsympatičtější • o o 23 SHLUKOVÁ ANALÝZA (CLUSTER ANALYSIS) SHLUKOVACÍ ALGORITMY •Wardova metoda (Ward’s minimum variance method) ominimalizuje součet čterců vzdáleností mezi vzorky a centroidy jejich shluků ojsou spojovány ty shluky (vzorky) jejichž shluknutí povede k nejmenšímu nárůstu součtu čtverců vnitroshlukových vzdáleností ovýsledné shluky mají tendenci být hypersférické a zhruba stejné velikosti oneměla by se kombinovat se Sørensenovým (Bray-Curtis) indexem nepodobnosti, možno pouze s metrickými distancemi o o o 24 KOFENETICKÁ VZDÁLENOST oVzdálenost mezi dvěma vzorky definovaná jako nepodobnost v rámci skupiny v níž jsou dva vzorky spojené do jednoho klastru 25 d(SUJ-MVP) VZTAH MEZI ORIGINÁLNÍ NEPODOBNOSTÍ A KOFENETICKOU VZDÁLENOSTÍ 26 KLASIFIKACE 27 … PŘÍŠTĚ