logo-IBA Vícerozměrné rozdělení dat Koeficienty podobnosti a vzdálenosti Asociační matice Shluková analýza Bi8600: Vícerozměrné metody 2. cvičení Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Jak vizualizujeme vícerozměrný prostor? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Jak vizualizujeme vícerozměrný prostor? http://portal.matematickabiologie.cz/res/image/Vicerozmerne%20stat.%20metody/kap2/obr4overeni2Dnorm .png Maticové grafy 3D 2D Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Jak popíšeme vícerozměrný prostor? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Popisné statistiky vícerozměrných dat Charakteristiky polohy středu •Udávají, kolem jaké hodnoty se data centrují. •Centroid = vektor průměrných hodnot (mediánů), reprezentuje virtuální střed. •Medoid = reprezentuje reálný objekt. • • Charakteristiky variability •Zachycují rozptýlení hodnot v souboru (proměnlivost dat). •Kovarianční matice. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Vícerozměrná normalita dat •Vícerozměrné normální rozdělení pro proměnné x1, …, xp popíšeme vektorem středních hodnot a kovarianční maticí. • • • • • • • •Do popisu dat navíc vstupují charakteristiky vztahu proměnných. •Kovariance popisuje vztah dvou proměnných; její rozsah závisí na variabilitě dat. • • Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová Rozptyl proměnných Kovariance páru proměnných Vektor středních hodnot (odhadem je vektor průměrů) Kovarianční matice (odhadem je výběrová kovarianční matice) logo-IBA Jaký je vztah mezi kovariancí a korelací? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Jaký je vztah mezi kovariancí a korelací? •Kovariance popisuje vztah dvou proměnných; její rozsah závisí na variabilitě dat. • • • •Korelace = kovariance standardizovaná na rozptyl proměnných. • • • • •Jaké hodnoty se nachází na diagonále korelační matice? •Má smysl použít metody redukce dimenzionality dat v situaci, kdy jsou hodnoty kovariance/korelace blízké nule? •Čemu odpovídá kovariance na standardizovaných datech? • Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Jaký je vztah mezi kovariancí a korelací? •Kovariance popisuje vztah dvou proměnných; její rozsah závisí na variabilitě dat • • • •Korelace = kovariance standardizovaná na rozptyl proměnných. • • • • •Jaké hodnoty se nachází na diagonále korelační matice? •Má smysl použít metody redukce dimenzionality dat v situaci, kdy jsou hodnoty kovariance/korelace blízké nule? •Čemu odpovídá kovariance na standardizovaných datech? • Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová Pokud D(x1)=D(x2)=1 → kovariance = korelace logo-IBA Co je cílem analýzy? •Vstupní matice: řádky = objekty, sloupce = proměnné • Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová —Q mode: hodnotíme vzdálenost/podobnost objektů → shluková analýza —vytváření shluků objektů na základě jejich podobnosti —identifikace typů objektů —R mode: hodnotíme závislost proměnných → ordinační analýzy —zjednodušení vícerozměrného problému do menšího počtu rozměrů —principem je tvorba nových rozměrů, které lépe vyčerpávají variabilitu dat SHLUKOVÁ ANALÝZA ORDINAČNÍ METODY •Základní výběr koeficientu je často spjat s metodou •Dále je potřeba zohlednit typ vstupních dat: spojitá/kategoriální/mix •Výběrem metriky ovlivníme výsledky analýz • logo-IBA Kvantitativní data Koeficienty vzdálenosti Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Příklad 1: Euklidova vzdálenost —Euklidova vzdálenost vychází z Pythagorovy věty —Úkol: spočítejte vzdálenost (D) objektu A[1;2] a B[4;6] — 1 4 2 6 A B X Y D Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Příklad 1: Euklidova vzdálenost —Euklidova vzdálenost vychází z Pythagorovy věty —Úkol: spočítejte vzdálenost (D) objektu A[1;2] a B[4;6] — — — — — — — — — —Proměnné s číselně většími hodnotami budou mít větší váhu při shlukování!!! —Např. pokud budeme hodnotit výšku (150–200 cm) a cholesterol (do 5 mmol/l), výška bude mít větší váhu při shlukování – objekty budou rozděleny do shluků podle jejich výšky. — Data s nesrovnatelnými hodnotami proměnných je potřeba před analýzou standardizovat. Jak? — standardizace směrodatnou odchylkou nebo rozpětím — 1 4 2 6 A B X Y D=5 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová POZOR! logo-IBA Příklad 2: Manhattanská vzdálenost —Cesta po Manhattanu —součet absolutních hodnot rozdílů jednotlivých parametrů popisujících objekty —Úkol: spočítejte vzdálenost (D) objektu A [1;2] a B[4;6] — 1 4 2 6 A B X Y D Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Příklad 2: Manhattanská vzdálenost —Cesta po Manhattanu —součet absolutních hodnot rozdílů jednotlivých parametrů popisujících objekty —Úkol: spočítejte vzdálenost (D) objektu A [1;2] a B[4;6] — 1 4 2 6 A B X Y D Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Binární data Koeficienty podobnosti Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Koeficienty podobnosti Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová —Jaké znáte dva hlavní typy koeficientů podobnosti? —Co znamená double zerow problem? • logo-IBA Koeficienty podobnosti —Ve vícerozměrné analýze se využívá řada indexů podobnosti založených na přítomnosti/nepřítomnosti kategorií objektů — — — — — — — — —Velký počet koeficientů, které dávají různou váhu jednotlivým kombinacím a, b, c, d = počet případů, kdy souhlasí binární charakteristika společenstev 1 a 2 a+b+c+d=p Symetrické binární koeficienty - není rozdíl mezi případem 1-1 a 0-0 Asymetrické binární koeficienty - rozdíl mezi případem 1-1 a 0-0 Podrobný přehled koeficientů vzdáleností a podobností najdete v knize LEGENDRE, P. & LEGENDRE, L. (1998). Numerical ecology. Elseviere Science BV, Amsterodam. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Příklad 3: Koeficienty podobnosti •Tabulka popisuje výskyt (1) nebo nevýskyt (0) živočichů na lokalitách. •Úkol: Pomocí Simple matching, Jaccardova a Sørensenova koeficientu vyhodnoťte, zda si jsou uvedené lokality podobné. Výsledné hodnoty podobností převeďte na vzdálenosti. • • • • • •Vyplňte počty případů, aby výskyt/nevýskyt živočicha odpovídal vstupní tabulce. • •Ssimple matching= … •SJaccard= … •SSørensen= … • Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová Výskyt/nevýskyt živočicha Lokalita žralok velryba had ještěrka velbloud varan tučňák Vysočina 0 0 1 1 0 0 0 Sahara 0 0 1 1 1 1 0 logo-IBA Příklad 3: Koeficienty podobnosti •Tabulka popisuje výskyt (1) nebo nevýskyt (0) živočichů na dvou lokalitách. •Úkol: Pomocí Simple matching a Jaccardova koeficientu vyhodnoťte, zda si jsou uvedené lokality podobné. Výsledné hodnoty podobností převeďte na vzdálenosti. • • • • • •Vyplňte počty případů, aby výskyt/nevýskyt živočicha odpovídal vstupní tabulce. • •Ssimple matching= (2+3)/(2+2+3+0)=0.7 → D=0.3 •SJaccard= 2/(2+2+0)=0.5 → D=0.5 •SSørensen=2*2/(2*2+2+0)=0.7 → D=0.3 • • Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová Výskyt/nevýskyt živočicha Lokalita žralok velryba had ještěrka velbloud varan tučňák Vysočina 0 0 1 1 0 0 0 Sahara 0 0 1 1 1 1 0 logo-IBA Příklad 4: Sørensenův asymetrický koeficient podobnosti pro data abundancí •Tabulka popisuje abundance živočichů na dvou lokalitách. •Úkol: Pomocí Sørensenova koeficientu vyhodnoťte, zda si jsou podobné uvedené lokality. • • • • • • Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová Výskyt/nevýskyt živočicha Lokalita žralok velryba had ještěrka velbloud varan tučňák aN bN jN Vysočina 0 0 2 3 0 0 0 5 Sahara 0 0 4 1 5 6 0 16 Minimum 0 0 2 1 0 0 0 3 logo-IBA Mix kategoriálních a kvantitativních dat Gowerův obecný koeficient podobnosti Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Gowerův obecný koeficient podobnosti •Kombinuje různé typy deskriptorů. •Podobnost mezi dvěma objekty je vypočítána jako průměr podobností, vypočítaných pro všechny deskriptory: • • • • üPro kategoriální deskriptory sj=1 (shoda) nebo 0 (neshoda). üKvantitativní deskriptory (reálná čísla): rozdíl mezi stavy obou objektů je vydělen největším rozdílem (Rj), nalezeným pro daný deskriptor mezi všemi objekty ve studii. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Asociační matice Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA 19.11.2017 •Asociační matice vzdáleností Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová —Typická asociační matice je čtvercová matice symetrická kolem diagonály —Diagonála obsahuje 0 (v případě vzdáleností) nebo 1 (v případě podobností) • logo-IBA Shluková analýza Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Shluková analýza – jaký je cíl? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Shluková analýza – jaký je cíl? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová •Seskupení objektů do shluků podle toho, jak si jsou podobné – chceme co nejpodobnější objekty v rámci shluků a co nejodlišnější mezi shluky. •Shluková analýza vychází z asociační matice vzdáleností objektů (Q mode) nebo závislosti parametrů (R mode). •Můžeme provést dvě hlavní chyby: špatný výběr metriky a špatný výběr algoritmu shlukování. •Smysluplnost výsledků shlukování závisí jednak na objektivní existenci shluků v datech, jednak na arbitrárně nastavených kritériích definice shluků. Jednoznačné odlišení existujících shluků v datech Shlukovou analýzu lze provést i na datech bez objektivní existence shluků logo-IBA Jak ověříme, že se v datech vyskytují shluky? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Jak ověříme, že se v datech vyskytují shluky? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová •Shluková analýza: typy metod logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová •Shluková analýza: typy metod 1. Krok 2. Krok X. Krok Atd. Atd. Kolik shluků chceme definovat? Například 4 Výpočet ukončen Minimum spanning tree Prim network Výpočet ukončen logo-IBA Shlukovací algoritmy hierarchického aglomerativního shlukování I 1) 2) 2) 2) 3) 3) 3) 4) 4) 4) 5) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Shlukovací algoritmy hierarchického aglomerativního shlukování I 1)Metoda nejbližšího souseda (nearest neighbour, simple linkage) – spojení dle nejmenší vzdálenosti mezi objekty shluků 2) 2)Průměrná vzdálenost (pair group average) – spojení dle průměrné vzdálenosti mezi objekty shluků 3) 3)Středospojná vzdálenost (pair group centroid) – spojení dle vzdálenosti centroidů shluků 4) 4)Metoda nejvzdálenějšího souseda (farthest neigbour, complete linkage) – spojení dle největší vzdálenosti mezi objekty shluků Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA •Shlukovací algoritmy hierarchického aglomerativního shlukování II: Wardova metoda •Principielně podobné ANOVA •Shluky jsou vytvářeny tak, aby nově vzniklý shluk přispíval co nejméně k sumě čtverců vzdáleností objektů od centroidů jejich shluků •V počátečním kroku je každý objekt sám sobě shlukem a tedy vzdálenost od centroidu shluku je 0 •Pro výpočet vzdáleností od centroidu je používán čtverec Euklidovské vzdálenosti •Nedoporučuje se používat při hodnocení binárních dat – pracuje se vzdálenostmi v Euklidovském prostoru Krok 1: každý objekt je sám sobě centroidem Krok 2: spojení objektů, které nejméně přispějí k sumě čtverců vzdáleností od centroidu Krok 3: spojení objektů, které nejméně přispějí k sumě čtverců vzdáleností od centroidu Krok 4: stejný postup až do spojení všech objektů Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA •Dendrogram Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová Výstupy shlukové analýzy musí být vždy popsány použitou metrikou vzdáleností a shlukovacím algoritmem Shlukované objekty, jejich pořadí je dáno přiřazením do shluků, není problém jejich pořadí v grafu měnit (např. v tomto konkrétním grafu prohodit A a B), pouze nesmí dojít ke změně shluků Vzdálenost, na které došlo ke shlukování Vzdálenost na níž došlo ke spojení shluku: • je v rozměrech použité metriky vzdáleností/podobností a v tomto kontextu ji lze kvantitativně interpretovat • interpretace vzdálenosti shlukování se liší podle použitého shlukovacího algoritmu • někdy se uvádí ve škále 0-100%, kde 100% je maximální vzdálenost shlukování Čím delší bude vodorovná čára – tím více si jsou shluky spojené v tomto kroku odlišné logo-IBA •Výběr vhodného algoritmu •Kofenetická matice •Matice dimenze n x n (n = počet objektů), popisující vzdálenost, kdy byl objekt poprvé zařazen do shluku. •Hodnoty kofenetické matice závisí na typu algoritmu shlukování. • • • • • • • • • • • • • • • •Kofenetický index •Korelace kofenetické matice s původní maticí vzdáleností. •Čím vyšší korelace, tím lepší algoritmus (-> více odpovídá realitě). Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová A B C D E A 0 4.0 12.7 12.7 12.7 B 0 12.7 12.7 12.7 C 0 5.7 5.7 D Matice je symetrická podél diagonály 0 1.4 E 0 Kofenetická matice Dendrogram Vzdálenost, kdy došlo k prvnímu spojení D+C logo-IBA •Určení optimálního počtu shluků I •Subjektivní rozhodování podle: 1)počtu objektů ve shluku, 2)vzdálenosti shluků, 3)na základě charakteru dat. 4) •Objektivní např. pomocí Silhouette indexu, kde a(i) je průměrná vzdálenost objektu ke všem ostatním objektům v daném shluku a b(i) je nejmenší průměrná vzdálenost objektu i k objektům ostatních shluků (odkazuje tedy na vzdálenost k sousednímu shluku). • • • • •Platí: -1 ≤ s(i) ≤ 1. •s(i) blízké -1 značí špatné zařazení do shluku, blízké 1 správné zařazení do shluku, hodnoty blízké 0 značí, že objekt leží na hranici dvou shluků. •Počítá se průměr s(i) v rámci shluků a do grafu vykreslujeme průměr s(i) pro všechny shluky. Počet shluků s nejvyšší hodnotou celkového s(i) odkazuje na nejlepší dělení souboru. • • • Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová b(i) a(i) Objekt i Nakonec ale stejně může vyhrát naše subjektivní rozhodnutí J logo-IBA •Určení optimálního počtu shluků II •Objektivní pomocí Mantelova testu. •Hodnotíme korelaci původní asociační matice vzdáleností a asociační matice vypočítanou pomocí Gowerova indexu, která obsahuje 1, pokud jsou spolu objekty ve shluku a 0 pokud nejsou. R si matici určující současný výskyt ve shluku převede na vzdálenosti – tedy 0 pokud jsou spolu objekty ve shluku a 1 pokud nejsou. • • • • • • • • • •Kladná korelace (nízká vzdálenost → objekty jsou spolu ve shluku) nám říká, že objekty sobě podobné leží spolu ve shluku. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová A B C D E A 0 5.0 6.2 11.8 11.7 B 5.0 0 3.5 11.0 9.3 C 6.2 3.5 0 4.0 4.8 D 11.8 11.0 4.0 0 2.4 E 11.7 9.3 4.8 2.4 0 A B C D E A 1 0 0 0 0 B 0 1 1 0 0 C 0 1 1 0 0 D 0 0 0 1 1 E 0 0 0 1 1 shluky A, B+C, D+E A B C D E A 0 1 1 1 1 B 1 0 0 1 1 C 1 0 0 1 1 D 1 1 1 0 0 E 1 1 1 0 0 matice vzdáleností asociační matice vs.