logo-IBA Vícerozměrné rozdělení dat Koeficienty podobnosti a vzdálenosti Asociační matice Shluková analýza Bi8600: Vícerozměrné metody 2. cvičení Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Kendallovo tau -tk •Neparametrický přístup vyhodnocení asociace mezi dvěma spojitými/ordinálními parametry • • • Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová https://is.muni.cz/el/1423/jaro2005/PSY117/um/t10/507763/ •tk = (P-Q)/[n*(n-1)/2] logo-IBA ANOVA •Počet faktorů: jednoduché x dvojné x trojné, ... Třídění (podle počtu kategoriálních proměnných, jejichž vliv zkoumáme – one-way, two-way); možná interakce mezi faktory • •Počet proměnných: jednorozměrná x vícerozměrná analýza rozptylu (dle počtu spojitých parametrů, jejichž hodnoty v rámci skupin srovnáváme) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Jak vizualizujeme vícerozměrný prostor? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Jak vizualizujeme vícerozměrný prostor I http://portal.matematickabiologie.cz/res/image/Vicerozmerne%20stat.%20metody/kap2/obr4overeni2Dnorm .png Maticové grafy 3D 2D Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Jak vizualizujeme vícerozměrný prostor II Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová Dendrogram Výsledek obrázku pro dendrogram Biplot korelací a vzdáleností http://www.sthda.com/english/sthda-upload/figures/principal-component-methods/006-principal-compone nt-analysis-color-individuals-and-variables-by-groups-1.png logo-IBA Jak vizualizujeme vícerozměrný prostor - jiné Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová Circos Heatmap http://www.sthda.com/english/sthda-upload/figures/cluster-analysis/012-heatmap-r-base-heatmap-1.png Výsledek obrázku pro circos myeloma translocations logo-IBA Jak popíšeme vícerozměrný prostor? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Popisné statistiky vícerozměrných dat Charakteristiky polohy středu •Udávají, kolem jaké hodnoty se data centrují. •Centroid = vektor průměrných hodnot, reprezentuje virtuální střed. •Medoid = reprezentuje reálný objekt. • • Charakteristiky variability •Zachycují rozptýlení hodnot v souboru. •Kovarianční matice. •Korelační matice. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová Související obrázek logo-IBA Jaký je vztah mezi kovariancí a korelací? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Jaký je vztah mezi kovariancí a korelací? •Kovariance popisuje vztah dvou proměnných; její rozsah závisí na variabilitě dat. • • • •Korelace = kovariance standardizovaná na rozptyl proměnných. • • • • •Jaké hodnoty se nachází na diagonále korelační a kovarianční matice? •Má smysl použít metody redukce dimenzionality dat v situaci, kdy jsou hodnoty kovariance/korelace blízké nule? •Čemu odpovídá kovariance na standardizovaných datech? • Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Chybějící data Určete celkovou velikost souboru, která bude vstupovat do analýzy: •A) Je průměrná hodnota systolického tlaku rovna 120 mmHg? •B) Lze pacienty klasifikovat do skupin na základě systolického tlaku, tepové frekvence a saturace krve kyslíkem? • • Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová ID Systolický tlak (mmHg) Tepová frekvence (/min) Saturace krve kyslíkem (%) Xx_001 110 68 92 Xx_002 135 71 95 Xx_003 170 66 83 Xx_004 110 92 92 Xx_005 130 98 Xx_006 145 90 93 Xx_007 160 68 logo-IBA Chybějící data - řešení 1)„Complete case analysis“ – do analýzy zahrnujeme pouze pacienty, kteří mají kompletně vyplněná data → můžeme přijít o velké množství dat a tedy i jejich reprezentativnost. 2)Imputace chybějících hodnot – pomocí statistických přístupů odhadneme chybějící data → vnášíme do dat chybu, ale zachováváme jejich reprezentativnost. Např. balíček „mice“ (Multivariate Imputation by Chained Equations) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová Výsledek obrázku pro r ID Systolický tlak (mmHg) Tepová frekvence (/min) Saturace krve kyslíkem (%) Xx_001 110 68 92 Xx_002 135 71 95 Xx_003 170 66 83 Xx_004 110 92 92 Xx_005 130 80 98 Xx_006 145 90 93 Xx_007 160 68 95 „Complete case analysis“ Imputace chybějících hodnot logo-IBA Co je to asociační matice? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová •Jaké dimenze nabývá asociační matice? •Co se nachází na diagonále asociační matice? •Je matice symetrická kolem diagonály? • • • logo-IBA NxP datová tabulka Výpočet metriky vzdálenosti Asociační matice – Q mode analýza Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová p1 p2 p3 n1 n2 n3 n4 n5 n1 n2 n3 n4 n5 n1 0 n2 0 n3 0 n4 0 n5 0 NxN asociační matice Výpočet metriky podobnosti p1 p2 p3 n1 n2 n3 n4 n5 n1 n2 n3 n4 n5 n1 1 n2 1 n3 1 n4 1 n5 1 Hodnota subjektu n5 v parametru p1 Hodnota subjektu n5 v parametru p1 Vzdálenost subjektu n5 od subjektu n1. Podobnost subjektu n5 se subjektem n1. logo-IBA NxP datová tabulka Výpočet korelační/ kovarianční matice Asociační matice – R mode analýza Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová p1 p2 p3 n1 n2 n3 n4 n5 p1 p2 p3 p1 1 p2 1 p3 1 PxP asociační matice Hodnota subjektu n5 v parametru p1 Vztah parametru p3 a parametru p1. Obecně: •Základní výběr koeficientu je často spjat s metodou/algoritmem. •Dále je potřeba zohlednit typ vstupních dat: spojitá/kategoriální/mix. •Výběrem metriky ovlivníme výsledky analýz. • logo-IBA Kvantitativní data Koeficienty vzdálenosti Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Koeficienty vzdálenosti Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová Výsledek obrázku pro káně kreslený x y Podrobný přehled koeficientů vzdáleností a podobností najdete v knize LEGENDRE, P. & LEGENDRE, L. (1998). Numerical ecology. Elseviere Science BV, Amsterodam. z logo-IBA Euklidova vzdálenost I —Euklidova vzdálenost vychází z Pythagorovy věty: — — — — — — — — — — — — — —Jaká by byla vzdálenost bodů A a B dle Manhattanské metriky? 1 4 2 6 A B X Y d(A,B)=5 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Euklidova vzdálenost II Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová plat počet cigaret/den n1 15 000 10 n2 25 000 15 n3 20 000 20 n4 13 000 25 n5 18 000 10 —Proměnné s číselně většími hodnotami budou mít větší váhu při shlukování!!! —Např. pokud budeme hodnotit výšku (150–200 cm) a cholesterol (do 5 mmol/l), výška bude mít větší váhu při shlukování – objekty budou rozděleny do shluků podle jejich výšky. — Data s nesrovnatelnými hodnotami proměnných je potřeba před analýzou standardizovat. Jak? — Např. standardizace na z-skóre. — Jak byste popsali rozložení z-skóre? POZOR! Výsledek obrázku pro z-score, range standardization logo-IBA Euklidova vzdálenost - příklad Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová —Pomocí MS Excel spočítejte Euklidovu vzdálenost subjektu n2 a n3 pro následující dva datové zdroje. BMI váha výška cholesterol n2 24.9 72 170 5,1 n3 25.8 98 195 5,2 BMI váha výška cholesterol n2 24.9 72 170 5,1 n3 25.8 98 195 2,9 D(n2,n3) = ? D(n2,n3) = ? logo-IBA Euklidova vzdálenost - příklad Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová —Pomocí MS Excel spočítejte Euklidovu vzdálenost subjektu n2 a n3 pro následující dva datové zdroje. BMI váha výška cholesterol n2 24.9 72 170 5,1 n3 25.8 98 195 5,2 BMI váha výška cholesterol n2 24.9 72 170 5,1 n3 25.8 98 195 2,9 D(n2,n3) = 36,08 D(n2,n3) = 36,15 Proč je vzdálenost téměř shodná, když se v druhém datovém souboru subjekty významně liší v hladině cholesterolu? logo-IBA Euklidova vzdálenost III Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová BMI váha výška n1 35.6 80 150 n2 24.9 72 170 n3 25.8 98 195 n4 22.2 54 156 n5 19.3 55 169 —U větších datových souborů, u kterých se často vyskytují korelované proměnné, dochází k nadhodnocení výsledků těmito korelovanými proměnnými = stejná informace je započtena více než jednou. — —Je potřeba zohlednit vztahy parametrů v datech → Mahalanobisova vzdálenost. POZOR! logo-IBA Mahalanobisova vzdálenost —Odstraňuje vliv korelovaných parametrů. —Dle volby lze hodnotit: 1)vzdálenosti objektů od centroidů (vstupem je matice rozdílů původních hodnot od průměru). 2)vzdálenosti skupin objektů (vstupem je matice rozdílů průměrných hodnot). 3)párové vzdálenosti jednotlivých subjektů (vstupem je matice rozdílů srovnávaných subjektů). Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová Matice vzdáleností hodnot od průměru Inverze kovarianční matice logo-IBA Binární data Koeficienty podobnosti Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Koeficienty podobnosti —Pokud proměnné popisují výskyt/nevýskyt = jsou tedy binárního typu, lze podobnost/odlišnost subjektů hodnotit dle tabulky níže: Co je to problém „double zero“? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová 1 0 1 a b a + b 0 c d c + d a + c b + d p = a + b + c + d logo-IBA Koeficienty podobnosti příklad I —Úkol: Na základě datové matice doplňte tabulku. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová 1 0 1 a = b = a + b = 0 c = d = c + d = a + c = b + d = p = a + b + c + d = x1 x2 x3 x4 x5 x6 x7 n1 1 1 0 0 0 0 1 n2 1 0 1 1 1 0 0 n1 n2 logo-IBA Koeficienty podobnosti příklad I —Úkol: Na základě datové matice doplňte tabulku. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová 1 0 1 a = 1 b = 3 a + b = 4 0 c = 2 d = 1 c + d = 3 a + c = 3 b + d = 4 p = a + b +c +d = 7 n1 n2 Já znáte koeficienty podobnosti? x1 x2 x3 x4 x5 x6 x7 n1 1 1 0 0 0 0 1 n2 1 0 1 1 1 0 0 logo-IBA Koeficienty podobnosti příklad II —Úkol: 1)Přiřaďte uvedené vzorce ke koeficientům podobnosti: „simple matching“, Jaccardův a Sørensenův koeficient podobnosti. 2)Na základě získané tabulky spočítejte uvedené koeficienty. 3)Podobnosti převeďte na vzdálenosti. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová •Ssimple matching = → D = •SJaccard = → D = •SSørensen = → D = 1. 2. 3. 1 0 1 a = 1 b = 3 a + b = 4 0 c = 2 d = 1 c + d = 3 a + c = 3 b + d = 4 p = a + b +c +d = 7 n1 n2 logo-IBA Koeficienty podobnosti příklad II —Úkol: 1)Přiřaďte uvedené vzorce ke koeficientům podobnosti: „simple matching“, Jaccardův a Sørensenův koeficient podobnosti. 2)Na základě získané tabulky spočítejte uvedené koeficienty. 3)Podobnosti převeďte na vzdálenosti. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová •Ssimple matching= (1+1)/(1+2+3+1) = 0.3 → D = 0.7 •SJaccard= 1/(1+2+3) = 0.2 → D = 0.8 •SSørensen= 2*1/(2*1+2+3) = 0.3 → D = 0.8 1. 2. 3. 1 0 1 a = 1 b = 3 a + b = 4 0 c = 2 d = 1 c + d = 3 a + c = 3 b + d = 4 p = a + b +c +d = 7 n1 n2 logo-IBA Sørensenův asymetrický koeficient podobnosti pro kvantitavní data •Tabulka popisuje abundance živočichů na dvou lokalitách. •Úkol: Pomocí Sørensenova koeficientu vyhodnoťte, zda jsi uvedené lokality podobné. • • • • • • Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová Výskyt/nevýskyt živočicha Lokalita žralok velryba had ještěrka velbloud varan tučňák aN bN jN Vysočina 0 0 2 3 0 0 0 5 Sahara 0 0 4 1 5 6 0 16 Minimum 0 0 2 1 0 0 0 3 logo-IBA Mix kategoriálních a kvantitativních dat Gowerův obecný koeficient podobnosti Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Gowerův obecný koeficient podobnosti •Kombinuje různé typy deskriptorů. •Podobnost mezi dvěma objekty je vypočítána jako průměr podobností, vypočítaných pro všechny deskriptory: • • • • üPro kategoriální deskriptory s = 1 (shoda) nebo 0 (neshoda). üKvantitativní deskriptory (reálná čísla): rozdíl mezi stavy obou objektů je vydělen největším rozdílem (Rj), nalezeným pro daný deskriptor mezi všemi objekty ve studii. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Asociační matice Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Asociační matice euklidovských vzdáleností mezi rostlinami 5.11.2018 •Asociační matice vzdáleností Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Histogram jako popis asociační matice Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Základní funkce v R pro výpočet asociační matice Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Funkce v R pro výpočet asociační matice Výpočet Mantelova testu (testuje korelaci dvou asociačních matic – např. průběh onemocnění vs. genetická výbava pacientů, charakteristiky lokalit vs. abundance druhů na lokalitách): mantel{vegan} Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová dist(data, method='euclidean')= Euklidova vzdálenost vegdist(data, "jac", binary=F) = Sørensenův asymetrický koeficient vegdist(data, "jac", binary=T)= Jaccardův koeficient {vegan} Koeficienty podobnosti dist.binary(data, method = 2) = „simple matching“ koeficient {ade4} mahalanobis(X, X.mean, X.cov)= Mahalanobisova vzdálenost pairwise.mahalanobis (X,grouping)= Mahalanobisova vzdálenost mezi skupinami {HDMD} Koeficienty vzdálenosti Podobnosti jsou pomocí funkce 1-podobnost automaticky převáděny na vzdálenosti!!! logo-IBA Shluková analýza Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Shluková analýza – jaký je cíl? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Shluková analýza – jaký je cíl? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová •Seskupení objektů do shluků podle toho, jak si jsou podobné – chceme co nejpodobnější objekty v rámci shluků a co nejodlišnější mezi shluky. •Shluková analýza vychází z asociační matice vzdáleností objektů (Q mode) nebo závislosti parametrů (R mode). •Můžeme provést dvě hlavní chyby: špatný výběr metriky a špatný výběr algoritmu shlukování. •Smysluplnost výsledků shlukování závisí jednak na objektivní existenci shluků v datech, jednak na arbitrárně nastavených kritériích definice shluků. Jednoznačné odlišení existujících shluků v datech Shlukovou analýzu lze provést i na datech bez objektivní existence shluků logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová •Shluková analýza: typy metod logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová •Shluková analýza: typy metod logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová •Shluková analýza: typy metod 1. Krok 2. Krok X. Krok Atd. Atd. Kolik shluků chceme definovat? Například 4 Výpočet ukončen Minimum spanning tree, Prim network Výpočet ukončen logo-IBA Pojmenujte shlukovací algoritmus I Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová http://portal.matematickabiologie.cz/ 1. krok 2. krok logo-IBA Hierarchické aglomerativní algoritmy Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová G J K I H A B C D E F G J K I H F E D C B A 0 max logo-IBA Pojmenujte shlukovací algoritmus II Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová •1) •2) •3) •4) •5) centroid logo-IBA Pojmenujte shlukovací algoritmus II Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová •1) Metoda nejbližšího souseda („single linkage“) •- spojení na základě nejmenší minimální vzdálenosti dvou objektů •2) Metoda středospojná/centroidní („centroids“) •- spojení na základě minimální vzdálenosti centroidů (= průměrů) shluků •3) Metoda průměrné vzdálenosti („average linkage“) •- spojení na základě minimální průměrné vzdálenosti všech párů objektů dvou shluků •4) Metoda nejvzdálenějšího souseda („complete linkage“) •- spojení na základě nejmenší maximální vzdálenosti dvou objektů •5) Wardova metoda („Ward’s method“) •- shluky jsou vytvářeny tak, aby nově vzniklý shluk přispíval co nejméně k sumě čtverců vzdáleností objektů od centroidů jejich shluků •- vstupem je čtverec Euklidovy vzdálenosti - centroid logo-IBA Shluková analýza – rozhodovací proces Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová 1)Výpočet asociační matice (pozor na správný výběr metriky vzdálenosti / podobnosti). 2)Výběr shlukovacího algoritmu. 3)Volba počtu shluků. 4) 4) G J K I H A B C D E F G J K I H F E D C B A 0 max logo-IBA •Výběr vhodného algoritmu •Kofenetická matice •Matice dimenze n x n (n = počet objektů) popisující vzdálenost, kdy byly objekty poprvé spojeny do jednoho shluku. •Hodnoty kofenetické matice závisí na typu algoritmu shlukování. • • • • • • • • • • •Kofenetický index •Korelace kofenetické matice s původní maticí vzdáleností. Čím vyšší korelace, tím lepší algoritmus (algoritmus lépe popisuje realitu). Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová A B C D E A 0 4.0 12.7 12.7 12.7 B 0 12.7 12.7 12.7 C 0 5.7 5.7 D Matice je symetrická podél diagonály 0 1.4 E 0 Kofenetická matice Dendrogram Vzdálenost, kdy došlo k prvnímu spojení D+C logo-IBA •Určení optimálního počtu shluků I •Subjektivní rozhodování podle: 1)počtu objektů ve shluku, 2)vzdálenosti shluků, 3)na základě charakteru dat. 4) •Objektivní např. pomocí Silhouette indexu, kde a(i) je průměrná vzdálenost objektu ke všem ostatním objektům v daném shluku a b(i) je nejmenší průměrná vzdálenost objektu i k objektům ostatních shluků (odkazuje tedy na vzdálenost k sousednímu shluku). • • • • •Platí: -1 ≤ s(i) ≤ 1. •s(i) blízké -1 značí špatné zařazení do shluku, blízké 1 správné zařazení do shluku, hodnoty blízké 0 značí, že objekt leží na hranici dvou shluků. •Počítá se průměr s(i) v rámci shluků a do grafu vykreslujeme průměr s(i) pro všechny shluky. Počet shluků s nejvyšší hodnotou celkového s(i) odkazuje na nejlepší dělení souboru. • • • Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová Nakonec ale stejně může vyhrát naše subjektivní rozhodnutí J a(i) b(i) logo-IBA •Určení optimálního počtu shluků II •Objektivní pomocí Mantelova testu. •Hodnotíme korelaci původní asociační matice vzdáleností a asociační matice (vypočítanou pomocí Gowerova indexu), která obsahuje 1, pokud jsou spolu objekty ve shluku a 0 pokud nejsou. R si matici určující současný výskyt ve shluku převede na vzdálenosti – tedy 0 pokud jsou spolu objekty ve shluku a 1 pokud nejsou. • • • • • • • • • •Kladná korelace (nízká vzdálenost → objekty jsou spolu ve shluku) nám říká, že objekty sobě podobné leží spolu ve shluku. •Počet shluků s nejvyšší hodnotou korelace odkazuje na nejlepší dělení souboru. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová A B C D E A 0 5.0 6.2 11.8 11.7 B 5.0 0 3.5 11.0 9.3 C 6.2 3.5 0 4.0 4.8 D 11.8 11.0 4.0 0 2.4 E 11.7 9.3 4.8 2.4 0 A B C D E A 1 0 0 0 0 B 0 1 1 0 0 C 0 1 1 0 0 D 0 0 0 1 1 E 0 0 0 1 1 shluky A, B+C, D+E A B C D E A 0 1 1 1 1 B 1 0 0 1 1 C 1 0 0 1 1 D 1 1 1 0 0 E 1 1 1 0 0 matice vzdáleností asociační matice vs. logo-IBA Úkol č. 1 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová A B C D E A 0 B 9 0 C 3 7 0 D 6 5 9 0 E 11 10 2 8 0 §Na základě asociační matice sestrojte dendrogram pomocí algoritmu nejvzdálenějšího souseda. 1)Jaká je minimální vzdálenost dvou objektů? 2)Vykreslete spojení objektů v dendrogramu a přepočítejte asociační matici. Matice je symetrická podél diagonály 0 ? logo-IBA Úkol č. 1 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová §Na základě asociační matice sestrojte dendrogram pomocí algoritmu nejvzdálenějšího souseda: 1)Jaká je minimální vzdálenost dvou objektů? 2)Vykreslete spojení objektů v dendrogramu a přepočítejte asociační matici. A B D C+E A 0 B 9 0 D 6 5 0 C+E 11 10 9 0 C E 0 11 5 6 7 8 10 9 4 3 2 1 1. krok 2. krok logo-IBA Úkol č. 1 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová §Na základě asociační matice sestrojte dendrogram pomocí algoritmu nejvzdálenějšího souseda 1)Jaká je minimální vzdálenost dvou objektů? 2)Vykreslete spojení objektů v dendrogramu a přepočítejte asociační matici. A B+D C+E A 0 B+D 9 0 C+E 11 10 0 C E 0 11 5 6 7 8 10 9 4 3 2 1 B D 2. krok 3. krok logo-IBA Úkol č. 1 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová §Na základě asociační matice sestrojte dendrogram pomocí algoritmu nejvzdálenějšího souseda 1)Jaká je minimální vzdálenost dvou objektů? 2)Vykreslete spojení objektů v dendrogramu a přepočítejte asociační matici. A+B+D C+E A+B+D 0 C+E 11 0 C E 0 11 5 6 7 8 10 9 4 3 2 1 B D A 3. krok 4. krok logo-IBA Úkol č. 1 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová §Na základě asociační matice sestrojte dendrogram pomocí algoritmu nejvzdálenějšího souseda 1)Jaká je minimální vzdálenost dvou objektů? 2)Vykreslete spojení objektů v dendrogramu a přepočítejte asociační matici. C E 0 11 5 6 7 8 10 9 4 3 2 1 B D A Všechny objekty jsou spojeny do jednoho shluku → již není co spojovat. 4. krok logo-IBA Funkce v R – shluková analýza Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová cluster<-hclust(dist(data), method='single')= provede shlukovou analýzu plot(cluster)= vykreslí dendrogram cutree(cluster,k=3)= klasifikuje objekty do 3 skupin podle vzdáleností v dendrogramu cutree(cluster,h=3)= klasifikuje objekty do skupin na vzdálenosti 3 v dendrogramu