logo-IBA Vícerozměrné rozdělení dat Koeficienty podobnosti a vzdálenosti Asociační matice Bi8600: Vícerozměrné metody 2. cvičení Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Jak vizualizujeme vícerozměrný prostor? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Jak vizualizujeme vícerozměrný prostor I http://portal.matematickabiologie.cz/res/image/Vicerozmerne%20stat.%20metody/kap2/obr4overeni2Dnorm .png Maticové grafy 3D 2D Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Jak vizualizujeme vícerozměrný prostor II Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová Dendrogram Výsledek obrázku pro dendrogram Biplot korelací a vzdáleností http://www.sthda.com/english/sthda-upload/figures/principal-component-methods/006-principal-compone nt-analysis-color-individuals-and-variables-by-groups-1.png logo-IBA Jak vizualizujeme vícerozměrný prostor - jiné Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová Circos Heatmap http://www.sthda.com/english/sthda-upload/figures/cluster-analysis/012-heatmap-r-base-heatmap-1.png Výsledek obrázku pro circos myeloma translocations logo-IBA Jak popíšeme vícerozměrný prostor? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Popisné statistiky vícerozměrných dat Charakteristiky polohy středu •Udávají, kolem jaké hodnoty se data centrují. •Centroid = vektor průměrných hodnot, reprezentuje virtuální střed. •Medoid = reprezentuje reálný objekt. • • Charakteristiky variability •Zachycují rozptýlení hodnot v souboru. •Kovarianční matice. •Korelační matice. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová Související obrázek logo-IBA Jaký je vztah mezi kovariancí a korelací? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Jaký je vztah mezi kovariancí a korelací? •Kovariance popisuje vztah dvou proměnných; její rozsah závisí na variabilitě dat. • • • •Korelace = kovariance standardizovaná na rozptyl proměnných. • • • • •Jaké hodnoty se nachází na diagonále korelační a kovarianční matice? •Má smysl použít metody redukce dimenzionality dat v situaci, kdy jsou hodnoty kovariance/korelace blízké nule? •Čemu odpovídá kovariance na standardizovaných datech? • Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Chybějící data Určete celkovou velikost souboru, která bude vstupovat do analýzy: •A) Je průměrná hodnota systolického tlaku rovna 120 mmHg? •B) Lze pacienty klasifikovat do skupin na základě systolického tlaku, tepové frekvence a saturace krve kyslíkem? • • Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová ID Systolický tlak (mmHg) Tepová frekvence (/min) Saturace krve kyslíkem (%) Xx_001 110 68 92 Xx_002 135 71 95 Xx_003 170 66 83 Xx_004 110 92 92 Xx_005 130 98 Xx_006 145 90 93 Xx_007 160 68 logo-IBA Chybějící data - řešení 1)„Complete case analysis“ – do analýzy zahrnujeme pouze pacienty, kteří mají kompletně vyplněná data → můžeme přijít o velké množství dat a tedy i jejich reprezentativnost. 2)Imputace chybějících hodnot – pomocí statistických přístupů odhadneme chybějící data → vnášíme do dat chybu, ale zachováváme jejich reprezentativnost. Např. balíček „mice“ (Multivariate Imputation by Chained Equations) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová Výsledek obrázku pro r ID Systolický tlak (mmHg) Tepová frekvence (/min) Saturace krve kyslíkem (%) Xx_001 110 68 92 Xx_002 135 71 95 Xx_003 170 66 83 Xx_004 110 92 92 Xx_005 130 80 98 Xx_006 145 90 93 Xx_007 160 68 95 „Complete case analysis“ Imputace chybějících hodnot logo-IBA Co je to asociační matice? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová •Jaké dimenze nabývá asociační matice? •Co se nachází na diagonále asociační matice? •Je matice symetrická kolem diagonály? • • • logo-IBA NxP datová tabulka Výpočet metriky vzdálenosti Asociační matice – Q mode analýza Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová p1 p2 p3 n1 n2 n3 n4 n5 n1 n2 n3 n4 n5 n1 0 n2 0 n3 0 n4 0 n5 0 NxN asociační matice Výpočet metriky podobnosti p1 p2 p3 n1 n2 n3 n4 n5 n1 n2 n3 n4 n5 n1 1 n2 1 n3 1 n4 1 n5 1 Hodnota subjektu n5 v parametru p1 Hodnota subjektu n5 v parametru p1 Vzdálenost subjektu n5 od subjektu n1. Podobnost subjektu n5 se subjektem n1. logo-IBA NxP datová tabulka Výpočet korelační/ kovarianční matice Asociační matice – R mode analýza Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová p1 p2 p3 n1 n2 n3 n4 n5 p1 p2 p3 p1 1 p2 1 p3 1 PxP asociační matice Hodnota subjektu n5 v parametru p1 Vztah parametru p3 a parametru p1. Obecně: •Základní výběr koeficientu je často spjat s metodou/algoritmem. •Dále je potřeba zohlednit typ vstupních dat: spojitá/kategoriální/mix. •Výběrem metriky ovlivníme výsledky analýz. • logo-IBA Kvantitativní data Koeficienty vzdálenosti Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Koeficienty vzdálenosti Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová Výsledek obrázku pro káně kreslený x y Podrobný přehled koeficientů vzdáleností a podobností najdete v knize LEGENDRE, P. & LEGENDRE, L. (1998). Numerical ecology. Elseviere Science BV, Amsterodam. z logo-IBA Euklidova vzdálenost I —Euklidova vzdálenost vychází z Pythagorovy věty: — — — — — — — — — — — — — —Jaká by byla vzdálenost bodů A a B dle Manhattanské metriky? 1 4 2 6 A B X Y d(A,B)=5 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Euklidova vzdálenost II Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová plat počet cigaret/den n1 15 000 10 n2 25 000 15 n3 20 000 20 n4 13 000 25 n5 18 000 10 —Proměnné s číselně většími hodnotami budou mít větší váhu při shlukování!!! —Např. pokud budeme hodnotit výšku (150–200 cm) a cholesterol (do 5 mmol/l), výška bude mít větší váhu při shlukování – objekty budou rozděleny do shluků podle jejich výšky. — Data s nesrovnatelnými hodnotami proměnných je potřeba před analýzou standardizovat. Jak? — Standardizace na z-skóre. — Normalizace na rozsah 0–1. POZOR! logo-IBA Euklidova vzdálenost - příklad Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová —Pomocí MS Excel spočítejte Euklidovu vzdálenost subjektu n2 a n3 pro následující dva datové zdroje. BMI váha výška cholesterol n2 24.9 72 170 5,1 n3 25.8 98 195 5,2 BMI váha výška cholesterol n2 24.9 72 170 5,1 n3 25.8 98 195 2,9 D(n2,n3) = ? D(n2,n3) = ? logo-IBA Euklidova vzdálenost - příklad Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová —Pomocí MS Excel spočítejte Euklidovu vzdálenost subjektu n2 a n3 pro následující dva datové zdroje. BMI váha výška cholesterol n2 24.9 72 170 5,1 n3 25.8 98 195 5,2 BMI váha výška cholesterol n2 24.9 72 170 5,1 n3 25.8 98 195 2,9 D(n2,n3) = 36,08 D(n2,n3) = 36,15 Proč je vzdálenost téměř shodná, když se v druhém datovém souboru subjekty významně liší v hladině cholesterolu? logo-IBA Euklidova vzdálenost III Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová BMI váha výška n1 35.6 80 150 n2 24.9 72 170 n3 25.8 98 195 n4 22.2 54 156 n5 19.3 55 169 —U větších datových souborů, u kterých se často vyskytují korelované proměnné, dochází k nadhodnocení výsledků těmito korelovanými proměnnými = stejná informace je započtena více než jednou. — —Je potřeba zohlednit vztahy parametrů v datech → Mahalanobisova vzdálenost. POZOR! logo-IBA Mahalanobisova vzdálenost —Odstraňuje vliv korelovaných parametrů. —Dle volby lze hodnotit: 1)vzdálenosti objektů od centroidů (vstupem je matice rozdílů původních hodnot od průměru). 2)vzdálenosti skupin objektů (vstupem je matice rozdílů průměrných hodnot). 3)párové vzdálenosti jednotlivých subjektů (vstupem je matice rozdílů srovnávaných subjektů). Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová Matice vzdáleností hodnot od průměru Inverze kovarianční matice logo-IBA Binární data Koeficienty podobnosti Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Koeficienty podobnosti —Pokud proměnné popisují výskyt/nevýskyt = jsou tedy binárního typu, lze podobnost/odlišnost subjektů hodnotit dle tabulky níže: Co je to problém „double zero“? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová 1 0 1 a b a + b 0 c d c + d a + c b + d p = a + b + c + d To, že někde něco není, často není symbolem podobnosti logo-IBA Koeficienty podobnosti příklad I —Úkol: Na základě datové matice doplňte tabulku. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová 1 0 1 a = b = a + b = 0 c = d = c + d = a + c = b + d = p = a + b + c + d = x1 x2 x3 x4 x5 x6 x7 n1 1 1 0 0 0 0 1 n2 1 0 1 1 1 0 0 n1 n2 logo-IBA Koeficienty podobnosti příklad I —Úkol: Na základě datové matice doplňte tabulku. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová 1 0 1 a = 1 b = 3 a + b = 4 0 c = 2 d = 1 c + d = 3 a + c = 3 b + d = 4 p = a + b +c +d = 7 n1 n2 Jaké znáte koeficienty podobnosti? x1 x2 x3 x4 x5 x6 x7 n1 1 1 0 0 0 0 1 n2 1 0 1 1 1 0 0 logo-IBA Koeficienty podobnosti příklad II —Úkol: 1)Přiřaďte uvedené vzorce ke koeficientům podobnosti: „simple matching“, Jaccardův a Sørensenův koeficient podobnosti. 2)Na základě získané tabulky spočítejte uvedené koeficienty. 3)Podobnosti převeďte na vzdálenosti. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová •Ssimple matching = → D = •SJaccard = → D = •SSørensen = → D = 1. 2. 3. 1 0 1 a = 1 b = 3 a + b = 4 0 c = 2 d = 1 c + d = 3 a + c = 3 b + d = 4 p = a + b +c +d = 7 n1 n2 logo-IBA Koeficienty podobnosti příklad II —Úkol: 1)Přiřaďte uvedené vzorce ke koeficientům podobnosti: „simple matching“, Jaccardův a Sørensenův koeficient podobnosti. 2)Na základě získané tabulky spočítejte uvedené koeficienty. 3)Podobnosti převeďte na vzdálenosti. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová •Ssimple matching= (1+1)/(1+2+3+1) = 0.3 → D = 0.7 •SJaccard= 1/(1+2+3) = 0.2 → D = 0.8 •SSørensen= 2*1/(2*1+2+3) = 0.3 → D = 0.8 1. 2. 3. 1 0 1 a = 1 b = 3 a + b = 4 0 c = 2 d = 1 c + d = 3 a + c = 3 b + d = 4 p = a + b +c +d = 7 n1 n2 logo-IBA Sørensenův asymetrický koeficient podobnosti pro kvantitavní data •Tabulka popisuje abundance živočichů na dvou lokalitách. •Úkol: Pomocí Sørensenova koeficientu vyhodnoťte, zda si jsou uvedené lokality podobné. • • • • • • Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová Výskyt/nevýskyt živočicha Lokalita žralok velryba had ještěrka velbloud varan tučňák aN bN jN Vysočina 0 0 2 3 0 0 0 5 Sahara 0 0 4 1 5 6 0 16 Minimum 0 0 2 1 0 0 0 3 logo-IBA Mix kategoriálních a kvantitativních dat Gowerův obecný koeficient podobnosti Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Gowerův obecný koeficient podobnosti •Kombinuje různé typy deskriptorů. •Podobnost mezi dvěma objekty je vypočítána jako průměr podobností, vypočítaných pro všechny deskriptory: • • • • üPro kategoriální deskriptory s = 1 (shoda) nebo 0 (neshoda). üKvantitativní deskriptory (reálná čísla): rozdíl mezi stavy obou objektů je vydělen největším rozdílem (Rj), nalezeným pro daný deskriptor mezi všemi objekty ve studii. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Asociační matice Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Asociační matice euklidovských vzdáleností mezi rostlinami 21.10.2019 Asociační matice vzdáleností Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Histogram jako popis asociační matice Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Základní funkce v R pro výpočet asociační matice Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Funkce v R pro výpočet asociační matice Výpočet Mantelova testu (testuje korelaci dvou asociačních matic – např. průběh onemocnění vs. genetická výbava pacientů, charakteristiky lokalit vs. abundance druhů na lokalitách): mantel{vegan} Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová dist(data, method='euclidean')= Euklidova vzdálenost vegdist(data, "jac", binary=F) = Sørensenův asymetrický koeficient vegdist(data, "jac", binary=T)= Jaccardův koeficient {vegan} Koeficienty podobnosti dist.binary(data, method = 2) = „simple matching“ koeficient {ade4} mahalanobis(X, X.mean, X.cov)= Mahalanobisova vzdálenost pairwise.mahalanobis (X,grouping)= Mahalanobisova vzdálenost mezi skupinami {HDMD} Koeficienty vzdálenosti Podobnosti jsou pomocí funkce 1-podobnost automaticky převáděny na vzdálenosti!!!