logo-IBA Vícerozměrné rozdělení dat Koeficienty podobnosti a vzdálenosti Asociační matice Pokročilé statistické metody 3. cvičení logo-IBA Jak vizualizujeme vícerozměrný prostor? logo-IBA Jak vizualizujeme vícerozměrný prostor I http://portal.matematickabiologie.cz/res/image/Vicerozmerne%20stat.%20metody/kap2/obr4overeni2Dnorm .png Maticové grafy 3D 2D logo-IBA Jak vizualizujeme vícerozměrný prostor II Dendrogram Výsledek obrázku pro dendrogram Biplot korelací a vzdáleností http://www.sthda.com/english/sthda-upload/figures/principal-component-methods/006-principal-compone nt-analysis-color-individuals-and-variables-by-groups-1.png logo-IBA Jak vizualizujeme vícerozměrný prostor - jiné Circos Heatmap http://www.sthda.com/english/sthda-upload/figures/cluster-analysis/012-heatmap-r-base-heatmap-1.png Výsledek obrázku pro circos myeloma translocations logo-IBA Jak popíšeme vícerozměrný prostor? logo-IBA Popisné statistiky vícerozměrných dat Charakteristiky polohy středu •Udávají, kolem jaké hodnoty se data centrují. •Centroid = vektor průměrných hodnot, reprezentuje virtuální střed. •Medoid = reprezentuje reálný objekt. • • Charakteristiky variability •Zachycují rozptýlení hodnot v souboru. •Kovarianční matice. •Korelační matice. Související obrázek logo-IBA Jaký je vztah mezi kovariancí a korelací? logo-IBA Jaký je vztah mezi kovariancí a korelací? •Kovariance popisuje vztah dvou proměnných; její rozsah závisí na variabilitě dat. • • • •Korelace = kovariance standardizovaná na rozptyl proměnných. • • • • •Jaké hodnoty se nachází na diagonále korelační a kovarianční matice? •Má smysl použít metody redukce dimenzionality dat v situaci, kdy jsou hodnoty kovariance/korelace blízké nule? •Čemu odpovídá kovariance na standardizovaných datech? • logo-IBA Chybějící data Určete celkovou velikost souboru, která bude vstupovat do analýzy: •A) Je průměrná hodnota systolického tlaku rovna 120 mmHg? •B) Lze pacienty klasifikovat do skupin na základě systolického tlaku, tepové frekvence a saturace krve kyslíkem? • • ID Systolický tlak (mmHg) Tepová frekvence (/min) Saturace krve kyslíkem (%) Xx_001 110 68 92 Xx_002 135 71 95 Xx_003 170 66 83 Xx_004 110 92 92 Xx_005 130 98 Xx_006 145 90 93 Xx_007 160 68 logo-IBA Chybějící data - řešení 1)„Complete case analysis“ – do analýzy zahrnujeme pouze pacienty, kteří mají kompletně vyplněná data → můžeme přijít o velké množství dat a tedy i jejich reprezentativnost. 2)Imputace chybějících hodnot – pomocí statistických přístupů odhadneme chybějící data → vnášíme do dat chybu, ale zachováváme jejich reprezentativnost. Např. balíček „mice“ (Multivariate Imputation by Chained Equations) Výsledek obrázku pro r ID Systolický tlak (mmHg) Tepová frekvence (/min) Saturace krve kyslíkem (%) Xx_001 110 68 92 Xx_002 135 71 95 Xx_003 170 66 83 Xx_004 110 92 92 Xx_005 130 80 98 Xx_006 145 90 93 Xx_007 160 68 95 „Complete case analysis“ Imputace chybějících hodnot logo-IBA Co je to asociační matice? •Jaké dimenze nabývá asociační matice? •Co se nachází na diagonále asociační matice? •Je matice symetrická kolem diagonály? • • • logo-IBA NxP datová tabulka Výpočet metriky vzdálenosti Asociační matice – Q mode analýza p1 p2 p3 n1 n2 n3 n4 n5 n1 n2 n3 n4 n5 n1 0 n2 0 n3 0 n4 0 n5 0 NxN asociační matice Výpočet metriky podobnosti p1 p2 p3 n1 n2 n3 n4 n5 n1 n2 n3 n4 n5 n1 1 n2 1 n3 1 n4 1 n5 1 Hodnota subjektu n5 v parametru p1 Hodnota subjektu n5 v parametru p1 Vzdálenost subjektu n5 od subjektu n1. Podobnost subjektu n5 se subjektem n1. logo-IBA NxP datová tabulka Výpočet korelační/ kovarianční matice Asociační matice – R mode analýza p1 p2 p3 n1 n2 n3 n4 n5 p1 p2 p3 p1 1 p2 1 p3 1 PxP asociační matice Hodnota subjektu n5 v parametru p1 Vztah parametru p3 a parametru p1. Obecně: •Základní výběr koeficientu je často spjat s metodou/algoritmem. •Dále je potřeba zohlednit typ vstupních dat: spojitá/kategoriální/mix. •Výběrem metriky ovlivníme výsledky analýz. • logo-IBA Kvantitativní data Koeficienty vzdálenosti logo-IBA Koeficienty vzdálenosti Výsledek obrázku pro káně kreslený x y Podrobný přehled koeficientů vzdáleností a podobností najdete v knize LEGENDRE, P. & LEGENDRE, L. (1998). Numerical ecology. Elseviere Science BV, Amsterodam. z logo-IBA Euklidova vzdálenost I —Euklidova vzdálenost vychází z Pythagorovy věty: — — — — — — — — — — — — — —Jaká by byla vzdálenost bodů A a B dle Manhattanské metriky? 1 4 2 6 A B X Y d(A,B)=5 logo-IBA Euklidova vzdálenost II plat počet cigaret/den n1 15 000 10 n2 25 000 15 n3 20 000 20 n4 13 000 25 n5 18 000 10 —Proměnné s číselně většími hodnotami budou mít větší váhu při shlukování!!! —Např. pokud budeme hodnotit výšku (150–200 cm) a cholesterol (do 5 mmol/l), výška bude mít větší váhu při shlukování – objekty budou rozděleny do shluků podle jejich výšky. — Data s nesrovnatelnými hodnotami proměnných je potřeba před analýzou standardizovat. Jak? — Např. standardizace na z-skóre. — Jak byste popsali rozložení z-skóre? POZOR! Výsledek obrázku pro z-score, range standardization logo-IBA Euklidova vzdálenost - příklad —Pomocí MS Excel spočítejte Euklidovu vzdálenost subjektu n2 a n3 pro následující dva datové zdroje. BMI váha výška cholesterol n2 24.9 72 170 5,1 n3 25.8 98 195 5,2 BMI váha výška cholesterol n2 24.9 72 170 5,1 n3 25.8 98 195 2,9 D(n2,n3) = ? D(n2,n3) = ? logo-IBA Euklidova vzdálenost - příklad —Pomocí MS Excel spočítejte Euklidovu vzdálenost subjektu n2 a n3 pro následující dva datové zdroje. BMI váha výška cholesterol n2 24.9 72 170 5,1 n3 25.8 98 195 5,2 BMI váha výška cholesterol n2 24.9 72 170 5,1 n3 25.8 98 195 2,9 D(n2,n3) = 36,08 D(n2,n3) = 36,15 Proč je vzdálenost téměř shodná, když se v druhém datovém souboru subjekty významně liší v hladině cholesterolu? logo-IBA Euklidova vzdálenost III BMI váha výška n1 35.6 80 150 n2 24.9 72 170 n3 25.8 98 195 n4 22.2 54 156 n5 19.3 55 169 —U větších datových souborů, u kterých se často vyskytují korelované proměnné, dochází k nadhodnocení výsledků těmito korelovanými proměnnými = stejná informace je započtena více než jednou. — —Je potřeba zohlednit vztahy parametrů v datech → Mahalanobisova vzdálenost. POZOR! logo-IBA Mahalanobisova vzdálenost —Odstraňuje vliv korelovaných parametrů. —Dle volby lze hodnotit: 1)vzdálenosti objektů od centroidů (vstupem je matice rozdílů původních hodnot od průměru: počet řádků = počet objektů, počet sloupců = počet parametrů). 2)vzdálenosti skupin objektů (vstupem je matice rozdílů průměrných hodnot: počet řádků = 1 (rozdíl ve dvou skupinách, hodnotí se párově), počet sloupců = počet parametrů). 3)párové vzdálenosti jednotlivých subjektů (vstupem je matice rozdílů srovnávaných subjektů: počet řádků = 1 (rozdíl dvou hodnot), počet sloupců = počet parametrů). Matice vzdáleností hodnot od průměru Inverze kovarianční matice logo-IBA Binární data Koeficienty podobnosti logo-IBA Koeficienty podobnosti —Pokud proměnné popisují výskyt/nevýskyt = jsou tedy binárního typu, lze podobnost/odlišnost subjektů hodnotit dle tabulky níže: Co je to problém „double zero“? 1 0 1 a b a + b 0 c d c + d a + c b + d p = a + b + c + d logo-IBA Koeficienty podobnosti příklad I —Úkol: Na základě datové matice doplňte tabulku. 1 0 1 a = b = a + b = 0 c = d = c + d = a + c = b + d = p = a + b + c + d = x1 x2 x3 x4 x5 x6 x7 n1 1 1 0 0 0 0 1 n2 1 0 1 1 1 0 0 n1 n2 logo-IBA Koeficienty podobnosti příklad I —Úkol: Na základě datové matice doplňte tabulku. 1 0 1 a = 1 b = 3 a + b = 4 0 c = 2 d = 1 c + d = 3 a + c = 3 b + d = 4 p = a + b +c +d = 7 n1 n2 Já znáte koeficienty podobnosti? x1 x2 x3 x4 x5 x6 x7 n1 1 1 0 0 0 0 1 n2 1 0 1 1 1 0 0 logo-IBA Koeficienty podobnosti příklad II —Úkol: 1)Přiřaďte uvedené vzorce ke koeficientům podobnosti: „simple matching“, Jaccardův a Sørensenův koeficient podobnosti. 2)Na základě získané tabulky spočítejte uvedené koeficienty. 3)Podobnosti převeďte na vzdálenosti. •Ssimple matching = → D = •SJaccard = → D = •SSørensen = → D = 1. 2. 3. 1 0 1 a = 1 b = 3 a + b = 4 0 c = 2 d = 1 c + d = 3 a + c = 3 b + d = 4 p = a + b +c +d = 7 n1 n2 logo-IBA Koeficienty podobnosti příklad II —Úkol: 1)Přiřaďte uvedené vzorce ke koeficientům podobnosti: „simple matching“, Jaccardův a Sørensenův koeficient podobnosti. 2)Na základě získané tabulky spočítejte uvedené koeficienty. 3)Podobnosti převeďte na vzdálenosti. •Ssimple matching= (1+1)/(1+2+3+1) = 0.3 → D = 0.7 •SJaccard= 1/(1+2+3) = 0.2 → D = 0.8 •SSørensen= 2*1/(2*1+2+3) = 0.3 → D = 0.8 1. 2. 3. 1 0 1 a = 1 b = 3 a + b = 4 0 c = 2 d = 1 c + d = 3 a + c = 3 b + d = 4 p = a + b +c +d = 7 n1 n2 logo-IBA Sørensenův asymetrický koeficient podobnosti pro kvantitavní data •Tabulka popisuje abundance živočichů na dvou lokalitách. •Úkol: Pomocí Sørensenova koeficientu vyhodnoťte, zda jsi uvedené lokality podobné. • • • • • • Výskyt/nevýskyt živočicha Lokalita žralok velryba had ještěrka velbloud varan tučňák aN bN jN Vysočina 0 0 2 3 0 0 0 5 Sahara 0 0 4 1 5 6 0 16 Minimum 0 0 2 1 0 0 0 3 logo-IBA Mix kategoriálních a kvantitativních dat Gowerův obecný koeficient podobnosti logo-IBA Gowerův obecný koeficient podobnosti •Kombinuje různé typy deskriptorů. •Podobnost mezi dvěma objekty je vypočítána jako průměr podobností, vypočítaných pro všechny deskriptory: • • • • üPro kategoriální deskriptory s = 1 (shoda) nebo 0 (neshoda). üKvantitativní deskriptory (reálná čísla): rozdíl mezi stavy obou objektů je vydělen největším rozdílem (Rj), nalezeným pro daný deskriptor mezi všemi objekty ve studii. logo-IBA Asociační matice logo-IBA Asociační matice euklidovských vzdáleností mezi rostlinami 23.3.2020 Asociační matice vzdáleností logo-IBA Histogram jako popis asociační matice logo-IBA Základní funkce v R pro výpočet asociační matice logo-IBA Funkce v R pro výpočet asociační matice Výpočet Mantelova testu (testuje korelaci dvou asociačních matic – např. průběh onemocnění vs. genetická výbava pacientů, charakteristiky lokalit vs. abundance druhů na lokalitách): mantel{vegan} dist(data, method='euclidean')= Euklidova vzdálenost vegdist(data, "jac", binary=F) = Sørensenův asymetrický koeficient vegdist(data, "jac", binary=T)= Jaccardův koeficient {vegan} Koeficienty podobnosti dist.binary(data, method = 2) = „simple matching“ koeficient {ade4} mahalanobis(X, X.mean, X.cov)= Mahalanobisova vzdálenost pairwise.mahalanobis (X,grouping)= Mahalanobisova vzdálenost mezi skupinami {HDMD} Koeficienty vzdálenosti Podobnosti jsou pomocí funkce 1-podobnost automaticky převáděny na vzdálenosti!!!