Vícerozměrné statistické metody Podobnosti a vzdálenosti ve vícerozměrném prostoru, asociační matice II Jiří Jarkovský, Simona Littnerová Vícerozměrné statistické metody Práce s asociační maticí Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Vzdálenosti nebo podobnosti objektů ve vícerozměrném prostoru • Vícerozměrný popis objektů představuje jejich pozici ve vícerozměrném prostoru • Vztahy mezi objekty lze vyjádřit pomocí jejich vzdálenosti v prostoru • Existuje celá řada způsobů měření vzdálenosti v prostoru pro různé typy dat (binární, kategoriální, spojitá) • Výběr metriky vzdálenosti nebo podobnosti silně ovlivňuje výsledky analýzy, protože definuje jakým způsobem vztah mezi objekty interpretujeme 3 • Výběr metriky je dán dvěma pohledy: • Typ dat – s různými typy dat jsou spjaty různé metriky • Předpoklady výpočtu metriky – obdobně jako klasické statistické metody ani metriky nelze použít ve všech situacích a v některých by dokonce díky jejich předpokladům šlo o hrubou chybu • Expertní interpretace vztahů objektů Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Euklidovská vzdálenost jako princip výpočtu vícerozměrných analýz • Nejsnáze představitelným měřítkem vztahu dvou objektů ve vícerozměrném prostoru je jejich vzdálenost • Nejjednodušším typem této vzdálenosti (bohužel s omezeným použitím na data společenstev) je Euklidovská vzdálenost vycházející z Pythagorovy věty 4 a b c y11 y12 y21 y22 2 211211 )(),( jj p j yyxxD −∑= = X1 X2 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Různé přístupy k měření vzdálenosti 5 A B Jednou na Manhattanu ……. Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Asociační matice • Typická asociační matice je čtvercová matice • Typická asociační matice je symetrická kolem diagonály – Ve speciálních případech existují i asymetrické asociační matice • Diagonála obsahuje 0 (v případě vzdáleností) nebo identitu objektu se sebou samým (podobnosti, obvykle 1 nebo 100%) • Asociační matice může být spočtena mezi objekty pomocí metrik podobnosti a vzdálenosti (Q mode analýza) nebo mezi proměnnými pomocí korelací a kovariancí (R mode analýza) • Asociační matice mohou být jak vstupem do vícerozměrných analýz tak vstupem pro klasické jednorozměrné statistické výpočty, kdy základní jednotkou není jeden objekt, ale podobnost/vzdálenost dvojice objektů 6 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Příklad výpočtu asociační matice 7 Asociační matice euklidovských vzdáleností mezi rostlinami Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Histogram jako popis asociační matice 8 Euclid 0 200 400 600 800 1000 1200 1400 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Vztahy mezi různými metrikami vzdáleností 9 Euclid Euclid standardized Squared Euclid standardized Manhattan standardized Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Metrika vzdálenosti/podobnosti jako klíčový bod vícerozměrné analýzy • Výběr metriky vzdálenosti/podobnosti je klíčovým bodem každé vícerozměrné analýzy: – Některé metody umožňují úplnou volnost ve výběru metriky podobnosti (hierarchická aglomerativní shluková analýza, multidimensional scaling) – Některé metody jsou přímo spjaté s konkrétní metrikou (PCA, CA, k-means clustering) • Chybný výběr metriky může vést k chybným závěrům analýzy (stejně jako v klasické statistické analýze výběr nevhodného testu nebo popisné statistiky) • Metriky podobností nebo vzdáleností kromě vícerozměrných statistických metod mohou vstupovat i do klasických statistických výpočtů: – Popisná statistika a vizualizace metrik – Analogie t-testů a ANOVA pro asociační matice – Korelace asociačních matic – Regrese asociačních matic 10 Vícerozměrné statistické metody Analogie klasických statistických metod s využitím asociačních matic Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Klasické statistické metody na asociační matici • Na datech asociačních koeficientů je možné počítat libovolné jednorozměrné statistické metody • Je nezbytné zohlednit – 1 hodnota není jeden objekt, jde o vztah dvou objektů !!! – Hodnoty nejsou nezávislé !!! – Díky nesouladu mezi N hodnot a počtem stupňů volnosti není možné klasické statistické testování, ale je nezbytný permutační přístup • Pro vizualizaci i výpočet statistik je možné použít klasické statistické SW • Pro výpočet statistické významnosti a intervalů spolehlivosti je nezbytné použít specializovaný SW 12 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Konverze asociační matice pro jednorozměrné analýzy 13 Similarita Jaccard index PL-VIS GE-RHI PL-SLE CZ-ELO CZ-ELV CZ-KYJ CZ-MOR SK-DAN IT-RMO BG-DAN FR-DUR BG-ISK BG-STR GR-NES TU-ESK TU-BAL TU-MAS TU-KUR PL-VIS 0.389 0.333 0.190 0.227 0.286 0.333 0.350 0.190 0.182 0.130 0.154 0.333 0.200 0.208 0.292 0.435 0.370 GE-RHI 0.389 0.357 0.333 0.500 0.200 0.364 0.385 0.333 0.214 0.214 0.167 0.267 0.250 0.250 0.222 0.500 0.400 PL-SLE 0.333 0.357 0.357 0.500 0.313 0.286 0.500 0.267 0.250 0.176 0.200 0.222 0.125 0.211 0.190 0.350 0.292 CZ-ELO 0.190 0.333 0.357 0.800 0.125 0.250 0.385 0.231 0.214 0.133 0.105 0.188 0.154 0.111 0.158 0.263 0.217 CZ-ELV 0.227 0.500 0.500 0.800 0.176 0.308 0.429 0.286 0.267 0.188 0.150 0.235 0.133 0.158 0.200 0.368 0.304 CZ-KYJ 0.286 0.200 0.313 0.125 0.176 0.308 0.429 0.200 0.267 0.267 0.211 0.235 0.214 0.158 0.200 0.182 0.200 CZ-MOR 0.333 0.364 0.286 0.250 0.308 0.308 0.308 0.154 0.143 0.143 0.111 0.200 0.167 0.118 0.167 0.211 0.174 SK-DAN 0.350 0.385 0.500 0.385 0.429 0.429 0.308 0.385 0.188 0.357 0.278 0.235 0.214 0.222 0.263 0.300 0.304 IT-RMO 0.190 0.333 0.267 0.231 0.286 0.200 0.154 0.385 0.133 0.417 0.313 0.357 0.364 0.250 0.294 0.263 0.273 BG-DAN 0.182 0.214 0.250 0.214 0.267 0.267 0.143 0.188 0.133 0.200 0.375 0.250 0.143 0.400 0.353 0.316 0.318 FR-DUR 0.130 0.214 0.176 0.133 0.188 0.267 0.143 0.357 0.417 0.200 0.294 0.176 0.231 0.167 0.353 0.190 0.208 BG-ISK 0.154 0.167 0.200 0.105 0.150 0.211 0.111 0.278 0.313 0.375 0.294 0.500 0.176 0.471 0.421 0.261 0.320 BG-STR 0.333 0.267 0.222 0.188 0.235 0.235 0.200 0.235 0.357 0.250 0.176 0.500 0.286 0.278 0.316 0.350 0.348 GR-NES 0.200 0.250 0.125 0.154 0.133 0.214 0.167 0.214 0.364 0.143 0.231 0.176 0.286 0.267 0.313 0.211 0.174 TU-ESK 0.208 0.250 0.211 0.111 0.158 0.158 0.118 0.222 0.250 0.400 0.167 0.471 0.278 0.267 0.444 0.400 0.333 TU-BAL 0.292 0.222 0.190 0.158 0.200 0.200 0.167 0.263 0.294 0.353 0.353 0.421 0.316 0.313 0.444 0.364 0.360 TU-MAS 0.435 0.500 0.350 0.263 0.368 0.182 0.211 0.300 0.263 0.316 0.190 0.261 0.350 0.211 0.400 0.364 0.565 TU-KUR 0.370 0.400 0.292 0.217 0.304 0.200 0.174 0.304 0.273 0.318 0.208 0.320 0.348 0.174 0.333 0.360 0.565 Jaccard row column 0.389 PL-VIS GE-RHI 0.333 PL-VIS PL-SLE 0.357 GE-RHI PL-SLE 0.190 PL-VIS CZ-ELO 0.333 GE-RHI CZ-ELO 0.357 PL-SLE CZ-ELO 0.227 PL-VIS CZ-ELV 0.500 GE-RHI CZ-ELV 0.500 PL-SLE CZ-ELV 0.800 CZ-ELO CZ-ELV 0.286 PL-VIS CZ-KYJ 0.200 GE-RHI CZ-KYJ 0.313 PL-SLE CZ-KYJ 0.125 CZ-ELO CZ-KYJ 0.176 CZ-ELV CZ-KYJ 0.333 PL-VIS CZ-MOR 0.364 GE-RHI CZ-MOR 0.286 PL-SLE CZ-MOR 0.250 CZ-ELO CZ-MOR 0.308 CZ-ELV CZ-MOR 0.308 CZ-KYJ CZ-MOR 0.350 PL-VIS SK-DAN 0.385 GE-RHI SK-DAN 0.500 PL-SLE SK-DAN 0.385 CZ-ELO SK-DAN 0.429 CZ-ELV SK-DAN 0.429 CZ-KYJ SK-DAN 0.308 CZ-MOR SK-DAN 0.190 PL-VIS IT-RMO 0.333 GE-RHI IT-RMO 0.267 PL-SLE IT-RMO 0.231 CZ-ELO IT-RMO 0.286 CZ-ELV IT-RMO 0.200 CZ-KYJ IT-RMO 0.154 CZ-MOR IT-RMO 0.385 SK-DAN IT-RMO 0.182 PL-VIS BG-DAN 0.214 GE-RHI BG-DAN 0.250 PL-SLE BG-DAN 0.214 CZ-ELO BG-DAN 0.267 CZ-ELV BG-DAN 0.267 CZ-KYJ BG-DAN 0.143 CZ-MOR BG-DAN 0.188 SK-DAN BG-DAN 0.133 IT-RMO BG-DAN 0.130 PL-VIS FR-DUR 0.214 GE-RHI FR-DUR 0.176 PL-SLE FR-DUR 0.133 CZ-ELO FR-DUR 0.188 CZ-ELV FR-DUR 0.267 CZ-KYJ FR-DUR 0.143 CZ-MOR FR-DUR 0.357 SK-DAN FR-DUR Konverzí horní trojúhelníkové matice získáme sloupec hodnot = míry asociace řádků a sloupců tabulky Tabulku je možné dále libovolně rozšiřovat o zařazení objektů do skupin nebo o asociace objektů pomocí jiných proměnných Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Příklad složitého souboru pro analýzu vztahů asociačních matic 14 row column Jaccard index Geographical distance Phylogenetic distance Temperature No fishes No microsatellites Y JTSK X JTSK No taxa No parasites Shannon index Shannon eveness Berger Parker index PL-VIS GE-RHI 0.389 907 0.658 5.5 26 7 906437 56332 9 385 0.303 0.182 0.001 PL-VIS PL-SLE 0.333 246 0.100 3.7 30 7 190920 156350 6 6 0.432 0.001 0.226 GE-RHI PL-SLE 0.357 746 0.555 1.8 4 0 715518 212681 3 391 0.129 0.181 0.226 PL-VIS CZ-ELO 0.190 433 0.330 0.5 5 17 377143 214481 9 783 1.307 0.136 0.543 GE-RHI CZ-ELO 0.333 594 0.281 5 21 24 529294 270812 0 1168 1.004 0.318 0.542 PL-SLE CZ-ELO 0.357 195 0.209 3.2 25 24 186223 58131 3 777 0.875 0.137 0.317 PL-VIS CZ-ELV 0.227 393 0.661 3.715 41 11 300529 254241 7 432 0.665 0.040 0.302 GE-RHI CZ-ELV 0.500 680 0.345 1.785 15 4 605908 310573 2 47 0.362 0.222 0.302 PL-SLE CZ-ELV 0.500 147 0.539 1.50E-02 11 4 109609 97892 1 438 0.233 0.042 0.076 CZ-ELO CZ-ELV 0.800 86 0.156 3.215 36 28 76614 39761 2 1215 0.642 0.095 0.241 PL-VIS CZ-KYJ 0.286 457 1.218 1.8 2 16 215024 403783 7 719 0.284 0.089 0.060 GE-RHI CZ-KYJ 0.200 830 0.359 3.7 28 23 691413 460115 2 334 0.019 0.093 0.060 PL-SLE CZ-KYJ 0.313 248 0.821 1.9 32 23 24104 247433 1 725 0.148 0.088 0.166 CZ-ELO CZ-KYJ 0.125 249 0.220 1.3 7 1 162119 189302 2 1502 1.023 0.225 0.483 CZ-ELV CZ-KYJ 0.176 172 0.171 1.915 43 27 85505 149542 0 287 0.381 0.130 0.242 PL-VIS CZ-MOR 0.333 467 1.218 3.4 5 5 218534 413948 10 764 0.577 0.116 0.106 GE-RHI CZ-MOR 0.364 833 0.356 2.1 31 12 687903 470280 1 379 0.274 0.066 0.106 PL-SLE CZ-MOR 0.286 259 0.847 0.3 35 12 27615 257599 4 770 0.145 0.115 0.120 CZ-ELO CZ-MOR 0.250 255 0.224 2.9 10 12 158609 199468 1 1547 0.730 0.252 0.437 CZ-ELV CZ-MOR 0.308 180 0.184 0.315 46 16 81995 159707 3 332 0.088 0.156 0.196 CZ-KYJ CZ-MOR 0.308 11 0.005 1.6 3 11 3510 10165 3 45 0.293 0.027 0.046 PL-VIS SK-DAN 0.350 540 1.118 8 6 14 190569 506010 7 647 0.278 0.092 0.102 GE-RHI SK-DAN 0.385 909 0.318 2.5 20 7 715869 562342 2 262 0.025 0.090 0.102 PL-SLE SK-DAN 0.500 349 0.807 4.3 24 7 351 349661 1 653 0.154 0.091 0.124 CZ-ELO SK-DAN 0.385 346 0.198 7.5 1 31 186574 291530 2 1430 1.029 0.228 0.441 CZ-ELV SK-DAN 0.429 275 0.199 4.285 35 3 109960 251769 0 215 0.387 0.132 0.200 CZ-KYJ SK-DAN 0.429 105 0.040 6.2 8 30 24455 102227 0 72 0.006 0.003 0.042 CZ-MOR SK-DAN 0.308 96 0.056 4.6 11 19 27966 92062 3 117 0.299 0.024 0.004 PL-VIS IT-RMO 0.190 1120 1.416 8 30 7 894871 676397 9 756 0.009 0.353 0.043 GE-RHI IT-RMO 0.333 731 0.142 2.5 4 0 11567 732728 0 371 0.294 0.171 0.044 PL-SLE IT-RMO 0.267 874 1.143 4.3 0 0 703951 520047 3 762 0.423 0.352 0.269 CZ-ELO IT-RMO 0.231 692 0.736 7.5 25 24 517728 461916 0 1539 1.298 0.489 0.586 CZ-ELV IT-RMO 0.286 728 0.711 4.285 11 4 594342 422156 2 324 0.656 0.393 0.346 CZ-KYJ IT-RMO 0.200 731 0.565 6.2 32 23 679847 272614 2 37 0.275 0.264 0.104 CZ-MOR IT-RMO 0.154 724 0.587 4.6 35 12 676336 262449 1 8 0.568 0.237 0.149 SK-DAN IT-RMO 0.385 723 0.483 0 24 7 704302 170387 2 109 0.269 0.261 0.146 PL-VIS BG-DAN 0.182 1002 1.079 7.5 28 1 203173 982589 8 92 0.257 0.147 0.042 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Permutační testování Je tu rozdíl? Jak by vypadal rozdíl, kdyby byl náhodný? Nasimulujme si ho !!!  Léčba Placebo X2 X1 X2 X1 Rozdíl? Rozdíl X2 X1 Rozdíl …. Mnoho- krát Rozdíl ? Rozložení možných náhodných rozdílů Kde leží skutečný rozdíl? Jak moc je pravděpodobné, že je náhodný? 0 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Meansim – analogie k ANOVA 16 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Meansim – analogie k ANOVA • Meansim pracuje s pojmy průměrná vnitroshluková vzdálenost a průměrná mezishluková vzdálenost • Ty mají obdobný význam jako variabilita uvnitř a mezi skupinami v klasické ANOVA • Rozdíl oproti ANOVA je ve výpočtu statistické významnosti: – Objekty (v řádcích a sloupcích) jsou náhodně zpřeházeny mezi skupinami – Je spočten poměr mezishlukové a vnitroshlukové variability – Postup je opakován x krát až získáme rozdělení náhodného vztahu asociace objektů ke kategoriím – Výsledek testu porovnán se simulovaným rozdělením náhodného vztahu asociace objektů ke kategoriím 17 A B C A B C Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Mantel test – analogie ke korelaci • Počítán pomocí Pearsonovy nebo Spearmanovy korelace, lze použít libovolný korelační koeficient • Rozdíl je opět ve výpočtu statistické významnosti, která je počítána permutačně 18 Scatterplot of Geographical distance against Jaccard index matice 15v*153c Geographical distance = 1451.4376-1830.0376*x 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Jaccard index -200 0 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 2400 Geographicaldistance Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Regrese na asociačních maticích • Obdobná výpočtu klasické regrese, ale na maticích vzdáleností 19