Vícerozměrné statistické metody Ordinační analýzy - přehled metod Jiří Jarkovský, Simona Littnerová Vícerozměrné statistické metody Analýza hlavních komponent jako příklad výpočtu redukce dimenzionality pomocí ordinační analýzy Analýza hlavních komponent Analýza hlavních komponent je typickou metodou ze skupiny ordinačních analýz Pracuje s asociací proměnných popisujících objekty a snaží se na základě jejich korelací/kovariancí stanovit dimenze zahrnující větší podíl variability než připadá na původní proměnné Předpoklady jsou obdobné jako při výpočtu korelací a kovariancí: - nepřítomnost odlehlých hodnot (s výjimkou situace kdy analýzu provádíme za účelem identifikace odlehlých hodnot) - nepřítomnost více skupin objektů (s výjimkou situace kdy analýzu provádíme za účelem detekce přirozeně existujících shluků spjatých s největší variabilitou souboru) Datový soubor musí mít více objektů než proměnných, pro získání stabilních výsledků se doporučuje alespoň lOx tolik objektů než proměnných, ideální je 40-60x více objektů než proměnných • Cíle analýzy - Popis a vizualizace vztahů mezi proměnnými - Výběr neredundantních proměnných pro další analýzy - Vytvoření zástupných faktorových os pro použití v dalších analýzách - Identifikace shluků v datech spjatých s variabilitou dat - Identifikace vícerozměrně odlehlých objektů IBA lUI | Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Výpočet faktorových os • Výpočetně vychází analýza hlavních komponent z korelační/kovarianční asociační matice (a obdobně i další ordinační analýzy, pouze pomocí jiných asociačních metrik) • Vlastní výpočet je pak realizován prostřednictvím výpočtu vlastních čísel a vlastních vektorů této matice • Vlastní vektory a vlastní čísla - Existují pro čtvercové matice - Vyžadují aby hodnost matice odpovídala jejímu řádu, tedy pouze pro matice v nichž neexistuje lineární závislost. Tento fakt komplikuje (nebo znemožňuje) výpočet při přítomnosti zcela redundantních (lineárně závislých) proměnných - Vlastní čísla matice jsou ve vazbě na variabilitu vyčerpanou vytvářenými faktorovými osami - Vlastní vektory definují směr nových faktorových os v prostoru původních proměnných - Existuje několik možných vyjádření vlastních čísel a vlastních vektorů, proto je před interpretací výstupů nezbytné vědět znát algoritmus použitý v SW IBA lUI | Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Vlastní čísla a vlastní vektory Výpočet vlastních čísel pro matici A A - X/1 = 0 = 0 2 2 -1 "1 o] 2 5_ 0 lj 2 2 "A o] 2 5 ~ 0 Á = 0 = 0 2-X 2 2 5-Á (2-á\5-á)-4 Ä2-7Ä + 6 = 0 \ =6 Ä2=l = 0 Výpočet vlastního vektoru ^, pro l2 je výpočet obdobný 4=6 í "2 2" "1 0" un -6 = 0 2 5_ 0 1 ) _u2l_ -4 2 2 -1 u n 21 = 0 -4wn +2w21 = 0 2wn -lw21 = 0 wn = 1 -4 + 2w21 =0 u2l = 2 1 2 IBA m. Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Příklad výpočtu Primární data 1 SEPALLEH 2 SEPALWID 3 PETALLEN PETALWID IRISTYPE 5.0 3 3 1 4 0.2 SETOSA 64 2.8 5.6 2 2 VIRGINIC 6.5 2.8 4.6 1.5 VERSICO 6.7 3.1 5.6 2.4 VIRGINIC 6 3 2.8 5.1 1.5 VIRGINIC 4.6 3.4 1.4 0 3 SETOSA 6.9 3.1 5.1 2 3 VIRGINIC 6.2 2.2 4.5 1.5 VERSICO 5.9 3 2 4.8 1.8 VERSICO 4.6 3 S 1.0 0.2 SETOSA 6.1 3 0 4.6 1.4 VERSICO 6.0 2.7 5.1 1.6 VERSICO 6.5 3 0 5.2 2.0 VIRGINIC 5.6 2.5 3.9 1.1 VERSICO 6.5 3 0 5.5 1.8 VIRGINIC 5.8 2.7 5.1 1.9 VIRGINIC 6.8 3 2 5.9 2 3 VIRGINIC 5.1 3 3 1.7 0 5 SETOSA 5.7 2.8 4.5 1 3 VERSICO 6.2 3.4 5.4 2 3 VIRGINIC 7.7 3 8 6.7 2 2 VIRGINIC 6 3 3 3 4.7 1.6 VERSICO 6.7 3 3 5.7 2.5 VIRGINIC 7.6 3 0 6.6 2.1 VIRGINIC 4.9 2.5 4.5 1.7 VIRGINIC 5.5 3 5 1.3 0.2 SETOSA 6.7 3 0 5.2 2 3 VIRGINIC 7.0 3 2 4.7 1.4 VERSICO 6.4 3 2 4.5 1.5 VERSICO 6.1 2.8 4.0 1 3 VERSICO 4.8 3.1 1.6 0.2 SETOSA 5.9 3 0 5.1 1.8 VIRGINIC 5.5 2.4 3 8 1.1 VERSICO 6 3 2.5 5.0 1.9 VIRGINIC 6.4 3 2 5 3 2 3 VIRGINIC 5.2 3.4 1.4 0.2 SETOSA 4.9 3 S 1.4 0.1 SETOSA 5.4 3 0 4.5 1.5 VERSICO 7.9 3 8 6.4 2.0 VIRGINIC 4.4 3 2 1.3 0.2 SETOSA 6.7 3 3 5.7 2.1 VIRGINIC 5.0 3 5 1.6 0.6 SETOSA 5 B 2 S 4 0 1.2 VERSICO Korelační matice SEPALLEN SEPALWID PETALLEN PETALWID SEPALLEN 1.000 -0.118 0.872 0.818 SEPALWID -0.118 1.000 -0.428 -0.366 PETALLEN 0.872 -0.428 1.000 0.963 PETALWID 0.818 -0.366 0.963 1.000 Kovarianční matice SEPALLEN SEPALWID PETALLEN PETALWID SEPALLEN 0.686 -0.042 1.274 0.516 SEPALWID -0.042 0.190 -0.330 -0.122 PETALLEN 1.274 -0.330 3.116 1.296 PETALWID 0.516 -0.122 1.296 0.581 IBA IIMI Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Kovarianční nebo Korelační matice SEPALLEN SEPALWID PETALLEN PETALWID SEPALLEN 1.000 -0.118 0.872 0.818 SEPALWID -0.118 1.000 -0.428 -0.366 PETALLEN 0.872 -0.428 1.000 0.963 PETALWID 0.818 -0.366 0.963 1.000 • Jednoznačně v případě nesrovnatelných jednotek (např. věk vs. krevní tlak) • Korelace je vlastně kovariance standardizovaná na variabilitu dat, tedy kovariance na standardizovaných datech = korelace Diagonála obsahuje hodnotu 1 - Úplná korelace proměnné sama se sebou - Standardizovaný rozptyl • Ostatní buňky obsahují vzájemné korelace proměnných korelační matice? Kovarianční matice SEPALLEN SEPALWID PETALLEN PETALWID SEPALLEN 0.686 -0.042 1.274 0.516 SEPALWID -0.042 0.190 -0.330 -0.122 PETALLEN 1.274 -0.330 3.116 1.296 PETALWID 0.516 -0.122 1.296 0.581 Lze použít v případě proměnných o stejných jednotkách a podobném významu (např. rozměry objektu) • Má smysl v případě, že chceme zohlednit absolutní hodnoty a rozsah proměnných Diagonála obsahuje hodnotu rozptylu proměnných • Ostatní buňky obsahují kovarianci (= sdílený rozptyl) proměnných IBA lUI | Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Výstupy PCA Vlastní čísla (eigenvalues) Vlastní vektory (eigenvectors) Communalities Souřadnice objektů Scree plot Biplot Variable Eigenvectors of correlation matrix (Irisdat) Active variables only Factor 1 | Factor 2 | Factor 3 Factor 4 SEPALLEN -0.52106610.377418 0.7195EE -0.2E1286 SEPALWID 0.269347 0.923296 -0.244382 0 123510 PETALLEN -0.580413 0 024492 -0.142126 0 B01449 PETALWID -0.564857 0.066942 -0.634273 -0.523597 Value number Eigenvalues of correlation matrix, and related statist Active variables only Eigenvalue % Total variance Cumulative Eigenvalue Cumulative % 1 2.918498 72.9E245 2.918498 72.9E24 2 0.914030 22 8507S 3 832528 95.8132 3 0.146757 3 65892 3 979285 99 4321 4 0.020715 0 51787 4.000000 100.0000 Projection ol the variables on the laclor-plane (1x2) Projection of the cases on the factor-plane (1x2) Cases with sum of cosine square >= 0.00 ■ ■ CP o c 0 0 o O o » • ?.A B] Q O c 5 Tab 5 i 0
1 (korelace) nebo větším než je průměrné eigenvalue (kovariance) - Logika je vybírat osy, které přispívají k vysvětlení variability dat více než připadá rovnoměrným rozdělením variability Scree plot - Grafický nástroj hledající zlom ve vztahu počtu os a vyčerpané variability Sheppard diagram - Grafická analýza vztahu mezi vzdálenostmi objektů v původním prostoru a redukovaném prostoru o daném počtu dimenzí IBA lul I Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody 21 Scree plot CD _3 CD > £Z CD D5 Lu 3.5 3.0 2.5 2.0 1.5 1.0 0.5 0.0 -0.5 Eigenvalues of corrfelat Active variabl ion matrix 5S only Zlom ve vztahu mezi počtem eigenvalue a jimy vyčepanou variabilitou - pro další analýzu použity první dvě faktorové osy : 72.96% 22si 55% 7% >% 2 3 Eigenvalue number MU »• BÄ IMI I Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody 22 Sheppard diagram Vztahuje vzdálenosti v prostoru původních proměnných ke vzdálenostem v prostoru vytvořeném PCA Je třeba brát ohled na typ PCA (korelace vs. kovariance) Obecná metoda určení optimálního počtu dimenzí v ordinační analýze (třeba respektovat použitou asociační metriku) Za optimální z hlediska zachování vzdáleností objektů lze považovat dvě nebo tři dimenze Při použití všech dimenzí jsou vzdálenosti perfektně zachovány IBA I Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody 23 Shrnutí • Analýza hlavních komponent je základním nástrojem pro analýzu variability spojitých proměnných a jejich vztahů • Kromě spojitých proměnných mohou být vstupem i binární proměnné (popřípadě kategoriální data ve formě tzv. dummies), ale je třeba mít na paměti jednak omezení vyplývající z double zero problému, jednak omezení týkající se poměru počtu proměnných a objektů Při výpočtu je nezbytné mít na paměti omezení výpočtu vyplývající z předpokladů analýzy korelácia kovariancí • Analýza hlavních komponent může být počítána za různým účelem, tomu je třeba přizpůsobit výběr použitého algoritmu a výběr výstupů pro další interpretaci • Při interpretaci výstupů analýzy hlavních komponent je třeba zvažovat - Použitý algoritmus a jeho implementace v použitém SW - Typ výstupu PCA a omezení jeho interpretace (standardizace eigenvektorů, typy biplotů apod.) - Praktická interpretace výstupů a vliv artefaktů dat (redundantní proměnné, několik metod měření jednoho parametru apod.) IBA lul I Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody 24 Vícerozměrné statistické metody Faktorová analýza Faktorová analýza • Faktorová analýza se snaží vysvětlit strukturu dat pomocí tzv. společných faktorů vysvětlujících sadu původních proměnných • Čím se principielně liší od analýzy hlavních komponent? - Analýza hlavních komponent - vysvětlení maxima variability v datech - Faktorová analýza - vysvětlení maxima kovariance mezi popisnými proměnnými • Čím se prakticky liší od analýzy hlavních komponent? - Hlavním praktickým rozdílem je rotace proměnných tak aby se vytvořené faktorové osy daly dobře interpretovat - Výhodou je lepší interpretace vztahu původních proměnných - Nevýhodou je prostor pro subjektivní názor analytika daný výběrem rotace • Typy faktorové analýzy - Vysvětlující (Explanatory) - snaží se identifikovat minimální počet faktorů pro vysvětlení dat - Potvrzující (Confirmatory) - testuje hypotézy ohledně skryté struktury v datech IBA lul I Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody 26 Společné faktory a základní možné rotace Společný faktor Pozorovaná proměnná Unikátní faktor Rotace ortogonální - Nezávislé faktory Rotace neortogonální - Faktory jsou závislé za účelem zvýšení ^ ^ intepretovatelnosti 1 li- li- U: U, Ur IBA lul I Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Faktorová analýza - postup výpočtu 1. Extrakce prvotních faktorů z kovarianční matice (analogie eigenvektorů v PCA) - Oproti PCA pracuje pouze s částí variability každé proměnné (tzv. communality), která je sdílena společnými faktory - Několik možných algoritmů - princiapl factoring, metoda nejmenších čtverců, maximum likelihood apod. - Výsledkem je komplexní struktura faktorů (obdobná PCA), kde řada faktorů má významné loadings (~ vztah) k původním proměnným, počet takových faktorů je tzv. komplexita faktorů. 2. V druhém kroku je rotací dosaženo zjednodušení struktury faktorů, tj. vztah mezi společnými faktory a původními proměnnými je zjednodušen (každá původní proměnná má hlavní vztah s jedním faktorem nebo malým počtem faktorů) - Dva hlavní typy rotace • Ortogonální - faktory nemohou být korelovány, jsou tedy zcela nezávislé • Neortogonální - faktory mohou být korelovány, nejsou tedy zcela nezávislé; vzhledem ke korelacím obtížnější interpretace IBA lul I Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody 28 Faktorová analýza - rotace Ortogonální rotace - Quartimax- minimalizuje sumu čtverců loadings původních proměnných na faktorových osách, tedy zjednodušuje řádky matice loadings (=každá původní proměnná má největší loadings na jedné faktorové ose) - Varimax - zjednodušuje sloupce matice loadings - Equimax - zjednodušuje řádky i sloupce matice loadings - Biquartimax-varianta equimax Neortogonální rotace - Oblimax - Quartimin - Oblimin - Covarimin - Biquartimin - Atd. IBA lul I Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody 29 Vícerozměrné statistické metody Korespondenční analýza Korespondenční analýza Vstupní data: - Tabulka obsahující souhrny proměnných (počty průměry) za skupiny respondentů Výstupy analýzy - Vztahy všech původních faktorů a/nebo skupin respondentů v jednoduchém xy grafu • Kritické problémy analýzy - Skupiny s malým počtem hodnot mohou být zatíženy značným šumem a náhodnou chybou - Obtížná interpretace velkého množství malých skupin respondentů • Výpočet probíhá prostřednictvím singular value decomposition na matici chi-square vzdáleností (tedy na matici příspěvků buněk tabulky k celkovému chi-square obdobně jako v klasickém testu dobré shody na kontingenční tabulce) IBA lul I Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody 31 Analýza kontingenčních tabule jako princip výpočtu vícerozměrných analýz • Abundance taxonů (nebo počet jakýchkoliv objektů) na lokalitách lze brát jako kontingenční tabulku a mírou vztahu mezi řádky (lokality) a sloupci (taxony) je velikost chi-kvadrátu B 0 10 B 5 5 IBA Pozorovaná tabulka Očekávaná tabulka Hodnota chi-kvadrátu definuje míru odchylky dané buňky (v našem kontextu vztahu taxon-lokalita) od situace, kdy mezi řádky a sloupci (taxon-lokalita) není žádný vztah | | Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody 32 Princip korespondenční analýzy • Korespondenční analýza hledá, které kombinace řádků a sloupců hodnocené tabulky nejvíce přispívají k její variabilitě Teoretická Výstupy korespondenční analýzy EJ STATISTKA [ Data: niarkpruzkum* (5 v by 5c)] |P1 File Edit View Insert Format Statistics Graphs lools Data Window Help saU ^ft^ £4 Add to Workbook T Add to Report - ?.j"B 1 Ariai _i] I 10 _rJ B 1 u I^^^S'l^'ZL'S'l'^ + .0 .00 .oo +.á f Ě 1 Kvalita 2 Dostupnost výrobků 3 Oblíbenost firmy 4 X , Cena/ vyrobX / na DowAgro Science 1.42 2.67 3.OB t 33 Du Pont 1.76 2.34 3.17 .07 Bayer 1 62 2.32 3.1» nq Syngenta 1.35 2.81 24rn---2"41 > 3.38 BASF 1.47 2 51 3.29 li 05 Vzájemná pozice faktorů a skupin respondentů: vzájemnou pozici lze interpretovat iience Variabilita vyčerpaná danou faktorovou osou Obl Kvalita benos Dostupnost výrobků DuPont firmy BASF Bayer Reklanha Ceha výrobků Syngenta IMI | Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody 0.10 -0.08 -0.06 -0.04 -0.02 0.00 0.02 0.04 0.06 0.08 0.10 Dimension 1; Eigenvalue: .00303 (48.54% of Inertia) 34 Vícerozměrné statistické metody Multidimensional scaling (Nemetrické vícerozměrné škálování) Multidimensional scaling • Jde o iterační algoritmus řešící převod libovolné asociační matice do Euklidovského prostoru (různé SW tak mohou dosahovat mírně odlišné výsledky) • Cílem je dosáhnout řešení, které při nejmenším počtu vytvořených os zachovává pořadí vzdáleností objektů v původní asociační matici • Vstupem analýzy je libovolná asociační matice (včetně nemetrických koeficientů) Výstupem je zadaný počet „faktorových os" IBA lul I Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody 36 ensional scaling: Příklad Data vzdáleností evropských měst - > rekonstrukce mapy [Ä] STATISTKA - [Data: mesta_vzdalenosti (2lv by 24c) IJilJl File Edit View Insert Format Statistics Data Mining Graphs Tools Data Window Help jo & u m £4 Add to Workbook T Add to Report - Add to MS Word - i!;"B Arial ' 10 T B I u m m m & ♦ .0 .00 .00 +.0 « [fi1 ip Ö í$ Vars- C:\UsersVJarkovsky\Desktop\FSTA\mesta_vzdalenosti.xlsx : Sheet 1 i Barcelon 2 Bělehrad 3 Berlín 4 Brusel 5 Bukurešť 6 Budapešť 7 Kodaň 3 Dublin 9 Hamburg 10 Istanbul Barcelona 0 1528 1497 1052 1968 1498 1757 1459 1471 2230 Belehrad 1528 0 999 1372 447 316 1327 2145 1229 809 Berlín 1497 999 0 651 1293 689 354 1315 254 1735 Brusel 1052 1372 551 0 1759 1131 755 773 489 2178 Bukurešť 1958 447 1293 1769 0 539 1571 2534 1544 445 Budapešť 1498 316 S89 1131 639 0 1011 1894 927 1064 Kodaň 1757 1327 354 766 1571 1011 0 1238 287 2017 Dublin 1469 2145 1315 773 2534 1894 1238 0 1073 2950 Hamburg 1471 1229 254 489 1544 927 287 1073 0 1983 Istanbul 2230 809 1735 2178 445 1054 2017 2950 1983 0 Kiev 2391 976 1204 1836 744 894 1326 2513 1440 1052 Londýn 1137 1688 929 318 2088 1450 955 462 720 2496 Madrid 504 2025 1857 1314 2459 1975 2071 1449 1785 2734 Miláno 725 885 840 595 1331 788 1157 1413 900 1559 Moskva 3006 1710 1607 2253 1497 1565 1558 2792 1779 1753 Mnichov 1054 773 501 601 1186 563 838 1374 610 1582 Paříž 831 1445 875 251 1859 1247 1025 776 744 2253 Praha 1353 738 280 721 1075 443 633 1455 492 1507 Rím 855 721 1181 1171 1137 811 1529 1882 1307 1373 Saint Petersburg 2813 1797 1319 1903 1740 1556 1143 2314 1414 2099 Sofia 1745 329 1318 1697 296 629 1635 2471 1554 502 Stockholm 2275 1520 810 1280 1742 1315 521 1525 809 2171 Vídeň 1347 489 523 914 855 216 858 1580 742 1273 Varšava 1862 826 516 1159 946 545 667 1823 750 1386 IUI Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody 37 0450 ensional scaling: Příklad • Kvalita dodržení pořadí vzdáleností v datech při daném počtu os je kontrolována Shepardovým diagramem IBA lul I Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody 38 0450 Vzdálenosti v původních datech a vytvořených faktorových osách — i IMI ! Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody 39 Reprezentace výstupu Stockholm Saint Petersburg Dublin O o o 1 Kodaň O oskva o ondýn O Dn ioaI Hamburg o lvi Dl Uocl o Paříž cen m Ó Vars savá o C Praha 0 Kt0v Mnichov O Vídeň o MaHrirl Mil; C áno Budapešť o ividUi \\J o Barcelono O 1 Bělehrac Řím o o Bukurešť o bt DÍia 0 Istan o bul -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 — i IMI 1 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody 40 Reprezentace výstupu Ordinační analýzy: shrnutí • Analýza hlavních komponent, faktorová analýza, korespondenční analýza a multidimensional scaling se snaží zjednodušit vícerozměrnou strukturu dat výpočtem souhrnných os Metody se liší v logice tvorby těchto os - Maximální variabilita (analýza hlavních komponent, korespondenční analýza) - Maximální interpretovatelnost os (faktorová analýza) - Převod asociační matice do Euklidovského prostoru (multidimensional scaling) IBA lul I Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody 42