Vícerozměrné statistické metody Ordinační analýzy - přehled metod Jiří Jarkovský, Simona Littnerová Vícerozměrné statistické metody Analýza hlavních komponent jako příklad výpočtu redukce dimenzionality pomocí ordinační analýzy Analýza hlavních komponent • Analýza hlavních komponent je typickou metodou ze skupiny ordinačních analýz • Pracuje s asociací proměnných popisujících objekty a snaží se na základě jejich korelací/kovariancí stanovit dimenze zahrnující větší podíl variability než připadá na původní proměnné • Předpoklady jsou obdobné jako při výpočtu korelací a kovariancí: - nepřítomnost odlehlých hodnot (s výjimkou situace kdy analýzu provádíme za účelem identifikace odlehlých hodnot) - nepřítomnost více skupin objektů (s výjimkou situace kdy analýzu provádíme za účelem detekce přirozeně existujících shluků spjatých s největší variabilitou souboru) • Datový soubor musí mít více objektů než proměnných, pro získání stabilních výsledků se doporučuje alespoň lOx tolik objektů než proměnných, ideální je 40-60x více objektů než proměnných • Cíle analýzy - Popis a vizualizace vztahů mezi proměnnými - Výběr neredundantních proměnných pro další analýzy - Vytvoření zástupných faktorových os pro použití v dalších analýzách - Identifikace shluků v datech spjatých s variabilitou dat - Identifikace vícerozměrně odlehlých objektů IBA |^j | Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Výpočet faktorových os • Výpočetně vychází analýza hlavních komponent z korelační/kovarianční asociační matice (a obdobně i další ordinační analýzy, pouze pomocí jiných asociačních metrik) • Vlastní výpočet je pak realizován prostřednictvím výpočtu vlastních čísel a vlastních vektorů této matice • Vlastní vektory a vlastní čísla - Existují pro čtvercové matice - Vyžadují aby hodnost matice odpovídala jejímu řádu, tedy pouze pro matice v nichž neexistuje lineární závislost. Tento fakt komplikuje (nebo znemožňuje) výpočet při přítomnosti zcela redundantních (lineárně závislých) proměnných - Vlastní čísla matice jsou ve vazbě na variabilitu vyčerpanou vytvářenými faktorovými osami - Vlastní vektory definují směr nových faktorových os v prostoru původních proměnných - Existuje několik možných vyjádření vlastních čísel a vlastních vektorů, proto je před interpretací výstupů nezbytné znát algoritmus použitý v SW IBA |^j | Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Vlastní čísla a vlastní vektory Výpočet vlastních čísel pro matici A A- AJ — 0 \2 2~ "1 0] A L2 5 0 lj \2 2" 'A 0] 2 5 0 A = 0 = 0 2-A 2 2 5-Á {2-A\5-A)-A A2-7A + 6 = 0 Al=6 A2=\ = 0 Výpočet vlastního vektoru l-i., pro l2 je výpočet obdobný \ = 6 0 f "2 2 "1 0" uu -6 v 2 5 0 1 J _u2l_ = 0 -4 2 2 -1 u 11 21 = 0 - 4un + 2u2l - 0 2wn -lu2l = 0 wn =1 -4 + 2w21 = 0 w21 = 2 1 2 MU IBA f Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Příklad výpočtu Primární data 1 2 3 4 5 sepalleh sepalwid petallen petalwid iristype 6.0 3.3 1.4 0.2 setosa 6.4 2 8 5 6 2 2 virginic 6 5 2 8 4 6 1.5 versico 6.7 3 1 5 6 24 virginic 6 3 2 8 5.1 1.5 virginic 4 6 34 1.4 0 3 setosa 6 9 3 1 5.1 2 3 virginic 6 2 2 2 4 5 1.5 versico 5 9 3 2 4.8 1 8 versico 4 6 3 6 1.0 0 2 setosa 6.1 3 0 4 6 1.4 versico 6 0 2.7 5.1 1.6 versico 6 5 3 0 5 2 2 0 virginic 5 6 2 5 3 9 1.1 versico 6 5 3 0 5 5 1 8 virginic 5 b 2.7 5.1 1.9 virginic 6 8 3 2 5 9 2 3 virginic 5.1 3 3 1.7 0 5 setosa 5.7 2 8 4 5 1 3 versico 6 2 34 5 4 2 3 virginic 7.7 3 8 6.7 2 2 virginic 6 3 3 3 4.7 1.6 versico 6.7 3 3 5.7 2 5 virginic 7.6 3 0 6 6 2 1 virginic 4.9 2 5 4 5 1.7 virginic 5 5 3 5 1 3 0 2 setosa. 6.7 3 0 5 2 2 3 virginic 7.0 3 2 4.7 1.4 versico 6 4 3 2 4 5 1 5 versico 6.1 2 8 4 0 1 3 versico 4 8 3 1 1.6 0 2 setosa. 5 3 3 0 5.1 1 8 virginic 5 5 24 3 8 1.1 versico 6 3 2 5 5.0 1.9 virginic 6 4 3 2 5 3 2 3 virginic 5 2 34 1.4 0 2 setosa. 4.9 3 6 1.4 0.1 setosa 5 4 3 0 4 5 1.5 versico 7.9 3 8 6 4 2 0 virginic 4.4 3 2 1 3 0 2 setosa. 6.7 3 3 5.7 2 1 virginic 5 0 3 5 1.6 0 6 setosa. 5 8 2 8 4.0 1 2 versico Korelační matice SEPALLEN SEPALWID PETALLEN PETALWID SEPALLEN 1.000 -0.118 0.872 0.818 SEPALWID -0.118 1.000 -0.428 -0.366 PETALLEN 0.872 -0.428 1.000 0.963 PETALWID 0.818 -0.366 0.963 1.000 Kovarianční matice SEPALLEN SEPALWID PETALLEN PETALWID SEPALLEN 0.686 -0.042 1.274 0.516 SEPALWID -0.042 0.190 -0.330 -0.122 PETALLEN 1.274 -0.330 3.116 1.296 PETALWID 0.516 -0.122 1.296 0.581 IBA m j Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Kovarianční nebo korelační matice? Korelační matice Kovarianční matice SEPALLEN SEPALWID PETALLEN PETALWID SEPALLEN SEPALWID PETALLEN PETALWID SEPALLEN 1.000 -0.118 0.872 0.818 SEPALLEN 0.686 -0.042 1.274 0.516 SEPALWID -0.118 1.000 -0.428 -0.366 SEPALWID -0.042 0.190 -0.330 -0.122 PETALLEN 0.872 -0.428 1.000 0.963 PETALLEN 1.274 -0.330 3.116 1.296 PETALWID 0.818 -0.366 0.963 1.000 PETALWID 0.516 -0.122 1.296 0.581 Jednoznačně v případě nesrovnatelných jednotek (např. věk vs. krevní tlak) Korelace je vlastně kovariance standardizovaná na variabilitu dat, tedy kovariance na standardizovaných datech = korelace Diagonála obsahuje hodnotu 1 - Úplná korelace proměnné sama se sebou - Standardizovaný rozptyl Ostatní buňky obsahují vzájemné korelace proměnných Lze použít v případě proměnných o stejných jednotkách a podobném významu (např. rozměry objektu) Má smysl v případě, že chceme zohlednit absolutní hodnoty a rozsah proměnných Diagonála obsahuje hodnotu rozptylu proměnných Ostatní buňky obsahují kovarianci (= sdílený rozptyl) proměnných IBA m j Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Výstupy PCA Vlastní čísla (eigenvalues) Vlastní vektory (eigenvectors) Communalities Souřadnice objektů Scree plot Biplot Variable Eigenvectors of correlation matrix (Irisdat) Active variables only Factor 1 | Factor 2 | Factor 3 Factor 4 SEPALLEN -0.52106610.377418 0.719566 -0.261286 SEPALWID 0.269347 0.923296 -0.244382 0.123510 PETALLEN -0.580413 0.024492 -0.142126 0.801449 PETALWID -0.564857 0.066942 -0.634273 -0.523597 Value number Eigenvalues of correlation matrix, and related statisti Active variables only Eigenvalue % Total variance Cumulative Eigenvalue Cumulative % 1 2.918498 72 96245 2.918498 72.9624 2 0.914030 22 85076 3.832528 95.8132 3 0.146757 3 56892 3.979285 99 4321 4 0.020715 0 51^37 4.000000 100.0000 Projection of the variables on the factor-plane (1x2) Projection of the cases on the factor-plane (1x2) Cases with sum of cosine square >= 0.00 CP O O o C O O fco a© <"> iř" > 3fc °„ a F 1 O -O CT" Cr* O O Eigenvalues of correlation matrix Active variables only Eigenvalue number Factor 1:72.96% IB A I Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Vlastní čísla (Eigenvalues) Korelační matice Kovarianční matice SEPALLEN SEPALWID PETALLEN PETALWID SEPALLEN SEPALWID PETALLEN PETALWID SEPALLEN 1.000 -0.118 0.872 0.818 SEPALLEN 0.686 -0.042 1.274 0.516 SEPALWID -0.118 1.000 -0.428 -0.366 SEPALWID -0.042 0.190 -0.330 -0.122 PETALLEN 0.872 -0.428 1.000 0.963 PETALLEN 1.274 -0.330 3.116 1.296 PETAL Wl D 0.818 -0.366 0.963 1.000 PETALWID 0.516 -0.122 1.296 0.581 . , Kumulativní Kumulativní ._. , „ . , Kumi Eigenvalue % Rozptylu Kumulativní eigenvalue Kumulativní % rozptylu Eigenvalue % Rozptylu Kumulativní eigenvalue Kumulativní % rozptylu 1 2.918 73.0 2.918 73.0 1 4.228 92.5 4.228 92.5 2 0.914 22.9 3.833 95.8 2 0.243 5.3 4.471 97.8 3 0.147 3.7 3.979 99.5 3 0.078 1.7 4.549 99.5 4 0.021 0.5 4.000 100.0 4 0.024 0.5 4.573 100.0 • Spjaty s vytvářenými faktorovými osami • • Suma eigenvalues = počet proměnných (suma • standardizovaných rozptylů) • Hodnota eigenvalue je ve vztahu k variabilitě vztahu proměnných vyčerpané příslušnou faktorovou osou • • Hodnota eigenvalue = kolikrát více vyčerpává faktorová osa variability než by na ni připadalo rovnoměrným rozdělením (eigenvalues) Spjaty s vytvářenými faktorovými osami Suma eigenvalues = suma rozptylu Velikost eigenvalue je ve vztahu k variabilitě vyčerpané příslušnou faktorovou osou Hodnota eigenvalue/průměrné eigenvalue = kolikrát více vyčerpává faktorová osa variability než by na ni připadalo rovnoměrným rozdělením IBA |^j I Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Interpretace vyčerpané variability faktorovými osami • Variabilita vyčerpaná faktorovými osami je vztažena pouze k použitým proměnným • Nevypovídá nic o proměnných nezahrnutých do analýzy !!!! • Orientačně odpovídá počtu (nebo rozptylu) proměnných navázaných na příslušnou osu • Souvisí i s počtem proměnných v analýze, čím více proměnných, tím spíše bude variabilita vyčerpaná první osou nižší (platí samozřejmě pouze v případě, že nejsou přidávány silně redundantní proměnné) • V případě silně redundantních proměnných tyto redundantní proměnné zvyšují variabilitu vyčerpanou na příslušné faktorové ose, s níž jsou spjaty Projection of the variables on the factor-plane ( 1 x 2) -1.0 -0.5 0.0 0.5 1.0 Factor 1 : 72.96% IBA l^jjjj Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Vyčerpaná variabilita a redundance proměnných Příklad 1 Příklad 2 Příklad 3 li. -0.5 - 1 ■ ■ ■ ■ 1 7 \ \ 1 ■ ■ ■ ■ 1 \ \ r i ' V2 v v \ \ \ \ t \ ee i 1 \ / -1.0 -0.5 0.0 0.5 1.0 Factor 1 : 33.33% V1 V2 V3 V4 V1 1.00 0.19 0.10 0.05 V2 0.19 1.00 0.13 0.11 V3 0.10 0.13 1.00 0.05 V4 0.05 0.11 0.05 1.00 Slabé korelace mezi proměnnými Vyčerpaná variabilita na první ose jen mírně převyšuje 1/4 V1 V2 V3 V4 -0.5 0.0 0.5 1.0 Factor 1 : 57.71% V1 V2 V3 V4 1.00 0.52 0.71 0.14 0.52 1.00 0.30 0.72 0.71 0.30 1.00 0.20 0.14 0.72 0.20 1.00 Silné korelace mezi proměnnými Vyčerpaná variabilita na první ose představuje více než polovinu celkové variability li. -0.5 -1.0 -0.5 0.0 0.5 1.0 Factor 1 : 52.77% V1 V2 V3 V4 V5 V6 V7 V1 1.00 0.19 0.12 0.12 0.90 0.89 0.89 V2 0.19 1.00 0.12 0.09 -0.01 -0.01 -0.03 V3 0.12 0.12 1.00 0.12 0.02 0.02 0.02 V4 0.12 0.09 0.12 1.00 0.02 -0.01 0.03 V5 0.90 -0.01 0.02 0.02 1.00 0.90 0.90 V6 0.89 -0.01 0.02 -0.01 0.90 1.00 0.90 V7 0.89 -0.03 0.02 0.03 0.90 0.90 1.00 • K příkladu 1 přidány proměnné redundantní k VI Výsledek PCAse kompletně mění, první osa vyčerpává přes polovinu variability díky redundantním proměnným IBA m j Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody 11 Vlastní vektory Korelační matice Kovarianční matice SEPALLEN SEPALWID PETALLEN PETALWID SEPALLEN SEPALWID PETALLEN PETALWID SEPALLEN 1.000 -0.118 0.872 0.818 SEPALLEN 0.686 -0.042 1.274 0.516 SEPALWID -0.118 1.000 -0.428 -0.366 SEPALWID -0.042 0.190 -0.330 -0.122 PETALLEN 0.872 -0.428 1.000 0.963 PETALLEN 1.274 -0.330 3.116 1.296 PETAL Wl D 0.818 -0.366 0.963 1.000 PETALWID 0.516 -0.122 1.296 0.581 "^^^ Standardizace na délku 1 V Factor 1 Factor 2 Factor 3 Factor 4 Factor 1 Factor 2 Factor 3 Factor 4 SEPALLEN -0.521 0.377 0.720 -0.261 SEPALLEN -0.361 0.657 0.582 -0.315 SEPALWID 0.269 0.923 -0.244 0.124 SEPALWID 0.085 0.730 -0.598 0.320 PETALLEN -0.580 0.024 -0.142 0.801 PETALLEN -0.857 -0.173 -0.076 0.480 PETALWID -0.565 0.067 -0.634 -0.524 PETALWID -0.358 -0.075 -0.546 -0.754 Standardizace na délku druhé odmocniny eigenvalue (směrodatná odchylka) Factor 1 Factor 2 Factor 3 Factor 4 Factor 1 Factor 2 Factor 3 Factor 4 SEPALLEN -0.890 0.361 0.276 -0.038 SEPALLEN -0.743 0.323 0.163 -0.049 SEPALWID 0.460 0.883 -0.094 0.018 SEPALWID 0.174 0.360 -0.167 0.049 PETALLEN -0.992 0.023 -0.054 0.115 PETALLEN -1.762 -0.085 -0.021 0.074 PETALWID -0.965 0.064 -0.243 -0.075 PETALWID -0.737 -0.037 -0.153 -0.116 • Vlastní vektory popisují směr kterým v prostoru původních proměnných směřují faktorové osy • Eigenvektory mohou být různým způsobem standardizovány a vizualizovány; interpretace výstupů (tzv. biplotů) se liší podle použité standardizace MU M_ l llil 1 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Vlastnosti vlastních vektorů • Vlastní vektory jsou navzájem ortogonální (nezávislé, svírající úhel 90°) • Z hlediska interpretace definují nezávislé proměnné, tedy nesoucí zcela unikátní informaci o objektech • Definují směr nových faktorových os v prostoru původních proměnných a umožňují počítat pozici objektů na nových faktorových osách • Geometrie součinu vektorů - Součin vektorů lze spočítat jako součin jejich délek násobený cosinem úhlu, který svírají. Pokud 2 vektory svírají pravý úhel je jejich součin 0 a nazývají se orthogonální vektory. Matice, jejíž sloupcové vektory navzájem svírají pravý úhel se nazývá orthogonální matice. Biplot Biplot - současná vizualizace pozice proměnných a objektů Několik typů biplotů s různou interpretací Pro zjednodušení interpretace je možné hodnoty na osách násobit konstantou Projection of the cases on the factor-plane (1x2) Cases with sum of cosine square >= 0.00 5 4 3 2 00 1 CM CM * 0 ° -1 o 1 -0.5 - -1.0 - -1.0 -0.5 0.0 0.5 Factor 1 : 72.96% 1.0 -2 -4 -5 -3 -2 -1 0 1 Factor 1: 72.96% Variabilita vyčerpaná faktorovými osami Jednotková kružnice -Hranice příspěvku k definici faktorové osy Variabilita vyčerpaná faktorovými osami —.—1—1—1—1—1—1—1—1—.—1—1 i—■—■—■—i i—■—■—■—i 1—■—■—■—1 1—■—■—■—1 CP o o o 0 o o OD 6® J O (p* Q o rv ( \ O /0 Pozice objela ctů IBA |^j | Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody 14 Standardizace eigenvektorů a její interpretace I • Standardizace délky eigenvektorů na jednotkovou délku - Při vizualizaci vede na tzv. Biplot vzdáleností (distance biplot) - Pozice objektů na faktorových osách mají rozptyl=příslušné eigenvalue - Interpretace biplotu Umožňuje interpretovat euklidovské vzdálenosti objektů v prostoru PCA (jsou aproximací euklidovských vzdáleností v původním prostoru) Projekce objektu v pravém uhlu na původní proměnnou aproximuje pozici objektu na této původní proměnné Délka projekce jednotlivých původních proměnných v prostoru faktorových os popisuje jejich příspěvek k definici daného faktorového prostoru Úhly mezi původními proměnnými ve faktorovém prostoru nemají žádnou intepretaci Standardizace eigenvektorů a její interpretace II • Standardizace délky eigenvektorů na druhou odmocninu z eigenvalue - Při vizualizaci vede na tzv. Biplot korelací (correlation biplot) - Pozice objektů na faktorových osách mají jednotkový rozptyl - Interpretace biplotu euklidovské vzdálenosti objektů v prostoru PCA nejsou aproximací euklidovských vzdáleností v původním prostoru Projekce objektu v pravém uhlu na původní proměnnou aproximuje pozici objektu na této původní proměnné Délka projekce jednotlivých původních proměnných v prostoru faktorových os popisuje jejich směrodatnou odchylku Úhly mezi původními proměnnými ve faktorovém prostoru souvisí s jejich korelací Není vhodný pokud má smysl interpretovat vzdálenosti (vzájemné vztahy) mezi objekty Correlation biplot Korelační matice Kovarianční matice 00 CNÍ OJ OJ i_ o 75 03 -1.0 -0.5 0.0 0.5 Factor 1 : 72.96% 1.0 co OJ 1.0 0.5 0.0 -0.5 o 03 u- -1.0 -1.5 -2.0 —■—i i—'—i O r EPA / / / f _Wlf ?ET/ ALLE :N SEP PET ALL ALV EN /ID Sc ■—^ e— -Ö-- -2.0 -1.6 -1.2 -0.8 -0.4 0.0 0.4 -1.8 -1.4 -1.0 -0.6 -0.2 0.2 Factor 1 : 92.46% IBA |^j I Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody 17 Zachování vzdáleností objektů v původním prostoru vzhledem k různým typům biplotu • Pouze distance biplot zachovává vzdálenostní vztahy mezi objekty, v případě korelačního biplotu není možná interpretace těchto vzdáleností Kosatce standardizované —> Ol c IUI í Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody 18 Standardizace eigenvektorů a její vliv na projekci původních proměnných: shrnutí Kovarianční matice Korelační matice Původní proměnná (centrovaná) Standardizace eigenvektorů Ví i i Celková délka SJ i i i Úhly proměnných v redukovaném prostoru Projekce kovariancí (korelací) 90° rotace systému os Projekce korelací 90° rotace systému os Hranice příspěvku k definici faktorové osy \% \% \v, Projekce na faktorovou osu k Kovariance s k Proporcionální kovarianci s k ujk"ÍK Korelace s k Proporcionální korelaci s k Korelace s faktorovou osou k ujk^\ uik^K Ak Eigenvalue faktorové osy k d Počet původních proměnných ujk Hodnota eigenvektorů faktorové osy k pro původní proměnnou j sj Směrodatná odchylka původní proměnné j P Počet faktorových os IBA l^jjjj Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Communalities Jde o podíl variability sdílené s jinými proměnnými, zde s postupně se zvyšujícím počtem faktorových os From 1 From 2 From 3 From 4 SEPALLEN 0.792 0.923 0.999 1.000 SEPALWID 0.212 0.991 1.000 1.000 PETALLEN 0.983 0.984 0.987 1.000 PETALWID 0.931 0.935 0.994 1.000 Cosinus2 Souvisíš geometrickým významem cosinu při násobení vektorů, kdy cos=0 znamená ortogonální vztah vektorů V PCA se používá jako filtr pro zobrazení objektů v biplotu, kdy objekty s cos2 ~ 0 jsou umístěny kolmo k rovině definované vybranými faktorovými osami a tedy nejsou v tomto pohledu interpretovatelné b*c=(délka b)*(délka c)*cos(9) oc=90° cos2=0 IBA |^j | Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody 20 Identifikace optimálního počtu faktorových os pro další analýzu • Jedním z cílů ordinační analýzy je výběr menšího počtu dimenzí pro další analýzu • Řada pravidel pro výběr optimálního počtu dimenzí, optimální je samozřejmě skončit s výběrem dvou, maximálně tří dimenzí (s výjimkou speciálních aplikací typu analýzy obrazů MRI, kde je úspěchem redukce z milionu dimenzi na desítky) • Kaiser Guttmanovo kritérium: - Pro další analýzu jsou vybrány osy s vlastním číslem >1 (korelace) nebo větším než je průměrné eigenvalue (kovariance) - Logika je vybírat osy, které přispívají k vysvětlení variability dat více než připadá rovnoměrným rozdělením variability • Scree plot - Grafický nástroj hledající zlom ve vztahu počtu os a vyčerpané variability • Sheppard diagram - Grafická analýza vztahu mezi vzdálenostmi objektů v původním prostoru a redukovaném prostoru o daném počtu dimenzí IBA l^jjjj Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Scree plot 3.5 CD _2 03 > CD g> Lu 3.0 - 2.5 - 2.0 - 1.5 - 1.0 - 0.5 - 0.0 - -0.5 Zlom ve vztahu mezi počtem eigenvalue a jimy vyčepanou variabilitou - pro další analýzu použity první dvě faktorové osy Eigenvalues of correlation matrix Active variables only -1-1-1-1 72.96% 1-1-1 22\i 35% 7% 3----.5Í >% V J------ ------- 2 3 Eigenvalue number mu M_ l lili 1 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody 22 Sheppard diagram Vztahuje vzdálenosti v prostoru původních proměnných ke vzdálenostem v prostoru vytvořeném PCA Je třeba brát ohled na typ PCA (korelace vs. kovariance) Obecná metoda určení optimálního počtu dimenzí v ordinační analýze (třeba respektovat použitou asociační metriku) Kosatce standardizované w MM Za optimální z hlediska zachování vzdáleností objektů lze považovat dvě nebo tři dimenze Při použití všech dimenzí jsou vzdálenosti perfektně zachovány IBA |^j j Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody 23 Shrnutí • Analýza hlavních komponent je základním nástrojem pro analýzu variability spojitých proměnných a jejich vztahů • Kromě spojitých proměnných mohou být vstupem i binární proměnné (popřípadě kategoriální data ve formě tzv. dummies), ale je třeba mít na paměti jednak omezení vyplývající z double zero problému, jednak omezení týkající se poměru počtu proměnných a objektů • Při výpočtu je nezbytné mít na paměti omezení výpočtu vyplývající z předpokladů analýzy korelácia kovariancí • Analýza hlavních komponent může být počítána za různým účelem, tomu je třeba přizpůsobit výběr použitého algoritmu a výběr výstupů pro další interpretaci • Při interpretaci výstupů analýzy hlavních komponent je třeba zvažovat - Použitý algoritmus a jeho implementace v použitém SW - Typ výstupu PCA a omezení jeho interpretace (standardizace eigenvektorů, typy biplotů apod.) - Praktická interpretace výstupů a vliv artefaktů dat (redundantní proměnné, několik metod měření jednoho parametru apod.) IBA l^jjjj Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody 24 Vícerozměrné statistické metody Faktorová analýza Faktorová analýza • Faktorová analýza se snaží vysvětlit strukturu dat pomocí tzv. společných faktorů vysvětlujících sadu původních proměnných • Čím se principielně liší od analýzy hlavních komponent? - Analýza hlavních komponent - vysvětlení maxima variability v datech - Faktorová analýza - vysvětlení maxima kovariance mezi popisnými proměnnými • Čím se prakticky liší od analýzy hlavních komponent? - Hlavním praktickým rozdílem je rotace proměnných tak aby se vytvořené faktorové osy daly dobře interpretovat - Výhodou je lepší interpretace vztahu původních proměnných - Nevýhodou je prostor pro subjektivní názor analytika daný výběrem rotace • Typy faktorové analýzy - Vysvětlující (Explanatory) - snaží se identifikovat minimální počet faktorů pro vysvětlení dat - Potvrzující (Confirmatory) - testuje hypotézy ohledně skryté struktury v datech IBA l^jjjj Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Společné faktory a základní možné rotace Společný faktor Pozorovaná proměnná Unikátní faktor Rotace ortogonální - Nezávislé faktory Rotace neortogonální - Faktory jsou závislé za účelem zvýšení ^ ^ intepretovatelnosti 1 f, li- li- U: U, Uc IBA l^jjjj Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Faktorová analýza - postup výpočtu 1. Extrakce prvotních faktorů z kovarianční matice (analogie eigenvektorů v PCA) - Oproti PCA pracuje pouze s částí variability každé proměnné (tzv. communality), která je sdílena společnými faktory - Několik možných algoritmů - princiapl factoring, metoda nejmenších čtverců, maximum likelihood apod. - Výsledkem je komplexní struktura faktorů (obdobná PCA), kde řada faktorů má významné loadings (~ vztah) k původním proměnným, počet takových faktorů je tzv. komplexita faktorů. 2. V druhém kroku je rotací dosaženo zjednodušení struktury faktorů, tj. vztah mezi společnými faktory a původními proměnnými je zjednodušen (každá původní proměnná má hlavní vztah s jedním faktorem nebo malým počtem faktorů) - Dva hlavní typy rotace • Ortogonální - faktory nemohou být korelovány, jsou tedy zcela nezávislé • Neortogonální - faktory mohou být korelovány, nejsou tedy zcela nezávislé; vzhledem ke korelacím obtížnější interpretace IBA l^jjjj Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Faktorová analýza - rotace • Ortogonální rotace - Quartimax - minimalizuje sumu čtverců loadings původních proměnných na faktorových osách, tedy zjednodušuje řádky matice loadings (=každá původní proměnná má největší loadings na jedné faktorové ose) - Varimax - zjednodušuje sloupce matice loadings - Equimax - zjednodušuje řádky i sloupce matice loadings - Biquartimax-varianta equimax • Neortogonální rotace - Oblimax - Quartimin - Oblimin - Covarimin - Biquartimin - Atd. IBA l^jjjj Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Vícerozměrné statistické metody Korespondenční analýza Korespondenční analýza • Vstupní data: - Tabulka obsahující souhrny proměnných (počty průměry) za skupiny respondentů • Výstupy analýzy - Vztahy všech původních faktorů a/nebo skupin respondentů v jednoduchém xy grafu • Kritické problémy analýzy - Skupiny s malým počtem hodnot mohou být zatíženy značným šumem a náhodnou chybou - Obtížná interpretace velkého množství malých skupin respondentů • Výpočet probíhá prostřednictvím singular value decomposition na matici chi-square vzdáleností (tedy na matici příspěvků buněk tabulky k celkovému chi-square obdobně jako v klasickém testu dobré shody na kontingenční tabulce) IBA l^jjjj Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody 31 Analýza kontingenčních tabule jako princip výpočtu vícerozměrných analýz Abundance taxonů (nebo počet jakýchkoliv objektů) na lokalitách lze brát jako kontingenční tabulku a mírou vztahu mezi řádky (lokality) a sloupci (taxony) je velikost chi-kvadrátu X(\) = pc I če pozorovaná četnost očekávaná četnost I očekávaná četnost Počítáno pro každou buňku tabulky 9 Ä © ^^^^ 10 0 B 0 10 9 Ä © ^^^^ ^^^^ ^^^^ B 5 5 Pozorovaná tabulka Očekávaná tabulka Hodnota chi-kvadrátu definuje míru odchylky dané buňky (v našem kontextu vztahu taxon-lokalita) od situace, kdy mezi řádky a sloupci (taxon-lokalita) není žádný vztah IBA |^j I Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody 32 Princip korespondenční analýzy • Korespondenční analýza hledá, které kombinace řádků a sloupců hodnocené tabulky nejvíce přispívají k její variabilitě Teoretická Výstupy korespondenční analýzy Q STATISTICS, - [ Data: markpruzkuni* [Sv by 5c}] If^ File Edit View Insert Format Statistics Graphs Tools Data Window Help □ e§ a ® £4 Add to Workbook - Add to Report - ?.£B j Arial z] 110 z] 1 B I u e B 5 ŕ AT ^'S'l^lli + .0 .00 I -fc, .00 + P I 1 I 1 I Obl Vzájemná pozice faktorů a skupin respondentů: vzájemnou pozici lze interpretovat Kvalita DuPont benost firmy Dostupnost výrobků Variabilita vyčerpaná danou faktorovou osou -0.10 BASF Bayer Reklanha Cena výrobků Syngenta -0.14 -0.12 -0.10 -0.08 -0.06 -0.04 -0.02 0.00 0.02 0.04 0.06 0.08 Dimension 1; Eigenvalue: .00303 (48.54% of Inertia) 0.10 |^j | Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody 34 Vícerozměrné statistické metody Multidimensional scaling (Nemetrické vícerozměrné škálování) Multidimensional scaling • Jde o iterační algoritmus řešící převod libovolné asociační matice do Euklidovského prostoru (různé SW tak mohou dosahovat mírně odlišné výsledky) • Cílem je dosáhnout řešení, které při nejmenším počtu vytvořených os zachovává pořadí vzdáleností objektů v původní asociační matici • Vstupem analýzy je libovolná asociační matice (včetně nemetrických koeficientů) • Výstupem je zadaný počet „faktorových os" I |^J I Jiří Jarkovský, Si imona Littnerová: Vícerozměrné statistické metody 36 ensional scaling: Příklad Data vzdáleností evropských měst - > rekonstrukce mapy [Ä] STATISTIC A - [Data: mesta_vzdalenosti (21 v by 24c)] I ]] File Edit View Insert Format Statistics Data Mining Graphs Tools Data Window Help □ ^ y m (Hé Add to Workbook - Add to Report- Add to MS Word - Arial T 10 - BIU s s s A-S.-E-f^liJT + .0 .00 .00 +.0 Ž J, *=? i£? Vars - C:\UsersVJarkovsky\Deskiop\FSTA\mesta_vzdalenosti.xlsj;: Sheet 1 Barcelon 2 3 4 5 6 7 8 9 10 Bělehrad Berlín Brusel Bukurešť Budapešť Kodaň Dublin Hamburg Istanbul Barcelona 0 1528 1497 1062 1968 1498 1757 1469 1471 2230 Bělehrad 1528 0 999 1372 447 316 1327 2145 1229 809 Berlín 1497 999 0 651 1293 689 354 1315 254 1735 Brusel 1062 1372 651 0 1769 1131 766 773 489 2178 Bukurešť 1958 447 1293 1769 0 639 1571 2534 1544 445 Budapešť 1498 316 689 1131 639 0 1011 1894 927 1064 Kodaň 1757 1327 354 766 1571 1011 0 1238 287 2017 Dublin 1469 2145 1315 773 2534 1894 1238 0 1073 2950 Hamburg 1471 1229 254 489 1544 927 287 1073 0 1983 Istanbul 2230 809 1735 2178 445 1064 2017 2950 1983 Oj Kiev 2391 976 1204 1836 744 894 1326 2513 1440 1052 Londýn 1137 1688 929 318 2088 1450 955 462 720 2496 Madrid 504 2026 1867 1314 2469 1975 2071 1449 1785 2734 Miláno 725 885 840 696 1331 788 1157 1413 900 1669 Moskva 3006 1710 1607 2253 1497 1565 1558 2792 1779 1753 Mnichov 1054 773 501 601 1186 563 838 1374 610 1582 Paříž 831 1445 876 261 1869 1247 1025 776 744 2253 Praha 1353 738 280 721 1076 443 633 1465 492 1507 Rím 856 721 1181 1171 1137 811 1529 1882 1307 1373 Saint Petersburg 2813 1797 1319 1903 1740 1556 1143 2314 1414 2099 Sofia 1745 329 1318 1697 296 629 1635 2471 1554 502 Stockholm 2276 1620 810 1280 1742 1316 521 1626 809 2171 Vídeň 1347 489 523 914 855 216 868 1680 742 1273 Varšava 1862 82B 516 1159 946 545 B67 1823 750 1386 IBA m j Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody 37 0450 ensional scaling: Příklad • Kvalita dodržení pořadí vzdáleností v datech při daném počtu os je kontrolována Shepardovým diagramem IBA Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody 38 0450 Vzdálenosti v původních datech a vytvořených faktorových osách Reprezentace výstupu 1.2 1.0 0.8 0.6 0.4 0.2 0.0 -0.2 -0.4 -0.6 -0.8 -1.0 -1.2 i-1-1 Stockholm Saint i- Petersburg Dublin o o o Kc )daň o M t. ondýn o Rri icdI Hamburg o IVI osKva O Dl Uocl o Paříž Dell ITT O Varí >ava o c Praha Q WíQM Mnichov o \ i/ídeň Q rxtcV O Míířiriři Milí C áno Budapešť o lvi o U 1 IU o Barcelone o Bělehrac Řím o o o/ Bukurešť 0 Dfia 0 Istanbul o -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 IBA l^jjjj Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody 40 Reprezentace výstupu l IUI í Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické me IBA M Ordinační analýzy: shrnutí • Analýza hlavních komponent, faktorová analýza, korespondenční analýza a multidimensional scaling se snaží zjednodušit vícerozměrnou strukturu dat výpočtem souhrnných os • Metody se liší v logice tvorby těchto os - Maximální variabilita (analýza hlavních komponent, korespondenční analýza) - Maximální interpretovatelnost os (faktorová analýza) - Převod asociační matice do Euklidovského prostoru (multidimensional scaling) I I Jiří Jarkovský, Si imona Littnerová: Vícerozměrné statistické metody 42