Vícerozměrné statistické metody Ordinační analýzy – přehled metod Jiří Jarkovský, Simona Littnerová Vícerozměrné statistické metody Analýza hlavních komponent jako příklad výpočtu redukce dimenzionality pomocí ordinační analýzy logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Analýza hlavních komponent •Analýza hlavních komponent je typickou metodou ze skupiny ordinačních analýz •Pracuje s asociací proměnných popisujících objekty a snaží se na základě jejich korelací/kovariancí stanovit dimenze zahrnující větší podíl variability než připadá na původní proměnné •Předpoklady jsou obdobné jako při výpočtu korelací a kovariancí: –nepřítomnost odlehlých hodnot (s výjimkou situace kdy analýzu provádíme za účelem identifikace odlehlých hodnot) –nepřítomnost více skupin objektů (s výjimkou situace kdy analýzu provádíme za účelem detekce přirozeně existujících shluků spjatých s největší variabilitou souboru) •Datový soubor musí mít více objektů než proměnných, pro získání stabilních výsledků se doporučuje alespoň 10x tolik objektů než proměnných, ideální je 40-60x více objektů než proměnných • •Cíle analýzy –Popis a vizualizace vztahů mezi proměnnými –Výběr neredundantních proměnných pro další analýzy –Vytvoření zástupných faktorových os pro použití v dalších analýzách –Identifikace shluků v datech spjatých s variabilitou dat –Identifikace vícerozměrně odlehlých objektů – 3 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Výpočet faktorových os •Výpočetně vychází analýza hlavních komponent z korelační/kovarianční asociační matice (a obdobně i další ordinační analýzy, pouze pomocí jiných asociačních metrik) •Vlastní výpočet je pak realizován prostřednictvím výpočtu vlastních čísel a vlastních vektorů této matice • •Vlastní vektory a vlastní čísla –Existují pro čtvercové matice –Vyžadují aby hodnost matice odpovídala jejímu řádu, tedy pouze pro matice v nichž neexistuje lineární závislost. Tento fakt komplikuje (nebo znemožňuje) výpočet při přítomnosti zcela redundantních (lineárně závislých) proměnných –Vlastní čísla matice jsou ve vazbě na variabilitu vyčerpanou vytvářenými faktorovými osami –Vlastní vektory definují směr nových faktorových os v prostoru původních proměnných –Existuje několik možných vyjádření vlastních čísel a vlastních vektorů, proto je před interpretací výstupů nezbytné znát algoritmus použitý v SW 4 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Vlastní čísla a vlastní vektory 5 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Příklad výpočtu 6 Primární data SEPALLEN SEPALWID PETALLEN PETALWID SEPALLEN 1.000 -0.118 0.872 0.818 SEPALWID -0.118 1.000 -0.428 -0.366 PETALLEN 0.872 -0.428 1.000 0.963 PETALWID 0.818 -0.366 0.963 1.000 Korelační matice Kovarianční matice SEPALLEN SEPALWID PETALLEN PETALWID SEPALLEN 0.686 -0.042 1.274 0.516 SEPALWID -0.042 0.190 -0.330 -0.122 PETALLEN 1.274 -0.330 3.116 1.296 PETALWID 0.516 -0.122 1.296 0.581 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Kovarianční nebo korelační matice? •Jednoznačně v případě nesrovnatelných jednotek (např. věk vs. krevní tlak) •Korelace je vlastně kovariance standardizovaná na variabilitu dat, tedy kovariance na standardizovaných datech = korelace •Diagonála obsahuje hodnotu 1 –Úplná korelace proměnné sama se sebou –Standardizovaný rozptyl •Ostatní buňky obsahují vzájemné korelace proměnných 7 SEPALLEN SEPALWID PETALLEN PETALWID SEPALLEN 1.000 -0.118 0.872 0.818 SEPALWID -0.118 1.000 -0.428 -0.366 PETALLEN 0.872 -0.428 1.000 0.963 PETALWID 0.818 -0.366 0.963 1.000 Korelační matice Kovarianční matice SEPALLEN SEPALWID PETALLEN PETALWID SEPALLEN 0.686 -0.042 1.274 0.516 SEPALWID -0.042 0.190 -0.330 -0.122 PETALLEN 1.274 -0.330 3.116 1.296 PETALWID 0.516 -0.122 1.296 0.581 •Lze použít v případě proměnných o stejných jednotkách a podobném významu (např. rozměry objektu) •Má smysl v případě, že chceme zohlednit absolutní hodnoty a rozsah proměnných •Diagonála obsahuje hodnotu rozptylu proměnných •Ostatní buňky obsahují kovarianci (= sdílený rozptyl) proměnných logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Výstupy PCA •Vlastní čísla (eigenvalues) •Vlastní vektory (eigenvectors) •Communalities •Souřadnice objektů •Scree plot •Biplot 8 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Vlastní čísla (Eigenvalues) 9 SEPALLEN SEPALWID PETALLEN PETALWID SEPALLEN 1.000 -0.118 0.872 0.818 SEPALWID -0.118 1.000 -0.428 -0.366 PETALLEN 0.872 -0.428 1.000 0.963 PETALWID 0.818 -0.366 0.963 1.000 Korelační matice Kovarianční matice SEPALLEN SEPALWID PETALLEN PETALWID SEPALLEN 0.686 -0.042 1.274 0.516 SEPALWID -0.042 0.190 -0.330 -0.122 PETALLEN 1.274 -0.330 3.116 1.296 PETALWID 0.516 -0.122 1.296 0.581 Eigenvalue % Rozptylu Kumulativní eigenvalue Kumulativní % rozptylu 1 2.918 73.0 2.918 73.0 2 0.914 22.9 3.833 95.8 3 0.147 3.7 3.979 99.5 4 0.021 0.5 4.000 100.0 Eigenvalue % Rozptylu Kumulativní eigenvalue Kumulativní % rozptylu 1 4.228 92.5 4.228 92.5 2 0.243 5.3 4.471 97.8 3 0.078 1.7 4.549 99.5 4 0.024 0.5 4.573 100.0 •Spjaty s vytvářenými faktorovými osami •Suma eigenvalues = počet proměnných (suma standardizovaných rozptylů) •Hodnota eigenvalue je ve vztahu k variabilitě vztahu proměnných vyčerpané příslušnou faktorovou osou •Hodnota eigenvalue = kolikrát více vyčerpává faktorová osa variability než by na ni připadalo rovnoměrným rozdělením (eigenvalue=1) • •Spjaty s vytvářenými faktorovými osami •Suma eigenvalues = suma rozptylu •Velikost eigenvalue je ve vztahu k variabilitě vyčerpané příslušnou faktorovou osou •Hodnota eigenvalue/průměrné eigenvalue = kolikrát více vyčerpává faktorová osa variability než by na ni připadalo rovnoměrným rozdělením • logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Interpretace vyčerpané variability faktorovými osami •Variabilita vyčerpaná faktorovými osami je vztažena pouze k použitým proměnným •Nevypovídá nic o proměnných nezahrnutých do analýzy !!!! •Orientačně odpovídá počtu (nebo rozptylu) proměnných navázaných na příslušnou osu •Souvisí i s počtem proměnných v analýze, čím více proměnných, tím spíše bude variabilita vyčerpaná první osou nižší (platí samozřejmě pouze v případě, že nejsou přidávány silně redundantní proměnné) •V případě silně redundantních proměnných tyto redundantní proměnné zvyšují variabilitu vyčerpanou na příslušné faktorové ose, s níž jsou spjaty 10 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Vyčerpaná variabilita a redundance proměnných •Slabé korelace mezi proměnnými •Vyčerpaná variabilita na první ose jen mírně převyšuje 1/4 11 V1 V2 V3 V4 V1 1.00 0.19 0.10 0.05 V2 0.19 1.00 0.13 0.11 V3 0.10 0.13 1.00 0.05 V4 0.05 0.11 0.05 1.00 V1 V2 V3 V4 V1 1.00 0.52 0.71 0.14 V2 0.52 1.00 0.30 0.72 V3 0.71 0.30 1.00 0.20 V4 0.14 0.72 0.20 1.00 •Silné korelace mezi proměnnými •Vyčerpaná variabilita na první ose představuje více než polovinu celkové variability V1 V2 V3 V4 V5 V6 V7 V1 1.00 0.19 0.12 0.12 0.90 0.89 0.89 V2 0.19 1.00 0.12 0.09 -0.01 -0.01 -0.03 V3 0.12 0.12 1.00 0.12 0.02 0.02 0.02 V4 0.12 0.09 0.12 1.00 0.02 -0.01 0.03 V5 0.90 -0.01 0.02 0.02 1.00 0.90 0.90 V6 0.89 -0.01 0.02 -0.01 0.90 1.00 0.90 V7 0.89 -0.03 0.02 0.03 0.90 0.90 1.00 Příklad 1 Příklad 2 Příklad 3 •K příkladu 1 přidány proměnné redundantní k V1 •Výsledek PCA se kompletně mění, první osa vyčerpává přes polovinu variability díky redundantním proměnným logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Vlastní vektory 12 SEPALLEN SEPALWID PETALLEN PETALWID SEPALLEN 1.000 -0.118 0.872 0.818 SEPALWID -0.118 1.000 -0.428 -0.366 PETALLEN 0.872 -0.428 1.000 0.963 PETALWID 0.818 -0.366 0.963 1.000 Korelační matice Kovarianční matice SEPALLEN SEPALWID PETALLEN PETALWID SEPALLEN 0.686 -0.042 1.274 0.516 SEPALWID -0.042 0.190 -0.330 -0.122 PETALLEN 1.274 -0.330 3.116 1.296 PETALWID 0.516 -0.122 1.296 0.581 Factor 1 Factor 2 Factor 3 Factor 4 SEPALLEN -0.521 0.377 0.720 -0.261 SEPALWID 0.269 0.923 -0.244 0.124 PETALLEN -0.580 0.024 -0.142 0.801 PETALWID -0.565 0.067 -0.634 -0.524 Factor 1 Factor 2 Factor 3 Factor 4 SEPALLEN -0.361 0.657 0.582 -0.315 SEPALWID 0.085 0.730 -0.598 0.320 PETALLEN -0.857 -0.173 -0.076 0.480 PETALWID -0.358 -0.075 -0.546 -0.754 •Vlastní vektory popisují směr kterým v prostoru původních proměnných směřují faktorové osy •Eigenvektory mohou být různým způsobem standardizovány a vizualizovány; interpretace výstupů (tzv. biplotů) se liší podle použité standardizace Standardizace na délku 1 Standardizace na délku druhé odmocniny eigenvalue (směrodatná odchylka) Factor 1 Factor 2 Factor 3 Factor 4 SEPALLEN -0.890 0.361 0.276 -0.038 SEPALWID 0.460 0.883 -0.094 0.018 PETALLEN -0.992 0.023 -0.054 0.115 PETALWID -0.965 0.064 -0.243 -0.075 Factor 1 Factor 2 Factor 3 Factor 4 SEPALLEN -0.743 0.323 0.163 -0.049 SEPALWID 0.174 0.360 -0.167 0.049 PETALLEN -1.762 -0.085 -0.021 0.074 PETALWID -0.737 -0.037 -0.153 -0.116 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Vlastnosti vlastních vektorů •Vlastní vektory jsou navzájem ortogonální (nezávislé, svírající úhel 90°) •Z hlediska interpretace definují nezávislé proměnné, tedy nesoucí zcela unikátní informaci o objektech •Definují směr nových faktorových os v prostoru původních proměnných a umožňují počítat pozici objektů na nových faktorových osách • •Geometrie součinu vektorů - Součin vektorů lze spočítat jako součin jejich délek násobený cosinem úhlu, který svírají. Pokud 2 vektory svírají pravý úhel je jejich součin 0 a nazývají se orthogonální vektory. Matice, jejíž sloupcové vektory navzájem svírají pravý úhel se nazývá orthogonální matice. • • 13 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Biplot 14 Variabilita vyčerpaná faktorovými osami Pozice proměnných Jednotková kružnice - Hranice příspěvku k definici faktorové osy •Biplot – současná vizualizace pozice proměnných a objektů •Několik typů biplotů s různou interpretací •Pro zjednodušení interpretace je možné hodnoty na osách násobit konstantou Pozice objektů Variabilita vyčerpaná faktorovými osami logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Standardizace eigenvektorů a její interpretace I •Standardizace délky eigenvektorů na jednotkovou délku –Při vizualizaci vede na tzv. Biplot vzdáleností (distance biplot) –Pozice objektů na faktorových osách mají rozptyl=příslušné eigenvalue –Interpretace biplotu •Umožňuje interpretovat euklidovské vzdálenosti objektů v prostoru PCA (jsou aproximací euklidovských vzdáleností v původním prostoru) •Projekce objektu v pravém uhlu na původní proměnnou aproximuje pozici objektu na této původní proměnné •Délka projekce jednotlivých původních proměnných v prostoru faktorových os popisuje jejich příspěvek k definici daného faktorového prostoru •Úhly mezi původními proměnnými ve faktorovém prostoru nemají žádnou intepretaci – – – 15 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Standardizace eigenvektorů a její interpretace II •Standardizace délky eigenvektorů na druhou odmocninu z eigenvalue –Při vizualizaci vede na tzv. Biplot korelací (correlation biplot) –Pozice objektů na faktorových osách mají jednotkový rozptyl –Interpretace biplotu •euklidovské vzdálenosti objektů v prostoru PCA nejsou aproximací euklidovských vzdáleností v původním prostoru •Projekce objektu v pravém uhlu na původní proměnnou aproximuje pozici objektu na této původní proměnné •Délka projekce jednotlivých původních proměnných v prostoru faktorových os popisuje jejich směrodatnou odchylku •Úhly mezi původními proměnnými ve faktorovém prostoru souvisí s jejich korelací •Není vhodný pokud má smysl interpretovat vzdálenosti (vzájemné vztahy) mezi objekty • – – – 16 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Correlation biplot 17 Korelační matice Kovarianční matice logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Zachování vzdáleností objektů v původním prostoru vzhledem k různým typům biplotu •Pouze distance biplot zachovává vzdálenostní vztahy mezi objekty, v případě korelačního biplotu není možná interpretace těchto vzdáleností 18 OK OK !!! !!! logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Standardizace eigenvektorů a její vliv na projekci původních proměnných: shrnutí 19 Kovarianční matice Korelační matice Původní proměnná (centrovaná) Standardizace eigenvektoru 1 1 Celková délka 1 1 1 Úhly proměnných v redukovaném prostoru Projekce kovariancí (korelací) 90° rotace systému os Projekce korelací 90° rotace systému os Hranice příspěvku k definici faktorové osy Projekce na faktorovou osu k Kovariance s k Proporcionální kovarianci s k Korelace s k Proporcionální korelaci s k Korelace s faktorovou osou k Eigenvalue faktorové osy k Směrodatná odchylka původní proměnné j d Počet původních proměnných p Počet faktorových os Hodnota eigenvektoru faktorové osy k pro původní proměnnou j logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Communalities •Jde o podíl variability sdílené s jinými proměnnými, zde s postupně se zvyšujícím počtem faktorových os 20 From 1 From 2 From 3 From 4 SEPALLEN 0.792 0.923 0.999 1.000 SEPALWID 0.212 0.991 1.000 1.000 PETALLEN 0.983 0.984 0.987 1.000 PETALWID 0.931 0.935 0.994 1.000 Cosinus2 •Souvisí s geometrickým významem cosinu při násobení vektorů, kdy cos=0 znamená ortogonální vztah vektorů •V PCA se používá jako filtr pro zobrazení objektů v biplotu, kdy objekty s cos2 ~ 0 jsou umístěny kolmo k rovině definované vybranými faktorovými osami a tedy nejsou v tomto pohledu interpretovatelné a=90° cos2=0 a<90° cos2>0 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Identifikace optimálního počtu faktorových os pro další analýzu •Jedním z cílů ordinační analýzy je výběr menšího počtu dimenzí pro další analýzu •Řada pravidel pro výběr optimálního počtu dimenzí, optimální je samozřejmě skončit s výběrem dvou, maximálně tří dimenzí (s výjimkou speciálních aplikací typu analýzy obrazů MRI, kde je úspěchem redukce z milionu dimenzi na desítky) • •Kaiser Guttmanovo kritérium: –Pro další analýzu jsou vybrány osy s vlastním číslem >1 (korelace) nebo větším než je průměrné eigenvalue (kovariance) –Logika je vybírat osy, které přispívají k vysvětlení variability dat více než připadá rovnoměrným rozdělením variability – •Scree plot –Grafický nástroj hledající zlom ve vztahu počtu os a vyčerpané variability – •Sheppard diagram –Grafická analýza vztahu mezi vzdálenostmi objektů v původním prostoru a redukovaném prostoru o daném počtu dimenzí 21 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Scree plot 22 Zlom ve vztahu mezi počtem eigenvalue a jimy vyčepanou variabilitou – pro další analýzu použity první dvě faktorové osy logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Sheppard diagram •Vztahuje vzdálenosti v prostoru původních proměnných ke vzdálenostem v prostoru vytvořeném PCA •Je třeba brát ohled na typ PCA (korelace vs. kovariance) •Obecná metoda určení optimálního počtu dimenzí v ordinační analýze (třeba respektovat použitou asociační metriku) 23 Za optimální z hlediska zachování vzdáleností objektů lze považovat dvě nebo tři dimenze Při použití všech dimenzí jsou vzdálenosti perfektně zachovány logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Shrnutí •Analýza hlavních komponent je základním nástrojem pro analýzu variability spojitých proměnných a jejich vztahů •Kromě spojitých proměnných mohou být vstupem i binární proměnné (popřípadě kategoriální data ve formě tzv. dummies), ale je třeba mít na paměti jednak omezení vyplývající z double zero problému, jednak omezení týkající se poměru počtu proměnných a objektů • •Při výpočtu je nezbytné mít na paměti omezení výpočtu vyplývající z předpokladů analýzy korelací a kovariancí •Analýza hlavních komponent může být počítána za různým účelem, tomu je třeba přizpůsobit výběr použitého algoritmu a výběr výstupů pro další interpretaci •Při interpretaci výstupů analýzy hlavních komponent je třeba zvažovat –Použitý algoritmus a jeho implementace v použitém SW –Typ výstupu PCA a omezení jeho interpretace (standardizace eigenvektorů, typy biplotů apod.) –Praktická interpretace výstupů a vliv artefaktů dat (redundantní proměnné, několik metod měření jednoho parametru apod.) 24 Vícerozměrné statistické metody Faktorová analýza logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Faktorová analýza •Faktorová analýza se snaží vysvětlit strukturu dat pomocí tzv. společných faktorů vysvětlujících sadu původních proměnných • •Čím se principielně liší od analýzy hlavních komponent? –Analýza hlavních komponent – vysvětlení maxima variability v datech –Faktorová analýza – vysvětlení maxima kovariance mezi popisnými proměnnými • •Čím se prakticky liší od analýzy hlavních komponent? –Hlavním praktickým rozdílem je rotace proměnných tak aby se vytvořené faktorové osy daly dobře interpretovat –Výhodou je lepší interpretace vztahu původních proměnných –Nevýhodou je prostor pro subjektivní názor analytika daný výběrem rotace – •Typy faktorové analýzy –Vysvětlující (Explanatory) – snaží se identifikovat minimální počet faktorů pro vysvětlení dat –Potvrzující (Confirmatory) – testuje hypotézy ohledně skryté struktury v datech • 26 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Společné faktory a základní možné rotace 27 Unikátní faktor Pozorovaná proměnná Společný faktor u1 u2 u3 u4 u5 y1 y2 y3 y4 y5 f1 f2 Rotace ortogonální - Nezávislé faktory u1 u2 u3 u4 u5 y1 y2 y3 y4 y5 f1 f2 Rotace neortogonální - Faktory jsou závislé za účelem zvýšení intepretovatelnosti logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Faktorová analýza – postup výpočtu 1.Extrakce prvotních faktorů z kovarianční matice (analogie eigenvektorů v PCA) –Oproti PCA pracuje pouze s částí variability každé proměnné (tzv. communality), která je sdílena společnými faktory –Několik možných algoritmů – princiapl factoring, metoda nejmenších čtverců, maximum likelihood apod. –Výsledkem je komplexní struktura faktorů (obdobná PCA), kde řada faktorů má významné loadings (~ vztah) k původním proměnným, počet takových faktorů je tzv. komplexita faktorů. 2.V druhém kroku je rotací dosaženo zjednodušení struktury faktorů, tj. vztah mezi společnými faktory a původními proměnnými je zjednodušen (každá původní proměnná má hlavní vztah s jedním faktorem nebo malým počtem faktorů) –Dva hlavní typy rotace •Ortogonální – faktory nemohou být korelovány, jsou tedy zcela nezávislé •Neortogonální - faktory mohou být korelovány, nejsou tedy zcela nezávislé; vzhledem ke korelacím obtížnější interpretace 28 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Faktorová analýza - rotace •Ortogonální rotace –Quartimax – minimalizuje sumu čtverců loadings původních proměnných na faktorových osách, tedy zjednodušuje řádky matice loadings (=každá původní proměnná má největší loadings na jedné faktorové ose) –Varimax – zjednodušuje sloupce matice loadings –Equimax – zjednodušuje řádky i sloupce matice loadings –Biquartimax – varianta equimax •Neortogonální rotace –Oblimax –Quartimin –Oblimin –Covarimin –Biquartimin –Atd. 29 Vícerozměrné statistické metody Korespondenční analýza logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Korespondenční analýza •Vstupní data: –Tabulka obsahující souhrny proměnných (počty, průměry) za skupiny respondentů •Výstupy analýzy –Vztahy všech původních faktorů a/nebo skupin respondentů v jednoduchém xy grafu •Kritické problémy analýzy –Skupiny s malým počtem hodnot mohou být zatíženy značným šumem a náhodnou chybou –Obtížná interpretace velkého množství malých skupin respondentů – •Výpočet probíhá prostřednictvím singular value decomposition na matici chi-square vzdáleností (tedy na matici příspěvků buněk tabulky k celkovému chi-square obdobně jako v klasickém testu dobré shody na kontingenční tabulce) • 31 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Analýza kontingenčních tabule jako princip výpočtu vícerozměrných analýz •Abundance taxonů (nebo počet jakýchkoliv objektů) na lokalitách lze brát jako kontingenční tabulku a mírou vztahu mezi řádky (lokality) a sloupci (taxony) je velikost chi-kvadrátu 32 pozorovaná četnost očekávaná četnost očekávaná četnost = 2 - Počítáno pro každou buňku tabulky N J A 10 0 B 0 10 Pozorovaná tabulka N J A 5 5 B 5 5 Očekávaná tabulka Hodnota chi-kvadrátu definuje míru odchylky dané buňky (v našem kontextu vztahu taxon-lokalita) od situace, kdy mezi řádky a sloupci (taxon-lokalita) není žádný vztah logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Princip korespondenční analýzy •Korespondenční analýza hledá, které kombinace řádků a sloupců hodnocené tabulky nejvíce přispívají k její variabilitě • 33 Vs. Realita Teoretická vyrovnanost logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Výstupy korespondenční analýzy 34 Variabilita vyčerpaná danou faktorovou osou Vzájemná pozice faktorů a skupin respondentů: vzájemnou pozici lze interpretovat Vícerozměrné statistické metody Multidimensional scaling (Nemetrické vícerozměrné škálování) logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Multidimensional scaling •Jde o iterační algoritmus řešící převod libovolné asociační matice do Euklidovského prostoru (různé SW tak mohou dosahovat mírně odlišné výsledky) •Cílem je dosáhnout řešení, které při nejmenším počtu vytvořených os zachovává pořadí vzdáleností objektů v původní asociační matici • •Vstupem analýzy je libovolná asociační matice (včetně nemetrických koeficientů) •Výstupem je zadaný počet „faktorových os“ • 36 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Multidimensional scaling: Příklad •Data vzdáleností evropských měst - > rekonstrukce mapy • 37 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Multidimensional scaling: Příklad •Kvalita dodržení pořadí vzdáleností v datech při daném počtu os je kontrolována Shepardovým diagramem 38 2 osy 1 osa logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Vzdálenosti v původních datech a vytvořených faktorových osách 39 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Reprezentace výstupu 40 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody evropa.jpg Reprezentace výstupu 41 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Ordinační analýzy: shrnutí •Analýza hlavních komponent, faktorová analýza, korespondenční analýza a multidimensional scaling se snaží zjednodušit vícerozměrnou strukturu dat výpočtem souhrnných os •Metody se liší v logice tvorby těchto os –Maximální variabilita (analýza hlavních komponent, korespondenční analýza) –Maximální interpretovatelnost os (faktorová analýza) –Převod asociační matice do Euklidovského prostoru (multidimensional scaling) • 42