5. cvičení 2.12.2014 1 Korespondenční analýza •Korespondenční analýza – nástroj pro analýzu vztahů mezi řádky a sloupci kontingenční tabulky => dvě kategoriální proměnné. •Abundance taxonů (nebo počet jakýchkoliv objektů) na lokalitách lze brát jako kontingenční tabulku a mírou vztahu mezi řádky (lokality) a sloupci (taxony) je velikost chi-kvadrátu • Kategorie první proměnné Kategorie druhé proměnné S1 S2 S3 S4 S5 S6 sites •Základní myšlenkou metody korespondenční analýzy je odvodit indexy (osy), které budou kvantifikovat vztahy mezi řádkovými a sloupcovými kategoriemi. Z těchto indexů můžeme odvodit, která sloupcová kategorie má větší či menší váhu v daném řádku a opačně. •V grafu interpretujeme relativní pozice bodů řádků a sloupců jako váhy přislouchající danému sloupci a řádku. Korespondenční analýza Realita Teoretická vyrovnanosť Princip Korespondenční analýza hledá, které kombinace řádků a sloupců hodnocené tabulky nejvíce přispívají k její variabilitě Statistics >> Multivariate Exploratory Techniques >> Correspondence Analysis Nastavení vstupních dat raw data – proměnné s názvy řádků a sloupců tabulky – frekvence se dopočítají frekvence s třídící proměnnou – sloupec názvů řádků, názvů sloupců, sloupec s frekvencemi frekvence bez řídící proměnné – klasická tabulka – řádky X sloupce, na průsečíku frekvence Podstatou korespondenční analýzy je analýza kontingenčních tabulek, tj. tabulek kde průsečíky řádků a sloupců obsahují frekvenci dané kombinace Korespondenční analýza 4 Korespondenční analýza – výsledky Quick Koordináty řádků a sloupců v souřadném systému Výstup všech základních výsledků 1D, 2D, 3D grafy řádků a sloupců v souřadném systému Počet rozměrů pro grafy a tabulky Vybere počet os, vyčerpávajících určitou hodnotu inertia Popis analýzy 5 Sloupce nebo řádky (samostatné tabulky) Koordináty v ordinačním prostoru CA Celkový podíl řádku v tabulce relativních frekvencí (výpočet závisí na nastavení záložky options) Kvalita zobrazení daného bodu daným počtem dimenzí (proporce bodu k celkové inertii dané počtem dimenzí) Podíl bodu na celkové inertii (neovlivněno počtem dimenzí) Obdoba kvality (cos2 a relative inertia pro jednotlivé dimenze Row and column coordinates 6 Grafy CA 1D,2D,3D Grafy obsahují koordináty jak řádků, tak sloupců původní tabulky. Grafy mohou být generovány pro všechny kombinace dimenzí. 7 Korespondenční analýza - nastavení Počet rozměrů pro grafy a tabulky Vybere počet os, vyčerpávajících určitou hodnotu inertia Způsob standardizace koordinátů 1.Interpretace vzdáleností v rámci řádků i sloupců 2.Kanonická standardizace 3.Interpretace jen v rámci řádků 4.Interpretace jen rámci sloupců 5. 8 Korespondenční analýza– výsledky Advanced Koordináty řádků a sloupců v souřadném systému Výstup všech základních výsledků Eigenvalues ~ inertia “vysvětlená“sloupci + graf Tabulka frekvencí výskytu + nestandartizované koordináty 1D, 2D, 3D grafy řádků a sloupců v souřadném systému Nastavení grafů – výběr os, zkrácení popisek, identické měřítko 9 Jednotlivé dimenze eigenvalue % inertia a kumulativní inertia vybraná dimenzí Počet dimenzí eigenvalue Vysvětlený c2 10 relativní frekvence bodů v původní matici sloupce řádky Podíly řádků a sloupců suma celé matice Korespondenční analýza analyzuje kontingenční tabulky, k původní tabulce frekvencí je vytvořena tabulka očekávaných frekvencí a tyto dvě tabulky jsou pomocí c2 srovnány, analýza hledá takové nové dimenze, které vyčerpávají maximální část celkové c2 hodnoty (tzv. inertia) 11 Korespondenční analýza– přehledy Pozorované četnosti Očekávané četnosti Podíly v řádcích Podíly v sloupcích Podíly v celé tabulce Rozdíl pozorovaných a očekávaných frekvencí Vliv jednotlivých položek tabulky na celkový Chi-square Standartized deviates – odmocnina vlivu na Chi – square + doplnění znaménka 12 Přidání dalších řádků nebo sloupců Přidají se do analýzy na základě již spočítaných parametrů K výsledkům analýzy je možné přidat další řádky nebo sloupce, jejichž pozice v souřadném prostoru se spočítají na základě CA, ale její výpočet neovlivní (obdoba suplementary variables a ne-active cases u PCA 13 Nemetrické mnohorozměrné škálování (NMDS) Cílem analýzy je zobrazit pozorované podobnosti nebo nepodobnosti (vzdálenosti) mezi zkoumanými objekty v euklidovském prostoru; zachovává pouze pořadí vzdáleností Pomocí NMDS můžeme analyzovat nejenom korelační matice (tak jako je tomu v PCA) ale i jakoukoliv jinou matici podobnosti/nepodobnosti Výhody: Neparametrická ordinace – robustnější k odlehlým hodnotám Dá se použít před použitím nehierarchického shlukování k-průměrů (v případech kdy není možné použít euklidovské vzdálenosti) Nevýhody: Nutnost specifikovat počet dimenzí předem Těžko interpretovatelné výsledky v některých případech Výběr parametrů (vstupní soubor musí mít formát asociační matice) Počet dimenzí k extrakci Počáteční konfigurace Vzdálenosti menší než jsou považovány za 0 Počty iterací Statistics >> Multivariate Exploratory Techniques >> Multidimensional Scaling Multidimensional scaling dokáže na základě asociační matice s libovolnou metrikou vytvořit její Euklidovskou reprezentaci (příklad: na základě tabulky vzdáleností měst vytvoří mapu). Multidimensional Scaling 15 Multidimensional Scaling - výpočet Parametry měnící se při přepočtech Multidimensional scaling může sloužit pro přípravu podkladů pro k-means clustering pokud nemůžeme na naše data použít Euklidovskou vzdálenost. Metoda je výpočetně velmi náročná. 16 Multidimensional Scaling – výsledky Quick Výstup nových dimenzí + charakteristiky Popis analýzy Výstupní 2D a D graf Shephard diagram ~ věrnost reprezentace 17 Multidimensional Scaling – výsledky tabulky objekty D-hat ~ průběh vzdáleností při dobré reprezentaci vzdálenosti Nové dimenze Stress – měřítko reprezentace, čím nižší, tím lepší reprezentace Alienation – cizost, čím nižší, tím lepší reprezentace Shepard diagram 18 Multidimensional Scaling – výsledky Advanced Výstup nových dimenzí + charakteristiky Výstupní 2D a 3D graf D-hat, D-star Matice vzdáleností (reprodukovaná) Sumární hodnoty (reprodukovaná vzdálenost, D-hat, D-star) Shepard diagram D-hat, D-star versus reprodukovaná vzdálenost ~ věrnost reprodukce 19 2D graf Shepard diagram Vzdálenosti x D-har (D-star) 3D graf 20