logo-IBA Analýza hlavních komponent (PCA) Pokročilé statistické metody 5. cvičení logo-IBA Analýza hlavních komponent – jaký je cíl? logo-IBA Analýza hlavních komponent – jaký je cíl? •V převážné většině případů existují mezi dimenzemi korelační vztahy, tedy dimenze se navzájem vysvětlují a pro popis kompletní informace v datech není třeba všech dimenzí vstupního souboru. 1.Popis a vizualizace vztahů mezi proměnnými 2.Výběr neredundantních proměnných pro další analýzy 3.Vytvoření zástupných faktorových os 4.Identifikace shluků/odlehlých objektů logo-IBA Analýza hlavních komponent – vstup? logo-IBA Analýza hlavních komponent – vstup? •Pracuje s asociační maticí korelací/kovariancí. •Jaký je vztah mezi kovariancí a korelací? •Kdy použijeme kterou matici? •Jaká bude dimenze matic? logo-IBA Jaký je vztah mezi kovariancí a korelací? •Kovariance popisuje vztah dvou proměnných; její rozsah závisí na variabilitě dat • • • •Korelace = kovariance standardizovaná na rozptyl proměnných. • • • • •Jaké hodnoty se nachází na diagonále korelační matice? •Má smysl použít metody redukce dimenzionality dat v situaci, kdy jsou hodnoty kovariance/korelace blízké nule? •Čemu odpovídá kovariance na standardizovaných datech? • Pokud D(x1)=D(x2)=1 → kovariance = korelace logo-IBA Analýza hlavních komponent – předpoklady? logo-IBA Analýza hlavních komponent – předpoklady? •Více objektů než proměnných (obvykle se uvádí 10x větší počet objektů než proměnných) •Vícerozměrná technika – 100% vyplněnost dat (jedna chybějící hodnota vede k odstranění celého objektu z analýzy) •Souvisí s výpočtem asociační matice – korelace/kovariance vyžadují zhruba normální rozdělení proměnných. ALE! Jaké mohou být výjimky? logo-IBA Problémy s výpočtem korelačního koeficientu Identifikace shluků Identifikace odlehlých hodnot X r = 0,981 (p < 0,001) Y Y X r = 0,762 (p < 0,001) •Výjimkou jsou situace, kdy provádíme analýzu za účelem identifikace shluků / odlehlých hodnot. logo-IBA Popis výstupů - příklad •Jelikož jsou vstupní data měřena ve stejných jednotkách, analýza bude provedena na kovarianční matici, vstupní data jsou centrována průměrem → logo-IBA Popis výstupů - příklad → % rozptylu, které popisuje osa: 184/(184+14) *100 = 92.9 % → % rozptylu, které popisuje osa: 14/(184+14) *100 = 7.1 % 184+14=22+176 → PCA přerozděluje rozptyl původních dat logo-IBA Popis výstupů - příklad •Nové osy (y1, y2) jsou lineární kombinací původních proměnných: [101; 16] [-4,66; 2,06] •PCA natočí datový prostor a vytvoří nové osy tak, aby popisovaly maximum variability původních dat. logo-IBA Popis výstupů - příklad •Každá další osa popisuje rozptyl, který nebyl popsán osami předchozími – každá další osa je nezávislá = kolmá na osy předchozí. • • • • • • • • • • • • • •Výběrem faktorových os přicházíme o určité % variability původních dat logo-IBA Grafické výstupy Biplot korelací Variabilita vyčerpaná faktorovými osami Pozice proměnných Jednotková kružnice - Hranice příspěvku k definici faktorové osy Pozice objektů Variabilita vyčerpaná faktorovými osami Biplot vzdáleností Výsledek obrázku pro sepal petal logo-IBA Jaký počet os popisuje dostatečně datový soubor? logo-IBA Jaký počet os popisuje dostatečně datový soubor? •Ideálně 2-3 osy, je však potřeba brát ohled na % rozptylu původních dat, který vybranými osami popíšeme. • • •Kaiser-Gutmanovo kritérium • üPro další analýzu jsou vybrány osy s vlastním číslem >1 (korelace) nebo větším než je průměrné eigenvalue (kovariance) üLogika je vybírat osy, které přispívají k vysvětlení variability dat více než připadá rovnoměrným rozdělením variability • logo-IBA Jaký počet os popisuje dostatečně datový soubor? •Scree plot üGrafický nástroj hledající zlom ve vztahu počtu os a vyčerpané variability • •Zlom ve vztahu mezi počtem nových os a popsanou variabilitou – pro další analýzu budou použity první dvě faktorové osy. •Tyto osy popisují téměř 96 % rozptylu původních dat. logo-IBA Jaký počet os popisuje dostatečně datový soubor? •Shepardův diagram üVykresluje vzdálenosti v prostoru původních proměnných proti vzdálenostem na nových osách Za optimální z hlediska zachování vzdáleností objektů lze považovat dvě nebo tři dimenze. Při použití všech dimenzí jsou vzdálenosti perfektně zachovány.