logo-IBA Analýza hlavních komponent (PCA) Bi8600: Vícerozměrné metody 3. cvičení Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Analýza hlavních komponent – jaký je cíl? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Analýza hlavních komponent – jaký je cíl? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová •V převážné většině případů existují mezi dimenzemi korelační vztahy, tedy dimenze se navzájem vysvětlují a pro popis kompletní informace v datech není třeba všech dimenzí vstupního souboru. 1.Popis a vizualizace vztahů mezi proměnnými 2.Výběr neredundantních proměnných pro další analýzy 3.Vytvoření zástupných faktorových os 4.Identifikace shluků v datech spjatých s variabilitou dat 5.Identifikace vícerozměrně odlehlých objektů logo-IBA Analýza hlavních komponent – vstup? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Analýza hlavních komponent – vstup? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová •Pracuje s asociační maticí korelací/kovariancí. •Kdy použijeme kterou matici? •Jaká bude dimenze matic? logo-IBA Jaký je vztah mezi kovariancí a korelací? •Kovariance popisuje vztah dvou proměnných; její rozsah závisí na variabilitě dat • • • •Korelace = kovariance standardizovaná na rozptyl proměnných. • • • • •Jaké hodnoty se nachází na diagonále korelační matice? •Má smysl použít metody redukce dimenzionality dat v situaci, kdy jsou hodnoty kovariance/korelace blízké nule? •Čemu odpovídá kovariance na standardizovaných datech? • Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová Pokud D(x1)=D(x2)=1 → kovariance = korelace logo-IBA Analýza hlavních komponent – předpoklady? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová logo-IBA Analýza hlavních komponent – předpoklady? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová •Více objektů než proměnných (obvykle se uvádí 10x větší počet objektů než proměnných) •Souvisí s výpočtem asociační matice – korelace/kovariance vyžadují zhruba normální rozdělení proměnných. ALE! Jaké mohou být výjimky? logo-IBA Problémy s výpočtem korelačního koeficientu Identifikace shluků Identifikace odlehlých hodnot X r = 0,981 (p < 0,001) Y Y X r = 0,762 (p < 0,001) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová •Výjimkou jsou situace, kdy provádíme analýzu za účelem identifikace shluků / odlehlých hodnot. logo-IBA Popis výstupů - příklad Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová •Jelikož jsou vstupní data měřena ve stejných jednotkách, analýza bude provedena na kovarianční matici, vstupní data jsou centrována průměrem → logo-IBA Popis výstupů - příklad Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová → % rozptylu, které popisuje osa: 184/(184+14) *100 = 92.9 % → % rozptylu, které popisuje osa: 14/(184+14) *100 = 7.1 % 184+14=22+176 → PCA přerozděluje rozptyl původních dat logo-IBA Popis výstupů - příklad Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová •Nové osy (y1, y2) jsou lineární kombinací původních proměnných: [101; 16] [-4,66; 2,06] •PCA natočí datový prostor a vytvoří nové osy tak, aby popisovaly maximum variability původních dat. logo-IBA Popis výstupů - příklad Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová •Každá další osa popisuje rozptyl, který nebyl popsán osami předchozími – každá další osa je nezávislá = kolmá na osy předchozí. • • • • • • • • • • • • • •Výběrem faktorových os přicházíme o určité % variability původních dat logo-IBA Grafické výstupy Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová Biplot korelací Variabilita vyčerpaná faktorovými osami Pozice proměnných Jednotková kružnice - Hranice příspěvku k definici faktorové osy Pozice objektů Variabilita vyčerpaná faktorovými osami Biplot vzdáleností logo-IBA Jaký počet os popisuje dostatečně datový soubor? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová •Ideálně 2-3 osy, je však potřeba brát ohled na % rozptylu původních dat, který vybranými osami popíšeme. logo-IBA Jaký počet os popisuje dostatečně datový soubor? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová •Kaiser-Gutmanovo kritérium • üPro další analýzu jsou vybrány osy s vlastním číslem >1 (korelace) nebo větším než je průměrné eigenvalue (kovariance) üLogika je vybírat osy, které přispívají k vysvětlení variability dat více než připadá rovnoměrným rozdělením variability • logo-IBA Jaký počet os popisuje dostatečně datový soubor? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová •Scree plot üGrafický nástroj hledající zlom ve vztahu počtu os a vyčerpané variability • •Zlom ve vztahu mezi počtem nových os a popsanou variabilitou – pro další analýzu budou použity první dvě faktorové osy. •Tyto osy popisují téměř 96 % rozptylu původních dat. logo-IBA Jaký počet os popisuje dostatečně datový soubor? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová •Sheppardův diagram üVykresluje vzdálenosti v prostoru původních proměnných proti vzdálenostem na nových osách Za optimální z hlediska zachování vzdáleností objektů lze považovat dvě nebo tři dimenze. Při použití všech dimenzí jsou vzdálenosti perfektně zachovány. logo-IBA Samostatný úkol Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Brožová •Skript s řešením zašlete na brozova@iba.muni.cz. •Vstupem je matice korelací/kovariancí? Jaká je dimenze této matice? •Jaká je hodnota prvních dvou vlastních čísel? Co tyto hodnoty popisují? •Jaký počet os byste vybrali pro popis dat dle Kaiser-Gutmanova kritéria a dle Sheppardova diagram? Jaké % rozptylu dat popisuje vybraný počet os? •Z biplotu korelací a vzdáleností řešte: a)Jaká je korelace (kladná/záporná) váhy a délky vozidla? b)Jaká je korelace (kladná/záporná) efektivity spotřeby paliva („fuel efficiency“) a velikosti motoru („engine size“)? c)Uveďte parametr, který nejvíce přispívá k definici druhé hlavní komponenty. d)Popište velikost motoru („engine size“) a efektivitu paliva („fuel efficiency“) modelu S-class.