Snížení dimenze dat metodou hlavních komponent Motivace: Metodu hlavních komponent (Principal Component Analysis – PCA) popsal v r. 1901 Karl Pearson a ve 30. letech 20. století ji dále rozvinul Harold Hotelling. Harold Hotelling (1895 – 1973), americký matematik a statistik Cíl PCA: vyjádřit informace o variabilitě obsažené v datovém souboru pomocí několika málo nových znaků získaných jako lineární kombinace znaků původních. 1. Nové znaky (hlavní komponenty) jsou uspořádané podle svého klesajícího rozptylu. 2. Hlavní komponenty jsou nekorelované. 3. První hlavní komponenta je nejdůležitější, vysvětlí co nejvíce z celkové variability. 4. Každá další hlavní komponenta vysvětlí co nejvíce ze zbývající variability, takže poslední hlavní komponenta je nejméně důležitá. 5. Je-li p počet původních znaků a rozhodneme-li se použít právě m (m ≤ p) hlavních komponent, pak požadujeme, aby těchto m hlavních komponent vysvětlovalo dostatečnou část celkové variability. (O kritériích pro stanovení vhodného m se zmíníme později. Zkušenosti s požíváním PCA ukazují, že případ, kdy m = 1 až 4 je poměrně častý.) 6. Hlavní komponenty lze interpretovat jako hlavní osy p-rozměrného elipsoidu x’S-1 x = konst., kde x je vektor původních znaků a S je jeho varianční matice. Důležitý předpoklad použití PCA: V datovém souboru však musí existovat mezi znaky dostatečně silná korelace, aby bylo možno tuto redukci provést. Analýza hlavních komponent může být chápána jako transformace z původního do nového souřadnicového systému, jehož osy jsou tvořeny hlavními komponentami. Osy procházejí směry maximálního rozptylu, protože podmínka nezávislosti komponent vede ke kolmosti os. Máme p-rozměrný datový soubor ve formě matice n x p:           np1n p111 xx xx L LLL L . Označení xi =           ip 1i x x M – vektor pozorování i-tého objektu, i = 1, 2, ..., n ∑ = = n 1i ijj x n 1 m - průměr j-tého znaku, j = 1, 2, ..., p ( )∑ = − − = n 1i 2 jij 2 j mx 1n 1 s - rozptyl j-tého znaku, j = 1, 2, ..., p j jij ij s mx z − = - (i,j)-tá standardizovaná hodnota, i = 1, 2, ..., n, j = 1, 2, ..., p zi =           ip 1i z z M – vektor standardizovaných pozorování i-tého objektu, i = 1, 2, ..., n m =           p 1 m m M – vektor průměrů S = ( )∑ = −−           − − − n 1i pip11i pip 11i mx,,mx mx mx 1n 1 KM - výběrová varianční matice R = ( )∑ =           − n 1i ip1i ip 1i z,,z z z 1n 1 KM - výběrová korelační matice (S a R jsou čtvercové symetrické matice řádu p.) Příklad: Na pěti objektech byly zjišťovány hodnoty dvou znaků. Datový soubor je tvaru                 99 107 86 65 73 . Vypočtěte výběrové průměry, výběrové rozptyly, vektor průměrů, výběrovou varianční matici a výběrovou korelační matici. Řešení: Nejprve vypočteme průměry 1. a 2. znaku: ( ) 697653 5 1 m1 =++++= , ( ) 8910867 5 1 m2 =++++= , tedy vektor průměrů má tvar m =       8 6 . Dále spočteme výběrové rozptyly 1. a 2. znaku: ( ) ( ) ( ) ( ) ( )[ ] ( ) ( ) ( ) ( ) ( )[ ] 5,289810888687 4 1 s 56967666563 4 1 s 222222 2 222222 1 =−+−+−+−+−= =−+−+−+−+−= Pro výpočet výběrové varianční matice potřebujeme vektory centrovaných hodnot:       =      − −       =      − −       =      − −       − − =      − −       − − =      − − 1 3 89 69 , 2 1 810 67 , 0 0 88 66 , 2 1 86 65 , 1 3 87 63 Pak S = ( ) ( ) ( ) ( ) ( )       =      =            +      +      +      = =      ⋅      +⋅      +⋅      +−−⋅      − − +−−⋅      − − 5,25,2 5,25 1010 1020 4 1 13 39 42 21 42 21 13 39 4 1 1,3 1 3 2,1 2 1 0,0 0 0 2,1 2 1 1,3 1 3 4 1 Upozornění: K výpočtu výběrové varianční matice můžeme přistoupit i jinak. Na hlavní diagonále této matice jsou rozptyly, mimo hlavní diagonálu kovariance. V našem případě:                 99 107 86 65 73 , m1 = 6, m2 = 8, s1 2 = 5, s2 2 = 2,5 ( )( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )[ ] 5,2 4 10 896981067886686658763 4 1 mxmx 1n 1 s n 1i 22i11i12 == =−⋅−+−⋅−+−⋅−+−⋅−+−⋅−= =−− − = ∑ = S =       =      5,25,2 5,25 ss ss 2 212 12 2 1 Pro výpočet výběrové korelační matice potřebujeme vektory standardizovaných hodnot:             =             − −             =             − −       =             − −             − − =             − −             − − =             − − 5,2 1 5 3 5,2 89 5 69 , 5,2 2 5 1 5,2 810 5 67 , 0 0 5,2 88 5 66 , 5,2 2 5 1 5,2 86 5 65 , 5,2 1 5 3 5,2 87 5 63 Pak R =       =             =                         +             +             +             = =                     ⋅             +        ⋅             +        −− ⋅             − − +        −− ⋅             − − 1707,0 707,01 5,2 10 5,12 10 5,12 10 5 20 4 1 5,2 1 5,12 3 5,12 3 5 9 5,2 4 5,12 2 5,12 2 5 1 5,2 4 5,12 2 5,12 2 5 1 5,2 1 5,12 3 5,12 3 5 9 4 1 5,2 1 , 5 3 5,2 1 5 3 5,2 2 , 5 1 5,2 2 5 1 5,2 2 , 5 1 5,2 2 5 1 5,2 1 , 5 3 5,2 1 5 3 4 1 Upozornění: K výpočtu výběrové korelační matice můžeme přistoupit i jinak. Na hlavní diagonále této matice jsou jedničky, mimo hlavní diagonálu koeficienty korelace. V našem případě: 707,0 5,25 5,2 ss s r 21 12 12 === , R =       =      1707,0 707,01 1r r1 12 12 Výpočet pomocí systému STATISTICA: Potřebujeme datový soubor o dvou proměnných X1, X2 a 5 případech Získání vektoru průměrů: Statistiky – Základní statistiky/tabulky – Popisné statistiky – Proměnné X1, X2 – ponecháme zaškrtnutý jen průměr – OK Popisné statistiky (Dva_znaky.sta) Proměnná Průměr X1 X2 6 8 Získání varianční matice: Statistiky – Vícerozměrná regrese – Proměnné - Závislá proměnná X2, Seznam nezáv. proměnných X1 – OK – OK Residua/předpoklady/předpovědi – Popisné statistiky – Další statistiky - Kovariance Kovariance (Dva_znaky.sta) Proměnná X1 X2 X1 X2 5,0 2,5 2,5 2,5 Získání korelační matice: Statistiky – Vícerozměrná regrese – Proměnné - Závislá proměnná X2, Seznam nezáv. proměnných X1 – OK – OK Residua/předpoklady/předpovědi – Popisné statistiky – Korelace Korelace (Dva_znaky.sta) Proměnná X1 X2 X1 X2 1,000000 0,707107 0,707107 1,000000 Základní pojmy v metodě hlavních komponent A - čtvercová matice řádu p. Vlastní číslo matice A – takové číslo λ, které pro libovolný nenulový vektor v typu p x 1 splňuje rovnici Av = λv. Vlastní vektor matice A – vektor v. Charakteristický polynom matice A - determinant IA λ− . Stopa matice A - součet jejích diagonálních prvků (značí se Tr(A)). Výpočet vlastních čísel matice A Rovnici Av = λv upravíme na tvar (A – λI) v = o. Tato soustava p rovnic má netriviální řešení, právě když charakteristický polynom matice A je roven 0. Dostaneme rovnici p-tého stupně. Jejím řešením jsou vlastní čísla λ1, ..., λp. Jejich součet je roven stopě matice A. Získání hlavních komponent Nechť výběrová varianční matice S má vlastní čísla l1, ..., lp a vlastní vektory v1, ..., vp, přičemž vj1 2 + vj2 2 + … vjp 2 = 1, vj1vk1 + vj2vk2 + … + vjpvkp = 0 pro j ≠ k. (Znamená to, že vektory v1, ..., vp jsou ortonormální.) Bez újmy na obecnosti předpokládáme, že l1 > l2 > ... > lp. 1. hlavní komponenta Y1 vznikne jako lineární kombinace znaků X1, ..., Xp, kde koeficienty této lineární kombinace jsou souřadnice vlastního vektoru v1, tedy Y1 = v11X1 + ... + v1pXp. Rozptyl 1. hlavní komponenty je l1. Dosadíme-li za X1, ..., Xp vektory pozorování xi, i = 1, ..., n, dostaneme vektor souřadnic y1 = (y11, ..., y1n)T , kde y1i = v11 xi1 + v12xi2 + … + v1pxip, i = 1, …, n. 2. hlavní komponenta vznikne jako lineární kombinace znaků X1, ..., Xp, kde koeficienty této lineární kombinace jsou souřadnice vlastního vektoru v2, tedy Y2 = v21X1 + ... + v2pXp. Přitom v11v21 + v12v22 + … + v1pv2p = 0, tj. 1. a 2. hlavní komponenta jsou lineárně nezávislé. Rozptyl 2. hlavní komponenty je l2. Dosadíme-li za X1, ..., Xp vektory pozorování xi, i = 1, ..., n, dostaneme vektor souřadnic y2 = (y21, ..., y2n)T , kde y2i = v21 xi1 + v22xi2 + … + v2pxip, i = 1, …, n. ................... j-tá hlavní komponenta vznikne jako lineární kombinace znaků X1, ..., Xp, kde koeficienty této lineární kombinace jsou souřadnice vlastního vektoru vj, tedy Yj = vj1X1 + ... + vjpXp. Přitom vj1vk1 + vj2vk2 + … + vjpvkp = 0, j = 1, ..., k-1, tj. j-tá hlavní komponenta je lineárně nezávislá se všemi ostatními hlavními komponentami. Její rozptyl je lj. Dosadíme-li za X1, ..., Xp vektory pozorování xi, i = 1, ..., n, dostaneme vektor souřadnic yj = (yj1, ..., yjn)T , kde yji = vj1 xi1 + vj2xi2 + … + vjpxip, i = 1, …, n. Vektory souřadnic všech p hlavních komponent uspořádáme do matice           = pnn1 1p11 yy yy L LLL L T . Lze dokázat, že celková variabilita obsažená v datech je rovna stopě matice S, tj. součtu vlastních čísel l1 + ... + lp. 1. hlavní komponenta tedy vyčerpává %100 ll l p1 1 ++K celkové variability. Pokud je číslo p1 1 ll l ++K dostatečně blízké 1, znamená to, že 1. hlavní komponenta dobře nahrazuje celý datový soubor. Je-li toto číslo podstatně menší než 1, musíme vzít tolik hlavních komponent, aby jejich součet dělený stopou matice S byl dostatečně blízký 1. V mnoha aplikacích se stává, že i při velkém počtu znaků stačí poměrně malý počet hlavních komponent. (Před provedením metody hlavních komponent je třeba se rozhodnout, zda budeme pracovat s původními hodnotami znaků nebo standardizovanými hodnotami. Použití standardizovaných hodnot vede na analýzu výběrové korelační matice místo výběrové varianční matice. Hodí se zvláště v těch případech, kdy znaky jsou uváděny v nestejných měřicích jednotkách nebo znaky mají velmi odlišné rozptyly.) Koeficient korelace i-tého znaku Xj s k-tou hlavní komponentou Yk lze vyjádřit jako ( ) i kki ki s lv Y,XR = . Reprodukce výchozí kovarianční matice: V teorii matic se dokazuje vzorec ∑= = p 1i T iii vlS v (tzv. spektrální rozklad matice S) . Rozhodneme-li se uvažovat právě m hlavních komponent (m ≤ p), pak pomocí tohoto vztahu můžeme posoudit, jak těchto m hlavních komponent reprodukuje rozptyly a kovariance původních proměnných. Lze posoudit i reziduální matici, tj. matici, kterou získáme jako rozdíl výchozí kovarianční matice a reprodukované kovarianční matice. Doporučený postup při analýze hlavních komponent a) Provedeme tabulkové a grafické zpracování datového souboru, abychom se blíže seznámili s daty. b) Sestavíme korelační matici a prověříme, zda jsou korelace natolik silné, aby mělo smysl provádět analýzu hlavních komponent. K tomu slouží např. Bartlettův test, kde nulová hypotéza tvrdí, že výběrová korelační matice je matice jednotková. Testová statistika je dána vzorcem Rln 6 n6p2112 −+ =χ . Platí-li nulová hypotéza, testová statistika se asymptoticky řídí rozložením ( )2/)1p(p2 −χ . Nulovou hypotézu tedy zamítáme na asymptotické hladině významnosti α, když ( )2/)1p(p2 1 2 −χ≥χ α− . Nezamítneme-li nulovou hypotézu, neměli bychom analýzu hlavních komponent vůbec provádět (Bartlettův test je implementován např. v systému SPSS). Test je použitelný pro n > 150. Lze spočítat též Gleasonovu – Staelinovu míru redundance ( )1pp pr p 1i p 1j 2 ij − − =Φ ∑∑ = = . Nabývá hodnot mezi 0 a 1, 0 značí, že mezi proměnnými není žádná korelace, 1 znamená perfektní korelaci. c) Rozhodneme, kolika hlavními komponentami lze popsat datový soubor bez podstatné ztráty informace. Označme tento vhodný počet jako m. Při stanovení m můžeme použít tato pomocná kritéria: • Kaiserovo kritérium - za m volíme počet těch vlastních čísel matice R, která jsou větší než 1. • Sutinový test (scree test) – grafická metoda, která spočívá v subjektivním posouzení vzhledu sutinového grafu (scree plot), tj. grafu znázorňujícího velikosti sestupně uspořádaných vlastních čísel matice R. Objeví-li se v grafu určité zploštění, pak za m vezmeme to pořadové číslo, kde se zploštění projevilo. • Kritérium založené na kumulativním procentu vysvětleného rozptylu. Požadujeme, aby vybrané hlavní komponenty vysvětlily aspoň 70% celkového rozptylu. • Kritérium založené na reziduální korelační či kovarianční matici. Požadujeme, aby prvky reziduální matice byly co možná nejmenší. d) Pokusíme se o interpretaci prvních m hlavních komponent. Zkoumáme přitom, jak jsou jednotlivé vybrané hlavní komponenty utvořeny z původních znaků a jak s nimi korelují. e) Vypočítáme vektory souřadnic a následně sestrojíme dvourozměrné tečkové diagramy. Nejdůležitější problémy v metodě hlavních komponent 1. Data neobsahují předpokládanou informaci: nemá smysl provádět PCA. 2. Bylo vybráno příliš málo hlavních komponent: „podceněný“ model způsobí povrchní popis datové struktury. 3. Bylo vybráno příliš mnoho hlavních komponent: „přeceněný“ model způsobí, že šum je nesprávně zahrnut do modelu. 4. Neoprávněné ponechání vybočujících pozorování: do modelu jsou zahrnuty hrubé chyby. 5. Nesprávné odstranění vybočujících pozorování: ztratila se důležitá informace, model je zkreslený. 6. Graf faktorových souřadnic proměnných byl vytvořen se špatným počtem hlavních komponent: může dojít k neoprávněnému odstranění důležitých proměnných. 7. Objekty jsou roztříděny do několika dobře oddělených skupin: to se projeví v rozmístění objektů na ploše prvních dvou hlavních komponent. V takovém případě se soubor rozdělí na skupiny a ty jsou analyzovány PCA odděleně. Příklad: Na 24 objektech byly pozorovány znaky X1, X2 a X3. Z datového souboru byla vypočtena výběrová varianční matice S =           69,6629,10370,168 29,10373,17117,271 70,16817,27139,451 . Vlastní čísla získaná řešením rovnice IS l− = 0 a jim odpovídající vlastní vektory jsou: l1 = 680,411, l2 = 6,5016, l3 = 2,8573, v1 = (0,8126; 0,4955; 0,3068)T , v2 = (0,5454; -0,8321; -0,1009)T , v3 = (0,2053; 0,2493; -0,9464)T . Vyjádřete hlavní komponenty a určete, kolik procent variability obsažené v matici S každá z nich vyčerpává. Najděte koeficienty korelace mezi původními znaky a hlavními komponentami. Pomocí první hlavní komponenty vypočtěte reprodukovanou kovarianční matici. Řešení: Stopa matice S: st(S) = l1 + l2 + l3 = 680,411 + 6,5016 + 2,8573 = 689,77 1. vlastní vektor: v1 = (0,8126; 0,4955; 0,3068)T 1. HK: Y1 = v11X1 + ... + v1pXp = 0,8126X1 + 0,4955X2 + 0,3068X3, vyčerpává ( ) %65,98%100 77,689 411,680 %100 Sst l1 == variability obsažené v datovém souboru. Výpočet koeficientů korelace: ( ) 9977,0 39,451 411,6808126,0 s lv Y,XR 1 111 11 === ( ) 9863,0 73,171 411,6804955,0 s lv Y,XR 2 112 12 === ( ) 9799,0 69,66 411,6803068,0 s lv Y,XR 3 113 13 === Vidíme, že první hlavní komponenta je vysoce korelována se všemi třemi proměnnými. 2. vlastní vektor: v2 = (0,5454; -0,8321; -0,1009)T 2. HK: Y2 = v21X1 + ... + v2pXp = 0,5454X1 - 0,8321X2 - 0,1009X3, vyčerpává ( ) %94,0%100 77,689 5016,6 %100 Sst l2 == variability obsažené v datovém souboru. Výpočet koeficientů korelace: ( ) 0655,0 39,451 5016,65454,0 s lv Y,XR 1 221 21 === ( ) 1619,0 73,171 5016,68321,0 s lv Y,XR 2 222 22 −= − == ( ) 0315,0 69,66 5016,61009,0 s lv Y,XR 3 223 23 −= − == Druhá hlavní komponenta je pouze slabě záporně korelována s druhou proměnnou. 3. vlastní vektor: v3 = (0,2053; 0,2493; -0,9464)T 3. HK: Y3 = v31X1 + ... + v3pXp = 0,2053 X1 + 0,2493 X2 - 0,9464 X3, vyčerpává ( ) %41,0%100 77,689 8573,2 %100 Sst l3 == variability obsažené v datovém souboru. Výpočet koeficientů korelace: ( ) 0163,0 39,451 8573,22053,0 s lv Y,XR 1 331 31 === ( ) 0322,0 73,171 8573,22493,0 s lv Y,XR 2 332 32 === ( ) 1959,0 69,66 8573,29464,0 s lv Y,XR 3 333 33 −= − == Třetí hlavní komponenta je pouze slabě záporně korelována s třetí proměnnou. Tabulka korelací původních proměnných a hlavních komponent komponentaproměnná Y1 Y2 Y3 X1 0,9977 0,0655 0,0163 X2 0,9863 -0,1619 0,0322 X3 0,9799 -0,0315 -0,1959 Výpočet reprodukované kovarianční matice založené na 1. HK: l1v1 v1 T = ( )           =           0445,644357,1036303,169 4357,1030547,1679629,273 6303,1699629,2732881,449 3068,04955,08126,0 3068,0 4955,0 8126,0 411,680 Původní varianční matice: S =           69,6629,10370,169 29,10373,17117,271 70,16817,27139,451 . Reziduální matice: S - l1v1 v1 T =           −− −− −− 6055,21457,09303,0 1457,06753,47929,2 9303,07929,21019,2 Vidíme, že 1. hlavní komponenta velmi dobře reprodukuje rozptyly a kovariance původních tří proměnných. Příklad: Máme datový soubor Lide.sta, který obsahuje údaje o 32 lidech: 1 Sex 2 Vlasy 3 Vek 4 IQ 5 Vyska 6 Hmotnost 7 Boty 8 Prijem 9 Pivo 10 Vino 11 Plavani 12 Puvod 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 muz kratke 48 100 198 92 48 45000 420 115 98 Skandinavie muz kratke 33 130 184 84 44 33000 350 102 92 Skandinavie muz kratke 37 127 183 83 44 34000 320 98 91 Skandinavie zena kratke 32 112 166 47 36 28000 270 78 75 Skandinavie zena dlouhe 23 110 170 60 38 20000 312 99 81 Skandinavie zena dlouhe 24 102 172 64 39 22000 308 91 82 Skandinavie muz kratke 35 140 182 80 42 30000 398 65 85 Skandinavie muz kratke 36 129 180 80 43 30000 388 63 84 Skandinavie zena dlouhe 24 98 169 51 36 23000 250 89 78 Skandinavie zena dlouhe 27 100 168 52 37 23500 260 86 78 Skandinavie muz kratke 37 105 183 81 42 35000 345 45 90 Skandinavie zena dlouhe 32 127 157 47 36 32000 235 92 70 Skandinavie zena dlouhe 41 101 164 50 38 34000 255 134 76 Skandinavie zena dlouhe 40 108 162 49 37 34000 265 124 75 Skandinavie muz kratke 43 109 180 82 44 37000 355 82 88 Skandinavie muz kratke 46 113 180 81 44 42000 362 90 86 Skandinavie muz kratke 26 109 185 82 45 16000 295 180 92 Stredomori muz kratke 27 119 187 84 46 16500 299 178 95 Stredomori zena dlouhe 49 135 168 50 37 34000 170 162 76 Stredomori zena dlouhe 21 123 166 49 36 14000 150 245 75 Stredomori zena dlouhe 30 119 158 46 34 18000 120 120 70 Stredomori muz kratke 26 120 177 65 41 18000 209 160 86 Stredomori muz kratke 33 115 180 72 43 19000 236 175 85 Stredomori muz kratke 42 105 181 75 43 31000 198 161 83 Stredomori zena dlouhe 18 102 163 50 36 11000 143 136 75 Stredomori zena dlouhe 20 132 162 50 36 11500 133 146 74 Stredomori muz kratke 50 96 176 68 42 36000 195 177 82 Stredomori muz dlouhe 55 105 175 67 42 38000 185 187 80 Stredomori zena dlouhe 36 126 165 51 36 26000 121 129 76 Stredomori zena dlouhe 41 120 161 48 35 31500 116 196 75 Stredomori muz kratke 30 118 178 75 42 24000 203 208 81 Stredomori zena dlouhe 40 129 160 48 35 31000 118 198 74 Stredomori Z 12 sledovaných proměnných jsou 3 alternativní (Sex, Vlasy, Původ), 9 je poměrového typu. Proměnná Příjem udává roční příjem v eurech, Pivo a Vino roční spotřebu v litrech a proměnná Plavani obsahuje naměřený čas na uplavání 50 m. Analyzujte tato data metodou hlavních komponent. Výpočet pomocí systému STATISTICA Nejprve sestrojíme dvourozměrné tečkové diagramy pro všechny dvojice proměnných poměrového typu: Grafy – Maticové grafy – Proměnné Věk, IQ, Výška, Hmotnost, Boty, Příjem, Pivo, Víno, Plavání – OK – OK. Grafy – Maticové grafy – Proměnné Věk, IQ, Výška, Hmotnost, Boty, Příjem, Pivo, Víno, Plavání – OK – OK. Maticový graf Lide.sta 12v*32c Vek IQ Vyska Hmotnost Boty Prijem Pivo Vino Plavani Je patrné, že silná přímá lineární závislost existuje mezi libovolnými dojicemi z proměnných Výška, Hmotnost, Boty, Plavání. Rovněž vidíme dosti silnou přímou závislost mezi proměnnými Věk a Příjem. Středně silnou nepřímou lineární závislost pak mají proměnné (Pivo, Víno). Dále vypočteme výběrovou korelační matici všech 12 proměnných: Statistiky – Vícerozměrné průzkumné techniky – Hlavní komponenty&klasifikační analýza – Proměnné 1 - 12, OK – OK – Popisné statistiky – Korelační matice. Korelace (Lide.sta) Proměnná Sex Vlasy Vek IQ Vyska Hmotnost Boty Prijem Pivo Vino Plavani Puvod Sex Vlasy Vek IQ Vyska Hmotnost Boty Prijem Pivo Vino Plavani Puvod 1,000 0,875 -0,354 0,010 -0,878 -0,918 -0,921 -0,324 -0,537 0,025 -0,816 -0,000 0,875 1,000 -0,200 -0,026 -0,821 -0,834 -0,823 -0,252 -0,596 0,165 -0,772 0,125 -0,354 -0,200 1,000 -0,078 0,241 0,254 0,323 0,885 0,128 0,027 0,158 -0,047 0,010 -0,026 -0,078 1,000 -0,122 -0,034 -0,120 -0,107 -0,107 0,068 -0,116 0,162 -0,878 -0,821 0,241 -0,122 1,000 0,960 0,961 0,301 0,715 -0,138 0,962 -0,177 -0,918 -0,834 0,254 -0,034 0,960 1,000 0,969 0,335 0,738 -0,197 0,937 -0,215 -0,921 -0,823 0,323 -0,120 0,961 0,969 1,000 0,354 0,697 -0,089 0,933 -0,155 -0,324 -0,252 0,885 -0,107 0,301 0,335 0,354 1,000 0,417 -0,297 0,252 -0,452 -0,537 -0,596 0,128 -0,107 0,715 0,738 0,697 0,417 1,000 -0,654 0,725 -0,772 0,025 0,165 0,027 0,068 -0,138 -0,197 -0,089 -0,297 -0,654 1,000 -0,166 0,837 -0,816 -0,772 0,158 -0,116 0,962 0,937 0,933 0,252 0,725 -0,166 1,000 -0,217 -0,000 0,125 -0,047 0,162 -0,177 -0,215 -0,155 -0,452 -0,772 0,837 -0,217 1,000 Některé korelační koeficienty jsou v absolutní hodnotě dostatečně velké a zřejmě tedy bude mít smysl provést analýzu hlavních komponent. Ověříme to výpočtem Gleasonovy – Staelinovy míry redundance ( )1pp pr p 1i p 1j 2 ij − − =Φ ∑∑ = = . K výstupní tabulce, v níž je uložena korelační matice, přidáme novou proměnnou, která bude obsahovat součty kvadrátů korelačních koeficientů. Do jejího Dlouhého jména napíšeme: =v1^2+v2^2+v3^2+v4^2+v5^2+v6^2+v7^2+v8^2+v9^2+v10^2+v11^2+v12^2 Pomocí Statistiky – Blok sloupců – Součty získáme součet této proměnné. Přidáme další proměnnou a do jejího Dlouhého jména napíšeme: =sqrt((v1-12)/132) Korelace (Lide.sta) Proměnná 1 NProm 2 NProm SOUČET případy 1-12 50,1262654 0,53743404 Vidíme, že koeficient Φ = 0,5374 nabývá dostatečně velké hodnoty pro prokázání korelace v datech. Nyní získáme vlastní čísla výběrové korelační matice a procento vysvětleného rozptylu: na záložce Základní výsledky vybereme Vlastní čísla. Vlastní čísla korelační matice a související statistiky (Lide.sta) Pouze aktiv. proměnné Pořadí vl.č. vl. číslo % celk. rozptylu Kumulativ. vl. číslo Kumulativ. % 1 2 3 4 5 6 7 8 9 10 11 12 6,429692 53,58077 6,42969 53,5808 2,242551 18,68792 8,67224 72,2687 1,617699 13,48083 10,28994 85,7495 0,997988 8,31657 11,28793 94,0661 0,318660 2,65550 11,60659 96,7216 0,165229 1,37691 11,77182 98,0985 0,099393 0,82828 11,87121 98,9268 0,054994 0,45828 11,92621 99,3850 0,027449 0,22874 11,95365 99,6138 0,024139 0,20116 11,97779 99,8149 0,015199 0,12666 11,99299 99,9416 0,007007 0,05839 12,00000 100,0000 Výpočet doplníme sutinovým grafem: Vlastní čísla korelační matice Pouze aktiv. proměnné 53,58% 18,69% 13,48% 8,32% 2,66%1,38%,83% ,46% ,23% ,20% ,13% ,06% -2 0 2 4 6 8 10 12 14 Pořadí vl. čísla -1 0 1 2 3 4 5 6 7 8 Vlast.číslo 53,58% 18,69% 13,48% 8,32% 2,66%1,38%,83% ,46% ,23% ,20% ,13% ,06% První zlom je pozorovatelný u indexu 2, zvolíme tedy první dvě hlavní komponenty, které vysvětlují 72,3% variability obsažené v datovém souboru. V nabídce Výsledky hlavních komponent snížíme počet faktorů na 2. Dále vypočítáme vlastní vektory: na záložce Proměnné vybereme Vlastní vektory a v získané tabulce odstraníme proměnné 3 – 12. Vlastní vektory korelační matice (Lide.sta) Pouze aktiv. proměnné Proměnná Faktor 1 Faktor 2 Sex Vlasy Vek IQ Vyska Hmotnost Boty Prijem Pivo Vino Plavani Puvod 0,351783 0,231671 0,337773 0,150163 -0,142945 0,061463 0,044067 -0,122604 -0,375286 -0,135459 -0,381136 -0,111447 -0,377697 -0,150806 -0,190466 0,286893 -0,324666 0,308285 0,124149 -0,554200 -0,364904 -0,112425 0,144121 -0,595259 1. hlavní komponenta: Y1 = 0,35Sex + 0,33Vlasy - 0,14 Vek + 0,04 IQ - 0,38Vyska – 0,38Hmotnost – 0,38Boty - 0,19Prijem – 0,32Pivo + 0,12Vino – 0,36Plavani + 0,14Puvod , 2. hlavní komponenta: Y2 = 0,23Sex + 0,15Vlasy + 0,06 Vek – 0,12 IQ - 0,13Vyska – 0,11Hmotnost – 0,15Boty + 0,29Prijem + 0,31Pivo - 0,55Vino – 0,11Plavani – 0,6Puvod Výpočet koeficientů korelace 1. a 2. hlavní komponenty a původních čtyř proměnných: na záložce Proměnné vybereme Korelace faktorů & proměnných Proměnná Faktor 1 Faktor 2 Sex Vlasy Vek IQ Vyska Hmotnost Boty Prijem Pivo Vino Plavani Puvod 0,892009 0,346931 0,856487 0,224872 -0,362464 0,092041 0,111741 -0,183602 -0,951606 -0,202851 -0,966440 -0,166894 -0,957720 -0,225834 -0,482963 0,429627 -0,823250 0,461662 0,314802 -0,829923 -0,925280 -0,168358 0,365446 -0,891409 Znázornění proměnných na ploše prvních dvou hlavních komponent (v systému STATISTICA se tento graf nazývá 2D graf faktorových souřadnic proměnných) Projekce proměnných do faktorové roviny ( 1 x 2) Aktiv. Sex Vlasy Vek IQVyskaHmotnost Boty PrijemPivo Vino Plavani Puvod -1,0 -0,5 0,0 0,5 1,0 Faktor 1 : 53,58% -1,0 -0,5 0,0 0,5 1,0 Faktor2:18,69% Sex Vlasy Vek IQVyskaHmotnost Boty PrijemPivo Vino Plavani Puvod Každý bod v grafu odpovídá jedné proměnné. V grafu se porovnávají vzdálenosti mezi proměnnými. Malá vzdálenost mezi proměnnými znamená silnou korelaci Pomocí grafu faktorových souřadnic proměnných lze posoudit tyto skutečnosti: Důležitost původních proměnných – důležité proměnné leží daleko od počátku, málo důležité proměnné naopak leží blízko počátku. Korelace a kovariance – proměnné s malým úhlem mezi svými průvodiči a na stejné straně vůči počátku mají vysokou kladnou korelaci či kovarianci. Naopak proměnné s velkým úhlem mezi průvodiči jsou záporně korelovány. V našem případě jsou důležité proměnné Výška, Hmotnost, Boty, Plavání, Pivo, Víno, Původ, Sex , méně důležité jsou Příjem, Vlasy a nedůležité pak Věk a IQ. Podívejme se rovněž na vektory souřadnic (v systému STATISTICA se jim říká faktorové souřadnice případů): na záložce Případy vybereme Faktorové souřadnice případů. Projekce případů do faktorové roviny ( 1 x 2) Případy se součtem cos()^2 >= 0,00 Aktiv. MA MAMA FA FAFA MAMA FAFA MA FA FA FA MAMA MB MB FB FB FB MBMB MB FB FB MB MB FB FB MB FB -10 -8 -6 -4 -2 0 2 4 6 8 Faktor 1: 53,58% -4 -3 -2 -1 0 1 2 3 4 Faktor2:18,69% MA MAMA FA FAFA MAMA FAFA MA FA FA FA MAMA MB MB FB FB FB MBMB MB FB FB MB MB FB FB MB FB Vidíme, že 1. hlavní komponenta rozlišila pohlaví (muži jsou nalevo, ženy napravo) a 2. hlavní komponenta rozlišila původ (osoby ze Středomoří jsou dole, ze Skandinávie nahoře). Nakonec posoudíme reprodukovanou a reziduální korelační matici: Statistiky – Vícerozměrné průzkumné techniky – Faktorová analýza – Proměnné 1 – 12, OK – Max. počet faktorů 2 – OK – Výklad rozptylu – Reproduk./ rezid. korelace. Reprodukované korelace (Lide.sta) Extrakce: Hlavní komponenty Proměnná Sex Vlasy Vek IQ Vyska Hmotnost Boty Prijem Pivo Vino Plavani Puvod Sex Vlasy Vek IQ Vyska Hmotnost Boty Prijem Pivo Vino Plavani Puvod 0,92 0,84 -0,29 0,04 -0,92 -0,92 -0,93 -0,28 -0,57 -0,01 -0,88 0,02 0,84 0,78 -0,29 0,05 -0,86 -0,87 -0,87 -0,32 -0,60 0,08 -0,83 0,11 -0,29 -0,29 0,14 -0,06 0,33 0,33 0,33 0,21 0,34 -0,19 0,32 -0,21 0,04 0,05 -0,06 0,05 -0,07 -0,08 -0,07 -0,13 -0,18 0,19 -0,07 0,20 -0,92 -0,86 0,33 -0,07 0,95 0,95 0,96 0,37 0,69 -0,13 0,91 -0,17 -0,92 -0,87 0,33 -0,08 0,95 0,96 0,96 0,40 0,72 -0,17 0,92 -0,20 -0,93 -0,87 0,33 -0,07 0,96 0,96 0,97 0,37 0,68 -0,11 0,92 -0,15 -0,28 -0,32 0,21 -0,13 0,37 0,40 0,37 0,42 0,60 -0,51 0,37 -0,56 -0,57 -0,60 0,34 -0,18 0,69 0,72 0,68 0,60 0,89 -0,64 0,68 -0,71 -0,01 0,08 -0,19 0,19 -0,13 -0,17 -0,11 -0,51 -0,64 0,79 -0,15 0,85 -0,88 -0,83 0,32 -0,07 0,91 0,92 0,92 0,37 0,68 -0,15 0,88 -0,19 0,02 0,11 -0,21 0,20 -0,17 -0,20 -0,15 -0,56 -0,71 0,85 -0,19 0,93 Reziduální korelace (Lide.sta) Extrakce: Hlavní komponenty (Označená rezidua jsou > ,100000) Proměnná Sex Vlasy Vek IQ Vyska Hmotnost Boty Prijem Pivo Vino Plavani Puvod Sex Vlasy Vek IQ Vyska Hmotnost Boty Prijem Pivo Vino Plavani Puvod 0,08 0,03 -0,06 -0,03 0,04 0,00 0,01 -0,04 0,04 0,03 0,07 -0,02 0,03 0,22 0,09 -0,08 0,04 0,03 0,05 0,06 0,00 0,08 0,06 0,01 -0,06 0,09 0,86 -0,02 -0,09 -0,08 -0,00 0,67 -0,21 0,22 -0,16 0,17 -0,03 -0,08 -0,02 0,95 -0,05 0,04 -0,05 0,03 0,07 -0,12 -0,04 -0,04 0,04 0,04 -0,09 -0,05 0,05 0,01 0,00 -0,07 0,03 -0,01 0,05 -0,01 0,00 0,03 -0,08 0,04 0,01 0,04 0,01 -0,06 0,02 -0,03 0,01 -0,01 0,01 0,05 -0,00 -0,05 0,00 0,01 0,03 -0,01 0,01 0,03 0,01 -0,01 -0,04 0,06 0,67 0,03 -0,07 -0,06 -0,01 0,58 -0,18 0,21 -0,12 0,11 0,04 0,00 -0,21 0,07 0,03 0,02 0,01 -0,18 0,11 -0,01 0,04 -0,06 0,03 0,08 0,22 -0,12 -0,01 -0,03 0,03 0,21 -0,01 0,21 -0,01 -0,02 0,07 0,06 -0,16 -0,04 0,05 0,01 0,01 -0,12 0,04 -0,01 0,12 -0,03 -0,02 0,01 0,17 -0,04 -0,01 -0,01 -0,01 0,11 -0,06 -0,02 -0,03 0,07 Vysoké hodnoty reziduální korelace vidíme především u proměnných Věk a Příjem.