Snížení dimenze dat metodou hlavních komponent Motivace: Metodu hlavních komponent (Principal Component Analysis - PCA) popsal v r. 1901 Karl Pearson a ve 30. letech 20. století ji dále rozvinul Harold Hotelling. Harold Hotelling (1895 - 1973), americký matematik a statistik Cíl PCA: vyjádřit informace o variabilitě obsažené v datovém souboru pomocí několika málo nových znaků získaných jako lineární kombinace znaků původních. Tyto nové znaky, kterým se říká hlavní komponenty, jsou nekorelované a jsou uspořádané podle svého klesajícího rozptylu. Většina informace o variabilitě původních dat je tedy soustředěna v první hlavní komponentě a nejméně informace je obsaženo v poslední komponentě. Ukazuje se, že pouze několik prvních hlavních komponent má dostatečně velký rozptyl. Ostatní pak můžeme zanedbat, čímž docílíme snížení dimenze dat. V datovém souboru však musí existovat mezi znaky dostatečně silná korelace, aby bylo možno tuto redukci provést. Analýza hlavních komponent může být chápána jako transformace z původního do nového souřadnicového systému, jehož osy jsou tvořeny hlavními komponentami. Osy procházejí směry maximálního rozptylu, protože podmínka nezávislosti komponent vede ke kolmosti os. Máme p-rozměrný datový soubor ve formě matice n x p: íxn - x1p1 Iľ lXn1 - XnpJ Označení M x; = I ; I - vektor pozorování i-tého objektu, i = 1, 2,n m; = -Z x;j - průměr j-tého znaku, j = 1, 2, p n i=i -S x^-m^ - rozptyl j-tého znaku, j = 1, 2, p n~1 i-- x — tn z;j = —-1 - (ij)-tá standardizovaná hodnota, i = 1, 2,n, j = 1, 2,p z ll z; = I ! I - vektor standardizovaných pozorování i-tého objektu, i = 1, 2, n m = I i I - vektor průměrů 1 niX»"m'i S=-SI i llu-m1, x; - m - výběrová varianční matice n - 1 i=1 | I 1 [x. m j V ip p / j n I » I R=-Z' i líu, Z; . - výběrová korelační matice n " 1 i=i I I 1 1P (S a R jsou čtvercové symetrické matice řádu p.) Příklad: Na pěti objektech byly zjišťovány hodnoty dvou znaků. Datový soubor je tvaru f 3 7^ I I 5 6 6 8 7 10 19 9 j Vypočtěte výběrové průměry, výběrové rozptyly, vektor průměrů, výběrovou varianční matici a výběrovou korelační matici. v Řešení: Nejprve vypočteme průměry 1. a 2. znaku: m, 4+ 5 + 5+ 7+ í. 1 m, vektor průměrů má tvar m 5 = i i ^+5 + 3+lo + ?_=s, tedy Dále spočteme výběrové rozptyly 1. a 2. znaku: 5Í + < 4 1 4 5 2 + «2 + i ~2 ~2 2,5 Pro výpočet výběrové varianční matice potřebujeme vektory centrovaných hodnot: (3-6^ ^-3U5-6^ ^-lH6-6) ^ Í7-6 1 ^Í9"6l ^3^ I 1= M 1= II 1=11 1=11 1=1 17-8J {-in6-8j {^-2f{8-8) {of{l0-8J UA9"8J UJ Pak i rr-3^ - '-n - ^ „ - „ - ^ „ -i -M \-*-3,-1~+ l'<-1-2> I l-1,2> 1-^,1.1 = 4U-u loj u; u; j S 4í9 4|A3 ^] 1^20 10 ^ 3*) (1 l\ (1 í\ (9 3 . I + I + I + I I = -I 1) U 4) U 4 J 13 UJ H10 5 10 J U,5 2,5 J 1 6 5 2 2 5 5 s 2 5 i i s 2 Upozornění: K výpočtu výběrové varianční matice můžeme přistoupit i jinak. Na hlavní diagonále této matice jsou rozptyly, mimo hlavní diagonálu kovariance. V našem případě: f 3 7^ I I 5 6 6 8 7 10 V9 9) mi = 6, ni2 = 8, si2 = 5, s22 = 2,5 1 n - [ 1 - K - S- 4 - iZ+ i - S- i - iZ+ i - 5- i ~ 4 10 2,5 r S= ! s, s 12 I 5 2,5 U12 s22J U,5 2,5j s 12 4 2 Pro výpočet výběrové korelační matice potřebujeme vektory standardizovaných hodnot: Í3-6^ í-3 I —pr- I I -= I V5 i 1 V5 7-8 -1 I I —=- I II V5 i H 6-8! 1 6 I -p- II —p 1 V5 11 V5 6 Í7 2 88 61 ^ i V5 i 1 V5 yof\ 10-8 11 —p-1 i -p i 11 V5 i 1 V5 i 2 9-8 1 Pak W2,^ W2^U2^j W2,5j R rr-3 ^ 1 I V5 I ■ f 1 4 1 IV5j .}J* |.í. 2 1 x1^ l.r. 2 IV5'V255 j 3 i1^ I.r 1 3 IV5: LW2,5 J rr 9 15 W2,5 J 31 ,- I I - 4 3 1 2 2,5 J ^V1^5 21 ,- I I - 4 j ! 2 2,5 ) W2,5 J 2 9 -== I I - 4 3 ^V1^5 2,5 j ^712^5 W2,5 J 3 712^5 ^ li 2,5 V2,5 ) ( I 20 i1 5 J 10 10 10 2,5 ) 1 ^0,707 0,707 ^ 3 1 1 2 1 2 1 Upozornění: K výpočtu výběrové korelační matice můžeme přistoupit i jinak. Na hlavní diagonále této matice jsou jedničky, mimo hlavní diagonálu koeficienty korelace. V našem případě: • ^ 1.707 , R ' '"V 1 °>™) s,s2 yÍ5^5 U12 1 J 1,0,707 1 J Výpočet pomocí systému STATISTICA: Potřebujeme datový soubor o dvou proměnných X1, X2 a 5 případech Získání vektoru průměrů: Statistiky - Základní statistiky/tabulky - Popisné statistiky - Proměnné X1, X2 - ponecháme zaškrtnutý jen průměr - OK Proměnná Popisné statistiky (Dva_znaky.sta) | Průměr X1 6 X2 8 Získání varianční matice: Statistiky - Vícerozměrná regrese - Proměnné - Závislá proměnná X2, Seznam nezáv. proměnných XI - OK - OK Residua/předpoklady/předpovědi - Popisné statistiky - Další statistiky - Kovariance Proměnná Kovariance (Dva_znaky.sta) | X1 | X2 X1 5,0 2,5 X2 2,5 2,5 Získání korelační matice: Statistiky - Vícerozměrná regrese - Proměnné - Závislá proměnná X2, Seznam nezáv. proměnných X1 - OK - OK Residua/předpoklady/předpovědi - Popisné statistiky - Korelace Korelace (Dva_znaky.sta) Proměnná X1 | X2 X1 1,000000 1 0,707107 X2 0,70710^1,000000 Základní pojmy v metodě hlavních komponent A - čtvercová matice řádu p. Vlastní číslo matice A - takové číslo A, které pro libovolný nenulový vektor v typu p x 1 splňuje rovnici Av = Av. Vlastní vektor matice A - vektor v. Charakteristický polynom matice A - determinant |a - ^ |. Stopa matice A - součet jejích diagonálních prvků (značí se Tr(A)). Výpočet vlastních čísel matice A Rovnici Av = Av upravíme na tvar (A - AI) v = o. Tato soustava p rovnic má netriviální řešení, právě když charakteristický polynom matice A je roven 0. Dostaneme rovnici p-tého stupně. Jejím řešením jsou vlastní čísla A1, Ap. Jejich součet je roven stopě matice A. Získání hlavních komponent Nechť výběrová varianční matice S má vlastní čísla li, lp a vlastní vektory vi, Vp, přičemž Vjí2 + vj22 + ... vJp2 = 1, vJivk1 + vj2vk2 + ... + vJpvkp = 0 pro j ^ k. (Znamená to, že vektory vi, Vp jsou ortonormální.) Bez újmy na obecnosti předpokládáme, že li > I2 > ... > lp. 1. hlavní komponenta Y1 vznikne jako lineární kombinace znaků X1, Xp, kde koeficienty této lineární kombinace jsou souřadnice vlastního vektoru v1, tedy Y1 = v11X1 + ... + v1pXp. Rozptyl 1. hlavní komponenty je l1. Dosadíme-li za X1, Xp vektory pozorování x„ i = 1, n, dostaneme vektor souřadnic y1 = (y„, ym)T, kde yH = v11 xi1 + v12xi2 + ... + v1pxip, i = 1, n. 2. hlavní komponenta vznikne jako lineární kombinace znaků X1, Xp, kde koeficienty této lineární kombinace jsou souřadnice vlastního vektoru V2, tedy Y2 = v21X1 + ... + v2pXp. Přitom vnv21 + v12v22 + ... + = 0, tj. 1. a 2. hlavní komponenta jsou lineárně nezávislé. Rozptyl 2. hlavní komponenty je l2. Dosadíme-li za X1, Xp vektory pozorování Xi, i = 1, n, dostaneme vektor souřadnic y2 = (y21, y2n)T, kde y2i = v21 xi1 + v22xi2 + . + v2pxip, i = 1, ., n. J-tá hlavní komponenta vznikne jako lineární kombinace znaků X1, Xp, kde koeficienty této lineární kombinace jsou souřadnice vlastního vektoru vJ, tedy YJ = vj1X1 + ... + vjpXp. Přitom vj1vk1 + vj2vk2 + ... + vjpvkp = 0, J = 1, k-1, tj. j-tá hlavní komponenta je lineárně nezávislá se všemi ostatními hlavními komponentami. Její rozptyl je 1j. Dosadíme-li za X1, Xp vektory pozorování Xi, i = 1, n, dostaneme vektor souřadnic yJ = (yb yn)T, kde yJi = vj1 xi1 + y2xi2 + ... + vJpxip, i = 1, ..., n. Vektory souřadnic všech p hlavních komponent uspořádáme do matice fy ... y } T = I. I I VY in " ' y pn J Lze dokázat, že celková variabilita obsažená v datech je rovna stopě matice S, tj. součtu vlastních čísel l1 + ... + lp. 1. hlavní komponenta tedy vyčerpává 1 + ll + ^ 100% celkové variability. Pokud je číslo 1 + 1 1 + ^ dostatečně blízké 1, znamená to, že 1. hlavní komponenta dobře nahrazuje celý datový soubor. Je-li toto číslo podstatně menší než 1, musíme vzít tolik hlavních komponent, aby jejich součet dělený stopou matice S byl dostatečně blízký 1. V mnoha aplikacích se stává, že i při velkém počtu znaků stačí poměrně malý počet hlavních komponent. (Před provedením metody hlavních komponent je třeba se rozhodnout, zda budeme pracovat s původními hodnotami znaků nebo standardizovanými hodnotami. Použití standardizovaných hodnot vede na analýzu výběrové korelační matice místo výběrové varianční matice. Hodí se zvláště v těch případech, kdy znaky jsou uváděny v nestejných měřicích jednotkách nebo znaky mají velmi odlišné rozptyly.) Koeficient korelace i-tého znaku Xj s k-tou hlavní komponentou Yk lze vyjádřit jako r $í;,Yk j= k k . Reprodukce výchozí kovarianční matice: p V teorii matic se dokazuje vzorec s = Z i^v/ (tzv. spektrální rozklad matice S). i=1 Rozhodneme-li se uvažovat právě m hlavních komponent (m < p), pak pomocí tohoto vztahu můžeme posoudit, jak těchto m hlavních komponent reprodukuje rozptyly a kovariance původních proměnných. Lze posoudit i reziduální matici, tj. matici, kterou získáme jako rozdíl výchozí kovarianční matice a reprodukované kovarianční matice. Doporučený postup při analýze hlavních komponent a) Provedeme tabulkové a grafické zpracování datového souboru, abychom se blíže seznámili s daty. b) Sestavíme korelační matici a prověříme, zda jsou korelace natolik silné, aby mělo smysl provádět analýzu hlavních komponent. K tomu slouží např. Bartlettův test, kde nulová hypotéza tvrdí, že výběrová korelační matice je matice jednotková. Testová statistika je dána vzorcem x = 11 + Zp—— in |r |. Platí-li nulová hypotéza, testová statistika se 6 asymptoticky řídí rozloženími $(p - )/2_ Nulovou hypotézu tedy zamítáme na asymptotické hladině významnosti a, když x s $(p - .)/2-. Nezamítneme-li nulovou hypotézu, neměli bychom analýzu hlavních komponent vůbec provádět (Bartlettův test je implementován např. v systému SPSS). c) Rozhodneme, kolika hlavními komponentami lze popsat datový soubor bez podstatné ztráty informace. Označme tento vhodný počet jako m. Při stanovení m můžeme použít tato pomocná kritéria: • Kaiserovo kritérium - za m volíme počet těch vlastních čísel matice R, která jsou větší než 1. • Sutinový test (scree test) - grafická metoda, která spočívá v subJektivním posouzení vzhledu sutinového grafu (scree plot), tj. grafu znázorňujícího velikosti sestupně uspořádaných vlastních čísel matice R. Objeví-li se v grafu určité zploštění, pak za m vezmeme to pořadové číslo, kde se zploštění projevilo. • Kritérium založené na kumulativním procentu vysvětleného rozptylu. Požadujeme, aby vybrané hlavní komponenty vysvětlily aspoň 70% celkového rozptylu. • Kritérium založené na reziduální korelační či kovarianční matici. Požadujeme, aby prvky reziduální matice byly co možná nejmenší. d) Pokusíme se o interpretaci prvních m hlavních komponent. Zkoumáme přitom, jak jsou jednotlivé vybrané hlavní komponenty utvořeny z původních znaků a jak s nimi korelují. e) Vypočítáme vektory souřadnic a následně sestrojíme dvourozměrné tečkové diagramy. Příklad: Na 24 objektech byly pozorovány znaky Xi, X2 a X3. Z datového souboru byla vypočtena výběrová varianční matice S f 451,39 271,17 168,70^ I I = I 271,17 171,73 103,29 I I I 168,70 103,29 66,69 0 a jim odpovídající vlastní vektory jsou: Vlastní čísla získaná řešením rovnice |s - i| 11 = 680,411, 12 = 6,5016, 13 = 2,8573, V1 = (0,8126; 0,4955; 0,3068)T, V2 = (0,5454; -0,8321; -0,1009)T, V3 = (0,2053; 0,2493; -0,9464)T. Vyjádřete hlavní komponenty a určete, kolik procent variability obsažené v matici S každá z nich vyčerpává. Najděte koeficienty korelace mezi původními znaky a hlavními komponentami. Pomocí první hlavní komponenty vypočtěte reprodukovanou kovarianční matici. Řešení: Stopa matice S: st(S) = h + l2 + ^ = 680,411 + 6,5016 + 2,8573 = 689,77 1. vlastní vektor: V1 = (0,8126; 0,4955; 0,3068)T 1. HK: Y1 = vnX1 + ... + v1pXp = 0,8126X1 + 0,4955X2 + 0,3068X3, vyčerpává 1] -100% = 680,411 100% = 98,65% variability obsažené v datovém souboru. stí^ 689,77 Výpočet koeficientů korelace: m - Vn-xAT 0,8126J680,411 R fC j, Yj J= v = -, v -= 0,9977 4 ~- vi?'V1i U,4y33 VbňU ,411 R fC ,, Y. J= v = -. v -= 0,9863 ■^451,39 _ 0,4955-^680,411 s2 •7171,73 _ 0,3068-^680,411 S3 •x/66,69 R %í 3, Yj J= v = - v -= 0,9799 s 3 V66'69 Vidíme, že první hlavní komponenta je vysoce korelována se všemi třemi proměnnými. 2. vlastní vektor: v2 = (0,5454; -0,8321; -0,1009)T 2. HK: Y2 = v2Ä + ... + v2pXp = 0,5454X1 - 0,8321X2 - 0,1009Xs, vyčerpává *2 -100% = 6,5016 100% = 0,94% variability obsažené v datovém souboru. stí^ 689,77 Výpočet koeficientů korelace: 4 - v2ia/iT 0,5454 Jó,5016 R fC j, Y2 J= v = -, v -= 0,0655 R fc 2, Y2 = -, -= - 1,1619 -^451,39 _ - 3,8321-76,5016 7171,73 _ - 3,1009 ^6,5016 S3 766,69 R fC3,Y2 J= = -. -= " 1,0315 s 3 766'69 Druhá hlavní komponenta je pouze slabě záporně korelována s druhou proměnnou. 3. vlastní vektor: v3 = (0,2053; 0,2493; -0,9464)T 3. HK: Y3 = v3Ä + ... + v3pXp = 0,2053 X1 + 0,2493 X2 - 0,9464 X3, vyčerpává -400% 2,8573 stí- 689,77 Výpočet koeficientů korelace: V3i-\AT _ 0,2053-^2,8573 100% = 0,41% variability obsažené v datovém souboru. R*i,Y3 R^2,Y3 R^3,Y3 sl ^451,39 _ 0,2493 ^2,8573 _ s2 •^171,73 _ - ),9464 ^2,8573 S3 •766,69 0,0163 0,0322 1,1959 Třetí hlavní komponenta je pouze slabě záporně korelována s třetí proměnnou. 1 3 Tabulka korelací původních proměnných a hlavních komponent proměnná komponenta Y1 Y2 Y3 X1 0,9977 0,0655 0,0163 X2 0,9863 -0,1619 0,0322 X3 0,9799 -0,0315 -0,1959 Výpočet reprodukované kovarianční matice: f 0,8126 1 T I I llVi Vi = 680 ,4111 0,4955 | $,8126 I I 0,3068 0,4955 0,3068 f 449,2881 i 273 ,9629 I 169,6303 f451,39 271,17 168,70^ Původní varianční matice: S T Reziduální matice: S - l1v1 v1 I 271,17 I 169,70 f 2,1019 171,73 103,29 103 ,29 I 66,69 273 ,9629 167,0547 103,4357 2,7929 0,9303 2,7929 4,6753 - 0,1457 0,9303 I 0,1457 | 169,6303 I 103,4357 I I 64,0445 0,9303 0,1457 2,6055 Vidíme, že 1. hlavní komponenta velmi dobře reprodukuje rozptyly a kovariance původních tří proměnných. Příklad: Máme datový soubor Lide.sta, který obsahuje údaje o 32 lidech: 3 4 5 mm 8 9 10 11 12 Sex Vlasy Vek IQ Vyska Boty Prijem Pivo Vino Plaváni Původ nxiz kratke 48 100 193 92 48 45000 420 115 98 Skandinávie nxiz kratke 33 130 184 84 44 33000 350 102 92 Skandinávie nxiz kratke 37 127 183 83 44 34000 320 98 91 Skandinávie zena kratke 32 112 166 47 36 28000 270 78 75 Skandinávie zena dlouhé 23 110 170 60 38 20000 312 99 81 Skandinávie zena dlouhé 24 102 172 64 39 22000 306 91 82 Skandinávie nxiz kratke 35 140 182 80 42 30000 393 65 85 Skandinávie nxiz kratke 36 123 180 80 43 30000 388 63 84 Skandinávie zena dlouhé 24 98 169 51 36 23000 250 89 78 Skandinávie zena dlouhé 27 100 168 52 37 23500 260 86 78 Skandinávie nxiz kratke 37 105 183 81 42 35000 345 45 90 Skandinávie zena dlouhé 32 127 157 47 36 32000 235 92 70 Skandinávie zena dlouhé 41 101 164 50 38 34000 255 134 76 Skandinávie zena dlouhé 40 106 162 49 37 34000 265 124 75 Skandinávie nxiz kratke 43 109 180 82 44 37000 355 82 88 Skandinávie nxiz kratke 46 113 180 81 44 42000 362 90 86 Skandinávie nxiz kratke 26 109 185 82 45 16000 295 180 92 Stredomori nxiz kratke 27 119 187 84 46 16500 299 178 95 Stredomori zena dlouhé 49 135 168 50 37 34000 170 162 76 Stredomori zena dlouhé 21 123 166 49 36 14000 150 245 75 Stredomori zena dlouhé 30 119 158 46 34 18000 120 120 70 Stredomori nxiz kratke 26 120 177 65 41 18000 209 160 86 Stredomori nxiz kratke 33 115 180 72 43 19000 236 175 85 Stredomori nxiz kratke 42 105 181 75 43 31000 193 161 83 Stredomori zena dlouhé 18 102 163 50 36 11000 143 136 75 Stredomori zena dlouhé 20 132 162 50 36 11500 133 146 74 Stredomori nxiz kratke 50 96 176 68 42 36000 195 177 82 Stredomori nxiz dlouhé 55 105 175 67 42 38000 185 187 80 Stredomori zena dlouhé 36 126 165 51 36 26000 121 129 76 Stredomori zena dlouhé 41 120 161 48 35 31500 116 193 75 Stredomori nxiz kratke 30 118 178 75 42 24000 203 203 81 Stredomori zena dlouhé 40 129 160 48 35 31000 118 193 74 Stredomori Z 12 sledovaných proměnných jsou 3 alternativní (Sex, Vlasy, Původ), 9 je poměrového typu. Proměnná Příjem udává roční příjem v eurech, Pivo a Vino roční spotřebu v litrech a proměnná Plavani obsahuje naměřený čas na uplavání 500 m. Analyzujte tato data metodou hlavních komponent. Výpočet pomocí systému STATISTICA Nejprve sestrojíme dvourozměrné tečkové diagramy pro všechny dvojice proměnných poměrového typu: Grafy - Maticové grafy - Proměnné Věk, IQ, Výška, Hmotnost, Boty, Příjem, Pivo, Víno, Plavání - OK - OK. Grafy - Maticové grafy - Proměnné Věk, IQ, Výška, Hmotnost, Boty, Příjem, Pivo, Víno, Plavání - OK - OK. M aticový g raf Lide.sta 1 2v*32c 3 % co °S c0q *ooCse 38r í°c alias. Je patrné, že silná přímá lineární závislost existuje mezi libovolnými dojicemi z proměnných Výška, Hmotnost, Boty, Plavání. Rovněž vidíme dosti silnou přímou závislost mezi proměnnými Věk a Příjem. Středně silnou nepřímou lineární závislost pak mají proměnné (Pivo, Víno). Dále vypočteme výběrovou korelační matici všech 12 proměnných: Statistiky - Vícerozměrné průzkumné techniky - Hlavní komponenty&klasifikační analýza - Proměnné 1-12, OK - OK -Popisné statistiky - Korelační matice. Korelace (Lide.sta) Proměnná Sex Vlasy Vek IQ Vyska Hmotnost Boty Prijem Pivo Vino Plaváni Původ Sex 1,000 0,875 -0,354 0,010 -0,878 -0,918 -0,921 -0,324 -0,537 0,025 -0,816 -0,000 Vlasy 0,875 1,000 -0,200 -0,026 -0,821 -0,834 -0,823 -0,252 -0,596 0,165 -0,772 0,125 Vek -0,354 -0,200 1,000 -0,078 0,241 0,254 0,323 0,885 0,128 0,027 0,158 -0,047 IQ 0,010 -0,026 -0,078 1,000 -0,122 -0,034 -0,120 -0,107 -0,107 0,068 -0,116 0,162 Vyska -0,878 -0,821 0,241 -0,122 1,000 0,960 0,961 0,301 0,715 -0,138 0,962 -0,177 Hmotnost -0,918 -0,834 0,254 -0,034 0,960 1,000 0,969 0,335 0,738 -0,197 0,937 -0,215 Boty -0,921 -0,823 0,323 -0,120 0,961 0,969 1,000 0,354 0,697 -0,089 0,933 -0,155 Prijem -0,324 -0,252 0,885 -0,107 0,301 0,335 0,354 1,000 0,417 -0,297 0,252 -0,452 Pivo -0,537 -0,596 0,128 -0,107 0,715 0,738 0,697 0,417 1,000 -0,654 0,725 -0,772 Vino 0,025 0,165 0,027 0,068 -0,138 -0,197 -0,089 -0,297 -0,654 1,000 -0,166 0,837 Plaváni -0,816 -0,772 0,158 -0,116 0,962 0,937 0,933 0,252 0,725 -0,166 1,000 -0,217 Původ -0,000 0,125 -0,047 0,162 -0,177 -0,215 -0,155 -0,452 -0,772 0,837 -0,217 1,000 Některé korelační koeficienty jsou v absolutní hodnotě dostatečně velké a zřejmě tedy bude mít smysl provést analýzu hlavních komponent. Nyní získáme vlastní čísla výběrové korelační matice a procento vysvětleného rozptylu: na záložce Základní výsledky vybereme Vlastní čísla._ Vlastní čísla korelační matice a související statistiky (Lide.sta) Pouze aktiv. proměnné _ vl. číslo % celk. Kumulativ . Kumulativ . Pořadí vl.č. rozpty lu vi. číslo % 1 6,429692 53,58077 6,42969 53,5808 2 2,242551 18,68792 8,67224 72,2687 3 1,617699 13,48083 10,28994 85,7495 4 0,997988 8,31657 11,28793 94,0661 5 0,318660 2,65550 11,60659 96,7216 6 0,165229 1,37691 11,77182 98,0985 7 0,099393 0,82828 11,87121 98,9268 8 0,054994 0,45828 11,92621 99,3850 9 0,027449 0,22874 11,95365 99,6138 10 0,024139 0,20116 11,97779 99,8149 11 0,015199 0,12666 11,99299 99,9416 12 0,007007 0,05839 12,00000 100,0000 Výpočet doplníme sutinovým grafem: 8 První zlom je pozorovatelný u indexu 2, zvolíme tedy první dvě hlavní komponenty, které vysvětlují 72,3% variability obsažené v datovém souboru. V nabídce Výsledky hlavních komponent snížíme počet faktorů na 2. Dále vypočítáme vlastní vektory: na záložce Proměnné vybereme Vlastní vektory a v získané tabulce odstraníme proměnné 3-12. _ Vlastní vektory korelační matice (Lide.sta) Pouze aktiv, proměnné _ Proměnná Faktor 1 Faktor 2 Sex 0,351783 0,231671 Vlasy 0,337773 0,150163 Vek -0,142945 0,061463 IQ 0,044067 -0,122604 Vyska -0,375286 -0,135459 Hmotnost -0,381136 -0,111447 Boty -0,377697 -0,150806 Prijem -0,190466 0,286893 Pivo -0,324666 0,308285 Vino 0,124149 -0,554200 Plaváni -0,364904 -0,112425 Původ 0,144121 -0,595259 1. hlavní komponenta: Yi = 0,35Sex + 0,33Vlasy - 0,14 Vek + 0,04 IQ 0,12Vino - 0,36Plavani + 0,14Puvod , 2. hlavní komponenta: Y2 = 0,23Sex + 0,15Vlasy + 0,06 Vek - 0,12 IQ 0,55Vino - 0,11 Plaváni - 0,6Puvod - 0,38Vyska - 0,38Hmotnost - 0,38Boty - 0,19Prijem - 0,32Pivo + - 0,13Vyska - 0,llHmotnost - 0,15Boty + 0,29Prijem + 0,31Pivo - Výpočet koeficientů korelace 1. a 2. hlavní komponenty a původních čtyř proměnných: na záložce Proměnné vybereme Korelace faktorů & proměnných Proměnná Faktor 1 Faktor 2 Sex 0,892009 0,346931 Vlasy 0,856487 0,224872 Vek -0,362464 0,092041 IQ 0,111741 -0,183602 Vyska -0,951606 -0,202851 Hmotnost -0,966440 -0,166894 Boty -0,957720 -0,225834 Prijem -0,482963 0,429627 Pivo -0,823250 0,461662 Vino 0,314802 -0,829923 Plaváni -0,925280 -0,168358 Původ 0,365446 -0,891409 Znázornění proměnných na ploše prvních dvou hlavních komponent (v systému STATISTICA se tento graf nazývá 2D graf faktorových souřadnic proměnných) faktorových souřadnic proměnných) Projekce proměnných do faktorové roviny ( 1 x 2) -1,0 -1,0 -0,5 0,0 0,5 1,0 Faktor 1 : 53,58% ° Aktiv. Každý bod v grafu odpovídá jedné proměnné. V grafu se porovnávají vzdálenosti mezi proměnnými. Malá vzdálenost mezi proměnnými znamená silnou korelaci Pomocí grafu faktorových souřadnic proměnných lze posoudit tyto skutečnosti: Důležitost původních proměnných - důležité proměnné leží daleko od počátku, málo důležité proměnné naopak leží blízko počátku. Korelace a kovariance - proměnné s malým úhlem mezi svými průvodiči a na stejné straně vůči počátku mají vysokou kladnou korelaci či kovarianci. Naopak proměnné s velkým úhlem mezi průvodiči jsou záporně korelovány. V našem případě jsou důležité proměnné Výška, Hmotnost, Boty, Plavání, Pivo, Víno, Původ, Sex , méně důležité jsou Příjem, Vlasy a nedůležité pak Věk a IQ. Podívejme se rovněž na vektory souřadnic (v systému STATISTICA se jim říká faktorové souřadnice případů): na záložce Případy vybereme Faktorové souřadnice případů. -2 -3 -4 Projekce případů do faktorové roviny ( 1x 2) Případy se součtem cos()A2 >= 0,00 FAß FA o MA i c • -------------- MA c o----MA 6> I MB MIß . BFB MB mBmb FB o O B MB O 1 -10 -S -S -4 -2 0 Faktor 1 : 53,58% Aktiv. Vidíme, že 1. hlavní komponenta rozlišila pohlaví (muži jsou nalevo, ženy napravo) a 2. hlavní komponenta rozlišila původ (osoby ze Středomoří jsou dole, ze Skandinávie nahoře). Nakonec posoudíme reprodukovanou a reziduální korelační matici: Statistiky - Vícerozměrné průzkumné techniky - Faktorová analýza - Proměnné 1 - 12, OK - Max. počet faktorů 2 - OK -Výklad rozptylu - Reproduk./ rezid. korelace. 4 3 2 0 -1 2 4 S S Reprodukované korelace (Lide.sta) Extrakce: Hlavní komponenty Proměnná Sex Vlasy Vek IQ Vyska Hmotnost Boty Prijem Pivo Vino Plaváni Původ Sex 0,92 0,84 -0,29 0,04 -0,92 -0,92 -0,93 -0,28 -0,57 -0,01 -0,88 0,02 Vlasy 0,84 0,78 -0,29 0,05 -0,86 -0,87 -0,87 -0,32 -0,60 0,08 -0,83 0,11 Vek -0,29 -0,29 0,14 -0,06 0,33 0,33 0,33 0,21 0,34 -0,19 0,32 -0,21 IQ 0,04 0,05 -0,06 0,05 -0,07 -0,08 -0,07 -0,13 -0,18 0,19 -0,07 0,20 Vyska -0,92 -0,86 0,33 -0,07 0,95 0,95 0,96 0,37 0,69 -0,13 0,91 -0,17 Hmotnost -0,92 -0,87 0,33 -0,08 0,95 0,96 0,96 0,40 0,72 -0,17 0,92 -0,20 Boty -0,93 -0,87 0,33 -0,07 0,96 0,96 0,97 0,37 0,68 -0,11 0,92 -0,15 Prijem -0,28 -0,32 0,21 -0,13 0,37 0,40 0,37 0,42 0,60 -0,51 0,37 -0,56 Pivo -0,57 -0,60 0,34 -0,18 0,69 0,72 0,68 0,60 0,89 -0,64 0,68 -0,71 Vino -0,01 0,08 -0,19 0,19 -0,13 -0,17 -0,11 -0,51 -0,64 0,79 -0,15 0,85 Plaváni -0,88 -0,83 0,32 -0,07 0,91 0,92 0,92 0,37 0,68 -0,15 0,88 -0,19 Původ 0,02 0,11 -0,21 0,20 -0,17 -0,20 -0,15 -0,56 -0,71 0,85 -0,19 0,93 Reziduálni korelace (Lide.sta) Extrakce: Hlavní komponenty (Označená rezidua jsou > ,100000) Proměnná Sex Vlasy Vek IQ Vyska Hmotnost Boty Prijem Pivo Vino Plaváni Původ Sex 0,08 0,03 -0,06 -0,03 0,04 0,00 0,01 -0,04 0,04 0,03 0,07 -0,02 Vlasy 0,03 0,22 0,09 -0,08 0,04 0,03 0,05 0,06 0,00 0,08 0,06 0,01 Vek -0,06 0,09 0,86 -0,02 -0,09 -0,08 -0,00 0,67 -0,21 0,22 -0,16 0,17 IQ -0,03 -0,08 -0,02 0,95 -0,05 0,04 -0,05 0,03 0,07 -0,12 -0,04 -0,04 Vyska 0,04 0,04 -0,09 -0,05 0,05 0,01 0,00 -0,07 0,03 -0,01 0,05 -0,01 Hmotnost 0,00 0,03 -0,08 0,04 0,01 0,04 0,01 -0,06 0,02 -0,03 0,01 -0,01 Boty 0,01 0,05 -0,00 -0,05 0,00 0,01 0,03 -0,01 0,01 0,03 0,01 -0,01 Prijem -0,04 0,06 0,67 0,03 -0,07 -0,06 -0,01 0,58 -0,18 0,21 -0,12 0,11 Pivo 0,04 0,00 -0,21 0,07 0,03 0,02 0,01 -0,18 0,11 -0,01 0,04 -0,06 Vino 0,03 0,08 0,22 -0,12 -0,01 -0,03 0,03 0,21 -0,01 0,21 -0,01 -0,02 Plaváni 0,07 0,06 -0,16 -0,04 0,05 0,01 0,01 -0,12 0,04 -0,01 0,12 -0,03 Původ -0,02 0,01 0,17 -0,04 -0,01 -0,01 -0,01 0,11 -0,06 -0,02 -0,03 0,07 Vysoké hodnoty reziduálni korelace vidíme především u proměnných Věk a Příjem.