Cvičení č. 8.: Snížení dimenze dat metodou hlavních komponent Příklad: Máme k dispozici datový soubor z roku 1979 o 26 evropských zemích, který obsahuje údaje o procentuálním zastoupení ekonomicky činného obyvatelstva v různých odvětvích národního hospodářství: X[1] … zemědělství X[2] … těžba X[3] … průmyslová výroba X[4] … energetika X[5] … stavebnictví X[6] … místní hospodářství X[7] … finanční sektor X[8] … služby X[9] … doprava a komunikace. Tento datový soubor analyzujte metodou hlavních komponent. Řešení v systému STATISTICA: Vazby mezi dvojicemi proměnných posoudíme pomocí maticových grafů: Grafy – Maticové grafy – Proměnné X1 – X9 – OK – OK. Dále data znázorníme pomocí krabicových diagramů: Proměnné vykazují značně rozdílnou variabilitu. Analýzu tedy založíme na výběrové korelační matici R: Statistiky – Vícerozměrné průzkumné techniky – Hlavní komponenty & klasifikační analýza – Proměnné X1 až X19, OK – OK – Popisné statistiky – Korelační matice. Tato korelační matice má bohužel determinant blízký 0 (říkáme, že je špatně podmíněná), nelze tedy provést Bartlettův test. Je však vidět, že některé korelační koeficienty jsou v absolutní hodnotě dostatečně velké a zřejmě tedy bude mít smysl provést analýzu hlavních komponent. Nyní získáme vlastní čísla výběrové korelační matice a procento vysvětleného rozptylu: na záložce Základní výsledky vybereme Vlastní čísla. První hlavní komponenta tedy vysvětluje 38,52% variability obsažené v devíti sledovaných proměnných, druhá 23,72%, třetí 12,40% atd. Celkové procento variability vysvětlené prvními třemi hlavními komponentami je 74,63%. Sestrojíme sutinový graf (scree plot): na záložce Základní výsledky vybereme Sutinový graf. Počet m hlavních komponent zvolíme tři na základě sutinového grafu, na základě vysvětleného rozptylu a na základě Kaiserova kritéria (první tři vlastní čísla jsou větší než 1). V nabídce Výsledky hlavních komponent snížíme počet faktorů na 3. Vypočteme korelační koeficienty prvních tří hlavních komponent a původních devíti proměnných: na záložce Proměnné vybereme Korelace faktorů & proměnných. Získáme 2D graf faktorových souřadnic proměnných: Velmi důležité jsou proměnné X1 (zemědělství) a X2 (těžba) , nejméně důležitá je pak proměnná X5 (stavebnictví). X1 záporně koreluje se všemi proměnnými kromě X2. Podívejme se rovněž na vektory souřadnic (v systému STATISTICA se jim říká faktorové souřadnice případů): na záložce Případy vybereme Faktorové souřadnice případů. 1. HK vysoce kladně koreluje s proměnnou X[1] (zemědělství) a záporně se všemi ostatními proměnnými. Tato hlavní komponenta tedy rozlišuje země na zemědělské a průmyslové. Povšimněte si, že souřadnice této hlavní komponenty jsou nejvyšší u Turecka (6,2) a Jugoslávie (3,9). 2. HK vysoce kladně koreluje s proměnnou X[2 ] (těžba) a podstatně slaběji s proměnnou X[3] (průmyslová výroba). Vysoké hodnoty souřadnic této hlavní komponenty najdeme u Maďarska, Východního Německa a Československa. 3. HK středně silně koreluje s proměnnou X[4] (energetika) a X[7] (finanční sektor). Nejvyšší hodnotu najdeme u Jugoslávie. Nyní znázorníme rozmístění zemí na ploše prvních dvou hlavních komponent: Na záložce Případy vybereme 2D graf fakt. souřadnic příp. Můžeme se ještě pokusit o znázornění zemí v prostoru prvních tří hlavních komponent: přepneme se v pracovním sešitě na tabulku Faktorové souřadnice případů dle korelací. Označíme myší 3 hlavní komponenty. Klikneme pravým tlačítkem, vybereme Grafy bloku dat – Vlastní graf bloku podle sloupce – 3D XYZ grafy – Bodové grafy – Běžný – OK, 2x klikneme na pozadí grafu – Popisy bodů – zaškrtneme Zobrazovat popisy bodů. Nakonec posoudíme reprodukovanou a reziduální korleační matici: Statistiky – Vícerozměrné průzkumné techniky – Faktorová analýza – Proměnné 1 – 12, OK – Max. počet faktorů 2 – OK – Výklad rozptylu – Reproduk./ rezid. korelace. Nejmenší rezdiuální korelace vidíme u proměnné X1, naopak největší u proměnné X4. Příklad k samostatnému řešení: Datový soubor osoby.sta obsahuje následující údaje o 32 náhodně vybraných osobách: Sex (1 muž, 2 žena) Věk (věk osoby v dosažených letech) Výška (výška osoby v cm) Hmotnost (hmotnost osoby v kg) BMI (Body Mass Index se počítá podle vzorce . Osoby, které mají BMI pod 18,5, trpí podvýživou, BMI mezi 18,5 a 25 ukazuje na normální stav, hodnoty mezi 25 a 30 svědčí o nadváze a hodnoty nad 30 pak o obezitě.) Křestním jménem osoby jsou označeny jednotlivé případy v datovém souboru. Proveďte analýzu hlavních komponent pro tento datový soubor. Interpretace: 1. hlavní komponenta odlišuje muže a ženy, 2. hlavní komponenta pak odlišuje osoby podle věku.