Cvičení č. 8.: Snížení dimenze dat metodou hlavních komponent


Příklad: Máme k dispozici datový soubor z roku 1979 o 26 evropských zemích, který obsahuje údaje o
procentuálním zastoupení ekonomicky činného obyvatelstva v různých odvětvích národního
hospodářství:

X[1] … zemědělství

X[2] … těžba

X[3] … průmyslová výroba

X[4] … energetika

X[5] … stavebnictví

X[6] … místní hospodářství

X[7] … finanční sektor

X[8] … služby

X[9] … doprava a komunikace.


Tento datový soubor analyzujte metodou hlavních komponent.


Řešení v systému STATISTICA:

Vazby mezi dvojicemi proměnných posoudíme pomocí maticových grafů:

Grafy – Maticové grafy – Proměnné X1 – X9 – OK – OK.


Dále data znázorníme pomocí krabicových diagramů:

Proměnné vykazují značně rozdílnou variabilitu. Analýzu tedy založíme na výběrové korelační matici
R:

Statistiky – Vícerozměrné průzkumné techniky – Hlavní komponenty & klasifikační analýza – Proměnné
X1 až X19, OK – OK – Popisné statistiky – Korelační matice.


Tato korelační matice má bohužel determinant blízký 0 (říkáme, že je špatně podmíněná), nelze tedy
provést Bartlettův test. Je však vidět, že některé korelační koeficienty jsou v absolutní hodnotě
dostatečně velké a zřejmě tedy bude mít smysl provést analýzu hlavních komponent.


Nyní získáme vlastní čísla výběrové korelační matice a procento vysvětleného rozptylu: na záložce
Základní výsledky vybereme Vlastní čísla.


První hlavní komponenta tedy vysvětluje 38,52% variability obsažené v devíti sledovaných
proměnných, druhá 23,72%, třetí 12,40%  atd. Celkové procento variability vysvětlené prvními třemi
hlavními komponentami je 74,63%.


Sestrojíme sutinový graf (scree plot): na záložce Základní výsledky vybereme Sutinový graf.


Počet m hlavních komponent zvolíme tři na základě sutinového grafu, na základě vysvětleného
rozptylu a na základě Kaiserova kritéria (první tři vlastní čísla jsou větší než 1). V nabídce
Výsledky hlavních komponent snížíme počet faktorů na 3.


Vypočteme korelační koeficienty prvních tří hlavních komponent a původních devíti proměnných: na
záložce Proměnné vybereme Korelace faktorů & proměnných.


Získáme 2D graf faktorových souřadnic proměnných:


Velmi důležité jsou proměnné X1 (zemědělství) a X2 (těžba) , nejméně důležitá je pak proměnná X5
(stavebnictví). X1 záporně koreluje se všemi proměnnými kromě X2.


Podívejme se rovněž na vektory souřadnic (v systému STATISTICA se jim říká faktorové souřadnice
případů): na záložce Případy vybereme Faktorové souřadnice případů.


1. HK vysoce kladně koreluje s proměnnou X[1] (zemědělství) a záporně se všemi ostatními
proměnnými. Tato hlavní komponenta tedy rozlišuje země na zemědělské a průmyslové. Povšimněte si,
že souřadnice této hlavní komponenty jsou nejvyšší u Turecka (6,2) a Jugoslávie (3,9).


2. HK vysoce kladně koreluje s proměnnou X[2 ] (těžba) a podstatně slaběji s proměnnou X[3]
(průmyslová výroba). Vysoké hodnoty souřadnic této hlavní komponenty najdeme u Maďarska, Východního
Německa a Československa.


3. HK středně silně koreluje s proměnnou X[4] (energetika) a X[7] (finanční sektor). Nejvyšší
hodnotu najdeme u Jugoslávie.


Nyní znázorníme rozmístění zemí na ploše prvních dvou hlavních komponent:

Na záložce Případy vybereme 2D graf fakt. souřadnic příp.

Můžeme se ještě pokusit o znázornění zemí v prostoru prvních tří hlavních komponent: přepneme se
v pracovním sešitě na tabulku Faktorové souřadnice případů dle korelací. Označíme myší 3 hlavní
komponenty. Klikneme pravým tlačítkem, vybereme Grafy bloku dat – Vlastní graf bloku podle sloupce
– 3D XYZ grafy – Bodové grafy – Běžný – OK, 2x klikneme na pozadí grafu – Popisy bodů – zaškrtneme
Zobrazovat popisy bodů.


Nakonec posoudíme reprodukovanou a reziduální korleační matici:

Statistiky – Vícerozměrné průzkumné techniky – Faktorová analýza – Proměnné 1 – 12, OK – Max. počet
faktorů 2 – OK – Výklad rozptylu – Reproduk./ rezid. korelace.


Nejmenší rezdiuální korelace vidíme u proměnné X1, naopak největší u proměnné X4.


Příklad k samostatnému řešení:

Datový soubor osoby.sta obsahuje následující údaje o 32 náhodně vybraných osobách:

Sex (1 muž, 2 žena)

Věk (věk osoby v dosažených letech)

Výška (výška osoby v cm)

Hmotnost (hmotnost osoby v kg)

BMI (Body Mass Index se počítá podle vzorce . Osoby, které mají BMI pod 18,5, trpí podvýživou, BMI
mezi 18,5 a 25 ukazuje na normální stav, hodnoty mezi 25 a 30 svědčí o nadváze a hodnoty nad 30 pak
o obezitě.)


Křestním jménem osoby jsou označeny jednotlivé případy v datovém souboru.

Proveďte analýzu hlavních komponent pro tento datový soubor.


Interpretace: 1. hlavní komponenta odlišuje muže a ženy, 2. hlavní komponenta pak odlišuje osoby
podle věku.