Téma 3: Průzkumová analýza vícerozměrných dat Příklad 1.: Máme k dispozici datový soubor staty1979.sta z roku 1979 o 26 evropských zemích, který obsahuje údaje o procentuálním zastoupení ekonomicky činného obyvatelstva v různých odvětvích národního hospodářství: X[1] … zemědělství X[2] … těžba X[3] … průmyslová výroba X[4] … energetika X[5] … stavebnictví X[6] … místní hospodářství X[7] … finanční sektor X[8] … služby X[9] … doprava a komunikace. Analyzujte tato data metodou hlavních komponent a znázorněte rozmístění států na ploše prvních dvou hlavních komponent. Řešení v systému STATISTICA: Jednotlivé případy nejprve pojmenujeme názvy zemí. Data – Správce jmen případů – Přenést jména případů z proměnné Stat, OK, OK. Data nyní znázorníme pomocí krabicových diagramů: Grafy – 2D Grafy – Krabicové grafy – Vícenásobný – Proměnné X1 až X9, OK, OK. Proměnné vykazují značně rozdílnou variabilitu. Analýzu tedy založíme na výběrové korelační matici R: Statistiky – Vícerozměrné průzkumné techniky – Hlavní komponenty & klasifikační analýza – Proměnné X1 až X9, OK – OK – Popisné statistiky – Korelační matice. Vidíme, že některé korelační koeficienty jsou v absolutní hodnotě dostatečně velké a zřejmě tedy bude mít smysl provést analýzu hlavních komponent. Nyní získáme vlastní čísla výběrové korelační matice a procento vysvětleného rozptylu: na záložce Základní výsledky vybereme Vlastní čísla. První hlavní komponenta tedy vysvětluje 38,52% variability obsažené v devíti sledovaných proměnných, druhá 23,72%, třetí 12,40% atd. Celkové procento variability vysvětlené prvními třemi hlavními komponentami je 74,63%. Sestrojíme sutinový graf (scree plot): na záložce Základní výsledky vybereme Sutinový graf. Počet hlavních komponent zvolíme tři na základě sutinového grafu, na základě vysvětleného rozptylu a na základě Kaiserova kritéria (první tři vlastní čísla jsou větší než 1). V nabídce Výsledky hlavních komponent snížíme počet faktorů na 3. Vypočteme korelační koeficienty prvních tří hlavních komponent a původních devíti proměnných: na záložce Proměnné vybereme Korelace faktorů & proměnných. Podívejme se rovněž na vektory souřadnic (v systému STATISTICA se jim říká faktorové souřadnice případů): na záložce Případy vybereme Faktorové souřadnice případů. 1. HK vysoce kladně koreluje s proměnnou X[1] (zemědělství) a záporně se všemi ostatními proměnnými. Tato hlavní komponenta tedy rozlišuje země na zemědělské a průmyslové. Povšimněte si, že souřadnice této hlavní komponenty jsou nejvyšší u Turecka (6,2) a Jugoslávie (3,9). 2. HK vysoce kladně koreluje s proměnnou X[2 ] (těžba) a podstatně slaběji s proměnnou X[3] (průmyslová výroba). Vysoké hodnoty souřadnic této hlavní komponenty najdeme u Maďarska, Východního Německa a Československa. 3. HK středně silně koreluje s proměnnou X[4] (energetika) a X[7] (finanční sektor). Nejvyšší hodnotu najdeme u Jugoslávie. Nyní znázorníme rozmístění zemí na ploše prvních dvou hlavních komponent: Na záložce Případy vybereme 2D graf fakt. Souřadnic příp. Příklad 2.: V souboru stanice.sta jsou uloženy údaje (v μg/m^3) o průměrných ročních koncentracích oxidu siřičitého v letech 1993 – 1998 na deseti brněnských měřicích stanicích: Dobrovského, Húskova, Krasová, Kroftova, Mendelova zemědělská a lesnická univerzita, Polní, Přízřenice, Skaunicové, Soběšice, Tuřany. Cílem je najít metodami shlukové analýzy skupiny stanic, které vykazují podobné rysy chování. Datový soubor: Úkol 1.: Soubor stanice.sta upravte tak, aby případy 1 až 10 byly pojmenovány názvy stanic. Návod: Data – Správce jmen případů – Přenést jména případů z proměnné Stanice, OK, OK. Úkol 2.: Prozkoumejte proměnné r93 až r98 pomocí krabicových diagramů. Návod: Grafy – 2D Grafy – Krabicové grafy – Vícenásobný – Proměnné r93, ..., r98, OK, OK. Interpretace: Z krabicových diagramů je vidět, že proměnné r93 až r98 vykazují velmi rozdílnou variabilitu. Nejvyšší variabilitu ve sledovaných deseti stanicích měly koncentrace oxidu siřičitého v roce 1993, naopak nejmenší v roce 1998. Úkol 3.: Vzhledem k velmi rozdílné variabilitě proměnných r93 až r98 vytvořte standardizované proměnné a nadále pracujte s nimi. Návod: Data – Standardizovat – Proměnné r93, ..., r98, OK. Úkol 4.: Z proměnných r93 až r98 vytvořte dvě hlavní komponenty a graficky znázorněte rozmístění stanic na ploše oprvních dvou hlavních komponent. Návod: Statistiky – Vícerozměrné průzkumné techniky – Hlavní komponenty & klasifikační analýza – Proměnné r93 až r98, OK, OK – zaškrtneme 2D graf faktorových souřadnic případů. Interpretace: Z rozmístění stanic na ploše prvních dvou hlavních komponent lze usoudit, že stanice DOB, KRA, HUS, SKA mohou tvořit jeden shluk, stanice KRO, SOB, PRI, TUR, MZL druhý shluk a stanice POL se chová poněkud atypicky. Úkol 5.: Pro standardizované proměnné r93 až r98 proveďte shlukovou analýzu s euklidovskou vzdáleností a třemi metodami: nejbližšího souseda, nejvzdálenějšího souseda a průměrné vazby. Výsledky znázorněte pomocí dendrogramu. Návod: Statistiky – Vícerozměrné průzkumné techniky – Shluková analýza – Spojování (hierarchické shlukování) – OK – Proměnné X1 – X4 – OK – na záložce Detaily vybereme Shlukovat Případy (řádky), pravidlo slučování ponecháme Jednodu-ché spojení, míru vzdálenosti ponecháme Euklidovské vzd. – OK – Horizontální graf hierarch. Stromu. Pro další dvě metody změňte Pravidlo slučování z Jednoduché spojení na Úplné spojení resp Nevážený průměr skupin dvojic. Dendrogram pro metodu nejbližšího souseda Interpretace: Stanice DOB, KRA, HUS a STA tvoří jeden shluk, stanice KRO, MZL, PRI, DOB, POL a TUR druhý shluk. Dendrogram pro metodu nejvzdálenějšího souseda Interpretace: Stanice DOB, KRA, HUS, POL a STA tvoří jeden shluk, stanice KRO, MZL, PRI, SOB a TUR druhý shluk. Dendrogram pro metodu průměrné vazby Interpretace: Stanice DOB, KRA, HUS a STA tvoří jeden shluk, stanice KRO, MZL, PRI, SOB, TUR a POL druhý shluk. Shrneme-li výsledky všech tří metod, je zřejmé, že stanice DOB, KRA, HUS a STA zřejmě patří do jednoho shluku, zatímco stanice KRO, MZL, SOB a TUR patří do sruhého shluku. Příslušnost stanice POL k jednomu či druhému shluku není jednoznačná. Úkol 6.: Vypočtěte a pomocí sloupkových diagramů znázorněte průměrné roční koncentrace SO[2] a směrodatné odchylky za celé sledované období pro všech deset stanic. Návod: Je nutné se vrátit k původním nestandardizovaným hodnotám, tj. znovu načíst soubor stanice.sta a pojmenovat případy názvy stanic – viz úkol 1. Pak je zapotřebí soubor transponovat – zaměnit řádky za sloupce: Data – Transponovat – Soubor. Vymažeme 1. řádek: Upravit – Odstranit – Případy – Od případu 1 Do případu 1, OK. Pomocí Popisných statistik vypočteme průměry a směrodatné odchylky proměnných DOB až TUR. Vytvoření sloupkových diagramů pro průměry: v Pracovním sešitě klikneme pravým tlačítkem myši na sloupek Průměr: Grafy bloku dat – Vlastní graf bloku podle sloupce –Typ grafu Sloupcové/pruhové grafy, OK. Podobně pro směrodatné odchylky. Sloupkový diagram pro průměry Slopupkový diagram pro sm. odchylky Interpretace: Stanice v 1. shluku (DOB, HUS, KRA, SKA) vykazují za sledované období poměrně nízké průměrné koncentrace SO[2] (od 6 μg/m^3 po 11 μg/m^3) i malé směrodatné odchylky (od 2,5 μg/m^3 po 3,5 μg/m^3). Druhý shluk obsahuje stanice s vysokými koncentracemi (od 13 μg/m^3 po 19 μg/m^3) a velkými směrodatnými odchylkami (od 3,8 μg/m^3 po 6,8 μg/m^3). Příklad k samostatnému řešení: U 12 velmi slavných amerických hráčů košíkové byly v sezóně 1989 zjištěny hodnoty osmi proměnných. Výška – výška hráče v cm Hmotnost – hmotnost hráče v kg FgPct – první antropometrická charakteristika FtPct – druhá antropometrická charakteristika Body – průměrný počet dosažených bodů Doskoky - průměrný počet doskoků Asistence – průměrný počet asistencí Fauly – průměrný počet faulů Data jsou uložena v souboru Tema4priklad.sta. Metodami shlukové analýzy najděte skupiny hráčů podobných vlastností. (Příklad je převzat z knihy M. Meloun, J. Militký, M. Hill: Počítačová analýza vícerozměrných dat. Academia Praha 2005)