1 Z2069 Statistické metody a zpracování dat II Vícerozměrné metody Vstupní data: výsledky dosažené ve výběru 220 žáků v šesti předmětech: 1. gaelština 2. angličtina 3. dějepis 4. aritmetika 5. algebra 6. geometrie korelační matice vstupních dat K čemu to slouží? • Původních šest proměnných lze nahradit pouze dvěma novými proměnnými (faktory, hlavními komponentami) bez podstatné ztráty informace • Dvě nové proměnné vysvětlují korelační strukturu pozorovaných dat; první faktor vyjadřuje matematickou dispozici žáka, druhý dispozici jazykově- humanitní PCA Úvod do vícerozměrných metod Cíle prezentovaných metod: 1. redukovat počet proměnných 2. detekovat strukturu vztahů mezi proměnnými (klasifikovat, vytvořit typologii dat) O řadě jevů či procesů máme k dispozici ne jeden statistický znak, ale znaků několik. Př. struktura obyvatelstva, vlastnosti povodí, klimatické poměry místa, prospěch v různých předmětech, … Analýza hlavních komponent (Principal Component Analysis – PCA) Shluková analýza (Cluster Analysis) Vstupní data: statistické jednotky např. městské obvody (případy – řádky) a k nim několik charakteristik např. demografická data (proměnné – sloupce). Literatura: Heřmanová, E. (1991): Vybrané vícerozměrné statistické metody v geografii. SPN, Praha, 133 s. Hendl, J. (2004): Přehled statistických metod zpracování dat. Portál, Praha, 583 s. http://www.statsoft.cz/textbook/stathome.html Úvod do vícerozměrných metod • Máme-li pro soubor znaků dvě proměnné a ty spolu vzájemně korelují – potom vypovídají z velké části o tomtéž – jsou redundantní. • Dvě (korelované) proměnné vyneseme do grafu a proložíme jím novou osu, která je orientována ve směru maximálního rozptylu původních dat. • Druhá osa je na ni kolmá a je vedena ve směru největšího rozptylu nevysvětleného první osou. Princip analýzy hlavních komponent Princip analýzy hlavních komponent • Nové osy představují nové proměnné (tzv. hlavní komponenty či faktory) • Hlavní komponenta je lineární kombinací původních proměnných. • Uvedený princip lze zobecnit na větší počet proměnných PC2 PC1 2 Princip analýzy hlavních komponent • Nové osy vytvářejí nový souřadný systém • První hlavní komponenta (PC1) popisuje největší část proměnlivosti (rozptylu) původních dat • Druhá hlavní komponenta (PC2) popisuj největší část proměnlivosti neobsažené v PC1 atd. • Hlavní komponenty jsou nekorelované. PC1 PC2 pp XaXaXaPC 12121111 ...+++= 1... 2 1 2 12 2 11 =+++ paaa pp XaXaXaPC 22221212 ...+++= 1... 2 2 2 22 2 21 =+++ paaa Princip analýzy hlavních komponent Vstupní data představuje matice, která obsahuje n případů pro p proměnných. Běžně představují proměnné sloupce datové matice a případy její řádky. První hlavní komponenta (PC1) je lineární kombinací proměnných X1, X2, …, Xp Pro koeficienty aij musí platit: Druhá hlavní komponenta (PC2) bude: atd. Z původních p proměnných se vypočte p hlavních komponent • Cílem metody je zjednodušení popisu lineárně závislých tj. korelovaných znaků, tedy redukce dat bez podstatné ztráty • Základní charakteristikou každé hlavní komponenty je její míra variability (rozptyl). • Hlavní komponenty jsou seřazeny dle důležitosti, tj. klesajícího rozptylu, od největšího k nejmenšímu. • Většina informace o variabilitě dat je přitom obvykle soustředěna do prvních dvou – tří komponent a ostatní obsahují epodstatné množství informace (představují „šum“). Princip analýzy hlavních komponent • Řada měřených charakteristik spolu do značné míry souvisí – vypovídá o stejné vlastnosti, koreluje spolu (mezi proměnnými existují „překryvy“). • Tyto nové proměnné (hlavní komponenty) popisují soubor jednotek syntetičtěji a úsporněji. • V některých případech však je problém tyto nové proměnné interpretovat – dát jim význam ve smyslu řešené úlohy a určit, co představují Princip analýzy hlavních komponent • Cílem metody je také odhalení struktury v datech • Charakteristiky, které na jednotkách měříme, jsou jen určitou formou projevu tzv. skrytých veličin, které přímo měřit nemůžeme. Ilustrativní příklad – vstupní data Podíl zaměstnaných v devíti odvětvích ve 26 evropských zemích (údaje z konce 70. let 20. století) 1. AGR = agriculture 2. MIN = mining 3. MAN = manufacturing 4. PS = power suplies 5. CON = construction 6. SER = service industries 7. FIN = finance, 8. SPS = social and personal services 9. TC = transport and communications Vstupní matice: 9 řádků (proměnných – odvětví) a 26 sloupců (případy – státy) Cíl: Redukce počtu proměnných a odhalení typických znaků v zaměstnanosti jednotlivých států Příklad – typický výstup PCA I. • pořadové číslo nové proměnné (PC - hlavní komponenty) • tzv. vlastní hodnota – část z celkového rozptylu původních dat vysvětlená každou z nových komponent • procentuální vyjádření množství rozptylu vysvětleného komponentou • kumulativní hodnota procentuálního podílu vysvětleného příslušnými komponentani (např. první 4 komponenty vysvětlují 85,68 % celkové variability původních dat) • tzv. sutinový graf sloužící k určení počtu významných komponent Význam jednotlivých sloupců: 3 Příklad – typický výstup PCA II. Tzv. zátěže (loadings) - představují míru korelace mezi původními a novými proměnnými Lze je využít k interpretaci nově vypočtených proměnných (faktorů, komponent) nové proměné (PC)původní proměné Příklad – typický výstup PCA III Struktura zaměstnanosti jednotlivých zemí vyjádřená polohou v grafu hodnot prvních dvou (nejvýznamnějších) hlavních komponent. PC1 diferencuje země podle rozsahu zemědělské výroby, rozlišuje zemědělské a průmyslové země PC2 rozlišuje země s velkým a malým sektorem služeb (Z předchozí tabulky je patrné, že PC2 má záporné zátěže u míst. hospodářství, služeb, financí – kapitalistické státy měly rozvinutější sektor služeb než socialistické Obecný postup analýzy hlavních komponent 1. Sestavení matice o p proměnných (sloupcích) a n případech (řádcích) a její případná standardizace 2. Explorační analýza vstupních dat s cílem odhalení vztahů mezi proměnnými 3. Výpočet korelační matice typu p,p, identifikace silně korelovaných proměnných 4. Výpočet p nových ortogonálních proměnných (hlavních komponent) 5. Analýza tabulky s vlastními čísly a sutinového grafu za účelem rozhodnutí o počtu významných komponent 6. Interpretace významných komponent s využitím tabulky s tzv. zátěžemi a grafem komponentních skóre 7. (Případná rotace faktorů či komponent za účelem lepší interpretace) Vstupní datová matice Vstupní data představuje matice, která obsahuje n případů pro m proměnných. V běžném případě představují proměnné sloupce datové matice a případy její řádky. Charakteristiky vstupují do analýzy obvykle ve standardizovaném tvaru (ve formě normovaných normálních proměnných). σ µ− = i i x z Standardizaci provádíme proto, že různé proměnné ve vstupní datové matici mohou mít různý rozměr, různé jednotky. Dva způsoby (módy) PCA Analýza podobnosti jednotek (případů) – dimenze rrozměrného prostoru jsou charakteristiky (proměnné). Cílem analýzy je redukovat sloupce datové matice Analýza podobnosti proměnných dimenze r-rozměrného prostoru jsou jednotky (případy). Cílem analýzy je redukovat dimensionalitu řádků. Porovnáváme vzdálenosti mezi proměnnými, malá vzdálenost znamená silnou korelaci. Hledáme shluk podobných proměnných, jež spolu korelují Úhly mohou nabývat hodnot od 0 do 180 stupňů a cos úhlu odpovídá hodnotě korelačního koeficientu: cos 0 =1, rxy = 1 cos 90 =0, rxy = 0 cos 180 =-1, rxy = -1 V1 V2 V3 V4 V5 V1 1 -0,41 -0,97 -0,98 0,75 V2 1 0,60 0,22 -0,91 V3 1 0,91 -0,88 V4 1 -0,62 V5 1 Grafické znázornění korelací mezi více proměnnými 4 Komponentní váhy informují o vztahu mezi původními p proměnnými a hlavními komponentami. Komponentní váhy (zátěže, loadings) Zátěže ukazují, jakou měrou přispívají jednotlivé původní proměnné do hlavních komponent, představují míru korelace mezi původními proměnnými a novou komponentou. Zátěže informují o tom, které proměnné nejvíce „zatěžují“ jednotlivé nové komponenty (které v nich mají největší zastoupení). Interpretace komponentních vah (zátěží) • Pro vlastní interpretaci nových proměnných potřebujeme, aby původní proměnnou významně „zatěžoval“ pouze jeden faktor a aby u ostatních faktorů nabývaly zátěže malých hodnot. • Pro identifikaci struktury v datech jsou důležité absolutní hodnoty zátěží. • Cílem je dát vypočteným faktorům konkrétní význam, název, označení,… • Strukturu lze odhalit i na základě zkušenosti. • K lepší interpretaci výsledků PCA lze provést jejich rotaci Porovnáváme vzdálenosti mezi proměnnými, malá vzdálenost znamená silnou korelaci. Hledáme shluk podobných proměnných, jež spolu korelují Z grafu je patrné, jakou měrou přispívají jednotlivé původní proměnné do hlavních komponent. Graf komponentních vah Na grafu komponentních vah pro dvě různé faktory či komponenty (např. PC1 a PC2) jsou na místo objektů jejich znaky a lze tak vyšetřovat závislosti a podobnosti mezi znaky. Souřadnice každého objektu v prostoru hlavních komponent Komponentní skóre • Daleko od počátku jsou extrémy, objekty nejblíže počátku jsou nejtypičtější. Objekty blízko sebe si jsou podobné, daleko od sebe jsou si nepodobné. • Objekty umístěné zřetelně v jednom shluku jsou si podobné a nepodobné objektům v ostatních shlucích. • Umístění objektu na ploše v diagramu může být porovnáváno s komponentními vahami původních proměnných a slouží k interpretaci faktorů i shluků jednotlivých objektů. Graf komponentních skóre Je to spojnicový graf vlastních čísel proti pořadovým číslům hlavních komponent Vlastní číslo (eigenvalue) představuje hodnotu rozptylu vysvětleného komponentou Graf slouží k určení počtu "užitečných" (významných) hlavních komponent. Graf úpatí vlastních čísel (sutinový graf, scree plot) K rozhodování o počtu významných a interpretovatelných nových komponent lze použít dvě základní kritéria: 1. Je-li hodnota vlastního čísla větší než 1, potom daná komponenta vysvětluje více celkového rozptylu než jedna původní proměnná. 2. Hledáme zřetelný zlom v průběhu křivky, která prezentuje spojnici hodnot celkového rozptylu vysvětleného jednotlivými komponentami. Graf úpatí vlastních čísel (sutinový graf, scree plot) 5 Vstupní data: výsledky dosažené ve výběru 220 žáků v šesti předmětech: 1. gaelština 2. angličtina 3. dějepis 4. aritmetika 5. algebra 6. geometrie Příklad Korelační matice vstupních dat Příklad – výstup: vlastní čísla a zátěže Příklad – výstup: vlastní čísla a zátěže (výsledek po provedení rotace) Příklad Korelační strukturu pozorovaných dat lze vysvětlit dvěma faktory. První faktor vyjadřuje matematickou dispozici žáka, druhý dispozici jazykově- humanitní. PCA v programu Statistica Statistiky – Vícerozměrné průzkumné techniky – Hlavní komponenty & klasifikační analýza Detailní popis a interpretace – viz Statistica – Help – Examples PCA v programu Statistica 1 2 Graf slouží k určení počtu významných komponent. V tomto příkladu mají první dvě komponenty vlastní číslo > 1 První dvě nové komponenty popisují téměř 81 % celkového rozptylu původních dat. 6 PCA v programu Statistica 3 4 Zátěže - korelace mezi původními proměnnými a novými hlavními komponentami (faktory) Vysoké či nízké hodnoty zátěží lze využít k „pojmenování“ komponent Čím blíže je proměnná kružnici, tím lépe je tato proměnná reprezentována v souřadném systému použitých komponent PCA v programu Statistica 3 Interpretace hlavních komponent: První komponenta nejvíce koreluje s proměnnými WORK a TRANSPORT (záporná korelace) a s proměnnými HOUSEHOLD a CHILDREN (positivní korelace) – nová osa diferencuje pracovní vs. domácí aktivity Druhá komponenta vykazuje největší negativní korelaci s proměnnými SHOPPING a PERSONAL CARE - activities required by modern organized life PCA v programu Statistica 5 První komponenta dobře diferencuje aktivity mužů a žen