1 Statistické metody a zpracování dat IX Úvod do vícerozměrných metod Petr Dobrovolný Úvod do vícerozměrných metod K čemu jsou metody dobré? * redukovat počet proměnných * detekovat strukturu vztahů mezi proměnnými (klasifikovat, vytvořit typologii dat) O řadě jevů či procesů máme k dispozici ne jeden statistický znak, ale znaků několik. Př. Struktura obyvatelstva, vlastnosti povodí, klimatické poměry místa, ... Vstupní data: Statistické jednotky (např. městské obvody) a k nim několik charakteristik (např. demografická data). Analýza hlavních komponent (Principal Component Analysis ­ PCA) Shluková analýza Literatura: Heřmanová, E. (1991): Vybrané vícerozměrné statistické metody v geografii. SPN, Praha, 133 s. Hendl, J. (2004): Přehled statistických metod zpracování dat. Portál, Praha, 583 s. http://www.statsoft.cz/textbook/stathome.html PCA - Ilustrativní příklad Vstupní data: Podíl zaměstnaných v devíti odvětvích ve 26 evropských zemích (údaje z konce 70. let 20. století) 1. AGR = agriculture 2. MIN = mining 3. MAN = manufacturing 4. PS = power suplies 5. CON = construction 6. SER = service industries 7. FIN = finance, 8. SPS = social and personal services 9. TC = transport and communications Vstupní matice: 9 řádků (proměnných ­ odvětví) a 26 sloupců (případy ­ státy) Cíl: Redukce počtu proměnných a odhalení typických znaků v zaměstnanosti jednotlivých států Příklad ­ typický výstup PCA I. * pořadové číslo nové proměnné (PC - hlavní komponenty) * tzv. vlastní hodnota ­ část z celkového rozptylu původních dat vysvětlená každou z nových komponent * procentuální vyjádření množství rozptylu vysvětleného komponentou * kumulativní hodnota procentuálního podílu vysvětleného příslušnými komponentani (např. první 4 komponenty vysvětlují 85,68 % celkové variability původních dat) * tzv. sutinový graf sloužící k určení počtu významných komponent Příklad ­ typický výstup PCA II. Tzv. zátěže (loadings) - představují míru korelace mezi původními a novými proměnnými 2 Příklad ­ typický výstup PCA Struktura zaměstnanosti jednotlivých zemí vyjádřená polohou v grafu hodnot prvních dvou (nejvýznamnějších) hlavních komponent. Charakteristiky, které na jednotkách měříme, jsou jen určitou formou projevu tzv. skrytých veličin, které přímo měřit nemůžeme. Řada měřených charakteristik spolu do značné míry souvisí ­ vypovídá o stejné vlastnosti, koreluje spolu (mezi proměnnými existují ,,překryvy"). Cílem metody je eliminování duplicit, zhuštění informace obsažené v původních proměnných do menšího počtu vzájemně nekorelovaných proměnných. Tyto nové proměnné (hlavní komponenty) popisují soubor jednotek syntetičtěji a úsporněji. Princip PCA Základní východiska Máme-li pro soubor znaků dvě proměnné a ty spolu vzájemně korelují ­ potom vypovídají z velké části o tomtéž ­ jsou redundantní. Pokud takového dvě (korelované) proměnné vyneseme do grafu a nějak proložíme rovnicí přímky ­ potom tuto přímku můžeme považovat za osu, na niž jsou vyneseny hodnoty nové proměnné, která ponese podstatnou informaci z obou proměnných původních. Princip redukce dat a ,,skryté"proměnné (interpretace následujícího obrázku) Základní východiska Základní východiska Tedy ­ dvě původní proměnné redukujeme do jedné nové proměnné ­ do tzv. hlavní komponenty (PC). Hlavní komponenta je lineární kombinací původních proměnných. Uvedený princip lze zobecnit na větší počet proměnných Metody PCA se používají k analýze vztahů závislosti ve vícerozměrném (obecně rrozměrném) ortogonálním (pravoúhlém) prostoru. Shluková analýza 3 Ilustrativní případ pro m=2 Klimatické poměry n stanic jsou charakterizovány dvěma proměnnými (m=2): Průměrnou roční teplotou vzduchu (T) a ročním úhrnem srážek (S) INTERPRETACE: Stanice s vysokými srážkami a nízkými teplotami tvoří shluk stanic vysokohorských, stanice s nízkými úhrny srážek a vysokými teplotami tvoří shluk stanic níže položených. Ve většině případů není vymezení shluků takto triviální. Shluková analýza (Cluster analysis) Je to skupina metod, jejichž cílem je rozdělení souboru jednotek na několik navzájem vylučujících se relativně stejnorodých podmnožin (shluků = clusters). Rozdělení jednotek je provedeno tak, aby jednotky patřící do téhož shluku si byly co nejvíce ,,podobné", zatímco jednotky pocházející z různých shluků by měly být co nejvíce odlišné. Charakteristika metody I. Jednotky představují body v n-rozměrném prostoru, jehož osy tvoří hodnoty jednotlivých znaků (v1, v2, v3). V takto definovaném prostoru tvoří jednotky s podobnými hodnotami znaků PŘIROZENÉ shluky. Jednotlivé metody shlukové analýzy řeší problém definice a výpočtu ,,podobnosti" či ,,odlišnosti" jednotek a jejich PŘÍSLUŠNOST k určitým shlukům. Shluková analýza je vícerozměrnou metodou. K charakterizování jednotek, kterých je obecně n využívá většího počtu znaků (m>=2). Princip shlukování a míry vzdálenosti Kritériem víceznakové podobnosti ve shlukové analýze je VZDÁLENOST. Čím blíže se nacházejí body v m-rozměrném prostoru, tím jsou si podobnější. Nulová vzdálenost znamená identitu ­ tedy maximální podobnost. Charakteristiky dendrogramu Postup shlukování lze prezentovat pomocí tzv. dendrogramu. Rozdělíme-li dendrogram na jakékoliv úrovni pomyslným řezem, vždy dostaneme homogenní shluky. Čím později ho rozdělíme, tím méně podobné jednotky jsou spojeny v jednom shluku. Šipka značí pokles míry podobnosti jednotek ve shlucích Analýza vzdáleností Spočívá ve výpočtu zvoleného typu vzdálenosti mezi všemi jednotkami a v jejich sestavení do symetrické čtvercové matice, která má na diagonále nuly (tj. maximální podobnost). Matice vzdáleností 4 1. krok - nalezení minimálního prvku v původní matici Ve výchozí matici je minimální vzdálenost mezi prvky 8 a 10: d8,10 = 1,75. Tyto dvě jednotky se sloučí. Vypočítáme vzdálenosti tohoto nového shluku k stávajícím jednotkám (příklad pro pro jednotku 1): 88,10 2 38,1039,11 2 )1,10()1,8( )1,108( = + = + =+ dd d Analogicky se vypočtou nové vzdálenosti mezi novým shlukem a zbylými jednotkami, tedy d(8+10,2), d (8+10,3) ..... d (8+10,9) Výsledkem je nová matice vzdáleností. 2. krok - nová matice vzdáleností Hodnota v závorce vyjadřuje vzdálenost, při které dochází ke sloučení a využívá se ke konstrukci tzv. dendrogramu (viz. dále). Opět se najde minimální hodnota a celý výpočet se opakuje tak, jak je naznačeno v dále uvedených maticích vzdáleností ... 4. krok 3. krok 6. krok 5. krok 9. krok 8. krok 7. krok 5 V posledním kroku dochází ke sloučení všech jednotek do jednoho shluku na vzdálenosti 8,58. To je průměrná vzdálenost mezi dvěma jednotkami. Průběh shlukování se obvykle zaznamenává do dendrogramů ­ hierarchicky uspořádaných ,,stromů"). Ukončení shlukování a prezentace jeho průběhu Dendrogram