Průzkumová analýza vícerozměrných dat Vícerozměrná data: vyskytují se v situacích, kdy u každého z n objektů zjišťujeme hodnoty p znaků X[1], ..., X[p]. p-rozměrný datový soubor: matice n x p: . Řádky charakterizují objekty, sloupce znaky. Např. máme n sportovců, u každého sledujeme tyto znaky: pohlaví (0 – žena, 1 – muž), tělesná výška (v cm), tělesná váha ( v kg), nejlepší výkon ve skoku do dálky (v cm), nejlepší výkon ve skoku do výšky (v cm), nejlepší výkon v běhu na 100 m (v s). Úkoly průzkumové analýzy vícerozměrných dat: - odhalit vektory pozorování nebo jejich složky, které se jeví jako vybočující - postihnout závislosti mezi sloupci datového souboru - identifikovat shluky v datech, které svědčí o nehomogenitě daného výběru - posoudit vícerozměrnou normalitu dat. Omezíme se na dva problémy, a to na vizualizaci dat pomocí hlavních komponent a na shlukovou analýzu dat. Vizualizace vícerozměrných dat Je-li p = 2 nebo p = 3, můžeme hodnoty znaků chápat jako souřadnice v dvou či třírozměrném prostoru a získáme tak dvourozměrný či třírozměrný tečkový diagram. Ze vzhledu těchto tečkových diagramů lze poznat, zda se v datech vyskytují odlehlá pozorování, zda mezi znaky existuje nějaká závislost nebo zda se objekty sdružují do skupin. Je-li p > 3, použijeme k vizualizaci dat metodu hlavních komponent, která umožňuje vyjádřit informace o variabilitě obsažené v datovém souboru pomocí několika málo nových znaků získaných jako lineární kombinace znaků původních. Tyto nové znaky, kterým se říká hlavní komponenty, jsou nekorelované a jsou uspořádané podle svého klesajícího rozptylu. Většina informace o variabilitě původních dat je tedy soustředěna v první hlavní komponentě a nejméně informace je obsaženo v poslední hlavní komponentě. Ukazuje se, že pouze několik prvních hlavních komponent má dostatečně velký rozptyl. Ostatní pak můžeme zanedbat, čímž docílíme snížení dimenze dat. V datovém souboru však musí existovat mezi znaky dostatečně silná korelace, aby bylo možno tuto redukci provést. Analýza hlavních komponent může být chápána jako transformace z původního do nového souřadnicového systému, jehož osy jsou tvořeny hlavními komponentami. Osy procházejí směry maximálního rozptylu, protože podmínka nezávislosti komponent vede ke kolmosti os. Data pak znázorníme v prostoru prvních dvou či tří hlavních komponent. Metodu hlavních komponent (Principal Component Analysis – PCA) popsal v r. 1901 Karl Pearson a ve 30. letech 20. století ji dále rozvinul Harold Hotelling. Harold Hotelling (1895 – 1973), americký matematik a statistik Podstata metody hlavních komponent Uvažme datový soubor, který vznikl tak, že 6 žáků absolvovalo 4 testy, které měří následující veličiny: X[1] – přírodovědné znalosti, X[2] – literární vědomosti, X[3] – schopnost koncentrace, X[4] – logické myšlení. Testy se hodnotí na škále od 1 do 10 (1 = špatný výsledek, 10 = výborný výsledek) Označení x[i] = (x[i1], ..., x[ip])^T – vektor pozorování i-tého objektu, i = 1, 2, ..., n Např. pro i = 3 máme x[3] = (4 3 1 2)^ T - průměr j-tého znaku, j = 1, 2, ..., p Např. pro j = 1 máme - rozptyl j-tého znaku, j = 1, 2, ..., p Např. pro j = 1 máme Datový soubor s průměry, směrodatnými odchylkami a rozptyly - (i,j)-tá standardizovaná hodnota, i = 1, 2, ..., n, j = 1, 2, ..., p Např. pro i = 1, j = 1 máme Datový soubor standardizovaných hodnot z[i] = (z[i1], ..., z[ip])^T – vektor standardizovaných pozorování i-tého objektu, i = 1, 2, ..., n m = (m[1], ..., m[p])^T – vektor průměrů S = - výběrová varianční matice V našem případě: R = - výběrová korelační matice V našem případě: (S a R jsou čtvercové symetrické matice řádu p.) Základní pojmy A - čtvercová matice řádu p. Vlastní číslo matice A – takové číslo λ, které pro libovolný nenulový vektor v typu p x 1 splňuje rovnici Av = λv. Vlastní vektor matice A – vektor v. Charakteristický polynom matice A - determinant . Stopa matice A - součet jejích diagonálních prvků (značí se Tr(A)). Výpočet vlastních čísel matice A Rovnici Av = λv upravíme na tvar (A – λI) v = o. Tato soustava p rovnic má netriviální řešení, právě když charakteristický polynom matice A je roven 0. Dostaneme rovnici p-tého stupně. Jejím řešením jsou vlastní čísla λ[1], ..., λ[p]. Jejich součet je roven stopě matice A. Získání hlavních komponent Nechť výběrová varianční matice S má vlastní čísla l[1], ..., l[p] a vlastní vektory v[1], ..., v[p], přičemž v[j]^Tv[j] = 1, j = 1, ..., p a v[j]^Tv[k] = 0 pro j ≠ k. Znamená to, že vektory v[1], ..., v[p] jsou ortonormální. [ ]Bez újmy na obecnosti předpokládáme, že l[1] > l[2] > ... > l[p]. 1. hlavní komponenta vznikne jako lineární kombinace znaků X[1], ..., X[p], kde koeficienty této lineární kombinace jsou souřadnice vlastního vektoru v[1], tedy Y[1] = v[11]X[1] + ... + v[1p]X[p]. Její rozptyl je l[1]. Dosadíme-li za X[1], ..., X[p] vektory pozorování x[i], i = 1, ..., n, dostaneme vektor souřadnic y[1] = (y[11], ..., y[1n])^T, kde y[1i] = v[1]^Tx[i]. 2. hlavní komponenta vznikne jako lineární kombinace znaků X[1], ..., X[p], kde koeficienty této lineární kombinace jsou souřadnice vlastního vektoru v[2], tedy Y[2] = v[21]X[1] + ... + v[2p]X[p]. Její rozptyl je l[2]. Přitom v[1]^Tv[2] = 0, tj. 1. a 2. hlavní komponenta jsou lineárně nezávislé. Dosadíme-li za X[1], ..., X[p] vektory pozorování x[i], i = 1, ..., n, dostaneme vektor souřadnic y[2] = (y[21], ..., y[2n])^T, kde y[2i] = v[2]^Tx[i]. ................... j-tá hlavní komponenta vznikne jako lineární kombinace znaků X[1], ..., X[p], kde koeficienty této lineární kombinace jsou souřadnice vlastního vektoru v[j], tedy Y[j] = v[j1]X[1] + ... + v[jp]X[p]. Její rozptyl je l[j]. Přitom v[j]^Tv[k] = 0, j = 1, ..., k-1, tj. j-tá hlavní komponenta je lineárně nezávislá se všemi ostatními hlavními komponentami. Dosadíme-li za X[1], ..., X[p] vektory pozorování x[i], i = 1, ..., n, dostaneme vektor souřadnic y[j] = (y[j1], ..., y[jn])^T, kde y[ji] = v[j]^Tx[i]. Lze dokázat, že celková variabilita obsažená v datech je rovna stopě matice S, tj. součtu vlastních čísel l[1] + ... + l[p]. 1. hlavní komponenta tedy vyčerpává celkové variability. Pokud je číslo dostatečně blízké 1, znamená to, že 1. hlavní komponenta dobře nahrazuje celý datový soubor. Je-li toto číslo podstatně menší než 1, musíme vzít tolik hlavních komponent, aby jejich součet dělený stopou matice S byl dostatečně blízký 1. (V mnoha aplikacích se stává, že i při velkém počtu znaků stačí poměrně malý počet hlavních komponent.) Znázorníme-li rozmístění objektů na ploše prvních dvou hlavních komponent, můžeme poznat, které objekty se řadí do skupin neboli shluků. (Před provedením metody hlavních komponent je třeba se rozhodnout, zda budeme pracovat s původními hodnotami znaků nebo standardizovanými hodnotami.) Důležité upozornění: Proměnné X[1], …, X[p] musí být mezi sebou dostatečně korelované, jinak metoda hlavních komponent nedá dobré výsledky. Koeficient korelace i-tého znaku X[j] s k-tou hlavní komponentou Y[k] lze vyjádřit jako . Reprodukce výchozí kovarianční matice: V teorii matic se dokazuje vzorec (tzv. spektrální rozklad matice S) Rozhodneme-li se uvažovat právě m hlavních komponent (m ≤ p), pak pomocí tohoto vztahu můžeme posoudit, jak těchto m hlavních komponent reprodukuje rozptyly a kovariance původních proměnných. Lze posoudit i reziduální matici, tj. matici, kterou získáme jako rozdíl výchozí kovarianční matice a reprodukované kovarianční matice. Doporučený postup při analýze hlavních komponent a) Provedeme tabulkové a grafické zpracování datového souboru, abychom se blíže seznámili s daty. b) Sestavíme korelační matici a prověříme, zda jsou korelace natolik silné, aby mělo smysl provádět analýzu hlavních komponent. c) Rozhodneme, kolika hlavními komponentami lze popsat datový soubor bez podstatné ztáty informace. Označme tento vhodný počet jako m. Při stanovení m můžeme použít tato pomocná kritéria: · Kaiserovo kritérium - za m volíme počet těch vlastních čísel matice R, která jsou větší než 1. · Sutinový test (scree test) – grafická metoda, která spočívá v subjektivním posouzení vzhledu sutinového grafu (scree plot), tj. grafu znázorňujícího velikosti sestupně uspořádaných vlastních čísel matice R. Objeví-li se v grafu určité zploštění, pak za m vezmeme to pořadové číslo, kde se zploštění projevilo. · Kritérium založené na kumulativním procentu vysvětleného rozptylu. Požadujeme, aby vybrané hlavní komponenty vysvětlily aspoň 70% celkového rozptylu. · Kritérium založené na reziduální korelační či kovarianční matici. Požadujeme, aby prvky reziduální matice byly co možná nejmenší. d) Pokusíme se o interpretaci prvních m hlavních komponent. Zkoumáme přitom, jak jsou jednotlivé vybrané hlavní komponenty utvořeny z původních znaků a jak s nimi korelují. e) Vypočítáme vektory souřadnic a následně sestrojíme dvourozměrné tečkové diagramy. Pro náš datový soubor nejprve znázorníme data pomocí krabicových diagramů: Grafy – 2D Grafy – Krabicvé grafy – zvolíme Vícenásobný – Proměnné - Závisle proměnné X1-X4 – OK – OK Nyní vypočte korelační matici: Statistiky – Vícerozměrné průzkumné techniky – Hlavní komponenty & klasifikační analýza – Proměnné X1 až X4, OK – OK – Popisné statistiky – Korelační matice Dále vypočteme vlastní čísla a procento vysvětleného rozptylu: na záložce Základní výsledky vybereme Vlastní čísla. Vidíme, že 1. vlastní číslo l[1] = 3,66, tedy 1. hlavní komponenta vyčerpává 91,5% variability dat, 2. vlastní číslo l[2] = 0,19, 2. hlavní komponenta vyčerpává 4,7% variability dat atd. Podle Kaiserova kritéria by stačilo uvažovat pouze 1. hlavní komponentu, protože pouze první vlastní číslo je větší než 1. Kvůli znázornění objektů však budeme uvažovat první dvě hlavní komponenty. Dále vypočítáme vlastní vektory: na záložce Proměnné vybereme Vlastní vektory 1. hlavní komponenta: Y[1] = -0,49X[1] -0,5X[2] – 0,5X[3] – 0,49X[4], 2. hlavní komponenta: Y[2] = -0,0005X[1] +0,58X[2] + 0,19X[3] – 0,79X[4] atd. Sutinový graf (scree plot): V sutinovém grafu nastává výrazné zploštění po 1. vlastním čísle. Výpočet koeficientů korelace 1. a 2. hlavní komponenty a původních čtyř proměnných: na záložce Proměnné vybereme Korelace faktorů & proměnných Vidíme, že 1. hlavní komponenta vysoce záporně koreluje se všemi proměnnými. 2. hlavní komponenta slabě kladně koreluje s druhou proměnnou a středně silně záporně koreluje s třetí proměnnou. Podívejme se rovněž na vektory souřadnic (v systému STATISTICA se jim říká faktorové souřadnice případů): na záložce Případy vybereme Faktorové souřadnice případů. Znázornění objektů (žáků) na ploše prvních dvou hlavních komponent: Shluková analýza Cíl shlukové analýzy Cílem shlukové analýzy je roztřídění n objektů, z nichž každý je popsán p znaky, do několika pokud možno stejnorodých (homogenních) skupin (shluků, clusterů). Požadujeme, aby objekty uvnitř shluků si byly podobné co nejvíce, zatímco objekty z různých shluků co nejméně. Přesný počet shluků většinou není přesně znám. Shluková analýza nachází uplatnění v celé řadě oborů, např. v biologii. U n populací změříme p biometrických charakteristik a zjišťujeme, zda určité skupiny populací tvoří shluky. Shluková analýza je ovšem průzkumovou metodou a měla by sloužit jako určité vodítko při dalším zpracování dat. Podobnost objektů Podobnost (či rozdílnost) objektů posuzujeme pomocí různých měr vzdálenosti. Pro znaky intervalového či poměrového typu nejčastěji používáme euklidovskou vzdálenost. Nechť k-tý objekt je popsán vektorem pozorování x[k] = (x[k1], ..., x[kp])^T a l-tý objekt vektorem x[l] = (x[l1], ..., x[lp])^T. Euklidovská vzdálenost k-tého a l-tého objektu: . Vzdálenosti vypočtené pro všechny dvojice objektů se uspořádají do matice vzdáleností. Je zřejmé, že je to čtvercová symetrická matice, která má na hlavní diagonále nuly. Matice euklidovských vzdáleností pro datový soubor s údaji o 6 žácích: Statistiky – Vícerozměrné průzkumné techniky – Shluková analýza – Spojování (hierarchické shlukování) – OK – Proměnné X1 – X4 – OK – na záložce Detaily vybereme Shlukovat Případy (řádky) – OK – na záložce Detaily vybereme Ma-tice vzdáleností. Hierarchické shlukování Při aplikacích shlukové analýzy se nejčastěji používá aglomerativní hierarchická procedura. Její princip spočívá v postupném slučování objektů, a to nejprve nejbližších a v dalších krocích pak stále vzdálenějších. Algoritmus: 1. krok: Každý objekt považujeme za samostatný shluk. 2. krok: Najdeme dva shluky, jejichž vzdálenost je minimální. 3. krok: Tyto dva shluky spojíme v nový, větší shluk a přepočítáme matici vzdáleností. Její řád se sníží o 1. Vrátíme se na 2. krok. Funkce algoritmu končí, až jsou všechny objekty spojeny do jediného shluku. Vzdálenost mezi shluky se počítá různými způsoby. Uvedeme tři z nich. a) Metoda nejbližšího souseda: Vzdálenost mezi dvěma shluky je minimem ze všech vzdáleností mezi jejich objekty. b) Metoda nejvzdálenějšího souseda: Vzdálenost mezi dvěma shluky je maximem ze všech vzdáleností mezi jejich objekty. c) Metoda průměrné vazby: Vzdálenost mezi dvěma shluky je průměrem ze všech vzdáleností mezi jejich objekty. Výsledky aglomerativní hierarchické procedury se zpravidla znázorňují pomocí dendrogramu. Je to graficky znázorněná posloupnost dvojic , kde je neklesající posloupnost úrovní spojování a S^(i) je roztřídění objektů odpovídající úrovni ν[i], i = 1, ..., n. Dendrogram pro metodu nejbližšího souseda: Statistiky – Vícerozměrné průzkumné techniky – Shluková analýza – Spojování (hierarchické shlukování) – OK – Proměnné X1 – X4 – OK – na záložce Detaily vybereme Shlukovat Případy (řádky), pravidlo slučování ponecháme Jednoduché spojení, míru vzdálenosti ponecháme Euklidovské vzd. – OK – Horizontální graf hierarch. stromu Dendrogram pro metodu nejvzdálenějšího souseda: Na záložce Detaily vybereme pravidlo slučování Úplné spojení Dendrogram pro metodu úplné vazby: Na záložce Detaily vybereme pravidlo slučování Nevážený průměr skupin dvojic. Vidíme, že výsledky všech tří metod jsou velmi podobné a odpovídají rozmístění objektů (žáků) na ploše prvních dvou hlavních komponent.