Průzkumová analýza vícerozměrných dat Vícerozměrná data: vyskytují se v situacích, kdy u každého z n objektů zjišťujeme hodnoty p znaků X1, ..., Xp. p-rozměrný datový soubor: matice n x p:           np1n p111 xx xx L LLL L . Řádky charakterizují objekty, sloupce znaky. Např. máme n sportovců, u každého sledujeme tyto znaky: pohlaví (0 – žena, 1 – muž), tělesná výška (v cm), tělesná hmotnost (v kg), nejlepší výkon ve skoku do dálky (v cm), nejlepší výkon ve skoku do výšky (v cm), nejlepší výkon v běhu na 100 m (v s). Úkoly průzkumové analýzy vícerozměrných dat: - odhalit vektory pozorování nebo jejich složky, které se jeví jako vybočující - postihnout závislosti mezi sloupci datového souboru - identifikovat shluky v datech, které svědčí o nehomogenitě daného výběru - posoudit vícerozměrnou normalitu dat. Omezíme se na dva problémy, a to na vizualizaci dat pomocí hlavních komponent a na shlukovou analýzu dat. Vizualizace vícerozměrných dat Je-li p = 2 nebo p = 3, můžeme hodnoty znaků chápat jako souřadnice v dvou či třírozměrném prostoru a získáme tak dvourozměrný či třírozměrný tečkový diagram. Ze vzhledu těchto tečkových diagramů lze poznat, zda se v datech vyskytují odlehlá pozorování, zda mezi znaky existuje nějaká závislost nebo zda se objekty sdružují do skupin. Příklad: Máme k dispozici datový soubor z roku 1979 o 26 evropských zemích, který obsahuje údaje o procentuálním zastoupení ekonomicky činného obyvatelstva v různých odvětvích národního hospodářství: zemědělství, těžba, průmyslová výroba, energetika, stavebnictví, místní hospodářství, finanční sektor, služby, doprava a komunikace. 1 zemed. 2 tezba 3 prumysl 4 energ. 5 staveb. 6 mist. hosp. 7 finance 8 sluzby 9 doprava Belgie Dánsko Francie Záp. Německo Irsko Itálie Lucembursko Nizozemsko Velká Británie Rakousko Finsko Řecko Norsko Portugalsko Španělsko Švédsko Švýcarsko Turecko Bulharsko Československo Vých. Německo Maďarsko Polsko Rumunsko Sovětský svaz Jugoslávie 3,3 0,9 27,6 0,9 8,2 19,1 6,2 26,6 7,2 9,2 0,1 21,8 0,6 8,3 14,2 6,5 32,2 7,1 10,8 0,8 27,5 0,9 8,9 16,8 6 22,6 5,7 6,7 1,3 35,8 0,9 7,3 14,4 5 22,5 6,1 23,2 1 20,7 1,3 7,5 16,8 2,8 20,6 6,1 15,9 0,6 27,6 0,5 10 18,1 1,5 20,1 5,7 7,7 3,1 30,8 0,8 9,2 18,5 4,5 19,2 6,2 6,3 0,1 22,5 1 9,9 18 6,9 28,5 6,8 2,7 1,4 30,2 1,4 6,9 16,9 5,8 28,3 6,4 12,7 1,1 31,4 1,4 8 16,8 4,9 16,7 7 13 0,4 25,9 1,3 7,4 14,7 5,5 24,2 7,6 41,4 0,6 17,6 0,6 8,1 11,5 2,4 11,1 6,7 9 0,5 22,4 0,8 8,6 16,9 4,7 27,7 9,4 27,8 0,3 24,5 0,6 8,4 13,3 2,7 16,7 5,7 22,9 0,8 28,5 0,7 11,5 9,7 8,5 11,9 5,5 6,1 0,4 25,9 0,8 7,2 14,4 6 32,4 6,8 7,7 0,2 37,8 0,8 9,5 17,5 5,3 15,5 5,7 66,8 0,7 7,9 0,1 2,8 5,5 1,1 11,9 3,2 23,6 1,9 32,3 0,6 7,9 8 0,7 18,2 6,8 16,5 2,9 35,5 1,2 8,7 9,2 0,9 17,9 7,2 4,2 2,9 41,2 1,3 7,6 11,2 1,2 22,1 8,3 21,7 3,1 29,6 1,9 8,2 9,4 0,9 17,2 8 31,1 2,5 25,7 0,9 8,4 7,5 0,9 16,1 6,9 34,7 2,1 30,1 0,6 8,7 5,9 1,3 11,6 5 23,7 1,4 25,8 0,6 9,2 6,1 0,5 23,4 9,3 48,7 1,5 16,8 1,1 4,9 6,4 11,3 5,3 4 Vytvořte dvourozměrné tečkové diagramy pro všechny dvojice proměnných. Řešení pomocí systému STATISTICA: Grafy – Maticové grafy – Proměnné – Vybrat vše – OK. zemed. tezba prumysl energ. staveb. mist. hosp. finance sluzby doprava Na hlavní diagonále maticového grafu jsou histogramy jednotlivých proměnných, mimo hlavní diagonálu jsou dvourozměrné tečkové diagramy odpovídajících dvojic proměnných. Vidíme např., že podíl obyvatel zaměstnaných v zemědělství záporně koreluje s podílem obyvatel zaměstnaných v průmyslu, službách či dopravě. Je-li p > 3, použijeme k vizualizaci dat metodu hlavních komponent (principal component analysis), která umožňuje vyjádřit informace o variabilitě obsažené v datovém souboru pomocí několika málo nových znaků Y1, …, Ym získaných jako lineární kombinace znaků původních X1, …, Xp, m < p : Y1 = v11X1 + ... + v1pXp, Y2 = v21X1 + ... + v2pXp. . . . Ym = vm1X1 + ... + vmpXp. Tyto nové znaky, kterým se říká hlavní komponenty, jsou - nekorelované, - uspořádané podle svého klesajícího rozptylu. Většina informace o variabilitě původních dat je tedy soustředěna v první hlavní komponentě a nejméně informace je obsaženo v poslední hlavní komponentě. Ukazuje se, že pouze několik prvních hlavních komponent má dostatečně velký rozptyl. Ostatní pak můžeme zanedbat, čímž docílíme snížení dimenze dat. V datovém souboru však musí existovat mezi znaky dostatečně silná korelace, aby bylo možno tuto redukci provést. Analýza hlavních komponent může být chápána jako transformace z původního do nového souřadnicového systému, jehož osy jsou tvořeny hlavními komponentami. Osy procházejí směry maximálního rozptylu, protože podmínka nezávislosti komponent vede ke kolmosti os. Data pak znázorníme v prostoru prvních dvou či tří hlavních komponent. Metodu hlavních komponent (Principal Component Analysis – PCA) popsal v r. 1901 Karl Pearson a ve 30. letech 20. století ji dále rozvinul Harold Hotelling. Harold Hotelling (1895 – 1973), americký matematik a statistik Podstata metody hlavních komponent Uvažme datový soubor, který vznikl tak, že 6 žáků absolvovalo 4 testy, které měří následující veličiny: X1 – přírodovědné znalosti, X2 – literární vědomosti, X3 – schopnost koncentrace, X4 – logické myšlení. Testy se hodnotí na škále od 1 do 10 (1 = špatný výsledek, 10 = výborný výsledek) 1 X1 2 X2 3 X3 4 X4 1 2 3 4 5 6 7 9 10 8 9 8 8 10 4 3 1 2 2 3 2 2 3 1 2 4 1 1 1 4 Označení xi = (xi1, ..., xip)T – vektor pozorování i-tého objektu, i = 1, 2, ..., n Např. pro i = 3 máme x3 = (4 3 1 2) T ∑ = = n 1i ijj x n 1 m - průměr j-tého znaku, j = 1, 2, ..., p. Např. pro j = 1 máme ( ) 3,4132497 6 1 m1 =+++++= ( )∑= − − = n 1i 2 jij 2 j mx 1n 1 s - rozptyl j-tého znaku, j = 1, 2, ..., p. Např. pro j = 1 máme ( ) ( )[ ] 64,93,413,47 5 1 s 222 j =−++−= K Datový soubor s průměry, směrodatnými odchylkami a rozptyly: 1 X1 2 X2 3 X3 4 X4 1 2 3 4 5 6 průměry s.o. rozptyly 7 9 10 8 9 8 8 10 4 3 1 2 2 3 2 2 3 1 2 4 1 1 1 4 4,33 4,17 4,00 5,00 3,08 3,49 3,95 3,29 9,47 12,17 15,60 10,80 j jij ij s mx z − = - (i,j)-tá standardizovaná hodnota, i = 1, 2, ..., n, j = 1, 2, ..., p Např. pro i = 1, j = 1 máme 8667,0 64,9 3,47 z11 = − = Datový soubor standardizovaných hodnot 1 X1 2 X2 3 X3 4 X4 1 2 3 4 5 6 0,866703 1,385674 1,519109 0,912871 1,51673 1,098983 1,012739 1,521452 -0,10834 -0,33447 -0,75955 -0,91287 -0,75836 -0,33447 -0,50637 -0,91287 -0,43335 -0,90786 -0,50637 -0,30429 -1,08338 -0,90786 -0,75955 -0,30429 zi = (zi1, ..., zip)T – vektor standardizovaných pozorování i-tého objektu, i = 1, 2, ..., n m = (m1, ..., mp)T – vektor průměrů S = ( )( )∑ = −− − n 1i T ii 1n 1 mxmx - výběrová varianční matice. V našem případě: Kovariance (pca) Proměnná X1 X2 X3 X4 X1 X2 X3 X4 9,46667 9,73333 10,60000 8,80000 9,73333 12,16667 13,20000 9,40000 10,60000 13,20000 15,60000 11,60000 8,80000 9,40000 11,60000 10,80000 R = ∑=− n 1i T ii 1n 1 zz - výběrová korelační matice. V našem případě: Korelace (pca) Proměnná X1 X2 X3 X4 X1 X2 X3 X4 1,000000 0,906937 0,872258 0,870307 0,906937 1,000000 0,958133 0,820031 0,872258 0,958133 1,000000 0,893684 0,870307 0,820031 0,893684 1,000000 (S a R jsou čtvercové symetrické matice řádu p.) Základní pojmy A - čtvercová matice řádu p. Vlastní číslo matice A – takové číslo λ, které pro libovolný nenulový vektor v typu p x 1 splňuje rovnici Av = λv. Vlastní vektor matice A – vektor v. Charakteristický polynom matice A - determinant IA λ− . Stopa matice A - součet jejích diagonálních prvků (značí se Tr(A)). Výpočet vlastních čísel matice A Rovnici Av = λv upravíme na tvar (A – λI) v = o. Tato soustava p rovnic má netriviální řešení, právě když charakteristický polynom matice A je roven 0. Dostaneme rovnici p-tého stupně. Jejím řešením jsou vlastní čísla λ1, ..., λp. Vlastnosti vlastních čísel Jejich součet je roven stopě matice A: λ1 + ... + λp = Tr(A), jejich součin je roven determinantu matice A: λ1 ... λp = det(A), jsou seřazena sestupně: λ1 ≥... ≥ λp. Vlastnosti vlastních vektorů Mají jednotkovou délku: vi T vi = 1, i = 1, …, p, jsou vzájemně ortogonální: vi T vj = 0 pro všechna i ≠ j Získání hlavních komponent Nechť výběrová varianční matice S má vlastní čísla l1, ..., lp a vlastní vektory v1, ..., vp, přičemž vj T vj = 1, j = 1, ..., p a vj T vk = 0 pro j ≠ k. Znamená to, že vektory v1, ..., vp jsou ortonormální. Bez újmy na obecnosti předpokládáme, že l1 > l2 > ... > lp. 1. hlavní komponenta vznikne jako lineární kombinace znaků X1, ..., Xp, kde koeficienty této lineární kombinace jsou souřadnice vlastního vektoru v1, tedy Y1 = v11X1 + ... + v1pXp. Její rozptyl je l1. Dosadíme-li za X1, ..., Xp vektory pozorování xi, i = 1, ..., n, dostaneme vektor souřadnic y1 = (y11, ..., y1n)T , kde y1i = v1 T xi. 2. hlavní komponenta vznikne jako lineární kombinace znaků X1, ..., Xp, kde koeficienty této lineární kombinace jsou souřadnice vlastního vektoru v2, tedy Y2 = v21X1 + ... + v2pXp. Její rozptyl je l2. Přitom v1 T v2 = 0, tj. 1. a 2. hlavní komponenta jsou lineárně nezávislé. Dosadíme-li za X1, ..., Xp vektory pozorování xi, i = 1, ..., n, dostaneme vektor souřadnic y2 = (y21, ..., y2n)T , kde y2i = v2 T xi. ................... j-tá hlavní komponenta vznikne jako lineární kombinace znaků X1, ..., Xp, kde koeficienty této lineární kombinace jsou souřadnice vlastního vektoru vj, tedy Yj = vj1X1 + ... + vjpXp. Její rozptyl je lj. Přitom vj T vk = 0, j = 1, ..., k-1, tj. j-tá hlavní komponenta je lineárně nezávislá se všemi ostatními hlavními komponentami. Dosadíme-li za X1, ..., Xp vektory pozorování xi, i = 1, ..., n, dostaneme vektor souřadnic yj = (yj1, ..., yjn)T , kde yji = vj T xi. Lze dokázat, že celková variabilita obsažená v datech je rovna stopě matice S, tj. součtu vlastních čísel l1 + ... + lp. 1. hlavní komponenta tedy vyčerpává %100 ll l p1 1 ++K celkové variability. Pokud je číslo p1 1 ll l ++K dostatečně blízké 1, znamená to, že 1. hlavní komponenta dobře nahrazuje celý datový soubor. Jeli toto číslo podstatně menší než 1, musíme vzít tolik hlavních komponent, aby jejich součet dělený stopou matice S byl dostatečně blízký 1. (V mnoha aplikacích se stává, že i při velkém počtu znaků stačí poměrně malý počet hlavních komponent.) Znázorníme-li rozmístění objektů na ploše prvních dvou hlavních komponent, můžeme poznat, které objekty se řadí do skupin neboli shluků. (Před provedením metody hlavních komponent je třeba se rozhodnout, zda budeme pracovat s původními hodnotami znaků nebo standardizovanými hodnotami.) Důležité upozornění: Proměnné X1, …, Xp musí být mezi sebou dostatečně korelované, jinak metoda hlavních komponent nedá dobré výsledky. Koeficient korelace i-tého znaku Xi s k-tou hlavní komponentou Yk lze vyjádřit jako ( ) i kki ki s lv Y,XR = . Reprodukce výchozí kovarianční matice: platí vzorec ∑= = p 1i T iii vl vS (tzv. spektrální rozklad matice S). Rozhodneme-li se uvažovat právě m hlavních komponent (m ≤ p), pak pomocí tohoto vztahu můžeme posoudit, jak těchto m hlavních komponent reprodukuje rozptyly a kovariance původních proměnných. Lze posoudit i reziduální matici, tj. matici, kterou získáme jako rozdíl výchozí kovarianční matice a reprodukované kovarianční matice. Doporučený postup při analýze hlavních komponent a) Provedeme tabulkové a grafické zpracování datového souboru, abychom se blíže seznámili s daty. b) Sestavíme korelační matici a prověříme, zda jsou korelace natolik silné, aby mělo smysl provádět analýzu hlavních komponent. c) Rozhodneme, kolika hlavními komponentami lze popsat datový soubor bez podstatné ztráty informace. Označme tento vhodný počet jako m. Při stanovení m můžeme použít tato pomocná kritéria: • Kaiserovo kritérium - za m volíme počet těch vlastních čísel matice R, která jsou větší než 1. • Sutinový test (scree test) – grafická metoda, která spočívá v subjektivním posouzení vzhledu sutinového grafu (scree plot), tj. grafu znázorňujícího velikosti sestupně uspořádaných vlastních čísel matice R. Objeví-li se v grafu určité zploštění, pak za m vezmeme to pořadové číslo, kde se zploštění projevilo. • Kritérium založené na kumulativním procentu vysvětleného rozptylu. Požadujeme, aby vybrané hlavní komponenty vysvětlily aspoň 70% celkového rozptylu. • Kritérium založené na reziduální korelační či kovarianční matici. Požadujeme, aby prvky reziduální matice byly co možná nejmenší. d) Pokusíme se o interpretaci prvních m hlavních komponent. Zkoumáme přitom, jak jsou jednotlivé vybrané hlavní komponenty utvořeny z původních znaků a jak s nimi korelují. e) Vypočítáme vektory souřadnic a následně sestrojíme dvourozměrné tečkové diagramy. Pro náš datový soubor obsahující výsledky 6 žáků ve 4 testech nejprve znázorníme data pomocí krabicových diagramů: Grafy – 2D Grafy – Krabicové grafy – zvolíme Vícenásobný – Proměnné - Závisle proměnné X1-X4 – OK – OK Krabicový graf z více proměnných pca.sta 4v*6c Medián; Krabice: 25%-75%; Svorka: Rozsah neodleh. Medián 25%-75% Rozsah neodleh. Odlehlé Extrémy X1 X2 X3 X4 0 2 4 6 8 10 12 Nyní vypočteme korelační matici: Statistiky – Vícerozměrné průzkumné techniky – Hlavní komponenty & klasifikační analýza – Proměnné X1 až X4, OK – OK – Popisné statistiky – Korelační matice Korelace (pca.sta) Proměnná X1 X2 X3 X4 X1 X2 X3 X4 1,000000 0,906937 0,872258 0,870307 0,906937 1,000000 0,958133 0,820031 0,872258 0,958133 1,000000 0,893684 0,870307 0,820031 0,893684 1,000000 Dále vypočteme vlastní čísla a procento vysvětleného rozptylu: na záložce Základní výsledky vybereme Vlastní čísla. Vlastní čísla korelační matice a související statistiky (pca) Pouze aktiv. proměnné Pořadí vl.č. vl. číslo % celk. rozptylu Kumulativ. vl. číslo Kumulativ. % 1 2 3 4 3,661431 91,53577 3,661431 91,5358 0,188636 4,71589 3,850066 96,2517 0,134072 3,35181 3,984139 99,6035 0,015861 0,39653 4,000000 100,0000 Vidíme, že 1. vlastní číslo l1 = 3,66, tedy 1. hlavní komponenta vyčerpává 91,5% variability dat, 2. vlastní číslo l2 = 0,19, 2. hlavní komponenta vyčerpává 4,7% variability dat atd. Podle Kaiserova kritéria by stačilo uvažovat pouze 1. hlavní komponentu, protože pouze první vlastní číslo je větší než 1. Kvůli znázornění objektů však budeme uvažovat první dvě hlavní komponenty. Dále vypočítáme vlastní vektory: na záložce Proměnné vybereme Vlastní vektory Vlastní vektory korelační matice (pca) Pouze aktiv. proměnné Proměnná Faktor 1 Faktor 2 Faktor 3 Faktor 4 X1 X2 X3 X4 -0,498301 -0,000518 0,817131 -0,289816 -0,503657 0,582217 -0,082290 0,632916 -0,508833 0,185043 -0,539021 -0,645217 -0,488994 -0,791696 -0,187036 0,314832 1. hlavní komponenta: Y1 = -0,49X1 -0,5X2 – 0,51X3 – 0,49X4, 2. hlavní komponenta: Y2 = -0,0005X1 +0,58X2 + 0,19X3 – 0,79X4 atd. Sutinový graf (scree plot): Vlastní čísla korelační matice Pouze aktiv. proměnné 91,54% 4,72% 3,35% ,40% 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 Pořadí vl. čísla -0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 Vlast.číslo 91,54% 4,72% 3,35% ,40% V sutinovém grafu nastává výrazné zploštění po 1. vlastním čísle. Výpočet koeficientů korelace 1. a 2. hlavní komponenty a původních čtyř proměnných: na záložce Proměnné vybereme Korelace faktorů & proměnných Proměnná Faktor 1 Faktor 2 X1 X2 X3 X4 -0,953492 -0,000225 -0,963740 0,252869 -0,973645 0,080368 -0,935684 -0,343851 Vidíme, že 1. hlavní komponenta vysoce záporně koreluje se všemi proměnnými. 2. hlavní komponenta slabě kladně koreluje s druhou proměnnou a středně silně záporně koreluje s třetí proměnnou. Podívejme se rovněž na vektory souřadnic (v systému STATISTICA se jim říká faktorové souřadnice případů): na záložce Případy vybereme Faktorové souřadnice případů. Případ Faktor 1 Faktor 2 1 2 3 4 5 6 -2,34914 0,364696 -2,56859 -0,378068 1,05532 0,387487 1,25040 0,434674 1,07964 -0,381138 1,53238 -0,427651 Znázornění objektů (žáků) na ploše prvních dvou hlavních komponent: 1 2 3 4 5 6 -4,0 -3,5 -3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 Faktor 1: 91,54% -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 Faktor2:4,72% 1 2 3 4 5 6 Shluková analýza Cíl shlukové analýzy Cílem shlukové analýzy je roztřídění n objektů, z nichž každý je popsán p znaky, do několika pokud možno stejnorodých (homogenních) skupin (shluků, clusterů). Požadujeme, aby objekty uvnitř shluků si byly podobné co nejvíce, zatímco objekty z různých shluků co nejméně. Přesný počet shluků většinou není přesně znám. Shluková analýza nachází uplatnění v celé řadě oborů, např. v biologii. U n populací změříme p biometrických charakteristik a zjišťujeme, zda určité skupiny populací tvoří shluky. Shluková analýza je ovšem průzkumovou metodou a měla by sloužit jako určité vodítko při dalším zpracování dat. Podobnost objektů Podobnost (či rozdílnost) objektů posuzujeme pomocí různých měr vzdálenosti. Pro znaky intervalového či poměrového typu nejčastěji používáme euklidovskou vzdálenost. Nechť k-tý objekt je popsán vektorem pozorování xk = (xk1, ..., xkp)T a l-tý objekt vektorem xl = (xl1, ..., xlp)T . Euklidovská vzdálenost k-tého a l-tého objektu: ( )∑ = −= p 1j 2 ljkjkl xxd . Vzdálenosti vypočtené pro všechny dvojice objektů se uspořádají do matice vzdáleností. Je zřejmé, že je to čtvercová symetrická matice, která má na hlavní diagonále nuly. Matice euklidovských vzdáleností pro datový soubor s údaji o 6 žácích: Statistiky – Vícerozměrné průzkumné techniky – Shluková analýza – Spojování (hierarchické shlukování) – OK – Proměnné X1 – X4 – OK – na záložce Detaily vybereme Shlukovat Případy (řádky) – OK – na záložce Detaily vybereme Matice vzdáleností. Euklid. vzdálenosti (pca) Případ P_1 P_2 P_3 P_4 P_5 P_6 P_1 P_2 P_3 P_4 P_5 P_6 0,0 3,6 12,7 12,7 12,6 14,0 3,6 0,0 12,8 13,2 12,5 14,1 12,7 12,8 0,0 2,2 3,2 4,1 12,7 13,2 2,2 0,0 3,0 3,2 12,6 12,5 3,2 3,0 0,0 2,2 14,0 14,1 4,1 3,2 2,2 0,0 Hierarchické shlukování Při aplikacích shlukové analýzy se nejčastěji používá aglomerativní hierarchická procedura. Její princip spočívá v postupném slučování objektů, a to nejprve nejbližších a v dalších krocích pak stále vzdálenějších. Algoritmus: 1. krok: Každý objekt považujeme za samostatný shluk. 2. krok: Najdeme dva shluky, jejichž vzdálenost je minimální. 3. krok: Tyto dva shluky spojíme v nový, větší shluk a přepočítáme matici vzdáleností. Její řád se sníží o 1. Vrátíme se na 2. krok. Funkce algoritmu končí, až jsou všechny objekty spojeny do jediného shluku. Vzdálenost mezi shluky se počítá různými způsoby. Uvedeme tři z nich. a) Metoda nejbližšího souseda: Vzdálenost mezi dvěma shluky je minimem ze všech vzdáleností mezi jejich objekty. b) Metoda nejvzdálenějšího souseda: Vzdálenost mezi dvěma shluky je maximem ze všech vzdáleností mezi jejich objekty. c) Metoda průměrné vazby: Vzdálenost mezi dvěma shluky je průměrem ze všech vzdáleností mezi jejich objekty. Výsledky aglomerativní hierarchické procedury se zpravidla znázorňují pomocí dendrogramu. Je to graficky znázorněná posloupnost dvojic ( ) ( ) ( ) ( ){ }n n 1 1 S,,,S, νν K , kde { }n 1ii =ν je neklesající posloupnost úrovní spojování a S(i) je roztřídění objektů odpovídající úrovni νi, i = 1, ..., n. Příklad dendrogramu: V levém sloupci jsou jednotlivé objekty, další sloupce reprezentují shluky, do nichž byly objekty zařazeny a délky čar představují vzdálenosti mezi shluky. Poznámka: Hierarchická shluková analýza může být použita nejen na shlukování objektů, ale též na shlukování znaků. Dendrogram podobnosti objektů je standardní výstup hierarchických shlukovacích metod, z něhož je zjevná struktura objektů ve shlucích. Dendrogram podobnosti znaků odhaluje nejčastěji dvojice či trojice (všeobecně m-tice) znaků, které si jsou velmi podobné a silně spolu korelují. Znaky, které jsou ve společném shluku, si jsou značne podobné a jsou tudíž vzájemně nahraditelné. To má značný význam pri plánování experimentu - některé vlastnosti či znaky není zapotřebí vůbec zjišťovat či měřit, protože jsou snadno nahraditelné jinými znaky a nemají velkou vypovídací hodnotu. Vytvoření dendrogramu v systému STATSTICA: - pro metodu nejbližšího souseda: Statistiky – Vícerozměrné průzkumné techniky – Shluková analýza – Spojování (hierarchické shlukování) – OK – Proměnné X1 – X4 – OK – na záložce Detaily vybereme Shlukovat Případy (řádky), pravidlo slučování ponecháme Jednoduché spojení, míru vzdálenosti ponecháme Euklidovské vzd. – OK – Horizontální graf hierarch. stromu - pro metodu nejvzdálenějšího souseda: na záložce Detaily vybereme pravidlo slučování Úplné spojení, - pro metodu úplné vazby: Na záložce Detaily vybereme pravidlo slučování Nevážený průměr skupin dvojic. Str. diagram pro 6 případů Jednoduché spojení Euklid. vzdálenosti 0 2 4 6 8 10 12 P_6 P_5 P_4 P_3 P_2 P_1 Str. diagram pro 6 případů Úplné spojení Euklid. vzdálenosti 0 2 4 6 8 10 12 14 16 Vzdálenost spoje P_6 P_5 P_4 P_3 P_2 P_1 Str. diagram pro 6 případů Nevážený průměr skupin dvojic Euklid. vzdálenosti 0 2 4 6 8 10 12 P_6 P_5 P_4 P_3 P_2 P_1 Vidíme, že výsledky všech tří metod jsou velmi podobné a odpovídají rozmístění objektů (žáků) na ploše prvních dvou hlavních komponent. 1 2 3 4 5 6 -4,0 -3,5 -3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 Faktor 1: 91,54% -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 Faktor2:4,72% 1 2 3 4 5 6 Příklad: Uvažme datový soubor s údaji o 26 evropských státech. Tento datový soubor budeme analyzovat metodou hlavních komponent a následně provedeme shlukovou analýzu. Provedení PCA Nejprve pomocí korelační matice posoudíme, zda má smysl aplikovat PCA. Statistiky – Vícerozměrné průzkumné techniky – Hlavní komponenty&klasifikační analýza – Proměnné X1 až X19, OK – OK – Popisné statistiky – Korelační matice. Korelace (staty1979.sta) Proměnná X1 X2 X3 X4 X5 X6 X7 X8 X9 X1 X2 X3 X4 X5 X6 X7 X8 X9 1,00 0,04 -0,67 -0,40 -0,53 -0,73 -0,22 -0,75 -0,56 0,04 1,00 0,44 0,41 -0,02 -0,40 -0,44 -0,28 0,16 -0,67 0,44 1,00 0,39 0,48 0,21 -0,15 0,15 0,36 -0,40 0,41 0,39 1,00 0,03 0,20 0,11 0,13 0,37 -0,53 -0,02 0,48 0,03 1,00 0,33 0,01 0,17 0,38 -0,73 -0,40 0,21 0,20 0,33 1,00 0,36 0,57 0,17 -0,22 -0,44 -0,15 0,11 0,01 0,36 1,00 0,11 -0,25 -0,75 -0,28 0,15 0,13 0,17 0,57 0,11 1,00 0,56 -0,56 0,16 0,36 0,37 0,38 0,17 -0,25 0,56 1,00 Některé korelační koeficienty jsou v absolutní hodnotě dostatečně velké a zřejmě tedy bude mít smysl provést analýzu hlavních komponent. Nyní získáme vlastní čísla výběrové korelační matice a procento vysvětleného rozptylu: na záložce Základní výsledky vybereme Vlastní čísla. Pořadí vl.č. vl. číslo % celk. rozptylu Kumulativ. vl. číslo Kumulativ. % 1 2 3 4 5 6 7 8 3,466490 38,51655 3,466490 38,5166 2,135004 23,72227 5,601494 62,2388 1,115581 12,39534 6,717075 74,6342 0,989394 10,99326 7,706468 85,6274 0,539211 5,99123 8,245679 91,6187 0,382111 4,24568 8,627790 95,8643 0,233226 2,59140 8,861015 98,4557 0,138985 1,54428 9,000000 100,0000 První hlavní komponenta tedy vysvětluje 38,52% variability obsažené v devíti sledovaných proměnných, druhá 23,72%, třetí 12,40% atd. Celkové procento variability vysvětlené prvními třemi hlavními komponentami je 74,63%. Sestrojíme sutinový graf (scree plot): na záložce Základní výsledky vybereme Sutinový graf. 38,52% 23,72% 12,40% 10,99% 5,99% 4,25% 2,59% 1,54% -1 0 1 2 3 4 5 6 7 8 9 10 11 Pořadí vl. čísla -0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 Vlast.číslo 38,52% 23,72% 12,40% 10,99% 5,99% 4,25% 2,59% 1,54% Počet m hlavních komponent zvolíme tři. V nabídce Výsledky hlavních komponent snížíme počet faktorů na 3. Vypočteme korelační koeficienty prvních tří hlavních komponent a původních devíti proměnných: na záložce Proměnné vybereme Korelace faktorů & proměnných. Korelace faktorů a proměnných (faktor. zátěže) podle korelací (staty1979.sta) Proměnná Faktor 1 Faktor 2 Faktor 3 X1 X2 X3 X4 X5 X6 X7 X8 X9 0,978776 0,081725 -0,049455 -0,000898 0,901105 0,216344 -0,652174 0,513343 0,112868 -0,474888 0,378598 0,649962 -0,595263 0,073032 -0,304047 -0,698213 -0,513734 0,119592 -0,136193 -0,663299 0,589451 -0,727506 -0,327637 -0,251642 -0,684094 0,304809 -0,337074 Graficky lze znázornit souvislost mezi novými proměnnými (např. 1. a 2. HK) a původními proměnnými X1, …, X9 takto: na záložce Proměnné vybereme 2D graf fakt. souřadnic prom. - Osa x: Faktor I, Osa y: Faktor 2 - OK. Na ose x budou souřadnice vstupních proměnných vzhledem k první hlavní komponentě, na ose Y vzhledem ke druhé komponentě. Projekce proměnných do faktorové roviny ( 1 x 2) zemed. tezba prumysl energ. staveb. mist. hosp. finance sluzby doprava -1,0 -0,5 0,0 0,5 1,0 Faktor 1 : 38,52% -1,0 -0,5 0,0 0,5 1,0 Faktor2:23,72% zemed. tezba prumysl energ. staveb. mist. hosp. finance sluzby doprava 1. HK vysoce kladně koreluje s proměnnou X1, tj se zemědělstvím a negativně s proměnnou X8 – služby. Jelikož je podíl lidí v zemědělství a ve službách obecně považován za určité měřítko vyspělosti země, můžeme první komponentu interpretovat jako míru zaostalosti/vyspělosti. 2. HK výrazně pozitivně koreluje s těžebním průmyslem, energetikou a zpracovatelským průmyslem. Negativně koreluje se službami a finanční sférou. Budeme ji proto interpretovat jako míru toho, nakolik se země orientuje na průmyslovou výrobu. (Ne vždy mají komponenty takto jasnou interpretaci. Jsou jen jistou matematickou transformací vstupních proměnných, která může a nemusí odrážet nějakou reálnou vlastnost objektů!). Podívejme se rovněž na vektory souřadnic (v systému STATISTICA se jim říká faktorové souřadnice případů): na záložce Případy vybereme Faktorové souřadnice případů. Případ Faktor 1 Faktor 2 Faktor 3 Belgie Dánsko Francie Záp. Německo Irsko Itálie Lucembursko Nizozemsko Velká Británie Rakousko Finsko Řecko Norsko Portugalsko Španělsko Švédsko Švýcarsko Turecko Bulharsko Československo Vých. Německo Maďarsko Polsko Rumunsko Sovětský svaz Jugoslávie -1,68273 -1,20656 0,16668 -0,90831 -2,05598 -0,85147 -0,74050 -1,11048 0,38553 -0,85647 -0,03165 0,56466 0,11153 -0,40400 0,53134 -0,36366 -0,74902 -1,29050 -1,04022 0,74294 0,46327 -1,65732 -1,98866 -0,08729 -1,61201 -0,39776 1,35031 -1,01103 0,16508 1,16804 -0,97223 -0,73166 0,54475 2,07154 -0,33521 -0,92274 -1,66538 -1,05092 -1,14341 0,99709 -0,74259 -0,75474 0,43244 -0,60818 0,31825 -1,07387 -1,55390 -0,22815 -1,04031 -0,74707 0,28216 6,19519 -1,04930 -0,64265 0,67558 1,48159 -1,03101 -0,48005 2,63421 0,07902 -1,73669 2,73412 0,26970 -0,57526 3,07981 1,09460 1,08637 1,87264 -0,54684 2,01536 1,57550 -0,48595 -0,04779 1,26246 -2,30671 3,87872 -0,78542 3,07316 1. HK vysoce kladně koreluje s proměnnou X1 (zemědělství) a záporně se všemi ostatními proměnnými. Tato hlavní komponenta tedy rozlišuje země na zemědělské a průmyslové. Povšimněte si, že souřadnice této hlavní komponenty jsou nejvyšší u Turecka (6,2) a Jugoslávie (3,9). 2. HK vysoce kladně koreluje s proměnnou X2 (těžba) a podstatně slaběji s proměnnou X3 (průmyslová výroba). Vysoké hodnoty souřadnic této hlavní komponenty najdeme u Maďarska, Východního Německa a Československa. 3. HK středně silně koreluje s proměnnou X4 (energetika) a X7 (finanční sektor). Nejvyšší hodnotu najdeme u Jugoslávie. Nyní znázorníme rozmístění zemí na ploše prvních dvou hlavních komponent: Na záložce Případy vybereme 2D graf fakt. Souřadnic příp. Projekce případů do faktorové roviny ( 1 x 2) Případy se součtem cos()^2 >= 0,00 Belgie Dánsko Francie Záp. Německo Irsko Itálie Lucembursko Nizozemsko Velká Británie Rakousko Finsko Řecko Norsko Portugalsko Španělsko Švédsko Švýcarsko Turecko Bulharsko ČeskoslovenskoVých. Německo Maďarsko Polsko Rumunsko Sovětský svaz Jugoslávie -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 Faktor 1: 38,52% -4 -3 -2 -1 0 1 2 3 4 5 Faktor2:23,72% Belgie Dánsko Francie Záp. Německo Irsko Itálie Lucembursko Nizozemsko Velká Británie Rakousko Finsko Řecko Norsko Portugalsko Španělsko Švédsko Švýcarsko Turecko Bulharsko ČeskoslovenskoVých. Německo Maďarsko Polsko Rumunsko Sovětský svaz Jugoslávie Státy napravo jsou státy s vysokým podílem zemědělství. Vyniká zde zejména Turecko a Jugoslávie. Všechny státy obvykle považované za ekonomicky vyspělé jsou naopak na levé straně. Jsou to státy, kde je nižší podíl osob zaměstnaných v zemědělství, zato vyšší podíl osob pracujících ve službách. Je zde také hezky vidět zaměření zemí tehdejšího socialistického bloku na průmyslovou výrobu - horní část grafu. A naopak severské státy a státy Beneluxu orientované na finanční a další služby v dolní části. Provedení shlukové analýzy Statistiky – Vícerozměrné průzkumné techniky – Shluková analýza - Spojování (hierarchické shlukování) – OK - Proměnné X1 až X4, OK, Detaily - Shlukovat případy (řádky) – Pravidlo slučování: Nevážený průměr skupin dvojic – Míry vzdálenosti: Euklidovské vzdálenosti - OK – Horizontální graf hierarch. stromu. Str. diagram pro 26 případů Nevážený průměr skupin dvojic Euklid. vzdálenosti 0 5 10 15 20 25 30 35 40 45 Vzdálenost spoje Turecko Jugoslávie Řecko Sovětský svaz Československo Maďarsko Bulharsko Španělsko Rumunsko Polsko Portugalsko Irsko Švýcarsko Vých. N¨§mecko Záp. N¨§mecko Rakousko Lucembursko Itálie Finsko Francie Norsko Nizozemsko Švédsko Dánsko Velká Británie Belgie Ukazuje se, že země se dělí do tří skupin: první skupinu tvoří rozvinuté demokratické země společně s NDR, druhou skupinu socialistické země s Irskem, Portugalskem a Španělskem a třetí Řecko s Jugoslávií. Turecko se chová jako singulární en- tita.