Statistické metody II, cvičení č. 9 Shluková analýza (Cluster analysis) Brno, 9.5.2016 Klára Ambrožová Použitá data • V této prezentaci budou použita jiná data, než se kterými budete pracovat na cvičení • Analýza a interpretace dat bude stejná • Jde o počet obyvatel daného kraje ČR k 31. 12. 2014 • K analýze dat je použit program STATISTICA – karta Statistiky – modul Vicerozměrné/průzkumné techniky – Shluková analýza Trocha teorie: Shluková analýza • Metoda pro zhodnocení vícerozměrných dat • Snaha o nalezení skupin, kde členové uvnitř skupiny si budou maximálně podobní, zatímco se budou maximálně lišit od členů ostatních skupin • Existují metody hierarchické (vznikají shluky různých úrovní) a nehierarchické • Pracujeme s pojmem „vzdálenost“ mezi objekty (často se používá euklidovská vzdálenost) Trocha teorie: Shluková analýza • Předpoklady shlukové analýzy: – Nekorelovanost proměnných (lze zajistit použitím výsledků PCA namísto původních proměnných) – Nezávislost na jednotkách (nutná standardizace) – Stejný význam proměnných při shlukování (lze vyřešit přidáním váhových koeficientů do výpočtu vzdáleností) Pozn. Ve cvičení se bude řešit druhý bod → prvním krokem je označení celé tabulky a jít na kartu Data – Transformace – Standardizace (resp. Data – Standardizovat – Vše – OK) Interpretace výsledků a) Hierarchické shlukování • V tomto případě chceme shlukovat kraje, tzn. případy/řádky, a použijeme k tomu všechny proměnné Budeme interpretovat následující tyto čtyři výstupy: Dendogram, rozvrh shlukování, graf rozvrhu shlukování a matici vzdáleností Interpretace výsledků a) Hierarchické shlukování - dendrogram Osa x: v jaké vzdálenosti došlo k připojení daného objektu Osa y: jednotlivé objekty (zde kraje) Např. první byly spojeny kraje Jihočeský a Olomoucký a téměř ve stejné vzdálenosti i Pardubický a Vysočina. Naopak, jako úplně poslední byl k spodnímu velkému shluku připojen Ústecký kraj, je tedy velmi odlišný. Na grafu vidíme, jak se postupně k sobě připojovaly jednotlivé kraje – čím více vpravo je kraj připojen, tím je méně podobný jádru objektů, které vzniklo jako první Interpretace výsledků a) Hierarchické shlukování - dendrogram Před sloučením do finálního shluku nám zde vznikly dva velké shluky: v prvním je Praha, Jihomoravský kraj, Moravskoslezský kraj a Středočeský kraj, ve druhém shluku ostatní kraje. Tento shluk vzniknul ve vzdálenosti cca 1.2 (jde o bezrozměrné číslo). Fakt, že tyto dva finální shluky se sloučily až ve vzdálenosti cca 3.4 poukazuje na to, že jsou skutečně velmi odlišné. Interpretace výsledků a) Hierarchické shlukování – rozvrh shlukování Zobrazuje téměř totéž jako předchozí graf: na ose y jsou tentokrát přesně číselně vzdálenosti, v nichž došlo ke spojení, na řádcích jsou pak shluky, přičemž poslední objekt na daném řádku byl připojen v tomto kroku. Např. ve čtvrtém kroku (4. řádek) byl ke shluku Plzeňského a Zlínského kraje připojen Královéhradecký ve vzdálenosti 0, 137. Interpretace výsledků a) Hierarchické shlukování – rozvrh shlukování Interpretace dendogramu a rozvrhu shlukování: Je zjevné, že nejpodobnější jsou si kraje: Jihočeský a Olomoucký; Pardubický a Vysočina; Plzeňský a Zlínský; Jihomoravský a Moravskoslezský (vytvořily jádra shluků). Poslední uvedené jádro k sobě nakonec ještě přidalo Hl. město Prahu a Středočeský kraj, ostatní kraje vytvořily druhý shluk. Finální shluk (14. řádek) vznikl až ve vzdálenosti 3,4, což je rozdíl vůči přechozímu kroku o 3.4-1.14=2.26, tyto dva shluky jsou tedy extrémně rozdílné. Interpretace výsledků a) Hierarchické shlukování – graf rozvrhu shlukování Graf rozvrhu shlukování má na ose x krok, v němž došlo k připojení a na ose y vzdálenost (podobně jako byla předtím na ose x u dendogramu). Graf vzdáleností spojení podél kroků Euklid. vzdálenosti Spojení Vzdálen. 0 2 4 6 8 10 12 14 Krok -0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 Vzdálenostspojení Hledáme optimální počet shluků: nalezneme největší „schod“ v grafu. Zde je schod zjevně na 13. kroku, tzn. 14. krok shlukování bychom již neměli provádět. Tzn. ideální jsou v tomto případě dva shluky. Někdy to však z grafu nebude 100 % jasné a bude třeba zjistit, kde došlo k maximální ztrátě informace, z rovzrhu shlukování. Interpretace výsledků a) Hierarchické shlukování – matice vzdáleností Matice vzdáleností je čtvercová a určuje vzdálenost mezi objektem na řádku a ve sloupci. Tzn. na diagonále budou nuly (vzdálenost mezi Hlavním městem Prahou a Hlavním městem Prahou je přirozeně 0). Např. vzdálenost mezi Středočeským krajem a Prahou je 0,739. Tyto řádky nebudou v následujícím kroku potřeba a je třeba je odstranit! Interpretace výsledků a) Hierarchické shlukování – matice vzdáleností Chceme odpověď na otázku: Který kraj je „typický“ (nejbližší všem ostatním)? A které jsou naopak zcela atypické? 1) Odstranit poslední čtyři případy 2) Označit všechny sloupce v matici vzdáleností, kliknout na hlavičku a dát „Statistiky bloku dat – Blok sloupců – Součty“ 3) Ve vzniklé tabulce hledáme minima a maxima Nejtypičtější je zde Zlínský kraj = je to takový „nejprůměrnější kraj“ v ČR z hlediska obyvatelstva v r. 2014 Interpretace výsledků b) Metoda k-průměrů • V tomto případě chceme shlukovat kraje, tzn. případy/řádky, a použijeme k tomu všechny proměnné • Jelikož mi v předchozím případě vyšel ideální počet shluků jako 2, nastavím, že chci 2 shluky • Minimální počet iterací je 20 (je možno nastavit i víc) Budeme interpretovat následující tyto čtyři výstupy: Členy shluků a vzdáleností, graf průměrů, analýzu rozptylu Interpretace výsledků b) Metoda k-průměrů – členy shluků a vzdálenosti • Vzniknou (v mém případě) dvě tabulky, z jedné na druhou lze překliknout v nabídce vlevo Je zjevné, že členy shluků jsou v tomto případě úplně stejné jako v předchozím. Vzdálenost ve sloupci je vzdálenost od středu daného shluku – tzn. čím menší, tím „typičtější“ je daný kraj pro tento shluk. Např. největší vzdálenost má Ústecký kraj – potvrzuje se, že je velmi odlišný. Interpretace výsledků b) Metoda k-průměrů – analýza rozptylu • Analýzou rozptylu zde testujeme, které proměnné nejvíce ovlivnily rozřazení do shluků Hodnotu testové statistiky F zde můžeme interpretovat tak, že čím vyšší, tím větší byl vliv. Tzn. proměnné počet obyvatel v kategorii 15–64 let a nad 65 let ovlivnily rozdělení víc, než zbylé dvě proměnné. Interpretace výsledků b) Metoda k-průměrů – graf průměrů • Graf průměrů ukazuje průměrnou hodnotu (osa y, bezrozměrné číslo) dané proměnné (osa x) pro konkrétní shluk (rozlišeny barevně). Zde vidíme, že pro shluk číslo 1 je typický vysoký počet obyvatel, do druhého státy s nízkým počtem obyvatel. Teoreticky by se také dalo říct, že druhý shluk má obecně více obyvatel ve všech třech kategoriích (0-14, 15-64 a 65+ let), což je samozřejmě nesmysl. Jde o důsledek toho, že na začátku nebyla použita průzkumová analýza dat, která by prokázala korelaci mezi proměnnými → správně bylo třeba provést nejdřív PCA! Graf průměrů všech shluků Shluk 1 Shluk 2 Počet_obyv PO_do14let PO_15-64let PO_nad65let Proměnné -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 Interpretace výsledků • Pomineme-li špatné použití proměnných ke shlukování z důvodu chybějící průzkumové analýzy dat: – Pomocí obou metod vznikly dva shluky: • Praha, Jihomoravský kraj, Moravskoslezský kraj a Středočeský kraj • Jihočeský, Olomoucký, Plzeňský, Zlínský, Královéhradecký, Pardubice, Vysočina, Liberecký, Karlovarský, Ústecký – V prvním shluku jsou kraje s velmi mladou věkovou strukturou (nadprůměrný počet jedinců v kategorii do 14 let – lze zjistit po prohlédnutí tabulky standardizovaných dat) – Nejtypičtější v ČR je Zlínský kraj – Naopak nejméně typické byly Středočeský a Hlavní město Praha (z dat vyplynulo, že jde o důsledek enormně vysokého počtu obyvatel vůči ostatním krajům – zejména krajům 2. shluku) • Cvičení bude obsahovat: – Pro hierarchické shlukování: • Dendogram, • rozvrh shlukování, • graf rozvrhu shlukování • matici vzdáleností – Pro nehierarchické shlukování: • Členy shluků a vzdáleností, • graf průměrů, • analýzu rozptylu – Výstupy budou ve vhodné podobě (tzn. čitelné a popsané, abych nemusela hádat, co vlastně je na obrázku) • Pozor! – Máte jiná data, může vám jako optimální vyjít jiný počet shluků než 2 – Pro napsání závěru si přečíst požadavky profesora Dobrovolného v pdf zadání (body 6–10) – Není potřeba popisovat teorii nebo „na ose x obr. 1 je tohle a tohle…“ – v tomhle cvičení je tolik výsledků, které se dají popsat a interpretovat, že by to klidně vyšlo na stránku Poznámka ke cvičení • Data ve cvičení: data o evropských zemích z r. 1979 • Zastoupení činného obyvatelstva v kategoriích: – Zemědělství – Těžba – Průmyslová výroba – Energetika – Stavebnictví – Místní hospodářství – Finance – Služby – Doprava a komunikace Poznámka ke cvičení Zdroje: • BUDÍKOVÁ, Marie. Shluková analýza (přednáška). Brno: Masarykova univerzita, 9.5. 2016. • DOBROVOLNÝ, Petr. Z2069 Statistické metody a zpracování dat II: Shluková analýza (přednáška) Brno: Masarykova univerzita,9.5. 2016.