Cvičení č. 12.: Shluková analýza Článek Ladislava Rabušice Koho Češi nechtějí? (uveřejněn ve Sborníku prací FSS MU Sociální studia 5, 2000) se zabývá touto problematikou: V roce 1999 proběhlo ve 24 evropských zemích sociologické šetření, v němž měli respondenti za úkol odpovědět na otázku „Můžete prosím z následujícího seznamu vybrat všechny ty, koho byste nechtěl(a) mít za sousedy?“ V seznamu byly tyto skupiny osob: Kriminálníci, osoby jiné rasy, levicoví extrémisté, alkoholici, pravicoví extrémisté, početné rodiny, psychotici, muslimové, imigranti, HIV pozitivní, narkomani, homosexuálové, židé, Romové. V datovém souboru netolerance.sta jsou zaznamenány relativní četnosti vybraných skupin osob. V České republice se výzkumu, který proběhl v květnu 1999, zúčastnilo 1908 osob. Úkol 1.: Zaměřte se na ČR. Vytvořte sloupkový diagram tohoto tvaru: 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 Zide velke rodiny jina rasa muslimove psychotici imigranti homosexualove HIV pozitivni P_extremiste L_extremiste Romove kriminalnici narkomani alkoholici Návod: Řádek pro Českou republiku okopírujeme (se záhlavími) do nového datového souboru o 14 proměnných a jednom případu. Soubor transponujeme: Data – Transponovat – Soubor. Hodnoty proměnné Ceska rep. uspořádáme: Data – setřídit – Přidat prom. Ceska rep. – OK. Nakreslíme sloupcový graf: Grafy – 2D grafy – Sloupcové/pruhové grafy – Proměnné Ceska rep. – O, Typ grafu Běžný, Orientace Horizontální – OK. Úkol 2.: Do jednoho grafu nakreslete krabicové diagramy všech 14 proměnných. Krabicový graf z více proměnných netolerance.sta 14v*24c Medián; Krabice: 25%-75%; Svorka: Rozsah neodleh. Medián 25%-75% Rozsah neodleh. Odlehlé Extrémya c e g i k m -0,2 0,0 0,2 0,4 0,6 0,8 1,0 Vzhledem k velmi rozdílné variabilitě proměnných se jeví vhodnější pracovat se standardizovanými daty. Úkol 3.: Na ploše prvních dvou hlavních komponent znázorněte rozmístění zemí. Projekce případů do faktorové roviny ( 1 x 2) Případy se součtem cos()^2 >= 0,00 Aktiv. -14 -12 -10 -8 -6 -4 -2 0 2 4 6 8 Faktor 1: 57,72% -5 -4 -3 -2 -1 0 1 2 3 4 Faktor2:10,38% Francie Britanie Zap. Nemecko Vych. Nemecko Rakousko Italie Spanelsko Portugalsko Nizozemi Belgie Dansko Svedsko FinskoEstonsko Lotyssko Litva Polsko Ceska rep.Slovensko Madarsko Rumunsko Bulharsko Rusko Slovinsko Maďarsko se jeví jako odlehlé pozorování. Z dalších analýz ho vyloučíme. Znovu provedeme metodu hlavních komponent a dostaneme toto rozmístění zemí: Projekce případů do faktorové roviny ( 1 x 2) Případy se součtem cos()^2 >= 0,00 Aktiv. -8 -6 -4 -2 0 2 4 6 8 Faktor 1: 47,90% -4 -3 -2 -1 0 1 2 3 4 5 6 Faktor2:13,43% FrancieBritanie Zap. Nemecko Vych. Nemecko Rakousko Italie Spanelsko Portugalsko Nizozemi Belgie Dansko Svedsko Finsko Estonsko Lotyssko Litva Polsko Ceska rep.Slovensko Rumunsko Bulharsko Rusko Slovinsko Úkol 4.: Použijte metodu nejbližšího souseda, nejvzdálenějšího souseda, metodu průměrné vazby a Wardovu metodu pro nalezení shluků zemí podobných z hlediska tolerance. Výsledky znázorněte pomocí dendrogramů. Dendrogram pro metodu nejbližšího souseda: Str. diagram pro 23 případů Jednoduché spojení Euklid. vzdálenosti 1,5 2,0 2,5 3,0 3,5 4,0 4,5 Vzdálenost spoje Rusko Bulharsko Polsko Slovensko Rumunsko Litva Estonsko Zap. Nemecko Rakousko Slovinsko Lotyssko Belgie Ceska rep. Finsko Portugalsko Svedsko Dansko Spanelsko Nizozemi Vych. Nemecko Italie Britanie Francie Dendrogram pro metodu nejvzdálenějšího souseda: Str. diagram pro 23 případů Úplné spojení Euklid. vzdálenosti 1 2 3 4 5 6 7 8 Vzdálenost spoje Rusko Bulharsko Polsko Slovensko Rumunsko Litva Estonsko Lotyssko Ceska rep. Finsko Svedsko Dansko Nizozemi Vych. Nemecko Belgie Rakousko Zap. Nemecko Slovinsko Italie Britanie Portugalsko Spanelsko Francie Dendrogram pro metodu průměrné vazby: Str. diagram pro 23 případů Nevážený průměr skupin dvojic Euklid. vzdálenosti 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5 Vzdálenost spoje Polsko Slovensko Rumunsko Litva Estonsko Rusko Bulharsko Lotyssko Slovinsko Ceska rep. Finsko Italie Britanie Belgie Rakousko Zap. Nemecko Nizozemi Vych. Nemecko Svedsko Dansko Spanelsko Portugalsko Francie Dendrogram pro Wardovu metodu: Str. diagram pro 23 případů Wardova metoda Euklid. vzdálen. na druhou 0 20 40 60 80 100 120 140 160 Vzdálenost spoje Rusko Bulharsko Polsko Slovensko Rumunsko Litva Estonsko Svedsko Dansko Nizozemi Vych. Nemecko Belgie Rakousko Zap. Nemecko Slovinsko Lotyssko Ceska rep. Finsko Italie Britanie Portugalsko Spanelsko Francie Úkol 5.: Pro Wardovu metodu určete 4 shluky navzájem si podobných zemí. Shluk č. 1: Francie, Španělsko, Portugalsko, Velká Británie, Itálie, Finsko, ČR, Lotyšsko, Slovinsko Shluk č. 2: Západní Německo, Rakousko, Belgie, Východní Německo, Nizozemí, Dánsko, Švédsko Shluk č. 3: Estonsko, Litva, Rumunsko, Slovensko, Polsko Shluk č. 4: Bulharsko, Rusko Úkol 6.: Proveďte shlukovou analýzu pro proměnné. Dendrogram pro Wardovu metodu: Str. diagram pro 14 Proměnné Wardova metoda Euklid. vzdálen. na druhou 0 10 20 30 40 50 60 70 80 90 Vzdálenost spoje P_extremiste L_extremiste narkomani psychotici Zide imigranti muslimove velke rodiny jina rasa Romove HIV pozitivni alkoholici homosexualove kriminalnici Proměnné roztřídíme do čtyř shluků. Shluk č. 1: kriminálníci, homosexuálové, alkoholici, HIV pozitivní, Romové Shluk č. 2: osoby jiné rasy, velké rodiny, psychotici, muslimové, imigranti, Židé Shluk č. 3: narkomani Shluk č. 4: levicoví a pravicoví extrémisté Úkol 7.: Použijte metodu k-průměrů k nalezení 4 shluků navzájem si podobných zemí a uložte skupinovou příslušnost do datového souboru. K určení významnosti jednotlivých proměnných proveďte analýzu rozptylu. Nakreslete graf průměrů všech 4 shluků a pokuste se o interpretaci. Rozdíly oproti Wardově metodě: Francie a Portugalsko byly zařazeny do shluku se Záp. Německem, Výsledek analýzy rozptylu: Analýza rozptylu (netolerance.sta) Proměnná Mezisk. SČ sv Vnitřní SČ sv F význam. p kriminalnici jina rasa L_extremiste alkoholici P_extremiste velke rodiny psychotici muslimove imigranti HIV pozitivni narkomani homosexualove Zide Romove 15,62198 3 3,73719 19 26,47424 0,000001 3,96231 3 3,40403 19 7,37203 0,001799 1,64007 3 15,82236 19 0,65648 0,588798 13,16491 3 7,89391 19 10,56230 0,000263 4,49299 3 16,89420 19 1,68434 0,204084 7,20290 3 7,33896 19 6,21591 0,004016 9,57379 3 9,74601 19 6,22142 0,004000 5,68687 3 3,47000 19 10,37951 0,000290 4,53931 3 2,51944 19 11,41087 0,000167 10,45365 3 5,74605 19 11,52208 0,000158 18,30150 3 2,57925 19 44,93922 0,000000 13,86812 3 3,75787 19 23,37266 0,000001 5,78665 3 5,16341 19 7,09779 0,002164 6,26289 3 13,69391 19 2,89654 0,061976 Na hladině významnosti 0,05 nejsou významné pouze proměnné L_extrémisté, P_extrémisté a Romové. Podle hodnot statistiky F lze soudit, že na zařazování zemí do shluků se nejvíce podílí proměnné narkomani, kriminálníci a homosexuálové. Graf průměrů: Graf průměrů všech shluků Shluk 1 Shluk 2 Shluk 3 Shluk 4 jinarasa alkoholici velkerodiny muslimove HIVpozitivni homosexualove Romove -4,0 -3,5 -3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5