Shluková analýza
Motivace:
S problematikou klasifikace objektů do skupin se v praxi setkáváme velmi často. Např. biolog studuje vnitrodruhovou
variabilitu určitého druhu. Na 50 lokálních populacích změří biometrické charakteristiky (jako je
délka nejvyššího listu, délka korunní trubky, počet květů apod.) a zjišťuje, zda jsou si určité skupiny populací
podobnější než jiné, zda tvoří shluky.
Jako první použil pojem „shluková analýza“ Američan Robert C. Tryon v roce 1939:
„Shluková analýza je obecný logický postup formulovaný jako procedura, pomocí níž seskupujeme objektivně
jedince do skupin na základě jejich podobností a rozdílností.“
Shluky můžeme popsat jako "nepřerušované oblasti prostoru obsahující relativně velkou hustotu bodů, oddělených
od dalších takových oblastí oblastmi, které obsahují relativně malou hustotu bodů. Důležitost tohoto
popisu je v tom, že předtím než se uskuteční analýza dat, neomezuje chápání tohoto pojmu na žádnou konkrétní
podobu.
Metody hledání shluků můžeme rozdělit na dvě velké skupiny: hierarchické metody a nehierarchické metody.
a) Hierarchické metody vytvářejí shluky, které mají různou hierarchickou úroveň – shluky vyšší hierarchické úrovně obsahují
shluky nižší úrovně. Hierarchické metody jsou buď aglomerativní (menší shluky se postupně spojují do větších shluků)
nebo divizní (celý soubor je nejprve chápán jako jeden shluk a postupně se dělí na menší shluky. Zde se seznámíme
s aglomerativním hierarchickým algoritmem. Výsledky hierarchických metod se graficky znázorňují pomocí dendrogramu,
což je binární strom znázorněný buď vertikálně nebo horizontálně. V dendrogramu každý uzel představuje shluk.
V horizontálním dendrogramu horizontální směr reprezentuje vzdálenosti mezi shluky. Vertikální řezy dendrogramem
představují roztřídění objektů do shluků.
b) Nehierarchické metody nevytvářejí hierarchickou strukturu. Rozkládají původní množinu objektů do několika disjunktních
shluků tak, aby bylo splněno určité kritérium. Zde se seznámíme s metodou k-průměrů, která umožňuje provést rozklad
množiny objektů do předem specifikovaného počtu shluků.
Shluková analýza nachází uplatnění v celé řadě oborů, např. v biologii, psychologii, geografii, technice i marketingu.
Shluková analýza je ovšem průzkumovou metodou a měla by sloužit jako určité vodítko při dalším zpracování dat.
Cíl shlukové analýzy
Vycházíme z p-rozměrného datového souboru










np1n
p111
xx
xx
K
KKK
K
, který získáme tak, že na každém z n objektů změříme
hodnoty p znaků X1, …, Xp. Cílem shlukové analýzy je roztřídění těchto n objektů do několika pokud možno stejnorodých
(homogenních) skupin (shluků, clusterů). Požadujeme, aby objekty uvnitř shluků si byly podobné co nejvíce, zatímco objekty
z různých shluků co nejméně. Přesný počet shluků většinou není předem znám.
Podobnost objektů
Podobnost (či rozdílnost) objektů posuzujeme pomocí různých měr vzdálenosti. Pro znaky intervalového či poměrového
typu nejčastěji používáme euklidovskou vzdálenost.
Nechť k-tý objekt je popsán vektorem pozorování xk = (xk1, ..., xkp)T
a l-tý objekt vektorem xl = (xl1, ..., xlp)T
.
Euklidovská vzdálenost k-tého a l-tého objektu:
( )∑
=
−=
p
1j
2
ljkjkl xxd .
Vzdálenosti vypočtené pro všechny dvojice objektů se uspořádají do matice vzdáleností
D =












0dd
d0d
dd0
2n1n
n221
n112
K
KKKK
K
K
. Je zřejmé, že je to čtvercová symetrická matice, která má na hlavní diagonále nuly.
Příklad:
Uvažme datový soubor, který vznikl tak, že 6 žáků absolvovalo 4 testy, které měří následující veličiny:
X1 – přírodovědné znalosti,
X2 – literární vědomosti,
X3 – schopnost koncentrace,
X4 – logické myšlení.
Testy se hodnotí na škále od 1 do 10 (1 = špatný výsledek, 10 = výborný výsledek)
1
X1
2
X2
3
X3
4
X4
1
2
3
4
5
6
7 9 10 8
9 8 8 10
4 3 1 2
2 3 2 2
3 1 2 4
1 1 1 4
Vypočtěte matici euklidovských vzdáleností.
Řešení:
Statistiky – Vícerozměrné průzkumné techniky – Shluková analýza – Spojování (hierarchické shlukování) – OK – Proměnné
X1 – X4 – OK – na záložce Detaily vybereme Shlukovat Případy (řádky) – OK – na záložce Detaily vybereme Matice
vzdáleností.
Euklid. vzdálenosti (pca)
Případ P_1 P_2 P_3 P_4 P_5 P_6
P_1
P_2
P_3
P_4
P_5
P_6
0,0 3,6 12,7 12,7 12,6 14,0
3,6 0,0 12,8 13,2 12,5 14,1
12,7 12,8 0,0 2,2 3,2 4,1
12,7 13,2 2,2 0,0 3,0 3,2
12,6 12,5 3,2 3,0 0,0 2,2
14,0 14,1 4,1 3,2 2,2 0,0
Hierarchické shlukování
Při aplikacích shlukové analýzy se nejčastěji používá aglomerativní hierarchická procedura. Její
princip spočívá v postupném slučování objektů, a to nejprve nejbližších a v dalších krocích pak
stále vzdálenějších.
Algoritmus:
1. krok: Každý objekt považujeme za samostatný shluk.
2. krok: Najdeme dva shluky, jejichž vzdálenost je minimální.
3. krok: Tyto dva shluky spojíme v nový, větší shluk a přepočítáme matici vzdáleností. Její řád
se sníží o 1. Vrátíme se na 2. krok.
Funkce algoritmu končí, až jsou všechny objekty spojeny do jediného shluku.
Vzdálenost mezi shluky se počítá různými způsoby. Uvedeme čtyři z nich.
a) Metoda nejbližšího souseda: Vzdálenost mezi dvěma shluky je minimem ze všech vzdáleností mezi jejich objekty.
Nevýhoda: řetězový efekt (spojují se shluky, jejichž dva objekty jsou sice nejbližší, ale vzhledem k většině ostatních objektů
nejde o nejbližší shluky)
Výhody: Je invariantní k monotónním transformacím matice podobností a není ovlivněna vazbami v datech. První vlastnost,
invariantnost k monotónní transformaci, je celkem důležitá, neboť téměř všechny další hierarchické aglomerativní metody
tuto vlastnost nemají. To znamená, že metoda nejbližšího souseda je jedna z mála metod, které nejsou ovlivněny žádnou
transformací dat.
b) Metoda nejvzdálenějšího souseda: Vzdálenost mezi dvěma shluky je maximem ze všech vzdáleností mezi jejich objekty.
Výhoda: odpadá řetězový efekt, vede k tvorbě relativně malého počtu poměrně kompaktních shluků.
c) Metoda průměrné vazby: Vzdálenost mezi dvěma shluky je průměrem ze všech vzdáleností mezi jejich objekty.
Vede k podobným výsledkům jako metoda nejvzdálenějšího souseda.
Tyto tři metody nevyžadují původní data, stačí jim matice vzdáleností.
d) Wardova metoda: Vybírá takové shluky ke sloučení, kde je minimální součet čtverců odchylek všech pozorování od příslušných
shlukových průměrů (centroidů). Obecně lze říci, že je tato metoda velmi účinná, ale má tendenci tvořit poměrně
malé shluky. Požaduje vyjádření vzdálenosti objektů čtvercovou euklidovskou vzdáleností.
Schematické znázornění: a) metoda nejbližšího souseda, b) metoda nejvzdálenějšího souseda, c) metoda průměrné vazby, d)
Wardova metoda
Výsledky aglomerativní hierarchické procedury se zpravidla znázorňují pomocí dendrogramu.
Na svislé ose připravíme stupnici pro hladiny spojování. Dole začíná strom n větvemi a v každém kroku spojíme dvě větve
v bodě, který odpovídá příslušné hladině spojení.
Kofenetický koeficient korelace
Různé shlukovací procedury mohou poskytovat různé výsledky. K posouzení shody mezi maticí vzdáleností
objektů a výsledkem dané shlukovací metody je možno použít např. kofenetický koeficient korelace. Posuzuje
míru shody mezi maticí vzdáleností objektů a výsledkem dané shlukovací metody. Je to koeficient korelace
mezi n(n-1)/2 prvky umístěnými nad (nebo pod) hlavní diagonálou matice vzdáleností a odpovídajícími
prvky kofenetické matice. Přitom (i,j)-tý prvek této matice je definován jako ta vzdálenost i-tého a j-tého objektu,
při níž jsou tyto objekty poprvé spojeny do jednoho shluku. Této vzdálenosti se říká kofenetická vzdálenost.
Z uvažovaných shlukovacích metod pak vybereme tu, která poskytuje nejvyšší kofenetický koeficient
korelace.
Upozornění: Systém STATISTICA bohužel neposkytuje kofenetický koeficient korelace. Je možno ho získat
pomocí systému MATLAB.
Návod: Do matice X uložíme zkoumaný datový soubor.
Y = pdist(X, ’euclid’) … poskytne řádkový vektor obsahující prvky nad hlavní diagonálou matice euklidovských
vzdáleností.
Z = linkage(Y,’single’) … poskytne matici o n-1 řádcích a 3 sloupcích, která obsahuje informace potřebné
pro sestrojení dendrogramu (parametr single je pro metodu nejbližšího souseda, pro metodu nejvzdálenějšího
souseda je complete, pro metodu průměrné vazby average a pro Wardovu metodu ward).
c = cophenet(Z,Y) … poskytne kofenetický koeficient korelace.
dendrogram(Z) … vykreslí se dendrogram pro výsledky zvolené hierarchické aglomerativní procedury.
Příklad: Tento příklad vychází z publikace
Budíková, Marie. Aplikace shlukové analýzy v ekologii. Praha : Jednota českých matematiků a fyziků, 2001. 8 s. Sborník
prací 11. letní školy ROBUST 2000.
V rámci jedné z bakalářských prací obhájených na katedře geografie byly shromážděny údaje o průměrných měsíčních koncentracích
oxidu siřičitého v letech 1984 – 1998 na 10 monitorovacích stanicích umístěných na území města Brna.
Jednalo se o stanice umístěné v lokalitách Dobrovského, Húskova, Krasová, Kroftova, Mendelova zemědělská a lesnická
univerzita, Polní, Přízřenice, Skaunicové, Soběšice a Tuřany, ve zkratkách DOB, HUS, KRA, KRO, MZL, POL, PRI, SKA,
SOB a TUR. Tyto údaje měly – mimo jiné – posloužit také k řešení problému optimalizace sítě stanic.
Uvedené stanice jsou obhospodařovány jednak brněnskou pobočkou ČHMÚ (to jsou stanice KRO, MZL, PRI, SOB, TUR) a
jednak MHS (to jsou stanice DOB, HUS, KRA, POL, SKA). Každá z těchto organizací však zjišťuje hodnoty SO2 jinou metodou
– ČHMÚ gravimetrickou a MHS aspiračně kolorimetrickou. Teprve od r.1993 jsou výsledky kolorimetrické metody
přepočítávány tak, aby odpovídaly výsledkům metody gravimetrické.
Do našeho zpracování byly tedy zahrnuty údaje až od r. 1993, konkrétně jsme se zabývali průměrnými ročními koncentracemi
SO2. Jenom na okraj uvádím, že podle zákona o ochraně ovzduší před znečišťujícími látkami činí nejvyšší přípustná
průměrná roční koncentrace SO2 60 mikrogramů na metr krychlový.
Každá ze sledovaných 10 stanic byly popsána šesti údaji, jak vidíme v této tabulce.
1
r93
2
r94
3
r95
4
r96
5
r97
6
r98
DOB
HUS
KRA
KRO
MZL
POL
PRI
SKA
SOB
TUR
6,828 5,202 5,137 11,568 4,104 3,097
9,241 9,281 10,259 10,442 7,035 3,857
7,205 5,535 5,197 13,741 8,651 4,085
24,039 9,018 12,237 18,189 15,601 9,762
23,079 16,222 13,353 20,363 15,312 7,925
25,005 14,568 10,723 15,76 11,068 4,916
15,874 15,251 13,241 19,435 16,943 8,081
14,297 9,49 7,209 14,434 10,961 8,063
19,728 13,772 12,943 20,948 17,564 11,039
22,524 16,708 19,502 24,144 18,377 11,024
Časové řady ročních hodnot znečištění na sledovaných stanicích máme znázorněny na následujícím obrázku.
Naším cílem bylo najít stanice, které mají podobné rysy chování, tedy vytvořit skupiny (shluky) takových stanic. Prvním
krokem bylo provedení průzkumové analýzy dat pomocí krabicových diagramů.
Krabicový graf z více proměnných
stanice.sta 6v*10c
Medián; Krabice: 25%-75%; Svorka: Rozsah neodleh.
Medián
25%-75%
Rozsah neodleh.
Odlehlé
Extrémy
r93 r94 r95 r96 r97 r98
2
4
6
8
10
12
14
16
18
20
22
24
26
Na první pohled je zřejmé, že údaje v jednotlivých letech vykazují dosti rozdílnou variabilitu, největší v r. 1993, nejmenší v
r. 1998. Provedli jsme tedy standardizaci a nadále pracovali se standardizovanými hodnotami.
Datový soubor standardizovaných hodnot
1
r93
2
r94
3
r95
4
r96
5
r97
6
r98
DOB
HUS
KRA
KRO
MZL
POL
PRI
SKA
SOB
TUR
-1,398 -1,457 -1,34 -1,205 -1,722 -1,363
-1,059 -0,514 -0,165 -1,459 -1,126 -1,11
-1,345 -1,38 -1,326 -0,714 -0,796 -1,034
1,0192 -0,575 0,2882 0,2906 0,619 0,8596
0,8844 1,0904 0,5441 0,7816 0,5601 0,2469
1,1549 0,7081 -0,059 -0,258 -0,304 -0,757
-0,128 0,866 0,5184 0,572 0,8923 0,2989
-0,349 -0,466 -0,865 -0,557 -0,326 0,2929
0,4138 0,5241 0,4501 0,9137 1,0188 1,2855
0,8065 1,2028 1,954 1,6355 1,1843 1,2805
Nyní přistoupíme k vizualizaci dat na ploše prvních dvou hlavních komponent.
Vlastní čísla korelační matice a související statistiky (stanice.sta)
Pouze aktiv. proměnné
Pořadí vl.č.
vl. číslo % celk.
rozptylu
Kumulativ.
vl. číslo
Kumulativ.
%
1
2
3
4
5
6
4,989279 83,15465 4,989279 83,1546
0,472272 7,87121 5,461551 91,0259
0,300851 5,01419 5,762402 96,0400
0,129928 2,16547 5,892330 98,2055
0,073190 1,21984 5,965521 99,4253
0,034479 0,57466 6,000000 100,0000
1. hlavní komponenta vyčerpává 83,15% variability dat a druhá 7,87%.
Rozmístění stanic na ploše prvních dvou hlavních komponent:
Projekce případů do faktorové roviny ( 1 x 2)
Případy se součtem cos()^2 >= 0,00
DOB
HUS
KRAKRO
MZL
POL
PRI
SKA
SOB
TUR
-5 -4 -3 -2 -1 0 1 2 3 4 5 6
Faktor 1: 83,15%
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
2,0
2,5
Faktor2:7,87%
DOB
HUS
KRAKRO
MZL
POL
PRI
SKA
SOB
TUR
Z rozmístění stanic na ploše prvních dvou hlavních komponent lze usoudit, že stanice DOB, KRA, HUS, SKA mohou tvořit
jeden shluk, stanice KRO, SOB, PRI, TUR, MZL druhý shluk a stanice POL se chová poněkud atypicky.
Pro standardizované proměnné r93 až r98 provedeme shlukovou analýzu s euklidovskou vzdáleností a čtyřmi metodami:
nejbližšího souseda, nejvzdálenějšího souseda, průměrné vazby a Wardovu metodu. Výsledky znázorníme pomocí
dendrogramu.
Statistiky – Vícerozměrné průzkumné techniky – Shluková analýza Spojování (hierarchické shlukování) – OK - Proměnné
r93, ..., r98, OK, Detaily - Shlukovat případy (řádky) – Pravidlo slučování: Jednoduché spojení – Míry vzdálenosti:
Euclidovské vzdálenosti - OK – Horizontální graf hierarch. stromu. Euklidovská vzdálenost a metoda nejbližšího souseda je
nastavena implicitně. Pro další dvě metody změníme Pravidlo slučování z Jednoduchého spojení na Úplné spojení resp.
Nevážený průměr skupin dvojic resp. Wardova metoda.
Dendrogram pro metodu nejbližšího souseda:
Str. diagram pro 10 případů
Jednoduché spojení
Euklid. vzdálenosti
0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,4
Vzdálenost spoje
TUR
POL
SOB
PRI
MZL
KRO
SKA
HUS
KRA
DOB
Dendrogram pro metodu nejvzdálenějšího souseda:
Str. diagram pro 10 případů
Úplné spojení
Euklid. vzdálenosti
0 1 2 3 4 5 6 7
Vzdálenost spoje
TUR
SOB
PRI
MZL
KRO
SKA
POL
HUS
KRA
DOB
Dendrogram pro metodu průměrné vazby:
Str. diagram pro 10 případů
Nevážený průměr skupin dvojic
Euklid. vzdálenosti
0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5
Vzdálenost spoje
POL
TUR
SOB
PRI
MZL
KRO
SKA
HUS
KRA
DOB
Dendrogram pro Wardovu metodu:
Str. diagram pro 10 případů
Wardova metoda
Euklid. vzdálen. na druhou
0 10 20 30 40 50 60 70
Vzdálenost spoje
TUR
SOB
PRI
MZL
KRO
SKA
POL
HUS
KRA
DOB
Uvedené metody dávají poněkud rozdílné výsledky. Shodu mezi maticí vzdáleností a dendrogramem posoudíme pomocí
kofenetických koeficientů korelace. Tyto koeficienty byly vypočítány pomocí systému MATLAB.
metoda koefenetický koeficient
nejbližšího souseda 0,8133
nejvzdálenějšího souseda 0,8262
průměrné vazby 0,8312
Wardova 0,8253
Nejvyšší kofenetický koeficient poskytla metoda průměrné vazby, tedy nadále budeme uvažovat její výsledky.
Při pohledu na dendrogram pro metodu průměrné vazby zjistíme, že bude vhodné rozdělit stanice do dvou shluků. Stanice
DOB, KRA, HUS a SKA tvoří jeden shluk, zbylých šest stanic druhý shluk. Přitom stanice POL, která se na ploše prvních
dvou hlavních komponent poněkud vyčleňovala, se ke 2. shluku skutečně připojí nejpozději.
Průběh shlukování vidíme na tzv. rozvrhu shlukování:
Amalgamation Schedule (stanice.sta)
Unweighted pair-group average
Euclidean distances
linkage
distance
Obj. No.
1
Obj. No.
2
Obj. No.
3
Obj. No.
4
Obj. No.
5
Obj. No.
6
Obj. No.
7
Obj. No.
8
Obj. No.
9
Obj. No.
10
1,102663
1,109963
1,298066
1,690602
1,789642
2,265795
2,279103
2,627296
4,150232
DOB KRA
MZL PRI
MZL PRI SOB
DOB KRA HUS
KRO MZL PRI SOB
KRO MZL PRI SOB TUR
DOB KRA HUS SKA
KRO MZL PRI SOB TUR POL
DOB KRA HUS SKA KRO MZL PRI SOB TUR POL
Charakteristiky nalezených shluků
První shluk je tvořen stanicemi, které se vyznačují poměrně nízkými průměrnými ročními koncentracemi oxidu siřičitého
(od 6 µg/m3
po 11 µg/m3
i malými směrodatnými odchylkami (od 2,5 µg/m3
po 3,5 µg/m3
). S výjimkou stanice KRA jsou
umístěny v centrální části města.
Druhý shluk obsahuje stanice s vysokými koncentracemi oxidu siřičitého (od 13 µg/m3
po 19 µg/m3
) i poměrně velkými
směrodatnými odchylkami (od 3,8 µg/m3
po 6,8 µg/m3
). Tři z nich se nacházejí v okrajových částech Brna (PRI, SOB,
TUR), další tři jsou v centru (MZL, KRO, POL).
Sloupkový diagram průměrů Sloupkový diagram směrodatných odchylek
Výsledek shlukovací procedury, k němuž jsme dospěli, se může jevit poněkud paradoxní. Proč tři stanice (DOB, HUS,
SKA) umístěné v centru města vykazují nízké koncentrace SO2, zatímco jiné tři stanice (MZL, KRO, POL), které se nacházejí
rovněž v centru, mají vysoké koncentrace SO2?
Vysvětlení není jednoznačné. Jak bylo poznamenáno v úvodní části, zkoumané stanice měří koncentrace SO2 dvěma různými
metodami. Přepočet výsledků kolorimetrické metody je do jisté míry subjektivní záležitostí a velmi závisí na zkušenostech
laboranta. Na stanicích DOB, HUS, KRA, POL a SKA se používá kolorimetrická metoda, na ostatních gravimetrická.
Metoda k-průměrů
Chceme-li verifikovat výsledek dané hierarchické shlukovací metody, můžeme tak učinit např.
pomocí metody k-průměrů, což je nehierarchická shlukovací procedura, která vychází z následujícího
algoritmu:
Algoritmus:
1. krok: Stanovíme počáteční rozklad množiny n objektů do k shluků. Rozklad zpravidla volíme
náhodně.
2. krok: Určíme výběrové centroidy v aktuálních shlucích. (Výběrovým centroidem shluku rozumíme
hypotetický objekt, jehož vektor pozorování je roven vektoru výběrových průměrů
všech objektů patřících do tohoto shluku.)
3. krok: Pro všechny objekty spočteme jejich vzdálenosti od všech výběrových centroidů. Objekt
zařadíme do toho shluku, k jehož výběrovému centroidu má nejblíže. Pokud nedošlo v tomto
kroku k žádnému přesunu, považujeme aktuální shluky za definitivní, jinak se vracíme ke 2.
kroku.
Statistiky – Vícerozměrné průzkumné techniky – Shluková analýza – Shlukování metodou k-průměrů – OK – Proměnné r93
až r98 – Shlukovat: Případy (řádky), na záložce Detaily ponecháme implicitní počet shluků 2 – OK. Na záložce Detaily vybereme
Členy shluků a vzdálenosti. Dostaneme 2 tabulky, které obsahují názvy stanic v 1. a 2. shluku a vzdálenosti stanic
od středu shluku:
Členy shluku číslo 1 (stanice.sta)
a vzdálenosti od přislušného středu shluku
Shluk obsahuje 4 příp.
Vzdálen.
DOB
HUS
KRA
SKA
0,491653
0,429539
0,316674
0,651282
Členy shluku číslo 2 (stanice.sta)
a vzdálenosti od přislušného středu shluku
Shluk obsahuje 6 příp.
Vzdálen.
KRO
MZL
POL
PRI
SOB
TUR
0,565838
0,244349
0,828039
0,376408
0,381547
0,807461
Vidíme, že metoda k průměrů dospěla k témuž výsledku jako metoda průměrné vazby.
1. shluk: DOB, KRA, HUS, SKA.
2. shluk: MZL, PRI, SOB, KRO, TUR, POL.
Vliv, který mají jednotlivé proměnné na zařazení do shluků, můžeme posoudit pomocí tabulky ANOVA:
na záložce Základní výsledky vybereme Analýza rozptylu:
Analýza rozptylu (stanice.sta)
Proměnná
Mezisk.
SČ
sv Vnitřní
SČ
sv F význam.
p
r93
r94
r95
r96
r97
r98
7,180394 1 1,819606 8 31,56900 0,000499
6,069239 1 2,930761 8 16,56700 0,003582
5,691066 1 3,308934 8 13,75928 0,005962
6,453049 1 2,546951 8 20,26910 0,001996
6,567978 1 2,432022 8 21,60500 0,001649
4,305515 1 4,694485 8 7,33714 0,026711
Z hodnoty statistiky F vyplývá, že největší vliv má proměnná r93.
Graf průměrů obou shluků
Graf průměrů všech shluků
Shluk 1
Shluk 2
r93 r94 r95 r96 r97 r98
Proměnné
-2,0
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
Shlukování proměnných
Systém STATISTICA pomocí shlukové analýzy umožňuje zjistit, které proměnné mají k sobě blízko.
Budeme pracovat se standardizovanými hodnotami datového souboru stanice.sta.
Znázorníme jednotlivé roky na ploše prvních dvou hlavních komponent:
Projekce proměnných do faktorové roviny ( 1 x 2)
Aktiv.
-1,0 -0,5 0,0 0,5 1,0
Faktor 1 : 83,15%
-1,0
-0,5
0,0
0,5
1,0
Faktor2:7,87%
r93
r94
r95
r96
r97
r98
Je vidět, že blízko k sobě mají proměnné r96, r97, r98 a dále proměnné r94, r93 a r95.
Provedeme shlukovou analýzu s euklidovskými vzdálenostmi a metodou průměrné vazby.
Výsledky znázorníme dendrogramem.
Str. diagram pro 6 Proměnné
Nevážený průměr skupin dvojic
Euklid. vzdálenosti
0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2
Vzdálenost spoje
r98
r97
r96
r95
r94
r93
Provedeme-li řez na úrovni spojení 1,8, dostaneme tři shluky: (r93), (r94, r95) a (r96, r97, r98).
Tento výsledek ještě ověříme metodou k-průměrů pro k = 3.
Členy shluku číslo 1 (stanice.sta)
a vzdálenosti od přislušného středu shluku
Shluk obsahuje 3 příp.
Vzdálen.
r96
r97
r98
0,231170
0,162806
0,261356
Členy shluku číslo 2 (stanice.sta)
a vzdálenosti od přislušného středu shluku
Shluk obsahuje 2 příp.
Vzdálen.
r94
r95
0,255911
0,255911
Členy shluku číslo 3 (stanice.sta)
a vzdálenosti od přislušného středu shluku
Shluk obsahuje 1 příp.
Vzdálen.
r93 0,00
Výsledek metody k-průměrů je v souladu s výsledkem metody průměrné vazby.
Vliv jednotlivých stanic na zařazení roků do shluků posoudíme pomocí tabulky ANOVA:
Analýza rozptylu (stanice.sta)
Proměnná
Mezisk.
SČ
sv Vnitřní
SČ
sv F význam.
p
DOB
HUS
KRA
SKA
KRO
MZL
POL
PRI
SOB
TUR
0,001536 2 0,147511 3 0,01562 0,984583
0,982796 2 0,138590 3 10,63708 0,043448
0,378373 2 0,056645 3 10,01957 0,046988
0,264229 2 0,466157 3 0,85024 0,509882
1,080078 2 0,535548 3 3,02516 0,190847
0,147265 2 0,293626 3 0,75231 0,543493
2,085189 2 0,446093 3 7,01150 0,073982
0,490681 2 0,236837 3 3,10771 0,185741
0,561752 2 0,076213 3 11,05624 0,041290
0,400365 2 0,395111 3 1,51994 0,350057
Na hladině významnosti 0,05 se pro zařazení roků do shluků jeví jako významné stanice HUS, KRA, SOB.
Analýza turistického ruchu ve 23 státech EU
Máme k dispozici datový soubor z EUROSTATu, který popisuje některé vybrané ukazatele turistického
ruchu v r. 2005:
1
Stat
2
X1
3
X2
4
X3
5
X4
6
X5
7
X6
8
X7
9
X8
10
X9
11
X10
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
Belgie 30528 10445852 1899 1550 121000 295000 4313000 8514000 2364000 2208000
Bulharsko 110910 7761049 1230 325 201000 20000 3957000 490000 1721000 173000
Česká republika 78866 10220577 4278 3327 232000 201000 8601000 12124000 3388000 2637000
Dánsko 43094 5411405 482 608 70000 323000 5316000 11556000 1899000 1624000
Estonsko 45226 1347510 317 467 25000 13000 751000 378000 428000 191000
Finsko 338145 5236611 938 459 118000 93000 10388000 2372000 5948000 1061000
Francie 674843 62637596 19811 9244 1740000 3039000 125216000 62426000 73066000 10291000
Itálie 301318 58462375 33527 96409 2028000 2322000 138222000 68504000 41295000 8918000
Litva 65200 3425324 331 193 20000 11000 728000 494000 347000 158000
Lotyšsko 64589 2306434 337 81 19000 5000 796000 225000 354000 71000
Lucembursko 2586,4 461230 293 252 14000 52000 85000 145000 29000 34000
Maďarsko 93030 10097549 2061 1056 162000 167000 6622000 2336000 2778000 839000
Německo 357021 82500849 36593 18756 1621000 1696000 161895000 133840000 73777000 25296000
Nizozemí 41526 16305526 3135 4025 192000 998000 14375000 40575000 8301000 7881000
Polsko 312679 38173835 2200 4523 170000 400000 12464000 25612000 6805000 5482000
Portugalsko 92345 10529255 2012 288 264000 183000 11648000 6230000 5274000 1214000
Rakousko 83872 8206524 14267 6281 571000 355000 19383000 7915000 6896000 1532000
Řecko 131990 11082751 9036 341 682000 96000 13942000 587000 5933000 131000
Slovensko 49035 5384822 885 1131 57000 103000 3183000 2638000 1244000 656000
Slovinsko 20273 1997590 344 358 30000 35000 1653000 1405000 459000 353000
Španělsko 504030 43038035 17607 17151 1580000 1484000 106875000 36999000 41600000 8552000
Švédsko 449964 9011392 1857 2089 197000 537000 17518000 17345000 11096000 6586000
Velká Británie 244820 60059900 32926 33877 1062000 1163000 117926000 80635000 52611000 23069000
X1 … rozloha, X2 … počet obyvatel, X3 … počet hotelů, X4 … počet jiných ubytovacích zařízení, X5 resp. X6 … počet
postelí v hotelech resp. jiných ubytovacích zařízeních, X7 resp. X8 … počet nocí strávených v hotelech resp. jiných
ubytovacích zařízeních, X9 resp. X10 … počet příchodů do hotelů resp. jiných ubytovacích zařízení.
Úkol: najít skupiny států, které mají podobné podmínky na rozvoj turistického ruchu.
Krabicové diagramy jednotlivých proměnných:
Krabicový graf z více proměnných
turisticky_ruch.sta 10v*23c
Medián; Krabice: 25%-75%; Svorka: Rozsah neodleh.
Medián
25%-75%
Rozsah neodleh.
Odlehlé
ExtrémyX1 X2 X3 X4 X5 X6 X7 X8 X9 X10
-2E7
0
2E7
4E7
6E7
8E7
1E8
1,2E8
1,4E8
1,6E8
1,8E8
Velmi rozdílná variabilita, použijeme standardizovaná data.
Znázornění rozmístění států na ploše prvních dvou hlavních komponent:
Projekce případů do faktorové roviny ( 1 x 2)
Případy se součtem cos()^2 >= 0,00
Aktiv.
Rakousko
Belgie
Bulharsko
Česká republikaDánskoEstonsko
Finsko
Francie
Německo
ŘeckoMaďarsko
Itálie
LotyšskoLitva
Lucembursko
Nizozemí
Polsko
Portugalsko
SlovenskoSlovinsko
Španělsko
Švédsko
Velká Británie
-10 -8 -6 -4 -2 0 2 4 6
Faktor 1: 81,41%
-4
-3
-2
-1
0
1
2
3
4
5
Faktor2:7,80%
Rakousko
Belgie
Bulharsko
Česká republikaDánskoEstonsko
Finsko
Francie
Německo
ŘeckoMaďarsko
Itálie
LotyšskoLitva
Lucembursko
Nizozemí
Polsko
Portugalsko
SlovenskoSlovinsko
Španělsko
Švédsko
Velká Británie
Státy Itálie, Velká Británie, Německo, Španělsko, Francie budou zřejmě tvořit jeden shluk, ostatní státy druhý shluk.
S pomocí MATLABu byly vypočítány kofenetické koeficienty korelace pro 5 shlukovacích metod: metodu nejbližšího
souseda, metodu nejvzdálenějšího souseda, metodu průměrné vazby, metodu vážené průměrné vazby a Wardovu metodu:
Metoda nejbližšího souseda 0,9484
Metoda nejvzdálenějšího souseda 0,9566
Metoda průměrné vazby 0,9582
Metoda vážené průměrné vazby 0,9580
Wardova metoda 0,9453
Nejvyšší kofenetický koeficient korelace dostaneme pro metodu průměrné vazby.
Dendrogram pro metodu průměrné vazby:
Str. diagram pro 23 případů
Nevážený průměr skupin dvojic
Euklid. vzdálenosti
0 1 2 3 4 5 6 7
Vzdálenost spoje
Itálie
Velká Británie
Německo
Španělsko
Francie
Polsko
Švédsko
Finsko
Nizozemí
Slovinsko
Lucembursko
Slovensko
Litva
Lotyšsko
Estonsko
Portugalsko
Maďarsko
Bulharsko
Česká republika
Dánsko
Belgie
Řecko
Rakousko
Provedeme-li řez dendrogramem na úrovni 5, získáme 2 shluky, jak bylo vidět již při znázornění rozmístění
států na ploše prvních dvou hlavních komponent.
Průměry jednotlivých proměnných v 1. a 2. shluku:
1.shluk obsahuje 5 příp., 2. 18 příp.
Proměnná
Průměr 1 Směrod.
odchylka 1
Průměr 2 Směrod.
odchylka 2
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
416406 173696 114103 123238
61339750 14092080 8744735 8448575
28093 8713 2550 3601
35087 35419 1520 1817
1606200 351026 174722 184007
1940800 745809 215944 249384
130026800 21144280 7540167 6202994
76480800 35802640 7830056 10778840
56469800 16134190 3625778 3264718
15225200 8240220 1823945 2381825
Graf průměrů:
Graf průměrů všech shluků
Shluk 1
Shluk 2
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
Proměnné
-4E7
-2E7
0
2E7
4E7
6E7
8E7
1E8
1,2E8
1,4E8
1,6E8
1,8E8
Do jednoho shluku patří státy s menší či střední rozlohou a menším počtem obyvatel, do druhého velké státy
s velkým počtem obyvatel.
Ověření výsledků provedeme metodou k-průměrů pro k = 2.
Členy shluku č. 1 a vzdálenosti členů od středu shluku:
Vzdálen.
Francie
Německo
Itálie
Španělsko
Velká Británie
0,838833
0,890074
1,063136
0,741349
0,634043
Členy shluku č. 2 a vzdálenosti členů od středu shluku:
Vzdálen.
Rakousko
Belgie
Bulharsko
Česká republika
Dánsko
Estonsko
Finsko
Řecko
Maďarsko
Lotyšsko
Litva
Lucembursko
Nizozemí
Polsko
Portugalsko
Slovensko
Slovinsko
Švédsko
0,392711
0,155856
0,137693
0,103918
0,162968
0,229445
0,402751
0,330998
0,083707
0,213803
0,204610
0,281346
0,539286
0,575224
0,081809
0,169324
0,242607
0,648680
Vliv jednotlivých proměnných na zařazení do shluků posoudíme ANOVOU:
Analýza rozptylu (turisticky_ruch.sta)
Proměnná
Mezisk.
SČ
sv Vnitřní
SČ
sv F význam.
p
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
10,68234 1 11,31766 21 19,8212 0,000220
18,55778 1 3,44222 21 113,2158 0,000000
18,25299 1 3,74701 21 102,2983 0,000000
10,22861 1 11,77139 21 18,2477 0,000339
19,41312 1 2,58688 21 157,5938 0,000000
17,16160 1 4,83840 21 74,4860 0,000000
21,12128 1 0,87872 21 504,7651 0,000000
15,88304 1 6,11696 21 54,5277 0,000000
19,78645 1 2,21355 21 187,7144 0,000000
14,43836 1 7,56164 21 40,0979 0,000003
Všechny proměnné jsou významné na hladině významnosti 0,05. Statistika F nabývá největší hodnoty pro
X7 (počet nocí strávených v hotelech), poté pro X9 (počet příchodů do hotelů) a X5 (počet postelí
v hotelech).
Shluková analýza provedená pomocí hlavních komponent
Použijeme první dvě hlavní komponenty. Vektory souřadnic států pro první dvě hlavní komponenty:
Případ Faktor 1 Faktor 2
Rakousko
Belgie
Bulharsko
Česká republika
Dánsko
Estonsko
Finsko
Francie
Německo
Řecko
Maďarsko
Itálie
Lotyšsko
Litva
Lucembursko
Nizozemí
Polsko
Portugalsko
Slovensko
Slovinsko
Španělsko
Švédsko
Velká Británie
0,70756 0,51743
1,53638 0,24411
1,73974 -0,00915
1,26767 0,21195
1,65269 0,15232
2,07905 0,19891
1,31958 -0,82216
-5,28382 -2,13623
-6,71886 -0,34872
1,04156 0,09725
1,58274 0,05162
-5,60234 2,79753
2,05626 0,12158
2,02975 0,11947
2,16385 0,33312
0,35460 0,14050
0,21670 -0,71265
1,40602 0,01546
1,87153 0,19528
2,07055 0,27464
-3,21569 -0,84866
0,34390 -1,25937
-4,61943 0,66578
Shlukovou analýzu provedeme s proměnnými Faktor 1, Faktor 2.
Dendrogram pro metodu průměrné vazby:
Str. diagram pro 23 případů
Nevážený průměr skupin dvojic
Euklid. vzdálenosti
0 1 2 3 4 5 6 7
Vzdálenost spoje
Itálie
Velká Británie
Španělsko
Německo
Francie
Švédsko
Polsko
Finsko
Slovensko
Lucembursko
Litva
Lotyšsko
Slovinsko
Estonsko
Řecko
Portugalsko
Česká republika
Bulharsko
Maďarsko
Dánsko
Belgie
Nizozemí
Rakousko
Při tomto způsobu shlukování opět dostáváme stejné shluky jako v případě, kdy použijeme všech 10 proměnných.