Viacrozmerné metódy všeobecne Viacrozmerné metódy U3 U10 U7 U4 U8 U9 U6 U5 U11 U1 U2 1 2 3 4 5 n Up Viacrozmerné metódy X3 Y4 Y1 X4 Y2 Y3 XP X5 Y5 X1 X2 1 2 3 4 5 n YR nezávislé premenné závislé premenné Metódy analýzy závislostí Viacrozmerné metódy •Metódy analýzy závislostí •premenné možno rozdeliť do dvoch skupín •cieľom je dokázať prítomnosť/neprítomnosť závislosti medzi týmito dvomi skupinami •ak možno jednu skupinu označiť za závislé premenné a druhú za nezávislé, potom cieľom je určiť ako nezávislé premenné pôsobia na závislé premenné • Viacrozmerné metódy Metódy analýzy závislostí Viacrozmerné metódy U3 U10 U7 U4 U8 U9 U6 U5 U11 U1 U2 1 2 3 4 5 n UR Metódy analýzy skrytých vzťahov premenné Viacrozmerné metódy •Metódy analýzy skrytých vzťahov •premenné nemožno logicky rozdeliť do dvoch skupín na závislé a nezávislé •cieľom je pochopiť alebo identifikovať prečo a ako sú premenné navzájom korelované t.j. ako sa navzájom ovplyvňujú •ak sú premenné navzájom prepojené – korelované, možno rovnaký objem informácií vystihnúť menším počtom premenných – zníženie dimenzie Viacrozmerné metódy Metódy analýzy skrytých vzťahov Viacrozmerné metódy U3 U10 U7 U4 U8 U9 U6 U5 U11 U1 U2 1 2 3 4 5 n UR Klasifikačné metódy premenné Viacrozmerné metódy •Klasifikačné metódy •v porovnaní s predchádzajúcimi metódami sú predmetom analýzy pozorovania nie premenné •cieľom je •identifikovať podobné pozorovania •zoskupiť ich do skupín, ktoré sú vnútorne homogénne ale navzájom odlišné •určiť pravidlo, podľa ktorého možno do určených skupín zaradiť ďalšie pozorovania na základe podobnosti ‹#› Viacrozmerné štatistické metódy, FHI EU 11 Viacrozmerné štatistické metódy, FHI EU Viacrozmerné metódy •Viacrozmerné metódy •metódy analýzy skrytých vzťahov (zníženia dimenzie) •analýza hlavných komponentov •faktorová analýza •klasifikačné metódy •zhluková analýza •metódy analýzy závislostí •kanonická korelačná analýza •diskriminačná analýza > Zhluková analýza Cluster Analysis (CA) Zhluková analýza •Charakteristika CA •rozklad súboru na niekoľko homogénnych podsúborov •štatistické jednotky v jednom zhluku sú čo najpodobnejšie •štatistické jednotky rôznych zhlukov sú navzájom čo najodlišnejšie •zoskupiť Xi i=(1, ....n) do zhlukov c1,....cq (2 < q < n) Zhluková analýza •Postup CA •výber miery vzdialenosti •výber druhu zhlukovacieho postupu •výber zhlukovacej metódy •určenie počtu významných zhlukov •interpretácia zhlukov Zhluková analýza •výber miery vzdialenosti •miery podobnosti •koeficienty asociácie •koeficienty korelácie •miery nepodobnosti - vzdialenosti •pozitivita •symetria •trojuholníková rovnosť •Euklidovská vzdialenosť • • Dij= ÖS(xik- xjk)2 Zhluková analýza •výber druhu zhlukovacieho postupu Øhierarchický postup •úplná analýza štatistického súboru •výsledok možno zobraziť pomocou hierarchického grafu - dendrogramu •aglomeratívne •v prvom kroku je každá jednotka samostatným zhlukom •v poslednom kroku sú všetky jednotky v jednom zhluku •diverzívne •v prvom kroku sú všetky jednotky v jednom zhluku •v poslednom kroku každá jednotka predstavuje zhluk Zhluková analýza •výber druhu zhlukovacieho postupu Ønehierarchický postup •vopred určený počet zhlukov •iteratívny postup určenia ich stredov •postupné zaraďovanie jednotiek k vybraným stredom Zhluková analýza •výber zhlukovacej metódy •hierarchické – aglomeratívne •metóda najbližšieho suseda (single linkage) •poznáme maticu euklidovských vzdialeností •kritérium spojenia = min dij •vyberieme spojenie, prepočítame, atď. •tzv. reťaziaci efekt • Zhluková analýza •výber zhlukovacej metódy •hierarchické – aglomeratívne •metóda najvzdialenejšieho suseda (complete linkage) •poznáme maticu euklidovských vzdialeností •kritérium spojenia = max dij •vyberieme spojenie, prepočítame, atď. •konzistentné, izolované zhluky • S1 S2 S3 S4 S5 S6 S1 0 2 181 221 625 821 S2 2 0 145 181 557 745 S3 181 145 0 2 136 250 S4 221 181 2 0 106 212 S5 625 557 136 106 0 26 S6 821 745 250 212 26 0 Zhluková analýza •výber zhlukovacej metódy •hierarchické – aglomeratívne •metóda priemernej väzby suseda (average linkage) •poznáme maticu euklidovských vzdialeností •po inicializačnom spojení je vzdialenosť medzi dvomi clustrami vypočítaná ako priemer vzdialeností ich prvkov • + 2 Zhluková analýza •výber zhlukovacej metódy •hierarchické – aglomeratívne •centroidná metóda (centroid method) •poznáme maticu euklidovských vzdialeností •inicializačné spojenie •každý zhluk je nahradený “priemerným prvkom”, ktorý sa používa pri výpočte vzdialeností •nevýhodou sú inverzie •mediánová metóda •reprezentantom zhluku je jeho medián •vylepšenie centroidnej metódy • Zhluková analýza •určenie počtu významných zhlukov •RMSSTD zhluku – vnútroskupinová variabilita •nižšia hodnota -> nižšia variabilita -> vyššia homogenita •R-Squared •pomer •medziskupinovej sumy štvorcov •celkovej sumy štvorcov •čím väčšia je medziskupinová variabilita, tým väčšie sú rozdiely medzi skupinami a tým homogénnejšie sú skupiny •R2=0 – skupiny sú rovnaké •R2=1 – skupiny sú rozdielne Zhluková analýza •určenie počtu významných zhlukov •semipartial R-Squared (spojených zhlukov) •pomer •vnútroskupinová variabilita(1) – vnútroskupinová variabilita (2) •celková variabilita •ak je rozdiel rovný 0 -> spojené boli úplne zhodné skupiny •rozdiel vyjadruje tzv. stratu homogenity •vzdialenosť zhlukov (CD) •ak je CD malé číslo -> spojené boli podobné skupiny •CCC – cubic clustering criterium > 2 Zhluková analýza •určenie počtu významných zhlukov •RMSSTD - homogenita nového zhluku •malé •SPR – homogenita spojených zhlukov •malé •RS – heterogenita zhlukov •vysoké •CD – homogenita spojených zhlukov •malé • Zhluková analýza •interpretácia zhlukov •dendrogram •grafická analýza •popisná štatistika CA - Príklady