3. cvičení 11.11.2014 1 Úvod do vícerozměrných metod I. •Vícerozměrné metody: Název vícerozměrné vychází z typu vstupních dat, tato data jsou tvořena jednotlivými objekty (i.e. klienti) a každý z nich je charakterizován svými parametry (věk, příjem atd.) a každý z těchto parametrů můžeme považovat za jeden rozměr objektu. •Maticová algebra: Základem práce s daty a výpočtů vícerozměrných metod je maticová algebra, matice tvoří jak vstupní, tak výstupní data a probíhají na nich výpočty. •NxP matice: N objektů s p parametry pak vytváří tzv. NxP matici, která je prvním typem vstupu dat do vícerozměrných analýz. •Asociační matice: Na základě těchto matic jsou počítány matice asociační na nichž pak probíhají další výpočty, jde o čtvercové matice obsahující informace o podobnosti nebo rozdílnosti (tzv. metriky) buď objektů (Q mode analýza) nebo parametrů (R mode analýza).Měřítko podobnosti se liší podle použité metody a typu dat, některé metody umožňují použití uživatelských metrik. Vstupní matice vícerozměrných analýz Hodnoty parametrů pro jednotlivé objekty NxP MATICE ASOCIAČNÍ MATICE Korelace, kovariance, vzdálenost, podobnost Úvod do vícerozměrných metod II. •vytváření shluků objektů na základě jejich podobnosti •identifikace typů objektů •zjednodušení vícerozměrného problému do menšího počtu rozměrů •principem je tvorba nových rozměrů, které lépe vyčerpávají variabilitu dat SHLUKOVÁ ANALÝZA ORDINAČNÍ METODY Měření vzdálenosti objektů Euklidovská vzdálenost i,j – označení objektů dij – vzdálenost objektů i a j p – počet parametrů k – k-tý parametr wk – váha parametru k Vážená euklidovská vzdálenost Minkowski (power distance) l - celé číslo l =1 Manhattan (city block) l= 2 Euklidovská vzdálenost Chebychev Měření podobnosti objektů Binární koeficienty podobnosti a, b, c, d = počet případů, kdy souhlasí binární charakteristika objektu 1 a 2 a+b+c+d=p Simple matching coefficient Symetrické binární koficienty - není rozdíl mezi případem 1-1 a 0-0 Hamman, Yule coefficient, Pearson’s f (phi) a další koeficienty Jaccard`s coefficient Asymetrické binární koeficienty – odstranění double zero Řada dalších koeficientů dávajících různou váhu jednotlivým kombinacím parametrů Sorensen`s coefficient Kvantitativní koeficienty Obdoby binárních koeficientů pro více parametrů než 0/1 Simple matching coefficient pro více parametrů p=počet parametrů Gowerův koeficient Zahrnutí podobnosti podle různých typů parametrů – binární, kvalitativní a semikvantitativní i kvantitativní (odlišný výpočet pro jednotlivé typy). Celkový součet podobností je podělen počtem parametrů. Může zahrnovat podmínku nepočítat s chybějícími parametry – Kronecker`s delta. Více informací a další měření vzdáleností a podobností najdete v knize LEGENDRE, P. & LEGENDRE, L. (1998). Numerical ecology. Elseviere Science BV, Amsterodam. Vícerozměrné metody v smstatisticalogo Statistica 9 – nabídková větev Multivariate Exploratory Techniques v menu Statistics • Joining (tree clustering) – hierarchické shlukování, podle vzdálenosti mezi objekty jsou tyto skládány do skupin pomocí různých algoritmů. • K – means clustering (hypotéza existence x clusterů a její ověření analogické k ANOVA – sestavení clusterů tak aby se minimalizovala jejich vnitřní variabilita a maximalizovala variabilita mezi clustery), nehierarchické shlukování • Two-way joining (shlukování je prováděno zároveň na základě jak objektů, tak parametrů) Statistics >> Multivariate Exploratory Techniques >> Cluster Analysis “Klasická“ shluková analýza hierarchicky spojující objekty do skupin podle vzdálenosti v asociační matici Vybrání proměnných pro výpočet Vstupní soubor je matice objekty x parametry nebo matice vzdáleností Mají být shlukovány sloupce nebo řádky vstupní matice objekty x parametry? Shlukovací algoritmus Použitá vzdálenost mezi objekty (jen matice objekty x parametry) Výběr z dat Automatizovaný výstup Smazání chybějících dat nebo jejich nahrazení průměrem Joining (Tree Clustering) – shlukovací algoritmy Na tuto vzdálenost se ptá single linkage Na tuto vzdálenost se ptá complete linkage Další metody počítají s průměrnou vzdáleností všech objektů shluků nebo vzdáleností centroidů (vzdálenost může být vážena velikostí shluků). Wardova metoda se snaží minimalizovat variabilitu uvnitř shluků. centroid Horizontální a vertikální dendrogram Popis analýzy Pravoúhlé větve stromu Vzdálenost v % Postup skládání stromu v podobě tabulky a grafu Popis objektů (průměr a SD) Export matice vzdáleností (podle zvolené metriky) do speciálního souboru Statistica pro matice vzdáleností Matice vzdáleností Výsledky programu Statistica se typicky dělí na záložky Quick (nejdůležitější výstupy) a Advanced (podrobnější analýza, nastavení vlastností výstupů) Dendrogram představuje grafický výstup shlukové analýzy, kde jsou objekty propojeny tak, jak postupovalo jejich shlukování Vzdálenost (zde v %) Shlukované objekty Popis analýzy Almagenation schedule a graf poskytují uživateli přehled nad celým procesem shlukování, tj. při jaké vzdálenosti a jaké objekty nebo jejich skupiny se shlukly Vzdálenost na níž došlo k shlukování Shlukované objekty Kroky shlukování Joining (Tree Clustering) – asociační matice Asociační matice představují speciální typ souborů programu Statistica (přípona .smx), jde o čtvercové matice nesoucí informaci o vztazích mezi řádky a sloupci, tvoří alternativní vstup pro vícerozměrné analýzy,některé analýzy lze provádět pouze na datech v tomto formátu. Na rozdíl od běžných souborů obsahují 4 speciální řádky, pro správnou funkci je nezbytné dodržet jejich přesnou syntaxi. Var 1 Var 2 Var 3 Var 1 1.00 .20 .30 Var 2 .20 1.00 .10 Var 3 .30 .10 1.00 Means 12 11 10 Std. Dev. 3 5 2 No. Cases 50 Matrix 1 Vlastní matice vzdáleností Průměr a SD proměnných (není nutné pro matici podobností a nepodobností) Počet případů = počet z nějž byla matice vytvořena, ne počet jejích řádků Typ matice 1 = korelace, 2 = podobnosti, 3 = nepodobnosti, 4 = kovariance Shluková analýza K-means clustering K-means clustering se snaží rozdělit objekty do zadaného počtu shluků tak, aby byla minimalizována variabilita uvnitř shluků a maximalizována mezi shluky Vybrání proměnných pro výpočet Mají být shlukovány sloupce nebo řádky vstupní matice objekty x parametry? Počet očekávaných shluků Počet iterací – kroků výpočtu Smazání chybějících dat nebo jejich nahrazení průměrem Automatizovaný výstup Nastavení počátečních shluků, od nichž se výpočet odvíjí K-means clustering - výsledky K-means clustering pracuje s objekty pouze na základě Euklidovské vzdálenosti, na tuto skutečnost je nezbytné pamatovat pokud tato metrika není pro data vhodná. Popis analýzy ANOVA pro jednotlivé proměnné Euklidovská vzdálenost středu shluků Graf průměrů jednotlivých proměnných v shlucích Průměr, rozptyl, SD parametrů v shlucích Objekty v shlucích a jejich vzdálenost od centroidu Uloží příslušnost k shluku doplněnou o vzdálenost k centroidu pro všechny objekty (+ vybrané parametry). K-means clustering – tabulky výsledků ANOVA jednotlivých parametrů rozdělených podle shluků Středy a vzdálenosti středů shluků Popisná statistika shluků Členové shluku a jejich vzdálenost od středu shluku K-means clustering – průměry parametrů Jednotlivé parametry Průměry v shlucích Čáry pro jednotlivé shluky