zahlavi-IBA logo-IBA logo-MU © Institut biostatistiky a analýz Pokročilé metody analýzy dat v neurovědách Jaro 2016 RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Blok 3 Podobnosti a vzdálenosti ve vícerozměrném prostoru 2 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Osnova 1.Úvod do metrik podobností a vzdáleností 2.Metriky pro určení vzdálenosti mezi dvěma objekty 3.Metriky pro určení podobnosti mezi dvěma objekty 4.Metriky pro určení vzdálenosti mezi dvěma skupinami objektů 5.Asociační matice 3 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Úvod do metrik podobností a vzdáleností 4 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Poznámka •jednotlivé objekty je možno znázornit pomocí bodu v p-rozměrném prostoru (p je počet proměnných) 5 pacienti kontroly 1 2 3 4 5 6 4 5 6 7 8 9 10 11 12 13 Objem hipokampu logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Metriky podobnosti vs. metriky vzdálenosti •Metriky vzdálenosti objektu x1 od objektu x2 – označení: D(x1,x2) •pozn.: vzdálenost objektu od sebe samého je 0 – tzn. D(x1,x1)=0 6 •Metriky podobnosti objektu x1 od objektu x2 – označení: S(x1,x2) •pozn.: podobnost objektu od sebe samého je maximální hodnota podobnosti pro danou metriku (zpravidla hodnota 1, ale neplatí to vždy) •Metriky vzdálenosti mohou být různými transformacemi převedeny na metriky podobnosti (a obráceně), např.: S(xi,xj) = 1/ D(xi,xj) S(xi,xj) = 1/(1+ D(xi,xj)) S(xi,xj) = c - D(xi,xj), c ³ max D(xi,xj), "i,j logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Typy měr vzdálenosti (podobnosti) 7 •podle typu proměnné (kvalitativní proměnné, kvantitativní proměnné) •podle objektů, jejichž vztah hodnotíme – obrazy (vektory), množiny obrazů (vektorů) •deterministické (nepravděpodobností) vs. pravděpodobností míry •výběr konkrétní metriky závisí na: –výpočetních nárocích –charakteru rozložení dat –dosažení optimálních výsledků (klasifikační chyba, ztráta,...) •chybný výběr metriky může vést k chybných závěrům analýzy (stejně jako v klasické statistické analýze výběr nevhodného testu) •obecně bohužel není možné dopředu doporučit vhodnou metriku pro danou situaci logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Typy metrik a konkrétní příklady 8 Metriky pro určení vzdálenosti mezi 2 objekty s kvantitativními proměnnými Deterministické metriky pro určení vzdálenosti mezi 2 množinami objektů MEZI DVĚMA OBJEKTY MEZI DVĚMA SKUPINAMI OBJEKTŮ Metriky pro určení podobnosti 2 objektů s kvantitativními proměnnými Metriky pro určení podobnosti 2 objektů s kvalitativními proměnnými Metriky pro určení vzdálenosti mezi 2 objekty s kvalitativními proměnnými Metriky pro určení vzdálenosti mezi 2 množinami objektů používající jejich pravděpodobnostní charakteristiky Euklidova m., Hammingova (manhattanská) m., Minkovského m., Čebyševova m., Mahalanobisova m., Canberrská m. Skalární součin, m. kosinové podobnosti, Pearsonův korelační koeficient, Tanimotova m. Hammingova m. Metoda nejbližšího souseda, k nejbližších sousedů, nejvzdálenějšího souseda, centroidová metoda, m. průměrné vazby, Wardova metoda Chernoffova m., Bhattacharyyova m. atd. Tanimotova m., Jaccardův-Tanimotův a.k., Russelův- Raovův a.k., Sokalův-Michenerův a.k., Dicův k., Rogersův-Tanimotův k., Hamanův k. logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Metriky pro určení vzdálenosti mezi dvěma objekty 9 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Typy metrik a konkrétní příklady 10 Metriky pro určení vzdálenosti mezi 2 objekty s kvantitativními proměnnými Deterministické metriky pro určení vzdálenosti mezi 2 množinami objektů MEZI DVĚMA OBJEKTY Metriky pro určení podobnosti 2 objektů s kvantitativními proměnnými Metriky pro určení podobnosti 2 objektů s kvalitativními proměnnými Metriky pro určení vzdálenosti mezi 2 objekty s kvalitativními proměnnými Metriky pro určení vzdálenosti mezi 2 množinami objektů používající jejich pravděpodobnostní charakteristiky Euklidova m., Hammingova (manhattanská) m., Minkovského m., Čebyševova m., Mahalanobisova m., Canberrská m. Skalární součin, m. kosinové podobnosti, Pearsonův korelační koeficient, Tanimotova m. Hammingova m. Chernoffova m., Bhattacharyyova m. atd. Tanimotova m., Jaccardův-Tanimotův a.k., Russelův- Raovův a.k., Sokalův-Michenerův a.k., Dicův k., Rogersův-Tanimotův k., Hamanův k. Metoda nejbližšího souseda, k nejbližších sousedů, nejvzdálenějšího souseda, centroidová metoda, m. průměrné vazby, Wardova metoda MEZI DVĚMA SKUPINAMI OBJEKTŮ logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Nejpoužívanější metriky pro určení vzdálenosti mezi dvěma obrazy s kvantitativními proměnnými 11 •Euklidova metrika •Hammingova (manhattanská) metrika •Minkovského metrika •Čebyševova metrika •Mahalanobisova metrika •Canberrská metrika logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 12 Euklidova metrika pacienti kontroly testovací subjekt 1 2 3 4 5 6 4 5 6 7 8 9 10 11 12 13 Objem hipokampu 1 2 3 4 5 6 4 5 6 7 8 9 10 11 12 13 Objem hipokampu Odhadnete, jaký geometrický útvar budou tvořit body, které mají stejnou Euklidovu vzdálenost od testovacího subjektu? V Matlabu funkce pdist na výpočet vzdáleností logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 13 Euklidova metrika •geometrickým místem bodů s toutéž Euklidovou vzdáleností od daného bodu je povrch hyperkoule (ve dvourozměrném prostoru kružnice) •dává větší důraz na větší rozdíly mezi souřadnicemi žádoucí nebo nežádoucí? •občas se používá čtverec euklidovské vzdálenosti, protože se lépe počítá než euklidovská vzdálenost (není to ale pravá metrika vzdálenosti) logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 14 Hammingova (manhattanská) metrika Bild:Manhattan distance.svg •nižší výpočetní nároky než Euklidova metrika → použití v úlohách s vysokou výpočetní náročností logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 15 •srovnání Hammingovy (manhattanské) metriky a Euklidovy metriky Hammingova (manhattanská) metrika A B logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 16 Hammingova (manhattanská) metrika pacienti kontroly testovací subjekt 1 2 3 4 5 6 4 5 6 7 8 9 10 11 12 13 Objem hipokampu 1 2 3 4 5 6 4 5 6 7 8 9 10 11 12 13 Objem hipokampu •geometrickým místem bodů s toutéž manhattanskou vzdáleností od daného bodu je hyperkrychle (ve dvourozměrném prostoru čtverec) • logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 17 Minkovského metrika logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 18 Čebyševova metrika pacienti kontroly testovací subjekt 1 2 3 4 5 6 4 5 6 7 8 9 10 11 12 13 Objem hipokampu 1 2 3 4 5 6 4 5 6 7 8 9 10 11 12 13 Objem hipokampu logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 19 Čebyševova metrika •používá se ve výpočetně kriticky náročných případech, kdy je pracnost výpočtu pomocí Euklidovy metriky nepřijatelná •geometrickým místem bodů s toutéž Čebyševovou vzdáleností od daného bodu je hyperkrychle (ve dvourozměrném prostoru čtverec), ale jinak orientovaná než v případě Hammingovy (manhattanské) vzdálenosti • logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 20 Srovnání metrik ρC ... Čebyševova metrika ρE ... Euklidova metrika ρH ... Hammingova (manhattanská) metrika logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 21 Canberrská metrika •je vhodná pro proměnné s nezápornými hodnotami •velice citlivá na malé změny souřadnic, pokud se oba obrazy nacházejí v blízkosti počátku souřadnicové soustavy; naopak méně citlivá na změny hodnot proměnných, pokud jsou tyto hodnoty velké logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 22 •je nesmyslné vytvářet součet rozdílů veličin s různým fyzikálním rozměrem, a tudíž často s velmi rozdílným rozsahem •při začlenění korelovaných veličin se zvyšuje jejich vliv na výslednou hodnotu Nevýhody metrik •řešení: příklad s Mahalanobisovou metrikou – na papíře? logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 23 Nelineární metrika • • • •kde D je prahová hodnota a H je nějaká konstanta •obě hodnoty se zpravidla volí na základě expertní analýzy řešeného problému •ve vztahu může figurovat jakákoliv metrika vzdálenosti, nejen Euklidova metrika logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Typy metrik a konkrétní příklady 24 Metriky pro určení vzdálenosti mezi 2 objekty s kvantitativními proměnnými Deterministické metriky pro určení vzdálenosti mezi 2 množinami objektů MEZI DVĚMA OBJEKTY Metriky pro určení podobnosti 2 objektů s kvantitativními proměnnými Metriky pro určení podobnosti 2 objektů s kvalitativními proměnnými Metriky pro určení vzdálenosti mezi 2 objekty s kvalitativními proměnnými Metriky pro určení vzdálenosti mezi 2 množinami objektů používající jejich pravděpodobnostní charakteristiky Euklidova m., Hammingova (manhattanská) m., Minkovského m., Čebyševova m., Mahalanobisova m., Canberrská m. Skalární součin, m. kosinové podobnosti, Pearsonův korelační koeficient, Tanimotova m. Hammingova m. Chernoffova m., Bhattacharyyova m. atd. Tanimotova m., Jaccardův-Tanimotův a.k., Russelův- Raovův a.k., Sokalův-Michenerův a.k., Dicův k., Rogersův-Tanimotův k., Hamanův k. Metoda nejbližšího souseda, k nejbližších sousedů, nejvzdálenějšího souseda, centroidová metoda, m. průměrné vazby, Wardova metoda MEZI DVĚMA SKUPINAMI OBJEKTŮ logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Příklad 25 Předpokládejme, že množina F obsahuje symboly {0, 1, 2}, tj. k = 3 a vektory x a y jsou následující 6-prvkové vektory (tj. p = 6): x = (0, 1, 2, 1, 2, 1)T y = (1, 0, 2, 1, 0, 1)T Kontingenční matice A(x,y) je: Součet hodnot všech prvků matice A(x,y) je roven délce p obou vektorů, tj. v našem případě: Spočtěte vzdálenost obou vektorů. -např. 0 – živočišný druh se nikdy nevyskytoval; 1 – živočišný druh se občas vyskytuje; 2 – živočišný druh se vyskytuje stále (např. v lokalitě x se nikdy nevyskytoval slon, občas se tam vyskytuje žirafa, pravidelně se tam vyskytuje zebra atd.) -k je počet kategorií dané proměnné logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Hammingova metrika vzdálenosti 26 •definována počtem pozic, v nichž se oba vektory liší •tzn. je dána součtem všech prvků matice A, které leží mimo hlavní diagonálu. x = (0, 1, 2, 1, 2, 1)T y = (1, 0, 2, 1, 0, 1)T Příklad: x = (0, 1, 2, 1, 2, 1)T y = (1, 0, 2, 1, 0, 1)T x = (0, 1, 2, 1, 2, 1)T y = (1, 0, 2, 1, 0, 1)T x = (0, 1, 2, 1, 2, 1)T y = (1, 0, 2, 1, 0, 1)T dHQ(x,y) = 3 liší se ve 3 souřadnicích dHQ(x,y) = 3 3 prvky mimo diagonálu má tam opravdu být x[in] a ne x[ip] ? logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Metriky pro určení podobnosti mezi dvěma objekty 27 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Typy metrik a konkrétní příklady 28 Metriky pro určení vzdálenosti mezi 2 objekty s kvantitativními proměnnými Deterministické metriky pro určení vzdálenosti mezi 2 množinami objektů MEZI DVĚMA OBJEKTY Metriky pro určení podobnosti 2 objektů s kvantitativními proměnnými Metriky pro určení podobnosti 2 objektů s kvalitativními proměnnými Metriky pro určení vzdálenosti mezi 2 objekty s kvalitativními proměnnými Metriky pro určení vzdálenosti mezi 2 množinami objektů používající jejich pravděpodobnostní charakteristiky Euklidova m., Hammingova (manhattanská) m., Minkovského m., Čebyševova m., Mahalanobisova m., Canberrská m. Skalární součin, m. kosinové podobnosti, Pearsonův korelační koeficient, Tanimotova m. Hammingova m. Chernoffova m., Bhattacharyyova m. atd. Tanimotova m., Jaccardův-Tanimotův a.k., Russelův- Raovův a.k., Sokalův-Michenerův a.k., Dicův k., Rogersův-Tanimotův k., Hamanův k. Metoda nejbližšího souseda, k nejbližších sousedů, nejvzdálenějšího souseda, centroidová metoda, m. průměrné vazby, Wardova metoda MEZI DVĚMA SKUPINAMI OBJEKTŮ logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Skalární součin 29 Většinou pro vektory x1 a x2 o stejné délce (např. a); záleží na úhlu, který svírají: úhel 0° úhel 90° úhel 180° Sss = a2 Sss = -a2 Sss = 0 skalární součin invariantní vůči rotaci – absolutní orientace nepodstatná, důležitý pouze úhel skalární součin není invariantní vůči lineární transformaci (tzn. závisí na délce vektorů) odvození metriky vzdálenosti: -možná do budoucna zkusit spočítat skalární součin (ukázat příklad) -má suma být od 1 do n nebo spíš do p? logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Metrika kosinové podobnosti 30 kde je norma (délka) vektoru xi = skalární součin vektorů o jednotkové délce vhodná v případě, pokud je informativní pouze relativní hodnota příznaků hodnoty scos(x1, x2) jsou rovny kosinu úhlu mezi oběma vektory úhel 0° úhel 90° úhel 180° Scos = 1 Scos = -1 Scos = 0 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Pearsonův korelační koeficient 31 Metrika kosinové podobnosti Pearsonův korelační koeficient odvození metriky vzdálenosti: → hodnoty se (díky dělení dvěma) vyskytují v intervalu á0;1ñ → používá se např. při analýze dat genové exprese logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Typy metrik a konkrétní příklady 32 Metriky pro určení vzdálenosti mezi 2 objekty s kvantitativními proměnnými Deterministické metriky pro určení vzdálenosti mezi 2 množinami objektů MEZI DVĚMA OBJEKTY Metriky pro určení podobnosti 2 objektů s kvantitativními proměnnými Metriky pro určení podobnosti 2 objektů s kvalitativními proměnnými Metriky pro určení vzdálenosti mezi 2 objekty s kvalitativními proměnnými Metriky pro určení vzdálenosti mezi 2 množinami objektů používající jejich pravděpodobnostní charakteristiky Euklidova m., Hammingova (manhattanská) m., Minkovského m., Čebyševova m., Mahalanobisova m., Canberrská m. Skalární součin, m. kosinové podobnosti, Pearsonův korelační koeficient, Tanimotova m. Hammingova m. Chernoffova m., Bhattacharyyova m. atd. Tanimotova m., Jaccardův-Tanimotův a.k., Russelův- Raovův a.k., Sokalův-Michenerův a.k., Dicův k., Rogersův-Tanimotův k., Hamanův k. Metoda nejbližšího souseda, k nejbližších sousedů, nejvzdálenějšího souseda, centroidová metoda, m. průměrné vazby, Wardova metoda MEZI DVĚMA SKUPINAMI OBJEKTŮ logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Metriky pro určení podobnosti 2 objektů s kvalitativními prom. 33 1.případy obecné 2.případy s dichotomickými příznaky, pro které je definována celá řady tzv. asociačních koeficientů. (Asociační koeficienty až na výjimky nabývají hodnot z intervalu á0, 1ñ, hodnoty 1 v případě shody vektorů, 0 pro případ nepodobnosti.) logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách x = (0, 1, 2, 1, 2, 1)T y = (1, 0, 2, 1, 0, 1)T 34 Obecné metriky – Hammingova metrika podobnosti Příklad: dHQ(x,y) = 3 liší se ve 3 souřadnicích dHQ(x,y) = 3 3 prvky mimo diagonálu sHQ(x,y) = 6 – 3 = 3 sHQ(x,y) = 6 – 3 = 3 x = (0, 1, 2, 1, 2, 1)T y = (1, 0, 2, 1, 0, 1)T shoda ve 3 souřadnicích součet prvků na diagonále roven 3 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 35 Obecné metriky – Tanimotova metrika Pro výpočet Tanimotovy podobnosti dvou vektorů s kvalitativními příznaky jsou použity všechny páry složek srovnávaných vektorů, kromě těch, jejichž hodnoty jsou obě nulové. x=0 x=1 x=2 y=0 y=1 y=2 vyřazujeme dvojité nuly proto, aby se nám nestalo, že řekneme, že Antarktida a ČR jsou podobné, protože tady nežije slon, žirafa, krododýl atd. logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 36 Obecné metriky – Tanimotova metrika – příklad Určete hodnoty Tanimotových podobností sTQ(x,x), sTQ(x,y) a sTQ(x,z), když: x = (0, 1, 2, 1, 2, 1)T a y = (1, 0, 2, 1, 0, 1)T a z = (2, 0, 0, 0, 0, 2)T. Ze zadání je množina symbolů F = {0, 1, 2}, k = 3, p = 6. Kontingenční tabulky jsou: kolik bude Tanimotova podobnost s[TQ](x,x)? a jaká asi bude podobnost s[TQ](x,z)? logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 37 •definovány pomocí různých prvků kontingenční matice A(x,y) Další obecné metriky •některé z nich používají pouze počet shodných pozic v obou vektorech (ovšem s nenulovými hodnotami): •některé z nich používají i shodu s nulovými hodnotami: logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 38 Asociační koeficienty A - u obou objektů sledovaný jev nastal (obě odpovídající si proměnné mají hodnotu true, resp.1) – pozitivní shoda; B - u objektu xi jev nastal (xik = true), zatímco u objektu xj nikoliv (xjk = false, resp.0); C - u objektu xi jev nenastal (xik = false), zatímco u objektu xj ano (xjk = true); D - sledovaný jev nenastal ani u jednoho z objektů (obě odpovídající si proměnné mají hodnotu false, resp. 0) – negativní shoda. A D B C Při výpočtu podobnosti dvou objektů sledujeme, kolikrát pro všechny souřadnice obou vektorů xj a xj nastaly případy shody či neshody: • A+D určuje celkový počet shod • B+C celkový počet neshod • A+B+C+D = p (tj. celk. počet souřadnic obou vektorů – tzn. počet proměnných) tohle do budoucna upravit logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 39 Jaccardův – Tanimotův asociační koeficient což je díky zjednodušení i dichotomická varianta metriky podle vztahu: Tento vztah se dominantně používá v ekologických studiích. logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 40 Další asociační koeficienty I dichotomická varianta metriky: Russelův – Raoův asociační koeficient Sokalův – Michenerův asociační koeficient dichotomická varianta metriky: logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 41 Další asociační koeficienty II Diceův (Czekanowského) asociační koeficient V případě Jaccardova a Diceova koeficientu pokud nastane úplná negativní shoda (tzn. A = B = C =0), pak často: SJT(x,y) = SDC(x,y) = 1. Rogersův – Tanimotův asociační koeficient Hamanův asociační koeficient nabývá na rozdíl od všech dříve uvedených koeficientů hodnot z intervalu á-1, 1ñ. Hodnoty -1, pokud se příznaky pouze neshodují; hodnoty 0, když je počet shod a neshod v rovnováze; +1 v případě úplné shody všech příznaků -DC a RT zvyšují význam shod v datech - Diceův koeficient zvýšením váhy počtu pozitivních shod v čitateli i jmenovateli, v druhém případě zvýšením váhy počtu neshod ve jmenovateli -ta poznámka u Diceova koeficientu je divná, protože to by právě znamenalo, že ČR a Antarktida jsou si hodně podobné – já bych to spíš nastavila na 0 nebo na “nehodnotitelné” logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 42 Asociační koeficienty – poznámka Na základě četností A až D lze pro případ binárních příznaků vytvářet i zajímavé vztahy pro již dříve uvedené míry: Hammingova metrika Euklidova metrika Pearsonův korelační koeficient do budoucna ukázat lépe (nějaký obrázek nebo aspoň barevné odlišení) logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 43 Výpočet vzdáleností z asociačních koeficientů Z asociačních koeficientů, které vyjadřují míru podobnosti, lze jednoduše odvodit i míry nepodobnosti (vzdálenosti) pomocí: logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 44 Výpočet vzdáleností v Matlabu Funkce: •pdist (vzdálenost mezi páry objektů matice X či páry proměnných matice XT) •pdist2 (vzdálenost mezi maticemi X a Y) Výběr metrik vzdáleností u obou těchto funkcí: •‘euclidean’ – Euklidova vzdálenost •‘squaredeuclidean’ – čtverec Euklidovy vzdálenosti •‘seuclidean’ – standardizovaná Euklidova vzdálenost •‘cityblock’ – Hammingova (manhattanská) vzdálenost •‘minkowski’ – Minkovského vzdálenost •‘chebychev’ – Čebyševova vzdálenost •‘mahalanobis’ – Mahalanobisova vzdálenost •‘cosine’ – 1 mínus kosinová podobnost •‘correlation’ – 1 mínus Pearsonův korelační koeficient •‘spearman’ – 1 mínus Spearmanův korelační koeficient •‘hamming’ – Hamminova vzdálenost (pro kvalitativní proměnné) •‘jaccard’ – 1 mínus Jaccardův koeficient •lze případně nadefinovat i jinou metriku logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Metriky pro určení vzdálenosti mezi dvěma skupinami objektů 45 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Typy metrik a konkrétní příklady 46 Metriky pro určení vzdálenosti mezi 2 objekty s kvantitativními proměnnými Deterministické metriky pro určení vzdálenosti mezi 2 množinami objektů MEZI DVĚMA OBJEKTY Metriky pro určení podobnosti 2 objektů s kvantitativními proměnnými Metriky pro určení podobnosti 2 objektů s kvalitativními proměnnými Metriky pro určení vzdálenosti mezi 2 objekty s kvalitativními proměnnými Metriky pro určení vzdálenosti mezi 2 množinami objektů používající jejich pravděpodobnostní charakteristiky Euklidova m., Hammingova (manhattanská) m., Minkovského m., Čebyševova m., Mahalanobisova m., Canberrská m. Skalární součin, m. kosinové podobnosti, Pearsonův korelační koeficient, Tanimotova m. Hammingova m. Chernoffova m., Bhattacharyyova m. atd. Tanimotova m., Jaccardův-Tanimotův a.k., Russelův- Raovův a.k., Sokalův-Michenerův a.k., Dicův k., Rogersův-Tanimotův k., Hamanův k. Metoda nejbližšího souseda, k nejbližších sousedů, nejvzdálenějšího souseda, centroidová metoda, m. průměrné vazby, Wardova metoda MEZI DVĚMA SKUPINAMI OBJEKTŮ logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 47 •vzdálenost mezi skupinami dána: Vzdálenost mezi skupinami objektů •jednotlivé deterministické metriky pro určení vzdálenosti mezi dvěma množinami objektů si probereme v rámci shlukové analýzy na příští přednášce –„vzdáleností“ jednoho objektu s jedním či více objekty jedné skupiny (třídy) – použitelné při klasifikaci –„vzdáleností“ skupin (třídy, shluku) obrazů či „vzdáleností“ jednoho obrazu z každé skupiny – použitelné při shlukování logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Typy metrik a konkrétní příklady 48 Metriky pro určení vzdálenosti mezi 2 objekty s kvantitativními proměnnými Deterministické metriky pro určení vzdálenosti mezi 2 množinami objektů MEZI DVĚMA OBJEKTY Metriky pro určení podobnosti 2 objektů s kvantitativními proměnnými Metriky pro určení podobnosti 2 objektů s kvalitativními proměnnými Metriky pro určení vzdálenosti mezi 2 objekty s kvalitativními proměnnými Metriky pro určení vzdálenosti mezi 2 množinami objektů používající jejich pravděpodobnostní charakteristiky Euklidova m., Hammingova (manhattanská) m., Minkovského m., Čebyševova m., Mahalanobisova m., Canberrská m. Skalární součin, m. kosinové podobnosti, Pearsonův korelační koeficient, Tanimotova m. Hammingova m. Chernoffova m., Bhattacharyyova m. atd. Tanimotova m., Jaccardův-Tanimotův a.k., Russelův- Raovův a.k., Sokalův-Michenerův a.k., Dicův k., Rogersův-Tanimotův k., Hamanův k. Metoda nejbližšího souseda, k nejbližších sousedů, nejvzdálenějšího souseda, centroidová metoda, m. průměrné vazby, Wardova metoda MEZI DVĚMA SKUPINAMI OBJEKTŮ logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Metriky založené na pstních charakteristikách 49 Základní myšlenkou je využití pravděpodobnosti způsobené chyby při klasifikaci (tzn. zařazení objektu do skupiny). Čím více se hustoty pravděpodobnosti výskytu obrazů x v jednotlivých množinách překrývají, tím je větší pravděpodobnost chyby. Tzn. tyto metriky splňují následující vlastnosti: 3. J nabývá maxima, pokud jsou obě množiny disjunktní, tj. když 1. J = 0, pokud jsou hustoty pravděpodobnosti obou množin identické, tj. když p(x|w1) = p(x|w2) 2. J > 0 x1 f(x1) x1 x2 x1 f(x1) x1 f(x1) x1 x2 x1 x2 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Asociační matice 50 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách objekt 1 objekt 2 objekt 3 objekt 4 objekt 5 objekt 6 Asociační matice – Q mode analýza 51 Hodnoty proměnných pro jednotlivé objekty NxP MATICE ASOCIAČNÍ MATICE Výpočet metriky podobností/ vzdáleností Vzdálenost, podobnost, korelace, kovariance mezi objekty objekt 1 objekt 2 objekt 3 objekt 4 objekt 5 objekt 6 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Asociační matice – R mode analýza 52 Hodnoty proměnných pro jednotlivé objekty NxP MATICE ASOCIAČNÍ MATICE Výpočet metriky podobností/ vzdáleností proměnná 1 proměnná 2 proměnná 3 Vzdálenost, podobnost, korelace, kovariance mezi proměnnými objekt 1 objekt 2 objekt 3 objekt 4 objekt 5 objekt 6 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Asociační matice – ukázka 53 evropa.jpg Vzdálenost měst v mapě není ničím jiným než maticí vzdálenosti v 2D prostoru logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Asociační matice – shrnutí •Typická asociační matice je čtvercová matice •Typická asociační matice je symetrická kolem diagonály –Ve speciálních případech existují i asymetrické asociační matice 54 •Diagonála obsahuje: –0 (v případě vzdáleností) –identitu objektu se sebou samým (v případě podobnosti, obvykle 1 nebo 100%) •Asociační matice může být spočtena mezi objekty (Q mode analýza) nebo mezi proměnnými (R mode analýza) •Asociační matice mohou být jak vstupem do vícerozměrných analýz, tak vstupem pro klasické jednorozměrné statistické výpočty, kdy základní jednotkou není jeden objekt, ale podobnost/vzdálenost dvojice objektů logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Poděkování Příprava výukových materiálů předmětu „DSAN02 Pokročilé metody analýzy dat v neurovědách“ byla finančně podporována prostředky projektu FRMU č. MUNI/FR/0260/2014 „Pokročilé metody analýzy dat v neurovědách jako nový předmět na LF MU“ 55