Pokročilé metody analýzy dat v neurovědách IBA # RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2016 Blok 7 Klasifikace dat I Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^jjj- I^J 2 Osnova i- 1. Úvod do klasifikace dat 2. Klasifikace pomocí diskriminačních funkcí: lineární diskriminační funkce Bayesův klasifikátor 3. Klasifikace pomocí minimální vzdálenosti 4. Klasifikace pomocí hranic: Fisherova lineární diskriminační analýza Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách l^JJ Úvod do klasifikace dat Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^jjj- I^J 4 Schéma analýzy a klasifikace dat Předzpracování I _____________i Redukce I _______i Klasifikace Ukázka - kognitivní data apod. A B C E 1 id vek pohlaví výska vaha 2 l 33 Z 164 45 3 2 35 M 90 4 3 26 Z 173 70 A B C D j E 1 id vek pohlaví výska vaha 2 l 33 Z 164 45 2 36 M 167 90 4 3 26 Z 173 70 I A B C E 1 id vek pohlaví výska vaha 2 1 33 Z 164 45 2 35 M 167 90 4 3 26 F 17S 70 L__________ __________________I nebo Ukázka - obrazová data Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 5 Proč používat klasifikaci dat? 1. Podpora diagnostiky onemocnění mozku (Alzheimerova choroba, schizofrenie atd.): Zdravé subjekty Pacienti Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^jjj- I^J 6 Proč používat klasifikaci dat? 2. Odhalení genetického onemocnění na základě dat s microarray experimentů: Zdravé subjekty Pacienti Nový subjekt DUO I Ú 1» J O li ) jim i * o i> > j a o 4 j a a» d « • u • I ii)< i> • -i 1» J o > • « to J j 0ilO J J 4 . ■t ú O J J J i> ■J I) ■■ i • 4 a(jv a i> « a i * 06 I O J » j J J d t { j * i) J i> l it, ( II J4J4tftfl)0ltl O ■> O ' Dil i> c " d • J u O J I l> O 1 d i> 0 l o a o B • * * i 4 J ■» • • Jtf 1 J JttC Pacient? x Zdravý? Janoušová, Dušek: Pokročilé metody analýzy dat v neurovédách IBA W i Proč používat klasifikaci dat? 3. Zjištění demence a dalších onemocnění na základě kognitivních testů ^1« B j_0 5__, 0 , o \ i Demence ano? x Demence ne? Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Proč používat klasifikaci dat? 4. Rozpoznání hmyzu: Nejedovaté housenky Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^jjj- I^J 9 Proč používat klasifikaci dat? 5. Rozpoznání vadných výrobků: Matičky bez vady Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^jjj- I^J 10 Proč používat klasifikaci dat? 6. Rozpoznání tváře při vstupu do zabezpečené budovy: Nemá přístup do budovy Má přístup do budovy Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^jjj- I^J 11 Cíle klasifikace dat - shrnutí • rozhodnutí o typu či charakteru objektu - např. že daný člověk může vstoupit do budovy či nikoliv, že zvíře je medvěd hnědý nebo medvěd lední a pod. - klasifikační, resp. rozpoznávací úloha; • posouzení kvality stavu analyzovaného objektu - např. zda je pacient v pořádku, nebo má infarkt myokardu, cirhózu jater, apod. - opět klasifikační, resp. rozpoznávací úloha; • rozhodnutí o budoucnosti objektu - např. zda lze pacienta léčit a vyléčit, zda les po 20 letech odumře, jaké bude sociální složení obyvatelstva na danémúzemíavdanémčase- klasifikační, resp. predikční úloha • poznámka: v některých oblastech se pojem predikce a klasifikace rozlišuje: - pojem klasifikace je používán, použije-li se klasifikačního algoritmu pro známá data; pokud jsou data nová, pro která apriori neznáme klasifikační třídu, pak hovoříme o predikci klasifikační třídy - pojem klasifikace používáme, pokud vybíráme identifikátor klasifikační třídy z určitého diskrétního konečného počtu možných identifikátorů; pokud určujeme (predikujeme) spojitou hodnotu, např. pomocí regrese, pak hovoříme o predikci, i když tento pojem nemá časovou dimenzi mu Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ ^! 12 Klasifikace versus diskriminační analýza • klasifikace - rozdělení (konkrétní či teoretické) dané skupiny (množiny) objektů na konečný počet dílčích skupin (podmnožin), v nichž všechny objekty mají dostatečně podobné společné vlastnosti. Předměty (jevy), které mají podobné uvažované vlastnosti tvoří třídu (skupinu). • diskriminační analýza - hledá vztah mezi kategoriální proměnnou a množinou vzájemně vázaných proměnných; je to podskupina klasifikačních metod • poznámka: analýza a klasifikace dat občas nazývána souhrnně jako: - „rozpoznávání obrazů'' (pattern recognition) - obraz nejen ve smyslu obraz mozku či obraz sítnice oka, ale ve smyslu popis (tzn. „obraz") reálného objektu - „dolování z dat" (data mining) - „strojové učení" (mach i ne learning) Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^jjj- I^J 13 Lineární separabilita a) b) c) O o 0 0 x. O O v • o o o 0 / o • °/ x. Xn O « ° O 0/ o o /• 1 O ' • x, lineárně separabilní úloha lineárně neseparabilní úloha lineárně separované klasifikační třídy nelineárně separabilní úloha Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 14 Lineárně neseparabilní třídy - způsoby řešení 1. zachováme původní obrazový prostor a zvolíme nelineární hranici: a) definovanou obecně • o o o o b) složenou po částech z lineárních úseků • •o o o o o y o JO O O/ o/ 2. zobrazíme původní p-rozměrný obrazový prostor nelineární transformací do nového m-rozměrného prostoru tak, aby v novém prostoru byly klasifikační třídy lineárně separabilní o o o o o o o Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 15 Klasifikace s více třídami 1. klasifikace Jedna versus zbytek" R-l hranice oddělí jednu klasifikační třídu od všech dalších 2. klasifikace Jedna versus jedna" R(R-l)/2 binárních hranic mezi každými dvěma třídami • problematickým úsekům se můžeme vyhnout použitím diskriminačních funkcí (do r-té třídy cor zařadíme obraz x za předpokladu, že gr(x) > gs(x) pro Vr^s)^ klasifikační hranice je průmět průsečíku gr(x) = gs(x) do obrazového prostoru -takto definovaný klasifikační prostor je vždy spojitý a konvexní Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ ^! 16 Typy klasifikátorů - podle reprezentace vstupních dat t- 1. Podle reprezentace vstupních dat: - příznakové klasifikátory: paralelní x sekvenční - strukturální (syntaktické) klasifikátory - kombinované klasifikátory 2. Podle jednoznačnosti zařazení do skupin: - deterministické klasifikátory - pravděpodobnostní klasifikátory 3. Podle typů klasifikačních a učících algoritmů: - parametrické klasifikátory - neparametrické klasifikátory 4. Podle způsobu učení: - učení s učitelem: dokonalým x nedokonalým - učení bez učitele 5. Podle principu klasifikace: - klasifikace pomocí diskriminačních funkcí - klasifikace pomocí vzdálenosti od etalonů klasifikačních tříd - klasifikace pomocí hranic v obrazovém prostoru mu Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ ^! ^ Typy klasifikátorů - podle reprezentace vstupních dat • příznakové - vstupní data vyjádřena vektorem hodnot jednotlivých proměnných (příznaků): - paralelní - zpracování vektoru jako celku (např. Bayesův klasifikátor) - sekvenční - zpracování (občas i měření) proměnných postupně (např. klasifikační stromy) Á A B C D E 1 id vek pohlaví vy^ka vaha 2 1 38 Z 164 45 3 2 35 M 157 90 4 3 26 Z 17S 70 • strukturální (syntaktické) - vstupní data popsána relačními strukturami • kombinované-jednotlivá primitiva doplněna příznakovým popisem mu Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ ^! 18 Typy klasifikátorů - dle jednoznačnosti zařazení do skupin * deterministické klasifikátory: - každý objekt musí patřit do nějaké třídy a nemůže být současně ve více třídách - pozn. použití termínu „deterministický klasifikátor" v případě, že klasifikátor daná data zpracuje vždy se stejným výsledkem (např. Bayesův klasifikátor) x „nedeterministický klasifikátor", který může při opakovaném zpracování daných dat klasifikovat různě (např. neuronové sítě - záleží na tom, jaká bude inicializace) * pravděpodobnostní klasifikátory: - stanoví pravděpodobnost zařazení obrazů do daných klasifikačních tříd - např. člověk má s pravděpodobností 0,6 infarkt, s pstí 0,3 má atrofii srdeční komory a s pstí 0,1 je zdravý Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^jjj- I^J 19 Typy klasifikátorů - dle typů klasifikačních a učících algoritmů * parametrické klasifikátory: - potřeba nastavit či určit parametry - např. prahová klasifikace (potřeba stanovit práh), metoda podpůrných vektorů (potřeba stanovit parametr „C") atd. * neparametrické klasifikátory: - není potřeba nastavovat žádné parametry - např. klasifikace podle vzdáleností od reprezentativního objektu (tzv. „etalonu") skupin * pozn. z tohoto pohledu jsou klasifikační stromy parametrické klasifikátory, pokud to však hodnotíme ze statistického pohledu, jsou to neparametrické metody, protože nemají předpoklad normálního rozdělení mu Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ ^! 20 Typy klasifikátorů - podle způsobu učení • učení s učitelem - k dispozici trénovací množina, u níž známe zařazení každého objektu do jednotlivých klasifikačních tříd - učení s dokonalým učitelem - učitel se nemůže splést (tzn. předpokládáme, že všechny trénovací objekty jsou správně označené, že patří do dané třídy) - učení s nedokonalým učitelem - připouštíme, že v trénovací množině mohou být nesprávně označené subjekty (např. u některých duševních onemocnění se lékař může splést a označit pacienta za schizofrenika, i když trpí bipolární poruchou, což se však prokáže až za několik let, takže v naší trénovací množině je takto špatně zařazený subjekt) * učení bez učitele: - trénovací množina není k dispozici a často ani předem neznáme, jaké třídy (skupiny) se v datech budou vyskytovat - typickým příkladem je shlukování mu Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ ^! 21 Typy klasifikátorů - podle principu klasifikace klasifikace pomocí diskriminačních funkcí: - diskriminační funkce určují míru příslušnosti k dané klasifikační třídě - pro danou třídu má daná diskriminační funkce nejvyšší hodnotu O ° o klasifikace pomocí min. vzdálenosti od etalonů klasif. tříd: - etalon = reprezentativní objekt(y) klasifikační třídy - počet etalonů klasif. třídy různý - od jednoho vzorku (např. centroidu) po úplný výčet všech objektů dané třídy (např. u klasif. pomocí metody průměrné vazby) 0 °^tr^OA o o\A A A\AA A A A A x, klasifikace pomocí hranic v obrazovém prostoru: - stanovení hranic (hraničních ploch) oddělujících klasifikační třídy Xn o 0 O O 0+ o m o,' o o/* / A A>A A A A A x. Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 22 Klasifikace pomocí iskriminačních funkcí Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Klasifikace pomocí diskriminačních funkcí )- • diskriminační funkce g,(x) - vyjadřují míru příslušnosti objektu x do jednotlivých klasifikačních tříd • zařadíme x do takové třídy co,, pro kterou je gj(x) maximální • matematicky: pro objekt x z třídy cor platí, že gr(x) > gs(x) pro s =1,2,...,R a r * s • pro klasifikaci do dvou tříd lze rozhodovací pravidlo klasifikátoru zapsat jako: o)it = d(x) = sign(g1(x)-g2(x)) • pokud d(x) > 0 -> zařazení x do třídy uj1 • pokud d(x) < 0 -> zařazení x do třídy co2 mu Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ ^! 24 Souvislost klasifikace pomocí diskriminačních funkcí s klasifikací pomocí hranic_ Hranice mezi dvěma sousedními třídami uj1 a co2 je určena průmětem průsečíku funkcí gr(x) a gs(x), definovaného rovnicí gr(x) = gs(x), do obrazového prostoru. Příklady diskriminačních funkcí • nejjednodušším tvarem diskriminační funkce je lineární funkce: gr(x) = ar0 + ar1x1 + ar2X2+...+ arpxp • diskriminační funkce na základě statistických vlastností množiny objektů: gr(x) = P(a)r|x) kde P(cor | x) je pravděpodobnost zatřídění x do třídy cor -> Bayesův klasifikátor mu Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ ^! 26 Bayesův klasifikátor diskriminační funkce určeny na základě statistických vlastností množiny obrazů vyjdeme z Bayesova vzorce: P(a)k\x) =-——, kde ■ P(úůk\x) je aposteriorní podmíněná pravděpodobnost zatřídění obrazu x do třídy a)k ■ p(x\úúk) je podmíněná hustota pravděpodobnosti výskytu obrazu x ve třídě úůkf k = 1,2 ■ P(cůk) je apriorní pravděpodobnost třídy a)k ■ p(x) je celková hustota pravděpodobnosti rozložení obrazu x v celém obrazovém prostoru Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ij^Jj 27 Bayesův klasifikátor - kritéria Kritérium maximální aposteriorní pravděpodobnosti Kritérium minimální střední ztráty kritérií existuje více, ale tyto dvě jsou základní a ostatní z nich lze zpravidla odvodit - např.: - kritérium minimální pravděpodobnosti chybného rozhodnutí - kritérium maximální pravděpodobnosti Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ij^Jj 28 Bayesův kl. - kritérium maximální aposteriorní psti \- • zatřídění obrazu x do třídy s větší aposteriorní pravděpodobností, tedy: když p((jů1 |x) > p(ců2 |x) -> zařazení x do třídy když p((ď1 |x) < p(ců2 |x) -> zařazení x do třídy co2 0,12 r Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA ^ ^ Bayesův kl. - kritérium maximální aposteriorní psti Příklad: Bylo provedeno měření objemu hipokampu a mozkových komor "2 12" "5 7" (v cm3) u 3 pacientů se schizofrenií a 3 kontrol: XD = 4 10 3 9 .3 8. .4 5. Určete, zda testovací subjekt x = [3,5 9] patří do skupiny pacientů či kontrolních subjektů pomocí Bayesova klasifikátoru. 13 £ 12 • • pacienti | 11 • kontroly ^10 • • testovací subjekt #9 • • o | 8 • o 6 05 • 4 . 2 3 4 5 6 Objem hipokampu mu Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ ^! 30 Bayesův kl. - kritérium maximální aposteriorní psti Příklad: Bylo provedeno měření objemu hipokampu a mozkových komor "2 12" "5 7" (v cm3) u 3 pacientů se schizofrenií a 3 kontrol: XD = 4 10 3 9 .3 8. .4 5. Určete, zda testovací subjekt x = [3,5 9] patří do skupiny pacientů či kontrolních subjektů pomocí Bayesova klasifikátoru. Označeni a pomocne výpočty: nD = 3; nH = 3; n = 6 P(o)fc|x) = p(x\a)k) • P(ú)k) p(x) Apriorní psti: ± = 0,5 o f = 0,5 o Podmíněné hustoty psti: p(x|ů)k)=imm'exp (_ 2(x -R)T s*1(x -x)) Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 31 Bayesův kl. - kritérium maximální aposteriorní psti Příklad: 1. Klasifikace podle objemu mozkových komor: o E o _^ u > o _^ M O E E o _^ M O E E cd IZľ O = 0,593 = 0,407 13 12 11 10 9 8 7 6 5 4 2 3 4 5 Objem hipokampu pacienti kontroly testovací subjekt -> subjekt zařazen do třídy pacientů Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 32 Bayesův kl. - kritérium maximální aposteriorní psti Příklad: 2. Klasifikace podle objemu hipokampu: P(^|Xl) = ^ = 0,5 PC««l*1) = 2fg£ = 0.5 -> nelze jednoznačně určit, kam subjekt zařadíme o E o u > O M O E E OJ Iq o 13 12 11 10 9 8 7 6 5 4 2 3 4 5 Objem hipokampu 2 3 4 5 Objem hipokampu pacienti kontroly testovací subjekt Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 33 Bayesův kl. - kritérium maximální aposteriorní psti Příklad - klasifikace podle obou proměnných: o E S o u >^ o oo _^ M O E <° _q O pacienti kontroly testovací subjekt T T T T T 2 3 4 5 Objem hipokampu 0.05 ^ P(0)d\x) P(coH\x) 0,078-0,5 0,067 0,056-0,5 0,067 = 0,582 = 0,418 -> subjekt zařazen do třídy pacientů Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 34 Bayesův kl. - kritérium minimální střední ztráty • pokud rozepíšeme P^x) = p(x|^(2|x) = p(x|^(fa)2) , pak kritérium maximální aposteriorní pravděpodobnosti: když P(cú1\x) > P(a)2|x) ~> zařazení x do třídy když P(cú1\x) < P(a)2|x) ~> zařazení x do třídy uj2 1 můžeme přepsat jako: když p(x\cú1) ■ P(&>i) > p(x|o)2) " ^(^2)^ zařazení x do třídy (jô1 když pCxlo^) ■ P(a)1)< p(x|a)2) " ^(^2)^ zařazení x do třídy uj2 1 přičemž p(x) můžeme vypustit, protože je v obou zlomcích stejné • pokud chceme do výpočtů zahrnout ztrátu při chybné klasifikaci obrazu ze třídy úůs do třídy úůr (ztráta definována pomocí ztrátové funkce a(a)r |a)5)), dostáváme: když pCxláJi) ■ P{od^) ■ (A(á)2|ít)i) - X^od^od^)) > p(x\ú)2) ■ ^(^2) " (^(^íl^z) ~~ ^(^2^2)) ~> za^- x do když pCxláJi) ■ PO^) ■ (A(á)2|ít)i) - ACáJilčOi)) < p(x|čo2) ■ P(o)2) ■ (ACčo-Jč^) - ^Co^l^)) ~> za^- x do w2 mu Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 1^1 35 Bayesův kl. - kritérium minimální střední ztráty ztrátové funkce A(cůr\cůs) se obvykle zapisují do matice ztrátových funkcí: ^((DrCO^ ^(corco2) ^(co1 C0R) ^(co2 coR) MtoRtoR) prvky na diagonále A^cď^cď^) bývají zpravidla nulové, protože při správném zařazení objektu ze třídy cď1 do třídy cď1 nevzniká žádná ztráta např. A = [íj q] ~> víc penalizuji, když je pacient nesprávně zařazen do třídy kontrolních subjektů ((i)2), než když je kontrolní subjekt nesprávně zařazen do třídy pacientů (a)^ např. A = ^ jj] -> víc penalizuji, když je kontrolní subjekt nesprávně zařazen do třídy pacientů (&>i), než když je pacient nesprávně zařazen do třídy kontrolních SUbjektU (^2) Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^j^- ij^jj 36 Bayesův klasifikátor- poznámka kromě nastavování ztrát je možné nastavovat i apriorní pravděpodobnosti Apriorní pravděpodobnosti stejné m Apriorní pravděpodobnosti různé E -o -10 -5 0 5 10 15 20 25 -10 -5 0 5 10 15 20 25 -> zařazení objektu do červené třídy -> zařazení objektu do černé třídy mu Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BA ^! 37 asifikace pomocí minimální vzdálenosti Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Typy klasifikátorů - podle principu klasifikace klasifikace pomocí diskriminačních funkcí: - diskriminační funkce určují míru příslušnosti k dané klasifikační třídě - pro danou třídu má daná diskriminační funkce nejvyšší hodnotu O ° o O O-K klasifikace pomocí min. vzdálenosti od etalonů klasif. tříd: - etalon = reprezentativní objekt(y) klasifikační třídy - počet etalonů klasif. třídy různý - od jednoho vzorku (např. centroidu) po úplný výčet všech objektů dané třídy (např. u klasif. pomocí metody průměrné vazby) tr-*o v A A A A o o \A x, klasifikace pomocí hranic v obrazovém prostoru: - stanovení hranic (hraničních ploch) oddělujících klasifikační třídy Xn o 0 o, ,< o o/A /AAfA A A A A x. Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 39 Klasifikace pomocí minimální vzdálenosti x- o 0 o O 0+ o o o *°A A At.A A A A A A • nutno zvolit metriku vzdálenosti či podobnosti: 1. mezi jednotlivými objekty 2. mezi množinami objektů mu ,„..*, ř Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IfcJ) 40 Typy metrik a konkrétní příklady - opakování MEZI DVĚMA OBJEKTY Metriky pro určení vzdálenosti mezi 2 objekty s kvantitativními proměnnými Euklidova m., Hammingova (manhattanská) m., Minkovského m., Čebyševova m., Mahalanobisova m., Canberrská m. Metriky pro určení podobnosti 2 objektů s kvantitativními proměnnými Skalární součin, m. kosinové podobnosti, Pearsonův korelační koeficient, Tanimotova m. Metriky pro určení vzdálenosti mezi 2 objekty s kvalitativními proměnnými Hammingova m. MEZI DVĚMA MNOŽINAMI OBJEKTU Deterministické metriky pro určení vzdálenosti mezi 2 množinami objektů Metoda nejbližšího souseda, k nejbližších sousedů, nejvzdálenějšího souseda, průměrné vazby, Wardova metoda Metriky pro určení vzdálenosti mezi 2 množinami objektů používající jejich pravděpodobnostní charakteristiky Chernoffova m., Bhattacharyyova m. atd. Metriky pro určení podobnosti 2 objektů s kvalitativními proměnnými Tanimotova m., Jaccardův-Tanimotův a.k., Russelův- Raovův a.k., Sokalův-Michenerův a.k., Dicův k., Rogersův-Tanimotův k., Hamanův k. «, Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA ^ 41 Euklidova, Hammingova (manhattanská), Cebyševova metrika - opakování o u > O M O cu Iq O 13 12 11 10 Euklidova metrika 2 3 4 5 6 Objem hipokampu Hammingova (manhattanská) metrika o u > O M O cu Iq O 13 h 12 11 - 10 9 - 8 - <3> 2 3 4 5 6 Objem hipokampu o u > O M O CU Iq O Cebyševova metrika 13 12 11 10 pacienti kontroly testovací subjekt 2 3 4 5 6 Objem hipokampu • zobecnění těchto 3 metrik: Minkovského metrika • začleněním inverze kovarianční matice získáváme Mahalanobisovu metriku mu Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ ^! 42 Nejpoužívanější metriky pro určení vzdálenosti mezi dvěma množinami obrazů - opakování • Metoda nejbližšího souseda • Metoda k nejbližších sousedů • Metoda nejvzdálenějšího souseda - obtížně použitelná pro klasifikaci • Centroidová metoda • Metoda průměrné vazby • Wardova metoda - zřídka používaná pro klasifikaci • poznámka: podobnost (resp. vzdálenost) mezi třídami dána: - „podobností" jednoho obrazu s jedním či více obrazy jedné třídy (skupin, shluků) - použitelné při klasifikaci - „podobností" skupin obrazů či „podobností" jednoho obrazu z každé skupiny -použitelné při shlukování mu Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BA~ ^! 43 Metoda nejbližšího souseda je-li d libovolná míra nepodobnosti (vzdálenosti) dvou objektů a^a cůj jsou libovolné skupiny objektů, potom metoda nejbližšího souseda definuje mezi skupinami cúi a cúj vzdálenost Dm(a>i,ú)j) = mmd(xp,xq) -.ca, J A A A □ pacienti A kontroly O testovací subjekt □ □ -> testovací subjekt zařadíme do třídy, ze které je jeho nejbližší soused 1-xi • výhody a nevýhody použití této metody pro klasifikaci: + žádné předpoklady o rozložení - citlivé na odlehlé hodnoty - zpravidla nevhodné při nevyvážených počtech objektů ve skupinách mu Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ ^! 44 Metoda k nejbližších sousedů zobecněním metody nebližšího souseda definována vztahem DNNk{coi,coj) = min]Td(xp,xq% tzn. vzdálenost dvou x„eco j shluků je definována součtem nejkratších vzdáleností mezi objekty obou skupin A A A □ pacienti A kontroly O testovací subjekt -> testovací subjekt zařadíme do třídy, která převažuje mezi jeho k nejbližšími sousedy I- x1 • výhody a nevýhody použití této metody pro klasifikaci: + žádné předpoklady o rozložení + méně citlivé na odlehlé hodnoty - zpravidla nevhodné při nevyvážených počtech objektů ve skupinách l jyj 45 Centroidová metoda • vychází z výpočtu centroidů pro jednotlivé třídy o); a cúj • při klasifikaci: zařazení subjektu do třídy s nejbližším centroidem □ pacienti A kontroly O testovací subjekt + centroid pacientů + centroid kontrol • výhody a nevýhody použití této metody pro klasifikaci: + žádné předpoklady o rozložení méně citlivé na odlehlé hodnoty než metoda nejbližšího souseda + nebývá problém při nevyvážených počtech objektů ve skupinách mu Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ ^! 46 Metoda průměrné vazby vzdálenost dvou tříd je průměrná vzdálenost mezi všemi obrazy těchto tříd při klasifikaci: zařazení subjektu do skupiny s nejmenší průměrnou vzdálenosti od všech obrazů dané skupiny x- □ pacienti A kontroly O testovací subjekt výhody a nevýhody použití této metody pro klasifikaci: + žádné předpoklady o rozložení méně citlivé na odlehlé hodnoty než metoda nejbližšího souseda + nebývá problém při nevyvážených počtech objektů ve skupinách - časově náročnější než centroidová metoda při větším počtu objektů IBA W 47 asifikace pomocí hranic Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA ^ 48 Typy klasifikátorů - podle principu klasifikace klasifikace pomocí diskriminačních funkcí: - diskriminační funkce určují míru příslušnosti k dané klasifikační třídě - pro danou třídu má daná diskriminační funkce nejvyšší hodnotu klasifikace pomocí min. vzdálenosti od etalonů klasif. tříd: - etalon = reprezentativní objekt(y) klasifikační třídy - počet etalonů klasif. třídy různý - od jednoho vzorku (např. centroidu) po úplný výčet všech objektů dané třídy (např. u klasif. pomocí metody průměrné vazby) o o \A A A A x, klasifikace pomocí hranic v obrazovém prostoru: - stanovení hranic (hraničních ploch) oddělujících klasifikační třídy Xn o 0 o, ,< 0 °*o • <>,;' o o/A /A AfA A /A A A x. Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 49 Motivace 2-rozmerný prostor 3-rozmerný prostor x2A O ° O 0 0+0 O / O 0/A /A A A A A x. X, Hranice je nadplocha o rozměru o jedna menší než je rozměr prostoru • ve 2-rozměrném prostoru je hranicí křivka (v lineárním případě přímka) • v 3-rozměrném prostoru plocha (v lineárním případě rovina) Hranice je tedy dána rovnicí: h(x) = wTx + w0 = 0 Výpočet hranice různými metodami (např. Fisherova LDA, SVM, perceptron, metoda nejmenších čtverců apod.) Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BA ^! 50 Souvislost klasifikace pomocí diskriminačních funkcí s klasifikací pomocí hranic Hranice mezi dvěma sousedními třídami co1 a co2 je určena průmětem průsečíku funkcí gr(x) a gs(x), definovaného rovnicí gr(x) = gs(x), do obrazového prostoru, tzn. h(x) = g^x) -g2(x) = 0 g(x) Souvislost klasifikace podle minimální vzdálenosti s klasifikací pomocí hranic gf(*> PKjSseéic tůu^ccovyot ploch • body se stejnou vzdáleností od etalonů leží na kuželových plochách, které se protínají v parabole, jejíž průmět do obrazové roviny je přímka • tato hraniční přímka mezi klasifikačními třídami je vždy kolmá na spojnici obou etalonů a tuto spojnici půlí mu Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách iJMJJj 52 Souvislost jednotlivých principů klasifikace - shrnutí Hranice mezi klasifikačními třídami jsou dány průmětem diskriminačních funkcí do obrazového prostoru. Klasifikace podle minimální vzdálenosti definuje hranici, která je kolmá na spojnici etalonů klasifikačních tříd a půlí ji. Princip klasifikace dle minimální vzdálenosti vede buď přímo, nebo prostřednictvím využití metrik podobnosti k definici diskriminačních funkcí a ty dle prvního ze zde uvedených pravidel k určení hranic mezi klasifikačními třídami. Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ij^Jj 53 Fisherova lineární diskriminace jiný název: Fisherova lineární diskriminační analýza (FLDA) použití pro lineární klasifikaci princip: transformace do jednorozměrného prostoru tak, aby se třídy od sebe maximálně oddělily O pacienti A kontroly + centroid pacientů + centroid kontrol x1 O O Qfr OGft /^SM4 A—A- projekce 1 předpoklad: vícerozměrné normální rozdělení u jednotlivých skupin mu Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ ^! 54 Fisherova lineární diskriminace - princip O pacienti A kontroly + centroid pacientů + centroid kontrol x1 O O (OSE cx&z^a&fr A-A- projekce 1 podstatou FLDAtedy projekce do 1-D prostoru tak, že chceme: maximalizovat vzdálenost skupin minimalizovat variabilitu uvnitř skupin • Fisherovo diskriminační kritérium je tedy ve tvaru: J(w) = 4 + 4 kde a s# jsou rozptyly uvnitř třídy pacientů resp. kontrol po projekci do 1-D prostoru a Y d a Y h Jsou projekce centroidu třídy pacientů resp. kontrol mu Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ ^! 55 Fisherovo diskriminační kritérium - úpravy, výpočet fv —v ^2 * Fisherovo diskriminační kritérium: J(w) = 2 2 sD+sH * Fisher. diskr. kritérium lze rovněž vyjádřit jako: J(w) = ®D~YH? = w SgW . kde: yj J JV J Sd+sh wtSww' - SB je suma čtverců variability mezi skupinami - Sw je suma čtverců variability uvnitř skupin - w je váhový vektor udávající směr 1-D prostoru, do něhož promítáme z čehož po úpravách vypočteme váhový vektor w jako: w-S^Cxd -xh) hranice je pak dána: wrx — ý = 0, kde ý je průmět hraničního bodu v 1-D prostoru a lze ho vypočítat jako: ý = Yd^Yh pokud chceme zařadit nový subjekt x0 do jedné z daných tříd, jeho průmět do 1-D prostoru (y0 = wTx0) srovnáme s průmětem hraničního bodu ý: > Pokud y0 < ý (přičemž yH < y), subjekt zařadíme do skupiny kontrolních subjektů > Pokud y0 > ý (přičemž yH < y), subjekt zařadíme do skupiny pacientů Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ij^Jj 56 Souvislost lineární diskriminační analýzy s logistickou regresí stejně jako lineární diskriminační analýzu lze i logistickou regresi použít pro zařazení objektů/subjektů do hodnocených skupin hlavním cílem logistické regrese je ale identifikace vztahů mezi spojitými či binárními prediktory a binárním endpointem (výskyt onemocnění, úmrtí, komplikace atd.) a jejich popis pomocí poměru šancí (odds ratio) logistická regrese patří do skupiny zobecněných lineárních modelů výstupy logistické regrese: Model Summary Step -2 Log likelihood Cox&Snell R Square Nagelkerke R Square 1 64.211 a ,525 ,700 Hosmer and Lemeshow Test Step Chi-square df Sig. 1 6,332 8 ,555 a. Estimation terminated at iteration number 7 because parameter estimates changed by less than .001. Classification Table3 Predicted VERSICOL Observed ,00000000 1,00000000 Percentage Correct Step 1 VERSICOL ,00000000 45 5 90,0 1,00000000 6 44 33,0 Overall Percentage 39,0 a. The cut value is .500 Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 57 Poděkování Příprava výukových materiálů předmětu „DSAN02 Pokročilé metody analýzy dat v neurovědách" byla finančně podporována prostředky projektu FRMU č. MUNI/FR/0260/2014 „Pokročilé metody analýzy dat v neurovědách jako nový předmět na LF MU" Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^jjj- I^J 58