Pokročilé metody analýzy v neurovědách IBA # RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2015 Blok 7 Klasifikace dat I Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Osnova i- 1. Úvod do klasifikace dat 2. Klasifikace pomocí diskriminačních funkcí: lineární diskriminační funkce Bayesův klasifikátor 3. Klasifikace pomocí minimální vzdálenosti 4. Klasifikace pomocí hranic: Fisherova lineární diskriminační analýza Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ij^J Úvod do klasifikace dat Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Schéma analýzy a klasifikace dat Data ___________________,____________________i I Předzpracování ___________________,____________________i I Redukce I Klasifikace Ukázka - kognitivní data apod. A B C D E i id vek pohlaví výska vaha 2 1 38 Z 164 45 3 2 36 M 90 4 3 26 Z 178 70 A 1 B 1 c E 1 id vek pohlaví výska vaha 2 ~l1 3S Z 164 45 3 36 M 167 90 4 26 Z 178 70 A A B C D E 1 id vek pohlaví výska vaha 2 1 3S Z 164 45 3 2 36 M 167 90 4 3 26 Z 17S 70 nebo Ukážka - obrazová data mu Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ll^li 5 Proč používat klasifikaci dat? 1. Podpora diagnostiky onemocnění mozku (Alzheimerova choroba, schizofrenie atd.): Proč používat klasifikaci dat? 2. Odhalení genetického onemocnění na základě dat s microarray experimentů: Zdravé subjekty Pacienti d j a * d ,) j .d d ^ w • t o • j o .> - u « , u a a j 04 • 4 k d • J ■ d otvírá d a c a * d • 0 d d 1 d d 1 j 04 * t . * o d j * C • i* u j » 4 J í d • 0 4-} d d d j d *4s>dJtí44d a j o j d j - d j Od C a j d • d / > ■ o 0 j j e o •j j a d 'j ' i > i 4 i C * a j d d 4 v 10 • t> 1 d * 4 4 C 0 ugn * ad-* j 4 d J > d J 4> d d J d d 4 > 1*4 • 4 0 ) d 1 • » * d ď > d J •> - * • J d i d j 4 O Pacient? x Zdravý? Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 7 Proč používat klasifikaci dat? 3. Zjištění demence a dalších onemocnění na základě kognitivních testů: Demence ano? x Demence ne? Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Proč používat klasifikaci dat? 4. Rozpoznání hmyzu: Nejedovaté housenky Proč používat klasifikaci dat? 5. Rozpoznání vadných výrobků: Matičky bez vady Proč používat klasifikaci dat? 6. Rozpoznání tváře při vstupu do zabezpečené budovy: Nemá přístup do budovy Má přístup do budovy Cíle klasifikace dat - shrnutí • rozhodnutí o typu či charakteru objektu - např. že daný člověk může vstoupit do budovy či nikoliv, že zvíře je medvěd hnědý nebo medvěd lední a pod. - klasifikační, resp. rozpoznávací úloha; • posouzení kvality stavu analyzovaného objektu - např. zda je pacient v pořádku, nebo má infarkt myokardu, cirhózu jater, apod. - opět klasifikační, resp. rozpoznávací úloha; • rozhodnutí o budoucnosti objektu - např. zda lze pacienta léčit a vyléčit, zda les po 20 letech odumře, jaké bude sociální složení obyvatelstva na daném územíavdanémčase- klasifikační, resp. predikční úloha • poznámka: v některých oblastech se pojem predikce a klasifikace rozlišuje: — pojem klasifikace \e používán, použije-li se klasifikačního algoritmu pro známá data; pokud jsou data nová, pro která apriori neznáme klasifikační třídu, pak hovoříme o predikci klasifikační třídy — pojem klasifikace používáme, pokud vybíráme identifikátor klasifikační třídy z určitého diskrétního konečného počtu možných identifikátorů; pokud určujeme (predikujeme) spojitou hodnotu, např. pomocí regrese, pak hovoříme o predikci, i když tento pojem nemá časovou dimenzi mu ,-.*■»»., Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách l^J 12 Klasifikace a další používané termíny * termín diskriminační analýza často používán jako synonymum klasifikace, diskriminační analýza je však spíše podskupina klasifikačních metod * analýza a klasifikace dat občas nazývána souhrnně i jako: - „rozpoznávání obrazů" (pattern recognition) - obraz nejen ve smyslu obraz mozku či obraz sítnice oka, ale ve smyslu popis (tzn. „obraz") reálného objektu - „dolování z dat" (data mining) - „strojové učení" (machine learning) Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ij^J/ 13 Lineární separabilita a) b) o o o o o o o o o ° o '' 0 o • °/ o./ • o « ° o os O i • o /V lineárně separabilní úloha lineárně neseparabilní úloha lineárně separované klasifikační třídy nelineárně separabilní úloha Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA IMJ 14 Lineárně neseparabilní třídy - způsoby řešení 1. zachováme původní obrazový prostor a zvolíme nelineární hranici: a) definovanou obecně • o o o o b) složenou po částech z lineárních úseků • o o o o o o o o/ o/ 2. zobrazíme původní p-rozměrný obrazový prostor nelineární transformací do nového m-rozměrného prostoru tak, aby v novém prostoru byly klasifikační třídy lineárně separabilní o o o o o o o o/ o o o o Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA IMJ 15 Klasifikace s více třídami 1. klasifikace „jedna versus zbytek'' R-l hranice oddělí jednu klasifikační třídu od všech dalších 2. klasifikace „jedna versus jedna" R(R-l)/2 binárních hranic mezi každými dvěma třídami • problematickým úsekům se můžeme vyhnout použitím diskriminačních funkcí (do r-té třídy u>r zařadíme obraz x za předpokladu, že gr(x) > gs(x) pro Vr^s)^ klasifikační hranice je průmět průsečíku gr(x) = gs(x) do obrazového prostoru -takto definovaný klasifikační prostor je vždy spojitý a konvexní Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách l^J 16 Typy klasifikátorů - podle reprezentace vstupních dat >- 1. Podle reprezentace vstupních dat: - příznakové klasifikátory: paralelní x sekvenční - strukturální (syntaktické) klasifikátory - kombinované klasifikátory 2. Podle jednoznačnosti zařazení do skupin: - deterministické klasifikátory - pravděpodobnostní klasifikátory 3. Podle typů klasifikačních a učících algoritmů: - parametrické klasifikátory - neparametrické klasifikátory 4. Podle způsobu učení: - učení s učitelem: dokonalým x nedokonalým - učení bez učitele 5. Podle principu klasifikace: - klasifikace pomocí diskriminačních funkcí - klasifikace pomocí vzdálenosti od etalonů klasifikačních tříd - klasifikace pomocí hranic v obrazovém prostoru mu ,-.*■»»., Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách l^J 17 Typy klasifikátorů - podle reprezentace vstupních dat • příznakové - vstupní data vyjádřena vektorem hodnot jednotlivých proměnných (příznaků): - paralelní - zpracování vektoru jako celku (např. Bayesův klasifikátor) - sekvenční - zpracování (občas i měření) proměnných postupně (např. klasifikační stromy) Á A B C D E 1 id vek pohlaví vy ska vaha 33 Z 154 45 36 M 167 90 jj 3 26 Z ITS TO • strukturální (syntaktické) - vstupní data popsána relačními strukturami • kombinované-jednotlivá primitiva doplněna příznakovým popisem Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Typy klasifikátorů - dle jednoznačnosti zařazení do skupin • deterministické klasifikátory: - každý objekt musí patřit do nějaké třídy a nemůže být současně ve více třídách - pozn. použití termínu „deterministický klasifikátor" v případě, že klasifikátor daná data zpracuje vždy se stejným výsledkem (např. Bayesův klasifikátor) x „nedeterministický klasifikátor", který může při opakovaném zpracování daných dat klasifikovat různě (např. neuronové sítě - záleží na tom, jaká bude inicializace) • pravděpodobnostní klasifikátory: - stanoví pravděpodobnost zařazení obrazů do daných klasifikačních tříd - např. člověk má s pravděpodobností 0,6 infarkt, s pstí 0,3 má atrofii srdeční komory a s pstí 0,1 je zdravý Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách l^J 19 Typy klasifikátorů - dle typů klasifikačních a učících algoritmů • parametrické klasifikátory: - potřeba nastavit či určit parametry - např. prahová klasifikace (potřeba stanovit práh), metoda podpůrných vektorů (potřeba stanovit parametr „C") atd. • neparametrické klasifikátory: - není potřeba nastavovat žádné parametry - např. klasifikace podle vzdáleností od reprezentativního objektu (tzv. „etalonu'') skupin • pozn. z tohoto pohledu jsou klasifikační stromy parametrické klasifikátory, pokud to však hodnotíme ze statistického pohledu, jsou to neparametrické metody, protože nemají předpoklad normálního rozdělení mu ,-.*■»»., Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách \J^j 20 Typy klasifikátorů - podle způsobu učení • učení s učitelem - k dispozici trénovací množina, u níž známe zařazení každého objektu do jednotlivých klasifikačních tříd - učení s dokonalým učitelem - učitel se nemůže splést (tzn. předpokládáme, že všechny trénovací objekty jsou správně označené, že patří do dané třídy) - učení s nedokonalým učitelem - připouštíme, že v trénovací množině mohou být nesprávně označené subjekty (např. u některých duševních onemocnění se lékař může splést a označit pacienta za schizofrenika, i když trpí bipolární poruchou, což se však prokáže až za několik let, takže v naší trénovací množině je takto špatně zařazený subjekt) • učení bez učitele: - trénovací množina není k dispozici a často ani předem neznáme, jaké třídy (skupiny) se v datech budou vyskytovat - typickým příkladem je shlukování mu ,-.*■»»., Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách l^J 21 Typy klasifikátorů - podle principu klasifikace klasifikace pomocí diskriminačních funkcí: - diskriminační funkce určují míru příslušnosti k dané klasifikační třídě - pro danou třídu má daná diskriminační funkce nejvyšší hodnotu o 0+. klasifikace pomocí min. vzdálenosti od etalonů klasif. tříd: - etalon = reprezentativní objekt(y) klasifikační třídy - počet etalonů klasif. třídy různý - od jednoho vzorku (např. centroidu) po úplný výčet všech objektů dané třídy (např. u klasif. pomocí metody průměrné vazby) ^A 0 0 v A A A A klasifikace pomocí hranic v obrazovém prostoru: - stanovení hranic (hraničních ploch) oddělujících klasifikační třídy o ° o o o+ o • <>,' ✓'A o O/ ✓'A A+A A A A A Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA IMJ 22 Klasifikace pomocí iskriminačních funkcí Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Klasifikace pomocí diskriminačních funkcí >- • diskriminační funkce gj(x) - vyjadřují míru příslušnosti objektu x do jednotlivých klasifikačních tříd • zařadíme x do takové třídy pro kterou je gj(x) maximální • matematicky: pro objekt x z třídy o)r platí, že gr(x) > gs(x) pro s =1,2,...,R a r * s • pro klasifikaci do dvou tříd lze rozhodovací pravidlo klasifikátoru zapsat jako: o)^ = d(x) = sign(g1(x)-g2(x)) • pokud d(x) > 0 -> zařazení x do třídy • pokud d(x) < 0 -> zařazení x do třídy o)2 mu ,-.*■»»., Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách l^J 24 Souvislost klasifikace pomocí diskriminačních funkcí s klasifikací pomocí hranic_ Hranice mezi dvěma sousedními třídami a o)2 je určena průmětem průsečíku funkcí gr(x) a gs(x), definovaného rovnicí gr(x) = gs(x), do obrazového prostoru. Příklady diskriminačních funkcí >- • nejjednodušším tvarem diskriminační funkce je lineární funkce: gr(x) = ar0 + ar1x1 + ar2x2+...+ arpxp • diskriminační funkce na základě statistických vlastností množiny objektů: gr(x) = PK|x) kde P(o)r | x) je pravděpodobnost zatřídění x do třídy o)r -> Bayesův klasifikátor mu Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^jjj- 26 Bayesův klasifikátor • diskriminační funkce určeny na základě statistických vlastností množiny obrazů • vyjdeme z Bayesova vzorce: P{cúk\x) =-yr——, kde ■ P(ú)k\x) je aposteriorní podmíněná pravděpodobnost zatřídění obrazu x do třídy a)k ■ p(x\(jůk) je podmíněná hustota pravděpodobnosti výskytu obrazu x ve třídě ú)k, k = 1,2 ■ P(.(jůk) je apriorní pravděpodobnost třídy ú)k ■ p(x) je celková hustota pravděpodobnosti rozložení obrazu x v celém obrazovém prostoru Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ij^Jj 27 Bayesův klasifikátor - kritéria • Kritérium maximální aposteriorní pravděpodobnosti • Kritérium minimální střední ztráty • kritérií existuje více, ale tyto dvě jsou základní a ostatní z nich lze zpravidla odvodit - např.: - kritérium minimální pravděpodobnosti chybného rozhodnutí - kritérium maximální pravděpodobnosti Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách \\$) 28 Bayesův kl. - kritérium maximální aposteriorní psti >- • zatřídění obrazu x do třídy s větší aposteriorní pravděpodobností, tedy: když P(cú1 |x) > P(cú2 |x) -> zařazení x do třídy když P(cú1 |x) < P(cú2 |x) zařazení x do třídy o)2 Bayesův kl. - kritérium maximální aposteriorní psti Příklad: Bylo provedeno měření objemu hipokampu a mozkových komor "2 12" "5 7" (v cm3) u 3 pacientů se schizofrenií a 3 kontrol: XD = 4 10 > — 3 9 .3 8. .4 5. Určete, zda testovací subjekt x = [3,5 9] patří do skupiny pacientů či kontrolních subjektů pomocí Bayesova klasifikátoru. 13 o 12 • pacienti o 11 • kontroly ^10 • • testovací subjekt f 9 • • o | 8 • £ 7 • E cu 6 1ZT O 5 • 4 '-1-1-1-1-1 1 2 3 4 5 6 Objem hipokampu mu ,-.*■»»., Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách (^ 30 Bayesův kl. - kritérium maximální aposteriorní psti Příklad: Bylo provedeno měření objemu hipokampu a mozkových komor (v cm3) u 3 pacientů se schizofrenií a 3 kontrol: XD = "2 12" "5 7" 4 10 > — 3 9 .3 8. .4 5. Určete, zda testovací subjekt x = [3,5 9] patří do skupiny pacientů či kontrolních subjektů pomocí Bayesova klasifikátoru. Označeni a pomocne výpočty: nD = 3; nH = 3; n = 6 P(a)k\x) = p(x\(úk)'P((úk) P 00 Apriorní psti: -=0,5 6 f=0,5 O Podmíněné hustoty psti: i p(x\ú)k) = V(27r)2|Sk exp (- \ (x - x)r Sk 1(x - xÝj Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA IMJ 31 Bayesův kl. - kritérium maximální aposteriorní psti i Příklad: 1. Klasifikace podle objemu mozkových komor: o E o -C U >-> O M O E E cd izr o 13 12 11 10 9 8 7 6 5 P(íod|x2) P(ú)H\x2) 0,176-0,5 0,1485 0,121-0,5 0,1485 O U > O M O CL) O 0,593 0,407 13 12 11 10 9 8 7 6 5 4 3 4 5 Objem hipokampu • pacienti • kontroly • testovací subjekt -> subjekt zařazen do třídy pacientů Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA IMJ 32 Bayesův kl. - kritérium maximální aposteriorní psti Příklad: 2. Klasifikace podle objemu hipokampu: « = ^=0,5 -> nelze jednoznačně určit, kam subjekt zařadíme o E o u > O M O E cu O 13 12 11 10 8 • pacienti • kontroly • testovací subjekt 2 3 4 5 Objem hipokampu 2 3 4 5 Objem hipokampu Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA IMJ 33 Bayesův kl. - kritérium maximální aposteriorní psti Příklad - klasifikace podle obou proměnných: Objem hipokampu P(coD\x) = °-^= 0,582 -> subjekt zařazen do třídy pacientů t-» y i ^ 0,056-0,5 ~ . * P(ú)H\x) =--- = 0,418 _» , 0,067 Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^J^- 34 Bayesův kl. - kritérium minimální střední ztráty •- • pokud rozepíšeme P^x) =-—-a P((ú2\x) =-—-, pak kritérium maximální aposteriorní pravděpodobnosti: když POxí^x) > P(ío2|x) -> zařazení x do třídy uj1 když P^ůj^x) < P(ío2|x) -> zařazení x do třídy co2 • můžeme přepsat jako: když píxIíOi) ■ P(á)i) > p(x\a)2) " P(čo2)-> zařazení x do třídy když píxIíOi) ■ P(ío1)< p(x|ío2) ■ P(2)-> zařazení x do třídy co2 • přičemž p(x) můžeme vypustit, protože je v obou zlomcích stejné • pokud chceme do výpočtů zahrnout ztrátu při chybné klasifikaci obrazu ze třídy cús do třídy (úr (ztráta definována pomocí ztrátové funkce A(a)r|a)s)), dostáváme: když pCxIťUi) ■ P(o)i) ■ (A(ú)2|éi)i) - /LO^Io^)) > p(x| zař- x do ix)1 když pCxIoj-l) ■ P(jú^) • (A(ú)2|éi)i) - /LO^Io^)) < p(x| zař. x do co2 mu ^'■»«., Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách l^J 35 Bayesův kl. - kritérium minimální střední ztráty ztrátové funkce Á(_cor\cos) se obvykle zapisují do matice ztrátových funkcí: ?l(co1 ©i) ^(co1 co2) •• • ?l(co1 c0r) A = • • • ©i) • • • co2) •• • 4 • • • • 00r) ©i) McoR co2) 00r) • prvky na diagonále X^cú^cú^) bývají zpravidla nulové, protože při správném zařazení objektu ze třídy ú)1 do třídy ú)1 nevzniká žádná ztráta • např. ^ — [2 q] v'c penalizuji, když je pacient nesprávně zařazen do třídy kontrolních subjektů ((jú2), než když je kontrolní subjekt nesprávně zařazen do třídy pacientů (co^ • např. X — ^ q] -> víc penalizuji, když je kontrolní subjekt nesprávně zařazen do třídy pacientů (čt)i), než když je pacient nesprávně zařazen do třídy kontrolních SUbjektU (^2) Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 1,1(01 36 IBA Bayesův klasifikátor - poznámka kromě nastavování ztrát je možné nastavovat i apriorní pravděpodobnosti Apriorní pravděpodobnosti stejné m Apriorní pravděpodobnosti různé cd m -1 E ^ i- o _ -10 -5 0 5 10 15 20 25 -10 -5 0 5 10 15 20 25 -> zařazení objektu do červené třídy -> zařazení objektu do černé třídy mu ,-.*■»»., Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách l^J 37 Klasifikace pomocí minimální vzdálenosti Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Typy klasifikátorů - podle principu klasifikace klasifikace pomocí diskriminačních funkcí: - diskriminační funkce určují míru příslušnosti k dané klasifikační třídě - pro danou třídu má daná diskriminační funkce nejvyšší hodnotu o 0+. klasifikace pomocí min. vzdálenosti od etalonů klasif. tříd: - etalon = reprezentativní objekt(y) klasifikační třídy - počet etalonů klasif. třídy různý - od jednoho vzorku (např. centroidu) po úplný výčet všech objektů dané třídy (např. u klasif. pomocí metody průměrné vazby) ^A 0 0 v A^" A A A A A klasifikace pomocí hranic v obrazovém prostoru: - stanovení hranic (hraničních ploch) oddělujících klasifikační třídy o ° o o o+ o • <>,' ✓'A o O/ ✓'A A+A A A A A Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA IMJ 39 Klasifikace pomocí minimální vzdálenosti o 0 O o+ o o o o A A+A A A A A A nutno zvolit metriku vzdálenosti či podobnosti: 1. mezi jednotlivými objekty 2. mezi množinami objektů Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 40 Typy metrik a konkrétní příklady - opakování MEZI DVĚMA OBJEKTY Metriky pro určení vzdálenosti mezi 2 objekty s kvantitativními proměnnými Euklidova m., Hammingova (manhattanská) m., Minkovského m., Čebyševova m., Mahalanobisova m., Canberrská m. Metriky pro určení podobnosti 2 objektů s kvantitativními proměnnými Skalární součin, m. kosinové podobnosti, Pearsonův korelační koeficient, Tanimotova m. Metriky pro určení vzdálenosti mezi 2 objekty s kvalitativními proměnnými Hammingova m. MEZI DVĚMA MNOŽINAMI OBJEKTŮ Deterministické metriky pro určení vzdálenosti mezi 2 množinami objektů Metoda nejbližšího souseda, k nejbližších sousedů, nejvzdálenějšího souseda, průměrné vazby, Wardova metoda Metriky pro určení vzdálenosti mezi 2 množinami objektů používající jejich pravděpodobnostní charakteristiky Chernoffova m., Bhattacharyyova m. atd. Metriky pro určení podobnosti 2 objektů s kvalitativními proměnnými Tanimotova m., Jaccardův-Tanimotův a.k., Russelův- Raovův a.k., Sokalův-Michenerův a.k., Dicův k., Rogersův-Tanimotův k., Hamanův k. ™ ..... Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách (Mj 41 Euklidova, Hammingova (manhattanská), Čebyševova metrika - opakování o E o -C U > o M o E E aj 1q O 13 12 11 10 Euklidova metrika 1 2 3 4 5 6 Objem hipokampu Hammingova (manhattanská) metrika o > O M O) O 13 12 11 10 1 2 3 4 5 6 Objem hipokampu Čebyševova metrika 13 12 s- 11 O E ° 10 > o M O E E O) O 9 - 6 • pacienti • kontroly • testovací subjekt 2 3 4 5 6 Objem hipokampu • zobecnění těchto 3 metrik: Minkovského metrika • začleněním inverze kovarianční matice získáváme Mahalanobisovu metriku Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Nejpoužívanější metriky pro určení vzdálenosti mezi dvěma množinami obrazů - opakování • Metoda nejbližšího souseda • Metoda k nejbližších sousedů • Metoda nejvzdálenějšího souseda - obtížně použitelná pro klasifikaci • Centroidová metoda • Metoda průměrné vazby • Wardova metoda - zřídka používaná pro klasifikaci • poznámka: podobnost (resp. vzdálenost) mezi třídami dána: - „podobností" jednoho obrazu s jedním či více obrazy jedné třídy (skupin, shluků) - použitelné při klasifikaci - „podobností" skupin obrazů či „podobností" jednoho obrazu z každé skupiny -použitelné při shlukování mu ,-.*■»»., Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách l^J 43 Metoda nejbližšího souseda je-li d libovolná míra nepodobnosti (vzdálenosti) dvou obrazů a ; a ú)j jsou libovolné skupiny obrazů, potom metoda nejbližšího souseda definuje mezi skupinami cúi a cůj vzdálenost DNN(conco ) = mmd(x ,x ) xqea>j A A □ □ □ pacienti A kontroly O testovací subjekt Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA M 44 Metoda k nejbližších sousedů • zobecněním metody nebližšího souseda • definována vztahem /) = min V d(xp,x\ tzn. vzdálenost dvou y J shluků je definována součtem nejkratších vzdáleností mezi obrazy obou skupin □ pacienti A kontroly O testovací subjekt Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách (Ml 45 Centroidová metoda • vychází z výpočtu centroidů pro jednotlivé třídy (úi a cúj • při klasifikaci: zařazení subjektu do třídy s nejbližším centroidem A □ pacienti A kontroly O testovací subjekt + centroid pacientů + centroid kontrol Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA IMJ 46 Metoda průměrné vazby >-- • vzdálenost dvou tříd cúí a ú)j je průměrná vzdálenost mezi všemi obrazy tříd (úi a (Oj • při klasifikaci: zařazení subjektu do skupiny s nejmenší průměrnou vzdálenosti od všech obrazů dané skupiny asifikace pomocí hranic Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Typy klasifikátorů - podle principu klasifikace klasifikace pomocí diskriminačních funkcí: - diskriminační funkce určují míru příslušnosti k dané klasifikační třídě - pro danou třídu má daná diskriminační funkce nejvyšší hodnotu • klasifikace pomocí min. vzdálenosti od etalonů klasif. tříd: x2 - etalon = reprezentativní objekt(y) klasifikační třídy - počet etalonů klasif. třídy různý - od jednoho vzorku (např. centroidu) po úplný výčet všech objektů dané třídy (např. u klasif. pomocí metody průměrné vazby) o 0\A A A\AA A A A A xi * klasifikace pomocí hranic v obrazovém prostoru: x? - stanovení hranic (hraničních ploch) oddělujících klasifikační třídy o 0 0, 0 °*o •o,;' o ., Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách l^J 51 Souvislost klasifikace podle minimální vzdálenosti s klasifikací pomocí hranic PtiSse&ic laAeiovvat ploch \ KJjÍeVjOVYOI WjOCH body se stejnou vzdáleností od etalonů leží na kuželových plochách, které se protínají v parabole, jejíž průmět do obrazové roviny je přímka tato hraniční přímka mezi klasifikačními třídami je vždy kolmá na spojnici obou etalonů a tuto spojnici půlí Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA Souvislost jednotlivých principů klasifikace - shrnutí i • Hranice mezi klasifikačními třídami jsou dány průmětem diskriminačních funkcí do obrazového prostoru. • Klasifikace podle minimální vzdálenosti definuje hranici, která je kolmá na spojnici etalonů klasifikačních tříd a půlí ji. • Princip klasifikace dle minimální vzdálenosti vede buď přímo, nebo prostřednictvím využití metrik podobnosti k definici diskriminačních funkcí a ty dle prvního ze zde uvedených pravidel k určení hranic mezi klasifikačními třídami. Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ij^J/ 53 Fisherova lineární diskriminace jiný název: Fisherova lineární diskriminační analýza (FLDA) použití pro lineární klasifikaci princip: transformace do jednorozměrného prostoru tak, aby se třídy od sebe maximálně oddělily O pacienti A kontroly + centroid pacientů + centroid kontrol ✓ xi O O Qfr OQfr /W^+ A—A- projekce 1 předpoklad: vícerozměrné normální rozdělení u jednotlivých skupin mu ,-.*■»»., Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách l^J 54 Fisherova lineární diskriminace - princip O pacienti A kontroly + centroid pacientů + centroid kontrol ✓ xi o o Pokud y0 < ý (přičemž yH < ý), subjekt zařadíme do skupiny kontrolních subjektů > Pokud y0 > ý (přičemž yH < ý), subjekt zařadíme do skupiny pacientů mu ,-.*■»»., Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 1^1 56 Souvislost lineární diskriminační analýzy s logistickou regresí stejně jako lineární diskriminační analýzu lze i logistickou regresi použít pro zařazení objektů/subjektů do hodnocených skupin hlavním cílem logistické regrese je ale identifikace vztahů mezi spojitými či binárními prediktory a binárním endpointem (výskyt onemocnění, úmrtí, komplikace atd.) a jejich popis pomocí poměru šancí (odds ratio) logistická regrese patří do skupiny zobecněných lineárních modelů výstupy logistické regrese: Model Summary Step -2 Log likelihood Cox&Snell R Square Nagelkerke R Square 1 64.211 a ,525 ,700 Hosmer and Lemeshow Test Step Chi-square df Sig. 1 6,332 3 ,555 a. Estimation terminated at iteration number 7 because parameter estimates changed by less than .001. Classification Table3 Predicted VERSICOL Observed ,00000000 1,00000000 Percentage Correct Step 1 VERSICOL ,00000000 45 5 90,0 1,00000000 6 44 88,0 Overall Percentage 39,0 a. The cut value is .500 Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA IMJ 57 Poděkování Příprava výukových materiálů předmětu „DSAN02 Pokročilé metody analýzy dat v neurovědách" byla finančně podporována prostředky projektu FRMU č. MUNI/FR/0260/2014 „Pokročilé metody analýzy dat v neurovědách jako nový předmět na LF MU" Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách