zahlavi-IBA logo-IBA logo-MU © Institut biostatistiky a analýz Pokročilé metody analýzy dat v neurovědách RNDr. Eva Koriťáková, Ph.D. doc. RNDr. Ladislav Dušek, Dr. logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Blok 7 Klasifikace dat I 2 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Osnova 1.Úvod do klasifikace dat 2.Klasifikace pomocí diskriminačních funkcí: ‐lineární diskriminační funkce ‐Bayesův klasifikátor 3.Klasifikace pomocí minimální vzdálenosti 4.Klasifikace pomocí hranic: ‐Fisherova lineární diskriminační analýza 5. 3 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úvod do klasifikace dat 4 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Schéma analýzy a klasifikace dat 5 Data Předzpracování Redukce Klasifikace nebo ? ? Výřez obrazovky Výřez obrazovky Klasifikace Data Předzpracování Redukce Ukázka - kognitivní data apod. Ukázka - obrazová data logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 1. Podpora diagnostiky onemocnění mozku (Alzheimerova choroba, schizofrenie atd.): intenzity_deformace http://3.bp.blogspot.com/-x2EYSsQ5SYI/UBfV_2MdSHI/AAAAAAAAALY/jHbo4q9z9Sw/s1600/ventricles+before.j pg http://www.dialogues-cns.org/figures/DialoguesClinNeurosci-11-191-g005.jpg https://encrypted-tbn3.gstatic.com/images?q=tbn:ANd9GcTbz5L3fOoB-Ng3gdKssG8K8cwsUoS0Dw_oCpHKAahanoC twcfGOw http://serendip.brynmawr.edu/%7Elaurac/brainscans/ventricles_brain2.jpg Pacienti Zdravé subjekty Nový subjekt Pacient? x Zdravý? Proč používat klasifikaci dat? 6 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 2. Odhalení genetického onemocnění na základě dat s microarray experimentů: File:DNA microarray.svg http://www.stat.berkeley.edu/%7Eperes/report/sample1.jpg File:DNA microarray.svg http://www.stat.berkeley.edu/%7Eperes/report/sample1.jpg http://www.stat.berkeley.edu/%7Eperes/report/sample1.jpg Pacienti Zdravé subjekty Nový subjekt Pacient? x Zdravý? Proč používat klasifikaci dat? 7 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách http://ekja.org/ArticleImage/1011KJAE/kjae-55-291-g001-l.jpg 3. Zjištění demence a dalších onemocnění na základě kognitivních testů: http://informationbombardment.com/wp-content/uploads/2010/11/Stroop-Effect.png http://upload.wikimedia.org/wikipedia/en/0/0f/Wisconsin_Card_Sorting_Test.jpg http://www.cogat.net/wp-content/uploads/2014/05/Cognitive_Assessment_Test_General_and_Medical_Appli cations.jpg http://gateforkids.com/sites/default/files/admin2/cogat1.png Demence ano? x Demence ne? Proč používat klasifikaci dat? 8 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 4. Rozpoznání hmyzu: http://www.naturfoto.cz/fotografie/ostatni/prastevnik-medvedi-housenka-111803.jpg http://dk.2i.cz/fotos/gallery/200708/27545.jpg http://foto.sherak.cz/images/big/Dominika2012/housenka-6788.jpg Nejedovaté housenky http://www.butterfly.webz.cz/housenky/h1%20%281%29.jpg http://www.martindromedar.estranky.cz/img/mid/21/prastevnik-medvedi-housenka.jpg Jedovaté housenky Jedovatá nebo nejedovatá housenka? ? Proč používat klasifikaci dat? 9 Když opustíme medicínu, klasifikaci lze využít i na... logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 5. Rozpoznání vadných výrobků: http://www.paintball-shop.cz/img/tippmann/maticka-tippmann_w220.jpg http://www.paintball-shop.cz/img/tippmann/maticka-tippmann_w220.jpg http://www.paintball-shop.cz/img/tippmann/maticka-tippmann_w220.jpg http://www.paintball-shop.cz/img/tippmann/maticka-tippmann_w220.jpg http://www.paintball-shop.cz/img/tippmann/maticka-tippmann_w220.jpg Matičky bez vady Matičky s vnitřní prasklinou Matička bez vady nebo s vnitřní prasklinou? ? Proč používat klasifikaci dat? 10 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 6. Rozpoznání tváře při vstupu do zabezpečené budovy: http://rack.0.mshcdn.com/media/ZgkyMDE0LzA2LzE2LzIwL3NocmVrLmRyZWFtLmZkNGQ1LnBuZwpwCXRodW1iCTEyMDB4 NjI3IwplCWpwZw/acf2ed18/328/shrek.dreamworks.tv_.jpg http://mix.cz/storage/?id=4684&w=&h=&c=1 Má přístup do budovy Nemá přístup do budovy http://www.shrekchan.org/shr/src/1407848017246.jpg http://img1.wikia.nocookie.net/__cb20130413033028/shrek/images/c/cc/Shrek_smiling.jpg http://www.misanci.estranky.cz/img/mid/89/kocour.jpg ? Dostane se do budovy: ano? x ne? Proč používat klasifikaci dat? 11 i podle otisků prstů logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Cíle klasifikace dat - shrnutí 12 •rozhodnutí o typu či charakteru objektu – např. že daný člověk může vstoupit do budovy či nikoliv, že zvíře je medvěd hnědý nebo medvěd lední apod. – klasifikační, resp. rozpoznávací úloha; •posouzení kvality stavu analyzovaného objektu – např. zda je pacient v pořádku, nebo má infarkt myokardu, cirhózu jater, apod. – opět klasifikační, resp. rozpoznávací úloha; •rozhodnutí o budoucnosti objektu – např. zda lze pacienta léčit a vyléčit, zda les po 20 letech odumře, jaké bude sociální složení obyvatelstva na daném území a v daném čase – klasifikační, resp. predikční úloha • •poznámka: v některých oblastech se pojem predikce a klasifikace rozlišuje: –pojem klasifikace je používán, použije-li se klasifikačního algoritmu pro známá data; pokud jsou data nová, pro která apriori neznáme klasifikační třídu, pak hovoříme o predikci klasifikační třídy –pojem klasifikace používáme, pokud vybíráme identifikátor klasifikační třídy z určitého diskrétního konečného počtu možných identifikátorů; pokud určujeme (predikujeme) spojitou hodnotu, např. pomocí regrese, pak hovoříme o predikci, i když tento pojem nemá časovou dimenzi logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Klasifikace versus diskriminační analýza 13 •klasifikace – rozdělení (konkrétní či teoretické) dané skupiny (množiny) objektů na konečný počet dílčích skupin (podmnožin), v nichž všechny objekty mají dostatečně podobné společné vlastnosti. Předměty (jevy), které mají podobné uvažované vlastnosti tvoří třídu (skupinu). •diskriminační analýza – hledá vztah mezi kategoriální proměnnou a množinou vzájemně vázaných proměnných; je to podskupina klasifikačních metod • •poznámka: analýza a klasifikace dat občas nazývána souhrnně jako: –„rozpoznávání obrazů“ (pattern recognition) – obraz nejen ve smyslu obraz mozku či obraz sítnice oka, ale ve smyslu popis (tzn. „obraz“) reálného objektu –„dolování z dat“ (data mining) –„strojové učení“ (machine learning) logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 14 Lineární separabilita •lineárně separabilní úloha •nelineárně separabilní úloha •lineárně neseparabilní úloha •lineárně separované klasifikační třídy •x1 •x2 •x1 •x2 •x1 •x2 a) b) c) v budoucnu překreslit!!! není přehledné!!! logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 15 1.zachováme původní obrazový prostor a zvolíme nelineární hranici: Lineárně neseparabilní třídy – způsoby řešení 2.zobrazíme původní p-rozměrný obrazový prostor nelineární transformací do nového m-rozměrného prostoru tak, aby v novém prostoru byly klasifikační třídy lineárně separabilní a) definovanou obecně b) složenou po částech z lineárních úseků logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 16 1.klasifikace „jedna versus zbytek“ R-1 hranice oddělí jednu klasifikační třídu od všech dalších Klasifikace s více třídami skenování0002.jpg •problematickým úsekům se můžeme vyhnout použitím diskriminačních funkcí (do r-té třídy ωr zařadíme obraz x za předpokladu, že gr(x) > gs(x) pro " r ¹ s) → klasifikační hranice je průmět průsečíku gr(x) = gs(x) do obrazového prostoru – takto definovaný klasifikační prostor je vždy spojitý a konvexní 2.klasifikace „jedna versus jedna“ R(R-1)/2 binárních hranic mezi každými dvěma třídami logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Typy klasifikátorů – podle reprezentace vstupních dat 17 1.Podle reprezentace vstupních dat: –příznakové klasifikátory: paralelní x sekvenční –strukturální (syntaktické) klasifikátory –kombinované klasifikátory – 2.Podle jednoznačnosti zařazení do skupin: –deterministické klasifikátory –pravděpodobnostní klasifikátory – 3.Podle typů klasifikačních a učících algoritmů: –parametrické klasifikátory –neparametrické klasifikátory 4. 4.Podle způsobu učení: –učení s učitelem: dokonalým x nedokonalým –učení bez učitele – 5.Podle principu klasifikace: –klasifikace pomocí diskriminačních funkcí –klasifikace pomocí vzdálenosti od etalonů klasifikačních tříd –klasifikace pomocí hranic v obrazovém prostoru logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Typy klasifikátorů – podle reprezentace vstupních dat 18 •příznakové – vstupní data vyjádřena vektorem hodnot jednotlivých proměnných (příznaků): –paralelní – zpracování vektoru jako celku (např. Bayesův klasifikátor) –sekvenční – zpracování (občas i měření) proměnných postupně (např. klasifikační stromy) – – •strukturální (syntaktické) – vstupní data popsána relačními strukturami • • • • • • •kombinované – jednotlivá primitiva doplněna příznakovým popisem 001.jpg Výřez obrazovky logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Typy klasifikátorů – dle jednoznačnosti zařazení do skupin 19 •deterministické klasifikátory: –každý objekt musí patřit do nějaké třídy a nemůže být současně ve více třídách –pozn. použití termínu „deterministický klasifikátor“ v případě, že klasifikátor daná data zpracuje vždy se stejným výsledkem (např. Bayesův klasifikátor) x „nedeterministický klasifikátor“, který může při opakovaném zpracování daných dat klasifikovat různě (např. neuronové sítě – záleží na tom, jaká bude inicializace) – •pravděpodobnostní klasifikátory: –stanoví pravděpodobnost zařazení obrazů do daných klasifikačních tříd –např. člověk má s pravděpodobností 0,6 infarkt, s pstí 0,3 má atrofii srdeční komory a s pstí 0,1 je zdravý • pstní – fuzzy logika budeme se věnovat deterministickým klasifikátorům s pevným počtem příznaků logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Typy klasifikátorů – dle typů klasifikačních a učících algoritmů 20 •parametrické klasifikátory: –potřeba nastavit či určit parametry –např. prahová klasifikace (potřeba stanovit práh), metoda podpůrných vektorů (potřeba stanovit parametr „C“) atd. – •neparametrické klasifikátory: –není potřeba nastavovat žádné parametry –např. klasifikace podle vzdáleností od reprezentativního objektu (tzv. „etalonu“) skupin • •pozn. z tohoto pohledu jsou klasifikační stromy parametrické klasifikátory, pokud to však hodnotíme ze statistického pohledu, jsou to neparametrické metody, protože nemají předpoklad normálního rozdělení logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Typy klasifikátorů – podle způsobu učení 21 •učení s učitelem – k dispozici trénovací množina, u níž známe zařazení každého objektu do jednotlivých klasifikačních tříd –učení s dokonalým učitelem – učitel se nemůže splést (tzn. předpokládáme, že všechny trénovací objekty jsou správně označené, že patří do dané třídy) –učení s nedokonalým učitelem – připouštíme, že v trénovací množině mohou být nesprávně označené subjekty (např. u některých duševních onemocnění se lékař může splést a označit pacienta za schizofrenika, i když trpí bipolární poruchou, což se však prokáže až za několik let, takže v naší trénovací množině je takto špatně zařazený subjekt) – •učení bez učitele: –trénovací množina není k dispozici a často ani předem neznáme, jaké třídy (skupiny) se v datech budou vyskytovat –typickým příkladem je shlukování učení s nedokonalým učitelem: -jde babička s vnoučkem a učí ho, že tohle auto je audi, tohle mazda atd. – babička se sice čas od času splete, ale vnouček se stejně auta nakonec naučí poznávat -databáze ADNI – víme, že jsou tam chyby, že někteří pacienti mají špatně určenou diagnózu -u učitelů nedokonalých bychom měli stanovit míru nejasnosti logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Typy klasifikátorů – podle principu klasifikace 22 •klasifikace pomocí diskriminačních funkcí: –diskriminační funkce určují míru příslušnosti k dané klasifikační třídě –pro danou třídu má daná diskriminační funkce nejvyšší hodnotu – •klasifikace pomocí min. vzdálenosti od etalonů klasif. tříd: –etalon = reprezentativní objekt(y) klasifikační třídy –počet etalonů klasif. třídy různý – od jednoho vzorku (např. centroidu) po úplný výčet všech objektů dané třídy (např. u klasif. pomocí metody průměrné vazby) • •klasifikace pomocí hranic v obrazovém prostoru: –stanovení hranic (hraničních ploch) oddělujících klasifikační třídy •x1 •x2 ? •x1 •x2 ? •x2 •x1 diskriminační fce -> využití vícerozměrného normálního rozdělení logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Klasifikace pomocí diskriminačních funkcí 23 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Klasifikace pomocí diskriminačních funkcí 24 •diskriminační funkce gi(x) – vyjadřují míru příslušnosti objektu x do jednotlivých klasifikačních tříd •zařadíme x do takové třídy ωi, pro kterou je gi(x) maximální •matematicky: pro objekt x z třídy ωr platí, že gr(x) > gs(x) pro s =1,2,…,R a r ≠ s • •pro klasifikaci do dvou tříd lze rozhodovací pravidlo klasifikátoru zapsat jako: • ωk = d(x) = sign(g1(x) – g2(x)) •pokud d(x) ≥ 0 → zařazení x do třídy ω1 •pokud d(x) < 0 → zařazení x do třídy ω2 g(x) g1(x) g2(x) x xH w1 w2 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách http://i.stack.imgur.com/lPhju.png Souvislost klasifikace pomocí diskriminačních funkcí s klasifikací pomocí hranic 25 http://i.stack.imgur.com/lPhju.png g(x) g1(x) g2(x) x xH w1 w2 hraniční bod •Hranice mezi dvěma sousedními třídami ω1 a ω2 je určena průmětem průsečíku funkcí gr(x) a gs(x), definovaného rovnicí gr(x) = gs(x), do obrazového prostoru. logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Příklady diskriminačních funkcí 26 •nejjednodušším tvarem diskriminační funkce je lineární funkce: • gr(x) = ar0 + ar1x1 + ar2x2 +…+ arpxp • •diskriminační funkce na základě statistických vlastností množiny objektů: • gr(x) = P(ωr|x) • kde P(ωr|x) je pravděpodobnost zatřídění x do třídy ωr • → Bayesův klasifikátor logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Bayesův klasifikátor 27 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Bayesův klasifikátor – kritéria 28 •Kritérium maximální aposteriorní pravděpodobnosti •Kritérium minimální střední ztráty •kritérií existuje více, ale tyto dvě jsou základní a ostatní z nich lze zpravidla odvodit – např.: –kritérium minimální pravděpodobnosti chybného rozhodnutí –kritérium maximální pravděpodobnosti logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Bayesův kl. – kritérium maximální aposteriorní psti 29 -5 0 5 10 15 20 0 0,02 0,04 0,06 0,08 0,10 0,12 x1 obraz, který chceme zatřídit logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 30 Bayesův kl. – kritérium maximální aposteriorní psti pacienti kontroly testovací subjekt 1 2 3 4 5 6 4 5 6 7 8 9 10 11 12 13 Objem hipokampu logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 31 Bayesův kl. – kritérium maximální aposteriorní psti Označení a pomocné výpočty: logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 32 •Příklad: Bayesův kl. – kritérium maximální aposteriorní psti 1. Klasifikace podle objemu mozkových komor: pacienti kontroly testovací subjekt 1 2 3 4 5 6 4 5 6 7 8 9 10 11 12 13 Objem hipokampu 4 5 6 7 8 9 10 11 12 13 → subjekt zařazen do třídy pacientů logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 33 •Příklad: Bayesův kl. – kritérium maximální aposteriorní psti 2. Klasifikace podle objemu hipokampu: pacienti kontroly testovací subjekt 1 2 3 4 5 6 4 5 6 7 8 9 10 11 12 13 Objem hipokampu → nelze jednoznačně určit, kam subjekt zařadíme 1 2 3 4 5 6 Objem hipokampu logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 34 •Příklad – klasifikace podle obou proměnných: Bayesův kl. – kritérium maximální aposteriorní psti pacienti kontroly testovací subjekt Objem hipokampu → subjekt zařazen do třídy pacientů logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Bayesův kl. – kritérium minimální střední ztráty 35 pokud bychom ztráty 𝜆(𝜔_2 |𝜔_1 )=𝜆(𝜔_1 |𝜔_2 )=1 a ztráty při správném zařazení byly nulové, pak dostáváme kritérium výše logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Bayesův kl. – kritérium minimální střední ztráty 36 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Bayesův klasifikátor – poznámka 37 •kromě nastavování ztrát je možné nastavovat i apriorní pravděpodobnosti Apriorní pravděpodobnosti stejné Apriorní pravděpodobnosti různé → zařazení objektu do červené třídy → zařazení objektu do černé třídy -konkrétně vpravo je apriorní pst černé třídy 2x vyšší než červené třídy -samozřejmě ne vždy vyjde, že když dáme jedné třídě 2x vyšší apriorní pst, že bude neznámý subjekt do této třídy zařazen! logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Klasifikace pomocí minimální vzdálenosti 38 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Typy klasifikátorů – podle principu klasifikace 39 •klasifikace pomocí diskriminačních funkcí: –diskriminační funkce určují míru příslušnosti k dané klasifikační třídě –pro danou třídu má daná diskriminační funkce nejvyšší hodnotu – •klasifikace pomocí min. vzdálenosti od etalonů klasif. tříd: –etalon = reprezentativní objekt(y) klasifikační třídy –počet etalonů klasif. třídy různý – od jednoho vzorku (např. centroidu) po úplný výčet všech objektů dané třídy (např. u klasif. pomocí metody průměrné vazby) • •klasifikace pomocí hranic v obrazovém prostoru: –stanovení hranic (hraničních ploch) oddělujících klasifikační třídy •x1 •x2 ? •x1 •x2 ? •x2 •x1 diskriminační fce -> využití vícerozměrného normálního rozdělení logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 40 •nutno zvolit metriku vzdálenosti či podobnosti: 1.mezi jednotlivými objekty 2.mezi množinami objektů Klasifikace pomocí minimální vzdálenosti •x1 •x2 ? logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Typy metrik a konkrétní příklady – opakování 41 Metriky pro určení vzdálenosti mezi 2 objekty s kvantitativními proměnnými Deterministické metriky pro určení vzdálenosti mezi 2 množinami objektů MEZI DVĚMA OBJEKTY MEZI DVĚMA MNOŽINAMI OBJEKTŮ Metriky pro určení podobnosti 2 objektů s kvantitativními proměnnými Metriky pro určení podobnosti 2 objektů s kvalitativními proměnnými Metriky pro určení vzdálenosti mezi 2 objekty s kvalitativními proměnnými Metriky pro určení vzdálenosti mezi 2 množinami objektů používající jejich pravděpodobnostní charakteristiky Euklidova m., Hammingova (manhattanská) m., Minkovského m., Čebyševova m., Mahalanobisova m., Canberrská m. Skalární součin, m. kosinové podobnosti, Pearsonův korelační koeficient, Tanimotova m. Hammingova m. Metoda nejbližšího souseda, k nejbližších sousedů, nejvzdálenějšího souseda, průměrné vazby, Wardova metoda Chernoffova m., Bhattacharyyova m. atd. Tanimotova m., Jaccardův-Tanimotův a.k., Russelův- Raovův a.k., Sokalův-Michenerův a.k., Dicův k., Rogersův-Tanimotův k., Hamanův k. logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 42 Euklidova, Hammingova (manhattanská), Čebyševova metrika – opakování pacienti kontroly testovací subjekt 1 2 3 4 5 6 4 5 6 7 8 9 10 11 12 13 Objem hipokampu Euklidova metrika Hammingova (manhattanská) metrika Čebyševova metrika 1 2 3 4 5 6 4 5 6 7 8 9 10 11 12 13 Objem hipokampu 1 2 3 4 5 6 4 5 6 7 8 9 10 11 12 13 Objem hipokampu •zobecnění těchto 3 metrik: Minkovského metrika •začleněním inverze kovarianční matice získáváme Mahalanobisovu metriku logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Nejpoužívanější metriky pro určení vzdálenosti mezi dvěma množinami obrazů – opakování 43 •Metoda nejbližšího souseda •Metoda k nejbližších sousedů •Metoda nejvzdálenějšího souseda – obtížně použitelná pro klasifikaci •Centroidová metoda •Metoda průměrné vazby •Wardova metoda – zřídka používaná pro klasifikaci • • •poznámka: podobnost (resp. vzdálenost) mezi třídami dána: –„podobností“ jednoho obrazu s jedním či více obrazy jedné třídy (skupin, shluků) – použitelné při klasifikaci –„podobností“ skupin obrazů či „podobností“ jednoho obrazu z každé skupiny – použitelné při shlukování • logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 44 Metoda nejbližšího souseda pacienti kontroly testovací subjekt •x1 •x2 •výhody a nevýhody použití této metody pro klasifikaci: + žádné předpoklady o rozložení - citlivé na odlehlé hodnoty - zpravidla nevhodné při nevyvážených počtech objektů ve skupinách → testovací subjekt zařadíme do třídy, ze které je jeho nejbližší soused logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 45 •zobecněním metody nebližšího souseda •definována vztahem tzn. vzdálenost dvou • • shluků je definována součtem nejkratších vzdáleností mezi objekty obou skupin Metoda k nejbližších sousedů pacienti kontroly testovací subjekt •x1 •x2 •výhody a nevýhody použití této metody pro klasifikaci: + žádné předpoklady o rozložení + méně citlivé na odlehlé hodnoty - zpravidla nevhodné při nevyvážených počtech objektů ve skupinách → testovací subjekt zařadíme do třídy, která převažuje mezi jeho k nejbližšími sousedy logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 46 Centroidová metoda pacienti kontroly testovací subjekt •x1 •x2 centroid pacientů centroid kontrol •výhody a nevýhody použití této metody pro klasifikaci: + žádné předpoklady o rozložení + méně citlivé na odlehlé hodnoty než metoda nejbližšího souseda + nebývá problém při nevyvážených počtech objektů ve skupinách logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 47 •vzdálenost dvou tříd je průměrná vzdálenost mezi všemi obrazy těchto tříd •při klasifikaci: zařazení subjektu do skupiny s nejmenší průměrnou vzdálenosti od všech obrazů dané skupiny • • • • • • • • • Metoda průměrné vazby pacienti kontroly testovací subjekt •x1 •x2 •výhody a nevýhody použití této metody pro klasifikaci: + žádné předpoklady o rozložení + méně citlivé na odlehlé hodnoty než metoda nejbližšího souseda + nebývá problém při nevyvážených počtech objektů ve skupinách - časově náročnější než centroidová metoda při větším počtu objektů logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Klasifikace pomocí hranic 48 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Typy klasifikátorů – podle principu klasifikace 49 •klasifikace pomocí diskriminačních funkcí: –diskriminační funkce určují míru příslušnosti k dané klasifikační třídě –pro danou třídu má daná diskriminační funkce nejvyšší hodnotu – •klasifikace pomocí min. vzdálenosti od etalonů klasif. tříd: –etalon = reprezentativní objekt(y) klasifikační třídy –počet etalonů klasif. třídy různý – od jednoho vzorku (např. centroidu) po úplný výčet všech objektů dané třídy (např. u klasif. pomocí metody průměrné vazby) • •klasifikace pomocí hranic v obrazovém prostoru: –stanovení hranic (hraničních ploch) oddělujících klasifikační třídy •x1 •x2 ? •x1 •x2 ? •x2 •x1 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 50 Motivace •x1 •x2 Hranice je nadplocha o rozměru o jedna menší než je rozměr prostoru •ve 2-rozměrném prostoru je hranicí křivka (v lineárním případě přímka) •v 3-rozměrném prostoru plocha (v lineárním případě rovina) Výpočet hranice různými metodami (např. Fisherova LDA, SVM, perceptron, metoda nejmenších čtverců apod.) 2-rozměrný prostor 3-rozměrný prostor •x1 •x2 •x3 než budeme probírat jednotlivé metody, které nám umožní vypočítat hranici, připomeneme si souvislost... logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách http://i.stack.imgur.com/lPhju.png Souvislost klasifikace pomocí diskriminačních funkcí s klasifikací pomocí hranic 51 •Hranice mezi dvěma sousedními třídami ω1 a ω2 je určena průmětem průsečíku funkcí gr(x) a gs(x), definovaného rovnicí gr(x) = gs(x), do obrazového prostoru, tzn. http://i.stack.imgur.com/lPhju.png g(x) g1(x) g2(x) x xH w1 w2 hraniční bod logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Souvislost klasifikace podle minimální vzdálenosti s klasifikací pomocí hranic 52 •tato hraniční přímka mezi klasifikačními třídami je vždy kolmá na spojnici obou etalonů a tuto spojnici půlí •body se stejnou vzdáleností od etalonů leží na kuželových plochách, které se protínají v parabole, jejíž průmět do obrazové roviny je přímka -h(𝐱)=𝐰^𝑇 𝐱+w_0=0 - w[0] je ten výraz dělený dvěma atd. -souvislost s klasifikací podle diskr. fcí – v tištěných skriptech (nakreslit na tabuli „obrácené“ kužele) logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 53 •Hranice mezi klasifikačními třídami jsou dány průmětem diskriminačních funkcí do obrazového prostoru. • •Klasifikace podle minimální vzdálenosti definuje hranici, která je kolmá na spojnici etalonů klasifikačních tříd a půlí ji. • •Princip klasifikace dle minimální vzdálenosti vede buď přímo, nebo prostřednictvím využití metrik podobnosti k definici diskriminačních funkcí a ty dle prvního ze zde uvedených pravidel k určení hranic mezi klasifikačními třídami. Souvislost jednotlivých principů klasifikace - shrnutí logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 54 •jiný název: Fisherova lineární diskriminační analýza (FLDA) •použití pro lineární klasifikaci •princip: transformace do jednorozměrného prostoru tak, aby se třídy od sebe maximálně oddělily Fisherova lineární diskriminace projekce 1 •x1 •x2 pacienti kontroly centroid pacientů centroid kontrol •předpoklad: vícerozměrné normální rozdělení u jednotlivých skupin •ukázat projekci 1 a 2 – která je lepší? projekce 1 – větší vzdálenost centroidů x projekce 2 – menší SD → nejlepší je kombinace •FLDA lze odvodit pomocí Lagrangovy metody neurčitých koeficientů – v tištěných skriptech logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 55 •podstatou FLDA tedy projekce do 1-D prostoru tak, že chceme: –maximalizovat vzdálenost skupin –minimalizovat variabilitu uvnitř skupin Fisherova lineární diskriminace – princip projekce 1 •x1 •x2 pacienti kontroly centroid pacientů centroid kontrol •Fisherovo diskriminační kritérium je tedy ve tvaru: logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 56 Fisherovo diskriminační kritérium – úpravy, výpočet logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Souvislost lineární diskriminační analýzy s logistickou regresí •stejně jako lineární diskriminační analýzu lze i logistickou regresi použít pro zařazení objektů/subjektů do hodnocených skupin •hlavním cílem logistické regrese je ale identifikace vztahů mezi spojitými či binárními prediktory a binárním endpointem (výskyt onemocnění, úmrtí, komplikace atd.) a jejich popis pomocí poměru šancí (odds ratio) •logistická regrese patří do skupiny zobecněných lineárních modelů • 57 •výstupy logistické regrese: • -souvislost s lineární regresí – pro 2 třídy stejné výsledky LDA jako lineární regrese -logistická regrese je využívaná více proto, že potom odhady nejsou nad 1 a pod 0 (na rozdíl od lineární regrese) logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Poděkování Příprava výukových materiálů předmětu „DSAN02 Pokročilé metody analýzy dat v neurovědách“ byla finančně podporována prostředky projektu FRMU č. MUNI/FR/0260/2014 „Pokročilé metody analýzy dat v neurovědách jako nový předmět na LF MU“ 58