© Institut biostatistiky a analýz Pokročilé metody analýzy dat v neurovědách RNDr. Eva Koriťáková, Ph.D. doc. RNDr. Ladislav Dušek, Dr. Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Blok 7 Klasifikace dat I 2 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Osnova 1. Úvod do klasifikace dat 2. Klasifikace pomocí diskriminačních funkcí: ‐ lineární diskriminační funkce ‐ Bayesův klasifikátor 3. Klasifikace pomocí minimální vzdálenosti 4. Klasifikace pomocí hranic: ‐ Fisherova lineární diskriminační analýza 3 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úvod do klasifikace dat 4 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Schéma analýzy a klasifikace dat 5 Data Předzpracování Redukce Klasifikace nebo ? ?Klasifikace Data Předzpracování Redukce Ukázka - kognitivní data apod. Ukázka - obrazová data Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 1. Podpora diagnostiky onemocnění mozku (Alzheimerova choroba, schizofrenie atd.): Pacienti Zdravé subjekty Nový subjekt Pacient? x Zdravý? Proč používat klasifikaci dat? 6 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 2. Odhalení genetického onemocnění na základě dat s microarray experimentů: Pacienti Zdravé subjekty Nový subjekt Pacient? x Zdravý? Proč používat klasifikaci dat? 7 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 3. Zjištění demence a dalších onemocnění na základě kognitivních testů: Demence ano? x Demence ne? Proč používat klasifikaci dat? 8 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 4. Rozpoznání hmyzu: Nejedovaté housenky Jedovaté housenky Jedovatá nebo nejedovatá housenka? ? Proč používat klasifikaci dat? 9 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 5. Rozpoznání vadných výrobků: Matičky bez vady Matičky s vnitřní prasklinou Matička bez vady nebo s vnitřní prasklinou? ? Proč používat klasifikaci dat? 10 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 6. Rozpoznání tváře při vstupu do zabezpečené budovy: Má přístup do budovy Nemá přístup do budovy ? Dostane se do budovy: ano? x ne? Proč používat klasifikaci dat? 11 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Cíle klasifikace dat - shrnutí 12 • rozhodnutí o typu či charakteru objektu – např. že daný člověk může vstoupit do budovy či nikoliv, že zvíře je medvěd hnědý nebo medvěd lední apod. – klasifikační, resp. rozpoznávací úloha; • posouzení kvality stavu analyzovaného objektu – např. zda je pacient v pořádku, nebo má infarkt myokardu, cirhózu jater, apod. – opět klasifikační, resp. rozpoznávací úloha; • rozhodnutí o budoucnosti objektu – např. zda lze pacienta léčit a vyléčit, zda les po 20 letech odumře, jaké bude sociální složení obyvatelstva na daném území a v daném čase – klasifikační, resp. predikční úloha • poznámka: v některých oblastech se pojem predikce a klasifikace rozlišuje: – pojem klasifikace je používán, použije-li se klasifikačního algoritmu pro známá data; pokud jsou data nová, pro která apriori neznáme klasifikační třídu, pak hovoříme o predikci klasifikační třídy – pojem klasifikace používáme, pokud vybíráme identifikátor klasifikační třídy z určitého diskrétního konečného počtu možných identifikátorů; pokud určujeme (predikujeme) spojitou hodnotu, např. pomocí regrese, pak hovoříme o predikci, i když tento pojem nemá časovou dimenzi Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Klasifikace versus diskriminační analýza 13 • klasifikace – rozdělení (konkrétní či teoretické) dané skupiny (množiny) objektů na konečný počet dílčích skupin (podmnožin), v nichž všechny objekty mají dostatečně podobné společné vlastnosti. Předměty (jevy), které mají podobné uvažované vlastnosti tvoří třídu (skupinu). • diskriminační analýza – hledá vztah mezi kategoriální proměnnou a množinou vzájemně vázaných proměnných; je to podskupina klasifikačních metod • poznámka: analýza a klasifikace dat občas nazývána souhrnně jako: – „rozpoznávání obrazů“ (pattern recognition) – obraz nejen ve smyslu obraz mozku či obraz sítnice oka, ale ve smyslu popis (tzn. „obraz“) reálného objektu – „dolování z dat“ (data mining) – „strojové učení“ (machine learning) Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 14 Lineární separabilita lineárně separabilní úloha nelineárně separabilní úloha lineárně neseparabilní úloha lineárně separované klasifikační třídy x1 x2 x1 x2 x1 x2 a) b) c) Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 15 1. zachováme původní obrazový prostor a zvolíme nelineární hranici: Lineárně neseparabilní třídy – způsoby řešení 2. zobrazíme původní p-rozměrný obrazový prostor nelineární transformací do nového m-rozměrného prostoru tak, aby v novém prostoru byly klasifikační třídy lineárně separabilní a) definovanou obecně b) složenou po částech z lineárních úseků Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 16 1. klasifikace „jedna versus zbytek“ R-1 hranice oddělí jednu klasifikační třídu od všech dalších Klasifikace s více třídami • problematickým úsekům se můžeme vyhnout použitím diskriminačních funkcí (do r-té třídy ωr zařadíme obraz x za předpokladu, že gr(x) > gs(x) pro  r  s) → klasifikační hranice je průmět průsečíku gr(x) = gs(x) do obrazového prostoru – takto definovaný klasifikační prostor je vždy spojitý a konvexní 2. klasifikace „jedna versus jedna“ R(R-1)/2 binárních hranic mezi každými dvěma třídami Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Typy klasifikátorů – podle reprezentace vstupních dat 17 1. Podle reprezentace vstupních dat: – příznakové klasifikátory: paralelní x sekvenční – strukturální (syntaktické) klasifikátory – kombinované klasifikátory 2. Podle jednoznačnosti zařazení do skupin: – deterministické klasifikátory – pravděpodobnostní klasifikátory 3. Podle typů klasifikačních a učících algoritmů: – parametrické klasifikátory – neparametrické klasifikátory 4. Podle způsobu učení: – učení s učitelem: dokonalým x nedokonalým – učení bez učitele 5. Podle principu klasifikace: – klasifikace pomocí diskriminačních funkcí – klasifikace pomocí vzdálenosti od etalonů klasifikačních tříd – klasifikace pomocí hranic v obrazovém prostoru Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Typy klasifikátorů – podle reprezentace vstupních dat 18 • příznakové – vstupní data vyjádřena vektorem hodnot jednotlivých proměnných (příznaků): – paralelní – zpracování vektoru jako celku (např. Bayesův klasifikátor) – sekvenční – zpracování (občas i měření) proměnných postupně (např. klasifikační stromy) • strukturální (syntaktické) – vstupní data popsána relačními strukturami • kombinované – jednotlivá primitiva doplněna příznakovým popisem Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Typy klasifikátorů – dle jednoznačnosti zařazení do skupin 19 • deterministické klasifikátory: – každý objekt musí patřit do nějaké třídy a nemůže být současně ve více třídách – pozn. použití termínu „deterministický klasifikátor“ v případě, že klasifikátor daná data zpracuje vždy se stejným výsledkem (např. Bayesův klasifikátor) x „nedeterministický klasifikátor“, který může při opakovaném zpracování daných dat klasifikovat různě (např. neuronové sítě – záleží na tom, jaká bude inicializace) • pravděpodobnostní klasifikátory: – stanoví pravděpodobnost zařazení obrazů do daných klasifikačních tříd – např. člověk má s pravděpodobností 0,6 infarkt, s pstí 0,3 má atrofii srdeční komory a s pstí 0,1 je zdravý Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Typy klasifikátorů – dle typů klasifikačních a učících algoritmů 20 • parametrické klasifikátory: – potřeba nastavit či určit parametry – např. prahová klasifikace (potřeba stanovit práh), metoda podpůrných vektorů (potřeba stanovit parametr „C“) atd. • neparametrické klasifikátory: – není potřeba nastavovat žádné parametry – např. klasifikace podle vzdáleností od reprezentativního objektu (tzv. „etalonu“) skupin • pozn. z tohoto pohledu jsou klasifikační stromy parametrické klasifikátory, pokud to však hodnotíme ze statistického pohledu, jsou to neparametrické metody, protože nemají předpoklad normálního rozdělení Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Typy klasifikátorů – podle způsobu učení 21 • učení s učitelem – k dispozici trénovací množina, u níž známe zařazení každého objektu do jednotlivých klasifikačních tříd – učení s dokonalým učitelem – učitel se nemůže splést (tzn. předpokládáme, že všechny trénovací objekty jsou správně označené, že patří do dané třídy) – učení s nedokonalým učitelem – připouštíme, že v trénovací množině mohou být nesprávně označené subjekty (např. u některých duševních onemocnění se lékař může splést a označit pacienta za schizofrenika, i když trpí bipolární poruchou, což se však prokáže až za několik let, takže v naší trénovací množině je takto špatně zařazený subjekt) • učení bez učitele: – trénovací množina není k dispozici a často ani předem neznáme, jaké třídy (skupiny) se v datech budou vyskytovat – typickým příkladem je shlukování Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Typy klasifikátorů – podle principu klasifikace 22 • klasifikace pomocí diskriminačních funkcí: – diskriminační funkce určují míru příslušnosti k dané klasifikační třídě – pro danou třídu má daná diskriminační funkce nejvyšší hodnotu • klasifikace pomocí min. vzdálenosti od etalonů klasif. tříd: – etalon = reprezentativní objekt(y) klasifikační třídy – počet etalonů klasif. třídy různý – od jednoho vzorku (např. centroidu) po úplný výčet všech objektů dané třídy (např. u klasif. pomocí metody průměrné vazby) • klasifikace pomocí hranic v obrazovém prostoru: – stanovení hranic (hraničních ploch) oddělujících klasifikační třídy x1 x2 ? x1 x2 ? 0 1 2 3 4 5 6 7 4 6 8 10 12 14 0 0.05 x1x2 x2 x1 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Klasifikace pomocí diskriminačních funkcí 23 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Klasifikace pomocí diskriminačních funkcí 24 • diskriminační funkce gi(x) – vyjadřují míru příslušnosti objektu x do jednotlivých klasifikačních tříd • zařadíme x do takové třídy ωi, pro kterou je gi(x) maximální • matematicky: pro objekt x z třídy ωr platí, že gr(x) > gs(x) pro s =1,2,…,R a r ≠ s • pro klasifikaci do dvou tříd lze rozhodovací pravidlo klasifikátoru zapsat jako: ωk = d(x) = sign(g1(x) – g2(x)) • pokud d(x) ≥ 0 → zařazení x do třídy ω1 • pokud d(x) < 0 → zařazení x do třídy ω2 g(x) g1(x) g2(x) xxHw1 w2 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Souvislost klasifikace pomocí diskriminačních funkcí s klasifikací pomocí hranic 25 g(x) g1(x) g2(x) xxHw1 w2 hraniční bod Hranice mezi dvěma sousedními třídami ω1 a ω2 je určena průmětem průsečíku funkcí gr(x) a gs(x), definovaného rovnicí gr(x) = gs(x), do obrazového prostoru. Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Příklady diskriminačních funkcí 26 • nejjednodušším tvarem diskriminační funkce je lineární funkce: gr(x) = ar0 + ar1x1 + ar2x2 +…+ arpxp • diskriminační funkce na základě statistických vlastností množiny objektů: gr(x) = P(ωr|x) kde P(ωr|x) je pravděpodobnost zatřídění x do třídy ωr → Bayesův klasifikátor Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Bayesův klasifikátor 27 • diskriminační funkce určeny na základě statistických vlastností množiny obrazů • vyjdeme z Bayesova vzorce: 𝑃 𝜔 𝑘|𝐱 = 𝑝 𝐱|𝜔 𝑘 ∙𝑃 𝜔 𝑘 𝑝 𝐱 , kde  𝑃 𝜔 𝑘|𝐱 je aposteriorní podmíněná pravděpodobnost zatřídění obrazu x do třídy 𝜔 𝑘  𝑝 𝐱|𝜔 𝑘 je podmíněná hustota pravděpodobnosti výskytu obrazu 𝐱 ve třídě 𝜔 𝑘, 𝑘 = 1,2  𝑃 𝜔 𝑘 je apriorní pravděpodobnost třídy 𝜔 𝑘  𝑝 𝐱 je celková hustota pravděpodobnosti rozložení obrazu 𝐱 v celém obrazovém prostoru Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Bayesův klasifikátor – kritéria 28 • Kritérium maximální aposteriorní pravděpodobnosti • Kritérium minimální střední ztráty • kritérií existuje více, ale tyto dvě jsou základní a ostatní z nich lze zpravidla odvodit – např.: – kritérium minimální pravděpodobnosti chybného rozhodnutí – kritérium maximální pravděpodobnosti Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Bayesův kl. – kritérium maximální aposteriorní psti 29 • zatřídění obrazu x do třídy s větší aposteriorní pravděpodobností, tedy: když 𝑃 𝜔1|𝐱 ≥ 𝑃 𝜔2|𝐱 → zařazení x do třídy ω1 když 𝑃 𝜔1|𝐱 < 𝑃 𝜔2|𝐱 → zařazení x do třídy ω2 -5 0 5 10 15 20 0 0,02 0,04 0,06 0,08 0,10 0,12 x1 𝑃 𝜔1|𝐱 𝑃 𝜔2|𝐱 obraz, který chceme zatřídit Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 30 Příklad: Bylo provedeno měření objemu hipokampu a mozkových komor (v cm3) u 3 pacientů se schizofrenií a 3 kontrol: 𝐗 𝐷 = 2 12 4 10 3 8 , 𝐗 𝐻 = 5 7 3 9 4 5 . Určete, zda testovací subjekt 𝐱 = 3,5 9 patří do skupiny pacientů či kontrolních subjektů pomocí Bayesova klasifikátoru. Bayesův kl. – kritérium maximální aposteriorní psti pacienti kontroly testovací subjekt 1 2 3 4 5 6 4 5 6 7 8 9 10 11 12 13 Objem hipokampu Objemmozkovýchkomor Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 31 Příklad: Bylo provedeno měření objemu hipokampu a mozkových komor (v cm3) u 3 pacientů se schizofrenií a 3 kontrol: 𝐗 𝐷 = 2 12 4 10 3 8 , 𝐗 𝐻 = 5 7 3 9 4 5 . Určete, zda testovací subjekt 𝐱 = 3,5 9 patří do skupiny pacientů či kontrolních subjektů pomocí Bayesova klasifikátoru. Bayesův kl. – kritérium maximální aposteriorní psti 𝑛 𝐷 = 3; 𝑛 𝐻 = 3; 𝑛 = 6 Apriorní psti: 𝑃 𝜔 𝐷 = 𝑛 𝐷 𝑛 = 3 6 = 0,5 𝑃 𝜔 𝐻 = 𝑛 𝐻 𝑛 = 3 6 = 0,5 𝑃 𝜔 𝑘|𝐱 = 𝑝 𝐱|𝜔 𝑘 ∙ 𝑃 𝜔 𝑘 𝑝 𝐱 Podmíněné hustoty psti: 𝑝 𝐱|𝜔 𝑘 = 1 2𝜋 2 𝐒 𝑘 ∙ exp − 1 2 𝐱 − ത𝐱 𝑇 𝐒 𝑘 −1 𝐱 − ത𝐱 Označení a pomocné výpočty: Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 32 Příklad: Bayesův kl. – kritérium maximální aposteriorní psti 1. Klasifikace podle objemu mozkových komor: pacienti kontroly testovací subjekt 1 2 3 4 5 6 4 5 6 7 8 9 10 11 12 13 Objem hipokampu Objemmozkovýchkomor 4 5 6 7 8 9 10 11 12 13 Objemmozkovýchkomor 𝑃 𝜔 𝐷|x2 = 0,176∙0,5 0,1485 = 0,593 𝑃 𝜔 𝐻|x2 = 0,121∙0,5 0,1485 = 0,407 → subjekt zařazen do třídy pacientů Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 33 Příklad: Bayesův kl. – kritérium maximální aposteriorní psti 2. Klasifikace podle objemu hipokampu: pacienti kontroly testovací subjekt 1 2 3 4 5 6 4 5 6 7 8 9 10 11 12 13 Objem hipokampu Objemmozkovýchkomor 𝑃 𝜔 𝐷|x1 = 0,352∙0,5 0,352 = 0,5 𝑃 𝜔 𝐻|x1 = 0,352∙0,5 0,352 = 0,5 → nelze jednoznačně určit, kam subjekt zařadíme 1 2 3 4 5 6 Objem hipokampu Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 34 Příklad – klasifikace podle obou proměnných: Bayesův kl. – kritérium maximální aposteriorní psti pacienti kontroly testovací subjekt 0 1 2 3 4 5 6 7 4 6 8 10 12 14 0 0.05 x1x21 2 3 4 5 6 2468101214 X1[,1] X1[,2] 1 2 3 4 5 6 2468101214 X1[,1] X1[,2] 0.005 0.01 0.015 0.02 0.025 0.03 0.035 0.005 0.01 0.015 0.02 0.025 0.03 0.035 Objemmozkovýchkomor Objem hipokampu 𝑃 𝜔 𝐷|𝐱 = 0,078∙0,5 0,067 = 0,582 𝑃 𝜔 𝐻|𝐱 = 0,056∙0,5 0,067 = 0,418 → subjekt zařazen do třídy pacientů Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Bayesův kl. – kritérium minimální střední ztráty 35 • pokud rozepíšeme 𝑃 𝜔1|𝐱 = 𝑝 𝐱|𝜔1 ∙𝑃 𝜔1 𝑝 𝐱 a 𝑃 𝜔2|𝐱 = 𝑝 𝐱|𝜔2 ∙𝑃 𝜔2 𝑝 𝐱 , pak kritérium maximální aposteriorní pravděpodobnosti: když 𝑃 𝜔1|𝐱 ≥ 𝑃 𝜔2|𝐱 → zařazení x do třídy ω1 když 𝑃 𝜔1|𝐱 < 𝑃 𝜔2|𝐱 → zařazení x do třídy ω2 • můžeme přepsat jako: když 𝑝 𝐱|𝜔1 ∙ 𝑃 𝜔1 ≥ 𝑝 𝐱|𝜔2 ∙ 𝑃 𝜔2 → zařazení x do třídy ω1 když 𝑝 𝐱|𝜔1 ∙ 𝑃 𝜔1 < 𝑝 𝐱|𝜔2 ∙ 𝑃 𝜔2 → zařazení x do třídy ω2 • přičemž 𝑝 𝐱 můžeme vypustit, protože je v obou zlomcích stejné • pokud chceme do výpočtů zahrnout ztrátu při chybné klasifikaci obrazu ze třídy 𝜔𝑠 do třídy 𝜔 𝑟 (ztráta definována pomocí ztrátové funkce 𝜆 𝜔 𝑟|𝜔𝑠 ), dostáváme: když 𝑝 𝐱|𝜔1 ∙ 𝑃 𝜔1 ∙ 𝜆 𝜔2|𝜔1 − 𝜆 𝜔1|𝜔1 ≥ 𝑝 𝐱|𝜔2 ∙ 𝑃 𝜔2 ∙ 𝜆 𝜔1|𝜔2 − 𝜆 𝜔2|𝜔2 → zař. x do ω1 když 𝑝 𝐱|𝜔1 ∙ 𝑃 𝜔1 ∙ 𝜆 𝜔2|𝜔1 − 𝜆 𝜔1|𝜔1 < 𝑝 𝐱|𝜔2 ∙ 𝑃 𝜔2 ∙ 𝜆 𝜔1|𝜔2 − 𝜆 𝜔2|𝜔2 → zař. x do ω2 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Bayesův kl. – kritérium minimální střední ztráty 36 • ztrátové funkce 𝜆 𝜔 𝑟|𝜔𝑠 se obvykle zapisují do matice ztrátových funkcí:                   )()()( )()()( )()()( RR2R1R R22212 R12111     λ • např. 𝜆 = 0 1 2 0 → víc penalizuji, když je pacient nesprávně zařazen do třídy kontrolních subjektů (𝜔2), než když je kontrolní subjekt nesprávně zařazen do třídy pacientů (𝜔1) • prvky na diagonále 𝜆 𝜔1|𝜔1 bývají zpravidla nulové, protože při správném zařazení objektu ze třídy 𝜔1 do třídy 𝜔1 nevzniká žádná ztráta • např. 𝜆 = 0 2 1 0 → víc penalizuji, když je kontrolní subjekt nesprávně zařazen do třídy pacientů (𝜔1), než když je pacient nesprávně zařazen do třídy kontrolních subjektů (𝜔2) Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Bayesův klasifikátor – poznámka 37 • kromě nastavování ztrát je možné nastavovat i apriorní pravděpodobnosti -10 -5 0 5 10 15 20 25 0.000.050.100.15 x function(x)0.5*dnorm(x,mean=x1_mean[2],sd=sqrt(S1[2, -10 -5 0 5 10 15 20 25 0.000.050.100.15 x function(x)0.3*dnorm(x,mean=x1_mean[2],sd=sqrt(S1[2, Apriorní pravděpodobnosti stejné Apriorní pravděpodobnosti různé → zařazení objektu do červené třídy → zařazení objektu do černé třídy Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Klasifikace pomocí minimální vzdálenosti 38 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Typy klasifikátorů – podle principu klasifikace 39 • klasifikace pomocí diskriminačních funkcí: – diskriminační funkce určují míru příslušnosti k dané klasifikační třídě – pro danou třídu má daná diskriminační funkce nejvyšší hodnotu • klasifikace pomocí min. vzdálenosti od etalonů klasif. tříd: – etalon = reprezentativní objekt(y) klasifikační třídy – počet etalonů klasif. třídy různý – od jednoho vzorku (např. centroidu) po úplný výčet všech objektů dané třídy (např. u klasif. pomocí metody průměrné vazby) • klasifikace pomocí hranic v obrazovém prostoru: – stanovení hranic (hraničních ploch) oddělujících klasifikační třídy x1 x2 ? x1 x2 ? 0 1 2 3 4 5 6 7 4 6 8 10 12 14 0 0.05 x1x2 x2 x1 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 40 • nutno zvolit metriku vzdálenosti či podobnosti: 1. mezi jednotlivými objekty 2. mezi množinami objektů Klasifikace pomocí minimální vzdálenosti x1 x2 ? Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Typy metrik a konkrétní příklady – opakování 41 Metriky pro určení vzdálenosti mezi 2 objekty s kvantitativními proměnnými Deterministické metriky pro určení vzdálenosti mezi 2 množinami objektů MEZI DVĚMA OBJEKTY MEZI DVĚMA MNOŽINAMI OBJEKTŮ Metriky pro určení podobnosti 2 objektů s kvantitativními proměnnými Metriky pro určení podobnosti 2 objektů s kvalitativními proměnnými Metriky pro určení vzdálenosti mezi 2 objekty s kvalitativními proměnnými Metriky pro určení vzdálenosti mezi 2 množinami objektů používající jejich pravděpodobnostní charakteristiky Euklidova m., Hammingova (manhattanská) m., Minkovského m., Čebyševova m., Mahalanobisova m., Canberrská m. Skalární součin, m. kosinové podobnosti, Pearsonův korelační koeficient, Tanimotova m. Hammingova m. Metoda nejbližšího souseda, k nejbližších sousedů, nejvzdálenějšího souseda, průměrné vazby, Wardova metoda Chernoffova m., Bhattacharyyova m. atd. Tanimotova m., Jaccardův-Tanimotův a.k., RusselůvRaovův a.k., Sokalův-Michenerův a.k., Dicův k., Rogersův-Tanimotův k., Hamanův k. Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 42 Euklidova, Hammingova (manhattanská), Čebyševova metrika – opakování pacienti kontroly testovací subjekt 1 2 3 4 5 6 4 5 6 7 8 9 10 11 12 13 Objemmozkovýchkomor Objem hipokampu Euklidova metrika Hammingova (manhattanská) metrika Čebyševova metrika 1 2 3 4 5 6 4 5 6 7 8 9 10 11 12 13 Objemmozkovýchkomor Objem hipokampu 1 2 3 4 5 6 4 5 6 7 8 9 10 11 12 13 Objemmozkovýchkomor Objem hipokampu • zobecnění těchto 3 metrik: Minkovského metrika • začleněním inverze kovarianční matice získáváme Mahalanobisovu metriku Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Nejpoužívanější metriky pro určení vzdálenosti mezi dvěma množinami obrazů – opakování 43 • Metoda nejbližšího souseda • Metoda k nejbližších sousedů • Metoda nejvzdálenějšího souseda – obtížně použitelná pro klasifikaci • Centroidová metoda • Metoda průměrné vazby • Wardova metoda – zřídka používaná pro klasifikaci • poznámka: podobnost (resp. vzdálenost) mezi třídami dána: – „podobností“ jednoho obrazu s jedním či více obrazy jedné třídy (skupin, shluků) – použitelné při klasifikaci – „podobností“ skupin obrazů či „podobností“ jednoho obrazu z každé skupiny – použitelné při shlukování Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 44 • je-li d libovolná míra nepodobnosti (vzdálenosti) dvou objektů a 𝜔𝑖 a 𝜔𝑗 jsou libovolné skupiny objektů, potom metoda nejbližšího souseda definuje mezi skupinami 𝜔𝑖 a 𝜔𝑗 vzdálenost Metoda nejbližšího souseda ),(min),( qp x x jiNN xxdD jq ip       pacienti kontroly testovací subjekt x1 x2 • výhody a nevýhody použití této metody pro klasifikaci: + žádné předpoklady o rozložení - citlivé na odlehlé hodnoty - zpravidla nevhodné při nevyvážených počtech objektů ve skupinách → testovací subjekt zařadíme do třídy, ze které je jeho nejbližší soused Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 45 • zobecněním metody nebližšího souseda • definována vztahem tzn. vzdálenost dvou shluků je definována součtem nejkratších vzdáleností mezi objekty obou skupin Metoda k nejbližších sousedů pacienti kontroly testovací subjekt x1 x2 ,),(min),(     k qp x x jiNNk xxdD jq ip    • výhody a nevýhody použití této metody pro klasifikaci: + žádné předpoklady o rozložení + méně citlivé na odlehlé hodnoty - zpravidla nevhodné při nevyvážených počtech objektů ve skupinách → testovací subjekt zařadíme do třídy, která převažuje mezi jeho k nejbližšími sousedy Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 46 • vychází z výpočtu centroidů pro jednotlivé třídy 𝜔𝑖 a 𝜔𝑗 • při klasifikaci: zařazení subjektu do třídy s nejbližším centroidem Centroidová metoda pacienti kontroly testovací subjekt x1 x2 centroid pacientů centroid kontrol • výhody a nevýhody použití této metody pro klasifikaci: + žádné předpoklady o rozložení + méně citlivé na odlehlé hodnoty než metoda nejbližšího souseda + nebývá problém při nevyvážených počtech objektů ve skupinách Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 47 • vzdálenost dvou tříd je průměrná vzdálenost mezi všemi obrazy těchto tříd • při klasifikaci: zařazení subjektu do skupiny s nejmenší průměrnou vzdálenosti od všech obrazů dané skupiny Metoda průměrné vazby pacienti kontroly testovací subjekt x1 x2 • výhody a nevýhody použití této metody pro klasifikaci: + žádné předpoklady o rozložení + méně citlivé na odlehlé hodnoty než metoda nejbližšího souseda + nebývá problém při nevyvážených počtech objektů ve skupinách - časově náročnější než centroidová metoda při větším počtu objektů Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Klasifikace pomocí hranic 48 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Typy klasifikátorů – podle principu klasifikace 49 • klasifikace pomocí diskriminačních funkcí: – diskriminační funkce určují míru příslušnosti k dané klasifikační třídě – pro danou třídu má daná diskriminační funkce nejvyšší hodnotu • klasifikace pomocí min. vzdálenosti od etalonů klasif. tříd: – etalon = reprezentativní objekt(y) klasifikační třídy – počet etalonů klasif. třídy různý – od jednoho vzorku (např. centroidu) po úplný výčet všech objektů dané třídy (např. u klasif. pomocí metody průměrné vazby) • klasifikace pomocí hranic v obrazovém prostoru: – stanovení hranic (hraničních ploch) oddělujících klasifikační třídy x1 x2 ? x1 x2 ? 0 1 2 3 4 5 6 7 4 6 8 10 12 14 0 0.05 x1x2 x2 x1 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 50 Motivace x1 x2 Hranice je nadplocha o rozměru o jedna menší než je rozměr prostoru • ve 2-rozměrném prostoru je hranicí křivka (v lineárním případě přímka) • v 3-rozměrném prostoru plocha (v lineárním případě rovina) Hranice je tedy dána rovnicí: h 𝐱 = 𝐰 𝑇 𝐱 + w0 = 0 Výpočet hranice různými metodami (např. Fisherova LDA, SVM, perceptron, metoda nejmenších čtverců apod.) 2-rozměrný prostor 3-rozměrný prostor x1 x2 x3 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Souvislost klasifikace pomocí diskriminačních funkcí s klasifikací pomocí hranic 51 Hranice mezi dvěma sousedními třídami ω1 a ω2 je určena průmětem průsečíku funkcí gr(x) a gs(x), definovaného rovnicí gr(x) = gs(x), do obrazového prostoru, tzn. g(x) g1(x) g2(x) xxHw1 w2 hraniční bod h 𝐱 = g1(x) – g2(x) = 0 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Souvislost klasifikace podle minimální vzdálenosti s klasifikací pomocí hranic 52 • tato hraniční přímka mezi klasifikačními třídami je vždy kolmá na spojnici obou etalonů a tuto spojnici půlí • body se stejnou vzdáleností od etalonů leží na kuželových plochách, které se protínají v parabole, jejíž průmět do obrazové roviny je přímka Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 53 • Hranice mezi klasifikačními třídami jsou dány průmětem diskriminačních funkcí do obrazového prostoru. • Klasifikace podle minimální vzdálenosti definuje hranici, která je kolmá na spojnici etalonů klasifikačních tříd a půlí ji. • Princip klasifikace dle minimální vzdálenosti vede buď přímo, nebo prostřednictvím využití metrik podobnosti k definici diskriminačních funkcí a ty dle prvního ze zde uvedených pravidel k určení hranic mezi klasifikačními třídami. Souvislost jednotlivých principů klasifikace - shrnutí Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 54 • jiný název: Fisherova lineární diskriminační analýza (FLDA) • použití pro lineární klasifikaci • princip: transformace do jednorozměrného prostoru tak, aby se třídy od sebe maximálně oddělily Fisherova lineární diskriminace projekce 1 projekce2 x1 x2 pacienti kontroly centroid pacientů centroid kontrol • předpoklad: vícerozměrné normální rozdělení u jednotlivých skupin Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 55 • podstatou FLDA tedy projekce do 1-D prostoru tak, že chceme: – maximalizovat vzdálenost skupin – minimalizovat variabilitu uvnitř skupin Fisherova lineární diskriminace – princip projekce 1 projekce2 x1 x2 pacienti kontroly centroid pacientů centroid kontrol • Fisherovo diskriminační kritérium je tedy ve tvaru: J 𝐰 = തy 𝐷 − തy 𝐻 2 s 𝐷 2 + s 𝐻 2 kde s 𝐷 2 a s 𝐻 2 jsou rozptyly uvnitř třídy pacientů resp. kontrol po projekci do 1-D prostoru a തy 𝐷 a തy 𝐻 jsou projekce centroidu třídy pacientů resp. kontrol Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 56 • Fisherovo diskriminační kritérium: J 𝐰 = ഥy 𝐷−ഥy 𝐻 2 s 𝐷 2 +s 𝐻 2 Fisherovo diskriminační kritérium – úpravy, výpočet • Fisher. diskr. kritérium lze rovněž vyjádřit jako: J 𝐰 = ഥy 𝐷−ഥy 𝐻 2 s 𝐷 2 +s 𝐻 2 = 𝐰T 𝐒 𝐵 𝐰 𝐰T 𝐒 𝑊 𝐰 , kde: – 𝐒 𝐵 je suma čtverců variability mezi skupinami – 𝐒 𝑊 je suma čtverců variability uvnitř skupin – 𝐰 je váhový vektor udávající směr 1-D prostoru, do něhož promítáme • z čehož po úpravách vypočteme váhový vektor 𝐰 jako: 𝐰 ~ 𝐒 𝑊 −1 ത𝐱 𝐷 − ത𝐱 𝐻 • hranice je pak dána: 𝐰 𝑻 𝐱 − ෤y = 0, kde ෤y je průmět hraničního bodu v 1-D prostoru a lze ho vypočítat jako: ෤y = ഥy 𝐷+ഥy 𝐻 2 • pokud chceme zařadit nový subjekt 𝐱0 do jedné z daných tříd, jeho průmět do 1-D prostoru (y0 = 𝐰T 𝐱0) srovnáme s průmětem hraničního bodu ෤y:  Pokud y0 < ෤y (přičemž തy 𝐻 < ෤y), subjekt zařadíme do skupiny kontrolních subjektů  Pokud y0 > ෤y (přičemž തy 𝐻 < ෤y), subjekt zařadíme do skupiny pacientů Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Souvislost lineární diskriminační analýzy s logistickou regresí • stejně jako lineární diskriminační analýzu lze i logistickou regresi použít pro zařazení objektů/subjektů do hodnocených skupin • hlavním cílem logistické regrese je ale identifikace vztahů mezi spojitými či binárními prediktory a binárním endpointem (výskyt onemocnění, úmrtí, komplikace atd.) a jejich popis pomocí poměru šancí (odds ratio) • logistická regrese patří do skupiny zobecněných lineárních modelů 57 • výstupy logistické regrese: Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Poděkování Příprava výukových materiálů předmětu „DSAN02 Pokročilé metody analýzy dat v neurovědách“ byla finančně podporována prostředky projektu FRMU č. MUNI/FR/0260/2014 „Pokročilé metody analýzy dat v neurovědách jako nový předmět na LF MU“ 58