Pokročilé metody analýzy dat v neurovědách IBA # RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2016 Blok 8 Klasifikace dat II Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^jjj- I^J 2 Osnova i- 1. Klasifikace pomocí hranic - metoda podpůrných vektorů (SVM) 2. Další metody klasifikace 3. Hodnocení úspěšnosti klasifikace a srovnání klasifikátorů Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách l^JJ Klasifikace pomocí hranic -metoda podpůrných vektorů (SVM) Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Typy klasifikátorů - podle principu klasifikace klasifikace pomocí diskriminačních funkcí: - diskriminační funkce určují míru příslušnosti k dané klasifikační třídě - pro danou třídu má daná diskriminační funkce nejvyšší hodnotu klasifikace pomocí min. vzdálenosti od etalonů klasif. tříd: - etalon = reprezentativní objekt(y) klasifikační třídy - počet etalonů klasif. třídy různý - od jednoho vzorku (např. centroidu) po úplný výčet všech objektů dané třídy (např. u klasif. pomocí metody průměrné vazby) o o \A A A A klasifikace pomocí hranic v obrazovém prostoru: - stanovení hranic (hraničních ploch) oddělujících klasifikační třídy Xn o 0 o, ,< 0 °*o • <>,;' o o/* /A AfA A /A A A . x. Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA Motivace 2-rozmerný prostor 3-rozmerný prostor x2A O ° O 0 0+0 O / O 0/A /a a a a a x. X, Hranice je nadplocha o rozměru o jedna menší než je rozměr prostoru • ve 2-rozměrném prostoru je hranicí křivka (v lineárním případě přímka) • v 3-rozměrném prostoru plocha (v lineárním případě rovina) Hranice je tedy dána rovnicí: h(x) = wTx + w0 = 0 Výpočet hranice různými metodami (např. Fisherova LDA, SVM apod. - viz dále) MU Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BA ^! 6 Fisherova lineární diskriminace (FLDA) použití pro lineární klasifikaci princip: transformace do jednorozměrného prostoru tak, aby se třídy od sebe maximálně oddělily (maximalizace vzdálenosti skupin a minimalizace variability uvnitř skupin O ° O ° °+o o/ O o/A /á A.A a /a a a O pacienti A kontroly + centroid pacientů + centroid kontrol o o /• 0 O'' o / o ; Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 9 Metoda podpůrných vektorů (SVM) - princip • proložení klasifikační hranice tak, aby byla v co největší vzdálenosti od subjektů z obou tříd -> tzn. aby byl okolo hranice co nejširší pruh bez bodů (tzv. toleranční pásmo = margin) • na popis hranice stačí pouze nejbližší body, kterých je obvykle málo a nazývají se podpůrné vektory (support vectors) MU Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ ^! 10 Lineární SVM - lineárně separabilní třídy Pro všechny body z trénovací množiny platí: wTx + w0 > 1 pro všechna x z a)D, wTx + w0 < —1 pro všechna x z úůh, což můžeme stručněji zapsat jako_ SXk(wTxk + w0) > 1, pro k=l,N, kde SXk = 1 pro xk ze třídy čod a 5Xt = -1 pro xk ze třídy čoh hledáme takové hodnoty w a w0, aby byla celková šířka tolerančního pásma 2 co největší 1 + 1 l|w|| ||w|| ||w|| hledat maximum funkce -r-r je to stejné, jako hledat minimum funkce a l|w||J J ,J 2 toto minimum se nezmění, když kladnou hodnotu v čitateli umocníme na druhou (což nám zjednoduší výpočty), takže dostáváme následující kriteriální funkci, jejíž hodnotu se snažíme minimalizovat: J(w, w0) = l|w|| -> řešení pomocí metody Lagrangeova součinitele Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA Lineární SVM - vliv odlehlých hodnot x1 klasifikace v případě dat neobsahujících odlehlé hodnoty klasifikace v případě odlehlé hodnoty, která není podpůrným vektorem (poloha klasifikační hranice se nezmění) x- Xl klasifikace v případě odlehlé hodnoty, která je podpůrným vektorem (poloha hranice se změní) -> lepší použít lineární SVM pro lineárně neseparabilní třídy, kterou tato odlehlá hodnota téměř neovlivní Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 12 Lineární SVM - lineárně neseparabilní třídy zavedeme relaxační proměnné 0 vyjadřující, jak moc každý bod porušuje podmínku ^fc(wTxfc + w0) > 1 3 situace: 1. objekt leží vně pásma a je správně klasifikován: Š;k = 0 2. objekt leží uvnitř pásma a je správně klasifikován (body s čtverečky): 0 < 1 podmínky jsou pak ve tvaru 5xfc(wTxk + w0) > 1-fk Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 13 Lineární SVM - lineárně neseparabilní třídy • když chceme najít hranici poskytující co nejrobustnější klasifikaci, musíme se snažit: - maximalizovat šířku tolerančního pásma - minimalizovat počet subjektů z trénovací množiny, které leží v tolerančním pásmu nebojsou dokonce špatně klasifikovány (tj. těch, pro které 0) • to můžeme vyjádřit jako minimalizaci kriteriální funkce: • kde C vyjadřuje poměr vlivu obou členů kriteriální funkce: - pro nízké hodnoty C bude toleranční pásmo širší a počet trénováních subjektů v tolerančním pásmu a počet chybně klasifikovaných trénovacích subjektů bude vyšší - pro vysoké hodnoty C bude toleranční pásmo užší, ale počet trénováních subjektů v tolerančním pásmu a počet chybně klasifikovaných trénovacích subjektů bude nižší • řešíme opět pomocí metody Lagrangeova součinitele N k=l Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách SVM - vliv parametru C („box constraint") C = 0.1 pacienti kontroly ° podpůrné vektory C= 1 -if- 'if 'if + + pacienti + kontroly podpůrné vektory C= 10 + + pacienti *■ kontroly o podpůrné vektory T T T ++++ + + ++++ + + \ ®\ \e pro nízké hodnoty C - toleranční pásmo širší, ale počet subjektů v tolerančním pásmu a počet chybně klasifikovaných trénovacích subjektů vyšší pro vysoké hodnoty C - toleranční pásmo užší, ale počet subjektů v tolerančním pásmu a počet chybně klasifikovaných trénovacích subjektů nižší zpravidla nevíme, jaká hodnota parametru C pro data nejvhodnější -> klasifikace s několika hodnotami C a výběr toho výsledku, který je nejlepší (křížová validace) Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 15 Příklad Příklad: Bylo provedeno měření objemu hipokampu a mozkových komor "2 12" "5 7" (v cm3) u 3 pacientů se schizofrenií a 3 kontrol: XD = 4 10 3 9 .3 8. .4 5. Určete, zda testovací subjekt x0 = [3,5 9] patří do skupiny pacientů či kontrolních subjektů pomocí metody podpůrných vektorů. 13 £ 12 • • pacienti | 11 • kontroly ^10 • • testovací subjekt #9 • • o | 8 • o 6 05 • 4 . 2 3 4 5 6 Objem hipokampu MU Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ ^! 16 Příklad - srovnání výsledků pro C = 1 a C = 10 c = i C = 10: 12r 0 10 ■ 2 0 0 pacienti kontroly testovací subjekt ■dělící přímka ■hranicetolerančního pásma pacienti - podpůrný vektor s žj = O kontroly - podpůrný vektor s ŕj = O pacienti - podpůrný vektor s!; > O kontroly - podpůrný vektor s ŕ; > O 2.5 3 3.5 objem hipokampu 4.5 12r O 10 O o pacienti kontroly testovací subjekt •dělící přímka hranice tolerančního pásma pacienti - podpůrný vektor s ř; = O kontroly ■ podpůrný vektor s ŕ; = O kontroly - podpůrný vektor s rj>0 3 3.5 objem hipokampu 4.5 Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 17 Nelineární SVM • princip: zobrazíme původní p-rozměrný obrazový prostor nelineární transformací pomocí jader (např. polynomiální nebo radiální bázová funkce) do nového m-rozměrného prostoru tak, aby v novém prostoru byly klasifikační třídy lineárně separabilní Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^jjj- I^J 18 Nelineární SVM - ukázka lineární oddělení obou tfíd zds neni možně X. T++. uměle zvýšení poctu dimnnľi (zde o x) I pozice elementů jedné třídy jsou zménény podél nové dimenze f^^^^^^ lineárni oddělení obou tri d pomocí ■-roviny i Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 19 Nelineární SVM - jádro Anglicky: kerne Brain stan 2 brain scan 4 HE" , r% Y\ 3 [, (4*-2)+(l*3) = -5 Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 20 Další metody klasifikace Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ISA ^ 21 Klasifikační (rozhodovací) stromy a lesy Princip: Postupné rozdělování datasetu do skupin podle hodnot jednotlivých proměnných. Zmenšený hipokampus Zvětšené komory Zmenšená amygdala \e An/X Pacient Kontrola Pacient Kontrola Klasifikační lesy - použití více klasifikačních stromů ke klasifikaci, každý strom zpravidla používá jen část původních dat (část subjektů nebo část proměnných). Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 22 Neuronové sítě Princip: Postupné učení neuronové sítě (tzn. postupné nastavování vah u jednotlivých neuronů), aby byla chyba klasifikace trénovací množiny minimální. Umožňuje nelineární klasifikaci. Vstupní vrstva x: 1. skrytá 2. skrytá vrstva vrstva Výstupní vrstva Více typů neuronových sítí - např.: • Vícevrstvé neuronové sítě typu perceptron • RBF (Radial Basis Function) sítě • LVQ (Learing Vector Quantization) sítě x- Nelineární klasifikace A A A O O A O O _\.---- ————— x o \ a i o o \; a a^ O O pacienti A kontroly Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 23 Strukturální (syntaktické) klasifikátory Princip: Vstupní data popsána relačními strukturami. Lze vytvořit i kombinované klasifikátory-jednotlivá primitiva doplněna příznakovým popisem. MU Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ ^! 24 Poznámka )- • Nelze dopředu říci, která klasifikační metoda bude pro daná data fungovat nejlépe -> potřebné vyzkoušet více klasifikačních metod a zvolit nejvhodnější pro daná data. • U velkých datových souborů je obtížné dopředu určit, zda je možné data oddělit lineárně nebo ne -> potřebné vyzkoušet lineární i nelineární klasifikační metody. Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^jjj- I^J 25 Hodnocení úspěšnosti klasifikace a srovnání klasifikátorů Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Hodnocení úspěšnosti klasifikace - úvod Vstupní data Subjekt voxel voxel voxel 12 3 Skutečnost (správná třída) 1 pacient 2 pacient 3 pacient 4 kontrola 5 kontrola 6 kontrola Výsledek klasifikace pacient pacient kontrola kontrola pacient kontrola Jak dobrá je klasifikační metoda, kterou jsme použili? Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 27 Hodnocení úspěšnosti klasifikace Matice záměn (konfusní matice, confusion matrix): Skutečnost (správná třída) Pacienti (+) Kontroly (-) Výsledek Pacienti W klasifikace Kontroly (-) TP FP FN TN TP („true positive") - kolik výsledků bylo skutečně pozitivních (tzn. kolik pacientů bylo správně diagnostikováno jako pacienti). FP („falše positive") - kolik výsledků bylo falešně pozitivních (tzn. kolik zdravých lidí bylo chybně diagnostikováno jako pacienti). FN („falše negative") - kolik výsledků bylo falešně negativních (tzn. kolik pacientů bylo chybně diagnostikováno jako zdraví). TN („true negative") - kolik výsledků bylo skutečně negativních (tzn. kolik zdravých lidí bylo správně diagnostikováno jako zdraví). MU Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BA ^! 28 Hodnocení úspěšnosti klasifikace Skutečnost (správná třída) Pacienti Kontroly (+) (-) Pacienti Výsledek (+) TP FP klasifikace Kontroly (-) FN TN TP+FN FP+TN 1 i Senzitivita Specificita (sensitivity) (specificity) TP/ (TP+FN) TN / (FP+TN) Celková správnost (accuracy): (TP+TN)/(TP+FP+FN+TN) Chyba (error): (FP+FN)/(TP+FP+FN+TN) MU Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ ^! 29 Příklad - klasifikace pomocí FLDA Subjekt Skuteč- Výsledek nost LDA 1 P P 2 P P 3 P K 4 K K 5 K P 6 K K Senzitivita:TP/(TP+FN)=2/(2+l)=0,67 Specificita:TN/(FP+TN)=2/(l+2)=0,67 Správnost: (TP+TN)/(TP+FP+FN+TN)=(2+2)/(2+l+l+2)=0,67 Chyba: (FP+FN)/(TP+FP+FN+TN)=(l+l)/(2+l+l+2)=0,33 MU Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BA ^! 30 Výsledek klasifikace Skutečnost (správná třída) Pacienti (+) Kontroly (-) Pacienti (+) Kontroly (-) TP=2 FN=1 FP=1 TN=2 Intervaly spolehlivosti pro celkovou správnost n x , . TP+TN A Nerror ce kova správnost: -=1---— M TP+FP+FN+TN N z toho plyne: PA = 1 - PE = ^ (tedy Ncor~Bi(N, PA)) • za splnění předpokladů, že PA ■ N > 5, (l-PA)-N>5 a N > 30, lze spočítat 95% interval spolehlivosti pro správnost pomocí aproximace na normální rozdělení: P a ~ 1.96 • Pa^-Pa). N A/;PA+L96- P a EM N MU Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách l|MJj 31 Příklad - pokračování Správnost: (TP+TN)/(TP+FP+FN+TN) = 0,67 IS pro správnost: Pa- 1.96 • , 1^3—3; A + 1 N 5 * a ' p 96. ^ Ě3J 0.66-1.96- iM*5EM«I;o,66 +1.96- "■«*> [0,29;1,00] Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 32 Trénovací a testovací data 1. resubstituce 2. náhodný výběr s opakováním (bootstrap) 3. predikční testování externí validací (hold-out) 4. křížová validace (cross validation) /c-násobná (/c-fold) „odlož-jeden-mimo" (leave-one-out, jackknife) Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ij^Jj 33 1. resubstituce • stejná trénovací a testovací množina • výhody: +jednoduché + rychlé • nevýhody: - příliš optimistické výsledky!!! Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^jjj- I^J 34 2. náhodný výběr s opakováním (bootstrap) • náhodně vybereme N subjektů s opakováním jako trénovací data (tzn. subjekty se v trénovací sadě mohou opakovat) a zbylé subjekty (ani jednou nevybrané) použijeme jako testovací data • pro rozumně velká data se vybere zhruba 63,2% subjektů pro učení a 36,8% subjektů pro testování • trénování a testování se provede jen jednou • výhody: + velká trénovací sada + rychlé • nevýhody: - data se v trénovací sadě opakují - výsledek vcelku závislý na výběru trénovacích dat Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ISA ^ 35 3. predikční testování externí validací (hold-out) použití části dat (většinou dvou třetin) na trénování a zbytku dat (třetiny) na testování výhody: + nezávislá trénovací a testovací sada nevýhody: - méně dat pro trénování i testování - výsledek velmi závislý na výběru trénovacích dat trénovací data testovací data Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 36 3. predikční testování externí validací (hold-out) -modifikace 1 použití části dat (obvykle poloviny) pro trénování a zbytku (poloviny) pro testování a následné přehození testovací a trénovací sady -> zprů-měrování 2 výsledků klasifikace výhody: + nezávislá trénovací a testovací sada trénovací data testovací data testovací data trénovací data nevýhody: - při malých souborech může být polovina dat pro trénování příliš málo - výsledek velmi závislý na výběru trénovacích dat (i když trochu méně než předtím) Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 37 3. predikční testování externí validací (hold-out) -modifikace 2 • r-krát náhodně rozdělíme soubor na trénovací a testovací data (většinou dvě třetiny pro trénování a třetinu pro testování) a r výsledků zprůměrujeme iterace 1 iterace 2 iterace 3 iterace 4 iterace r trénovací data testovací data • výhody: + poměrně přesný odhad úspěšnosti klasifikace • nevýhody: - trénovací i testovací sady se překrývají - časově náročné MU Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ ^! 38 4. /c-násobná křížová validace (/c-fold cross validation) i- • používán též název příčná validace • rozdělení souboru na k částí, 1 část použita na testování a zbylých k-1 částí na trénování -> postup se opakuje (všechny části lx použity pro testování) • speciálním případem je „odlož-jeden-mimo" (leave-one-out) CV (pro /c=N) napr. pro k=5: iterace 1 testování trénování trénování trénování trénování iterace 2 iterace 3 iterace 4 iterace 5 trénování testování trénování trénování trénování trénování trénování testování trénování trénování trénování trénování trénování testování trénování trénování trénování trénování trénování testování • výhody: + testovací sady se nepřekrývají + poměrně přesný odhad úspěšnosti klasifikace • nevýhody: - časově náročné MU Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ ^! 39 „odlož-jeden-mimo" křížová validace • anglický překlad: leave-one-out (nebo jackknife) • pro k=N (tzn. v každé z N iterací je jeden subjekt použit na testování a zbylých A/-1 subjektů na trénování) • platí výhody a nevýhody zmíněné u /c-násobné křížové validace se čtyřmi komentáři: - časově nejnáročnější ze všech možných k - velmi vhodná pro malé soubory dat - na rozdíl od jakékoliv /c-fold CV dostaneme vždy pouze jeden výsledek úspěšnosti (tzn. výsledek úspěšnosti nezávisí na tom, jak se jednotlivé subjekty „namíchají" do jednotlivých skupin) - v některých článcích se uvádí, že lehce nadhodnocuje úspěšnost -> doporučuje se 10-násobná křížová validace Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^jjj- I^J 40 Příklad - „odlož-jeden-mimo" křížová validace Iterace: iter. 1 iter. 2 iter. 3 iter. 4 iter. 5 iter. 6 Skutečnost: Výsledek klasifikace: pacient pacient pacient kontrola pacient kontrola kontrola kontrola kontrola pacient kontrola kontrola Výsledek klasifikace Skutečnost pac. kont. pacient kontrola TP=1 FP=1 FN=2 TN=2 Senzitivita: l/(l+2)=0,33 Specificita: 2/(l+2)=0,67 Správnost: (l+2)/(l+l+2+2)=0,50 Chyba: (l+2)/(l+l+2+2)=0,50 Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 41 Upozornění!!! Postup 1: Redukce Tré n ovací data i Testovací data Naučení klasifikátoru i______________,______________I Klasifikace í_____________________________* Postup 2: Tré n ovací data Testovací data Redukce ■__________ i Redukce ■_______________ Naučení klasifikátoru í______________,______________i Klasifikace í_____________________________* Postup 1 je nesprávný, je potřebné rozdělit soubor na trénovací a testovací ještě před redukcí dat, jinak dostaneme nadhodnocené výsledky!!! Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 42 Je klasifikace lepší než náhodná klasifikace? i-- • permutační testování • jednovýběrový binomický test Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ll^Jj 43 Permutační testování • r-krát náhodně přeházíme identifikátory příslušnosti do skupin u subjektů a provedeme klasifikaci (se stejným nastavením jako při použití originálních dat) • p-hodnota se vypočte jako: n/r, kde n je počet iterací, v nichž byla úspěšnost klasifikace (např. celková správnost) vyšší nebo rovna úspěšnosti klasifikace originálních dat (PA) • pozn. pokud histogram z r celkových správností získaných permutacemi neleží kolem 0,5, máme v algoritmu zřejmě někde chybu! Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^jjj- I^J 44 Jednovýběrový binomický test testujeme, zda se liší celková správnost (což je podíl správně zařazených subjektů) od správnosti získané náhodnou klasifikací správnost u náhodné klasifikace: PA =Ní/n> kde Nt je počet subjektů nejpočetnější skupiny z= P*-p*o pA0(l-PA0))/N Pokud |z| >1,96, zamítáme nulovou hypotézu o shodnosti správnosti naší klasifikace a správnosti náhodné klasifikace Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ij^Jj 45 Příklad - jednovýběrový binomický test • uvažujme např. výsledek klasifikace pacientů a kontrol pomocí LDA (pomocí resubstituce): PA = 0,67, N = 6, PAq = Ni/N = 0,5 • protože |z| <1,96, nezamítáme nulovou hypotézu o shodnosti správnosti naší klasifikace a správnosti náhodné klasifikace (tzn. neprokázali jsme, že by naše klasifikace byla lepší než náhodná klasifikace) • nezamítnutí nulové hypotézy vyplývá už i z vypočteného intervalu spolehlivosti (0,29 - 1,00), protože tento interval spolehlivosti obsahuje hodnotu 0,5 Pa-Pa o 0,67-0,5 = 0,83 Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Srovnání úspěšnosti klasifikace i- • Srovnání 2 klasifikátorů • Srovnání 3 a více klasifikátorů MU ,.....f Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách llMJj 47 Srovnání 2 klasifikátorů Klasifikátor 1 Klasifikátor 2 Správně (1) Chybně (0) Správně (1) Chybně (0) Nu N10 iVoi iV00 2 (IJVor -JViol- IV x — — Celkem: Nlt + N10 + N01 + iV00 = Nts McNemarův test: Pokud x2 > 3,841, zamítáme nulovou hypotézu H0 o shodnosti celkové správnosti klasifikace pomocí dvou klasifikátorů Dvouvýběrový binomický test: — d-> pí = Nu + Nm Pi = P = ÚP\ +P2) V(2p( 1 - p))/{Nts) rL Nu ' " N* Pokud |z| >1,96, zamítáme nulovou hypotézu H0 o shodnosti podílu správně klasifikovaných subjektů dvou klasifikátorů Dvouvýb. binomický test předpokládá nezávislost (tzn. že každý klasifikátor byl testován na jiném testovacím souboru) -> raději používat McNemarův test Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 48 Příklad - srovnání 2 klasifikátorů Lineární diskriminační analýza (LDA) Metoda 9 nejbližších sousedů (9-nn) ■V i Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 49 Příklad - srovnání 2 klasifikátorů LDA 9-nn Matice 42 8 44 6 záměn: 8 42 2 48 84% správnost 92% správnost Klasifikátor 1: Klasifikátor 2: 9-nn LDA__Správně (1)_Chybně (0) Správně (1) N1± = 82 N10 = 2 Chybně (0) N01 = 10 N00 = 6 Shody u klasifikátorů: McNemarův test: 49 2 (|10-2| - 1) A — — 10 + 2 12 4.0833 Dvouvýb. binomický test: 0.M - 0.92 z — Protože x2 > 3,841, zamítáme H0. yf{2 x 0.88 x 0.12V(U)0) Protože |z| < 1,96, nezamítáme H0. -1.7408 Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 50 Srovnání 3 a více klasifikátorů Testuje se, zda jsou statisticky významně odlišné správnosti klasifikátorů měřené na stejných testovacích datech -tzn. H0: p1 = p2 = ••• = pL , kde pL je správnost L-tého klasifikátorů. Poté je možno srovnávat správnosti klasifikátorů vždy po dvou, aby se zjistilo, které klasifikátory se od sebe liší. Cochranův Q test: Pokud Qc > y? (L — 1), zamítáme H0. F-test: MSA Fin\ — MSAB Pokud Fcal > F(L - 1, (L - 1) X (Nts - 1)), zamítáme H0. Looney doporučuje F-test, protože je méně konzervativní. S, W. Looney, A statistical technique fur cwraparing the accuracies of several classifiers. Pattern Recognition Letters^ 8:5-9, 1988, Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 51 Příklad - srovnání 3 a více klasifikátorů Matice záměn: LDA 9-nn Parzen 42 8 44 6 47 3 8 42 2 48 5 45 84% správnost 92% správnost 92% správnost 3 x (842 +922 + 922)- 2682 Cochranův O Qc = 2 x-—----^ 3.7647 wuuliaMUV ^ 3 x 268 - (80 x 9 + 11 x 4 + 6 x 1) test: Protože Qc < x2 — 1) — 5,991, nezamítáme H0. 0 2223 F-teSt: ^ = 777^7 ™ 4.0492 0.0549 Protože Fcal > F(2; 198) = 3,09, zamítáme H0. MU Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BA ^! 52 Hodnocení úspěšnosti klasifikace a srovnání klasifikátorů - shrnutí i- • výpočet úspěšnosti klasifikace (správnosti, chyby, senzitivity, specificity a přesnosti) pomocí matice záměn • výpočet intervalu spolehlivosti pro správnost a chybu • volba trénovacího a testovacího souboru: - resubstituce - náhodný výběr s opakováním (bootstrap) - predikční testování externí validací (hold-out) - křížová validace (cross validation): k-násobná, „odlož-jeden-mimo" • srovnání úspěšnosti klasifikace s náhodnou klasifikací - permutační testování - jednovýběrový binomický test • srovnání úspěšnosti klasifikace 2 klasifikátorů: - McNemarův test - dvouvýběrový binomický test • srovnání úspěšnosti klasifikace 3 a více klasifikátorů: - Cochranův Q test - F-test MU Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BA ^! 53 Poděkování Příprava výukových materiálů předmětu „DSAN02 Pokročilé metody analýzy dat v neurovědách" byla finančně podporována prostředky projektu FRMU č. MUNI/FR/0260/2014 „Pokročilé metody analýzy dat v neurovědách jako nový předmět na LF MU" Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^jjj- I^J 54