zahlavi-IBA logo-IBA logo-MU © Institut biostatistiky a analýz Pokročilé metody analýzy dat v neurovědách Jaro 2016 RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Blok 8 Klasifikace dat II 2 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Osnova 1.Klasifikace pomocí hranic – metoda podpůrných vektorů (SVM) 2.Další metody klasifikace 3.Hodnocení úspěšnosti klasifikace a srovnání klasifikátorů 3 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Klasifikace pomocí hranic – metoda podpůrných vektorů (SVM) 4 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Typy klasifikátorů – podle principu klasifikace 5 •klasifikace pomocí diskriminačních funkcí: –diskriminační funkce určují míru příslušnosti k dané klasifikační třídě –pro danou třídu má daná diskriminační funkce nejvyšší hodnotu – •klasifikace pomocí min. vzdálenosti od etalonů klasif. tříd: –etalon = reprezentativní objekt(y) klasifikační třídy –počet etalonů klasif. třídy různý – od jednoho vzorku (např. centroidu) po úplný výčet všech objektů dané třídy (např. u klasif. pomocí metody průměrné vazby) • •klasifikace pomocí hranic v obrazovém prostoru: –stanovení hranic (hraničních ploch) oddělujících klasifikační třídy x1 x2 ? x1 x2 ? x2 x1 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 6 Motivace x1 x2 Hranice je nadplocha o rozměru o jedna menší než je rozměr prostoru •ve 2-rozměrném prostoru je hranicí křivka (v lineárním případě přímka) •v 3-rozměrném prostoru plocha (v lineárním případě rovina) Výpočet hranice různými metodami (např. Fisherova LDA, SVM apod. – viz dále) 2-rozměrný prostor 3-rozměrný prostor x1 x2 x3 než budeme probírat jednotlivé metody, které nám umožní vypočítat hranici, připomeneme si souvislost... logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 7 •použití pro lineární klasifikaci •princip: transformace do jednorozměrného prostoru tak, aby se třídy od sebe maximálně oddělily (maximalizace vzdálenosti skupin a minimalizace variability uvnitř skupin Fisherova lineární diskriminace (FLDA) projekce 1 x1 x2 pacienti kontroly centroid pacientů centroid kontrol •předpoklad: vícerozměrné normální rozdělení u jednotlivých skupin •ukázat projekci 1 a 2 – která je lepší? projekce 1 – větší vzdálenost centroidů x projekce 2 – menší SD → nejlepší je kombinace •FLDA lze odvodit pomocí Lagrangovy metody neurčitých koeficientů – v tištěných skriptech logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Metoda podpůrných vektorů (SVM) 8 Princip: Proložení klasifikační hranice tak, aby byla v co největší vzdálenosti od subjektů z obou tříd. pacienti kontroly x2 x1 hranice 1 hranice 2 Anglicky: Support Vector Machines Nevýhody: - vyžaduje stanovení parametrů (např. C) a případně i typu jádra Výhody: + nemá předpoklady o normálním rozdělení dat + lze využít pro lineární i pro nelineární klasifikaci -použít můj obrázek na slidu 9 a přikreslit tam ještě jeden směr projekce logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 9 Varianty SVM dle typu vstupních dat: x1 x2 a) x1 x2 b) x1 x2 c) a)lineární verze metody podpůrných vektorů pro lineárně separabilní třídy (anglicky maximal margin classifier) b)lineární verze metody podpůrných vektorů pro lineárně neseparabilní třídy (anglicky support vector classifier) c)nelineární verze metody podpůrných vektorů (anglicky support vector machine) Metoda podpůrných vektorů (SVM) – varianty která z hranic je lepší a proč? logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Metoda podpůrných vektorů (SVM) – princip 10 pacienti kontroly x2 x1 •proložení klasifikační hranice tak, aby byla v co největší vzdálenosti od subjektů z obou tříd → tzn. aby byl okolo hranice co nejširší pruh bez bodů (tzv. toleranční pásmo = margin) •na popis hranice stačí pouze nejbližší body, kterých je obvykle málo a nazývají se podpůrné vektory (support vectors) logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 11 Lineární SVM – lineárně separabilní třídy → řešení pomocí metody Lagrangeova součinitele logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Lineární SVM – vliv odlehlých hodnot 12 x1 x2 x1 x2 x1 x2 klasifikace v případě dat neobsahujících odlehlé hodnoty klasifikace v případě odlehlé hodnoty, která není podpůrným vektorem (poloha klasifikační hranice se nezmění) klasifikace v případě odlehlé hodnoty, která je podpůrným vektorem (poloha hranice se změní) → lepší použít lineární SVM pro lineárně neseparabilní třídy, kterou tato odlehlá hodnota téměř neovlivní -robustní klasifikátor, protože nám nevadí, když mezi ostatními objekty bude odlehlá hodnota (rozdíl oproti FLDA) -však není robustní vůči odlehlým hodnotám, které leží ve směru ke druhé skupině, protože v tom případě je tato odlehlá hodnota podpůrným vektorem a tedy ovlivňuje umístění hranice -Proto se tato nejjednodušší verze metody podpůrných vektorů v praxi příliš nepoužívá a spíše se používá její verze se zavedením tzv. relaxačních proměnných logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 13 Lineární SVM – lineárně neseparabilní třídy •3 situace: x1 x2 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 14 Lineární SVM – lineárně neseparabilní třídy •když chceme najít hranici poskytující co nejrobustnější klasifikaci, musíme se snažit: •řešíme opět pomocí metody Lagrangeova součinitele –maximalizovat šířku tolerančního pásma For large values of C, the optimization will choose a smaller-margin hyperplane if that hyperplane does a better job of getting all the training points classified correctly. Conversely, a very small value of C will cause the optimizer to look for a larger-margin separating hyperplane, even if that hyperplane misclassifies more points. For very tiny values of C, you should get misclassified examples, often even if your training data is linearly separable logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách SVM – vliv parametru C („box constraint“) 15 pacienti kontroly podpůrné vektory x1 x2 pacienti kontroly podpůrné vektory x1 x2 pacienti kontroly podpůrné vektory x1 x2 C = 0.1 C = 1 C = 10 •pro nízké hodnoty C – toleranční pásmo širší, ale počet subjektů v tolerančním pásmu a počet chybně klasifikovaných trénovacích subjektů vyšší • •pro vysoké hodnoty C – toleranční pásmo užší, ale počet subjektů v tolerančním pásmu a počet chybně klasifikovaných trénovacích subjektů nižší •zpravidla nevíme, jaká hodnota parametru C pro data nejvhodnější → klasifikace s několika hodnotami C a výběr toho výsledku, který je nejlepší (křížová validace) logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 16 Příklad pacienti kontroly testovací subjekt 1 2 3 4 5 6 4 5 6 7 8 9 10 11 12 13 Objem hipokampu na tabuli logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 17 pro obě C bude testovací subjekt zařazen do třídy pacientů For large values of C, the optimization will choose a smaller-margin hyperplane if that hyperplane does a better job of getting all the training points classified correctly. Conversely, a very small value of C will cause the optimizer to look for a larger-margin separating hyperplane, even if that hyperplane misclassifies more points. For very tiny values of C, you should get misclassified examples, often even if your training data is linearly separable logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách •princip: zobrazíme původní p-rozměrný obrazový prostor nelineární transformací pomocí jader (např. polynomiální nebo radiální bázová funkce) do nového m-rozměrného prostoru tak, aby v novém prostoru byly klasifikační třídy lineárně separabilní 18 Nelineární SVM logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 19 Nelineární SVM – ukázka logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 20 Anglicky: kernel Nelineární SVM – jádro která z hranic je lepší a proč? logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Další metody klasifikace 21 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Klasifikační (rozhodovací) stromy a lesy 22 Princip: Postupné rozdělování datasetu do skupin podle hodnot jednotlivých proměnných. Zmenšený hipokampus Zmenšená amygdala Zvětšené komory Pacient Kontrola Kontrola Pacient Ano Ne Ano Ne Ano Ne Klasifikační lesy – použití více klasifikačních stromů ke klasifikaci, každý strom zpravidla používá jen část původních dat (část subjektů nebo část proměnných). logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Neuronové sítě 23 Princip: Postupné učení neuronové sítě (tzn. postupné nastavování vah u jednotlivých neuronů), aby byla chyba klasifikace trénovací množiny minimální. Umožňuje nelineární klasifikaci. http://www.dtreg.com/PNNarchitecture2.jpg Vstupní vrstva 1. skrytá vrstva Výstupní vrstva 2. skrytá vrstva Více typů neuronových sítí – např.: •Vícevrstvé neuronové sítě typu perceptron •RBF (Radial Basis Function) sítě •LVQ (Learing Vector Quantization) sítě Nelineární klasifikace pacienti kontroly x1 x2 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Strukturální (syntaktické) klasifikátory 24 Princip: Vstupní data popsána relačními strukturami. Lze vytvořit i kombinované klasifikátory – jednotlivá primitiva doplněna příznakovým popisem. 001.jpg logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Poznámka •Nelze dopředu říci, která klasifikační metoda bude pro daná data fungovat nejlépe → potřebné vyzkoušet více klasifikačních metod a zvolit nejvhodnější pro daná data. •U velkých datových souborů je obtížné dopředu určit, zda je možné data oddělit lineárně nebo ne → potřebné vyzkoušet lineární i nelineární klasifikační metody. 25 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Hodnocení úspěšnosti klasifikace a srovnání klasifikátorů 26 - asi by bylo dobré sem dát nějaký motivační slide logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Hodnocení úspěšnosti klasifikace - úvod 27 Subjekt voxel 1 voxel 2 voxel 3 ... Skutečnost (správná třída) 1 pacient 2 pacient 3 pacient 4 kontrola 5 kontrola 6 kontrola pacient pacient kontrola kontrola pacient kontrola Vstupní data Výsledek klasifikace Jak dobrá je klasifikační metoda, kterou jsme použili? logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Hodnocení úspěšnosti klasifikace 28 Skutečnost (správná třída) Pacienti (+) Kontroly (-) Výsledek klasifikace Pacienti (+) TP FP Kontroly (-) FN TN Matice záměn (konfusní matice, confusion matrix): TP („true positive“) – kolik výsledků bylo skutečně pozitivních (tzn. kolik pacientů bylo správně diagnostikováno jako pacienti). FP („false positive“) – kolik výsledků bylo falešně pozitivních (tzn. kolik zdravých lidí bylo chybně diagnostikováno jako pacienti). FN („false negative“) – kolik výsledků bylo falešně negativních (tzn. kolik pacientů bylo chybně diagnostikováno jako zdraví). TN („true negative“) – kolik výsledků bylo skutečně negativních (tzn. kolik zdravých lidí bylo správně diagnostikováno jako zdraví). logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Hodnocení úspěšnosti klasifikace 29 Skutečnost (správná třída) Pacienti (+) Kontroly (-) Výsledek klasifikace Pacienti (+) TP FP Kontroly (-) FN TN TP+FN FP+TN Senzitivita (sensitivity) Specificita (specificity) TP / (TP+FN) TN / (FP+TN) Celková správnost (accuracy): (TP+TN)/(TP+FP+FN+TN) Chyba (error): (FP+FN)/(TP+FP+FN+TN) logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Příklad – klasifikace pomocí FLDA 30 Subjekt Skuteč-nost Výsledek LDA 1 P P 2 P P 3 P K 4 K K 5 K P 6 K K Výsledek klasifikace Skutečnost (správná třída) Pacienti (+) Kontroly (-) Pacienti (+) TP=2 FP=1 Kontroly (-) FN=1 TN=2 Senzitivita: TP/(TP+FN)=2/(2+1)=0,67 Specificita: TN/(FP+TN)=2/(1+2)=0,67 Správnost: (TP+TN)/(TP+FP+FN+TN)=(2+2)/(2+1+1+2)=0,67 Chyba: (FP+FN)/(TP+FP+FN+TN)=(1+1)/(2+1+1+2)=0,33 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Intervaly spolehlivosti pro celkovou správnost 31 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Příklad – pokračování 32 IS pro správnost: Správnost: (TP+TN)/(TP+FP+FN+TN) = 0,67 -intervaly spolehlivosti jsou tady hodně široké – je to způsobeno malým N logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Trénovací a testovací data 33 •4. křížová validace (cross validation) ‐k-násobná (k-fold) ‐„odlož-jeden-mimo“ (leave-one-out, jackknife) 1. resubstituce 2. náhodný výběr s opakováním (bootstrap) 3. predikční testování externí validací (hold-out) Asi vás už napadlo, že zřejmě není úplně fér, aby se klasifikátor natrénoval na nějakých datech a na těch samých datech se i otestoval... - křížová validace se v češtině někdy nazývá i jako příčná validace logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 1. resubstituce 34 •stejná trénovací a testovací množina •výhody: + jednoduché + rychlé •nevýhody: - příliš optimistické výsledky!!! -jaké to může mít výhody? -jaké nevýhody? logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 2. náhodný výběr s opakováním (bootstrap) 35 •náhodně vybereme N subjektů s opakováním jako trénovací data (tzn. subjekty se v trénovací sadě mohou opakovat) a zbylé subjekty (ani jednou nevybrané) použijeme jako testovací data •pro rozumně velká data se vybere zhruba 63,2% subjektů pro učení a 36,8% subjektů pro testování •trénování a testování se provede jen jednou •výhody: + velká trénovací sada + rychlé •nevýhody: - data se v trénovací sadě opakují - výsledek vcelku závislý na výběru trénovacích dat -v jaké spojitosti znají bootstrap? (při výpočtu intervalů spolehlivosti – např. u CLFS a CCI) -nakreslit na tabuli logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 3. predikční testování externí validací (hold-out) 36 •použití části dat (většinou dvou třetin) na trénování a zbytku dat (třetiny) na testování •výhody: + nezávislá trénovací a testovací sada •nevýhody: - méně dat pro trénování i testování - výsledek velmi závislý na výběru trénovacích dat trénovací data testovací data logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 3. predikční testování externí validací (hold-out) – modifikace 1 37 •použití části dat (obvykle poloviny) pro trénování a zbytku (poloviny) pro testování a následné přehození testovací a trénovací sady → zprů- měrování 2 výsledků klasifikace •výhody: + nezávislá trénovací a testovací sada •nevýhody: - při malých souborech může být polovina dat pro trénování příliš málo - výsledek velmi závislý na výběru trénovacích dat (i když trochu méně než předtím) trénovací data testovací data testovací data trénovací data -je to totéž co 2-fold CV! -rozdíl je v tom, že se tady zprůměrovávají výsledky dvou klasifikací, zatím co u CV se přiřadí odhadnutá třída druhé polovině dat a následně první polovině dat a správnost a další ukazatele úspěšnosti klasifikace se pak spočítají na celém souboru (nemusí to tak ale používat všichni vědci – je v tom trochu zmatek) logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 3. predikční testování externí validací (hold-out) – modifikace 2 38 •r-krát náhodně rozdělíme soubor na trénovací a testovací data (většinou dvě třetiny pro trénování a třetinu pro testování) a r výsledků zprůměrujeme •výhody: + poměrně přesný odhad úspěšnosti klasifikace •nevýhody: - trénovací i testovací sady se překrývají - časově náročné trénovací data testovací data iterace 1 iterace 2 iterace 3 iterace 4 iterace r ... -samozřejmě se takto nevybírá celý blok pro testování – je to náhodné, ale obrázek by byl příliš nepřehledný, kdyby každý subjekt (každý miniřádek) byl jinou barvou -co by to mohlo mít za nevýhody? logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 39 •používán též název příčná validace •rozdělení souboru na k částí, 1 část použita na testování a zbylých k-1 částí na trénování → postup se opakuje (všechny části 1x použity pro testování) •speciálním případem je „odlož-jeden-mimo“ (leave-one-out) CV (pro k=N) •výhody: + testovací sady se nepřekrývají + poměrně přesný odhad úspěšnosti klasifikace •nevýhody: - časově náročné 4. k-násobná křížová validace (k-fold cross validation) testování trénování trénování trénování trénování např. pro k=5: iterace 1 iterace 2 iterace 3 iterace 4 iterace 5 trénování testování trénování trénování trénování trénování trénování testování trénování trénování trénování trénování trénování testování trénování trénování trénování trénování trénování testování -zajištění, aby v testovacích sadách byl dostatek pacientů i kontrol – jaký je podíl pacientů a kontrol v celém souboru, tak se rozdělí i do jednotlivých podskupin, aby byl zachován tento podíl -pokud jsou skupiny velmi nevyrovnané, řešením je udělat podvýběr početnější skupiny, aby podvýběr obsahoval stejný počet subjektů jako méně početné skupiny a provést krosvalidaci; je dobré udělat několikrát (např. 10x) náhodný podvýběr a výsledky zprůměrovat logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách „odlož-jeden-mimo“ křížová validace •platí výhody a nevýhody zmíněné u k-násobné křížové validace se čtyřmi komentáři: ‐časově nejnáročnější ze všech možných k ‐velmi vhodná pro malé soubory dat ‐na rozdíl od jakékoliv k-fold CV dostaneme vždy pouze jeden výsledek úspěšnosti (tzn. výsledek úspěšnosti nezávisí na tom, jak se jednotlivé subjekty „namíchají“ do jednotlivých skupin) ‐v některých článcích se uvádí, že lehce nadhodnocuje úspěšnost → doporučuje se 10-násobná křížová validace 40 •anglický překlad: leave-one-out (nebo jackknife) • •pro k=N (tzn. v každé z N iterací je jeden subjekt použit na testování a zbylých N-1 subjektů na trénování) logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Příklad - „odlož-jeden-mimo“ křížová validace 41 pacient kontrola kontrola kontrola pacient kontrola 1 2 3 4 5 6 iter. 1 iter. 2 iter. 3 iter. 4 iter. 5 iter. 6 1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6 Skutečnost: pacient pacient pacient kontrola kontrola kontrola Výsledek klasifikace Skutečnost pac. kont. pacient TP=1 FP=1 kontrola FN=2 TN=2 Iterace: Výsledek klasifikace: pacient kontrola kontrola kontrola pacient kontrola Senzitivita: 1/(1+2)=0,33 Specificita: 2/(1+2)=0,67 Správnost: (1+2)/(1+1+2+2)=0,50 Chyba: (1+2)/(1+1+2+2)=0,50 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Upozornění !!! 42 •Postup 1 je nesprávný, je potřebné rozdělit soubor na trénovací a testovací ještě před redukcí dat, jinak dostaneme nadhodnocené výsledky!!! Data Předzpra- cování Redukce Klasifikace Trénovací data Testovací data Naučení klasifikátoru Data Předzpra- cování Redukce Klasifikace Trénovací data Testovací data Naučení klasifikátoru Postup 1: Postup 2: Redukce logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Je klasifikace lepší než náhodná klasifikace? •permutační testování •jednovýběrový binomický test • 43 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Permutační testování 44 PA 0,5 → odsud už tam nemám žádné animace nebylo by špatné přidat příklad na permutační testování logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Jednovýběrový binomický test 45 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Příklad – jednovýběrový binomický test 46 •nezamítnutí nulové hypotézy vyplývá už i z vypočteného intervalu spolehlivosti (0,29 – 1,00), protože tento interval spolehlivosti obsahuje hodnotu 0,5 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Srovnání úspěšnosti klasifikace •Srovnání 2 klasifikátorů •Srovnání 3 a více klasifikátorů • 47 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Srovnání 2 klasifikátorů 48 McNemarův test: Dvouvýběrový binomický test: Dvouvýb. binomický test předpokládá nezávislost (tzn. že každý klasifikátor byl testován na jiném testovacím souboru) → raději používat McNemarův test Celkem: do budoucna potřeba nahradit Nts za N logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Příklad – srovnání 2 klasifikátorů 49 Lineární diskriminační analýza (LDA) Metoda 9 nejbližších sousedů (9-nn) logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Příklad – srovnání 2 klasifikátorů 50 Matice záměn: McNemarův test: Dvouvýb. binomický test: 9-nn LDA správnost správnost Shody u klasifikátorů: v budoucnu přepsat vzorce a předělat des. tečky za čárky (stejně by bylo dobré předělat to na vlastní příklad – např. srovnání LDA na 3 pacientech a 3 kontrolách a Bayesův klasifikátor nebo nějaká shlukovka apod.) logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Srovnání 3 a více klasifikátorů 51 Cochranův Q test: F-test: Looney doporučuje F-test, protože je méně konzervativní. F-test vychází ze sumy čtverců mezi objekty a sumy čtverců pro klasifikátory logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Příklad – srovnání 3 a více klasifikátorů 52 Cochranův Q test: F-test: Matice záměn: 9-nn LDA Parzen správnost správnost správnost F-test vychází ze sumy čtverců mezi objekty a sumy čtverců pro klasifikátory v budoucnu přepsat vzorce a předělat des. tečky za čárky logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Hodnocení úspěšnosti klasifikace a srovnání klasifikátorů - shrnutí •výpočet úspěšnosti klasifikace (správnosti, chyby, senzitivity, specificity a přesnosti) pomocí matice záměn •výpočet intervalu spolehlivosti pro správnost a chybu •volba trénovacího a testovacího souboru: –resubstituce –náhodný výběr s opakováním (bootstrap) –predikční testování externí validací (hold-out) –křížová validace (cross validation): k-násobná, „odlož-jeden-mimo“ •srovnání úspěšnosti klasifikace s náhodnou klasifikací –permutační testování –jednovýběrový binomický test •srovnání úspěšnosti klasifikace 2 klasifikátorů: –McNemarův test –dvouvýběrový binomický test •srovnání úspěšnosti klasifikace 3 a více klasifikátorů: –Cochranův Q test –F-test 53 možná pak přidat krosvalidační testy – na konci přednášky AKD_predn_12_EJ z roku 2013 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Poděkování Příprava výukových materiálů předmětu „DSAN02 Pokročilé metody analýzy dat v neurovědách“ byla finančně podporována prostředky projektu FRMU č. MUNI/FR/0260/2014 „Pokročilé metody analýzy dat v neurovědách jako nový předmět na LF MU“ 54