© Institut biostatistiky a analýz Analýza a klasifikace dat – přednáška 6 RNDr. Eva Koriťáková, Ph.D. Hodnocení úspěšnosti klasifikace a srovnání klasifikátorů 2Koriťáková: Analýza a klasifikace dat Hodnocení úspěšnosti klasifikace - úvod 3Koriťáková: Analýza a klasifikace dat Subjekt voxel 1 voxel 2 voxel 3 ... Skutečnost (správná třída) 1 pacient 2 pacient 3 pacient 4 kontrola 5 kontrola 6 kontrola pacient pacient kontrola kontrola pacient kontrola Vstupní data Výsledek klasifikace Jak dobrá je klasifikační metoda, kterou jsme použili? Hodnocení úspěšnosti klasifikace 4Koriťáková: Analýza a klasifikace dat Skutečnost (správná třída) Pacienti (+) Kontroly (-) Výsledek klasifikace Pacienti (+) TP FP Kontroly (-) FN TN Matice záměn (konfusní matice, confusion matrix): TP („true positive“) – kolik výsledků bylo skutečně pozitivních (tzn. kolik pacientů bylo správně diagnostikováno jako pacienti). FP („false positive“) – kolik výsledků bylo falešně pozitivních (tzn. kolik zdravých lidí bylo chybně diagnostikováno jako pacienti). FN („false negative“) – kolik výsledků bylo falešně negativních (tzn. kolik pacientů bylo chybně diagnostikováno jako zdraví). TN („true negative“) – kolik výsledků bylo skutečně negativních (tzn. kolik zdravých lidí bylo správně diagnostikováno jako zdraví). Hodnocení úspěšnosti klasifikace 5Koriťáková: Analýza a klasifikace dat Skutečnost (správná třída) Pacienti (+) Kontroly (-) Výsledek klasifikace Pacienti (+) TP FP Kontroly (-) FN TN TP+FN FP+TN Senzitivita (sensitivity) Specificita (specificity) TP / (TP+FN) TN / (FP+TN) Celková správnost (accuracy): (TP+TN)/(TP+FP+FN+TN) Chyba (error): (FP+FN)/(TP+FP+FN+TN) Příklad – klasifikace pomocí FLDA 6Koriťáková: Analýza a klasifikace dat Subjekt Skuteč- nost Výsledek LDA 1 P P 2 P P 3 P K 4 K K 5 K P 6 K K Výsledek klasifikace Skutečnost (správná třída) Pacienti (+) Kontroly (-) Pacienti (+) TP=2 FP=1 Kontroly (-) FN=1 TN=2 Senzitivita: TP/(TP+FN)=2/(2+1)=0,67 Specificita: TN/(FP+TN)=2/(1+2)=0,67 Správnost: (TP+TN)/(TP+FP+FN+TN)=(2+2)/(2+1+1+2)=0,67 Chyba: (FP+FN)/(TP+FP+FN+TN)=(1+1)/(2+1+1+2)=0,33                 N PP P N PP P AA A AA A ˆ1ˆ 96,1ˆ; ˆ1ˆ 96,1ˆ Intervaly spolehlivosti pro celkovou správnost • celková správnost: 𝑇𝑃+𝑇𝑁 𝑇𝑃+𝐹𝑃+𝐹𝑁+𝑇𝑁 7Koriťáková: Analýza a klasifikace dat • z toho plyne: ෠𝑃𝐴 = 𝑁 𝑐𝑜𝑟 𝑁 (tedy 𝑁𝑐𝑜𝑟~𝐵𝑖(𝑁, 𝑃𝐴)) • za splnění předpokladů, že ෠𝑃𝐴 ∙ 𝑁 > 5, 1 − ෠𝑃𝐴 ∙ 𝑁 > 5 a 𝑁 > 30, lze spočítat 95% interval spolehlivosti pro správnost pomocí aproximace na normální rozdělení: Příklad – pokračování 8Koriťáková: Analýza a klasifikace dat  00,1;29,0                 N PP P N PP P AA A AA A ˆ1ˆ 96,1ˆ; ˆ1ˆ 96,1ˆ               6 66,0166,0 96,166,0; 6 66,0166,0 96,166,0 IS pro správnost: Správnost: (TP+TN)/(TP+FP+FN+TN) = 0,67 Trénovací a testovací data 9Koriťáková: Analýza a klasifikace dat 4. křížová validace (cross validation) ‐ k-násobná (k-fold) ‐ „odlož-jeden-mimo“ (leave-one-out, jackknife) 1. resubstituce 2. náhodný výběr s opakováním (bootstrap) 3. predikční testování externí validací (hold-out) 1. resubstituce 10Koriťáková: Analýza a klasifikace dat • stejná trénovací a testovací množina • výhody: + jednoduché + rychlé • nevýhody: - příliš optimistické výsledky!!! 2. náhodný výběr s opakováním (bootstrap) 11Koriťáková: Analýza a klasifikace dat • náhodně vybereme N subjektů s opakováním jako trénovací data (tzn. subjekty se v trénovací sadě mohou opakovat) a zbylé subjekty (ani jednou nevybrané) použijeme jako testovací data • pro rozumně velká data se vybere zhruba 63,2% subjektů pro učení a 36,8% subjektů pro testování • trénování a testování se provede jen jednou • výhody: + velká trénovací sada + rychlé • nevýhody: - data se v trénovací sadě opakují - výsledek vcelku závislý na výběru trénovacích dat 3. predikční testování externí validací (hold-out) 12Koriťáková: Analýza a klasifikace dat • použití části dat (většinou dvou třetin) na trénování a zbytku dat (třetiny) na testování • výhody: + nezávislá trénovací a testovací sada • nevýhody: - méně dat pro trénování i testování - výsledek velmi závislý na výběru trénovacích dat trénovací data testovací data 3. predikční testování externí validací (hold-out) – modifikace 1 13Koriťáková: Analýza a klasifikace dat • použití části dat (obvykle poloviny) pro trénování a zbytku (poloviny) pro testování a následné přehození testovací a trénovací sady → zprůměrování 2 výsledků klasifikace • výhody: + nezávislá trénovací a testovací sada • nevýhody: - při malých souborech může být polovina dat pro trénování příliš málo - výsledek velmi závislý na výběru trénovacích dat (i když trochu méně než předtím) trénovací data testovací data testovací data trénovací data 3. predikční testování externí validací (hold-out) – modifikace 2 14Koriťáková: Analýza a klasifikace dat • r-krát náhodně rozdělíme soubor na trénovací a testovací data (většinou dvě třetiny pro trénování a třetinu pro testování) a r výsledků zprůměrujeme • výhody: + poměrně přesný odhad úspěšnosti klasifikace • nevýhody: - trénovací i testovací sady se překrývají - časově náročné trénovací data testovací data iterace 1 iterace 2 iterace 3 iterace 4 iterace r... 15Koriťáková: Analýza a klasifikace dat • používán též název příčná validace • rozdělení souboru na k částí, 1 část použita na testování a zbylých k-1 částí na trénování → postup se opakuje (všechny části 1x použity pro testování) • speciálním případem je „odlož-jeden-mimo“ (leave-one-out) CV (pro k=N) • výhody: + testovací sady se nepřekrývají + poměrně přesný odhad úspěšnosti klasifikace • nevýhody: - časově náročné 4. k-násobná křížová validace (k-fold cross validation) testování trénování trénování trénování trénování např. pro k=5: iterace 1 iterace 2 iterace 3 iterace 4 iterace 5 trénování testování trénování trénování trénování trénování trénování testování trénování trénování trénování trénování trénování testování trénování trénování trénování trénování trénování testování „odlož-jeden-mimo“ křížová validace • platí výhody a nevýhody zmíněné u k-násobné křížové validace se čtyřmi komentáři: ‐ časově nejnáročnější ze všech možných k ‐ velmi vhodná pro malé soubory dat ‐ na rozdíl od jakékoliv k-fold CV dostaneme vždy pouze jeden výsledek úspěšnosti (tzn. výsledek úspěšnosti nezávisí na tom, jak se jednotlivé subjekty „namíchají“ do jednotlivých skupin) ‐ v některých článcích se uvádí, že lehce nadhodnocuje úspěšnost → doporučuje se 10-násobná křížová validace 16 • anglický překlad: leave-one-out (nebo jackknife) • pro k=N (tzn. v každé z N iterací je jeden subjekt použit na testování a zbylých N-1 subjektů na trénování) Koriťáková: Analýza a klasifikace dat Příklad - „odlož-jeden-mimo“ křížová validace 17Koriťáková: Analýza a klasifikace dat pacient kontrola kontrola kontrola pacient kontrola 1 2 3 4 5 6 iter. 1 iter. 2 iter. 3 iter. 4 iter. 5 iter. 6 1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6 Skutečnost: pacient pacient pacient kontrola kontrola kontrola Výsledek klasifikace Skutečnost pac. kont. pacient TP=1 FP=1 kontrola FN=2 TN=2 Iterace: Výsledek klasifikace: pacient kontrola kontrola kontrola pacient kontrola Senzitivita: 1/(1+2)=0,33 Specificita: 2/(1+2)=0,67 Správnost: (1+2)/(1+1+2+2)=0,50 Chyba: (1+2)/(1+1+2+2)=0,50 Upozornění !!! 18 Postup 1 je nesprávný, je potřebné rozdělit soubor na trénovací a testovací ještě před redukcí dat, jinak dostaneme nadhodnocené výsledky!!! Data Předzpra- cování Redukce Klasifikace Trénovací data Testovací data Naučení klasifikátoru Data Předzpra- cování Redukce Klasifikace Trénovací data Testovací data Naučení klasifikátoru Postup 1: Postup 2: Redukce Koriťáková: Analýza a klasifikace dat Je klasifikace lepší než náhodná klasifikace? • permutační testování • jednovýběrový binomický test 19Koriťáková: Analýza a klasifikace dat Permutační testování • r-krát náhodně přeházíme identifikátory příslušnosti do skupin u subjektů a provedeme klasifikaci (se stejným nastavením jako při použití originálních dat) 20 PA0,5 → Koriťáková: Analýza a klasifikace dat • p-hodnota se vypočte jako: Τ𝑛 𝑟, kde n je počet iterací, v nichž byla úspěšnost klasifikace (např. celková správnost) vyšší nebo rovna úspěšnosti klasifikace originálních dat (PA) • pozn. pokud histogram z r celkových správností získaných permutacemi neleží kolem 0,5 (v případě vyrovnaných skupin), máme v algoritmu zřejmě někde chybu! Jednovýběrový binomický test • testujeme, zda se liší celková správnost (což je podíl správně zařazených subjektů) od správnosti získané náhodnou klasifikací • správnost u náhodné klasifikace: 𝑃𝐴0 = ൗ𝑁 𝑖 𝑁, kde 𝑁𝑖 je počet subjektů nejpočetnější skupiny • 𝑧 = 𝑃 𝐴−𝑃 𝐴0 Τ𝑃 𝐴0 1−𝑃 𝐴0 𝑁 • Pokud 𝑧 >1,96, zamítáme nulovou hypotézu o shodnosti správnosti naší klasifikace a správnosti náhodné klasifikace 21Koriťáková: Analýza a klasifikace dat Příklad – jednovýběrový binomický test • 𝑧 = 𝑃 𝐴−𝑃 𝐴0 Τ𝑃 𝐴0 1−𝑃 𝐴0 𝑁 = 0,67−0,5 Τ0,5 1−0,5 6 = 0,83 22Koriťáková: Analýza a klasifikace dat • uvažujme např. výsledek klasifikace pacientů a kontrol pomocí LDA (pomocí resubstituce): 𝑃𝐴 = 0,67, 𝑁 = 6, 𝑃𝐴0 = ൗ𝑁 𝑖 𝑁 = 0,5 • protože 𝑧 <1,96, nezamítáme nulovou hypotézu o shodnosti správnosti naší klasifikace a správnosti náhodné klasifikace (tzn. neprokázali jsme, že by naše klasifikace byla lepší než náhodná klasifikace) • nezamítnutí nulové hypotézy vyplývá už i z vypočteného intervalu spolehlivosti (0,29 – 1,00), protože tento interval spolehlivosti obsahuje hodnotu 0,5 Srovnání úspěšnosti klasifikace • Srovnání 2 klasifikátorů • Srovnání 3 a více klasifikátorů 23Koriťáková: Analýza a klasifikace dat Srovnání 2 klasifikátorů 24 McNemarův test: Dvouvýběrový binomický test: Dvouvýb. binomický test předpokládá nezávislost (tzn. že každý klasifikátor byl testován na jiném testovacím souboru) → raději používat McNemarův test Klasifikátor 1 Klasifikátor 2 Správně (1) Chybně (0) Správně (1) 𝑁11 𝑁10 Chybně (0) 𝑁01 𝑁00 Celkem: Pokud χ2 > 3,841, zamítáme nulovou hypotézu H0 o shodnosti celkové správnosti klasifikace pomocí dvou klasifikátorů Pokud 𝑧 > 1,96, zamítáme nulovou hypotézu H0 o shodnosti podílu správně klasifikovaných subjektů dvou klasifikátorů 𝑁11 + 𝑁10 + 𝑁01 + 𝑁00 = 𝑁𝑡𝑠 Koriťáková: Analýza a klasifikace dat Příklad – srovnání 2 klasifikátorů 25 Lineární diskriminační analýza (LDA) Metoda 9 nejbližších sousedů (9-nn) Koriťáková: Analýza a klasifikace dat Příklad – srovnání 2 klasifikátorů 26 Matice záměn: McNemarův test: Dvouvýb. binomický test: Klasifikátor 1: LDA Klasifikátor 2: 9-nn Správně (1) Chybně (0) Správně (1) 𝑁11 = 82 𝑁10 = 2 Chybně (0) 𝑁01 = 10 𝑁00 = 6 9-nnLDA správnost správnost Protože χ2 > 3,841, zamítáme H0. Protože 𝑧 < 1,96, nezamítáme H0. Shody u klasifikátorů: Koriťáková: Analýza a klasifikace dat Srovnání 3 a více klasifikátorů 27 Cochranův Q test: F-test: Looney doporučuje F-test, protože je méně konzervativní. Testuje se, zda jsou statisticky významně odlišné správnosti klasifikátorů měřené na stejných testovacích datech – tzn. 𝐻0: 𝑝1 = 𝑝2 = ⋯ = 𝑝 𝐿 , kde 𝑝 𝐿 je správnost L-tého klasifikátoru. Poté je možno srovnávat správnosti klasifikátorů vždy po dvou, aby se zjistilo, které klasifikátory se od sebe liší. Pokud 𝑄 𝐶 > χ2 (𝐿 − 1), zamítáme H0. Pokud 𝐹𝑐𝑎𝑙 > 𝐹(𝐿 − 1, 𝐿 − 1 × 𝑁𝑡𝑠 − 1 ), zamítáme H0. Koriťáková: Analýza a klasifikace dat Příklad – srovnání 3 a více klasifikátorů 28 Cochranův Q test: F-test: Matice záměn: 9-nnLDA Parzen Protože 𝑄 𝐶 < χ2 𝐿 − 1 = 5,991, nezamítáme H0. Protože 𝐹𝑐𝑎𝑙 > 𝐹 2; 198 = 3,09, zamítáme H0. správnost správnost správnost Koriťáková: Analýza a klasifikace dat Shrnutí • výpočet úspěšnosti klasifikace (správnosti, chyby, senzitivity, specificity a přesnosti) pomocí matice záměn • výpočet intervalu spolehlivosti pro správnost a chybu • volba trénovacího a testovacího souboru: – resubstituce – náhodný výběr s opakováním (bootstrap) – predikční testování externí validací (hold-out) – křížová validace (cross validation): k-násobná, „odlož-jeden-mimo“ • srovnání úspěšnosti klasifikace s náhodnou klasifikací – permutační testování – jednovýběrový binomický test • srovnání úspěšnosti klasifikace 2 klasifikátorů: – McNemarův test – dvouvýběrový binomický test • srovnání úspěšnosti klasifikace 3 a více klasifikátorů: – Cochranův Q test – F-test 29Koriťáková: Analýza a klasifikace dat Hledání diagnostického cut-off pomocí ROC křivek 30Koriťáková: Analýza a klasifikace dat Diagnostické testy • Příklady: hodnocení úspěšnosti diagnostiky pomocí neuropsychologických testů, hodnocení úspěšnosti klasifikace pacientů s Alzheimerovou chorobou a kontrolních subjektů. • Diagnostický test u dané osoby indikuje přítomnost nebo nepřítomnost sledovaného onemocnění. • Osoba ve skutečnosti má nebo nemá sledované onemocnění. → Zajímají nás diagnostické schopnosti testu. 31 Skutečnost – přítomnost nemoci Ano Ne Výsledek diagnostického testu Pozitivní TP FP Negativní FN TN Senzitivita testu Specificita testu Prediktivní hodnota pozitivního testu Prediktivní hodnota negativního testu Koriťáková: Analýza a klasifikace dat ROC analýza – motivace • Výše zmíněné ukazatele diagnostické síly testů (senzitivita, specificita apod.) nelze použít u diagnostických testů, jejichž výstupem je spojitá (kvantitativní) proměnná (např. koncentrace analytu v krevním séru, systolický krevní tlak). • Výhoda, pokud na základě předchozích výzkumů známe dělicí body, které odlišují normální a patologické hodnoty spojité proměnné, pomocí nichž můžeme spojitou proměnnou binarizovat – tzn. vytvoření dvou kategorií „pozitivní“ / „negativní“ (např. „pod normou“ / „v normě“). • Pokud dělicí body nejsou známy předem, můžeme se je snažit nalézt pomocí ROC („Receiver Operating Characteristic“) křivky. • Cíle ROC analýzy: 1. Určit, zda je spojitá proměnná vhodná pro diagnostické odlišování zdravých a nemocných jedinců. 2. Nalezení dělicího bodu („cut-off point“) na škále hodnot spojité proměnné, který nejlépe odlišuje zdravé a nemocné jedince. 32Koriťáková: Analýza a klasifikace dat ROC analýza • Princip: Jakákoli hodnota spojité proměnné nějak rozlišuje zdravé a nemocné jedince, tzn. je spojena s nějakou senzitivitou a specificitou. 33 Nejlepší dělící bod („cut-off“) – nejvyšší sensitivita a specificita pro odlišení skupin – tzn. maximální součet hodnot senzitivity a specificity. Zdraví Nemocní ROC křivka senzitivita 1 - specificita Koriťáková: Analýza a klasifikace dat • Plocha pod ROC křivkou = „Area Under the Curve“ (AUC). • Nabývá hodnot od 0 do 1. • Slouží k vyjádření diagnostické síly (efektivity) testu. • Čím větší hodnota AUC, tím lepší diagnostický test je (hodnota AUC nad 0,75 většinou poukazuje na uspokojivou diskriminační schopnost testu). senzitivita 1 - specificita ROC analýza – plocha pod ROC křivkou 34 ROC křivka Koriťáková: Analýza a klasifikace dat ROC analýza – srovnání diagnostické síly různých testů • Lze srovnat i velmi rozdílné testy (např. testy založené na různých proměnných). 35 Zdroj: Dušek, Pavlík, Jarkovský, Koptíková, Analýza dat v Neurologii, Cesk Slov Neurol N 2011; 74/ 107(4) Diagnostický test AUC DT1 0,949 DT2 0,872 DT3 0,770 nejlepší nejhorší Koriťáková: Analýza a klasifikace dat senzitivita 1 - specificita ROC analýza – srovnání diagnostické síly různých testů 36 1 - specificita senzitivita ROC křivka dobře diskriminující test test nediskriminuje vůbec test diskriminuje „obráceně“ Koriťáková: Analýza a klasifikace dat ROC analýza – příklad 37 Příklad: Zjistěte, zda je MMSE skóre vhodné na diagnostiku mírné kognitivní poruchy (MCI). Najděte dělící bod (cut-off), který nejlépe odlišuje pacienty s MCI od kontrolních subjektů. Koriťáková: Analýza a klasifikace dat Coordinates of the Curve Test Result Variable(s): Positive if Less Than or Equal Toa Sensitivity 1 - Specificity Specificity Sensitivity + Specificity 22.00 0.000 0.000 1.000 1.000 23.50 0.002 0.000 1.000 1.002 24.50 0.101 0.000 1.000 1.101 25.50 0.239 0.004 0.996 1.235 26.50 0.399 0.022 0.978 1.377 27.50 0.581 0.061 0.939 1.520 28.50 0.749 0.217 0.783 1.531 29.50 0.924 0.574 0.426 1.350 31.00 1.000 1.000 0.000 1.000 ROC analýza – řešení v softwaru SPSS 38 • Analyze – ROC Curve – zadat Test Variable a State Variable (jako Value of State Variable zadat rizikovou kategorii) • na záložce Options lze zvolit, zda „Larger test result indicates more positive test“ nebo „Smaller test result indicates more positive test“ – Continue • zatržení „Standard error and confidence interval“ umožní k AUC vypočítat intervaly spolehlivosti a p-hodnotu • zatržení „Coordinate points of the ROC Curve“ umožní získat tabulku se senzitivitou a 1-specificitou pro jednotlivé cut-off body (po zkopírování této tabulku do Excelu je možno vypočítat specificitu a nalézt nejlepší cut- off) Koriťáková: Analýza a klasifikace dat Hledání cut-off – doplnění 1 - Specificita Senzitivita 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Plocha pod křivkou: AUC = 0.758 (95% IS: 0.657; 0.859) p<0.001 Bod ROC odpovídající hraničnímu bodu (cut-off) Sens Spec Sens+Spec 1.000 0.000 1.000 0.933 0.115 1.049 0.883 0.346 1.229 0.783 0.538 1.322 0.750 0.615 1.365 0.567 0.808 1.374 0.467 0.923 1.390 0.350 1.000 1.350 0.217 1.000 1.217 0.150 1.000 1.150 0.050 1.000 1.050 0.033 1.000 1.033 0.000 1.000 1.000 Příklad: 39Koriťáková: Analýza a klasifikace dat Kritérium Vzoreček Reference 1. Youdenova J statistika 1 – maximalizace vzdálenosti od diagonály max(𝑠𝑒 + 𝑠𝑝) • W. J. Youden (1950) “Index for rating diagnostic tests”. Cancer, 3, 32–35. • R-kový balík pROC • http://www.medicalbiostatisti cs.com/roccurve.pdf 2. Nejbližší bod levému hornímu rohu grafu min((1 − 𝑠𝑒)2 +(1 − 𝑠𝑝)2 ) • R-kový balík pROC • http://www.medicalbiostatisti cs.com/roccurve.pdf 3. Maximalizace součinu senzitivity a specificity max(𝑠𝑒 ∗ 𝑠𝑝) • R-kový balík OptimalCutpoints • dr. Budíková používá maximalizaci geometrického průměru sens a spec 1 Youdenova J statistika je definována jako: 𝐽 = 𝑠𝑒 + 𝑠𝑝 − 1; při hledání maxima lze ale člen (-1) zanedbat 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 1 2 Hledání cut-off – kritéria 40Koriťáková: Analýza a klasifikace dat Hledání cut-off – vážená kritéria (dle R balíku pROC) Kritérium Vzoreček Youdenova J statistika 1 – maximalizace vzdálenosti od diagonály max(𝑠𝑒 + 𝑟 ∗ 𝑠𝑝) Nejbližší bod levému hornímu rohu grafu min((1 − 𝑠𝑒)2 +𝑟 ∗ (1 − 𝑠𝑝)2 ) kde: 𝑟 = 1 − 𝑝𝑟𝑒𝑣𝑎𝑙𝑒𝑛𝑐𝑒 𝑐𝑜𝑠𝑡 ∗ 𝑝𝑟𝑒𝑣𝑎𝑙𝑒𝑛𝑐𝑒 𝑝𝑟𝑒𝑣𝑎𝑙𝑒𝑛𝑐𝑒 = 𝑛 𝑐𝑎𝑠𝑒𝑠 𝑛 𝑐𝑎𝑠𝑒𝑠 + 𝑛 𝑐𝑜𝑛𝑡𝑟𝑜𝑙𝑠 defaultně: 𝑝𝑟𝑒𝑣𝑎𝑙𝑒𝑛𝑐𝑒 = 0,5 a 𝑐𝑜𝑠𝑡 = 1 𝑐𝑜𝑠𝑡 – penalizace falešně negativních výsledků 41Koriťáková: Analýza a klasifikace dat Hledání cut-off – doplnění II 1 - Specificita Senzitivita 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Plocha pod křivkou: AUC = 0.758 (95% IS: 0.657; 0.859) p<0.001 Bod ROC odpovídající hraničnímu bodu (cut-off) Sens Spec Sens+ Spec closest. topleft Sens* Spec 1.000 0.000 1.000 1.000 0.000 0.933 0.115 1.049 0.787 0.108 0.883 0.346 1.229 0.441 0.306 0.783 0.538 1.322 0.260 0.422 0.750 0.615 1.365 0.210 0.462 0.567 0.808 1.374 0.225 0.458 0.467 0.923 1.390 0.290 0.431 0.350 1.000 1.350 0.423 0.350 0.217 1.000 1.217 0.614 0.217 0.150 1.000 1.150 0.723 0.150 0.050 1.000 1.050 0.903 0.050 0.033 1.000 1.033 0.934 0.033 0.000 1.000 1.000 1.000 0.000 42Koriťáková: Analýza a klasifikace dat 43Koriťáková: Analýza a klasifikace dat Příprava nových učebních materiálů pro obor Matematická biologie je podporována projektem OPVK č. CZ.1.07/2.2.00/28.0043 „Interdisciplinární rozvoj studijního oboru Matematická biologie“