Koriťáková, Dušek: Analýza dat pro neurovědy© Institut biostatistiky a analýz Analýza dat pro Neurovědy RNDr. Eva Koriťáková, Ph.D. doc. RNDr. Ladislav Dušek, Dr. Koriťáková, Dušek: Analýza dat pro neurovědy Blok 6 Jak analyzovat kategoriální a binární data II. 2 Koriťáková, Dušek: Analýza dat pro neurovědy Osnova 1. Hodnocení diagnostických testů 2. Hledání diagnostického cut-off pomocí ROC křivek 3 Koriťáková, Dušek: Analýza dat pro neurovědy 1. Hodnocení diagnostických testů 4 Koriťáková, Dušek: Analýza dat pro neurovědy Diagnostické testy • Příklady: hodnocení úspěšnosti diagnostiky pomocí neuropsychologických testů, hodnocení úspěšnosti klasifikace pacientů s Alzheimerovou chorobou a kontrolních subjektů. • Diagnostický test u dané osoby indikuje přítomnost nebo nepřítomnost sledovaného onemocnění. • Osoba ve skutečnosti má nebo nemá sledované onemocnění. → Zajímají nás diagnostické schopnosti testu. 5 Skutečnost – přítomnost nemoci Ano Ne Výsledek diagnostického testu Pozitivní TP FP Negativní FN TN Koriťáková, Dušek: Analýza dat pro neurovědy Diagnostické testy 6 • TP („true positive“) – kolik výsledků bylo skutečně pozitivních (tzn. kolik pacientů bylo správně diagnostikováno jako pacienti). • FP („false positive“) – kolik výsledků bylo falešně pozitivních (tzn. kolik zdravých jedinců bylo chybně diagnostikováno jako pacienti). • FN („false negative“) – kolik výsledků bylo falešně negativních (tzn. kolik pacientů bylo chybně diagnostikováno jako zdraví). • TN („true negative“) – kolik výsledků bylo skutečně negativních (tzn. kolik zdravých lidí bylo správně diagnostikováno jako zdraví). Skutečnost – přítomnost nemoci Ano Ne Výsledek diagnostického testu Pozitivní TP FP Negativní FN TN Koriťáková, Dušek: Analýza dat pro neurovědy Senzitivita, specificita a celková správnost • Senzitivita testu: schopnost testu rozpoznat skutečně nemocné osoby, tedy pravděpodobnost, že test bude pozitivní, když je osoba skutečně nemocná. Senzitivita testu = TP / (TP + FN) • Specificita testu: schopnost testu rozpoznat osoby bez nemoci, tedy pravděpodobnost, že test bude negativní, když osoba není nemocná. Specificita testu = TN / (FP + TN) • Celková správnost: (TP+TN)/(TP+FP+FN+TN) 7 Skutečnost – přítomnost nemoci Ano Ne Výsledek diagnostického testu Pozitivní TP FP Negativní FN TN Koriťáková, Dušek: Analýza dat pro neurovědy Pozitivní a negativní prediktivní hodnota • Prediktivní hodnota pozitivního testu: pravděpodobnost, že osoba je skutečně nemocná, když je test pozitivní. Prediktivní hodnota pozitivního testu = TP / (TP + FP) • U klasifikací označována jako přesnost („precision“). • Prediktivní hodnota negativního testu: pravděpodobnost, že osoba není nemocná, když je test negativní. Prediktivní hodnota negativního testu = TN / (FN + TN) 8 Skutečnost – přítomnost nemoci Ano Ne Výsledek diagnostického testu Pozitivní TP FP Negativní FN TN Koriťáková, Dušek: Analýza dat pro neurovědy Shrnutí 9 Skutečnost – přítomnost nemoci Ano Ne Výsledek diagnostického testu Pozitivní TP FP TP + FP Negativní FN TN FN + TN TP + FN FP + TN Senzitivita testu Specificita testu Prediktivní hodnota pozitivního testu Prediktivní hodnota negativního testu Koriťáková, Dušek: Analýza dat pro neurovědy Hodnocení diagnostických testů • Příklad: Zajímá nás přesnost diagnostiky schizofrenie pomocí neuropsychologických testů. Výsledky diagnostiky jsou dány tabulkou: • Výpočet pomocí webových kalkulátorů: – https://www.medcalc.org/calc/diagnostic_test.php – http://vassarstats.net/clin1.html 10 Výsledek diagnostického testu Skutečnost Nemocný Zdravý Celkem Nemocný 32 2 34 Zdravý 3 24 27 Celkem 35 26 61 Senzitivita testu = 32 / 35 = 91,4 % (IS = 75,8 – 97,8) Specificita testu = 24 / 26 = 92,3 % (IS = 73,4 – 98,7) Celková správnost = (32 + 24) / (32+2+3+24) = 91,8 % Pozitivní prediktivní hodnota testu = 32 / 34 = 94,1 % (IS = 78,9 – 99,0) Negativní prediktivní hodnota testu = 24 / 27 = 88,9 % (IS = 69,7 – 97,1) Koriťáková, Dušek: Analýza dat pro neurovědy Věrohodnostní poměr („Likelihood Ratio“) • Věrohodnostní poměr (LR) lze definovat následovně: • 2 druhy věrohodnostního poměru: 1. LR+ (LR pro pozitivní test) – podíl pravděpodobnosti, že nemocný člověk je testem diagnostikován jako pozitivní, a pravděpodobnosti, že zdravý člověk je chybně diagnostikován jako pozitivní. 2. LR- (LR pro negativní test) – podíl pravděpodobnosti, že nemocný člověk je testem chybně diagnostikován jako negativní, a pravděpodobnosti, že zdravý člověk je diagnostikován jako negativní. • U kvalitního diagnostického testu chceme, aby LR+ bylo co nejvyšší (LR+ > 10) a LR- co nejnižší (LR- < 0,1). 11 LR = (pravděpodobnost, že test dosáhne daného výsledku u nemocných pacientů) (pravděpodobnost, že test dosáhne daného výsledku u zdravých osob)  aspecificitasenzitivitLR  1/   aspecificitasenzitivitLR /1  Koriťáková, Dušek: Analýza dat pro neurovědy Věrohodnostní poměr • Příklad: Chceme zjistit věrohodnostní poměr pozitivního a negativního testu u diagnostiky schizofrenie pomocí neuropsychologických testů. 12 Výsledek diagnostického testu Skutečnost Nemocný Zdravý Celkem Nemocný 32 2 34 Zdravý 3 24 27 Celkem 35 26 61 Senzitivita testu = 32 / 35 = 91,4 % (IS = 75,8 – 97,8) Specificita testu = 24 / 26 = 92,3 % (IS = 73,4 – 98,7) LR+ = senzitivita / (1-specificita) = 0,914 / (1-0,923) = 11,870 LR- = (1-senzitivita) / specificita = (1-0,914 )/ 0,923 = 0,093 Koriťáková, Dušek: Analýza dat pro neurovědy Úkol 1. • Zadání: U 1000 žen byl proveden test, zda jejich dítě bude trpět Downovým syndromem. Výsledky jsou uvedené v tabulce. Vypočtěte senzitivitu, specificitu, pozitivní a negativní prediktivní hodnotu a věrohodnostní poměry pro diagnostický test. Zamyslete se nad tím, zda je test dobrý či nikoliv. 13 Výsledek diagnostického testu Skutečnost Zdravé dítě Dítě s Downovým syndromem Celkem Pozitivní 122 18 140 Negativní 857 3 860 Celkem 979 21 1000 Koriťáková, Dušek: Analýza dat pro neurovědy Úkol 1. • Řešení pomocí Medcalc: 14 Koriťáková, Dušek: Analýza dat pro neurovědy Úkol 1. • Řešení pomocí Vassarstats: 15 Koriťáková, Dušek: Analýza dat pro neurovědy Úkol 2. • Zadání: Zjistěte, jaká byla úspěšnost klasifikace pacientů s Alzheimerovou chorobou a kontrolních subjektů (použijte proměnné group_13_CnAd a group_klasif). 16 Řešení pomocí Medcalc: CN AD CN AD Koriťáková, Dušek: Analýza dat pro neurovědy Úkol 2. • Zadání: Zjistěte, jaká byla úspěšnost klasifikace pacientů s Alzheimerovou chorobou a kontrolních subjektů (použijte proměnné group_13_CnAd a group_klasif). 17 Řešení pomocí Vassarstats: CN AD CN AD Koriťáková, Dušek: Analýza dat pro neurovědy 2. Hledání diagnostického cut-off pomocí ROC křivek. 18 Koriťáková, Dušek: Analýza dat pro neurovědy ROC analýza – motivace • Dříve probrané ukazatele diagnostické síly testů (senzitivita, specificita apod.) nelze použít u diagnostických testů, jejichž výstupem je spojitá (kvantitativní) proměnná (např. koncentrace analytu v krevním séru, systolický krevní tlak). • Na základě předchozích výzkumů známe dělicí body, které odlišují normální a patologické hodnoty spojité proměnné, pomocí nichž můžeme spojitou proměnnou binarizovat – tzn. vytvoření dvou kategorií „pozitivní“ / „negativní“ (např. „pod normou“ / „v normě“). • Pokud dělicí body nejsou známy předem, můžeme se je snažit nalézt pomocí ROC („Receiver Operating Characteristic“) křivky. • Cíle ROC analýzy: 1. Určit, zda je spojitá proměnná vhodná pro diagnostické odlišování zdravých a nemocných jedinců. 2. Nalezení dělicího bodu („cut-off point“) na škále hodnot spojité proměnné, který nejlépe odlišuje zdravé a nemocné jedince. 19 Koriťáková, Dušek: Analýza dat pro neurovědy ROC analýza • Princip: Jakákoli hodnota spojité proměnné nějak rozlišuje zdravé a nemocné jedince, tzn. je spojena s nějakou senzitivitou a specificitou. 20 Nejlepší dělící bod („cut-off“) – nejvyšší sensitivita a specificita pro odlišení skupin – tzn. maximální součet hodnot senzitivity a specificity. Zdraví Nemocní ROC křivka senzitivita 1 - specificita Koriťáková, Dušek: Analýza dat pro neurovědy • Plocha pod ROC křivkou = „Area Under the Curve“ (AUC). • Nabývá hodnot od 0 do 1. • Slouží k vyjádření diagnostické síly (efektivity) testu. • Čím větší hodnota AUC, tím lepší diagnostický test je (hodnota AUC nad 0,75 většinou poukazuje na uspokojivou diskriminační schopnost testu). senzitivita 1 - specificita ROC analýza – plocha pod ROC křivkou 21 ROC křivka Koriťáková, Dušek: Analýza dat pro neurovědy senzitivita 1 - specificita ROC analýza – srovnání diagnostické síly různých testů 22 1 - specificita senzitivita ROC křivka dobře diskriminující test test nediskriminuje vůbec test diskriminuje „obráceně“ Koriťáková, Dušek: Analýza dat pro neurovědy ROC analýza – srovnání diagnostické síly různých testů • Lze srovnat i velmi rozdílné testy (např. testy založené na různých proměnných). 23 Zdroj: Dušek, Pavlík, Jarkovský, Koptíková, Analýza dat v Neurologii, Cesk Slov Neurol N 2011; 74/ 107(4) Diagnostický test AUC DT1 0,949 DT2 0,872 DT3 0,770 nejlepší nejhorší Koriťáková, Dušek: Analýza dat pro neurovědy ROC analýza 24 Příklad: Zjistěte, zda je MMSE skóre vhodné na diagnostiku mírné kognitivní poruchy (MCI). Najděte dělící bod (cut-off), který nejlépe odlišuje pacienty s MCI od kontrolních subjektů. MMSE skóre Sensitivity 1-Specificity Specificity Sensitivity + Specificity 22 0,000 0,000 1,000 1,000 23,5 0,002 0,000 1,000 1,002 24,5 0,101 0,000 1,000 1,101 25,5 0,239 0,004 0,996 1,235 26,5 0,399 0,022 0,978 1,377 27,5 0,581 0,061 0,939 1,520 28,5 0,749 0,217 0,783 1,531 29,5 0,924 0,574 0,426 1,350 31 1,000 1,000 0,000 1,000 Koriťáková, Dušek: Analýza dat pro neurovědy Hledání cut-off – doplnění 1 - Specificita Senzitivita 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Plocha pod křivkou: AUC = 0.758 (95% IS: 0.657; 0.859) p<0.001 Bod ROC odpovídající hraničnímu bodu (cut-off) Sens Spec Sens+Spec 1.000 0.000 1.000 0.933 0.115 1.049 0.883 0.346 1.229 0.783 0.538 1.322 0.750 0.615 1.365 0.567 0.808 1.374 0.467 0.923 1.390 0.350 1.000 1.350 0.217 1.000 1.217 0.150 1.000 1.150 0.050 1.000 1.050 0.033 1.000 1.033 0.000 1.000 1.000 Příklad: 25 Koriťáková, Dušek: Analýza dat pro neurovědy Kritérium Vzoreček Reference 1. Youdenova J statistika 1 – maximalizace vzdálenosti od diagonály max(𝑠𝑒 + 𝑠𝑝) • W. J. Youden (1950) “Index for rating diagnostic tests”. Cancer, 3, 32–35. • R-kový balík pROC • http://www.medicalbiostatisti cs.com/roccurve.pdf 2. Nejbližší bod levému hornímu rohu grafu min((1 − 𝑠𝑒)2 +(1 − 𝑠𝑝)2 ) • R-kový balík pROC • http://www.medicalbiostatisti cs.com/roccurve.pdf 3. Maximalizace součinu senzitivity a specificity max(𝑠𝑒 ∗ 𝑠𝑝) • R-kový balík OptimalCutpoints • dr. Budíková používá maximalizaci geometrického průměru sens a spec 1 Youdenova J statistika je definována jako: 𝐽 = 𝑠𝑒 + 𝑠𝑝 − 1; při hledání maxima lze ale člen (-1) zanedbat 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 1 2 Hledání cut-off – kritéria 26 Koriťáková, Dušek: Analýza dat pro neurovědy Hledání cut-off – vážená kritéria (dle R balíku pROC) Kritérium Vzoreček Youdenova J statistika 1 – maximalizace vzdálenosti od diagonály max(𝑠𝑒 + 𝑟 ∗ 𝑠𝑝) Nejbližší bod levému hornímu rohu grafu min((1 − 𝑠𝑒)2 +𝑟 ∗ (1 − 𝑠𝑝)2 ) kde: 𝑟 = 1 − 𝑝𝑟𝑒𝑣𝑎𝑙𝑒𝑛𝑐𝑒 𝑐𝑜𝑠𝑡 ∗ 𝑝𝑟𝑒𝑣𝑎𝑙𝑒𝑛𝑐𝑒 𝑝𝑟𝑒𝑣𝑎𝑙𝑒𝑛𝑐𝑒 = 𝑛 𝑐𝑎𝑠𝑒𝑠 𝑛 𝑐𝑎𝑠𝑒𝑠 + 𝑛 𝑐𝑜𝑛𝑡𝑟𝑜𝑙𝑠 defaultně: 𝑝𝑟𝑒𝑣𝑎𝑙𝑒𝑛𝑐𝑒 = 0,5 a 𝑐𝑜𝑠𝑡 = 1 𝑐𝑜𝑠𝑡 – penalizace falešně negativních výsledků 27 Koriťáková, Dušek: Analýza dat pro neurovědy Příklad - pokračování 1 - Specificita Senzitivita 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Plocha pod křivkou: AUC = 0.758 (95% IS: 0.657; 0.859) p<0.001 Bod ROC odpovídající hraničnímu bodu (cut-off) Sens Spec Sens+ Spec closest. topleft Sens* Spec 1.000 0.000 1.000 1.000 0.000 0.933 0.115 1.049 0.787 0.108 0.883 0.346 1.229 0.441 0.306 0.783 0.538 1.322 0.260 0.422 0.750 0.615 1.365 0.210 0.462 0.567 0.808 1.374 0.225 0.458 0.467 0.923 1.390 0.290 0.431 0.350 1.000 1.350 0.423 0.350 0.217 1.000 1.217 0.614 0.217 0.150 1.000 1.150 0.723 0.150 0.050 1.000 1.050 0.903 0.050 0.033 1.000 1.033 0.934 0.033 0.000 1.000 1.000 1.000 0.000 28 Koriťáková, Dušek: Analýza dat pro neurovědy Poděkování… Příprava výukových materiálů předmětu „DSAN01 Analýza dat pro Neurovědy “ byla finančně podporována prostředky projektu FRVŠ č. 942/2013 „Inovace materiálů pro interaktivní výuku a samostudium předmětu Analýza dat pro Neurovědy“ 29