Janoušová, Dušek: Analýza dat pro neurovědy© Institut biostatistiky a analýz Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Janoušová, Dušek: Analýza dat pro neurovědy Blok 6 Jak analyzovat kategoriální a binární data II. 2 Janoušová, Dušek: Analýza dat pro neurovědy Osnova 1. Hodnocení diagnostických testů 2. Hledání diagnostického cut-off pomocí ROC křivek 3 Janoušová, Dušek: Analýza dat pro neurovědy 1. Hodnocení diagnostických testů 4 Janoušová, Dušek: Analýza dat pro neurovědy Diagnostické testy • Příklady: hodnocení úspěšnosti diagnostiky pomocí neuropsychologických testů, hodnocení úspěšnosti klasifikace pacientů s Alzheimerovou chorobou a kontrolních subjektů. • Diagnostický test u dané osoby indikuje přítomnost nebo nepřítomnost sledovaného onemocnění. • Osoba ve skutečnosti má nebo nemá sledované onemocnění. → Zajímají nás diagnostické schopnosti testu. 5 Skutečnost – přítomnost nemoci Ano Ne Výsledek diagnostického testu Pozitivní TP FP Negativní FN TN Janoušová, Dušek: Analýza dat pro neurovědy Diagnostické testy 6 • TP („true positive“) – kolik výsledků bylo skutečně pozitivních (tzn. kolik pacientů bylo správně diagnostikováno jako pacienti). • FP („false positive“) – kolik výsledků bylo falešně pozitivních (tzn. kolik zdravých jedinců bylo chybně diagnostikováno jako pacienti). • FN („false negative“) – kolik výsledků bylo falešně negativních (tzn. kolik pacientů bylo chybně diagnostikováno jako zdraví). • TN („true negative“) – kolik výsledků bylo skutečně negativních (tzn. kolik zdravých lidí bylo správně diagnostikováno jako zdraví). Skutečnost – přítomnost nemoci Ano Ne Výsledek diagnostického testu Pozitivní TP FP Negativní FN TN Janoušová, Dušek: Analýza dat pro neurovědy Senzitivita, specificita a celková správnost • Senzitivita testu: schopnost testu rozpoznat skutečně nemocné osoby, tedy pravděpodobnost, že test bude pozitivní, když je osoba skutečně nemocná. Senzitivita testu = TP / (TP + FN) • Specificita testu: schopnost testu rozpoznat osoby bez nemoci, tedy pravděpodobnost, že test bude negativní, když osoba není nemocná. Specificita testu = TN / (FP + TN) • Celková správnost: (TP+TN)/(TP+FP+FN+TN) 7 Skutečnost – přítomnost nemoci Ano Ne Výsledek diagnostického testu Pozitivní TP FP Negativní FN TN Janoušová, Dušek: Analýza dat pro neurovědy Pozitivní a negativní prediktivní hodnota • Prediktivní hodnota pozitivního testu: pravděpodobnost, že osoba je skutečně nemocná, když je test pozitivní. ‖ Prediktivní hodnota pozitivního testu = TP / (TP + FP) • U klasifikací označována jako přesnost („precision“). • Prediktivní hodnota negativního testu: pravděpodobnost, že osoba není nemocná, když je test negativní. ‖ Prediktivní hodnota negativního testu = TN / (FN + TN) 8 Skutečnost – přítomnost nemoci Ano Ne Výsledek diagnostického testu Pozitivní TP FP Negativní FN TN Janoušová, Dušek: Analýza dat pro neurovědy Shrnutí 9 Skutečnost – přítomnost nemoci Ano Ne Výsledek diagnostického testu Pozitivní TP FP TP + FP Negativní FN TN FN + TN TP + FN FP + TN Senzitivita testu Specificita testu Prediktivní hodnota pozitivního testu Prediktivní hodnota negativního testu Janoušová, Dušek: Analýza dat pro neurovědy Hodnocení diagnostických testů • Příklad: Zajímá nás přesnost diagnostiky schizofrenie pomocí neuropsychologických testů. Výsledky diagnostiky jsou dány tabulkou: • Výpočet pomocí webového kalkulátoru : http://vassarstats.net/clin1.html 10 Výsledek diagnostického testu Skutečnost Nemocný Zdravý Celkem Nemocný 32 2 34 Zdravý 3 24 27 Celkem 35 26 61 Senzitivita testu = 32 / 35 = 91,4 % (IS = 75,8 – 97,8) Specificita testu = 24 / 26 = 92,3 % (IS = 73,4 – 98,7) Celková správnost = (32 + 24) / (32+2+3+24) = 91,8 % Pozitivní prediktivní hodnota testu = 32 / 34 = 94,1 % (IS = 78,9 – 99,0) Negativní prediktivní hodnota testu = 24 / 27 = 88,9 % (IS = 69,7 – 97,1) Janoušová, Dušek: Analýza dat pro neurovědy Věrohodnostní poměr („Likelihood Ratio“) • Věrohodnostní poměr (LR) lze definovat následovně: • 2 druhy věrohodnostního poměru: 1. LR+ (LR pro pozitivní test) – podíl pravděpodobnosti, že nemocný člověk je testem diagnostikován jako pozitivní, a pravděpodobnosti, že zdravý člověk je chybně diagnostikován jako pozitivní. 2. LR- (LR pro negativní test) – podíl pravděpodobnosti, že nemocný člověk je testem chybně diagnostikován jako negativní, a pravděpodobnosti, že zdravý člověk je diagnostikován jako negativní. • U kvalitního diagnostického testu chceme, aby LR+ bylo co nejvyšší (LR+ > 10) a LR- co nejnižší (LR- < 0,1). 11 LR = (pravděpodobnost, že test dosáhne daného výsledku u nemocných pacientů) (pravděpodobnost, že test dosáhne daného výsledku u zdravých osob) ( )aspecificitasenzitivitLR -=+ 1/ ( ) aspecificitasenzitivitLR /1 -=- Janoušová, Dušek: Analýza dat pro neurovědy Věrohodnostní poměr • Příklad: Chceme zjistit věrohodnostní poměr pozitivního a negativního testu u diagnostiky schizofrenie pomocí neuropsychologických testů. 12 Výsledek diagnostického testu Skutečnost Nemocný Zdravý Celkem Nemocný 32 2 34 Zdravý 3 24 27 Celkem 35 26 61 Senzitivita testu = 32 / 35 = 91,4 % (IS = 75,8 – 97,8) Specificita testu = 24 / 26 = 92,3 % (IS = 73,4 – 98,7) LR+ = senzitivita / (1-specificita) = 0,914 / (1-0,923) = 11,870 LR- = (1-senzitivita) / specificita = (1-0,914 )/ 0,923 = 0,093 Janoušová, Dušek: Analýza dat pro neurovědy Úkol 1. • Zadání: U 1000 žen byl proveden test, zda jejich dítě bude trpět Downovým syndromem. Výsledky jsou uvedené v tabulce. Vypočtěte senzitivitu, specificitu, pozitivní a negativní prediktivní hodnotu a věrohodnostní poměry pro diagnostický test. Zamyslete se nad tím, zda je test dobrý či nikoliv. 13 Výsledek diagnostického testu Skutečnost Dítě s Downovým syndromem Zdravé dítě Celkem Pozitivní 18 122 140 Negativní 3 857 860 Celkem 21 979 1000 Janoušová, Dušek: Analýza dat pro neurovědy Úkol 1. • Řešení: 14 Janoušová, Dušek: Analýza dat pro neurovědy Úkol 2. • Zadání: Zjistěte, jaká byla úspěšnost klasifikace pacientů s Alzheimerovou chorobou a kontrolních subjektů (použijte proměnné Group_3kat a group_klasif). 15 Janoušová, Dušek: Analýza dat pro neurovědy 2. Hledání diagnostického cut-off pomocí ROC křivek. 16 Janoušová, Dušek: Analýza dat pro neurovědy ROC analýza – motivace • Dříve probrané ukazatele diagnostické síly testů (senzitivita, specificita apod.) nelze použít u diagnostických testů, jejichž výstupem je spojitá (kvantitativní) proměnná (např. koncentrace analytu v krevním séru, systolický krevní tlak). • Na základě předchozích výzkumů známe dělicí body, které odlišují normální a patologické hodnoty spojité proměnné, pomocí nichž můžeme spojitou proměnnou binarizovat – tzn. vytvoření dvou kategorií „pozitivní“ / „negativní“ (např. „pod normou“ / „v normě“). • Pokud dělicí body nejsou známy předem, můžeme se je snažit nalézt pomocí ROC („Receiver Operating Characteristic“) křivky. • Cíle ROC analýzy: 1. Určit, zda je spojitá proměnná vhodná pro diagnostické odlišování zdravých a nemocných jedinců. 2. Nalezení dělicího bodu („cut-off point“) na škále hodnot spojité proměnné, který nejlépe odlišuje zdravé a nemocné jedince. 17 Janoušová, Dušek: Analýza dat pro neurovědy ROC analýza • Princip: Jakákoli hodnota spojité proměnné nějak rozlišuje zdravé a nemocné jedince, tzn. je spojena s nějakou senzitivitou a specificitou. 18 Nejlepší dělící bod („cut-off“) – nejvyšší sensitivita a specificita pro odlišení skupin – tzn. maximální součet hodnot senzitivity a specificity. Zdraví Nemocní ROC křivka senzitivita 1 - specificita Janoušová, Dušek: Analýza dat pro neurovědy • Plocha pod ROC křivkou = „Area Under the Curve“ (AUC). • Nabývá hodnot od 0 do 1. • Slouží k vyjádření diagnostické síly (efektivity) testu. • Čím větší hodnota AUC, tím lepší diagnostický test je (hodnota AUC nad 0,75 většinou poukazuje na uspokojivou diskriminační schopnost testu). senzitivita 1 - specificita ROC analýza – plocha pod ROC křivkou 19 ROC křivka Janoušová, Dušek: Analýza dat pro neurovědy senzitivita 1 - specificita ROC analýza – srovnání diagnostické síly různých testů 20 1 - specificita senzitivita ROC křivka dobře diskriminující test test nediskriminuje vůbec test diskriminuje „obráceně“ Janoušová, Dušek: Analýza dat pro neurovědy ROC analýza – srovnání diagnostické síly různých testů • Lze srovnat i velmi rozdílné testy (např. testy založené na různých proměnných). 21 Zdroj: Dušek, Pavlík, Jarkovský, Koptíková, Analýza dat v Neurologii, Cesk Slov Neurol N 2011; 74/ 107(4) Diagnostický test AUC DT1 0,949 DT2 0,872 DT3 0,770 nejlepší nejhorší Janoušová, Dušek: Analýza dat pro neurovědy ROC analýza 22 Příklad: Zjistěte, zda je MMSE skóre vhodné na diagnostiku mírné kognitivní poruchy (MCI). Najděte dělící bod (cut-off), který nejlépe odlišuje pacienty s MCI od kontrolních subjektů. MMSE skóre Sensitivity 1-Specificity Specificity Sensitivity + Specificity -23 0,002 0,000 1,000 1,002 -24 0,101 0,000 1,000 1,101 -25 0,239 0,004 0,996 1,235 -26 0,399 0,022 0,978 1,377 -27 0,581 0,061 0,939 1,520 -28 0,749 0,217 0,783 1,531 -29 0,924 0,574 0,426 1,350 -30 1,000 1,000 0,000 1,000 Janoušová, Dušek: Analýza dat pro neurovědy Hledání cut-off – doplnění 1 - Specificita Senzitivita 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Plocha pod křivkou: AUC = 0.758 (95% IS: 0.657; 0.859) p<0.001 Bod ROC odpovídající hraničnímu bodu (cut-off) Sens Spec Sens+Spec 1.000 0.000 1.000 0.933 0.115 1.049 0.883 0.346 1.229 0.783 0.538 1.322 0.750 0.615 1.365 0.567 0.808 1.374 0.467 0.923 1.390 0.350 1.000 1.350 0.217 1.000 1.217 0.150 1.000 1.150 0.050 1.000 1.050 0.033 1.000 1.033 0.000 1.000 1.000 Příklad: 23 Janoušová, Dušek: Analýza dat pro neurovědy Kritérium Vzoreček Reference 1. Youdenova J statistika 1 – maximalizace vzdálenosti od diagonály max(𝑠𝑠 + 𝑠𝑠) • W. J. Youden (1950) “Index for rating diagnostic tests”. Cancer, 3, 32–35. • R-kový balík pROC • http://www.medicalbiostatisti cs.com/roccurve.pdf 2. Nejbližší bod levému hornímu rohu grafu min((1 − 𝑠𝑠)2 +(1 − 𝑠𝑠)2 ) • R-kový balík pROC • http://www.medicalbiostatisti cs.com/roccurve.pdf 3. Maximalizace součinu senzitivity a specificity max(𝑠𝑠 ∗ 𝑠𝑠) • R-kový balík OptimalCutpoints • dr. Budíková používá maximalizaci geometrického průměru sens a spec 1 Youdenova J statistika je definována jako: 𝐽 = 𝑠𝑠 + 𝑠𝑠 − 1; při hledání maxima lze ale člen (-1) zanedbat 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 1 2 Hledání cut-off – kritéria 24 Janoušová, Dušek: Analýza dat pro neurovědy Hledání cut-off – vážená kritéria (dle R balíku pROC) Kritérium Vzoreček Youdenova J statistika 1 – maximalizace vzdálenosti od diagonály max(𝑠𝑠 + 𝑟 ∗ 𝑠𝑠) Nejbližší bod levému hornímu rohu grafu min((1 − 𝑠𝑠)2 +𝑟 ∗ (1 − 𝑠𝑠)2 ) kde: 𝑟 = 1 − 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 𝑐𝑐𝑐𝑐 ∗ 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 = 𝑛 𝑐𝑐𝑐𝑐𝑐 𝑛 𝑐𝑐𝑐𝑐𝑐 + 𝑛 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 defaultně: 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 = 0,5 a 𝑐𝑐𝑐𝑐 = 1 𝑐𝑐𝑐𝑐 – penalizace falešně negativních výsledků 25 Janoušová, Dušek: Analýza dat pro neurovědy Příklad - pokračování 1 - Specificita Senzitivita 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Plocha pod křivkou: AUC = 0.758 (95% IS: 0.657; 0.859) p<0.001 Bod ROC odpovídající hraničnímu bodu (cut-off) Sens Spec Sens+ Spec closest. topleft Sens* Spec 1.000 0.000 1.000 1.000 0.000 0.933 0.115 1.049 0.787 0.108 0.883 0.346 1.229 0.441 0.306 0.783 0.538 1.322 0.260 0.422 0.750 0.615 1.365 0.210 0.462 0.567 0.808 1.374 0.225 0.458 0.467 0.923 1.390 0.290 0.431 0.350 1.000 1.350 0.423 0.350 0.217 1.000 1.217 0.614 0.217 0.150 1.000 1.150 0.723 0.150 0.050 1.000 1.050 0.903 0.050 0.033 1.000 1.033 0.934 0.033 0.000 1.000 1.000 1.000 0.000 26 Janoušová, Dušek: Analýza dat pro neurovědy Poděkování… Příprava výukových materiálů předmětu „DSAN01 Analýza dat pro Neurovědy “ byla finančně podporována prostředky projektu FRVŠ č. 942/2013 „Inovace materiálů pro interaktivní výuku a samostudium předmětu Analýza dat pro Neurovědy“ 27