RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Blok 6 Jak analyzovat kategoriální a binární data II. MU ,.'■<., Janoušová, Dušek: Analýza dat pro neurovědy *|L Osnova 1. Hodnocení diagnostických testů 2. Hledání diagnostického cut-off pomocí ROC křivek MU Janoušová, Dušek: Analýza dat pro neurověcly jyj 1. Hodnocení diagnostických testů Janoušová, Dušek: Analýza dat pro neurovědy Diagnostické testy )- • Příklady: hodnocení úspěšnosti diagnostiky pomocí neuropsychologických testů, hodnocení úspěšnosti klasifikace pacientů s Alzheimerovou chorobou a kontrolních subjektů. • Diagnostický test u dané osoby indikuje přítomnost nebo nepřítomnost sledovaného onemocnění. • Osoba ve skutečnosti má nebo nemá sledované onemocnění. -> Zajímají nás diagnostické schopnosti testu. Skutečnost - přítomnost nemoci Ano Ne Výsledek Pozitivní diagnostického testu Negativní TP FP FN TN Janoušová, Dušek: Analýza dat pro neurovědy ^ Diagnostické testy Skutečnost - přítomnost nemoci Ano Ne Výsledek Pozitivní diagnostického testu Negativní TP FP FN TN • TP („true positive") - kolik výsledků bylo skutečně pozitivních (tzn. kolik pacientů bylo správně diagnostikováno jako pacienti). • FP („falše positive") - kolik výsledků bylo falešně pozitivních (tzn. kolik zdravých jedinců bylo chybně diagnostikováno jako pacienti). • FN („falše negative") - kolik výsledků bylo falešně negativních (tzn. kolik pacientů bylo chybně diagnostikováno jako zdraví). • TN („true negative") - kolik výsledků bylo skutečně negativních (tzn. kolik zdravých lidí bylo správně diagnostikováno jako zdraví). MU Janoušová, Dušek: Analýza dat pro neurovědy ^j^- Senzitivita, specificita a celková správnost Skutečnost - přítomnost nemoci Ano | Ne Výsledek Pozitivní TP FP diagnostického testu Negativní FN TN • Senzitivita testu: schopnost testu rozpoznat skutečně nemocné osoby, tedy pravděpodobnost, že test bude pozitivní, když je osoba skutečně nemocná. Senzitivita testu = TP / (TP + FN) • Specificita testu: schopnost testu rozpoznat osoby bez nemoci, tedy pravděpodobnost, že test bude negativní, když osoba není nemocná. Specificita testu = TN / (FP + TN) • Celková správnost: (TP+TN)/(TP+FP+FN+TN) MU Janoušová, Dušek: Analýza dat pro neurovědy ^j^- |yj Pozitivní a negativní prediktivní hodnota Skutečnost - přítomnost nemoci Ano Ne Výsledek diagnostického testu Pozitivní TP FP j Negativní FN TN • Prediktivní hodnota pozitivního testu: pravděpodobnost, že osoba je skutečně nemocná, když je test pozitivní. Prediktivní hodnota pozitivního testu = TP / (TP + FP) • U klasifikací označována jako přesnost („precision"). Prediktivní hodnota negativního testu: pravděpodobnost, že osoba není nemocná, když je test negativní. Prediktivní hodnota negativního testu = TN / (FN + TN) Janoušová, Dušek: Analýza dat pro neurovědy ^j^- (^J Shrnutí Skutečnost - přítomnost nemoci Ano Ne w' i j i Pozitivní Výsledek diagnostického testu Negativní TP FP FN TN TP + FN 1 Senzitivita testu FP + TN I Specificita testu TP + FP FN + TN Prediktivní hodnota pozitivního testu Prediktivní hodnota negativního testu Janoušová, Dušek: Analýza dat pro neurovědy IBA W 9 Hodnocení diagnostických testů • Příklad: Zajímá nás přesnost diagnostiky schizofrenie pomocí neuropsychologických testů. Výsledky diagnostiky jsou dány tabulkou: Výsledek diagnostického testu Skutečnost Nemocný Zdravý Celkem Nemocný 32 2 34 Zdravý 3 24 27 Celkem 35 26 61 Senzitivita testu = 32 / 35 = 91,4 % (IS = 75,8 - 97,8) Specificita testu = 24 / 26 = 92,3 % (IS = 73,4 - 98,7) Celková správnost = (32 + 24) / (32+2+3+24) = 91,8 % Pozitivní prediktivní hodnota testu = 32 / 34 = 94,1 % (IS = 78,9 - 99,0) Negativní prediktivní hodnota testu = 24 / 27 = 88,9 % (IS = 69,7 - 97,1) • Výpočet pomocí webového kalkulátoru : http://vassarstats.net/clinl.html MU Janoušová, Dušek: Analýza dat pro neurovědy ^! ^ Věrohodnostní poměr („Li kel i hood Ratio") i- • Věrohodnostní poměr (LR) lze definovat následovně: (pravděpodobnost, že test dosáhne daného výsledku u nemocných pacientů) LR = - (pravděpodobnost, že test dosáhne daného výsledku u zdravých osob) • 2 druhy věrohodnostního poměru: 1. LR+ (LR pro pozitivní test) - podíl pravděpodobnosti, že nemocný člověk je testem diagnostikován jako pozitivní, a pravděpodobnosti, že zdravý člověk je chybně diagnostikován jako pozitivní. LR+ = senzitivita /(l - specificita) 2. LR- (LR pro negativní test) - podíl pravděpodobnosti, že nemocný člověk je testem chybně diagnostikován jako negativní, a pravděpodobnosti, že zdravý člověk je diagnostikován jako negativní. LR— = (l - senzitivita) / specificita • U kvalitního diagnostického testu chceme, aby LR+ bylo co nejvyšší (LR+ > 10) a LR- co nejnižší (LR- < 0,1). MU Janoušová, Dušek: Analýza dat pro neurovědy ^! H Věrohodnostní poměr • Příklad: Chceme zjistit věrohodnostní poměr pozitivního a negativního testu u diagnostiky schizofrenie pomocí neuropsychologických testů. Výsledek diagnostického testu Skutečnost Nemocný Zdravý Celkem Nemocný 32 2 34 Zdravý 3 24 27 Celkem 35 26 61 Senzitivita testu = 32 / 35 = 91,4 % (IS = 75,8 - 97,8) Specificita testu = 24 / 26 = 92,3 % (IS = 73,4 - 98,7) LR+ = senzitivita / (1-specificito) = 0,914 / (1-0,923) = 11,870 LR- = (1-senzitivito) / specificita = (1-0,914 )/ 0,923 = 0,093 MU Janoušová, Dušek: Analýza dat pro neurovědy ^! ^ Úkol 1. • Zadání: U 1000 žen byl proveden test, zda jejich dítě bude trpět Downovým syndromem. Výsledky jsou uvedené v tabulce. Vypočtěte senzitivitu, specificitu, pozitivní a negativní prediktivní hodnotu a věrohodnostní poměry pro diagnostický test. Zamyslete se nad tím, zda je test dobrý či nikoliv. Výsledek diagnostického testu Skutečnost Dítě s Downovým syndromem Zdravé dítě Celkem Pozitivní 18 122 140 Negativní 3 857 860 Celkem 21 979 1000 Janoušová, Dušek: Analýza dat pro neurovědy ^! ^ Úkol 1 Řešení: Condition Absent Present To tals Test Positive 122 18 140 Test Negative 857 3 860 Totals 979 21 1000 Calculate Reset Prevalence Sensitivity Estimated Value 0.021 0.357143 Specificity 0.375383 95% Confidence Interval Lower Limit Upper Limit 0.013379 0.626434 0.35267 0.032439 0.962357 0.395039 For any particular test result, the probability that it will be: Positive Negative 0.14 0.36 0.119402 0.336533 0.163417 0.330593 For any particular positive test result, the probability that it is: 0.123571 0.080049 True Positive (Positive Predictive Value) False Positive 0.371429 0.301326 0.193174 0.919951 For any particular negative test result, the probability that it is: True Negative 0.996512 (Negative Predictive Value) 0.933941 False Negative 0.003433 0.000901 0.999099 0.011059 likelihood Ratios: [C] = conventional [W] = weighted by prevalence Tdefinitionsl Positive [C] Negative [C] Positive [W] Negative [W] 6.37322 0.163194 5.405523 0.147541 0.003501 0.057226 0.095411 0.001131 3.752136 0.465336 0.228154 0.010332 Janoušová, Dušek: Analýza dat pro neurovědy IBA lyj i4 Úkol 2 Zadání: Zjistěte, jaká byla úspěšnost klasifikace pacientů s Alzheimerovou chorobou a kontrolních subjektů (použijte proměnné group_13_CnAd a group_klasif). Summary Frequency Table (Data_neuro) Table: group_klasif(2) x group_13_CnAd(2) groupklasif group 13 CnAd 1 group 13 CnAd 3 Row Totals 1 213 8 221 3 1 17 189 206 All Grps 230 197 427 Calculate Reset Condition Absent Present To tals Test Positive 17 189 206 Test Negative 213 8 221 To tals 230 197 427 Prevalence Sensitivity Specificity Estimated Value 0.461358 0.959391 0.926087 95% Confidence Interva Lower Limit 0.413478 0,918687 0.88226 Upper Limit 0.509944 0.980996 0.955041 Positive 0,482436 0.434252 Negative 0.517564 0.46906 For any particular test result, the probability that it will be: 0,53094 0.565748 For any particular positive test result, the probability that it is: True Positive (Positive Predictive Value) False Positive 0.917476 0.082524 0.86897 0.050262 0.949738 0.13103 For any particular negative test result, the probability that it is: 0.963801 0.036199 ^ True Negative (Negative Predictive Value) False Negative 0.927309 0.016929 0.983071 0.072691 likelihood Ratios: [C] = conventional [W] = weighted by prevalence [definitions] Positive [C] 12.979994 8.207536 20,527507 Negative [C] 0.04385 0,022228 0.086504 Positive [W] 11.117647 7,038338 17.56126 Negative [W] 0.037559 0.019016 0.074183 Janoušová, Dušek: Analýza dat pro neurovědy I BA lyj is 2. Hledání diagnostického cut-off pomocí ROC křivek. Janoušová, Dušek: Analýza dat pro neurovědy ROC analýza - motivace • Dříve probrané ukazatele diagnostické síly testů (senzitivita, specificita apod.) nelze použít u diagnostických testů, jejichž výstupem je spojitá (kvantitativní) proměnná (např. koncentrace analytu v krevním séru, systolický krevní tlak). • Na základě předchozích výzkumů známe dělicí body, které odlišují normální a patologické hodnoty spojité proměnné, pomocí nichž můžeme spojitou proměnnou binarizovat - tzn. vytvoření dvou kategorií „pozitivní" / „negativní" (např. „pod normou" / „v normě"). • Pokud dělicí body nejsou známy předem, můžeme se je snažit nalézt pomocí ROC („Receiver Operating Characteristic") křivky. Cíle ROC analýzy: 1. Určit, zda je spojitá proměnná vhodná pro diagnostické odlišování zdravých a nemocných jedinců. 2. Nalezení dělicího bodu („cut-off point") na škále hodnot spojité proměnné, který nejlépe odlišuje zdravé a nemocné jedince. MU Janoušová, Dušek: Analýza dat pro neurovědy ^! ROC analýza • Princip: Jakákoli hodnota spojité proměnné nějak rozlišuje zdravé a nemocné jedince, tzn. je spojena s nějakou senzitivitou a specificitou. ROC křivka Nejlepší dělící bod („cut-off") - nejvyšší sensitivita a specificita pro odlišení skupin - tzn. maximální součet hodnot senzitivity a specificity. MU Janoušová, Dušek: Analýza dat pro neurovědy ^! ^ ROC analýza - plocha pod ROC křivkou )- • Plocha pod ROC křivkou = „Area Under the Curve" (AUC). • Nabývá hodnot od 0 do 1. • Slouží k vyjádření diagnostické síly (efektivity) testu. • Čím větší hodnota AUC, tím lepší diagnostický test je (hodnota AUC nad 0,75 většinou poukazuje na uspokojivou diskriminační schopnost testu). ROC křivka n-1-1-1-1-r 0,0 0,2 0,4 0,6 0,8 1,0 1 - specificita MU Janoušová, Dušek: Analýza dat pro neurovědy ^! ^ ROC analýza - srovnání diagnostické síly různých testů ROC křivka Janoušová, Dušek: Analýza dat pro neurovědy ^! ^0 ROC analýza - srovnání diagnostické síly různých testů • Lze srovnat i velmi rozdílné testy (např. testy založené na různých proměnných). 0,0 \--,-,-,-1-, 0,0 0,2 0,4 0,6 0,8 1,0 1 - specif icita Zdroj: Dušek, Pavlík, Jarkovský, Koptíková, Analýza dat v Neurologii, Cesk Slov Neurol N 2011; 74/ 107(4) Janoušová, Dušek: Analýza dat pro neurovědy *|L (Jjj|) 21 ROC analýza Příklad: Zjistěte, zda je MMSE skóre vhodné na diagnostiku mírné kognitivní poruchy (MCI). Najděte dělící bod (cut-off), který nejlépe odlišuje pacienty s MCI od kontrolních subjektů. ROC Curve Area: 0.8375 0,0 0,2 0,4 0,6 1-Specificity 0,8 1,0 MMSE skóre Sensitivity 1-Specificity Specificity Sensitivity + Specificity -23 0,002 0,000 1,000 1,002 -24 0,101 0,000 1,000 1,101 -25 0,239 0,004 0,996 1,235 -26 0,399 0,022 0,978 1,377 -27 0,581 0,061 0,939 1,520 -28 0,749 0,217 0,783 1,531 -29 0,924 0,574 0,426 1,350 -30 1,000 1,000 0,000 1,000 Janoušová, Dušek: Analýza dat pro neurovědy IBA M 22 Hledání cut-off - doplnění Příklad: 0.2 0.4 0.6 1 - Specificita 0.8 Sens Spec Sens+Spec 1.000 0.000 1.000 0.933 0.115 1.049 0.883 0.346 1.229 0.783 0.538 1.322 0.750 0.615 1.365 0.567 0.808 1.374 0.467 0.923 1.390 0.350 1.000 1.350 0.217 1.000 1.217 0.150 1.000 1.150 0.050 1.000 1.050 0.033 1.000 1.033 0.000 1.000 1.000 Janoušová, Dušek: Analýza dat pro neurovědy IBA M 23 Hledání cut-off - kritéria 0 0.2 0.4 0.6 0.S 1 Kritérium Vzoreček Reference 1. Youdenova J statistika 1 - maximalizace vzdálenosti od diagonály max(se + sp) • W. J. Youden (1950) "Index for rating diagnostic tests". Cancer, 3, 32-35. • R-kový balík pROC • http://www.medicalbiostatisti cs.com/roccurve.pdf 2. Nejbližší bod levému hornímu rohu grafu min((l — se)2 + (l — sp)2) • R-kový balík pROC • http://www.medicalbiostatisti cs.com/roccurve.pdf 3. Maximalizace součinu senzitivity a specificity max(se * sp) • R-kový balík OptimalCutpoints • dr. Budíková používá maximalizaci geometrického průměru sens a spec 1 Youdenova J statistika je definována jako: / = se + sp — 1; při hledání maxima lze ale člen (-1) zanedbat MU Janoušová, Dušek: Analýza dat pro neurovědy ^! ^4 Hledání cut-off-vážená kritéria (dle R balíku pROC) Kritérium Vzoreček Youdenova J statistika ľ- max(se + r * sp) maximalizace vzdálenosti od diagonály Nejbližšíbod levému hornímu rohu min((l — se)2+r * (1 — sp)2) grafu 1 — prevalence , ncases kde: r =--- prevalence =- COSt * prevalence ncases + ncontrols cost - penalizace falešně negativních výsledků defaultně: prevalence = 0,5 a cost = 1 MU Janoušová, Dušek: Analýza dat pro neurovědy ^! ^5 Příklad - pokračování N C OJ to 0.8 - 0.6 - 0.4 - 0.2 - 0.2 0.4 0.6 0.8 Sens Spec 1.000 0.933 0.883 0.783 0.750 0.567 0.467 0.350 0.217 0.150 0.050 0.033 0.000 0.000 0.115 0.346 0.538 0.615 0.808 0.923 1.000 1.000 1.000 1.000 1.000 1.000 Sens+ Spec closest. to p left Sens* Spec 1.000 1.049 1.229 1.322 1.365 1.374 1.390 1.350 1.217 1.150 1.050 1.033 1.000 1.000 0.787 0.441 0.260 0.210 0.225 0.290 0.423 0.614 0.723 0.903 0.934 1.000 0.000 0.108 0.306 0.422 0.462 0.458 0.431 0.350 0.217 0.150 0.050 0.033 0.000 1 - Specificita Janoušová, Dušek: Analýza dat pro neurovědy IBA M 26 Poděkování.. Příprava výukových materiálů předmětu „DSAN01 Analýza dat pro Neurovědy " byla finančně podporována prostředky projektu FRVŠ č. 942/2013 „Inovace materiálů pro interaktivní výuku a samostudium předmětu Analýza dat pro Neurovědy" FOND ROZVOJE VYSOKÝCH ŠKOL Janoušová, Dušek: Analýza dat pro neurovědy ^j^- |yj 27