© Institut biostatistiky a analýz RNDr. Eva Koriťáková Podzim 2016 Analýza a klasifikace dat – přednáška 7 – doplnění Hledání diagnostického cut-off pomocí ROC křivek 2Koriťáková: Analýza a klasifikace dat Diagnostické testy • Příklady: hodnocení úspěšnosti diagnostiky pomocí neuropsychologických testů, hodnocení úspěšnosti klasifikace pacientů s Alzheimerovou chorobou a kontrolních subjektů. • Diagnostický test u dané osoby indikuje přítomnost nebo nepřítomnost sledovaného onemocnění. • Osoba ve skutečnosti má nebo nemá sledované onemocnění. → Zajímají nás diagnostické schopnosti testu. 3 Skutečnost – přítomnost nemoci Ano Ne Výsledek diagnostického testu Pozitivní TP FP Negativní FN TN Senzitivita testu Specificita testu Prediktivní hodnota pozitivního testu Prediktivní hodnota negativního testu Koriťáková: Analýza a klasifikace dat ROC analýza – motivace • Výše zmíněné ukazatele diagnostické síly testů (senzitivita, specificita apod.) nelze použít u diagnostických testů, jejichž výstupem je spojitá (kvantitativní) proměnná (např. koncentrace analytu v krevním séru, systolický krevní tlak). • Výhoda, pokud na základě předchozích výzkumů známe dělicí body, které odlišují normální a patologické hodnoty spojité proměnné, pomocí nichž můžeme spojitou proměnnou binarizovat – tzn. vytvoření dvou kategorií „pozitivní“ / „negativní“ (např. „pod normou“ / „v normě“). • Pokud dělicí body nejsou známy předem, můžeme se je snažit nalézt pomocí ROC („Receiver Operating Characteristic“) křivky. • Cíle ROC analýzy: 1. Určit, zda je spojitá proměnná vhodná pro diagnostické odlišování zdravých a nemocných jedinců. 2. Nalezení dělicího bodu („cut-off point“) na škále hodnot spojité proměnné, který nejlépe odlišuje zdravé a nemocné jedince. 4Koriťáková: Analýza a klasifikace dat ROC analýza • Princip: Jakákoli hodnota spojité proměnné nějak rozlišuje zdravé a nemocné jedince, tzn. je spojena s nějakou senzitivitou a specificitou. 5 Nejlepší dělící bod („cut-off“) – nejvyšší sensitivita a specificita pro odlišení skupin – tzn. maximální součet hodnot senzitivity a specificity. Zdraví Nemocní ROC křivka senzitivita 1 - specificita Koriťáková: Analýza a klasifikace dat • Plocha pod ROC křivkou = „Area Under the Curve“ (AUC). • Nabývá hodnot od 0 do 1. • Slouží k vyjádření diagnostické síly (efektivity) testu. • Čím větší hodnota AUC, tím lepší diagnostický test je (hodnota AUC nad 0,75 většinou poukazuje na uspokojivou diskriminační schopnost testu). senzitivita 1 - specificita ROC analýza – plocha pod ROC křivkou 6 ROC křivka Koriťáková: Analýza a klasifikace dat senzitivita 1 - specificita ROC analýza – srovnání diagnostické síly různých testů 7 1 - specificita senzitivita ROC křivka dobře diskriminující test test nediskriminuje vůbec test diskriminuje „obráceně“ Koriťáková: Analýza a klasifikace dat ROC analýza – srovnání diagnostické síly různých testů • Lze srovnat i velmi rozdílné testy (např. testy založené na různých proměnných). 8 Zdroj: Dušek, Pavlík, Jarkovský, Koptíková, Analýza dat v Neurologii, Cesk Slov Neurol N 2011; 74/ 107(4) Diagnostický test AUC DT1 0,949 DT2 0,872 DT3 0,770 nejlepší nejhorší Koriťáková: Analýza a klasifikace dat ROC analýza – příklad 9 Příklad: Zjistěte, zda je MMSE skóre vhodné na diagnostiku mírné kognitivní poruchy (MCI). Najděte dělící bod (cut-off), který nejlépe odlišuje pacienty s MCI od kontrolních subjektů. Koriťáková: Analýza a klasifikace dat Coordinates of the Curve Test Result Variable(s): Positive if Less Than or Equal Toa Sensitivity 1 - Specificity Specificity Sensitivity + Specificity 22.00 0.000 0.000 1.000 1.000 23.50 0.002 0.000 1.000 1.002 24.50 0.101 0.000 1.000 1.101 25.50 0.239 0.004 0.996 1.235 26.50 0.399 0.022 0.978 1.377 27.50 0.581 0.061 0.939 1.520 28.50 0.749 0.217 0.783 1.531 29.50 0.924 0.574 0.426 1.350 31.00 1.000 1.000 0.000 1.000 ROC analýza – řešení v softwaru SPSS 10 • Analyze – ROC Curve – zadat Test Variable a State Variable (jako Value of State Variable zadat rizikovou kategorii) • na záložce Options lze zvolit, zda „Larger test result indicates more positive test“ nebo „Smaller test result indicates more positive test“ – Continue • zatržení „Standard error and confidence interval“ umožní k AUC vypočítat intervaly spolehlivosti a p-hodnotu • zatržení „Coordinate points of the ROC Curve“ umožní získat tabulku se senzitivitou a 1-specificitou pro jednotlivé cut-off body (po zkopírování této tabulku do Excelu je možno vypočítat specificitu a nalézt nejlepší cut- off) Koriťáková: Analýza a klasifikace dat Hledání cut-off – doplnění 1 - Specificita Senzitivita 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Plocha pod křivkou: AUC = 0.758 (95% IS: 0.657; 0.859) p<0.001 Bod ROC odpovídající hraničnímu bodu (cut-off) Sens Spec Sens+Spec 1.000 0.000 1.000 0.933 0.115 1.049 0.883 0.346 1.229 0.783 0.538 1.322 0.750 0.615 1.365 0.567 0.808 1.374 0.467 0.923 1.390 0.350 1.000 1.350 0.217 1.000 1.217 0.150 1.000 1.150 0.050 1.000 1.050 0.033 1.000 1.033 0.000 1.000 1.000 Příklad: 11Koriťáková: Analýza a klasifikace dat Kritérium Vzoreček Reference 1. Youdenova J statistika 1 – maximalizace vzdálenosti od diagonály max(𝑠𝑒 + 𝑠𝑝) • W. J. Youden (1950) “Index for rating diagnostic tests”. Cancer, 3, 32–35. • R-kový balík pROC • http://www.medicalbiostatisti cs.com/roccurve.pdf 2. Nejbližší bod levému hornímu rohu grafu min((1 − 𝑠𝑒)2 +(1 − 𝑠𝑝)2 ) • R-kový balík pROC • http://www.medicalbiostatisti cs.com/roccurve.pdf 3. Maximalizace součinu senzitivity a specificity max(𝑠𝑒 ∗ 𝑠𝑝) • R-kový balík OptimalCutpoints • dr. Budíková používá maximalizaci geometrického průměru sens a spec 1 Youdenova J statistika je definována jako: 𝐽 = 𝑠𝑒 + 𝑠𝑝 − 1; při hledání maxima lze ale člen (-1) zanedbat 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 1 2 Hledání cut-off – kritéria 12Koriťáková: Analýza a klasifikace dat Hledání cut-off – vážená kritéria (dle R balíku pROC) Kritérium Vzoreček Youdenova J statistika 1 – maximalizace vzdálenosti od diagonály max(𝑠𝑒 + 𝑟 ∗ 𝑠𝑝) Nejbližší bod levému hornímu rohu grafu min((1 − 𝑠𝑒)2 +𝑟 ∗ (1 − 𝑠𝑝)2 ) kde: 𝑟 = 1 − 𝑝𝑟𝑒𝑣𝑎𝑙𝑒𝑛𝑐𝑒 𝑐𝑜𝑠𝑡 ∗ 𝑝𝑟𝑒𝑣𝑎𝑙𝑒𝑛𝑐𝑒 𝑝𝑟𝑒𝑣𝑎𝑙𝑒𝑛𝑐𝑒 = 𝑛 𝑐𝑎𝑠𝑒𝑠 𝑛 𝑐𝑎𝑠𝑒𝑠 + 𝑛 𝑐𝑜𝑛𝑡𝑟𝑜𝑙𝑠 defaultně: 𝑝𝑟𝑒𝑣𝑎𝑙𝑒𝑛𝑐𝑒 = 0,5 a 𝑐𝑜𝑠𝑡 = 1 𝑐𝑜𝑠𝑡 – penalizace falešně negativních výsledků 13Koriťáková: Analýza a klasifikace dat Hledání cut-off – doplnění II 1 - Specificita Senzitivita 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Plocha pod křivkou: AUC = 0.758 (95% IS: 0.657; 0.859) p<0.001 Bod ROC odpovídající hraničnímu bodu (cut-off) Sens Spec Sens+ Spec closest. topleft Sens* Spec 1.000 0.000 1.000 1.000 0.000 0.933 0.115 1.049 0.787 0.108 0.883 0.346 1.229 0.441 0.306 0.783 0.538 1.322 0.260 0.422 0.750 0.615 1.365 0.210 0.462 0.567 0.808 1.374 0.225 0.458 0.467 0.923 1.390 0.290 0.431 0.350 1.000 1.350 0.423 0.350 0.217 1.000 1.217 0.614 0.217 0.150 1.000 1.150 0.723 0.150 0.050 1.000 1.050 0.903 0.050 0.033 1.000 1.033 0.934 0.033 0.000 1.000 1.000 1.000 0.000 14Koriťáková: Analýza a klasifikace dat