© Institut biostatistiky a analýz RNDr. Eva Janoušová Podzim 2014 Analýza a klasifikace dat – přednáška 7 – doplnění Motivace 2 x1.p x2.p 0.5*hustota.p Dvourozměrný histogram Hustota dvourozměrného normálního rozdělení Janoušová: Vícerozměrné metody - cvičení Vícerozměrný t-test 3Janoušová: Vícerozměrné metody - cvičení Jednorozměrný dvouvýběrový t-test • Srovnáváme dvě skupiny dat, které jsou na sobě nezávislé – mezi objekty neexistuje vazba. • Příklady: srovnání objem hipokampu u mužů a u žen, srovnání kognitivního výkonu podle dvou kategorií věku,... • Předpoklad: normalita dat v OBOU skupinách, shodnost (homogenita) rozptylů v obou skupinách • Testová statistika: , kde 𝑠∗ je vážená směrodatná odchylka, c je konstanta, o kterou se rozdíl průměrů má lišit (většinou rovna 0) 4 𝑥̅1 𝑥̅2 21 11 * 21 nns cxx t + −− = 0 1 2 3 Pacienti Kontroly Janoušová: Vícerozměrné metody - cvičení Vícerozměrný t-test • Srovnáváme dvě skupiny dat, které jsou na sobě nezávislé – mezi objekty neexistuje vazba. • Na rozdíl od jednorozměrného dvouvýběrového t-testu jsou dvě skupiny dat popsány více proměnnými. 5 0 1 2 3 4 5 6 7 4 6 8 10 12 14 0 0.05 x1x2 Janoušová: Vícerozměrné metody - cvičení Vícerozměrný t-test Jednorozměrný dvouvýběrový t-test: • testová statistika: , kde • 𝑠 je vážená směrodatná odchylka • 𝜇 𝑥 − 𝜇 𝑦 = c je konstanta, o kterou se rozdíl průměrů má lišit (většinou c = 0) • nulová hypotéza zamítnuta, pokud |t| > tcrit Je ekvivalentní testu: • , kde Vícerozměrný t-test: • dvouvýběrová Hotellingova T2 testová statistika: • kde S je vážená kovarianční matice • T2 ~ χ2(k) ; pro malé nx a ny je lepší použít: • nulová hypotéza zamítnuta, pokud F > Fcrit 6 Studentovo rozdělení 2 z z F rozdělení z̄ = x̄ – ȳ a µz = µx – µy , kde n=nx+ny–1 F rozdělení Úkol 1 • Zjistěte, zda se liší skupina pacientů se schizofrenií od zdravých subjektů na základě parametrů popisujících objem mozkových struktur subjektů. 7Janoušová: Vícerozměrné metody - cvičení 𝐗 𝐷 = 2 12 4 10 3 8 , 𝐗 𝐻 = 5 7 3 9 4 5 pacienti kontroly 1 2 3 4 5 6 4 5 6 7 8 9 10 11 12 13 Objem hipokampu Objemmozkovýchkomor Úkol 1 • Zjistěte, zda se liší skupina pacientů se schizofrenií od zdravých subjektů na základě parametrů popisujících objem mozkových struktur subjektů. 8Janoušová: Vícerozměrné metody - cvičení 𝐗 𝐷 = 2 12 4 10 3 8 , 𝐗 𝐻 = 5 7 3 9 4 5 Úkol 1 - řešení 9Janoušová: Vícerozměrné metody - cvičení Vícerozměrné průměry: 𝐱� 𝐷 = 1 𝑛 𝐷 ∑ x𝑖𝑖 𝑛 𝐷 𝑖=1 1 𝑛 𝐷 ∑ x𝑖𝑖 𝑛 𝐷 𝑖=1 = 3 10 𝐱� 𝐻 = 1 𝑛 𝐻 ∑ x𝑖𝑖 𝑛 𝐻 𝑖=1 1 𝑛 𝐻 ∑ x𝑖𝑖 𝑛 𝐻 𝑖=1 = 4 7 Výběrové kovarianční matice: 𝐒 𝐷 = s11 𝐷 s12 𝐷 s21 𝐷 s22 𝐷 = 1 −1 −1 4 𝐒 𝐻 = s11 𝐻 s12 𝐻 s21 𝐻 s22 𝐻 = 1 −1 −1 4 Vážená kovarianční matice: 𝐒 = 1 −1 −1 4 Úkol 1 - řešení 10Janoušová: Vícerozměrné metody - cvičení Vícerozměrné průměry: 𝐱� 𝐷 = 1 𝑛 𝐷 ∑ x𝑖𝑖 𝑛 𝐷 𝑖=1 1 𝑛 𝐷 ∑ x𝑖𝑖 𝑛 𝐷 𝑖=1 = 3 10 𝐱� 𝐻 = 1 𝑛 𝐻 ∑ x𝑖𝑖 𝑛 𝐻 𝑖=1 1 𝑛 𝐻 ∑ x𝑖𝑖 𝑛 𝐻 𝑖=1 = 4 7 Výběrové kovarianční matice: 𝐒 𝐷 = s11 𝐷 s12 𝐷 s21 𝐷 s22 𝐷 = 1 −1 −1 4 𝐒 𝐻 = s11 𝐻 s12 𝐻 s21 𝐻 s22 𝐻 = 1 −1 −1 4 Vážená kovarianční matice: 𝐒 = 1 −1 −1 4 Vícerozměrný t-test: n 5 k 2 T2 3,5 F 1,31 df1 2 df2 3 α 0,05 F-crit 9,55 p-hodnota 0,389 Vícerozměrná analýza rozptylu 11Janoušová: Vícerozměrné metody - cvičení Analýza rozptylu (ANOVA) jednoduchého třídění • Srovnáváme tři a více skupin dat, které jsou na sobě nezávislé (mezi objekty neexistuje vazba). • Příklady: srovnání objemu hipokampu u pacientů s AD, pacientů s MCI a kontrol; srovnání kognitivního výkonu podle čtyř kategorií věku. • Předpoklady: normalita dat ve VŠECH skupinách, shodnost (homogenita) rozptylů VŠECH srovnávaných skupin, nezávislost jednotlivých pozorování. • Testová statistika: 12 𝑥̅1 𝑥̅2 𝑥̅3 0 1 2 3 AD MCI Kontroly ee AA dfS dfS F / / = Janoušová: Vícerozměrné metody - cvičení • Srovnání variability (rozptylu) mezi výběry s variabilitou uvnitř výběrů. • Tabulka analýzy rozptylu jednoduchého třídění (One-Way ANOVA): Analýza rozptylu (ANOVA) – princip 13 Variabilita Součet čtverců Počet stupňů volnosti Průměrný čtverec F statistika p-hodnota Mezi skupinami SA dfA = k – 1 MSA = SA/dfA p Uvnitř skupin (reziduální var.) Se dfe = n – k MSe = Se/dfe Celkem ST dfT = n – 1 ee AA dfS dfS F / / = celkový průměr AD MCI CN AD MCI CN Janoušová: Vícerozměrné metody - cvičení Analýza rozptylu jako lineární model • Analýza rozptylu pro jednu vysvětlující proměnnou (jednoduché třídění) lze zapsat jako lineární model: • Nulovou hypotézu pak lze vyjádřit jako: • Rozšířením tohoto zápisu můžeme definovat další modely ANOVA: více faktorů, hodnocení interakcí, opakovaná měření na jednom subjektu. 14 kH ααα === 210 : Janoušová: Vícerozměrné metody - cvičení Analýza rozptylu dvojného třídění • Uvažujeme dvě vysvětlující proměnné zároveň. • Zápis modelu: • Nulové hypotézy pak máme dvě: , 15 kH ααα === 2101 : rH βββ === 2102 : Variabilita Součet čtverců Počet stupňů volnosti Průměrný čtverec F statistika p-hodnota Faktor A SA dfA = k – 1 MSA = SA / dfA FA p Faktor B SB dfA = r – 1 MSB = SB / dfB FB p Rezidua Se dfe = (k – 1)(r – 1) MSe= Se / dfe Celkem ST dfT = n – 1 = kr – 1 Janoušová: Vícerozměrné metody - cvičení Analýza rozptylu dvojného třídění s interakcí • Uvažujeme dvě vysvětlující proměnné a zároveň i jejich společné působení. • Zápis modelu: • Nulové hypotézy pak máme tři: 16 kH ααα === 2102 :krH γγγ === 121101 : Variabilita Součet čtverců Počet stupňů volnosti Průměrný čtverec F statistika p-hodnota Faktor A SA dfA = k – 1 MSA = SA / dfA FA p Faktor B SB dfA = r – 1 MSB = SB / dfB FB p Interakce A×B SAB dfAB = (k – 1)(r – 1) MSAB = SAB / dfAB FAB p Rezidua Se dfe = n – kr MSe= Se / dfe Celkem ST dfT = n – 1 rH βββ === 2103 : Janoušová: Vícerozměrné metody - cvičení Úkol 2 Zjistěte, zda má vliv pohlaví a typ léku na počet uzdravených pacientů s leukémií. 17Janoušová: Vícerozměrné metody - cvičení Pohlaví Typ léku Počet uzdravených pacientů M placebo 1 M lék 1 1 M lék 2 6 Z placebo 3 Z lék 1 4 Z lék 2 9 Úkol 2 - řešení 18 Pohlaví Typ léku Počet uzdravených pacientů 1 1 1 1 2 1 1 3 6 2 1 3 2 2 4 2 3 9 Překódování: 1=M 2=Z 1=placebo 2=lék 1 3=lék 2 Legenda: Zjistěte, zda má vliv pohlaví a typ léku na počet uzdravených pacientů s leukémií. Pohlaví: Typ léku: Janoušová: Analýza a klasifikace dat Úkol 2 - řešení 19 Pohlaví Typ léku Počet uzdrav. pacientů 1 1 1 1 2 1 1 3 6 2 1 3 2 2 4 2 3 9 Janoušová: Analýza a klasifikace dat Úkol 2 - řešení 20 Pohlaví Typ léku Počet uzdrav. pacientů 1 1 1 1 2 1 1 3 6 2 1 3 2 2 4 2 3 9 X.1. = 4; X.2. = 5; X.3. = 15; M.1. = 4 2 = 2⁄ M.2. = 5 2 = 2,5⁄ M.3. = 15 2 = 7,5⁄ X1.. = 8 M1.. = 8 3⁄ X2.. = 16 M2.. = 16 3⁄ X... = 24; 𝑎 = 2; 𝑏 = 3; 𝑐 = 1; 𝑛 = 6; S 𝐴 = 𝑏𝑏 � M𝑖.. − M... 2 𝑎 𝑖=1 = 3 ∙ 8 3⁄ − 4 2 + 16 3⁄ − 4 2 = 32 3⁄ = 10,67 Součet čtverců pro faktor A (pohlaví): S 𝐵 = 𝑎𝑎 � M.𝑗. − M... 2𝑏 𝑗=1 = 2 ∙ 2 − 4 2 + 2,5 − 4 2 + 7,5 − 4 2 = 37 Součet čtverců pro faktor B (typ léku): S 𝑇 = � � � X 𝑖𝑗𝑘 − M... 𝑐 𝑘=1 𝑏 𝑗=1 𝑎 𝑖=1 = 1 − 4 2 + 1 − 4 2 + ⋯ + 9 − 4 2 = 48 S 𝐸 = S 𝑇 − S 𝐴 − S 𝐵 = 0,33 M... = 24 6 = 4⁄ Celkový součet čtverců : Reziduální součet čtverců : počet stupňů volnosti: f 𝐴 = 𝑎 − 1 = 1 počet stupňů volnosti: f 𝐵 = 𝑏 − 1 = 2 počet stupňů volnosti: f 𝑇 = 𝑛 − 1 = 5 počet stupňů volnosti: f 𝐸 = 𝑛 − 𝑎 − 𝑏 + 1 = 2 Úkol 2 - řešení 21 Zdroj variability Součet čtverců Stupně volnosti Podíl S/f F = S f⁄ S 𝐸 f 𝐸⁄ Faktor A (pohlaví) S 𝐴 = 10,67 f 𝐴 = 1 10,67 63,99 Faktor B (typ léku) S 𝐵 = 37 f 𝐵 = 2 18,5 110,98 Reziduální S 𝐸 = 0,33 f 𝐸 = 2 0,16 Celkový S 𝑇 = 48 f 𝑇 = 5 - Tabulka analýzy rozptylu dvojného třídění: Srovnání s kvantily: F 𝐴 = 63,99 > F0,95 1,2 = 18,1 → pohlaví má vliv na počet uzdravených pacientů F 𝐵 = 110,98 > F0,95 2,2 = 19 → typ léku má vliv na počet uzdravených pacientů Janoušová: Analýza a klasifikace dat Úkol 2 – řešení v softwaru STATISTICA Zjistěte, zda má vliv pohlaví a typ léku na počet uzdravených pacientů s leukémií. 22 Pohlaví Typ léku Počet uzdrav. pacientů M placebo 1 M lék 1 1 M lék 2 6 Z placebo 3 Z lék 1 4 Z lék 2 9 V softwaru STATISTICA: Statistics – ANOVA – Main effects ANOVA – Quick specs dialog – OK – Variables – Dependent variable list: X, Categorical predictors (factors): A, B – OK – All effects. Post hoc testy: More results – Post hoc – zvolit Effect – Tukey HSD (nebo Scheffé) Levenův test: More results – Assumptions – zvolit proměnnou – Levene‘s test (ANOVA) Vykreslení krabicových grafů podle obou proměnných: Graphs – 2D Graphs – Box Plots... – zvolit spojitou proměnnou jako Dependent variable, zvolit jednu kategoriální proměnnou jako Grouping variable – na listu Categorized u X-Categories zatrhnout On a Layout změnit na Overlaid – OK Pokud bychom uvažovali model s interakcemi, zvolíme Factorial ANOVA (namísto Main effects A.) Janoušová: Analýza a klasifikace dat Úkol 2 – řešení v softwaru SPSS Zjistěte, zda má vliv pohlaví a typ léku na počet uzdravených pacientů s leukémií. 23 Pohlaví Typ léku Počet uzdrav. pacientů M placebo 1 M lék 1 1 M lék 2 6 Z placebo 3 Z lék 1 4 Z lék 2 9 V softwaru SPSS: Analyze – General Linear Model – Univariate – Dependent Variable: spojitá proměnná, Fixed Factor(s): kategoriální proměnné –> • Model – zatrhneme Custom – vybereme Typ:Main effects – do Model přetáhneme A, B (pokud bychom chtěli model s interakcemi necháme zatržené Full factorial) – odškrtneme Include intercept in model – Continue • Post Hoc – Post hoc Tests for: zvolit kategoriální proměnnou – zatrhneme Tukey’s-b – Continue • Plots: zvolit proměnné do Horizontal Axis a Separte Lines – Add – Continue • Options... – Homogeneity tests – Continue Vykreslení krabicových grafů podle obou proměnných: Graphs – Legacy Dialogs – Boxplot... – Clustered – Define – zvolit Variable Category Axis a Define Clusters by - OK Úkol 2 – řešení v softwaru R Zjistěte, zda má vliv pohlaví a typ léku na počet uzdravených pacientů s leukémií. 24 V softwaru R: data <- data.frame(pohl=c(1,1,1,2,2,2),lek=c(1,2,3,1,2,3),pocet=c(1,1,6,3,4,9)) data model_bez_interakce <- aov(data$pocet ~ (as.factor(data$pohl)+as.factor(data$lek))) summary(model_bez_interakce) TukeyHSD(model_bez_interakce) # post-hoc test # 2. zpusob: anova(lm(data$pocet ~ (as.factor(data$pohl)+as.factor(data$lek)))) model_s_interakci <- aov(data$pocet ~ (as.factor(data$pohl)*as.factor(data$lek))) summary(model_s_interakci) boxplot(data$pocet ~(as.factor(data$pohl)*as.factor(data$lek))) library("car") # instalace baliku car pomoci: install.packages("car") leveneTest(data$pocet ~ (as.factor(data$pohl)*as.factor(data$lek)),center=mean) Hledání diagnostického cut-off pomocí ROC křivek 25Janoušová: Analýza a klasifikace dat ROC analýza – motivace • Dříve probrané ukazatele diagnostické síly testů (senzitivita, specificita apod.) nelze použít u diagnostických testů, jejichž výstupem je spojitá (kvantitativní) proměnná (např. koncentrace analytu v krevním séru, systolický krevní tlak). • Na základě předchozích výzkumů známe dělicí body, které odlišují normální a patologické hodnoty spojité proměnné, pomocí nichž můžeme spojitou proměnnou binarizovat – tzn. vytvoření dvou kategorií „pozitivní“ / „negativní“ (např. „pod normou“ / „v normě“). • Pokud dělicí body nejsou známy předem, můžeme se je snažit nalézt pomocí ROC („Receiver Operating Characteristic“) křivky. • Cíle ROC analýzy: 1. Určit, zda je spojitá proměnná vhodná pro diagnostické odlišování zdravých a nemocných jedinců. 2. Nalezení dělicího bodu („cut-off point“) na škále hodnot spojité proměnné, který nejlépe odlišuje zdravé a nemocné jedince. 26Janoušová: Analýza a klasifikace dat ROC analýza • Princip: Jakákoli hodnota spojité proměnné nějak rozlišuje zdravé a nemocné jedince, tzn. je spojena s nějakou senzitivitou a specificitou. 27 Nejlepší dělící bod („cut-off“) – nejvyšší sensitivita a specificita pro odlišení skupin – tzn. maximální součet hodnot senzitivity a specificity. Zdraví Nemocní ROC křivka senzitivita 1 - specificita Janoušová: Analýza a klasifikace dat • Plocha pod ROC křivkou = „Area Under the Curve“ (AUC). • Nabývá hodnot od 0 do 1. • Slouží k vyjádření diagnostické síly (efektivity) testu. • Čím větší hodnota AUC, tím lepší diagnostický test je (hodnota AUC nad 0,75 většinou poukazuje na uspokojivou diskriminační schopnost testu). senzitivita 1 - specificita ROC analýza – plocha pod ROC křivkou 28 ROC křivka Janoušová: Analýza a klasifikace dat senzitivita 1 - specificita ROC analýza – srovnání diagnostické síly různých testů 29 1 - specificita senzitivita ROC křivka dobře diskriminující test test nediskriminuje vůbec test diskriminuje „obráceně“ Janoušová: Analýza a klasifikace dat ROC analýza – srovnání diagnostické síly různých testů • Lze srovnat i velmi rozdílné testy (např. testy založené na různých proměnných). 30 Zdroj: Dušek, Pavlík, Jarkovský, Koptíková, Analýza dat v Neurologii, Cesk Slov Neurol N 2011; 74/ 107(4) Diagnostický test AUC DT1 0,949 DT2 0,872 DT3 0,770 nejlepší nejhorší Janoušová: Analýza a klasifikace dat ROC analýza 31 Příklad: Zjistěte, zda je MMSE skóre vhodné na diagnostiku mírné kognitivní poruchy (MCI). Najděte dělící bod (cut-off), který nejlépe odlišuje pacienty s MCI od kontrolních subjektů. MMSE skóre Sensitivity 1-Specificity Specificity Sensitivity + Specificity -23 0,002 0,000 1,000 1,002 -24 0,101 0,000 1,000 1,101 -25 0,239 0,004 0,996 1,235 -26 0,399 0,022 0,978 1,377 -27 0,581 0,061 0,939 1,520 -28 0,749 0,217 0,783 1,531 -29 0,924 0,574 0,426 1,350 -30 1,000 1,000 0,000 1,000 Janoušová: Analýza a klasifikace dat Hledání cut-off – doplnění 1 - Specificita Senzitivita 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Plocha pod křivkou: AUC = 0.758 (95% IS: 0.657; 0.859) p<0.001 Bod ROC odpovídající hraničnímu bodu (cut-off) Sens Spec Sens+Spec 1.000 0.000 1.000 0.933 0.115 1.049 0.883 0.346 1.229 0.783 0.538 1.322 0.750 0.615 1.365 0.567 0.808 1.374 0.467 0.923 1.390 0.350 1.000 1.350 0.217 1.000 1.217 0.150 1.000 1.150 0.050 1.000 1.050 0.033 1.000 1.033 0.000 1.000 1.000 Příklad: 32Janoušová: Analýza a klasifikace dat Kritérium Vzoreček Reference 1. Youdenova J statistika 1 – maximalizace vzdálenosti od diagonály max(𝑠𝑠 + 𝑠𝑠) • W. J. Youden (1950) “Index for rating diagnostic tests”. Cancer, 3, 32–35. • R-kový balík pROC • http://www.medicalbiostatisti cs.com/roccurve.pdf 2. Nejbližší bod levému hornímu rohu grafu min((1 − 𝑠𝑠)2 +(1 − 𝑠𝑠)2 ) • R-kový balík pROC • http://www.medicalbiostatisti cs.com/roccurve.pdf 3. Maximalizace součinu senzitivity a specificity max(𝑠𝑠 ∗ 𝑠𝑠) • R-kový balík OptimalCutpoints • dr. Budíková používá maximalizaci geometrického průměru sens a spec 1 Youdenova J statistika je definována jako: 𝐽 = 𝑠𝑠 + 𝑠𝑠 − 1; při hledání maxima lze ale člen (-1) zanedbat 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 1 2 Hledání cut-off – kritéria 33Janoušová: Analýza a klasifikace dat Hledání cut-off – vážená kritéria (dle R balíku pROC) Kritérium Vzoreček Youdenova J statistika 1 – maximalizace vzdálenosti od diagonály max(𝑠𝑠 + 𝑟 ∗ 𝑠𝑠) Nejbližší bod levému hornímu rohu grafu min((1 − 𝑠𝑠)2 +𝑟 ∗ (1 − 𝑠𝑠)2 ) kde: 𝑟 = 1 − 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 𝑐𝑐𝑐𝑐 ∗ 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 = 𝑛 𝑐𝑐𝑐𝑐𝑐 𝑛 𝑐𝑐𝑐𝑐𝑐 + 𝑛 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 defaultně: 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 = 0,5 a 𝑐𝑐𝑐𝑐 = 1 𝑐𝑐𝑐𝑐 – penalizace falešně negativních výsledků 34Janoušová: Analýza a klasifikace dat Příklad - pokračování 1 - Specificita Senzitivita 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Plocha pod křivkou: AUC = 0.758 (95% IS: 0.657; 0.859) p<0.001 Bod ROC odpovídající hraničnímu bodu (cut-off) Sens Spec Sens+ Spec closest. topleft Sens* Spec 1.000 0.000 1.000 1.000 0.000 0.933 0.115 1.049 0.787 0.108 0.883 0.346 1.229 0.441 0.306 0.783 0.538 1.322 0.260 0.422 0.750 0.615 1.365 0.210 0.462 0.567 0.808 1.374 0.225 0.458 0.467 0.923 1.390 0.290 0.431 0.350 1.000 1.350 0.423 0.350 0.217 1.000 1.217 0.614 0.217 0.150 1.000 1.150 0.723 0.150 0.050 1.000 1.050 0.903 0.050 0.033 1.000 1.033 0.934 0.033 0.000 1.000 1.000 1.000 0.000 35Janoušová: Analýza a klasifikace dat