Koriťáková, Dušek: Analýza dat pro neurovědy© Institut biostatistiky a analýz Analýza dat pro Neurovědy RNDr. Eva Koriťáková, Ph.D. doc. RNDr. Ladislav Dušek, Dr. Koriťáková, Dušek: Analýza dat pro neurovědy Blok 5 Jak analyzovat kategoriální a binární data I. 2 Koriťáková, Dušek: Analýza dat pro neurovědy Typy dat - opakování • Kvalitativní (kategoriální) data: ‐ Binární data ‐ Nominální data ‐ Ordinální data • Kvantitativní data: ‐ Intervalová data ‐ Poměrová data 3 Koriťáková, Dušek: Analýza dat pro neurovědy Osnova 1. Analýza kontingenčních tabulek 2. Binomické testy 3. Relativní riziko („relative risk“) a poměr šancí („odds ratio“) 4. Binomické rozdělení 5. Poissonovo rozdělení 4 Koriťáková, Dušek: Analýza dat pro neurovědy 1. Analýza kontingenčních tabulek 5 Koriťáková, Dušek: Analýza dat pro neurovědy Kontingenční tabulka • Frekvenční sumarizace dvou binárních, nominálních nebo ordinálních proměnných. • Obecně: R x C kontingenční tabulka (R – počet kategorií jedné proměnné, C – počet kategorií druhé proměnné). • Speciální případ: 2 × 2 tabulka = čtyřpolní tabulka. • Př.: Sumarizace vyšetřených osob podle typu onemocnění a věkových kategorií. 6 Typ onemocnění Věk Celkem <60 let 60-70 let 70-80 let ≥80 let CN 1 7 176 46 230 MCI 13 85 201 107 406 AD 9 34 90 64 197 Celkem 23 126 467 217 833 Koriťáková, Dušek: Analýza dat pro neurovědy Kontingenční tabulky – absolutní četnosti, řádková, sloupcová a celková procenta 7 Skupina Věk Celkem <60 let 60-70 let 70-80 let ≥80 let CN 1 7 176 46 230 MCI 13 85 201 107 406 AD 9 34 90 64 197 Celkem 23 126 467 217 833 Kontingenční tabulka absolutních četností Skupina Věk Celkem <60 let 60-70 let 70-80 let ≥80 let CN 0,4 3,0 76,5 20,0 100,0 MCI 3,2 20,9 49,5 26,4 100,0 AD 4,6 17,3 45,7 32,5 100,0 Celkem 2,8 15,1 56,1 26,1 100,0 Kontingenční tabulka řádkových procent Skupina Věk Celkem <60 let 60-70 let 70-80 let ≥80 let CN 4,3 5,6 37,7 21,2 27,6 MCI 56,5 67,5 43,0 49,3 48,7 AD 39,1 27,0 19,3 29,5 23,6 Celkem 100,0 100,0 100,0 100,0 100,0 Kontingenční tabulka sloupcových procent Skupina Věk Celkem <60 let 60-70 let 70-80 let ≥80 let CN 0,1 0,8 21,1 5,5 27,6 MCI 1,6 10,2 24,1 12,8 48,7 AD 1,1 4,1 10,8 7,7 23,6 Celkem 2,8 15,1 56,1 26,1 100,0 Kontingenční tabulka celkových procent Koriťáková, Dušek: Analýza dat pro neurovědy Kontingenční tabulky – ukázka finálního popisu a vizualizace 8 Skupina Věk Celkem <60 let 60-70 let 70-80 let ≥80 let CN 1 (0,4%) 7 (3,0%) 176 (76,5%) 46 (20,0%) 230 (100,0%) MCI 13 (3,2%) 85 (20,9%) 201 (49,5%) 107 (26,4%) 406 (100,0%) AD 9 (4,6%) 34 (17,3%) 90 (45,7%) 64 (32,5%) 197 (100,0%) Celkem 23 (2,8%) 126 (15,1%) 467 (56,1%) 217 (26,1%) 833 (100,0%) 20.9 17.3 76.5 49.5 45.7 20.0 26.4 32.5 3.2 4.6 3.0 <60 let 60-70 let n = 230 n = 406 n = 197 CN MCI AD Věk: Skupina: 70-80 let ≥80 let Koriťáková, Dušek: Analýza dat pro neurovědy Čtyřpolní tabulky • Nejjednodušší možná kontingenčí tabulka, kdy obě sledované veličiny mají pouze dvě kategorie. • Příklad: Sumarizace vztahu pohlaví a kategorizovaného MMSE skóre (MMSE skóre v normě (tzn. MMSE ≥ 25) a pod normou (MMSE < 25)) u pacientů s Alzheimerovou chorobou. 9 Koriťáková, Dušek: Analýza dat pro neurovědy Kontingenční tabulky – hypotézy • Kontingenční tabulky umožňují testování různých hypotéz: • Nezávislost a shoda struktury (Pearsonův chí-kvadrát test, Fisherův exaktní test) ‐ Jeden výběr, dvě charakteristiky nebo více výběrů, jedna charakteristika – obdoba nepárového uspořádání ‐ Př.: pacienti s AD – pohlaví × vzdělání (VŠ, SŠ, ZŠ); pacienti s AD v několika nemocnicích × věková struktura • Symetrie (McNemarův test) ‐ Jeden výběr, opakovaně jedna charakteristika – obdoba párového uspořádání ‐ Př.: MMSE v normě a pod normou na začátku studie a dva roky po zahájení studie 10 Koriťáková, Dušek: Analýza dat pro neurovědy Pearsonův chí-kvadrát test • Založen na myšlence srovnání pozorovaných a očekávaných četností kategorií dvou proměnných. • Pozorované četnosti jednotlivých kategorií první proměnné a druhé proměnné nám vyjadřují nij. • Očekávané četnosti jednotlivých kategorií lze vypočítat pomocí: (ni. je součet hodnot v řádku, n.j je součet hodnot ve sloupci) • Výpočet testové statistiky: • Nulovou hypotézu o nezávislosti dvou kategoriálních proměnných zamítáme na hladině významnosti α, když 11 n nn e ji ij ..      r i c j ij ijij e en 1 1 2 2 )(  1)1(2 )1( 2   cr Typ onemocnění Věk Celkem <60 let 60-70 let 70-80 let ≥80 let CN 𝑛11 𝑛12 𝑛13 𝑛14 𝑛1. MCI 𝑛21 𝑛22 𝑛23 𝑛24 𝑛2. AD 𝑛31 𝑛32 𝑛33 𝑛34 𝑛3. Celkem 𝑛.1 𝑛.2 𝑛.3 𝑛.4 𝑛 Koriťáková, Dušek: Analýza dat pro neurovědy Pearsonův chí-kvadrát test Příklad: Chceme zjistit, jestli existuje vztah mezi typem onemocnění a věkovými kategoriemi v našem souboru. Postup: Typ onemocnění Věk Celkem <60 let 60-70 let 70-80 let ≥80 let CN 1 7 176 46 230 MCI 13 85 201 107 406 AD 9 34 90 64 197 Celkem 23 126 467 217 833 Tabulka pozorovaných četností: Typ onemocnění Věk Celkem <60 let 60-70 let 70-80 let ≥80 let CN 6,4 34,8 128,9 59,9 230 MCI 11,2 61,4 227,6 105,8 406 AD 5,4 29,8 110,4 51,3 197 Celkem 23 126 467 217 833 Tabulka očekávaných četností: 4,6 833 23023 11   e 2,11 833 40623 21   e 8,34 833 230126 12   e ... Testová statistika:     4,69... 8,34 8,347 4,6 4,61)( 22 1 1 2 2          r i c j ij ijij e en   6,12)6(14)13(4,69 2 )95,0( 2 )95,0( 2   → zamítáme H0 o nezávislosti → Vztah mezi typem onemocnění a věkovými kategoriemi je statisticky významný. 12 Koriťáková, Dušek: Analýza dat pro neurovědy Předpoklady Pearsonova chí-kvadrát testu • Nezávislost jednotlivých pozorování • 100 % buněk musí mít očekávanou četnost (eij) větší než 5 13 • Nesplnění předpokladů – může nám pomoci slučování kategorií, ale můžeme slučovat jen slučitelné kategorie! • Pokud nemůžeme slučovat kategorie → Fisherův exaktní test Koriťáková, Dušek: Analýza dat pro neurovědy Úkol 1. Zadání: Vhodně kategorizujte výšku a zjistěte, zda existuje vztah kategorizované výšky a pohlaví. 14 Očekávané četnosti >5 dokonce ve všech polích → můžeme použít Pearsonův chí-kvadrát test. Řešení: Koriťáková, Dušek: Analýza dat pro neurovědy Fisherův exaktní test • Určen pro čtyřpolní tabulky, je vhodný i pro tabulky s malými četnostmi – pro ty, které nesplňují předpoklad Pearsonova chí-kvadrát testu. • Založen na výpočtu „přesné“ p-hodnoty (pravděpodobnosti, s jakou bychom dostali stejný nebo ještě extrémnější výsledek při zachování součtu řádků i sloupců v tabulce). • Příklad: Chceme ověřit vztah dvou typů nežádoucích účinků, které jsou sumarizovány následující tabulkou: • Postup: Všechny varianty tabulky při zachování součtu řádků a sloupců: 15 2 3 6 4 NÚ I NÚ II ano ne ano ne 0 5 8 2 1 4 7 3 2 3 6 4 3 2 5 5 4 1 4 6 5 0 3 7 Pravděpodobnosti výskytu jednotlivých tabulek: 0,007 0,093 0,326 0,392 0,163 0,019 Oboustranná p-hodnota (sečtení pravděpodobností stejných nebo menších než je pravděpodobnost pozorované varianty): p = 0,326 + 0,093 + 0,007 + 0,163 + 0,019 = 0,608 0,007 0,093 0,326 0,163 0,019 Koriťáková, Dušek: Analýza dat pro neurovědy Fisherův exaktní test pro čtyřpolní tabulku • Příklad: Chceme ověřit vztah pohlaví a kategorizovaného MMSE skóre (MMSE skóre v normě (tzn. MMSE ≥ 25) a pod normou (MMSE < 25)) u pacientů s Alzheimerovou chorobou. • Řešení: 16 Koriťáková, Dušek: Analýza dat pro neurovědy Fisherův exaktní test pro větší tabulku • Příklad: Chceme ověřit vztah pohlaví a kategorizovaného věku u pacientů s Alzheimerovou chorobou. • Řešení: 17 -> musíme vypočítat Fisherův exaktní test pomocí: Exact... -> Exact Nejsou splněné předpoklady očekávaných četností větších než 5 u 2 buněk! i SPSS nás varuje, že u 2 buněk jsou očekávané četnosti menší než 5 Koriťáková, Dušek: Analýza dat pro neurovědy Fisherův x Pearsonův test • Pearsonův chí-kvadrát test lze použít na jakoukoliv kontingenční tabulku, ALE je nutné hlídat předpoklady: 100% očekávaných četností větších než 5. • Může nám pomoci slučování kategorií, ale můžeme slučovat jen slučitelné kategorie! • Nedodržení předpokladů pro Pearsonův chí-kvadrát test může stejně jako u t-testu a analýzy rozptylu vést k nesmyslným závěrům! • Pro hodnocení čtyřpolních tabulek je Fisherův exaktní test standardem v klinických analýzách. 18 Koriťáková, Dušek: Analýza dat pro neurovědy Analýza kontingenčních tabulek na webu • 2x2 tabulky: http://graphpad.com/quickcalcs/contingency1/ • 2x3 tabulky: http://www.vassarstats.net/fisher2x3.html • 2x5 (nebo menší) tabulky: http://www.quantitativeskills.com/sisa/statistics/fiveby2.htm • 3x3 tabulky: http://vassarstats.net/fisher3x3.html 19 Koriťáková, Dušek: Analýza dat pro neurovědy Úkol 2. • Zadání: Zjistěte, zda existuje vztah mezi onemocněním (MCI vs. CN) a kategorizovaným MMSE skóre (pod normou a v normě) u mužů. • Řešení: 20 Koriťáková, Dušek: Analýza dat pro neurovědy McNemarův test • Je to obdoba párového testu (test symetrie pro kontingenční tabulku). • Testová statistika pro čtyřpolní tabulku: • Zaměřuje se pouze na pozorování, u kterých jsme při opakovaném měření zaznamenali rozdílné výsledky – za platnosti H0 by jejich četnosti (označeny b a c) měly být stejné. • Testová statistika pro obecnou čtvercovou kontingenční tabulku: 21 cb cb    2 2 )( Veličina X Veličina Y Y = 1 Y = 2 Celkem X = 1 a b a + b X = 2 c d c + d Celkem a + c b + d n     ji jiij jiij nn nn 2 2 )( rozdílné výsledky Koriťáková, Dušek: Analýza dat pro neurovědy McNemarův test • Příklad: Zjistěte, zda se liší kategorizované MMSE skóre při vstupu do studie a dva roky po zahájení studie u pacientů s Alzheimerovou chorobou. • Řešení: 22 rozdílné výsledky Koriťáková, Dušek: Analýza dat pro neurovědy 2. Binomické testy 23 Koriťáková, Dušek: Analýza dat pro neurovědy Binomické testy Pokud máme spočítané podíly pacientů s výskytem sledovaného jevu, můžeme k testování použít i binomické testy: 1. Liší se podíl (p) pacientů s výskytem sledovaného jevu od předpokládané (referenční) hodnoty (π)? (Např. liší se procento pacientů s nežádoucími účinky léčby od předpokládaného procenta?) → jednovýběrový binomický test (tzn. test pro podíl u jednoho výběru) https://www.medcalc.org/calc/test_one_proportion.php 2. Liší se podíly pacientů s výskytem sledovaného jevu ve dvou souborech? (Např. liší se podíl pacientů s nežádoucími účinky léčby podle typu léčby?) → dvouvýběrový binomický test (tzn. test pro podíl u dvou výběrů) https://www.medcalc.org/calc/comparison_of_proportions.php 24 Koriťáková, Dušek: Analýza dat pro neurovědy Jednovýběrový binomický test • Příklad: Mezi 50 pacienty s Alzheimerovou chorobou je 12 pacientů s MMSE skóre nižším než daná hranice. Ověřte, zda podíl pacientů s nižším skóre je stejný jako v běžné populaci. • Tzn. hypotézy budou mít tvar: a • Řešení: • π = 0,05 (v populaci – hranice skóre jsou dělána tak, aby 5% populace bylo nižší než hranice) • p = 12/50 = 0,24 = 24% • Závěr: Podíl pacientů s nižším MMSE skóre je statisticky významně odlišný od podílu v běžné populaci. pH :0 pH :1 25 Koriťáková, Dušek: Analýza dat pro neurovědy Dvouvýběrový binomický test • Příklad: Mezi 42 pacienty s Alzheimerovou chorobou (AD) je 11 pacientů s MMSE skóre nižším než daná hranice. Mezi 18 pacienty s mírnou kognitivní poruchou (MCI) je 6 pacientů s MMSE skóre nižším než daná hranice. Ověřte, zda se podíly pacientů s nižším skóre u pacientů s AD a MCI liší. • Tzn. hypotézy budou mít tvar: a • Řešení: • p1 = 11/42 = 0,262 = 26,2% • p2 = 6/18 = 0,333 = 33,3% • Závěr: Neprokázali jsme, že by se podíl subjektů s nižším MMSE skóre lišil u pacientů s AD a MCI. 210 : ppH  211 : ppH  26 Koriťáková, Dušek: Analýza dat pro neurovědy 3. Relativní riziko („relative risk“) a poměr šancí („odds ratio“) 27 Koriťáková, Dušek: Analýza dat pro neurovědy Motivace • Sledujeme souvislost věku matky a výskytu náhlého úmrtí kojence (SIDS). Výsledky dány v tabulce: • Pomocí Pearsonova chí-kvadrát nebo Fisherova exaktního testu můžeme rozhodovat o závislosti/nezávislosti dvou sledovaných veličin. Testy ale neumožňují tento vztah kvantifikovat. • Má-li to smysl a chceme-li kvantifikovat (rozhodovat o těsnosti této závislosti) můžeme použít tzv. relativní riziko a poměr šancí. 28 Věk matky SIDS Ano Ne Celkem Do 25 let 29 7301 7330 25 a více let 15 11241 11256 Celkem 44 18542 18586 Koriťáková, Dušek: Analýza dat pro neurovědy Srovnávané skupiny • Pomocí relativního rizika (RR) i poměru šancí (OR) můžeme srovnat pravděpodobnosti výskytu sledovaného jevu ve dvou různých skupinách: • 1. skupina s pravděpodobností výskytu události P1: – experimentální skupina – např. léčená novou léčbou – riziková skupina – např. hypertonici – skupina s expozicí určitému faktoru – např. horníci • 2. skupina s pravděpodobností výskytu události P0: – kontrolní skupina – skupina bez expozice 29 Koriťáková, Dušek: Analýza dat pro neurovědy Grafické srovnání RR a OR 30 A B RR = 2 10 3 10 6  OR = 5.3 7 3 4 6  Výskyt sledovaného jevu Bez výskytu sledovaného jevu Koriťáková, Dušek: Analýza dat pro neurovědy Relativní riziko („Relative Risk“) • Výpočet relativního rizika (RR) umožňuje srovnat pravděpodobnosti výskytu sledovaného jevu ve dvou různých skupinách. • 1. skupina – experimentální nebo skupina s expozicí určitému faktoru • 2. skupina – kontrolní nebo skupina bez expozice 31 dc c ba a P P RR   0 1 RR Pravděpodobnost výskytu jevu v 1. skupině (experimentální) Pravděpodobnost výskytu jevu ve 2. skupině (kontrolní) 0 1 P P  Skupina Sledovaný jev Ano Ne Celkem Experimentální a b a + b Kontrolní c d c + d Celkem a + c b + d n Koriťáková, Dušek: Analýza dat pro neurovědy Relativní riziko • Příklad: Sledujeme souvislost věku matky a výskytu náhlého úmrtí kojence (SIDS). Výsledky dány v tabulce: 32 Věk matky SIDS Ano Ne Celkem Do 25 let 29 7301 7330 25 a více let 15 11241 11256 Celkem 44 18542 18586 97,2 1124115 15 730129 29 0 1      dc c ba a P P RR Riziko výskytu SIDS u dětí matek ve věku do 25 je téměř třikrát vyšší než u dětí matek rodících ve vyšším věku. Koriťáková, Dušek: Analýza dat pro neurovědy Relativní riziko Příklad: Sledujeme souvislost věku matky a výskytu náhlého úmrtí kojence (SIDS). Výsledky dány v tabulce: 33 Věk matky SIDS Ano Ne Celkem Do 25 let 29 7301 7330 25 a více let 15 11241 11256 Celkem 44 18542 18586 Řešení pomocí webového kalkulátoru: (http://www.medcalc.org/calc/relative_risk.php): Závěr: Riziko výskytu SIDS u dětí matek ve věku do 25 je téměř třikrát vyšší než u dětí matek rodících ve vyšším věku. Koriťáková, Dušek: Analýza dat pro neurovědy Poměr šancí („Odds ratio“) • Poměr šancí (OR) je další charakteristikou, která umožňuje srovnat výskyt sledovaného jevu ve dvou různých skupinách. • 1. skupina – experimentální nebo skupina s expozicí určitému faktoru • 2. skupina – kontrolní nebo skupina bez expozice 34 OR Pravděpodobnost výskytu jevu v 1. skupině (experimentální) Pravděpodobnost výskytu jevu ve 2. skupině (kontrolní) 0 0 1 1 0 1 1 1 P P P P O O    1 – Pravděpodobnost výskytu jevu v 1. skupině (experimentální) 1 – Pravděpodobnost výskytu jevu ve 2. skupině (kontrolní) d c b a P P P P OR     0 0 1 1 1 1 Skupina Sledovaný jev Ano Ne Celkem Experimentální a b a + b Kontrolní c d c + d Celkem a + c b + d n Koriťáková, Dušek: Analýza dat pro neurovědy Poměr šancí • Příklad: Sledujeme souvislost věku matky a výskytu náhlého úmrtí kojence (SIDS). Výsledky dány v tabulce: 35 98,2 11241 15 7301 29 1 1 0 0 1 1     d c b a P P P P OR „Šance“ na výskyt SIDS u dětí matek ve věku do 25 je téměř třikrát vyšší než u dětí matek rodících ve vyšším věku. Věk matky SIDS Ano Ne Celkem Do 25 let 29 7301 7330 25 a více let 15 11241 11256 Celkem 44 18542 18586 Koriťáková, Dušek: Analýza dat pro neurovědy Poměr šancí 36 Příklad: Sledujeme souvislost věku matky a výskytu náhlého úmrtí kojence (SIDS). Výsledky dány v tabulce: Řešení pomocí webového kalkulátoru: (http://www.medcalc.org/calc/odds_ratio.php): Závěr: „Šance“ na výskyt SIDS u dětí matek ve věku do 25 je téměř třikrát vyšší než u dětí matek rodících ve vyšším věku. Věk matky SIDS Ano Ne Celkem Do 25 let 29 7301 7330 25 a více let 15 11241 11256 Celkem 44 18542 18586 Koriťáková, Dušek: Analýza dat pro neurovědy Vztah mezi relativním rizikem (RR) a poměrem šancí (OR) 37 Zhang, J. et al. JAMA 1998;280:1690-1691. RR a OR je přímo srovnatelné pouze při nízkém bazálním riziku Koriťáková, Dušek: Analýza dat pro neurovědy Výhody a nevýhody RR a OR • Nevýhoda OR: – obtížná interpretace • Výhoda OR: – lze použít pro srovnání studií s různým bazálním rizikem – vhodné pro metaanalýzu • Výhoda i nevýhoda RR: – nezajímá ho samotná pravděpodobnost výskytu jevu, ale pouze jejich podíl → korektní použití RR je však pouze v případě, že pravděpodobnost výskytu jevu v kontrolní skupině je reprezentativní (není ovlivněna výběrem sledovaných subjektů) 38 Koriťáková, Dušek: Analýza dat pro neurovědy Prospektivní a retrospektivní studie Prospektivní studie: • U některých subjektů je rizikový faktor přítomen a u jiných ne → sledujeme v čase, zda se vyskytne událost. • Zjištěná pravděpodobnost výskytu události v kontrolní skupině je reprezentativní, neboť prospektivně zařazujeme všechny pacienty → korektní použití RR 39 Exponovaní jedinci Jedinci bez expozice Případy (s událostí) Případy (s událostí) Kontroly (bez události) Kontroly (bez události) Exponovaní jedinci Jedinci bez expozice Historie Začátekstudie Čas Začátekstudie Čas S událostí Bez události Průběh studie Kohorta subjektů (náhodně vybranáze studované populace) S událostí Bez události Exponovaníjedinci Jedinci bez expozice Retrospektivní studie: • U některých subjektů se událost vyskytla a u jiných ne → zpětně hodnotíme, zda se liší s ohledem na nějaký rizikový faktor. • Zjištěná pravděpodobnost výskytu události v kontrolní skupině není reprezentativní, neboť ji ovlivňujeme zpětným výběrem skupin subjektů. → nekorektní použití RR. → korektní použití OR. Koriťáková, Dušek: Analýza dat pro neurovědy Příklad Zadání: Vypočtěte relativní riziko a poměr šancí na MMSE pod normou podle pohlaví. 40 Riziko výskytu MMSE pod normou je 1,27-krát vyšší u žen než u mužů. „Šance“ na výskyt MMSE pod normou je 1,35-krát vyšší u žen než u mužů. Řešení v online kalkulátoru pro ženy vs. muže: Koriťáková, Dušek: Analýza dat pro neurovědy Příklad 41 Riziko výskytu MMSE pod normou o 21% nižší u mužů než u žen. „Šance“ na výskyt MMSE pod normou je o 26% nižší u mužů než u žen. Zadání: Vypočtěte relativní riziko a poměr šancí na MMSE pod normou podle pohlaví. Řešení v online kalkulátoru pro muže vs. ženy: Koriťáková, Dušek: Analýza dat pro neurovědy Příklad Zadání: Vypočtěte relativní riziko a poměr šancí na MMSE pod normou podle pohlaví. 42 Řešení v SPSS pro ženy vs. muže (pro „mimo normu“ před „v normě“): Riziko i šance vyšší u žen než u mužů. Riziko výskytu MMSE pod normou je 1,27-krát vyšší u žen než u mužů. „Šance“ na výskyt MMSE pod normou je 1,35-krát vyšší u žen než u mužů. Koriťáková, Dušek: Analýza dat pro neurovědy Příklad Zadání: Vypočtěte relativní riziko a poměr šancí na MMSE pod normou podle pohlaví. 43 Řešení v SPSS pro muže vs. ženy (pro „mimo normu“ před „v normě“): Riziko i šance nižší u mužů než u žen. Riziko výskytu MMSE pod normou o 21% nižší u mužů než u žen. „Šance“ na výskyt MMSE pod normou je o 26% nižší u mužů než u žen. Koriťáková, Dušek: Analýza dat pro neurovědy Příklad Zadání: Vypočtěte relativní riziko a poměr šancí na MMSE pod normou podle pohlaví. 44 Řešení v SPSS pro ženy vs. muže (pro „v normě“ před „mimo normu“): Riziko i šance vyšší u žen než u mužů. Riziko výskytu MMSE pod normou je 1,27-krát vyšší u žen než u mužů. 1/0,743 = 1,35 „Šance“ na výskyt MMSE pod normou je 1,35-krát vyšší u žen než u mužů. Koriťáková, Dušek: Analýza dat pro neurovědy Příklad Zadání: Vypočtěte relativní riziko a poměr šancí na MMSE pod normou podle pohlaví. 45 Řešení v SPSS pro muže vs. ženy (pro „v normě“ před „mimo normu“): Riziko i šance nižší u mužů než u žen. Riziko výskytu MMSE pod normou o 21% nižší u mužů než u žen. 1/1,346 = 0,74 „Šance“ na výskyt MMSE pod normou je o 26% nižší u mužů než u žen. Koriťáková, Dušek: Analýza dat pro neurovědy Vizualizace poměru šancí (OR – odds ratio) 46 Rizikový faktor n/N (%) OR (95% IS) p Věk < 60 19/290 (6.6%) reference - 60–69 44/465 (8.6%) 1.56 (0.91–2.67) 0.106 70–79 47/561 (7.7%) 1.78 (1.04–3.05) 0.036 ≥ 79 52/571 (8.3%) 2.55 (1.49–4.36) 0.001 Vzdělání Vyšší než základní 118/1573 (7.5%) reference Základní 36/301 (10.7%) 2.00 (1.38–2.91) < 0.001 10 2 3 4 5 IS obsahuje 1 → p>0.05 IS neobsahuje 1 → p<0.05 Hledáme rizikové faktory pro vznik demence: Interpretace: Se zvyšujícím se věkem se zvyšuje šance na vznik demence (osoby starší 79 let mají 2,5-krát vyšší šanci než lidé pod 60 let). Navíc lidé se základním vzděláním mají 2x vyšší šanci na vznik demence než lidé s vyšším vzděláním. Koriťáková, Dušek: Analýza dat pro neurovědy Další způsoby vyjádření rozdílu rizika • Relativní redukce rizika (RRR) • Absolutní redukce rizika (ARR) 47 ARR = %202.0 10 3 10 5  Bez léčby S léčbou RRR = 1 - RR = 1 - %406.01 10 5 10 3 1  Koriťáková, Dušek: Analýza dat pro neurovědy Další způsoby vyjádření rozdílu rizika • Počet pacientů, které je potřeba léčit, abychom zabránili výskytu jedné události – „number needed to treat“ (NNT). 48 ARR = 20% Pro snížení počtu událostí o 20 je třeba léčit 100 pacientů. 5 20 100 2,0 1 NNT = NNT = Pro snížení počtu událostí o 1 je třeba léčit 5 pacientů. Koriťáková, Dušek: Analýza dat pro neurovědy Absolutní vs. relativní četnost • Vyjádření výsledků v relativní formě (procento) má často příjemnou interpretaci, ale může být zavádějící. • Relativní vyjádření účinnosti by mělo být vždy doprovázeno absolutním vyjádřením účinnosti. • Příklad: Srovnání účinnosti léčiva ve smyslu prevence CMP u kardiaků. Studie 1: Výskyt CMP ve skupině A je 12 %, ve skupině B je 20 %. Relativní změna v účinnosti = 1 - (0,12/0,20) = 40 % Absolutní změna = 8 % Studie 2: Výskyt CMP ve skupině A je 0,9 %, ve skupině B je 1,5 %. Relativní změna v účinnosti = 1 – (0,009/0,015) = 40 % Absolutní změna = 0,6 %. • Výsledkem je rozdílný přínos léčby při stejné relativní účinnosti. 49 Koriťáková, Dušek: Analýza dat pro neurovědy NNT a absolutní vs. relativní četnost • Srovnání účinnosti léčiva ve smyslu prevence CMP u kardiaků. Studie 1: Výskyt CMP ve skupině A je 12 %, ve skupině B je 20 %. Relativní změna v účinnosti = 40 %; absolutní změna = 8 %. Studie 2: Výskyt CMP ve skupině A je 0,9 %, ve skupině B je 1,5 %. Relativní změna v účinnosti = 40 %; absolutní změna = 0,6 %. 50 7,166 6,0 100 006,0 1 NNT = NNT = Pro snížení počtu událostí o 1 je třeba léčit 167 pacientů. 5,12 8 100 08,0 1 NNT = NNT = Pro snížení počtu událostí o 1 je třeba léčit 13 pacientů. Koriťáková, Dušek: Analýza dat pro neurovědy 4. Binomické rozdělení 51 Koriťáková, Dušek: Analýza dat pro neurovědy Typy dat - opakování • Kvalitativní (kategoriální) data: ‐ Binární data ‐ Nominální data ‐ Ordinální data • Kvantitativní data: ‐ Intervalová data ‐ Poměrová data 52 Koriťáková, Dušek: Analýza dat pro neurovědy Motivace • Nejjednodušším případem kategoriálních dat jsou data binární. • Binární data jsou popsána binomickým rozložením. • Od chování binomického rozložení je odvozena: – popisná statistika binárních dat (procento výskytu jevu) – interval spolehlivosti pro binární data – binomické testy pro srovnání procentuálního výskytů jevů v různých skupinách 53 Koriťáková, Dušek: Analýza dat pro neurovědy Binomické rozdělení • Diskrétní rozdělení, které popisuje počet výskytů sledované události (ve formě nastala/nenastala) v sérii n nezávislých pokusech, kdy v každém pokusu je stejná pravděpodobnost výskytu této události. • Značení: Bi(n,π) • Parametry: n ... počet nezávislých pokusů r ... počet, kolikrát nastala sledovaná událost (r = 0...n) p = r/n ... pravděpodobnost nastání sledované události (p ̴π) • Pravděpodobnost, že sledovaná událost nastane r-krát, lze vypočítat: • Střední hodnota: EX = n · p • Rozptyl: DX = n · p · (1 - p) • Příklady: výskyt nežádoucích účinků léku u léčených pacientů, počet zemřelých pacientů mezi léčenými pacienty, počet pacientů s výsledkem neuropsycholog. testu pod normou     rnrrnr pp rnr n pp r n rXP           1 !! ! )1()( 54 Koriťáková, Dušek: Analýza dat pro neurovědy Binomické rozdělení – příklad • Př. Pravděpodobnost narození chlapce je 0,5. Jaká je pravděpodobnost toho, že mezi čtyřmi dětmi v rodině je 0, 1,... až 4 chlapců. Vypočítejte i jaký je nejpravděpodobnější počet chlapců v této rodině. • Řešení: n = 4 (4 děti v rodině) r = 0, 1, 2, 3, 4 chlapců     rnrrnr pp rnr n pp r n rXP           1 !! ! )1()(   0625,05,015,0 4!0! !4 )0( 40 XP   2500,05,015,0 3!1! !4 )1( 31 XP   3750,05,015,0 2!2! !4 )2( 22 XP Nejpravděpodobnější počet chlapců – střední hodnota: E(X) = n · p = 4 · 0,5 = 2 2500,0)3( XP 0625,0)4( XP 0 0.1 0.2 0.3 0.4 0 1 2 3 4 n = 4 p = 0,5 55 Koriťáková, Dušek: Analýza dat pro neurovědy 0 0,05 0,1 0,15 0,2 0,25 0,3 0 1 2 3 4 5 6 7 8 9 10 0 0,05 0,1 0,15 0,2 0,25 0,3 0 5 10 15 20 25 30 0 0,05 0,1 0,15 0,2 0,25 0,3 0 10 20 30 40 50 60 70 80 90 100 0 0,02 0,04 0,06 0,08 0,1 0,12 0,14 0,16 0,18 0,2 0 5 10 15 20 25 30 35 40 45 50 0 0,02 0,04 0,06 0,08 0,1 0,12 0 5 10 15 20 25 30 35 40 45 50 0 0,02 0,04 0,06 0,08 0,1 0,12 0,14 0,16 0,18 0,2 0 5 10 15 20 25 30 35 40 45 50 Binomické rozdělení – tvar pro různé n a p • Čím vícekrát opakujeme experiment, tím menší relativní podíl připadá na jednotlivé hodnoty X, neboť všechny dohromady musí dát součet 1 (100%). • Rozdělení s p=0,5 je symetrické kolem středu osy x, menší či větší p posouvá střed rozdělení směrem k limitním hodnotám (tedy hodnotám 0 či n). n = 10 p = 0,3 n = 30 p = 0,3 n = 100 p = 0,3 n = 50 p = 0,1 n = 50 p = 0,5 n = 50 p = 0,9 P(r) P(r) P(r) P(r) P(r) P(r) r r r r r r 56 Koriťáková, Dušek: Analýza dat pro neurovědy Binomické rozložení – speciální případy • Pokud n=1, jde o tzv. alternativní rozdělení a daná událost buď nenastane nebo nastane jednou. • Pokud náhodný experiment opakujeme mnohokrát (n je velké), rozdělení se začne podobat spojitému rozdělení → aproximace na normální rozdělení. • Aproximace normálním rozdělením však nebude platit pro velmi nízké a velmi vysoké hodnoty p → u nízkých hodnot p aproximace na Poissonovo rozdělení (pro n > 30 a p < 0,1). 0 0,05 0,1 0,15 0,2 0,25 0,3 0 10 20 30 40 50 60 70 80 90 100 n = 100 p = 0,3 0 0,02 0,04 0,06 0,08 0,1 0,12 0,14 0,16 0,18 0,2 0 5 10 15 20 25 30 35 40 45 50 n = 50 p = 0,09 P(r) r P(r) r 57 Koriťáková, Dušek: Analýza dat pro neurovědy Binomické rozdělení - interval spolehlivosti - příklad • Př. Sledování výskytu nežádoucích účinků u n = 100 pacientů se schizofrenií léčených daným přípravkem. Nežádoucí účinky se vyskytly u 60 jedinců. Odhadněte pravděpodobnost výskytu nežádoucích účinků a tento odhad doplňte o 95% interval spolehlivosti. • Vzorečky: • Řešení: • Pravděpodobnost výskytu nežádoucích účinků je 0,6 (0,503; 0,697). n rpp  ; (bodový odhad parametru π)     1 1 1 1 2 1 2 1        n pp Zp n pp Zp   (interval spolehlivosti pro π) 6,0100/60 p     1100 6,016,0 96,16,0 1100 6,016,0 96,16,0        049,096,16,0049,096,16,0   697,0503,0   58 Koriťáková, Dušek: Analýza dat pro neurovědy Binomické rozdělení – interval spolehlivosti Ovlivnění šířky intervalu spolehlivosti (IS): – hodnotou p – IS bude nejširší pro p = 0,5 – hodnotou n – IS širší při malém n než při velkém – hodnotou α – IS širší pro malé α (hladinu spolehlivosti) – tzn. 99% IS bude širší než 95% IS Interval spolehlivosti bez aproximace na normální rozdělení (pokud hodnoty p jsou velmi nízké nebo velmi vysoké):   1 1 2 1     n pp Zp     21; 2 1  Frnr r D     rrn 2;12 21          21 21 ; 2 ; 2 1 1          Frrn Fr H     22 212 12 21     rn r ... kde: Dolní hranice IS: Horní hranice IS: ... kde: 59http://www.measuringusability.com/wald.htm Koriťáková, Dušek: Analýza dat pro neurovědy 5. Poissonovo rozdělení 60 Koriťáková, Dušek: Analýza dat pro neurovědy Poissonovo rozdělení • Diskrétní rozdělení, které popisuje počet výskytů sledované události na danou jednotku (času, plochy, objemu), když se tyto události vyskytují vzájemně nezávisle s konstantní intenzitou (parametr λ). • Značení: Po(λ) • Jedná se o zobecnění binomického rozdělení pro a (aproximace je funkční již při n > 30, p < 0,1): Pravděpodobnost, že sledovaná událost nastane r-krát, lze vypočítat: • Střední hodnota: EX = λ (λ vyjadřuje střední počet jevů na jednu experimentální jednotku) • Rozptyl: DX = λ • Příklady: počet krvinek v poli mikroskopu, počet pooperačních komplikací během určitého časového intervalu po výkonu, počet pacientů, kteří přišli do ordinace během jedné hodiny, počet částic, které vyzáří zářič za danou časovou jednotku n 0p ! )( r e rXP r        pnpn  Po,Bi 61 Koriťáková, Dušek: Analýza dat pro neurovědy Poissonovo rozdělení – příklady Výskyt jevu na experimentální jednotku (mutace bakterií na inkubačních miskách) Výskyt jevu v prostoru (počet buněk v sčítacím poli preparátu) Orientační stanovení jevu (např. produkce plynu bakteriemi) + + +- Výskyt jevu v čase (vyzáření částice v určitých časových intervalech) čas 62 Koriťáková, Dušek: Analýza dat pro neurovědy Poissonovo rozdělení – příklad • Příklad: Předpokládejme, že v určité populaci krys se vyskytuje albín s pravděpodobností π=0,001, ostatní krysy jsou normálně pigmentované. Ve vzorku 100 krys náhodně vybraných z této populace určete pravděpodobnost, že vzorek a) neobsahuje albína, b) obsahuje právě jednoho albína. • Řešení: Pravděpodobnost výskytu albína je π=0,001. Předpokládaný počet albínů ve výběru o rozsahu n je λ=n*π (průměr binomické náhodné veličiny), tj. v našem příkladu λ=n*π=100*0,001=0,1. Počet albínů označme x. Potom: • Jak je vidět, pravděpodobnost, že ve vzorku 100 krys nebude žádný albín, je desetkrát vyšší než pravděpodobnost, že ve vzorku bude právě jeden albín. Pravděpodobnosti výskytu dvou a více albínů jsou již velmi malé. Převzato z: Zvárová, J. (2001) Základy statistiky pro biomedicínské obory. Praha: Karolinum. 63 Koriťáková, Dušek: Analýza dat pro neurovědy Poissonovo rozdělení – předpoklady • výskyt jevu je zcela náhodný (tedy náhodný v čase nebo prostoru podle typu situace) • výskyt jevu v konkrétní experimentální jednotce nijak nezávisí na tom, co se stalo v jiných jednotkách • není možné, aby 2 nebo více jevů nastaly současně, přesně ve stejném místě prostoru nebo ve stejném časovém okamžiku • pro každý dílčí časový okamžik, prostorou jednotku apod. je pravděpodobnost výskytu stejná  2  2  2 Poissonovo rozdělení výskyt uniformní výskyt shlukový výskyt náhodný 64 Koriťáková, Dušek: Analýza dat pro neurovědy Poissonovo rozdělení – tvar pro různé λ • Čím větší je λ, tím více se tvar Poissonova rozdělení blíží normálnímu rozdělení. 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 0 1 2 3 4 5 6 7 8 9 10 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 1,1 0 1 2 3 4 5 6 7 8 9 10  = 0.01  = 0.1 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0 1 2 3 4 5 6 7 8 9 10  = 0.5 0 0,02 0,04 0,06 0,08 0,1 0,12 0,14 0,16 0,18 0,2 0 1 2 3 4 5 6 7 8 9 10 0 0,02 0,04 0,06 0,08 0,1 0,12 0,14 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20  = 5  = 10 0 0,05 0,1 0,15 0,2 0,25 0,3 0,35 0,4 0 1 2 3 4 5 6 7 8 9 10  = 1 65 Koriťáková, Dušek: Analýza dat pro neurovědy Poissonovo rozdělení – intervaly spolehlivosti - příklad • Př. Za 10 hodin vyzářil zářič 1500 částic. Spočtěte průměrný počet vyzářených částic za hodinu a tento odhad průměrného počtu částic doplňte o 95% interval spolehlivosti. • Vzorečky: • Řešení: • Průměrný počet částic vyzářených za hodinu je 150 (142;158). x (bodový odhad parametru λ) n x Zx n x Zx   2 1 2 1   (interval spolehlivosti pro λ) 15010/1500 x 10 150 96,1150 10 150 96,1150   873,396,1150873,396,1150   158142   66 Koriťáková, Dušek: Analýza dat pro neurovědy Poissonovo rozdělení – interval spolehlivosti • Ovlivnění šířky intervalu spolehlivosti (IS): – hodnotou λ – IS širší při velkém λ – hodnotou n – IS širší při malém n než při velkém – hodnotou α – IS širší pro malé α (hladinu spolehlivosti) – tzn. 99% IS bude širší než 95% IS • Interval spolehlivosti bez aproximace na normální rozdělení: n x Zx   2 1    2 1 2 2  D r21  22212  r ... kde: Dolní hranice IS: Horní hranice IS: ... kde:  2 2 2 21   H 67 Koriťáková, Dušek: Analýza dat pro neurovědy Poděkování… Příprava výukových materiálů předmětu „DSAN01 Analýza dat pro Neurovědy “ byla finančně podporována prostředky projektu FRVŠ č. 942/2013 „Inovace materiálů pro interaktivní výuku a samostudium předmětu Analýza dat pro Neurovědy“ 68