Přednáška 8 Kontingenční tabulky Test dobré shody Fisherův přesný test McNemar test Odds ratio a relativní riziko Institut biostatistiky a analýz, PřF a LF MU Anotace • Analýza kontingenčních tabulek umožňuje analyzovat vazbu mezi dvěma kategoriálními proměnnými. • Základním způsobem testování je tzv. chi-square test, který srovnává pozorované četnosti kombinací kategorií oproti očekávaným četnostem, které vychází z teoretické situace, kdy je vztah mezi proměnnými náhodný. • Test dobré shody je využíván také pro srovnání pozorovaných četností proti očekávaným četnostem daným určitým pravidlem (typickým příkladem je HardyWeinbergova rovnováha v genetice) • Specifickým typem výstupů odvozených z kontingenčních tabulek jsou tzv. odds ratia a relativní rizika, využívaná často v medicíně pro identifikaci a popis rizikových skupin pacientů. Institut biostatistiky a analýz, PřF a LF MU Co je kontingenční tabulka ? • Frekvenční sumarizace dvou kategoriálních proměnných (binárních, nominálních nebo ordinálních proměnných). • Obecně: R x C kontingenční tabulka (R – počet kategorií jedné proměnné, C – počet kategorií druhé proměnné). • Speciální případ: 2 x 2 tabulka = čtyřpolní tabulka. • Kontingenční tabulky: absolutních četností, celkových procent, řádkových/sloupcových četností • Př.: Sumarizace vyšetřených osob podle pohlaví a výsledku diagnostického testu. Pohlaví Výsledek vyšetření Nemocný Zdravý Celkem Muž 45 11 56 Žena 25 6 31 Celkem 70 17 87 Institut biostatistiky a analýz, PřF a LF MU Ukázka kontingenční tabulky • Vztah pohlaví a výskytu onemocnění (pozor na hodnocení nesmyslného vztahu) Nemocný Zdravý Celkem Muž a b a + b Žena c d c + d Celkem a + c b + d a + b + c + d = N Nemocný Zdravý Celkem Muž 45 11 56 Žena 25 6 31 Celkem 70 17 87 Celkový počet hodnot Simultánní absolutní četnost Marginální absolutní četnost Jsou více nemocní muži nebo ženy? Institut biostatistiky a analýz, PřF a LF MU Test dobré shody - základní teorie  2 pozorovaná četnost očekávaná četnost očekávaná četnost = + 2 pozorovaná četnost očekávaná četnost očekávaná četnost 1. jev 2. jev - 2 - + …  2 pozorovaná četnost očekávaná četnost očekávaná četnost = 2 - ∑ .).( 2 )1( 2 vs −  ... zamítáme H0 Testová statistika: 1 - hladina významnosti stupně volnosti Institut biostatistiky a analýz, PřF a LF MU Test dobré shody: příklad Binomické jevy (1/0)  2 )1( pozorovaná četnost očekávaná četnost očekávaná četnost= + 2 pozorovaná četnost očekávaná četnost očekávaná četnost I. jev 1 II. jev 2 - 2 - 0 1 Příklad 10 000 lidí hází mincí rub: 4 000 případů (R) líc: 6 000 případů (L) ✓ Lze výsledek považovat za statisticky významně odlišný (nebo neodlišný) od očekávaného poměru R : L = 1 : 1 (tzn. že je výsledek hodu mincí náhodný)?? Rozdíl je vysoce statisticky významný (p < 0,001) ( ) ( ) 400 5000 50006000 5000 50004000 22 2 = − + − = Tabulková hodnota: )195,0(84,3)11( 2 )95,0(  −===−= k Institut biostatistiky a analýz, PřF a LF MU Kontingenční tabulka - hypotézy • NEZÁVISLOST (Pearsonův chí-kvadrát test, Fisherův exaktní test) • Jeden výběr, 2 charakteristiky – obdoba nepárového uspořádání • Např.: existence vztahu mezi barvou očí a známkou z biostatistiky u studentů • SHODA STRUKTURY (Pearsonův chí-kvadrát test, Fisherův exaktní test) • Tzv. test homogenity • Více výběrů, jedna charakteristika – obdoba nepárového uspořádání • Např.: věková struktura pacientů s diabetem v K nemocnicích (tj. K výběrů) • SYMETRIE (McNemarův test) • Jeden výběr, opakovaně jedna charakteristika – obdoba párového uspořádání • Např.: posouzení stavu stromů ve dvou sezónách Institut biostatistiky a analýz, PřF a LF MU Základní rozhodování o výběru statistických testů - analýza kontingenčních tabulek Typ dat Spojitá x spojitá data Spojitá x kategoriální data Kategoriální x kategoriální data Jeden výběr Dva výběry Tři a více výběrů (nepárově) Jeden výběr Více výběrů Párová data Nepárová data Pearsonův korelační koeficient Jednovýběrový t-test Párový t-test Dvouvýběrový t-test ANOVA Párová data Nepárová data Chí-kvadrát test Spearmanův korelační koeficient Wilcoxonův / znaménkový test Wilcoxonův / znaménkový test MannůvWhitneyho / mediánový t. KruskalůvWallisův test / mediánový t. Jednovýběrový binomický test McNemarův test Fisherův exaktní test Parametrické testy Neparametrické testy Institut biostatistiky a analýz, PřF a LF MU Kontingenční tabulka - obecně • Máme dvě nominální veličiny, X (má r variant) a Y (má s variant) • Kontingenční tabulka typu r x s • Označení: • njk- simultánní absolutní četnost, • nj.- marginální absolutní četnost y[1] ….. ….. y[s] nj. x[1] n11 ….. ..... n1s n1. . . ….. ….. . . . . ….. ….. . . x[r] nr1 ….. ….. nrs nr. n.k n.1 . . n.s n x[j] y[k] Simultánní absolutní četnost Marginální absolutní četnost Marginální absolutní četnost Institut biostatistiky a analýz, PřF a LF MU Kontingenční tabulky H0 :Nezávislost dvou jevů A a B Kontingenční tabulka 2 x 2 N = a + b + c + d ( ) ( ) N ba BP + =+ ( ) ( ) N dc BP + =− + - Podíl (+) + a b - c d Podíl (+) B A ( )ca a + ( )db b + ( )ba a + ( )dc c + p1 p2 Očekávané četnosti: ( )( ) N caba F A ++ =)( ( )( ) N dbba F B ++ =)( ( )( ) N cdca F C ++ =)( ( )( ) N dcdb F D ++ =)( ( ) = = − = 4 1 2 2 1 i i ii F Ff  )1(*)1(1 −−== cr ( ) ( )BA PP ; ( )  −− = ij ijij c F Ff 2 2 5,0  Institut biostatistiky a analýz, PřF a LF MU Očekávané četnosti v kontingenční tabulce • Očekávané četnosti pro výpočet testu dobré shody v kontingenční tabulce odpovídají tabulce, která nemá žádný vztah mezi řádky a sloupečky (náhodný vztah řádků a sloupců)  2 )1( pozorovaná četnost očekávaná četnost očekávaná četnost= 2 Počítáno pro každou buňku tabulky  ☺ A 10 0 B 0 10 Pozorovaná tabulka  ☺ A 5 5 B 5 5 Očekávaná tabulka Institut biostatistiky a analýz, PřF a LF MU Testování nezávislosti – Pearsonův chí-kvadrát test • Souvisí spolu výskyt dvou nominálních znaků měřených na jediném výběru? • Příklad: Barva očí (modrá, zelená, hnědá) a barva vlasů (hnědá, černá, blond) u vybraných 30 studentů jsou nezávislé. • Nulová hypotéza: Znaky X a Y jsou nezávislé náhodné veličiny. • Alternativní hypotéza: Znaky X a Y jsou závislé náhodné veličiny. • Test: Pearsonův chí-kvadrát • Očekávané (teoretické) četnosti ejk : • H0 zamítáme na hladině významnosti α, pokud • Předpoklady testu ? ( ))1)(1( )( 2 1 1 2 −− − = = = sr e en K r j s k jk jkjk  H0 platí n nn e kj jk .. = ( ))1)(1(2 1 −− − srK  Institut biostatistiky a analýz, PřF a LF MU Testování nezávislosti – Pearsonův chí-kvadrát test Předpoklady Pearsonova chí-kvadrát testu: • Jednotlivá pozorování shrnutá v kontingenční tabulce jsou nezávislá, tj. každý prvek patří jen do jedné buňky kont. tabulky, nemůže zároveň patřit do dvou. • Podmínky dobré aproximace: Očekávané (teoretické) četnosti jsou aspoň v 80 % případů větší nebo rovné 5 a ve 100 % případů nesmí být pod 2 (pokud není tento předpoklad splněn, je vhodné sloučit kategorie s nízkými četnostmi). • Měření síly závislosti: Cramérův koeficient: Význam hodnot: 0-0,1….zanedbatelná závislost 0,1-0,3…slabá závislost 0,3-0,7…střední závislost 0,7-1 silná závislost   ( )1,0int,,min, )1( ervaluzjeVsrmkde mn K V = − = Institut biostatistiky a analýz, PřF a LF MU Kontingenční tabulky: příklad FA = 102 * 30 / 166 = 18,43 FB = 102 * 136 / 166 = 83,57 FC = 11,57 FD = 52,43 ( ) ( ) ( ) ( ) 423,0 43,52 43,5254 57,11 57,1110 57,83 57,8382 43,18 43,1820 2222 2 )1( = − + − + − + − = 84,3423,0 )1(2 95,0 =  Ano Ne  Ano 20 82 102 Ne 10 54 64  30 136 166 gen  Kontingenční tabulka v obrázku 15,6 84,4 Zemřelí Žijící % 20 80 Zemřelí Žijící %c: 49% d: 33% a: 12% b: 6% Gen: ANO Gen: NE Institut biostatistiky a analýz, PřF a LF MU Výstup řešení v SW Tab.1: Pozorované četnosti Jsou splněny podmínky dobré aproximace? Tab. 3: Paersonův chí-kvadrát p- hodnota Hodnota testové statistiky Počet stupňů volnosti Tab. 2: Očekávané četnosti Institut biostatistiky a analýz, PřF a LF MU R x C kontingenční tabulka Výběr: N lidí ze sociologického průzkumu (delikventi) Jev A: Původ z rozvrácených rodin Jev B: Stupeň zločinnosti I < II < III < IV I. II. III. IV.  číslo 1ANO a b c d NE e f g h  A B číslo2 Stupně volnosti: (R-1) * (C-1) = 1 * 3 = 3 N čísločíslo Fa 21 = )(2 )1(   −Tabulky: Očekávané četnosti: ea a pa + = fb b pb + = gc c pc + = hd d pd + = Institut biostatistiky a analýz, PřF a LF MU Rekódování kategoriálních proměnných na binární Původní Dummies Vzhledem k referenci NYHA NYHA I NYHA II NYHA III NYHA IV NYHA II ref NYHA III ref NYHA IV ref I 1 0 0 0 0 0 0 I 1 0 0 0 0 0 0 I 1 0 0 0 0 0 0 II 0 1 0 0 1 II 0 1 0 0 1 III 0 0 0 0 1 III 0 0 0 0 1 IV 0 0 1 1 1 IV 0 0 1 1 1 Institut biostatistiky a analýz, PřF a LF MU Rekódování kategoriálních proměnných na binární • Kategoriální a ordinální data mohou do analýzy vstupovat jako binární proměnné • Kategoriální data (nelze seřadit) -> dummies • Ordinální data (lze seřadit) • Dummies • Definice referenční kategorie (obvykle kategorie s nejnižším rizikem pro hodnocený endpoint • Příklad: The New York Heart Association (NYHA) Functional Classification Původní Dummies Vzhledem k referenci NYHA NYHA I NYHA II NYHA III NYHA IV NYHA II ref NYHA III ref NYHA IV ref I 1 0 0 0 0 0 0 I 1 0 0 0 0 0 0 I 1 0 0 0 0 0 0 II 0 1 0 0 1 II 0 1 0 0 1 III 0 0 0 0 1 III 0 0 0 0 1 IV 0 0 1 1 1 IV 0 0 1 1 1 Institut biostatistiky a analýz, PřF a LF MU Test dobré shody: příklad I H0: Pozorovaná frekvence pro jednotlivé barvy květů jsou vzorkem populace mající poměr mezi žlutými a červenými květy 3 :1. Součet frekvencí u obou barev květů (fi) se rovná 100 a pozorované frekvence u kategorií barvy budou srovnány s očekávanými frekvencemi (uvedeny v závorkách): ✓ Ověřte na datech z pokusu se 100 květinkami určitého druhu, že barva květů se geneticky štěpí v poměru žlutá : červená = 3 : 1. ? Kategorie barvy Žlutá Červená n f poz. 84 16 100 f oček. 75 25 St. volnosti = n = k - 1 = 1 ( ) ( ) ( ) 320,4 25 2516 75 7584 22 . 2 ..2 = − + − = − =  oč očpoz f ff  Zamítáme hypotézu shody srovnávaných četností Při testování H0 jsme použili matematický zápis (0,025 < P < 0,05). Z tabulek 2 rozložení vidíme, že pravděpodobnost překročení hranice 2,706 je 0,1 (10 %), což může být stručně zapsáno jako P (2  2,706) = 0,10. Dále lze zjistit pro P (2  3,841) = 0,05. V řešené úloze jsme dospěli k hodnotě testové statistiky 2 = 4,320. Pro tento případ lze tedy psát 0,025 < P (2  4,320) < 0,05; a jednodušeji 0,025 < P < 0,05. Jde v podstatě o přibližné určení hranic chyby 1. druhu. Institut biostatistiky a analýz, PřF a LF MU Test dobré shody: příklad II Celkem bylo zkoumáno 250 semen určitého druhu rostliny a roztříděno do následujících kategorií: žluté/hladké; žluté/vrásčité; zelené/hladké; zelené/vrásčité. Předpokládaný poměr výskytu těchto kategorií v populaci je 9 : 3 : 3 : 1. Následující tabulka obsahuje původní data z pozorování a dále postup při testování H0. ✓ Tento příklad je rozšířením problému z příkladu 1 na srovnání pozorovaných a očekávaných frekvencí pro více kategorií sledovaného znaku: žluté/hladké žluté/vrásčité zelené/hladké zelené/vrásčité n f poz. 152 39 53 6 250 f oček. 140,6250 46,8750 46,8750 15,6250  = k - 1 = 3 Zamítáme hypotézu shody pozorovaných četností s očekávanými 972,8 6250,15 6250,9 8750,46 1250,6 8750,46 8750,7 6250,140 3750,11 2222 2 =+++= Institut biostatistiky a analýz, PřF a LF MU Test dobré shody: příklad III Předpokládejme, že chceme pro data z předchozí úlohy testovat hypotézu existence štěpného poměru 9 : 3 : 3 pro první tři kategorie semen: ✓ Složitější příklady řešené srovnáváním frekvencí je možné rozdělit na testování dílčích hypotéz: žluté/hladké žluté/vrásčité zelené/hladké n f poz. 152 39 53 244 f oček. 146,400 48,800 48,800 544,2 80,48 200,4 80,48 800,9 40,146 600,5 222 2 =++= n = k - 1 = 2 Nezamítáme hypotézu shody pozorovaných četností s očekávanými. Nyní otestujeme hypotézu štěpného poměru kategorií zelené/vrásčité:ostatní typy = 1:15 ✓ zelené/vrásčité ostatní n f poz. 6 244 25 f oček 15,625 234,375 n = k - 1 = 1 324,6 375,234 625,9 625,15 625,9 22 2 =+= Zamítáme hypotézu shody pozorovaných četností s očekávanými. Institut biostatistiky a analýz, PřF a LF MU Testování homogenity (shody struktury) • Motivace: Zajímá nás výskyt nominálního znaku u r nezávislých výběrů z r různých populací. • Příklad: Je zájem o sport stejný u děvčat jako u chlapců? • Nulová hypotéza: pravděpodobnostní rozdělení kategoriální proměnné je stejné v různých populací • Test: Pearsonův chí-kvadrát Dívky Chlapci Zájem o sport Ano a b a+b Ne c d c+d a+c b+d n Některé marginální četnosti (buď sloupcové nebo řádkové) jsou předem pevně stanoveny Institut biostatistiky a analýz, PřF a LF MU Test homogenity binomických rozložení Jev: Úmrtnost na leukemii Předpoklad:  = 0,6 Absolutní četnost jevu označena ri ✓ Sledovalo s autorů z s zemí: Autor ni ri pi 1 2 . . . s Test shody reálného r S p p i= ( ) ( )pp rppr iii S − − =   − 1 2 1Test homogenity binomických rozložení Po možném sloučení s výběrů ( )−       −− =  1 2 1 2 2 )1( N Nri  ( )  nari Nni = Institut biostatistiky a analýz, PřF a LF MU Test homogenity binomických četností: příklad Bylo provedeno 6 nezávislých výběrů z populace mladých mužů, kteří v dětství onemocněli těžkým zánětem mozkových blan. H0: V této populaci se vyskytují praváci a leváci v poměru 1 : 1. Pomocí 2 rozložení lze rovněž posuzovat homogenitu většího množství nezávislých pokusů testujících tutéž hypotézu. Nalezněte v literatuře příslušné vztahy pro testování homogenity všech šesti výběrových populací a na základě výsledků tohoto testu rozhodněte o dalším postupu. Následující tabulka obsahuje původní data a výsledek testování (v závorkách jsou uvedeny očekávané četnosti): Vzorek Praváci Leváci n 2 St. volnosti 1 3 (7) 11 (7) 14 4,5714 1 2 4 (8) 12 (8) 16 4,000 1 3 15 (10) 5 (10) 20 5,000 1 4 14 (9) 14 (9) 18 5,5556 1 5 13 (8,5) 4 (8,5) 17 4,7647 1 6 17 (11) 5 (11) 22 6,5455 1 2,302 =taheterogeni 51=−= s 001,0P Jednoduchým testováním lze zjistit, že všechny testy pro jednotlivé výběry jsou významné, což znamená, že ani v jednom případě nebyla potvrzena shoda očekávaných a pozorovaných četností. Test homogenity štěpného poměru v zkoumaných populacích rovněž vedl k zamítnutí možnosti sloučit jednotlivé výběry a posuzovat je jako celek (kromě testovaného poměru 1 : 1 neexistuje tedy v datech žádný jiný jednotný štěpný poměr mezi oběma vlastnostmi. V případě, že by tento test neprokázal odchylky mezi jednotlivými výběrovými populacemi, bylo by možné jednotlivé odběry sloučit a posuzovat jako homogenní vzorek. Institut biostatistiky a analýz, PřF a LF MU 2 test - příklad frakcionace složitější kontingenční tabulky I Cílem rozsáhlejšího průzkumu populace bylo prozkoumat vztah mezi dvěma typy chorob a krevními skupinami u lidí. Konkrétní data jsou uvedena v tabulce: Krevní skupina Žaludeční vředy Rakovina žaludku Kontrola Celkem 0 983 383 2892 4258 A 679 416 2625 3720 B 134 84 570 788 Celkem 1796 883 6087 8766 Vypočítejte testovou charakteristiku pro tuto kontingenční tabulku a otestujte nulovou hypotézu nezávislosti jevů (2 = 40,54; 4 st. volnosti) Institut biostatistiky a analýz, PřF a LF MU 2 test - příklad frakcionace složitější kontingenční tabulky II K podrobnějšímu průzkumu složitějších tabulek výrazně napomáhá přepis původní tabulky do podoby procentického zastoupení kategorií: Krevní skupina Žaludeční vředy Rakovina žaludku Kontrola 0 983 383 2892 A 679 416 2625 B 134 84 570 Celkem 1796 883 6087 Jsou jenom malé rozdíly v distribuci krevních skupin u kontroly a u skupiny nemocných rakovinou žaludku. Pacienti s vředy mají mnohem častěji krevní skupinu 0. Z této tabulky je patrné: 1. 2. Na základě těchto poznatků je možné sestrojit menší kontingenční tabulku, která otestuje hypotézu o shodné distribuci krevních skupin pro nemocné rakovinou a pro zdravé lidi. Sestavte tuto tabulku a otestujte nulovou hypotézu. (2 = 5,64 (2 st. v.), P je přibližně rovna 0,06) Institut biostatistiky a analýz, PřF a LF MU 2 test - příklad frakcionace složitější kontingenční tabulky III • Z tohoto dílčího testu vyplývá možnost sloučení skupiny nemocných rakovinou a zdravých lidí neboť se vzhledem k distribuci krevních skupin chovají jako homogenní populace. • Dalším logickým krokem v podrobné analýze je testování shody relativních četností výskytu krevních skupin A a B mezi kombinovaným vzorkem (sloučená skupina s rakovinou a kontrola) a mezi vzorkem lidí nemocných žaludečními vředy - tzn. nyní neuvažujeme krevní skupinu 0. Výsledkem tohoto testu je 2 = 0,68 (1 st. vol.); P > 0,7. Vzorky pro krevní skupiny A a B lze tedy sloučit do směsného vzorku A + B. • Nyní otestujeme shodu relativních četností výskytu skupiny 0 oproti A + B, a to mezi kombinovanou populací (kontrola + nemocní rakovinou) a mezi vzorkem nemocných vředařů (c2 = 34,29; 1 st. vol.). • Lze tedy shrnout, že vysoká hodnota původního c2 se 4 st. volnosti byla způsobena zvýšenou četností lidí s krevní skupinou 0 mezi nemocnými žaludečními vředy. Institut biostatistiky a analýz, PřF a LF MU 2 test - příklad frakcionace složitější kontingenční tabulky IV Srovnání St. volnosti 2 0, A, B skupina u pacientů s rakovinou (r) x kontrola (k) 2 5,64 A, B skupina u pacientů s vředy x kombinovaný vzorek (r + k) 1 0,68 0, A, B skupina u pacientů s s vředy x kombinovaný vzorek (r + k) 1 34,29 Celkem 4 40,61 Průběh hodnocení lze shrnout do tabulky: Celkový součet testových statistik 2 (40,61) odpovídá přibližně původní hodnotě 2 (40,54). Což platí i o stupních volnosti (4). Tato skutečnost potvrzuje, že jsme detailním rozborem vyčerpali informační obsah původní kontingenční tabulky a kromě popsané závislosti (zvýšený výskyt krevní skupiny 0 u lidí s žaludečními vředy) jsou jednotlivé kategorie zkoumaných jevů zcela nezávislé. Institut biostatistiky a analýz, PřF a LF MU Kontingenční tabulka 2 x 2: Řešení při nedostatečné velikosti vzorku Test analyzuje všechny možné 2 x 2 tabulky, které dávají stejnou sumu řádků a sloupců jako tabulka zdrojová. Algoritmus každé tabulce přiřazuje pravděpodobnost, že taková situace nastane, je-li H0 pravdivá. Yates' corection Fisher's exact test H0: Nezávislost jevů✓ Spectacle wearing among juvenile delinquents and non-delinquents who failed a vision test (Weindling et al., 1986) Spectacle wearers Juvenile delinquents Non- deliquents Total Yes 1 5 6 No 8 2 10 Total 9 7 16 Institut biostatistiky a analýz, PřF a LF MU Kontingenční tabulka 2 x 2: Řešení při nedostatečné velikosti vzorku a b c d P ( I ) 0 6 9 1 0,00087 ( II ) 1 5 8 2 0,02360 ( III ) 2 4 7 3 0,15734 ( IV ) 3 3 6 4 0,36713 ( V ) 4 2 5 5 0,33042 ( VI ) 5 1 4 6 0,11014 ( VII ) 6 0 3 7 0,01049 Total 0,99999 Pravděpodobnost náhodného vzniku variant tabulky Všechny možné varianty tabulky s danou sumou řádků a sloupců 0 6 9 1 1 5 8 2 2 4 7 3 6 0 3 7 5 1 4 6 4 2 5 5 3 3 6 4 (I) (II) (III) (IV) (V) (VI) (VII) Institut biostatistiky a analýz, PřF a LF MU Fisherův exaktní test • Využití ve čtyřpolní tabulce (v současnosti i větší díky vyššímu výkonu počítačů) s nízkými četnostmi, které znemožňují použití Pearsonova chí-kvadrát testu. • Patří mezi neparametrické testy pracující s daty na nominální škále, v nejjednodušší podobě ve dvou třídách: pozitivní/negativní, úspěch/neúspěch apod. • Nulová hypotéza předpokládá rovnoměrné zastoupení sledovaného znaku u dvou nezávislých souborů. • Slovo exaktní (přímý) znamená, že se přímo vypočítává pravděpodobnost odmítnutí, resp. platnosti nulové hypotézy. Institut biostatistiky a analýz, PřF a LF MU Fisherův exaktní test • Výpočet „přesné“ p-hodnoty, která zde hraje roli testové statistiky: • spočítá se parciální pravděpodobnost čtyřpolní tabulky p1: • Spočítá se pa všech možných tabulek při zachování marginálních četností (řádkové a sloupcové součty) a výsledná p-hodnota je součtem pa menších nebo stejných jako p1, která přísluší pozorované tabulce. Institut biostatistiky a analýz, PřF a LF MU Test hypotézy o symetrii (McNemarův test pro čtyřpolní tabulku) • Motivace: Na osobách sledujeme binární proměnnou před pokusem a po něm, cílem je zjistit, zda došlo ke změně v rozdělení této proměnné. • Analýza párových dichotomických proměnných • Nulová hypotéza: , pokus nemá vliv na výskyt daného znaku • Testová statistika: pokud je větší než kritická hodnota rozdělení o jednom stupni volnosti (vhodné pro počty údajů b+c > 8), pak nulovou hypotézu zamítáme po + - nj. před + a b a+b - c d c+d n.k a+c b+d n Četnostní tabulka Tabulka teoretických pravděpodobností po + před + p11 p12 p1. - p21 p22 p2. p.1 p.2 cb cb + −− = 2 2 )1(  jiij pp = 2  Institut biostatistiky a analýz, PřF a LF MU McNemarův test: příklad I • Zjistěte, zda úspěch našich sportovců na Olympiádě nebo ve Světovém poháru vede ke změně postojů žáků ke sportování. • Nulová hypotéza: Počet žáků, kteří změní svůj postoj pozitivním směrem, je pouze náhodně odlišný od počtu žáků, kteří změní svůj postoj negativním směrem. • Závěr: Úspěch našich sportovců má pozitivní vliv na postoj žáků vzhledem k provozování sportu. Postoj po výuce + - Postoj před výukou + 5 3 8 - 16 2 18 21 5 26 58,7 163 )1163( 2 2 = + −− = 84,3)12/)1((2 1 ==−=− kkvTabulky: H0 zamítnuta Stupně volnosti Institut biostatistiky a analýz, PřF a LF MU McNemarův test: příklad II Příklad: Srovnání 2 metod stanovení antigenu v krvi (antigen vždy přítomen) H0: metoda 1 = metoda 2 ✓ Metoda 1 Metoda 2 Frekvence úspěch úspěch 202 úspěch neúspěch 60 neúspěch úspěch 42 neúspěch neúspěch 10 102 = ( ) 83,2 102 14260 2 2 )( = −− =c 84,3: )1(2 1 == −  Tabulky H0 nezamítnuta Institut biostatistiky a analýz, PřF a LF MU Aplikace analýzy 2 x 2 tabulky pro hodnocení rizika I. Prospektivní studie - odhad relativního rizika Jedinci jsou sledováni prospektivně, zda se vyskytne nějaká vlastnost. VÝBĚR JE DÁN SLOUPCEM OBECNĚ PŘÍKLAD Skupina 1 Skupina 2 Znak ANO a b NE c d Riziko: H0: RR = 1 ✓ ( )ca a + ( )db b + ( ) ( )db b ca a RR + + = Retardace plodu Symetrická Asymetrická Agpar skore > 7 ANO 2 33 NE 14 58 2/16=0,13 33/91=0,36 345,0 91/33 16/2 ==RR Riziko u "symetrické skupiny" je asi 35 % rizika u asymetrické skupiny ( ) dbbcaa RRSE + −+ + −= 1111 ln IS: ln RR - Z 1-/2 . SE (ln RR) ln RR + Z 1-/2 . SE (ln RR) Institut biostatistiky a analýz, PřF a LF MU Aplikace analýzy 2 x 2 tabulky pro hodnocení rizika II. Retrospektivní studie - "ODDS RATIO" Zcela zásadně odlišný přístup od retrospektivní studie VÝBĚR JE DÁN VLASTNOSTÍ - ŘÁDKEM Není tedy možné analyzovat relativní riziko, protože přípravou řádků můžeme měnit velikost kontrol. OBECNĚ PŘÍKLAD Skupina 1 Skupina 2 Znak ANO a b NE c d Vady chrupu ANO NE Plavání týdně < 6h 32 118 ≥ 6h 17 127 odds a/c b/d db ca ratioOdds / / : dcba ORSE 1111 )(ln +++= ( ) ( ) 026,2127/118/17/32 ==OR ( ) 706,0ln =OR ( )( ) 326,0ln =ORSE Institut biostatistiky a analýz, PřF a LF MU Relative risk vs. Odds ratio ? • Smysl RR a OR • Výpočet • Srovnatelnost • Interpretace • Výhody a nevýhody • Aplikace v klinickém hodnocení Relative risk (relativní riziko) Odds ratio (poměr šancí) Institut biostatistiky a analýz, PřF a LF MU Smysl RR a OR • Popis vlivu faktoru (léčba, klinický parametr) na výskyt události (úmrtí, progrese aj.) Relative risk (relativní riziko) Odds ratio (poměr šancí)  Snadná přirozená interpretace rizik vyjádřených jako procento událostí ALE  Matematická omezení pro některé aplikace  Pouze málo lidí má přirozenou schopnost interpretovat OR ALE  OR v řadě aplikací výhodnější matematické vlastnosti Institut biostatistiky a analýz, PřF a LF MU Výpočet Relative risk (relativní riziko) Odds ratio (poměr šancí) event A B RR= 2 10 3 10 6 == OR= 5.3 7 3 4 6 == bez eventu Institut biostatistiky a analýz, PřF a LF MU Vztah mezi RR a OR Zhang, J. et al. JAMA 1998;280:1690-1691. Relative risk (relativní riziko) Odds ratio (poměr šancí) RR a OR je přímo srovnatelné pouze při nízkém bazálním riziku Institut biostatistiky a analýz, PřF a LF MU Srovnatelnost RR a OR I: maximum • RR mění své maximum podle bazálního rizika Relative risk (relativní riziko) Odds ratio (poměr šancí) Bazální riziko MaximálnímožnéRR  Odds ratio má vždy rozsah od 0 do nekonečna  Velikost OR není závislá na velikosti bazálního rizika  OR lze použít pro srovnání studií s různým bazálním rizikem !!!!  Výhodné pro metaanalýzu  RR ve studiích s různým bazálním rizikem jsou nesrovnatelná !!!! Institut biostatistiky a analýz, PřF a LF MU Srovnatelnost RR a OR I: symetrie • Existuje mezi RR a O rozdíl v případě výměny definice eventu a non-eventu? Relative risk (relativní riziko) Odds ratio (poměr šancí) I II vs. RR(II)= 2 10 3 10 6 == OR(II)= 5.3 7 3 4 6 == RR(I)= 57.0 10 7 10 4 == OR(I)= 29.0 3 7 6 4 == )( 1 )( IIOR IOR = )( 1 )( IIRR IRR  Institut biostatistiky a analýz, PřF a LF MU RR a OR ve studiích s různou mírou bazálního rizika ControlCase Výskyt eventu (%) Výskyt eventu (%) Bazální (control) výskyt eventu (%) Ve skupině „Case“ připadá na jednoho pacienta bez eventu 4x tolik pacientů s eventem než ve skupině „Control“ Odds ratio RR/OR Relative risk Pacient ve skupině „Case“ má x-krát zvýšenou pravděpodobnost výskytu eventu než pacient ve skupině „Control“. X-krát závisí na basálním výskytu eventu. Institut biostatistiky a analýz, PřF a LF MU RR a OR v prospektivních a retrospektivních studiích  Zpětné sledování příčin eventu  Převážně case-control studie  Výběrem pacientů ovlivňujeme bazální výskyt eventu Retrospektivní studieProspektivní studie  RR nelze použít –ovliněno bazálním výskytem eventu  Využití OR – není ovliněno designem studie  Sledování výskytu eventu a následná analýza jeho příčin  Převážně kohortní studie  Bazální výskyt eventu je dán vlastnostmi kohorty pacientů  Bezproblémové využití RR Relative risk (relativní riziko) Odds ratio (poměr šancí) Institut biostatistiky a analýz, PřF a LF MU Relative risk vs. Odds ratio: shrnutí  Intuitivně snadno interpretovatelné  Pro prospektivní studie  Maximum se liší podle bazální hodnoty výskytu eventu Relative risk (relativní riziko) Odds ratio (poměr šancí)  Retrospektivní studie  Aplikace v metaanalýze  Standardní výstup logistické regrese  Rozsah vždy 0 až nekonečno, není ovlivněno bazálním výskytem eventu  Obtížnější interpretace