Přednáška X. Testování hypotéz o  kvalitativních proměnných Testování hypotéz o podílech Kontingenční tabulka, čtyřpolní tabulka Testy nezávislosti, Fisherův exaktní test, McNemarův test Testy dobré shody pro ověření rozdělení pravděpodobnosti Tomáš Pavlík Biostatistika Opakování – analýza rozptylu Proč je výhodnější provést srovnání průměrů spojité veličiny u více než dvou  skupin pomocí analýzy rozptylu než pomocí testů pro všechny dostupné  dvojice sledovaných skupin? Jak lze řešit situaci, kdy chceme provést více testů zároveň? Tomáš Pavlík Biostatistika Opakování – princip analýzy rozptylu Jaký je princip analýzy rozptylu? Jaké jsou předpoklady analýzy rozptylu? 1. Motivace Tomáš Pavlík Biostatistika Matematická biologie × modré oči Tomáš Pavlík Biostatistika Studenti matematické biologie s modrýma očima Budeme sledovat podíl studentů matematické biologie (současných i  bývalých), kteří mají modré oči. Náhodná veličina A = modrá barva očí – alternativní náhodná veličina. Náhodná veličina X = počet studentů matematické biologie s modrýma  očima – binomická náhodná veličina. Je to součet n alternativních veličin. Odhad parametru π: ),(~ nBiX     0 1 A     1)0( )1( AP APkdyž student má modré oči  když student nemá modré oči    n i iAX 1 nXp /ˆ  Tomáš Pavlík Biostatistika Studenti matematické biologie s modrýma očima Budeme sledovat podíl studentů matematické biologie, kteří mají modré  oči. Výsledky v tabulce: Odhad parametru π: Modrá barva očí Jiná barva očí Celkem Studenti matematické  biologie (současní i bývalí) 17 43 60 283,060/17/ˆ  nXp Tomáš Pavlík Biostatistika Studenti matematické biologie s modrýma očima Budeme se zajímat o to, jestli podíl studentů matematické biologie, kteří  mají modré oči, souvisí s obdobím studia. Výsledky v tabulce: Studenti BIMAT Modrá barva očí Jiná barva očí Celkem Současní 11 31 42 Bývalí 6 12 18 Celkem 17 43 60 2. Testování hypotéz o podílech Tomáš Pavlík Biostatistika Co nás bude zajímat? Binární data jsou v medicíně i biologii častá – výskyt ano/výskyt ne,  úspěch/neúspěch,  … Kromě bodového odhadu nás může zajímat  Interval spolehlivosti pro parametr π Test o parametru π proti konstantě π0 Test o parametru π ve dvou souborech Tomáš Pavlík Biostatistika Aproximace na normální rozdělení Pravděpodobnost, že náhodná veličina X bude při své realizaci rovna  hodnotě k lze přesně stanovit pomocí vzorce: Pro větší n (a tedy větší rozsah možných hodnot k) je jednodušší použít  aproximaci normálním rozdělením. Vychází z CLV – součty se pro dostatečné n chovají normálně. Předpokladem aproximace na normální rozdělení je součin np(1‐p) větší než  5, nebo ještě lépe součin np(1‐p) větší než 10. Pak platí: )1,0(~ )1( N n nX Z      knk k n kXP         )1()(  Tomáš Pavlík Biostatistika Proč np(1‐p) větší než 5? Souvisí s množstvím informace nutné pro dosažení „tvaru normálního  rozdělení“ → nutné pro vhodnost, respek ve přesnost aproximace. Pro π = 0,5 je jednodušší dosáhnout „tvar normálního rozdělení“ než pro π = 0,1  nebo π = 0,9. Pro π hodně blízká 0 nebo 1 není aproximace vhodná. Tomáš Pavlík Biostatistika Interval spolehlivosti pro podíl Máme n studentů Matematické biologie a mezi nimi x s modrýma očima. Rozdělení pravděpodobnosti odhadu parametru π: Při konstrukci intervalu spolehlivosti neznáme hodnotu π, proto je logické ji  v odhadu rozptylu (a SE) nahradit odhadem p: Při splnění podmínek pro aproximaci normálním rozdělením má 100(1‐α)%  IS tvar: nxp /ˆ  npppDpSE /)1()()(  nppzppSEzp /)1()( 2/12/1      nnnxEnxEpE //)()/()( nnnnxDnxDpD /)1(/)1(/)()/()( 22   Tomáš Pavlík Biostatistika Příklad s modrýma očima Máme 60 studentů Matematické biologie a mezi nimi 17 s modrýma očima. Odhad parametru π: Chceme sestrojit 95% IS pro parametr π. Splnění podmínky pro aproximaci normálním rozdělením: Pak 283,060/17/ˆ  nXp Modrá barva očí Jiná barva očí Celkem Studenti matematické  biologie (současní i bývalí) 17 43 60 058,060/)283,01(283,0/)1()()(  npppDpSE )397,0;169,0(058,0*96,1283,0)(:IS%95 2/1   pSEzp  2,12)283,01(*283,0*60)1(  pnp Tomáš Pavlík Biostatistika Test pro podíl u jednoho výběru Chceme testovat rovnost odhadu parametru π získaného na náhodném  výběru n jedinců předem dané hodnotě π0: Při splnění podmínek pro aproximaci normálním rozdělením víme, že platí: To za platnosti H0 znamená: Vypočteme hodnotu testové statistiky a nulovou hypotézu zamítáme podle  toho, jakou máme alternativu a hladinu významnosti α. Pro alternativu zamítáme H0 když 00 :  H )1,0(~ /)1()( N n p pSE p Z        )1,0(~ /)1()( 00 00 N n p pSE p Z        01 :  H 2/1||  zZ Tomáš Pavlík Biostatistika Příklad s modrýma očima Chceme testovat na hladině významnosti α=0,05 rovnost odhadu  parametru π získaného na výběru 60 matematických biologů předem dané  hodnotě π0=0,40: Splnění podmínky pro aproximaci normálním rozdělením máme ověřeno. Testová statistika: Srovnání s kvantilem: 4,0:0 H 85,1 60/)4,01(4,0 400,0283,0 /)1()( 00 00          n p pSE p Z   96,185,1|| 975,02/1   zzZ  Nezamítáme H0: π = 0,40. Tomáš Pavlík Biostatistika Je rozdíl mezi IS a testem? Pokud ano, v čem? Tomáš Pavlík Biostatistika Je rozdíl mezi IS a testem? Ano je… Konstrukce IS: Test H0: Binomické rozdělení má různou variabilitu pro různé hodnoty π – největší je  pro π = 0,5, směrem k 0 a 1 variabilita klesá. Neplatí ekvivalence mezi intervalem spolehlivosti a testem proti π0 jako  tomu bylo v případě průměru jako odhadu střední hodnoty. npSE /)1()( 00   npppSE /)1()(  Tomáš Pavlík Biostatistika IS pro podíl ve dvou souborech Máme n studentů Matematické biologie a mezi nimi x s modrýma očima, x1 je současných a x2 je již vystudovaných. Zajímá nás interval spolehlivosti pro  rozdíl podílů studentů s modrýma očima ve skupině současných a již  vystudovaných studentů: π1 – π2. Podmínka pro aproximaci normálním rozdělením musí být splněna v obou  výběrech. Rozdělení pravděpodobnosti odhadu parametru π v jednotlivých  souborech: Při splnění podmínek pro aproximaci normálním rozdělením má 100(1‐α)%  IS tvar: 2 22 1 11 )1()1( 2121 )()()( n pp n pp pDpDppSE   1 1 11ˆ n x p  2 2 22ˆ n x p  2 22 1 11 )1()1( 2/121212/121 )( n pp n pp zppppSEzpp     Tomáš Pavlík Biostatistika Příklad s modrýma očima Máme 60 studentů Matematické biologie a mezi nimi 17 s modrýma očima, 11  je současných a 6 je již vystudovaných. Chceme 95% IS pro π1 – π2. Splnění podmínek pro aproximaci – zde je to pouze pro ilustraci. Odhady: 95% IS pro π1 – π2: Studenti BIMAT Modrá barva očí Jiná barva očí Celkem Současní 11 31 42 Bývalí 6 12 18 Celkem 17 43 60 130,0)( 18 )333,01(333,0 42 )262,01(262,0)1()1( 21 2 22 1 11   n pp n pp ppSE 262,042/11/ˆ 1111  nxp 333,018/6/ˆ 2222  nxp )184,0;326,0(130,0*96,1071,0)( 212/121   ppSEzpp  Tomáš Pavlík Biostatistika Test pro podíl ve dvou výběrech Chceme testovat rovnost odhadu parametru π získaného na dvou  náhodných výběrech n1 a n2 jedinců: Nejlepším odhadem parametru π je za platnosti H0: Odhady pro jednotlivé výběry: Při splnění podmínky pro aproximaci normálním rozdělením (musí být  splněna v obou souborech zároveň) víme, že platí: kde  Pro alternativu zamítáme H0 když 21 21 ˆ nn xx p    ))(1()( 2121 11)1()1( 21 nnn pp n pp ppppSE     210 :H )1,0(~ )( 21 21 N ppSE pp Z    1111 /ˆ nxp  2222 /ˆ nxp  211 :  H 2/1||  zZ Tomáš Pavlík Biostatistika Příklad s modrýma očima Máme 60 studentů Matematické biologie a mezi nimi 17 s modrýma očima,  11 je současných a 6 je již vystudovaných. Testujeme Odhady: Testová statistika: Studenti BIMAT Modrá barva očí Jiná barva očí Celkem Současní 11 31 42 Bývalí 6 12 18 Celkem 17 43 60   210 :H 262,0ˆ 11  p 333,0ˆ 22  p283,0ˆ  p 127,0))(283,01(283,0))(1()( 18 1 42 111 21 21  nnppppSE 56,0 127,0 333,0262,0 )( 21 21       ppSE pp Z 96,156,0|| 975,02/1   zzZ  Nezamítáme H0. 3. Analýza kontingenčních tabulek Tomáš Pavlík Biostatistika Kontingenční tabulka Frekvenční sumarizace dvou nominálních nebo ordinálních veličin pomocí  tabulky.  Proměnné reprezentujeme diskrétními náhodnými veličinami X a Y. Speciální případ: 2 × 2 tabulka = čtyřpolní tabulka. Př.: Sumarizace pacientů diagnostikovaných s melanomem dle lokalizace  onemocnění a roku diagnózy. Období Lokalizace Celkem Horní končetina Dolní končetina Trup Hlava a krk 1994‐2000 50 103 116 7 276 2001‐2005 106 157 310 54 627 2006‐2009 115 142 316 52 625 Celkem 271 402 742 113 1528 Tomáš Pavlík Biostatistika Kontingenční tabulka ‐ hypotézy Kontingenční tabulky umožňují testování různých hypotéz: Nezávislost (Pearsonův chí‐kvadrát test) Jeden výběr, dvě charakteristiky – obdoba nepárového uspořádání Př.: studenti matematické biologie – modré oči × období studia Shoda struktury (Pearsonův chí‐kvadrát test) Více výběrů, jedna charakteristika – obdoba nepárového uspořádání Př.: pacienti s IM v několika nemocnicích × věková struktura Symetrie (McNemarův test) Jeden výběr, opakovaně jedna charakteristika – obdoba párového uspořádání Př.: stromy – posouzení jejich stavu ve dvou sezónách Tomáš Pavlík Biostatistika Značení Proměnné reprezentujeme diskrétními náhodnými veličinami X a Y. Označme nij počet subjektů, pro které platí, že X=i a Y=j (i = 1, ..., r; j = 1, ..., c). Marginální četnosti: Celkový počet subjektů: Relativní četnosti lze vztahovat: Vzhledem k celkovému n Vzhledem k řádkovým součtům ni. Vzhledem k sloupcovým součtům n.j    c j iji nn 1.   r i ijj nn 1.     r i c j ijnn 1 1 jij c ij iij r ij ijij nnp nnp nnp . . / / /    Tomáš Pavlík Biostatistika Pointa testu pro kontingenční tabulku Celkem 17 studentů s modrýma očima = 28,3 %. Pokud modré oči nesouvisí  s obdobím studia, mělo by stejné zastoupení modrookých platit i v rámci  skupin → očekávaná četnost za platnos  H0 o nezávislosti: Ekvivalentně lze nezávislost vyjádřit následovně: Z toho plyne: Očekávané četnosti v příkladu s modrýma očima: n nn n n n n npnpe jiji jiij .... ..  Studenti BIMAT Modrá barva očí Jiná barva očí Celkem Současní 11,9 30,1 42 Bývalí 5,1 12,9 18 Celkem 17 43 60 jiij ppp .. nnne jiij /.. Tomáš Pavlík Biostatistika Příklad – melanomy Období = veličina X Lokalizace = veličina Y CelkemHorní končetina Y = 1 Dolní končetina Y = 2 Trup Y = 3 Hlava a krk Y = 4 1994‐2000 X = 1 50 = n11 103 = n12 116 = n13 7 = n14 276 = n1. 2001‐2005 X = 2 106 = n21 157 = n22 310 = n23 54 = n24 627 = n2. 2006‐2009 X = 3 115 = n31 142 = n32 316 = n33 52 = n34 625 = n3. Celkem 271 = n.1 402 = n.2 742 = n.3 113 = n.4 1528 = n Období = veličina X Lokalizace = veličina Y CelkemHorní končetina Y = 1 Dolní končetina Y = 2 Trup Y = 3 Hlava a krk Y = 4 1994‐2000 X = 1 18.12 % 37.32 % 42.03 % 2.54 % 100 % 2001‐2005 X = 2 16.91 % 25.04 % 49.44 % 8.61 % 100 % 2006‐2009 X = 3 18.40 % 22.72 % 50.56 % 8.32 % 100 % Celkem 17.74 % 26.31 % 48.56 % 7.40 % 100 % Tomáš Pavlík Biostatistika Pearsonův chí‐kvadrát test nezávislosti Založen na myšlence srovnání pozorovaných a očekávaných četností  jednotlivých hodnot, kterých nabývá náhodná veličina X. Pozorované četnosti jednotlivých variant X=i a Y=j nám vyjadřují nij. Za platnosti nulové hypotézy lze očekávané četnosti jednotlivých variant X=i a Y=j vypočítat pomocí: Karl Pearson odvodil, že statistika má za platnosti H0 chí‐kvadrát rozdělení s (r‐1)(c‐1) stupni volnosti: Nulovou hypotézu o nezávislosti X a Y zamítáme na hladině významnosti α,  když      r i c j ij ijij e en 1 1 2 2 )( n nn n n n n ne jiji ij ....  2 )1)(1( 2 ~  cr )1)(1(2 )1( 2   cr Tomáš Pavlík Biostatistika Předpoklady Pearsonova chí‐kvadrát testu Nezávislost jednotlivých pozorování Alespoň 80 % buněk musí mít očekávanou četnost (eij) větší než 5 100 % buněk musí mít očekávanou četnost (eij) větší než 2 Tomáš Pavlík Biostatistika Příklad – melanomy Období = veličina X Lokalizace = veličina Y CelkemHorní končetina Y = 1 Dolní končetina Y = 2 Trup Y = 3 Hlava a krk Y = 4 1994‐2000 X = 1 50 = n11 103 = n12 116 = n13 7 = n14 276 = n1. 2001‐2005 X = 2 106 = n21 157 = n22 310 = n23 54 = n24 627 = n2. 2006‐2009 X = 3 115 = n31 142 = n32 316 = n33 52 = n34 625 = n3. Celkem 271 = n.1 402 = n.2 742 = n.3 113 = n.4 1528 = n Období = veličina X Lokalizace = veličina Y CelkemHorní končetina Y = 1 Dolní končetina Y = 2 Trup Y = 3 Hlava a krk Y = 4 1994‐2000 X = 1 e11 = 48.95 e12 = 72.61 e13 = 134.03 e14 = 20.41 276 2001‐2005 X = 2 e21 = 111.20 e22 = 164.96 e23 = 304.47 e24 = 46.37 627 2006‐2009 X = 3 e31 = 110.85 e32 = 164.43 e33 = 303.50 e34 = 46.22 625 Celkem 271 402 742 113 1528 Tomáš Pavlík Biostatistika Příklad – melanomy Př.: Sumarizace pacientů diagnostikovaných s melanomem dle lokalizace  onemocnění a roku diagnózy. Testová statistika: Výpočet: Kritická hodnota:     r i c j ij ijij e en 1 1 2 2 )( 41,30 22,46 )22,4652( 50,303 )50,303316( 43,164 )43,164142( 85,110 )85,110115( 37,46 )37,4654( 47,304 )47,304310( 96,164 )96,164157( 20,111 )20,111106( 41,20 )41,207( 03,134 )03,134116( 61,72 )61,72103( 95,48 )95,4850( 222222 222222 2                           )6(2 )95,0( 2  59,12)6()1)(1( 2 )95,0( 2 )1(    cr Zamítáme H0 o nezávislosti. Tomáš Pavlík Biostatistika Příklad s modrýma očima Máme 60 studentů Matematické biologie a mezi nimi 17 s modrýma očima,  11 je současných a 6 je již vystudovaných. Testujeme nezávislost. Testová statistika: Výpočet: Kritická hodnota:     r i c j ij ijij e en 1 1 2 2 )( 32,0 9,12 )9,1212( 1,5 )1,56( 1,30 )1,3031( 9,11 )9,1111( 2222 2          )1(2 )95,0( 2  Nezamítáme H0 o nezávislosti. 84,3)1()1)(1( 2 )95,0( 2 )1(    cr 4. Čtyřpolní tabulky Tomáš Pavlík Biostatistika Co je čtyřpolní tabulka Nejjednodušší možná kontingenčí tabulka, kdy obě sledované veličiny mají  pouze dvě kategorie. Příklad z 2. přednášky: Zajímá nás přesnost vyšetření jater ultrazvukem, tedy  schopnost vyšetření UTZ identifikovat maligní ložisko v pacientových játrech.  Přesnost je vztažena k histologickému ověření odebrané tkáně. Zde jsme závislost neověřovali, ale dokonce předpokládali! Vyšetření  UTZ Histologické ověření Maligní Benigní Celkem Maligní 32 2 34 Benigní 3 24 27 Celkem 35 26 61 Tomáš Pavlík Biostatistika Asociace ve čtyřpolní tabulce Můžeme rozhodovat o závislosti/nezávislosti dvou sledovaných veličin – nyní. Můžeme rozhodovat i o míře (těsnosti) této závislosti – příští přednáška. Při rozhodování o nezávislosti můžeme použít Pearsonův chí‐kvadrát test, ale  pro malá n je standardem v klinických analýzách tzv. Fisherův exaktní test  („Fisher exact test“). Veličina X Veličina Y Y = 1 Y = 2 Celkem X = 1 a b a + b X = 2 c d c + d Celkem a + c b + d n Tomáš Pavlík Biostatistika Fisherův exaktní test Určen zejména pro čtyřpolní tabulky, je vhodný i pro tabulku s malými  četnostmi – pro ty, které nesplňují předpoklad Pearsonova testu. Založen na výpočtu „přesné“ p‐hodnoty, která zde hraje roli testové statistiky. Pointa je ve výpočtu pravděpodobnosti, se kterou bychom získali čtyřpolní tabulky stejně nebo více „odchýlené“ od nulové hypotézy při zachování  marginálních četností. Pravděpodobnost konkrétní tabulky (s pevně zvolenou hodnotou a při  zachování marginálních četností) lze získat: Pointa = spočítáme pa všech možných tabulek při zachování marginálních  četností a výsledná p‐hodnota je součtem pa menších nebo stejných jako pa,  která přísluší pozorované tabulce. !!!!! )!()!()!()!( dcban dbdccaba p ba n b db a ca a                        Tomáš Pavlík Biostatistika Příklad s modrýma očima Sledujeme vztah modrých očí a období studia matematické biologie. Pomocí Fisherova exaktního testu chceme testovat H0 o nezávislosti. Pravděpodobnost pozorované tabulky: Tento výsledek sám o sobě znamená, že nezamítáme H0, protože pa > 0,05. 205,0 !12!6!31!11!60 !43!18!17!42 !!!!! )!()!()!()!(    dcban dbdccaba pa Studenti BIMAT Modrá barva očí Jiná barva očí Celkem Současní 11 31 42 Bývalí 6 12 18 Celkem 17 43 60 Tomáš Pavlík Biostatistika Příklad s modrýma očima Vypočítejme pravděpodobnosti pro jednotlivé možnosti kontingenční tabulky: Studenti BIMAT Modrá barva očí Jiná barva očí Celkem Současní a b 42 Bývalí c d 18 Celkem 17 43 60 !!!!! )!()!()!()!( dcban dbdccaba p ba n b db a ca a                        Tomáš Pavlík Biostatistika Příklad s modrýma očima Možnosti a b c d pa 1. 0 42 17 1 4,6 × 10‐14 2. 1 41 16 2 1,7 × 10‐11 3. 2 40 15 3 1,8 × 10‐9 4. 3 39 14 4 9,1 × 10‐8 5. 4 38 13 5 2,5 × 10‐6 6. 5 37 12 6 4,1 × 10‐5 7. 6 36 11 7 4,3 × 10‐4 8. 7 35 10 8 0,003 9. 8 34 9 9 0,015 10. 9 33 8 10 0,050 11. 10 32 7 11 0,121 12. 11 31 6 12 0,205 13. 12 30 5 13 0,245 14. 13 29 4 14 0,202 15. 14 28 3 15 0,111 16. 15 27 2 16 0,039 17. 16 26 1 17 0,008 18. 17 25 0 18 6,6 × 10‐4 p = 1 – 0,245 = 0,755 Nezamítáme H0 Tomáš Pavlík Biostatistika Fisherův × Pearsonův test Pearsonův chí‐kvadrát test lze použít na jakoukoliv kontingenční tabulku,  ALE je nutné hlídat předpoklady: 80 % eij větších než 5 – u čtyřpolní tabulky  to znamená 100 %. Nedodržení předpokladů pro Pearsonův chí‐kvadrát test může stejně jako u  t‐testu a analýzy rozptylu vést k nesmyslným závěrům! Situace s malými nij a tedy i eij jsou ale v medicíně i biologii velmi časté – Fisherův exaktní test je klíčový pro hodnocení čtyřpolních tabulek. Tomáš Pavlík Biostatistika Test hypotézy o symetrii – McNemarův test Mám 20 pacientů, u každého opakovaně sleduji výskyt otoků před podáním  a po podání léku. Která tabulka je správně? Před podáním léku Po podání léku Celkem Bez otoku (úspěch) 7 12 19 S otokem (neúspěch) 13 8 21 Celkem 20 20 40 Po podání bez otoku Po podání s otokem Celkem Před podáním bez otoku 5 2 7 Před podáním s otokem 7 6 13 Celkem 12 8 20 Tomáš Pavlík Biostatistika McNemarův test Je to obdoba párového testu (test symetrie pro čtyřpolní tabulku). Zaměřuje se pouze na pozorování, u kterých jsme při opakovaném měření  zaznamenali rozdílné výsledky – za platnosti H0 by jejich četnosti  (označeny b a c) měly být stejné. Testová statistika pro čtyřpolní tabulku: Za platnosti H0 má statistika chí‐kvadrát rozdělení s 1 stupněm volnosti. Nulovou hypotézu o nezávislosti X a Y zamítáme na hladině významnosti α,  když  Testová statistika pro obecnou kontingenční tabulku: cb cb    2 2 )(     ji jiij jiij nn nn 2 2 )( )1(2 )1( 2   Tomáš Pavlík Biostatistika Příklad – McNemarův test Mám 20 pacientů, u každého opakovaně sleduji ústup otoků po podání léku  A a léku B. Zajímá mě rozdíl v četnosti otoků. Testová statistika pro čtyřpolní tabulku: Kritická hodnota: 78,2 72 )72()( 22 2        cb cb )1(2 )95,0( 2  84,3)1()1( 2 )95,0( 2 )1(    Nezamítáme H0 o tom, že není rozdíl  ve výskytu otoků před a po podání léku. Po podání B bez otoku Po podání B s otokem Celkem Po podání A bez otoku 5 2 7 Po podání A s otokem 7 6 13 Celkem 12 8 20 5. Testy o rozdělení náhodné veličiny Tomáš Pavlík Biostatistika Testy o rozdělení náhodné veličiny Kolmogorovův‐Smirnovovův test – založen na srovnání výběrové distribuční  funkce s teoretickou distribuční funkcí odpovídající rozdělení, které chceme  testovat. K‐S test hodnotí maximální vzdálenost mezi těmito dvěma  distribučními funkcemi.  Pearsonův chí‐kvadrát test = chí‐kvadrát test dobré shody – i pro testování  shody s teoretickým rozdělením je založen na myšlence srovnání  pozorovaných a očekávaných četností jednotlivých hodnot, kterých nabývá  náhodná veličina X. Q‐Q plot – zobrazuje proti sobě kvantily pozorovaných hodnot a kvantily  teoretického rozdělení pravděpodobnosti. Tomáš Pavlík Biostatistika Chí‐kvadrát test dobré shody Předpokládejme, že náhodná veličina X může nabývat r různých hodnot B1,  B2, … ,Br, každé s pravděpodobností p1, p2, … , pr – s tím, že  Uvažujme n pozorování náhodné veličiny X: pokud je pravděpodobnostní  model správný, měl by se počet pozorování jednotlivých variant, νi, blížit  hodnotě npi – s tím, že 11  r i ip n r i i 1  Tomáš Pavlík Biostatistika Chí‐kvadrát test dobré shody Označme pozorovanou četnost ité varianty náhodné veličiny oi („observed“)  a očekávanou četnost ité varianty náhodné veličiny ei („expected“). Opět platí, že statistika má za platnosti H0 chí‐kvadrát rozdělení s r‐1 stupni volnosti: Nulovou hypotézu o shodě rozdělení veličiny X s předpokládaným  rozdělením zamítáme na hladině významnosti α, když  Když H0 specifikuje pouze typ rozdělení, ale ne jeho parametry, pak musí být  tyto parametry odhadnuty z pozorovaných hodnot. Za každý takto  odhadnutý parametr  se počet stupňů volnosti testové statistiky snižuje o 1.    r i i ii e eo 1 2 2 )( 2 )1( 2 ~  r )1(2 )1( 2   r Tomáš Pavlík Biostatistika Chí‐kvadrát test pro spojité veličiny Spojitá veličina samozřejmě může  nabývat nespočetně mnoho hodnot  v určitém intervalu.  Chí‐kvadrát test dobré shody lze  použít i pro spojité veličiny, které  však musíme kategorizovat →  rozdělit obor možných hodnot do r disjunktních intervalů. B1 B2 Br‐1 Br Tomáš Pavlík Biostatistika Příklad – melanom a normální rozdělení Chceme zjistit, jestli věk u pacientů s melanomem vykazuje normální rozdělení. Věk – i‐tý interval oi ei oi – ei 0,0 – 8,3 0 0.30 ‐0.30 8,3 – 16,7 5 2.30 2.70 16,7 – 25,0 20 13.30 6.70 25,0 – 33,3 67 53.09 13.91 33,3 – 41,7 139 146.42 ‐7.42 41,7 – 50,0 243 279.13 ‐36.13 50,0 – 58,3 336 367.95 ‐31.95 58,3 – 66,7 357 335.43 21.57 66,7 – 75,0 267 211.46 55.54 75,0 – 83,3 96 92.16 3.84 83,3 – 91,7 6 27.76 ‐21.76 91,7 – 100,0 0 6.70 ‐6.70 )4,182,2,56( 2  N 8.3 16.7 25.0 33.3 41.7 50.0 58.3 66.7 75.0 83.3 91.7 0 50 100 150 200 250 300 350 400 Věk (roky)  Tomáš Pavlík Biostatistika Příklad – melanom a normální rozdělení Chceme zjistit, jestli věk u pacientů s melanomem vykazuje normální rozdělení. )4,182,2,56( 2  N 8.3 16.7 25.0 33.3 41.7 50.0 58.3 66.7 75.0 83.3 91.7 0 50 100 150 200 250 300 350 400 Věk (roky)  9211221 6,56 )( 1 2 2      rdf e eor i i ii 001,0 92,16)9()21(6,56 2 )95,0( 2 )1( 2    p r   Zamítáme H0 o normalitě rozdělení  věku pacientů s melanomem. Odhad parametrů μ a σ2 z dat. Tomáš Pavlík Biostatistika Příklad – Poissonovo rozdělení Chceme ověřit, že počet pacientů, kteří přijdou ve všední den na zubní  pohotovost se řídí Poissonovým rozdělením. Jednotkou času bude 30 minut.  Celkem byly zaznamenány údaje za 1200 půlhodinových úseků. H0: Počet příchodů pacientů během 30 minut má Poissonovo rozdělení. H1: Počet příchodů pacientů během 30 minut nemá Poissonovo rozdělení. Neznáme parametr λ, je třeba ho odhadnout z dat: S odhadem λ lze vypočítat pravděpodobnosti pro jednotlivé hodnoty X: Kvůli splnění předpokladu pro aproximaci na normální rozdělení sloučíme  kategorie 8, 9, 10 a 11 pacientů. ! )( i x ii x e xXPp i     80,2 1200 3364 )1101188079( 1200 11ˆ 1    r i ii xn n x Tomáš Pavlík Biostatistika Příklad – Poissonovo rozdělení Počet  pacientů Pozorovaná  četnost Očekávaná  četnost xi oi ei = npi 0 79 72,97 1 188 204,32 2 282 286,05 3 275 266,98 4 196 186,89 5 114 104,66 6 45 48,84 7 10 19,54 8 a více 11 9,75 Celkem 1200 1200 711 9 50,8 )( 1 2 2       rdf r e eor i i ii 07,14)7()11(50,8 2 )95,0( 2 )1( 2     r Nezamítáme H0 o tom, že  data pochází z výběru s  Poissonovým rozdělením  pravděpodobnosti. Tomáš Pavlík Biostatistika Poděkování… Rozvoj studijního oboru „Matematická biologie“ PřF MU  Brno je finančně podporován prostředky projektu ESF č.  CZ.1.07/2.2.00/07.0318 „Víceoborová inovace studia  Matematické biologie“ a státním rozpočtem České republiky