logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Dvouvýběrový párový a nepárový t-test Neparametrické alternativy t-testu XI. Statistické testy o parametrech dvou výběrů logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace —Jedním z nejčastějších úkolů statistické analýzy dat je srovnání spojitých dat ve dvou skupinách pacientů. Na výběr je celá škála testů, výběr konkrétního testu se pak odvíjí od toho, zda je o srovnání párové nebo nepárové a zda je vhodné použít test parametrický (má předpoklady o rozložení dat) nebo neparametrický (nemá předpoklady o rozložení dat, nicméně má nižší vypovídací sílu). —Nejznámějšími testy z této skupiny jsou tzv. t-testy používané pro srovnání průměrů dvou skupin hodnot logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Dvouvýběrové testy: párové a nepárové I —Při použití two sample testů srovnáváme spolu dvě rozložení. Jejich základním dělením je podle designu experimentu na testy párové a nepárové. —Základním testem pro srovnání dvou nezávislých rozložení spojitých čísel je nepárový two-sample t-test —Základním testem pro srovnání dvou závislých rozložení spojitých čísel je párový two-sample t-test logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Dvouvýběrové testy: párové a nepárové II Data Nezávislé uspořádání Párové uspořádání X1 X2 X1- X2 = D X1 X2 Design uspořádání zásadně ovlivňuje interpretaci parametrů (n = n2 = n1) logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Identifikace párovitosti (Korelace, Kovariance) X1 X2 X1 X2 X1 X2 r = 0,954 (p < 0,001) r = 0,218 (p < 0,812) Dvouvýběrové testy: párové a nepárové III logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Předpoklady nepárového dvouvýběrového t-testu —Náhodný výběr subjektů jednotlivých skupin z jejich cílových populací —Nezávislost obou srovnávaných vzorků —Přibližně normální rozložení proměnné ve vzorcích, drobné odchylky od normality ovšem nejsou kritické, test je robustní proti drobným odchylkám od tohoto předpokladu, normalita může být testována testy normality —Rozptyl v obou vzorcích by měl být přibližně shodný (homoscedastic). Tento předpoklad je testován několika možnými testy – Levenův test nebo F-test. —Vždy je vhodné prohlédnout histogramy proměnné v jednotlivých vzorcích pro okometrické srovnání a ověření předpokladů normality a homogenity rozptylu – nenahradí statistické testy, ale poskytne prvotní představu. — 0 j(x) μ | logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Nepárový dvouvýběrový t-test – výpočet I 1.nulová hypotéza: průměry obou skupin jsou shodné, alternativní hypotéza je, že nejsou shodné, two tailed test 2.prohlédnout průběh dat, průměr, medián apod. pro zjištění odchylek od normality a nehomogenita rozptylu, provést F –test 3. F-test pro srovnání dvou výběrových rozptylů •Používá se pro srovnání rozptylu dvou skupin hodnot, často za účelem ověření homogenity rozptylu těchto skupin dat. •V případě ověření homogenity je testována hypotéza shody rozptylů (two tailed); v případě shodných rozptylů je vše v pořádku a je možné pokračovat ve výpočtu t-testu, v opačném případě není vhodné test počítat. H0 HA Testová statistika logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Nepárový dvouvýběrový t-test – výpočet II 3.Výpočet testové statistiky (stupně volnosti jsou ): 4. 4. 4. 4. 4. 4.výsledné t srovnáme s tabulární hodnotou t pro dané stupně volnosti a a (obvykle a=0,05) 5.Lze spočítat interval spolehlivosti pro rozdíl průměrů (např. 95%), počet stupňů volnosti a s2 odpovídají předchozím vzorcům 6. 3. vážený odhad rozptylu logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Dvouvýběrový t-test - příklad —Průměrná hmotnost ovcí v čase páření byla srovnávána pro kontrolní skupinu a skupinu krmenou zvýšenou dávkou potravy. Kontrolní skupina obsahuje 30 ovcí, skupina se zvýšeným příjmem potravy pak 24 ovcí. •Vlastní experiment byl prováděn tak, že na začátku máme 54 ovcí (ideálně stejného plemene, stejně staré atd.), které náhodně rozdělíme do dvou skupin (náhodné rozdělování objektů do pokusných skupin je objektem celého specializovaného odvětví statistiky nazývaného randomizace). Poté co experiment proběhne, musíme nejprve ověřit teoretický předpoklad pro využití nepárového t-testu. Pro obě proměnné jsou vykresleny grafy (můžeme též spočítat základní popisnou statistiku), na kterých můžeme posoudit normalitu a homogenitu rozptylu, kromě okometrického pohledu můžeme pro ověření normality použít testy normality, pro ověření homogenity rozptylu pak F-test •Pokud platí všechny předpoklady Two sample nepárového t-testu, můžeme spočítat testovou charakteristiku, výsledné t je 2,43 s 52 stupni volnosti, podle tabulek je a t0,975 (52)= 2,01, tedy t> t0,975 (52)= a nulovou hypotézu můžeme zamítnout, skutečná pravděpodobnost je pak 0,018. Rozdíl mezi skupinami je 1,59 kg ve prospěch skupiny s lepší výživou. • • • • •Pro rozdíl mezi oběma soubory jsou spočítány 95% konfidenční intervaly jako 1,59±2.01*(0,655) kg, což odpovídá rozsahu 0,28 až 2,91 kg. To, že konfidenční interval nezahrnuje 0 je dalším potvrzením, že mezi skupinami je významný rozdíl – jde o další způsob testování významnosti rozdílů mezi skupinami dat – nulovou hypotézu o tom, že rozdíl průměrů dvou skupin dat je roven nějaké hodnotě zamítáme v případě, kdy 95% konfidenční interval rozdílu nezahrnuje tuto hodnotu (v tomto případě 0). logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Neparametrické alternativy nepárového t-testu X1 X2 ALL Rank ALL X1 rank X2 rank 27 25 25 5 6 5 35 29 29 7,5 11 7,5 38 31 31 9 13 9 37 23 23 4 12 4 39 18 18 2 14 2 29 17 17 1 7,5 1 41 32 32 10 15 10 19 19 3 3 27 6 35 11 38 13 37 12 39 14 29 7,5 41 15 Mann Whitney U-test •Stejně jako řada jiných neparametrických testů počítá i tento test s pořadím dat v souborech namísto s originálními daty. Jde o neparametrickou obdobu nepárového t-testu a z těchto neparametrických testů má nejvyšší sílu testu (95% párového t-testu). •V případě Mann-Whitney testu jsou nejprve čísla obou souborů sloučena a je vytvořeno jejich pořadí v tomto sloučeném souboru, pak jsou hodnoty vráceny do původních souborů a nadále se pracuje již jen s jejich pořadím. •Pro oba soubory je tedy vytvořen součet pořadí a menší z obou součtů je porovnán s kritickou hodnotou testu, pokud je tato hodnota menší než kritická hodnota testu, zamítáme nulovou hypotézu shody distribučních funkcí obou skupin. •Podobným způsobem je počítán i Wilcoxon rank sum test (pozor, existuje ještě Wilcoxnův párový test!!!) logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Mann – Whitney U test - příklad —17 štěňat bylo trénováno v chození na záchod metodou pozitivního posilování (pochvala, když jde na záchod venku) nebo negativního (trest, když jde na záchod doma). Jako parametr bylo měřeno, za kolik dní je štěně vycvičeno. —nulová hypotéza je, že není rozdíl v metodách tréninku, tedy, že oběma metodami je štěně vycvičeno za stejnou dobu. —po srovnání rozložení + malý počet hodnot je vhodné použít neparametrický test —je vytvořeno pořadí sloučených hodnot —pořadí hodnot v jednotlivých skupinách dat je sečteno a menší ze součtů je použit pro srovnání s kritickou hodnotou testu —výsledkem testu je p25. Před zásahem Po zásahu Změna Absolutní pořadí 6 2 4 10 2,5 3 -0,5 1,5 6,3 5 1,3 6 8,1 9 -0,9 5 1,5 2 -0,5 1,5 3,4 4 -0,6 3 2,5 1 1,5 8 1,11 2 0,89 4 2,6 4 -1,4 7 1 3 -2 9 logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Wilcoxonův test – příklad I člověk A B diference pořadí 1 142 138 4 4,5 2 140 136 4 4,5 3 144 147 -3 3 4 144 139 5 7 5 142 143 -1 1 6 146 141 5 7 7 149 143 6 9,5 8 150 145 5 7 9 142 136 6 9,5 10 148 146 2 2 A…….parametr krve před podáním léku B…….parametr krve po podání léku W+ …… Σ pořadí kladných rozdílů = 51 W- …… = 4 W = min(W+;W-) = 4 počet párů = n = 10 Pokud je W menší než kritická hodnota testu, pak zamítáme hypotézu shody distribučních funkcí obou skupin. logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Wilcoxonův test – příklad II —Byla testována nová dieta pro laboratorní krysy, při pokusu byl zjišťován její vliv na různých liniích krys, bylo proto zvoleno párové uspořádání kdy krysy v obou dietách jsou spojeny přes svoji linii, tj. na začátku byly dvojice krys stejné linie, jedna z nich byla náhodně přiřazena k dietě, druhá z dvojice pak do druhé diety. — 1.nulová hypotéza je, že váha krys není ovlivněna použitou dietou, alternativní, že ovlivnění dietou existuje 2.spočítáme diference – tyto diference jsou nenormální a proto je vhodné využít neparametrický test 3.Spočítáme sumu pořadí kladných a záporných diferencí, zde je menší suma záporných diferencí – 31 4.výsledkem výpočtu je p>0,05 a tedy nemáme dostatečné důkazy pro zamítnutí nulové hypotézy, nelze říci, že by nová dieta byla efektivnější než stará 5.pro doplnění výsledků je vhodné zjistit také skutečnou velikost rozdílu hmotností ve skupinách, např. ve formě mediánu — logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Znaménkový test – příklad I • Párově uspořádaný experiment pro nominální data I. Dva preparáty, každý na ½ listu - sledovaná veličina: počet skvrn (hodnoceno pouze jako rozdíl) Počet skvrn A V V M V V M M V V V B M M V M M V V M M M V – větší; M – menší n = 10 listů s rozdílnými výsledky A je větší: + n+ = 7 jev B je menší: - n- = 3 min(n+; n-) = 3 II. dvě protilátky z různých zdrojů (A;B) – aplikované na vzorek s antigenem n = 10 A + + - + - + - + + - B - - + - + + - - + - n – nenulových rozdílů: 6 A: n+ = 4 A: n- = 2 min(n+; n-) = 2 logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Znaménkový test – příklady II —Na konferenci veterinářů bylo předneseno,že průměrný čas konzultace je 12 minut. Následovala debata, zda je lepší použít medián nebo průměr. Jeden z nich se rozhodl ověřit teorii, že průměrná konzultace trvá 12 minut na vlastní praxi a zaznamenal si trvání svých 43 konzultací. K otestování hypotézy, že podíl konzultací kratších a delších než 12 minut použil znaménkový test. Délka konzultace Počet <12 22 12 6 >12 15 Celkem 43 Další výpočet probíhá obdobně jako v případě klasického znaménkového testu na diferencích dvou skupin dat. logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Dvouvýběrové testy: schéma analýzy Nezávislé uspořádání neparametrické testy testy: ANO NE ANO t-test nezávislý aproximace Man - Whitney Mediánový test normalita ? homogenita rozptylu ? NE transformace NE c2 test Kolmogorov-Smirnov test Shapiro-Wilks test F-test logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Dvouvýběrové testy: schéma analýzy Párové uspořádání neparametrické testy testy: ANO Diference D t-test párový Znaménkový test Wilcoxonův test normalita ? NE transformace NE c2 test Kolmogorov-Smirnov test Shapiro-Wilks test logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Popis binomického rozložení Testování hypotéz binomicky rozložených dat XII. Binomické rozložení logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace —Kromě spojitých dat se setkáváme také s daty kategoriálními, jejichž nejjednodušším případem jsou data binární. Binární data jsou popsána binomickým rozložením, od chování binomického rozložení je odvozena popisná statistika binárních dat (procento výskytu jevu), její interval spolehlivosti a binomické testy pro srovnání procentuálního výskytů jevů v různých skupinách. logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek (x) =  pro X = 1 (x) = 1 -  pro X = 0 (x) = 0 jinak X = 1 ......jev 0 1 X  1- Alternativní rozložení logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek X ..... celkový počet nastání jevu v n nezávislých pokusech E(x)= n .  D(x)= n .  (1-)  ~ p jediný parametr distribuce určuje tvar distribuce  = 0,5  = 0,1 Binomické rozložení logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek p ~ π .. jediný parametr binomického rozložení p .... relativní četnost nastání jevu p .......… určuje tvar distribuce n ..... počet nezávislých opakování (dotazů) X ..... počet lidí s jistým symptomem r znamená celkový počet nastání jevu v n nezávislých experimentech r : 0 …… n Binomická proměnná X Binomické rozložení jako model pro zkoumání výskytu sledovaného jevu logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jev: narození chlapce П = 0,5 n : rodina s 5 dětmi r: 0,1,2,3,4,5 chlapců r = 0 : r = 1 : r = 2: P(r) = 0,3125 r = 3: P(r) = 0,3125 r = 4: P(r) = 0,15625 r = 5: P(r) = 0,031 X: Binomická proměnná Střed rozložení: Rozptyl: Příklad: n = 100 respondentů r = 20 má symptom je střed rozložení a nejpravděpodobnější …..hodnota Binomické rozložení jako model logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek q = 1 - p n = 10 p = 0,3 n = 30 p = 0,3 n = 100 p = 0,3 0 0,05 0,1 0,15 0,2 0,25 0,3 0 1 2 3 4 5 6 7 8 9 10 n = 50 p = 0,1 n = 50 p = 0,5 n = 50 p = 0,9 Binomické rozložení jako model logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek B not B B not B B B not B not B 0,0064 0,0736 0,0736 0,8464 2 1 1 0 Number in blood group B Probability Binomial distribution of number of people out of two in blood group B Number: blood group B in 2 cases 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 0 1 2 Výskyt krevní skupiny B v určité populaci: p = 0,08 0 0,1 0,2 0,3 0,4 0,5 Binomial distribution showing the number of subjects out of ten in blood group B based on the probability of being in in blood group B of 0,08. Number of subjects Binomial distribution showing the number of subjects out of 100 in blood group B based on the probability of being in in blood group B of 0,08. Number of subjects Aplikace binomického rozložení 0 10 20 30 40 50 60 70 80 90 100 logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Aplikace binomického rozložení Populace: 60% jedinců má zvýšenou hladinu cholesterolu Výběr: 5 lidí I.Kolik lidí má ve výběru vyšší hladinu cholesterolu ? n. p = 5 . 0,6 = 3 lidé ~ E(x) n . p (1-p) = 1,2 ~ D(x) II. Jaká je P, že právě 3 lidé budou mít vyšší hladinu cholesterolu ? ~ Tzn. Výběr přesně odpovídá dané populaci ? P(3) = ? P(3) = 35% Jaká je P, že většina jedinců (tedy minimálně 3) má vyšší hladinu cholesterolu ? ~ Tzn. výběr alespoň obecně odpovídá zkoumané populaci ? p(x) P(X > 3) = P(3) + P(4) + P (5) = 0,346 + 0,259 + 0,078 = 68 % X logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Při vícenásobném odhadu se parametr Π chová jako normálně rozložen j(x) p n1;p1 n2;p2 n3;p3 0 p1 p1 p1 1 p 0 1 j(x) p 0 1 U malých nebo velkých hodnot p (Π) je však předpoklad normality omezen j(x) Odhad parametru Π binomického rozložení logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Odhad parametru Π binomického rozložení 1) Bodový 2) Intervalový – aproximace logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek X: % jedinců s daným znakem n = 100 jedinců r = 60; Interval spolehlivosti : 95 % Z 0,975 = 1,96 Odhad parametru Π binomického rozložení: příklad I logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Intervalový odhad bez aproximací na normální rozložení spodní limit intervalu horní limit intervalu Odhad parametru Π binomického rozložení logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Náhodný vzorek n = 200 jedinců. Zjištěno pouze r = 4 jedinci bez určitého znaku. 95% interval spolehlivosti = ? Spodní hranice Horní hranice Odhad parametru Π binomického rozložení: příklad II logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Binomické rozložení v datech: vizualizace Pravděpodobnost výskytu hodnot X X n 1 Modelové rozložení odhadovaného parametru П (x) j(x) p Binární podstata původních hodnot jev ANO n opakování jev NE Interval spolehlivosti pro П I. П II. 0 ANO NE logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Liší se odhad p od předpokládané hodnoty P ? Liší se dva nebo více odhadů p ? Je výskyt kategorií dvou jevů nezávislý ? Hodnocení relativního rizika z výskytu určitého jevu v rámci skupiny lidí - závislé odhady - - nezávislé odhady - II. I. III. IV. Statistické testování binomických dat logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jednovýběrový binomický test H0 HA Testová statistika Interval spolehlivosti p Ł P p > P z z > z 1-a p ł P p < P z z < z a p = P p ą P z ½z½ > z 1-a/2 H0 HA Testová statistika Interval spolehlivosti p Ł P p > P p = r / n > L1 p ł P p < P p < L2 p = P p ą P L1; L2 (F a/2; F 1-a/2) p < L2 v p > L1 Korekce na kontinuitu logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek ü Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Test p ? p Stromy s pozměněným tvarem koruny n = 9 000 jedinců r = 2 250 změněných jedinců Jak je pravděpodobná změna u až 1/3 jedinců? ? a = 5 %; Z 1-a/2 = 1,96; Z 1-a = 1,645 Z > Z 1-a/2 ………zamítáme H0: p < 0,01 95 % Interval spolehlivosti … p: (0,241; 0,258) ? logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Test p ? p Příklad testu bez aproximace na normální rozložení 12 jedinců bylo zkoumáno pro výskyt určitého znaku, 10 jedinců znak nemělo Jak hodně se tento výsledek liší od výsledku 6 - 6: tedy od situace, kdy polovina jedinců znak má? a) Využití distribuční funkce P (r ³ 10) = 0,01611 + 0,00393 + 0,00024 = 0,01928 H0: p = 0,5 je tedy značně nepravděpodobná b) Pozorované překročilo horní limit 95 % intervalu spolehlivosti pro p: r 0 1 2 3 4 5 6 7 8 9 10 11 12 P(r) 0,00024 0,00293 0,01611 0,05371 0,12085 0,19335 0,22559 0,19336 0,12085 0,05371 0,01611 0,00293 0,00024 logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Dvouvýběrový binomický test (p1 ? p2) logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Dvouvýběrový binomický test (p1 ? p2) Tento příklad je ukázkou testování rozdílů mezi dvěma binomickými populacemi (tedy srovnání dvou odhadů parametru p). Celkem 49 pokusných myší bylo použito k testování toxického preparátu během dvouměsíční kultivace. Následující tabulka obsahuje původní data zároveň s testem nulové hypotézy: Podíl přežívajících jedinců je u zasažené populace stejný. ü Z0,05(2) = t0,05(2) = 1,96 Nezamítáme H0: 0,10 < P < 0,20 S korekcí na kontinuitu: Z0,05(2) = t0,05(2) = 1,96 Nezamítáme H0: 0,10 < P < 0,20 Alive Dead Total Proportion alive Proportion dead Treated 15 9 24 Not Treated 10 15 25 Total 25 24 49 logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Příklad I a) Pravděpodobnost narození chlapce je asi 1/2. Máte zhodnotit výsledky průzkumu populace, která žije v silně poškozeném životním prostředí. Průzkum se týká 1000 náhodně vybraných rodin a zjištěný podíl narozených chlapců je 0.41. Jaké jsou vaše závěry o této populaci? Jak se váš odhad zpřesní, když použijete vzorek n = 10 000 rodin při zachování odhadu p = 0.41? b) Jaká je pravděpodobnost, že rodina se třemi dětmi bude mít 2 (3) chlapce? Podrobně analyzujte problém a použijte obecného definičního vztahu pro binomické rozložení. Použijeme jednovýběrový binomický test s nulovou hypotézou H0: p=π, hladina významnosti α=0,05 testová statistika a příslušný kvantil protože nulovou hypotézu zamítáme. Chlapci se ve zkoumavé populaci nerodí s pravděpodobností 0,5. interval spolehlivosti pokud použijeme n=10 000, bude int. spolehlivosti užší n = 3 r = 2 p=0,5 (stejná pravděpodobnost narození chlapce jako narození dívky) pravděpodobnost narození 2 chlapců v rodině se třemi dětmi je 0,375 r = 3 platí pravděpodobnost narození 3 chlapců v rodině se třemi dětmi je 0,125 logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Příklad II Předpokládá se, že lidé trpící určitou krevní chorobou mají abnormální jeden z chromozómů. S cílem odhadnout podíl takto postižených chromozómů bylo studováno 5 buněk od každého ze 120 pacientů a byl zjišťován počet buněk s postiženým chromozómem (tento počet = sledovaný jev = r). Výsledky jsou uvedeny v následující tabulce. Odhadněte podíl postižených chromozómů u populace nemocných lidí. r(četnost jevu) 0 1 2 3 4 5 celkem f(poč. pacientů) 6 31 42 29 10 2 120 Pro odhad p se používá vztah Xi fi Xifi 0 6 0 1 31 31 2 42 84 3 29 87 4 10 40 5 2 10 pravděpodobnost výskytu postiženého chromozómu