Parametrické úlohy o jednom náhodném výběru a více nezávislých náhodných výběrech z alternativních rozložení Opakování: Alternativní rozložení: Náhodná veličina X udává počet úspěchů v jednom pokusu, přičemž pravděpodobnost úspěchu je q. Píšeme X ~ A( cjj. n(x)=fc1 nebo11 n(x) = !»p - Binomické rozložení: Náhodná veličina X udává počet úspěchů v posloupnosti n nezávislých opakovaných pokusů, přičemž pravděpodobnost úspěchu jev každém pokusu q. Píšeme X ~ Bi(n, q). lojínak ľ E(X) = nQ,D(X) = nQ(l-Q) (Alternativní rozložení je speciálním případem binomického rozložení pro n = 1. n v Jsou-li Xi, Xn stochasticky nezávislé náhodné veličiny, X; ~ A( q), i = 1, n, pak X = v7\~ Bi(n, q).) Centrální limitní věta: Jsou-li náhodné veličiny Xi, ..., Xn stochasticky nezávislé a všechny mají stejné rozložení se střední hodnotou (i a rozptylem 2 11 V 2 o , pak pro velká n (n > 30) lze rozložení součtu V^V aproximovat normálním rozložením N(nfi, no ). Zkráceně píšeme - t n v J J L ||I J Pokud součet ' 11 ' ' w 11 1 " Pokud součet ^""^standardizujeme, tj. vytvoříme náhodnou veličinu _Á= j —, pak rozložení této náhodné veličiny lze aproximovat standardizovaným normálním rozložením. Zkráceně píšeme Un ~ N(0,1) Asymptotické rozložení statistiky odvozené z výběrového průměru. Nechť Xi, Xn je náhodný výběr z rozložení A( q) a nechť je splněna podmínka Iq, _ • Pak statistika L_ —— A; konverguje v distribuci k náhodné veličině se standardizovaným normálním rozložením. (Říkáme, že U má asymptoticky rozložení N(0,1) a píšeme U ~ N(0,1).) Vysvětlení: n v Protože Xi, Xn je náhodný výběr z rozložení A( q), bude mít statistika Yn = V^y(výběrový úhrn) rozložení Bi(n, q). Yn má střední hodnotu E(Yn) = n q a rozptyl d(Yn) = Ilnl . Podle centrální limitní věty se standardizovaná statistika Y n ^ U_ Y-j \> asymptoticky řídí standardizovaným normálním rozložením N(0,1). Pokud čitatele i jmenovatele podělíme n, dostaneme vyjádření: L_ M- . Á= j - _ —— , Wr j S - j$ - j& - - V ii ^ V 11 ^ V 11 ^ Vzorec pro meze 100(l-a)% asymptotického empirického intervalu spolehlivosti pro parametr q: Meze 100(l-a)% asymptotického empirického intervalu spolehlivosti pro parametr q jsou: d_ _%\ ,h_ +%\ , Vysvětlení: Pokud rozptyl L8Vř_ ' - nahradíme odhadem —¥■— -, konvergence náhodné veličiny U k veličině s rozložením \ — ii ^ ii ^ N(0,1) se neporuší. Tedy Příklad: Náhodně bylo vybráno 100 osob a zjištěno, že 34 z nich používá zubní kartáček zahraniční výroby. Najděte 95% asymptotický interval spolehlivosti pro pravděpodobnost, že náhodně vybraná osoba používá zubní kartáček zahraniční výroby. v Řešení: Zavedeme náhodné veličiny X1, X100, přičemž Xi = 1, když i-tá osoba používá zahraniční zubní kartáček a Xi = 0 jinak, i= 1, 100. Tyto náhodné veličiny tvoří náhodný výběr z rozložení A( q). n = 100, m = 34/100, a = 0,05, Ui.a/2 = u0,975 = 1,96. Ověření podmínky n q (1- q) > 9: parametr q neznáme, musíme ho nahradit výběrovým průměrem. Pak 100.0,34.0,66 = 22,44 > 9. Dosadíme do vzorce: d_ _ *Uj ~,h_ _j_ 'uj tedy d_- V_ -m.- 247B_- 3/ "ÍÍ-" ^W- 132 1 vy vy i 1 S pravděpodobností přibližně 0,95 tedy 0,2472 < q < 0,4328. Znamená to, že s pravděpodobností přibližně 0,95 tedy můžeme očekávat, že v populaci je 24,7% až 43,3% osob, které používají zubní kartáček zahraniční výroby. Výpočet pomocí systému STATISTICA: a) Přesný způsob Otevřeme nový datový soubor se dvěma proměnnými a jednom případu. První proměnnou nazveme d a do jejího Dlouhého jména napíšeme =0,34-sqrt(0,34*0,66/100)*VNormal(0,975;0;1) Druhou proměnnou nazveme h a do jejího Dlouhého jména napíšeme =0,34+sqrt(0,34*0,66/100)*VNormal(0,975;0;1) Dostaneme výsledek:_ 1 2 d h 1 U,247 U,432 Vidíme, že s pravděpodobností aspoň 0,95 se pravděpodobnost používání zubního kartáčku zahraniční výroby bude pohybovat v mezích 0,2471 až 0,4328. b) Přibližný způsob, použitelný pro dostatečně velký rozsah výběru Do nového datového souboru o jedné proměnné X a 100 případech uložíme 34 jedniček (indikují používání zubního kartáčku zahraniční výroby) a 66 nul (indikují používání zubního kartáčku domácí výroby). Statistika - Základní statistiky a tabulky - Popisné statistiky - OK - Proměnné X - OK - Detailní výsledky - zaškrtneme Meze spolehl. prům. - ponecháme implicitní hodnotu pro Interval 95,00 - Výpočet. Dostaneme tabulku: Proměi Popisne statistiky (i aouika3) n piatm Prumi int. spon int. spon á ] \ -95,00(1 95,t)0( X 1UU,34U U,245 U,434 Dospěli jsme k výsledku, že s pravděpodobností aspoň 0,95 se pravděpodobnost používání zubního kartáčku zahraniční výroby bude pohybovat v mezích 0,2455 až 0,4345. Příklad: Kolik osob musíme vybrat, abychom podíl modrookých osob v populaci odhadli se spolehlivostí 90% a šířka intervalu spolehlivosti byla nanejvýš a) 0,06, b) 0,01? Řešení: Šířka 100(l-a)% asymptotického empirického intervalu spolehlivosti pro parametr q: h • . ''0- 'u .. ''A- 'u ^ " '" ~f A- "= = -Mao—= ^' Uvedenou podmínku tedy splníme, když vybereme aspoň 752 osob. adb)n>^- *-\_A^\A_A^:wz_-im Chceme-li dosáhnout podstatně užšího intervalu spolehlivosti, musíme vybrat aspoň 27 061 osob. Modifikace: Předpokládejme, že v populaci je nanejvýš 30% modrookých osob. Pak relativní četnost m = 0,3. V tomto případě stačí vybrat 632 osob. Ve srovnání s předešlým případem vidíme, že rozsah výběru skutečně klesl. adb) — A = Mvľi = M(L = ^ V tomto případě musíme vybrat aspoň 22 731 osob. Testování hypotézy o parametru q Nechť Xi, ..., Xn j e náhodný výběr z rozložení A( q) a nechť j e splněna podmínka ľ q Na asymptotické hladině významnosti a testujeme hypotézu Ho: q = c proti alternativě Hi: q ^ c (resp. Hi: q < c resp. Hi: q > c). Testovým kritériem je statistika tq _ 5*— , která v případě platnosti nulové hypotézy má asymptoticky rozložení N(0,1). Kritický obor má tvar w_ , X\ /2}^j\\ /2?00 (resp. w_ , X\ N resp. w_h , 0). (Testování hypotézy o parametru q lze samozřejmě provést i pomocí 100(l-a)% asymptotického intervalu spolehlivosti nebo pomocí p-hodnoty.) Příklad: Podíl zmetků při výrobě určité součástky činí Q = 0,01. Bylo náhodně vybráno 1000 výrobků a zjistilo se, že mezi nimi je 16 zmetků. Na asymptotické hladině významnosti 0,05 testujte hypotézu H0: Q = 0,01 proti oboustranné alternativě Hi: Q ^ 0,01. Řešení: Zavedeme náhodné veličiny Xi, Xiooo, přičemž X; = 1, když i-tý výrobek byl zmetek a X = 0 jinak, i = 1, 1000. Tyto náhodné veličiny tvoří náhodný výběr z rozložení A( q). Testujeme hypotézu H0: Q = 0,01 proti alternativě Hi: Q ^ 0,01. 16 - -M Známe: n = 1000, jq_ J 1', c = 0,01, a = 0,05, ui.a/2 = u0;975 = 1,96 Ověření podmínky Iq _ : 1000.0,01.0,99 = 9,9 > 9. a) Testování pomocí kritického oboru: Realizace testového kriteria: lo —— - =e?=f— ft» v Kritický obor: \v_ _ ^ 1^97^ ^j^975qq j_ ? J^^OO Protože 1,907 n w, H0 nezamítáme na asymptotické hladině významnosti 0,05. b) Testování pomocí intervalu spolehlivosti d \ -]i-"lBf-K)í Protože číslo c = 0,01 leží v intervalu 0,0082 až 0,0238, H0 nezamítáme na asymptotické hladině významnosti 0,05. c) Testování pomocí p-hodnoty Protože testujeme nulovou hypotézu proti oboustranné alternativě, vypočteme p-hodnotu podle vzorce: p = 2 min{ 0(1,907), 1-0(1,907) } = 2 min { 0,97104, 1 - 0,97104 } = 0,05792. Protože vypočtená p-hodnota je větší než hladina významnosti 0,05, H0 nezamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA (pouze přibližný): Statistiky - Základní statistiky a tabulky - Testy rozdílů: r, %, průměry - OK - vybereme Rozdíl mezi dvěma poměry - do políčka P 1 napíšeme 0,016, do políčka N1 napíšeme 1000, do políčka P 2 napíšeme 0,01, do políčka N2 napíšeme 32767 (větší hodnotu systém neumožní) - Výpočet. Dostaneme p-hodnotu 0,0626, tedy nezamítáme nulovou hypotézu na hladině významnosti 0,05. Příklad: Nový léčebný postup považujeme za úspěšný, pokud po jeho ukončení bude dosaženo zlepšení zdravotního stavu u alespoň 50% zúčastněných pacientů. Nová terapie byla vyzkoušena u 40 pacientů a ke zlepšení došlo u 24 osob, tj. u 60%. Je možné na asymptotické hladině významnosti 0,05 zamítnout hypotézu, že tato terapie nedosahuje úspěšnosti aspoň 50%? v Řešení: Zavedeme náhodné veličiny Xh X40, přičemž X; = 1, když terapie u i-tého pacienta byl úspěšná a Xi = 0 jinak, i= 1, -,40. Tyto náhodné veličiny tvoří náhodný výběr z rozložení A( q). Testujeme hypotézu h0: q < 0,5 proti pravostranné alternativě q>0,5. Známe: n = 40, VC_ ^_ 3, c = 0,5, a = 0,05, ui_a = u0j95 = 1,645 Ověření podmínky ľ q _ : 40.0,6.0,4 = 9,6 > 9. Realizace testového kritéria: to _ í^— - _ ^— - _ 164 Kritický obor: W= \\ , ^ %3o0 1,64^. Protože 1,2649 n W, h0 nezamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA: La Testy rozdílů: r, průměry: Ta bulka 9 |~" Poslat/tisknout výsledky každ. výpočtu d0 okna protokolu ■Rozdíl mezi dvěma korelačními koeficienty— r1 0,00 r2: 0,00 1 1 N1: N 2: 10 10 p: 1,0000 C" Jednostr. í* Gboustr. Storno Výpočet - Rozdíl mezi dvěma průměry (normální rozdělení) Pr1 0, ^jSmOdl ^ N1:|10 f^j p: 1,0000 (~ Jednostr. Gboustr. Pr2: |ä gSmOd^ | N2:[^g £ V Výběrový průměr vs. střední hodnota - Rozdíl mezi dvěma poměry— P1: P 2: ,60000 Í N1: 40 — ,50000 ä N2: 327G7 p: ,1031 (*" Jednostr. C Oboustr. Výpočet Výpočet Vypočtená p-hodnota jednostranného testu je 0,1031, tedy větší než asymptotická hladina významnosti 0,05. H0 nezamítáme na asymptotické hladině významnosti 0,05. Asymptotické rozložení statistiky odvozené ze dvou výběrových průměrů Nechť je náhodný výběr z alternativního rozložení A( q) a je na něm nezávislý náhodný výběr alternativního rozložení A( q) a nechť jsou splněny podmínky ni q (1- q) > 9 a n2 q (1- q) > 9. Označme Mi, M2 výběrové průměry. Pak statistika L_ H- L- - ^ |Jb . Vysvětlení: Analogicky jako v případě jednoho náhodného výběru z alternativního rozložení. Vzorec pro meze 100(l-a)% asymptotického empirického intervalu spolehlivosti pro parametrickou funkci q Meze 100(l-a)% asymptotického empirického intervalu spolehlivosti pro <^ jsou: h 14 "+ h 2 ^_ -.5 + Ij2 = -+ Vysvětlení: Pokud rozptyl OVJ^_ s rozložením N(0,1) se neporuší. Tedy - nahradíme odhadem i = 1, 2, konvergence náhodné veličiny U k veličině V : =~M_" L L" \ f y. < "V li^ >-r T12 > < < ™ - ^ .) lii y\ li? > — Příklad: Management supermarketu vyhlásil týden slev a sledoval, zda toto vyhlášení má vliv na podíl větších nákupů (nad 500 Kč). Na základě náhodného výběru 200 zákazníků v týdnu bez slev bylo zjištěno 97 velkých nákupů, zatímco v týdnu se slevou z 300 náhodně vybraných zákazníků učinilo velký nákup 162 zákazníků. Sestrojte 95% asymptotický interval spolehlivosti pro rozdíl pravděpodobností uskutečnění většího nákupu v týdnu bez slevy a v týdnu se slevou. Řešení: Zavedeme náhodnou veličinu X1i, která bude nabývat hodnoty 1, když v týdnu bez slevy i-tý náhodně vybraný zákazník uskuteční větší nákup a hodnoty 0 jinak, i = 1, ..., 200. Náhodné veličiny Xu, ..., Xi^oo tvoří náhodný výběr z rozložení . Dále zavedeme náhodnou veličinu X2i, která bude nabývat hodnoty 1, když v týdnu se slevou i-tý náhodně vybraný zákazník uskuteční větší nákup a hodnoty 0 jinak, i = 1, ..., 300. Náhodné veličiny X2,i, ..., X2,3oo tvoří náhodný výběr z rozložení ^ q . nj = 200, n2 = 300, mi = 97/200 = 0,485, m2 = 162/300 = 0,54. Ověření podmínek n! q (1- q) > 9 a n2 q (1- q) > 9: Parametry q a q neznáme, nahradíme je odhady ni! a m2. 97.(1-97/200) = 49,955 > 9,^162.(1-162/300) = 74,52 > 9. Meze 100(l-a)% asymptotického empirického intervalu spolehlivosti pro parametrickou funkci q^ jsou: d= ,_ D4_.,= ' _q7 i6?'tHL P^- W--44 — 3' 3' 2 vy vy + 3 vy vy — _q716? m- rm- w-134; — 3' 3'+ 2 vy vy + 3 vy vy — Zjistili jsme tedy, že s pravděpodobností přibližně 0,95: -0,1443 < q < 0,0343. Testování hypotézy o parametrické funkci q Nechť .y^q je náhodný výběr z alternativního rozložení A( q) a ^j,. je na něm nezávislý náhodný výběr z alternativního rozložení A( q) a nechť jsou splněny podmínky niq(l-q)>9an2q (1- q) > 9. Na asymptotické hladině významnosti a testujeme nulovou hypotézu H0: q = c proti alternativě H^: q ^c(resp. H4: q < c resp. Hi: q > c). Testovým kritériem je statistika Jq _ ^ A 1 - — j^— - i-, která v případě platnosti nulové hypotézy má asymptoticky rozložení N(0,1). 11 -ST ln \ 14 1£ Kritický obor má tvar W_ , X\ j j) ^ j\\ /2?Q0 (resp. W_ , X\ v resp. W_li_ , Q). (Testování hypotézy o parametrické funkci q lze provést též pomocí 100(l-a)% asymptotického intervalu spolehlivosti nebo pomocí p-hodnoty.) Poznámka: Postup při testování hypotézy q Je-li c = 0, pak označme M_ ^+ — vážený průměr výběrových průměrů. Jako testová statistika slouží která v případě platnosti nulové hypotézy má asymptoticky rozložení N(0,1). Kritický obor má tvar W_ , \\ /2)^j\\ /2?0q (resp. W_ , \\ K resp. W_H , Q). Testová statistika T0 vznikne standardizací statistiky Mi - M2, kde neznámé parametry q, q nahradíme společným odhadem M*. Příklad: Pro údaje z příkladu o supermarketu testujte na asymptotické hladině významnosti 0,05 hypotézu, že týden se slevami nezvýší pravděpodobnost uskutečnění většího nákupu. Řešení: Testujeme hypotézu H0: q = 0 proti levostranné alternativě Hi: q < 0 na asymptotické hladině významnosti 0,05. ni = 200, n2 = 300, mi = 97/200, m2 = 162/300, m* = (97 + 162)/500 = 0,518. Podmínky dobré aproximace byly ověřeny v předešlém příkladu. Testování pomocí intervalu spolehlivosti: Pro levostrannou alternativu používáme pravostranný interval spolehlivosti: i, "+ ~is = = 3i- 3H- ~2w"+ 3™ 40 = L Protože číslo c = 0 je obsaženo v intervalu )^, H0 nezamítáme na asymptotické hladině významnosti 0,05. Testování pomocí kritického oboru: Realizace testového kritéria: Kritický obor je _v_ ;9s)_ . , )4)í. Protože testové kritérium nepatří do kritického oboru, H0 neza- mítáme na asymptotické hladině významnosti 0,05. Testování pomocí p-hodnoty: Pro levostrannou alternativu se p-hodnota počítá podle vzorce p = P(T0 < t0): p= ,j0< m= t *m= _ , i)$= wt= lij Protože p-hodnota je větší než 0,05, H0 nezamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA: Statistiky - Základní statistiky a tabulky - Testy rozdílů: r, %, průměry - OK - vybereme Rozdíl mezi dvěma poměry - do políčka P 1 napíšeme 0,485, do políčka N1 napíšeme 200, do políčka P 2 napíšeme 0,54, do políčka N2 napíšeme 300 -zaškrtneme Jednostr. - Výpočet. Dostaneme p-hodnotu 0,1142, tedy nezamítáme nulovou hypotézu na hladině významnosti 0,05. Aspoň tři nezávislé náhodné výběry z alternativních rozložení Test homogenity Nechť -r^jj ~ A( q), j = 1, 2, r jsou nezávislé náhodné výběry. Testujeme hypotézu H0: q ...._ proti alternativní hypotéze Hi: aspoň jedna dvojice parametrů je různá, r " Označme ľl_ ~řlj celkový rozsah všech r výběrů a M* vážený průměr výběrových průměrů. -u ľ 1 r Jako testové kritérium slouží statistika 0—]y|^[ ]y|^^^ ^4—^^> která v případě platnosti nulové hypotézy má asymptoticky rozložení x (r-1). H0 tedy zamítáme na asymptotické hladině významnosti a, když Q > x 1-a(r-1). Test lze použít, pokud njM* > 5 pro všechna j = 1, r. Statistiku Q lze snadno upravit do Brandtova - Snedecorova výpočetního tvaru Q_ Test homogenity založený na arkussinusové transformaci Není-li splněna podmínka njM* > 5 pro všechna j = 1, r, doporučuje se následující postup: Pro j = 1, r označme n 1 Pak statistika Q_4 ^flj ^_B? ~ H0 tedy zamítáme na asymptotické hladině významnosti a, když Q > x21-a(r-1). Mnohonásobné porovnávání Zamítneme-li nulovou hypotézu na asymptotické hladině významnosti a, chceme zjistit, které dvojice parametrů q ^ se liší. Platí-li nerovnost |j^k_A| > ' of*^ ^ l?oO' na ma 5 pro všechna j = 1, r. Vážený průměr m* se nachází v posledním řádku výstupní Rozkladové tabulky popisných statistik. Jeho hodnotu okopírujeme do políček pro průměry tříd A, B, C, D, poslední řádek odstraníme a k tabulce přidáme jednu novou proměnnou, do jejíhož Dlouhého jména napíšeme =v2*v3. I KIL) JSPEUSPE NPrpr Průmě N =v2*v A B U u 3: 11.U9 31 11,4U 3 1172, U,31b 3- 1U7/I Vidíme, že podmínky dobré aproximace jsou splněny. Dále provedeme testování hypotézy o shodě parametrů čtyř alternativních rozložení. Statistiky - Základní statistiky/tabulky - Kontingenční tabulky - OK - Specif. tabulky - List 1 USPECH, List 2 TRIDA, OK- Možnosti - Statistiky dvourozm tabulek - zaškrtneme Pearson & M-L Chi -square - Detailní výsledky - Detailní 2-rozm. tabulky Statist. Statist. : USPbUH(2) x 1 KIUA(4) (U uni-Kvž sv P pearsonuv c -2,28 dt= P=,UU m-v cni-Kvai 12,8U dt= P=,UU Testová statistika Q se realizuje hodnotou 12,2876, počet stupňů volnosti je 3, odpovídající p-hodnota = 0,00646, tedy na asymptotické hladině významnosti 0,05 hypotézu H0 zamítáme. S rizikem omylu nejvýše 0,05 jsme tedy prokázali, že rozdíly v podílech úspěšných studentů v jednotlivých třídách nelze vysvětlit náhodnými vlivy. Mnohonásobné porovnávání provedeme s pomocí systému STATISTICA jako s inteligentní kalkulačkou (kvantil q^95(4,oo) = 3,63). "1 2 3 4 5 b / 8 Mk M Ak A rozdil n< n PS U,142 U,222 U,38/ U,49U U,1U3 3: 31 U,3U4 A,C U,142 U,459 U,38/ U,/44 U,35/ 2"b 3 3 U,3U2 A,L U,142 U,441 U,38/ U,/2b U,338 3: 3- U,3U9 b,l U,222 U,459 U),4yU U,/44 U,253 31 3 U,3UU b,L U,222 U,441 U),4yU U,/2b U,235 31 34U,3Ub Cl U,459 U,441 U,/44 U,/2b U,U18 3/ 3 34U,3U4 Vidíme, že na hladině významnosti se liší třídy A, C a A, D.