6. Odhady pravděpodobností v HMŘ a testy hypotéz o nich 6.1. Popis situace: Předpokládejme, že HMŘ { }0n Nn;X ∈ s konečným počtem stavů k má vektor počátečních pravděpodobností p(0) = (p1(0), p2(0), …, pk(0)) a matici přechodu           = kk1k k111 pp pp L LLL L P . Tyto pravděpodobnosti však neznáme, můžeme je pouze odhadnout na základě dlouhodobého pozorování systému. Pro i, j = 1, …, k označme: cij … počet pozorování přechodu systému ze stavu i do stavu j, ∑= = k 1j iji cc … celkový počet přechodů, které začínaly ve stavu i, ∑= = k 1i i cc … celkový počet všech pozorovaných přechodů. Pozorované hodnoty zaznamenáme do tabulky: 1 2 … k ∑ 1 c11 c12 … c1k c1 2 c21 c22 … c2k c2 … … … … … … k ck1 ck2 … ckk ck ∑ c 6.2. Bodové odhady počátečních pravděpodobností a pravděpodobností přechodu Bodový odhad počáteční pravděpodobnosti pi(0) získáme metodou maximální věrohodnosti. Předpokládáme, že v čase n = 0 máme celkem c pozorování přechodu řetězce, z nichž v ci případech byl řetězec ve stavu i. Číslo ci považujeme za realizaci náhodné veličiny Yi. Je zřejmé, že ( )( )0pc,Bi~Y ii , tedy ( ) ( ) ( )( ) c,,1,0c,0p10p c c cYP i cc i c i i ii ii K=−      == − . Zlogaritmováním pravděpodobnostní funkce P(Yi = ci) získáme logaritmickou věrohodnostní funkci: ( )( ) ( ) ( ) ( )( )0p1lncc0plnc c c lnc;0pl iiii i ii −−++      = . Tuto funkci derivujeme podle pi(0) a derivaci položíme rovnu 0: ( )( ) ( ) ( ) ( ) 0 0p1 cc 0p c 0dp c;0pdl i i i i i ii = − − −= Vyřešením této rovnice získáme maximálně věrohodný odhad počáteční pravděpodobnosti pi(0): ( ) c c 0pˆ i i = . Je to relativní četnost počtu přechodů, které začínaly ve stavu i. Analogicky lze odvodit, že maximálně věrohodným odhadem pravděpodobnosti přechodu pij je      = ≠ = 0cpro0 0cpro c c pˆ i i i ij ij , tedy ijpˆ je relativní četnost případů, kdy řetězec, nacházející se v okamžiku n ve stavu i, posunul v čase n + 1 do stavu j. 6.3. Intervalové odhady počátečních pravděpodobností a pravděpodobností přechodu a) Waldův interval spolehlivosti Při výpočtu mezí intervalu spolehlivosti využijeme centrální limitní větu: Jsou-li náhodné veličiny X1, …, Xn stochasticky nezávislé a všechny mají stejné rozložení se střední hodnotou µ a rozptylem σ2 , pak pro velká n (n ≥ 30) lze rozložení standardizovaného součtu n nX U n 1i i σ µ− = ∑= aproximovat standardizovaným normálním rozložením N(0,1). Zkráceně píšeme Un ≈ N(0,1). Vraťme se k HMŘ. Na náhodnou veličinu ( )( )0pc,Bi~Y ii můžeme pohlížet jako součet c nezávislých náhodných veličin, z nichž každá se řídí alternativním rozložením A(pi(0)). Přitom ( ) ( )0cpYE ii = a ( ) ( ) ( )[ ]0p10cpYD iii −= . Podle CLV tedy platí: ( ) ( ) ( )[ ] ( )1,0N 0p10cp 0cpY U ii ii ≈ − − = . Čitatele a jmenovatele podělíme c a pi(0) ve jmenovateli nahradíme odhadem ( )0pˆi : ( ) ( ) ( )[ ] ( )1,0N c 0pˆ10pˆ 0pcY U ii ii ≈ − − = 100(1-α)% asymptotický Waldův interval spolehlivosti pro počáteční pravděpodobnost pi(0) má tedy meze: ( ) ( )[ ] 21 iii u c 0pˆ10pˆ c Y D α− − −= , ( ) ( )[ ] 21 iii u c 0pˆ10pˆ c Y H α− − += Po nahrazení náhodné veličiny Yi její realizací ci dostaneme empirický interval spolehlivosti: ( ) ( ) ( )[ ] 21 ii i u c 0pˆ10pˆ 0pˆ α− − ± , kde ( ) c c 0pˆ i i = Analogicky se odvodí 100(1-α)% asymptotický Waldův interval spolehlivosti pro pravděpodobnost přechodu. Empirické meze jsou ( ) 21 i ijij ij u c pˆ1pˆ pˆ α− − ± , kde i ij ij c c pˆ = Waldův interval spolehlivosti lze korektně použít, je-li splněna podmínka dobré aproximace: ( ) ( )[ ] 90pˆ10pˆc ii >− resp. ( ) ( )[ ] 90pˆ10pˆc ijiji >− . Není-li tato podmínka splněna, doporučuje se použít skórový interval spolehlivosti. b) Skórový interval spolehlivosti Pokud ve statistice ( ) ( ) ( )[ ] c0p10p 0pcY U ii ii − − = nenahradíme pi(0) ve jmenovateli odhadem ( )0pˆ i , můžeme sestrojit skórový interval spolehlivosti pro pi(0). Meze tohoto intervalu splňují nerovnost: ( ) ( ) ( )[ ] 2/1 ii ii u c0p10p 0pcY α−≤ − − . Umocníme na druhou: ( ) ( ) ( )[ ] 2/1 2 2 ii ii u c0p10p 0pcY α−≤         − − . Řešením kvadratické rovnice pro pi(0) obdržíme :       +             +−      +±+ α− α−α−α− c u 12 c Y c u 14 c u c Y 2 c u c Y 2 2/1 2 2 i2/1 22 2/1 2 i2/1 2 i . Po nahrazení náhodné veličiny Yi její realizací ci dostaneme empirický interval spolehlivosti: ( ) ( ) ( )       +       +−      +±+ α− α−α−α− c u 12 0pˆ c u 14 c u 0pˆ2 c u 0pˆ2 2/1 2 2 i 2/1 22 2/1 2 i 2/1 2 i , kde ( ) c c 0pˆ i i = Analogicky se odvodí 100(1-α)% asymptotický skórový interval spolehlivosti pro pravděpodobnost přechodu. Empirické meze jsou       +       +−      +±+ α− α−α−α− i 2/1 2 2 ij i 2/1 2 2 i 2/1 2 ij i 2/1 2 ij c u 12 pˆ c u 14 c u pˆ2 c u pˆ2 , kde i ij ij c c pˆ = 6.4. Příklad: V jistém regionu bylo náhodně vybráno 2501 domácností. Bylo zjištěno, že k určitému datu 629 domácností nepředplácelo žádný deník, 750 předplácelo regionální deník a zbytek celostátní deník. Z těch domácností, které neměly žádné předplatné, hodlá v příštím měsíci 126 předplácet regionální a 63 celostátní deník. Z domácností, které předplácejí regionální deník, u něj v příštím měsíci zůstane 525 domácností a 75 začne předplácet celostátní deník. A nakonec z těch domácností, které předplácejí celostátní deník, 673 nezmění předplatné a 112 přejde na předplatné regionálního deníku. Modelujte situaci pomocí homogenního markovského řetězce a najděte bodové a intervalové odhady (se spolehlivostí 95 %) počátečních pravděpodobností a pravděpodobností přechodu. Řešení: Zavedeme homogenní markovský řetězec { }0n Nn;X ∈ s množinou stavů J = {1, 2, 3}, kde Xn = 1, když v n-tém měsíci náhodně vybraná domácnost nemá žádné předplatné, Xn = 2, když má předplatné na regionální deník a Xn = 3, když má předplatné na celostátní deník. Údaje obsažené v textu úlohy uspořádáme do tabulky: 1 2 3 Σ 1 440 126 63 629 2 150 525 75 750 3 337 112 673 1122 Σ 2501 Nejprve odhadneme počáteční pravděpodobnosti podle vzorce ( ) k,,2,1i, c c 0pˆ i i K== . V našem případě k = 3, c1 = 629, c2 = 750, c3 = 1122, c = 2501. ( ) ( ) ( ) 4486,0 2501 1122 0pˆ,2999,0 2501 750 0pˆ,2515,0 2501 629 0pˆ 121 ====== Odhad vektoru počátečních pravděpodobností: ( ) ( )45,0;3,0;25,00pˆ = . Znamená to, že na počátku sledování 25 % domácností v daném regionu nemělo žádné předplatné, 30 % předplácelo regionální deník a 45 % celostátní deník. Před výpočtem intervalů spolehlivosti ověříme, zda jsou splněny podmínky dobré aproximace ( ) ( )[ ] 9c0pˆ10pˆ ii >− . Přitom ( ) ( ) ( ) 2501c, 2501 1122 0pˆ, 2501 750 0pˆ, 2501 629 0pˆ 321 ==== . Tedy i = 1: 4692501 2501 629 1 2501 629 =      − , i = 2: 5252501 2501 750 1 2501 750 =      − , i = 3: 6192501 2501 1122 1 2501 1122 =      − . Vidíme, že podmínky jsou splněny. Pro i = 1, 2, 3 a 05,0=α dosadíme do vzorce ( ) ( ) ( )[ ] 21 ii i u c 0pˆ10pˆ 0pˆ α− − ± . Dostaneme meze 95% asymptotických Waldových intervalů spolehlivosti pro p1(0), p2(0), p3(0). ( ) ( )2685,0;2345,00p1 ∈ , ( ) ( )3178,0;2819,00p2 ∈ , ( ) ( )4681,0;4291,00p3 ∈ vždy s pravděpodobností 95 %. Interpretujeme např. 1. interval spolehlivosti: Ve sledovaném regionu je k danému datu s pravděpodobností 95 % 23,45 % až 26,85 % domácností, které nepředplácejí žádný deník. Pro porovnání nyní vypočteme meze 95% skórových intervalů spolehlivosti pro p1(0), p2(0), p3(0). Pro i = 1, 2, 3 a 05,0=α dosadíme do vzorce ( ) ( ) ( )       +       +−      +±+ α− α−α−α− c u 12 0pˆ c u 14 c u 0pˆ2 c u 0pˆ2 2/1 2 2 i 2/1 22 2/1 2 i 2/1 2 i . Dostaneme meze 95% asymptotických skórových intervalů spolehlivosti pro p1(0), p2(0), p3(0). ( ) ( )2689,0;2349,00p1 ∈ , ( ) ( )3191,0;2822,00p2 ∈ , ( ) ( )4682,0;4292,00p3 ∈ vždy s pravděpodobností 95 %. Nyní se budeme věnovat odhadům pravděpodobností přechodu. Použijeme vzorec k,,1j,i, c c pˆ i ij ij K== . Znovu uvedeme tabulku se zadanými údaji: 1 2 3 Σ 1 440 126 63 629 2 150 525 75 750 3 337 112 673 1122 Σ 2501 V našem případě k = 3, c11 = 440, c12 = 126, c13 = 63, c1 = 629, c21 = 150, c22 = 525, c23 = 75, c2 = 750, c31 = 337, c32 = 112, c33 = 673, c3 = 1122. 1002,0 629 63 pˆ,2003,0 629 126 pˆ,6995,0 629 440 pˆ 131211 ====== 1,0 750 75 pˆ,7,0 750 525 pˆ,2,0 750 150 pˆ 132221 ====== 5998,0 1122 673 pˆ,0998,0 1122 112 pˆ,3004,0 1122 337 pˆ 333231 ======           = 0,60,10,3 0,10,70,2 0,10,20,7 ˆP Interpretujeme např. 1. řádek odhadnuté matice přechodu: Pokud v jednom měsíci náhodně vybraná domácnost neodebírala žádný deník, tak v příštím měsíci s pravděpodobností 0,7 opět nebude mít žádné předplatné, s pravděpodobností 0,2 si předplatí regionální deník a s pravděpodobností 0,1 celostátní deník. Před výpočtem intervalů spolehlivosti ověříme splnění podmínek dobré aproximace ( ) 9pˆ1pˆc ijiji >− . Připomínáme, že c11 = 440, c12 = 126, c13 = 63, c1 = 629, c21 = 150, c22 = 525, c23 = 75, c2 = 750, c31 = 337, c32 = 112, c33 = 673, c3 = 1122. i = 1: 57629 629 63 1 629 63 ,101629 629 126 1 629 126 ,132629 629 440 1 629 440 =      −=      −=      − i = 2: 68750 750 75 1 750 75 ,158750 750 525 1 750 525 ,120750 750 150 1 750 150 =      −=      −=      − i = 3: 2691122 1122 673 1 1122 673 ,1091122 1122 112 1 1122 112 ,2361122 1122 337 1 1122 337 =      −=      −=      − Ve všech devíti případech jsou podmínky dobré aproximace splněny, můžeme tedy spočítat meze 95% Waldových asymptotických intervalů spolehlivosti pro pravděpodobnosti přechodu. Pro i, j = 1, 2, 3 a 05,0=α dosadíme do vzorce ( ) 21 i ijij ij u c pˆ1pˆ pˆ α− − ± . ( ) ( ) ( ),1236,0;0767,0p,2316,0;169,0p,7354,0;6637,0p 131211 ∈∈∈ ( ) ( ) ( ),1215,0;0785,0p,7328,0;6672,0p,2286,0;1714,0p 232221 ∈∈∈ ( ) ( ) ( )6285,0;5712,0p,1174,0;0823,0p,3272,0;2735,0p 333231 ∈∈∈ . Interpretujeme např. interval spolehlivosti pro p11: Pokud v jednom měsíci náhodně vybraná domácnost neodebírala žádný deník, tak v příštím měsíci můžeme se spolehlivostí 95 % zaručit, že s pravděpodobností 66,37 % až 73,54 % opět nebude odebírat žádný deník. Pro srovnání spočteme meze 95% skórových asymptotických intervalů spolehlivosti pro pravděpodobnosti přechodu. Pro i, j = 1, 2, 3 a 05,0=α dosadíme do vzorce       +       +−      +±+ α− α−α−α− i 2/1 2 2 ij i 2/1 2 2 i 2/1 2 ij i 2/1 2 ij c u 12 pˆ c u 14 c u pˆ2 c u pˆ2 . ( ) ( ) ( ),1261,0;0791,0p,2334,0;1709,0p,7341,0;6626,0p 131211 ∈∈∈ ( ) ( ) ( ),1236,0;0805,0p,7317,0;6663,0p,2301,0;1729,0p 232221 ∈∈∈ ( ) ( ) ( )6281,0;5709,0p,1188,0;0836,0p,3278,0;2743,0p 333231 ∈∈∈ 6.5. Testy o počátečních pravděpodobnostech Máme HMŘ { }0n Nn;X ∈ s konečným počtem stavů k a vektorem počátečních pravděpodobností p(0) = (p1(0), p2(0), …, pk(0)). Nechť ci je počet těch případů, kdy se řetězec v okamžiku n = 0 nachází ve stavu i a počet všech výskytů řetězce v jednotlivých stavech je ∑= = k 1i i cc . Na hladině významnosti α testujeme hypotézu H0: p1(0) = p1 ∧ … ∧ pk(0) = pk (p1 ≥ 0, …, pk ≥ 0 jsou předem dané pravděpodobnosti, jejich součet je 1) proti alternativě H1: aspoň jedna rovnost neplatí. a) Waldův test (známý také jako Pearsonův chí-kvadrát test dobré shody) Testová statistika: ( ) ( )1k cp cpc T 2 k 1i i 2 ii 0 −χ≈ − = ∑= , když H0 platí. Kritický obor: ( ) )∞−χ= α− ,1kW 1 2 ⇒∈ WT0 H0 zamítáme na asymptotické hladině významnosti α. b) Test poměrem věrohodnosti Testová statistika: ( )1k p cc lnc2T 2 k 1i i i i0 −χ≈= ∑= , když H0 platí. Kritický obor: ( ) )∞−χ= α− ,1kW 1 2 ⇒∈ WT0 H0 zamítáme na asymptotické hladině významnosti α. Upozornění: Musí být splněny podmínky dobré aproximace cpi ≥ 5 pro všechna i = 1, …, k. Není-li pro některé stavy tato podmínka splněna, slučujeme tyto stavy se stavy jim nejbližšími. 6.6. Příklad: Vraťme se k příkladu s předplácením denního tisku v daném regionu. Připomeňme, že z 2501 náhodně vybraných domácností jich k určitému datu 629 nepředplácelo žádný deník, 750 předplácelo regionální deník a zbytek (tj. 1122) celostátní deník. V celostátním měřítku k témuž datu žádné předplatné nemá 23 % domácností, jakýkoliv regionální deník si předplácí 29 % domácností a 48 % domácností si předplácí celostátní deník. Na hladině významnosti 0,05 testujte hypotézu, že vektor počátečních pravděpodobností v daném regionu se shoduje s vektorem počátečních pravděpodobností v celostátním měřítku. Řešení: Testujeme hypotézu H0: p1(0) = 0,23 ∧ p2(0) = 0,29 ∧ p3(0) = 0,48. Ověříme podmínky dobré aproximace: cpi ≥ 5 pro i = 1, 2, 3. i = 1: 2501.0,23 = 575,23, i = 2: 2501.0,29 = 725,29, i = 3: 2501.0,48 = 1200,48 Testová statistika Waldova testu: ( ) ( ) ( ) ( ) 9986,10 48,02501 48,025011122 29,02501 29,02501750 23,02501 23,02501629 cp cpc T 222k 1i i 2 ii 0 = ⋅ ⋅− + ⋅ ⋅− + ⋅ ⋅− = − = ∑= Kritický obor: ( ) ) )∞=∞χ= ;9915,5,2W 95,0 2 ⇒∈ WT0 H0 zamítáme na asymptotické hladině významnosti 0,05. Pro úplnost: p = 0,0041. Testová statistika testu poměrem věrohodnosti: 9551,10 48,0 25011122 ln1122 29,0 2501750 ln750 23,0 2501629 ln6292 p cc lnc2T k 1i i i i0 =      ⋅+⋅+⋅== ∑= Kritický obor: ( ) ) )∞=∞χ= ;9915,5,2W 95,0 2 ⇒∈ WT0 H0 zamítáme na asymptotické hladině významnosti 0,05. Pro úplnost: p = 0,0042. 6.7. Testy o pravděpodobnostech přechodu Nechť { }0n Nn;X ∈ je HMŘ s konečným počtem stavů k a maticí přechodu P = ( )k 1j,iijp = . Na hladině významnosti α testujeme hypotézu H0: pij = pij 0 pro k,,1j,i K=∀ ( pij 0 ≥ 0 jsou předem dané pravděpodobnosti, k,,1i,1p k 1j 0 ij K==∑= ) proti alternativě H1: existují i,j taková, že pij ≠ pij 0 . a) Waldův test (známý také jako Pearsonův chí-kvadrát test dobré shody) Testová statistika: ( ) ( )( )1kk p ppˆc T 2 k 1i k 1j 0 ij 20 ijiji 0 −χ≈ − = ∑∑= = , když H0 platí. Kritický obor: ( )( ) )∞−χ= α− ,1kkW 1 2 ⇒∈ WT0 H0 zamítáme na asymptotické hladině významnosti α. b) Test poměrem věrohodnosti Testová statistika: ( )( )1kk p pˆ lnc2T 2 k 1i k 1j 0 ij ij ij0 −χ≈= ∑∑= = , když H0 platí. Kritický obor: ( )( ) )∞−χ= α− ,1kkW 1 2 ⇒∈ WT0 H0 zamítáme na asymptotické hladině významnosti α. Upozornění: Musí být splněny podmínky dobré aproximace cipij ≥ 5 pro všechna i,j = 1, …, k. Není-li pro některé stavy tato podmínka splněna, slučujeme tyto stavy se stavy jim nejbližšími. Tvrzení o rozložení testové statistiky za platnosti H0 je pravdivé, pokud všechny pravděpodobnosti pij 0 jsou kladné. V případě, že některá pij 0 jsou nulová, pak ve vzorci pro T0 uvažujeme pouze takové dvojice indexů (i, j), pro které pij 0 > 0. Pak T0 má za platnosti H0 asymptoticky rozložení χ2 (k(k-1)-s), kde s je počet nulových pravděpodobností. 6.8. Příklad: V příkladu s předplácením denního tisku jsme na základě údajů zjištěných v daném regionu, tj. pomocí tabulky 1 2 3 Σ 1 440 126 63 629 2 150 525 75 750 3 337 112 673 1122 Σ 2501 odhadli matici přechodu:           = 0,60,10,3 0,10,70,2 0,10,20,7 ˆP . Je známo, že v celostátním měřítku má matice přechodu tvar           = 0,580,120,30 0,110,680,21 0,090,190,72 0 P . Na hladině významnosti 0,05 testujte hypotézu H0: P = P0 proti H1: P ≠ P0 . Řešení: Ad a) Waldův test Musíme ověřit splnění podmínek dobré aproximace. i = 1: c11 = 440, c12 = 126, c13 = 63, c1 = 629 c1p11 0 = 629.0,72 = 452,88, c1p12 0 = 629.0,19 = 119,51, c1p13 0 = 629.0,09 = 56,61 i = 2: c21 = 150, c22 = 525, c23 = 75, c2 = 750 c2p21 0 = 750.0,21 = 157,5, c2p22 0 = 750.0,68 = 510, c2p23 0 = 750.0,11 = 82,5 i = 3: c31 = 337, c32 = 112, c33 = 673, c3 = 1122 c3p31 0 = 1122.0,3 = 336,6, c3p32 0 = 1122.0,12 = 134,64, c3p33 0 = 1122.0,58 = 650,76 Podmínky dobré aproximace jsou splněny, můžeme vypočítat testovou statistiku. Pro výpočet testové statistiky potřebujeme výchozí tabulku četností přechodu mezi jednotlivými stavy a matici P0 : 1 2 3 Σ 1 440 126 63 629 2 150 525 75 750 3 337 112 673 1122 Σ 2501           = 0,580,120,30 0,110,680,21 0,090,190,72 0 P ( ) 4877,7 58,0 58,0 1122 673 68,0 12,0 1122 112 3,0 3,0 1122 337 1122 11,0 11,0 750 75 68,0 68,0 750 525 21,0 21,0 750 150 750 09,0 09,0 629 63 19,0 19,0 629 126 72,0 72,0 629 440 629 p ppˆc T 222 222 222 k 1i k 1j 0 ij 20 ijiji 0 =                   − +       − +       − + +                   − +       − +       − + +                   − +       − +       − = − = ∑∑= = Kritický obor: ( )( ) ) ( ) ) )∞=∞χ=∞−χ= α− ;5916,12,6,1kkW 95,0 2 1 2 Testová statistika nepatří do kritického oboru, nulovou hypotézu tedy nezamítáme na asymptotické hladině významnosti 0,05. Ad b) Test poměrem věrohodnosti Pro výpočet testové statistiky potřebujeme výchozí tabulku četností přechodu mezi jednotlivými stavy a matici P0 : 1 2 3 Σ 1 440 126 63 629 2 150 525 75 750 3 337 112 673 1122 Σ 2501           = 0,580,120,30 0,110,680,21 0,090,190,72 0 P 7073,7 58,0 1122 673 ln673 12,0 1122 112 ln112 3,0 1122 337 ln337 11,0 750 75 ln75 68,0 750 525 ln525 21,0 750 150 ln150 09,0 629 63 ln63 19,0 629 126 ln126 72,0 629 440 ln440 2 p pˆ lnc2T k 1i k 1j 0 ij ij ij0 =                   ⋅+⋅+⋅+ +⋅+⋅+⋅+⋅+⋅+⋅ = == ∑∑= = Kritický obor: ( )( ) ) ( ) ) )∞=∞χ=∞−χ= α− ;5916,12,6,1kkW 95,0 2 1 2 Testová statistika nepatří do kritického oboru, nulovou hypotézu tedy nezamítáme na asymptotické hladině významnosti 0,05. 6.9. Test homogenity dvou vektorů počátečních pravděpodobností Předpokládáme, že máme dva nezávislé homogenní markovské řetězce { }0n Nn;X ∈ a { }0n Nn;Y ∈ , které mají stejnou konečnou množinu stavů J = {1, 2, …, k}. Označme pX(0) vektor počátečních pravděpodobností 1. řetězce a pY(0) vektor počátečních pravděpodobností 2. řetězce. Na hladině významnosti α testujeme hypotézu H0: pX(0) = pY(0) proti alternativě H1: pX(0) ≠ pY(0). Přitom máme k dispozici celkové počty přechodů, které začínaly ve stavech 1, 2, …, k: 1 2 … k Σ 1. řetězec c1 c2 … ck c 2. řetězec d1 d2 … dk d Σ c1+d1 c2+d2 … ck+dk c+d Testová statistika: ( ) ( ) ( ) ( )∑=             + +       + + − + + +       + + − = k 1i ii 2 ii i ii 2 ii i 0 dc dcd dc dcd d dc dcc dc dcc c T se za platnosti H0 asymptoticky řídí rozložením χ2 (k-1). Kritický obor: ( ) )∞−χ= α− ,1kW 1 2 ⇒∈ WT0 H0 zamítáme na asymptotické hladině významnosti α. Upozornění: Musí být splněny podmínky dobré aproximace, tj. teoretické četnosti ( ) ( ) k,,1i, dc dcd , dc dcc iiii K= + + + + musí být aspoň v 80 % případů ≥ 5 a ve zbylých 20 % nesmí klesnout pod 2. 6.10. Příklad: Budeme se zabývat průzkumem předplácení tisku ve dvou různých regionech. V regionu č. 1 z 2501 náhodně vybraných domácností jich k určitému datu nepředplácelo žádný deník 629, regionální deník předplácelo 750 a celostátní deník předplácelo 1122. V regionu č. 2 z 2793 náhodně vybraných domácností jich k témuž dat 678 nepředplácelo žádný deník, 1322 předplácelo regionální deník a 1322 celostátní deník. Na hladině významnosti 0,05 testujte hypotézu, že vektory počátečních pravděpodobností v 1. a 2. regionu se shodují. Řešení: Zjištěná data zapíšeme do kontingenční tabulky. bez předplatného regionální deník celostátní deník Σ 1. region 629 (25,15 %) 750 (29,99 %) 1122 (44,86 %) 2501 2. region 678 (24,27 %) 793 (28,39 %) 1322 (47,35 %) 2793 Σ 1307 1543 2444 5294 Vypočteme teoretické četnosti. bez předplatného regionální deník celostátní deník Σ 1. region 46,617 5294 13072501 = ⋅ 95,728 5294 15432501 = ⋅ 6,1154 5294 24442501 = ⋅ 2501 2. region 55,689 5294 13072793 = ⋅ 05,814 5294 15432793 = ⋅ 4,1289 5294 24442793 = ⋅ 2793 Σ 1307 1543 2444 5294 Vidíme, že podmínky dobré aproximace jsou splněny. bez předplatného regionální deník celostátní deník Σ 1. region 629 750 1122 2501 2. region 678 793 1322 2793 Σ 1307 1543 2444 5294 bez předplatného regionální deník celostátní deník Σ 1. region 46,617 5294 13072501 = ⋅ 95,728 5294 15432501 = ⋅ 6,1154 5294 24442501 = ⋅ 2501 2. region 55,689 5294 13072793 = ⋅ 05,814 5294 15432793 = ⋅ 4,1289 5294 24442793 = ⋅ 2793 Σ 1307 1543 2444 5294 Dosadíme do vzorce pro testovou statistiku. ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 3062,3 4,1289 4,12891322 05,814 05,814793 55,689 55,689678 6,1154 6,11541122 95,728 95,728750 46,617 46,617629 dc dcd dc dcd d dc dcc dc dcc c T 222 222k 1i ii 2 ii i ii 2 ii i 0 = − + − + − + + − + − + − =             + +       + + − + + +       + + − = ∑= Kritický obor: ( ) ) ( ) ) )∞=∞χ=∞−χ= α− ;9915,5,2,1kW 95,0 2 1 2 Protože WT0 ∉ , hypotézu o shodě vektorů počátečních pravděpodobností nezamítáme na asymptotické hladině významnosti 0,05. 6.11. Test shody stochastických vektorů matice přechodu Máme homogenní markovský řetězec { }0n Nn;X ∈ s množinou stavů J = {1, 2, …, k} a maticí přechodu           =           = k 1 p p P M L LLL L kk1k k111 pp pp . Na hladině významnosti α testujeme hypotézu H0: p1 = … = pk proti alternativě H1: aspoň jedna dvojice vektorů se liší. Přitom máme k dispozici tabulku pozorovaných četností všech přechodů daného řetězce: 1 2 … k ∑ 1 c11 c12 … c1k c1 2 c21 c22 … c2k c2 … … … … … … k ck1 ck2 … ckk ck ∑ c Tuto tabulku přepíšeme do jiného tvaru, který nám umožní provést požadovaný test. stav setrvání ve stavu přechod jinam ∑ 1 c11 c1-c12-…-c1k c1 2 c22 c2-c21-…-c2k c2 M M M M k ckk ck-ck2-…-ck-1,k ck ∑ ∑= k 1i iic ∑= − k 1i iicc c Pro přehlednější zápis kontingenční tabulky (a následně testové statistiky) zavedeme následující označení: stav setrvání ve stavu přechod jinam ∑ 1 n11 n12 n1. 2 n21 n22 n2. M M M M k nk1 nk2 nk. ∑ n.1 n.2 n Testová statistika ∑∑= =       − = k 1i 2 1j j..i 2 j..i ij 0 n nn n nn n T se za platnosti H0 asymptoticky řídí rozložením χ2 (k-1). Kritický obor: ( ) )∞−χ= α− ,1kW 1 2 ⇒∈ WT0 H0 zamítáme na asymptotické hladině významnosti α. Upozornění: Musí být splněny podmínky dobré aproximace, tj. teoretické četnosti n nn j..i , i = 1, 2, …, k, j = 1, 2 musí být aspoň v 80 % případů ≥ 5 a ve zbylých 20 % nesmí klesnout pod 2. 6.12. Příklad: V příkladu 6.4. jsme získali údaje o četnostech přechodu domácností mezi jednotlivými stavy (1 – žádné předplatné, 2 – předplatné regionálního deníku, 3 – předplatné regionálního deníku) v měsíčním kroku: 1 2 3 Σ 1 440 126 63 629 2 150 525 75 750 3 337 112 673 1122 Σ 2501 Na hladině významnosti 0,05 testujte hypotézu, že všechny tři stochastické vektory v matici přechodu jsou shodné. Řešení: V příkladu 6.4. jsme vypočítali odhad matice přechodu           = 0,60,10,3 0,10,70,2 0,10,20,7 ˆP , tedy ( ) ( ) ( )6,01,03,0ˆ,1,07,02,0ˆ,1,02,07,0ˆ 32 === ppp1 . Na asymptotické hladině významnosti 0,05 testujeme H0: p1 = p2 = p3 proti alternativě H1: aspoň jedna dvojice stochastických vektorů se liší. Zjištěné údaje přepíšeme do kontingenční tabulky. stav setrvání ve stavu přechod jinam ∑ 1 440 189 629 2 525 225 750 3 673 449 1122 ∑ 1638 863 2501 Vypočteme teoretické četnosti. stav setrvání ve stavu přechod jinam ∑ 1 96,411 2501 1638629 = ⋅ 04,217 2501 863629 = ⋅ 629 2 2,491 2501 1638750 = ⋅ 8,258 2501 863750 = ⋅ 750 3 84,734 2501 16381122 = ⋅ 16,387 2501 8631122 = ⋅ 1122 ∑ 1638 863 2501 Podmínky dobré aproximace jsou splněny. Dosadíme do vzorce pro testovou statistiku: ( ) ( ) ( ) ( ) ( ) ( ) 3533,27 16,387 16,387449 84,734 84,734673 8,258 8,258225 2,491 2,491525 04,217 04,217189 96,411 96,411440 n nn n nn n T 22 2222k 1i 2 1j j..i 2 j..i ij 0 = − + − + + − + − + − + − =       − = ∑∑= = Kritický obor: ( ) ) ( ) ) )∞=∞χ=∞−χ= α− ;9915,5,2,1kW 95,0 2 1 2 Protože WT0 ∈ , hypotézu o shodě stochastických vektorů v matici přechodu zamítáme na asymptotické hladině významnosti 0,05. 6.13. Test shody dvou matic přechodu Máme dva nezávislé homogenní markovské řetězce { }0n Nn;X ∈ a { }0n Nn;Y ∈ , které mají stejnou konečnou množinu stavů J = {1, 2, …, k}. Označme PX matici přechodu 1. řetězce a PY matici přechodu 2. řetězce. Na hladině významnosti α testujeme hypotézu H0: PX = PY proti alternativě H1: PX ≠ PY. Přitom máme k dispozici tabulky četností přechodů 1. a 2. řetězce: 1. řetězec 1 2 … k ∑ 1 c11 c12 … c1k c1 2 c21 c22 … c2k c2 … … … … … … k ck1 ck2 … ckk ck ∑ c 2. řetězec 1 2 … k ∑ 1 d11 d12 … d1k d1 2 d21 d22 … d2k d2 … … … … … … k dk1 dk2 … dkk dk ∑ d Jednotlivé řádky matice přechodu 1. řetězce označíme pX1, …, pXk, 2. řetězce pak pY1, …, pYk. Test hypotézy o shodě matic přechodu převedeme na k testů shody stochastických vektorů, tj. H0j: pXj = pYj proti H1j: pXj ≠ pYj, j = 1, 2, …, k. Tabulky četností přechodů přepíšeme do k kontingenčních tabulek, tedy j-tá tabulka (j = 1, 2, …, k) bude mít tvar: 1 2 … k Σ 1. řetězec cj1 cj2 … cjk cj 2. řetězec dj1 dj2 … djk dj Σ cj1+dj1 cj2+dj2 … cjk+djk cj+dj Testová statistika pro test shody j-tého řádku matice PX a j-tého řádku matice PY je dána vztahem ( ) ( ) ( ) ( )∑=                 + +         + + − + + +         + + − = k 1i jj jijij 2 jj jijij ji jj jijij 2 jj jijij ji j0 dc dcd dc dcd d dc dcc dc dcc c T . Za platnosti nulové hypotézy H0j: pXj = pYj se tato statistika asymptoticky řídí rozložením χ2 (k-1). Kritický obor: ( ) )∞−χ= α− ,1kW 1 2 ⇒∈ WT j0 H0j zamítáme na asymptotické hladině významnosti α. Upozornění: Musí být splněny podmínky dobré aproximace, tj. teoretické četnosti ( ) ( ) k,,1j,i, dc dcd , dc dcc jj jijij jj jijij K= + + + + musí být aspoň v 80 % případů ≥ 5 a ve zbylých 20 % nesmí klesnout pod 2. 6.14. Příklad: Budeme se opět zabývat průzkumem předplácení tisku ve dvou různých regionech. V 1. regionu bylo náhodně vybráno 2501 domácností a ve 2. regionu 2793 domácností. Počty přechodů mezi stavy 1 (žádné předplatné), 2 (předplatné regionálního deníku) a 3 (předplatné celostátního deníku) máme uvedeny ve dvou tabulkách: 1. region 1 2 3 Σ 1 440 126 63 629 2 150 525 75 750 3 337 112 673 1122 Σ 2501 2. region 1 2 3 Σ 1 492 111 75 678 2 136 574 83 793 3 388 183 751 1322 Σ 2793 Na hladině významnosti 0,05 testujte hypotézu o shodě matic přechodu 1. a 2. řetězce. Řešení: Budeme testovat tři hypotézy o shodě prvních, druhých a třetích řádků matic přechodu. Podrobněji ukážeme test 1. hypotézy, tj. H01: pX1 = pY1 proti H11: pX1 ≠ pY1. Údaje z prvních dvou řádků vstupních tabulek přepíšeme do kontingenční tabulky: bez předplatného regionální deník celostátní deník Σ 1. region 440 126 63 629 2. region 492 111 75 678 Σ 932 237 138 1307 Pomocí tabulky četností přechodů ze stavu „bez předplatného“ sestavíme tabulku teoretických četností: bez předplatného regionální deník celostátní deník Σ 1. region 440 126 63 629 2. region 492 111 75 678 Σ 932 237 138 1307 bez předplatného regionální deník celostátní deník Σ 1. region 53,448 1307 932629 = ⋅ 06,114 1307 237629 = ⋅ 41,66 1307 138629 = ⋅ 629 2. region 47,483 1307 932678 = ⋅ 94,122 1307 237678 = ⋅ 59,71 1307 138678 = ⋅ 678 Σ 932 237 138 1307 Podmínky dobré aproximace jsou splněny. Vypočteme testovou statistiku: ( ) ( ) ( ) ( ) ( ) ( ) 0614,3 59,71 59,7175 94,122 94,122111 47,483 47,483492 41,66 41,6663 06,114 06,114126 53,448 53,448440 T 22 2222 01 = − + − + + − + − + − + − = Kritický obor: ( ) ) ( ) ) )∞=∞χ=∞−χ= α− ;9915,5,2,1kW 95,0 2 1 2 Protože WT01 ∉ , hypotézu o shodě 1. řádků matic přechodu nezamítáme na asymptotické hladině významnosti 0,05. Analogicky postupujeme při testování shody druhých a třetích řádků matic přechodu. Zjistíme, že v obou případech jsou podmínky dobré aproximace splněny. Vypočteme T02 = 2,0784 a T03 = 8,6394. Protože kritický obor je )∞= ;9915,5W , vidíme, že pouze ve 3. případ zamítáme na asymptotické hladině významnosti 0,05 hypotézu o shodě stochastických vektorů matic přechodu. S rizikem omylu nejvýše 5 % jsme tedy prokázali, že z hlediska změn předplatného se v 1. a 2. regionu liší domácnosti, které na počátku sledování odebíraly celostátní deník.