Kapitola 3.: Úlohy o jednom náhodném výběru z normálního roz- ložení Cíl kapitoly Po prostudování této kapitoly budete - znát vlastnosti pivotových statistik odvozených z náhodného výběru z normálního rozložení a budete je umět použít pro řešení konkrétních úloh - umět sestrojit intervaly spolehlivosti pro střední hodnotu a rozptyl normálního rozlo- žení - provádět testy hypotéz o střední hodnotě a rozptylu normálního rozložení Časová zátěž Na prostudování této kapitoly a splnění úkolů s ní spojených budete potřebovat asi 5 hodin studia. 3.1. Motivace Mnoho náhodných veličin, s nimiž se setkáváme ve výzkumu i praxi, se řídí normálním rozložením. Za jistých předpokladů obsažených v centrální limitní větě se dá rozložení jiných náhodných veličin aproximovat normálním rozložením. Proto je zapotřebí věnovat velkou pozornost právě náhodným výběrům z normálního rozložení. Normální rozložení je charakterizováno dvěma parametry – střední hodnotou μ a rozptylem σ2 . Budeme tedy řešit úlohy, které se týkají těchto parametrů. Jedná se především o jednovýběrový t-test či test o rozptylu. Seznámíme se rovněž se situací, kdy máme k dispozici jeden náhodný výběr z dvourozměrného rozložení a posuzujeme rozdílnost středních hodnot obou náhodných veličin. K řešení tohoto problému slouží párový t-test. 3.2. Rozložení statistik odvozených z výběrového průměru a výběrového rozptylu Nechť X1, ..., Xn je náhodný výběr z rozložení N(μ, σ2 ). Pak platí a) Výběrový průměr M a výběrový rozptyl S2 jsou stochasticky nezávislé. b) M ~ N(μ, n 2  ), tedy n M U    ~ N(0, 1). (Pivotová statistika U slouží k řešení úloh o μ, když σ2 známe.) c) 2 2 S)1n( K    ~ χ2 (n-1). (Pivotová statistika K slouží k řešení úloh o σ2 , když μ neznáme.) d) 2 n 1i 2 i )X(    ~ χ2 (n). (Tato pivotová statistika slouží k řešení úloh o σ2 , když μ známe.) e) n S M T   ~ t(n-1). (Pivotová statistika T slouží k řešení úloh o μ, když σ2 neznáme.) 3.2.1. Příklad Na výrobní lince jsou automaticky baleny balíčky rýže o deklarované hmotnosti 1000 g. Působením náhodných vlivů hmotnost balíčků kolísá. Lze ji považovat za náhodnou veličinu, která se řídí normálním rozložením se střední hodnotou 996 g a směrodatnou odchylkou 18 g. Jaká je pravděpodobnost, že náhodně vybraný balíček rýže neprojde výstupní kontrolou, jestliže je povolená tolerance 30 g od deklarované hmotnosti 1000 g? Řešení: Použijeme pivotovou statistiku U z bodu (b). X ~ N(996, 182 ), 18 996X U   ~ N(0,1)   104,0925,0971,02)44,1()89,1(1 18 9961030 U 18 996970 P1)1030X970(P11030,970XP            Řešení pomocí systému STATISTICA: Využijeme toho, že STATISTICA pomocí funkce INormal(x;mu;sigma) umí vypočítat hodnotu distribuční funkce normálního rozložení se střední hodnotou mu a směrodatnou odchylkou sigma. Tedy           9701030197010301)1030X970(P11030,970XP  , kde Ф je distribuční funkce rozložení N(996,182 ). Otevřeme nový datový soubor o jedné proměnné a jednom případu. Dvakrát klikneme na název proměnné Prom1. Do Dlouhého jména této proměnné napíšeme = 1- INormal(1030;996;18) + INormal(970;996;18). V proměnné Prom1 se objeví hodnota 0,10376. 3.3. Intervaly spolehlivosti pro parametry μ, σ2 V kapitole 1 jsme se seznámili s pojmem intervalu spolehlivosti pro parametrickou funkci h( ). Nyní se budeme zabývat speciálními případy, kdy za parametrickou funkci h( ) považujeme střední hodnotu μ nebo rozptyl σ2 normálního rozložení. V příkladu 1.3.5. jsme si ukázali způsob, jak zkonstruovat interval spolehlivosti pro střední hodnotu μ, když rozptyl σ2 známe. Odvození intervalu spolehlivosti pro další tři situace (tj. pro μ, když σ2 neznáme, pro σ2 , když μ neznáme a konečně pro σ2 , když μ známe) provádět nebudeme, uvedeme jen přehled vzorců pro meze 100(1-α)% empirických intervalů spolehlivosti pro tyto parametry . 3.3.1. Přehled vzorců a) Interval spolehlivosti pro μ, když σ2 známe (využití pivotové statistiky n M U    ~ N(0, 1)) Oboustranný: (d, h) = (m - n  u1-α/2, m + n  u1-α/2) Levostranný: (d, ∞) = (m - n  u1-α, ∞) Pravostranný: (-∞, h) = (-∞, m + n  u1-α) b) Interval spolehlivosti pro μ, když σ2 neznáme (využití pivotové statistiky n S M T   ~ t(n-1)) Oboustranný: (d, h) = (m - n s t1-α/2(n-1), m + n s t1-α/2(n-1)) Levostranný: (d, ∞) = (m - n s t1-α(n-1), ∞) Pravostranný: (-∞, h) = (-∞, m + n s t1-α(n-1)) c) Interval spolehlivosti pro σ2 , když μ neznáme (využití pivotové statistiky 2 2 S)1n( K    ~ χ2 (n-1)) Oboustranný: (d, h) =              )1n( s)1n( , )1n( s)1n( 2/ 2 2 2/1 2 2 Levostranný: (d, ∞) =             , )1n( s)1n( 1 2 2 Pravostranný: (-∞, h) =             )1n( s)1n( , 2 2 d) Interval spolehlivosti pro σ2 , když μ známe (využití pivotové statistiky 2 n 1i 2 i )X(    ~ χ2 (n)) Oboustranný: (d, h) =                      )n( )x( , )n( )x( 2/ 2 n 1i 2 i 2/1 2 n 1i 2 i Levostranný: (d, ∞) =                   , )n( )x( 1 2 n 1i 2 i Pravostranný: (-∞, h) =                   )n( )x( , 2 n 1i 2 i 3.3.2. Příklad 10 krát nezávisle na sobě byla změřena jistá konstanta μ. Výsledky měření byly: 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3 2,2. Tyto výsledky považujeme za číselné realizace náhodného výběru X1, ..., X10 z rozložení N(μ, σ2 ), kde parametry μ, σ2 neznáme. Najděte 95% empirický interval spolehlivosti pro μ, a to a) oboustranný, b) levostranný, c) pravostranný. Řešení: Vypočteme realizaci výběrového průměru: m = 2,06, výběrového rozptylu: s2 = 0,0404 a výběrové směrodatné odchylky: s = 0,2011. Riziko α je 0,05. Jde o situaci popsanou v bodě (b), kde využíváme pivotovou statistiku T, která se řídí Studentovým rozložením t(9). V tabulkách najdeme kvantil t0,975(9) = 2,2622 pro oboustranný interval spolehlivosti a kvantil t0,95(9) = 1,8331 pro jednostranné intervaly spolehlivosti. ad a) d = m - n s t1-α/2(n-1) = 2,06 - 10 2011,0 2,2622 = 1,92 h = m + n s t1-α/2(n-1) = 2,06 + 10 2011,0 2,2622 = 2,20 1,92 < μ < 2,20 s pravděpodobností aspoň 0,95. ad b) d = m - n s t1-α(n-1) = 2,06 - 10 2011,0 1,8331 = 1,94 1,94 < μ s pravděpodobností aspoň 0,95. ad c) h = m + n s t1-α(n-1) = 2,06 + 10 2011,0 1,8331 = 2,18 μ < 2,18 s pravděpodobností aspoň 0,95. Řešení pomocí systému STATISTICA: Otevřeme nový datový soubor o jedné proměnné (nazveme ji Měření) a 10 případech. Do této proměnné zapíšeme výsledky měření. ad a) Meze 100(1-α)% empirického oboustranného intervalu spolehlivosti pro střední hodnotu při neznámém rozptylu vypočteme takto: Statistika – Základní statistiky/tabulky – Popisné statistiky – OK, Proměnné – Měření – OK. Na záložce Detaily vybereme Meze spolehl. prům. a ponecháme implicitně nastavenou hodnotu 95%. Po kliknutí na Souhrn dostaneme tabulku Popisné statistiky (Tabulka2) Proměnná Int. spolehl. -95,000% Int. spolehl. +95,000% Měření 1,916136 2,203864 Po zaokrouhlení na dvě desetinná místa dostaneme výsledek 1,92 < μ < 2,20 s pravděpodobností aspoň 0,95. ad b), c) U volby Meze spolehl. prům. změníme hodnotu na 90%. Dostaneme tabulku Popisné statistiky (Tabulka2) Proměnná Int. spolehl. -90,000% Int. spolehl. +90,000% Měření 1,943421 2,176579 Odtud získáme dolní mez 95% empirického levostranného intervalu spolehlivosti pro střední hodnotu: 1,94 < μ s pravděpodobností aspoň 0,95 a horní mez 95% empirického pravostranného intervalu spolehlivosti pro střední hodnotu: μ < 2,18 s pravděpodobností aspoň 0,95. 3.4. Testování hypotéz o parametrech μ, σ2 a) Nechť X1, ..., Xn je náhodný výběr N(μ, σ2 ), kde σ2 známe. Nechť n ≥ 2 a c je konstanta. Test H0: μ = c proti H1: μ  c se nazývá z-test. b) Nechť X1, ..., Xn je náhodný výběr N(μ, σ2 ), kde σ2 neznáme. Nechť n ≥ 2 a c je konstanta. Test H0: μ = c proti H1: μ  c se nazývá jednovýběrový t-test. c) Nechť X1, ..., Xn je náhodný výběr N(μ, σ2 ), kde μ neznáme. Nechť n ≥ 2 a c je konstanta. Test H0: σ2 = c proti H1: σ2  c se nazývá test o rozptylu. 3.4.1. Provedení testů o parametrech μ, σ2 pomocí kritického oboru V kapitole 1 byly uvedeny tři způsoby testování hypotéz – pomocí kritického oboru, pomocí intervalu spolehlivosti a pomocí p-hodnoty. V tomto odstavci si ukážeme, jak testovat hypotézy o střední hodnotě μ a rozptylu σ2 pomocí kritického oboru. a) Provedení z-testu Testujeme H0: μ = c proti H1: μ  c (resp. H1: μ < c resp. H1: μ > c). Vypočteme realizaci testové statistiky: n cm t0    . Stanovíme kritický obor: pro oboustranný test:    ,uu,W 2/12/1 , pro levostranný test:   1u,W , pro pravostranný test:   ,uW 1 . H0 zamítáme na hladině významnosti α, když Wt0  . b) Provedení jednovýběrového t-testu Testujeme H0: μ = c proti H1: μ  c (resp. H1: μ < c resp. H1: μ > c). Realizace testového kritéria: n s cm t0   . Kritický obor pro oboustranný test:        ,1nt1nt,W 2/12/1 , pro levostranný test:   1nt,W 1   pro pravostranný test:     ,1ntW 1 H0 zamítáme na hladině významnosti α, když Wt0  . c) Provedení testu o rozptylu Testujeme H0: σ2 = c proti H1: σ2  c (resp. H1: σ2 < c resp. H1: σ2 > c). Realizace testového kritéria   c s1n t 2 0   . Kritický obor pro oboustranný test:       ,1n1n,0W 2/1 2 2/ 2 , pro levostranný test:  1n,0W 2   , pro pravostranný test:     ,1nW 1 2 H0 zamítáme na hladině významnosti α, když Wt0  . Před provedením kteréhokoli z uvedených testů je zapotřebí ověřit normalitu dat pomocí diagnostických grafů a testů normality popsaných v kapitole 2. Zjistíme-li u jednovýběrového t-testu, že rozsah souboru je malý (n < 30) a porušení normality je výraznější, doporučuje se přejít k neparametrickému jednovýběrovému Wilcoxonovu testu (viz kapitola 7). Pro výběry větších rozsahů není mírné porušení normality na překážku použití uvedených testů. 3.4.2. Příklad Podle údajů na obalu čokolády by její čistá hmotnost měla být 125g. Výrobce dostal několik stížností od kupujících, ve kterých tvrdili, že hmotnost čokolád je nižší než deklarovaných 125g. Z tohoto důvodu oddělení kontroly náhodně vybralo 50 čokolád a zjistilo, že jejich průměrná hmotnost je 122 g a směrodatná odchylka 8,6 g. Za předpokladu, že hmotnost čokolád se řídí normálním rozložením, můžeme na hladině významnosti 0,01 považovat stížnosti kupujících za oprávněné? Řešení: X1, ..., X50 je náhodný výběr z N(μ, σ2 ). Testujeme hypotézu H0: μ = 125 proti levostranné alternativě H1: μ < 125. Protože neznáme rozptyl σ2 , použijeme jednovýběrový t-test. Realizace testového kritéria 4667,2 50 6,8 125122 n s cm t0      . Kritický obor:    4667,2,49t,W 99,0  Jelikož Wt0  , zamítáme nulovou hypotézu na hladině významnosti 0,01. Stížnosti kupujících tedy lze považovat za oprávněné (s rizikem omylu nejvýše 1%).. Řešení pomocí systému STATISTICA: Statistiky – Základní statistiky a tabulky – Testy rozdílů: r, %, průměry – OK – vybereme Rozdíl mezi dvěma průměry (normální rozdělení) – zaškrtneme Výběrový průměr vs. Střední hodnota a zvolíme Jednostr. – do políčka Pr1 napíšeme 122, do políčka SmOd1 napíšeme 8,6, do políčka N1 napíšeme 50, do políčka Pr2 napíšeme 125 - Výpočet. Dostaneme p-hodnotu 0,0086, tedy zamítáme nulovou hypotézu na hladině významnosti 0,01 3.5. Náhodný výběr z dvourozměrného rozložení Nechť             n n 1 1 Y X ,, Y X  je náhodný výběr z dvourozměrného rozložení s vektorem středních hodnot         2 1 , přičemž n ≥ 2. Označíme μ = μ1- μ2 a zavedeme rozdílový náhodný výběr Z1 = X1-Y1, ..., Zn = Xn-Yn. Předpokládáme, že tento rozdílový náhodný výběr pochází z normálního rozložení. Vypočteme    n 1i iZ n 1 M ,     n 1i 2 i 2 MZ n 1 S . 3.5.1. Interval spolehlivosti pro parametr μ Pro výpočet mezí 100(1-α)% empirického intervalu spolehlivosti pro střední hodnotu μ použijeme vzorec uvedený v 3.3.1. (b). 3.5.2. Párový t-test Testujeme H0: μ1 - μ2 = 0 (tj. μ = 0) proti H1: μ1 - μ2 ≠ 0 (tj μ ≠ 0). Přechodem k rozdílovému náhodnému výběru převedeme párový t-test na jednovýběrový t-test, jehož provedení je popsáno v 3.4.1. (b). Před provedením párového t-testu je zapotřebí testovat hypotézu o normalitě rozdílů dvourozměrných dat. Je-li rozsah výběru malý (n < 30) a porušení normality je výraznější, je zapotřebí místo párového testu použít neparametrický párový Wilcoxonův test (viz kapitola 7). Pro výběry větších rozsahů, které vykazují jen mírné porušení normality, můžeme použít párový t-test. 3.5.3. Příklad Na 10 automobilech stejného typu se testovaly dva druhy benzínu lišící se oktanovým číslem. U každého automobilu se při průměrné rychlosti 90 km/h měřil dojezd (tj. dráha, kterou ujede na dané množství benzínu) při použití každého z obou druhů benzínu. Výsledky: Číslo auta 1 2 3 4 5 6 7 8 9 10 benzín A 17,5 20,0 18,9 17,9 16,4 18,9 17,2 17,5 18,5 18,2 benzín B 17,8 20,8 19,5 18,3 16,6 19,5 17,5 17,9 19,1 18,6 Za předpokladu, že dojezd se řídí normálním rozložením, testujte na hladině významnosti 0,05 hypotézu, že rozdíl středních hodnot dojezdu při dvou druzích benzínu se neliší. Řešení: Přejdeme k rozdílovému náhodnému výběru. Označíme μ = μ1 - μ2. Testujeme hypotézu H0: μ = 0 proti H1: μ ≠ 0 na hladině významnosti 0,05. Vypočteme m = -0,46, s = 0,1838 a realizaci testového kritéria t0 = -7,9148. Stanovíme kritický obor        ,2622,22622,2,,9t9t,W 975,0975,0 . Protože Wt0  , zamítáme nulovou hypotézu na hladině významnosti 0,05. S rizikem omylu nejvýše 5% jsme tedy prokázali, že rozdíl středních hodnot dojezdu při dvou druzích benzínu se liší. Řešení pomocí systému STATISTICA: Otevřeme nový datový soubor se třemi proměnnými benzín A, benzín B a rozdíl a o deseti případech. Do proměnných benzin A, benzin B zapíšeme zjištěné hodnoty, do proměnné rozdil uložíme rozdíl hodnot benzin A – benzin B. Ověříme normalitu proměnné rozdíl: Statistika – Základní statistiky/tabulky – Tabulky četností – OK, Proměnné rozdíl – OK. Na záložce zvolíme Normalita a zaškrtneme Lilieforsův test a Shapiro – Wilksův W test – Testy normali- ty. Testy normality (Dva_druhy_benzinu.sta) Proměnná N max D Lilliefors p W p rozdil: =v1-v2 10 0,227963 p < ,15 0,9302390,450252 Ani jeden z těchto testů nezamítá na hladině významnosti 0,05 hypotézu o normalitě. Nyní provedeme párový t-test: Statistika – Základní statistiky/tabulky – t-test, závislé vzorky – OK, Proměnné – 1. seznam proměnných benzín A, 2. seznam proměnných benzín B – OK – t-testy, výpočty. Dostaneme tabulku t-test pro závislé vzorky (Dva_druhy_benzinu.sta) Označ. rozdíly jsou významné na hlad. p < ,05000 Proměnná Průměr Sm.odch. N Rozdíl Sm.odch. rozdílu t sv p Int. spolehl. -95,000% Int. spolehl. +95,000% benzin A benzin B 18,10000 1,028483 18,56000 1,20756910 -0,460000 0,183787 -7,91484 9 0,000024 -0,591474 -0,328526 Vidíme, že testová statistika se realizovala hodnotou -7,91484, počet stupňů volnosti = 9, odpovídající p-hodnota = 0,000024 ≤ 0,05, tedy nulovou hypotézu zamítáme na hladině významnosti 0,05. 3.6. Náhodný výběr z alternativního rozložení Předpokládáme, že provádíme n-krát nezávisle na sobě týž náhodný pokus a sledujeme výskyt nějakého jevu, jehož pravděpodobnost nastoupení v libovolném z těchto n pokusů je rovna neznámému parametru . Zavedeme náhodné veličiny n1 X,,X  , přičemž 1Xi  , když v i-tém pokusu nastal sledovaný jev a 0Xi  jinak, n,,1i  . Tyto náhodné veličiny tvoří náhodný výběr z rozložení  A . Pomocí tohoto náhodného výběru můžeme konstruovat interval spolehlivosti pro neznámý parametr  nebo testovat hypotézu o tomto parametru. Přitom jako bodový odhad parametru  slouží výběrový průměr   n 1i iX n 1 M , tj. relativní četnost výskytu sledovaného jevu. 3.6.1. Asymptotický interval spolehlivosti pro parametr  Nechť n1 X,,X  je náhodný výběr z rozložení  A a nechť je splněna podmínka   91n  (viz Zvára, str. 65). Pak statistika   n 1 M U    konverguje v distribuci k náhodné veličině se standardizovaným normálním rozložením. (Říkáme, že U má asymptoticky rozložení  1,0N a píšeme  1,0NU  .) Oboustranný 100(1-α)% asymptotický empirický interval spolehlivosti pro parametr  má meze:                    2/12/1 u n m1m m,u n m1m mh,d 3.6.2. Příklad Náhodně bylo vybráno 100 osob a zjištěno, že 34 z nich by v příštích parlamentních volbách volilo stranu X. Najděte 95% asymptotický interval spolehlivosti pro pravděpodobnost, že náhodně vybraná osoba z populace bude volit stranu X. Řešení: Zavedeme náhodné veličiny 1001 X,,X  , přičemž 1Xi  , když i-tá osoba volí stranu X a 0Xi  jinak, 100,,1i  . Tyto náhodné veličiny tvoří náhodný výběr z rozložení  A . Známe: Rozsah výběru 100n  , výběrový průměr (tj. relativní četnost osob volících stranu X) 100 34 m  , riziko 05,0 , kvantil 96,1uu 975,02/1  . Ověření podmínky   91n  : parametr  neznáme, musíme ho nahradit výběrovým průměrem. Pak 944,2266,034,0100  . Dosadíme do vzorce z odstavce 3.6.1. a dostaneme: 4328,096,1 100 )34,01(34,0 34,0h,2472,096,1 100 )34,01(34,0 34,0d      . S pravděpodobností přibližně 0,95 tedy můžeme očekávat, že v populaci je 24,7% až 43,3% osob, které by volily stranu X. Výpočet pomocí systému STATISTICA: a) Přesný způsob Otevřeme nový datový soubor se dvěma proměnnými a o jednom případu. První proměnnou nazveme d a do jejího Dlouhého jména napíšeme =0,34-sqrt(0,34*0,66/100)*VNormal(0,975;0;1) Druhou proměnnou nazveme h a do jejího Dlouhého jména napíšeme =0,34+sqrt(0,34*0,66/100)*VNormal(0,975;0;1) Dostaneme výsledek: 1 d 2 h 1 0,2471550,432845 Vidíme, že s pravděpodobností aspoň 0,95 se pravděpodobnost volby strany X bude pohybovat v mezích od 0,2471 do 0,4328. b) Přibližný způsob, použitelný pro dostatečně velký rozsah výběru Do nového datového souboru o jedné proměnné X a 100 případech uložíme 34 jedniček (indikují volbu strany X) a 66 nul. Statistika – Základní statistiky a tabulky – Popisné statistiky – OK – Proměnné X – OK – Detailní výsledky – zaškrtneme Meze spolehl. prům. – ponecháme implicitní hodnotu pro Interval 95,00 – Výpočet. Dostaneme tabulku: Proměnná N platných Průměr Int. spolehl. -95,000% Int. spolehl. 95,000 X 100 0,340000 0,245532 0,434468 Dospěli jsme k výsledku, že s pravděpodobností aspoň 0,95 se pravděpodobnost volby strany X bude pohybovat v mezích 0,2455 až 0,4345. Vidíme, že rozdíl mezi přesným a přibližným výsledkem je v tomto případě vskutku zanedbatelný. Takto dobré shody je dosaženo díky tomu, že náhodný výběr má dostatečně velký rozsah, n = 100. 3.6.3. Testování hypotézy o parametru  Nechť n1 X,,X  je náhodný výběr z rozložení  A a nechť je splněna podmínka   91n  . Na asymptotické hladině významnosti α testujeme hypotézu c:H0  proti alternativě c:H1  . Realizace testového kritéria: n )c1(c cm t0    . Kritický obor pro oboustranný test:    ,uu,W 2/12/1 , pro levostranný test:   1u,W , pro pravostranný test:   ,uW 1 . H0 zamítáme na asymptotické hladině významnosti α, když Wt0  . 3.6.4. Příklad Pravděpodobnost vyrobení zmetku při výrobě určité součástky činí  = 0,01. Bylo náhodně vybráno 1000 výrobků a zjistilo se, že mezi nimi je 16 zmetků. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že odchylka relativní četnosti zmetků od udané pravděpodobnosti je pouze náhodná. Řešení: Zavedeme náhodné veličiny 10001 X,,X  , přičemž 1Xi  , když i-tý výrobek byl zmetek a 0Xi  jinak, 1000,,1i  . Tyto náhodné veličiny tvoří náhodný výběr z rozložení  A . Testujeme hypotézu 01,0:H0  proti alternativě 01,0:H1  . Známe: Rozsah výběru 1000n  , výběrový průměr (tj. relativní četnost zmetků) 1000 16 m  , riziko 05,0 , kvantil 96,1uu 975,02/1  . Ověření podmínky   91n  : 99,999,001,01000  . Realizace testového kritéria:   907,1 1000 99,001,0 01,0016,0 n c1c cm t0        . Kritický obor:   ,uu,W 975,0975,0   ,96,196,1, . Protože 1,907  W, H0 nezamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA (pouze přibližný): STATISTICA má implementovaný způsob, jak testovat významnost rozdílu mezi dvěma poměry. Pro správnou funkčnost následujícího postupu je nutné zadat tabulku o jedné proměnné a jednom případu. V naší situaci je jedním poměrem relativní četnost zmetků (tj. 0,016) a druhým poměrem je deklarovaná pravděpodobnost vyrobení zmetku (tj. 0,01). Rozsah prvního výběru je 1000, rozsah druhého výběru je ovšem nekonečně velký. Nekonečno samozřejmě nelze do systému zadat, proto použijeme největší hodnotu, kterou STATISTICA umožní, což je 32767. Statistiky – Základní statistiky a tabulky – Testy rozdílů: r, %, průměry – OK – vybereme Rozdíl mezi dvěma poměry – do políčka P 1 napíšeme 0,016, do políčka N1 napíšeme 1000, do políčka P 2 napíšeme 0,01, do políčka N2 napíšeme 32767 - Výpočet. Dostaneme phodnotu 0,0626, tedy nezamítáme nulovou hypotézu na asymptotické hladině významnosti 0,05. Shrnutí V praxi se často setkáváme s náhodným výběrem z normálního rozložení. Toto rozložení je charakterizováno střední hodnotou μ a rozptylem σ2 . Při řešení úloh o těchto dvou parametrech používáme čtyři pivotové statistiky, které jsou odvozeny z výběrového průměru M a výběrového rozptylu S2 . Jsou zavedeny ve 3.2. Pro výpočet mezí 100(1-α)% empirických intervalů spolehlivosti pro μ či pro σ2 slouží vzorce uvedené ve 3.3.1. Meze lze počítat též pomocí systému STATISTICA, jak je uvedeno v příkladu 3.3.2. Testování hypotéz o střední hodnotě a rozptylu je popsáno ve 3.4. včetně způsobu, jak při těchto testech využít systém STATISTICA. Jedná se o jednovýběrový z-test, jednovýběrový t-test a test o rozptylu. V situaci, kdy máme k dispozici jeden náhodný výběr z dvourozměrného rozložení a posuzujeme rozdílnost středních hodnot obou náhodných veličin, použijeme párový t-test popsaný ve 3.5. Při ověřování předpokladu normality se opíráme o diagnostické grafy či o testy normality dat popsané ve 2. kapitole. Sledujeme-li výskyt nějakého jevu (úspěchu) v n opakovaných nezávislýsch pokusech, zajímá nás často intervalový odhad pravděpodobnosti úspěchu nebo testujeme tvrzení o pravděpodobnosti úspěchu. V takové situaci použijeme metody založené na náhodném výběru z alternativního rozložení a využijeme asymptotické normality relativní četnosti. Kontrolní otázky 1. Jaké pivotové statistiky odvozené z výběrového průměru M a výběrového rozptylu S2 používáme při řešení úloh o střední hodnotě μ a rozptylu σ2 normálního rozložení? 2. Jak vypadají meze 100(1-α)% empirického intervalu spolehlivosti pro neznámou střední hodnotu μ, když rozptyl σ2 není znám? 3. Jaké testy o parametrech normálního rozložení znáte? 4. V jaké situaci a za jakých podmínek použijete jednovýběrový t-test? 5. V jaké situaci a za jakých podmínek použijete párový t-test? 6. Jaká podmínka musí být splněna při intervalovém odhadu pravděpodobnosti výskytu nějakého jevu? Autokorekční test 1. Máme-li sestrojit interval spolehlivosti pro střední hodnotu normálního rozložení a neznáme rozptyl, použijeme pivotovou statistiku, která se řídí a) standardizovaným normálním rozložením, b) Pearsonovým chí-kvadrát rozložením, c) Studentovým rozložením. 2. Která z následujících tvrzení jsou pravdivá? a) 100(1-α)% empirický interval spolehlivosti pro neznámou směrodatnou odchylku normálního rozložení při neznámé střední hodnotě má meze                    )n( )x( , )n( )x( 2/ 2 n 1i 2 i 2/1 2 n 1i 2 i      . b) 100(1-α)% empirický interval spolehlivosti pro neznámou střední hodnotu normálního rozložení při známém rozptylu má meze         2/12/1 u n m,u n -m   . c) 100(1-α)% empirický interval spolehlivosti pro neznámý rozptyl normálního rozložení při známé střední hodnotě má meze              )1n( s)1n( , )1n( s)1n( 2/ 2 2 2/1 2 2 . 3. Jednovýběrový t-test slouží k testování hypotézy a) o střední hodnotě normálního rozložení při neznámém rozptylu, b) o směrodatné odchylce normálního rozložení při neznámé střední hodnotě, c) o střední hodnotě normálního rozložení při známém rozptylu. 4. Nechť je dán náhodný výběr rozsahu n z rozložení N(μ,σ2 ), kde rozptyl σ2 známe. Jak musíme změnit rozsah náhodného výběru, chceme-li, aby šířka 100(1-α)% empirického interval spolehlivosti pro neznámou střední hodnotu μ klesla na polovinu? a) Rozsah zvětšíme 2 x. b) Rozsah zvětšíme 4 x. c) Rozsah zmenšíme na polovinu. 5. Nechť je dán náhodný výběr rozsahu n z rozložení N(μ,σ2 ), kde parametry μ,σ2 neznáme. Dále je dána reálná konstanta c. Testujeme nulovou hypotézu H0: σ2 = c proti levostranné alternativě H1: σ2 < c. Kritický obor pro tento test má tvar a) W =   1n,0 1 2  b) W =   1n,0 2  c) W =    ,1n1 2  6. Chceme-li testovat hypotézu, že pravděpodobnost padnutí líce se neliší od 0,5, použijeme pivotovou statistiku, která se asymptoticky řídí normálním rozložením a) N(0,5; 1) b) N(0;5 0,52 ) c) N(0; 1) Správné odpovědi: 1c) 2b) 3a) 4b) 5b) 6c) Příklady 1. Lze předpokládat, že hmotnost pomerančů dodávaných do obchodní sítě se řídí normálním rozložením se střední hodnotou 170 g a směrodatnou odchylkou 12 g. Jaká je pravděpodobnost, že celková hmotnost devíti náhodně vybraných pomerančů balených do síťky překročí 1,5 kg? Výsledek: Hledaná pravděpodobnost je 0,797. 2. Počet bodů v testu inteligence je náhodná veličina, která se řídí rozložením N(100,225). Jaká je pravděpodobnost, že průměr v náhodně vybrané skupině 20 osob bude větší než 105 bodů? Výsledek: Hledaná pravděpodobnost je 0,06811. 3. Při provádění určitého pokusu bylo zapotřebí udržovat v laboratoři konstantní teplotu 26,5°C. Teplota byla v jednom pracovním týdnu 46x namátkově kontrolována v různých denních a nočních hodinách. Z výsledků měření byly vypočteny realizace výběrového průměru a výběrové směrodatné odchylky: m = 26,33°C, s = 0,748°C. Za předpokladu, že výsledky měření teploty se řídí rozložením N(μ,σ2 ), vypočtěte 95% empirický interval spolehlivosti a) pro střední hodnotu μ b) pro směrodatnou odchylku σ. Výsledek: ad a) Dosazením do vzorce 3.3.1. (b) dostaneme 26,11°C < μ < 26,55°C s pravděpodobností aspoň 0,95. ad b) Dosazením do vzorce 3.3.1. (d), kde meze odmocníme, dostaneme 0,62°C < σ < 0,94°C s pravděpodobností aspoň 0,95. 4. U 25 náhodně vybraných dvoulitrových lahví s nealkoholickým nápojem byl zjištěn přesný objem nápoje. Výběrový průměr činil m = 1,99 l a výběrová směrodatná odchylka s = 0,1 l. Předpokládejme, že objem nápoje v láhvi je náhodná veličina s normálním rozložením. a) Na hladině významnosti 0,05 ověřte tvrzení výrobce, že zákazník není znevýhodněn. b) Na hladině významnosti 0,05 ověřte tvrzení výrobce, že směrodatná odchylka je 0,08 l. Výsledek: ad a) Testujeme hypotézu H0: μ = 2 proti levostranné alternativě H1: μ < 2 pomocí jednovýběrového t-testu (viz 3.4.1. (b)). Jelikož hodnota testového kritéria -0,5 neleží v kritickém oboru  7109,1; , nezamítáme nulovou hypotézu na hladině významnosti 0,05. ad b) Testujeme hypotézu H0: σ = 0,08 proti oboustranné alternativě H1: σ ≠ 0,08 pomocí testu o rozptylu (viz 3.4.1. (c)). Jelikož hodnota testového kritéria 37,5 neleží v kritickém oboru   ;4,394,12;0 , nejsme oprávněni na hladině významnosti 0,05 zamítnout tvrzení vý- robce. 5. Bylo vybráno šest nových vozů téže značky a po určité době bylo zjištěno, o kolik mm se sjely jejich levé a pravé přední pneumatiky. Výsledky: (1,8; 1,5), (1,0; 1,1), (2,2; 2,0), (0,9; 1,1), (1,5; 1,4), (1,6; 1,4). Za předpokladu, že rozdíl uvedených dvojice tvoří náhodný výběr z normálního rozložení, testujte na hladině významnosti 0,05 hypotézu, že obě pneumatiky se sjíždějí stejně rychle. Výsledek: Vzhled N-P plotu není v rozporu s předpokladem o normálním rozložení rozdílového výběru. Testujeme nulovou hypotézu H0: μ = 0 proti oboustranné alternativě H1: μ ≠ 0 pomocí párového t-testu. Hodnota testového kritéria = 1,0512, počet stupňů volnosti = 5. Protože odpovídající p-hodnota = 0,3411 je větší než hladina významnosti 0,05, nelze na hladině významnosti 0,05 zamítnout nulovou hypotézu. Ke stejnému rozhodnutí dospějeme, pokud stanovíme kritický obor: W =     ;571,2571,2; . Testové kritérium se nerealizuje v kritickém oboru, tedy nelze na hladině významnosti 0,05 zamítnout nulovou hypotézu. 6. Uměle připravený vzorek minerálu obsahoval 10% křemene a byl 12 krát proměřen. Výsledky měření byly: 8,7 10,2 10,07 9,75 9,65 10,37 10,14 10,5 9,48 11,22 9,49 9,86. Na hladině významnosti 0,05 testujte hypotézu, že obsah křemene byl stanoven správně. Výsledek: K-S test ani S-W test nezamítají na hladině významnosti 0,05 normalitu dat. Testujeme nulovou hypotézu H0: μ = 10 proti oboustranné alternativě H1: μ ≠ 10. Úloha vede na jednovýběrový t-test. Realizace testového kritéria = -0,262, počet stupňů volnosti = 9. Protože odpovídající p-hodnota = 0,7981 je větší než hladina významnosti 0,05, nelze na hladině významnosti 0,05 zamítnout nulovou hypotézu. 7. Ve 100 hodech kostkou padla 17 krát šestka. a) Najděte 95 % asymptotický interval spolehlivosti pro pravděpodobnost padnutí šestky. b) Na asymptotické hladině významnosti 0,05 testujte hypotézu, že pravděpodobnost padnutí šestky je 6 1 . Výsledek: ad a) 244,0096,0  s pravděpodobností přibližně 0,95. ad b) Na asymptotické hladině významnosti 0,05 nulovou hypotézu nezamítáme.