Parametrické úlohy o jednom náhodném výběru z normálního rozložení Motivace: K nejčastěji používaným statistickým metodám patří konstrukce intervalů spolehlivosti pro parametry normálního rozložení či testování hypotéz o těchto parametrech. Normální rozložení je charakterizováno dvěma parametry – střední hodnotou µ a rozptylem 2 σ . Budeme tedy řešit úlohy, které se týkají těchto dvou parametrů. K tomu slouží např. jednovýběrový z-test, t-test či test o rozptylu. Můžeme také mít k dispozici náhodný výběr z dvourozměrného rozložení s vektorem středních hodnot       µ µ 2 1 a naším úkolem bude posoudit rozdílnost středních hodnot 21,µµ . K řešení tohoto problému slouží párový t-test. Rozložení statistik odvozených z výběrového průměru a výběrového rozptylu Nechť X1, ..., Xn je náhodný výběr z rozložení N(µ, σ2 ). Pak platí a) M ~ N(µ, n 2 σ ), tedy U = n M σ µ− ~ N(0, 1). (Pivotová statistika U slouží k řešení úloh o µ, když σ2 známe.) b) K = 2 2 S)1n( σ − ~ χ2 (n-1). (Pivotová statistika K slouží k řešení úloh o σ2 , když µ neznáme.) c) 2 n 1i 2 i )X( σ µ−∑ = ~ χ2 (n). (Tato pivotová statistika slouží k řešení úloh o σ2 , když µ známe.) d) T = n S M µ− ~ t(n-1). (Pivotová statistika T slouží k řešení úloh o µ, když σ2 neznáme.) Vysvětlení ad a) Výběrový průměr M je lineární kombinace náhodných veličin s normálním rozložením, má tedy normální rozložení s parametry E(M) = µ, D(M) = σ2 /n. Statistika U se získá standardizací M. ad b) Vhodnou úpravou výběrového rozptylu S2 , kde použijeme obrat Xi - M = (Xi - µ) – (M - µ), lze statistiku K= 2 2 S)1n( σ − vyjádřit jako součet kvadrátů n - 1 stochasticky nezávislých náhodných veličin se standardizovaným normálním rozložením. Tento součet se řídí rozložením χ2 (n-1). ad c) Statistika 2 n 1i 2 i )X( σ µ−∑ = je součet kvadrátů n stochasticky nezávislých náhodných veličin se standardizovaným normálním rozložením, řídí se tedy rozložením χ2 (n). ad d) U ~ N(0, 1), K ~ χ2 (n-1) jsou stochasticky nezávislé, protože M a S2 jsou stochasticky nezávislé, tudíž statistika n S M 1n K U T µ− = − = ~ t(n-1). Příklad: Hmotnost balíčku krystalového cukru baleného na automatické lince se řídí normálním rozložením se střední hodnotou 1002 g a směrodatnou odchylkou 8 g. Kontrolor náhodně vybírá 9 balíčků z jedné série a zjišťuje, zda jejich průměrná hmotnost je větší než 999 g. Pokud ne, podnik musí zaplatit pokutu 20 000 Kč. Jaká je pravděpodobnost, že podnik bude muset zaplatit pokutu? Řešení: X ~ N(1002, 64), M ~       9 64 ,1002N ( ) ( ) 12924,087076,01125,11 8 9 1 8 9 8 9 UP 9 64 1002999 9 64 1002M P999MP =−=Φ−=      Φ−=      − Φ=      −≤=             − ≤ − =≤ Pravděpodobnost, že podnik bude platit pokutu, je asi 12,9%. Řešení pomocí systému STATISTICA: Využijeme toho, že STATISTICA pomocí funkce INormal(x;mu;sigma) umí vypočítat hodnotu distribuční funkce normálního rozložení se střední hodnotou mu a směrodatnou odchylkou sigma. Tedy ( ) ( )999999MP Φ=≤ , kde Ф je distribuční funkce rozložení N(1002, 64/9). Otevřeme nový datový soubor o jedné proměnné a jednom případu. Dvakrát klikneme na název proměnné Prom1. Do Dlouhého jména této proměnné napíšeme = INormal(999;1002;8/3). Vzorce pro meze 100(1-α)% empirických intervalů spolehlivosti pro µ a σ2 a) Interval spolehlivosti pro µ, když σ2 známe (využití pivotové statistiky U) Oboustranný: (d, h) = (m - n σ u1-α/2, m + n σ u1-α/2) Levostranný: (d, ∞) = (m - n σ u1-α, ∞) Pravostranný: (-∞, h) = (-∞, m + n σ u1-α) b) Interval spolehlivosti pro µ, když σ2 neznáme (využití pivotové statistiky T) Oboustranný: (d, h) = (m - n s t1-α/2(n-1), m + n s t1-α/2(n-1)) Levostranný: (d, ∞) = (m - n s t1-α(n-1), ∞) Pravostranný: (-∞, h) = (-∞, m + n s t1-α(n-1)) c) Interval spolehlivosti pro σ2 , když µ neznáme (využití pivotové statistiky K) Oboustranný: (d, h) =         −χ − −χ − αα− )1n( s)1n( , )1n( s)1n( 2/ 2 2 2/1 2 2 Levostranný: (d, ∞) =         ∞ −χ − α− , )1n( s)1n( 1 2 2 Pravostranný: (-∞, h) =         −χ − ∞− α )1n( s)1n( , 2 2 d) Interval spolehlivosti pro σ2 , když µ známe (využití pivotové statistiky 2 n 1i 2 i )X( σ µ−∑= ) Oboustranný: (d, h) =             χ µ− χ µ− α = α− = ∑∑ )n( )x( , )n( )x( 2/ 2 n 1i 2 i 2/1 2 n 1i 2 i Levostranný: (d, ∞) =             ∞ χ µ− α− = ∑ , )n( )x( 1 2 n 1i 2 i Pravostranný: (-∞, h) =             χ µ− ∞− α = ∑ )n( )x( , 2 n 1i 2 i Příklad: 10 krát nezávisle na sobě byla změřena jistá konstanta µ. Výsledky měření byly: 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3 2,2. Tyto výsledky považujeme za číselné realizace náhodného výběru X1, ..., X10 z rozložení N(µ, σ2 ), kde parametry µ, σ2 neznáme. Najděte 95% empirický interval spolehlivosti jak pro µ, tak pro σ2 a to a) oboustranný, b) levostranný, c) pravostranný. Řešení: m = 2,06, s2 = 0,0404, s = 0,2011, α = 0,05, t0,975(9) = 2,2622, t0,95(9) = 1,8331, χ2 0,975(9) = 19,023, χ2 0,025(9) = 2,7, χ2 0,95(9) = 16,919, χ2 0,05(9) = 3,325 ad a) Oboustranný interval spolehlivosti pro střední hodnotu µ d = m - n s t1-α/2(n-1) = 2,06 - 10 2011,0 2,2622 = 1,92 h = m + n s t1-α/2(n-1) = 2,06 + 10 2011,0 2,2622 = 2,20 1,92 < µ < 2,20 s pravděpodobností aspoň 0,95. Oboustranný interval spolehlivosti pro rozptyl σ2 ( ) ( ) 0191,0 023,19 0404,09 1n s1n d 2/1 2 2 = ⋅ = −χ − = α− ( ) ( ) 1347,0 7,2 0404,09 1n s1n h 2/ 2 2 = ⋅ = −χ − = α 0,0191 < σ2 < 0,1347 s pravděpodobností aspoň 0,95. ad b) Levostranný interval spolehlivosti pro střední hodnotu µ d = m - n s t1-α(n-1) = 2,06 - 10 2011,0 1,8331 = 1,94 1,94 < µ s pravděpodobností aspoň 0,95. Levostranný interval spolehlivosti pro rozptyl σ2 ( ) ( ) 0215,0 919,16 0404,09 1n s1n d 1 2 2 = ⋅ = −χ − = α− σ2 > 0,0215 s pravděpodobností aspoň 0,95. ad c) Pravostranný interval spolehlivosti pro střední hodnotu µ h = m + n s t1-α(n-1) = 2,06 + 10 2011,0 1,8331 = 2,18 µ < 2,18 s pravděpodobností aspoň 0,95. Pravostranný interval spolehlivosti pro rozptyl σ2 ( ) ( ) 1094,0 325,3 0404,09 1n s1n h 2 2 = ⋅ = −χ − = α σ2 < 0,1094 s pravděpodobností aspoň 0,95. Řešení pomocí systému STATISTICA: Vytvoříme nový datový soubor o jedné proměnné X a 10 případech. Do proměnné X napíšeme dané hodnoty. Statistika – Základní statistiky a tabulky – Popisné statistiky – OK – Proměnné X – OK – Detailní výsledky – zaškrtneme Meze spolehl. prům. a Meze sp. směr. odch. (ostatní volby zrušíme) – pro oboustranný 95% interval spolehlivosti ponecháme implicitní hodnotu pro Interval 95,00, pro jednostranné intervaly změníme hodnotu na 90,00. Výsledky pro oboustranné 95% intervaly spolehlivosti pro střední hodnotu µ, pro směrodatnou odchylku σ a rozptyl σ2 : Proměnná Int. spolehl. -95,000% Int. spolehl. 95,000 Spolehlivost Sm.Odch. -95,000% Spolehlivost Sm.Odch. +95,000% NProm1 =v3 ^2 NProm2 =v4 ^2 X 1,916136 2,203864 0,138329 0,367145 0,019135 0,134795 Vidíme, že 1,92 < µ < 2,20 s pravděpodobností aspoň 0,95, 0,1383 < σ < 0,3671 s pravděpodobností aspoň 0,95. 0,0191 < σ2 < 0,1348 s pravděpodobností aspoň 0,95. Výsledky pro jednostranné 95% intervaly spolehlivosti pro střední hodnotu µ, pro směrodatnou odchylku σ a rozptyl σ2 : Proměnná Int. spolehl. -90,000% Int. spolehl. 90,000 Spolehlivost Sm.Odch. -90,000% Spolehlivost Sm.Odch. +90,000% NProm1 =v3^2 NProm2 =v4^2 X 1,943421 2,176579 0,146678 0,330862 0,021514 0,10947 Vidíme, že µ > 1,94 s pravděpodobností aspoň 0,95, µ < 2,20 s pravděpodobností aspoň 0,95, σ > 0,1467 s pravděpodobností aspoň 0,95, σ < 0,3309 s pravděpodobností aspoň 0,95, σ2 > 0,0215 s pravděpodobností aspoň 0,95, σ2 < 0,1095 s pravděpodobností aspoň 0,95, Jednotlivé typy testů pro parametry normálního rozložení a)Nechť X1, ..., Xn je náhodný výběr N(µ, σ2 ), kde σ2 známe. Nechť n ≥ 2 a c je konstanta. Test H0: µ = c proti H1: µ ≠ c se nazývá jednovýběrový z-test. b)Nechť X1, ..., Xn je náhodný výběr N(µ, σ2 ), kde σ2 neznáme. Nechť n ≥ 2 a c je konstanta. Test H0: µ = c proti H1: µ ≠ c se nazývá jednovýběrový t-test. c)Nechť X1, ..., Xn je náhodný výběr N(µ, σ2 ), kde µ neznáme. Nechť n ≥ 2 a c je konstanta. Test H0: σ2 = c proti H1: σ2 ≠ c se nazývá test o rozptylu. Provedení testů o parametrech µ, σ2 pomocí kritického oboru a) Provedení jednovýběrového z-testu Vypočteme realizaci testového kritéria n cm t0 σ − = . Stanovíme kritický obor W. Pokud t0 ∈ W, H0 zamítáme na hladině významnosti α a přijímáme H1. Oboustranný test: Testujeme H0: µ = c proti H1: µ ≠ c. Kritický obor má tvar: )( ∞∪−∞−= α−α− ,uu,W 2/12/1 . Levostranný test: Testujeme H0: µ = c proti H1: µ < c. Kritický obor má tvar: ( α−−∞−= 1u,W . Pravostranný test: Testujeme H0: µ = c proti H1: µ > c. Kritický obor má tvar: )∞= α− ,uW 1 . b) Provedení jednovýběrového t-testu Vypočteme realizaci testového kritéria n s cm t0 − = . Stanovíme kritický obor W. Pokud t0 ∈ W, H0 zamítáme na hladině významnosti α a přijímáme H1. Oboustranný test: Testujeme H0: µ = c proti H1: µ ≠ c. Kritický obor má tvar: ( ) ( ) )( ∞−∪−−∞−= α−α− ,1nt1nt,W 2/12/1 . Levostranný test: Testujeme H0: µ = c proti H1: µ < c. Kritický obor má tvar: ( )( 1nt,W 1 −−∞−= α− . Pravostranný test: Testujeme H0: µ = c proti H1: µ > c. Kritický obor má tvar: ( ) )∞−= α− ,1ntW 1 . c) Provedení testu o rozptylu Vypočteme realizaci testového kritéria ( ) c s1n t 2 0 − = . Stanovíme kritický obor W. Pokud t0 ∈ W, H0 zamítáme na hladině významnosti α a přijímáme H1. Oboustranný test: Testujeme H0: σ2 = c proti H1: σ2 ≠ c. Kritický obor má tvar:. ( ) ( ) )∞−χ∪−χ= α−α ,1n1n,0W 2/1 2 2/ 2 Levostranný test: Testujeme H0: σ2 = c proti H1: σ2 < c. Kritický obor má tvar: ( )1n,0W 2 −χ= α . Pravostranný test: Testujeme H0: σ2 = c proti H1: σ2 > c. Kritický obor má tvar: ( ) )∞−χ= α− ,1nW 1 2 . Příklad: Podle údajů na obalu čokolády by její čistá hmotnost měla být 125 g. Výrobce dostal několik stížností od kupujících, ve kterých tvrdili, že hmotnost čokolád je nižší než deklarovaných 125 g. Z tohoto důvodu oddělení kontroly náhodně vybralo 50 čokolád a zjistilo, že jejich průměrná hmotnost je 122 g a směrodatná odchylka 8,6 g. Za předpokladu, že hmotnost čokolád se řídí normálním rozložením, můžeme na hladině významnosti 0,01 považovat stížnosti kupujících za oprávněné? Řešení: X1, ..., X50 je náhodný výběr z N(µ, σ2 ). Testujeme hypotézu H0: µ = 125 proti levostranné alternativě H1: µ < 125. Protože neznáme rozptyl σ2 , použijeme jednovýběrový t-test. Realizace testové statistiky: 4667,2 50 6,8 125122 n s cm t0 −= − = − = . Kritický obor ( )( ( )( ( 4049,2,49t,1nt,W 99,01 −∞−=−∞−=−−∞−= α− . Jelikož testová statistika se realizuje v kritickém oboru, zamítáme nulovou hypotézu na hladině významnosti 0,01. Stížnosti kupujících tedy lze považovat za oprávněné. Výpočet pomocí systému STATISTICA: Statistiky – Základní statistiky a tabulky – Testy rozdílů: r, %, průměry – OK – vybereme Rozdíl mezi dvěma průměry (normální rozdělení) – zaškrtneme Výběrový průměr vs. Střední hodnota a zvolíme jednostr. – do políčka Pr1 napíšeme 122, do políčka SmOd1 napíšeme 8,6, do políčka N1 napíšeme 50, do políčka Pr2 napíšeme 125 - Výpočet. Dostaneme p-hodnotu 0,0086, tedy zamítáme nulovou hypotézu na hladině významnosti 0,01 Příklad Bylo prováděno sledování obsahu vitamínu C ve vzorcích mrkve, která byla zakoupena na biofarmě. Celkem bylo provedeno analytické stanovení obsahu vitamínu C ve 20 vzorcích mrkve a byly zjištěny následující koncentrace (v mg/kg): 41,1; 32,6; 28,9; 19,6; 23,6; 35,0; 36,7; 45,9; 49,6; 33,6; 17,8; 24,6; 29,6; 47,7; 41,6; 39,8; 15,6; 34,1; 44,0 a 55,8 Průměrný obsah vitamínu C v mrkvi, který je uváděn v literatuře, je 35 mg/kg. Liší se obsah vitamínu C stanoveného ve vzorcích mrkve z biofarmy od průměrné hodnoty uváděné v literatuře? Řešení: X1, ..., X20 je náhodný výběr z N(µ, σ2 ). Testujeme hypotézu H0: µ = 35 proti alternativě H1: µ ≠ 35. Jde o úlohu na jednovýběrový t-test. Průměr a směrodatná odchylka: m = 34,86, s = 11,0872 Realizace testové statistiky: 0565,0 20 0872,11 3586,34 n s cm t0 −= − = − = . Kritický obor je ( )( ( ) ) ( )( ( ) ) ( )∞∪−∞−= =∞∪−∞−=∞−∪−−∞−= α−α− ,093,2093,2, ,19t19t,,1nt1nt,W 975,0975,02/12/1 Testová statistika se nerealizuje v kritickém oboru, tedy hypotézu H0: µ = 35 nezamítáme na hladině významnosti 0,05. Výpočet pomocí systému STATISTICA: Otevřeme datový soubor mrkev.sta s jednou proměnnou X a 20 případy. V proměnné X jsou zapsány zjištěné hodnoty obsahu vitamínu C. Nejprve pomocí N-P grafu a Shapirova – Wilkova testu ověříme, zda data pocházejí z normálního rozložení. Grafy – 2D Grafy – Normální pravděpodobnostní grafy – Proměnná X – OK - odškrtneme Neurčovat průměrnou pozici svázaných pozorování – zaškrtneme Shapiro – Wilkův test - OK. Normální p-graf z X Tabulka1 1v*20c 10 15 20 25 30 35 40 45 50 55 60 Pozorovaný kvantil -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 Oček.normál.hodnoty X: SW-W = 0,9816; p = 0,9535 Body v N-P grafu jsou blízko ideální přímky. S-W test poskytl p-hodnotu 0,9535, tedy na hladině významnosti 0,05 nezamítáme hypotézu o normalitě. Provedení jednovýběrového t-testu: Statistiky – Základní statistiky/tabulky – t-test, samost. vzorek – OK – Proměnné X – OK. Do Referenční hodnoty napíšeme 35, na záložce Možnosti zaškrtneme Výpočet mezí spolehl. – Výpočet. Dostaneme tabulku: Test průměrů vůči referenční konstantě (hodnotě) (mrkev.sta) Proměnná Průměr Sm.odch. N Sm.chyba Int. spolehl. -95,000% Int. spolehl. +95,000% Referenční konstanta t SV p X: obsah vitaminu C v mrkvi 34,86000 11,08719 20 2,479170 29,67104 40,04896 35,00000 -0,056471 19 0,955557 Test pomocí intervalu spolehlivosti: S pravděpodobností 95 % se neznámá střední hodnota obsahu vitamínu C nachází v intervalu 29,67 mg/kg až 40,05 mg/kg. Protože referenční konstanta 35 mg/kg se nachází v tomto 95% intervalu spolehlivosti, hypotézu H0: µ = 35 nezamítáme na hladině významnosti 0,05. Test pomocí p-hodnoty: Protože p-hodnota je 0,9556, což je větší než hladina významnosti 0,05, hypotézu H0: µ = 35 nezamítáme na hladině významnosti 0,05. Náhodný výběr z dvourozměrného rozložení Nechť             n n 1 1 Y X ,, Y X K je náhodný výběr z dvourozměrného rozložení, přičemž n ≥ 2. Označíme µ = µ1 - µ2 a zavedeme rozdílový náhodný výběr Z1 = X1 - Y1, ... , Zn = Xn-Yn, o němž předpokládáme, že se řídí normálním rozložením. Vypočteme ∑ = = n 1i iZ n 1 M , ( )∑ = −= n 1i 2 i 2 MZ n 1 S . Vzorec pro meze 100(1-α)% empirického intervalu spolehlivosti pro střední hodnotu rozdílového náhodného výběru Oboustranný: (d, h) = (m - n s t1-α/2(n-1), m + n s t1-α/2(n-1)) Levostranný: (d, ∞) = (m - n s t1-α(n-1), ∞) Pravostranný: (-∞, h) = (-∞, m + n s t1-α(n-1)) Příklad: Dvěma rozdílnými laboratorními metodami se zjišťoval obsah chemické látky v roztoku (v procentech). Bylo vybráno 5 vzorků a proměřeno oběma metodami. Výsledky měření jsou obsaženy v tabulce: číslo vzorku 1 2 3 4 5 1. metoda 2,3 1,9 2,1 2,4 2,6 2. metoda 2,4 2,0 2,0 2,3 2,5 Za předpokladu, že data mají normální rozložení, sestrojte 90% empirický interval spolehlivosti pro rozdíl středních hodnot výsledků obou metod. Řešení: Přejdeme k rozdílovému náhodnému výběru, jehož realizace jsou: -0,1 -0,1 0,1 0,1 0,1. Vypočteme m = 0,02, s2 = 0,012, s = 0,109545. Předpokládáme, že tato data pocházejí z normálního rozložení N(µ, σ2 ). Vypočteme meze 90% oboustranného intervalu spolehlivosti pro µ při neznámém σ: ( ) ( ) 0844,01318,2 5 109545,0 02,04t 5 109545,0 02,01nt n s md 95,02/1 −=−=−=−−= α− ( ) ( ) 1244,01318,2 5 109545,0 02,04t 5 109545,0 02,01nt n s mh 95,02/1 =+=+=−+= α− -0,0844 < µ < 0,1244 s pravděpodobností aspoň 0,9. Výpočet pomocí systému STATISTICA: Vytvoříme nový datový soubor o 3 proměnných a 5 případech. Do 1. proměnné X napíšeme hodnoty pro 1. metodu, do 2. proměnné Y hodnoty pro 2. metodu a do 3. proměnné Z rozdíly mezi X a Y. Statistiky – Základní statistiky a tabulky – Popisné statistiky, OK - Proměnné Z, Detailní výsledky – zaškrtneme Meze spolehl. Prům. – Interval 90% - Výpočet. Dostaneme tabulku: Popisné statistiky (chemicka latka) Proměnná Int. spolehl. -90,000% Int. spolehl. 90,000 Z -0,084439 0,124439 Vidíme tedy, že -0,0844 < µ < 0,1244 s pravděpodobností aspoň 0,9. Párový t-test Nechť             n n 1 1 Y X ,, Y X K je náhodný výběr z dvourozměrného rozložení, přičemž 2n ≥ . Označíme 21 µ−µ=µ a zavedeme rozdílový náhodný výběr nnn111 YXZ,,YXZ −=−= K , jehož výběrový průměr je ∑ = = n 1i iZ n 1 M a výběrový rozptyl je ( )∑= − − = n 1i 2 i 2 MZ 1n 1 S . Předpokládáme, že tento náhodný výběr pochází z normálního rozložení. Test hypotézy o rozdílu středních hodnot 21 µ−µ se nazývá párový t-test a provádí se stejně jako jednovýběrový t-test aplikovaný na rozdílový náhodný výběr nnn111 YXZ,,YXZ −=−= K . Provedení párového t-testu Vypočteme realizaci testového kritéria n s cm t0 − = . Stanovíme kritický obor W. Pokud t0 ∈ W, H0 zamítáme na hladině významnosti α a přijímáme H1. Oboustranný test: Testujeme H0: µ = c proti H1: µ ≠ c. Kritický obor má tvar: ( ) ( ) )( ∞−∪−−∞−= α−α− ,1nt1nt,W 2/12/1 . Levostranný test: Testujeme H0: µ = c proti H1: µ < c. Kritický obor má tvar: ( )( 1nt,W 1 −−∞−= α− . Pravostranný test: Testujeme H0: µ = c proti H1: µ > c. Kritický obor má tvar: ( ) )∞−= α− ,1ntW 1 . Příklad: V následující tabulce jsou údaje o výnosnosti dosažené 12 náhodně vybranými firmami při investování do mezinárodního podnikání (veličina X) a do domácího podnikání (veličina Y): č.firmy 1 2 3 4 5 6 7 8 9 101112 X 101214121217 9 15 9 11 7 15 Y 11141511131610131117 9 19 (Výnosnost je vyjádřena v procentech a představuje podíl na zisku vložených investic za rok.) Za předpokladu, že data pocházejí z dvourozměrného rozložení a jejich rozdíl se řídí normálním rozložením, na hladině významnosti 0,1 testujte hypotézu, že neexistuje rozdíl mezi střední hodnotou výnosnosti investic do mezinárodního a domácího podnikání proti oboustranné alternativě. Testování proveďte a) pomocí intervalu spolehlivosti, b) pomocí kritického oboru. (Pro úsporu času máme uvedeny realizace výběrového průměru m = 3,1− a výběrového rozptylu s2 = 78,4 rozdílového náhodného výběru Zi = Xi – Yi, i = 1, …, 12.) Řešení: Testujeme H0: µ = 0 proti H1: µ ≠ 0 ad a) 90% interval spolehlivosti pro střední hodnotu µ při neznámém rozptylu σ2 má meze: ( ) 4677,27959,1 12 78,4 3,11nt n s md 95,0 −=−−=−−= ( ) 1989,07959,1 12 78,4 3,11nt n s mh 95,0 −=+−=−+= Protože číslo c = 0 neleží v intervalu (-2,4677; -0,1989), H0 zamítáme na hladině významnosti 0,1. ad b) Vypočítáme realizaci testové statistiky 11085,2 12 78,4 3,1 n s cm t0 −= − = − = Stanovíme kritický obor ( ) ( ) )( )( ∞∪−∞−=∞∪−∞−= ,7959,17959,1,,11t11t,W 95,095,0 Protože testová statistika se realizuje v kritickém oboru, nulovou hypotézu H0 zamítáme na hladině významnosti 0,1. Výpočet pomocí systému STATISTICA: Vytvoříme nový datový soubor o 2 proměnných a 12 případech. Do 1. proměnné X napíšeme hodnoty pro mezinárodní podnikání, do 2. proměnné hodnoty pro domácí podnikání. Statistiky – Základní statistiky a tabulky – t-test pro závislé vzorky, OK - Proměnné X, Y – OK – Výpočet. Dostaneme tabulku: t-test pro závislé vzorky (investovani) Označ. rozdíly jsou významné na hlad. p < ,05000 Proměnná Průměr Sm.odch. N Rozdíl Sm.odch. rozdílu t sv p X Y 11,91667 2,937480 13,25000 3,048845 12 -1,33333 2,188122 -2,11085 11 0,058490 Vypočtenou p-hodnotu 0,05849 porovnáme se zvolenou hladinou významnosti α = 0,1. Protože p ≤ α, zamítáme nulovou hypotézu na hladině významnosti 0,1. Parametrické úlohy o jednom náhodném výběru z alternativního rozložení Motivace: Předpokládáme, že provádíme n-krát nezávisle na sobě týž náhodný pokus a sledujeme výskyt nějakého jevu, jehož pravděpodobnost nastoupení v libovolném z těchto n pokusů je rovna neznámému parametru ϑ. Zavedeme náhodné veličiny n1 X,,X K , přičemž 1Xi = , když v i-tém pokusu nastal sledovaný jev a 0Xi = jinak, n,,1i K= . Tyto náhodné veličiny tvoří náhodný výběr z rozložení ( )ϑA . Pomocí tohoto náhodného výběru můžeme konstruovat interval spolehlivosti pro neznámý parametr ϑ nebo testovat hypotézu o tomto parametru. Přitom jako bodový odhad parametru ϑ slouží výběrový průměr ∑= = n 1i iX n 1 M , tj. relativní četnost výskytu sledovaného jevu. Opakování: Alternativní rozložení: Náhodná veličina X udává počet úspěchů v jednom pokusu, přičemž pravděpodobnost úspěchu je ϑ . Píšeme X ~ A(ϑ). ( )      =ϑ =ϑ− =π jinak0 1xpro 0xpro1 x neboli ( ) ( )    =ϑ−ϑ =π − jinak0 10,xpro1 x x1x Binomické rozložení: Náhodná veličina X udává počet úspěchů v posloupnosti n nezávislých opakovaných pokusů, přičemž pravděpodobnost úspěchu je v každém pokusu ϑ . Píšeme X ~ Bi(n,ϑ ). π(x) = ( )      =ϑ−ϑ      =π − jinak0 n,0,xpro)1( x n x xnx K E(X) = nϑ, D(X) = nϑ (1-ϑ) (Alternativní rozložení je speciálním případem binomického rozložení pro n = 1. Jsou-li X1, ..., Xn stochasticky nezávislé náhodné veličiny, Xi ~ A(ϑ ), i = 1, ..., n, pak X = ∑ = n 1i iX ~ Bi(n, ϑ ).) Centrální limitní věta: Jsou-li náhodné veličiny X1, …, Xn stochasticky nezávislé a všechny mají stejné rozložení se střední hodnotou µ a rozptylem σ2 , pak pro velká n (n ≥ 30) lze rozložení součtu ∑= n 1i iX aproximovat normálním rozložením N(nµ, nσ2 ). Zkráceně píšeme ( )2 n 1i i n,nNX σµ≈∑= . Pokud součet ∑= n 1i iX standardizujeme, tj. vytvoříme náhodnou veličinu n nX U n 1i i n σ µ− = ∑= , pak rozložení této náhodné veličiny lze aproximovat standardizovaným normálním rozložením. Zkráceně píšeme Un ≈ N(0,1). Asymptotické rozložení statistiky odvozené z výběrového průměru. Nechť X1, ..., Xn je náhodný výběr z rozložení A(ϑ ) a nechť je splněna podmínka ( ) 91n >ϑ−ϑ . Pak statistika ( ) n 1 M U ϑ−ϑ ϑ− = konverguje v distribuci k náhodné veličině se standardizovaným normálním rozložením. (Říkáme, že U má asymptoticky rozložení N(0,1) a píšeme U ≈ N(0,1).) Vysvětlení: Protože X1, ..., Xn je náhodný výběr z rozložení A(ϑ ), bude mít statistika Yn = ∑ = n 1i iX (výběrový úhrn) rozložení Bi(n, ϑ ). Yn má střední hodnotu E(Yn) = nϑ a rozptyl D(Yn) = ( )ϑ−ϑ 1n . Podle centrální limitní věty se standardizovaná statistika ( )ϑ−ϑ ϑ− = 1n nY U n asymptoticky řídí standardizovaným normálním rozložením N(0,1). Pokud čitatele i jmenovatele podělíme n, dostaneme vyjádření: ( ) ( ) ( ) ( )1,0N n 1 M n 1 X n 1 n 1n n Y U n 1i i 2 n ≈ ϑ−ϑ ϑ− = ϑ−ϑ ϑ− = ϑ−ϑ ϑ− = ∑= Vzorec pro meze 100(1-α)% asymptotického empirického intervalu spolehlivosti pro parametr ϑ . Meze 100(1-α)% asymptotického empirického intervalu spolehlivosti pro parametr ϑ jsou: 2/12/1 u n )m1(m mh,u n )m1(m md α−α− − += − −= . Vysvětlení: Pokud rozptyl ( ) ( ) n 1 MD ϑ−ϑ = nahradíme odhadem ( ) n M1M − , konvergence náhodné veličiny U k veličině s rozložením N(0,1) se neporuší. Tedy       − +<ϑ< − −= =             < − ϑ− <−≤α−Ξ∈ϑ∀ α−α− α−α− 2/12/1 2/12/1 u n )M1(M Mu n )M1(M MP u n )M1(M M uP1: Příklad: Náhodně bylo vybráno 100 osob a zjištěno, že 34 z nich nakupuje v internetových obchodech. Najděte 95% asymptotický interval spolehlivosti pro pravděpodobnost, že náhodně vybraná osoba nakupuje v internetových obchodech. Řešení: Zavedeme náhodné veličiny X1, ..., X100, přičemž Xi = 1, když i-tá osoba nakupuje v internetových obchodech a Xi = 0 jinak, i = 1, ..., 100. Tyto náhodné veličiny tvoří náhodný výběr z rozložení A(ϑ ). n = 100, m = 34/100, α = 0,05, u1-α/2 = u0,975 = 1,96. Ověření podmínky nϑ (1- ϑ ) > 9: parametr ϑ neznáme, musíme ho nahradit výběrovým průměrem. Pak 100.0,34.0,66 = 22,44 > 9. 4328,096,1 100 )34,01(34,0 34,0h,2472,096,1 100 )34,01(34,0 34,0d = − +== − −= . S pravděpodobností přibližně 0,95 tedy 0,2472 < ϑ < 0,4328. Znamená to, že s pravděpodobností přibližně 95% je v uvažované populaci nejméně 24,7% a nejvíce 43,3% osob, které nakupují v internetových obcho- dech. Výpočet pomocí systému STATISTICA: Statistiky – Analýza síly testu – Odhad intervalu – Jeden podíl, Z, Chí-kvadrát test – OK – Pozorovaný podíl p: 0,34, Velikost vzorku: 100, Spolehlivost: 0,95 – Vypočítat. Dostaneme tabulku: Hodnota Podíl vzorku p Velikost vz. ve skup. (N) Interval spolehlivosti Meze spolehlivosti: Pí (přesně): Dolní mez Horní mez Pí (přibližně): Dolní mez Horní mez Pí (původ.): Dolní mez Horní mez 0,3400 100,0000 0,9500 0,2482 0,4415 0,2501 0,4423 0,2472 0,4328 Zajímá nás výsledek uvedený v dolní části tabulky, tj. Pí (původ.). Zjišťujeme, že s pravděpodobností aspoň 0,95 se pravděpodobnost nákupu v internetových obchodech bude pohybovat v mezích 0,2472 až 0,4328. Testování hypotézy o parametru ϑ Nechť X1, ..., Xn je náhodný výběr z rozložení A(ϑ) a nechť je splněna podmínka ( ) 91n >ϑ−ϑ . Na asymptotické hladině významnosti α testujeme hypotézu H0: ϑ = c proti alternativě H1: ϑ ≠ c (resp. H1: ϑ < c resp. H1: ϑ > c). Testovým kritériem je statistika n )c1(c cM T0 − − = , která v případě platnosti nulové hypotézy má asymptoticky rozložení N(0,1). Kritický obor má tvar ( )∞∪−∞−= α−α− ,uu,W 2/12/1 (resp. ( α−−∞−= 1u,W resp. )∞= α− ,uW 1 ). (Testování hypotézy o parametru ϑ lze samozřejmě provést i pomocí 100(1-α)% asymptotického intervalu spolehlivosti nebo pomocí p-hodnoty.) Příklad: Podíl zmetků při výrobě určité součástky činí ϑ = 0,01. Bylo náhodně vybráno 1000 výrobků a zjistilo se, že mezi nimi je 16 zmetků. Na asymptotické hladině významnosti 0,05 testujte hypotézu H0: ϑ = 0,01 proti oboustranné alternativě H1: ϑ ≠ 0,01. Řešení: Zavedeme náhodné veličiny X1, ..., X1000, přičemž Xi = 1, když i-tý výrobek byl zmetek a Xi = 0 jinak, i = 1, ..., 1000. Tyto náhodné veličiny tvoří náhodný výběr z rozložení A(ϑ). Testujeme hypotézu H0: ϑ = 0,01 proti alternativě H1: ϑ ≠ 0,01. Známe: n = 1000, 016,0 1000 16 m == , c = 0,01, α = 0,05, u1-α/2 = u0,975 = 1,96 Ověření podmínky ( ) 91n >ϑ−ϑ : 1000.0,01.0,99 = 9,9 > 9. a) Testování pomocí kritického oboru: Realizace testového kritéria: ( ) 907,1 1000 99,001,0 01,0016,0 n c1c cm t0 = ⋅ − = −⋅ − = . Kritický obor: ( )=∞∪−∞−= ,uu,W 975,0975,0 ( )∞∪−∞− ,96,196,1, . Protože 1,907 ∉ W, H0 nezamítáme na asymptotické hladině významnosti 0,05. b) Testování pomocí intervalu spolehlivosti 0082,096,1 1000 984,0016,0 016,0u n )m1(m md 2/1 = ⋅ −= − −= −α 0238,096,1 1000 984,0016,0 016,0u n )m1(m mh 2/1 = ⋅ += − += −α Protože číslo c = 0,01 leží v intervalu 0,0082 až 0,0238, H0 nezamítáme na asymptotické hladině významnosti 0,05. c) Testování pomocí p-hodnoty Protože testujeme nulovou hypotézu proti oboustranné alternativě, vypočteme p-hodnotu podle vzorce: p = 2 min{ Φ(1,907), 1–Φ(1,907) } = 2 min { 0,97104, 1 – 0,97104 } = 0,05792. Protože vypočtená p-hodnota je větší než hladina významnosti 0,05, H0 nezamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA (pouze přibližný): Statistiky – Základní statistiky a tabulky – Testy rozdílů: r, %, průměry – OK – vybereme Rozdíl mezi dvěma poměry – do políčka P 1 napíšeme 0,016, do políčka N1 napíšeme 1000, do políčka P 2 napíšeme 0,01, do políčka N2 napíšeme 32767 (větší hodnotu systém neumožní) - Výpočet. Dostaneme p-hodnotu 0,0626, tedy nezamítáme nulovou hypotézu na hladině významnosti 0,05.