Ověřování normality Normální pravděpodobnostní graf (NP-plot) NP-plot umožňuje graficky posoudit, zda data pocházejí z normálního rozložení. Způsob konstrukce: na vodorovnou osu vynášíme uspořádané hodnoty x(1) ≤ ... ≤ x(n), na svislou osu vynášíme kvantily j uα , kde 1n3 1j3 j + − =α , přičemž j je pořadí j-té uspořádané hodnoty (jsou-li některé hodnoty stejné, pak za j bereme průměrné pořadí odpovídající takové skupince). Pocházejí-li data z normálního rozložení, pak všechny dvojice ( )j u,x )j( α budou ležet na přímce. Příklad na konstrukci N – P plotu: Desetkrát nezávisle na sobě byla změřena jistá konstanta. Výsledky měření: 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3 2,2. Pomocí normálního pravděpodobnostního grafu posuďte, zda se tato data řídí normálním rozložením. Výpočet pomocí systému STATISTICA: Otevřeme nový datový soubor o jedné proměnné a 10 případech. Zjištěné hodnoty zapíšeme do proměnné X. Grafy – 2D Grafy – Normální pravděpodobnostní grafy – Proměnná X – OK - odškrtneme Neurčovat průměrnou pozici svázaných pozorování - OK. Normální p-graf z x Tabulka21 1v*10c 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 Pozorovaná hodnota -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 Očekávanánormálníhodnota Protože dvojice ( )j u,x )j( α téměř leží na přímce, lze usoudit, že data pocházejí z normálního rozložení. Ověřování dvourozměrné normality pomocí dvourozměrného tečkového diagramu Máme dvourozměrný datový soubor (x1, y1), … , (xn, yn), který je realizací dvourozměrného náhodného výběru (X1, Y1), … , (Xn, Yn) z dvourozměrného rozložení. Na vodorovnou osu vyneseme hodnoty xj , na svislou hodnoty yk a do příslušných průsečíků nakreslíme tolik teček, jaká je absolutní četnost dvojice (xj, yk). Jedná-li se o náhodný výběr z dvourozměrného normálního rozložení, měly by tečky zhruba rovnoměrně vyplnit vnitřek elipsovitého obrazce. Vrstevnice hustoty dvourozměrného normálního rozložení jsou totiž elipsy – viz následující obrázek. Graf hustoty a vrstevnice dvourozměrného normálního rozložení s parametry µ1 = 0, µ2 = 0, σ1 2 = 1, σ2 2 = 1, ρ = -0,75: Do dvourozměrného tečkového diagramu můžeme ještě zakreslit 100(1-α)% elipsu konstantní hustoty pravděpodobnosti. Bude-li více než 100α % teček ležet vně této elipsy, svědčí to o porušení dvourozměrné normality. Bude-li mít hlavní osa elipsy kladnou resp. zápornou směrnici, znamená to, že mezi veličinami X a Y existuje určitý stupeň přímé resp. nepřímé lineární závislosti. Příklad: Máme k dispozici výsledky testů ze dvou předmětů zjištěné u osmi náhodně vybraných studentů určitého oboru. Číslo studenta 1 2 3 4 5 6 7 8 Počet bodů v 1. testu 80 50 36 58 42 60 56 68 Počet bodů ve 2. testu 65 60 35 39 48 44 48 61 Pomocí dvourozměrného tečkového diagramu se zakreslenou 95% elipsou konstantní hustoty pravděpodobnosti a histogramy pro počty bodů v 1. a 2. testu posuďte, zda tato data lze považovat za realizace náhodného výběru z dvourozměrného normálního rozložení. Řešení:Vytvoříme nový datový soubor se dvěma proměnnými Test1 a Test2 a osmi případy. Nyní nakreslíme dvourozměrný tečkový diagram: Grafy – 2D Grafy - Bodové grafy s histogramy. V typu proložení pro bodový graf vypneme lineární proložení. Proměnné – X – Test1, Y – Test2 – OK. Dostaneme dvourozměrný tečkový diagram pro vektorovou proměnnou (Test1, Test2) a histogramy pro Test1 a Test2. Nyní do diagramu zakreslíme 95% elipsu konstantní hustoty pravděpodobnosti: 2x klikneme na pozadí grafu a otevře se okno s názvem Vš. možnosti. Vybereme Graf: Elipsa, zvolíme Přidat novou elipsu. Po vykreslení elipsy změníme měřítko: na vodorovné ose bude minimum 0, maximum 120, na svislé ose bude minimum 0, maximum 100. (Stačí 2x kliknout na číselný popis osy a na záložce Měřítka vybrat manuální mód.) Bodový grafs histogramy ( 2v*8c) 0 2 4 0 20 40 60 80 100 120 Test1 0 20 40 60 80 100 Test2 0 2 4 Obrázek svědčí o tom, že předpoklad dvourozměrné normality je oprávněný a že mezi počty bodů z 1. a 2. testu bude existovat určitý stupeň přímé lineární závislosti, tzn., že u studentů, kteří měli vysoký resp. nízký počet bodů v 1. testu, lze očekávat vysoký resp. nízký počet bodů ve 2. testu. Shapirův – Wilkův test normality dat Testujeme hypotézu, která tvrdí, že náhodný výběr X1, ..., Xn pochází z rozložení N(µ, σ2 ). Testová statistika má tvar: ( ) ( ) ( )[ ] ( )∑ ∑ = = +− − − = m 1i 2 i m 1i 2 i1in n i MX XXa W ,kde m = n/2 pro n sudé a m = (n-1)/2 pro n liché. Koeficienty ai (n) jsou tabelovány. Na testovou statistiku W lze pohlížet jako na korelační koeficient mezi uspořádanými pozorováními a jim odpovídajícími kvantily standardizovaného normálního rozložení. V případě, že data vykazují perfektní shodu s normálním rozložením, bude mít W hodnotu 1. Hypotézu o normalitě tedy zamítneme na hladině významnosti α, když se na této hladině neprokáže korelace mezi daty a jim odpovídajícími kvantily rozložení N(0,1). Příklad na testování normality 10x nezávisle na sobě byla změřena jistá konstanta. Výsledky měření: 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3 2,2. S – W testem zjistěte na hladině významnosti 0,05, zda tato data pocházejí z normálního rozložení. Řešení pomocí systému STATISTICA: Otevřeme datový soubor mereni_konst.sta.V menu vybereme Statistika – Základní statistiky/tabulky – Tabulky četností – OK, Proměnné X – OK. Na záložce zvolíme Normalita a zaškrtneme Shapiro – Wilksův W test – Testy normality. Testy normality (mereni_konst) Proměnná N W p X 10 0,954072 0,716739 Testová statistika S-W testu je W = 0,95407, odpovídající p-hodnota je 0,7167, tedy hypotézu o normalitě nezamítáme na hladině významnosti 0,05. S-W test lze provést i při konstrukci N-P plotu, kde na záložce Základní zaškrtneme ShapiroWilkův test. Úlohy o jednom náhodném výběru z normálního rozložení Rozložení statistik odvozených z výběrového průměru a rozptylu Nechť X1, ..., Xn je náhodný výběr z rozložení N(µ, σ2 ). Pak platí a) M ~ N(µ, n 2 σ ), tedy n M U σ µ− = ~ N(0, 1). (Pivotová statistika U slouží k řešení úloh o µ, když σ2 známe.) b) 2 2 S)1n( K σ − = ~ χ2 (n-1). (Pivotová statistika K slouží k řešení úloh o σ2 , když µ neznáme.) c) 2 n 1i 2 i )X( σ µ−∑ = ~ χ2 (n). (Tato pivotová statistika slouží k řešení úloh o σ2 , když µ známe.) d) n S M T µ− = ~ t(n-1). (Pivotová statistika T slouží k řešení úloh o µ, když σ2 neznáme.) Příklad: Hmotnost balíčku krystalového cukru baleného na automatické lince se řídí normálním rozložením se střední hodnotou 1002 g a směrodatnou odchylkou 8 g. Kontrolor náhodně vybírá 9 balíčků z jedné série a zjišťuje, zda jejich průměrná hmotnost je alespoň 999 g. Pokud ne, podnik musí zaplatit pokutu 20 000 Kč. Jaká je pravděpodobnost, že podnik bude muset zaplatit pokutu? Řešení: X1, X2, …, X9 je náhodný výběr z rozložení N(1002, 64), M ~       9 64 ,1002N ( ) ( ) 12924,087076,01125,11 8 9 1 8 9 8 9 UP 9 64 1002999 9 64 1002M P999MP =−=Φ−=      Φ−=      − Φ=       −≤=             − ≤ − =≤ Pravděpodobnost, že podnik bude platit pokutu, je asi 12,9%. Řešení pomocí systému STATISTICA: Využijeme toho, že STATISTICA pomocí funkce INormal(x;mu;sigma) umí vypočítat hodnotu distribuční funkce normálního rozložení se střední hodnotou mu a směrodatnou odchylkou sigma. Tedy ( ) ( )999999MP Φ=≤ , kde Ф je distribuční funkce rozložení N(1002, 64/9). Otevřeme nový datový soubor o jedné proměnné a jednom případu. Dvakrát klikneme na název proměnné Prom1. Do Dlouhého jména této proměnné napíšeme = INormal(999;1002;8/3). Vzorce pro meze 100(1-α)% empirických intervalů spolehlivosti pro µ a σ2 a) Interval spolehlivosti pro µ, když σ2 známe (využití pivotové statistiky U) Oboustranný: (d, h) = (m - n σ u1-α/2, m + n σ u1-α/2) Levostranný: (d, ∞) = (m - n σ u1-α, ∞) Pravostranný: (-∞, h) = (-∞, m + n σ u1-α) b) Interval spolehlivosti pro µ, když σ2 neznáme (využití pivotové statistiky T) Oboustranný: (d, h) = (m - n s t1-α/2(n-1), m + n s t1-α/2(n-1)) Levostranný: (d, ∞) = (m - n s t1-α(n-1), ∞) Pravostranný: (-∞, h) = (-∞, m + n s t1-α(n-1)) c) Interval spolehlivosti pro σ2 , když µ neznáme (využití pivotové statistiky K) Oboustranný: (d, h) =       −χ − −χ − αα− )1n( s)1n( , )1n( s)1n( 2/ 2 2 2/1 2 2 Levostranný: (d, ∞) =         ∞ −χ − α− , )1n( s)1n( 1 2 2 Pravostranný: (-∞, h) =         −χ − ∞− α )1n( s)1n( , 2 2 d) Interval spolehlivosti pro σ2 , když µ známe (využití pivotové statistiky 2 n 1i 2 i )X( σ µ−∑= ) Oboustranný: (d, h) =               χ µ− χ µ− α = α− = ∑∑ )n( )x( , )n( )x( 2/ 2 n 1i 2 i 2/1 2 n 1i 2 i Levostranný: (d, ∞) =               ∞ χ µ− α− = ∑ , )n( )x( 1 2 n 1i 2 i Pravostranný: (-∞, h) =               χ µ− ∞− α = ∑ )n( )x( , 2 n 1i 2 i Příklad: 10 krát nezávisle na sobě byla změřena jistá konstanta µ. Výsledky měření byly: 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3 2,2. Tyto výsledky považujeme za číselné realizace náhodného výběru X1, ..., X10 z rozložení N(µ, σ2 ), kde parametry µ, σ2 neznáme. Najděte 95% empirický interval spolehlivosti jak pro µ, tak pro σ2 , a to a) oboustranný, b) levostranný, c) pravostranný. Řešení: m = 2,06, s2 = 0,0404, s = 0,2011, α = 0,05, t0,975(9) = 2,2622, t0,95(9) = 1,8331, χ2 0,975(9) = 19,023, χ2 0,025(9) = 2,7, χ2 0,95(9) = 16,919, χ2 0,05(9) = 3,325 ad a) Oboustranný interval spolehlivosti pro střední hodnotu µ d = m - n s t1-α/2(n-1) = 2,06 - 10 2011,0 2,2622 = 1,92 h = m + n s t1-α/2(n-1) = 2,06 + 10 2011,0 2,2622 = 2,20 1,92 < µ < 2,20 s pravděpodobností aspoň 0,95. Oboustranný interval spolehlivosti pro rozptyl σ2 ( ) ( ) 0191,0 023,19 0404,09 1n s1n d 2/1 2 2 = ⋅ = −χ − = α− ( ) ( ) 1347,0 7,2 0404,09 1n s1n h 2/ 2 2 = ⋅ = −χ − = α 0,0191 < σ2 < 0,1347 s pravděpodobností aspoň 0,95. ad b) Levostranný interval spolehlivosti pro střední hodnotu µ d = m - n s t1-α(n-1) = 2,06 - 10 2011,0 1,8331 = 1,94 1,94 < µ s pravděpodobností aspoň 0,95. Levostranný interval spolehlivosti pro rozptyl σ2 ( ) ( ) 0215,0 919,16 0404,09 1n s1n d 1 2 2 = ⋅ = −χ − = α− σ2 > 0,0215 s pravděpodobností aspoň 0,95. ad c) Pravostranný interval spolehlivosti pro střední hodnotu µ h = m + n s t1-α(n-1) = 2,06 + 10 2011,0 1,8331 = 2,18 µ < 2,18 s pravděpodobností aspoň 0,95. Pravostranný interval spolehlivosti pro rozptyl σ2 ( ) ( ) 1094,0 325,3 0404,09 1n s1n h 2 2 = ⋅ = −χ − = α σ2 < 0,1094 s pravděpodobností aspoň 0,95. Řešení pomocí systému STATISTICA: Vytvoříme nový datový soubor o jedné proměnné X a 10 případech. Do proměnné X napíšeme dané hodnoty. Statistika – Základní statistiky a tabulky – Popisné statistiky – OK – Proměnné X – OK – Detailní výsledky – zaškrtneme Meze spolehl. prům. a Meze sp. směr. odch. (ostatní volby zrušíme) – pro oboustranný 95% interval spolehlivosti ponecháme implicitní hodnotu pro Interval 95,00, pro jednostranné intervaly změníme hodnotu na 90,00. Výsledky pro oboustranné 95% intervaly spolehlivosti pro střední hodnotu µ, pro směrodatnou odchylku σ a rozptyl σ2 : Proměnná Int. spolehl. -95,000% Int. spolehl. 95,000 Spolehlivost Sm.Odch. -95,000% Spolehlivost Sm.Odch. +95,000% NProm1 =v3 ^2 NProm2 =v4 ^2 X 1,916136 2,203864 0,138329 0,367145 0,019135 0,134795 Vidíme, že 1,92 < µ < 2,20 s pravděpodobností aspoň 0,95, 0,1383 < σ < 0,3671 s pravděpodobností aspoň 0,95. 0,0191 < σ2 < 0,1348 s pravděpodobností aspoň 0,95. Výsledky pro jednostranné 95% intervaly spolehlivosti pro střední hodnotu µ, pro směrodatnou odchylku σ a rozptyl σ2 : Proměnná Int. spolehl. -90,000% Int. spolehl. 90,000 Spolehlivost Sm.Odch. -90,000% Spolehlivost Sm.Odch. +90,000% NProm1 =v3^2 NProm2 =v4^2 X 1,943421 2,176579 0,146678 0,330862 0,021514 0,10947 Vidíme, že µ > 1,94 s pravděpodobností aspoň 0,95, µ < 2,20 s pravděpodobností aspoň 0,95, σ > 0,1467 s pravděpodobností aspoň 0,95, σ < 0,3309 s pravděpodobností aspoň 0,95, σ2 > 0,0215 s pravděpodobností aspoň 0,95, σ2 < 0,1095 s pravděpodobností aspoň 0,95, Jednotlivé typy testů pro parametry normálního rozložení a)Nechť X1, ..., Xn je náhodný výběr N(µ, σ2 ), kde σ2 známe. Nechť n ≥ 2 a c je konstanta. Test H0: µ = c proti H1: µ ≠ c se nazývá jednovýběrový z-test. b)Nechť X1, ..., Xn je náhodný výběr N(µ, σ2 ), kde σ2 neznáme. Nechť n ≥ 2 a c je konstanta. Test H0: µ = c proti H1: µ ≠ c se nazývá jednovýběrový t-test. c)Nechť X1, ..., Xn je náhodný výběr N(µ, σ2 ), kde µ neznáme. Nechť n ≥ 2 a c je konstanta. Test H0: σ2 = c proti H1: σ2 ≠ c se nazývá test o rozptylu. Provedení testů o parametrech µ, σ2 pomocí kritického oboru a) Provedení jednovýběrového z-testu Vypočteme realizaci testového kritéria n cm t0 σ − = . Stanovíme kritický obor W. Pokud Wt0 ∈ , H0 zamítáme na hladině významnosti α a přijímáme H1. Oboustranný test: Testujeme H0: µ = c proti H1: µ ≠ c. Kritický obor má tvar: )( ∞∪−∞−= α−α− ,uu,W 2/12/1 . Levostranný test: Testujeme H0: µ = c proti H1: µ < c. Kritický obor má tvar: ( α−−∞−= 1u,W . Pravostranný test: Testujeme H0: µ = c proti H1: µ > c. Kritický obor má tvar: )∞= α− ,uW 1 . b) Provedení jednovýběrového t-testu Vypočteme realizaci testového kritéria n s cm t0 − = . Stanovíme kritický obor W. Pokud Wt0 ∈ , H0 zamítáme na hladině významnosti α a přijímáme H1. Oboustranný test: Testujeme H0: µ = c proti H1: µ ≠ c. Kritický obor má tvar: ( ) ( ) )( ∞−∪−−∞−= α−α− ,1nt1nt,W 2/12/1 . Levostranný test: Testujeme H0: µ = c proti H1: µ < c. Kritický obor má tvar: ( )( 1nt,W 1 −−∞−= α− . Pravostranný test: Testujeme H0: µ = c proti H1: µ > c. Kritický obor má tvar: ( ) )∞−= α− ,1ntW 1 . c) Provedení testu o rozptylu Vypočteme realizaci testového kritéria ( ) c s1n t 2 0 − = . Stanovíme kritický obor W. Pokud Wt0 ∈ , H0 zamítáme na hladině významnosti α a přijímáme H1. Oboustranný test: Testujeme H0: σ2 = c proti H1: σ2 ≠ c. Kritický obor má tvar:. ( ) ( ) )∞−χ∪−χ= α−α ,1n1n,0W 2/1 2 2/ 2 Levostranný test: Testujeme H0: σ2 = c proti H1: σ2 < c. Kritický obor má tvar: ( )1n,0W 2 −χ= α . Pravostranný test: Testujeme H0: σ2 = c proti H1: σ2 > c. Kritický obor má tvar: ( ) )∞−χ= α− ,1nW 1 2 . Příklad: Podle údajů na obalu čokolády by její čistá hmotnost měla být 125 g. Výrobce dostal několik stížností od kupujících, ve kterých tvrdili, že hmotnost čokolád je nižší než deklarovaných 125 g. Z tohoto důvodu oddělení kontroly náhodně vybralo 50 čokolád a zjistilo, že jejich průměrná hmotnost je 122 g a směrodatná odchylka 8,6 g. Za předpokladu, že hmotnost čokolád se řídí normálním rozložením, můžeme na hladině významnosti 0,01 považovat stížnosti kupujících za oprávněné? Řešení: X1, ..., X50 je náhodný výběr z N(µ, σ2 ). Testujeme hypotézu H0: µ = 125 proti levostranné alternativě H1: µ < 125. Protože neznáme rozptyl σ2 , použijeme jednovýběrový t-test. Testové kritérium 4667,2 50 6,8 125122 n s cm −= − = − . Kritický obor ( )( ( )( ( 4049,2,49t,1nt,W 99,01 −∞−=−∞−=−−∞−= α− . Jelikož testové kritérium se realizuje v kritickém oboru, zamítáme nulovou hypotézu na hladině významnosti 0,01. Stížnosti kupujících tedy lze považovat za oprávněné. Výpočet pomocí systému STATISTICA: Statistiky – Základní statistiky a tabulky – Testy rozdílů: r, %, průměry – OK – vybereme Rozdíl mezi dvěma průměry (normální rozdělení) – zaškrtneme Výběrový průměr vs. Střední hodnota a zvolíme jednostr. – do políčka Pr1 napíšeme 122, do políčka SmOd1 napíšeme 8,6, do políčka N1 napíšeme 50, do políčka Pr2 napíšeme 125 - Výpočet. Dostaneme phodnotu 0,0086, tedy zamítáme nulovou hypotézu na hladině významnosti 0,01 Náhodný výběr z dvourozměrného rozložení Nechť             n n 1 1 Y X ,, Y X K je náhodný výběr z dvourozměrného rozložení, přičemž n ≥ 2. Označíme µ = µ1 - µ2 a zavedeme rozdílový náhodný výběr Z1 = X1 - Y1, ... , Zn = Xn -Yn, o němž předpokládáme, že se řídí normálním rozložením. Vypočteme ∑= = n 1i i Z n 1 M , ( )∑= −= n 1i 2 i 2 MZ n 1 S . Vzorec pro meze 100(1-α)% empirického intervalu spolehlivosti pro střední hodnotu rozdílového náhodného výběru Oboustranný: (d, h) = (m - n s t1-α/2(n-1), m + n s t1-α/2(n-1)) Levostranný: (d, ∞) = (m - n s t1-α(n-1), ∞) Pravostranný: (-∞, h) = (-∞, m + n s t1-α(n-1)) Příklad: Dvěma rozdílnými laboratorními metodami se zjišťoval obsah chemické látky v roztoku (v procentech). Bylo vybráno 5 vzorků a proměřeno oběma metodami. Výsledky měření jsou obsaženy v tabulce: číslo vzorku 1 2 3 4 5 1. metoda 2,3 1,9 2,1 2,4 2,6 2. metoda 2,4 2,0 2,0 2,3 2,5 Za předpokladu, že data mají normální rozložení, sestrojte 90% empirický interval spolehlivosti pro rozdíl středních hodnot výsledků obou metod. Řešení: Přejdeme k rozdílovému náhodnému výběru, jehož realizace jsou: -0,1 -0,1 0,1 0,1 0,1. Vypočteme m = 0,02, s2 = 0,012, s = 0,109545. Předpokládáme, že tato data pocházejí z normálního rozložení N(µ, σ2 ). Vypočteme meze 90% oboustranného intervalu spolehlivosti pro µ při neznámém σ: ( ) ( ) 0844,01318,2 5 109545,0 02,04t 5 109545,0 02,01nt n s md 95,02/1 −=−=−=−−= α− ( ) ( ) 1244,01318,2 5 109545,0 02,04t 5 109545,0 02,01nt n s mh 95,02/1 =+=+=−+= α− -0,0844 < µ < 0,1244 s pravděpodobností aspoň 0,9. Výpočet pomocí systému STATISTICA: Vytvoříme nový datový soubor o 3 proměnných a 5 případech. Do 1. proměnné X napíšeme hodnoty pro 1. metodu, do 2. proměnné Y hodnoty pro 2. metodu a do 3. proměnné Z rozdíly mezi X a Y. Statistiky – Základní statistiky a tabulky – Popisné statistiky, OK - Proměnné Z, Detailní výsledky – zaškrtneme Meze spolehl. Prům. – Interval 90% - Výpočet. Dostaneme tabulku: Popisné statistiky (chemicka latka) Proměnná Int. spolehl. -90,000% Int. spolehl. 90,000 Z -0,084439 0,124439 Vidíme tedy, že -0,0844 < µ < 0,1244 s pravděpodobností aspoň 0,9. Párový t-test Nechť             n n 1 1 Y X ,, Y X K je náhodný výběr z rozložení N2                 σσ σσ       µ µ 2 212 12 2 1 2 1 , , přičemž n ≥ 2. Testujeme H0: µ1 - µ2 = c (tj. µ = c) proti H1: µ1 - µ2 ≠ c (tj. µ≠ c) nebo testujeme nulovou hypotézu proti jedné z jednostranných alternativ. Tento test se nazývá párový t-test. Provedení párového t-testu Vypočteme realizaci testového kritéria n s cm t0 − = . Stanovíme kritický obor W. Pokud Wt0 ∈ , H0 zamítáme na hladině významnosti α a přijímáme H1. Oboustranný test: Testujeme H0: µ = c proti H1: µ ≠ c. Kritický obor má tvar: ( ) ( ) )( ∞−∪−−∞−= α−α− ,1nt1nt,W 2/12/1 . Levostranný test: Testujeme H0: µ = c proti H1: µ < c. Kritický obor má tvar: ( )( 1nt,W 1 −−∞−= α− . Pravostranný test: Testujeme H0: µ = c proti H1: µ > c. Kritický obor má tvar: ( ) )∞−= α− ,1ntW 1 . Příklad: V následující tabulce jsou údaje o výnosnosti dosažené 12 náhodně vybranými firmami při investování do mezinárodního podnikání (veličina X) a do domácího podnikání (veličina Y): č.firmy 1 2 3 4 5 6 7 8 9 101112 X 101214121217 9 15 9 11 7 15 Y 11141511131610131117 9 19 (Výnosnost je vyjádřena v procentech a představuje podíl na zisku vložených investic za rok.) Za předpokladu, že data pocházejí z dvourozměrného rozložení a jejich rozdíl se řídí normálním rozložením, na hladině významnosti 0,1 testujte hypotézu, že neexistuje rozdíl mezi střední hodnotou výnosnosti investic do mezinárodního a domácího podnikání proti oboustranné alternativě. Testování proveďte a) pomocí intervalu spolehlivosti, b) pomocí kritického oboru. (Pro úsporu času známe realizace výběrového průměru m = 3,1− a výběrového rozptylu s2 = 78,4 rozdílového náhodného výběru Zi = Xi – Yi, i = 1, …, 12.) Řešení: Testujeme H0: µ = 0 proti H1: µ ≠ 0 ad a) 90% interval spolehlivosti pro střední hodnotu µ při neznámém rozptylu σ2 má meze: ( ) 4677,27959,1 12 78,4 3,11nt n s md 95,0 −=−−=−−= ( ) 1989,07959,1 12 78,4 3,11nt n s mh 95,0 −=+−=−+= Protože číslo c = 0 neleží v intervalu (-2,4677; -0,1989), H0 zamítáme na hladině významnosti 0,1. ad b) Vypočítáme realizaci testové statistiky 11085,2 12 78,4 3,1 n s cm t0 −= − = − = Stanovíme kritický obor ( ) ( ) )( )( ∞∪−∞−=∞∪−∞−= ,7959,17959,1,,11t11t,W 95,095,0 Protože testová statistika se realizuje v kritickém oboru, H0 zamítáme na hladině významnosti 0,1. Výpočet pomocí systému STATISTICA: Vytvoříme nový datový soubor o 2 proměnných a 12 případech. Do 1. proměnné X napíšeme hodnoty pro mezinárodní podnikání, do 2. proměnné hodnoty pro domácí podnikání. Statistiky – Základní statistiky a tabulky – t-test pro závislé vzorky, OK - Proměnné X, Y – OK – Výpočet. Dostaneme tabulku: t-test pro závislé vzorky (investovani) Označ. rozdíly jsou významné na hlad. p < ,05000 Proměnná Průměr Sm.odch. N Rozdíl Sm.odch. rozdílu t sv p X Y 11,91667 2,937480 13,25000 3,048845 12 -1,33333 2,188122 -2,11085 11 0,058490 Vypočtenou p-hodnotu 0,05849 porovnáme se zvolenou hladinou významnosti α = 0,1. Protože p ≤ α, zamítáme nulovou hypotézu na hladině významnosti 0,1. Úlohy o náhodném výběru z alternativního rozložení S náhodným výběrem rozsahu n z alternativního rozložení se setkáváme v situaci, kdy provádíme n opakovaných nezávislých pokusů a v každém z těchto pokusů sledujeme nastoupení úspěchu. Pravděpodobnost úspěchu je pro všechny pokusy stejná. Náhodná veličina Xi nabude hodnoty 1, pokud v i-tém pokusu nastal úspěch a hodnoty 0, pokud v i-tém pokusu úspěch nenastal, i = 1, 2, …, n. Realizací náhodného výběru X1, …, Xn je tedy posloupnost 0 a 1. Nechť X1, ..., Xn je náhodný výběr z rozložení A(ϑ) a nechť je splněna podmínka ( ) 91n >ϑ−ϑ . Výběrový průměr ∑= = n 1i i X n 1 M v tomto případě představuje relativní četnost úspěchu a je nestranným bodovým odhadem pravděpodobnosti úspěchu ϑ. Pak statistika ( ) n M1M M U − ϑ− = konverguje v distribuci k náhodné veličině se standardizovaným normálním rozložením. (Říkáme, že U má asymptoticky rozložení N(0,1) a píšeme U ≈ N(0,1).) Vzorec pro meze 100(1-α)% asymptotického empirického intervalu spolehlivosti pro parametr ϑ . Meze 100(1-α)% asymptotického empirického intervalu spolehlivosti pro parametr ϑ jsou: 2/12/1 u n )m1(m mh,u n )m1(m md α−α− − += − −= . Příklad: Náhodně bylo vybráno 100 osob a zjištěno, že 34 z nich nakupuje v internetových obchodech. Najděte 95% asymptotický interval spolehlivosti pro pravděpodobnost, že náhodně vybraná osoba nakupuje v internetových obchodech. Řešení: Zavedeme náhodné veličiny X1, ..., X100, přičemž Xi = 1, když i-tá osoba nakupuje v internetových obchodech a Xi = 0 jinak, i = 1, ..., 100. Tyto náhodné veličiny tvoří náhodný výběr z rozložení A(ϑ ). n = 100, m = 34/100, α = 0,05, u1-α/2 = u0,975 = 1,96. Ověření podmínky nϑ (1- ϑ) > 9: parametr ϑ neznáme, musíme ho nahradit výběrovým průměrem. Pak 100.0,34.0,66 = 22,44 > 9. 4328,096,1 100 )34,01(34,0 34,0h,2472,096,1 100 )34,01(34,0 34,0d = − +== − −= . S pravděpodobností přibližně 0,95 tedy 0,2472 < ϑ < 0,4328. Znamená to, že s pravděpodobností přibližně 95% je v uvažované populaci nejméně 24,7% a nejvíce 43,3% osob, které nakupují v internetových obchodech. Výpočet pomocí systému STATISTICA: Statistiky – Analýza síly testu – Odhad intervalu – Jeden podíl, Z, Chí-kvadrát test – OK – Pozorovaný podíl p: 0,34, Velik. Vzorku (N): 100, Spolehlivost: 0,95 – Vypočítat. Dostaneme tabulku, v níž nás zajímají výsledky označené Pí (původ.) Dolní mez 0,2472, Horní mez 0,4328. Testování hypotézy o parametru ϑ Nechť X1, ..., Xn je náhodný výběr z rozložení A(ϑ) a nechť je splněna podmínka ( ) 91n >ϑ−ϑ . Na asymptotické hladině významnosti α testujeme hypotézu H0: ϑ = c proti alternativě H1: ϑ ≠ c (resp. H1: ϑ < c resp. H1: ϑ > c). Testová statistika n )c1(c cM T0 − − = má v případě platnosti nulové hypotézy asymptoticky rozložení N(0,1). Kritický obor má tvar ( )∞∪−∞−= α−α− ,uu,W 2/12/1 (resp. ( α− −∞−= 1 u,W resp. )∞= α− ,uW 1 ). (Testování hypotézy o parametru ϑ lze samozřejmě provést i pomocí 100(1-α)% asymptotického intervalu spolehlivosti nebo pomocí p-hodnoty.) Příklad: Nový léčebný postup považujeme za úspěšný, pokud po jeho ukončení bude dosaženo zlepšení zdravotního stavu u alespoň 50% zúčastněných pacientů. Nová terapie byla vyzkoušena u 40 pacientů a ke zlepšení došlo u 24 osob, tj. u 60%. Je možné na asymptotické hladině významnosti 0,05 zamítnout hypotézu, že tato terapie nedosahuje úspěšnosti aspoň 50%? Řešení: Zavedeme náhodné veličiny X1, ..., X40, přičemž Xi = 1, když terapie u i-tého pacienta byl úspěšná a Xi = 0 jinak, i = 1, ..., 40. Tyto náhodné veličiny tvoří náhodný výběr z rozložení A(ϑ ). Testujeme hypotézu H0: ϑ ≤ 0,5 proti pravostranné alternativě H1: ϑ > 0,5. Známe: n = 40, 6,0 40 24 m == , c = 0,5, α = 0,05, u1-α = u0,95 = 1,645 Ověření podmínky ( ) 91n >ϑ−ϑ : 40.0,6.0,4 = 9,6 > 9. Realizace testového kritéria: ( ) 2649,1 40 5,05,0 5,06,0 n c1c cm t0 = ⋅ − = −⋅ − = . Kritický obor: ) ) )∞=∞=∞= α− ,645,1,u,uW 95,01 . Protože 1,2649 ∉ W, H0 nezamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA: Vypočtená p-hodnota jednostranného testu je 0,1031, tedy větší než asymptotická hladina významnosti 0,05. H0 nezamítáme na asymptotické hladině významnosti 0,05.