KAPITOLA 1 Úvod do matematické statistiky 1. NÁHODNÝ VÝBĚR A VÝBĚROVÉ CHARAKTERISTIKY V teorii pravděpodobnosti se předpokládá, že • je známý pravděpodobnostní prostor (Ω, A, P) • a že také známe rozdělení pravděpodobnosti náhodných veličin (resp. náhodných vektorů), které na tomto pravděpodobnostním prostoru uvažujeme. V matematické statistice však • máme k dispozici výsledky n nezávislých pozorování hodnot sledované náhodné veličiny X, které se ve statistice říká statistický znak, tj. máme x1 = X(ω1), . . . , xn = X(ωn), ω1, . . . , ωn ∈ Ω • a na základě těchto pozorování chceme učinit výpověď o rozdělení zkoumané náhodné veličiny. Definujme nejprve základní pojmy matematické statistiky. Základním pojmem matematické statistiky je pojem náhodného výběru. Definice 1.1. Náhodný vektor Xn = (X1, . . . , Xn)′ nazýváme náhodným výběrem z rozdělení pravděpodobnosti P, pokud (i) X1, . . . , Xn jsou nezávislé náhodné veličiny, (ii) X1, . . . , Xn mají stejné rozdělení pravděpodobnosti P. Číslo n nazýváme rozsah náhodného výběru. Libovolný bod xn = (x1, . . . , xn)′ , kde xi je realizace náhodné veličiny Xi (i = 1, . . . , n), budeme nazývat realizací náhodného výběru Xn = (X1, . . . , Xn)′ . Množinu všech hodnot, kterých může náhodný výběr nabýt, nazýváme výběrový prostor a budeme jej značit X . Základní dělení matematické statistiky je dané strukturou množiny všech možných rozdělení (označme ji P) náhodného výběru X. Velmi často vybíráme do množiny P jen rozdělení, která jsou stejného typu a která závisí pouze na nějakém (skalárním či vícerozměrném) parametru. Tento parametr se většinou značí θ a pravděpodobnostní míry z množiny P symbolem Pθ. Přitom předpokládáme, že parametr θ nabývá hodnot z nějaké množiny Θ. Definice 1.2. Množinu P pravděpodobnostních měr tvaru P = {Pθ; θ ∈ Θ} nazýváme parametrickou třídou rozdělení. Vektor θ nazýváme parametrem rozdělení pravděpodobnosti Pθ a množinu Θ možných hodnot parametru θ parametrický prostor. Nechť náhodný výběr Xn = (X1, . . . , Xn)′ je z rozdělení, které je dáno distribuční funkcí F(x, θ), θ ∈ Θ. Zkráceně budeme značit: {X1, . . . , Xn} ≃ F(x; θ). Nyní se zmiňme o tzv. rodinách rozdělení. 1 2 M4122 Pravděpodobnost a statistika II Definice 1.3. Nechť g(x) je nějaká hustota. Definujme rodiny rozdělení F1 = {f(x; θ) = g(x − θ); θ ∈ R} F2 = f(x; δ) = 1 δ g x δ ; δ > 0 F3 = f(x; θ, δ) = 1 δ g x−θ δ ; θ ∈ R, δ > 0 Pak říkáme, že F1 je rodina s parametrem polohy (location family), F2 je rodina s parametrem měřítka (scale family) a F3 je rodina s parametrem polohy a měřítka (location-scale family). Cílem teorie odhadu je na základě náhodného výběru odhadnout • rozdělení pravděpodobnosti, • popřípadě některé parametry tohoto rozdělení, • anebo nalézt odhad nějaké funkce parametrů θ, tj. γ(θ). Funkci γ(θ) nazýváme parametrickou funkcí. V matematické statistice se pro funkce, pomocí kterých budeme odhady provádět, nazývají statistikou. (Tyto funkce jsou navíc měřitelné). Definice 1.4. Libovolnou náhodnou veličinu Tn, která vznikne jako funkce náhodného výběru Xn = (X1, . . . , Xn)′ , budeme nazývat statistikou, tj. Tn = T(X1, . . . , Xn)′ . Příklad 1.5. Výběrová (empirická) distribuční funkce. Ukážeme, jakým způsobem lze například informaci obsaženou v náhodném výběru zužitkovat k popisu distribuční funkce. Mějme {X1, . . . , Xn} ≃ F(x; θ). Zaveďme tzv. indikátor množiny předpisem: IB(x) = 1 x ∈ B, 0 x /∈ B a pro x ∈ R indikátor jevu: Ii(x) = I(−∞,x>(Xi) = 1 Xi ≤ x, 0 Xi > x. pro i = 1, . . . , n. Potom I1(x), . . . , In(x) jsou nezávislé náhodné veličiny se stejným alternativním rozdělením pravděpodobností s parametrem π ∈ (0, 1), tj. {I1, . . ., In} ≃ A(π). Parametr π je roven pravděpodobnosti úspěchu, tj. P(Ii(x) = 1) = P(Xi ≤ x) = F(x; θ) ⇒ {I1, . . . , In} ≃ A(π = F(x; θ)) . Položme Y (x) = n i=1 Ii(x) Fn(x) = Y (x) n a postupně počítejme EFn(x) = E Y (x) n = 1 n Yn = 1 n n i=1 Ii(x) = 1 n · n F(x; θ) = F(x; θ) . Protože posloupnost {Fn(x)}∞ n=1 splňuje jak slabý, tak silný zákon velkých čísel, tak platí limn→∞ P(|Fn(x) − F(x; θ)| ≥ ε) = 0 P(limn→∞ Fn(x) = F(x; θ)) = 1 . RNDr. Marie Forbelská, PhD. 3 - 6 q q q q q q q q q q1 1 n Fn(x) x y Z uvedených vztahů je vidět, že pokud rozsah výběru bude dostatečně velký, lze distribuční funkci rozdělení, z něhož výběr pochází, dostatečně přesně aproximovat pomocí výběrové (empirické) distribuční funkce. Předpokládejme, že rozdělení, z něhož výběr pochází, má konečné druhé momenty se střední hodnotou µ a rozptylem σ2 , což budeme dále značit {X1, . . . , Xn} ≃ L(µ, σ2 ). Tedy pro každé i = 1, . . . , n platí EXi = µ DXi = σ2 . Potom tyto charakteristiky zřejmě závisí na parametru θ, neboť µ = ∞ −∞ xdF(x; θ) σ2 = ∞ −∞ (x − µ)2 dF(x; θ) , proto bude lépe značit je µ(θ) a σ2 (θ) místo µ a σ2 . Všimněme si dále, že pro každé x ∈ R je Fn(x) = Fn(X1, . . . , Xn) statistikou, tím také náhodnou veličinou (která nabývá hodnot mezi nulou a jedničkou) a tím i funkcí elementárního jevu ω ∈ Ω. Zvolíme-li ω libovolně, ale pevně a uvažujeme-li Fn(x) jako funkci proměnné x, pak lze snadno odvodit, že je tato funkce distribuční funkcí nějaké náhodné veličiny a lze zavést její střední hodnotu a rozptyl µn = ∞ −∞ xdFn(x; θ) = 1 n n i=1 Xi σ2 n = ∞ −∞ (x − µ)2 dF(x; θ) = 1 n n i=1(Xi − µn)2 . Zřejmě µn a σ2 n jsou borelovské funkce náhodného výběru a tedy statistiky a lze je považovat za odhady parametrických funkcí µ(θ) a σ2 (θ). Lze očekávat, že čím bude rozsah náhodného výběru větší, tím bude odhad uvedených parametrických funkcí kvalitnější. Poznámka 1.6. Odhadem parametrické funkce γ(θ) budeme rozumět nějakou statistiku Tn = T(X1, . . . , Xn)′ , která bude pro různé náhodné výběry kolísat kolem γ(θ). Statistika Tn = T(X1, . . . , Xn)′ závisí na parametru θ prostřednictvím distribuční funkce rozdělení, z něhož výběr pochází. Také rozdělení této statistiky, tj. náhodné veličiny, závisí na parametru θ. Proto střední hodnotu a rozptyl této statistiky budeme značit EθTn a DθTn . 4 M4122 Pravděpodobnost a statistika II Definice 1.7. Výběrové charakteristiky. Nechť Xn = (X1, . . . , Xn)′ je náhodný výběr rozsahu n z rozdělení s distribuční funkcí F(x; θ), θ ∈ Θ. Potom statistika ¯Xn = ¯X = 1 n n i=1 Xi se nazývá výběrový průměr S2 n = S2 = 1 n−1 n i=1(Xi − ¯X)2 výběrový rozptyl Sn = S = S2 n = √ S2 výběrová směrodatná odchylka Fn(x) = 1 n n i=1 I(−∞,x>(Xi) výběrová (empirická) distribuční funkce 2. NESTRANNOST, VÝCHÝLENÍ, KONZISTENCE ODHADŮ Za lepší odhad se považuje ten, jehož rozdělení je více koncentrované okolo neznámé hodnoty parametru. Tento přirozený požadavek koncentrace rozdělení Tn okolo skutečné hodnoty parametru vyjadřujeme pomocí střední hodnoty a rozptylu. Definice 2.1. Nechť Xn = (X1, . . . , Xn)′ je náhodný výběr z rozdělení pravděpodobnosti Pθ, kde θ je vektor neznámých parametrů. Nechť γ(θ) je daná parametrická funkce. Řekneme, že statistika Tn = T(X1, . . . , Xn)′ je nestranným (nevychýleným) odhadem parametrické pokud pro ∀θ ∈ Θ platí funkce γ(θ) EθTn = γ(θ). kladně vychýleným EθTn > γ(θ). záporně vychýleným EθTn < γ(θ). asymptoticky nestranným lim n→∞ EθTn = γ(θ). slabě konzistentním pokud pro ∀ε > 0 platí lim n→∞ Pθ(|Tn − γ(θ)| > ε) = 0 tj. Tn Pθ −→ γ(θ) silně konzistentním Pθ( lim n→∞ Tn = γ(θ)) = 1 tj. Tn s.j. −→ γ(θ) Poznámka 2.2. Vlastnost nestrannosti (tj. nevychýlenosti) ještě neposkytuje záruku dobrého odhadu, pouze vylučuje systematickou chybu. Poznámka 2.3. Používání konzistentních odhadů zaručuje - malou pravděpodobnost velké chyby v odhadu parametru, pokud rozsah výběru dostatečně roste; - volbou dostatečně velkého počtu pozorování lze učinit chybu odhadu libovolně malou. RNDr. Marie Forbelská, PhD. 5 Příklad 2.4. Geometrické rozdělení. Nechť náhodná veličina X má geometrické rozdělení, fX(x) = P(X = x) = (1 − θ)x θ 0 < θ < 1 x = 0, 1, . . . Veličina X udává počet neúspěchů při výběru z alternativního rozdělení před výskytem prvního úspěchu. Hledejme nestranný odhad pro θ. Je-li T(X) takový nestranný odhad, musí pro něj platit EθT(X) = ∞ x=0 T(x)(1 − θ)x θ = θ 0 < θ < 1, Odtud dostáváme ∞ x=0 T(x)(1 − θ)x = 1 0 < θ < 1, takže musí platit T(0) = 1 T(x) = 0 pro x ≥ 1. Tento odhad však není pokládán za vhodný, protože jen minimálně přihlíží k počtu neúspěchů před prvním úspěchem. Závisí jen na tom, zda úspěch nastal hned v prvním pokusu či nikoli. Může se také stát, že nestranný odhad neexistuje. Příklad 2.5. Parametrická funkce 1 θ v případě binomického rozdělení. Nechť náhodná veličina X má binomické rozdělení, tj. X ∼ Bi(n, θ) a fX(x) = P(X = x) = n x θx (1 − θ)n−x n ≥ 1, 0 < θ < 1 x = 0, 1, . . ., n. Sporem ukážeme, že neexistuje nestranný odhad pro parametrickou funkci γ(θ) = 1 θ . Nechť existuje taková funkce T, že pro každé θ ∈ (0, 1) platí EθT(X) = n x=0 T(x) n x θx (1 − θ)n−x = 1 θ 0 < θ < 1. Na levé straně je však polynom proměnné θ nejvýše stupně n, který samozřejmě nemůže být identicky roven 1 θ na intervalu (0, 1). Nyní vyšetříme případ, kdy odhadovanými parametry jsou střední hodnota a rozptyl rozdělení, ze kterého náhodný výběr pochází. Věta 2.6. Nechť Xn = (X1, . . . , Xn)′ je náhodný výběr z rozdělení, které má střední hodnotu µ(θ) pro ∀θ ∈ Θ. Pak výběrový průměr je nestranným odhadem střední hodnoty, tj. Eθ ¯X = µ(θ). Důkaz. Počítejme Eθ ¯X = Eθ 1 n n i=1 Xi = 1 n n i=1 EθXi = 1 n n i=1 µ(θ) = µ(θ). 6 M4122 Pravděpodobnost a statistika II Věta 2.7. Nechť Xn = (X1, . . . , Xn)′ je náhodný výběr z rozdělení, které má rozptyl σ2 (θ) pro ∀θ ∈ Θ. Pak výběrový rozptyl je nestranným odhadem rozptylu, tj. EθS2 = σ2 (θ). Důkaz. Nejprve upravujme n i=1 (Xi − ¯X)2 = n i=1 (Xi − µ(θ)) − ( ¯X − µ(θ)) 2 = n i=1 (Xi − µ(θ))2 − 2(Xi − µ(θ))( ¯X − µ(θ)) + ( ¯X − µ(θ))2 = n i=1 (Xi − µ(θ))2 − 2( ¯X − µ(θ)) n i=1 (Xi − µ(θ)) =n( ¯X−µ(θ)) +n( ¯X − µ(θ))2 = n i=1 (Xi − µ(θ))2 − n( ¯X − µ(θ))2 . Pak počítejme EθS2 = Eθ 1 n−1 n i=1 (Xi − ¯X)2 = 1 n−1 Eθ n i=1 (Xi − µ(θ))2 + n( ¯X − µ(θ))2 = 1 n−1 n i=1   Eθ(Xi − µ(θ))2 =DXi=σ2(θ) −n Eθ( ¯X − µ(θ))2 =Dθ ¯X    Proto vypočtěme Dθ ¯X = Dθ 1 n n i=1 Xi nez. = 1 n2 n i=1 DθXi = σ2 (θ) n a celkově dostaneme EθS2 = 1 n−1 nσ2 (θ) − σ2 (θ) = σ2 (θ). Následující věta udává postačující podmínku pro konzistentní odhad. Věta 2.8. Nechť statistika Tn = T(X1, . . . , Xn)′ je nestranný nebo asymptoticky nestranný odhad parametrické funkce γ(θ) a platí lim n→∞ DθTn = 0. Pak je statistika Tn = T(X1, . . ., Xn) konzistentním odhadem parametrické funkce γ(θ). Důkaz. Nechť ε > 0. Z Čebyševovy nerovnosti plyne: Pθ(|Tn − EθTn| ≥ ε 2 ) ≤ 4Dθ Tn ε2 . Protože buď EθTn = γ(θ) nebo limn→∞ EθTn = γ(θ), pak existuje přirozené číslo n0 tak, že pro ∀n > n0 platí: −ε 2 < γ(θ) − EθTn < ε 2 . RNDr. Marie Forbelská, PhD. 7 Dále platí Pθ(|Tn − γ(θ)| ≥ ε) = 1 − Pθ(|Tn − γ(θ)| < ε) = 1 − Pθ(|Tn − EθTn + ETn − γ(θ)| < ε) ≤ 1 − Pθ(|Tn − EθTn| + |ETn − γ(θ)| < ε) ≤ 1 − Pθ({|Tn − EθTn| < ε 2 } ∪ {|ETn − γ(θ)| < ε 2 }) ≤ 1 − Pθ(|Tn − EθTn| < ε 2 ) − P(|ETn − γ(θ)| < ε 2 ) ≤ 1 − Pθ(|Tn − EθTn| < ε 2 ) = Pθ(|Tn − EθTn| ≥ ε 2 ) ≤ 4Dθ Tn ε2 a tedy lim n→∞ Pθ(|Tn − γ(θ)| ≥ ε) ≤ 4 ε2 lim n→∞ DθTn = 0. Tedy Tn je slabě konzistentním odhadem γ(θ). Důsledek 2.9. Nechť Xn = (X1, . . . , Xn)′ je náhodný výběr z rozdělení, které má pro ∀θ ∈ Θ střední hodnotu µ(θ) a rozptyl σ2 (θ), tj. {X1, . . . , Xn} ≃ L(µ(θ), σ2 (θ)). Potom je-li µ(θ) < ∞, pak výběrový průměr ¯X je slabě konzistentním odhadem µ(θ). Důkaz. Vzhledem k tomu, že ¯X je nestranným odhadem µ(θ) a platí lim n→∞ Dθ ¯X = lim n→∞ Dθ 1 n n i=1 Xi nez. = lim n→∞ 1 n2 n i=1 DθXi = lim n→∞ σ2 (θ) n = 0 tj. rozptyl konverguje k nule, jsou splněny předpoklady předchozí věty a platí tak tvrzení. Důsledek 2.10. Nechť Xn = (X1, . . . , Xn)′ je náhodný výběr z rozdělení, které má pro ∀θ ∈ Θ střední hodnotu µ(θ) a rozptyl σ2 (θ), tj. {X1, . . . , Xn} ≃ L(µ(θ), σ2 (θ)). Potom je-li σ2 (θ) < ∞, pak výběrový rozptyl S2 je slabě konzistentním odhadem σ2 (θ). Důkaz. Víme již, že statistika S2 je nestranným odhadem σ2 (θ). Nyní budeme muset vypočítat rozptyl statistiky S2 , což není zdaleka tak triviální jako v případě výběrového průměru. Pro lepší přehlednost budeme psát místo µ(θ) a σ2 (θ) pouze µ a σ2 , u středních hodnot Eθ a rozptylu Dθ také vynecháme parametr θ. Položme Yi = (Xi − µ)2 S2 0 = 1 n n i=1 (Xi − µ)2 a počítejme S2 0 = 1 n n i=1 (Xi − µ)2 = 1 n n i=1 Yi = ¯Y . 8 M4122 Pravděpodobnost a statistika II Pak EYi = E(Xi − µ)2 = DXi = σ2 DYi = EY 2 i − (EYi)2 = E(Xi − µ)4 − σ4 = µ4 − σ4 ES2 0 = E ¯Y = 1 n n i=1 EYi = σ2 (1) DS2 0 = D 1 n n i=1 Yi nez. = 1 n2 n i=1 DYi = µ4 − σ4 n (2) Označme S2 ⋆ = 1 n n i=1 (Xi − ¯X)2 = n−1 n S2 , takže S2 = n n−1 S2 ⋆. (3) Pak S2 ⋆ = 1 n n i=1 (Xi − µ) − ( ¯X − µ) 2 = 1 n n i=1 (Xi − µ)2 − 2(Xi − µ)( ¯X − µ) + ( ¯X − µ)2 = 1 n n i=1 (Xi − µ)2 S2 0 −2 n ( ¯X − µ) n i=1 (Xi − µ) n ¯X−nµ +1 n n( ¯X − µ)2 = S2 0 − ( ¯X − µ)2 (4) Počítejme nejprve ES2 ⋆ viz(4) = E S2 0 − ( ¯X − µ)2 = ES2 0 − E( ¯X − µ)2 D ¯X = σ2 − σ2 n = n−1 n σ2 ES2 viz(3) = E n n−1 S2 ⋆ = n n−1 n−1 n σ2 = σ2 . Připomeňme, že rozptyl lze počítat pomocí vzorce DS2 ⋆ = ES4 ⋆ − ES2 ⋆ 2 , a protože ES2 ⋆ již známe, počítejme nyní ES4 ⋆ viz(4) = E[S2 0 − ( ¯X − µ)2 ]2 = E[S4 0 − 2S2 0( ¯X − µ)2 + ( ¯X − µ)4 ] = ES4 0 (a) −2 ES2 0( ¯X − µ)2 (b) + E( ¯X − µ)4 (c) . (5) Při výpočtu výrazu (a) ve vzorci (5) vyjdeme opět ze vztahu DS2 0 = ES4 0 − ES2 0 2 , takže ES4 0 = DS2 0 + ES2 0 2 = µ4−σ4 n + σ4 = µ4 n + n−1 n σ4 . RNDr. Marie Forbelská, PhD. 9 Dále počítejme výraz (b) ve vzorci (5) E[S2 0 ( ¯X − µ)2 ] = 1 n3 E    n i=1 (Xi − µ)2 n i=1 (Xi − µ) 2    = 1 n3 n i=1 n j=1 n k=1 E[(Xi − µ)2 (Xj − µ)(Xk − µ)] = 1 n3 n i=1 E[(Xi − µ)4 ] =µ4 + 1 n3 n i=1 n j=1,j=i n k=1,k=i,j E[(Xi − µ)2 (Xj − µ)(Xk − µ)] =0 viz1 + 1 n3 n i=1 n j=1,i=j E[(Xi − µ)2 (Xj − µ)2 ] =n(n−1)σ4 viz2 = nµ4 n3 + n(n−1)σ4 n3 = 1 n2 µ4 + (n − 1)σ4 . Ještě zbývá vypočítat poslední výraz (c) ve vzorci (5) E[( ¯X − µ)4 ] = E 1 n n i=1 (Xi − µ) 4 = 1 n4 n i=1 n j=1 n k=1 n h=1 E[(Xi − µ)(Xj − µ)(Xk − µ)(Xh − µ)] = 1 n4 n i=1 E[(Xi−µ)4 ] =µ4 + 1 n4 3 n s=1 n t=1,t=s E[(Xs − µ)2 (Xt − µ)2 ] =3n(n−1)σ4 viz3 = 1 n3 µ4+3(n−1)σ4 Nyní předchozí tří výpočty můžeme shrnout a dostaneme ES4 ⋆ = µ4 n + n−1 n σ4 − 2 µ4 n2 + n−1 n2 σ4 + µ4 n3 + 3n−1 n3 σ4 = (n−1)2 n3 µ4 + (n−1)(n2−2n+3) n3 σ4 1Díky nezávislosti náhodných veličin Xi, Xj a Xk máme: E[(Xi − µ)2 (Xj − µ)(Xk − µ)] = E(Xi − µ)2 E(Xj − µ)E(Xk − µ) = 0, protože E(Xi − µ)2k+1 = 0. 2 Opět z nezávislosti náhodných veličin Xi a Xj plyne: E[(Xi −µ)2 (Xj −µ)2 ] = E(Xi −µ)2 E(Xj −µ)2 = σ4 . 3Pouze v případech, kdy (1.) s = i = j ∧ t = k = h ∧ s = t, (2.) s = i = k ∧ t = j = h ∧ s = t a (3.) s = i = h ∧ t = j = k ∧ s = t dostaneme: E[(Xs − µ)2 (Xt − µ)2 ] = E(Xs − µ)2 E(Xt − µ)2 = σ4 , a to zase díky nezávislosti náhodných veličin Xt a Xs. 10 M4122 Pravděpodobnost a statistika II Nyní ještě spočtěme DS2 ⋆ = (n−1)2 n3 µ4 + (n−1)(n2−2n+3) n3 σ4 − n−1 n σ2 2 = (n−1)2 n3 µ4 − (n−1)(n−3) n3 σ4 a konečně DS2 = ( n n−1 )2 DS2 ⋆ = µ4 n − n−3 n(n−1) σ4 . Odtud snadno ukážeme, že rozptyl statistiky S2 konverguje k nule, čímž je tvrzení dokázáno lim n→∞ DS2 = lim n→∞ µ4 n − n−3 n(n−1) σ4 = 0. Věta 2.11. Nechť Xn = (X1, . . . , Xn)′ je náhodný výběr z rozdělení, které má pro ∀θ ∈ Θ střední hodnotu µ(θ) a rozptyl σ2 (θ), tj. {X1, . . . , Xn} ≃ L(µ(θ), σ2 (θ)). Potom (i) je-li µ(θ) < ∞, pak výběrový průměr ¯X je silně konzistentním odhadem µ(θ). (ii) je-li σ2 (θ) < ∞, pak výběrový rozptyl S2 je silně konzistentním odhadem σ2 (θ). Důkaz. Připomeňme nejprve, že náhodný výběr {X1, . . . , Xn} ≃ L(µ(θ), σ2 (θ)) představuje nezávislé stejně rozdělené náhodné veličiny s konečnou střední hodnotou a rozptylem. (i) Vzhledem k tomu, že ¯X = ¯Xn je nestranným odhadem µ(θ), tj. Eθ ¯X = µ(θ), pak posloupnost { ¯Xn = 1 n ∞ n=1 Xi}∞ n=1 splňuje silný zákon velkých čísel, tj. platí Pθ( lim n→∞ ¯Xn = µ(θ)) = 1, pro ∀θ ∈ Θ, takže výběrový průměr ¯X je silně konzistentním odhadem µ(θ). (ii) Připomeňme, že platí S2 = S2 n = 1 n−1 n i=1 (Xi− ¯X)2 = 1 n−1 n i=1 (Xi − µ(θ)) − ( ¯X − µ(θ)) 2 = 1 n−1 n i=1 (Xi − µ(θ))2 − 2(Xi − µ(θ))( ¯X − µ(θ)) + ( ¯X − µ(θ))2 = 1 n−1 n i=1 (Xi−µ(θ))2 − 2( ¯X−µ(θ)) 1 n−1 n i=1 (Xi−µ(θ)) =n( ¯X−µ(θ)) + 1 n−1 n( ¯X−µ(θ))2 = n n−1 1 n n i=1 (Xi − µ(θ))2 − ( ¯X − µ(θ))2 . (6) Náhodné veličiny Yi = (Xi − µ(θ))2 jsou nezávislé stejně rozdělené se střední hodnotou EθYi = Eθ(Xi − µ(θ))2 = σ2 (θ), takže posloupnost 1 n n i=1 Yi = 1 n n i=1 (Xi − µ(θ))2 n i=1 RNDr. Marie Forbelská, PhD. 11 splňuje silný zákon velkých čísel, tj. platí Pθ( lim n→∞ 1 n n i=1 (Xi − µ(θ))2 = σ2 (θ)) = 1. Protože také platí Pθ( lim n→∞ ¯Xn = µ(θ)) = Pθ( lim n→∞ ¯Xn − µ(θ)) = 0) = 1, takže celkově, využijeme-li vztah (6), dostáváme Pθ( lim n→∞ S2 n = σ2 (θ)) = 1, pro ∀θ ∈ Θ takže výběrový rozptyl S2 n je silně konzistentním odhadem σ2 (θ). Poznámka 2.12. Více nestranných odhadů. Obecně může existovat více nestranných odhadů. Například nejen výběrový průměr ¯X je nestranným odhadem střední hodnoty µ(θ), ale i každé jednotlivé pozorování Xi nebo každá jeho lineární kombinace n i=1 ciXi, pro kterou platí n i=1 ci = 1. Pokud tedy existuje více nestranných odhadů je přirozenou otázkou, který z nich je nejlepší. Za nejlepší můžeme považovat ten, který má nejmenší rozptyl mezi všemi nestrannými odhady. Rozdělení každé statistiky však závisí na parametru θ, z čehož vyplývá, že i rozptyl nestranné statistiky Tn závisí na parametru θ. Může se stát, že odhad minimalizující rozptyl při určité hodnotě parametru není vhodný pro jinou hodnotu parametru - existuje jiný nestranný (nevychýlený) odhad, který má při této hodnotě parametru menší rozptyl. Pokud taková situace nenastane, mluvíme o rovnoměrně nejlepším nestranném odhadu. Definice 2.13. Nechť Tn je nestranný odhad parametrické funkce γ(θ) a pro všechna θ ∈ Θ platí DθTn ≤ DθT∗ n , kde T∗ n je libovolný nestranný odhad parametru γ(θ). Potom odhad Tn nazveme (rovnoměrně) nejlepším nestranným odhadem parametrické funkce γ(θ). Příklad 2.14. Nejlepší nestranný lineární odhad střední hodnoty µ(θ). Jak jsme již dříve spočítali, pro náhodný výběr {X1, . . . , Xn} ≃ L(µ(θ), σ2 (θ)) platí, že střední hodnota výběrového průměru ¯X je rovna Eθ ¯X = µ(θ) a rozptyl výběrového průměru ¯X je roven Dθ ¯X = σ2 (θ) n . Tedy variabilita této statistiky je n krát menší než variabilita jednotlivých pozorování X1, . . ., Xn a tedy hodnoty statistiky ¯X jsou více koncentrovány kolem odhadované střední hodnoty µ(θ) než jednotlivá pozorování X1, . . ., Xn. Navíc je statistika ¯X je lineární funkcí náhodných veličin X1, . . . , Xn. 12 M4122 Pravděpodobnost a statistika II Uvažujme všechny lineární statistiky tvaru n i=1 ciXi, kde c1, . . ., cn ∈ R, které jsou nestrannými odhady střední hodnoty µ(θ), tj. pro ∀θ ∈ Θ musí platit µ(θ) = Eθ n i=1 ciXi = n i=1 ci EθXi =µ(θ) = µ(θ) n i=1 ci ⇒ n i=1 ci = 1. Tím jsme dostali první podmínku, která se týká nestrannosti odhadu. Nyní budeme hledat taková c1, . . . , cn ∈ R, která minimalizují rozptyl Dθ n i=1 ciXi nez. = n i=1 c2 i DθXi = σ2 (θ) n i=1 c2 i a pro něž platí n i=1 ci = 1, tedy hledáme vázaný extrém, takže použijeme Lagrangeovu funkci s multiplikátorem λ, tj. L(c1, . . . , cn, λ) = n i=1 c2 i − λ n i=1 ci − 1 . Pak pro j = 1, . . . , n ∂L ∂cj = 2cj − λ = 0 ⇒ cj = 1 2 λ ∂L ∂λ = − n i=1 ci + 1 = 0 ⇒ n i=1 ci = 1. Prvních n rovnic implikuje, že c1 = c2 = · · · = cn. Označme společnou hodnotu symbolem c. Díky poslední rovnici dostaneme 1 = n i=1 ci = nc ⇒ c = c1 = c2 = · · · = cn = 1 n , tedy výběrový průměr ¯X je nejlepším nestranným lineárním odhadem střední hodnoty µ(θ). Zkusme provést důkaz ještě jiným způsobem. Nechť n i=1 ciXi je libovolný nestranný lineární odhad pro µ (tj. nutně musí platit n i=1 ci = 1). Položíme-li ci = 1 n + δi pro i = 1, . . . , n je minimalizace výrazu n i=1 c2 i za podmínky n i=1 ci = 1 ekvivalentní s úlohou minimalizovat n i=1 1 n + δi 2 za podmínky n i=1 δi = 0. Za této podmínky je však n i=1 1 n + δi 2 = n i=1 1 n 2 =n 1 n2 +21 n n i=1 δi =0 + n i=1 δ2 i = 1 n + n i=1 δ2 i , což je minimální pro δi = 0 pro i = 1, . . . , n. Tedy nejlepším nestranným lineárním odhadem je lineární kombinace Xi s koeficienty ci = 1 n . RNDr. Marie Forbelská, PhD. 13 3. POSTAČUJÍCÍ STATISTIKY Nalezení rovnoměrně nejlepších nestranných odhadů není vždy jednoduché. Abychom nalezli odhad, který má nejmenší rozptyl, je vhodná jistá redukce výběru, tj. nahrazení celého výběru jedinou statistikou, takovou, která bude obsahovat „veškerou informaci o parametru θ , která byla obsažená ve výběru. Takováto redukce výběrového prostoru se dosáhne pomocí postačujících statistik. Definice 3.1. Mějme náhodný výběr Xn = (X1, . . . , Xn)′ z rozdělení pravděpodobnosti Pθ, kde θ je neznámý parametr. Řekneme, že statistika S(X) je postačující (suficientní) statistikou (sufficient statistic), jestliže sdružené rozdělení náhodného výběru Xn = (X1, . . . , Xn)′ podmíněné jevem S(X) = s je pro každé s nezávislé na θ. Příklad 3.2. Nechť náhodný výběr Xn = (X1, . . ., Xn)′ pochází z alternativního rozdělení s parametrem θ ∈ (0, 1), tj. Xi ∼ A(θ) ∼ px = θx (1 − θ)1−x n ∈ N, x = 0, . . ., n, 0 jinak. Nechť S = n i=1 Xi ⇒ S ∼ Bi(n, θ). Nechť xn = (x1, . . . , xn)′ je realizace náhodného výběru. Uvažujme podmíněnou pravděpodobnost pro libovolně, ale pevně zvolené s ∈ R Pθ(X1 = x1, . . ., Xn = xn|S = s). (a) Je-li n i=1 xi = s, pak je tato podmíněná pravděpodobnost rovna nule. (b) Nechť n i=1 xi = s. Pak Pθ(X1 = x1, . . . , Xn = xn|S = s) = Pθ(X1 = x1, . . . , Xn = xn) Pθ(S = s) = n i=1 Pθ(Xi = xi) Pθ(S = s) = θ Pn i=1 xi (1 − θ)n− Pn i=1 xi n s θs(1 − θ)n−s = 1 n s . Výsledek nezávisí na θ, takže statistika S = n i=1 Xi je postačující statistikou. Uvedeme větu, která se nazývá také větou o faktorizaci a která zjednodušuje hledání postačujících statistik. Kromě toho umožňuje rychle rozhodnout o tom, či je statistika po- stačující. Věta 3.3. Neymanovo faktorizační kritérium. Mějme náhodný výběr Xn = (X1, . . . , Xn)′ z rozdělení s pravděpodobnostní funkcí (resp. hustotou) f(x; θ), kde θ ∈ Θ. Potom S(X) je postačující statistika pro θ ∈ Θ, právě když existují nezáporné měřitelné funkce g, h takové, že sdružené rozdělení náhodného výběru je součinem dvou faktorů: fX(x; θ) = h(x) g (S(x), θ) (a říkáme, že hustota f se dá faktorizovat). Důkaz. Tvrzení ukážeme pouze pro diskrétní případ. ⇒ Nechť S je postačující statistika, pak podle definice Pθ(X = x|S(X) = s) = h(x) 14 M4122 Pravděpodobnost a statistika II a nezávisí na θ. Dále pro sdruženou pravděpodobnostní funkci platí fX(x; θ) = Pθ(X = x) = Pθ(X = x|S(X) = S(x)) h(x) Pθ(S(X) = S(x)) g(S(x),θ) ⇐ Předpokládejme, že sdruženou pravděpodobnostní funkci lze vyjádřit ve tvaru fX(x; θ) = h(x) g (S(x), θ) , tj. že ji lze faktorizovat. Označme Bs = {x ∈ Rn ; S(x) = s}. Nejprve spočtěme Pθ(S(X) = s) = x∈Bs Pθ(X = x) = x∈Bs h(x) g (S(x), θ) = g (S(x), θ) x∈Bs h(x). Je-li Pθ(S(X) = s) > 0 a S(x) = s, pak je podmíněná pravděpodobnost Pθ(X = x|S(X) = s) = 0. Je-li Pθ(S(X) = s) > 0 a S(x) = s, pak Pθ(X = x|S(X) = s) = Pθ(X = x) Pθ(S(X) = s) = h(x) g (S(x), θ) g (S(x), θ) x∈Bs h(x) = h(x) x∈Bs h(x) a tím je dokázáno, že podmíněné rozdělení vektoru X při dané hodnotě statistiky S nezávisí na θ a S je postačující statistikou pro prametr θ. Příklad 3.4. Nechť náhodný výběr Xn = (X1, . . ., Xn)′ pochází z Poissonova rozdělení s parametrem θ > 0 s pravděpodobnostní funkcí fX(x) = Pθ(X = x) = e−θ θx x! x = 0, 1, 2, . . .. Ukážeme, že statistika S = n i=1 Xi je postačující statistikou pro parametr θ, neboť sdružená hustota náhodného výběru je tvaru fX(x) = e−nθ θ Pn i=1 xi n i=1 xi! = e−nθ θ Pn i=1 xi g(S(x),θ) n i=1 xi! −1 h(x) . Než uvedeme větu, která ukazuje praktický význam postačujících statistik pro konstrukci nejlepších nestranných odhadů, všimněme si podmíněných středních hodnot. RNDr. Marie Forbelská, PhD. 15 3.1. PODMÍNĚNÉ STŘEDNÍ HODNOTY. Nechť Z = (X, Y )′ je náhodný vektor, F(x, y) je jeho sdružená distribuční funkce a FX(x) a FY (y) odpovídající marginální distribuční funkce. Nechť vektor středních hodnot EZ existuje (a je konečný). (1) Nechť pro každou borelovskou množinu S ∈ B a pro každé x ∈ R existuje funkce F(x|y) taková, že platí P(X ≤ x, Y ∈ S) = S F(x|y)dFY (y). Potom funkci F(x|y) nazveme podmíněnou distribuční funkci náhodné veličiny X při daném Y = y (podmíněnou jevem Y = y nebo také vzhledem k Y ). (a) Diskrétní případ: Z = (X, Y )′ ∼ p(x, y), M = {(x, y) ∈ R2 : p(x, y) > 0}, X ∼ pX(x), MX = {x ∈ R : pX(x) > 0}, Y ∼ pY (y), MY = {y ∈ R : pY (y) > 0}. Počítejme P(X ≤ x, Y ∈ S) = y∈S t≤x p(t, y) = y∈S∩MY t≤x p(t, y) + y∈S∩(R−MY ) t≤x p(t, y) =0 = y∈S∩MY t≤x p(t, y) pY (y) pY (y) = S∩MY t≤x p(t, y) pY (y) dFY (y). Takže podmíněná distribuční funkce je v diskrétném případě tvaru F(x|y) =    t≤x p(t,y) pY (y) pro y ∈ MY , 0 pro y ∈ (R − MY ), a podmíněná pravděpodobnostní funkce je rovna p(x|y) = p(x,y) pY (y) pro y ∈ MY , 0 pro y ∈ (R − MY ), . (b) Spojitý případ: Z = (X, Y )′ ∼ f(x, y), X ∼ fX(x), MX = {x ∈ R : fX(x) > 0}, Y ∼ fY (y), MY = {y ∈ R : fY (y) > 0}. Počítejme P(X ≤ x, Y ∈ S) = S x −∞ f(t, y)dtdy = S∩MY x −∞ f(t, y)dtdy + S∩(R−MY ) x −∞ f(t, y) =0 dtdy = S∩MY x −∞ f(t, y) fY (y) dt fY (y)dy = S∩MY x −∞ f(t, y) fY (y) dt dFY (y). Takže podmíněná distribuční funkce je v diskrétném případě tvaru F(x|y) =    x −∞ f(t,y) fY (y) dt pro y ∈ MY , 0 pro y ∈ (R − MY ), a podmíněná hustota je rovna f(x|y) = f(x,y) fY (y) pro y ∈ MY , 0 pro y ∈ (R − MY ), . 16 M4122 Pravděpodobnost a statistika II (2) Nechť T = T(X, Y ) je transformovaná náhodná veličina. Potom funkci E(T(X, Y )|Y = y) = R T(x, y)dF(x|y) y ∈ R nazveme podmíněnou střední hodnotou náhodné veličiny X za podmínky Y = y za předpokladu, že uvedený integrál pro všechna y ∈ R existuje (a je konečný). Položme E(T(X, Y )|Y = y) = h(y) a definujme symbolem E(T(X, Y )|Y ) = h(Y ) náhodnou veličinu, kterou nazveme (zobecněnou) podmíněnou střední hodnotou náhodné veličiny T(X, Y ) při daném Y . (a) Diskrétní případ: E(T(X, Y )|Y = y) = R T(x, y)dF(x|y) = x∈MX T(x, y) p(x|y) = x∈MX T(x, y) p(x,y) pY (y) pro y ∈ MY , 0 pro y ∈ (R − MY ), a analogicky E(T(X, Y )|Y ) = x∈MX T(x, Y ) p(x,Y ) pY (Y ) pro Y ∈ MY , 0 pro Y ∈ (R − MY ), . (b) Spojitý případ: E(T(X, Y )|Y = y) = R T(x, y)dF(x|y) = R T(x, y) f(x|y)dx = R T(x, y) f(x,y) fY (y) dx pro y ∈ MY , 0 pro y ∈ (R − MY ), a analogicky E(T(X, Y )|Y ) = R T(x, Y ) f(x,Y ) fY (Y ) dx pro Y ∈ MY , 0 pro Y ∈ (R − MY ), . Důležité vlastnosti podmíněných středních hodnot: (i) Nechť X1, X2, Y jsou náhodné veličiny a a0, a1, a2 jsou reálné konstanty, pak pokud střední hodnoty EX1, EX2 existují lze snadno dokázat, že platí E(a0 + a1X1 + a2X2|Y ) = a0 + a1E(X1|Y ) + a2E(X2|Y ), (7) (ii) Nechť X, Y jsou náhodné veličiny a střední hodnota EX existuje, pak E [E(X|Y )] = EX. (8) Důkaz ukážeme pro spojitý případ: EX = R xfX(x)dx= R x R f(x, y)dy dx= R x R f(x|y)fY (y)dy dx = R R xf(x|y)dx h(y)=E(X|Y =y) fY (y)dy = R h(y)fY (y)dy = E[h(Y )] = E [E(X|Y )] . RNDr. Marie Forbelská, PhD. 17 (iii) Nechť T1 = T1(X, Y ) a T2 = T2(Y ) jsou transformované náhodné veličiny, pak E(T1T2|Y ) = T2E(T1|Y ). (9) Důkaz ukážeme pro spojitý případ: h(y) = E(T1T2|Y = y) = E(T1(X, Y )T2(X)|Y = y) = R T1(x, y)T2(y)f(x|y)dx = T2(y) R T1(x, y)f(x|y)dx = T2E(T1|Y = y) h(Y ) = E(T1T2|Y ) = T2E(T1|Y ). (3) Nechť T = T(X, Y ) je transformovaná náhodná veličina. Podmíněný rozptyl při daném Y = y je definován vztahem D(T(X, Y )|Y = y) = E [T − E(T|Y = y)]2 |Y = y a (zobecněný) podmíněný rozptyl při daném Y je definován vztahem D(T(X, Y )|Y ) = E [T − E(T|Y )]2 |Y . Platí DT = E [D(T|Y )] + D [E(T|Y )] , (10) neboť, spočítáme–li nejprve D(T|Y ) = E [T − E(T|Y )]2 |Y = E [(T − ET) − (E(T|Y ) − ET)]2 |Y = E (T − ET)2 − 2(T − ET)[E(T|Y ) − ET] + [E(T|Y ) − ET]2 |Y = E[(T−ET)2 |Y ] − 2[E(T|Y )−ET] E[(T−ET)|Y ] viz(7) = E(T|Y )−ET +[E(T|Y )−ET]2 = E[(T − ET)2 |Y ] − [E(T|Y ) − ET]2 , tak odtud dostaneme E[(T−ET)2 |Y ] = D(T|Y ) + [E(T|Y ) − ET]2 a nakonec E E[(T−ET)2 |Y ] viz(7) = E[(T−ET)2=DT = E[D(T|Y )] + E[E(T|Y ) − ET viz(8) = E[E(T|Y )] ]2 = E[D(T|Y )] + E[E(T|Y ) − E[E(T|Y )]2 =D[E(T|Y )] = E[D(T|Y )] + D[E(T|Y )] Celkově tedy dostáváme DT = E[D(T|Y )] + D[E(T|Y )]. 18 M4122 Pravděpodobnost a statistika II Věta 3.5. Rao-Blackwellova. Nechť Xn = (X1, . . . , Xn)′ je náhodný výběr z rozdělení pravděpodobnosti Pθ, kde θ je vektor neznámých parametrů. Nechť existuje postačující statistika S(X) pro parametr θ. Nechť γ(θ) je daná parametrická funkce a statistika T(X) je jejím nestranným odhadem, přičemž ET(X)2 < ∞ pro každé θ ∈ Θ. Pak platí (i) Pro parametrickou funkci γ(θ) existuje nestranný odhad S∗ (X) = S∗ (S(X)) , který je funkcí postačující statistiky S(X). (ii) Pro rozptyl nestranného odhadu S∗ (X) platí DS∗ (X) ≤ DT(X) pro každé θ ∈ Θ. (11) (iii) V nerovnosti (11) platí rovnost právě když S∗ (X) = T(X) s pravděpodobností 1 pro každé θ ∈ Θ. Důkaz. Nechť T = T(X) je libovolný nestranný odhad parametrické funkce γ(θ) a S = S(X) je postačující statistika pro parametr θ. (i) Položme S∗ (s) = E (T(X)|S(X) = s) . Protože S(X) je postačující statistikou, funkce S∗ (s) nezávisí na θ, tj. S∗ = S∗ (S) = S∗ (S(X)) = E [T(X)|S(X)] = E(T|S) je statistika. Ukážeme, že S∗ je nestranný odhad parametrické funkce γ(θ). Pro každé θ ∈ Θ platí: ES∗ = E [E (T|S)] = ET = γ(θ). (ii) Počítejme a upravujme rozptyl statistiky T DT = E [T − γ(θ)]2 = E {[T − S∗ ] + [S∗ − γ(θ)]}2 = E [T − S∗ ]2 ≥0 +2 E {[T − S∗ ] [S∗ − γ(θ)]} =0 + E [S∗ − γ(θ)]2 DS∗ tj. DT ≥ DS∗ , neboť střední hodnotu součinu dvou statistik lze vyjádřit takto E {[T − S∗ ] [S∗ − γ(θ)]} E(U·V ) = E {E {[T − S∗ ] [S∗ − γ(θ)] |S}} E(E(U·V |S)) = E    [S∗ − γ(θ)] E {[T − S∗ ] |S} =0    = 0. (iii) V nerovnosti (11) platí rovnost právě když E [T − S∗ ]2 = 0 pro všechna θ ∈ Θ, tj. když pro všechna θ ∈ Θ platí S∗ (X) = T(X) s pravděpodobností 1. Poznámka 3.6. Z uvedené věty vyplývá, že při hledání nejlepších nestranných odhadů se můžeme omezit na odhady, které jsou funkcemi postačujících statistik. Věta 3.5 dává návod, jak určit nestranný odhad, který je funkcí postačující statistiky, jestliže známe libovolný nestranný odhad. RNDr. Marie Forbelská, PhD. 19 Příklad 3.7. Uvažujme výběr z alternativního rozdělení s parametrem θ > 0 s pravděpodobnostní funkcí fX(x) = P(X = x) = θx (1 − θ)1−x x = 0, 1 a odhad parametrické funkce γ(θ) = θ počítejme pomocí podmíněné střední hodnoty S∗ = E(T|S) , kde T je libovolný nestranný odhad γ(θ) = θ. Je zřejmé, že nestranným odhadem parametru θ je i statistika T = T(X) = X1, tj. první člen výběru, neboť EX1 = θ. Jak jsme ukázali v příkladu 3.2, postačující statistikou pro parametr θ je statistika S = S(X) = n i=1 Xi. Statistika S je součtem nezávislých náhodných veličin s alternativním rozdělením a tedy má binomické rozdělení s parametry n a θ, tj. S = n i=1 Xi ∼ Bi(n, θ). Všimněme si, že pravděpodobnost P X1 = x, n i=1 Xi = s = P X1 = x, n i=2 Xi = s − x . Náhodné veličiny X1 ∼ A(θ) ≡ Bi(1, θ) a n i=2 Xi ∼ Bi(n − 1, θ) jsou nezávislé, takže Pθ X1 = x, n i=1 Xi = s = Pθ (X1 = x) Pθ n i=2 Xi = s − x = θx (1 − θ)1−x n − 1 s − x θs−x (1 − θ)n−1−s+x = n − 1 s − x θs (1 − θ)n−s . Počítejme podmíněnou střední hodnotu za podmínky, že S = s S∗ (s) = E(T|S = s) = E X1| n i=1 Xi = s = x=0,1 x P (X1 = x, n i=1 Xi = s) Pθ ( n i=1 Xi = s) = n−1 s−x θs (1 − θ)n−s n s θs(1 − θ)n−s = (n − 1)!s!(n − s)! n!(s − 1)!(n − s)! = s n , Tedy S∗ (S) = E(T|S) = 1 n n i=1 Xi, což je aritmetický průměr všech pozorování. Podívejme se, jak to vypadá s rozptyly statistik T = X1 a S∗ . DT = DX1 = θ(1 − θ) DS∗ = D 1 n n i=1 Xi = 1 n2 n i=1 DXi = θ(1 − θ) n , tedy rozptyl druhého nestranného odhadu se n krát zmenšil. 20 M4122 Pravděpodobnost a statistika II Příklad 3.8. Uvažujme výběr z Poissonova rozdělení s parametrem θ > 0 s pravděpodobnostní funkcí fX(x) = P(X = x) = e−θ θx x! x = 0, 1, 2, . . . a odhad parametrické funkce γ(θ) = θ počítejme pomocí podmíněné střední hodnoty S∗ = E(T|S) , kde T je libovolný nestranný odhad γ(θ) = θ. Je zřejmé, že nestranným odhadem parametru θ je i statistika T = T(X) = X1, tj. první člen výběru, neboť EX1 = θ. Jak jsme ukázali v příkladu 3.4, postačující statistikou pro parametr θ je statistika S = S(X) = n i=1 Xi. Dále je třeba si uvědomit, že statistika S je součtem nezávislých náhodných veličin s Poissonovým rozdělením a má také Poissonovo rozdělení s parametrem nθ, tj. S = n i=1 Xi ∼ Po(nθ). Počítejme dále pravděpodobnost P X1 = x, n i=1 Xi = s = P X1 = x, n i=2 Xi = s − x . Náhodné veličiny X1 ∼ Po(θ) a n i=2 Xi ∼ Po((n − 1)θ) jsou nezávislé, takže P X1 = x, n i=1 Xi = s = P (X1 = x) P n i=2 Xi = s − x = e−θ θx x! e−(n−1)θ [(n − 1)θ]s−x (s − x)! . Nyní již počítejme podmíněnou střední hodnotu za podmínky, že S = s S∗ (s) = E(T|S = s) = E X1| n i=1 Xi = s = s x=0 x P (X1 = x, n i=1 Xi = s) P ( n i=1 Xi = s) = s x=0 x e−θθx x! e−(n−1)θ[(n−1)θ]s−x (s−x)! e−nθ(nθ)s s! = s x=0 x s x 1 n x 1 − 1 n s−x . Protože výraz s x=0 x s x 1 n x 1 − 1 n s−x je střední hodnotou náhodné veličiny s binomickým rozdělením Bi(s, 1 n ), ihned dostaneme S∗ (s) = E(T|S = s) = s n . Tedy S∗ (S) = E(T|S) = 1 n n i=1 Xi, což je aritmetický průměr všech pozorování. RNDr. Marie Forbelská, PhD. 21 Stejně jak v předchozím případě, všimněme si rozptylů obou odhadů T = X1 a S∗ . DT = DX1 = θ DS∗ = D 1 n n i=1 Xi = 1 n2 n i=1 DXi = θ n , tedy rozptyl druhého nestranného odhadu se n krát zmenšil. Poznámka 3.9. Nahrazení nestranného odhadu T odhadem S∗ = E(T|S) ještě neznamená, že jsme mezi všemi nestrannými odhady našli odhad s nejmenším rozptylem. Úplnost postačující statistiky je pro to dostatečnou podmínkou. Definice 3.10. Systém parametrických tříd rozdělení P = {Pθ; θ ∈ Θ} nazveme úplným, pokud pro každou měřitelnou funkci h(x) a náhodnou veličinu X s rozdělením z této třídy platí implikace: jestliže Eθh(X) = 0 pro každé θ ∈ Θ, pak h(X) = 0 s pravděpodobností 1 pro každé θ ∈ Θ. Příklad 3.11. Nechť P = {Pθ; θ ∈ Θ} je třídou binomických rozdělení X ∼ Pθ(X = x) = n x θx (1 − θ)n−x n ≥ 1, 0 < θ < 1 x = 0, 1, . . . , n. Ukážeme, že tento systém je úplný. Uvažujme funkci h(x) na množině {0, 1, . . ., n}, pro kterou platí Eh(X) = 0 pro každé θ ∈ (0, 1). Tato funkce musí splňovat podmínku Eh(X) = n x=0 h(x) n x θx (1 − θ)n−x = 0 pro každé θ ∈ (0, 1). Tuto podmínku můžeme napsat takto Eh(X) = n x=0 h(x) n x θx (1 − θ)n−x = (1 − θ)n (1+z)−n n x=0 h(x) n x θ 1 − θ x zx = (1 + z)−n n x=0 n x h(x)zx = 0 pro z > 0 Na jedné straně máme polynom n-tého řadu v proměnné z. Pokud se má identicky rovnat nule, musí se všechny jeho koeficienty rovnat nule, tj. h(x) = 0 pro x = 0, 1, . . ., n. Proto P(h(X) = 0) = 1 pro každé θ ∈ (0, 1) . Příklad 3.12. Nechť P = {Pθ; θ ∈ Θ} je třídou Poissonových rozdělení s pravděpodobnostní funkcí fX(x) = P(X = x) = e−θ θx x! x = 0, 1, 2, . . . Tento systém je opět úplný. Uvažujme funkci h(x) na množině {0, 1, 2, . . .}, pro kterou platí Eh(X) = 0 pro každé θ > 0. 22 M4122 Pravděpodobnost a statistika II Tato funkce musí splňovat podmínku Eh(X) = ∞ x=0 h(x) e−θ θx x! = 0 pro každé θ > 0. Takže ∞ x=0 h(x) θx x! = 0 pro každé θ > 0. Tato mocninná řada je rovna nule pro všechna θ > 0, takže všechny její koeficienty musí být rovnu nule, tj. h(x) = 0 pro x = 0, 1, 2, . . .. Proto P(h(X) = 0) = 1 pro každé θ > 0 . Příklad 3.13. Nechť P = {Pθ; θ ∈ Θ} je třídou normálních rozdělení X ∼ 1 √ 2πθ e− 1 2 (x θ ) 2 x ∈ R, ; θ > 0 Tento systém není úplný. Definujme h(x) = −1 x < 0, 1 x ≥ 0. . Pro libovolné θ > 0 platí 1 √ 2πθ ∞ −∞ h(x)e− 1 2 (x θ ) 2 dx = − 1 √ 2πθ 0 −∞ e− 1 2 (x θ ) 2 dx = 1 2 + 1 √ 2πθ ∞ 0 e− 1 2 (x θ ) 2 dx = 1 2 = 0. Tedy z vlastnosti, že Eh(X) = 0 neplyne, že P(h(X) = 0) = 1. Definice 3.14. Nechť Xn = (X1, . . . , Xn)′ je náhodný výběr z rozdělení pravděpodobnosti P = {Pθ; θ ∈ Θ}. Statistiku T(X) nazveme úplnou vzhledem k P = {Pθ; θ ∈ Θ}, pokud její rozdělení pravděpodobností tvoří úplný systém. Nyní vyslovíme větu o jednoznačnosti nestranných odhadů založených na postačujících statistikách. Věta 3.15. První Lehmanova-Sheffého věta. Nechť Xn = (X1, . . . , Xn)′ je náhodný výběr z rodělení pravděpodobnosti P = {Pθ; θ ∈ Θ}. Předpokládejme, že T = T(X) je nestranný odhad parametrické funkce γ(θ), přičemž ET2 < ∞ pro každé θ ∈ Θ. Nechť S = S(X) je úplná postačující statistika. Definujme S∗ = E(T|S). Pak S∗ je nejlepší nestranný odhad parametrické funkce γ(θ) a je jediný. Důkaz. Nechť T = T(X) a T2 = T2(X) jsou nestranné odhady parametrické funkce γ(θ) s konečnými druhými momenty. Označme S∗ 2 = E(T2|S). Pro každé θ ∈ Θ platí ES∗ = γ(θ) DS∗ ≤ DT ES∗ 2 = γ(θ) DS∗ 2 ≤ DT2 Máme tedy E(S∗ − S∗ 2 ) = E(E(T|S) − E(T2|S)) = 0 pro každé θ ∈ Θ. RNDr. Marie Forbelská, PhD. 23 Z předpokladu o úplnosti plyne, že P(S∗ = S∗ 2) = 1 pro každé θ ∈ Θ. Z toho plyne závěr, že pro nestranné odhady S∗ a T2 platí DS∗ ≤ DT2. Proto S∗ je nejlepší. Z Raovy-Blackwellovy věty plyne, že T2 bude stejně dobrý odhad jako S∗ 2 právě tehdy, bude-li T2 = S∗ 2 skoro jistě při každém θ. Jelikož víme, že S∗ = S∗ 2, dostáváme odtud T2 = S∗ skoro jistě. Poznámka 3.16. V tomto případě nejmenší možný rozptyl nestranného odhadu parametrické funkce γ(θ) je roven DS∗ . Přitom jde o skutečné dosažitelné minimum. Věta 3.17. Druhá Lehmanova-Sheffého věta. Nechť S je úplná postačující statistika. Nechť W = g(S) je nestranný odhad parametrické funkce γ(θ) a nechť EW2 < ∞ pro každé θ ∈ Θ. Pak W je nejlepší nestranný odhad parametrické funkce γ(θ) a je jediný. Důkaz. Tvrzení je přímým důsledkem první Lehmannovy-Sheffého věty. Příklad 3.18. Nechť Xn = (X1, . . . , Xn)′ je náhodný výběr z alternativního rozdělení s pravděpodobnostní funkcí f(x, θ) = Pθ(X = x) = θx (1 − θ)n−x 0 < θ < 1 x = 0, 1 s pravděpodobností úspěchu θ ∈ (0, 1), kde θ je neznámý parametr. Budeme hledat nejlepší nestranný odhad pro • θ , což je střední hodnota alternativního rozdělení • a v případě, že n ≥ 2 také pro θ(1 − θ)) , což je rozptyl alternativního rozdělení θ : Z příkladů 3.2 a 3.11 vyplývá, že statistika S = n i=1 Xi ∼ Bi(n, θ) je úplnou postačující statistikou, takže statistika S∗ (S) = E(T|S) = 1 n n i=1 Xi = ¯X odvozená pomocí Rao-Blackwellovy věty je podle první Lehmanovy-Sheffého věty nejlepším nestranným odhadem parametru θ. θ(1 − θ)) : Pomocí Rao-Blackwellovy věty nejprve hledejme statistiku S∗ = E(T|S), kde T je nějaký nestranný odhad parametrické funkce γ(θ) = θ(1 − θ) a S je postačující statistikou pro parametr θ. Jako nestranný odhad parametrické funkce γ(θ) = θ(1 − θ) vezměme na- příklad T = X1(1 − X2), neboť ET = E[X1(1 − X2)] = EX1 · E(1 − X2) nezávislost X1,X2 = θ(1 − θ). 24 M4122 Pravděpodobnost a statistika II Pro s = 0, 1, . . ., n počítejme S∗ (s) = E(T|S = s) = E X1(1 − X2) n i=1 Xi = s = P (X1 = 1, 1 − X2 = 1, n i=1 Xi = s) P( n i=1 Xi = s) Je-li s = 0, je zřejmé, že E X1(1 − X2) n i=1 Xi = s = 0. Nechť nyní s > 0. Pak S∗ (s) = P(X1 = 1)P(X2 = 0)P ( n i=3 Xi = s − 1) P( n i=1 Xi = s) = θ(1 − θ) n−2 s−1 θs−1 (1 − θ)n−2−s+1 n s θs(1 − θ)n−s = (n − 2)!s!(n − s)! n!(s − 1)!(n − s − 1)! = s(n − s) n(n − 1) = n n − 1 · s n · 1 − s n a S∗ (S) = n n − 1 ¯X(1 − ¯X), kde ¯X = 1 n n i=1 Xi. Protože statistika S = n i=1 Xi ∼ Bi(n, θ) je úplnou postačující statistikou, pak podle první Lehmanovy-Sheffého věty je S∗ (S) nejlepším nestranným odhadem parametrické funkce θ(1 − θ). Veličiny X1, . . . , Xn můžeme chápat jako výběr z Bi(1, θ). Toto rozdělení má rozptyl θ(1 − θ). Všimněme si, že pro i = 1, . . ., n platí X2 i = Xi, neboť tyto veličiny nabývají pouze hodnot 0 a 1. Nestranný odhad rozptylu pořízený na základě daného výběru je S2 = 1 n − 1 n i=1 (Xi − ¯X)2 = 1 n − 1 n i=1 X2 i − n ¯X2 = 1 n − 1 n i=1 Xi − n ¯X2 = 1 n − 1 n ¯X − n ¯X2 = n n − 1 ¯X(1 − ¯X) a odhad S2 je tedy totožný s nejlepším nestranným odhadem parametrické funkce θ(1 − θ). Příklad 3.19. Nechť Xn = (X1, . . . , Xn)′ je náhodný výběr z Poissonova rozdělení s pravděpodobnostní funkcí fX(x) = P(X = x) = e−θ θx x! x = 0, 1, 2, . . . RNDr. Marie Forbelská, PhD. 25 kde θ je neznámý parametr. Budeme hledat nejlepší nestranný odhad pro • θ , což je střední hodnota Poissonova rozdělení • e−θ = P(X = 0) θ : Z příkladů 3.4 a 3.12 vyplývá, že statistika S = n i=1 Xi ∼ Po(nθ) je úplnou postačující statistikou, takže statistika S∗ (S) = E(T|S) = 1 n n i=1 Xi = ¯X odvozená pomocí Rao-Blackwellovy věty je podle první Lehmanovy-Sheffého věty nejlepším nestranným odhadem parametru θ. e−θ : Pomocí Rao-Blackwellovy věty nejprve hledejme statistiku S∗ = E(T|S), kde T je nějaký nestranný odhad parametrické funkce γ(θ) = e−θ a S je postačující statistikou pro parametr θ. Položme T = I{0}(X1) = I(X1 = 0) = 1 X1 = 0, 0 jinak. Protože ET = 1 · Pθ(T = 1) + 0 · Pθ(T = 0) = Pθ(X1 = 0) = e−θ , pak statistika T je nestranným odhadem parametrické funkce γ(θ) = e−θ . Je-li n = 1, pak statistika T je nejlepším nestranným odhadem parametrické funkce γ(θ) = e−θ . Pro n > 1 počítejme S∗ (s) = E(T|S = s) = E I(X1 = 0) n i=1 Xi = s = P (T = 1, n i=1 Xi = s) P( n i=1 Xi = s) = P (X1 = 0, n i=2 Xi = s) P( n i=1 Xi = s) = P(X1 = 0)P ( n i=2 Xi = s) P( n i=1 Xi = s) = e−θe−(n−1)θ[(n−1)θ]s s! e−nθ(nθ)s s! = n − 1 n s a S∗ (S) = n n − 1 ¯X(1 − ¯X), kde ¯X = n − 1 n Pn i=1 Xi . Protože statistika S = n i=1 Xi ∼ Po(nθ) je úplnou postačující statistikou, pak podle první Lehmanovy-Sheffého věty je S∗ (S) nejlepším nestranným odhadem parametrické funkce e−θ . 26 M4122 Pravděpodobnost a statistika II Spočítejme ještě ES∗ = ES∗ (S) = E n − 1 n S = ∞ s=0 n − 1 n s e−nθ (nθ)s s! = e−nθ ∞ s=0 [(n − 1)θ]s s! =e(n−1)θ = e−θ ES∗2 = ∞ s=0 n − 1 n 2s e−nθ (nθ)s s! = e−nθ ∞ s=0 (n−1)2 n θ s s! =e (n−1)2 n θ = e−2θ+ θ n DS∗ = ES∗2 − (ES∗ )2 = e−2θ+ θ n − e−2θ = e−2θ e θ n − 1 . RNDr. Marie Forbelská, PhD. 27 4. REGULÁRNÍ SYSTÉM HUSTOT A DOLNÍ MEZ ROZPTYLU REGULÁRNÍCH ODHADŮ Je zcela zřejmé, že na základě konečně mnoho pozorování Xn = (X1, . . . , Xn)′ nelze odhadnout parametrickou funkce γ(θ) zcela bez chyby, tj. nelze najít nestranný odhad Tn = T(X1, . . ., Xn)′ s nulovým rozptylem. Existuje však dolní mez, pod kterou nemůže rozptyl žádného nestranného odhadu kles- nout. Tato dolní mez záleží ovšem, jak za chvíli ukážeme, - na rozsahu náhodného výběru, tj. na n, - na rodině rozdělení F(x; θ), ze kterého výběr pochází - a na parametrické funkci γ(θ). Při odvozování dolní meze rozptylu nestranných odhadů se omezíme - na rodiny rozdělení F(x; θ), která splňují jisté podmínky, a to tzv. podmínky regu- larity. V dalším budeme značit symbolem f(x; θ) jak hustotu pravděpodobnosti absolutně spojité náhodné veličiny, tak pravděpodobnostní funkci diskrétní náhodné veličiny, neboť obě jsou hustotami, v prvém případě vzhledem k Lebesgueově míře, v druhém případě vzhledem k čítací míře. Definice 4.1. Mějme parametrický prostor Θ ⊂ R. Řekneme, že systém parametrických hustot Freg = {f(x; θ) : θ ∈ Θ} je regulární, jestliže platí (1) Θ ⊂ Rm je otevřená borelovská množina. (2) Množina M = {x ∈ R : f(x; θ) > 0} nezávisí na parametru θ. (3) Pro každé x ∈ M existuje konečná parciální derivace f′ i(x; θ) = ∂f(x; θ) ∂θi (i = 1, . . . , m). (4) Pro všechny θ = (θ1, . . ., θm)′ ∈ Θ platí M f′ i(x; θ) f(x; θ) dF(x; θ) = M ∂ ln f(x; θ) ∂θi dF(x; θ) = 0 (i = 1, . . ., m), kde F(x; θ) je odpovídající distribuční funkce. (5) Pro všechny θ = (θ1, . . ., θm)′ ∈ Θ je integrál Jij = Jij(θ) = M ∂ ln f(x; θ) ∂θi ∂ ln f(x; θ) ∂θj dF(x; θ) (i, j = 1, . . . , m) konečný a matice J = J(θ) = (Jij(θ))m i,j=1 je pozitivně definitní. Matice J(θ) se nazývá Fisherova informační matice o parametru θ. Poznámka 4.2. Pro jednoduchost někdy hovoříme o regulárnosti f(x; θ), ne o regulárnosti systému hustot. 28 M4122 Pravděpodobnost a statistika II Poznámka 4.3. Ukážeme, že podmínka (4) souvisí s otázkou, zda při derivování rovnosti 1 = M dF(x; θ) lze zaměnit pořadí derivace a integrálu, tj. 0 = ∂ ∂θj 1 = ∂ ∂θj M dF(x; θ) ? = M ∂ ∂θj dF(x; θ) = 0 (∗) . Jestliže máme zaručeno, že platí vztah (∗), pak pořadí lze zaměnit. A nyní ukážeme, že podmínka (4) je ekvivaletní s podmínkou (∗). Nechť ν je čítací nebo Lebesgueova míra. Upravujme 0 = M ∂ ∂θj dF(x; θ) = M ∂ ∂θj f(x; θ) dν(x) = M f′ j(x; θ) dν(x) někdy tato podmínka bývá v definici regularity = M f′ j(x; θ)f(x;θ) f(x;θ) dν(x) = M f′ j (x;θ) f(x;θ) dF(x; θ) což je právě podmínka (4) v definici regularity. Poznámka 4.4. Označíme–li symbolem Ui = Ui(θ) = f′ i (X;θ) f(X;θ) = ∂ ln f(X;θ) ∂θi tzv. i–tý skór příslušný k hustotě f(x; θ) a U = U(θ) = (U1(θ), . . . , Um(θ))′ tzv. skórový vektor příslušný k hustotě f(x; θ) , pak podmínku (4) lze ekvivalentně napsat takto pro ∀i ∈ {1, . . ., m} EθUi = 0, tj. EθU = (0, . . ., 0)′ = 0, tj. skóry jsou centrované. V tomto značení podmínka (5) je ekvivalentní s existencí kovariancí Jij = M ∂ ln f(x;θ) ∂θi ∂ ln f(x;θ) ∂θj dF(x; θ) = Eθ(UiUj) = Cθ(Ui, Uj) < ∞. Pro sdruženou hustotu náhodného výběru Xn = (X1, . . . , Xn)′ platí fX(x1, . . . , xn; θ) = n k=1 f(xi; θ) ⇒ ∂ ln fX(x1,...,xn;θ) ∂θj = n k=1 ∂ ln f(xk;θ) ∂θj a označíme–li pro k–tou složku náhodného výběru Uk = (Uk,1, . . ., Uk,m)′ = ∂ ln f(Xk;θ) ∂θ1 , . . . , ∂ ln f(Xk;θ) ∂θm ′ a pro celý náhodný výběr U∗ n = (U∗ 1 , . . . , U∗ m)′ = ∂ ln fX(X;θ) ∂θ1 , . . . , ∂ ln fX(X;θ) ∂θm ′ , dostaneme pro skórový vektor náhodného výběru U∗ n = n k=1 Uk a pro jednotlivé složky skórového vektoru U∗ j = n k=1 Uk,j . RNDr. Marie Forbelská, PhD. 29 Věta 4.5 (Raova-Cramerova nerovnost). Nechť Tn = T(X1,. . ., Xn) je regulárním odhaden parametrické funkce γ(θ), tj. (i) náhodný výběr Xn = (X1, . . . , Xn)′ je z rozdělení s regulární hustotou f ∈ Freg, (ii) Tn(X) je nestranným odhadem parametrické funkce γ(θ), (iii) pro všechna θ ∈ Θ, ∀j =1,. . ., m existují parciální derivace ∂γ(θ) ∂θj a platí ∂ ∂θj M . . . M Tn(x1, . . . , xn) n i=1 dF(xi; θ) = M . . . M Tn(x1, . . . , xn) ∂ ∂θj n i=1 dF(xi; θ). Pak existuje dolní Rao–Cramerova hranice Cn rozptylu odhadu Tn a platí Cn = Cn(θ) = 1 n γ′ J−1 γ ≤ DθTn, kde γ′ = ∂γ(θ) ∂θ1 , . . . , ∂γ(θ) ∂θm ′ . Důkaz. Důkaz uděláme pro skalární parametr θ. Protože Tn(Y) je nestranným odhadem parametrické funkce γ(θ), platí γ(θ) = EθTn(X) = M . . . M Tn(x1, . . . , xn) n k=1 dF(xk; θ) = M . . . M Tn(x1, . . . , xn) n k=1 f(xk; θ)dν(x1) · · · dν(xn), kde ν je čítací nebo Lebesgueova míra. Díky předpokladům ve větě můžeme psát γ′ (θ) = [EθTn(X)]′ = ∂ ∂θ M . . . M Tn(x1, . . . , xn) n k=1 f(xk; θ) dν(x1) · · ·dν(xn) = M . . . M Tn(x1, . . . , xn) ∂ ∂θ n k=1 f(xk; θ) dν(x1) · · ·dν(xn) = M . . . M Tn(x1, . . . , xn) n k=1 f′ (xk; θ) n h=1,h=k f(xh; θ) dν(x1) · · ·dν(xn) = M . . . M Tn(x1, . . . , xn) n k=1 f′(xk;θ) f(xk;θ) n h=1 f(xh; θ) dν(x1) · · ·dν(xn) = Eθ Tn(X) n k=1 f′(Xk;θ) f(Xk;θ) = Eθ Tn(X) n k=1 Uk,1(θ) = Eθ [Tn(X) U∗ n] Protože EθU∗ n = 0, pak Fisherova informace pro skalární parametr θ, která se týká náhodného výběru, je rovna J∗ n =Eθ(U∗ n)2 =DθU∗ n =Dθ n k=1 Uj,1(θ) nez. = n k=1 DθUk,1(θ)= n k=1 Eθ(Uk,1(θ))2 =J(θ) =nJ(θ). takže |γ′ (θ)| = |E[U∗ nTn(X)]|=| C(U∗ n(θ), Tn(X)) vizEU∗ n=0 | Schwarz.ner. ≤ DTn(X) DU∗ n(θ) = √ nJ(θ) . tj. (γ′ (θ)) 2 ≤ DTn(X)nJ(θ) ⇒ (γ′ (θ))2 nJ(θ) ≤ DTn(X), čímž je tvrzení dokázáno. 30 M4122 Pravděpodobnost a statistika II Definice 4.6. Řekneme, že odhad Tn(X) je (a) VYDATNÝM (také EFICIENTNÍM) odhadem γ(θ), pokud ε[Tn(X)] = Cn(θ) DTn(X) = 1 (b) ASYMPTOTICKY VYDATNÝM odhadem γ(θ), pokud lim n→∞ ε[Tn(X)] = 1 a číslo ε[Tn(X)] se nazývá vydatnost (eficience) odhadu Tn(X). Příklad 4.7. NORMÁLNÍ ROZDĚLENÍ A REGULARITA. Mějme náhodnou veličinu X s normálním rozdělením X ∼ N(µ, σ2 ) ∼ f(x) = 1 √ 2πσ2 exp − 1 2σ2 (x − µ)2 x ∈ R, −4 −3 −2 −1 0 1 2 3 4 5 6 7 8 9 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 µ=0; σ= 1 µ=0; σ= 0.5 µ=0; σ= 2 µ=3; σ=1.25 µ=5; σ= 1 Hustoty N(µ,σ2 ) −4 −3 −2 −1 0 1 2 3 4 5 6 7 8 9 0 0.2 0.4 0.6 0.8 1 µ=0; σ= 0.5→ µ=0; σ= 2→ µ=3; σ=1.25→ ←µ=0; σ= 1 ←µ=5; σ= 1 Distribucni funkce N(µ,σ2 ) Obrázek 1: Ukázky hustot a distribučních funkcí pro různé hodnoty parametrů µ a σ2. přičemž: (a) σ2 je známé, tj. θ1 = µ. Pak hustota f(x) je regulární (viz body (1) až (5)): (1) Množina Θ1 = (−∞, ∞) je neprázdná otevřená množina. (2) Množina M = {x ∈ R : f(x) > 0} je (−∞, ∞) a nezávisí na µ ∈ Θ1. (3) Pro každé y ∈ M existuje konečná derivace f′ µ(x) = d f(x) d µ = f(x)x−µ σ2 ⇒ U1 = X−µ σ2 . (4) Pro všechna µ ∈ Θ1 platí EU1 = ∞ −∞ f′ µ(x) f(x) f(x)dx = ∞ −∞ f′ µ(x)dx = 1 σ2 ∞ −∞ (x − µ)f(x)dx 0 = 0. RNDr. Marie Forbelská, PhD. 31 (5) Pro všechna µ ∈ R je integrál J11 konečný a kladný J(µ) = J11 = EU2 1 = ∞ −∞ f′ µ(x) f(x) 2 f(x)dx = ∞ −∞ (f′ µ(x)) 2 f(x) dx = 1 σ4 ∞ −∞ (x − µ)2 f(x)dx DX=σ2 = 1 σ2 > 0. (b) µ je známé, tj. θ2 = σ2 . Pak hustota f(x) je regulární (viz body (1) až (5)): (1) Množina Θ2 = (0, ∞) je neprázdná otevřená množina. (2) Množina M = {x ∈ R : f(x) > 0} je (−∞, ∞) a nezávisí na σ2 ∈ Θ2. (3) Pro každé x ∈ M existuje konečná derivace f′ σ2 (x) = d f(x) d σ2 = f(x)(x−µ)2−σ2 2σ4 ⇒ U2 = (X−µ)2−σ2 2σ4 . (4) Pro všechna σ2 ∈ Θ2 platí EU2 = ∞ −∞ f′ σ2 (x) f(x) f(x)dx = ∞ −∞ f′ σ2 (x)dx = ∞ −∞ f(x)(x−µ)2−σ2 2σ4 dx = 0. (5) Pro všechna σ2 ∈ Θ2 je integrál J22 konečný a kladný J(σ2 ) = J22 = EU2 2 = ∞ −∞ f′ σ2 (x) f(x) 2 f(x)dx = 1 4σ8 ∞ −∞ (x − µ)2 − σ2 2 f(x)dx = 1 4σ8 ∞ −∞ (x−µ)4 f(x)dx µ4=3σ4 −2σ2 4σ8 ∞ −∞ (x−µ)2 f(x)dx σ2 + σ4 4σ8 ∞ −∞ f(x)dx 1 = 1 2σ4 > 0 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1 1.2 −1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1 µ=y=0.32729 U 1 =(Y−µ)/σ2 (σ2 =1) µ Y ∼ N(µ,σ 2 ) 0.2 0.4 0.6 0.8 1 −1.5 −1 −0.5 0 0.5 1 1.5 2 2.5 σ2 1 =(y−µ)2 =0.10712 U 2 =0.5[(Y−µ)2 −σ2 ]/σ4 (µ=0) σ 2 Obrázek 2: Ukázky skórových funkcí U1 (resp. U2) pro N(µ, σ2) při známém σ2 (resp. µ). 32 M4122 Pravděpodobnost a statistika II (c) θ = (θ1, θ2)′ = (µ, σ2 )′ . Pak hustota f(x) je regulární (viz body (1) až (5)). (1) Množina Θ = Θ1 × Θ2 = (−∞, ∞) × (0, ∞) je neprázdná otevřená množina. (2) Množina M = {x ∈ R : f(x) > 0} je (−∞, ∞) a nezávisí na θ ∈ Θ. (3) Pro každé x ∈ M existují konečné derivace f′ µ(x), f′ σ2 (x) (viz předchozí dva případy). (4) Pro všechna θ = (θ1, θ2)′ = (µ, σ2 )′ ∈ Θ platí EU1 = EU2 = 0 (viz předchozí dva případy) a skórový vektor je roven U = X−µ σ2 , (X−µ)2−σ2 2σ4 ′ . −0.5 0 0.5 1 0.2 0.4 0.6 0.8 1 −15 −10 −5 0 5 10 15 µ U 1 =(Y−µ)/σ2 σ 2 Y ∼ N(µ,σ2 ) −0.5 0 0.5 1 0.2 0.4 0.6 0.8 1 −20 0 20 40 60 80 µ U 2 =0.5[(Y−µ)2 −σ2 ]/σ4 σ 2 Obrázek 3: Ukázky skórových funkcí U1 a U2 pro N(µ, σ2) při neznámém σ2 a µ. (5) Pro všechna θ = (θ1, θ2)′ = (µ, σ2 )′ ∈ Θ jsou integrály J11, J22 a J12 = J21 konečné, přičemž J(µ, σ2 ) = J12 = ∞ −∞ f′ µ(x) f(x) f′ σ2 (x) f(x) f(x)dx = 1 2σ6 ∞ −∞ (x − µ) (x − µ)2 − σ2 f(x)dx = 1 2σ6 ∞ −∞ (x−µ)3 f(x)dx µ3=0 − 1 2σ4 ∞ −∞ (x−µ)f(x)dx 0 = 0 a Fisherova informační matice pro vektor parametrů θ = (θ1, θ2)′ = (µ, σ2 )′ je rovna J(µ, σ2 ) = 1 σ2 0 0 1 2σ4 a je pozitivně definitní. RNDr. Marie Forbelská, PhD. 33 Příklad 4.8. WEIBULLOVO 3-PARAMETRICKÉ EXPONENCIÁLNÍ ROZDĚLENÍ Wb(γ, θ, δ) A REGULARITA. Mějme náhodnou veličinu X s hustotou f(x; γ, θ, δ) = γ δ x−θ δ γ−1 exp − x−θ δ γ x > θ, θ ∈ R, γ > 0, δ > 0 0 jinak. Zřejmě nejde o regulární systém hustot, neboť množina M, což je definiční obor náhodné veličiny, je závislý na parametru θ. Příklad 4.9. NORMÁLNÍ ROZDĚLENÍ A VYDATNÉ ODHADY. Mějme náhodnou veličinu X s normálním rozdělením X ∼ N(µ, σ2 ) ∼ f(x) = 1 √ 2πσ2 exp − 1 2σ2 (x − µ)2 x ∈ R a náhodný výběr Xn = (X1, . . ., Xn)′ z téhož rozdělení, přičemž: (a) σ2 je známé, tj. θ1 = µ. (1) Skórová funkce náhodného výběru (viz příklad 4.7): U∗ 1 (µ) = n i=1 Xi − µ σ2 . (2) Fisherova informace o parametru µ z náhodného výběru (viz příklad 4.7 a důkaz věty 4.5): J∗ n(µ) = nJ(µ) = nJ11 = n σ2 . (3) Uvažujme parametrickou funkci γ(µ) = µ a výběrový průměr, tj. statistiku Tn(X) = ¯X = 1 n n i=1 Xi. (i) Platí E ¯X = µ, tj. ¯X je nestranným odhadem parametru µ a D ¯X = σ2 n . (ii) ¯X je regulárním odhadem parametrické funkce γ(µ) = µ, přičemž γ′ µ(µ) = 1, neboť ¯X je nestranným odhadem parametru µ a platí 34 M4122 Pravděpodobnost a statistika II E ¯XU∗ 1 (µ) = 1 nσ2 E n i=1 Xi n i=1 Xi − nµ = 1 nσ2 n i=1 EX2 i σ2+µ2 + 2 nσ2 n−1 i=1 n j=i+1 E(XiXj) µ2(nez.) − nµ2 σ2 = σ2 + µ2 σ2 + n(n − 1) nσ2 µ2 − nµ2 σ2 = 1 = γ′ µ(µ). (iii) ¯X je vydatným odhadem µ, neboť dolní Raova-Cramerova hranice Cn(µ) = γ′ µ(µ) 2 Jn(µ) = 1 n σ2 = σ2 n = D ¯X. (b) µ je známé, tj. θ2 = σ2 . (1) Skórová funkce náhodného výběru (viz příklad 4.7): U∗ 2 (σ2 ) = n i=1 (Xi − µ)2 − σ2 2σ4 = 1 2σ4 n i=1   (Xi − µ)2 označme Zi −σ2    = 1 2σ4 n i=1 Zi − 1 2σ2 . (2) Fisherova informace o parametru γ(σ2 ) = σ2 z náhodného výběru (viz příklad 4.7 a důkaz věty 4.5): J∗ n(σ2 ) = nJ(σ2 ) = n 2σ4 . (3) Uvažujme parametrickou funkci γ(σ2 ) = σ2 a výběrový rozptyl, tj. statistiku Tn(Y) = S2 = 1 n − 1 n i=1 (Xi − ¯X)2 = 1 n − 1    n i=1 (Xi − µ)2 označme Zi −n( ¯X − µ)2    = 1 n − 1 n i=1 Zi − n( ¯X − µ)2 . RNDr. Marie Forbelská, PhD. 35 Počítejme EZi =DYi = σ2 DZi =EZ2 i − (EZi)2 = µ4 − σ4 = 2σ4 C(Zi, Zj) =E(ZiZj) − E(Zi)E(Zj) σ4 = 0 ⇒ E(ZiZj) = σ4 pro i = j. Pak (i) Snadno lze ukázat, že platí ES2 = σ2 , tj. S2 je nestranným odhadem parametru σ2 . Dále obecně pro výběrový rozptyl platí: DS2 = µ4 n − n − 3 n(n − 1) σ4 a protože v případě normálního rozdělení máme µ4 = 3σ4 , dostáváme DS2 = 3σ4 n − n − 3 n(n − 1) σ4 = σ4 [3(n − 1) − (n − 3)] n(n − 1) = 2σ4 n − 1 . (ii) S2 je regulárním odhadem parametrické funkce γ(σ2 ) = σ2 , přičemž γ′ σ2 (σ2 ) = 1, neboť je nestranným odhadem a platí E S2 U∗ 2 (σ2 ) = 1 2(n − 1)σ4 E n i=1 Zi − n( ¯X − µ)2 n i=1 Zi − nσ2 = 1 2(n − 1)σ4 n i=1 EZ2 i µ4=3σ4 +2 n−1 i=1 n j=i+1 E(ZiZj) σ4 − n n i=1 E Zi( ¯X − µ)2 (n+2)σ4 n2 − nσ2 n i=1 EZi σ2 +n2 σ2 E( ¯X − µ)2 D ¯X= σ2 n = 3nσ4 + n(n − 1)σ4 − (n + 2)σ4 − n2 σ4 + nσ4 2(n − 1)σ4 = 1 = γ′ σ2 (σ2 ), 36 M4122 Pravděpodobnost a statistika II přičemž platí E Zi( ¯Y − µ)2 = E Zi 1 n n i=1 (Xi − µ) 1 n n i=1 (Xi − µ) = 1 n2 EZ2 i 3σ4 + n i=j=1 E(ZiZj) σ4 + n i=j=1 n i=j=k=1 E Zi(Xj − µ)(Xk − µ) 0 = 1 n2 3σ4 + (n − 1)σ4 = (n + 2)σ4 n2 . (iii) S2 je asymptoticky vydatným odhadem σ2 , neboť dolní Raova-Cramerova hranice je rovna Cn(σ2 ) = γ′ σ2 (σ2 ) 2 Jn(σ2) = 1 n 2σ4 = 2σ4 n < DS2 = 2σ4 n − 1 a lim n→∞ Cn(σ2 ) DS2 = 1. RNDr. Marie Forbelská, PhD. 37 5. KONSTRUKCE BODOVÝCH ODHADŮ Mějme náhodný výběr X = (X1, . . . , Xn)′ rozsahu n z rozdělení o distribuční funkci F(x; θ), kde θ = (θ1, . . . , θm)′ ∈ Θ ⊂ Rm . Množina Θ nechť je neprázdná a otevřená. Budeme předpokládat, že distribuční funkci F(x; θ) lze vyjádřit ve tvaru F(x; θ) = x −∞ f(x; θ)dν(t) x ∈ R θ = (θ1, . . . , θm)′ ∈ Θ, kde ν je σ−konečná míra na (R, B) (např. Lebesgueova nebo čitací) a f(x; θ) je nezáporná měřitelná funkce, tzv. hustota pravděpodobnosti (vzhledem k míře ν). Pak sdružená hustota náhodného vektoru Xn = (X1, . . . , Xn)′ je vzhledem k nezávislosti jednotlivých složek vektoru a jejich stejnému rozdělení rovna fX(x1, . . ., xn; θ) = n i=1 f(xi; θ). Mějme dále parametrickou funkcí γ : Θ → R. Předmětem našeho zájmu bude hodnota parametru θ nebo, obecněji, hodnota některé parametrické funkce γ(θ). 5.1. METODA MOMENTŮ. Předpokládejme, že pro náhodný výběr existují obecné momenty: µ′ k = µ′ k(θ) = EXk i i = 1, . . ., n k = 1, . . ., m. Výběrové obecné momenty jsou definovány vzorcem M′ k = 1 n n i=1 Xk i k = 1, 2, . . . Momentová metoda odhadu parametru θ spočívá v tom, že za odhad ˜θ vezmeme řešení rovnic M′ k = µ′ k(θ) k = 1, . . ., m. a nazveme je odhadem metodou momentů. Někdy se může stát, že m rovnic nepostačuje k jednoznačnému určení ˜θ, pak se většinou připojují další rovnice M′ k = µ′ k(θ) pro k = m + 1, m + 2 atd., až se získá potřebný počet rovnic. To samozřejmě lze provádět jen za předpokladu, že existují příslušné momenty µ′ k. Odhadem dané parametrické funkce γ(θ) metodou momentů rozumíme statistiku γ = γ(θ) . Odhady získané metodou momentů obvykle nejsou dostatečně kvalitní, v jednotlivých konrétních případech zpravidla lze dokázat konzistenci odhadů. 38 M4122 Pravděpodobnost a statistika II Příklad 5.1. Mějme náhodný výběr X = (X1, . . . , Xn)′ rozsahu n z normálního rozdělení o parametrech µ a σ2 , které odhadneme momentovou metodou. Pak θ = (θ1, θ2)′ = (µ, σ2 )′ , tj. m = 2 a Θ = R × (0, ∞). Snadno lze spočítat, že µ′ 1 = ∞ −∞ x 1 √ 2πσ e− 1 2 (x−µ σ ) 2 dx = µ µ′ 2 = ∞ −∞ x2 1 √ 2πσ e− 1 2 (x−µ σ ) 2 dx = µ2 + σ2 . Výběrové obecné momenty jsou rovny M′ 1 = 1 n n i=1 Xi = ¯X M′ 2 = 1 n n i=1 X2 i . Chceme-li najít odhady momentovou metodou, musíme řešit soustavu rovnic: M′ 1 = µ M′ 2 = µ2 + σ2 Z první rovnice ihned dostaneme µ = ¯X, což dosadíme do druhé rovnice a počítáme σ2 = M′ 2 − ¯X2 = 1 n n i=1 X2 i − ¯X2 = 1 n n i=1 X2 i − n ¯X2 =(n−1)S2 = n−1 n S2 , kde S2 = 1 n−1 n i=1 (Xi − ¯X)2 je výběrový rozptyl. Protože Eθ(µ) = Eθ ¯X = µ, vidíme, že že odhad µ je nestranný, avšak Eθ(˜σ2 ) = E n−1 n S2 = n−1 n σ2 , takže σ2 není nestranný, avšak je asymptoticky nestranný. Lze ukázat, že oba odhady jsou konzistentní (slabě i silně). RNDr. Marie Forbelská, PhD. 39 5.2. METODA MAXIMÁLNÍ VĚROHODNOSTI. Označme sdruženou hustotu pravděpodobnosti náhodného vektoru X takto L(θ; x1, . . . , xn) = L(θ1, . . ., θm; x1, . . ., xn) = n i=1 f(xi; θ) a nazveme ji věrohodnostní funkcí náhodného výběru. Odhad θMLE nazveme maximálně věrohodným, jestliže pro každé θ ∈ Θ platí L(θMLE; x1, . . ., xn) ≥ L(θ; x1, . . . , xn) . Zpravidla je vhodnější pracovat s logaritmem funkce L. Pak za předpokladů známých z diferenciálního počtu vede hledání maximálně věrohodného odhadu ˆθ k řešení rovnic ∂ ∂θj ln L(θ1, . . ., θm; x1, . . . , xn) = ∂ ∂θj l(θ; x) = ∂ ∂θj n i=1 ln f(xi; θ1, . . . , θm) = 0 j = 1, . . ., m které jsou ve statistické literatuře známé pod názvem soustava věrohodnostních rovnic. Příklad 5.2. Mějme náhodný výběr X = (X1, . . ., Xn)′ rozsahu n z binomického rozdělení o parametrech m a π. Parametr π odhadneme metodou maximální věrohodnosti. Pro náhodný výběr z binomického rozdělení platí {X1, . . . , Xn} ≃ Bi(m, π) ∼ p(x) = m x πx (1 − π)m−x x = 0, 1, . . ., m, 0 jinak. Věrohodnostní funkce: L(π; X1, . . ., Xn) = n i=1 m Xi πXi (1 − π)m−Xi = π Pn i=1 Xi (1 − π)nm− Pn i=1 Xi n i=1 m Xi = πn ¯X (1 − π)n(m− ¯X) n i=1 m Xi . Logaritmus věrohodnostní funkce: l(π; X1, . . . , Xn) = n i=1 ln m Xi + n ¯X ln π + n(m − ¯X) ln(1 − π) Věrohodnostní rovnice: ∂l ∂π = 1 π n ¯X − 1 1−π n(m − ¯X) = 0 ⇒ πMLE = ¯X m . Vzhledem k tomu, že nepředpokládáme degenerované binomické rozdělení s nulovým rozptylem, takže s pravděpodobností 1 musí platit 0 < ¯X < m, pak snadno ověříme, že jde o maximum, neboť pokud spočítáme druhé parciální derivace ∂2 ∂2π l(π; X1, . . . , Xn) = − 1 π2 n ¯X − 1 (1−π)2 n(m − ¯X) = −n ¯X π2 + m− ¯X (1−π)2 < 0. 40 M4122 Pravděpodobnost a statistika II Příklad 5.3. Mějme náhodný výběr X = (X1, . . . , Xn)′ rozsahu n z normálního rozdělení o parametrech µ a σ2 . Tyto parametry odhadneme metodou maximální věrohodnosti. Opět θ = (θ1, θ2)′ = (µ, σ2 )′ , tj. m = 2 a Θ = R × (0, ∞). Pak L(θ; X1, . . . , Xn) = L(µ, σ2 ; X1, . . . , Xn) = n i=1 1√ 2πσ e− 1 2 (Xi−µ σ ) 2 = (2πσ2 )− n 2 e− 1 2σ2 Pn i=1(Xi−µ)2 ln L(µ, σ2 ; X1, . . . , Xn) = l(µ, σ2 ; X1, . . . , Xn) = −n 2 ln(2πσ2 ) − 1 2σ2 n i=1 (Xi − µ)2 . Vyjádřeme věrohodnostní rovnice ∂ ln L ∂σ2 = −n 2 1 2πσ2 2π + 1 2σ4 n i=1 (Xi − µ)2 = 0 ∂ ln L ∂µ = 1 2σ2 n i=1 2(Xi − µ) = 0 Z druhé rovnice plyne, že µMLE = 1 n n i=1 Xi = ¯X . . . výběrový průměr Po dosazení do první věrohodnostní rovnice dostaneme −nσ2 + n i=1 (Xi − ¯X)2 = 0 ⇒ σ2 MLE = 1 n n i=1 (Xi − ¯X)2 = n−1 n S2 = S∗2 , kde S2 = 1 n−1 n i=1 (Xi − ¯X)2 je výběrový rozptyl. Upravme nejprve logaritmus věrohodnostní funkce takto: l(µ, σ2 ; X1, . . . , Xn) = −n 2 ln(2π) − n 2 ln(σ2 ) − 1 2σ2 n i=1 (Xi − ¯X) + ( ¯X − µ) 2 = −n 2 ln(2π) − n 2 ln(σ2 ) − 1 2σ2 n i=1 (Xi − ¯x)2 + n( ¯X − µ)2 = −n 2 ln(2π) − n 2 ln(σ2 ) − 1 2σ2 nS∗2 + n( ¯X − µ)2 . Nyní dokažme, že funkce l(µ, σ2 ; X1, . . . , Xn) nabývá pro jakoukoliv realizaci x1 = X1(ω), . . ., xn = Xn(ω) pro každé ω ∈ Ω v bodě (µMLE, σ2 MLE ) = (¯x, s∗2 ) svého maxima, takže po dosazení dostáváme l(¯x, s∗2 ; x1, . . ., xn) = −n 2 ln(2π) − n 2 ln(s∗2 ) − n 2 . RNDr. Marie Forbelská, PhD. 41 Ověřme, zda platí l(µ, σ2 ; x1, . . . , xn) ? ≤ l(¯x, s∗2 ; x1, . . . , xn) −n 2 ln(2π) − n 2 ln(σ2 ) − ns∗2+n(¯x−µ)2 2σ2 ? ≤ −n 2 ln(2π) − n 2 ln(s∗2 ) − n 2 0 ? ≤ s∗2 2σ2 − 1 2 − ln s∗ σ 1. člen + (¯x−µ)2 2σ2 ≥0 Protože pro všechna kladná t = s∗ σ > 0 platí ln t < t2−1 2 , je první i druhý člen nezáporný a nerovnost platí. 0 1 2 3 4 −6 −4 −2 0 2 4 6 8 t2−1 2 ln t Protože Eθ(µMLE) = Eθ ¯X = µ, ale Eθ(ˆσ2 MLE ) = Eθ n−1 n S2 = n−1 n σ2 , vidíme že odhad µMLE je nestranný, avšak σ2 MLE již nestranný není (ale asymptoticky nestranný). V tomto případě jsme došli ke stejnému výsledku jako u momentové metody. Poznámka 5.4. Maximálně věrohodné odhady mají řadu výhodných vlastností: (1) Existuje-li vydatný (eficientní) odhad, má soustava věrohodnostních rovnic jediné řešení a to je rovné vydatnému (eficientnímu) odhadu. (2) Existuje-li postačující (suficientní) odhad, je každé řešení věrohodnostních rovnic funkcí postačujícího (suficientního) odhadu. (3) Pochází-li náhodný výběr z regulárního rozdělení, pak existuje maximálně věrohodný odhad, který je konzistentní a asymptoticky normální, tj. v jednorozměrném případě θMLE A ∼ N(θ, nJ(θ)). 5.3. Srovnání metody momentů s metodou maximální věrohodnosti. Obecně se dá říci, že momentová metoda je poměrně jednoduchá. Používá se zejména v těch případech, kdy jiné metody odhadu jsou numericky či z jiných důvodů těžko zvládnutelné. Na druhé straně pokud jde o rozdělení, která nemají konečné momenty, pak se tato metoda nedá aplikovat vůbec. Někdy se odhady pořízené momentovou metodou berou alespoň jako počáteční aproximace pro řešení věrohodnostních rovnic, pokud je pro jejich řešení nutný iterační postup. 42 M4122 Pravděpodobnost a statistika II 5.4. METODA MINIMÁLNÍHO χ2 . Nejprve si připomeňme jedno velmi důležité vícerozměrné diskrétní rozdělení, a to mul- tinomické. Multinomické rozdělení popisuje situaci, kdy máme k neslučitelných jevů, které mohou nastat v každém z n nezávislých pokusů s pravděpodobnostmi π1, . . ., πk přičemž k j=1 πj = 1. Nechť náhodná veličina Yj značí počet případů, kdy nastal j-tý jev, takže Yj může nabývat hodnot od nuly do n a musí platit k j=1 Yj = n. Náhodný vektor Y = (Y1, . . . , Yk)′ pak má multinomické rozdělení s pravděpodobnostní funkcí fY(y) =    n! k j=1 π yj j yj! pro yj = 0, 1, . . ., n; k j=1 yj = n k j=1 πj = 1 0 jinak , což lze ekvivalentně napsat i takto fY(y) = n! π y1 1 · ··· ·π yk−1 k−1 (1−π1−···−πk−1)(n−y1−···−yk−1) y1!· ··· ·yk−1!(n−y1−···−yk−1)! pro yj = 0, 1, . . ., n 0 jinak. a značíme Y ∼ Mn(n, π1, . . . , πk) , přičemž platí pro j, h = 1, . . . , k EYj =nπj DYj =nπj(1 − πj) C(Yj, Yh) = − nπjπh. Multinomické rozdělení je zobecněním binomického rozdělení a je patrně nejdůležitějším diskrétním mnohorozměrným rozdělením. Svým významem by se dalo přirovnat k mnohorozměrnému normálnímu rozdělení, jemuž se podobá především díky dvěma vlastnostem: podmíněná i marginální rozdělení jsou opět multinomická. Nyní se opět vrátíme k náhodnému výběru X = (X1, . . . , Xn)′ rozsahu n z rozdělení o distribuční funkci F(x; θ), kde θ = (θ1, . . . , θm)′ ∈ Θ ⊂ Rm . Při odhadu neznámého parametru θ metodou minimálního χ2 na základě náhodného výběru X = (X1, . . . , Xn)′ postupujeme tak, že (1) rozdělí se interval (−∞, ∞) na konečný počet pod dvou disjunktních podmnožin B1, . . . , Bk (pokud nejde o výběr z diskrétního rozdělení, které nabývá pouze konečného počtu hodnot) RNDr. Marie Forbelská, PhD. 43 (2) určí se pravděpodobnosti pj(θ) = Bj dF(x; θ) jako funkce parametru θ (3) pro danou realizaci náhodného výběru se určí bod θ, v němž funkce χ2 (θ) = k j=1 Yj − npj(θ) npj(θ) 2 nabývá minima, přičemž Yj = n i=1 I(Xi ∈ Bj) je počet bodů X1, . . . , Xn ležících v Bj (samozřejmě musí platit k j=1 Yj = n). Pokud je tato funkce diferencovatelná, hledání minima vede na řešení soustavy rovnic − 1 2 ∂χ2 (θ) ∂θh = k j=1 Yj − npj(θ) pj(θ) + [Yj − npj(θ)]2 2np2 j (θ) ∂pj(θ) ∂θh = 0 (h = 1, . . . , k) (12) vzhledem k neznámým θ1, . . . , θk. Avšak i v nejjedodušších případech je velmi obtížné řešit systém rovnice (12). Potíže způsobuje člen [Yj − npj(θ)]2 2np2 j (θ) . Pro velká n je však vliv tohoto členu zanedbatelný, a proto se řešení soustavy (12) nahrazuje řešením soustavy k j=1 Yj − npj(θ) pj(θ) ∂pj(θ) ∂θh = 0 (h = 1, . . . , k) (13) Tento postup se nazývá modifikovanou metodou minimálního χ2 . Odhady získané oběma metodami jsou při dosti obecných podmínkách konzistentními odhady. 44 M4122 Pravděpodobnost a statistika II 6. INTERVALOVÉ ODHADY 6.1. Definice intervalového odhadu. Odhady, jimiž jsme se doposud zabývali, se někdy nazývají bodové odhady parametrické funkce γ(θ). Je tomu tak proto, že pro danou realizaci náhodného výběru x1, . . . , xn představuje odhad daný statistikou Tn(x1, . . . , xn) jediné číslo (bod), které je v jistém smyslu přiblížením ke skutečné hodnotě parametrické funkce γ(θ). Úlohu odhadu však lze formulovat i jiným způsobem. Jde o to, sestrojit na základě daného náhodného výběru takový interval, jehož konce jsou statistiky, a který se s dostatečně velkou přesností pokryje skutečnou hodnotu parametrické funkce γ(θ). V tomto případě mluvíme o intervalovém odhadu parametrické funkce γ(θ). Podobná je úloha zkonstruovat na základě náhodného výběru statistiku, o níž lze s dostatečně velkou spolehlivostí prohlásit, že skutečná hodnota parametrické funkce je větší než tato statistika. V tomto případě mluvíme o dolním odhadu parametrické funkce γ(θ). Analogicky lze zavést pomocí opačné nerovnosti pojem horního odhadu γ(θ). Definice 6.1. Nechť {X1, . . ., Xn} ≃ F(x; θ) je náhodný výběr rozsahu n z rozdělení o distribuční funkci F(x; θ), θ ∈ Θ. Dále mějme parametrickou funkci γ(θ), α ∈ (0, 1) a statistiky D = D(X1, . . . , Xn) a H = H(X1, . . . , Xn). Potom intervaly D, H nazveme 100(1 − α) % intervalem spolehlivosti pro parametrickou funkci γ(θ) jestliže Pθ(D(X1, . . . , Xn) ≤ γ(θ) ≤ H(X1, . . . , Xn)) = 1 − α Jestliže Pθ(D(X1, . . ., Xn) ≤ γ(θ)) = 1 − α, pak statistiku D = D(X1, . . . , Xn) nazýváme dolním odhadem parametrické funkce γ(θ) se spolehlivostí 1 − α (nebo s rizikem α). Jestliže Pθ(γ(θ) ≤ H(X1, . . . , Xn)) = 1 − α pak statistiku H = H(X1, . . . , Xn) nazýváme horním odhadem parametrické funkce γ(θ) se spolehlivostí 1 − α (nebo s rizikem α). Poznámka 6.2. Vysvětleme si nyní smysl pojmu spolehlivost intervalových odhadů. Konkrétní data x1, . . . , xn (tj. realizace náhodného výběru X = (X1, . . . , Xn)′ ) nejsou náhodnými veličinami, nýbrž jsou to výsledky určitého pokusu ω, tj. x1 = X1(ω), . . ., xn = Xn(ω). Sestrojíme-li tedy na jejich základě intervalový odhad, řekněme (a, b), parametrické funkce γ(θ), pak nemá smysl mluvit o pravděpodobnosti P(a < γ(θ) < b), protože všechny tři symboly jsou reálná čísla (třebaže γ(θ) neznáme) a nerovnost a < γ(θ) < b buď platí nebo neplatí, tj. náš intervalový odhad je buď správný nebo nesprávný. Budeme-li však sestrojovat intervalové odhady vícekrát po sobě, pak poměrná četnost případů, kdy intervalový odhad bude správný, bude přibližně rovna 1 − α. Číslo α se volí poměrně malé, nejčastěji 0.05 spolehlivost je pak 0.95 tj. 95% 0.01 0.99 tj. 99% RNDr. Marie Forbelská, PhD. 45 Kromě dostatečné spolehlivosti bychom chtěli, aby interval Dn(X), Tn(X) byl co možná nejkratší. Tyto požadavky jsou však (při pevném rozsahu výběru n) protichůdné. Žádáme-li větší spolehlivost, musíme se smířit s delším intervalem; žádáme-li naopak kratší interval, musíme se smířit s nižší spolelivostí. 6.2. Kvantily. Nyní definujme kvantilovou funkci a kvantil. Definice 6.3. Nechť F je distribuční funkcí a α ∈ (0, 1). Potom funkci F−1 (α) = Q(α) = inf{x ∈ R : F(x) ≥ α} se nazývá kvantilová funkce a číslo xα = Q(α) se nazývá α-kvantilem rozdělení s distribuční funkcí F(x), přičemž x0.25 = Q(0.25) se nazývá dolní kvartil x0.5 = Q(0.5) medián x0.75 = Q(0.75) horní kvartil x0.75 − x0.25 = IQR interkvartilé rozpětí Z definice kvantilů vyplývá následující vztah. Je-li X absolutně spojitá náhodná veličina, pak platí P(xα/2 < X ≤ x1−α/2) = F(x1−α/2) − F(xα/2) Příklad 6.4. Kvantilová funkce diskrétního rozdělení Uvažujme diskrétní rozdělení, ve kterém náhodná veličina X nabývá pouze tří hodnot 0, 1 2 a 1 se stejnými pravděpodobnostmi. Toto rozdělení nazveme rovnoměrně diskrétní a budeme značit Rd 0, 1 2 , 1 , takže pravděpodobnostní, distribuční a kvantilová funkce jsou tvaru 6 Pravděpodobnostní funkce X ∼ Rd 0, 1 2 , 1 p(x) = 1 3 x = 0, 1 2 , 1 0 jinak. 1 3 r 0 r 1 2 r 1 6 Distribuční funkce F(x) 1 3 2 3 1 0 1 2 1 r r r 6 Kvantilová funkce Q(α) 1 2 1 0 1 3 2 3 1 r r r 46 M4122 Pravděpodobnost a statistika II Příklad 6.5. Kvantilová funkce spojitého rozdělení Uvažujme spojité exponenciální rozdělení s parametrem λ > 0, značíme Ex(λ). Náhodná veličina X nabývá pouze nezáporných hodnot a její hustota je tvaru X ∼ Ex(λ) ∼ f(x) = λe−λx x ≥ 0, λ > 0 0 jinak. Odvodíme distribuční funkci F(x) = x −∞ f(t)dt = 0 x < 0, x 0 λe−λt dt = −e−λt x 0 = 1 − e−λx x ≥ 0. a kvantilovou funkci pro 0 ≤ α ≤ 1 α = 1 − e−λx e−λx = 1 − α −λx = ln(1 − α) x = − ln(1−α) λ ⇒ Q(α) = − ln(1 − α) λ pro 0 ≤ α ≤ 1. Hustota f(x) pro λ = 0.2 0 10 20 30 40 0 0.05 0.1 0.15 0.2 Distribuční funkce F(x) 0 10 20 30 40 0 0.2 0.4 0.6 0.8 1 Kvantilová funkce Q(α) 0 0.2 0.4 0.6 0.8 1 0 5 10 15 20 25 30 35 Na závěr tohoto příkladu ještě nalezneme dolní, horní kvartil a medián. Medián: x0.5 = − ln “ 1− 1 2 ” λ = ln 2 λ Dolní kvartil: x0.5 = − ln “ 1− 1 2 ” λ = ln 4 3 λ Horní kvartil: x0.5 = − ln “ 1− 1 2 ” λ = ln 2 λ 6.3. Kvantily některých důležitých rozdělení. Zaveďme následující značení: Φ distribuční funkce standardizovaného normálního rozdělení Gn distribuční funkce rozdělení χ2 o n stupních volnosti Hn distribuční funkce Studentova rozdělení o n stupních volnosti Qn,m distribuční funkce Fisherova-Snedecorova rozdělení o n a m stupních volnosti uα kvantily standardizovaného normálního rozdělení χ2 α(ν) kvantily rozdělení χ2 o ν stupních volnosti tα(ν) kvantily Studentova rozdělení o ν stupních volnosti Fα(ν1, ν2) kvantily Fisherova-Snedecorova rozdělení o ν1 a ν2 stupních volnosti Je-li distribuční funkce F absolutně spojitá a ryze monotónní a je-li příslušná hustota f sudá funkce, pak platí F(x) = 1 − F(−x) x ∈ R a odtud xα = −x1−α α ∈ (0, 1), což speciálně platí pro normální a Studentovo rozdělení. RNDr. Marie Forbelská, PhD. 47 6.4. Krabicový graf (box plot, box and whisker plot). Velmi často užívaným grafem, který se řadí k metodám průzkumové analýzy dat (EDA - Exploratory Data Analysis) medián x0.5 dolní kvartil x0.25 IQR horní kvartil x0.75 odlehlá pozorování x0.75 + 1.5 IQR 6.5. Empirická (výběrová) kvantilová funkce. Je definována pomocí náhodného výběru {X1, . . . , Xn} takto Qemp(pi) = X(i) pro pi = i− 1 2 n , kde X(1) ≤ X(2) ≤ · · · ≤ X(n) jsou tzv. pořádkové statistiky, tj. uspořádaný náhodný výběr. 0 0.2 0.4 0.6 0.8 1 0 5 10 15 20 25 30 35 Teoritická a empirická kvantilová funkce exponenciálního rozdělení 6.6. Q–Q grafy (Q–Q plots, Quantile–quantile plots). Velmi užitečný graf, pomocí kterého můžeme např. porovnávat • teoretické a výběrové kvantily • kvantily dvou výběrů Na následujících třech obrázcích budeme demostrovat použití Q–Q grafů pro simulovaná data z exponenciálního, Poissonova a normálního rozdělení. Pokud jsou generovaná data ze stejné rodiny rozdělení, body leží zhruba na přímce a platí X(i) ≈ Q(pi) = F−1 (pi) pro X ∼ F(x) a Y(i) ≈ a + bQ(pi) pro Y ∼ F x−a b . Pocházejí-li z různých rozdělení, část bodů leží výrazně mimo přímku. Exponenciální rozdělení 0 5 10 15 20 25 30 0 5 10 15 20 25 30 výběrové kvantily dat z Ex(0.02) teoretickékvantily Poissonovo rozdělení 0 5 10 15 20 −2 0 2 4 6 8 10 12 výběrové kvantily 1. výběr P o(10) výběrovékvantily2.výběrPo(5) Exponenciální a normální rozdělení 0 5 10 15 20 25 30 2 3 4 5 6 7 8 9 10 výběrové kvantily 1. výběr Ex(0.02) výběrovékvantily2.výběrN(5,1) 48 M4122 Pravděpodobnost a statistika II 6.7. Konstrukce intervalových odhadů. Popíšeme nyní jednu metodu konstrukce intervalových odhadů, která je použitelná ve většině případů. (1) Najdeme nějakou tzv. pivotovou statistiku, tj. funkci h náhodného výběru X = (X1, . . . , Xn)′ a parametrické funkce γ(θ), tedy náhodnou veličinu h(X, γ(θ)) , tak aby její rozdělení již nezáviselo na parametru θ. (2) Nechť qα/2 a q1−α/2 jsou kvantily rozdělení statistiky h(X, γ(θ)). Pak pro všechna θ platí Pθ(qα/2 < h(X, γ(θ)) ≤ q1−α/2) = 1 − α (3) Jestliže lze nerovnosti v závorce převést ekvivalentními úpravami na tvar, kde mezi nerovnostmi stojí jen γ(θ), pak jsme sestrojili intervalový odhad Dn(X) ≤ γ(θ) ≤ Hn(X) o spolehlivosti 1 − α. Tedy, je-li h(X, γ(θ)) ryze monotonní funkce, pak existuje inverzní funkce h−1 (h(X, γ(θ))) = γ(θ). (a) Pokud je h(X, γ(θ)) rostoucí funkce, pak platí Pθ(h−1 (qα/2) ≤ γ(θ) ≤ h−1 (q1−α/2) = 1 − α. (b) Pokud je h(X, γ(θ)) klesající funkce, pak platí Pθ(h−1 (q1−α/2) ≤ γ(θ) ≤ h−1 (qα/2) = 1 − α. RNDr. Marie Forbelská, PhD. 49 7. BODOVÉ A INTERVALOVÉ ODHADY PARAMETRŮ NORMÁLNÍHO ROZDĚLENÍ Nechť k, n ∈ N, ν, ν1, ν2, . . . , νk ∈ N, b0, b1, . . . , bn ∈ R, ∃ i ∈ {1, . . ., n} : bi = 0 Připomeňme, že platí: Normální rozdělení: s hustotou X ∼ N(µ, σ2 ) ∼ f(x) = 1√ 2πσ e− 1 2 (x−µ σ ) 2 x ∈ R má střední hodnotu EX = µ a rozptyl DX = σ2 . Toto rozdělení má následující vlastnosti: {X1, . . . , Xn} ∧ Xi ∼ N(µi, σ2 i ) ⇒ b0 + n i=1 biXi ∼ N b0 + n i=1 biµi, n i=1 b2 i σ2 i X ∼ N(µ, σ2 ) ⇒ U = X−µ σ ∼ N(0, 1) χ2 rozdělení: {U1, . . ., Uν} ≃ N(0, 1) ⇒ K = U2 1 + · · · + U2 ν ∼ χ2 (ν) {K1 ∼ χ2 (ν1), . . . , Kk ∼ χ2 (νk)} ⇒ K = K1 + · · · + Kk ∼ χ2 (ν1 + · · · + νk) Studentovo t-rozdělení: U ∼ N(0, 1) ⊥ K ∼ χ2 (ν) ⇒ T = U√K ν ∼ t(ν) Fisherovo-Snedecorovo F-rozdělení: K1 ∼ χ2 (ν1) ⊥ K2 ∼ χ2 (ν2) ⇒ F = K1/ν1 K2/ν2 ∼ F(ν1, ν2) Ještě než začneme odvozovat rozdělení výběrových statistik, připomeňme si, že platí věty: Věta 7.1. Nechť náhodný vektor X = (X1, . . . , Xn)′ ∼ Nn(µ, Σ) má n−rozměrné normální rozdělení a B je regulární matice reálných čísel typu n × n a a ∈ Rn . Potom náhodný vektor Y = a + BX ∼ Nn(a + Bµ, B′ ΣB). Důkaz. Hustota pravděpodobnosti náhodného vektoru X je tvaru fX(x) = (2π)− n 2 |Σ|− 1 2 e− 1 2 (X−µ)′Σ−1 (X−µ) . Inverzní transformace k transformaci Y = a + BX je rovna X = B−1 (Y − a) a jakobián této inverzní transformace je tvaru |J| = B−1 = |B|−1 . Pak hustotu pravděpodobnosti transformované náhodného vektoru Y = a + BX 50 M4122 Pravděpodobnost a statistika II lze vyjádřit takto fY(y) = fX(B−1 (Y − a))|B|−1 = (2π)− n 2 |Σ|− 1 2 |B|−1 e− 1 2 [B−1(y−a)−µ]′Σ−1 [B−1(y−a)−µ] = (2π)− n 2 |B′ ΣB|− 1 2 e− 1 2 (y−a−Bµ)′|B′ΣB|−1(y−a−Bµ) ∼ Nn(a + Bµ, B′ ΣB) Věta 7.2. Nechť X1, . . . , Xn jsou nezávislé náhodné veličiny takové, že Xi ∼ N(µi, σ2 ) i = 1, . . . , n. a B je ortonormální matice typu n × n. Položme X = (X1, . . . , Xn)′ a Y = (Y1, . . . , Yn)′ = B′ (X − µ), kde µ = (µ1, . . . , µn)′ . Potom Yj jsou nezávislé náhodné veličiny a Yj ∼ N(0, σ2 ). Důkaz. Protože X1, . . . , Xn jsou nezávislé náhodné veličiny s rozdělením Xi ∼ N(µi, σ2 ), má náhodný vektor X hustotu pravděpodobnosti fX(x) = n i=1 1√ 2πσ e− 1 2 (xi−µi σ ) 2 = (2π)− n 2 e− 1 2 Pn i=1(xi−µi σ ) 2 ∼ Nn(µ, Σ), kde Σ = σ2 In. Je-li B ortonormální matice (tj. B−1 = B′ ), pak z věty 7.1 plyne, že náhodný vektor Y = B′ (X − µ) ∼ Nn(O, B′ ΣB), kde B′ ΣB = σ2 B′ B = σ2 In s hustotou pravděpodobnosti fY(Y) = n j=1 1√ 2πσ e− 1 2 ( yj σ ) 2 = n j=1 fYj (yj). Odtud plyne tvrzení věty. Na základě těchto vlastností můžeme odvodit rozdělení výběrových statistik v případě náhodných výběrů z normálního rozdělení. Věta 7.3. Mějme {X1, . . . , Xn} ≃ N(µ, σ2 ) a výběrový průměr ¯X = 1 n n i=1 Xi a výběrový rozptyl S2 = 1 n−1 n i=1 (Xi − ¯X)2 . Pak platí (1) Výběrový průměr ¯X ∼ N µ, σ2 n (2) Statistika U = ¯X−µ σ √ n ∼ N(0, 1) (3) Statistika K = n−1 σ2 S2 ∼ χ2 (n − 1) (4) Statistika T = ¯X−µ S √ n ∼ t(n − 1) Důkaz. Mějme ortonormální matici typu n × n, jejíž první řádek je 1√ n , . . . , 1√ n ′ , tj. např. B=            b′ 1 b′ 2 b′ 3 ... b′ n−1 b′ n            =            1√ n 1√ n · · · · · · · · · 1√ n 1√ 1·2 − 1√ 1·2 0 · · · · · · 0 1√ 2·3 1√ 2·3 − 2√ 2·3 0 · · · 0 ... ... ... ... ... 0 1√ (n−2)(n−1) 1√ (n−2)(n−1) · · · 1√ (n−2)(n−1) − n−2√ (n−2)(n−1) 0 1√ (n−1)n 1√ (n−1)n · · · · · · 1√ (n−1)n − n−1√ (n−1)n            . RNDr. Marie Forbelská, PhD. 51 Podle věty 7.2 Y = (Y1, . . . , Yn)′ = B(X − µ) ∼ N(0, σ2 In) a Yi jsou nezávislé normálně rozdělené náhodné veličiny s nulou střední hodnotou a se stejným rozptylem σ2 . Nejprve dokážeme důležité vztahy (a) Počítejme: Y′ Y = (X − µ)′ B′ B =In (X − µ) = (X − µ)′ (X − µ) = n i=1 (Xi − µ)2 . (b) Vyjádřeme Y1 = b′ 1(X − µ) = 1√ n n i=1(Xi − µ) = 1√ n (n ¯X − nµ) = √ n( ¯X − µ) . (c) Nakonec spočítejme n i=1 (Xi − ¯X)2 = n i=1 [(Xi − µ) − ( ¯X − µ)]2 = n i=1 (Xi − µ)2 Y′Y −2( ¯X − µ) n i=1 (Xi − µ) n( ¯X−µ) +n( ¯X − µ)2 = Y′ Y − n( ¯X − µ)2 Y 2 1 = n i=1 Y 2 i − Y 2 1 = n i=2 Y 2 i . Nyní budeme dokazovat jednotlivá tvrzení věty: (1) Ze vztahu (b) dostaneme Y1 = √ n( ¯X − µ) = b′ 1(X − µ) ∼ N(µY1 , σ2 Y1 ), přičemž µY1 = b′ 1E(X − µ) = b′ 1(µ − µ) = 0 σ2 Y1 = b′ 1DXb1 = σ2 b′ 1b1 = σ2 . Odtud ihned dostaneme, že ¯X = µ + Y1 √ n ∼ N µ, σ2 n . Provedeme-li standardizaci, tj. takovou lineární transformaci, která zajišťuje nulovou střední hodnotu a jednotkový rozptyl, dostaneme první tvrzení věty: U = U ¯X = ¯X − E ¯X √ D ¯X = ¯X − µ σ √ n ∼ N(0, 1). (2) Náhodné veličiny Yi jsou nezávislé normálně rozdělené náhodné veličiny s nulou střední hodnotou a se stejným rozptylem σ2 , tj. {Y1, . . . , Yn} ≃ N(0, σ2 ). Provedeme-li opět jejich standardizaci, dostaneme posloupnost nezávislých standardizovaných normálních náhodných veličin {Y1 σ , . . . , Yn σ } ≃ N(0, 1), jejichž kvadráty Ki = Yi σ 2 mají χ2 rozdělení o jednom stupni volnosti, tj. {K2 = Y2 σ 2 , . . . , Kn = Yn σ 2 } ≃ χ2 (1). 52 M4122 Pravděpodobnost a statistika II Protože náhodná veličina, která je součtem několika nezávislých náhodných veličin s χ2 rozdělením, má opět χ2 rozdělení, přitom její stupeň volnosti je roven součtu jednotlivých stupňů volnosti, dostáváme druhé tvrzení věty: K = K2 + · · · + Kn = n i=2 Yi σ 2 = n−1 σ2 S2 ∼ χ2 (n − 1). (3) Protože Y1, . . . , Yn jsou nezávislé náhodné veličiny a nám se již dříve podařilo vyjádřit výběrový průměr a výběrový rozptyl takto ¯X = µ + Y1 √ n a S2 = 1 n − 1 n i=2 Y 2 i , je vidět, že statistiky ¯X a S2 jsou stochasticky nezávislé, značíme ¯X ⊥ S2 . Abychom dostali náhodnou veličinu, která má Studentovo rozdělení, potřebujeme mít dvě nezávislé náhodné veličiny, z nichž jedna, označme ji jako U∗ , má standardizované normální rozdělení, a druhá, označme ji jako K∗ , má χ2 rozdělení s ν stupni volnosti. Pak náhodná veličina T∗ = U∗ √K∗ ν má Studentovo rozdělení s ν stupni volnosti, tj. U∗ ∼ N(0, 1) ⊥ K∗ ∼ χ2 (ν) ⇒ T∗ = U∗ K∗ ν ∼ t(ν). Položíme-li U∗ = U = U ¯X = ¯X − µ σ √ n ∼ N(0, 1) a K∗ = K = n−1 σ2 S2 ∼ χ2 (n − 1) pak statistika T∗ = U∗ K∗ ν = ¯X−µ σ √ n n−1 σ2 S2 n−1 = ¯X − µ S √ n ∼ t(n − 1), čímž jsme dokázali poslední tvrzení věty. Poznámka 7.4. Statistiky U , K a T se nazývají pivotové statistiky, přičemž U = ¯X−µ σ √ n je pivotovou stastistikou pro neznámý parametr µ při známém σ K = n−1 σ2 S2 - ” - σ2 T = ¯X−µ S √ n - ” - µ při neznámém σ RNDr. Marie Forbelská, PhD. 53 Důsledek 7.5. Mějme {X1, . . . , Xn} ≃ N(µ, σ2 ), kde µ je neznámý parametr a σ2 ∈ R je známé reálné číslo. Pak ¯X − u1−α/2 σ√ n , ¯X + u1−α/2 σ√ n - je 100(1 − α)% interval spolehlivosti pro střední hodnotu µ při známém σ2 ¯X − u1−α σ√ n - je dolní odhad střední hodnoty µ při známém σ2 se spolehlivostí 1 − α ¯X + u1−α σ√ n - je horní odhad střední hodnoty µ při známém σ2 se spolehlivostí 1 − α Důkaz. Za pivotovou statistiku zvolíme statistiku U = U ¯X = ¯X−µ σ √ n ∼ N(0, 1). uα/2 = − u1−α/2 u1−α/2 1 − α α/2 α/2 U ∼ N(0,1) Pro lepší čitelnost místo Pθ = Pµ budeme psát pouze P. Počítejme 1 − α = P(uα 2 ≤ U ≤ u1− α 2 ) = P(uα 2 ≤ ¯X−µ σ √ n ≤ u1− α 2 ) = P( ¯X − u1−α/2 σ√ n ≤ µ ≤ ¯X + u1−α/2 σ√ n ) Důsledek 7.6. Mějme {X1, . . . , Xn} ≃ N(µ, σ2 ), kde µ a σ2 jsou neznámé parametry. Pak (1) pro střední hodnotu µ ¯X − t1−α/2(n−1) S√ n , ¯X + t1−α/2(n−1) S√ n - je 100(1 − α)% interval spolehlivosti pro střední hodnotu µ při neznámém σ2 ¯X − t1−α(n − 1) S√ n - je dolní odhad střední hodnoty µ při neznámém σ2 se spolehlivostí 1 − α ¯X + t1−α(n − 1) S√ n - je horní odhad střední hodnoty µ při neznámém σ2 se spolehlivostí 1 − α (2) pro rozptyl σ2 (n−1)S2 χ2 1− α 2 (n−1) , (n−1)S2 χ2 α 2 (n−1) - je 100(1 − α)% interval spolehlivosti pro rozptyl σ2 (n−1)S2 χ2 1−α(n−1) - je dolní odhad rozptylu σ2 se spolehlivostí 1 − α (n−1)S2 χ2 α(n−1) - je horní odhad rozptylu σ2 se spolehlivostí 1 − α 54 M4122 Pravděpodobnost a statistika II Důkaz. (1) V případě hledání intervalu spolehlivosti pro střední hodnotu při neznámém rozptylu za pivotovou statistiku zvolíme statistiku T = ¯X − µ S √ n ∼ t(n − 1). tα/2 (ν) = − t1−α/2 (ν) t1−α/2 (ν) 1 − α α/2 α/2 T ∼ t(ν) Pro lepší čitelnost místo Pθ = Pµ,σ2 budeme psát pouze P. 1 − α = P(tα/2(n−1) ≤ T ≤ t1−α/2(n−1)) = P(tα/2(n−1) ≤ ¯X−µ S √ n ≤ t1−α/2(n−1)) = P( ¯X − t1−α/2(n−1) S√ n ≤ µ ≤ ¯X + t1−α/2(n−1) S√ n ) (2) V případě hledání intervalu spolehlivosti pro rozptyl za pivotovou statistiku zvolíme statistiku K = n − 1 σ2 S2 ∼ χ2 (n − 1). Počítejme 1 − α = P(χ2 α 2 (n − 1)) ≤ K ≤ χ2 1− α 2 (n − 1) = P(χ2 α 2 (n − 1) ≤ n−1 σ2 S2 ≤ χ2 1−α 2 (n − 1)) = P (n − 1)S2 χ2 1− α 2 (n − 1) ≤ σ2 ≤ (n − 1)S2 χ2 α 2 (n − 1) χ α/2 2 (ν) χ 1−α/2 2 (ν) 1 − α α/2 α/2 K ∼ χ2 (ν) V dalším si budeme všímat intervalů spolehlivosti pro dva nezávislé výběry. Věta 7.7. Nechť {X1, . . . , XnX } ∼ N(µX, σ2 X) je náhodný výběr rozsahu nX z normálního rozdělení N(µX, σ2 X), ¯X je jeho výběrový průměr a S2 X jeho výběrový rozptyl. Dále nechť {Y1, . . . , YnY } ∼ N(µY , σ2 Y ) je náhodný výběr rozsahu nY z normálního rozdělení N(µY , σ2 Y ), ¯Y je jeho výběrový průměr a S2 Y jeho výběrový rozptyl. Předpokládejme, že oba výběry jsou stochasticky nezávislé, tj. X ⊥ Y. Pak (1) Statistika U ¯X− ¯Y = ¯X − ¯Y − (µX − µY ) σ2 X nx + σ2 Y nY ∼ N(0, 1). (2) Pokud σ2 X = σ2 Y = σ2 , pak statistika T ¯X− ¯Y = ¯X − ¯Y − (µX − µY ) SXY nXnY nX + nY ∼ t(nX + nY − 2), kde S2 XY = (nX−1)S2 X +(nY−1)S2 Y nX+nY −2 . (3) Statistika F = S2 X S2 Y σ2 Y σ2 X ∼ F(nX − 1, nY − 1). RNDr. Marie Forbelská, PhD. 55 Důkaz. Z nezávislosti náhodných výběrů vyplývá, že všechny statistiky ¯X, ¯Y , S2 X a S2 Y jsou nezávislé, tj. { ¯X, ¯Y , S2 X, S2 Y }. (1) Protože výběrové průměry normálních náhodných výběrů mají opět normální rozdělení, tj. ¯X ∼ N µX, σ2 X nX a ¯Y ∼ N µY , σ2 Y nY , tak i jejich rozdíl je opět normální, tj. Z = ¯X − ¯Y ∼ N µX − µY , σ2 X nX + σ2 Y nY . Potom standardizovaná náhodná veličina UZ má standardní normální rozdělení, tj. UZ = U ¯X− ¯Y = ¯X − ¯Y − (µX − µY ) σ2 X nX + σ2 Y nY ∼ N(0, 1), tím jsme dokázali první tvrzení věty. (2) Je-li σ2 X = σ2 Y = σ2 , pak statistika UZ je tvaru UZ = U ¯X− ¯Y = ¯X − ¯Y − (µX − µY ) σ2 X nx + σ2 Y nY = ¯X − ¯Y − (µX − µY ) σ 1 nX + 1 nY = ¯X − ¯Y − (µX − µY ) σ nXnY nX + nY ∼ N(0, 1). Označíme-li dvě nezávislé statistiky s χ2 rozdělením KX = nX − 1 σ2 S2 X ∼ χ2 (nX − 1) a KY = nY − 1 σ2 S2 Y ∼ χ2 (nY − 1), pak statistika K = KX +KY má opět χ2 rozdělení se stupni volnosti, které jsou součtem stupňů volnosti statistik KX a KY , tj. K = KX + KY = nX − 1 σ2 S2 X + nY − 1 σ2 S2 Y = 1 σ2 (nX − 1)S2 X + (nY − 1)S2 Y ∼ χ2 (nX + nY − 2). Položme S2 XY = (nX − 1)S2 X + (nY − 1)S2 Y nX + nY − 2 , pak K = nX + nY − 2 σ2 S2 XY . Abychom dostali náhodnou veličinu, která má Studentovo rozdělení, potřebujeme mít dvě nezávislé náhodné veličiny, z nichž jedna, označme ji jako U∗ , má standardizované normální rozdělení, a druhá, označme ji jako K∗ , má χ2 rozdělení s ν stupni volnosti. Pak náhodná veličina T∗ = U∗ √K∗ ν má Studentovo rozdělení s ν stupni volnosti, tj. U∗ ∼ N(0, 1) ⊥ K∗ ∼ χ2 (ν) ⇒ T∗ = U∗ K∗ ν ∼ t(ν). 56 M4122 Pravděpodobnost a statistika II Položíme-li U∗ = U = U ¯X− ¯Y = ¯X − ¯Y − (µX − µY ) σ nXnY nX + nY ∼ N(0, 1) a K∗ = K = nX + nY − 2 σ2 S2 XY ∼ χ2 (nX + nY − 2) pak statistika T∗ = U∗ K∗ ν = ¯X− ¯Y −(µX −µY ) σ nX nY nX+nY nX +nY −2 σ2 S2 XY nX +nY −2 = ¯X − ¯Y − (µX − µY ) SXY nXnY nX + nY ∼ t(nX + nY − 2), čímž jsme dokázali druhé tvrzení věty. (3) Chceme-li dokázat třetí tvrzení, musíme najít dvě nezávislé náhodné veličiny, které mají χ2 rozdělení. Označme je K∗ 1 ∼ χ2 (ν1) a K∗ 2 ∼ χ2 (ν2). Pak náhodná veličina F∗ = K∗ 1 /ν1 K∗ 2 /ν2 ∼ F(ν1, ν2). Položíme-li K∗ 1 = KX = nX − 1 σ2 X S2 X a K∗ 2 = KY = nY − 1 σ2 Y S2 Y , dostáváme F∗ = K∗ 1 /ν1 K∗ 2 /ν2 = nX −1 σ2 X S2 X/(nX − 1) nY −1 σ2 Y S2 Y /(nY − 1) = S2 X S2 Y σ2 Y σ2 X ∼ F(nX − 1, nY − 1) a tím jsme dokázali i poslední tvrzení věty. RNDr. Marie Forbelská, PhD. 57 Důsledek 7.8. Nechť {X1, . . . , XnX } ∼ N(µX, σ2 X) je náhodný výběr rozsahu nX z normálního rozdělení N(µX, σ2 X), ¯X je jeho výběrový průměr a S2 X jeho výběrový rozptyl. Dále nechť {Y1, . . . , YnY } ∼ N(µY , σ2 Y ) je náhodný výběr rozsahu nY z normálního rozdělení N(µY , σ2 Y ), ¯Y je jeho výběrový průměr a S2 Y jeho výběrový rozptyl. Předpokládejme, že oba výběry jsou stochasticky nezávislé, tj. X ⊥ Y. Pak (1) jsou-li σ2 Y a σ2 X známé , pak 100(1 − α)% interval spolehlivosti pro rozdíl středních hodnot µX − µY je tvaru ¯X − ¯Y − u1− α 2 σ2 X nX + σ2 Y nY , ¯X − ¯Y + u1− α 2 σ2 X nX + σ2 Y nY . (2) Jestliže σ2 Y a σ2 X nejsou známé a platí σ2 Y = σ2 X = σ2 , pak 100(1−α)% interval spolehlivosti pro rozdíl středních hodnot µX − µY je tvaru ¯X − ¯Y − t1− α 2 (nX +nY −2) SXY nX+nY nX nY , ¯X − ¯Y + t1− α 2 (nX +nY −2) SXY nX+nY nXnY , kde S2 XY = (nX −1)S2 X + (nY −1)S2 Y nX + nY − 2 . (3) Při neznámých µx, µY , σ2 X, σ2 Y je 100(1 − α)% interval spolehlivosti pro podíl rozptylů σ2 X σ2 Y roven S2 X S2 Y 1 F1− α 2 (nX −1, nY −1) , S2 X S2 Y 1 Fα 2 (nX −1, nY −1) . Důkaz. Obdobně jako v předchozí větě (1) jako pivotovou statistiku použijeme U ¯X− ¯Y = ¯X − ¯Y − (µX − µY ) σ2 X nx + σ2 Y nY ∼ N(0, 1). u α/2 = − u 1−α/2 u 1−α/2 1 − α α/2 α/2 U ∼ N(0,1) Počítejme 1 − α = P uα 2 ≤ U ¯X− ¯Y ≤ u1− α 2 = P  uα 2 ≤ ¯X − ¯Y − (µX − µY ) σ2 X nx + σ2 Y nY ≤ u1− α 2   = P ¯X − ¯Y − u1− α 2 σ2 X nX + σ2 Y nY ≤ µX − µY ≤ ¯X − ¯Y + u1− α 2 σ2 X nX + σ2 Y nY Tím jsme dokázali první tvrzení. (2) V případě hledání intervalu spolehlivosti pro rozdíl středních hodnot při neznámém rozptylu σ2 = σ2 X = σ2 Y za pivotovou statistiku zvolíme statistiku T ¯X− ¯Y = ¯X − ¯Y − (µX − µY ) SXY nXnY nX + nY ∼ t(nX + nY − 2), kde S2 XY = (nX −1)S2 X + (nY −1)S2 Y nX + nY − 2 . 58 M4122 Pravděpodobnost a statistika II Označme ν = nX +nY −2 a počítejme 1 − α = P(tα/2(ν) ≤ T ¯X−¯Y ≤ t1−α/2(ν)) = P tα/2(ν) ≤ ¯X− ¯Y −(µX −µY ) SXY nXnY nX +nY ≤ t1−α/2(ν) = P ¯X− ¯Y −t1−α 2 (ν) S nX+nY nX nY ≤ µX − µY ≤ ¯X− ¯Y +t1−α 2 (ν) S nX+nY nX nY , t α/2 (ν) = − t 1−α/2 (ν) t 1−α/2 (ν) 1 − α α/2 α/2 T ∼ t(ν) čímž jsme dokázali druhé tvrzení. (3) V případě hledání intervalu spolehlivosti pro podíl rozptylů za pivotovou statistiku zvolíme statistiku F = S2 X S2 Y σ2 Y σ2 X ∼ F(nX − 1, nY − 1). Položme ν1 = nX − 1 a ν2 = nY − 1 a počítejme F α/2 (ν 1 ,ν 2 ) F 1−α/2 (ν 1 ,ν 2 ) 1 − α α/2 α/2 F ∼ F(ν1 ,ν2 ) 1 − α = P(Fα 2 (ν1, ν2)) ≤ F ≤ F1− α 2 (ν1, ν2)) = P Fα 2 (ν1, ν2)) ≤ S2 X S2 Y σ2 Y σ2 X ≤ F1− α 2 (ν1, ν2)) = P S2 X S2 Y 1 F1− α 2 (nX −1, nY −1) ≤ σ2 X σ2 Y ≤ S2 X S2 Y 1 Fα 2 (nX −1, nY −1) a tím jsme dokázali i poslední tvrzení. Poznámka 7.9. Ve statistických tabulkách bývají uváděny kvantily F-rozdělení pouze pro hodnoty α ≥ 0.5. Ukážeme, proč není třeba uvádět hodnoty kvantilů pro α < 0.5. Uvažujme místo pivotové statistiky F statistiku F∗ = S2 Y S2 X σ2 X σ2 Y = 1 F ∼ F(nY − 1, nx − 1). Opět označme ν1 = nX − 1 a ν2 = nY − 1 a počítejme interval spolehlivosti pro takto navrženou pivotovou statistiku 1 − α = P(Fα 2 (ν2, ν1)) ≤ F∗ ≤ F1− α 2 (ν2, ν1)) = P Fα 2 (ν2, ν1)) ≤ S2 Y S2 X σ2 X σ2 Y ≤ F1− α 2 (ν2, ν1)) = P S2 X S2 Y Fα 2 (nY −1, nX −1) ≤ σ2 X σ2 Y ≤ S2 X S2 Y F1− α 2 (nY −1, nX −1) Takže F1− α 2 (nY −1, nX −1) = 1 Fα 2 (nX −1, nY −1) a interval spolehlivosti pro σ2 X σ2 Y lze vyjádřit i takto S2 X S2 Y 1 F1− α 2 (nX−1,nY−1) , S2 X S2 Y F1− α 2 (nY −1, nX −1) . RNDr. Marie Forbelská, PhD. 59 V dalším se zaměříme na interval spolehlivosti pro rozdíl středních hodnot u tzv. párových výběrů. Věta 7.10. Nechť X1 = (X1, Y1)′ , . . . , Xn = (Xn, Yn)′ je náhodný výběr z dvourozměrného normálního rozdělení N2(µ, Σ) s parametry µ = µX µY a Σ = σ2 X ρσXσY ρσXσY σ2 Y , kde µX, µY ∈ R, σ2 X > 0, σ2 Y > 0 a ρ ∈ (0, 1). Pro i = 1, . . . , n označme Zi = Xi − Yi ¯Z = 1 n n i=1 Zi S2 Z = 1 n−1 n i=1(Zi − ¯Z)2 . Pak ¯Z − t1− α 2 (n − 1) SZ √ n , ¯Z + t1− α 2 (n − 1) SZ √ n je intervalový odhad parametrické funkce µX − µY o spolehlivosti 1 − α. Důkaz. Připomeňme, že marginální náhodné veličiny vícerozměrného náhodného vektoru jsou opět normální náhodné veličiny, tj. {X1, . . . , Xn} ≃ N(µX, σ2 X) a {Y1, . . . , Yn} ≃ N(µY , σ2 Y ). Takže pro jejich rozdíl Zi = Xi − Yi i = 1, . . . , n platí, že mají také normální rozdělení {Z1, . . . , Zn} ≃ N(µZD, σ2 Z), kde EZi = E(Xi − Yi) = µx − µY DZi = D(Xi − Yi) = C(Xi − Yi, Xi − Yi) = C(Xi, Xi) − C(Xi, Yi) − C(Yi, Xi) + C(Yi, Yi) = DXi − 2 C(Xi, Yi) =ρσX σY +DYi = σ2 X − 2ρσXσY + σ2 Y . Budeme-li aplikovat důsledek 7.6 na Z1, . . . , Zn, dostaneme tvrzení věty. 60 M4122 Pravděpodobnost a statistika II 8. BODOVÉ A INTERVALOVÉ ODHADY ZALOŽENÉ NA CENTRÁLNÍ LIMITNÍ VĚTĚ Odhady parametrů normálního rozdělení, které jsme doposud zkoumali, mají díky centrální limitní větě (CLV) širší použití. Často lze najít takovou transformaci h , že náhodná veličina h(X, γ(θ)) má pro n → ∞ asymptoticky standardizované normální rozdělení N(0, 1) , tj. h(X, γ(θ)) A ∼ N(0, 1) Přitom rozdělení, z něhož výběr pochází - nemusí splňovat požadavky spojitosti a ryzí monotonie distribuční funkce, - může být i diskrétní. Bodové i intervalové odhady lze pak sestrojit stejným způsobem jako v případě normálních náhodných výběrů, jejich spolehlivost bude 1 − α jen přibližně, tj. asymptoticky. Věta 8.1. Mějme {X1, . . . , Xn} ≃ L(µ(θ), σ2 (θ)) a výběrový průměr ¯X = 1 n n i=1 Xi. Nechť S2 ∗ = S2 ∗(X) je (slabě) konzistentním odhadem rozptylu σ2 (θ). Pak statistika U∗ = ¯X−µ(θ) S∗ √ n A ∼ N(0, 1). Důkaz. Podle Lindebergovy-Levyho CLV mají standardizované průměry asymptoticky standardizované normální rozdělení, tj. U ¯X = ¯X − E ¯X √ D ¯X = ¯X − µ(θ) σ2(θ) n = ¯X − µ(θ) σ(θ) √ n A ∼ N(0, 1), což lze ekvivalentně napsat také takto U ¯X L → U ∼ N(0, 1). Abychom dokázali, že také U∗ = ¯X−µ(θ) S∗ √ n A ∼ N(0, 1), budeme potřebovat následující tvrzení, které uvedeme bez důkazu (lze najít např. v knize Rao, R. C.: Lineární metody statistické indukce a jejich aplikace. Academia Praha, 1978) Jestliže Zn L → Z ∧ Yn P → c ⇒ Zn · Yn L → cZ Pokud položíme Zn = U ¯X L → Z = U a Yn = σ(θ) S∗ P → 1, neboť S2 ∗ je (slabě) konzistentním odhadem rozptylu σ2 (θ), pak již dostaneme tvrzení věty, tj. U∗ = ZnYn = ¯X−µ(θ) S∗ √ n L → cZ = 1 · U ∼ N(0, 1). Jako transformaci jsme zvolili funkci h(X, µ(θ)) = U ¯X · σ(θ) S∗ = ¯X−µ(θ) S∗ √ n. RNDr. Marie Forbelská, PhD. 61 Důsledek 8.2. Nechť {X1, . . . , Xn} ≃ L(µ(θ), σ2 (θ)) je náhodný výběr s konečnými druhými momenty. Potom intervalovým odhadem střední hodnoty µ(θ) o asymptotické spolehlivosti 1 − α je interval ¯X − u1− α 2 S√ n , ¯X + u1− α 2 S√ n , kde S2 je výběrový rozptyl, tj. S2 = 1 n−1 n i=1 (Xi − ¯X). Důkaz. Důkaz je zřejmý, neboť S2 ∗ = S2 je konzistentním odhadem rozptylu a jako pivotovou statistiku jsme při tvorbě intervalového odhadu použili U∗ s asymptoticky standardizovaným normálním rozdělením. Důsledek 8.3. (Binární náhodné výběry). Nechť {X1, . . ., Xn} ≃ A(p) je náhodný výběr s alternativním (binárním) rozdělením. Potom intervalovým odhadem parametru p o asymptotické spolehlivosti 1 − α je interval ¯X − u1− α 2 ¯X(1− ¯X) n , ¯X + u1− α 2 ¯X(1− ¯X) n . Důkaz. Nejprve připomeňme, že pro náhodné veličiny s alternativním (binárním) rozdělením platí EXi = p a DXi = p(1 − p). Protože ¯X je konzistentním odhadem střední hodnoty, což je parametr p, pak statistika S2 ∗ = ¯X(1 − ¯X) je konzistentním odhadem rozptylu p(1 − p). Při tvorbě intervalového odhadu jako pivotovou statistiku jsme opět použili U∗ s asymptoticky standardizovaným normálním rozdělením. Důsledek 8.4. (Poissonovské náhodné výběry). Nechť {X1, . . . , Xn} ≃ Po(λ) je náhodný výběr s Poisonovým rozdělením. Potom intervalovým odhadem parametru λ (0 < λ < ∞) o asymptotické spolehlivosti 1 − α je interval ¯X − u1− α 2 ¯X n , ¯X + u1− α 2 ¯X n . Důkaz. Připomeňme, že pro náhodné veličiny s Poissonovým rozdělením platí EXi = DXi = λ. Protože ¯X je konzistentním odhadem střední hodnoty, což je parametr λ, pak statistika S2 ∗ = ¯X je konzistentním odhadem rozptylu λ. Při tvorbě intervalového odhadu jako pivotovou statistiku jsme opět použili U∗ s asymptoticky standardizovaným normálním rozdělením. 62 M4122 Pravděpodobnost a statistika II 9. TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ Mějme náhodný výběr X = (X1, . . . , Xn)′ rozsahu n z rozdělení o distribuční funkci F(x; θ), kde θ = (θ1, . . ., θm)′ ∈ Θ ⊂ Rm . Množina Θ nechť je neprázdná a otevřená. Předpokládejme, že o parametru θ existují dvě konkurující si hypotézy: H0: θ ∈ Θ0 ⊂ Θ H1: θ ∈ Θ1 = Θ − Θ0 Tvrzení H0 se nazývá nulovou hypotézou. H1 alternativní hypotézou. . Je-li Θ0 Θ1 jednobodová, nazývá se jednoduchou, v opačném případě složenou hypotézou. O platnosti této hypotézy se má rozhodnout na základě náhodného výběru X = (X1, . . ., Xn)′ , a to tak, že ր zamítneme nebo ց nezamítneme platnost hypotézy H0. Na testování použijeme statistiku Tn = T(X), kterou nazýváme testovací statistikou. Množinu hodnot, které může testovací statistika nabýt, rozdělíme na dvě disjunktní oblasti. Jednu označíme Wα , a nazveme ji kritickou oblastí (nebo také oblastí zamítnutí hypotézy) a druhá je doplňkovou oblastí (oblast nezamítnutí testované hypotézy). Na základě realizace náhodného výběru x = (x1, . . . , xn)′ vypočítáme hodnotu testovací statistiky tn = T(x). • Pokud hodnota testovací statistiky tn nabude hodnoty z kritické oblasti, tj. tn = T(x) ∈ Wα , pak nulovou hypotézu zamítáme. • Pokud hodnota testovací statistiky nabude hodnoty z oblasti nezamítnutí, tj. tn = T(x) /∈ Wα , tak nulovou hypotézu nezamítáme, což ovšem neznamená že přijímáme alternativu. Toto rozhodnutí nemusí však být správné. V následující tabulce jsou uvedeny možné situace H0 platí neplatí zamítáme chyba 1. druhu (α0 je hladina testu) O.K. (tzv. síla testu či silofunkce) tn = T (x) ∈ Wα α0 =supθ∈Θ0 Pθ(T (X) ∈ Wα|H0)≤α 1−β(θ)=Pθ(T (X) ∈ Wα|H1) pro θ ∈ Θ1 nezamítáme O.K. chyba 2. druhu tn = T (x) /∈ Wα β(θ) = Pθ(T (X) ∈ Wα|H1) pro θ ∈ Θ1 Volba kritického oboru Wα se řídí požadavky: (1) Chceme, aby pravděpodobnost chyby 1. druhu byla menší nebo rovna předem zvolenému malému α ∈ (0, 1) (obvykle se volí α = 0.01 nebo α = 0.05), tj. aby platilo pro ∀θ ∈ Θ0 α0 = sup θ∈Θ0 Pθ(T(X) ∈ Wα|H0) ≤ α. Pro spojitá rozdělení je vždy možné (i když ne nutné) zvolit test, jehož hladina je právě rovna α. U diskrétních rozdělení jsou možnými hladinami testu jen některé diskrétní hodnoty. Není-li zvolená hladina mezi nimi, rozhodneme se pro hladinu, která je nejbližší nižší (nebo nejbližší vyšší). (2) Mezi testy na hladině α se pak snažíme zvolit test s co nejmenší pravděpodobností chyby druhého druhu, tj. co nejsilnější test. RNDr. Marie Forbelská, PhD. 63 Vidíme, že postavení obou hypotéz je nesymetrické. Za nulovou hypotézu volíme tu, jejíž neoprávněné zamítnutí (chyba 1. druhu) je závažnější. Definice 9.1. Chybu, která spočívá v nesprávném zamítnutí nulové hypotézy, i když je správná, budeme nazývat chybou prvého druhu, pravděpodobnost α0 = sup θ∈Θ0 Pθ(T(X) ∈ Wα|H0) nazveme hladinou významnosti (též hladinou testu). Chybu, která spočívá v nesprávném přijetí nulové hypotézy, i když neplatí, budeme nazývat chybou druhého druhu a její pravděpodobnost pro ∀θ ∈ Θ1 označíme β(θ) = Pθ(T(X) ∈ Wα|H1) . Pravděpodobnost 1−β(θ) nazýváme silou testu (též silou kritické oblasti Wα) a jakožto funkci θ ∈ Θ1 ji také nazveme silofunkcí testu. 9.1. JEDNODUCHÁ HYPOTÉZA A JEDNODUCHÁ ALTERNATIVA. Nejprve rozebereme nejjednodušší případ, kdy Θ = {θ0, θ1} . V dalším budeme značit symbolem ν σ−konečnou míru na (Rn , Bn ) (např. Lebesgueova nebo čítací) a f(x; θ) nezápornou měřitelnou funkci, tzv. hustotu pravděpodobnosti vzhledem k míře ν. Tedy f(x; θ) jsou jak hustoty absolutně spojitých náhodných veličin, tak pravděpodobnostní funkce. Budeme předpokládat, že pravděpodobnostní míry Pθ0 a Pθ1 jsou absolutně spojité vzhledem k σ-konečné míře ν. Označme hustoty p0(x) = f(x; θ0), p1(x) = f(x; θ1). Lemma 9.2 (Neymanovo–Pearsonovo). Nechť k danému α ∈ (0, 1) existuje takové kladné číslo c > 0, že pro množinu W0 = {x ∈ Rn : p1(x) ≥ cp0(x)} platí W0 p0(x) dν(x) = α . Pak pro libovolnou množinu W ∈ Bn splňující podmínku W p0(x) dν(x) ≤ α platí W0 p1(x) dν(x) ≥ W p1(x) dν(x). Důkaz. Pro jednoduchost pro j = 0, 1 místo W0 pj(x) dν(x) pišme W0 pj dν. Vzhledem k tomu, že množiny W a W0 lze psát jako disjunktní sjednocení, tj. W = (W − W0) ∪ (W ∩ W0) a W0 = (W0 − W) ∪ (W ∩ W0), pak platí W0 p1 dν − W p1 dν = W0−W p1 dν + W ∩W0 p1 dν − W −W0 p1 dν − W ∩W0 p1 dν = W0−W p1 dν − W −W0 p1 dν. (14) 64 M4122 Pravděpodobnost a statistika II Integrační obor prvního integrálu v (14) je částí množiny W0, takže vzhledem k definici této množiny můžeme ho odhadnout zdola. Obdobně integrační obor druhého integrálu v (14) není částí W0, takže ho můžeme opět díky definici W0 odhadnout shora, tj. W0 p1 dν − W p1 dν = W0−W ∈W0 p1 ≥cp0 dν − W −W0 /∈W0 p1 0) určuje nejsilnější test hypotézy H0 proti H1 na dané hladině α. Příklad 9.4 (Jednoduchá hypotéza i alternativa pro náhodný výběr z normálního rozdělení při známém rozptylu). Mějme {X1, . . . , Xn} ≃ N(µ, σ2 ), kde σ2 je známé. Nechť µ0, µ1 ∈ R. Je třeba najít kritický obor W0 nejsilnějšího testu H0 : µ = µ0 proti H1 : µ = µ1 na hladině α ∈ (0, 1). Platí X ∼ fX(x; µ) = n i=1 fXi (xi; µ) = n i=1 1√ 2πσ e− 1 2 (xi−µ σ ) 2 = (2πσ2 )− n 2 exp − 1 2σ2 n i=1 (xi − µ)2 . Dále si připomeňme, že položíme-li ¯X = 1 n n i=1 Xi , resp. pro realizace ¯x = 1 n n i=1 xi , pak za platnosti nulové hypotézy H0 ¯X ∼ N µ0, σ2 n ⇒ U ¯X = ¯X − Eµ0 ( ¯X) Dµ0 ( ¯X) = ¯X − µ0 σ/ √ n ∼ N(0, 1). (15) Dále využijeme vztah n i=1 (xi − ¯x)2 = n i=1 (xi −µ)2 −n(¯x−µ)2 ⇒ n i=1 (xi −µ)2 = n i=1 (xi − ¯x)2 +n(¯x−µ)2 . (16) Označme p0(x) = fX(x; µ = µ0) a p1(x) = fX(x; µ = µ1). Podmínku p1(x) ≥ cp0(x) lze napsat také takto p1(x) p0(x) ≥ c > 0 . Počítejme s využitím vztahu (16) p1(x) p0(x) = exp n 2σ2 (¯x − µ0)2 − (¯x − µ1)2 ≥ c. RNDr. Marie Forbelská, PhD. 65 Po zlogaritmování dostaneme n 2σ2 (¯x − µ0)2 − (¯x − µ1)2 = n 2σ2 2¯x(µ1 − µ0) − (µ2 1 − µ2 0) ≥ ln c (17) (1) Předpokládejme, že µ0 < µ1 . Pak nerovnost (17) dále upravujme takto ¯x ≥ µ1+µ0 2 + σ2 ln c n(µ1−µ0) označme k1 Dokážeme najít takové k1 , aby platilo Pµ0 ( ¯X ≥ k1) = α ? β α µ0 µ1 p 0 (x) p 1 (x) W 0 Díky normalitě výběrového průměru (viz (15)) však můžeme počítat a upravovat α = Pµ0 ( ¯X ≥ k1) = Pµ0 ¯X−µ0 σ/ √ n ≥ k1−µ0 σ/ √ n = 1 − Φ k1−µ0 σ/ √ n takže Φ k1−µ0 σ/ √ n = 1 − α ⇒ u1−α = k1−µ0 σ/ √ n ⇒ k1 = µ0 + σ√ n u1−α a kritický obor lze vyjádřit takto W0 = {x ∈ Rn : ¯x ≥ k1} = x ∈ Rn : ¯x ≥ µ0 + σ√ n u1−α . (2) Nyní předpokládejme, že µ0 > µ1 . Pak nerovnost (17) dále upravujme takto ¯x ≤ µ1+µ0 2 − σ2 ln c n(µ0−µ1) označme k2 β α µ0 µ1 p 0 (x)p 1 (x) W 0 Díky normalitě výběrového průměru (viz (15)) však můžeme počítat a upravovat α = Pµ0 ( ¯X ≤ k2) = Pµ0 ¯X−θ0 σ/ √ n ≤ k2−µ0 σ/ √ n = Φ k2−µ0 σ/ √ n takže Φ k2−µ0 σ/ √ n = α ⇒ uα = −u1−α = k2−µ0 σ/ √ n ⇒ k2 = µ0 − σ√ n u1−α a kritický obor lze vyjádřit takto W0 = {x ∈ Rn : ¯x ≤ k2} = x ∈ Rn : ¯x ≤ µ0 − σ√ n u1−α . 66 M4122 Pravděpodobnost a statistika II Všimněme si, že při jednoduché hypotéze i alternativě H0 : µ = µ0 proti H1 : µ = µ1 na hladině α ∈ (0, 1) při (1) µ0 < µ1 libovolné má W0 stejný tvar nezávislý na µ1 (2) µ0 > µ1 libovolné má W0 stejný tvar nezávislý na µ1 Říkáme, že test je stejnoměrně nejsilnější vůči všem alternativám typu (1) µ0 < µ1 (2) µ0 > µ1 . Příklad 9.5. Mějme pro jednoduchost náhodný výběr rozsahu n = 1, tj. jedinou náhodnou veličinu X z rozdělení s hustotou f(x; θ) = θxθ−1 x ∈ (0, 1), 0 jinak. Najdeme nejsilnější test hypotézy H0 : θ = 1 proti H1 : θ = 2 na dané hladině α = 0.05. Je třeba najít kritický obor W0 = {x ∈ R : p1(x) ≥ cp0(x)} (pro c > 0), přičemž pj(x) = f(x; θj) = θjxθj −1 x ∈ (0, 1), j = 0, 1 0 jinak. Podmínku p1(x) ≥ cp0(x) lze napsat také takto p1(x) p0(x) ≥ c > 0 , takže p1(x) p0(x) = 2x2−1 ≥ c ⇒ x ≥ c 2 =k a k určíme z požadavku na hladinu významnosti, tj. α = 0.05 = 1 k p0dx = 1 k dx = 1 − k ⇒ k = 1 − 0.05 = 0.95 a W0 = {x ∈ R : x ≥ 0.95} Všimněme si dále, že pokud bychom zvolili alternativní hypotézu trochu jinak, např. H1 : θ = 3 ⇒ p1(x) p0(x) = 3x3−1 ≥ c ⇒ x2 ≥ c 3 =k∗ , pak zřejmě dostaneme jinou kritickou oblast, neboť tvar kritické oblasti závisí jak na nulové hypotéze, tak na alternativní. Poznámka 9.6. V současné době běžný statistický software (Statistika, SPSS, S+ , SAS) udává dosaženou hladinu (v anglicky psané literatuře P–value, significance value ). Je to nejmenší hladina testu, při které bychom ještě hypotézu H0 zamítli. RNDr. Marie Forbelská, PhD. 67 9.2. JEDNODUCHÁ HYPOTÉZA A SLOŽENÁ ALTERNATIVA. Nechť parametrický prostor Θ má nejméně 3 různé body, z nichž jeden je θ0. Položme Θ0 = {θ0}. Je třeba otestovat hypotézu H0 : θ = θ0 proti H1 : θ ∈ Θ − Θ0 . Nejprve si představme, že bychom se snažili najít pomocí N-P lemmatu nejsilnější test hypotézy H0 proti alternativě H′ 1 : θ = θ1 ∈ Θ − Θ0 . Obecně je třeba počítat s tím, že každý takovýto dílčí test bude mít jiný kritický obor. Může se však stát, že kritické obory budou stejné pro všechny zmíněné dílčí testy. Pak je rozumné test H0 proti složené alternativě H1 založit právě na tomto společném kritickém oboru. V tomto případě říkáme, že jde o stejnoměrně nejsilnější test H0 proti H1 . Pokud však tato situace nenastane, vzniká otázka, jak postupovat v tomto případě. Zaveďme si proto nejprve pojem zkreslený (vychýlený) test. Definice 9.7. Testujme jednoduchou hypotézu H0 : θ = θ0 proti alternativě H0 : θ = θ0 na základě náhodného výběru s hustotou f(x; θ). Nechť Wα je kritický obor testu. Řekneme, že test je zkreslený (vychýlený), jestliže existuje taková hodnota parametru θ1 = θ0, pro kterou platí nerovnost Wα p1(x)dν síla testu < Wα p0(x)dν chyba 1. druhu , kde p0(x) = f(x; θ0) a p1(x) = f(x; θ1). Tato podmínka říká, že existuje parametr θ1, pro který je síla testu menší než chyba 1. druhu, tedy pravděpodobnost zamítnutí správné hypotézy > pravděpodobnost zamítnutí nesprávné hypotézy což je naprosto nežádoucí vlastnost. Tedy v případech, kdy nebude existovat rovnoměrně nejsilnější test, budeme se snažit vytvořit alespoň nezkreslený test. Příklad 9.8 (Jednoduchá hypotéza a složená alternativa pro náhodný výběr z normálního rozdělení při známém rozptylu). Mějme {X1, . . . , Xn} ≃ N(µ, σ2 ), kde σ2 je známé. Nechť µ0, µ1 ∈ R. Jak jsme již ukázali v příkladě 9.4, kritický obor je jiný pro µ1 < µ0 a µ2 > µ0, takže nenajdeme kritický obor stejnoměrně nejsilnějšího testu H0 : µ = µ0 proti H1 : µ = µ0 na hladině α ∈ (0, 1), proto se budeme snažit najít kritický obor alespoň nezkresleného testu. 68 M4122 Pravděpodobnost a statistika II (A) Zvolíme-li kritický obor typu Wα = {x ∈ Rn : ¯x ≥ k1} = x ∈ Rn : ¯x ≥ µ0 + σ√ n u1−α . Pak silofunkce (což je síla testu jakožto funkce parametru θ ∈ Θ − Θ0) je tvaru β∗ (θ) = 1−β(θ)=β∗ (µ)= Wα p1 dν = Pµ,σ( ¯X ≥ k1) = Pµ,σ( ¯X ≥ µ0 + σ√ n u1−α) = Pµ,σ ¯X−µ σ/ √ n ≥ µ0−µ σ/ √ n + u1−α = 1−Φ µ0−µ σ/ √ n + u1−α Zřejmě platí β∗ (µ0) = α Silofunkce β∗ (µ) 2 3 4 5 6 7 8 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 α µ 0 a pro µ1 < µ0 je síla testu < chyba 1. druhu. (B) Zvolíme-li kritický obor typu Wα = {x ∈ Rn : ¯x ≤ k2} = x ∈ Rn : ¯x ≤ µ0 − σ√ n u1−α . Silofunkce β∗ (µ) 2 3 4 5 6 7 8 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 α µ 0 Pak silofunkce je tvaru β∗ (θ) = 1−β(θ)=β∗ (µ)= Wα p1 dν = Pµ,σ( ¯X ≤ k2) = Pµ,σ( ¯X ≤ µ0 − σ√ n u1−α) = Pµ,σ ¯X−µ σ/ √ n ≤ µ0−µ σ/ √ n − u1−α = Φ µ0−µ σ/ √ n − u1−α Zřejmě opět platí β∗ (µ0) = α a pro µ1 > µ0 je síla testu < chyba 1. druhu. (C) Abychom se vyvarovali předchozích obtíží, zvolme nyní kritický obor takto Wα ={x ∈ Rn : ¯x /∈ (k1, k2), kde k1 < k2}= x ∈ Rn : ¯x /∈ µ0 − σ√ n u1− α 2 , µ0 + σ√ n u1− α 2 . RNDr. Marie Forbelská, PhD. 69 Pak silofunkce je tvaru β∗ (θ)=1−β(θ)=β∗ (µ)= Wα p1 dν =Pµ,σ( ¯X ≤ k1 ∧ ¯X ≥ k2) =1−Pµ,σ(µ0− σ√ n u1− α 2 ≤ ¯X ≤µ0+ σ√ n u1− α 2 ) =1−Pµ,σ µ0−µ σ/ √ n −u1− α 2 ≤ ¯X−µ σ/ √ n ≤ µ0−µ σ/ √ n +u1− α 2 =1−Φ µ0−µ σ/ √ n +u1−α +Φ µ0−µ σ/ √ n −u1−α Zřejmě platí β∗ (µ0) = α Silofunkce β∗ (µ) 2 3 4 5 6 7 8 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 α µ 0 a neexistuje žádné µ = µ0, pro které je síla testu menší než chyba 1. druhu, takže jde o nezkreslený test. 9.3. TESTY PODÍLEM VĚROHODNOSTÍ A TESTY ZALOŽENÉ NA INTERVALOVÝCH ODHADECH. Neymanovu-Pearsonovu větu nelze bezprostředně aplikovat na případ, kdy množiny Θ0, Θ1 nejsou obě jednobodové. Její princip konstrukce kritického oboru lze však použít s tím, že na místě pj(x) , j = 0, 1, píšeme sup θ∈Θj p(x; θ) . Dostáváme tedy kritický obor tvaru W∗ 0 = x ∈ Rn : sup θ∈Θ1 p(x; θ) ≥ c sup θ∈Θ0 p(x; θ) . Pokud c > 1 (což je pravidlem) je ekvivalentně W∗ 0 = x ∈ Rn : sup θ∈Θ p(x; θ) ≥ c sup θ∈Θ0 p(x; θ) = x ∈ Rn : p(x; θMLE) ≥ cp(x; θ0,MLE) , kde θMLE je maximálně věrohodný odhad θ ∈ Θ a θ0,MLE je maximálně věrohodný odhad za hypotézy H0. Příklad 9.9 (Náhodný výběr z normálního rozdělení při neznámém rozptylu a oboustranné alternativě). Mějme {X1, . . . , Xn} ≃ N(µ, σ2 ), kde µ a σ2 jsou neznámé parametry. Máme testovat hypotézu H0 : µ = µ0 proti alternativě H1 : µ = µ0 na hladině významnosti α ∈ (0, 1) Parametr θ = (µ, σ2 ) je zde dvourozměrný, množina Θ = {(µ, σ2 ) : µ ∈ R, 0 < σ2 < ∞}. Maximálně věrohodné odhady jsou θMLE = ¯X = 1 n n i=1 Xi, 1 n n i=1 (Xi − ¯X)2 a θ0,MLE = µ0, 1 n n i=1 (Xi − µ0)2 Dosadíme-li tyto odhady za θ = (µ, σ2 ) do výrazu p(x; θ) = n i=1 1√ 2πσ2 exp −xi−µ)2 2σ2 = (2πσ2 ) − n 2 exp − 1 2σ2 n i=1(xi − µ)2 , dostaneme pro W∗ 0 nerovnost 2π n n i=1(xi − ¯x)2 − n 2 exp −n 2 ≥ c 2π n n i=1(xi − µ0)2 − n 2 exp −n 2 , což je n i=1 (xi − ¯x)2 ≤ c1 n i=1 (xi − µ0)2 . 70 M4122 Pravděpodobnost a statistika II Dále využijeme vztah n i=1 (xi−¯x)2 =(n−1)s2 n = n i=1(xi−µ)2 − n(¯x − µ0)2 ⇒ n i=1 (xi−µ0)2 = n i=1 (xi−¯x)2 + n(¯x−µ0)2 , takže n i=1 (xi − ¯x)2 ≤ c1 n i=1 (xi − ¯x)2 + n(¯x − µ)2 což nakonec můžeme vyjádřit takto |¯x − µ0| √ n ≥ c2 1 n−1 n i=1(xi − ¯x)2 = c2sn ⇒ |¯x−µ0| sn √ n ≥ c2 . Protože veličina Tn = ¯X−µ0 Sn √ n má za platnosti nulové hypotézy Studentovo t–rozdělení o n−1 stupních volností, pak na základě tohoto rozdělení můžeme určit kritickou hodnotu c2 = t1− α 2 (n − 1), neboť α = P(µ0,σ2)(|Tn| ≥ c2) = P(µ0,σ2) | ¯X−µ0| Sn √ n ≥ t1− α 2 (n − 1) nebo ekvivalentně 1 − α = P(µ0,σ2) ¯X − Sn√ n t1− α 2 (n − 1) ≤ µ0 ≤ ¯X + Sn√ n t1− α 2 (n − 1) Hypotézu H0 : µ = µ0 tedy zamítáme ve prospěch alternativy H1 : µ = µ0 na hladině významnosti α , pokud realizace tn = |¯x−µ0| sn √ n ≥ t1− α 2 (n − 1). Výsledky příkladů 9.4 a 9.9 naznačují, že existuje určitý VZTAH MEZI TESTY A INTERVALOVÝMI ODHADY, který lze popsat následovně. Mějme náhodný výběr X = (X1, . . . , Xn)′ rozsahu n z rozdělení, které závisí na parametru θ = (θ1, . . . , θm)′ ∈ Θ a parametrickou funkci γ(θ). (A) Hypotéza H0 : γ(θ) = γ(θ0) proti (tzv. oboustranné) alternativě H1 : γ(θ) = γ(θ0) : Mějme intervalový odhad (Dn(X), Hn(X)) parametrické funkce γ(θ) o spolehlivosti 1 − α. Pokud platí nulová hypotéza, pak 1 − α = Pθ (Dn(X) ≤ γ(θ0) ≤ Hn(X)) , takže kritický obor tohoto testu má tvar: Wα = {X ∈ Rn : γ(θ0) /∈ (Dn(X), Hn(X))} . RNDr. Marie Forbelská, PhD. 71 Zjistíme-li v konkrétní situaci, že γ(θ0) /∈ (dn(x), hn(x)) tj. realizace x ∈ Wα , potom • buď nastal jev, který má pravděpodobnost α (volí se blízká nule), • nebo neplatí nulová hypotéza. Protože při obvyklé volbě α = 0.05 nebo α = 0.01 je tento jev „prakticky nemožný , proto nulovou hypotézu H0 zamítáme ve prospěch alternativy H1 . V opačném případě, tj. pokud γ(θ0) ∈ (dn(x), hn(x)) tj. realizace x /∈ Wα , nulovou hypotézu H0 nezamítáme. (B) Hypotéza H0 : γ(θ) = γ(θ0) proti (tzv. jednostranné) alternativě H1 : γ(θ) > γ(θ0) : V tomto případě využijeme dolní odhad Dn(X) parametrické funkce γ(θ) o spolehlivosti 1 − α . Pokud platí nulová hypotéza, pak 1 − α = Pθ (Dn(X) ≤ γ(θ0)) , takže kritický obor tohoto testu má tvar: Wα = {X ∈ Rn : Dn(X) > γ(θ0)} . (C) Hypotéza H0 : γ(θ) = γ(θ0) proti (tzv. jednostranné) alternativě H1 : γ(θ) < γ(θ0) V tomto případě využijeme horní odhad Hn(X) parametrické funkce γ(θ) o spolehlivosti 1 − α . Pokud platí nulová hypotéza, pak 1 − α = Pθ (γ(θ0) ≤ Hn(X)) , takže kritický obor tohoto testu má tvar: Wα = {X ∈ Rn : Hn(X) < γ(θ0)} . Předchozí úvahy shrňme do následující tabulky: Hypotézu H0 zamítáme, pomocí H0 H1 intervalu spolehlivosti kritické oblasti, tj. pokud x ∈ Wα, kde Wα = γ(θ) = γ(θ0) γ(θ) = γ(θ0) γ(θ0) /∈ (dn(x), hn(x)) {X ∈ Rn :γ(θ0) /∈ (Dn(X), Hn(X))} γ(θ) = γ(θ0) γ(θ) > γ(θ0) γ(θ0) < dn(x) {X ∈ Rn : Dn(X) > γ(θ0)} γ(θ) = γ(θ0) γ(θ) < γ(θ0) γ(θ0) > hn(x) {X ∈ Rn : Hn(X) < γ(θ0)} 72 M4122 Pravděpodobnost a statistika II 9.4. TESTY O PARAMETRECH NORMÁLNÍHO ROZDĚLENÍ. TESTY ZALOŽENÉ NA CENTRÁLNÍ LIMITNÍ VĚTĚ. Pomocí intervalových (dolních, horních) odhadů, které jsme již dříve odvodili v sekci 7, dostáváme celou řadu kritických oblastí testů o parametrech normálního rozdělení. Poznamenejme, že se shodují s testy podílem věrohodností. Přehled takto získaných testů pro jeden náhodný výběr {X1, . . . , Xn} ≃ N(µ, σ2 ) podáváme v následující tabulce: H0 H1 Hypotézu H0 zamítáme, pokud X ∈ Wα, tj. Předpoklady µ = µ0 µ = µ0 | ¯X − µ0| √ n ≥ σu1− α 2 σ2 známé µ = µ0 µ > µ0 ( ¯X − µ0) √ n ≥ σu1−α σ2 známé µ = µ0 µ < µ0 ( ¯X − µ0) √ n ≤ −σu1−α σ2 známé µ = µ0 µ = µ0 | ¯X − µ0| √ n ≥ Snt1− α 2 (n − 1) σ2 neznámé µ = µ0 µ > µ0 ( ¯X − µ0) √ n ≥ Snt1−α(n − 1) σ2 neznámé µ = µ0 µ < µ0 ( ¯X − µ0) √ n ≤ −Snt1−α(n − 1) σ2 neznámé σ2 = σ2 0 σ2 = σ2 0 (n−1)S2 n σ2 0 /∈ χ2 α 2 (n − 1), χ2 1− α 2 (n − 1) µ neznámé σ2 = σ2 0 σ2 > σ2 0 (n−1)S2 n σ2 0 ≤ χ2 α(n − 1) µ neznámé σ2 = σ2 0 σ2 < σ2 0 (n−1)S2 n σ2 0 ≥ χ2 1−α(n − 1) µ neznámé V případě dvou nezávislých výběrů • první náhodný výběr {X1, . . . , XnX } ∼ N(µX, σ2 X) (s výběrovým průměrem ¯X a výběrový rozptylem S2 X), • druhý náhodný výběr {Y1, . . . , YnY } ∼ N(µY , σ2 Y ) (s výběrovým průměrem ¯Y a výběrový rozptylem S2 Y ), • a pokud označíme S2 XY = (nX −1)S2 X + (nY −1)S2 Y nX + nY − 2 , pak následující tabulka se týká testů rovnosti středních hodnot a rozptylů: H0 H1 Hypotézu H0 zamítáme, pokud (X′ , Y′ )′ ∈ Wα, tj. Předpoklady µX = µY µX = µY | ¯X − ¯Y | ≥ u1− α 2 σ2 X nX + σ2 Y nY σ2 známé µX = µY µX = µY | ¯X − ¯Y | ≥ t1− α 2 (nX +nY −2) SXY nX+nY nX nY σ2 neznámé σ2 X = σ2 Y σ2 X = σ2 Y S2 X S2 Y /∈ Fα 2 (nX −1, nY −1), F1− α 2 (nX −1, nY −1) µX, µY neznámé Následující tabulka nabízí asymptotické testy pro náhodné výběry {X1, . . . , Xn} ≃ L(µ(θ), σ2 (θ)) s konečnými druhými momenty (s výběrovým průměrem ¯X = 1 n n i=1 Xi a se S2 ∗ = S2 ∗(X), což je (slabě) konzistentní odhad rozptylu σ2 (θ)): H0 H1 Hypotézu H0 zamítáme, pokud X ∈ Wα, tj. Předpoklady µ = µ0 µ = µ0 | ¯X−µ0| S∗ √ n ≥ u1− α 2 0 < σ2 (θ) < ∞ µ = µ0 µ = µ0 | ¯X−µ0| √ ¯X √ n ≥ u1− α 2 {X1, . . . , Xn} ≃ Po(µ) p = p0 p = p0 | ¯X−p0| √ p0(1−p0) √ n ≥ u1− α 2 {X1, . . . , Xn} ≃ A(p) RNDr. Marie Forbelská, PhD. 73 9.5. Vztah mezi pravděpodobností chyby prvního, druhého druhu a počtem pozorování. Abychom si uvědomili vztah mezi oběma chybami, ukážeme jednoduchý pří- klad. Příklad 9.10 (Jednoduchá hypotéza i alternativa pro binomické rozdělení). Dva chlapci, Honzík a František, mají každý svůj pytlík s barevnými kuličkami. Honzík má 80 bílých a 20 modrých kuliček, František 30 bílých a 70 modrých kuliček. Oba pytlíky jsou k nerozeznání. Vybereme náhodně jeden z pytlíků a chceme rozhodnout, kterému z chlapců patří. Za tím účelem provedeme následující test: Výchozí test A: Vybereme z pytlíku 10 kuliček. Pokud mezi nimi bude méně než k = 8 bílých kuliček, zamítneme hypotézu, že patří Honzíkovi. Vypočítejme chybu prvního i druhého druhu a pokusme se najít takový test, který by zajistil, aby chyby prvního i druhého druhu byly vůči chlapcům co nejvíce spravedlivé. Označme jako Y náhodnou veličinu, která značí počet bílých kuliček mezi deseti vybranými. Náhodná veličina Y ∈ {0, 1, . . ., n}, n = 10. Zřejmě má binomické rozdělení, což pro j = 0, 1 značíme Y ∼ Bi(n, θ) s pravděpodobnostní funkcí pj(x) = n y θy j (1 − θj)n−y y = 0, . . ., n, 0 jinak. Budeme testovat hypotézu H0 : θ = θ0 = 0.8 proti alternativě H1 : θ = θ1 = 0.3 , kde kritický obor je Wα = {0, 1, . . ., k − 1} . „Spravedlivý test budeme hledat pomocí procedury v Matlabu s využítím příkazů „binocdf(y,n,theta) p1(y) (vlevo) a p0(y) (vpravo) 0 1 2 3 4 5 6 7 8 9 10 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 Bi(10,0.8) Bi(10,0.3) W α opt Hledání „spravedlivého testu pro H 0 : θ 0 =0.8 proti H 1 : θ 1 =0.3 W α =(0,..., 0) α=0.0000 β=0.9718 W α =(0,..., 1) α=0.0000 β=0.8507 W α =(0,..., 2) α=0.0001 β=0.6172 W α =(0,..., 3) α=0.0009 β=0.3504 W α =(0,..., 4) α=0.0064 β=0.1503 Wα =(0,..., 5) α=0.0328 β=0.0473 W α =(0,..., 6) α=0.1209 β=0.0106 W α =(0,..., 7) α=0.3222 β=0.0016 W α =(0,..., 8) α=0.6242 β=0.0001 W α =(0,..., 9) α=0.8926 β=0.0000 W α =(0,...,10) α=1.0000 β=0.0000 Chyby β (∗) a α (◦) 0 2 4 6 8 10 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 α β Wopt =(0,...,5) αopt =0.0328 βopt =0.0473 Optimální test B: Pokud mezi deseti vybranými kuličkami bude méně než k = 6 bílých, pak zamítáme hypotézu, že pytlík s kuličkami patří Honzíkovi. Teprve nyní je pravděpodobnost chyby prvního i druhého druhu vyvážená, srovnejme α = Wα p0 dν = k−1 i=1 0.8y (1 − 0.8)n−y = 0.3222 A 0.0328 B 1 − α = 0.6778 A 0.9672 B β = W1 p1 dν = 10 i=k 0.3y (1 − 0.3)n−y = 0.0016 A 0.0473 B 1 − β = 0.9984 A 0.9527 B Tedy pravděpodobnost, že se v testu B vyvarujeme chyby 1. druhu je 1 − α = 0.9672 chyby 2. druhu je 1 − β = 0.9527 . 74 M4122 Pravděpodobnost a statistika II V předchozím příkladě jsme se snažili najít takový test, aby obě dvě chyby vyhovovaly našim představám. Nyní se opět vrátíme k příkladu 9.8 a ukážeme, že síla testu je pro pevně danou chybu prvého druhu ovlivněna rozsahem výběru. Příklad 9.11 (Síla testu a rozsah výběru pro jednoduchou hypotézu a složenou alternativu v případě náhodného výběru z normálního rozdělení při známém rozptylu). Nechť {X1, . . . , Xn} ≃ N(µ, σ2 ) je normální náhodný výběr, ve kterém je µ je neznámý parametr a σ2 > 0 je známá konstanta. Uvažujme test hypotéz (a) H0 : µ = µ0 proti H1 : µ = µ0 (b) H0 : µ = µ0 proti H1 : µ < µ0 (c) H0 : µ = µ0 proti H1 : µ > µ0 V příkladu 9.8 jsme zkonstruovali nezkreslený test pro oboustrannou alternativu a v příkladu 9.4 stejnoměrně nejsilnější testy pro jednostranné alternativy. Na následujících grafech ukážeme, jak při pevně dané chybě prvého druhu roste hodnota silofunkce při rostoucím rozsahu výběru. Toho se právě využívá, pokud si předepíšeme obě chyby a hledáme rozsah výběru, při kterém nepřekročíme stanovené chyby. ¯X ∼ N(µ0, σ2 / √ n) µ0 = 5, σ = 1, n = 10, 20, . . . , 90, 100 4 4.2 4.4 4.6 4.8 5 5.2 5.4 5.6 5.8 6 0 0.5 1 1.5 2 2.5 3 3.5 4 µ 0 Hustoty výběrových průměrů (a) Silofunkce β∗ (µ) = 1 − β(Iµ) α = 0.05, µ0 = 5, σ = 1, n = 10, 20, . . . , 90, 100 4 4.2 4.4 4.6 4.8 5 5.2 5.4 5.6 5.8 6 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 α µ0 1−β Wα = x ∈ Rn : ¯x /∈ µ0 − σ√ n u1− α 2 , µ0 + σ√ n u1− α 2 (b) Silofunkce β∗ (µ) = 1 − β(Iµ) α = 0.05, µ0 = 5, σ = 1, n = 10, 20, . . . , 90, 100 4 4.2 4.4 4.6 4.8 5 5.2 5.4 5.6 5.8 6 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 α µ0 1−β Wα = x ∈ Rn : ¯x ≤ µ0 − σ√ n u1−α (c) Silofunkce β∗ (µ) = 1 − β(Iµ) α = 0.05, µ0 = 5, σ = 1, n = 10, 20, . . . , 90, 100 4 4.2 4.4 4.6 4.8 5 5.2 5.4 5.6 5.8 6 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 α µ0 1−β Wα = x ∈ Rn : ¯x ≥ µ0 + σ√ n u1−α RNDr. Marie Forbelská, PhD. 75 Příklad 9.12 (Výška desetiletých chlapců). V roce 1961 byla u 15 náhodně vybraných chlapců z populace všech desetiletých chlapců žijících v Československu zjištěna výška Výšky 15 desetiletých chlapců 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 130 140 136 141 139 133 149 151 139 136 138 142 127 139 147 Je známo, že každá následující generace je v průměru o něco vyšší než generace předcházející. Můžeme se tedy ptát, zda průměr ¯x = 139.133 zjištěný v náhodném výběru rozsahu 130 135 140 145 150 Values n = 15 znamená, že na 5% hladině máme zamítnout nulovou hypotézu H0 : µ = 136.1 (zjištění z roku 1951) ve prospěch alternativní hypotézy H1 : µ > 136.1 . Rozptyl σ2 = 6.42 cm2 , zjištěný v roce 1951 (kdy se provádělo rozsáhlé šetření), můžeme považovat za známý, neboť variabilita výšek zůstává (na rozdíl od střední výšky) téměř nezměněná. (I) Testování nulové hypotézy pomocí pivotové statistiky UX a kritické hodnoty. Protože kritický obor W0 lze ekvivalentně vyjádřit i takto W0 ={x ∈ Rn : ¯x ≤ k2}= x ∈ Rn : ¯x ≤ µ0 − σ√ n u1−α = x ∈ Rn : u¯x = ¯x−µ0 σ √ n ≤ u1−α , počítejme u¯x = 139.133−136.1 6.4 √ 15 = 1.835. Protože u¯x = 1.835 překračuje kritickou hodnotu u1−α = u0.95 = 1.645 (získáme pomocí Matlabu, a to příkazem „norminv(0.95) ) nulovou hypotézu na 5% hladině zamítneme ve prospěch alternativní hypotézy, že se střední výška desetiletých hochů zvětšila. (II) Testování nulové hypotézy pomocí p-hodnoty 132 133 134 135 136 137 138 139 140 141 0 0.05 0.1 0.15 0.2 0.25 interval spolehlivosti X prum =139.1333 p−val=0.033206 Dosažená hladina odpovídající testové statistice (tj. tzv. p-hodnota, anglicky P-value, significance value), což je nejmenší hladina testu, při které bychom ještě hypotézu H0 zamítli, je rovna 0.033 (opět získáme pomocí Matlabu příkazem „1 - normcdf(mean(x),136.1,6.4/sqrt(n)) ), takže například při α = 2.5% by již dosažený výsledek nebyl statisticky významný. Protože p-hodnota je menší než zvolená hladina významnosti α = 0.05, hypotézu za- mítáme. (III) Testování nulové hypotézy pomocí intervalu spolehlivosti D, +∞) Protože jde o jednostranný test, použijeme dolní odhad střední hodnoty µ d = ¯x − σ√ n u1−α = 139.133 − 6.4√ 15 1.645 = 136.415 Protože interval spolehlivosti 136.415, +∞) nepokrývá hodnotu 136.1, proto nulovou hypotézuna na hladině významnosti α = 0.05 zamítáme. 76 M4122 Pravděpodobnost a statistika II Příklad 9.13 (Počet pozorování při dané chybě prvního a druhého druhu). Mějme {X1, . . . , Xn} ≃ N(µ, σ2 ), kde σ2 = 25 je známé. Chceme testovat hypotézu H0 : µ = µ0 = 5 proti H1 : µ = µ1 = 4. Naším úkolem je zjistit rozsah výběru tak, aby chyba 1. druhu byla rovna 0.05 a druhého druhu 0.01. V příkladě 9.4 jsme, ukázali, že kritický obor pro rovnoměrně nejsilnější test pro alternativu typu µ0 > µ1 je tvaru W0 = {x ∈ Rn : ¯x ≤ k2} = x ∈ Rn : ¯x ≤ µ0 − σ√ n u1−α . Jeli α = 0.05, pak u1−α = 1.645. Při této volbě máme zajištěnu chybu prvního druhu rovnou 0.05, tj. Pµ0 ( ¯X ≤ k2) = Φ k2−µ0 σ/ √ n = α = 0.05. Nyní musíme zvolit n tak, aby pro chybu druhého druhu platilo Pµ1 ( ¯X > k2) = 1 − Φ k2−µ1 σ/ √ n ≤ β = 0.01, takže u1−β = k2 − µ1 σ/ √ n = µ0 − σ√ n u1−α − µ1 σ/ √ n = µ0 − µ1 σ/ √ n − u1−α a odtud již dostaneme, že u1−β + u1−α = µ0−µ1 σ/ √ n , takže √ n = u1−β+u1−α µ0−µ1 σ = 19.8560 tj. n = (u1−β+u1−α)2 (µ0−µ1)2 σ2 = ⌈394.2610⌉ = 395 , kde symbol ⌈c⌉ značí zaokrouhlení na celé číslo nahoru. k2 = 4.5862µ1 = 4 µ0 = 5 βα ¯X ∼ N(µ0, σ2 / √ n) p0(x) ¯X ∼ N(µ1, σ2 / √ n) p1(x) W0 Pokud ovšem bychom σ neznali, pak by úloha nešla vyřešit. RNDr. Marie Forbelská, PhD. 77 Příklad 9.14. Párový test b b b bb b b b r 6(¯x1, ¯x2) ```````````````````````````````````````````````````````` X1 X2 H 0 : µ 1 = µ 2 Na sedmi rostlinách byl posuzován vliv fungicidního přípravku podle počtu skrvn na listech před a týden po použití přípravku. Otestujte, zdali má přípravek vliv na počet skrvn na listech. Data udávající počet skrvn na listech před a po použití přípravku: Počet skrvn na listech před použitím přípravku X1 9 17 31 7 8 20 10 po použití přípravku X2 10 11 18 6 7 17 5 Za předpokladu, že náhodný výběr pochází z normálího rozdělení, tj. X1,1 X2,1 , . . . , X1,n X2,n ∼ N2 µ = µ1 µ2 , Σ = σ2 1 ρσ1σ2 ρσ1σ2 σ2 2 , kde ρ ∈ (0, 1) pak X1 ∼ N(µ1, σ2 1) X2 ∼ N(µ2, σ2 2) , Z = X1 − X2 ∼ N(µz = µ1 − µ2, σ2 z = σ2 1 + σ2 2 + 2ρσ1σ2) a statistika T = ¯Z SZ/ √ n = ¯X1− ¯X2 SZ / √ n má za platnosti nulové hypotézy H0 : µ1 − µ2 = 0 Studentovo rozdělení o n − 1 stupních volnosti. (I) Testování nulové hypotézy pomocí intervalu spolehlivosti 0 2 4 6 8 10 12 interval spolehlivosti [ ¯X1 − ¯X2 − t1−α/2(n − 1) · S/ √ n; ¯X1 − ¯X2 + t1−α/2(n − 1) · S/ √ n] = [4 ± 2.4469 · 4.6547/2.6458] = [−0.30492; 8.3049] Protože interval spolehlivosti pokrývá hodnotu Z = 0, na dané hladině významnosti hypotézu nemůžeme zamítnout. (II) Testování nulové hypotézy pomocí statistiky T a kritické hodnoty −3 −2 −1 0 1 2 3 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 T=2.2736 p−val=0.063354 Vypočítáme-li hodnotu statistiky T = ¯X1− ¯X2 S/ √ n a porovnáme s kvantilem Studentova rozdělení, tj. t = ¯x1−¯x2 s/ √ n = 2.2736 ≯ t1−α/2(n − 1) = 2.4469, takže hypotézu H0 : µ1 − µ2 = 0 nezamítáme. (III) Testování nulové hypotézy pomocí p-hodnoty Vypočítáme-li p-hodnotu a porovnáme se zvolenou hladinou významnosti α = 0.05 p = P(|T| > t) = 2(1 − P(|T| ≤ t)) = 0.06335 > α takže hypotézu H0 : µ1 − µ2 = 0 nezamítáme. Shrneme-li předchozí výsledky slovně, pak nulovou hypotézu o tom, že přípravek nemá vliv na počet skvrn na hladině významnosti α = 0.05 nemůžeme zamítnout oproti alternativě o jeho vlivu. 78 M4122 Pravděpodobnost a statistika II Příklad 9.15 (Dva nezávislé náhodné výběry z normálního rozdělení při neznámých ale stejných rozptylech). Bylo vybráno 13 polí stejné kvality. Na 8 z nich se zkoušel nový způsob hnojení, zbývajících 5 bylo ošetřeno běžným způsobem. Výnosy pšenice uvedené v tunách na hektar jsou označeny Xi u nového a Yi u běžného způsobu hnojení. (převzato z knihy Anděl, J.: Statistické metody, str. 82, př. 8.2). Je třeba zjistit, zda způsob hnojení má vliv na výnos pšenice. Xi 5.7 5.5 4.3 5.9 5.2 5.6 5.8 5.1 Yi 5.0 4.5 4.2 5.4 4.4 4.2 4.4 4.6 4.8 5 5.2 5.4 5.6 5.8 X Y Nechť {X1, . . . , XnX } ∼ N(µX, σ2 X) je náhodný výběr rozsahu nX z normálního rozdělení N(µX, σ2 X), ¯X je jeho výběrový průměr a S2 X jeho výběrový rozptyl. Dále nechť {Y1, . . . , YnY } ∼ N(µY , σ2 Y ) je náhodný výběr rozsahu nY z normálního rozdělení N(µY , σ2 Y ), ¯Y je jeho výběrový průměr a S2 Y jeho výběrový rozptyl. Předpokládejme, že oba výběry jsou stochasticky nezávislé, tj. X ⊥ Y. Chceme-li testovat hypotézu, že rozdíl středních hodnot je nulový (při neznámém rozptylu σ2 = σ2 X = σ2 Y ), za pivotovou statistiku zvolíme statistiku T ¯X− ¯Y = ¯X − ¯Y − (µX − µY ) SXY nXnY nX + nY ∼ t(nX + nY − 2), kde S2 XY = (nX −1)S2 X + (nY −1)S2 Y nX + nY − 2 . Chceme-li použít T ¯X− ¯Y , měli bychom být přesvědčeni o tom, že rozptyly obou výběrů se významně neliší. Budeme tedy nejprve testovat hypotézu H0 : σ2 1 σ2 2 = 1 , že podíl obou rozptylů je roven jedné proti alternativě, že se nerovná H1 : σ2 1 σ2 2 = 1 . Za pivotovou statistiku zvolíme statistiku F = S2 X S2 Y σ2 Y σ2 X ∼ F(nX − 1, nY − 1). (a) Můžeme například vypočítat statistiku F za platnosti nulové hypotézy a porovnat ji s příslušnými oboustrannými kvantily. Protože f = 1.1243 Fα 2 (nX −1, nY −1) = 0.1811 F1− α 2 (nX −1, nY −1) = 9.0741 vidíme, že f není ani větší než horní kritický bod, ani menší než dolní kritický bod, takže hypotézu o rovnosti rozptylů proti alternativě nerovnosti nezamítáme a můžeme konstatovat, že data nejsou v rozporu s testovanou hypotézou. 0 1 2 3 4 5 6 7 8 9 10 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 F=1.1243 p−val=0.96557 RNDr. Marie Forbelská, PhD. 79 (b) Další možností je spočítat dosaženou hladinu významnosti, tj. p-hodnotu (pomocí Matlabu: 2*min(1-fcdf(var(x)/var(y),n1-1,n2-1),fcdf(var(x)/var(y),n1-1,n2-1)) a srovnat se zvolenou hladinou testu α: p − value = 0.9656 ≫ 0.05 Protože p-hodnota je výrazně větší než zvolená hladina testu, hypotézu o rovnosti rozptylů proti alternativě nerovnosti nezamítáme. Můžeme také říci, že data nejsou v rozporu s testovanou hypotézou. (c) A naposledy můžeme ještě zkostruovat 100(1 − α)% interval spolehlivosti pro podíl roz- ptylů σ2 X σ2 Y S2 X S2 Y 1 F1− α 2 (nX −1, nY −1) , S2 X S2 Y 1 Fα 2 (nX −1, nY −1) . a zjistit, zda pokrývá hodnotu 1. Protože dostáváme interval 0.1239, 6.2088 , který pokrývá jedničku, hypotézu nezamítáme. Díky předchozímu zjištění již můžeme bez obav testovat hypotézu H0 : µx − µY = 0 proti alternativě H1 : µx − µY = 0 a provedeme to opět třemi způsoby: (I) Testování nulové hypotézy pomocí intervalu spolehlivosti ¯X− ¯Y −t1−α 2 (ν) S nX+nY nX nY ; ¯X− ¯Y +t1−α 2 (ν) S nX+nY nX nY = 0.6875 ± 2.201 · 0.5089/1.7541 = 0.048958; 1.326 Protože interval spolehlivosti nepokrývá nulu, na dané hladině významnosti hypotézu zamítáme ve prospěch alternativy. (II) Testování nulové hypotézy pomocí statistiky T a kritické hodnoty −3 −2 −1 0 1 2 3 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 T=2.3697 p−val=0.037169 Vypočítáme-li hodnotu statistiky T ¯X− ¯Y = ¯X − ¯Y − (µX − µY ) SXY nXnY nX + nY a porovnáme s kvantilem Studentova rozdělení, tj. t¯x−¯y = 2.3697 > t1−α/2(11) = 2.201, takže hypotézu H0 : µX − µY = 0 zamítáme. (III) Testování nulové hypotézy pomocí p-hodnoty Vypočítáme-li p-hodnotu a porovnáme se zvolenou hladinou významnosti α = 0.05 p = P(|T ¯X− ¯Y | > t) = 2(1 − P(|T ¯X− ¯Y | ≤ t)) = 0.037169 < α takže hypotézu H0 : µ1 − µ2 = 0 zamítáme. Shrneme-li předchozí výsledky slovně, pak nulovou hypotézu o tom, že hnojení je stejně účinné na hladině významnosti α = 0.05 zamítáme ve prospěch alternativy, že má rozdílné účinky. 80 M4122 Pravděpodobnost a statistika II 10. Regresní analýza 10.1. Pojem regrese. Název regrese pochází z prací antropologa a meteorologa Francise Galtona, které předložil veřejnosti v letech 1877 až 1885. Galton se zabýval obecnými otázkami dědičnosti a mimo jiné také o vztah mezi výškou otců a jejich prvorozených synů. Pozorováním a analýzou údajů došel k rovnici, ze které vyplývá, že ⋄ vysocí otcové sice mají i vysoké syny, ale v průměru jsou větší než jejich synové, ⋄ a podobně i malí otcové mají i malé syny, ale v průměru jsou menší než jejich synové. Směrnice regresní přímky má hodnotu menší než 1 (přibližně kolem 0.5). To znamená, že otcové, kteří jsou například o 10 cm vyšší, než je průměrná výška mužů jejich generace, mají syny v průměru jen o 5 cm vyšší, než je průměrná výška muže v generaci synů (jde samozřejmě o výšku v dospělosti). Směrnice regresní přímky, která číselně charakterizuje velikost této tendence, dostala proto název regresní koeficient. Tuto tendenci návratu následující generace směrem k průměru nazval Galton regresí (původně tomuto jevu říkal reversion, než později změnil na regression = krok zpět). Současné pojetí regresní analýzy má sice jen málo společného s původním záměrem Galtona, nicméně myšlenka přístupu k empirickým datům zůstala zachována a pojem regrese se natolik vžil, že se používá dodnes. 10.2. Definice modelu. Regresní analýza je velmi široké téma, proto se v této úvodní přednášce omezíme jen na studium modelu s regresní přímkou, který definujeme takto: Definice 10.1. Nechť (M1) Y1, . . ., Yn (1) jsou nezávislé náhodné veličiny se středními hodnotami EYi = β0 + β1xi i = 1, . . ., n (2) jsou homoskedastické náhodné veličiny tj. mají všechny stejný rozptyl DYi = σ2 i = 1, . . ., n kde x1, . . ., xn jsou známé konstanty, z nichž alespoň dvě jsou různé, β0, β1 ∈ R jsou neznámé parametry Uvedený model (M1) nazveme modelem lineární regrese (s regresní přímkou). Tento model se často vyskytuje v praxi, kdy mezi (nenáhodnými) veličinami x a y existuje lineární závislost y = β0 + β1x , • jejíž parametry však neznáme • a informaci o nich získáváme jen experimentálně, tj. tak, že pro zvolené hodnoty xi naměříme odpovídající hodnoty yi zatížené chybou měření εi Naměřené veličiny jsou tedy rovny Yi = yi + εi = β0 + β1xi + εi i = 1, . . . , n . Jsou-li chyby εi nezávislé náhodné bez systematické složky, což vyjádříme požadavkem Eεi = 0 měřené stejně přesně Dεi = σ2 pak dospějeme k uvedenému modelu. RNDr. Marie Forbelská, PhD. 81 10.3. Odhady neznámých parametrů pomocí metody nejmenších čtverců. Metodou, která se nejčastěji používá k získání bodových odhadů neznámých parametrů, je tzv. metoda nejmenších čtverců, která spočívá v proložení dat (xi, Yi) křivkou tak, aby součet čtverců odchylek byl minimální. Pokud body prokládáme přímku, nazveme ji regresní přímkou. Definice 10.2. Náhodné veličiny β0 a β1, které pro daná Y1, . . ., Yn minimalizují součet čtverců S(β0, β1) = n i=1 (Yi − β0 − β1xi)2 , nazýváme odhady parametrů β0, β1 metodou nejmenších čtverců. V následujících dvou větách ještě nebudeme činit žádný předpoklad o typu rozdělení náhodných veličin Yi − EYi, nemusejí být ani stejně rozdělené. Ještě dříve než vyslovíme první větu, zaveďme následující značení ¯Y = 1 n n i=1 Yi a ¯x = 1 n n i=1 xi a dále SXX = n i=1 (xi − ¯x)2 = n i=1 x2 i − n¯x2 > 0 (neboť alespoň dvě xi jsou různá) SXY = n i=1 (Yi − ¯Y )(xi − ¯x) = n i=1 xiYi − n¯x ¯Y SY Y = n i=1 (Yi − ¯Y )2 = n i=1 Y 2 i − n¯Y 2 Věta 10.3. V modelu (M1 mají odhady neznámých parametrů β0 a β1 pomocí metody nejmenších čtverců následující tvar β1 = n i=1(Yi − ¯Y )(xi − ¯x) n i=1(xi − ¯x)2 = SXY SXX a β0 = ¯Y − β1 ¯x , přičemž reziduální součet čtverců nabývá hodnoty S2 e = S(β0, β1) = SY Y − S2 XY SXX . Důkaz. Odhady β0 a β1 musí nutně vyhovovat soustavě rovnic ∂S(β0, β1) ∂β0 = 0 a ∂S(β0, β1) ∂β1 = 0 Provedeme-li uvedené derivace, dostaneme −2 n i=1 (Yi − β0 − β1xi) = 0 −2 n i=1 (Yi − β0 − β1xi)xi = 0 ⇒ n i=1 Yi = nβ0 + β1 n i=1 xi n i=1 Yixi = β0 + β1 n i=1 x2 i tzv. systém normálních rovnic 82 M4122 Pravděpodobnost a statistika II Vzhledem k předpokladu, že alespoň dvě hodnoty xi jsou od sebe různé, pak determinant soustavy rovnic n n i=1 xi n i=1 xi n i=1 x2 i = n n i=1 x2 i − n i=1 xi 2 = n n i=1 (xi − ¯x)2 = nSXX > 0, takže tato soustava má právě jedno řešení, které označíme β0 a β1. S využitím notace pomocí ¯x a ¯Y lze systém normálních rovnic napsat jako nβ0 + nβ1 ¯x = n¯Y nβ0¯x + β1 n i=1 x2 i = n i=1 xiYi Z první rovnice okamžitě dostaneme, že β0 = ¯Y − β1¯x . Pokud první rovnici vynásobíme výrazem −¯x a obě rovnice sečteme, máme β1 n i=1 x2 i − n¯x2 SXX = n i=1 xiYi − n¯x¯Y SXY ⇒ β1 = SXY SXX . Nutnou podmínku k existenci minima jsme již splnili. Nyní bude třeba dokázat, že jde skutečně o minimum, tj. že pro libovolné β0, β1 ∈ R platí S(β0, β1) ≤ S(β0, β1) . Připomeňme, že SXX = n i=1 (xi − ¯x)2 = n i=1 x2 i − n¯x2 ⇒ n i=1 x2 i = SXX + n¯x2 a upravujme S(β0, β1) = n i=1 (Yi − β0 − β1xi)2 = n i=1 (Yi − β0 − β1xi) − (β0 − β0) − (β1 − β1)xi 2 = n i=1 (Yi − β0 − β1xi)2 + n(β0 − β0)2 + (β0 − β0)2 n i=1 x2 i − 2(β0 − β0) n i=1 (Yi − β0 − β1xi) − 1 2 ∂S(β0,β1) ∂β0 =0 −2(β0 − β0) n i=1 xi(Yi − β0 − β1xi) − 1 2 ∂S(β0,β1) ∂β1 =0 + 2(β0 − β0)(β1 − β1) n i=1 xi = S(β0, β1) + n(β0 − β0)2 + (β1 − β1)2 SXX + n¯x2 + 2(β0 − β0)(β1 − β1)n¯x = S(β0, β1)+n(β0 − β0)2 ∗ +(β1−β1)2 SXX + n(β1−β1)2 ¯x2 ∗ +2(β0−β0)(β1−β1)n¯x ∗ = S(β0, β1) =S2 e + (β1 − β1)2 SXX =S2 1 ≥0 + n (β0 − β0) + (β1 − β1)¯x 2 =S2 0 ≥0 . (18) RNDr. Marie Forbelská, PhD. 83 Takže pro libovolné β0, β1 ∈ R skutečně dostáváme, že S(β0, β1) ≥ S(β0, β1) což znamená, že β0, β1 jsou odhady parametrů β0, β1 metodou nejmenších čtverců. Ještě než dopočítáme reziduální součet čtverců, označme Yi = β0 − β1xi = ¯Y − SXY SXX ¯x + SXY SXX xi = ¯Y + SXY SXX (xi − ¯x) a počítejme S(β0, β1) = n i=1 (Yi − β0 − β1xi)2 = n i=1 (Yi − Yi)2 = n i=1 Yi − ¯Y − SXY SXX (xi − ¯x) 2 = n i=1 (Yi − ¯Y )2 − 2SXY SXX (xi − ¯x)(Yi − ¯Y ) + S2 XY S2 XX (xi − ¯x)2 = SY Y − 2 SXY SXX SXY + S2 XY S2 XX SXX = SY Y − S2 XY SXX = SY Y SXX − S2 XY SXX Naším dalším úkolem bude • popsat vlastnosti odhadů β0 a β0 získaných pomocí metody nejmenších čtverců • a najít odhad neznámého parametru σ2 . Pro tyto účely budou velmi výhodné následující transformace: (I) Centrování: V = Y − µ pomocí µ = (µ1, . . . , µn)′ , kde EYi = µi = β0 + β1xi pro i = 1, . . ., n, takže platí (a) EVi = 0 ⇒ EV = 0 (b) DVi = D(Yi − β0 − β1xi) = DYi = σ2 (c) C(Vi, Vj) = C(Yi, Yj) = σ2 i = j 0 i = j , což plyne z nezávislosti Y1, . . . , Yn. (II) Ortogonalizace: Z = BV = B(Y − µ) přičemž B je ortonormální matice tvaru B =         1√ n 1√ n 1√ n · · · 1√ n x1−¯x√ SXX x2−¯x√ SXX x3−¯x√ SXX · · · xn−¯x√ SXX b31 b32 b33 · · · b3n ... ... ... ... bn1 bn2 bn3 · · · bnn         =       b′ 1 b′ 2 b′ 3 ... b′ n       = s1 · · · sn , pričemž b′ jbk = 1 j = k, 0 j = k s′ jsk = 1 j = k, 0 j = k. takže celkově platí BB′ = B′ B = In . 84 M4122 Pravděpodobnost a statistika II Zkoumejme vlastnosti této transformace: (1) n i=1 Z2 i = Z′ Z = (Y − µ)′ B′ B(Y − µ) = n i=1 (Yi − β0 − β1xi)2 = S(β0, β1) = S(β0, β1) + n (β0 − β0) + (β1 − β1)¯x 2 + (β1 − β1)2 SXX = S(β0, β1) + S2 0 + S2 1 (2) Z1 = 1√ n 1′ n(Y − µ) = 1√ n n i=1 (Yi − β0 − β1xi) = 1√ n (n¯Y − nβ0 − nβ1 ¯x) = √ n( ¯Y − β1¯x =bβ0 −β0 + β1 ¯x − β1 ¯x) = √ n (β0 − β0) + (β1 − β1)¯x ⇒ Z2 1 = S2 0 (3) Z2 = b′ 2(Y − µ) = 1√ SXX n i=1 (xi − ¯x)(Yi − β0 − β1xi) = 1√ SXX n i=1 [Yi(xi − ¯x) − β0(xi − ¯x) − β1(xi − ¯x)xi] = 1√ SXX n i=1 xiYi−n¯x¯Y =SXY − β0√ SXX n i=1 (xi− ¯x) =0 − β1√ SXX n i=1 x2 i −n¯x2 =SXX = SXY SXX =bβ1 √ SXX − β1 √ SXX = (β1 − β1) √ SXX ⇒ Z2 2 = S2 1 (4) n i=3 Z2 i = S(β0, β1) neboť S(β0, β1) = n i=1 Z2 i = S(β0, β1) + S2 0 + S2 1 (5) EZj = E n i=1 bji(Yi − µi) = E n i=1 bjiVi = n i=1 bji EVi =0 = 0 DZj = EZ2 j = D n i=1 bjiVi nez. = n i=1 b2 jiDVi = σ2 n i=1 b2 ji =1 = σ2 pro l = k C(Zl, Zk) = C n i=1 bliVi, n j=1 bkjVj = n i=1 n j=1 blibkjC(Vi, Vj) = n i=1 blibki C(Vi, Vi) =σ2 = σ2 b′ lbk =0 pro l=k = 0 RNDr. Marie Forbelská, PhD. 85 Předchozích poznatků nyní využijeme ve větě: Věta 10.4. V modelu (M1) platí (1) Odhady β0 a β1 jsou nestrannými odhady parametrů β0 a β1. (2) Statistika S2 M1 = S2 e n − 2 je nestranným odhadem parametru σ2 . (3) Veličina Y = β0 + β1x je nestranným odhadem veličiny y = β0 + β1x pro ∀x ∈ R. Důkaz. (1) Počítejme postupně E ¯Y = E 1 n n i=1 Yi = 1 n n i=1 EYi = 1 n n i=1 E(β0 + β1xi) = β0 + β1 1 n n i=1 xi = β0 + β1 ¯x Eβ1 = E SXY SXX = 1 SXX E n i=1 (Yi − ¯Y )(xi − ¯x) = 1 SXX n i=1 (xi − ¯x)E(Yi − ¯Y ) = 1 SXX n i=1 (xi − ¯x)(EYi − E ¯Y ) = 1 SXX n i=1 (xi − ¯x)(β0 + β1xi − β0 − β1¯x) = 1 SXX β1 n i=1 (xi − ¯x)2 =SXX = β1 Eβ0 = E( ¯Y − β1¯x) = E(β0 + β1 =E bβ1 ¯x − β1¯x) = β0 + Eβ1¯x − Eβ1 ¯x = β0 (2) Dále počítejme ES2 M1 = E S2 e n − 2 = 1 n − 2 ES2 e = 1 n − 2 n i=3 EY 2 i =σ2 = 1 n − 2 (n − 2)σ2 = σ2 (3) Z nestrannosti β0 a β1 plyne EY = E(β0 + β1x) = β0 + β1x = y . 86 M4122 Pravděpodobnost a statistika II Věta 10.5. Nechť v modelu (M1) pro i = 1, . . ., n platí, že náhodné veličiny Yi ∼ N(β0 + β1xi, σ2 ) . Pak (1) Odhad parametru β1 ∼ N β1, σ2 SXX . (2) Odhad parametru β0 ∼ N β0, σ2 1 n + ¯x2 SXX . (3) Odhad pro y =β0+β1x Y = β0 + β1x ∼ N β0 + β1x, σ2 1 n + (x − ¯x)2 SXX . (4) Náhodný vektor β0 β1 a statistika K = (n − 2)S2 M1 σ2 jsou nezávislé. (5) Statistika K ∼ χ2 (n − 2) . Důkaz. Pokud předpokládáme, že pro i = 1, . . ., n mají náhodné veličiny Yi normální rozdě- lení Yi ∼ N(β0 + β1xi, σ2 ), pak Vi = Yi − β0 − β1xi ∼ N(0, σ2 ) a také Zi = b′ iV = n k=1 bikVi ∼ N(0, σ2 b′ ibi =1 ). Navíc vzhledem k tomu, že Zi jsou normální náhodné veličiny, pak z nekorelovanosti plyne také nezávislost. (1) Protože β1 = SXY SXX a statistika Z2 = (β1 − β1) √ SXX, pak odhad β1 lze vyjádřit pomocí Z2 takto β1 = Z2 √ SXX + β1 ∼ N(β1, σ2 S−1 XX). (2) Protože Z1 = √ n (β0 − β0) + (β1 − β1)¯x a β1 − β1 = Z2 √ SXX , pak β0 = Z1√ n − Z2√ SXX ¯x + β0 ∼ N β0, σ2 1 n + ¯x2 SXX (3) Počítejme postupně Y = β0 + β1x = β0 + Z1 √ n − Z2 √ SXX ¯x + Z2 √ SXX + β1 x = β0 + β1x + Z1 √ n + Z2 √ SXX (x − ¯x) ∼ N β0 + β1x, σ2 1 n + (x − ¯x)2 SXX RNDr. Marie Forbelská, PhD. 87 (4) Protože β0 a β1 závisí pouze na Z1 a Z2, kdežto S2 e = n i=3 Z2 i a Z1, . . . , Zn jsou nezávislé, pak také statistika K = (n − 2)S2 M1 σ2 = S2 e σ2 a náhodný vektor β0 β1 jsou nezávislé. (5) Protože Zi σ ∼ N(0, 1), pak K = (n − 2)S2 M1 σ2 = S2 e σ2 = n i=3 Zi σ 2 ∼ χ2 (n − 2). Důsledek 10.6. Nechť v modelu (M1) pro i = 1, . . ., n platí, že náhodné veličiny Yi ∼ N(β0 + β1xi, σ2 ) . Pak platí (1) Statistika T1 = β0 − β0 SM1 1 n + ¯x SXX ∼ t(n − 2). (2) Statistika T2 = β1 − β1 SM1 SXX ∼ t(n − 2). (3) Statistika T3 = Y − (β0 + β1x) SM1 1 n + (x−¯x)2 SXX ∼ t(n − 2). Důkaz. Postupně dokazujme jednotlivá tvrzení: (1) Víme, že v modelu (M1) má LS-odhad parametru β0 normální rozdělení β0 ∼ N β0, σ2 1 n + ¯x2 SXX . Po provedení standardizace dostaneme Ubβ0 = β0 − β0 σ 1 n + ¯x2 SXX ∼ N(0, 1). Se statistikou Ubβ0 je nezávislá statistika K = (n − 2)S2 M1 σ2 ∼ χ2 (n − 2). Protože platí, že Ubβ0 K n−2 ∼ t(n − 2), 88 M4122 Pravděpodobnost a statistika II pak po dosazení a úpravách dostaneme Ubβ0 K n−2 = bβ0−β0 σ r 1 n + ¯x2 SXX (n−2)S2 M1 σ2 n−2 = β0 − β0 SM1 1 n + ¯x2 SXX = T1 ∼ t(n − 2). (2) Při důkazu druhého tvrzení budeme postupovat zcela analogicky jako v předchozím případě: β1 ∼ N β1, σ2 SXX ⇒ Ubβ1 = β1 − β1 σ 1 SXX ∼ N(0, 1). Dále Ubβ1 ⊥ K ⇒ T2 = Ubβ1 K n−2 = bβ1−β1 σ q 1 SXX (n−2)S2 M1 σ2 n−2 = β1 − β1 SM1 SXX ∼ t(n − 2). (3) Postupujme opět analogicky jako v předchozích dvou případech Y = β0+β1x ∼ N β0+β1x, σ2 1 n + (x−¯x)2 SXX ⇒ UbY = Y − (β0 + β1x) σ 1 n + (x−¯x)2 SXX ∼ N(0, 1). Dále UbY ⊥ K ⇒ T3 = UbY K n−2 = bY −(β0+β1x) σ r 1 n +(x−¯x)2 SXX (n−2)S2 M1 σ2 n−2 = Y − (β0 + β1x) SM1 1 n + (x−¯x)2 SXX ∼ t(n − 2). 10.4. Intervalové odhady a testy hypotéz v regresním modelu. V předchozím odstavci jsme nečinili žádný předpoklad o typu rozdělení náhodných veličin Yi (resp. εi) pro i = 1, . . . , n. Abychom mohli konstruovat intervalové odhady a provádět testy hypotéz, musíme připojit předpoklad o typu rozdělení, a to předpoklad normálního rozdělení. RNDr. Marie Forbelská, PhD. 89 Důsledek 10.7. Nechť v modelu (M1) pro i = 1, . . ., n platí, že náhodné veličiny Yi ∼ N(β0 + β1xi, σ2 ) . Pak intervalový odhad (se spolehlivostí 1 − α) (1) pro β0 je tvaru β0 − SM1 1 n + ¯x2 SXX t1− α 2 (n − 2), β0 + SM1 1 n + ¯x2 SXX t1− α 2 (n − 2) . (2) pro β1 je tvaru β1 − SM1√ SXX t1− α 2 (n − 2), β1 + SM1√ SXX t1− α 2 (n − 2) . (3) pro y = β0 + β1x je tvaru β0 + β1x − SM1 1 n + (x−¯x)2 SXX t1− α 2 (n − 2), β0 + β1x + SM1 1 n + (x−¯x)2 SXX t1− α 2 (n − 2) . (4) pro σ2 je tvaru (n − 2)S2 M1 χ2 1− α 2 (n − 2) , (n − 2)S2 M1 χ2 α 2 (n − 2) . Důkaz. Při dokazování prvních tří tvrzení použijeme pivotové statistiky Tj (j = 1, 2, 3) uvedené v předchozím důsledku, tj. vyjdeme ze vztahu 1 − α = P −t1− α 2 (n − 2) ≤ Tj ≤ t1− α 2 (n − 2) a pomocí jednoduchých úprav dostaneme první tři tvrzení. Pro důkaz čtvrtého tvrzení využijeme pivotovou statistiku K = (n−2)S2 M1 σ2 ∼ χ2 (n − 2), tj. 1 − α = P χ2 α 2 (n − 2) ≤ K ≤ χ2 1− α 2 (n − 2) a po jednoduchých úpravách dojdeme k poslednímu tvrzení. Všimněme si nyní testování hypotéz v regresním modelu (M1). Testy lze obecně sestavit např. metodou podílu věrohodností. V následující tabulce je popíšeme pomocí kritických oblastí Wα. H0 H1 Hypotézu H0 zamítáme, pokud Y ∈ Wα, tj. β0 = 0 β0 = 0 |β0|/ 1 n + ¯x2 SXX ≥ SM1t1− α 2 (n − 2) β0 = 0 β0 > 0 β0/ 1 n + ¯x2 SXX ≥ SM1t1−α(n − 2) β0 = 0 β0 < 0 β0/ 1 n + ¯x2 SXX ≤ −SM1t1−α(n − 2) β1 = 0 β1 = 0 |β1| √ SXX ≥ SM1t1− α 2 (n − 2) β1 = 0 β1 > 0 β1 √ SXX ≥ SM1t1−α(n − 2) β1 = 0 β1 < 0 β1 √ SXX ≤ −SM1t1−α(n − 2) 90 M4122 Pravděpodobnost a statistika II 10.5. Některé speciální případy regresních modelů. 10.5.1. Regresní přímka procházející počátkem. Pokud vztah mezi veličinami x a y je vztahem přímé úměrnosti, pak v regresním modelu (M1) klademe β0 = 0 a body (xi, Yi) prokládáme regresní přímkou procházející počátkem. Označme nejprve S∗ XX = n i=1 x2 i S∗ XY = n i=1 xiYi S∗ Y Y = n i=1 Y 2 i . Odhad parametru β1 pomocí metody nejmenších čtverců vypočteme, když nejprve položíme první derivaci funkce S(β1) = n i=1 (Yi − β1xi)2 rovnu nule, tj. −2 n i=1 (Yi − β1xi)xi = 0 a odtud pak β1 = n i=1 Yixi n i=1 x2 i = S∗ XY S∗ XX . Přesvědčíme se, že jde o minimum: S(β1) = n i=1 (Yi − β1xi)2 = n i=1 (Yi − β1xi) − (β1 − β1)xi 2 = n i=1 (Yi − β1xi)2 S(bβ1) −2(β1 − β1) n i=1 (Yi − β1xi)xi − 1 2 dS(β1) dβ1 =0 +(β1 − β1)2 n i=1 x2 i = S(β1) + (β1 − β1)2 n i=1 x2 i ≥0 = S(β1) + (β1 − β1)2 S∗ XX S2 1 takže pro libovolné β1 ∈ R platí S(β1) ≤ S(β1) . Nyní explicitně vyjádřeme S(β1): S(β1) = n i=1 (Yi − β1xi)2 = n i=1 Yi − n i=1 Yixi n i=1 x2 i xi 2 = n i=1 Y 2 i − 2 n i=1 Yixi n i=1 x2 i n i=1 Yixi + ( n i=1 Yixi)2 ( n i=1 x2 i )2 n i=1 x2 i = n i=1 Y 2 i − ( n i=1 Yixi)2 n i=1 x2 i = S∗ Y Y − S∗2 XY S∗ XX Abychom mohli odvodit vlastnosti odhadů opět použijeme transformaci vektoru Y, a to ortogonalizaci Z = BV = B(Y − µ) přičemž B je ortonormální matice tvaru B =      x1√ S∗ XX x2√ S∗ XX x3√ S∗ XX · · · xn√ S∗ XX b21 b22 b23 · · · b2n ... ... ... ... bn1 bn2 bn3 · · · bnn      =     b′ 1 b′ 2 ... b′ n     , RNDr. Marie Forbelská, PhD. 91 pričemž b′ jbk = 1 j = k, 0 j = k takže celkově platí BB′ = B′ B = In a V = Y−µ pomocí µ = (µ1, . . . , µn)′ , kde EYi = µi = β1xi pro i = 1, . . . , n. Postupně spočítejme (a) EVi = 0 ⇒ EV = 0 (b) DVi = D(Yi − β1xi) = DYi = σ2 (c) C(Vi, Vj) = C(Yi, Yj) = σ2 i = j 0 i = j , což plyne z nezávislosti Y1, . . . , Yn. (d) EZj = E n i=1 bji(Yi − µi) = E n i=1 bjiVi = n i=1 bji EVi =0 = 0 DZj = EZ2 j = D n i=1 bjiVi nez. = n i=1 b2 jiDVi = σ2 n i=1 b2 ji =1 = σ2 pro l = k C(Zl, Zk) = C n i=1 bliVi, n j=1 bkjVj = n i=1 n j=1 blibkjC(Vi, Vj) = n i=1 blibki C(Vi, Vi) =σ2 = σ2 b′ lbk =0 pro l=k = 0 (e) Všimněme si, že n i=1 Z2 i = Z′ Z = (Y − µ)′ B′ B(Y − µ) = n i=1 (Yi − β1xi)2 = S(β1) = S(β1) + (β1 − β1)2 S∗ XX = S(β0, β1) + S2 1 (f) A dále Z1 = b′ 1(Y − µ) = 1√ S∗ XX n i=1 xi(Yi − β1xi) = 1√ S∗ XX n i=1 xiYi − β1√ S∗ XX n i=1 x2 i = S∗ XY S∗ XX =bβ1 S∗ XX − β1 S∗ XX = (β1 − β1) S∗ XX ⇒ Z2 1 = S2 1 (g) Nakonec n i=2 Z2 i = S(β1) neboť S(β1) = n i=1 Z2 i = S(β1) =S2 e +S2 1 Pomocí předchozí transformace snadno spočítáme vlastnosti odhadů, když si uvědomíme, že platí Z1 = (β1 − β1) S∗ XX ∼ L(0, σ2 ) ⇒ β1 = β1 + Z1√ S∗ XX ∼ L β1, σ2 S∗ XX , tj. β1 je nestranným odhadem parametru β1 . 92 M4122 Pravděpodobnost a statistika II Opět ukážeme, že statistika S2 M1 = S2 e n − 1 je nestranným odhadem parametru σ2 . ES2 M1 = E S2 e n − 1 = 1 n − 1 n i=2 EZ2 i =σ2 = σ2 Přidáme-li podmínku normality, tj. Yi ∼ N(β1xi, σ2 ) pro i = 1, . . ., n, pak LS-odhad parametru β1 má normální rozdělení β1 ∼ N β1, σ2 S∗ XX ⇒ Ubβ1 = bβ1−β1 σ S∗ XX ∼ N(0, 1) a je nezávislý se statistikou K = (n−1)S2 M1 σ2 ∼ χ2 (n − 1) . Díky těmto vlastnostem můžeme získat statistiku T = Ubβ1q K n−1 = bβ1−β1 SM1 S∗ XX ∼ t(n − 1) . Na závěr si ještě všimněme testování hypotéz v regresním modelu s regresní přímkou procházející počátkem. Testy lze obecně opět sestavit např. metodou podílu věrohodností. V následující tabulce je popíšeme pomocí kritických oblastí Wα. H0 H1 Hypotézu H0 zamítáme, pokud Y ∈ Wα, tj. β1 = 0 β1 = 0 |β1| √ SXX ≥ SM1t1− α 2 (n − 1) β1 = 0 β1 > 0 β1 √ SXX ≥ SM1t1−α(n − 1) β1 = 0 β1 < 0 β1 √ SXX ≤ −SM1t1−α(n − 1) RNDr. Marie Forbelská, PhD. 93 10.5.2. Dva nezávislé náhodné výběry. Nechť {X1, . . . , Xnx} ∼ N(µX, σ2 X) je náhodný výběr rozsahu nx z normálního rozdělení N(µX, σ2 X), ¯Xnx je jeho výběrový průměr a S2 X jeho výběrový rozptyl. Dále nechť {Y1, . . . , Yny } ∼ N(µY , σ2 Y ) je náhodný výběr rozsahu nY z normálního rozdělení N(µY , σ2 Y ), ¯Yny je jeho výběrový průměr a S2 Y jeho výběrový rozptyl. Položíme-li n = nx + ny a zavedeme-li následující značení Y1 = X1 x1 = 1 ... ... Ynx = Xnx xnx = 1 Ynx+1 = Y1 xnx+1 = 0 ... ... Yn = Yny xn = 0 dostáváme regresní model (M1), ve kterém ¯x = 1 n n i=1 xi = nx nx+ny ¯Y = 1 n n i=1 Yi = nx nx+ny ¯Xnx + ny nx+ny ¯Yny SXX = n i=1 (xi − ¯x)2 = n i=1 x2 i − n¯x2 = nx − (nx + ny) nx nx+ny 2 = nx(nx+ny)−n2 x nx+ny = nx(nx+ny−nx) nx+ny = nxny nx+ny SXY = n i=1 (Yi − ¯Y )(xi − ¯x) = n i=1 xiYi − n¯x ¯Y = nx ¯Xnx − (nx + ny) nx (nx+ny) nx nx+ny ¯Xnx + ny nx+ny ¯Yny = nx ny ¯Xnx − ny ¯Yny nx + ny = nxny nx+ny ¯Xnx − ¯Yny SY Y = n i=1 (Yi − ¯Y )2 = n i=1 Y 2 i − n¯Y 2 = n i=1 Y 2 i − (nx + ny) nx nx+ny ¯Xnx + ny nx+ny ¯Yny 2 = n i=1 Y 2 i − (nx ¯Xnx +ny ¯Yny )2 nx+ny 94 M4122 Pravděpodobnost a statistika II β1 = SXY SXX = nxny nx+ny ¯Xnx − ¯Yny nxny nx+ny = ¯Xnx − ¯Yny β0 = ¯Y − β1 ¯x = nx nx+ny ¯Xnx + ny nx+ny ¯Yny − ¯Xnx − ¯Yny nxny nx+ny = ¯Yny S2 e = SY Y − S2 XY SXX = SY Y − β1SXY = n i=1 Y 2 i − (nx ¯Xnx +ny ¯Yny )2 nx+ny − nxny nx+ny ¯Xnx − ¯Yny 2 = n i=1 Y 2 i − 1 nx+ny n2 x ¯X2 nx +2nxny ¯Xnx ¯Yny +ny ¯Y 2 ny +nxny ¯X2 nx −nxny ¯Xnx ¯Yny +nxny ¯Y 2 ny = n i=1 Y 2 i − 1 nx+ny nx(nx + ny) ¯X2 nx + ny(nx + ny) ¯Y 2 ny = nx i=1 X2 i − nx ¯X2 nx (nx−1)S2 X + nx+ny i=nx+1 Y 2 i − ny ¯Y 2 ny (ny−1)S2 Y = (nx − 1)S2 X + (ny − 1)S2 Y S2 M1 = S2 e n − 2 = (nx − 1)S2 X + (ny − 1)S2 Y nx + ny − 2 Vzhledem k tomu, že výběrové průměry jsou nestrannými odhady středních hodnot, pak neznámé parametry β0 a β1 lze interpretovat takto β0 = µY β1 = µX − µY Na závěr si ještě všimněme, že (oboustranný) interval spolehlivosti, který jsme odvodili pro neznámý parametr β1 β1 − SM1√ SXX t1− α 2 (n − 2), β1 + SM1√ SXX t1− α 2 (n − 2) po dosazení má tvar pro β1 je tvaru β1 − SM1q nxny nx+ny t1− α 2 (n − 2), β1 + SM1q nxny nx+ny t1− α 2 (n − 2) . a je naprosto shodný s intervalem, který jsme odvodili pro rozdíl středních hodnot dvou nezávislých náhodných výběrů z normálního rozdělení. RNDr. Marie Forbelská, PhD. 95 Příklad 10.8. Máme analyzovat data o počtu pracovních hodin za měsíc spojených s provozováním anesteziologické služby v závislosti na velikosti spádové populace nemocnice (viz následující tabulka). Údaje byly získány ve 12 nemocnicích ve Spojených státech. Poř. Počet Velikost populace pracovních spádové oblasti číslo hodin (osoby v tisích) 1 304,37 25,5 2 2616,32 294,3 3 1139,12 83,7 4 285,43 30,7 5 1413,77 129,8 6 1555,68 180,8 7 383,78 43,4 8 2174,27 165,2 9 845,30 74,3 10 1125,28 60,8 11 3462,60 319,2 12 3682,33 376,2 Závislost počtu pracovních hodin na velikosti populace 0 50 100 150 200 250 300 350 400 0 500 1000 1500 2000 2500 3000 3500 4000 Graf naznačuje lineární vztah mezi pracovní dobou a velikostí populace, a tak budeme pokračovat kvantifikací tohoto vztahu pomocí přímky y = β0 + β1x. 0 50 100 150 200 250 300 350 400 0 500 1000 1500 2000 2500 3000 3500 4000 Používáme-li model regresní analýzy pro statistické zpracování našich dat, je dobré ověřit předpoklady, ze kterých model vychází. Shrňme je v následujících třech bodech. (1) Závisle proměnná Y (pracovní doba) má normální rozdělení pro každou hodnotu nezávisle proměnné x (velikost populace). (2) Rozptyl závisle proměnné Y je stejný pro každou hodnotu nezávisle proměnné x. (3) Závislost veličiny Y na x je lineární. Pro tuto chvíli předpokládejme, že pro náš příklad jsou tyto předpoklady splněny. Odhad absolutního členu β0 a směrnice β1 regresní přímky a jejich statistické charakteristiky jsou uvedeny v další tabulce. Směrodatná chyba koeficientu je výběrová směrodatná odchylka odhadovaného parametru, tj. sβ0 = SM1 1 n + ¯x2 SXX a sβ1 = SM1√ SXX (Ve statistických programech je obvykle označována anglicky jako Standard Error.) Statistické charakteristiky lineární regrese Parametr Koeficient Směrodatná chyba koef. t-statistika p-hodnota Absolutní člen β0 180,658 128,381 1,407 0,1896823 Směrnice β1 9,429 0,681 13,847 7.520972e-08 Z tabulky tedy dostáváme: pracovní doba = 180,658 + 9,429 · velikost populace. 96 M4122 Pravděpodobnost a statistika II To je třeba interpretovat jako odhad průměrné hodnoty počtu pracovních hodin pro populaci s danou velikostí. Očekáváme, že na každých dalších 1 000 lidí stoupne za měsíc počet pracovních hodin o 9,429, což je směrnice regresní přímky. Uvědomte si, že absolutní člen (180, 658) značí průměrný počet pracovních hodin, když je populace rovna nule. To zřejmě nedává smysl a mělo by nám to připomenout, že model by se měl používat pouze v tom rozmezí obou veličin, v němž se pohybovaly pozorované hodnoty. V tomto případě to znamená x od 26 do 370. Je ovšem pravda, že dosažená hladina významnosti pro absolutní člen je přibližně 0, 19, a nelze tedy říci, že by se absolutní člen β0 významně lišil od nuly. Připomeňme, že tyto výsledky jsme spočítali pro náhodný výběr 12 nemocnic. Kdybychom teď zvolili jiný náhodný výběr 12 nemocnic, dostali bychom odlišný odhad směrnice a absolutního členu. Určeme proto intervaly spolehlivosti neznámých parametrů β0 a β1. Oboustranný interval spolehlivosti pro β0 180,6575 ± 2,228 · 128,3812 = 180,6575 ± 286,051 −200 −100 0 100 200 300 400 500 (−105,394; 466,709) Oboustranný interval spolehlivosti pro β1 9,429 ± 2,228 · 0,681 = 9,429 ± 1,517 0 2 4 6 8 10 12 (7,912; 10,946) Na základě výběru 12 nemocnic můžeme říci, že neznámý parametr β0 leží mezi −105, 394 a 466, 709 a neznámý parametr β1, tj. parametr změny průměrného počtu pracovních hodin v závislosti na změně velikosti populace (v tisících), leží mezi 7, 912 a 10, 946 pracovními hodinami za měsíc. Protože interval spolehlivosti pro β0 pokrývá nulu, nelze potvrdit, že se významně liší od nuly. Naproti tomu interval spolehlivosti pro β1 nulu nepokrývá, tedy se významně liší od nuly, jinak řečeno počet pracovních hodin skutečně lineárně závisí na rozsahu spádové populace. Pokud bychom uvažovali regresi procházející počátkem (plná čára) a výsledek srovnali s obecnou regresní přímkou (čárkovaná čára), dostaneme následující odhady β∗ 1 = 10, 185 sβ∗ 1 = 0, 4371, t∗ = 3, 30157, p∗ − hodnota = 1.0318e − 10 Oboustranný interval spolehlivosti pro β∗ 1 10,185 ± 2,2 · 0,4371 = 10,185 ± 0,962 0 2 4 6 8 10 12 (9,223; 11,147) Protože interval spolehlivosti pro β∗ 1 nulu nepokrývá, opět jsme prokázali, že se významně liší od nuly, tj. počet pracovních hodin skutečně lineárně závisí na rozsahu spádové po- pulace. 0 50 100 150 200 250 300 350 400 0 500 1000 1500 2000 2500 3000 3500 4000 4500 pracovní doba = 10,185 · velikost populace.