Z1069 Statistické metody a zpracování dat IV. Odhady parametrů K čemu to je dobré? Obvyklým případem při zpracování hromadných jevů je, že máme poměrně malý počet pozorování nějaké veličiny a chceme učinit závěry o tom, co bychom obdrželi, kdybychom měli pozorování mnohokrát více. Cílem je ukázat: 1) Jaké vlastnosti má mít (náhodný) výběr 2) Jaké vlastnosti (rozdělení) mají výběrové statistiky 3) Jak lze odhadnout parametry základního souboru ze souboru výběrového Výběrové metody zkoumání • Základní soubor (populace) a jeho parametry • Výběrový soubor a jeho statistiky Z výběru provádíme úsudky (odhady) skutečných hodnot parametrů základního souboru To si můžeme dovolit pokud má výběrový soubor stejné vlastnosti jako soubor základní (je reprezentativní) Toho dosáhneme náhodným výběrem Jaké jsou důvody, proč pracujeme s výběrovými soubory? Odhadování jako základ statistického usuzování Používáme statistickou indukci - usuzujeme z části (výběr) na celek (základní soubor). Odhad neznámých parametrů základního souboru provádíme: 1) na základě statistických charakteristik výběru. 2) na základě jistých předpokladů o jejich rozdělení Vztahy mezi základním souborem a výběry Základní pojmy a symboly Odhady parametrů základního souboru: σˆ µˆ tohle neznáme a proto to odhadujeme Dva způsoby odhadu parametrů základního souboru • bodový odhad • intervalový odhad Nejčastěji odhadujeme střední hodnotu a rozptyl základního souboru K odhadování potřebujeme poznatky o teoretických rozděleních Odhady parametrů základního souboru z výběru provádíme s určitou pravděpodobností (přesností, spolehlivostí) Bodový odhad parametrů základního souboru ∑= == n i ix n x 1 1 ˆµ Bodový odhad aritmetického průměru základního souboru Průměr výběrového souboru je nezkresleným odhadem střední hodnoty (průměru) základního souboru Je to odhad parametru základního souboru (střední hodnoty, rozptylu) z výběrového souboru pomocí jedné hodnoty. Bodový odhad parametrů základního souboru Bodový odhad směrodatné odchylky základního souboru ∑= − − = n i i xx n 1 2 )( 1 1 ˆσ Určuje se z odchylek jednotlivých prvků od výběrového průměru. Pro n-1 stupňů volnosti platí: Směrodatná odchylka (rozptyl) výběrového souboru není nezkresleným odhadem směrodatné odchylky (rozptylu) základního souboru Stupně volnosti Máme odhad aritmetického průměru a platí následující výraz: xnx n i i ⋅=∑=1 σˆK určení hodnoty lze tedy využít pouze (n-1) nezávislých členů tzv. stupňů volnosti Odhadem průměru „ztrácíme“ jeden nezávislý „pokus“ Příklad: • průměr vypočtený ze tří měření je 5 • dvě náhodná (nezávislá) měření budou 4 a 5 • zbývající třetí měření musí být 6, aby byl průměr roven 5, tedy není nezávislé (poznámka) ∑= − − = n i i xx n 1 2 )( 1 1 ˆσ Směrodatná odchylka výběrového souboru Bodový odhad parametrů základního souboru . Směrodatná odchylka základního souboru Pro malá n (n<30) bychom měli výběrovou směrodatnou odchylku s počítat podle výše uvedeného vzorce. Bodový odhad je odhad jedním číslem. Nevíme jak je toto číslo „přesné“ či „spolehlivé“. Výhodnější je odhad pomocí intervalu, který bude s vysokou pravděpodobností obsahovat neznámý parametr. Pomocí výběrového průměru konstruujeme interval uvnitř kterého se skutečná hodnota populačního průměru nachází s vysokou pravděpodobností Intervalový odhad, intervaly spolehlivosti Z vlastností normálního rozdělení lze pomocí hodnoty aritmetického průměru a násobků směrodatné odchylky určit meze, které vyjadřují pravděpodobnosti, s nimiž dané hodnoty leží v určitém intervalu Intervaly spolehlivosti Vnitřní interval vymezený jistým násobkem směrodatné odchylky se označuje jako interval spolehlivosti. Odchylky od průměru, které se nacházejí uvnitř tohoto intervalu označujeme jako odchylky přípustné, nevýznamné. Analogicky jsou definovány odchylky významné. Meze spolehlivosti dále vymezují tzv. kritický obor (oblast zamítnutí) a oblast přijetí. Šířku intervalu spolehlivosti volíme podle povahy problému a závisí také na rozsahu náhodného výběru. Nejčastěji používané intervaly: Intervaly spolehlivosti Násobky s Oblast přijetí Oblast zamítnutí 1,960 95 % 5 % 2,576 99 % 1 % 3,291 99,9% 0,1 % Interpretace intervalů spolehlivosti: 95 % interval spolehlivosti stanovený na základě náhodného výběru zahrne s pravděpodobností 95 % skutečnou hodnotu odhadovaného parametru. Intervalový odhad parametrů základního souboru Na rozdíl od bodového odhadu zde určujeme interval, v němž se zadanou pravděpodobností leží odhadovaný neznámý parametr. Intervalový odhad se liší podle rozsahu souboru a také podle toho, jaké parametry známe. Dále budeme značit: q1, q2 - krajní hodnoty intervalu spolehlivosti – meze spolehlivosti α – hladina významnosti - pravděpodobnost, že skutečný parametr základního souboru není z intervalu spolehlivosti. (1-α) – hladina spolehlivosti (spolehlivost odhadu) – představuje pravděpodobnost, že skutečný parametr základního souboru se nachází uvnitř intervalu spolehlivosti. Intervalový odhad dvoustranný Interpretace: Pravděpodobnost, že parametr µ základního souboru se nachází mezi hodnotami q1, q2 je (1-α) αµ −=≤≤ 1)( 21 qqP (1-α) α/2 α/2 Intervalový odhad jednostranný Interpretace: Pravděpodobnost, že parametr µ základního souboru má větší hodnotu než q1, je (1-α) zdola ohraničený (1-α) α αµ −=≤ 1)( 1qP Intervalový odhad jednostranný Interpretace: Pravděpodobnost, že parametr µ základního souboru má menší hodnotu než q2, je (1-α) shora ohraničený αµ −=≤ 1)( 2qP (1-α) α µIntervalový odhad parametru pro velké rozsahy výběru (n > 30) Intervalový odhad lze obecně zapsat: αµ −=≤≤ 1)( 21 qqP Pokud známe hodnotu σ hodnoty q1, q2 lze určit takto: n zxq σ α 2 1 1 − −= n zxq σ α 2 1 2 − += je příslušný kvantil normovaného normálního rozdělení (lze ho najít v tabulkách či vypočítat)2 1 α − z σ – směrodatná odchylka základního souboru n – rozsah výběru α – hladina významnosti je tzv. směrodatná chyba odhadu průměru (viz poznámky) n σ µ 12 1 1 − −= − n s zxq α Intervalový odhad parametru pro velké rozsahy výběru (n > 30) Pokud neznáme hodnotu σ hodnoty q1, q2 lze určit takto: 12 1 2 − += − n s zxq α Intervalový odhad parametru µ lze potom zapsat: 11 2 1 2 1 − +<< − − −− n s zx n s zx αα µ s – směrodatná odchylka výběrového souboru µIntervalový odhad parametru pro velké rozsahy výběru (n > 30) Výše uvedená nerovnice je splněna s pravděpodobnosti (1-α): α σ µ σ αα −=+<<− −− 1][ 2 1 2 1 n zx n zxP analogicky při neznámém σ αµ αα −= − +<< − − −− 1] 11 [ 2 1 2 1 n s zx n s zxP Výraz (delta) se označuje jako přípustná chyba n z σ α 2 1− =∆ Intervalový odhad parametru µ lze jednoduše zapsat jako ∆±= xµ Příklad (1/1): Určete 95% interval spolehlivosti pro průměrnou návštěvnost rekreačního střediska, když pro náhodný výběr 100 návštěvníků je průměrná délka pobytu 2,2 dne a rozptyl délky pobytu všech návštěvníků je 0,36 100=n 2,2=x 6,036,0 ==σ 05,0=α Z tabulek kvantilů normovaného normálního rozdělení určíme hodnotu z pro α=0,05: 96,1975,0 2 05,0 1 2 1 === −− zzz α dále vypočítáme hranice intervalu spolehlivosti … Příklad (1/2): Vypočítáme hranice intervalu spolehlivosti: 0824,2 100 6,0 96,12,2 2 1 1 =⋅−=−= − n zxq σ α 3176,2 100 6,0 96,12,2 2 1 2 =⋅+=+= − n zxq σ α Výsledný intervalový odhad lze zapsat: 95,0)3176,20824,2( =≤≤ µP Můžeme tvrdit, že s pravděpodobností 95% (na hladině významnosti α=0,05) se průměrná délka pobytu všech návštěvníků rekreačního střediska pohybuje v intervalu <2,0824;2,3176> Často užívané intervalové odhady parametru µ %95]96,196,1[ =+<<− n x n xP σ µ σ %99]576,2576,2[ =+<<− n x n xP σ µ σ α=0,05 α=0,01 %90]645,1645,1[ =+<<− n x n xP σ µ σ α=0,1 V případě výběrů malého rozsahu je nutné nahradit hodnotu jistého kvantilu normovaného normálního rozdělení (z) kritickou hodnotou trozdělení pro stupňů volnosti. Pokud tedy známe hodnotu rozptylu σ2 potom pro krajní hodnoty intervalu spolehlivosti q1, q2 dostáváme: Intervalový odhad parametru pro malé rozsahy výběru (n < 30) µ 1−= nν n txq n σ α )1;( 2 1 1 −− −= n txq n σ α )1;( 2 1 2 −− += Pokud neznáme hodnotu rozptylu σ2 potom použijeme k jeho odhadu výběrové hodnoty s: 1)1;( 2 1 1 − −= −− n s txq n α 1)1;( 2 1 2 − += −− n s txq n α Intervalové odhady – řešení v programu Statistica Intervalový odhad parametru σ2 základního souboru Předpokládáme, že základní soubor má normální rozdělení. Intervalový odhad bude mít obecný tvar: ασ −=≤≤ 1)( 2 2 1 qqP Intervalový odhad se opírá o poznatek rozdělení výběrového rozptylu, že totiž náhodná veličina má rozdělení s stupni volnosti. 22 )1( σsn − 2 χ 1−= nν Hodnoty q1, q2 určujeme pomocí odhadnuté hodnoty s z výběrového souboru: 2 )1(; 2 2 1 )1( − − = n sn q αχ 2 )1(; 2 1 2 2 )1( −− − = n sn q αχ Ze statistických tabulek či s využitím vhodného statistického programu potřebujeme určit kritické hodnoty χ2 rozdělení pro (n-1) stupňů volnosti Intervalový odhad parametru σ2 základního souboru Intervalový odhad parametru σ2 lze potom zapsat: α χ σ χ αα −= − << − −−− 1] )1()1( [ 2 )1(; 2 1 2 2 2 )1(; 2 2 nn snsn P Odmocněním získáme výraz pro intervalový odhad směrodatné odchylky základního souboru. Příklad: Pro výběrový soubor 12 měření výšky vodní hladiny byla zjištěna hodnota rozptylu s2 = 0,64. Určete intervalový odhad rozptylu pro hladinu spolehlivosti 0,90 α χ σ χ αα −= − << − −−− 1] )1()1( [ 2 )1(; 2 1 2 2 2 )1(; 2 2 nn snsn P Řešení v programu Statistica: Určení rozsahu n náhodného výběru Potřebujeme ho k tomu, abychom z výběru odhadli neznámý průměr s předem zvolenou přesností – tedy aby měl interval spolehlivosti požadovanou šířku. Rozsah vypočteme ze vztahu pro výpočet tzv. přípustné chyby (delta), která je polovinou požadované šířky intervalu spolehlivosti. n z σ α 2 1− =∆ z čehož pro n platí: 2 2 1           ∆ ⋅ = − ασ z n ∆±= xµ Určení rozsahu n náhodného výběru Příklad: Z náhodného výběru 60-ti zákazníků hypermarketu jsme jsme zjistili jejich průměrný věk 28 roků. Za předpokladu, že známe směrodatnou odchylku všech zákazníků (9 roků) určete: 60=n 28=x 9=σ 05,0=α a) 95 % interval pro průměrný věk všech zákazníků ) 60 9 96,128 60 9 96,128( +≤≤− µ )3,307,25( ≤≤ µ b) potřebujeme, aby 95 % interval byl pouze plus minus 2 roky. Jak velký výběr je zapotřebí? Předpokládáme, že přípustná chyba ∆ je 2 7882,8 2 96,19 2 2 2 2 1 ==      ⋅ =           ∆ ⋅ = − ασ z n Výběr by musel obsahovat 78 zákazníků Poznámky Základní dělení způsobů výběru • prostý náhodný výběr • výběr s opakováním resp. bez opakování • výběr oblastní (typický, stratifikovaný) • výběr systematický (mechanický) • výběr vícestupňový • výběr záměrný (subjektivní – ne náhodný) Techniky losování a generování náhodných čísel k zajištění požadavku náhodnosti výběru Je-li pravděpodobnost každého členu základního souboru, že bude zařazen do výběru, stejná, potom hovoříme o náhodném výběru Příklad systematického, náhodného a stratifikovaného náhodného výběru Výběrové metody souvisí teorií odhadu … Základní dělení způsobů výběru Výběrová rozdělení Z jistého základního souboru můžeme učinit několik náhodných výběrů – jejich statistické charakteristiky budou odlišné – jsou náhodnými proměnnými. Průměr výběrových průměrů ( ) ∑= − =++++= r i irrx x r rxxxx 1 121 1 /....µ Směrodatná odchylka výběrových průměrů kde r je počet výběrů. ( ) r x r i xi x ∑= − = 1 2 µ σ V případě velkého rozsahu základního souboru s normálním rozdělením a s parametry µ, σ platí, že rozdělení výběrových průměrů je také normální s parametry: Výběrový průměr a výběrové rozdělení průměrů µµ =x nx /σσ =směrodatná odchylka průměr Směrodatná odchylka rozdělení výběrových průměrů je menší než směrodatná odchylka základního souboru a to tím menší, čím větší je rozsah výběru. Rozptyl výběrových průměrů ( ) n n nn n i x 2 2 2 1 2222 2 2 1 ... 1 σ σσσσσσ =      =++++      = ∑= a tedy směrodatná odchylka výběrového průměru: nx /σσ = (poznámka) Vlastnosti parametrů výběrového rozdělení průměrů • Rozdělení velkého počtu takových výběrových průměrů bude tedy užší než původní rozdělení a bude mít stejný střed. • Směrodatná odchylka výběrového rozdělení průměrů se nazývá směrodatná chyba odhadu průměru (nebo též střední chyba průměru). Závislost tvaru rozdělení (a také hodnot rozptylu a směrodatné odchylky) na rozsahu výběru n1 30 se výběrové rozdělení obvykle považuje za normální. Jiná teoretická rozdělení se používají u malých výběrů.