1 Statistické metody a zpracování dat IV. Odhady parametrů Petr Dobrovolný K čemu to je dobré? Obvyklým případem při zpracování hromadných jevů je, že máme poměrně malý počet pozorování nějaké veličiny a chceme učinit závěry o tom, co bychom obdrželi, kdybychom měli pozorování mnohokrát více. Z výběru spočítáme pouze odhady skutečných hodnot parametrů rozdělení Cílem je ukázat, 1) Jaké vlastnosti má mít (náhodný) výběr 2) Jaké vlastnosti (rozdělení) mají výběrové statistiky 3) Jak lze odhadnout parametry základního souboru ze souboru výběrového Výběrové metody zkoumání ˇ Základní soubor (populace) a jeho parametry ˇ Výběrový soubor a jeho statistiky Jaké jsou důvody, proč ve statistice pracujeme s výběrovými soubory? (rozsáhlost, nekonečnost, nákladnost, efektivita, rychlost, ...) Základní dělení způsobů výběru ˇ prostý náhodný výběr ˇ výběr s opakováním resp. bez opakování ˇ výběr oblastní (typický, stratifikovaný) ˇ výběr systematický (mechanický) ˇ výběr vícestupňový ˇ výběr záměrný (subjektivní ­ ne náhodný) Techniky losování a generování náhodných čísel k zajištění požadavku náhodnosti výběru Je-li pravděpodobnost každého členu základního souboru, že bude zařazen do výběru, stejná, potom hovoříme o náhodném výběru Příklad systematického, náhodného a stratifikovaného náhodného výběru Výběrové metody souvisí teorií odhadu ... Odhadování jako základ statistického usuzování Používáme statistickou indukci - usuzujeme z části (výběr) na celek (základní soubor). Odhad neznámých parametrů základního souboru provádíme: 1) na základě statistických charakteristik výběru. 2) na základě jistých předpokladů o jejich rozdělení 2 Vztahy mezi základním souborem a výběry Základní pojmy a symboly Odhady parametrů základního souboru: ^ ^ Výběrové rozdělení Z jistého základního souboru můžeme učinit několik náhodných výběrů ­ jejich statistické charakteristiky budou odlišné ­ jsou náhodnými proměnnými. Průměr výběrových průměrů ( ) = - =++++= r i irrx x r rxxxx 1 121 1 /.... Směrodatná odchylka výběrových průměrů kde r je počet výběrů. ( ) r x r i xi x = - = 1 2 V případě velkého rozsahu základního souboru s normálním rozdělením a s parametry , platí, že rozdělení výběrových průměrů je také normální s parametry: Výběrový průměr a výběrové rozdělení průměrů =x nx / =směrodatná odchylka průměr Směrodatná odchylka rozdělení výběrových průměrů je menší než směrodatná odchylka základního souboru a to tím menší, čím větší je rozsah výběru. Rozptyl výběrových průměrů ( ) n n nn n i x 2 2 2 1 2222 2 2 1 ... 1 = =++++ = = a tedy směrodatná odchylka výběrového průměru: nx / = (poznámka) Závislost tvaru rozdělení (a také hodnot rozptylu a směrodatné odchylky) na rozsahu výběru n1 30 se výběrové rozdělení obvykle považuje za normální. Jiná teoretická rozdělení se používají u malých výběrů. ˇ Neznámé parametry základního souboru odhadujeme dvěma způsoby ˇ bodový odhad ˇ intervalový odhad Bodový odhad parametrů základního souboru = == n i ix n x 1 1 ^ Bodový odhad aritmetického průměru základního souboru Bodový odhad směrodatné odchylky základního souboru = - - = n i i xx n 1 2 )( 1 1 ^ Určuje se z odchylek jednotlivých prvků od výběrového průměru. Pro n-1 stupňů volnosti platí: Stupně volnosti Máme odhad aritmetického průměru a platí následující výraz: xnx n i i ==1 ^K určení hodnoty lze tedy využít pouze (n-1) nezávislých členů tzv. stupňů volnosti Odhadem průměru ,,ztrácíme" jeden nezávislý ,,pokus" Příklad: ˇ průměr vypočtený ze tří měření je 5 ˇ dvě náhodná (nezávislá) měření budou 4 a 5 ˇ zbývající třetí měření musí být 6, aby byl průměr roven 5, tedy není nezávislé (poznámka) Je-li výběrová směrodatná odchylka s rovna: Bodový odhad parametrů základního souboru = -= n i i xx n s 1 2 )( 1 s>^.potom z toho plyne, že Další úpravou lze získat: n n s 1 1 1 ^ -= a dále 1 ^ - = n n s 4 Pro odhad směrodatné odchylky výběrových průměrů: Bodový odhad parametrů základního souboru n x = 1 ^ ^ - == n s n x a dále Odhady parametrů základního souboru ( ) se výběr od výběru mění. Musíme proto stanovit jejich odchylky od skutečných parametrů ( ) a také určit jejich přesnost odhadu pomocí tzv. intervalů spolehlivosti. ^,^ , Intervaly spolehlivosti (viz. vlastnosti normálního rozdělení) Z vlastností normálního rozdělení lze pomocí hodnoty aritmetického průměru a násobků směrodatné odchylky určit meze, které vyjadřují pravděpodobnosti, s nimiž dané hodnoty leží v určitém intervalu Intervaly spolehlivosti Vnitřní interval vymezený jistým násobkem se označuje jako interval spolehlivosti. Odchylky od průměru, které se nacházejí uvnitř tohoto intervalu označujeme jako odchylky přípustné, nevýznamné. Analogicky jsou definovány odchylky významné. Meze spolehlivosti dále vymezují tzv. kritický obor (oblast zamítnutí) a oblast přijetí. Šířku intervalu spolehlivosti volíme podle povahy problému a závisí také na rozsahu náhodného výběru. Nejčastěji používané intervaly: Intervaly spolehlivosti Násobky s Oblast přijetí Oblast zamítnutí 1,960 95 % 5 % 2,576 99 % 1 % 3,291 99,9% 0,1 % Interpretace intervalů spolehlivosti: 95 % interval spolehlivosti stanovený na základě náhodného výběru zahrne s pravděpodobností 95 % skutečnou hodnotu odhadovaného parametru. Intervalový odhad parametrů základního souboru Na rozdíl od bodového odhadu zde určujeme interval, v němž se zadanou pravděpodobností leží odhadovaný neznámý parametr. Intervalový odhad se liší podle rozsahu souboru a také podle toho, jaké parametry známe. Dále budeme značit: q1, q2 - krajní hodnoty intervalu spolehlivosti ­ meze spolehlivosti ­ hladina významnosti - pravděpodobnost, že skutečný parametr základního souboru není z intervalu spolehlivosti. (1-) ­ hladina spolehlivosti (spolehlivost odhadu) ­ představuje pravděpodobnost, že skutečný parametr základního souboru se nachází uvnitř intervalu spolehlivosti. Intervalový odhad dvoustranný Interpretace: Pravděpodobnost, že parametr základního souboru se nachází mezi hodnotami q1, q2 je (1-) -= 1)( 21 qqP (1-) /2 /2 5 Intervalový odhad jednostranný Interpretace: Pravděpodobnost, že parametr základního souboru má větší hodnotu než q1, je (1-) zdola ohraničený -= 1)( 21qP (1-) Intervalový odhad jednostranný Interpretace: Pravděpodobnost, že parametr základního souboru má menší hodnotu než q2, je (1-) shora ohraničený -= 1)( 2qP (1-) =x Intervalový odhad parametru pro velké rozsahy výběru (n > 30) nx / = Jak plyne z výše uvedeného, rozdělení výběrových průměrů lze považovat za normální s parametry: Intervalový odhad lze obecně zapsat: -= 1)( 21 qqP Pokud známe hodnotu hodnoty q1, q2 lze určit takto: n zxq 2 1 1 - -= n zxq 2 1 2 - += je příslušný kvantil normovaného normálního rozdělení (lze ho najít v tabulkách či vypočítat)2 1 - z Intervalový odhad parametru pro velké rozsahy výběru (n > 30) Pokud neznáme hodnotu hodnoty q1, q2 lze určit takto: 12 1 1 - -= - n s zxq 12 1 2 - += - n s zxq Intervalový odhad parametru lze potom zapsat: n zx n zx 2 1 2 1 -- +<<- Intervalový odhad parametru pro velké rozsahy výběru (n > 30) Výše uvedená nerovnice je splněna s pravděpodobnosti (1-): -=+<<- -- 1][ 2 1 2 1 n zx n zxP analogicky při neznámém -= - +<< - - -- 1] 11 [ 2 1 2 1 n s zx n s zxP Výraz (delta) se označuje jako přípustná chyba n z 2 1- = Intervalový odhad parametru lze jednoduše zapsat jako = x Příklad (1/1): Určete 95% interval spolehlivosti pro průměrnou návštěvnost rekreačního střediska, když pro náhodný výběr 100 návštěvníků je průměrná délka pobytu 2,2 dne a rozptyl délky pobytu všech návštěvníků je 0,36 100=n 2,2=x 6,036,0 == 05,0= Z tabulek kvantilů normovaného normálního rozdělení určíme hodnotu z pro =0,05: 96,1975,0 2 05,0 1 2 1 === -- zzz dále vypočítáme hranice intervalu spolehlivosti ... 6 Příklad (1/2): Vypočítáme hranice intervalu spolehlivosti: 0824,2 100 6,0 96,12,2 2 1 1 =-=-= - n zxq 3176,2 100 6,0 96,12,2 2 1 2 =+=+= - n zxq Výsledný intervalový odhad lze zapsat: 95,0)3176,20824,2( = P Můžeme tvrdit, že s pravděpodobností 95% (na hladině významnosti =0,05) se průměrná délka pobytu všech návštěvníků rekreačního střediska pohybuje v intervalu <2,0824;2,3176> Často užívané intervalové odhady parametru %95]96,196,1[ =+<<- n x n xP %99]576,2576,2[ =+<<- n x n xP =0,05 =0,01 %90]645,1645,1[ =+<<- n x n xP =0,1 V případě výběrů malého rozsahu je nutné nahradit hodnotu jistého kvantilu normovaného normálního rozdělení (z) kritickou hodnotou t- rozdělení pro stupňů volnosti. Pokud tedy známe hodnotu rozptylu 2 potom pro krajní hodnoty intervalu spolehlivosti q1, q2 dostáváme: Intervalový odhad parametru pro malé rozsahy výběru (n < 30) 1-= n n txq n )1;( 2 1 1 -- -= n txq n )1;( 2 1 2 -- += Pokud neznáme hodnotu rozptylu 2 potom použijeme k jeho odhadu výběrové hodnoty s: 1)1;( 2 1 1 - -= -- n s txq n 1)1;( 2 1 2 - += -- n s txq n Intervalový odhad parametru pro malý rozsah výběru Příklad řešení s využitím funkcí EXCELu Intervalový odhad parametru 2 základního souboru Předpokládáme, že základní soubor má normální rozdělení. Intervalový odhad bude mít obecný tvar: -= 1)( 2 2 1 qqP Intervalový odhad se opírá o poznatek rozdělení výběrového rozptylu, že totiž náhodná veličina má rozdělení s stupni volnosti. 22 ns 2 1-= n Hodnoty q1, q2 určujeme pomocí odhadnuté hodnoty s z výběrového souboru: 2 )1;( 2 2 1 - = n ns q 2 )1;( 2 1 2 2 -- = n ns q Ze statistických tabulek či s využitím vhodného statistického programu potřebujeme určit kritické hodnoty 2 rozdělení pro (n-1) stupňů volnosti Intervalový odhad parametru 2 základního souboru Intervalový odhad parametru 2 lze potom zapsat: -=<< --- 1][ 2 )1;( 2 1 2 2 2 )1;( 2 2 nn nsns P Odmocněním získáme výraz pro intervalový odhad směrodatné odchylky základního souboru. 7 Příklad: Pro výběrový soubor 12 měření výšky vodní hladiny byla zjištěna hodnota rozptylu s2 = 0,64. Určete intervalový odhad rozptylu pro hladiny spolehlivosti 0,90, 0,95 a 0,99 Meze intervalu spolehlivosti počítáme podle vztahu: -=<< --- 1][ 2 )1;( 2 1 2 2 2 )1;( 2 2 nn nsns P Řešení s využitím funkcí v programu EXCEL: Určení rozsahu n náhodného výběru Potřebujeme ho k tomu, abychom z výběru odhadli neznámý průměr s předem zvolenou přesností ­ tedy aby měl interval spolehlivosti požadovanou šířku. Rozsah vypočteme ze vztahu pro výpočet tzv. přípustné chyby (delta), která je polovinou požadované šířky intervalu spolehlivosti. n z 2 1- = z čehož pro n platí: 2 2 1 = - z n Určení rozsahu n náhodného výběru Příklad: Z náhodného výběru 60-ti zákazníků hypermarketu jsme zjistili jejich průměrný věk 28 roků. Za předpokladu, že známe směrodatnou odchylku všech zákazníků (9 roků) určete: 60=n 28=x 9= 05,0= a) 95 % interval pro průměrný věk všech zákazníků ) 60 9 96,128 60 9 96,128( +- )3,307,25( b) potřebujeme, aby 95 % interval byl pouze plus minus 2 roky. Jak velký výběr je zapotřebí? Předpokládáme, že přípustná chyba je 2 7882,8 2 96,19 2 2 2 2 1 == = = - z n Výběr by musel obsahovat 78 zákazníků