Induktivní statistika Odhady Odhady obodové odhady ointervalové odhady okonstrukce intervalu spolehlivosti pro průměr oodhady podílů (kategoriální proměnné) o o Odhady ov příkladech v předchozích přednáškách jsme znali hodnoty průměru a rozptylu populace oobvykle tomu ale bývá přesně naopak: známe hodnoty (statistiky) výběru a neznáme hodnoty (parametry) populace oty chceme z výběru odhadnout Odhady o2 typy odhadů: bodové a intervalové obodový odhad: použijeme průměr vzorku a odhadneme, že se rovná průměru populace Bodový odhad obodový odhad je problematický v tom, že dva různé výběry nám mohou dát dva různé odhady obodový odhad neobsahuje žádnou informaci o jeho přesnosti či spolehlivosti ona čem závisí přesnost odhadu? Bodový odhad opřesnost odhadu závisí na dvou charakteristikách nvelikost výběru (čím větší n, tím menší výběrová chyba) nvariabilita hodnot v populaci (čím vyšší, tím vyšší i výběrová chyba) Intervalový odhad oposkytuje rozsah (interval) hodnot, který s určitou pravděpodobností obsahuje hledanou hodnotu parametru Intervalový odhad oje založen na: nbodovém odhadu nvelikosti výběru nvariabilitě znaku v populaci (známé nebo rovněž odhadované) Intervalový odhad optáme se: jaká je hodnota m ? Intervalový odhad optáme se: jaká je hodnota m ? ovýběrový průměr určité hodnoty může pocházet z populací o různých průměrech oproto nemůžeme jednoznačně určit hodnotu m Intervalový odhad obrázek3 Intervalový odhad otakže se místo toho snažíme určit, jaký je možný rozsah hodnot m ojaké populace (tj. s jakou hodnotou průměru) by mohly být pravděpodobným zdrojem našeho vzorku? Intervalové odhady oze které populace nejpravděpodobněji pochází výběr, jehož průměr je v následujícím grafu naznačen svislou čarou? RVP pro populace I-IV Intervalové odhady ovýběr pochází nnejpravděpodobněji z populace II nebo III nméně pravděpodobně z populace I na velmi málo pravděpodobně z populace IV Intervalové odhady ointervalový odhad spočívá v konstrukci tzv. intervalu spolehlivosti (confidence interval) = rozsahu hodnot, ve kterém s určitou pravděpodobností leží průměr populace Interval spolehlivosti obrázek4 Interval spolehlivosti onejprve je třeba si stanovit tuto pravděpodobnost – tj. úroveň přesnosti (spolehlivosti); oobvyklá je např. 95% - snažíme se najít interval hodnot, ve kterém s 95% pravděpodobností leží průměr populace opak jde o tzv. 95% interval spolehlivosti Interval spolehlivosti opoté najít hodnotu z pro tuto pravděpodobnost – tj. rozsah, ve kterém bude ležet středních 95% hodnot (výběrových průměrů) o2,5% na každé straně rozdělení Interval spolehlivosti obrázek5 Interval spolehlivosti otomu odpovídají hodnoty z=-1,96 z=1,96 o Interval spolehlivosti Interval spolehlivosti - výpočet Interval spolehlivosti obrázek4 Interval spolehlivosti ointerpretace intervalu spolehlivosti: o pokud bychom z populace vybrali 100 náhodných výběrů o velikosti n a pro každý z nich sestrojili tento interval, 95 intervalů by obsahovalo průměr populace a 5 nikoliv oopatrně můžeme říct: máme 95% pravděpodobnost, že se v tomto intervalu nachází průměr populace Interval spolehlivosti ooblíbený omyl: nv 95% intervalu spolehlivosti leží 95% hodnot populace (NEPLATÍ!) n okromě 95% intervalu spolehlivosti se používá také např. 99% a 90% pravděpodobnost n n Příklad onáhodný výběr 36 dětí hospitalizovaných bez matky v raném věku (do 6 měsíců), průměrné IQ vzorku = 96 ona základě tohoto zjištění odhadněte průměrné IQ populace dětí hospitalizovaných bez matky v raném věku (sestavte 95% interval spolehlivosti) o Příklad oPostup: nbodový odhad: m=96 nvýpočet výběrové chyby (směrodatné odchylky RVP): s/√n = 15/√36 = 15/6 = 2,5 nstanovení úrovně spolehlivosti: 95% nnajít hodnotu z pro 95% pravděpodobnost n Příklad obrázek6 Příklad ov tabulce normálního rozdělení najdeme hodnoty z ohodnoty z pro 95% : 1,96 a -1,96 o Příklad ok výběrovému průměru přičteme (pro horní hranici intervalu) a odečteme (pro spodní hranici) výběrovou chybu, vynásobenou hodnotou z o Příklad o CI (m) = x + z (s/√n) o o CI (m) = 96 + 1,96 * 2,5 = 96 + 4,9 =100,9 o CI (m) = 96 - 1,96 * 2,5 = 96 - 4,9 = 91,10 o95% interval spolehlivosti je 91,1 – 100,9 Interval spolehlivosti ohodnoty z pro nejčastěji užívané pravděpodobnosti: n90% (zbývá 5% + 5%) z= +/- 1,645 n95% (zbývá 2,5% + 2,5%) z= +/- 1,96 n99% (zbývá 0,5% + 0,5%) z= +/- 2,57 Příklad 2 opro odhad průměru z předchozího příkladu sestrojte 99% interval spolehlivosti Příklad 2 o CI (m) = x + z (s/√n) o o CI (m) = 96 + 2,57 * 2,5 = 96 + 6,4 =102,4 o CI (m) = 96 - 2,57 * 2,5 = 96 – 6,4 = 89,6 o99% interval spolehlivosti je 89,6 – 102,4 o o Odhady podílů ou kategoriálních proměnných nemůžeme počítat průměry oodhadujeme proto podíly jednotlivých kategorií proměnné Odhady podílů onapř. podíl kuřáků v populaci českých adolescentů opodíl pacientů s rakovinou plic, kteří přežijí 5 let od diagnózy opodíl chlapců mezi dětmi s poruchou pozornosti Odhady podílů opokud zkoumáme místo celé populace pouze výběr z ní, nezajímá nás tolik, jaký je podíl kategorií proměnné ve výběru (četnost p) oale spíše jaký je skutečný podíl v populaci – četnost p Odhady podílů opři dostatečně velkém n platí i pro rozdělení podílů centrální limitní věta orozdělení výběrových podílů je normální rozdělení, s průměrnou četností p a směrodatnou odchylkou (výběrovou chybou) Příklad 4 ochceme zjistit, jaká je podpora státní maturity v populaci letošních maturantů (studentů 4. ročníků SŠ) onáhodný výběr z populace maturantů (n=1000 osob) o585 osob se vyjádřilo pro (p=0,585) oodhadněte s 95% spolehlivostí podporu státní maturity v populaci letošních maturantů Odhady podílů ointerval spolehlivosti pro podíly se spočítá podobně jako pro průměry: Odhady podílů onemůžeme však spočítat výběrovou chybu, protože neznáme p ov tomto případě je však možné dosadit místo toho p a přitom použít normální rozdělení (pokud je n>30) opokud je n<30, pak dosadíme místo p hodnotu 0,5 Příklad 4 op=0,585 oz=1,96 oSE(p)= [0,585(1-0,585)/1000] o=0,0156 ointerval spolehlivosti 0.585 ± 1.96(0.0156) o 0.585 ± 0,0305 o--- přesnost odhadu je ± 3% o o o Příklad 4 os 95% pravděpodobností je podíl maturantů podporujících zavedení státní maturity mezi 55.4% a 61.6% Odhady podílů ovztah mezi velikostí vzorku a přesností odhadu nn=100 ± 10% nn=200 ± 7% nn=400 ± 5% nn=1000 ± 3% nn=2400 ± 2% nn=9600 ± 1% Odhady podílů opožadovaná velikost vzorku roste mnohem rychleji než spolehlivost odhadu (pro zdvojnásobení spolehlivosti je nutné asi čtyřnásobně zvětšit vzorek) odůležité při plánování výzkumu – jakou přesnost potřebujeme? jaké budou náklady? opodobný vztah platí pro odhad průměrů Příklad na závěr oz denního tisku: nPadesát pět procent českých voličů nesouhlasí s navrhovanými úspornými opatřeními Nečasovy vlády, zatímco před dvěma týdny sdílelo tento názor jen 50 procent voličů. Průzkum byl proveden v posledních čtyřech dnech a statistická chyba je 2,9 procenta. omůžeme dojít k závěru, že nesouhlas s úspornými opatřeními skutečně roste? Kontrolní otázky o2 typy odhadů ona čem závisí šířka intervalu spolehlivosti? (není nutno znát zpaměti vzorce, ale je třeba chápat princip výpočtu) ovztah velikosti výběru a spolehlivosti odhadu Literatura oHendl: kapitoly 4 a 5