Induktivní statistika Odhady Odhady obodové odhady ointervalové odhady okonstrukce intervalu spolehlivosti pro průměr oodhady podílů (kategoriální proměnné) o o Odhady ov příkladech v předchozích přednáškách jsme znali hodnoty průměru a rozptylu populace oobvykle tomu ale bývá přesně naopak: známe hodnoty (statistiky) výběru a neznáme hodnoty (parametry) populace oty chceme z výběru odhadnout Odhady o2 typy odhadů: bodové a intervalové obodový odhad: použijeme průměr vzorku a odhadneme, že se rovná průměru populace Bodový odhad obodový odhad je problematický v tom, že dva různé výběry nám mohou dát dva různé odhady obodový odhad neobsahuje žádnou informaci o jeho přesnosti či spolehlivosti ona čem závisí přesnost odhadu? Bodový odhad opřesnost odhadu závisí na dvou charakteristikách nvelikost výběru (čím větší n, tím menší výběrová chyba) nvariabilita hodnot v populaci (čím vyšší, tím vyšší i výběrová chyba) Intervalový odhad oposkytuje rozsah (interval) hodnot, který s určitou pravděpodobností obsahuje hledanou hodnotu parametru Intervalový odhad oje založen na: nbodovém odhadu nvelikosti výběru nvariabilitě znaku v populaci (známé nebo rovněž odhadované) Intervalový odhad optáme se: jaká je hodnota m ? Intervalový odhad optáme se: jaká je hodnota m ? ovýběrový průměr určité hodnoty může pocházet z populací o různých průměrech oproto nemůžeme jednoznačně určit hodnotu m Intervalový odhad obrázek3 Intervalový odhad otakže se místo toho snažíme určit, jaký je možný rozsah hodnot m ojaké populace (tj. s jakou hodnotou průměru) by mohly být pravděpodobným zdrojem našeho vzorku? Intervalové odhady oze které populace nejpravděpodobněji pochází výběr, jehož průměr je v následujícím grafu naznačen svislou čarou? RVP pro populace I-IV Intervalové odhady ovýběr pochází nnejpravděpodobněji z populace II nebo III nméně pravděpodobně z populace I na velmi málo pravděpodobně z populace IV Intervalové odhady ointervalový odhad spočívá v konstrukci tzv. intervalu spolehlivosti (confidence interval) = rozsahu hodnot, ve kterém s určitou pravděpodobností leží průměr populace Interval spolehlivosti obrázek4 Interval spolehlivosti onejprve je třeba si stanovit tuto pravděpodobnost – tj. úroveň přesnosti (spolehlivosti); oobvyklá je např. 95% - snažíme se najít interval hodnot, ve kterém s 95% pravděpodobností leží průměr populace opak jde o tzv. 95% interval spolehlivosti Interval spolehlivosti opoté najít hodnotu z pro tuto pravděpodobnost – tj. rozsah, ve kterém bude ležet středních 95% hodnot (výběrových průměrů) o2,5% na každé straně rozdělení Interval spolehlivosti obrázek5 Interval spolehlivosti otomu odpovídají hodnoty z=-1,96 z=1,96 o Interval spolehlivosti Interval spolehlivosti - výpočet Interval spolehlivosti obrázek4 Interval spolehlivosti ointerpretace intervalu spolehlivosti: o pokud bychom z populace vybrali 100 náhodných výběrů o velikosti n a pro každý z nich sestrojili tento interval, 95 intervalů by obsahovalo průměr populace a 5 nikoliv Interval spolehlivosti ooblíbený omyl: nv 95% intervalu spolehlivosti leží 95% hodnot populace (NEPLATÍ!) n okromě 95% intervalu spolehlivosti se používá také např. 99% a 90% pravděpodobnost n n Příklad onáhodný výběr 36 dětí hospitalizovaných bez matky v raném věku (do 6 měsíců), průměrné IQ vzorku = 96 ona základě tohoto zjištění odhadněte průměrné IQ populace dětí hospitalizovaných bez matky v raném věku (sestavte 95% interval spolehlivosti) o Příklad oPostup: nbodový odhad: m=96 nvýpočet výběrové chyby (směrodatné odchylky RVP): s/√n = 15/√36 = 15/6 = 2,5 nstanovení úrovně spolehlivosti: 95% nnajít hodnotu z pro 95% pravděpodobnost n Příklad obrázek6 Příklad ov tabulce normálního rozdělení najdeme hodnoty z ohodnoty z pro 95% : 1,96 a -1,96 o Příklad ok výběrovému průměru přičteme (pro horní hranici intervalu) a odečteme (pro spodní hranici) výběrovou chybu, vynásobenou hodnotou z o Příklad o CI (m) = x + z (s/√n) o o CI (m) = 96 + 1,96 * 2,5 = 96 + 4,9 =100,9 o CI (m) = 96 - 1,96 * 2,5 = 96 - 4,9 = 91,10 o95% interval spolehlivosti je 91,1 – 100,9 Interval spolehlivosti ohodnoty z pro nejčastěji užívané pravděpodobnosti: n90% (zbývá 5% + 5%) z= +/- 1,645 n95% (zbývá 2,5% + 2,5%) z= +/- 1,96 n99% (zbývá 0,5% + 0,5%) z= +/- 2,57 Příklad 2 opro odhad průměru z předchozího příkladu sestrojte 99% interval spolehlivosti Příklad 2 o CI (m) = x + z (s/√n) o o CI (m) = 96 + 2,57 * 2,5 = 96 + 6,4 =102,4 o CI (m) = 96 - 2,57 * 2,5 = 96 – 6,4 = 89,6 o99% interval spolehlivosti je 89,6 – 102,4 o o Odhady podílů ou kategoriálních proměnných nemůžeme počítat průměry oodhadujeme proto podíly jednotlivých kategorií proměnné Odhady podílů onapř. podíl kuřáků v populaci českých adolescentů opodíl pacientů s rakovinou plic, kteří přežijí 5 let od diagnózy opodíl chlapců mezi dětmi s poruchou pozornosti Odhady podílů opokud zkoumáme místo celé populace pouze výběr z ní, nezajímá nás tolik, jaký je podíl kategorií proměnné ve výběru (četnost p) oale spíše jaký je skutečný podíl v populaci – četnost p Odhady podílů opři dostatečně velkém n platí i pro rozdělení podílů centrální limitní věta orozdělení výběrových podílů je normální rozdělení, s průměrnou četností p a směrodatnou odchylkou (výběrovou chybou) Příklad 4 ochceme zjistit, jaká je podpora politiky EU vůči uprchlíkům u občanů ČR (jde o fiktivní data) onáhodný výběr z populace (n=1000 osob) o315 osob se vyjádřilo pro (p=0,315) oodhadněte s 95% spolehlivostí podporu této politiky v populaci Odhady podílů ointerval spolehlivosti pro podíly se spočítá podobně jako pro průměry: Odhady podílů onemůžeme však spočítat výběrovou chybu, protože neznáme p ov tomto případě je však možné dosadit místo toho p a přitom použít normální rozdělení (pokud je n>30) opokud je n<30, pak dosadíme místo p hodnotu 0,5 Příklad 4 op=0,315 oz=1,96 oSE(p)= [0,315(1-0,315)/1000] o=0,0147 ointerval spolehlivosti 0.315 ± 1.96(0.0147) o 0.315 ± 0,0288 o--- přesnost odhadu je ± 3% o o o Příklad 4 os 95% pravděpodobností je podíl osob podporujících politiku EU v populaci občanů ČR mezi 28.6% a 34.4% Odhady podílů ovztah mezi velikostí vzorku a přesností odhadu nn=100 ± 10% nn=200 ± 7% nn=400 ± 5% nn=1000 ± 3% nn=2400 ± 2% nn=9600 ± 1% Odhady podílů opožadovaná velikost vzorku roste mnohem rychleji než spolehlivost odhadu (pro zdvojnásobení spolehlivosti je nutné asi čtyřnásobně zvětšit vzorek) odůležité při plánování výzkumu – jakou přesnost potřebujeme? jaké budou náklady? opodobný vztah platí pro odhad průměrů Příklad na závěr oz denního tisku: nPadesát pět procent českých voličů nesouhlasí se zavedením registračních pokladen, zatímco před dvěma týdny sdílelo tento názor jen 50 procent voličů. Průzkum byl proveden v posledních čtyřech dnech a statistická chyba je 2,9 % (jde o fiktivní údaje). omůžeme dojít k závěru, že nesouhlas se zavedením RP skutečně roste? Kontrolní otázky o2 typy odhadů ona čem závisí šířka intervalu spolehlivosti? (není nutno znát zpaměti vzorce, ale je třeba chápat princip výpočtu) ovztah velikosti výběru a spolehlivosti odhadu Literatura oHendl: kapitoly 4 a 5