Odhady o odhady o bodové a intervalové odhady o konstrukce intervalu spolehlivosti pro průměr o odhady podílů (kategoriální proměnné) Odhady o jedna z aplikace postupů statistického usuzování (inference) o zobecňujeme z náhodného výběru na populaci o vztah mezi výběrovou statistikou a parametrem populace popisují výběrová rozdělení statistik (např. rozdělení výběrových průměrů) = teoretická pravděpodobnostní rozdělení o dva druhy výběrových chyb: systematická chyba, náhodná chyba Odhady o dva druhy výběrových chyb: systematická chyba, náhodná chyba o systematickou výběrovou chybu redukujeme náhodným výběrem o náhodná výběrová chyba = směrodatná odchylka rozdělení výběrové statistiky (tzv. směrodatná chyba) o její velikost závisí na velikosti výběru a na variabilitě znaku v populaci Odhady o v příkladech v předchozí přednášce jsme znali hodnoty průměru a rozptylu populace o obvykle tomu ale bývá přesně naopak: známe hodnoty (statistiky) výběru a neznáme hodnoty (parametry) populace o ty chceme z výběru odhadnout Odhady o 2 typy odhadů: bodové a intervalové o bodový odhad: jediná hodnota - použijeme např. průměr vzorku a odhadneme, že se rovná průměru populace Bodový odhad o bodový odhad je problematický v tom, že dva různé výběry nám mohou dát dva různé odhady o bodový odhad neobsahuje žádnou informaci o jeho přesnosti či spolehlivosti o na čem závisí přesnost odhadu? Bodový odhad přesnost odhadu závisí na dvou charakteristikách n velikost výběru (čím větší n, tím menší náhodná výběrová chyba) n variabilita hodnot v populaci (čím vyšší, tím vyšší i výběrová chyba) Intervalový odhad o poskytuje rozsah (interval) hodnot, který s určitou spolehlivostí obsahuje hledanou hodnotu parametru Intervalový odhad o ptáme se: jaká je hodnota m ? o výběrový průměr určité hodnoty může pocházet z populací o různých průměrech o proto nemůžeme jednoznačně určit hodnotu m Intervalový odhad Intervalový odhad o takže se místo toho snažíme určit, jaký je možný rozsah hodnot m o jaké populace (tj. s jakou hodnotou průměru) by mohly být pravděpodobným zdrojem našeho vzorku? Intervalové odhady o ze které populace nejpravděpodobněji pochází výběr, jehož průměr je v následujícím grafu naznačen svislou čarou? RVP pro populace I-IV Intervalové odhady o výběr pochází n nejpravděpodobněji z populace II nebo III n méně pravděpodobně z populace I n a velmi málo pravděpodobně z populace IV Intervalové odhady o intervalový odhad spočívá v konstrukci tzv. intervalu spolehlivosti (confidence interval) -- rozsahu hodnot, ve kterém s určitou pravděpodobností leží průměr populace (resp. ve kterém se při opakovaném provádění výběru ocitne náš odhad v určitém % případů) Intervalové odhady o konstrukce intervalu spolehlivosti pro průměr: o výběrový průměr je bodovým odhadem průměru populace -- tvoří střed intervalu o směrem nalevo od něj je dolní hranice intervalu, napravo horní hranice Intervalové odhady o hranice intervalu (a tím jeho délka, tj. spolehlivost odhadu) jsou dány velikostí výběrové chyby a požadovanou úrovní spolehlivosti n čím větší výběrová chyba, tím delší interval n čím vyšší požadovaná spolehlivost odhadu, tím delší interval Interval spolehlivosti o nejprve je třeba si stanovit pravděpodobnost -- tj. úroveň přesnosti intervalu; o obvyklá je např. 95% (pak jde o tzv. 95% interval spolehlivosti) Interval spolehlivosti o poté najít hodnotu z pro tuto pravděpodobnost -- tj. rozsah, ve kterém bude ležet středních 95% hodnot výběrových průměrů o 2,5% na každé straně rozdělení Interval spolehlivosti Tabulka z-rozdělení Interval spolehlivosti o tomu odpovídají hodnoty z=-1,96 z=1,96 Interval spolehlivosti Interval spolehlivosti o interval spolehlivosti pro průměr tedy leží kolem výběrového průměru v rozmezí -1.96 směrodatné odchylky rozdělení až +1.96 směrodatné odchylky od průměru o směrodatná odchylka rozdělení výběrových průměrů = výběrová chyba (směrodatná chyba) Interval spolehlivosti - výpočet Interval spolehlivosti o interpretace intervalu spolehlivosti: pokud bychom z populace vybrali 100 náhodných výběrů o velikosti n a pro každý z nich sestrojili tento interval, 95 intervalů by obsahovalo průměr populace a 5 nikoliv Interval spolehlivosti o oblíbený omyl: n v 95% intervalu spolehlivosti leží 95% hodnot populace (NEPLATÍ!) o kromě 95% intervalu spolehlivosti se používá také např. 99% a 90% pravděpodobnost Příklad o náhodný výběr 36 dětí, průměrné IQ vzorku = 96 o na základě tohoto zjištění odhadněte průměrné IQ populace, ze které děti pocházejí (sestavte 95% interval spolehlivosti) Příklad o Postup: n bodový odhad: m=96 n výpočet výběrové chyby (směrodatné odchylky RVP): s/ SQRTn = 15/ SQRT36 = 15/6 = 2,5 n stanovení úrovně spolehlivosti: 95% n najít hodnotu z pro 95% pravděpodobnost Příklad Tabulka z-rozdělení Příklad o v tabulce normálního rozdělení najdeme hodnoty z o hodnoty z pro 95% : 1,96 a -1,96 Příklad o k výběrovému průměru přičteme (pro horní hranici intervalu) a odečteme (pro spodní hranici) výběrovou chybu, vynásobenou hodnotou z Příklad o pro 95% : m = 96 + 1,96*2,5 = 100,90 m = 96 - 1,96*2,5 = 91,10 95% interval spolehlivosti je 91,1 -- 100,9 bodů IQ Příklad o pro 99% interval spolehlivosti o z = 2,57 Příklad o pro 99% : m = 96 + 2,57*2,5 = 102,43 m = 96 - 2,57*2,5 = 89,58 99% interval spolehlivosti je 89,6 -- 102,4 bodů IQ Interval spolehlivosti o hodnoty z pro nejčastěji užívané pravděpodobnosti: n 90% (zbývá 5% + 5%) z= +/- 1,645 n 95% (zbývá 2,5% + 2,5%) z= +/- 1,96 n 99% (zbývá 0,5% + 0,5%) z= +/- 2,57 Interval spolehlivosti o v předchozích příkladech jsme předpokládali, že známe hodnotu variability znaku v populaci o ve skutečnosti je tomu tak však zřídka o je proto nutno odhadnout zároveň s průměrem i hodnotu směrodatné odchylky Interval spolehlivosti pro známé hodnoty směrodatné odchylky v populaci: Studentovo rozdělení o pokud za s nahradíme s (směr. odchylku výběrového průměru), pak musíme při konstrukci intervalu spolehlivosti místo z rozdělení použít místo z-rozdělení tzv. Studentovo t rozdělení Studentovo rozdělení o má také zvonovitý tvar, ale je více ploché než normální rozdělení o je symetrické kolem průměru (0) o pro každou velikost výběru (počet stupňů volnosti, df) existuje odlišné t rozdělení df = n-1 Studentovo rozdělení Studentovo rozdělení o srovnání s normálním rozdělením: n t rozdělení má vyšší variabilitu n více plochy na okrajích, méně ve středu n vzhledem k vyšší variabilitě budou intervaly spolehlivosti širší než u normálního rozdělení n jsou uváděny df obvykle jen do 100, protože pro n=100 se t rozdělení blíží normálnímu rozdělení Studentovo rozdělení o tabulka t-rozdělení: n každý řádek udává hodnoty t pro celé rozdělení pro daný počet stupňů volnosti (tj. n-1) n sloupce pro nejdůležitější percentily Studentovo rozdělení Odhady podílů o u kategoriálních proměnných nemůžeme počítat průměry o odhadujeme proto podíly jednotlivých kategorií proměnné Odhady podílů o např. podíl kuřáků v populaci českých adolescentů o podíl pacientů s rakovinou plic, kteří přežijí 5 let od diagnózy o podíl chlapců mezi dětmi s poruchou pozornosti Odhady podílů o pokud zkoumáme místo celé populace pouze náhodný výběr z ní, nezajímá nás tolik, jaký je podíl kategorií proměnné ve výběru (četnost p) o ale spíše jaký je skutečný podíl v populaci -- četnost p Odhady podílů o také zde platí obecný vzorec pro interval spolehlivosti = bodový odhad -/+ koeficient spolehlivosti * výběrová chyba Odhady podílů o při dostatečně velkém n platí i pro rozdělení podílů centrální limitní věta o rozdělení výběrových podílů je normální rozdělení, s průměrnou četností p a směrodatnou odchylkou (výběrovou chybou) Příklad 4 o chceme zjistit, jaká je podpora odsunu hlavního nádraží v Brně o náhodný výběr z populace brněnských občanů starších 18 let n=1000 osob o 585 osob se vyjádřilo pro o p=0,585 o odhadněte s 95% spolehlivostí podporu odsunu nádraží Odhady podílů o interval spolehlivosti pro podíly se spočítá podobně jako pro průměry: Odhady podílů o nemůžeme však spočítat výběrovou chybu, protože neznáme p o v tomto případě je však možné dosadit místo toho p a přitom použít normální rozdělení (pokud je n>30) o pokud je n<30, pak dosadíme místo p hodnotu 0,5 (pak je hodnota výběrové chyby nejvyšší možná) Příklad 4 o p=0,585 o z=1,96 ^o SE(p)= [0,585(1-0,585)/1000] =0,156 interval spolehlivosti 0.585 +/- 1.96(0.0156) 0.585 +/- 0,0305 --- přesnost odhadu je +/- 3% Příklad 4 o s 95% pravděpodobností je podíl osob souhlasících se odsunem nádraží mezi 55.4% a 61.6% Odhady podílů vztah mezi velikostí vzorku a přesností odhadu n n=100 +/- 10% n n=200 +/- 7% n n=400 +/- 5% n n=1000 +/- 3% n n=2400 +/- 2% n n=9600 +/- 1% Odhady podílů o požadovaná velikost vzorku roste mnohem rychleji než spolehlivost odhadu (pro zdojnásobení spolehlivosti je nutné asi čtyřnásobně zvětšit vzorek) o důležité při plánování výzkumu -- jakou přesnost potřebujeme? jaké budou náklady? o podobný vztah platí pro odhad průměrů Kontrolní otázky o 2 typy odhadů o na čem závisí šířka intervalu spolehlivosti? (není nutno znát zpaměti vzorce, jen chápat princip výpočtu) o vztah velikosti výběru a spolehlivosti odhadu