ANABNR2 1 7_Intervaly spolehlivosti 8_1Bodový a intervalový odhad populačního parametru 8_2Interval spolehlivosti pro odhad populační proporce 8_3Interval spolehlivosti pro odhad populačního průměru Stationery anabnr2 2 Populace vs. vzorek Populace Vzorek Proporce p p^ Průměr µ x¯ Rozptyl (variance) σ2 s2 Směrodatná odchylka σ s parametry statistiky (odhady parametrů) nInference používá statistiky (průměr,proporce) z náhodně vybraného vzorku za účelem rozhodování o hodnotě parametrů v populaci n Stationery anabnr2 3 nStatistická inference užívá počty pravděpodobnosti, které předpokládají že data byla získána náhodným výběrem nVýpočty pravděpodobností se vztahují k výběrové distribuci statistiky, která se často blíží normálnímu rozložení n Souvislost s minulými tématy Stationery anabnr2 4 nOdhad populačních parametrů nBodový njaký je nejlepší odhad charakteristiky populace? (např. x¯ je bodovým odhadem µ) n nIntervalový njaký je interval hodnot, který s vysokou pravděpodobností obsahuje charakteristiku populace?(např. µ leží s 99% pravděpodobností mezi 95 a 105) = interval spolehlivosti n nTestování hypotéz o hodnotách parametru nZa předpokladu že populační průměr 100, pravděpodobnost že vytáhnu vzorek s průměrem 110 a větším je dostatečně vysoká a proto nezamítám nulovou hypotézu že průměr populace je 100 n Dvě metody statistické inference Stationery anabnr2 5 Bodový odhad nJediné číslo (hodnota) která je nejlepším odhadem charakteristiky populace nnapř. x¯ je bodovým odhadem µ, p^ je nejlepším odhadem p nVlastnosti dobrého estimátoru nNevychýlenost (výběrová distribuce je vycentrovaná kolem parametru) nNízká směrodatná odchylka nPrůměr vzorku je dobrým estimátorem populačního průměru n Stationery anabnr2 6 Intervalový odhad nInterval hodnot, uvnitř kterého je pravděpodobné, že leží populační parametr nObsahuje hodnotu parametru s určitou zvolenou pravděpodobností (spolehlivostí) = interval spolehlivosti nInterval spolehlivosti obsahuje nejpravděpodobnější hodnoty parametru nPravděpodobnost že tato metoda produkuje interval obsahující parametr = úroveň/míra spolehlivosti (nejčastěji 0.95 a 0.99) n95% interval spolehlivosti = máme 95% pravděpodobnost, že interval obsahuje parametr n99% interval spolehlivosti = máme 99% pravděpodobnost, že interval obsahuje parametr n n n n n Stationery anabnr2 7 Logika konstrukce intervalu spolehlivosti a výběrová chyba nProstřednictvím výběrové distribuce, která nám umožňuje určit pravděpodobnost s kterou bodový odhad leží uvnitř konkrétní vzdálenosti od parametru nNapř. z definice normálního rozložení víme, že s 95 % pravděpodobností proporce vzorku spadá do intervalu +-1.96 směrodatné odchylky (SE) od populační proporce nVzdálenost 1.96 (SE) = výběrová chyba nVýběrová chyba = měří jak přesný je bodový odhad parametru nJe násobkem směrodatné odchylky výběrové distribuce, např. 1.96 násobkem pokud je výběrová distribuce normálně rozložena nPokud hodnota proporce vzorku leží v rozmezí +- 1.96 (SE) od proporce populace, pak interval proporce vzorku +-1.96 (SE) obsahuje populační proporci. Tedy tento interval obsahuje populační proporci s 95 % pravděpodobností = je 95% intervalem spolehlivosti Stationery anabnr2 8 Směrodatná chyba nSměrodatná odchylka výběrové distribuce vychází z parametru , ten je však neznámý, proto za něj dosazujeme odhad = statistiku (např. p^ namísto p) nSměrodatná chyba (SE) = odhadovaná směrodatná odchylka výběrové distribuce n SE (proporce) = n nSměrodatná chyba průměru = s / √n n nSměrodatná chyba proporce = √ (p^ (1 - p^ ) / n) Stationery anabnr2 9 Interval spolehlivosti pro populační proporci n= p^ +- výběrová chyba n= p^ +- z * SE n= p^ +- z * √ (p^ (1 - p^ ) / n) nHodnotu (z) si volím podle požadované míry spolehlivosti nPro 90, 95 a 99% míru spolehlivosti z = 1.645, 1.96 a 2.58 n n n Stationery anabnr2 10 Vliv úrovně spolehlivosti a velikosti vzorku na výběrovou chybu a velikost intervalu spolehlivosti np^ +- z * √ (p^ (1 - p^ ) / n) nČím vyšší úroveň spolehlivosti (z), tím vyšší výběrová chyba a tedy i širší interval spolehlivosti a méně přesný odhad nČím větší velikost vzorku, tím menší výběrová chyba a tedy i užší interval spolehlivosti a přesnější odhad Stationery anabnr2 11 Interpretace intervalu spolehlivosti nKdyž budu opakovaně (nekonečně dlouho) tahat náhodně vzorek a vždy vytvořím 95% interval spolehlivosti, pak v 95% případů budou tyto intervaly obsahovat populační proporci – v 95% případů bude můj odhad správný, v 5% nikoli. nTedy existuje 95% pravděpodobnost, že můj konkrétní interval obsahuje skutečný populační parametr Stationery anabnr2 12 Interval spolehlivosti pro populační průměr nEkvivalentně k intervalu spolehlivosti pro populační proporci n= x¯ +- t.025 (SE) nkde SE = s / √n, kdy (s) představuje odchylku vzorku, která nahrazuje neznámou populační odchylku (σ), stejně jako (p^) nahrazuje (p) v případě SE proporce nt-statistika nahrazuje z-statistiku Stationery anabnr2 13 T-distribuce a t-statistika nPodobná normálnímu rozložení, širší konce nMá zvonovitý tvar, symetrická kolem 0 nRozložení pravděpodobností záleží na stupních volnosti (df) a tedy na velikosti vzorku (n) neboť nDf = n – 1 nt-statistika tedy závisí na stupních volnosti nRobustnější konce a větší variabilitu než normální rozložení n Stationery anabnr2 14 tdist nSe zvětšující se velikostí vzorku se t-rozložení blíží normálnímu rozložení Stationery anabnr2 15 T-skór a Z-skór z_sampmean Zdroj: wiki nNamísto populační odchylky (σ) používáme odchylku ze vzorku (s) Stationery anabnr2 16 Interval spolehlivosti pro populační průměr n95procentní interval spolehlivosti pro populační průměr je nx¯ +- t.025 (SE), kde SE = s / √n nHodnoty (t) volíme stejně jako hodnoty (z) podle požadované míry spolehlivosti (95 nebo 99%), přičemž s rostoucí velikostí vzorku se (t) hodnoty blíží (z) hodnotám (viz tabulka další snímek) n Stationery anabnr2 17 Hodnoty t-statistiky t_dist Stationery anabnr2 18 Př. Interval spolehlivosti pro populační průměr (použitím z-statistiky, neboť známe σ) nPř. Výsledky IQ testu jsou aproximovány (blíží se) normálním rozložením o průměru μ = 100 a σ=16. Třída 36 dětí dosáhne průměru 105 bodů. nVypočítejte 95 % interval spolehlivosti. nPostup: nvypočítám chybu průměru σ m(x¯) = σ / √n = 16 / √36 = 2.67 nVypočítám horní hranici intervalu 95: 1.96 σ (x¯) + x¯ = (1.96 * 2.67) + 105 = 105 + 5.23 = 110.23 nVypočítám spodní hranici intervalu 95: x¯ - 1.96 σ (x¯) = 105 - (1.96 * 2.67) = 105 – 5.23 = 99. 77 nInterpretace: Když budu tahat vzorky nekonečně mnohokrát a pokaždé vytvořím 95 % interval, pak v 95% případů bude tento interval spolehlivosti obsahovat skutečný průměr nAlternativní interpretace: Existuje 95 % pravděpodobnost že skutečný průměr leží v intervalu 99.77 až 110.23 nAnalogicky vypočteme a interpretujeme 99 % interval spolehlivosti, namísto hodnoty 1.96 dosadíme hodnotu 2.58 (ověřte v tabulce z skoru) Stationery anabnr2 19 Zdroj: ČT Příklad proporce: zpět k parlamentním volbám ČR 2013 nVztah mezi posledním průzkumem a skutečnými výsledky: cvičení předpověď skutečnost cssd 0,215 20,45 ano 0,175 18,65 kscm 0,12 14,91 top 0,105 11,99 ods 0,065 7,72 usvit 0,065 6,88 kdu 0,055 6,78 sz 0,045 3,19 spoz 0,025 1,51 ostatní 0,13 7,92 1 100