ANABNR2 ‹#› 1 7_Rozložení výběrových statistik Distribuce výběrových proporcí Distribuce výběrových průměrů Stationery anabnr2 ‹#› 2 Inferenční statistika nInference používá statistiky (průměr,proporce) ze vzorku za účelem rozhodování o hodnotě parametrů v populaci nJak pravděpodobnost a normální rozložení poskytuje základnu pro statistickou inferenci Stationery anabnr2 ‹#› 3 nDruh pravděpodobnostního rozložení nUmožňuje zjistit jak daleko od populačního parametru pravděpodobně statistika vzorku leží Výběrová distribuce Stationery anabnr2 ‹#› 4 nPovolební průzkum (parametr dosud neznámý) na vzorku 3889 voličů ukazuje proporci pro zelené 4,5 procenta (0,045) nJak víme že tento odhad je dobrým odhadem (blízko populační proporci)? Sestavením distribuce výběrových proporcí n Příklad Stationery anabnr2 ‹#› 5 Distribuce výběrových proporcí nHodnoty náhodné proměnné (0 = nezelení a 1 = zelení) a jejich četnost (0,955 a 0,045) z jednoho průzkumu formují distribuci dat pro jeden vzorek (individuální data, část populace, mění se vzorek od vzorku, tedy i proporce je proměnlivá) n nCelkový výsledek voleb dopadl pro zelené 3,19 procenta = populační proporce v době průzkumu neznámá. Hodnoty náhodné proměnné (0=nezelení a 1=zelení) a jejich četnost (0,0319 a 0,9681) v populaci = populační distribuce. (individuální data, distribuce z které bereme vzorek, parametr je fixní ale neznámý) n nMěly by jiné průzkumy na jiných vzorcích tendenci být blíže nebo dále skutečné populační proporci? Klíč se nachází v distribuci výběrových proporcí. (sdružuje hodnoty statistik vzorků, poskytuje pravděpodobnosti všech možných hodnot konkrétní statistiky, hypotetická distribuce neboť ve skutečnosti pozorujeme pouze data jednoho vzorku – distribuci dat) n Stationery anabnr2 ‹#› 6 Distribuce výběrových statistik a její konstrukce n n= distribuce pravděpodobností všech možných výsledků konkrétní statistiky (př. proporce, průměr) nJak často konkrétní hodnota statistiky je očekávána při náhodném výběru nOpakovaně vybírám vzorek a hodnoty statistik všech vzorků nanáším na novou distribuci = distribuce výběrových statistik n n Stationery anabnr2 ‹#› 7 Průměr, odchylka a tvar distribuce výběrových proporcí nPrůměr a odchylka závisí na velikosti vzorku a populační proporci nPrůměr = p = populační proporce (pokud neznáme používáme proporci ve vzorku jako nejlepší odhad proporce v populaci) nSměrodatná odchylka = nPokud je velikost vzorku dostatečně velká takže očekávaný počet výskytu v kategorii zájmu (počet hlasů pro zelené) a očekávaný počet výskytu v ostatní kategorii (počet hlasů pro jiné strany) jsou větší než 15, pak má distribuce tvar normálního rozložení n Stationery anabnr2 ‹#› 8 516615 Zdroj: ČT Příklad: parlamentní volby ČR 2013 nPoslední předvolební průzkum ČR pro ČT naznačuje 4,5 procenta hlasů pro zelené nOt. 1. Jak blízko je statistika proporce blízko skutečné proporci v populaci? nOt. 2. Jaké jsou pravděpodobné hodnoty skutečného populační proporce? Stationery anabnr2 ‹#› 9 nOt. 1: směrodatná odchylka = √ (p(1-p) / n) = √ (0,045*0,955 / 1000) = 0,0065 nProtože je splněna podmínka pro normální rozložení (1000*0,0045 a 1000*0,955 > 15) leží 99,8% plochy pod křivkou v rozmezí +- 3 směrodatné odchylky od průměru n tj. 0,045+(3*0,0065) a 0,045-(3*0,0065) = 0,045 +- 0,02 = 0,043 až 0,047 nS pravděpodobností téměř 100% leží populační proporce někde v intervalu 0,043 až 0,047 tedy 4,3 až 4,7 procent nZelení ve skutečnosti získali pouze 3,19 procenta, proč? n1. preference voličů se mezi posledním průzkumem a dnem voleb změnily – populační proporce se změnila n2. výběr nebyl proveden náhodně n n n Stationery anabnr2 ‹#› 10 Distribuce výběrových průměrů nopakovaně vybírám vzorek a jeho průměry nanáším na novou distribuci nvzniká nová distribuce s těmito charakteristikami: n1. Průměr distribuce = průměr výběrových průměrů = populační průměr (zákon velkých čísel) n2. Odchylka = chybu průměru = σ m(x¯) = σ / √n n3. Čím větší velikost vzorku, tím víc se distribuce blíže normální distribuci, bez ohledu na tvar populační distribuce (centrální limitní věta) ndistribuce se blíží normálnímu rozdělení když populační distribuce je normálně rozdělena (na velikosti vzorku nezáleží) nebo když populace není normálně rozdělena a velikost výběru je větší než 30 Stationery anabnr2 ‹#› 11 Příklad: distribuce výběrových průměrů nPř. Výsledky IQ testu jsou aproximovány (blíží se) normálním rozložením o průměru μ = 100 a σ=16. Když vytáhneme z této populace vzorek o velikosti 36 dětí, jak je pravděpodobné, že dosáhne průměru 105 bodů a více? n vypočítám chybu průměru = σ m(x¯) = σ / √n = 16 / √36 = 2.67 nOčekáváme že pokud je populační předpoklad pravdivý (vzorek je tažen z populace s danými parametry) pak výběrová distribuce bude v rozsahu 100 +- 8 = 92 až 108 nVypočítám z-skór pro vzorek = (x¯ - µ ) / σ m(x¯) n = (105 – 100) / 2.67 = 1.87 nA příslušnou pravděpodobnost z tabulky pro Z = 1.87 nVýsledek: P (x¯ >= 105) = 0.03 nPravděpodobnost je velmi nízká