Statistické metody Základní metody:  odhad parametrů  testování hypotéz Pokročilejší metody:  shluková (klastrová) analýza  faktorová analýza  analýza hlavních komponent (PCA)  … Výběrový průměr Výběrový rozptyl a směr. odchyl. Vlastnosti odhadu Konečnostní násobitel Statistické metody: Bodový odhad parametru Centrální limitní věta Intervalový odhad parametru Testování hypotéz Statistické metody Základní soubor (populace) je příliš velký a nemůžeme ho celý „proměřit“. Proto dělám reprezentativní výběr, ten změřím, tedy náhodným procesem získávám konkrétní hodnoty náhodných veličin. Spočítám výběrové charakteristiky souboru. Tyto výběrové charakteristiky chci vztáhnout na celý základní soubor. Musím nějak kvantifikovat jistotu či nejistotu, že moje odhady se potkávají s neznámou skutečností. Připomínka značení: 𝝁 vs. ഥ𝑿 𝝈 𝟐 vs. 𝑺 𝟐 𝒛 𝟏 − 𝜶 𝒕 𝒅𝒇 𝟏 − 𝜶 … skutečný neznámý parametr vs. náš odhad … (1 - 𝜶)% kvantil rozdělení prstí, pro který platí 𝑷 𝑿 > 𝒛 𝟏 − 𝜶 = 𝜶 Výběrový průměr Výběrový rozptyl a směr. odchyl. Vlastnosti odhadu Konečnostní násobitel Statistické metody: Bodový odhad parametru Centrální limitní věta Intervalový odhad parametru Testování hypotéz Bodový odhad parametru [point estimate of the parameter] Základní předpoklad dalšího odvozování: mám výběr n hodnot 𝑋1, 𝑋2, 𝑋3, … , 𝑋 𝑛 , které jsou iid., tedy vzájemně nezávislé a všechny pocházejí ze stejného rozdělení prstí. K odhadu typické hodnoty (charakteristika polohy) nejčastěji používáme výběrový průměr ഥ𝑿 = 𝟏 𝒏 σ𝒊=𝟏 𝒏 𝑿𝒊 [sample mean] Protože výběrový průměr je náhodná veličina, má smysl se ptát: a) jaká je jeho střední hodnota [expected value of the estimate] b) jaký je jeho rozptyl [variance of the estimate] c) jaká je jeho směrodatná odchylka [standard error of the estimate] Populační charakteristiky průměru (odvození dále): 𝑬ഥ𝑿 = 𝝁 𝒗𝒂𝒓 ഥ𝑿 = 𝝈 𝟐 𝒏 𝒔𝒅 ഥ𝑿 = 𝝈 𝒏 Výběrový průměr Výběrový rozptyl a směr. odchyl. Vlastnosti odhadu Konečnostní násobitel Střední hodnota výběr. průměru Rozptyl výběrového průměru SD výběrového průměru Statistické metody: Bodový odhad parametru Centrální limitní věta Intervalový odhad parametru Testování hypotéz Odvození pro výběrový průměr: (a) Střední hodnota výběrového průměru: 𝑬ഥ𝑿 = 𝑬 𝟏 𝒏 ෍ 𝒊=𝟏 𝒏 𝑿𝒊 = 𝟏 𝒏 ෍ 𝒊=𝟏 𝒏 𝑬𝑿𝒊 = 𝟏 𝒏 ෍ 𝒊=𝟏 𝒏 𝝁 = 𝟏 𝒏 ∙ 𝒏 ∙ 𝝁 = 𝝁 • tento odhad je nestranný, protože 𝐸 ത𝑋 = 𝜇 vlastnost střední hodnoty: 𝐄 𝑿 + 𝒀 = 𝑬𝑿 + 𝑬𝒀 Výběrový průměr Výběrový rozptyl a směr. odchyl. Vlastnosti odhadu Konečnostní násobitel Střední hodnota výběr. průměru Rozptyl výběrového průměru SD výběrového průměru Statistické metody: Bodový odhad parametru Centrální limitní věta Intervalový odhad parametru Testování hypotéz Odvození pro výběrový průměr: (b) Rozptyl výběrového průměru: 𝒗𝒂𝒓ഥ𝑿 = 𝒗𝒂𝒓 𝟏 𝒏 ෍ 𝒊=𝟏 𝒏 𝑿𝒊 = 𝟏 𝒏 𝟐 𝒗𝒂𝒓 ෍ 𝒊=𝟏 𝒏 𝑿𝒊 = 𝟏 𝒏 𝟐 ෍ 𝒊=𝟏 𝒏 𝒗𝒂𝒓𝑿𝒊 = 𝟏 𝒏 𝟐 ∙ 𝒏 ∙ 𝝈 𝟐 = 𝝈 𝟐 𝒏 𝒗𝒂𝒓ഥ𝑿 = 𝝈 𝟐 𝒏 (1) všechna 𝑿𝒊 jsou iid., proto 𝒄𝒐𝒗 𝑿𝒊, 𝑿𝒋 = 𝟎 pro ∀𝒊, 𝒋 (2) 𝒗𝒂𝒓 𝑿 + 𝒀 = 𝒗𝒂𝒓𝑿 + 𝒗𝒂𝒓𝒀 + 𝟐𝒄𝒐𝒗(𝑿, 𝒀) 𝒗𝒂𝒓 𝜷 ∙ 𝑿 = 𝜷 𝟐 ∙ 𝒗𝒂𝒓𝑿 • n = 1  𝒗𝒂𝒓 𝑿 𝟏 = 𝝈 𝟐 • větší n  menší rozptyl ഥ𝑿 • problém: 𝝈 𝟐 většinou neznáme Výběrový průměr Výběrový rozptyl a směr. odchyl. Vlastnosti odhadu Konečnostní násobitel Střední hodnota výběr. průměru Rozptyl výběrového průměru SD výběrového průměru Statistické metody: Bodový odhad parametru Centrální limitní věta Intervalový odhad parametru Testování hypotéz Odvození pro výběrový průměr: (c) Směrodatná odchylka výběrového průměru: 𝑺. 𝑬. ഥ𝑿 = 𝒗𝒂𝒓 ഥ𝑿 = 𝝈 𝒏 • říkáme jí střední chyba průměru [standard error of mean, SEM] • často se uvádí ve výsledcích článků • charakterizuje „přesnost“ odhadu (pozor: přesnost odhadu ve smyslu střední kvadratické chyby (viz dále) zahrnuje i vychýlení odhadu) • platí: čím větší výběr (n), tím přesnější odhad • SEM závisí na parametru 𝝈, který většinou neznáme a nahrazujeme ho vhodným odhadem, např. výběrovým rozptylem (za chvilku). Slovní označení „střední chyba“ se používá i tehdy, když místo 𝝈 použiji odhad. Výběrový průměr Výběrový rozptyl a směr. odchyl. Vlastnosti odhadu Konečnostní násobitel Střední hodnota výběr. průměru Rozptyl výběrového průměru SD výběrového průměru Statistické metody: Bodový odhad parametru Centrální limitní věta Intervalový odhad parametru Testování hypotéz Bodový odhad variance – výběrový rozptyl K odhadu variability hodnot v populaci nejčastěji používáme výběrový rozptyl 𝑺 𝟐 = 𝟏 𝒏−𝟏 σ𝒊=𝟏 𝒏 𝑿𝒊 − ഥ𝑿 𝟐 [sample variance] • střední hodnota výběrového rozptylu: 𝑬𝑺 𝟐 = 𝝈 𝟐 • rozptyl výběrového rozptylu běžně nepotřebujeme, proto neuvádím • Jiný bodový odhad variability hodnot v populaci: výběrový momentový rozptyl 𝑺 𝒏 𝟐 = 𝟏 𝒏 σ𝒊=𝟏 𝒏 𝑿𝒊 − ഥ𝑿 𝟐 většinou nepoužíváme, protože o 1 𝑛 podhodnocuje skutečný parametr 𝜎2 (dále) Výběrový průměr Výběrový rozptyl a směr. odchyl. Vlastnosti odhadu Konečnostní násobitel Střední hodnota výběr. rozptylu Statistické metody: Bodový odhad parametru Centrální limitní věta Intervalový odhad parametru Testování hypotéz Bodový odhad populační SD – výběrová směrodatná odchylka 𝑺 = 𝑺 𝟐 • tento odhad je vychýlený, skutečnou směr. odchylku v průměru podhodnocuje, protože platí 𝐸𝑆 < 𝜎. Výběrový průměr Výběrový rozptyl a směr. odchyl. Vlastnosti odhadu Konečnostní násobitel Střední hodnota výběr. SD Statistické metody: Bodový odhad parametru Centrální limitní věta Intervalový odhad parametru Testování hypotéz Dodatek: jiný tvar výběrového rozptylu: užitečný tvar pro „ruční“ výpočet, používá se v algoritmech (je rychlejší): 𝑺 𝟐 = 𝟏 𝒏 − 𝟏 ෍ 𝒊=𝟏 𝒏 𝑿𝒊 − ഥ𝑿 𝟐 = 1 𝑛 − 1 ෍ 𝑖=1 𝑛 𝑋𝑖 2 − 2 ത𝑋𝑋𝑖 + ത𝑋2 = = 1 𝑛 − 1 ෍ 𝑖=1 𝑛 𝑋𝑖 2 − 2 ത𝑋 ෍ 𝑖=1 𝑛 𝑋𝑖 + 𝑛 ത𝑋2 = = 1 𝑛 − 1 ෍ 𝑖=1 𝑛 𝑋𝑖 2 − 2 ത𝑋 ∙ 𝑛 σ 𝑋𝑖 𝑛 + 𝑛 ത𝑋2 = = 1 𝑛 − 1 ෍ 𝑖=1 𝑛 𝑋𝑖 2 − 2 ത𝑋 ∙ 𝑛 ത𝑋 + 𝑛 ത𝑋2 = 𝟏 𝒏 − 𝟏 ෍ 𝒊=𝟏 𝒏 𝑿𝒊 𝟐 − 𝒏ഥ𝑿 𝟐 Výběrový průměr Výběrový rozptyl a směr. odchyl. Vlastnosti odhadu Konečnostní násobitel Střední hodnota výběr. rozptylu Statistické metody: Bodový odhad parametru Centrální limitní věta Intervalový odhad parametru Testování hypotéz Dodatek: odvození výpočtu střední hodnoty výběrového rozptylu 𝑬𝑺 𝟐 = 𝐸 1 𝑛 − 1 ෍ 𝑖=1 𝑛 𝑋𝑖 − ത𝑋 2 = 𝐸 1 𝑛 − 1 ෍ 𝑖=1 𝑛 𝑋𝑖 2 − 𝑛 ത𝑋2 = = 1 𝑛 − 1 ෍ 𝑖=1 𝑛 𝐸 𝑋𝑖 2 − 𝑛 ∙ 𝐸 ത𝑋2 = = 1 𝑛 − 1 𝑛 𝜎2 + 𝜇2 − 𝑛 ∙ 𝜎2 𝑛 + 𝜇2 = 1 𝑛 − 1 𝑛𝜎2 + 𝑛𝜇2 − 𝜎2 − 𝑛𝜇2 = = 𝟏 𝒏 − 𝟏 ∙ (𝒏 − 𝟏)𝝈 𝟐 = 𝝈 𝟐  𝑣𝑎𝑟 𝑋𝑖 = 𝐸 𝑋𝑖 − 𝐸𝑋𝑖 2 = 𝐸 𝑋𝑖 2 − 2𝑋𝑖 𝐸𝑋𝑖 + 𝐸𝑋𝑖 2 = 𝐸 𝑋𝑖 2 − 2 ∙ 𝐸𝑋𝑖 ∙ 𝐸𝑋𝑖 + 𝐸𝑋𝑖 2 = 𝐸 𝑋𝑖 2 − 𝐸𝑋𝑖 2 odtud: 𝑬 𝑿𝒊 𝟐 = 𝒗𝒂𝒓𝑿𝒊 + 𝑬𝑿𝒊 𝟐 = 𝝈 𝟐 + 𝝁 𝟐  podobně: 𝑣𝑎𝑟 ത𝑋 = 𝐸 ത𝑋 − 𝐸 ത𝑋 2 = ⋯ = 𝐸 ത𝑋 2 − 𝐸 ത𝑋 2 odtud: 𝑬ഥ𝑿 𝟐 = 𝒗𝒂𝒓ഥ𝑿 + 𝑬ഥ𝑿 𝟐 = 𝝈 𝟐 𝒏 + 𝝁 𝟐 Výběrový průměr Výběrový rozptyl a směr. odchyl. Vlastnosti odhadu Konečnostní násobitel Střední hodnota výběr. rozptylu 𝐸 𝛽 ∙ 𝑋 = 𝛽 ∙ 𝐸𝑋 Statistické metody: Bodový odhad parametru Centrální limitní věta Intervalový odhad parametru Testování hypotéz Vlastnosti bodového odhadu Nestranný odhad (nevychýlený, nezkreslený) [unbiased estimation] • když střední hodnota odhadu = teoretickému parametru • právě jsme měli: 𝑬ഥ𝑿 = 𝝁 a 𝑬𝑺 𝟐 = 𝝈 𝟐 • nestranný odhad systematicky nenadhodnocuje ani nepodhodnocuje odhadovaný parametr • příklad vychýleného odhadu – výběrový momentový rozptyl: 𝐸𝑆 𝑛 2 = 𝐸 1 𝑛 ෍ 𝑖=1 𝑛 𝑋𝑖 − ത𝑋 2 = ⋯ = 𝑛 − 1 𝑛 𝜎2 = 𝜎2 − 1 𝑛 𝜎2 vychýlení značíme 𝐵 𝜎2 , 𝑆 𝑛 2 = 𝑬𝑺 𝒏 𝟐 − 𝝈 𝟐 = 𝑛−1 𝑛 𝜎2 − 𝑛 𝑛 𝜎2 = − 𝟏 𝒏 𝝈 𝟐 𝑺 𝒏 𝟐 podhodnocuje skutečný parametr 𝝈 𝟐. Výběrový průměr Výběrový rozptyl a směr. odchyl. Vlastnosti odhadu Konečnostní násobitel Nestranný odhad Konzistentní odhad Vydatný, eficientní odhad Přesnost odhadu Statistické metody: Bodový odhad parametru Centrální limitní věta Intervalový odhad parametru Testování hypotéz Vlastnosti bodového odhadu Asymptoticky nestranný odhad • když odhad je sice vychýlený, ale se zvyšujícím se rozsahem výběru n se vychýlení zmenšuje až k nule • to je případ výběrového momentového rozptylu: 𝑺 𝒏 𝟐 = 𝟏 𝒏 ෍ 𝒊=𝟏 𝒏 𝑿𝒊 − ഥ𝑿 𝟐 𝑬𝑺 𝒏 𝟐 = 𝝈 𝟐 − 𝟏 𝒏 𝝈 𝟐 Vychýlení: − 𝟏 𝒏 𝝈 𝟐 lim 𝑛→∞ − 𝟏 𝒏 𝝈 𝟐 → − 𝟏 ∞ 𝝈 𝟐 = 𝟎 Výběrový průměr Výběrový rozptyl a směr. odchyl. Vlastnosti odhadu Konečnostní násobitel Nestranný odhad Konzistentní odhad Vydatný, eficientní odhad Přesnost odhadu Statistické metody: Bodový odhad parametru Centrální limitní věta Intervalový odhad parametru Testování hypotéz Vlastnosti bodového odhadu Konzistentní odhad [consistent estimation] • pokud se s rostoucím rozsahem výběru n odhad zpřesňuje • 𝐸 𝑜𝑑ℎ𝑎𝑑𝑢 = 𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑟 • a zároveň 𝑣𝑎𝑟 𝑜𝑑ℎ𝑎𝑑𝑢 𝒏 → ∞ 0 • platí např. pro výběrový průměr: 𝑬ഥ𝑿 = 𝝁 𝒗𝒂𝒓ഥ𝑿 = 𝝈 𝟐 𝒏 𝒏 → ∞ 𝝈 𝟐 ∞ = 𝟎 Výběrový průměr Výběrový rozptyl a směr. odchyl. Vlastnosti odhadu Konečnostní násobitel Nestranný odhad Konzistentní odhad Vydatný, eficientní odhad Přesnost odhadu Statistické metody: Bodový odhad parametru Centrální limitní věta Intervalový odhad parametru Testování hypotéz Vlastnosti bodového odhadu Vydatný, eficientní, nejlepší nestranný odhad [efficient estimation] • má nejmenší rozptyl mezi všemi nestrannými odhady téhož parametru Přesnost, kvalita odhadu [quality of the estimation] • měříme pomocí střední kvadratické chyby odhadu • výběrová chyba odhadu: 𝑜𝑑ℎ𝑎𝑑 − 𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑟 • zkratka MSE(odhadu) [mean squared error] (! ≠ SEM, stand. error of mean) • Kromě variability zahrnuje i vychýlení odhadu. Pro nestranné odhady (vychýlení = 0) je to totéž jako var(odhadu) a potažmo S.E.(odhadu) • 𝑀𝑆𝐸 𝑜𝑑ℎ𝑎𝑑𝑢 = 𝐸 𝑜𝑑ℎ𝑎𝑑 − 𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑟 2 = 𝑣𝑎𝑟 𝑜𝑑ℎ𝑎𝑑𝑢 + 𝐵2 𝑜𝑑ℎ𝑎𝑑𝑢 = = 𝐸(𝑜𝑑ℎ𝑎𝑑 − 𝐸 𝑜𝑑ℎ𝑎𝑑𝑢 )2+(𝐸 𝑜𝑑ℎ𝑎𝑑𝑢 − 𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑟)2 • příklad: 𝑀𝑆𝐸 𝑆 𝑛 2 = 𝐸 𝑆 𝑛 2 − 𝜎2 2 = ⋯ Výběrový průměr Výběrový rozptyl a směr. odchyl. Vlastnosti odhadu Konečnostní násobitel Nestranný odhad Konzistentní odhad Vydatný, eficientní odhad Přesnost odhadu Statistické metody: Bodový odhad parametru Centrální limitní věta Intervalový odhad parametru Testování hypotéz Ze statistického slovníku: Robustní = odolný přibližně řečeno je to schopnost spočítat „spolehlivý“ výsledek, přestože jsou narušeny předpoklady testu, odhadu apod. Výběrový průměr Výběrový rozptyl a směr. odchyl. Vlastnosti odhadu Konečnostní násobitel Nestranný odhad Konzistentní odhad Vydatný, eficientní odhad Přesnost odhadu Statistické metody: Bodový odhad parametru Centrální limitní věta Intervalový odhad parametru Testování hypotéz Konečnostní násobitel Většinou zahrnuje náš výběr méně než 5 % jedinců z celé populace, proto můžeme takovou populaci považovat za nekonečnou. Pokud ovšem vybíráme z menší konečné populace a rozsah výběru je větší než 5 % všech jedinců, potom výběrový průměr ഥ𝑿 zůstává nestranným odhadem populačního průměru, ale odhad rozptylu ഥ𝑿 bude nadhodnocený. Aby byly odhadované vlastnosti ഥ𝑿 správné, je třeba rozptyl vynásobit konečnostním násobitelem 𝑁−𝑛 𝑁−1 . Tedy: 𝑬ഥ𝑿 = 𝝁 … to je stejné 𝑣𝑎𝑟 ത𝑋 = 𝑵 − 𝒏 𝑵 − 𝟏 ∙ 𝜎2 𝑛 => 𝑺. 𝑬. ഥ𝑿 = 𝝈 𝒏 ∙ 𝑵 − 𝒏 𝑵 − 𝟏 (Citace: Zvára, Karel: Biostatistika. Karolinum, Praha 2008.) Statistické metody: Bodový odhad parametru Centrální limitní věta Intervalový odhad parametru Testování hypotéz Výběrový průměr Výběrový rozptyl a směr. odchyl. Vlastnosti odhadu Konečnostní násobitel Centrální limitní věta graficky N(μ = 30, σ = 3) ത𝑋 = 29.994 𝑆 = 0.432 χ2(df = 4.5) ത𝑋 = 4.497 𝑆 = 0.412 Statistické metody: Bodový odhad parametru Centrální limitní věta Intervalový odhad parametru Testování hypotéz Centrální limitní věta Aproximace binomického rozdělení Centrální limitní věta (CLV) [central limit theorem] Když hodnoty ve výběru mají normální rozdělení 𝑵 𝝁, 𝝈 𝟐 potom také jejich průměr ഥ𝑿 má normální rozdělení 𝑵 𝝁, 𝝈 𝟐 𝒏 . Toho využíváme pro výpočet intervalu spolehlivosti nebo v testech. Ale co když hodnoty ve výběru nemají normální rozdělení? Mám-li „dostatečně velký“ výběr n, potom se rozdělení průměru ഥ𝑿 blíží normálnímu s parametry odvozenými z výběrových dat 𝑵 𝝁, 𝝈 𝟐 𝒏 . Toto tvrzení je matematicky zpracováno v centrální limitní větě. „Dostatečně velké“ n je v praxi alespoň 30 a více. Mám-li hodnot ve výběru méně, musím věnovat větší pozornost předpokladům parametrických testů. Neplatí vždycky, ale lze aplikovat na průměr, relativní četnost či součet pořadí, také na testy o střední hodnotě nějakého rozdělení. Statistické metody: Bodový odhad parametru Centrální limitní věta Intervalový odhad parametru Testování hypotéz Centrální limitní věta Aproximace binomického rozdělení Použití CLV na aproximaci binomického rozdělení 𝒀~𝑩𝒊(𝒏, 𝒑), kde 𝒀 = σ𝒊=𝟏 𝒏 𝑿𝒊 a 𝑿𝒊 ~ 𝑨𝒍𝒕(𝒑) víme, že 𝐄𝑿𝒊 = 𝒑 a 𝒗𝒂𝒓𝑿𝒊 = 𝒑(𝟏 − 𝒑) tedy 𝑬𝒀 = 𝒏 ∙ 𝒑 a 𝒗𝒂𝒓𝒀 = 𝒏 ∙ 𝒑 ∙ (𝟏 − 𝒑) Podle CLV má náh. vel. 𝒁 = 𝒀−𝒏𝒑 𝒏𝒑(𝟏−𝒑) ~𝑵(𝟎, 𝟏) pro velká n. Proto 𝒀~𝑩𝒊(𝒏, 𝒑) může být pro velká n aproximována ~𝑵(𝒏𝒑, 𝒏𝒑 𝟏 − 𝒑 ). Zkušenosti starších říkají, že aproximace je dobře použitelná pro 𝒏𝒑 𝟏 − 𝒑 > 𝟗 nebo Centrální limitní věta Aproximace binomického rozdělení Statistické metody: Bodový odhad parametru Centrální limitní věta Intervalový odhad parametru Testování hypotéz Intervalový odhad parametru [confidence interval of the parameter] také konfidenční interval či interval spolehlivosti. Konstrukci intervalu provedeme na příkladu výběrového průměru, teorie však platí pro odhady všech parametrů.  Výběrový průměr ഥ𝑿 je náhodná veličina, má tedy i své rozdělení pravděpodobností. Tvar rozdělení je dán rozdělením hodnot 𝑿𝒊 a rozsahem výběru n.  Víme, že 𝑬ഥ𝑿 = 𝝁 a 𝒗𝒂𝒓 ഥ𝑿 = 𝝈 𝟐 𝒏 (skutečné, ale neznámé parametry).  Pokud výběr pochází z normálního rozdělení 𝑵 𝝁, 𝝈 𝟐 , potom také náhodná veličina ഥ𝑿 má normální rozdělení s parametry 𝑵 𝝁, 𝝈 𝟐 𝒏 .  Když výběr nepochází z normálního rozdělení (histogram je šikmý nebo hrbatý), potom záleží na velikosti výběru. Při rozumně velkém výběru n funguje centrální limitní věta (dále) a podle té má ഥ𝑿 ≈ 𝑵 𝝁, 𝝈 𝟐 𝒏 i když původní data nejsou z normálního rozdělení. Statistické metody: Bodový odhad parametru Centrální limitní věta Intervalový odhad parametru Testování hypotéz Konstrukce intervalu spolehlivosti Odvození T statistiky Intervalový odhad parametru Teoreticky: hodnoty, kterých může nabývat průměr ഥ𝑿 jsou popsány normálním rozdělením 𝑵 𝝁, 𝝈 𝟐 𝒏 : Chceme sestrojit interval takový, aby pokrýval „rozumné“ hodnoty ഥ𝑿 a abychom znali pravděpodobnost chybného tvrzení o tomto intervalu. Zvolíme velikost možné chyby 𝜶 = 𝟎, 𝟎𝟓, tj. 5 % (například). Pomůžeme si normovaným tvarem 𝒁 = ഥ𝑿−𝝁 𝝈 𝒏 ~𝑵 𝟎, 𝟏 se známými kvantily: 𝑷 −𝒛 𝟏 − Τ𝜶 𝟐 < ഥ𝑿−𝝁 𝝈 𝒏 < 𝒛 𝟏 − Τ𝜶 𝟐 = 𝟎, 𝟗𝟓 ≈ 𝑷 ഥ𝑿 − 𝒛 𝟏 − Τ𝜶 𝟐 ∙ 𝝈 𝒏 < 𝝁 < ഥ𝑿 + 𝒛 𝟏 − Τ𝜶 𝟐 ∙ 𝝈 𝒏 = 𝟎, 𝟗𝟓 Konstrukce intervalu spolehlivosti Odvození T statistiky N(0, 1) je souměrné, proto 𝑧 1 − Τ𝛼 2 = −𝑧 Τ𝛼 2 . 2,5 %2,5 % Statistické metody: Bodový odhad parametru Centrální limitní věta Intervalový odhad parametru Testování hypotéz Intervalový odhad parametru  𝑷 ഥ𝑿 − 𝒛 𝟏 − Τ𝜶 𝟐 ∙ 𝝈 𝒏 < 𝝁 < ഥ𝑿 + 𝒛 𝟏 − Τ𝜶 𝟐 ∙ 𝝈 𝒏 = 𝟏 − 𝜶 = 𝟎, 𝟗𝟓 Tedy jsem zpět v ~ 𝑵 𝝁, 𝝈 𝟐 𝒏 . Jiný tvar: 𝐏 𝝁 ∈ ഥ𝑿 − 𝒛 𝟏 − Τ𝜶 𝟐 ∙ 𝝈 𝒏 ; ഥ𝑿 + 𝒛 𝟏 − Τ𝜶 𝟐 ∙ 𝝈 𝒏 = 𝟏 − 𝜶 konfidenční interval odhadu parametru μ na hladině α = 0.05. Další způsob zápisu: ഥ𝑿 ± 𝒛 𝟏 − Τ𝜶 𝟐 ∙ 𝝈 𝒏 Výsledek 15.3 ± 3.65 čteme např. takto: střední hodnotu odhadujeme hodnotou 15.3, přičemž skutečná hodnota střední hodnoty leží na 95 % v rozmezí 15.3 – 3.65 a 15.3 + 3.65. Je třeba uvádět také pravděp. nebo α. Konstrukce intervalu spolehlivosti Odvození T statistiky Statistické metody: Bodový odhad parametru Centrální limitní věta Intervalový odhad parametru Testování hypotéz Intervalový odhad parametru – graficky 𝐏 𝝁 ∈ ഥ𝑿 − 𝒛 𝟏 − Τ𝜶 𝟐 ∙ 𝝈 𝒏 ; ഥ𝑿 + 𝒛 𝟏 − Τ𝜶 𝟐 ∙ 𝝈 𝒏 = 𝟏 − 𝜶 = 𝟎, 𝟗𝟓 R: qnorm(pravděpodobnost, mean, sd) … spočte takovou hodnotu na x-ové ose, pro kterou je P(X ≤ x) = zadaná pravděpodobnost. pnorm(x, mean, sd)… spočte P(X ≤ x) pro zadané x. dnorm(x, mean, sd) … spočte hustotu normálního rozdělení pro zadané x. rnorm(n, mean, sd) … vygeneruje n náhodných hodnot ze zadaného N(mean, sd). Konstrukce intervalu spolehlivosti Odvození T statistiky Červený interval je to „chybné tvrzení o intervalu spolehlivosti“. Červený interval nezahrnuje (nepokrývá) skutečnou hodnotu μ0. Pravděpodobnost této chyby je α (5 %). Statistické metody: Bodový odhad parametru Centrální limitní věta Intervalový odhad parametru Testování hypotéz Testování hypotéz [hypotheses testing] Příklady: • Z histogramu vidím, že data mají zhruba normální rozdělení. Ale tvrzení, že výběr pochází z normálního rozdělení, musím podepřít testem. • Mám data o hmotnosti samců a samiček nějakého druhu a z grafické prezentace je vidět, že samečci jsou těžší. Statistický test řekne, zda je rozdíl mezi pohlavími „systematický“ nebo zda bylo věcí náhody, že někteří samečci byli těžší a posunuli průměr napravo. Základní poučka metodologie vědy: shoda dat s hypotézou ještě neznamená, že hypotéza je pravdivá; na druhou stranu data odporující hypotéze ukazují, že hypotéza pravdivá není. Proto hypotézu nelze na základě dat dokázat, ale hypotézu lze na základě dat vyvrátit. Ad příklad 2) chci vyvrátit tvrzení, že samci i samičky mají stejnou hmotnost. Nulová a alternativní hypotéza Chyba prvního a druhého druhu Hladina testu α Dosažená hladina testu Síla testu Oboustranná alternativa Jednostranná alternativa Slovníček Statistické metody: Bodový odhad parametru Centrální limitní věta Intervalový odhad parametru Testování hypotéz Formulujeme nulovou hypotézu H0 [null hypothesis] a její negaci , tzv. alternativní hypotézu H1, příp. HA [alternative hypothesis]. Příklad. H0: dva datové soubory mají stejnou střední hodnotu, 𝜇1 = 𝜇2; H1: střední hodnoty se liší, 𝜇1 ≠ 𝜇2. H0: výběr pochází z normálního rozdělení; H1: výběr nepochází z normálního rozdělení Máme 2 možná rozhodnutí: H0 zamítáme nebo H0 nezamítáme. Následují 4 možné situace: Statistické metody: Bodový odhad parametru Intervalový odhad parametru Testování hypotéz SKUTEČNOST NAŠE ROZHODNUTÍ H0 platí H0 neplatí (platí H1) H0 zamítáme Chyba 1. druhu: α Prst. chyby ≤ α SPRÁVNÉ ROZHODNUTÍ 𝑃 = 1 − 𝛽 síla testu H0 nezamítáme SPRÁVNÉ ROZHODNUTÍ 𝑃 ≥ 1 − 𝛼 Chyba 2. druhu: β β většinou neznáme Nulová a alternativní hypotéza Chyba prvního a druhého druhu Hladina testu α Dosažená hladina testu Síla testu Oboustranná alternativa Jednostranná alternativa Slovníček Testování hypotéz Nulová hypotéza souvisí s nějakým předem daným uspořádáním dat. Toto uspořádání je popsáno nějakým teoretickým rozdělením prstí nějaké náhodné veličiny. Naše výběrová data tedy porovnáváme s určeným teoretickým rozdělením pomocí odhadu určené náhodné veličiny. Nulovou hypotézu zamítáme tehdy, když naše uspořádání výběrového souboru je za předpokladu platnosti H0 velmi nepravděpodobné. Příklad: Test hypotézy o střední hodnotě normálního rozdělení. Data „Stulong“: výška mužů Populační výška = 175.8 cm Výběrová výška = 178.1 cm H0: μvyber = 175.8 ; H1: μvyber ≠ 175.8 Statistické metody: Bodový odhad parametru Intervalový odhad parametru Testování hypotéz Nulová a alternativní hypotéza Chyba prvního a druhého druhu Hladina testu α Dosažená hladina testu Síla testu Oboustranná alternativa Jednostranná alternativa Slovníček Pro výběr set.seed(21) Test hypotézy o střední hodnotě normálního rozdělení • Mám výběr 𝑋1, 𝑋2, … , 𝑋 𝑛 • Je můj výběr reprezentativní? • Předpokládám, že 𝑋𝑖~𝑁(𝜇 𝑋, 𝜎 𝑋 2) a jsou iid. • Testuji, zda 𝜇 𝑋 = 𝜇0 … 𝜇0 nějaké číslo • Hypotéza H0: 𝜇 𝑋 = 𝜇0, H1: 𝜇 𝑋 ≠ 𝜇0 • 𝜇 𝑋 odhadnu pomocí ത𝑋, protože vím, 𝐸 ത𝑋 = 𝜇 • Rozhodovací pravidlo: ത𝑋 − 𝜇0 … bude-li velký rozdíl, H0 zamítnu • Jak velký musí být rozdíl ത𝑋 − 𝜇0 , abych H0 zamítla? • Podle toho, jakou dovolím pravděpodobnost α chyby 1. druhu • Dopočítám kvantily pro P ~ 2.5 % a P ~ 97.5 % • Je ത𝑋 ≤ 𝑥 𝛼/2 nebo ത𝑋 ≥ 𝑥1−𝛼/2? Potom zamítám H0. Statistické metody: Bodový odhad parametru Intervalový odhad parametru Testování hypotéz Data „Stulong“: „populační“ výška mužů Výška mužů v našem výběru Výpočet v R-skriptu N(175.8 cm, σ = 6.3 cm) μ0 = 175.8 cm H0: 𝜇 𝑋 = 175.8 ; H1: 𝜇 𝑋 ≠ 175.8 ത𝑋 = 178.1 𝑐𝑚 𝛼 = 0.05 𝑥 𝛼/2 = 173.6 𝑎 𝑥1−𝛼/2 = 178.0 ത𝑋 = 178.1 𝑐𝑚 ≥ 178.0 => zamítám H0 Nulová a alternativní hypotéza Chyba prvního a druhého druhu Hladina testu α Dosažená hladina testu Síla testu Oboustranná alternativa Jednostranná alternativa Slovníček Test hypotézy o střední hodnotě normálního rozdělení Obecně bývá výpočet převeden z 𝑁(𝜇, 𝜎 𝑛 ) na 𝑁(0,1): 𝑍 = ത𝑋 − 𝜇 ത𝑋 𝜎 ത𝑋 = ത𝑋 − 𝜇 𝑋 𝜎 𝑋 𝑛 ~ 𝑁(0,1) Zapracujeme předpoklad H0: 𝜇 𝑋 = 𝜇0 → 𝑍 = ത𝑋 − 𝜇0 𝜎 𝑋 𝑛 = ത𝑋 − 𝜇0 𝜎 𝑋 𝑛 ~ 𝑁(0,1) Statistické metody: Bodový odhad parametru Intervalový odhad parametru Testování hypotéz Nulová a alternativní hypotéza Chyba prvního a druhého druhu Hladina testu α Dosažená hladina testu Síla testu Oboustranná alternativa Jednostranná alternativa Slovníček Test hypotézy o střední hodnotě normálního rozdělení – neznámé σ Odvodili jsme testovou statistiku Z, která má – za platnosti H0 – rozdělení N(0, 1): 𝒁 = ഥ𝑿 − 𝝁 𝟎 𝝈 𝒙 𝒏 ~ 𝑵 𝟎, 𝟏 … 𝝁 𝟎 = známé číslo V tuto chvíli otazník jen u 𝝈 𝒙 a) 𝝈 𝒙 známe: rozhod. pravidlo bude 𝒁 ≥ 𝒛 𝟏 − Τ𝜶 𝟐 , protože H1: 𝜇 𝑋 ≠ 𝜇0 oboustranná alternativa [two-tailed test] b) 𝝈 𝒙 neznáme: nahradíme ho odhadem 𝑆 𝑋 2 = 𝑆 𝑋 test. statistika 𝒕 = ഥ𝑿−𝝁 𝟎 𝑺 𝒙 𝒏 ~ 𝒕 𝒏−𝟏 a rozhod. pravidlo 𝒕 ≥ 𝒕 𝒏−𝟏 𝟏 − 𝜶 𝟐 . Statistické metody: Bodový odhad parametru Intervalový odhad parametru Testování hypotéz a) známe b) neznáme Nulová a alternativní hypotéza Chyba prvního a druhého druhu Hladina testu α Dosažená hladina testu Síla testu Oboustranná alternativa Jednostranná alternativa Slovníček 0 t-test hypotézy o střední hodnotě normálního rozdělení v číslech: Příklad: Data „Stulong“: výška mužů v našem výběru H0: μvyber = 175.8 cm; H1: μvyber ≠ 175.8 cm ഥX = 178.1 cm, σx neznáme  odhad S = 7.1 cm Testová statistika: 𝑡 = 178.1−175.8 7.1 30 = 1.77 Kvantil 𝑡 29 1 − 0,025 = 2.05 Rozhodnutí: 1.77 < 2.05, proto nezamítám H0, že skutečná μvyber = 175.8 cm. P-hodnota provedeného testu p = 0.087, tj. 8.7 % Statistické metody: Bodový odhad parametru Intervalový odhad parametru Testování hypotéz Nulová a alternativní hypotéza Chyba prvního a druhého druhu Hladina testu α Dosažená hladina testu Síla testu Oboustranná alternativa Jednostranná alternativa Slovníček Hladina testu α Jiný název pro zvolenou chybu 1. druhu α. Dosažená hladina významnosti testu Také p-hodnota [p-value] Je to pravděpodobnost, které odpovídá testová statistika coby kvantil. Dnes je toto číslo velmi cennou informací v publikacích, proto je častou součástí výsledků. Na grafu: 97.5% kvantil t-rozdělení (df=29) = 2.04 testová statistika t = 1.77 … modrá plocha p = 2*0.044 = 0.088 Co nastává: zvolili jsme α = 0.05 (5 %) a … • p-hodnota vyjde 0.0023, tj. 0.23 %. Výsledek je tedy hluboko za kritickou hranicí, výsledek (rozdíl) je evidentně průkazný. Hurá! • p = 0.049, tedy zamítám H0, ale jen velmi těsně. • p = 0.052, tedy nezamítám H0, ale také velmi těsně. • p = 0.43, tedy H0 nezamítám a je zřejmé, že se výsledek hranici 5 % ani zdaleka neblíží. Statistické metody: Bodový odhad parametru Intervalový odhad parametru Testování hypotéz Nulová a alternativní hypotéza Chyba prvního a druhého druhu Hladina testu α Dosažená hladina testu Síla testu Oboustranná alternativa Jednostranná alternativa Slovníček Formulace nulové hypotézy a) Vidím, že samci a samičky mají skoro stejnou charakteristiku a chci je spojit do jedné skupiny. Potřebuji testem ukázat, že v datech není rozpor se „sjednocením“.  hledaný výsledek: „nezamítám H0“, „rozdíl mezi samci a samičkami je neprůkazný“, apod. Tvrzení podporuje velká p-hodnota, např. 0.3 a větší. b) Chci ukázat, že dvě skupiny se v nějaké charakteristice liší. Potom H0 formuluji tak, abych ji na základě svých dat mohla zamítnout.  Hledaný výsledek: „zamítám H0 o tom, že mezi charakteristikami první a druhé skupiny není rozdíl“. Tvrzení musí mít p-hodnotu ≤ α. • Nezamítnutí H0 s p-hodnotou kolem 0.1 ̴ 10 % znamená spíše nedostatek důkazů pro zamítnutí, než potvrzení platnosti H0. • Vědecký důkaz = zamítnutí hypotézy (H0) • Nezamítnutí hypotézy nic nedokazuje, jen říká, že data nejsou v rozporu • Odpověď při neúspěchu: „Na základě dat nemůžeme zamítnout H0.“ • Nelze napsat: „dokázali jsme nulovou hypotézu…“ CHYBA!! Statistické metody: Bodový odhad parametru Intervalový odhad parametru Testování hypotéz Nulová a alternativní hypotéza Chyba prvního a druhého druhu Hladina testu α Dosažená hladina testu Síla testu Oboustranná alternativa Jednostranná alternativa Slovníček Formulace nulové hypotézy ad (b) Chci ukázat, že v datech je rozdíl: Dobrá hypotéza je vyvratitelná. Příklad: V parku jsou lišky. // V parku nejsou žádné lišky. Nepřítomnost důkazů není důkaz nepřítomnosti. [Absence of evidence is not evidence of absence.] Neprůkaznost rozdílu, který jsme očekávali, je nejčastěji důsledkem toho, že buď rozdíly neexistují, nebo máme málo dat. Statistické metody: Bodový odhad parametru Intervalový odhad parametru Testování hypotéz Nulová a alternativní hypotéza Chyba prvního a druhého druhu Hladina testu α Dosažená hladina testu Síla testu Oboustranná alternativa Jednostranná alternativa Slovníček Poznámky k postupu • Statistik má nejdříve formulovat hypotézu, zvolit rozhodovací pravidlo, určit hladinu testu, podle toho spočítat minimální rozsah výběru, a pak teprve sbírat data. • Biolog nasbírá data, polovinu jich vyřadí a pak se ptá, co z toho lze otestovat  • Přesto máme pokusy, kdy je třeba o rozsahu výběru i o hladině testu uvažovat předem -> plánování experimentů, výpočet potřebného rozsahu výběru tak, aby bylo možné dosáhnout potřebné hladiny testu α. Statistické metody: Bodový odhad parametru Intervalový odhad parametru Testování hypotéz Nulová a alternativní hypotéza Chyba prvního a druhého druhu Hladina testu α Dosažená hladina testu Síla testu Oboustranná alternativa Jednostranná alternativa Slovníček Síla testu (1 – β) [power of the test] = pravděpodobnost, že nulovou hypotézu zamítneme, když ona neplatí = pravděpodobnost, s jakou odhalíme neplatnost hypotézy  ta žlutá prst. • Sílu testu většinou neznáme. Závisí na skutečném rozdělení výběrového souboru. • Víme ale, že síla testu roste s odchylkou od nulové hypotézy a také s počtem pozorování (rozsahem výběru). • Také platí, že čím menší je α, tím větší bude β. Statistické metody: Bodový odhad parametru Intervalový odhad parametru Testování hypotéz Nulová a alternativní hypotéza Chyba prvního a druhého druhu Hladina testu α Dosažená hladina testu Síla testu Oboustranná alternativa Jednostranná alternativa Slovníček Šrafovaná část: pro takové hodnoty ഥ𝑿 zamítám hypotézu, že 𝝁 𝑿 = 𝝁 𝟎 . Typicky je pravděpodobnost této plochy α/2 ~ 2.5 % . Žlutá plocha: pravděpodobnost 1 - β, tedy síla testu. Síla testu (1 – β) : myšlenkový pochod • Mám data, spočítám ഥ𝑿. • Ptám se, zda ഥ𝑿 patří do rozdělení s 𝑬𝑿 = 𝝁 𝟎 nebo spíš do posunutého rozdělení s 𝑬𝑿 = 𝝁 𝟏. • Víme, že pro rozumná n má ഥ𝑿 normální rozdělení, porovnáváme tedy 𝑵(𝝁 𝟎, 𝝈 𝒏 ) nebo 𝑵(𝝁 𝟏, 𝝈 𝒏 ). • Z dat odhadnu 𝑠𝑒 ത𝑋 = 𝑆 𝑛 a můžu vykreslit (odhad) tvaru hustoty pro ഥ𝑿. • Podle hladiny testu α vyznačím příslušné kvantily na vodorovné ose (a mohu vyznačit šrafovanou pravděpodobnost α/2). • Pokud vyjde ഥ𝑿 větší než kvantil 𝒙 𝜶/𝟐, zamítám hypotézu 𝝁 𝑿 = 𝝁 𝟎 ve prospěch alternativy 𝝁 𝑿 = 𝝁 𝟏 (žlutá část vodorovné osy). A pravděpodobnost, že toto nastane, se jmenuje síla testu (žlutá plocha). Statistické metody: Bodový odhad parametru Intervalový odhad parametru Testování hypotéz Nulová a alternativní hypotéza Chyba prvního a druhého druhu Hladina testu α Dosažená hladina testu Síla testu Oboustranná alternativa Jednostranná alternativa Slovníček Síla testu podle vzdálenosti μ0 a μ1 Statistické metody: Bodový odhad parametru Intervalový odhad parametru Testování hypotéz Nulová a alternativní hypotéza Chyba prvního a druhého druhu Hladina testu α Dosažená hladina testu Síla testu Oboustranná alternativa Jednostranná alternativa Slovníček Daleko od sebe ~ velká síla testu Blízko u sebe ~ malá síla testu A celá škála mezi tím  Jak se mění síla testu se vzdáleností od μ0 a s počtem pozorování n Statistické metody: Bodový odhad parametru Intervalový odhad parametru Testování hypotéz Nulová a alternativní hypotéza Chyba prvního a druhého druhu Hladina testu α Dosažená hladina testu Síla testu Oboustranná alternativa Jednostranná alternativa Slovníček Jak spočítám sílu testu v R power.t.test (n = NULL, delta = NULL, sd = 1, sig.level = 0.05, power = NULL, type = c("two.sample", "one.sample", "paired"), alternative = c("two.sided", "one.sided"), …) power.anova power.prop.test • Právě jeden z parametrů n, delta, power, sd nebo sig.level musí být neznámý (= NULL). Tento parametr se pak dopočítává z ostatních, které naopak musí být zadány, specifikovány. • type: musím specifikovat, z kolika výběrů test počítám • alternative: mám oboustranný nebo jednostranný test? Statistické metody: Bodový odhad parametru Intervalový odhad parametru Testování hypotéz Nulová a alternativní hypotéza Chyba prvního a druhého druhu Hladina testu α Dosažená hladina testu Síla testu Oboustranná alternativa Jednostranná alternativa Slovníček Síla testu (1 – β) Různé typy testů mají také různé síly, tím se zabývá teorie. Nás pak zajímají praktické poznámky typu • „test B je silnější než běžně používaný test A“ • „test C je silný, ale je citlivý na porušení předpokladů o normalitě dat“ (tzn. mám pěkná data z normálního rozd. => beru test C) • „test D je spíše slabý, ale je robustní k narušení předpokladů“ (tzn. použiju ho tam, kde data nejsou zrovna příkladně gaussovská). Statistické metody: Bodový odhad parametru Intervalový odhad parametru Testování hypotéz Nulová a alternativní hypotéza Chyba prvního a druhého druhu Hladina testu α Dosažená hladina testu Síla testu Oboustranná alternativa Jednostranná alternativa Slovníček Oboustranná vs. jednostranná alternativa [two-tailed vs. one-tailed alternative] Oboustranná alternativa H0: 𝜇 𝑋 = 𝜇0, H1: 𝝁 𝑿 ≠ 𝝁 𝟎 … tedy μx může být větší. Teorie případu nenapovídá nic o tom, na kterou stranu se rozdělení dat může posunout (přestože nám to napovídají čísla!) Jednostranná alternativa Pokud z povahy případu vyplývá, že pokud se střední hodnota změní, může být jedině menší (větší) než testovaná hodnota μ0, zapracuju tento fakt do H1: H0: 𝜇 𝑋 ≥ 𝜇0, H1: 𝝁 𝑿 < 𝝁 𝟎 nebo H0: 𝜇 𝑋 ≤ 𝜇0, H1: 𝝁 𝑿 > 𝝁 𝟎 Rozhodovací pravidlo: 𝑻 < 𝒕 𝒏−𝟏 𝜶 nebo 𝑻 > 𝒕 𝒏−𝟏 𝟏 − 𝜶 Statistické metody: Bodový odhad parametru Intervalový odhad parametru Testování hypotéz Nulová a alternativní hypotéza Chyba prvního a druhého druhu Hladina testu α Dosažená hladina testu Síla testu Oboustranná alternativa Jednostranná alternativa Slovníček Testování hypotéz - slovníček Chyba 1. druhu – Type I error Chyba 2. druhu – Type II error Síla testu – power of the test Hladina testu – signifikance level Zamítnout hypotézu – to reject hypothesis Oboustranný test – two-tailed test Jednostranný test – one-tailed test, left/right-tailed test Kritický obor – takové výsledky testové statistiky, kdy H0 zamítáme Obor přijetí – takové výsledky testové statistiky, kdy H0 nezamítáme Statistické metody: Bodový odhad parametru Intervalový odhad parametru Testování hypotéz Nulová a alternativní hypotéza Chyba prvního a druhého druhu Hladina testu α Dosažená hladina testu Síla testu Oboustranná alternativa Jednostranná alternativa Slovníček