Testovací schéma: Náhodný výběr odhad parametrů testová statistika (jaké má rozdělení?, (průměr, rozptyl, SD; (známé rozdělení, předpoklady pro testy) rozdělení odhadu, rozhodnutí o H0) konfidenční interval) Délka ryb ve štěrkovnách Odhad hustoty „prstí“ pro průměry Testová stat. a její rozdělení, když H0 platí Jeden výběr: t–test o střední hodnotě výběru Ověření normality Párový t–test Neparametrické testy Testovací schéma Příklad Otázka a předpoklady Testová statistika Konfidenční interval Odvozeni t-statistiky Jednovýběrový t-test Hypotéza o střední hodnotě normálního rozdělení Příklad kosatec: délka kališního lístku (sepal) Otázka: Ze které populace pochází naměřené kosatce? Délka: 6 cm 6.5 cm 5 cm Jeden výběr: t–test o střední hodnotě výběru Ověření normality Párový t–test Neparametrické testy Testovací schéma Příklad Otázka a předpoklady Testová statistika Konfidenční interval Odvozeni t-statistiky Jednovýběrový t-test: hypotéza o střední hodnotě normálního rozdělení Příklad kosatec: Ze které populace pochází naměřené kosatce? Délka: 6 cm 6.5 cm 5 cm Průměr Histogram Normalita? R: t.test(x, y=NULL, alternative=c("two.sided","less", "greater"), mu=0, paired=FALSE, var.equal=FALSE, conf.level=0.95, ...) Jeden výběr: t–test o střední hodnotě výběru Ověření normality Párový t–test Neparametrické testy Testovací schéma Příklad Otázka a předpoklady Testová statistika Konfidenční interval Odvozeni t-statistiky Jednovýběrový t-test Hypotéza o střední hodnotě normálního rozdělení Otázka: pochází výběr z populace se střední hodnotou μ0 (dané číslo)? K dispozici mám výběrový průměr ത𝑋. Je to odhad populačního průměru (střední hodnoty) a s přibližně známou pravděpodobností 𝑁(𝜇 𝑋, 𝜎 𝑋 𝑛 ) se pohybuje kolem skutečné hodnoty populačního parametru. Předpoklady t-testu: • Mám jeden datový soubor 𝑋1, 𝑋2, … , 𝑋 𝑛, • měření jsou vzájemně nezávislá • a pochází ze stejného normálního rozdělení 𝑁(𝜇 𝑋, 𝜎 𝑋 2 ), parametry ale neznám. Poznámka: Soubor už nebývá vnitřně členěn, např. samci – samice, různé lokality apod. Pokud takové členění existuje, musím vědět (nebo otestovat), zda mě rozdíly mezi skupinami zajímají, nebo jsou malé a mohu je pominout. Poznámka 2: Podle CLV mohu využít t-test také pro data z jiného než normálního rozdělení, pokud mám dostatečný rozsah výběru (n > 30), protože potom má rozdělení výběrového průměru přibližně normální rozdělení. Jeden výběr: t–test o střední hodnotě výběru Ověření normality Párový t–test Neparametrické testy Testovací schéma Příklad Otázka a předpoklady Testová statistika Konfidenční interval Odvozeni t-statistiky Jednovýběrový t-test: Hypotéza o střední hodnotě normálního rozdělení Předpoklady testu: výběr 𝑋1, 𝑋2, … , 𝑋 𝑛 ~ 𝑁(𝜇 𝑋, 𝜎 𝑋 2 ), nezávislé hodnoty; parametry neznám; je-li n > 30, může být podle CLV i jiné rozdělení prstí. Hypotézy: H0: μX = μ0 H1: μX ≠ μ0 (oboustranná alternativa) také H0: μX ≥ μ0 H1: μX < μ0 (levostranná alternativa) také H0: μX ≤ μ0 H1: μX > μ0 (pravostranná alternativa) Testová statistika: 𝑻 = ഥ𝑿−𝝁 𝟎 𝑺 𝒙 𝒏 ~ 𝒕 𝒏−𝟏 (za předpokladu platnosti H0) Kritéria: H1: μX ≠ μ0 𝑻 ≥ 𝒕 𝒏−𝟏 𝟏 − 𝜶 𝟐 H1: μX < μ0 𝑻 ≤ 𝒕 𝒏−𝟏 𝜶 H1: μX > μ0 𝑻 ≥ 𝒕 𝒏−𝟏 𝟏 − 𝜶 R: t.test(x, y=NULL, alternative=c("two.sided","less", "greater"), mu=0, paired=FALSE, var.equal=FALSE, conf.level=0.95, ...) Jeden výběr: t–test o střední hodnotě výběru Ověření normality Párový t–test Neparametrické testy Testovací schéma Příklad Otázka a předpoklady Testová statistika Konfidenční interval Odvozeni t-statistiky Drobný rozdíl v grafech Jeden graf popisuje rozložení pravděpodobností hodnot ത𝑋, druhý popisuje totéž pro testovou statistiku T: Jeden výběr: t–test o střední hodnotě výběru Ověření normality Párový t–test Neparametrické testy Teoretická situace, kdy skutečný populační průměr by byl μ0 = 25 let. Testovací schéma Příklad Otázka a předpoklady Testová statistika Konfidenční interval Odvozeni t-statistiky Intervalový odhad parametru – nahrazení neznámého σ2 Většinou neznáme σ2 a nahrazujeme ho odhadem rozptylu 𝑆2 = σ 𝑋 𝑖− ത𝑋 2 𝑛−1 . Potom místo 𝑍 = ത𝑋−𝜇 𝜎 𝑛 ~𝑁(0,1) dostáváme 𝑻 = ഥ𝑿−𝝁 𝑺 𝒏 ~𝒕(𝒏−𝟏) a mění se i konfidenční interval: 𝐏 𝝁 ∈ ഥ𝑿 − 𝒕(𝒏−𝟏) 𝟏 − ൗ𝜶 𝟐 ∙ 𝑺 𝒏 ; ഥ𝑿 + 𝒕(𝒏−𝟏) 𝟏 − ൗ𝜶 𝟐 ∙ 𝑺 𝒏 = 𝟏 − 𝜶 • Rozdělení t má (n – 1) stupňů volnosti! (museli jsme dopočítat průměr) • Interval spolehlivosti spočítaný z t-rozdělení je širší, protože 𝒕(𝒏−𝟏) 𝟏 − Τ𝜶 𝟐 > 𝒛 𝟏 − Τ𝜶 𝟐 . Odpovídá to nejistotě přidané použitím odhadu S2. • Odvození T statistiky dále, jen pro zvědavé: Jeden výběr: t–test o střední hodnotě výběru Ověření normality Párový t–test Neparametrické testy Testovací schéma Příklad Otázka a předpoklady Testová statistika Konfidenční interval Odvozeni t-statistiky Dodatek: odvození T statistiky 𝑻 = 𝒁 𝑾 𝒌 = ?? = ഥ𝑿 − 𝝁 𝑺 𝒏 , kde 𝒁~𝑵 𝟎, 𝟏 a 𝑾 = ෍ 𝒊=𝟏 𝒌 𝒁𝒊 𝟐 , 𝒁𝒊~𝑵(𝟎, 𝟏) ഥ𝑿 − 𝝁 𝝈 𝒏 = 𝒁 , protože ഥ𝑿 ~ 𝑵 𝝁, 𝝈 𝟐 𝒏 𝑺 𝟐 = σ 𝑿𝒊 − ഥ𝑿 𝟐 𝒏 − 𝟏 → 𝒏 − 𝟏 ∙ 𝑺 𝟐 = ෍ 𝑿𝒊 − ഥ𝑿 𝟐 𝒏 − 𝟏 ∙ 𝑺 𝟐 𝝈 𝟐 = σ 𝑿𝒊 − ഥ𝑿 𝟐 𝝈 𝟐 = ෍ 𝒊=𝟏 𝒏 𝑿𝒊 − ഥ𝑿 𝝈 𝟐 = ෍ 𝒊=𝟏 𝒏 𝒁𝒊 𝟐 = 𝑾 𝑻 = ഥ𝑿 − 𝝁 𝝈 𝒏 𝒏 − 𝟏 ∙ 𝑺 𝟐 𝝈 𝟐 𝒏 − 𝟏 𝟏 = ഥ𝑿 − 𝝁 𝒏 𝝈 𝑺 𝟐 ∙ (𝒏 − 𝟏) 𝝈 𝟐 ∙ (𝒏 − 𝟏) = ഥ𝑿 − 𝝁 𝒏 𝝈 𝑺 𝝈 = ഥ𝑿 − 𝝁 𝑺 𝒏 ~𝒕(𝒏−𝟏) … Normování ത𝑋 Přidat σ je snadné, ale musím ji přidat na obě strany rovnice! Normovaná 𝑋𝑖 vypadá takto: 𝑋 𝑖−𝜇 𝜎 Chci tam ത𝑋 místo μ, ale ztrácím tím jeden stupeň volnosti. Jeden výběr: t–test o střední hodnotě výběru Ověření normality Párový t–test Neparametrické testy Testovací schéma Příklad Otázka a předpoklady Testová statistika Konfidenční interval Odvozeni t-statistiky Ověření předpokladu normality 1) histogram: vidím, zda jsou data rozložená souměrně kolem střední hodnoty nebo jsou spíše šikmá (a vyžadují transformaci). 2) Pravděpodobnostní diagram [probability plot , quantile-quantile plot, q-q plot] Jeden výběr: t–test o střední hodnotě výběru Ověření normality Párový t–test Neparametrické testy Kvantil-kvantil diagram Shapiro-Wilkův test Kolmogorov-Smirnovův test další testy Krabicový graf z vek.m Medián = 25 25%-75% = (23, 28) 5%-95% = (20, 34) Odlehlé Extrémy18 20 22 24 26 28 30 32 34 36 38 40 vek.m Kvantily normálního rozdělení N(25.7, 4.1): 95 % = 32.5 90 % = 31.0 75 % = 28.5 50 % = 25.7 25 % = 22.9 10 % = 20.4 5 % = 18.9 Sleduji, jak moc se liší chvosty od teoretické přímky. Pravděpodobnostní diagramy v R: Osa X: kvantily standardizovaného normálního rozdělení 𝑁(0, 1) Osa Y: kvantily datového souboru Jeden výběr: t–test o střední hodnotě výběru Ověření normality Párový t–test Neparametrické testy Otázka a předpoklady Testová statistika Ověření normality výběru Kvantil-kvantil diagram Shapiro-Wilkův test Kolmogorov-Smirnovův test další testy qqnorm(vek.matky) qqline(vek.matky, col=2) obecně: qqplot(x, y) Ověření předpokladu normality - testy 3) Shapiro-Wilkův test • Testuje hypotézu, že výběr pochází z normálního rozdělení, jehož parametry neznáme; neparametrický test. • Testová statistika W vychází ze souřadnic bodů v pravděpodobnostním diagramu (Q-Q plot) a výsledek je velmi blízký druhé mocnině korelačního koeficientu těchto souřadnic. • Silný, oblíbený test. • R: shapiro.test(x) Jeden výběr: t–test o střední hodnotě výběru Ověření normality Párový t–test Neparametrické testy Otázka a předpoklady Testová statistika Ověření normality výběru Kvantil-kvantil diagram Shapiro-Wilkův test Kolmogorov-Smirnovův test další testy Ověření předpokladu normality - testy 4) Kolmogorov-Smirnovův test • testuje hypotézu, že dva testované výběry pocházejí ze stejného spojitého rozdělení.  Předpoklad pro použití testu je, že data pocházejí ze spojitého rozdělení. • Neparametrický test, porovnává maximální rozdíl mezi empirickými distribučními funkcemi. • Neumí „ošetřit“ více stejných pozorování [tied values]. • Nezahrnuje korekci na 2 odhadnuté parametry normálního rozdělení. • Má menší sílu než Shapiro-Wilkův test nebo Anderson-Darlingův test. • R: ks.test(x, y, ..., alternative=c("two.sided","less","greater"), exact=NULL) Srovnání s normálním rozdělením takto: ks.test(x=vyber, y=“pnorm“, mean(vyber), sd(vyber)) Jeden výběr: t–test o střední hodnotě výběru Ověření normality Párový t–test Neparametrické testy Otázka a předpoklady Testová statistika Ověření normality výběru Kvantil-kvantil diagram Shapiro-Wilkův test Kolmogorov-Smirnovův test další testy Ověření předpokladu normality – testy 4) Lilieforsův test • Upravený Kolmogorov-Smirnovův test tak, že druhý výběr je přednastavený na normální rozdělení, jehož parametry neznáme. Zahrnuje tedy korekci pravděpodobnosti kvůli odhadovanému μ a σ2. • Výsledné p-hodnoty jsou tak „slabší“ (méně průkazné, podobný princip jako t-test v porovnání s N(0, 1)). • R: balík nortest, lillie.test(x) 5) Pearsonův χ2 test • Porovnává distribuční funkce dvou výběrů. • Test založený na porovnání očekávaných a pozorovaných četností naměřených hodnot v předem stanovených intervalech. • Podstatu testu vysvětlíme v kapitole o kontingenčních tabulkách • Nedoporučovaný test (např. v komentářích R-balíku nortest) Jeden výběr: t–test o střední hodnotě výběru Ověření normality Párový t–test Neparametrické testy Otázka a předpoklady Testová statistika Ověření normality výběru Kvantil-kvantil diagram Shapiro-Wilkův test Kolmogorov-Smirnovův test další testy Párový t-test: dvě měření jedné veličiny na tomtéž subjektu Příklad: délka pravého a levého chodidla; krevní tlak před léčbou a po nasazení léků; věk matky a věk otce u novorozence; dvojice kontrola – zásah při terénních pokusech, kdy studujeme vliv např. hnojení, kosení. Uspořádání dat: (U1, …, Un) a (V1, …, Vn), přičemž Ui a Vi patří k jednomu subjektu Otázka: jsou populační průměry μU a μV shodné? Příklad: průměrný věk matek = 25.7 let, průměrný věk otců 28.8 let. Platí, že otcové jsou průměrně o 3 roky starší než matky? Jeden výběr: t–test o střední hodnotě výběru Ověření normality Párový t–test Neparametrické testy Otázka a předpoklady Testová statistika Příklad Histogram z více proměnných data_kojeni_vsechno v Ruzne charakteristiky v boxplotech - data kojeni 18v*99c vek.m = 99*1,6667*normal(x; 25,697; 4,1193) vek.o = 99*1,6667*normal(x; 28,8889; 4,9402) vek.m vek.o18 20 21 23 25 26 28 30 31 33 35 36 38 40 41 43 0 2 4 6 8 10 12 14 16 18 20 22 24 Početpozorování Párový t-test: dvě měření na tomtéž subjektu Předpoklady testu: • dvojice jsou mezi sebou nezávislé (!ale čísla uvnitř dvojice bývají naopak závislá, protože jsou měřena na tomtéž subjektu) • Soubor rozdílů 𝑿𝒊 = 𝑼𝒊 − 𝑽𝒊 má normální rozdělení 𝑵(𝝁, 𝝈 𝟐 ), s neznámými parametry 𝝁 a 𝝈. • (předpoklad neříká nic o rozdělení pravděpodobností hodnot Ui ani Vi) Hypotéza: 𝑯 𝟎: 𝝁 𝑼 = 𝝁 𝑽 [také 𝜇 𝑋 = 𝜇 𝑈 − 𝜇 𝑉 = 0], alternativa 𝑯 𝟏: 𝝁 𝑼 ≠ 𝝁 𝑽 Testová statistika: ത𝑋 = ഥ𝑈 − ത𝑉 𝑻 = ഥ𝑿 − 𝟎 𝑺 𝑿 𝒏 ~ 𝒕 𝒏−𝟏, kritérium: 𝑻 ≥ 𝒕 𝒏−𝟏 𝟏 − ൗ𝜶 𝟐 Hypotéza o posunutí c: 𝑯 𝟎: 𝝁 𝑼 = 𝝁 𝑽 + 𝒄 tedy 𝜇 𝑋 = 𝑐 … alternativa 𝑯 𝟏: 𝝁 𝑼 ≠ 𝝁 𝑽 + 𝒄 Testová statistika: 𝑻 = ഥ𝑿−𝒄 𝑺 𝑿 𝒏 ~ 𝒕 𝒏−𝟏 Jeden výběr: t–test o střední hodnotě výběru Ověření normality Párový t–test Neparametrické testy Otázka a předpoklady Testová statistika Příklad Párový t-test: test hypotézy o průměrném rozdílu věku rodičů 𝐻0: 𝜇 𝑂 = 𝜇 𝑀 + 3 tedy 𝜇 𝑋 = 3 … alternativa 𝐻1: 𝜇 𝑂 ≠ 𝜇 𝑀 + 3; 𝛼 = 0,05 ഥX = 3.1 let , σx neznáme  odhad S = 3.092 Testová statistika: 𝑇 = 3.1−3 3.092 99 = 0.325 Kvantil 𝑡 98 1 − 0,025 = 1.98 Rozhodnutí: 0.325 < 1.98, proto nezamítám H0, že otcové jsou v průměru o 3 roky starší než matky. P-hodnota provedeného testu p = 0.746, tj. 74.6 % R: t.test(vek.o, vek.m, mu=3, paired=TRUE) Jeden výběr: t–test o střední hodnotě výběru Ověření normality Párový t–test Neparametrické testy Otázka a předpoklady Testová statistika Příklad Párový t-test: zadání v R > t.test(rodice$vek.o, rodice$vek.m, mu=3, paired=TRUE) Paired t-test data: rodice$vek.o and rodice$vek.m t = 0.5956, df = 98, p-value = 0.5528 alternative hypothesis: true difference in means is not equal to 3 95 percent confidence interval: 2.552473 3.831366 sample estimates: mean of the differences 3.191919 Poznámka: jiné hodnoty než na předchozím slidu. Zřejmě jsem před rokem měla trochu jiná data… Jeden výběr: t–test o střední hodnotě výběru Ověření normality Párový t–test Neparametrické testy Otázka a předpoklady Testová statistika Příklad Párový t-test: test hypotézy o průměrném rozdílu věku rodičů A co předpoklad normality? Provedeme Shapiro-Wilkův test normality datového souboru: R: shapiro.test(vek.o – vek.m) Shapiro-Wilk normality test data: vek.o - vek.m W = 0.88067, p-value = 2.168e-07 Zamítáme hypotézu o tom, že rozdíly věku otce a matky mají normální rozd.  K TESTOVÁNÍ MUSÍM POUŽÍT NEPARAMETRICKÉ TESTY (zvláště při malém n) Jeden výběr: t–test o střední hodnotě výběru Ověření normality Párový t–test Neparametrické testy Otázka a předpoklady Testová statistika Příklad Histogram z vek.rozdil -2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 vek.rozdil 0 2 4 6 8 10 12 14 16 18 20 22 Početpozorování test normality rozdílů věku: Kolmogorov-Smirnov: D = 0,1595, p < 0,05, Lilliefors p < 0,01 Shapiro-Wilk: W = 0,8799, p = 0,0000 Znaménkový test (jeden výběr nebo párové výběry) Myšlenka: • Jsou-li data rozložena souměrně kolem průměru ത𝑋, potom posunutá data 𝑋𝑖 − ത𝑋 jsou rozložena souměrně kolem nuly. • Pro data souměrně rozložená kolem nuly platí, že populační medián je roven nule (hypotéza H0) a výběrový medián je blízký 0. • Jev 𝑋𝑖 − ത𝑋 < 0 by tedy měl nastávat stejně často, jako jev 𝑋𝑖 − ത𝑋 > 0 a to s prstí 𝑝 = 1 2  ~ 𝑨𝒍𝒕 𝒑 . • Dále by počet případů, kdy je 𝑋𝑖 − ത𝑋 > 0, měl mít binomické rozdělení ~ 𝑩𝒊(𝒑, 𝒏). Toto umíme spočítat i testovat. • V praxi vzniká problém rozhodnout, zda 𝑋𝑖 − ത𝑋 = 0 má kladné nebo záporné znaménko. V zájmu spravedlnosti takové případy vynecháme a příslušně upravíme počet pozorování n  m. • R: binom.test(x,n,p) Jeden výběr: t–test o střední hodnotě výběru Ověření normality Párový t–test Neparametrické testy Znaménkový test Párový Wilcoxonův test Test o binomické pravděpodobnosti Znaménkový test Příklad: Platí, že otcové jsou průměrně o 3 roky starší než matky? • 𝑋𝑖 = 𝑂𝑖 − 𝑀𝑖, ത𝑋 = 3.1 • 𝑌𝑖 = 𝑋𝑖 − 3 • 𝐻0: ෨𝑌 = 0 𝑚𝑒𝑑𝑖á𝑛 , 𝐻1: ෨𝑌 ≠ 0. • Počet 𝑌𝑖 = 0 je 14, celkem n = 99, tedy upravený počet 𝑌𝑖 ≠ 0 je m = 85 • Počet 𝑌𝑖 > 0 je Q = 36. • 𝑃 𝑄 ≤ 32 = 0.0147 ∗ 2 = 0.0294 • 𝑃 𝑄 ≤ 33 = 0.0251 ∗ 2 = 0.0502 • 𝑃 𝑄 ≤ 36 = 0.0964 ∗ 2 = 0.1928 • Hypotézu nezamítám. • Kritický počet kladných Yi je 32 či 33. • Tento výpočet pomocí binom.test • Lze také aproximací na N(0, 1) podle CLV 𝑍 = 𝑄 − 𝑚 2 𝑚 4 ~ 𝑁(0,1) Jeden výběr: t–test o střední hodnotě výběru Ověření normality Párový t–test Neparametrické testy Znaménkový test Párový Wilcoxonův test Test o binomické pravděpodobnosti Otec Matka X = O – M Y = X - 3 30 26 4 1 38 35 3 0 28 26 2 -1 26 24 2 -1 28 22 6 3 29 24 5 2 30 29 1 -2 Párový Wilcoxonův test • Zdokonalený znaménkový test, do jisté míry zapracuje i informaci o vzdálenosti rozdílu hodnot od nuly. Pracuje totiž s pořadím. Takto: • 𝑿𝒊 = 𝑼𝒊 − 𝑽𝒊 jsou rozdíly hodnot v párovém měření. • Testujeme rozložení hodnot kolem nuly, proto musíme odečíst i případné posunutí c: 𝑿𝒊 = 𝑼𝒊 − 𝑽𝒊 − 𝒄 • Dostávám např. tato čísla: -10, -5, -3, -3, -2, -1, 0, 0, 1, 1, 3, 4, 4, 5 • Nulové hodnoty vynechám stejně jako u znaménkového testu. • Seřadím absolutní hodnoty rozdílů: 1, 1, 1, 2, 3, 3, 3, 4, 4, 5, 5, 10 • Nyní přiřadím pořadí Ri +: 2, 2, 2, 4, 6, 6, 6, 8.5, 8.5, 10.5, 10.5, 12. 𝑾 = ෍ 𝒊: 𝑼𝒊−𝑽𝒊>𝟎 𝑹𝒊 + • Myšlenka: jsou-li hodnoty rozloženy souměrně kolem nuly, potom je hodnota W blízká polovině součtu všech pořadí, tj. n(n+1)/4. • Pomůcka: součet všech pořadí 1+2+…+n = n(n+1)/2 • Testová statistika: Součet černých pořadí, tedy ty rozdíly, co byly původně kladné Jeden výběr: t–test o střední hodnotě výběru Ověření normality Párový t–test Neparametrické testy Znaménkový test Párový Wilcoxonův test Test o binomické pravděpodobnosti Párový Wilcoxonův test • Testová statistika 𝑾 = σ𝒊: 𝑿 𝒊>𝟎 𝑹𝒊 + má svoje rozdělení buď v tabulkách nebo je implementována v softwaru: • R: wilcox.test(x, y=NULL, alternative=c("two.sided","less", "greater"), mu=0, paired=FALSE, exact=NULL, correct=TRUE, conf.int=FALSE, conf.level=0.95, ...) • Lze počítat také přibližně jako 𝑍 = 𝑊−𝑛(𝑛+1)/4 𝑛(𝑛+1)(2𝑛+1)/24 ~ 𝑁(0,1) • Wilcoxonův test pracuje s daty jemněji než Z, protože přihlíží k počtu shod při výpočtu pořadí a dělá opravu na spojitost o jednu polovinu (Yatesova korekce na spojitost) • Yatesova korekce: pořadí se chová jako diskrétní veličina, tudíž pravděpodobnosti se mění skokově. Yatesova korekce spolehlivěji dodržuje zvolenou hladinu významnosti α tak, že čitatel (Y – np) přiblíží o ½ k nule. Je-li čitatel kladný, pak se ½ odečte, je-li záporný, pak se ½ přičte. Znaménkový test Párový Wilcoxonův test Test o binomické pravděpodobnosti Jeden výběr: t–test o střední hodnotě výběru Ověření normality Párový t–test Neparametrické testy Test o binomické pravděpodobnosti • Pomocí binomického rozdělení můžeme testovat jakoukoli hypotézu o pravděpodobnosti úspěchu v pokusu typu Alt(p), máme-li celkový počet úspěchů Y ~Bi(n,p) • Ve znaménkovém testu jsme hypotézu formulovali přes medián = 0, ale to také znamenalo, že předpokládáme p = 0.5 • Při rozhodování o pravděpodobnosti p máme 3 možnosti: 1) použít přesnějšího binomického testu R: binom.test(x, n, p=0.5, alternative=c("two.sided", "less","greater"), conf.level=0.95) 2) Aproximovat normálním rozdělením – klikni dále: Jeden výběr: t–test o střední hodnotě výběru Ověření normality Párový t–test Neparametrické testy Znaménkový test Párový Wilcoxonův test Test o binomické pravděpodobnosti Yatesova korekce na spojitost Konfidenční interval Test o binomické pravděpodobnosti 2) Aproximovat normálním rozdělením  máme dost velké n (viz tabulku dříve) a „rozumné“ p, potom podle CLV má součet úspěchů 𝑌 ~ 𝑁(𝑛𝑝, 𝑛𝑝 1 − 𝑝 ). Za platnosti hypotézy H0: 𝑝 = 𝑝0 má pak standardizovaný tvar 𝒁 = 𝒀−𝒏𝒑 𝟎 𝒏𝒑 𝟎(𝟏−𝒑 𝟎) ~ 𝑁(0, 1) Při velkých n není třeba použít korekci na spojitost (níže), protože skutečná prst. chyby 1. druhu je i tak výrazně menší než zvolená α. 3) Pro menší n (malé desítky) se doporučuje přidat úpravu „na spojitost“ zvanou Yatesova korekce, která spolehlivěji dodržuje zvolenou hladinu významnosti α. • R: prop.test(x, n, p=NULL, alternative=c("two.sided", "less", "greater"), conf.level=0.95, correct=TRUE) Funkce používá 𝑍2~𝜒1 2, mocninu Z, která má chí-kvadrát rozdělení s df = 1. Znaménkový test Párový Wilcoxonův test Test o binomické pravděpodobnosti Yatesova korekce na spojitost Konfidenční interval Jeden výběr: t–test o střední hodnotě výběru Ověření normality Párový t–test Neparametrické testy Konfidenční interval pro p binomického rozdělení • Nabízí se odhadnout skutečnou prst. p pomocí relativní četnosti ෝ𝒑 = 𝒀 𝒏 a konfidenční interval dopočítat (s využitím CLV) z asymptotické aproximace 𝒀 𝒏 ~ 𝑵 𝒑, 𝒑(𝟏−𝒑) 𝒏 , kde p neznám a nahrazuji ji p̂. Konfidenční interval má potom tvar: 𝑝 ∈ Ƹ𝑝 − Ƹ𝑝 1 − Ƹ𝑝 𝑛 𝑧 1 − 𝛼 2 ; Ƹ𝑝 + Ƹ𝑝(1 − Ƹ𝑝) 𝑛 𝑧 1 − 𝛼 2 Tento interval má ale špatné vlastnosti, zejména nezaručuje požadovanou spolehlivost.  Vhodnější je konf. interval z R-kové fce prop.test, který se jmenuje Wilsonův konfidenční interval nebo také skórový konfidenční interval. Tento interval lépe zachovává požadovanou spolehlivost α, zejména je vhodnější při relativních četnostech blízkých nule nebo jedničce. Zahrnuje Yatesovu korekci na spojitost, navíc vylepšenou pro případy p „blízké nule či jedničce“. Zvára, str. 139. Znaménkový test Párový Wilcoxonův test Test o binomické pravděpodobnosti Yatesova korekce na spojitost Konfidenční interval Jeden výběr: t–test o střední hodnotě výběru Ověření normality Párový t–test Neparametrické testy