Testovací schéma:
Náhodný výběr odhad parametrů testová statistika
(jaké má rozdělení?, (průměr, rozptyl, SD; (známé rozdělení,
předpoklady pro testy) rozdělení odhadu, rozhodnutí o H0)
konfidenční interval)
Délka ryb ve štěrkovnách Odhad hustoty „prstí“ pro průměry Testová stat. a její rozdělení,
když H0 platí
Jeden výběr: t–test o střední hodnotě výběru
Ověření normality
Párový t–test
Neparametrické testy
Testovací schéma
Příklad
Otázka a předpoklady
Testová statistika
Konfidenční interval
Odvozeni t-statistiky
Jednovýběrový t-test
Hypotéza o střední hodnotě normálního rozdělení
Příklad kosatec: délka kališního lístku (sepal)
Otázka: Ze které populace pochází naměřené kosatce?
Délka: 6 cm 6.5 cm 5 cm
Jeden výběr: t–test o střední hodnotě výběru
Ověření normality
Párový t–test
Neparametrické testy
Testovací schéma
Příklad
Otázka a předpoklady
Testová statistika
Konfidenční interval
Odvozeni t-statistiky
Jednovýběrový t-test: hypotéza o střední hodnotě normálního rozdělení
Příklad kosatec: Ze které populace pochází naměřené kosatce?
Délka: 6 cm 6.5 cm 5 cm
Průměr
Histogram
Normalita?
R: t.test(x, y=NULL, alternative=c("two.sided","less", "greater"),
mu=0, paired=FALSE, var.equal=FALSE, conf.level=0.95, ...)
Jeden výběr: t–test o střední hodnotě výběru
Ověření normality
Párový t–test
Neparametrické testy
Testovací schéma
Příklad
Otázka a předpoklady
Testová statistika
Konfidenční interval
Odvozeni t-statistiky
Jednovýběrový t-test
Hypotéza o střední hodnotě normálního rozdělení
Otázka: pochází výběr z populace se střední hodnotou μ0 (dané číslo)?
K dispozici mám výběrový průměr ത𝑋. Je to odhad populačního průměru
(střední hodnoty) a s přibližně známou pravděpodobností 𝑁(𝜇 𝑋,
𝜎 𝑋
𝑛
) se
pohybuje kolem skutečné hodnoty populačního parametru.
Předpoklady t-testu:
• Mám jeden datový soubor 𝑋1, 𝑋2, … , 𝑋 𝑛,
• měření jsou vzájemně nezávislá
• a pochází ze stejného normálního rozdělení 𝑁(𝜇 𝑋, 𝜎 𝑋
2
), parametry ale
neznám.
Poznámka: Soubor už nebývá vnitřně členěn, např. samci – samice, různé lokality
apod. Pokud takové členění existuje, musím vědět (nebo otestovat), zda mě rozdíly
mezi skupinami zajímají, nebo jsou malé a mohu je pominout.
Poznámka 2: Podle CLV mohu využít t-test také pro data z jiného než normálního
rozdělení, pokud mám dostatečný rozsah výběru (n > 30), protože potom má
rozdělení výběrového průměru přibližně normální rozdělení.
Jeden výběr: t–test o střední hodnotě výběru
Ověření normality
Párový t–test
Neparametrické testy
Testovací schéma
Příklad
Otázka a předpoklady
Testová statistika
Konfidenční interval
Odvozeni t-statistiky
Jednovýběrový t-test: Hypotéza o střední hodnotě normálního rozdělení
Předpoklady testu: výběr 𝑋1, 𝑋2, … , 𝑋 𝑛 ~ 𝑁(𝜇 𝑋, 𝜎 𝑋
2
), nezávislé hodnoty;
parametry neznám; je-li n > 30, může být podle CLV i jiné rozdělení prstí.
Hypotézy: H0: μX = μ0 H1: μX ≠ μ0 (oboustranná alternativa)
také H0: μX ≥ μ0 H1: μX < μ0 (levostranná alternativa)
také H0: μX ≤ μ0 H1: μX > μ0 (pravostranná alternativa)
Testová statistika: 𝑻 =
ഥ𝑿−𝝁 𝟎
𝑺 𝒙
𝒏 ~ 𝒕 𝒏−𝟏 (za předpokladu platnosti H0)
Kritéria: H1: μX ≠ μ0 𝑻 ≥ 𝒕 𝒏−𝟏 𝟏 −
𝜶
𝟐
H1: μX < μ0 𝑻 ≤ 𝒕 𝒏−𝟏 𝜶
H1: μX > μ0 𝑻 ≥ 𝒕 𝒏−𝟏 𝟏 − 𝜶
R: t.test(x, y=NULL, alternative=c("two.sided","less", "greater"),
mu=0, paired=FALSE, var.equal=FALSE, conf.level=0.95, ...)
Jeden výběr: t–test o střední hodnotě výběru
Ověření normality
Párový t–test
Neparametrické testy
Testovací schéma
Příklad
Otázka a předpoklady
Testová statistika
Konfidenční interval
Odvozeni t-statistiky
Drobný rozdíl v grafech
Jeden graf popisuje rozložení pravděpodobností hodnot ത𝑋, druhý popisuje
totéž pro testovou statistiku T:
Jeden výběr: t–test o střední hodnotě výběru
Ověření normality
Párový t–test
Neparametrické testy
Teoretická situace, kdy skutečný
populační průměr by byl μ0 = 25 let.
Testovací schéma
Příklad
Otázka a předpoklady
Testová statistika
Konfidenční interval
Odvozeni t-statistiky
Intervalový odhad parametru – nahrazení neznámého σ2
Většinou neznáme σ2 a nahrazujeme ho odhadem rozptylu 𝑆2 =
σ 𝑋 𝑖− ത𝑋 2
𝑛−1
.
Potom místo 𝑍 =
ത𝑋−𝜇
𝜎
𝑛
~𝑁(0,1) dostáváme 𝑻 =
ഥ𝑿−𝝁
𝑺
𝒏
~𝒕(𝒏−𝟏)
a mění se i konfidenční interval:
𝐏 𝝁 ∈ ഥ𝑿 − 𝒕(𝒏−𝟏) 𝟏 − ൗ𝜶
𝟐 ∙
𝑺
𝒏
; ഥ𝑿 + 𝒕(𝒏−𝟏) 𝟏 − ൗ𝜶
𝟐 ∙
𝑺
𝒏
= 𝟏 − 𝜶
• Rozdělení t má (n – 1) stupňů volnosti! (museli jsme dopočítat průměr)
• Interval spolehlivosti spočítaný z t-rozdělení je širší, protože
𝒕(𝒏−𝟏) 𝟏 − Τ𝜶
𝟐 > 𝒛 𝟏 − Τ𝜶
𝟐 . Odpovídá to nejistotě přidané
použitím odhadu S2.
• Odvození T statistiky dále, jen pro zvědavé:
Jeden výběr: t–test o střední hodnotě výběru
Ověření normality
Párový t–test
Neparametrické testy
Testovací schéma
Příklad
Otázka a předpoklady
Testová statistika
Konfidenční interval
Odvozeni t-statistiky
Dodatek: odvození T statistiky
𝑻 =
𝒁
𝑾
𝒌
=
??
=
ഥ𝑿 − 𝝁
𝑺
𝒏
, kde 𝒁~𝑵 𝟎, 𝟏 a 𝑾 = ෍
𝒊=𝟏
𝒌
𝒁𝒊
𝟐
, 𝒁𝒊~𝑵(𝟎, 𝟏)
ഥ𝑿 − 𝝁
𝝈
𝒏
= 𝒁 , protože ഥ𝑿 ~ 𝑵 𝝁,
𝝈 𝟐
𝒏
𝑺 𝟐
=
σ 𝑿𝒊 − ഥ𝑿 𝟐
𝒏 − 𝟏
→ 𝒏 − 𝟏 ∙ 𝑺 𝟐
= ෍ 𝑿𝒊 − ഥ𝑿 𝟐
𝒏 − 𝟏 ∙ 𝑺 𝟐
𝝈 𝟐
=
σ 𝑿𝒊 − ഥ𝑿 𝟐
𝝈 𝟐
= ෍
𝒊=𝟏
𝒏
𝑿𝒊 − ഥ𝑿
𝝈
𝟐
= ෍
𝒊=𝟏
𝒏
𝒁𝒊
𝟐
= 𝑾
𝑻 =
ഥ𝑿 − 𝝁
𝝈
𝒏
𝒏 − 𝟏 ∙ 𝑺 𝟐
𝝈 𝟐
𝒏 − 𝟏
𝟏
=
ഥ𝑿 − 𝝁
𝒏
𝝈
𝑺 𝟐 ∙ (𝒏 − 𝟏)
𝝈 𝟐 ∙ (𝒏 − 𝟏)
=
ഥ𝑿 − 𝝁
𝒏
𝝈
𝑺
𝝈
=
ഥ𝑿 − 𝝁
𝑺
𝒏
~𝒕(𝒏−𝟏)
… Normování ത𝑋
Přidat σ je snadné, ale musím ji
přidat na obě strany rovnice!
Normovaná 𝑋𝑖 vypadá takto:
𝑋 𝑖−𝜇
𝜎
Chci tam ത𝑋 místo μ, ale ztrácím tím
jeden stupeň volnosti.
Jeden výběr: t–test o střední hodnotě výběru
Ověření normality
Párový t–test
Neparametrické testy
Testovací schéma
Příklad
Otázka a předpoklady
Testová statistika
Konfidenční interval
Odvozeni t-statistiky
Ověření předpokladu normality
1) histogram: vidím, zda jsou data rozložená souměrně
kolem střední hodnoty nebo jsou spíše šikmá
(a vyžadují transformaci).
2) Pravděpodobnostní diagram
[probability plot , quantile-quantile plot, q-q plot]
Jeden výběr: t–test o střední hodnotě výběru
Ověření normality
Párový t–test
Neparametrické testy
Kvantil-kvantil diagram
Shapiro-Wilkův test
Kolmogorov-Smirnovův test
další testy
Krabicový graf z vek.m
Medián = 25
25%-75%
= (23, 28)
5%-95%
= (20, 34)
Odlehlé
Extrémy18
20
22
24
26
28
30
32
34
36
38
40
vek.m
Kvantily normálního
rozdělení N(25.7, 4.1):
95 % = 32.5
90 % = 31.0
75 % = 28.5
50 % = 25.7
25 % = 22.9
10 % = 20.4
5 % = 18.9
Sleduji, jak moc se liší chvosty od teoretické přímky.
Pravděpodobnostní diagramy v R:
Osa X: kvantily standardizovaného normálního rozdělení 𝑁(0, 1)
Osa Y: kvantily datového souboru
Jeden výběr: t–test o střední hodnotě výběru
Ověření normality
Párový t–test
Neparametrické testy
Otázka a předpoklady
Testová statistika
Ověření normality výběru
Kvantil-kvantil diagram
Shapiro-Wilkův test
Kolmogorov-Smirnovův test
další testy
qqnorm(vek.matky)
qqline(vek.matky, col=2)
obecně: qqplot(x, y)
Ověření předpokladu normality - testy
3) Shapiro-Wilkův test
• Testuje hypotézu, že výběr pochází z normálního rozdělení, jehož
parametry neznáme; neparametrický test.
• Testová statistika W vychází ze souřadnic bodů v pravděpodobnostním
diagramu (Q-Q plot) a výsledek je velmi blízký druhé mocnině korelačního
koeficientu těchto souřadnic.
• Silný, oblíbený test.
• R: shapiro.test(x)
Jeden výběr: t–test o střední hodnotě výběru
Ověření normality
Párový t–test
Neparametrické testy
Otázka a předpoklady
Testová statistika
Ověření normality výběru
Kvantil-kvantil diagram
Shapiro-Wilkův test
Kolmogorov-Smirnovův test
další testy
Ověření předpokladu normality - testy
4) Kolmogorov-Smirnovův test
• testuje hypotézu, že dva testované výběry pocházejí ze stejného spojitého
rozdělení.
 Předpoklad pro použití testu je, že data pocházejí ze spojitého rozdělení.
• Neparametrický test, porovnává maximální rozdíl mezi empirickými
distribučními funkcemi.
• Neumí „ošetřit“ více stejných pozorování [tied values].
• Nezahrnuje korekci na 2 odhadnuté parametry normálního rozdělení.
• Má menší sílu než Shapiro-Wilkův test nebo Anderson-Darlingův test.
• R: ks.test(x, y, ...,
alternative=c("two.sided","less","greater"), exact=NULL)
Srovnání s normálním rozdělením takto:
ks.test(x=vyber, y=“pnorm“, mean(vyber), sd(vyber))
Jeden výběr: t–test o střední hodnotě výběru
Ověření normality
Párový t–test
Neparametrické testy
Otázka a předpoklady
Testová statistika
Ověření normality výběru
Kvantil-kvantil diagram
Shapiro-Wilkův test
Kolmogorov-Smirnovův test
další testy
Ověření předpokladu normality – testy
4) Lilieforsův test
• Upravený Kolmogorov-Smirnovův test tak, že druhý výběr je
přednastavený na normální rozdělení, jehož parametry neznáme.
Zahrnuje tedy korekci pravděpodobnosti kvůli odhadovanému μ a σ2.
• Výsledné p-hodnoty jsou tak „slabší“ (méně průkazné, podobný princip
jako t-test v porovnání s N(0, 1)).
• R: balík nortest, lillie.test(x)
5) Pearsonův χ2 test
• Porovnává distribuční funkce dvou výběrů.
• Test založený na porovnání očekávaných a pozorovaných četností
naměřených hodnot v předem stanovených intervalech.
• Podstatu testu vysvětlíme v kapitole o kontingenčních tabulkách
• Nedoporučovaný test (např. v komentářích R-balíku nortest)
Jeden výběr: t–test o střední hodnotě výběru
Ověření normality
Párový t–test
Neparametrické testy
Otázka a předpoklady
Testová statistika
Ověření normality výběru
Kvantil-kvantil diagram
Shapiro-Wilkův test
Kolmogorov-Smirnovův test
další testy
Párový t-test: dvě měření jedné veličiny na tomtéž subjektu
Příklad: délka pravého a levého chodidla; krevní tlak před léčbou a po
nasazení léků; věk matky a věk otce u novorozence; dvojice kontrola – zásah
při terénních pokusech, kdy studujeme vliv např. hnojení, kosení.
Uspořádání dat: (U1, …, Un) a (V1, …, Vn), přičemž Ui a Vi patří k jednomu subjektu
Otázka: jsou populační průměry μU a μV shodné?
Příklad: průměrný věk matek = 25.7 let, průměrný věk otců 28.8 let.
Platí, že otcové jsou průměrně o 3 roky starší než matky?
Jeden výběr: t–test o střední hodnotě výběru
Ověření normality
Párový t–test
Neparametrické testy
Otázka a předpoklady
Testová statistika
Příklad
Histogram z více proměnných
data_kojeni_vsechno
v Ruzne charakteristiky v boxplotech - data kojeni 18v*99c
vek.m = 99*1,6667*normal(x; 25,697; 4,1193)
vek.o = 99*1,6667*normal(x; 28,8889; 4,9402)
vek.m
vek.o18 20 21 23 25 26 28 30 31 33 35 36 38 40 41 43
0
2
4
6
8
10
12
14
16
18
20
22
24
Početpozorování
Párový t-test: dvě měření na tomtéž subjektu
Předpoklady testu:
• dvojice jsou mezi sebou nezávislé (!ale čísla uvnitř dvojice bývají naopak
závislá, protože jsou měřena na tomtéž subjektu)
• Soubor rozdílů 𝑿𝒊 = 𝑼𝒊 − 𝑽𝒊 má normální rozdělení 𝑵(𝝁, 𝝈 𝟐
),
s neznámými parametry 𝝁 a 𝝈.
• (předpoklad neříká nic o rozdělení pravděpodobností hodnot Ui ani Vi)
Hypotéza: 𝑯 𝟎: 𝝁 𝑼 = 𝝁 𝑽 [také 𝜇 𝑋 = 𝜇 𝑈 − 𝜇 𝑉 = 0], alternativa 𝑯 𝟏: 𝝁 𝑼 ≠ 𝝁 𝑽
Testová statistika: ത𝑋 = ഥ𝑈 − ത𝑉
𝑻 =
ഥ𝑿 − 𝟎
𝑺 𝑿
𝒏 ~ 𝒕 𝒏−𝟏, kritérium: 𝑻 ≥ 𝒕 𝒏−𝟏 𝟏 − ൗ𝜶
𝟐
Hypotéza o posunutí c:
𝑯 𝟎: 𝝁 𝑼 = 𝝁 𝑽 + 𝒄 tedy 𝜇 𝑋 = 𝑐 … alternativa 𝑯 𝟏: 𝝁 𝑼 ≠ 𝝁 𝑽 + 𝒄
Testová statistika: 𝑻 =
ഥ𝑿−𝒄
𝑺 𝑿
𝒏 ~ 𝒕 𝒏−𝟏
Jeden výběr: t–test o střední hodnotě výběru
Ověření normality
Párový t–test
Neparametrické testy
Otázka a předpoklady
Testová statistika
Příklad
Párový t-test: test hypotézy o průměrném rozdílu věku rodičů
𝐻0: 𝜇 𝑂 = 𝜇 𝑀 + 3 tedy 𝜇 𝑋 = 3 … alternativa 𝐻1: 𝜇 𝑂 ≠ 𝜇 𝑀 + 3; 𝛼 = 0,05
ഥX = 3.1 let , σx neznáme  odhad S = 3.092
Testová statistika: 𝑇 =
3.1−3
3.092
99 = 0.325
Kvantil 𝑡 98 1 − 0,025 = 1.98
Rozhodnutí: 0.325 < 1.98, proto nezamítám H0, že otcové jsou v průměru
o 3 roky starší než matky.
P-hodnota provedeného testu p = 0.746, tj. 74.6 %
R: t.test(vek.o, vek.m, mu=3, paired=TRUE)
Jeden výběr: t–test o střední hodnotě výběru
Ověření normality
Párový t–test
Neparametrické testy
Otázka a předpoklady
Testová statistika
Příklad
Párový t-test: zadání v R
> t.test(rodice$vek.o, rodice$vek.m, mu=3, paired=TRUE)
Paired t-test
data: rodice$vek.o and rodice$vek.m
t = 0.5956, df = 98, p-value = 0.5528
alternative hypothesis: true difference in means is not equal to 3
95 percent confidence interval:
2.552473 3.831366
sample estimates:
mean of the differences
3.191919
Poznámka: jiné hodnoty než na předchozím slidu. Zřejmě jsem před
rokem měla trochu jiná data…
Jeden výběr: t–test o střední hodnotě výběru
Ověření normality
Párový t–test
Neparametrické testy
Otázka a předpoklady
Testová statistika
Příklad
Párový t-test: test hypotézy o průměrném rozdílu věku rodičů
A co předpoklad normality?
Provedeme Shapiro-Wilkův test
normality datového souboru:
R: shapiro.test(vek.o – vek.m)
Shapiro-Wilk normality test
data: vek.o - vek.m
W = 0.88067, p-value = 2.168e-07
Zamítáme hypotézu o tom, že rozdíly věku otce a matky mají normální rozd.
 K TESTOVÁNÍ MUSÍM POUŽÍT NEPARAMETRICKÉ TESTY (zvláště při malém n)
Jeden výběr: t–test o střední hodnotě výběru
Ověření normality
Párový t–test
Neparametrické testy
Otázka a předpoklady
Testová statistika
Příklad
Histogram z vek.rozdil
-2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
vek.rozdil
0
2
4
6
8
10
12
14
16
18
20
22
Početpozorování
test normality rozdílů věku:
Kolmogorov-Smirnov: D = 0,1595, p < 0,05, Lilliefors p < 0,01
Shapiro-Wilk: W = 0,8799, p = 0,0000
Znaménkový test (jeden výběr nebo párové výběry)
Myšlenka:
• Jsou-li data rozložena souměrně kolem průměru ത𝑋, potom posunutá data
𝑋𝑖 − ത𝑋 jsou rozložena souměrně kolem nuly.
• Pro data souměrně rozložená kolem nuly platí, že populační medián je
roven nule (hypotéza H0) a výběrový medián je blízký 0.
• Jev 𝑋𝑖 − ത𝑋 < 0 by tedy měl nastávat stejně často, jako jev 𝑋𝑖 − ത𝑋 > 0
a to s prstí 𝑝 =
1
2
 ~ 𝑨𝒍𝒕 𝒑 .
• Dále by počet případů, kdy je 𝑋𝑖 − ത𝑋 > 0, měl mít binomické rozdělení
~ 𝑩𝒊(𝒑, 𝒏). Toto umíme spočítat i testovat.
• V praxi vzniká problém rozhodnout, zda 𝑋𝑖 − ത𝑋 = 0 má kladné nebo
záporné znaménko. V zájmu spravedlnosti takové případy vynecháme a
příslušně upravíme počet pozorování n  m.
• R: binom.test(x,n,p)
Jeden výběr: t–test o střední hodnotě výběru
Ověření normality
Párový t–test
Neparametrické testy
Znaménkový test
Párový Wilcoxonův test
Test o binomické pravděpodobnosti
Znaménkový test
Příklad: Platí, že otcové jsou průměrně o 3 roky starší než matky?
• 𝑋𝑖 = 𝑂𝑖 − 𝑀𝑖, ത𝑋 = 3.1
• 𝑌𝑖 = 𝑋𝑖 − 3
• 𝐻0: ෨𝑌 = 0 𝑚𝑒𝑑𝑖á𝑛 , 𝐻1: ෨𝑌 ≠ 0.
• Počet 𝑌𝑖 = 0 je 14, celkem n = 99,
tedy upravený počet 𝑌𝑖 ≠ 0 je m = 85
• Počet 𝑌𝑖 > 0 je Q = 36.
• 𝑃 𝑄 ≤ 32 = 0.0147 ∗ 2 = 0.0294
• 𝑃 𝑄 ≤ 33 = 0.0251 ∗ 2 = 0.0502
• 𝑃 𝑄 ≤ 36 = 0.0964 ∗ 2 = 0.1928
• Hypotézu nezamítám.
• Kritický počet kladných Yi je 32 či 33.
• Tento výpočet pomocí binom.test
• Lze také aproximací na N(0, 1) podle CLV
𝑍 =
𝑄 −
𝑚
2
𝑚
4
~ 𝑁(0,1)
Jeden výběr: t–test o střední hodnotě výběru
Ověření normality
Párový t–test
Neparametrické testy
Znaménkový test
Párový Wilcoxonův test
Test o binomické pravděpodobnosti
Otec Matka X = O – M Y = X - 3
30 26 4 1
38 35 3 0
28 26 2 -1
26 24 2 -1
28 22 6 3
29 24 5 2
30 29 1 -2
Párový Wilcoxonův test
• Zdokonalený znaménkový test, do jisté míry zapracuje i informaci
o vzdálenosti rozdílu hodnot od nuly. Pracuje totiž s pořadím. Takto:
• 𝑿𝒊 = 𝑼𝒊 − 𝑽𝒊 jsou rozdíly hodnot v párovém měření.
• Testujeme rozložení hodnot kolem nuly, proto musíme odečíst i případné
posunutí c: 𝑿𝒊 = 𝑼𝒊 − 𝑽𝒊 − 𝒄
• Dostávám např. tato čísla: -10, -5, -3, -3, -2, -1, 0, 0, 1, 1, 3, 4, 4, 5
• Nulové hodnoty vynechám stejně jako u znaménkového testu.
• Seřadím absolutní hodnoty rozdílů: 1, 1, 1, 2, 3, 3, 3, 4, 4, 5, 5, 10
• Nyní přiřadím pořadí Ri
+: 2, 2, 2, 4, 6, 6, 6, 8.5, 8.5, 10.5, 10.5, 12.
𝑾 = ෍
𝒊: 𝑼𝒊−𝑽𝒊>𝟎
𝑹𝒊
+
• Myšlenka: jsou-li hodnoty rozloženy souměrně kolem nuly, potom je
hodnota W blízká polovině součtu všech pořadí, tj. n(n+1)/4.
• Pomůcka: součet všech pořadí 1+2+…+n = n(n+1)/2
• Testová statistika: Součet černých pořadí, tedy ty
rozdíly, co byly původně kladné
Jeden výběr: t–test o střední hodnotě výběru
Ověření normality
Párový t–test
Neparametrické testy
Znaménkový test
Párový Wilcoxonův test
Test o binomické pravděpodobnosti
Párový Wilcoxonův test
• Testová statistika 𝑾 = σ𝒊: 𝑿 𝒊>𝟎 𝑹𝒊
+
má svoje rozdělení buď v tabulkách
nebo je implementována v softwaru:
• R: wilcox.test(x, y=NULL, alternative=c("two.sided","less",
"greater"), mu=0, paired=FALSE, exact=NULL, correct=TRUE,
conf.int=FALSE, conf.level=0.95, ...)
• Lze počítat také přibližně jako 𝑍 =
𝑊−𝑛(𝑛+1)/4
𝑛(𝑛+1)(2𝑛+1)/24
~ 𝑁(0,1)
• Wilcoxonův test pracuje s daty jemněji než Z, protože přihlíží k počtu shod
při výpočtu pořadí a dělá opravu na spojitost o jednu polovinu (Yatesova
korekce na spojitost)
• Yatesova korekce: pořadí se chová jako diskrétní veličina, tudíž
pravděpodobnosti se mění skokově. Yatesova korekce spolehlivěji
dodržuje zvolenou hladinu významnosti α tak, že čitatel (Y – np) přiblíží
o ½ k nule. Je-li čitatel kladný, pak se ½ odečte, je-li záporný, pak se ½
přičte.
Znaménkový test
Párový Wilcoxonův test
Test o binomické pravděpodobnosti
Jeden výběr: t–test o střední hodnotě výběru
Ověření normality
Párový t–test
Neparametrické testy
Test o binomické pravděpodobnosti
• Pomocí binomického rozdělení můžeme testovat jakoukoli hypotézu
o pravděpodobnosti úspěchu v pokusu typu Alt(p), máme-li celkový počet
úspěchů Y ~Bi(n,p)
• Ve znaménkovém testu jsme hypotézu formulovali přes medián = 0, ale to
také znamenalo, že předpokládáme p = 0.5
• Při rozhodování o pravděpodobnosti p máme 3 možnosti:
1) použít přesnějšího binomického testu
R: binom.test(x, n, p=0.5, alternative=c("two.sided",
"less","greater"), conf.level=0.95)
2) Aproximovat normálním rozdělením – klikni dále:
Jeden výběr: t–test o střední hodnotě výběru
Ověření normality
Párový t–test
Neparametrické testy
Znaménkový test
Párový Wilcoxonův test
Test o binomické pravděpodobnosti Yatesova korekce na spojitost
Konfidenční interval
Test o binomické pravděpodobnosti
2) Aproximovat normálním rozdělením
 máme dost velké n (viz tabulku dříve) a „rozumné“ p, potom podle CLV
má součet úspěchů 𝑌 ~ 𝑁(𝑛𝑝, 𝑛𝑝 1 − 𝑝 ). Za platnosti hypotézy
H0: 𝑝 = 𝑝0 má pak standardizovaný tvar 𝒁 =
𝒀−𝒏𝒑 𝟎
𝒏𝒑 𝟎(𝟏−𝒑 𝟎)
~ 𝑁(0, 1)
Při velkých n není třeba použít korekci na spojitost (níže), protože
skutečná prst. chyby 1. druhu je i tak výrazně menší než zvolená α.
3) Pro menší n (malé desítky) se doporučuje přidat úpravu „na spojitost“
zvanou Yatesova korekce, která spolehlivěji dodržuje zvolenou hladinu
významnosti α.
• R: prop.test(x, n, p=NULL, alternative=c("two.sided", "less",
"greater"), conf.level=0.95, correct=TRUE)
Funkce používá 𝑍2~𝜒1
2, mocninu Z, která má chí-kvadrát rozdělení s df = 1.
Znaménkový test
Párový Wilcoxonův test
Test o binomické pravděpodobnosti Yatesova korekce na spojitost
Konfidenční interval
Jeden výběr: t–test o střední hodnotě výběru
Ověření normality
Párový t–test
Neparametrické testy
Konfidenční interval pro p binomického rozdělení
• Nabízí se odhadnout skutečnou prst. p pomocí relativní četnosti ෝ𝒑 =
𝒀
𝒏
a
konfidenční interval dopočítat (s využitím CLV) z asymptotické aproximace
𝒀
𝒏
~ 𝑵 𝒑,
𝒑(𝟏−𝒑)
𝒏
, kde p neznám a nahrazuji ji p̂.
Konfidenční interval má potom tvar:
𝑝 ∈ Ƹ𝑝 −
Ƹ𝑝 1 − Ƹ𝑝
𝑛
𝑧 1 −
𝛼
2
; Ƹ𝑝 +
Ƹ𝑝(1 − Ƹ𝑝)
𝑛
𝑧 1 −
𝛼
2
Tento interval má ale špatné vlastnosti, zejména nezaručuje
požadovanou spolehlivost.
 Vhodnější je konf. interval z R-kové fce prop.test, který se jmenuje
Wilsonův konfidenční interval nebo také skórový konfidenční interval.
Tento interval lépe zachovává požadovanou spolehlivost α, zejména je
vhodnější při relativních četnostech blízkých nule nebo jedničce. Zahrnuje
Yatesovu korekci na spojitost, navíc vylepšenou pro případy p „blízké nule
či jedničce“. Zvára, str. 139.
Znaménkový test
Párový Wilcoxonův test
Test o binomické pravděpodobnosti Yatesova korekce na spojitost
Konfidenční interval
Jeden výběr: t–test o střední hodnotě výběru
Ověření normality
Párový t–test
Neparametrické testy