1 8-Parametrické úlohy o dvou nezávislých náhodných výběrech z normálního rozložení Vyjádření k domácímu úkolu • interpretace koeficientu korelace: r = 0.8 —> vysoký stupeň PŘÍMÉ LINEÁRNÍ závislosti • u testování hypotéz nezapomínejte stanovit Hq,Hi, a psát celkový závěr příkladu!!! • testování pomocí IS: H0 : fi = c —> H0 nezamítáme, pokud c G IS. Stará látka • přehled testů - rozdat • Testování hypotéz — datový soubor reálných dat — máme předpoklady o datovém souboru: o charakteristikách, o rozložení náh. veličiny, o nezávislosti dvou náh.veličin — zatím jsme ověřovali předpoklady o charakteristikách jednovýběrových dat (/i, a) z normálního rozložení — postup testování hypotéz * Formulace problému * stanovení H0 * stanovení H\ ■ oboustranná • pravostranná • levostranná * volba hl.významnosti a = pst, že H0 zamítáme, i když platí. * provedení měření * testování hypotéz • Kritický obor • IS • p-hodnota * rozhodnutí o zamítnutí Hq * INTERPRETACE VÝSLEDKŮ — chyba 1.druhu: H0 platí a přesto ji zamítneme — chyba 2.druhu: H0 neplatí a přesto ji nezamítneme • kritický obor — stanovíme To — stanovíme kritický obor W - tvar podle typu alternativy 1 — H0 zamítáme, pokud T0 G W. • IS: — z Hq známe konstantu c — stanovíme IS - tvar podle alternativy: A/IS: 0/0, L/P, P/L — Hq zamítáme, pokud c ^ IS • p-hodnota — stanovíme T0 — stanovíme p-hodnotu podle typu alternativy — Hq zamítáme, pokud p < a. Nová látka Párové testy: • data z dvourozměrného normálního rozložení • porovnání rozdílů párových součástí objektu, párových orgánů člověka • porovnání délky uší, výšky/šířky očí, nadočnicového oblouku, sjetost pneumatik, zkoumání podobných rysů dvojčat atp. • Nechť (Xi, Yi)... (Xn, Yn) je náh. výběr z dvourozměrného normálního rozložení, přičemž n > 2. Střední hodnota znaku X je střední hodnota znaku Y je /x2. • H0 : //i = fi2 : //i - /x2 = O • i^i : /xi 7^ /x2 : /xi - /x2 O • utvoříme rozdíly Z\ = X\ — Y\... Zn = Xn — Yn. • Zi,... Zn je datový soubor z normálního rozložení —y získáváme jednovýběrový datový soubor • aplikujeme jednovýběrový test o střední hodnotě /x, když a2 neznáme. • Příklad z domácího úkolu (víz příloha skenl) Testování normality • normalita dat je velmi důležitá vlastnosti datového souboru • pro mnoho parametrických testů je předpoklad normality důležitým základem — jednovýběrové testy — párové testy — dvouvýběrové testy, ... • testování normality datového souboru 2 — Testujeme nulovú hypotézu: H0: Datový soubor/data pochází z normálního rozložení — alternativní hypotéza: H0 : Data nepochází z normálního rozložení — testování provádíme 1. graficky (a) histogram + křivka hustoty teoretického normálního rozložení s odhadem střední hodnoty fi = mean(data) a odhadem rozptylu a2 = (sd(data))2 + křivka hustoty odhadnutá z dat density(vektor_dat). (b) krabicový graf - více než normalitu testuje vyšikmenost dat boxplotQ (c) Q-Q graf příkazy qqnorm(vektor_dat) a qqline(vektor_dat) 0-0 graf 0-0 graf -3-2-10123 -3-2-10123 teoreticky kvantil teoreticky kvantil Obrázek 1: a)vlevo-body leží na přímce —> data jsou z normálního rozložení; b)-vpravo - body neleží na přímce —> data nejsou z normálního rozložení 2. početně - testováním (a) Shairo-Wilkův test * je vhodný pro testování souborů o menších rozsahů (n < 30) * shapiro.test() knihovna stat (b) Kolmogorův-Smirnovův test (c) Lillie-Forsův test * modifikace K-S testu * lillie.test() knihovna nortest (d) Anderson-Darlingův test * ad.test() knihovna nortest (e) Pearsonův %2 test * pearson.test knihovna nortest — vždy je vhodné provést alespoň dva testy normality • ODTEĎ PŘED KAŽDÝM TESTOVÁNÍM POMOCÍ PARAMETRICKÝCH TESTŮ MUSÍME OVĚŘIT NORMALITU DAT 3 Testy o dvou nezávislých náhodných výběrech Nechť Xu ... Xlni je náhodný výběr z rozložení JV(/íl5 crf) a X21 ... X2ri2 je na něm nezávislý náhodný výběr z rozložení iV(/i2,o|), přičemž nx > 2 a n2 > 2. Označme Mi,M2 výběrové průměry a S^Sf výběrové rozptyly a o2 (Wl - 1)£2 + (», - 1)S2 «1 + "2 - 2 je vážený průměr výběrových rozptylů. 1. Pivotová statistika r W-^)-Q.i-w) ,r,; V «1 «2 slouží k řešení úloh o //i — /i2, když er2 a čt| známe. 2. Pokud o"2 = o\ = o"2, pak pivotová statistika a: = ---—-— ~ x (wi + «2 - 2) slouží k řešení úloh o neznámém společném roztylu a2. 3. Pokud af = g\ = o"2, pak pivotová statistika (Mx - M2) - (Ml - »2) 1 =-, -~ t[iii + n2 — Z) s*y ň + i slouží k řešení úloh o - /x2, když a2, ct2 neznáme, ale víme, že jsou shodné. 4. Pivotová statistika 2 - ir(m-l,n2-l) slouží k řešení úloh o - 1 2 4 Intervaly spolehlivosti 1. IS pro ni — /x2, když o\,o\ známe (využití statistiky U) (a) Oboustranný IS (d, h): mi - m2 - \l--h — Ui-a/2 5 rri! - m2 - \--1--ua/2 Tli Tin ' V Tl\ Ho (b) Levostranný IS (d;oo): (c) Pravostranný IS (—oo;h): T2 „2 mi — m2 — \--1--ui—a'> 00 V ni n2 —00; mi — mn — \ — H---ua V ni n2 2. IS pro /ix — /x2, když o\^o\ neznáme, ale víme, že jsou shodné (využití statistiky T) (a) Oboustranný IS (d, h): m1-m2- s*\l— + —h-a/2(ni + n2 -2);m1-m2- s*\ — + —ta/2(ni + n2 n\ n2 ' V ni n2 (b) Levostranný IS (d;oo): m1 — m2 — s*\l--1--ti-a(ni + n2 - 2) ; 00 ni n2 (c) Pravostranný IS (—oo;h): 11. ^. -00 ; mi — m2 — s*W--1--ta{ni + n2 — 2) V "1 n2 3. IS pro společný neznámý rozptyl a2 (využití pivotové statistiky K) (a) Oboustranný IS (d,h): í (m + n2 - 2)sl {ni+n2-2)sl \ \xl_a/2(ni + n2 - 2) ' X2a/2(ni + n2 - 2) j (b) Levostranný IS (d, 00) (m+n2-2)sl ■ 00 (c) Pravostranný IS (—oo;h) (ni + n2 — 2)s ' xl(n1+n2 - 2) 2 4. IS pro podíl rozptylů ^7 (využití pivotové statistiky F) 5 (a) Oboustranný IS (d, h): sil si . si/*2 2 .^1-0/2(^1 -l,n2-l) ' FQ/2(ni - l,n2 (b) Levostranný IS (d; 00) .ŕi-afai - l,n2 - 1) (c) Pravostranný IS (—oo;h) si/s2 Fa(ni -1,712-1), 6 Dvouvýběrové testy - Kritické obory 1. Nechť Xn,... Xini je náhodný výběr z iV(/xi, af), a X2i,... X2ri2 Je na něm nezávislý náhodný výběr z rozložení iV(/x2, čt2), přičemž ni > 2, ?x2 > 2 a čt2, a| známe. Nechť c je konstanta. • Testujeme H0 : /ii — /x2 = c oproti iJn : /xi — /x2 7^ c, případně H12 : /xi — /x2 < c? či #13 : /il - /i2 > C. • Takovýto test se nazývá dvouvýběrový z-test • Realizace testové statistiky: _ (mi - m2) - c • kritický obor pro oboustrannou alternativu Hnm. W = (—oo;ua/2) U (wi_a/2, 00) • kritický obor pro levostrannou alternativu iJi2: = (—oo;ua) • kritický obor pro pravostrannou alternativu H13: W = (iti_a; 00) 2. Nechť X11,... Xlni je náhodný výběr z iV(/xi, o"2), a X2i,... X2n2 je na něm nezávislý náhodný výběr z rozložení N(fi2,a2), přičemž rxi > 2, ?x2 > 2 a o"2 neznáme. Nechť c je konstanta. • Testujeme Hq : /xi — /x2 = c oproti iJn : /xi — /x2 7^ c, případně iJi2 : /xi — /x2 < c, či #13 : /xi - /x2 > c. • Takovýto test se nazývá dvouvýběrový t-test • Realizace testové statistiky: _ (mi - m2) - c *o —-/ s /T7T *Y ni n2 • kritický obor pro oboustrannou alternativu Hum. W = (—00; ta/2(rii+n2 —2)} U (íi-a/2(«-i + n2 - 2), 00) • kritický obor pro levostrannou alternativu H\2. W = (—00; ta(ni + ?x2 — 2)} • kritický obor pro pravostrannou alternativu H13: W = (£i_a(?Xi + n2 — 2); 00) 3. Nechť X11}... Xlni je náhodný výběr z iV(/xi, a2), a X2i,... X2ri2 je na něm nezávislý náhodný výběr z rozložení iV(/x2, o"2), přičemž ni > 2, ?x2 > 2. 2 2 • Testujeme H0 : ^| = 1 oproti Fn : || 7^ 1. • Takovýto test se nazývá F-test. • Realizace testové statistiky: • kritický obor pro oboustrannou alternativu Hum. W = (0; Fa/2(rii — 1, ?x2 — 1)} U (#i-a/2(«-i — l,n2 - l),oo) 7 • kritický obor pro levostrannou alternativu H12: W = (0; Fa(ni — l,n2 — 1)} • kritický obor pro pravostrannou alternativu H13: W = (Fi_a(ni — l,n2 — 1); oo) 8