5 Úlohy o střední hodnotě a rozptylu (směrodatné odchylce) v normálním rozdělení Tento studijní materiál není náhradou učebnice ani přednášky, pouze shrnuje a komentuje to nejpodstatnější, co se v tomto týdnu mělo probrat. Slouží jako doprovodný text pro dálkové studium, zda tuto látku ovládáte si můžete ověřit v odpovědníku pro pátý týden. Minule jsme se věnovali situaci, kdy máme data z normálního rozdělení Af([i;o-2), kde jsme rozptyl a2 znali a chtěli jsme něco říct o neznámé střední hodnotě /i - stanovit intervalový odhad, popř. otestovat o tomto neznámém parametru nějakou hypotézu. Tato situace není prakticky příliš častá. Kamenem úrazu je známý rozptyl a2. Obvykle máme k dispozici pouze data (která se tváří normálně), nikdo nám nedá navíc informaci „a náhodou víme, že a2 = 23". Víme však, že teoretický rozptyl a2 můžeme bodově odhadnout výběrovým rozptylem s2. Toho můžeme využít ke konstrukci intervalů spolehlivosti a testování hypotéz o střední hodnotě, i když máme k dispozici pouze výběrový rozptyl s2. 5.1 Úlohy o ß při neznámém rozptylu o Po celou dobu budeme předpokládat, že data jsou normálně rozdělena. Nejprve si vzpomeňte na odvození intervalu spolehlivosti ve chvíli, kdy jsme o2 znali. Začali jsme s pivotovou statistikou U = ■ y/ň ~ A/*(0; 1). Naivní by bylo si myslet, že stačí nahradit a v tomto vztahu jeho odhadem S a vše bude fungovat stejně. Nebude. Namísto toho platí, že kde tin — 1) značí Studentovo rozdělení s n — 1 stupni volnosti. O Studentově rozdělení si můžete přečíst více na internetu, minimálně byste měli kouknout na graf hustoty a jeho srovnání s grafem hustoty standardního normálního rozdělení. Graf Studentova rozdělení má podobný tvar, ale „těžší konce" (tedy hodnoty dále od střední hodnoty jsou pravděpodobnější). Stupně volnosti jsou parametr, který ovlivňuje tvar, čím je větší počet pozorování, tím více se Studentovo rozdělní blíží normálnímu. Software spočítá hodnoty distribuční funkce popř. kvantily Studentova rozdělení přesně, pokud není k dispozici, máme tabulky. Pro n > 30 už nejsou hodnoty tabelovány, používají se hodnoty standardního normálního rozdělení. Kde se Studentovo rozdělení v tomto vztahu vzalo, je mimo rámec tohoto textu. Nicméně s jeho pomocí můžeme odvodit (úplně stejně jako na 3. cvičení) (l — a)-100% interval spolehlivosti pro /i, když a2 neznáme. Výraz ŕi_a.(n — 1) je 1 — —kvantil Studentova rozdělení s (n — 1) stupni volnosti. Nalezneme jej pomocí sw nebo v tabulkách. Dolní, resp. horní odhad pak získáme snadno: (102A) (102B) 5.2 t-test Intervaly spolehlivosti můžeme využít pro testování hypotéz stejně jako testování pomocí testovacího kritéria. Testovací kritérium je odvozeno z (102A): ÍQ = ľIĽl£ . ^ % t(n - 1) (202) s Hodnota c je vzata z nulové hypotézy. Kritický obor záleží na tvaru H$ a Hi, pro oboustranný test na hladině významnosti a je kritický obor W = (-oo; -íi_f (n - 1)) U (íi_f (n - 1); oo). Pro levostrannou (resp. pravostrannou alternativu) je pak příslušný kritický obor WL = (-oo;-íi_Q(n-l)) WR = (íi_Q(n- l);oo) Tento test se obvykle označuje v literatuře jako t-test (podle použitého Studentova rozdělení). 5.2.1 Párový t-test Párový t-test používáme, když máme k dispozici dvě skupiny pozorování, která jsou párová a zajímá nás, zda se střední hodnota jedné skupiny liší (je různá, větší nebo menší) od druhé. Stále musí platit normalita rozdělení. Typickými příklady párových pozorování jsou měření nějaké hodnoty před a po nějaké události. V tomto případě můžeme přejít k rozdílovým pozorováním, čímž získáme jeden náhodný výběr, na který můžeme aplikovat t-test. Pokud mezi skupinama není rozdíl, pak střední hodnota rozdílových pozorování by měla být 0 (analogicky v případě, kdy má být střední hodnota v jedné skupině větší než v druhé). Pokud jste se došetli až sem, napište mi mail, potěší mě to. 5.3 Úlohy o o při neznámé střední hodnotě \x Nyní budeme konstruovat interval spolehlivosti a testovat hypotézy o rozptylu a2 za předpokladu, že máme data normálně rozdělená. Opět, celý postup je založen na pivotové statistice K={n~1)2'S2 ~y?(n-l) (104A) O chí-kvadrát rozdělení si můžeme na internetu zase spoustu věcí přečíst, podstatná je zejména vlastnost, že x2 rozdělení je definováno pro nezápornou náhodnou veličinu (rozptyl nemůže být záporný), což má za důsledek, že (1 — a) ■ 100% interval spolehlivosti (který si jistě dokážete už odvodit) /, ,n / \.n — l)s (n — l)s i . _N (^It^TrSi^T;1 (104B) 2 -,2 není symetrický okolo bodového odhadu s (nemůžeme jít do záporných hodnot). Vytvořit dolní resp. horní odhad už není těžké, stačí celé riziko a umístit na pravou (resp. levou) stranu intervalu spolehlivosti. Pro testování hypotézy pomocí testovacího kritéria slouží jako kritérium hodnota (n — 1)S2 Hn O / . , to = ~-L~X2n-l 204 c Příslušné kritické obory (pro oboustrannou, levostrannou nebo pravostrannou alternativu) jsou W = (O; Xl(n ~ 1)) U (X?_f (n - 1); oo' WL = (0;xl(n-l)) WR={xta(n-l);00)