Úvod do testování hypotéz. Testy hypotéz o normálním rozložení. Motivace k testování hypotéz: Častým úkolem statistika je na základě dat ověřit předpoklady o parametrech nebo typu rozložení, z něhož pochází náhodný výběr. Takovému předpokladu se říká nulová hypotéza. Nulová hypotéza vyjadřuje nějaký teoretický předpoklad, často skeptického rázu a uživatel ji musí stanovit předem, bez přihlédnutí k datovému souboru. Proti nulové hypotéze stavíme alternativní hypotézu, která říká, co platí, když neplatí nulová hypotéza. Alternativní hypotéza je formulována tak, aby mohla platit jenom jedna z těchto dvou hypotéz. Pravdivost alternativní hypotézy by znamenala objevení nějakých nových skutečností nebo zásadnější změnu v dosavadních představách. Např. výzkumník by chtěl na základě dat prověřit tezi (nový objev), že pasivní kouření škodí zdraví. Jako nulovou hypotézu tedy položí tvrzení, že pasivní kouření neškodí zdraví a proti nulové hypotéze postaví alternativní, že pasivní kouření škodí zdraví. Testováním hypotéz se myslí rozhodovací postup, který je založen na daném náhodném výběru a s jehož pomocí rozhodneme o zamítnutí či nezamítnutí nulové hypotézy. Definice nulové a alternativní hypotézy: Nechť X[1], ..., X[n] je náhodný výběr z rozložení L( ), kde parametr neznáme. Nechť h( ) je parametrická funkce a c daná reálná konstanta. a) Oboustranná alternativa: Tvrzení H[0]: h( ) = c se nazývá jednoduchá nulová hypotéza. Proti nulové hypotéze postavíme složenou oboustrannou alternativní hypotézu H[1]: h( ) c. b) Levostranná alternativa: Tvrzení H[0]: h( ) ≥ c se nazývá složená pravostranná nulová hypotéza. Proti jednoduché nebo složené pravostranné nulové hypotéze postavíme složenou levostrannou alternativní hypotézu H[1]: h( ) < c. c) Pravostranná alternativa: Tvrzení H[0]: h( ) ≤ c se nazývá složená levostranná nulová hypotéza. Proti jednoduché nebo složené levostranné nulové hypotéze postavíme složenou pravostrannou alternativní hypotézu H[1]: h( ) > c. Testováním H[0] proti H[1] rozumíme rozhodovací postup založený na náhodném výběru X[1], ..., X[n], s jehož pomocí zamítneme či nezamítneme platnost nulové hypotézy. (Volba alternativní hypotézy není libovolná, ale vyplývá z konkrétní situace. Např. při současné technologii je pravděpodobnost vyrobení zmetku = 0,01. a) Po rekonstrukci výrobní linky byla obnovena výroba, přičemž technologie výroby zůstala stejná. Chceme ověřit, zda se změnila kvalita výrobků. Testujeme H[0]: = 0,01 proti H[1]: 0,01. b) Byly provedeny změny v technologii výroby s cílem zvýšit kvalitu. V tomto případě tedy testujeme H[0]: = 0,01 proti H[1]: < 0,01. c) Byly provedeny změny v technologii výroby s cílem snížit náklady. V této situaci testujeme H[0]: = 0,01 proti H[1]: > 0,01.) Definice chyby 1. a 2. druhu: Při testování H[0] proti H[1] se můžeme dopustit jedné ze dvou chyb: chyba 1. druhu spočívá v tom, že H[0 ]zamítneme, ač ve skutečnosti platí a chyba 2. druhu spočívá v tom, že H[0] nezamítneme, ač ve skutečnosti neplatí. Situaci přehledně znázorňuje tabulka: skutečnost rozhodnutí H[0] nezamítáme H[0] zamítáme H[0] platí správné rozhodnutí chyba 1. druhu H[0] neplatí chyba 2. druhu správné rozhodnutí Pravděpodobnost chyby 1. druhu se značí α a nazývá se hladina významnosti testu (většinou bývá α = 0,05, méně často 0,1 či 0,01). Pravděpodobnost chyby 2. druhu se značí β. Číslo 1–β se nazývá síla testu a vyjadřuje pravděpodobnost, že bude H[0] zamítnuta za předpokladu, že neplatí. Obvykle se snažíme, aby síla testu byla aspoň 0,8. Obě hodnoty, α i 1–β, závisí na velikosti efektu, který se snažíme detekovat. Čím drobnější efekt, tím musí být větší rozsah náhodného výběru. Testování nulové hypotézy proti alternativní hypotéze lze provést pomocí a) kritického oboru, b) intervalu spolehlivosti, c) p-hodnoty. Testování nulové hypotézy proti alternativní hypotéze pomocí kritického oboru Statistika T[0] = T[0](X[1], ..., X[n]) se nazývá testové kritérim (testová statistika). Množina všech hodnot, jichž může testové kritérium nabýt, se rozpadá na obor nezamítnutí nulové hypotézy (značí se V) a obor zamítnutí nulové hypotézy (značí se W a nazývá se též kritický obor). Tyto dva obory jsou odděleny kritickými hodnotami (pro danou hladinu významnosti α je lze najít ve statistických tabulkách). Jestliže číselná realizace t[0] testového kritéria T[0] padne do kritického oboru W, pak nulovou hypotézu zamítáme na hladině významnosti α a znamená to skutečné vyvrácení testované hypotézy. Jestliže t[0] padne do oboru nezamítnutí V, pak jde o pouhé mlčení, které platnost nulové hypotézy jenom připouští. Stanovení kritického oboru v případě oboustranné alternativy, levostranné alternativy, pravostranné alternativy. Kritický obor v případě oboustranné alternativy má tvar W = , kde K[α/2](T) a K[1-α/2](T) jsou kvantily rozložení, jímž se řídí testové kritérium T[0], je-li nulová hypotéza pravdivá. Kritický obor v případě levostranné alternativy má tvar: W = . Kritický obor v případě pravostranné alternativy má tvar: W = . Doporučený postup při testování nulové hypotézy proti alternativní hypotéze pomocí kritického oboru: - Stanovíme nulovou hypotézu a alternativní hypotézu. Přitom je vhodné zvolit jako alternativní hypotézu ten předpoklad, jehož přijetí znamená závažné opatření a mělo by k němu dojít jen s malým rizikem omylu. - Zvolíme hladinu významnosti α. Zpravidla volíme α = 0,05, méně často 0,1 nebo 0,01. - Najdeme vhodné testové kritérium a na základě zjištěných dat vypočítáme jeho realizaci. - Jestliže realizace testového kritéria padla do kritického oboru, nulovou hypotézu zamítáme na hladině významnosti α a přijímáme alternativní hypotézu. V opačném případě nulovou hypotézu nezamítáme na hladině významnosti α. - Na základě rozhodnutí, které jsme učinili o nulové hypotéze, učiníme nějaké konkrétní opatření, např. seřídíme obráběcí stroj. (Při testování hypotéz musíme mít k dispozici odpovídající nástroje, nejlépe vhodný statistický software. Nemáme-li ho k dispozici, musíme znát příslušné vzorce. Dále potřebujeme statistické tabulky a kalkulačku.) Testování nulové hypotézy proti alternativní hypotéze pomocí 100(1-α)% empirického intervalu spolehlivosti pro parametrickou funkci : Sestrojíme 100(1-α)% empirický interval spolehlivosti pro parametrickou funkci h( ). Pokryje-li tento interval hodnotu c, pak H[0] nezamítáme na hladině významnosti α, v opačném případě H[0] zamítáme na hladině významnosti α. Pro test H[0] proti oboustranné alternativě sestrojíme oboustranný interval spolehlivosti. Pro test H[0] proti levostranné alternativě sestrojíme pravostranný interval spolehlivosti. Pro test H[0] proti pravostranné alternativě sestrojíme levostranný interval spolehlivosti. Testování nulové hypotézy proti alternativní hypotéze pomocí p-hodnoty: p-hodnota udává nejnižší možnou hladinu významnosti pro zamítnutí nulové hypotézy. Je to riziko, že bude zamítnuta H[0] za předpokladu, že platí (riziko planého poplachu). Jestliže p-hodnota ≤ α, pak H[0] zamítáme na hladině významnosti α, je-li p-hodnota > α, pak H[0] nezamítáme na hladině významnosti α. Způsob výpočtu p-hodnoty: Pro oboustrannou alternativu p = 2 min{P(T[0] ≤ t[0]), P(T[0] ≥ t[0])}. Pro levostrannou alternativu p = P(T[0] ≤ t[0]). Pro pravostrannou alternativu p = P(T[0] ≥ t[0]). (p-hodnota vyjadřuje pravděpodobnost, s jakou číselné realizace x[1], ..., x[n] náhodného výběru X[1], ..., X[n] podporují H[0], je-li pravdivá. Statistické programové systémy poskytují ve svých výstupech p-hodnotu. Její výpočet vyžaduje znalost distribuční funkce rozložení, kterým se řídí testové kritérium T[0], je-li H[0] pravdivá. Vzhledem k tomu, že v běžných statistických tabulkách jsou uvedeny pouze hodnoty distribuční funkce standardizovaného normálního rozložení, bez použití speciálního software jsme schopni vypočítat p-hodnotu pouze tehdy, když testové kritérium se v případě platnosti nulové hypotézy řídí právě standardizovaným normálním rozložením.) Ilustrace významu p-hodnoty: Oboustranný test Levostranný test Pravostranný test Příklad: Nechť X[1], ..., X[400] je náhodný výběr z N(μ,0,01). Je známo, že výběrový průměr se realizoval hodnotou 0,01. Na hladině významnosti 0,05 testujte hypotézu H[0]: μ = 0 proti pravostranné alternativě H[1]: μ > 0 a) pomocí intervalu spolehlivosti b) pomocí kritického oboru c) pomocí p-hodnoty. Řešení: ad a) Při testování nulové hypotézy proti pravostranné alternativě používáme levostranný interval spolehlivosti. . Protože číslo c = 0 neleží v intervalu (0,0018; ∞), H[0] zamítáme na hladině významnosti 0,05. ad b) Vypočteme realizaci testové statistiky: . Stanovíme kritický obor: Protože testová statistika se realizuje v kritickém oboru, H[0] zamítáme na hladině významnosti 0,05. ad c) Při testování nulové hypotézy proti pravostranné alternativě se p-hodnota počítá podle vzorce: p = P(T[0] ≥ t[0]). V našem případě: . Protože p-hodnota je menší než hladina významnosti 0,05, H[0] zamítáme na hladině významnosti 0,05. Motivace k testům normality dat: Při zpracování dat se často předpokládá, že daný náhodný výběr pochází z normálního rozložení. Posuzujeme ji pomocí N-P plotu, Q-Q plotu či histogramu. Vzhledem k důležitosti předpokladu normality se vedle grafického posouzení doporučuje též použití některého testu normality, např. Kolmogorovova – Smirnovova testu, Shapirova – Wilkova testu nebo testu dobré shody. K závěrům těchto testů však přistupujeme s určitou opatrností. Máme-li k dispozici rozsáhlejší datový soubor (orientačně n > 30) a test zamítne na obvyklé hladině významnosti 0,05 nebo 0,01 hypotézu o normalitě, i když vzhled diagnostických grafů svědčí jenom o lehkém porušení normality, nedopustíme se závažné chyby, pokud použijeme statistickou metodu založenou na normalitě dat. (V případě jednoho dvourozměrného náhodného výběru posuzujeme dvourozměrnou normalitu dat graficky pomocí dvourozměrného tečkového diagramu s proloženou 100(1-α)% elipsou konstantní hustoty pravděpodobnosti). Kolmogorovův – Smirnovův test normality dat Testujeme hypotézu, která tvrdí, že náhodný výběr X[1], ..., X[n] pochází z normálního rozložení s parametry μ a σ^2. Distribuční funkci tohoto rozložení označme Φ[T] (x). Nechť F[n](x) je výběrová distribuční funkce. Testovou statistikou je statistika . Nulovou hypotézu zamítáme na hladině významnosti α, když D[n] ≥ D[n](α), kde D[n](α) je tabelovaná kritická hodnota. Pro n ≥ 30 lze D[n](α) aproximovat výrazem . V případě, že neznáme parametry μ a σ^2 normálního rozložení (což je nejčastější případ), změní se rozložení testové statistiky D[n]. V takovém případě jde o Lilieforsovu modifikaci Kolmogorovova – Smirnovova testu. Příslušné modifikované kvantily byly určeny pomocí simulačních studií. Tabulka kritických hodnot Lilieforsovy modifikace K- S testu Poznámka ke K-S testu ve STATISTICE Test normality poskytuje hodnotu testové statistiky (ozn. d) a dvě p-hodnoty. První se vztahuje k případu, kdy μ a σ^2 známe předem, druhá (ozn. Liliefors p) se vztahuje k případu, kdy μ a σ^2 neznáme. Objeví-li se ve výstupu p = n.s. (tj. non significant), pak hypotézu o normalitě nezamítáme na hladině významnosti 0,05. Příklad: Jsou dány hodnoty 10, 12, 8, 9, 16. Pomocí K- S testu zjistěte na hladině významnosti 0,05, zda tato data pocházejí z normálního rozložení. Řešení: Odhadem střední hodnoty je výběrový průměr m = 11, odhadem rozptylu je výběrový rozptyl s^2 = 10. Uspořádaný náhodný výběr je (8, 9, 10, 12, 16). Vypočteme hodnoty výběrové distribuční funkce: Hodnoty teoretické distribuční funkce Ф[T](x) v bodech 8, 9, 10, 12, 16: (Ф je distribuční funkce rozložení N(0,1).) Rozdíly mezi výběrovou distribuční funkcí F[5](x) a teoretickou distribuční funkcí Ф[T](x): d[1] = 0,2 – 0,17106 = 0,02894; d[2] = 0,4 – 0,26435 = 0,13565; d[3] = 0,6 – 0,37448 = 0,22552; d[4] = 0,8 – 0,62552 = 0,17448; d[5] = 1 – 0,94295 = 0,05705. Testová statistika: D[5] = 0,22552, modifikovaná kritická hodnota pro n = 5, α = 0,05 je 0,343. Protože 0,22552 < 0,343, hypotézu o normalitě nezamítáme na hladině významnosti 0,05. Shapirův – Wilkův test normality dat Testujeme hypotézu, která tvrdí, že náhodný výběr X[1], ..., X[n] pochází z rozložení N(μ, σ^2). Testová statistika má tvar: , kde m = n/2 pro n sudé a m = (n-1)/2 pro n liché. Koeficienty a[i]^(n) jsou tabelovány. Na testovou statistiku W lze pohlížet jako na korelační koeficient mezi uspořádanými pozorováními a jim odpovídajícími kvantily standardizovaného normálního rozložení. V případě, že data vykazují perfektní shodu s normálním rozložením, bude mít W hodnotu 1. Hypotézu o normalitě tedy zamítneme na hladině významnosti α, když se na této hladině neprokáže korelace mezi daty a jim odpovídajícími kvantily rozložení N(0,1). Lze také říci, že S – W test je založen na zjištění, zda body v Q-Q grafu jsou významně odlišné od regresní přímky proložené těmito body. (S-W test se používá především pro výběry menších rozsahů, n < 50, ale v systému STATISTICA je implementováno jeho rozšíření i na výběry velkých rozsahů, kolem 2000.) Výpočet pomocí systému STATISTICA: V sedmi náhodně vybraných prodejnách byly zjištěny následující ceny určitého druhu zboží (v Kč): 35, 29, 30, 33, 45, 33, 36. Rozhodněte pomocí K-S testu a S-W testu na hladině významnosti 0,05, zda lze tyto ceny považovat za realizace náhodného výběru z normálního rozložení. Řešení: Otevřeme nový datový soubor o jedné proměnné a 7 případech. Do proměnné X jsou zapíšeme zjištěné ceny. Statistiky – Základní statistiky a tabulky – Tabulky četností - OK – Proměnné X, OK – Normality – zaškrtneme Lilieforsův test a Shaphiro - Wilksův W test –Testy normality V tabulce je uvedena hodnota testové statistiky pro Lilieforsův test (d = 0,24029) a pro S-W test (W = 0,86866) a odpovídající p-hodnoty. Lilieforsovo p je počítáno na základě parametrů odhadnutých z dat. V našem případě p > 0,2 a pro S-W test p = 0,18068. Ani jeden z testů nezamítá nulovou hypotézu o normalitě. Výpočet doplníme normálním pravděpodobnostním grafem a kvantil – kvantilovým grafem: Grafy – 2D Grafy – Normální pravděpodobnostní grafy (resp. Grafy typu Q - Q) - Proměnné X – OK. N-P plot Q-Q plot Test dobré shody pro normální rozložení Testujeme hypotézu, která tvrdí, že náhodný výběr X[1], ..., X[n] pochází z normálního rozložení s distribuční funkcí Φ(x). · Data rozdělíme do r třídicích intervalů , j = 1, ..., r. · Zjistíme absolutní četnost n[j] j-tého třídicího intervalu. · Vypočteme pravděpodobnost p[j], že náhodná veličina X s distribuční funkcí Φ(x) se bude realizovat v j-tém třídicím intervalu. Platí-li nulová hypotéza, pak p[j] = Φ(u[j+1]) - Φ(u[j]). · Vypočteme testovou statistiku: . Platí-li nulová hypotéza, pak K ≈ χ^2(r-1-k), kde k je počet odhadovaných parametrů normálního rozložení. (Obvykle z dat z dat odhadujeme střední hodnotu i rozptyl, tedy k = 2.) · Stanovíme kritický obor · Nulovou hypotézu zamítáme na asymptotické hladině významnosti α, když . (Aproximace se považuje za vyhovující, když np[j] ≥ 5, j = 1, ..., r.) Upozornění: Hodnota testové statistiky K je silně závislá na volbě třídicích intervalů. Navíc při nesplnění podmínky np[j] ≥ 5, j = 1, ..., r je třeba některé intervaly slučovat, což vede ke ztrátě informace. Příklad: Byl pořízen náhodný výběr rozsahu n = 100. Jeho číselné realizace byly roztříděny do 5 ekvidistantních třídicích intervalů o délce 0,04, přičemž dolní mez prvního třídicího intervalu je 3,92. Absolutní četnosti jednotlivých třídicích intervalů jsou: 11, 20, 44, 19, 6. Výběrový průměr se realizoval hodnotou m = 4,02 a výběrová směrodatná odchylka hodnotou s = 0,04. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že náhodný výběr pochází z normálního rozložení. Řešení: Výpočty potřebné pro stanovení testové statistiky K uspořádáme do tabulky. Přitom symbolem Ф značíme distribuční funkci rozložení N(μ,σ^2), kde μ = 4,02 a σ = 0,04. n[j] p[j]=Ф(u[j+1])- Ф(u[j]) np[j] (n[j] – np[j])^2 [] 11 0,060598 6,0598 24,4060 4,0276 20 0,241730 24,1730 17,4142 0,7204 44 0,382925 38,2925 32,5756 0,8507 19 0,241730 24,1730 26,7608 1,1070 6 0,060598 6,0598 0,0036 0,0006 K = 4,0276 + 0,7204 + 0,8507 + 1,1070 + 0,0006 = 6,7063 Kritický obor: Protože testová statistika se realizuje v kritickém oboru, hypotézu o normalitě zamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA: Protože nemáme k dispozici původní data, ale jenom třídicí intervaly a jejich četnosti, do nového datového souboru o dvou proměnných xj a nj zadáme středy třídicích intervalů a jejich absolutní četnosti: Statistiky – Prokládání rozdělení – ponecháme implicitní nastavení pro Normální rozdělení – OK – Proměnná xj – klikneme na ikonu se závažím – Proměnná vah nj – Stav Zapnuto – OK – Parametry – Počet kategorií 5, Průměr 4,02, Rozptyl 0,0016, OK. Dostaneme výstupní tabulku: V záhlaví výstupní tabulky je uvedena hodnota testového kritéria (5,54004), počet stupňů volnosti = 2 a p-hodnota (0,06266). Nulová hypotéza se tedy nezamítá na asymptotické hladině významnosti 0,05. Rozdíl oproti ručnímu výpočtu je způsoben tím, že systém STATISTICA uvažuje první interval a poslední interval . Pro vytvoření grafu se vrátíme do Proložení spojitých rozdělení – Základní výsledky – Graf pozorovaného a očekávaného rozdělení. Další testy normality Existují testy normality založené na výběrové šikmosti a špičatosti. Pro náhodnou veličinu s normálním rozložením platí, že její šikmost i špičatost jsou nulové. Pro výběr z normálního rozložení by tedy výběrová šikmost a špičatost měly být blízké 0. Nechť X[1], …, X[n ]je náhodný výběr. Výběrová šikmost: Výběrová špičatost: Lze dokázat, že pro výběr z normálního rozložení platí: , , , . Pro n → ∞ se statistiky a asymptoticky řídí normálním rozložením. Test založený na šikmosti zamítne hypotézu o normalitě na asymptotické hladině významnosti α, když . Test založený na špičatosti zamítne hypotézu o normalitě na asymptotické hladině významnosti α, když .