5. Úvod do testování hypotéz. Porovnání empirického a teoretického rozložení 5.1. Motivace k testování hypotéz. Častým úkolem statistika je na základě dat ověřit předpoklady o parametrech nebo typu rozložení, z něhož pochází náhodný výběr. Takovému předpokladu se říká nulová hypotéza. Nulová hypotéza vyjadřuje nějaký teoretický předpoklad, často skeptického rázu a uživatel ji musí stanovit předem, bez přihlédnutí k datovému souboru. Proti nulové hypotéze stavíme alternativní hypotézu, která říká, co platí, když neplatí nulová hypotéza. Alternativní hypotéza je formulována tak, aby mohla platit jenom jedna z těchto dvou hypotéz. Pravdivost alternativní hypotézy by znamenala objevení nějakých nových skutečností nebo zásadnější změnu v dosavadních představách. Např. výzkumník by chtěl na základě dat prověřit tezi (nový objev), že pasivní kouření škodí zdraví. Jako nulovou hypotézu tedy položí tvrzení, že pasivní kouření neškodí zdraví a proti nulové hypotéze postaví alternativní, že pasivní kouření škodí zdraví. Testováním hypotéz se myslí rozhodovací postup, který je založen na daném náhodném výběru a s jehož pomocí rozhodneme o zamítnutí či nezamítnutí nulové hypotézy. 5.2. Definice: Definice nulové a alternativní hypotézy. Nechť X[1], ..., X[n] je náhodný výběr z rozložení L( ), kde parametr neznáme. Nechť h( ) je parametrická funkce a c daná reálná konstanta. a) Oboustranná alternativa: Tvrzení H[0]: h( ) = c se nazývá jednoduchá nulová hypotéza. Proti nulové hypotéze postavíme složenou oboustrannou alternativní hypotézu H[1]: h( ) c. b) Levostranná alternativa: Tvrzení H[0]: h( ) ≥ c se nazývá složená pravostranná nulová hypotéza. Proti jednoduché nebo složené pravostranné nulové hypotéze postavíme složenou levostrannou alternativní hypotézu H[1]: h( ) < c. c) Pravostranná alternativa: Tvrzení H[0]: h( ) ≤ c se nazývá složená levostranná nulová hypotéza. Proti jednoduché nebo složené levostranné nulové hypotéze postavíme složenou pravostrannou alternativní hypotézu H[1]: h( ) > c. Testováním H[0] proti H[1] rozumíme rozhodovací postup založený na náhodném výběru X[1], ..., X[n], s jehož pomocí zamítneme či nezamítneme platnost nulové hypotézy. (Volba alternativní hypotézy není libovolná, ale vyplývá z konkrétní situace. Např. při současné technologii je pravděpodobnost vyrobení zmetku = 0,01. a) Po rekonstrukci výrobní linky byla obnovena výroba, přičemž technologie zůstala stejná. Chceme ověřit, zda se změnila kvalita výrobků. Testujeme H[0]: = 0,01 proti H[1]: 0,01. b) Byly provedeny změny v technologii výroby s cílem zvýšit kvalitu. V tomto případě tedy testujeme H[0]: = 0,01 proti H[1]: < 0,01. c) Byly provedeny změny v technologii výroby s cílem snížit náklady. V této situaci testujeme H[0]: = 0,01 proti H[1]: > 0,01.) 5.3. Definice: Definice chyby 1. a 2. druhu. Při testování H[0] proti H[1] se můžeme dopustit jedné ze dvou chyb: chyba 1. druhu spočívá v tom, že H[0 ]zamítneme, ač ve skutečnosti platí a chyba 2. druhu spočívá v tom, že H[0] nezamítneme, ač ve skutečnosti neplatí. Situaci přehledně znázorňuje tabulka: skutečnost rozhodnutí H[0] nezamítáme H[0] zamítáme H[0] platí správné rozhodnutí chyba 1. druhu H[0] neplatí chyba 2. druhu správné rozhodnutí Pravděpodobnost chyby 1. druhu se značí α a nazývá se hladina významnosti testu (většinou bývá α = 0,05, méně často 0,1 či 0,01). Pravděpodobnost chyby 2. druhu se značí β. Číslo 1–β se nazývá síla testu a vyjadřuje pravděpodobnost, že bude H[0] zamítnuta za předpokladu, že neplatí. Obvykle se snažíme, aby síla testu byla aspoň 0,8. Obě hodnoty, α i 1–β, závisí na velikosti efektu, který se snažíme detekovat. Čím drobnější efekt, tím musí být větší rozsah náhodného výběru. 5.4. Poznámka: Testování nulové hypotézy proti alternativní hypotéze třemi způsoby. Testování nulové hypotézy proti alternativní hypotéze lze provést pomocí kritického oboru, pomocí intervalu spolehlivosti nebo pomocí p-hodnoty. 5.5. Definice: Definice testového kritéria, oboru nezamítnutí, kritického oboru a kritických hodnot. Statistika T[0] = T[0](X[1], ..., X[n]) se nazývá testovým kritériem. Množina všech hodnot, jichž může testové kritérium nabýt, se rozpadá na obor nezamítnutí nulové hypotézy (značí se V) a obor zamítnutí nulové hypotézy (značí se W a nazývá se též kritický obor). Tyto dva obory jsou odděleny kritickými hodnotami (pro danou hladinu významnosti α je lze najít ve statistických tabulkách). 5.6. Věta: Rozhodnutí o nulové hypotéze pomocí realizace testového kritéria v oboru nezamítnutí či v kritickém oboru. Jestliže číselná realizace t[0] testového kritéria T[0] padne do kritického oboru W, pak nulovou hypotézu zamítáme na hladině významnosti α a znamená to skutečné vyvrácení testované hypotézy. Jestliže t[0] padne do oboru nezamítnutí V, pak jde o pouhé mlčení, které platnost nulové hypotézy jenom připouští. 5.7. Věta: Stanovení kritického oboru v případě oboustranné alternativy, levostranné alternativy, pravostranné alternativy. Kritický obor v případě oboustranné alternativy má tvar W = , kde K[α/2](T) a K[1-α/2](T) jsou kvantily rozložení, jímž se řídí testové kritérium T[0], je-li nulová hypotéza pravdivá. Kritický obor v případě levostranné alternativy má tvar: W = . Kritický obor v případě pravostranné alternativy má tvar: W = . 5.8. Poznámka: Doporučený postup při testování nulové hypotézy proti alternativní hypotéze pomocí kritického oboru. - Stanovíme nulovou hypotézu a alternativní hypotézu. Přitom je vhodné zvolit jako alternativní hypotézu ten předpoklad, jehož přijetí znamená závažné opatření a mělo by k němu dojít jen s malým rizikem omylu. - Zvolíme hladinu významnosti α. Zpravidla volíme α = 0,05, méně často 0,1 nebo 0,01. - Najdeme vhodné testové kritérium a na základě zjištěných dat vypočítáme jeho realizaci. - Jestliže realizace testového kritéria padla do kritického oboru, nulovou hypotézu zamítáme na hladině významnosti α a přijímáme alternativní hypotézu. V opačném případě nulovou hypotézu nezamítáme na hladině významnosti α. - Na základě rozhodnutí, které jsme učinili o nulové hypotéze, učiníme nějaké konkrétní opatření, např. seřídíme obráběcí stroj. (Při testování hypotéz musíme mít k dispozici odpovídající nástroje, nejlépe vhodný statistický software. Nemáme-li ho k dispozici, musíme znát příslušné vzorce. Dále potřebujeme statistické tabulky a kalkulačku.) 5.9. Věta: Testování nulové hypotézy proti alternativní hypotéze pomocí 100(1-α)% empirického intervalu spolehlivosti pro parametrickou funkci . Sestrojíme 100(1-α)% empirický interval spolehlivosti pro parametrickou funkci h( ). Pokryje-li tento interval hodnotu c, pak H[0] nezamítáme na hladině významnosti α, v opačném případě H[0] zamítáme na hladině významnosti α. Pro test H[0] proti oboustranné alternativě sestrojíme oboustranný interval spolehlivosti. Pro test H[0] proti levostranné alternativě sestrojíme pravostranný interval spolehlivosti. Pro test H[0] proti pravostranné alternativě sestrojíme levostranný interval spolehlivosti. 5.10. Věta: Testování nulové hypotézy proti alternativní hypotéze pomocí p-hodnoty. p-hodnota udává nejnižší možnou hladinu významnosti pro zamítnutí nulové hypotézy. Je to riziko, že bude zamítnuta H[0] za předpokladu, že platí (riziko planého poplachu). Jestliže p-hodnota ≤ α, pak H[0] zamítáme na hladině významnosti α, je-li p-hodnota > α, pak H[0] nezamítáme na hladině významnosti α. Způsob výpočtu p-hodnoty: Pro oboustrannou alternativu p = 2 min{P(T[0] ≤ t[0]), P(T[0] ≥ t[0])}. Pro levostrannou alternativu p = P(T[0] ≤ t[0]). Pro pravostrannou alternativu p = P(T[0] ≥ t[0]). (p-hodnota vyjadřuje pravděpodobnost, s jakou číselné realizace x[1], ..., x[n] náhodného výběru X[1], ..., X[n] podporují H[0], je-li pravdivá. Statistické programové systémy poskytují ve svých výstupech p-hodnotu. Její výpočet vyžaduje znalost distribuční funkce rozložení, kterým se řídí testové kritérium T[0], je-li H[0] pravdivá. Vzhledem k tomu, že v běžných statistických tabulkách jsou uvedeny pouze hodnoty distribuční funkce standardizovaného normálního rozložení, bez použití speciálního software jsme schopni vypočítat p-hodnotu pouze pro test hypotézy o střední hodnotě normálního rozložení při známém rozptylu.) 5.11. Poznámka: Ilustrace významu p-hodnoty. Oboustranný test Levostranný test Pravostranný test 5.12. Příklad: Nechť X[1], ..., X[400] je náhodný výběr z N(μ,0,01). Je známo, že výběrový průměr se realizoval hodnotou 0,01. Na hladině významnosti 0,05 testujte hypotézu H[0]: μ = 0 proti pravostranné alternativě H[1]: μ > 0 a) pomocí intervalu spolehlivosti b) pomocí kritického oboru c) pomocí p-hodnoty. Řešení: ad a) Při testování nulové hypotézy proti pravostranné alternativě používáme levostranný interval spolehlivosti. . Protože číslo c = 0 neleží v intervalu (0,0018; ∞), H[0] zamítáme na hladině významnosti 0,05. ad b) Vypočteme realizaci testové statistiky: . Stanovíme kritický obor: Protože testová statistika se realizuje v kritickém oboru, H[0] zamítáme na hladině významnosti 0,05. ad c) Při testování nulové hypotézy proti pravostranné alternativě se p-hodnota počítá podle vzorce: p = P(T[0] ≥ t[0]). V našem případě: . Protože p-hodnota je menší než hladina významnosti 0,05, H[0] zamítáme na hladině významnosti 0,05. Porovnání empirického a teoretického rozložení 5.13. Motivace: Možnost použití statistických testů je podmíněna nějakými předpoklady o datech. Velmi často je to předpoklad o typu rozložení, z něhož získaná data pocházejí. Mnoho testů je založeno na předpokladu normality. Opomíjení předpokladů o typu rozložení může v praxi vést i ke zcela zavádějícím výsledkům, proto je nutné věnovat tomuto problému patřičnou pozornost. 5.14. Popis Kolmogorovova – Smirnovova testu a jeho Lilieforsovy varianty Testujeme hypotézu, která tvrdí, že náhodný výběr X[1], ..., X[n] pochází z rozložení s distribuční funkcí Φ(x). Nechť je výběrová distribuční funkce. Testovou statistikou je statistika . Nulovou hypotézu zamítáme na hladině významnosti α, když D[n] ≥ D[n](α), kde D[n](α) je tabelovaná kritická hodnota. (Pro n ≥ 30 lze D[n](α) aproximovat výrazem .) Upozornění: Nulová hypotéza musí specifikovat distribuční funkci zcela přesně, včetně všech jejích případných parametrů. Např. K-S test lze použít pro testování hypotézy, že náhodný výběr X[1], ..., X[n] pochází z rozložení Rs(0,1), což se využívá při testování generátorů náhodných čísel. Lilieforsova modifikace Kolmogorovova – Smirnovova testu Nechť nulová hypotéza tvrdí, že náhodný výběr pochází z normálního rozložení, jehož parametry μ a σ^2 neznáme. Tyto parametry musíme odhadnout z dat. Tím se změní rozložení testové statistiky D[n]. V takovém případě jde o Lilieforsovu modifikaci Kolmogorovova – Smirnovova testu. Příslušné modifikované kvantily byly určeny pomocí simulačních studií. Poznámka ke K-S testu ve STATISTICE: Test normality poskytuje hodnotu testové statistiky (ozn. d) a dvě p-hodnoty. První se vztahuje k případu, kdy μ a σ^2 známe předem, druhá (ozn. Liliefors p) se vztahuje k případu, kdy μ a σ^2 neznáme. Objeví-li se ve výstupu p = n.s. (tj. non significant), pak hypotézu o normalitě nezamítáme na hladině významnosti 0,05. 5.15. Příklad: Jsou dány hodnoty 10, 12, 8, 9, 16. Pomocí Lilieforsovy varianty K- S testu ověřte na hladině významnosti 0,05, zda tato data pocházejí z normálního rozložení. Řešení: Odhadem střední hodnoty je výběrový průměr m = 11, odhadem rozptylu je výběrový rozptyl s^2 = 10. Uspořádaný náhodný výběr je (8, 9, 10, 12, 16). Vypočteme hodnoty výběrové distribuční funkce: Hodnoty teoretické distribuční funkce Ф[T](x) v bodech 8, 9, 10, 12, 16: (Ф je distribuční funkce rozložení N(0,1).) Rozdíly mezi výběrovou distribuční funkcí F[5](x) a teoretickou distribuční funkcí Ф[T](x): d[1] = 0,2 – 0,17106 = 0,02894; d[2] = 0,4 – 0,26435 = 0,13565; d[3] = 0,6 – 0,37448 = 0,22552; d[4] = 0,8 – 0,62552 = 0,17448; d[5] = 1 – 0,94295 = 0,05705. Testová statistika: D[5] = 0,22552, modifikovaná kritická hodnota pro n = 5, α = 0,05 je 0,343. Protože 0,22552 < 0,343, hypotézu o normalitě nezamítáme na hladině významnosti 0,05. 5.16. Popis Shapirova – Wilkova testu Testujeme hypotézu, která tvrdí, že náhodný výběr X[1], ..., X[n] pochází z rozložení N(μ, σ^2). Testová statistika má tvar: , kde m = n/2 pro n sudé a m = (n-1)/2 pro n liché. Koeficienty a[i]^(n) jsou tabelovány. Na testovou statistiku W lze pohlížet jako na korelační koeficient mezi uspořádanými pozorováními a jim odpovídajícími kvantily standardizovaného normálního rozložení. V případě, že data vykazují perfektní shodu s normálním rozložením, bude mít W hodnotu 1. Hypotézu o normalitě tedy zamítneme na hladině významnosti α, když se na této hladině neprokáže korelace mezi daty a jim odpovídajícími kvantily rozložení N(0,1). Lze také říci, že S – W test je založen na zjištění, zda body v Q-Q grafu jsou významně odlišné od regresní přímky proložené těmito body. (S-W test se používá především pro výběry menších rozsahů, n < 50, ale v systému STATISTICA je implementováno jeho rozšíření i na výběry velkých rozsahů, kolem 2000.) Výpočet pomocí systému STATISTICA: V sedmi náhodně vybraných prodejnách byly zjištěny následující ceny určitého druhu zboží (v Kč): 35, 29, 30, 33, 45, 33, 36. Rozhodněte pomocí Lilieforsovy varianty K-S testu a S-W testu na hladině významnosti 0,05, zda lze tyto ceny považovat za realizace náhodného výběru z normálního rozložení. Řešení: Otevřeme nový datový soubor o jedné proměnné a 7 případech. Do proměnné X jsou zapíšeme zjištěné ceny. Statistiky – Základní statistiky a tabulky – Tabulky četností - OK – Proměnné X, OK – Normalita – zaškrtneme Lilieforsův test a Shaphiro - Wilksův W test –Testy normality V tabulce je uvedena hodnota testové statistiky pro Lilieforsův test (d = 0,24029) a pro S-W test (W = 0,86866) a odpovídající p-hodnoty. Lilieforsovo p je počítáno na základě parametrů odhadnutých z dat. V našem případě p > 0,2 a pro S-W test p = 0,18068. Ani jeden z testů nezamítá nulovou hypotézu o normalitě. Výpočet doplníme normálním pravděpodobnostním grafem a kvantil – kvantilovým grafem: Graphs – 2D Graphs - Normal Probability Plots (resp. Quantile- Quantile plot)- Variables X – OK. N-P plot Q-Q plot 5.17. Popis testu dobré shody v diskrétním a spojitém případě Testujeme hypotézu, která tvrdí, že náhodný výběr X[1], ..., X[n] pochází z rozložení s distribuční funkcí Φ(x). a) Je-li distribuční funkce spojitá, pak data rozdělíme do r třídicích intervalů , j = 1, ..., r. Zjistíme absolutní četnost n[j] j-tého třídicího intervalu a vypočteme pravděpodobnost p[j], že náhodná veličina X s distribuční funkcí Φ(x) se bude realizovat v j-tém třídicím intervalu. Platí-li nulová hypotéza, pak p[j] = Φ(u[j+1]) - Φ(u[j]). b) Má-li distribuční funkce nejvýše spočetně mnoho bodů nespojitosti, pak místo třídicích intervalů použijeme varianty x[[j]], j = 1, …, r. Pro variantu x[[j] ]zjistíme absolutní četnost n[j] a vypočteme pravděpodobnost p[j], že náhodná veličina X s distribuční funkcí Φ(x) se bude realizovat variantou x[[j]]. Platí-li nulová hypotéza, pak . Testová statistika: . Platí-li nulová hypotéza, pak K ≈ χ^2(r-1-p), kde p je počet odhadovaných parametrů daného rozložení. (Např. pro normální rozložení p = 2, protože z dat odhadujeme střední hodnotu a rozptyl.) Nulovou hypotézu zamítáme na asymptotické hladině významnosti α, když K ≥ χ^2[1-α](r-1-p). Aproximace se považuje za vyhovující, když tzv. teoretické četnosti np[j] ≥ 5, j = 1, ..., r. Upozornění: Hodnota testové statistiky K je silně závislá na volbě třídicích intervalů. Navíc při nesplnění podmínky np[j] ≥ 5, j = 1, ..., r je třeba některé intervaly resp. varianty slučovat, což vede ke ztrátě informace. 5.18. Příklad (test dobré shody pro diskrétní rozložení): Byl zjišťován počet poruch určitého zařízení za 100 hodin provozu ve 150 disjunktních 100 h intervalech. Výsledky měření: Počet poruch za 100 hodin provozu 0 1 2 3 4 a víc Absolutní četnost 52 48 36 10 4 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že náhodný výběr X[1], ..., X[150] pochází z rozložení Po(1,2). Řešení: Pravděpodobnost, že náhodná veličina s rozložením Po(λ), kde λ = 1,2 bude nabývat hodnot p[0], ..., p[4] a víc je . Výpočty potřebné pro stanovení testové statistiky K uspořádáme do tabulky. j n[j] p[j] np[j] 0 52 0,301 150.0,301=45,15 1,039 1 48 0,361 150.0,361=54,15 0,698 2 36 0,217 150.0,217=32,55 0,366 3 10 0,087 150.0,087=13,05 0,713 4 4 0,034 150.0,034=5,1 0,237 K = 1,039 + 0,698 + 0,713 + 0,237 = 3,053, r = 5, χ^2[0,95](4) = 9,488. Protože 3,053 < 9,488, nulovou hypotézu nezamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA: Vytvoříme datový soubor o dvou proměnných (POČET a ČETNOST) a pěti případech a zapíšeme do něj hodnoty 0 1 2 3 4 a 52 48 36 10 4. Statistiky – Prokládání rozdělení – Diskrétní rozdělení – Poissonovo – OK – Proměnná POČET – Proměnná vah ČETNOST – Stav zapnuto – OK – Parametry Lambda 1,2, OK. Ve výstupní tabulce je uvedena hodnota testového kritéria (3,03371) a odpovídající p-hodnota (0,38646). Nulová hypotéza se tedy nezamítá na asymptotické hladině významnosti 0,05. (Podmínky dobré aproximace jsou splněny, všechny teoretické četnosti - uvedené ve sloupci Očekávané četnosti – jsou větší než 5.) Pro vytvoření grafu se vrátíme do Proložení diskrétních rozložení – Základní výsledky – Graf pozorovaného a očekávaného rozdělení. 5.19. Příklad (test dobré shody pro spojité rozložení): Byl pořízen náhodný výběr rozsahu n = 100. Jeho číselné realizace byly roztříděny do 5 ekvidistantních třídicích intervalů o délce 0,04, přičemž dolní mez prvního třídicího intervalu je 3,92. Absolutní četnosti jednotlivých třídicích intervalů jsou: 11, 20, 44, 19, 6. Výběrový průměr se realizoval hodnotou m = 4,02 a výběrová směrodatná odchylka hodnotou s = 0,04. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že náhodný výběr pochází z normálního rozložení. Řešení: Výpočty potřebné pro stanovení testové statistiky K uspořádáme do tabulky. Přitom symbolem Ф značíme distribuční funkci rozložení N(μ,σ^2), kde μ = 4,02 a σ = 0,04. n[j] p[j]=Ф(u[j+1])- Ф(u[j]) np[j] (n[j] – np[j])^2 [] 11 0,060598 6,0598 24,4060 4,0276 20 0,241730 24,1730 17,4142 0,7204 44 0,382925 38,2925 32,5756 0,8507 19 0,241730 24,1730 26,7608 1,1070 6 0,060598 6,0598 0,0036 0,0006 K = 4,0276 + 0,7204 + 0,8507 + 1,1070 + 0,0006 = 6,7063 Kritický obor: Protože testová statistika se realizuje v kritickém oboru, hypotézu o normalitě zamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA: Protože nemáme k dispozici původní data, ale jenom třídicí intervaly a jejich četnosti, do nového datového souboru o dvou proměnných xj a nj zadáme středy třídicích intervalů a jejich absolutní četnosti: Statistiky – Prokládání rozdělení – ponecháme implicitní nastavení pro Normální rozdělení – OK – Proměnná xj – klikneme na ikonu se závažím – Proměnná vah nj – Stav Zapnuto – OK – Parametry – Počet kategorií 5, Průměr 4,02, Rozptyl 0,0016, OK. Dostaneme výstupní tabulku: V záhlaví výstupní tabulky je uvedena hodnota testového kritéria (5,54004), počet stupňů volnosti = 2 a p-hodnota (0,06266). Nulová hypotéza se tedy nezamítá na asymptotické hladině významnosti 0,05. Rozdíl oproti ručnímu výpočtu je způsoben tím, že systém STATISTICA uvažuje první interval a poslední interval . Pro vytvoření grafu se vrátíme do Proložení spojitých rozdělení – Základní výsledky – Graf pozorovaného a očekávaného rozdělení. 5.20. Poznámka: Test dobré shody může být použit i v těch případech, kdy rozložení, z něhož daný náhodný výběr pochází, neodpovídá nějakému známému rozložení (např. exponenciálnímu, normálnímu, Poissonovu, ...), ale je určeno intuitivně nebo na základě zkušenosti. 5.21. Příklad: Ve svých pokusech pozoroval J.G. Mendel 10 rostlin hrachu a na každé z nich počet žlutých a zelených semen. Výsledky pokusu: č.rostliny 1 2 3 4 5 6 7 8 9 10 počet žlutých semen 25 32 14 70 24 20 32 44 50 44 počet zelených semen 11 7 5 27 13 6 13 9 14 18 celkem 36 39 19 97 37 26 45 53 64 62 Z genetických modelů vyplývá, že pravděpodobnost výskytu žlutého semene by měla být 0,75 a zeleného 0,25. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že výsledky Mendelových pokusů se shodují s modelem. Řešení: Výpočty potřebné pro stanovení testové statistiky K uspořádáme do tabulky. j n[j] p[j] np[j] 1 25 0,75 36.0,75=27 0,148148 2 32 0,75 39.0,75=29,25 0,258547 10 44 0,75 62.0,75=46,5 0,134409 K = 0,148148 + 0,258547 + ... + 0,134409 = 1,797495, r = 10, χ^2[0,95](9) = 16,9. Protože 1,797495 < 16,9, nulovou hypotézu nezamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA: Vytvoříme datový soubor se třemi proměnnými Celkem, X a Y a 10 případy. Do proměnné Celkem zapíšeme celkový počet žlutých a zelených semen, do X zapíšeme pozorované absolutní četnosti žlutých semen, do proměnné Y vypočítané teoretické četnosti (v našem případě Celkem*0,75). Statistiky – Neparametrická statistika – Pozorované vs. očekávané χ^2 – Proměnné Pozorované četnosti X, Očekávané četnosti Y, OK – Výpočet. Ve výstupní tabulce najdeme hodnotu testové statistiky (Chi-Kvadr. = 1,797495) a odpovídající p-hodnotu, kterou porovnáme se zvolenou hladinou významnosti. V našem případě je p-hodnota 0,99428, takže nulová hypotéza se nezamítá na asymptotické hladině významnosti 0,05.