Z1069 Statistické metody a zpracování dat V. Testování statistických hypotéz K čemu to je ? (příklad) Má smysl se připravovat na písemný test ze statistiky? Má to smysl! Průměr skupiny A je statisticky významně lepší než průměr skupiny B (na hladině významnosti 0.05) K čemu to je? Ověřování domněnek či předpokladů. Hledání odpovědí na určitým způsobem zformulované otázky. Příklady: • Jak mnoho se liší průměrná míra nezaměstnanosti v našem okrese od celorepublikového průměru? • Liší se významně údaje zjištěné dvěma různými metodami? • Pochází výběr ze základního souboru, který má určité teoretické rozdělení? • Je jedna metoda lepší než druhá? Obecný postup testování 1. Formulace nulové hypotézy 2. Volba hladiny významnosti 3. Volba vhodného testovacího kritéria 4. Výpočet hodnoty testovacího kritéria z empirických dat 5. Porovnání vypočtené hodnoty s hodnotou kritickou nebo její převedení do pravděpodobnostní škály 6. Vyslovení závěru o výsledku testu (přijetí či zamítnutí nulové hypotézy) 1. Formulace nulové hypotézy • Statistická hypotéza – předpoklad o neznámé vlastnosti základního souboru. • Prověřujeme tzv. nulovou hypotézu (H0). Např. průměry výběrových souborů se neliší (pocházejí z jednoho základního souboru). • Nulová hypotéza je obvykle opakem hypotézy pracovní (je obvykle opakem toho, co chceme výzkumem prokázat, když zahajujeme studii a začínáme sbírat data). Obvykle deklaruje „žádný rozdíl“ • Alternativní hypotéza (H1) – situace, kdy H0 neplatí. Tedy obvykle vyjadřuje „existenci diference“ či „existenci závislosti“ • Platnost hypotézy se prověřuje testem významnosti. • Hypotéza může být dvoustranná a test dvoustranným • Existují i jednostranné (pravostranné a levostranné) hypotézy 0µµ = 0µµ ≠ 0µµ > 0µµ < H0 H1 Jednostranný test: H1 H1 nebo: 2. Volba hladiny významnosti • Hladina významnosti (α) – pravděpodobnost, že náhodná odchylka překročí tzv. kritickou hodnotu. • Je to pravděpodobnost, že zamítneme nulovou hypotézu, ačkoliv ona platí. Je tedy vyjádřením míry ochoty, smířit se s touto chybou. • Volíme α co nejnižší (α = 0,05 či 0,01 tj. 5 % či 1 %). • Odchylky, které se vyskytují s menší pravděpodobností než α jsou statisticky významné na zvolené hladině. 3. a 4. Testovací kritérium a jeho výpočet • Použité testovací kritérium musí odpovídat povaze problému. • Testovací kritérium je statistika vypočtená z našich dat podle předepsaného vzorce • Každé testovací kritérium má své teoretické rozdělení. Tedy každé vypočtené hodnotě testovací statistiky přísluší jistá pravděpodobnost výskytu • Interpretace testové statistiky: spočetli jsme pravděpodobnost, že bychom mohli pozorovat námi zjištěnou, nebo ještě extrémnější (tj. méně pravděpodobnou) hodnotu, pokud by byla nulová hypotéza pravdivá. • Ve statistických tabulkách jsou uvedeny kritické hodnoty testovacích kritérií pro běžně používané hladiny významnosti a běžné rozsahy výběrových souborů. • Tyto rozsahy jsou většinou tabelovány v tzv. stupních volnosti. • Pokud nejsou kritické hodnoty tabelovány (pro velká n) lze vypočítat pomocí SW 5.1 porovnání vypočtené hodnoty s hodnotou kritickou, kterou nalezneme v tabulkách • vypočteme hodnotu testovací statistiky • v tabulkách nalezneme tzv. kritickou hodnotu testovací charakteristiky pro zvolené α • obě hodnoty porovnáme 5. Způsoby interpretace hodnoty testovacího kritéria Hodnocení testovacího kritéria s využitím statistických tabulek Výrok o platnosti či neplatnosti nulové hypotézy vyslovujeme na základě porovnání vypočtené hodnoty testovacího kritéria s hodnotou kritickou: Mohou nastat dvě situace: I. Vypočtené kritérium je větší než kritická hodnota • Jedná se o případ, který jsme očekávali s nepatrnou pravděpodobností α • Takový případ je téměř nemožný. • Testovaná odchylka tedy nemá náhodný charakter. • Nulovou hypotézu zamítáme a rozdíl mezi testovanými charakteristikami je statisticky významný na zvolené hladině α . • II. Vypočtené kritérium je menší než kritická hodnota • Jedná se o případ, který jsme očekávali s pravděpodobností 1- α – tedy velmi vysokou • Takový případ můžeme považovat za téměř jistý. • Mezi testovanými charakteristikami není rozdílu. • Nulovou hypotézu přijímáme a rozdíl mezi testovanými charakteristikami není statisticky významný na zvolené hladině α. Hodnocení testovacího kritéria s využitím statistických tabulek Dva způsoby hodnocení vypočteného testovacího kritéria 5.2 převedení hodnoty testovací statistiky do pravděpodobnostní škály na tzv. p hodnotu (hodnotu významnosti) (tento způsob hodnocení nabízejí počítačové programy) vypočtená hodnota testovací statistiky …a jí příslušející hodnota pravděpodobnosti (p-hodnota) Hodnocení testovacího kritéria - výpočet p hodnoty p hodnota odpovídá na otázku: Jestliže H0 platí, jaká je pravděpodobnost, že získáme právě vypočítanou či ještě neobvyklejší hodnotu testovací charakteristiky. Je-li p hodnota malá, máme doklad, že H0 neplatí. Interpretace p hodnoty p <= α důkaz pro zamítnutí H0 p > α nemáme důkaz pro zamítnutí H0 Protože má testovací kritérium určité teoretické rozdělení, každé jeho hodnotě přísluší určitá pravděpodobnost (p hodnota). oblast zamítnutí α = 0,05 p = 0,0052 zα = 1,64 z = 2,56 6. Interpretace jednostranného testu oblast zamítnutí α = 0,025 p = 0,0052 zα = 1,96 z = 2,56 zα = -1,96 α = 0,025 oblast zamítnutí 6. Interpretace dvoustranného testu Při testování se můžeme dopustit dvou druhů chyb: Chyba I. druhu – nulová hypotéza platí, ale zamítne se Chyba II. druhu – nulová hypotéza neplatí, ale přijme se Závěr testu H0 platí H0 neplatí Skutečnost H0 platí správný chyba I. druhu H0 neplatí chyba II. druhu správný Chyba I. druhu se omezuje volbou α. Čím menší hladinu významnosti zvolíme, tím menší je pravděpodobnost chyby I. druhu. Naopak však ale roste pravděpodobnost chyby II. druhu. Rozdělení testů Testy parametrické – testy o charakteristikách základního souboru, testy o parametrech rozdělení základního souboru (testy o průměru, rozptylu, o shodě dvou průměrů, …). Data měřena na intervalové či poměrové škále. Předpokládá se, že rozdělení základního souboru z něhož pochází výběr, je určité teoretické rozdělení (normální). Neparametrické testy - nevíme nic o rozdělení základního souboru. Data měřena na nominální či ordinální škále. Například ověřujeme předpoklad o normalitě. Patří sem: Testy párové (závislé) a nepárové (nezávislé) n1 = n2 n1 se nerovná n2 testy dobré shody, testy nezávislosti v kombinační tabulce, … Menší síla testů (sociologie, psychologie,…) Příklad t-testu pro nezávislé vzorky Závěr: Průměr skupiny A je statisticky významně lepší než průměr skupiny B (na hladině významnosti 0.05) Liší se průměry skupin významně? H0 : průměry se významně neliší H1 : mezi průměry je významný rozdíl F - test Používá se k testování významnosti rozdílu mezi dvěma rozptyly. Testovací kritérium je definováno jako poměr odhadů dvou rozptylů základních souborů 2 2 2 1 ˆ ˆ σ σ =F Odhady zjistíme z výběrových rozptylů ze vztahů: 2 1 1 12 1 1 ˆ s n n ⋅ − =σ 2 2 2 22 2 1 ˆ s n n ⋅ − =σa F - test Do vzorce s testovacím kritériem F se dosazuje do čitatele vždy větší hodnota. Počty stupňů volnosti: Kritické hodnoty veličiny F jsou tabelovány Nulová hypotéza: Předpokladem použití testu je alespoň přibližně normální rozdělení základních souborů. 122 −= nν111 −= nν 2 2 2 1 ˆˆ σσ = F – test: obecný postup testování 1. zvolíme hladinu významnosti α = 0,05 či α = 0,01 2. vypočteme odhady rozptylů základních souborů pomocí rozptylů výběrových souborů 3. vypočítáme hodnotu testovacího kritéria F (F musí být větší než 1) 4. určíme počty stupňů volnosti a pro daná a vyhledáme kritickou hodnotu Fα/2 5. Porovnáme hodnotu F s kritickou hodnotou Fα/2 a zhodnotíme výsledek t - test • Je vhodný pro testování rozdílů dvou veličin (např. průměru základního a výběrového souboru). • Lze ho použít i pro testování rozdílu dvou výběrových průměrů jestliže F - testem ověříme významnost či nevýznamnost rozdílu odpovídajících rozptylů. • Používá se i pro testování rozdílů párovaných hodnot. • Předpokladem použití testu je alespoň přibližně normální rozdělení základního souboru a pro malé rozsahy souborů (n < 30) Příklad t - test Zadání: Ověřte, zda existuje statisticky významný rozdíl mezi průměrným obsahem stroncia (Sr) v mléce změřeným na farmách v blízkosti jaderné elektrárny (XR) a farmách v horských oblastech (XPG). Výsledek: Průměry se významně liší na hladině významnosti p=0,05 Příklad F-test, t - test Zadání: Zjistěte, zda existuje statisticky významný rozdíl (α = 0,05) v mezi denními amplitudami teplot na dvou topoklimatických stanicích. Závěr: rozptyly ani průměry se významně neliší Použití t - testu Testování významnosti rozdílu výběrového průměru a známého průměru základního souboru: Testovací kritérium: s nx t 1−⋅− = µ 1−= nν Protože za oblasti zamítnutí považujeme obě strany křivky t-rozdělení, je zapotřebí rozdělit zvolenou hladinu významnosti na poloviny a v tabulkách vyhledat kritické hodnoty tα pro poloviční hodnoty. Jestliže t > tα zamítáme nulovou hypotézu – výběrový průměr se na zvolené hladině α statisticky významně liší od průměru základního souboru. t - test pro párované hodnoty Máme n párů na sobě závislých měření. Postup testování: Vypočteme rozdíly di mezi oběma měřeními, průměr těchto rozdílů a směrodatnou odchylku sd. Předpokladem použití je opět normální rozdělení. d Používá se v případě, že každý prvek jednoho výběru tvoří pár s určitým prvkem druhého výběru (např. provádíme dvě měření na stejném objektu za změněných podmínek). t - test pro párované hodnoty Nulová hypotéza: 21 µµ = 1−= nν ds nd t 1− = ∑= = n i id n d 1 1 ∑= −= n i id dd n s 1 21 Počet stupňů volnosti: Testovací kritérium: t - test pro párované hodnoty V případě zamítnutí nulové hypotézy (t > tα) lze stanovit 100.(1- α)% interval spolehlivosti rozdílu : 21 µµ − Pokud n >30, potom lze t-test nahradit tzv. z testem 11 21 − +≤−≤ − − n s td n s td dd αα µµ Příklad t - test pro párované hodnoty Statistika - Základní statistiky - T- test, závislé vzorky Zadání: Existuje statisticky významný rozdíl v počtu bezobratlých živočichů zjištěných nad a pod výpustí z kanalizace (data zjištěná pro dvojice na 10 tocích)? Výsledek: Významný na hladině α =0,05 Pro α = 0,01 nevýznamný Neparametrické testy • Neznáme rozdělení základního souboru a chceme porovnávat úroveň hodnot v souboru či prokázat nezávislost znaků. • Jsou vhodné pro hodnocení ordinálních dat či pro data intervalová nebo poměrová, která nemají normální rozdělení Jsou založeny na těchto principech: • počítáme četnost odchylek kladného a záporného znaménka od určité meze (znaménkový test) • počítá se s pořadovými čísly, která jsou vstupním číselným hodnotám přiřazena po jejich setřídění podle velikosti (pořadové metody) Patří sem například: • testy dobré shody (CHI-kvadrát, K-S test) • testy o shodě úrovně (Mann-Whitneyův test, Wilcoxonův test) • testy nezávislosti v kombinační tabulce (CHI-kvadrát) Mann- Whitney U - test • Neparametrický ekvivalent t-testu. Lze ho využít i pro nenormální, silně asymetrická rozložení. • Jako míru centrální tendence využívá ne průměr ale medián a k výpočtu testovacího kritéria využívá ne původních hodnot, ale pořadových čísel. • Může být použit i pro data získaná na ordinální škále Příklad: Porovnáváme zdravotní kondici stromů rostoucích v městě (Z – znečištěné prostředí) a ve volné krajině (Č – relativně čisté prostředí). Tuto zdravotní kondici posuzujeme podle stavu (barvy) olistění v šesti-stupňové škále Mann- Whitney U test - příklad 6 – naprostá většina listů tmavě zelených 5 – …. 4 – … 3 – některé listy mají světlé skvrny 2 – …. 1 – podstatná část listoví má nažloutlou barvu Ordinální škála hodnocení zdravotní kondice stromů Máme k dispozici deset různých vzorků obou lokalit Č 4 5 4 4 5 6 6 6 6 3 Z 2 2 2 1 6 4 4 5 4 3 Prvním krokem je přiřazení pořadových čísel jednotlivým měřením. Pro aplikaci uvedeného testu založeného na pořadí je vhodné, aby byla data uspořádána do jednoho sloupce s indikací, ke které skupině patří. Mann- Whitney U test - příklad ∑ =134Č R∑ = 76ZR Mann- Whitney U test – testovací kritérium Test je založen na výpočtu testovací statistiky U: ∑− + += 1 11 211 2 )1( R nn nnU ∑− + += 2 22 212 2 )1( R nn nnU kde n1 a n2 jsou počty vzorků v jednotlivých výběrech Výrazy a značí sumy pořadových čísel pro jednotlivé výběry. ∑ 1R ∑ 2R Menší z hodnot U1 a U2 se bere jako testovací kritérium a porovnává se s tabulkovou hodnotou. Mann- Whitney U test – příklad (pokrač.) V našem příkladě: ∑ = 76ZR∑ =134Č R a pro UČ tedy 21134 2 )110(10 1010 2 )1( =− + +⋅=− + += ∑ Č ČČ ZČČ R nn nnU a analogicky pro UZ: 7976 2 )110(10 1010 2 )1( =− + +⋅=− + += ∑ Z ZZ ZČZ R nn nnU Menší z hodnot je tedy testovací kritérium U = 21 Mann- Whitney U test Interpretace a vyslovení závěru o testování: Statistický program určí hodnotu p, která přísluší vypočtené hodnotě testovacího kritéria a nebo se pro tuto hodnotu nalezne kritická hodnota v tabulkách pro zvolenou hladinu významnosti α a pro parametry n1 a n2. Horní čísla v tabulce odpovídají α =0,05, dolní potom α = 0,01. V našem případě pro n1=10 a n2=10 Pro U test platí, že čím menší hodnota U, tím menší pravděpodobnost – interpretace je tedy opačná než jako např. u t-testu Na hladině významnosti 5% jsme prokázali statisticky významný rozdíl mezi zdravotní kondicí stromů rostoucích ve znečištěném a relativně čistém prostředí. Neparametrické testy v programu Statistika Statistika – Neparametrická statistika – Porovnání dvou nezávislých vzorků (skupiny) Test Jedná se o test shody. Testujeme, do jaké míry se liší rozložení četností empirického souboru od rozložení základního souboru. 2 χ Četnosti zjištěné při statistickém šetření (empirické): Četnosti získané z teoretického rozložení modelu (očekávané): Smyslem testu je hodnocení rozdílů v četnostech, tedy: ,,...,, ,1,1, jeee nnn ,,...,, ,1,1, jttt nnn jtje nn ,, − Normální rozdělení Chí-kvadrát test = 2,80353, sv = 5 (uprav.) , p = 0,73024 6,5 7,0 7,5 8,0 8,5 9,0 9,5 10,0 10,5 11,0 11,5 12,0 t [°C] 0 5 10 15 20 25 30 ni Test 2 χ Nulová hypotéza H0: Četnosti ne,j a nt,j se liší pouze náhodně Testovací kritérium: ( ) ∑= − = k j jt jtje n nn 1 , 2 ,,2 χ Ve výraze značí k počet skupin, do kterých je soubor tříděn. Testovací kritérium má rozdělení s stupni volnosti. Kritické hodnoty uvádí tabulky. Velké rozdíly v četnostech dávají velké hodnoty testovacího kritéria. 1−= kν 2 χ Test - podmínky použití 2 χ Testu by se nemělo použít v případě, je-li a některá teoretická četnost nt,j je menší než 5. Při k > 2 nemá být více než 20 % teoretických četností menších než 5 a žádná menší než 1. Je možné sloučení některých četností – bez narušení smyslu úlohy. Kolmogorovův – Smirnovův test Tento test lze použít pro testování významnosti shody teoretického a empirického rozložení i v případech, kdy nelze použít CHÍ-kvadrát testu. K-S test: postup testování I. 1. zvolíme hladinu významnosti α 2. roztřídíme zpracovávaná data do skupin 3. stanovíme příslušné teoretické četnosti 4. vypočítáme kumulativní četnosti empirického rozdělení Ne,j 5. vypočítáme kumulativní četnosti teoretického rozdělení Nt,j 6. stanovíme absolutní hodnoty rozdílů kumulovaných četností v odpovídajících skupinách 7. vypočteme hodnotu testovacího kritéria D n NN D jtje ,,max − = K-S test: postup testování II 8. Pro zvolenou hladinu významnosti p a dané n vyhledáme v tabulkách kritickou hodnotu Dα 9. V případě, že D > Dα , potom zamítáme nulovou hypotézu a tvrdíme, že empirické a teoretické rozdělení se statisticky významně liší. K-S test lze použít i pro srovnání dvou výběrových souborů. Potom jako n bereme: 21 21 nn nn n + ⋅ = Statistika – Prokládání rozdělení Zadání: Testujeme, zda lze výběrový soubor proložit normálním rozložením (Existuje shoda empirických a teoretických četností?) Výsledek: Hodnota p je vysoká – není důvod zamítnout nulovou hypotézu. Empirické a teoretické hodnoty se na hladině α= 5 % významně neliší Výběrový soubor má normální rozdělení 2 χPříklad použití testu a K-S testu Posouzení normality pomocí grafů Histogram Posouzení normality pomocí grafů P-P graf (N-P graf) Normální pravděpodobnostní graf: umožňuje posoudit, zda data mají normální rozdělení. Na svislou osu vynášíme uspořádané hodnoty x1 < x2 < x3 < ….xn a na vodorovnou osu potom kvantily normálního rozdělení. Vynesenými body se proloží přímka. Posouzení normality pomocí grafů Q-Q graf Kvantil – kvantilový graf: umožňuje posoudit, zda data pocházejí z nějakého známého rozdělení. Na svislou osu vynášíme uspořádané hodnoty x1 < x2 < x3 < ….xn a na vodorovnou osu potom kvantily vybraného rozdělení. Vynesenými body se proloží přímka. Poznámky Vztahy mezi chybami I. a II. druhu, síla testu: Pravděpodobnost chyby I. druhu značíme α a lze ji vyjádřit jako podmíněnou pravděpodobnost: Pravděpodobnost chyby II. druhu značíme β : P(chyba I. druhu I H0 platí) = α P(chyba II. druhu I H0 neplatí) = β Opačné jevy k chybám I. a II. druhu Spolehlivost testu: (1- α) Síla testu: (1- β) • Síla testu vyjadřuje, s jakou pravděpodobností zamítneme nulovou hypotézu, platí-li hypotéza alternativní • Udává pravděpodobnost, že se nedopustíme chyby II. druhu Příklad Z-testu, oboustranná alternativa Ve výběru 216 vzorků byl zjišťován obsah rozpuštěných látek: Průměr: 34,46 g/l Směrodatná chyba: 0,397 g/l průměr se neliší od průměru základního souboru (33,5 g/l) Protože měříme spojitou veličinu a rozsah výběru je velký – můžeme předpokládat normální rozdělení a použít tzv. Z-testu: 0µµ = 0µµ ≠ H0 H1 Testová charakteristika 1 ˆ ˆ − == n s n x σ σ Příklad Z-testu, oboustranná alternativa Z1-0,5αααα=1,96 α= 0,05 a tedy: 1-0,5α=0,9750 Nalezneme kritickou hodnotu Z standardizovaného normálního rozdělení odpovídající 95% hladině spolehlivosti – nebo–li 5% hladině významnosti α: Z1-0,5α Z1-0,5α = 1,960 Protože Z > Z1-0,5α dostáváme na zvolené hladině významnosti významný výsledek – zamítáme H0 – Průměr získaný ze vzorků se liší od průměru populace Příklad Z-testu, jednostranná alternativa Ve výběru 216 vzorků byl zjišťován obsah rozpuštěných látek: Průměr: 34,46 g/l Směrodatná chyba: 0,397 g/l průměr je stejný jako průměr základního souboru (33,5 g/l) 0µµ = H0 H1 Testová charakteristika Z = 2,418 průměr je větší 0µµ > Kritická hodnota Z pro α = 0,05, tedy Z1-α = 1,645 Protože Z > Z1-α zamítáme H0 – Průměr získaný ze vzorků je významně větší než průměr populace na 5 % hladině významnosti Příklad Z-testu s jednostrannou alternativou Test H0 oproti H1: 0µµ > Test H0 oproti H1: 0µµ < 2. Testování významnosti rozdílu dvou průměrů pokud Ftestem nezamítneme hypotézu . Použití t - testu 221 −+= nnν 2 2 2 1 ˆˆ σσ = ( ) 21 2121 2 22 2 11 21 2 nn nnnn snsn xx t + −+ ⋅ + − = 3. Testování významnosti rozdílu dvou průměrů pokud Ftestem zjistíme, že mezi rozptyly je statisticky významný rozdíl Použití t - testu 2 2 2 1 ˆˆ σσ ≠ Kritická hodnota Testovací kritérium: 11 2 2 1 2 1 21 − + − − = nn s n s xx t 11 11 2 2 2 1 2 1 2 2 2'' 1 2 1' − + − − + − =+ n s n s n s t n s t t αα α + αt Použití t - testu Hodnota značí kritickou hodnotu t-rozdělení pro Hodnota kritickou hodnotu pro Kritické hodnoty lze najít v tabulkách (Brázdil a kol. 1995, příl. VII). Postup testování je obdobný jako v případě výše uvedených testů. Je-li t > nulovou hypotézu zamítáme Na zvolené α je rozdíl průměrů významný. 111 −= nν 122 −= nν ' αt '' αt + αt