1 Statistické metody a zpracování dat V. Testování statistických hypotéz Petr Dobrovolný K čemu to je ? (příklad) Má smysl se připravovat na písemný test ze statistiky? Má to smysl! K čemu to je? Ověřování domněnek či předpokladů. Hledání odpovědí na určitým způsobem zformulované otázky. Příklady: * Jak mnoho se liší průměrná míra nezaměstnanosti v našem okrese od celorepublikového průměru? * Liší se významně údaje zjištěné dvěma různými metodami? * Pochází výběr ze základního souboru, který má určité teoretické rozdělení? * Je jedna metoda lepší než druhá? Obecný postup testování 1. Formulace nulové hypotézy 2. Volba hladiny významnosti 3. Volba vhodného testovacího kritéria 4. Výpočet hodnoty testovacího kritéria z empirických dat 5. Porovnání vypočtené hodnoty s hodnotou kritickou nebo její převedení do pravděpodobnostní škály 6. Vyslovení závěru o výsledku testu (přijetí či zamítnutí nulové hypotézy) Základní pojmy * Statistická hypotéza ­ předpoklad o neznámé vlastnosti základního souboru. * Prověřujeme tzv. nulovou hypotézu (H0). Např. průměry výběrových souborů se neliší (pocházejí z jednoho základního souboru). * Nulová hypotéza je obvykle opakem hypotézy pracovní (je obvykle opakem toho, co chceme výzkumem prokázat, když zahajujeme studii a začínáme sbírat data). Obvykle deklaruje ,,žádný rozdíl" * Alternativní hypotéza (H1) ­ situace, kdy H0 neplatí. Tedy obvykle vyjadřuje ,,existenci diference" či ,,existenci závislosti" ˇPlatnost hypotézy se prověřuje testem významnosti. Základní pojmy * Hypotéza může být dvoustranná a test dvoustranným * Existují i jednostranné (pravostranné a levostranné) hypotézy 0 = 0 0 > 0 < H0 H1 Jednostranný test H1 H1 2 Základní pojmy * Hladina významnosti () ­ pravděpodobnost, že náhodná odchylka překročí tzv. kritickou hodnotu. * Volíme co nejnižší ( = 0,05 či 0,01 tj. 5 % či 1 %). * Odchylky, které se vyskytují s menší pravděpodobností než jsou statisticky významné na zvolené hladině. Obecný tvar testovacího kritéria: Testovou statistiku vyhodnotíme tak, že spočteme pravděpodobnost, že bychom mohli pozorovat námi zjištěnou, nebo ještě extrémnější (tj. méně pravděpodobnou) hodnotu, pokud by byla nulová hypotéza pravdivá. Testovací kritérium * Použité testovací kritérium musí odpovídat povaze problému. * Každé testovací kritérium má své teoretické rozdělení. * Ve statistických tabulkách jsou uvedeny kritické hodnoty testovacích kritérií pro běžně používané hladiny významnosti a běžné rozsahy výběrových souborů. * Tyto rozsahy jsou většinou tabelovány v tzv. stupních volnosti. * Pokud nejsou kritické hodnoty tabelovány (pro velká n) lze vypočítat pomocí SW Dva způsoby hodnocení vypočteného testovacího kritéria 1. porovnání vypočtené hodnoty s hodnotou kritickou, kterou nalezneme v tabulkách * vypočteme hodnotu testovací statistiky * v tabulkách nalezneme tzv. kritickou hodnotu testovací charakteristiky pro zvolené * obě hodnoty porovnáme Hodnocení testovacího kritéria s využitím statistických tabulek Výrok o platnosti či neplatnosti nulové hypotézy vyslovujeme na základě porovnání vypočtené hodnoty testovacího kritéria s hodnotou kritickou: I. Vypočtené kritérium je větší než kritická hodnota * Jedná se o případ, který jsme očekávali s nepatrnou pravděpodobností * Takový případ je téměř nemožný. * Testovaná odchylka tedy nemá náhodný charakter. * Nulovou hypotézu zamítáme a rozdíl mezi testovanými charakteristikami je statisticky významný na zvolené hladině . * II. Vypočtené kritérium je menší než kritická hodnota * Jedná se o případ, který jsme očekávali s pravděpodobností 1- ­ tedy velmi vysokou * Takový případ můžeme považovat za téměř jistý. * Mezi testovanými charakteristikami není rozdílu. * Nulovou hypotézu přijímáme a rozdíl mezi testovanými charakteristikami není statisticky významný na zvolené hladině . Hodnocení testovacího kritéria s využitím statistických tabulek Dva způsoby hodnocení vypočteného testovacího kritéria 2. převedení hodnoty testovací statistiky do pravděpodobnostní škály na tzv. p hodnotu (hodnotu významnosti) (tento způsob hodnocení nabízejí počítačové programy) 3 Hodnocení testovacího kritéria výpočet p hodnoty p hodnota odpovídá na otázku: Jestliže H0 platí, jaká je pravděpodobnost, že získáme právě vypočítanou či ještě neobvyklejší hodnotu testovací charakteristiky. Je-li p hodnota malá, máme doklad, že H0 neplatí. Interpretace p hodnoty p <= důkaz pro zamítnutí H0 p > nemáme důkaz pro zamítnutí H0 Protože má testovací kritérium určité teoretické rozdělení, každé jeho hodnotě přísluší určitá pravděpodobnost (p hodnota). oblast zamítnutí = 0,05 p = 0,0052 z = 1,64 z = 2,56 Interpretace jednostranného testu oblast zamítnutí = 0,025 p = 0,0052 z = 1,96 z = 2,56 z = -1,96 = 0,025 oblast zamítnutí Interpretace dvoustranného testu Při testování se můžeme dopustit dvou druhů chyb: Chyba I. druhu ­ nulová hypotéza platí, ale zamítne se Chyba II. druhu ­ nulová hypotéza neplatí, ale přijme se správnýchyba II. druhuH0 neplatí chyba I. druhusprávnýH0 platíSkutečnost H0 neplatíH0 platí Závěr testu Chyba I. druhu se omezuje volbou . Čím menší hladinu významnosti zvolíme, tím menší je pravděpodobnost chyby I. druhu. Naopak však ale roste pravděpodobnost chyby II. druhu. Vztahy mezi chybami I. a II. druhu, síla testu: Pravděpodobnost chyby I. druhu značíme a lze ji vyjádřit jako podmíněnou pravděpodobnost: Pravděpodobnost chyby II. druhu značíme : P(chyba I. druhu I H0 platí) = P(chyba II. druhu I H0 neplatí) = Opačné jevy k chybám I. a II. druhu Spolehlivost testu: (1- ) Síla testu: (1- ) * Síla testu vyjadřuje, s jakou pravděpodobností zamítneme nulovou hypotézu, platí-li hypotéza alternativní * Udává pravděpodobnost, že se nedopustíme chyby II. druhu Rozdělení testů Testy parametrické ­ testy o charakteristikách základního souboru, testy o parametrech rozdělení základního souboru (testy o průměru, rozptylu, o shodě dvou průměrů, ...). Data měřena na intervalové či poměrové škále. Předpokládá se, že rozdělení základního souboru z něhož pochází výběr, je určité teoretické rozdělení (normální). Neparametrické testy - nevíme nic o rozdělení základního souboru. Data měřena na nominální či ordinální škále. Například ověřujeme předpoklad o normalitě. Patří sem: Testy dobré shody, testy nezávislosti v kombinační tabulce, ... Menší síla testů (sociologie, psychologie, ...). Testy párové a nepárové n1 = n2 n1 se nerovná n2 4 Příklad Z-testu, oboustranná alternativa Ve výběru 216 vzorků byl zjišťován obsah rozpuštěných látek: Průměr: 34,46 g/l Směrodatná chyba: 0,397 g/l průměr se neliší od průměru základního souboru (33,5 g/l) Protože měříme spojitou veličinu a rozsah výběru je velký můžeme předpokládat normální rozdělení a použít tzv. Z-testu: 0 = 0 H0 H1 Testová charakteristika 1 ^ ^ - == n s n x Příklad Z-testu, oboustranná alternativa Z1-0,5=1,96 = 0,05 a tedy: 1-0,5=0,9750 Nalezneme kritickou hodnotu Z standardizovaného normálního rozdělení odpovídající 95% koeficientu spolehlivosti ­ nebo­li 5% hladině významnosti : Z1-0,5 Z1-0,5 = 1,960 Protože Z > Z1-0,5 dostáváme na zvolené hladině významnosti významný výsledek ­ zamítáme H0 ­ Průměr získaný ze vzorků se liší od průměru populace Příklad Z-testu, jednostranná alternativa Ve výběru 216 vzorků byl zjišťován obsah rozpuštěných látek: Průměr: 34,46 g/l Směrodatná chyba: 0,397 g/l průměr je stejný jako průměr základního souboru (33,5 g/l) 0 = H0 H1 Testová charakteristika Z = 2,418 průměr je větší 0 > Kritická hodnota Z pro = 0,05, tedy Z1- = 1,645 Protože Z > Z1- zamítáme H0 ­ Průměr získaný ze vzorků je významně větší než průměr populace na 5 % hladině významnosti Příklad Z-testu s jednostrannou alternativou Test H0 oproti H1: 0 > Test H0 oproti H1: 0 < F - test Používá se k testování významnosti rozdílu mezi dvěma rozptyly. Testovací kritérium je definováno jako poměr odhadů dvou rozptylů základních souborů 2 2 2 1 ^ ^ =F Odhady zjistíme z výběrových rozptylů ze vztahů: 2 1 1 12 1 1 ^ s n n = 2 2 2 22 2 1 ^ s n n - =a 5 F - test Do vzorce s testovacím kritériem F se dosazuje do čitatele vždy větší hodnota. Počty stupňů volnosti: Kritické hodnoty veličiny F jsou tabelovány Nulová hypotéza: Předpokladem použití testu je alespoň přibližně normální rozdělení základních souborů. 122 -= n111 -= n 2 2 2 1 ^^ = F ­ test: obecný postup testování 1. zvolíme hladinu významnosti = 0,05 či = 0,01 2. vypočteme odhady rozptylů základních souborů pomocí rozptylů výběrových souborů 3. vypočítáme hodnotu testovacího kritéria F (F musí být větší než 1) 4. určíme počty stupňů volnosti a pro daná a vyhledáme kritickou hodnotu F/2 5. Porovnáme hodnotu F s kritickou hodnotou F/2 a zhodnotíme výsledek t - test * Je vhodný pro testování rozdílů dvou veličin (např. průměru základního a výběrového souboru). * Lze ho použít i pro testování rozdílu dvou výběrových průměrů jestliže F - testem ověříme významnost či nevýznamnost rozdílu odpovídajících rozptylů. * Používá se i pro testování rozdílů párovaných hodnot. * Předpokladem použití testu je alespoň přibližně normální rozdělení základního souboru a pro malé rozsahy souborů (n < 30) Použití t - testu 1. Testování významnosti rozdílu výběrového průměru a známého průměru základního souboru: Testovací kritérium: s nx t 1-- = 1-= n Protože za oblasti zamítnutí považujeme obě strany křivky trozdělení, je zapotřebí rozdělit zvolenou hladinu významnosti na poloviny a v tabulkách vyhledat kritické hodnoty t pro poloviční hodnoty. Jestliže t > t zamítáme nulovou hypotézu ­ výběrový průměr se na zvolené hladině statisticky významně liší od průměru základního souboru. 2. Testování významnosti rozdílu dvou průměrů pokud Ftestem nezamítneme hypotézu . Použití t - testu 221 -+= nn 2 2 2 1 ^^ = ( ) 21 2121 2 22 2 11 21 2 nn nnnn snsn xx t + -+ + - = 3. Testování významnosti rozdílu dvou průměrů pokud Ftestem zjistíme, že mezi rozptyly je statisticky významný rozdíl Použití t - testu 2 2 2 1 ^^ Kritická hodnota Testovací kritérium: 11 2 2 1 2 1 21 - + - - = nn s n s xx t 11 11 2 2 2 1 2 1 2 2 2'' 1 2 1' - + - - + - =+ n s n s n s t n s t t + t 6 Použití t - testu Hodnota značí kritickou hodnotu t-rozdělení pro Hodnota kritickou hodnotu pro Kritické hodnoty lze najít v tabulkách (Brázdil a kol. 1995, příl. VII). Postup testování je obdobný jako v případě výše uvedených testů. Je-li t > nulovou hypotézu zamítáme Na zvolené je rozdíl průměrů významný. 111 -= n 122 -= n ' t '' t + t Příklad t - test Statistika Základní statistiky T- test, nezávislé, dle proměnných Zadání: Existuje statisticky významný rozdíl mezi průměrným obsahem Stroncia v mléce změřeným na farmách v blízkosti jaderné elektrárny (XR) a farmách v horských oblastech (XPG) Výsledek: Průměry se významně liší na hladině významnosti p=0,05 Příklad F-test, t - test (Brázdil a kol. 1995, str. 114, cvičení č. 7.4) t - test pro párované hodnoty Používá se v případě, že každý prvek jednoho výběru tvoří pár s určitým prvkem druhého výběru (např. provádíme dvě měření na stejném objektu za změněných podmínek). Máme n párů na sobě závislých měření. Postup testování: Vypočteme rozdíly di mezi oběma měřeními, průměr těchto rozdílů a směrodatnou odchylku sd. Předpokladem použití je opět normální rozdělení. d t - test pro párované hodnoty Nulová hypotéza: 21 = 1-= n ds nd t 1- = = = n i id n d 1 1 = -= n i id dd n s 1 21 Počet stupňů volnosti: Testovací kritérium: t - test pro párované hodnoty V případě zamítnutí nulové hypotézy (t > t) lze stanovit 100.(1- )% interval spolehlivosti rozdílu :21 Pokud n >30, potom lze t-test nahradit tzv. z testem 11 21 - +- - - n s td n s td dd 7 Příklad t - test pro párované hodnoty Statistika - Základní statistiky - T- test, závislé vzorky Zadání: Existuje statisticky významný rozdíl v počtu bezobratlých živočichů zjištěných nad a pod výpustí z kanalizace (data zjištěná pro dvojice na 10 tocích)? Výsledek: Významný na hladině =0,05 Pro = 0,01 nevýznamný z - test Pokud n >30, potom lze t-test nahradit tzv. z-testem 2 2 2 1 2 1 21 n s n s xx z + =testovací kritérium: Výhody z-testu: * využití násobků směrodatné odchylky normovaného normálního rozdělení jako kritických hodnot * kritické z hodnoty nemají stupně volnosti (normované rozdělení) Tedy kritická hodnota 1,96 a menší indikuje pravděpodobnost větší nebo rovnu 0,05 ­ tedy nevýznamný výsledek kritická hodnota větší než 2,576 indikuje pravděpodobnost menší než 0,01 ­ tj. vysoce významný rozdíl mezi testovanými hodnotami Neparametrické testy * Neznáme rozdělení základního souboru a chceme porovnávat úroveň hodnot v souboru či prokázat nezávislost znaků. * Jsou vhodné pro hodnocení ordinálních dat či pro data intervalová nebo poměrová, která nemají normální rozdělení Jsou založeny na těchto principech: * počítáme četnost odchylek kladného a záporného znaménka od určité meze (znaménkový test) * počítá se s pořadovými čísly, která jsou vstupním číselným hodnotám přiřazena po jejich setřídění podle velikosti (pořadové metody) Patří sem například testy: * testy dobré shody (CHI-kvadrát, K-S test) * testy o shodě úrovně (Mann-Whitneyův test, Wilcoxonův test) * testy nezávislosti v kombinační tabulce (CHI-kvadrát) Mann- Whitney U - test * Neparametrický ekvivalent t-testu. Lze ho využít i pro nenormální, silně asymetrická rozložení. * Jako míru centrální tendence využívá ne průměr ale medián a k výpočtu testovacího kritéria využívá ne původních hodnot, ale pořadových čísel. * Může být použit i pro data získaná na ordinální škále Příklad: Porovnáváme zdravotní kondici stromů rostoucích v městě (Z ­ znečištěné prostředí) a ve volné krajině (Č ­ relativně čisté prostředí). Tuto zdravotní kondici posuzujeme podle stavu (barvy) olistění v šesti-stupňové škále Mann- Whitney U test - příklad 6 ­ naprostá většina listů tmavě zelených 5 ­ .... 4 ­ ... 3 ­ některé listy mají světlé skvrny 2 ­ .... 1 ­ podstatná část listoví má nažloutlou barvu Ordinální škála hodnocení zdravotní kondice stromů Máme k dispozici deset různých vzorků obou lokalit Č 4 5 4 4 5 6 6 6 6 3 Z 2 2 2 1 6 4 4 5 4 3 Prvním krokem je přiřazení pořadových čísel jednotlivým měřením. Pro aplikaci uvedeného testu založeného na pořadí je vhodné, aby byla data uspořádána do jednoho sloupce s indikací, ke které skupině patří. Mann- Whitney U test - příklad =134Č R = 76ZR 8 Mann- Whitney U test ­ testovací kritérium Test je založen na výpočtu testovací statistiky U: - + += 1 11 211 2 )1( R nn nnU - + += 2 22 212 2 )1( R nn nnU kde n1 a n2 jsou počty vzorků v jednotlivých výběrech Výrazy a značí sumy pořadových čísel pro jednotlivé výběry. 1R 2R Menší z hodnot U1 a U2 se bere jako testovací kritérium a porovnává se s tabulkovou hodnotou. Mann- Whitney U test ­ příklad (pokrač.) V našem příkladě: = 76ZR =134Č R a pro UČ tedy 21134 2 )110(10 1010 2 )1( =- + +=- + += Č ČČ ZČČ R nn nnU a analogicky pro UZ: 7976 2 )110(10 1010 2 )1( =- + +=- + += Z ZZ ZČZ R nn nnU Menší z hodnot je tedy testovací kritérium U = 21 Mann- Whitney U test Interpretace a vyslovení závěru o testování: Statistický program určí hodnotu p, která přísluší vypočtené hodnotě testovacího kritéria a nebo se pro tuto hodnotu nalezne kritická hodnota v tabulkách pro zvolenou hladinu významnosti a pro parametry n1 a n2. Horní čísla v tabulce odpovídají =0,05, dolní potom = 0,01. V našem případě pro n1=10 a n2=10 Pro U test platí, že čím menší hodnota U, tím menší pravděpodobnost interpretace je tedy opačná jako např. u t-testu Na hladině významnosti 5% jsme prokázali statisticky významný rozdíl mezi zdravotní kondicí stromů rostoucích ve znečištěném a relativně čistém prostředí. Neparametrické testy v programu Statistika Statistika ­ Neparametrická statistika ­ Porovnání dvou nezávislých vzorků (skupiny) Test Jedná se o test shody. Testujeme, do jaké míry se liší rozložení četností empirického souboru od rozložení základního souboru. 2 Četnosti zjištěné při statistickém šetření (empirické): Četnosti získané z teoretického rozložení modelu (očekávané): Smyslem testu je hodnocení rozdílů v četnostech, tedy: ,,...,, ,1,1, jeee nnn ,,...,, ,1,1, jttt nnn jtje nn ,, Normální rozdělení Chí-kvadrát test = 2,80353, sv = 5 (uprav.) , p = 0,73024 6,5 7,0 7,5 8,0 8,5 9,0 9,5 10,0 10,5 11,0 11,5 12,0 t [°C] 0 5 10 15 20 25 30 ni Test 2 Nulová hypotéza H0: Četnosti ne,j a nt,j se liší pouze náhodně Testovací kritérium: ( ) = - = k j jt jtje n nn 1 , 2 ,,2 Ve výraze značí k počet skupin, do kterých je soubor tříděn. Testovací kritérium má rozdělení s stupni volnosti. Kritické hodnoty uvádí tabulky. Velké rozdíly v četnostech dávají velké hodnoty testovacího kritéria. 1-= k 2 9 Test - podmínky použití 2 Testu by se nemělo použít v případě, je-li a některá teoretická četnost nt,j je menší než 5. Při k > 2 nemá být více než 20 % teoretických četností menších než 5 a žádná menší než 1. Je možné sloučení některých četností ­ bez narušení smyslu úlohy. Kolmogorovův ­ Smirnovův test Tento test lze použít pro testování významnosti shody teoretického a empirického rozložení i v případech, kdy nelze použít CHÍ-kvadrát testu. K-S test: postup testování I. 1. zvolíme hladinu významnosti 2. roztřídíme zpracovávaná data do skupin 3. stanovíme příslušné teoretické četnosti 4. vypočítáme kumulativní četnosti empirického rozdělení Ne,j 5. vypočítáme kumulativní četnosti teoretického rozdělení Nt,j 6. stanovíme absolutní hodnoty rozdílů kumulovaných četností v odpovídajících skupinách 7. vypočteme hodnotu testovacího kritéria D n NN D jtje ,,max - = K-S test: postup testování II 8. Pro zvolenou hladinu významnosti p a dané n vyhledáme v tabulkách kritickou hodnotu D 9. V případě, že D > D , potom zamítáme nulovou hypotézu a tvrdíme, že empirické a teoretické rozdělení se statisticky významně liší. K-S test lze použít i pro srovnání dvou výběrových souborů. Potom jako n bereme: 21 21 nn nn n + = Statistika ­ Prokládání rozdělení Zadání: Testujeme, zda lze výběrový soubor proložit normálním rozložením (Existuje shoda empirických a teoretických četností?) Výsledek: Hodnota p je vysoká ­ není důvod zamítnout nulovou hypotézu. Empirické a teoretické hodnoty se na hladině = 5 % významně neliší Výběrový soubor má normální rozdělení 2 Příklad použití testu a K-S testu