1 Statistické metody a zpracování dat V. Testování statistických hypotéz Petr Dobrovolný K čemu to je? Ověřování předpokladů Příklady: Jak mnoho se liší průměrná míra nezaměstnanosti v okrese X od celorepublikového průměru? Jak mnoho se liší údaje naměřené dvěma různými metodami? Pochází výběr ze základního souboru, který má určité teoretické rozdělení? Základní pojmy ˇ Hladina významnosti (p) ­ pravděpodobnost, že náhodná odchylka překročí tzv. kritickou hodnotu. Volíme p co nejnižší (p=0,05 či 0,01 tj. 5 % či 1 %). ˇ Odchylky, které se vyskytují s menší pravděpodobností než p jsou statisticky významné na zvolené hladině. ˇ Statistická hypotéza ­ předpoklad o neznámé vlastnosti základního souboru. Prověřujeme tzv. nulovou hypotézu (H0). Např. průměry výběrových souborů se neliší (pocházejí z jednoho základního souboru). ˇ Platnost hypotézy se prověřuje testem významnosti. ˇ Nulová hypotéza je obvykle opakem hypotézy pracovní (je obvykle opakem toho, co chceme výzkumem prokázat, když zahajujeme studii a začínáme sbírat data). Základní pojmy ˇ Proti nulové hypotéze stojí alternativní hypotéza H1 ˇ Hypotéza může být dvoustranná a test dvoustranným ˇ Existují i jednostranné (pravostranné a levostranné) hypotézy 0 = 0 0 > 0 < H0 H1 Jednostranný test H1 H1 Testovací kritérium Obecný tvar Testovou statistiku vyhodnotíme tak, že spočteme pravděpodobnost, že bychom mohli pozorovat námi zjištěnou, nebo ještě extrémnější (tj. méně pravděpodobnou) hodnotu, pokud by byla nulová hypotéza pravdivá. Testovací kritérium ˇ Použité testovací kritérium musí odpovídat povaze problému. ˇ Každé testovací kritérium má své teoretické rozdělení. ˇ Ve statistických tabulkách jsou uvedeny kritické hodnoty testovacích kritérií pro běžně používané hladiny významnosti a běžné rozsahy výběrových souborů. ˇ Tyto rozsahy jsou většinou tabelovány v tzv. stupních volnosti. ˇ Pokud nejsou kritické hodnoty tabelovány (pro velká n) lze vypočítat pomocí SW 2 Testovací kritérium Výrok o platnosti či neplatnosti nulové hypotézy vyslovujeme na základě porovnání vypočtené hodnoty testovacího kritéria s hodnotou kritickou: ˇ I. Vypočtené kritérium je větší než kritická hodnota ˇ Jedná se o případ, který jsme očekávali s nepatrnou pravděpodobností ˇ Takový případ je téměř nemožný. ˇ Testovaná odchylka tedy nemá náhodný charakter. ˇ Nulovou hypotézu zamítáme a rozdíl mezi testovanými charakteristikami je statisticky významný na zvolené hladině p. Testovací kritérium ˇ II. Vypočtené kritérium je menší než kritická hodnota ˇ Jedná se o případ, který jsme očekávali s pravděpodobností 1-p ­ tedy velmi vysokou ˇ Takový případ můžeme považovat za téměř jistý. ˇ Mezi testovanými charakteristikami není rozdílu. ˇ Nulovou hypotézu přijímáme a rozdíl mezi testovanými charakteristikami není statisticky významný na zvolené hladině p. Při testování se můžeme dopustit dvou druhů chyb: Chyba 1. druhu ­ zamítneme správnou hypotézu Chyba 2. druhu ­ nezamítneme (přijmeme) nesprávnou hypotézu Chyba 1. druhu se omezuje volbou p. Čím menší hladinu významnosti zvolíme, tím menší je pravděpodobnost chyby 1. druhu. Naopak však ale roste pravděpodobnost chyby 2. druhu. Vztahy mezi chybami I. a II. druhu: - pravděpodobnost chyby prvního druhu - pravděpodobnost chyby druhého druhu Síla testu ˇ Pravděpodobnost 1 ­ označujeme jako sílu testu. ˇ Vyjadřujeme, s jakou pravděpodobností zamítneme nulovou hypotézu, platí-li hypotéza alternativní ˇ Udává pravděpodobnost, že se nedopustíme chyby II. druhu Rozdělení testů Testy parametrické ­ testy o charakteristikách základního souboru, testy o parametrech rozdělení základního souboru (testy o průměru, rozptylu, o shodě dvou průměrů, ...). Předpokládá se, že rozdělení základního souboru z něhož pochází výběr, je určité teoretické rozdělení (normální). Neparametrické testy - nevíme nic o rozdělení základního souboru. Například ověřujeme předpoklad o normalitě. Patří sem: Testy dobré shody, testy nezávislosti v kombinační tabulce, testy o shodě úrovně Menší síla testů, Sociologie, psychologie, ... 3 Obecný postup testování ˇ formulace nulové hypotézy ˇ volba hladiny významnosti ˇ volba vhodného testovacího kritéria ˇ výpočet hodnoty testovacího kritéria z empirických dat ˇ porovnání vypočtené hodnoty s hodnotou kritickou (z tabulek) ˇ vyslovení závěru o výsledku testu (přijetí či zamítnutí nulové hypotézy) Příklad Z-testu, oboustranná alternativa Ve výběru 216 vzorků byl zjišťován obsah rozpuštěných látek: Průměr: 34,46 g/l Směrodatná chyba: 0,397 g/l průměr se neliší od průměru základního souboru (33,5 g/l) Protože měříme spojitou veličinu a rozsah výběru je velký ­ můžeme předpokládat normální rozdělení a použít tzv. Z-testu: 0 = 0 H0 H1 Testová charakteristika n s sx = Nalezneme kritickou hodnotu Z standardizovaného normálního rozdělení odpovídající 95% koeficientu spolehlivosti ­ nebo­li 5% hladině významnosti : Z1-0,5 Z1-0,5 = 1,960 Protože Z > Z1-0,5 dostáváme na zvolené hladině významnosti významný výsledek ­ zamítáme H0 ­ Průměr získaný ze vzorků se liší od průměru populace Příklad Z-testu, jednostranná alternativa Ve výběru 216 vzorků byl zjišťován obsah rozpuštěných látek: Průměr: 34,46 g/l Směrodatná chyba: 0,397 g/l průměr je stejný jako průměr základního souboru (33,5 g/l) 0 = H0 H1 Testová charakteristika Z = 2,418 průměr je větší 0 > Kritická hodnota Z pro = 0,05, tedy Z1- = 1,645 Protože Z > Z1- zamítáme H0 ­ Průměr získaný ze vzorků je významně větší od průměru populace na 5 % hladině významnosti Příklad Z-testu s jednostrannou alternativou Test H0 oproti H1: 0 > Test H0 oproti H1: 0 < F - test Používá se k testování významnosti rozdílu mezi dvěma rozptyly. Testovací kritérium je definováno jako poměr odhadů dvou rozptylů základních souborů 2 2 2 1 ^ ^ =F Odhady zjistíme z výběrových rozptylů ze vztahů: 2 1 1 12 1 1 ^ s n n - = 2 2 2 22 2 1 ^ s n n - =a 4 F - test Do vzorce s testovacím kritériem F se dosazuje do čitatele vždy větší hodnota. Počty stupňů volnosti: Kritické hodnoty veličiny F jsou tabelovány Nulová hypotéza: Předpokladem použití testu je alespoň přibližně normální rozdělení základních souborů. 122 -= n111 -= n 2 2 2 1 ^^ = F ­ test: obecný postup testování 1. zvolíme hladinu významnosti p = 0,05 či p = 0,01 2. vypočteme odhady rozptylů základních souborů pomocí rozptylů výběrových souborů 3. vypočítáme hodnotu testovacího kritéria F (F musí být větší než 1) 4. určíme počty stupňů volnosti a pro daná a vyhledáme kritickou hodnotu Fp/2 5. Porovnáme hodnotu F s kritickou hodnotou Fp/2 a zhodnotíme výsledek t - test ˇ Je vhodný pro testování rozdílů dvou veličin (např. průměru základního a výběrového souboru). ˇ Lze ho použít i pro testování rozdílu dvou výběrových průměrů jestliže F-testem ověříme významnost či nevýznamnost rozdílu odpovídajících rozptylů. ˇ Používá se i pro testování rozdílů párovaných hodnot. ˇ Předpokladem použití testu je alespoň přibližně normální rozdělení základního souboru a pro malé rozsahy souborů (n < 30) Použití t - testu 1. Testování významnosti rozdílu výběrového průměru a známého průměru základního souboru: Testovací kritérium: s nx t 1-- = 1-= n Protože za oblasti zamítnutí považujeme obě strany křivky t- rozdělení, je zapotřebí rozdělit zvolenou hladinu významnosti na poloviny a v tabulkách vyhledat kritické hodnoty tp pro poloviční hodnoty. Jestliže t > tp zamítáme nulovou hypotézu ­ výběrový průměr se na zvolené hladině p statisticky významně liší od průměru základního souboru. 2. Testování významnosti rozdílu dvou průměrů pokud F-testem nezamítneme hypotézu . Použití t - testu ( ) 21 2121 2 22 2 11 21 2 nn nnnn snsn xx t + -+ + - = 221 -+= nn 2 2 2 1 ^^ = 3. Testování významnosti rozdílu dvou průměrů pokud F-testem zjistíme, že mezi rozptyly je statisticky významný rozdíl Použití t - testu 2 2 2 1 ^^ 11 11 2 2 2 1 2 1 2 2 2'' 1 2 1' - + - - + - =+ n s n s n s t n s t t pp p + ptKritická hodnota Testovací kritérium: 11 2 2 1 2 1 21 - + - - = nn s n s xx t 5 Použití t - testu Hodnota značí kritickou hodnotu t-rozdělení pro Hodnota kritickou hodnotu pro Kritické hodnoty lze najít v tabulkách (Brázdil a kol. 1995, příl. VII). Postup testování je obdobný jako v případě výše uvedených testů. Je-li t > nulovou hypotézu zamítáme ­ na zvolené p je rozdíl průměrů významný. 111 -= n ' pt '' pt 122 -= n + pt Příklad t - test Statistica ­ Základní statistiky T- test, nezávislé, dle proměnných Zadání: Existuje statisticky významný rozdíl mezi průměrným obsahem Stroncia v mléce změřeným na farmách v blízkosti jaderné elektrárny (XR) a farmách v horských oblastech (XPG) Výsledek: Průměry se významně liší na hladině významnosti p=0,05 t - test pro párované hodnoty Používá se v případě, že každý prvek jednoho výběru tvoří pár s určitým prvkem druhého výběru (např. provádíme dvě měření na stejném objektu za změněných podmínek). Máme n párů na sobě závislých měření. Postup testování: Vypočteme rozdíly di mezi oběma měřeními, průměr těchto rozdílů a směrodatnou odchylku sd. Předpokladem použití je opět normální rozdělení. d t - test pro párované hodnoty Nulová hypotéza: 21 = 1-= n ds nd t 1- = = = n i id n d 1 1 = -= n i id dd n s 1 21 Počet stupňů volnosti: Testovací kritérium: t - test pro párované hodnoty V případě zamítnutí nulové hypotézy (t > tp) lze stanovit 100.(1-p)% interval spolehlivosti rozdílu : 11 21 - +- - - n s td n s td d p d p 21 - Pokud n >30, potom lze t-test nahradit tzv. z testem Příklad t - test pro párované hodnoty Statistica - Základní statistiky - T- test, závislé vzorky Zadání: Existuje statisticky významný rozdíl v počtu bezobratlých živočichů zjištěných nad a pod výpustí z kanalizace (data zjištěná pro dvojice na 10 tocích)? Výsledek: Ano, na hladině p=0,05 Pro p=0,01 nevýznamný 6 z - test Pokud n >30, potom lze t-test nahradit tzv. z testem 2 2 2 1 2 1 21 n s n s xx z + - =testovací kritérium: Výhody z-testu: ˇ využití násobků směrodatné odchylky normovaného normálního rozdělení jako kritických hodnot ˇ kritické z hodnoty nemají stupně volnosti (normované rozdělení) Tedy kritická hodnota 1,96 a menší indikuje pravděpodobnost větší nebo rovnu 0,05 ­ tedy nevýznamný výsledek kritická hodnota větší než 2,576 indikuje pravděpodobnost menší než 0,01 ­ tj. vysoce významný rozdíl mezi testovanými hodnotami Mann- Whitney U - test ˇ Neparametrický ekvivalent t-testu. Lze ho využít i pro nenormální, silně asymetrická rozložení. ˇ Jako míru centrální tendence využívá ne průměr ale medián a k výpočtu testovacího kritéria využívá ne původních hodnot, ale pořadových čísel. ˇ Může být použit i pro data získaná na ordinální škále Příklad: Porovnáváme zdravotní kondici stromů rostoucích v městě (Z ­ znečištěné prostředí) a ve volné krajině (Č ­ relativně čisté prostředí). Tuto zdravotní kondici posuzujeme podle stavu (barvy) olistění v šesti-stupňové škále Mann- Whitney U test - příklad 6 ­ naprostá většina listů tmavě zelených 5 ­ .... 4 ­ ... 3 ­ některé listy mají světlé skvrny 2 ­ .... 1 ­ podstatná část listoví má nažloutlou barvu Ordinální škála hodnocení zdravotní kondice stromů Máme k dispozici deset různých vzorků obou lokalit Č 4 5 4 4 5 6 6 6 6 3 Z 2 2 2 1 6 4 4 5 4 3 Prvním krokem je přiřazení pořadových čísel jednotlivým měřením. Pro aplikaci uvedeného testu založeného na pořadí je vhodné, aby byla data uspořádána do jednoho sloupce s indikací, ke které skupině patří. Mann- Whitney U test - příklad =134Č R = 76ZR Mann- Whitney U test ­ testovací kritérium Test je založen na výpočtu testovací statistiky U: - + += 1 11 211 2 )1( R nn nnU - + += 2 22 212 2 )1( R nn nnU kde n1 a n2 jsou počty vzorků v jednotlivých výběrech Výrazy a značí sumy pořadových čísel pro jednotlivé výběry. 1R 2R Menší z hodnot U1 a U2 se bere jako testovací kritérium a porovnává se s tabulkovou hodnotou. Mann- Whitney U test ­ příklad (pokrač.) V našem příkladě: = 76ZR =134Č R a pro UČ tedy 21134 2 )110(10 1010 2 )1( =- + +=- + += Č ČČ ZČČ R nn nnU a analogicky pro UZ: 7976 2 )110(10 1010 2 )1( =- + +=- + += Z ZZ ZČZ R nn nnU Menší z hodnot je tedy testovací kritérium U = 21 7 Mann- Whitney U test Interpretace a vyslovení závěru o testování: Statistický program určí hodnotu p, která přísluší vypočtené hodnotě testovacího kritéria a nebo se pro tuto hodnotu nalezne kritická hodnota v tabulkách pro zvolenou hladinu významnosti p a pro parametry n1 a n2. Horní čísla v tabulce odpovídají p=0,05, dolní potom p=0,01. V našem případě pro n1=10 a n2=10 Pro U test platí, že čím menší hodnota U, tím menší pravděpodobnost ­ interpretace je tedy opačná jako např. u t-testu Na hladině významnosti 5% jsme prokázali statisticky významný rozdíl mezi zdravotní kondicí stromů rostoucích ve znečištěném a relativně čistém prostředí. Test Jedná se o test shody. Testujeme, do jaké míry se liší rozložení četností empirického souboru od rozložení základního souboru. 2 Četnosti zjištěné při statistickém šetření (empirické): Četnosti získané z teoretického rozložení modelu (očekávané): Smyslem testu je hodnocení rozdílů v četnostech, tedy: ,,...,, ,1,1, jeee nnn ,,...,, ,1,1, jttt nnn jtje nn ,, - Test 2 Nulová hypotéza H0: Četnosti ne,j a nt,j se liší pouze náhodně Testovací kritérium: ( ) = - = k j jt jtje n nn 1 , 2 ,,2 Ve výraze značí k počet skupin, do kterých je soubor tříděn. Testovací kritérium má rozdělení s stupni volnosti. Kritické hodnoty uvádí tabulky. Velké rozdíly v četnostech dávají velké hodnoty testovacího kritéria. 1-= k 2 Test - podmínky použití 2 Testu by se nemělo použít v případě, je-li a některá teoretická četnost nt,j je menší než 5. Při k > 2 nemá být více než 20 % teoretických četností menších než 5 a žádná menší než 1. Je možné sloučení některých četností ­ bez narušení smyslu úlohy. Kolmogorovův ­ Smirnovův test Tento test lze použít pro testování významnosti shody teoretického a empirického rozložení i v případech, kdy nelze použít CHÍ-kvadrát testu. K-S test: postup testování I. 1. zvolíme hladinu významnosti p 2. roztřídíme zpracovávaná data do skupin 3. stanovíme příslušné teoretické četnosti 4. vypočítáme kumulativní četnosti empirického rozdělení Ne,j 5. vypočítáme kumulativní četnosti teoretického rozdělení Nt,j 6. stanovíme absolutní hodnoty rozdílů kumulovaných četností v odpovídajících skupinách 7. vypočteme hodnotu testovacího kritéria D n NN D jtje ,,max - = K-S test: postup testování II 8. Pro zvolenou hladinu významnosti p a dané n vyhledáme v tabulkách kritickou hodnotu Dp 9. V případě, že D > Dp, potom zamítáme nulovou hypotézu a tvrdíme, že empirické a teoretické rozdělení se statisticky významně liší. K-S test lze použít i pro srovnání dvou výběrových souborů. Potom jako n bereme: 21 21 nn nn n + = 8 Statistica ­ Prokládání rozdělení Zadání: Testujeme, zda lze výběrový soubor proložit normálním rozložením (Existuje shoda empirických a teoretických četností?) Výsledek: Hodnota p je vysoká ­ není důvod zamítnout nulovou hypotézu. Empirické a teoretické hodnoty se na hladině p= 5 % významně neliší Výběrový soubor má normální rozdělení 2 Příklad použití testu a K-S testu