Testování statistických hypotéz 6 6. Testování statistických hypotéz Cíl kapitoly Údaje, se kterými sociálně hospodářská statistika pracuje jsou typické vel- kou mírou nejistoty. Jak jsme již uvedli v předchozích kapitolách, většina dat pochází z výběrových šetření a jsou tedy do jisté míry pouze odhadem skutečnosti. Pro seriózní kvantitativní analýzy je proto vhodné považovat výsledky šetření za hypotézy o vlastnostech zkoumaných statistických sou- borů. K ověření platnosti, či neplatnosti těchto hypotéz je možno užít metod statistických testů. Následující kapitola prezentuje základní východiska tes- tování a postup, který je nutno při provádění statistického testu dodržet. Konkrétními statistickými testy se bude zabývat kapitola sedmá. Časová zátěž 4 hodiny (4. týden v listopadu) Statistická hypotéza Další metodou jak zhodnotit validitu údajů získaných ze statistických šetření je využití metod testování statistických hypotéz. Ve smyslu těchto metod se za statistickou hypotézu považuje jakýkoli předpoklad o vlastnos- tech statistického souboru. Typické zdroje hypotéz Požadavek na potřebnou kvalitu produktu Hypotéza je založena na předchozí zkušenosti Hypotéza vychází z teorie, kterou je třeba doložit Hypotéza je pouhým dohadem, založeným na náhodném pozorování Testování statis- tických hypotéz Testování tudíž slouží k podobným účelům jako jsou metody intervalových a bodových odhadů. Například vyslovíme hypotézu o hodnotě aritmetického průměru základního souboru. O správnosti naší hypotézy bychom se nej- spolehlivěji mohli přesvědčit na základě vyčerpávajícího šetření. Provedení takového šetření však v mnoha případech není možné (například z důvodů časové, finanční, či organizační náročnosti). Proto je k ověření hypotézy používán pouze vzorek statistických jednotek získaný pomocí výběrového šetření. Výběrový soubor, který je pomocí tohoto šetření získán je poté možno použít k rozhodnutí o správnosti, či nesprávnosti hypotézy. Tento proces je pak nazýván statistickým testováním hypotéz. Proces testování statistické hypotézy lze rozdělit do pěti kroků. Uvedené kroky představují sled úkonů, jejichž výsledkem je jednoznačný závěr v po- době zamítnutí nebo nezamítnutí hypotézy. Kapitola se zaměří na podrobný rozbor jednotlivých kroků. Příklady konkrétních statistických testů naleznete v následující kapitole. Pro hlubší porozumění je proto vhodné postupovat při studiu tak, že budete procházet obě kapitoly současně. Postup testování statistických hypotéz 1. Formulace testované (nulové) a alternativní hypotézy. 2. Výběr vhodného testu (testového kritéria). 3. Volba hladiny významnosti (obvykle 0,05=5%). 86 4. Sestrojení kritického oboru. 5. Výpočet hodnoty testovacího kritéria. 6. Formulace výsledků testu: prokázání či neprokázání alternativní hy- potézy (zamítnutí či nezamítnutí nulové hypotézy). Ad 1) Formulace testované (nulové) a alternativní hypotézy Výchozím pojmem statistického testování je hypotéza. Jak jsme již uvedli hypotézou se rozumí nějaký předpoklad (tvrzení) o parametrech či tvaru rozdělení zkoumaného statistického znaku. Např. Aritmetický průměr statistického souboru = 3 (hypotéza o parametru). O správnosti takové hypotézy se můžeme přesvědčit tak, že: a) spočítáme tuto hodnotu (parametr) ze všech hodnot statistických zna- ků ­ velmi náročné pro velké soubory až nemožné b) použijeme jen vzorek statistického souboru ­ výběrový soubor a pro něj tento parametr určíme. Pomocí statistického testu následně roz- hodneme, zda se dají závěry, které dostáváme pro výběrový soubor, zobecnit. Nulová hy- potéza Původní předpoklad, který jsme si určili o parametru resp. tvaru rozdělení statistického znaku označujeme zpravidla za nulovou hypotézu a značíme ji Ho. Proti nulové hypotéze stavíme alternativní hypotézu ­ značíme ji H1. Může být tří typů a) oboustranná hypotéza H1 : = 0 ­ oboustranný test b) jednostranná hypotéza ­ levostranná H1 : < 0 c) jednostranná hypotéza ­ pravostranná H1 : > 0 Hypotéza bývá obvykle formulována ve tvaru rovnice, tedy proměnná = hod- notě (číslu). Například H0 : = 0, kde je předpokládaná hodnota para- metru (=3) kterou určíme z výběrového souboru. Je obvyklé formulovat samotnou testovou úlohu tak, aby skutečnost, kterou chceme dokázat byla obsažena v alternativní hypotéze H1. Tato skutečnost souvisí s tzv. chybami I. a II. druhu, resp. statistickou významností, o které se ještě zmíníme při diskusi třetího postupného kroku testování. Ad 2) Volba testového kritéria Testové kritérium Testové kritérium je zpravidla ve tvaru nějaké funkce, která souvisí s vý- běrem, resp. jeho vlastnostmi. Konkrétní podoba testového kritéria je pro konkrétní výběrový soubor standardně dána v závislosti na typu testované hypotézy. Existují zvláštní testová kritéria pro testování hypotéz o průměru, rozptylu či tvaru rozdělení statistického souboru. Standardní statistické testy (a z nich vyplývající nejvýznamnější testová kritéria) se rozdělují do dvou významných skupin. A to na testy: parametrické ­ v tomto případě je předmětem hypotézy parametr rozdělení (které známe) neparametrické ­ předmětem hypotézy je bud' samotný tvar rozdě- lení nebo tvar rozdělení není nutný pro testování 87 6. Testování statistických hypotéz Jednotlivými konkrétními typy těchto testů se budeme zabývat v následující kapitole. Zatímco parametrické testy jsou užívány především k ověřování předpokladu o jedné konkrétní vlastnosti souboru, neparametrické testy ve- dou zpravidla k poněkud obecnějším závěrům o zkoumaném souboru. Ad 3) Volba hladiny významnosti Jelikož při statistickém testování pracujeme pouze s výběrovými soubory (ob- vykle pořízenými náhodným výběrem), jsou výsledky těchto testů zatíženy určitou mírou nespolehlivosti. Možné nezdary se označují jako chyby a jsou označovány jako chyba I. a chyba II. druhu. Hladina významnosti K chybě I. druhu dochází v případě, že nulová hypotéza sice platí, ale my ji na základě výsledku testu zamítáme. Maximální přípustnou pravděpo- dobnost této chyby nazýváme hladina významnosti a značíme symbolem Hladina významnosti () tedy označuje pravděpodobnost, že výsledek testu bude hovořit ve prospěch zamítnutí hypotézy H0, která je ve skutečnosti pravdivá. Síla testu K chybě II. druhu dochází, když nulová hypotéza neplatí, ale my ji ne- zamítneme (nepoznáme, že neplatí). Doplněk pravděpodobnosti chyby II. druhu do jedničky (1 - ) se nazývá síla testu. Je to pravděpodobnost, že nulovou hypotézu zamítneme, když tato hypotéza neplatí, tedy pravděpo- dobnost, s jakou neplatnost hypotézy objevíme. Síla testu závisí na zvolené testové metodě a zejména na tom, jaké je skutečné rozdělení dat (a tedy použité statistiky), například jaké jsou skutečné hodnoty parametrů. Čtyři možné kombinace výsledku testu v porovnání se skutečností přináší následující tabulka. Výsledek testu/skutečnost H0 se přijímá H0 se zamítá H0 je pravdivá Správné rozhodnutí pravd.=1- = interval spolehlivosti Chyba I. druhu pravd.= (hladina významnosti) H0 je nepravdivá (H1 je pravdivá) Chyba II. druhu pravd.= Správné rozhodnutí pravd.=1- (síla testu) Hodnotu hladiny významnosti je nutno určit ještě před začátkem testování a je dána našimi požadavky na přesnost testu. Je nepřímo úměrná tzv. síle testu () ­ pravděpodobnosti tzv. chyby II. druhu. Hladina významnosti je obvykle stanovena na 0,05 (= 5%), případně na 0,01 (= 1%). Tato hodnota říká, že s 95% jistotou je zamítnutí hypotézy H0 (a platnost H1) správný závěr. Nic však neříká o pravděpodobnosti (jistotě) potvrzení H0 (resp. zamítnutí H1). Tato pravděpodobnost je dána sílou testu 1- a její velikost je obtížně určitelná. Závisí na tvaru rozdělení, testovém kritériu i samotné hypotéze. 88 Ad 4) Sestrojení kritického oboru Kritický obor Aby bylo možno posoudit, jestli výsledky testu (hodnota testového kritéria) hovoří ve prospěch, či v neprospěch hypotézy Ho, je nutno vytvořit nějaké pomocné kritérium. Tímto kritériem je rozdělení všech možných výsledků do dvou částí (intervalů). První interval obsahuje výsledky, které hovoří ve prospěch platnosti H0 a nazývá se obor přijetí. Druhý interval hovoří v neprospěch přijetí H0 a tedy ve prospěch přijetí H1 a nazývá se kritický obor Tmin; Tmax . Hranice kritického oboru tvoří kvantily některého ze stan- dardního rozdělení náhodné veličiny. 2,5% 2,5% 95% kritický obor kritický obor obor přijetí Obrázek 6.1: Kritický obor a obor přijetí (oboustranná varianta, hladina významnosti 5%). V oboustranné variantě testu je kritický obor tvořen sjednocením dvou in- tervalů. Tyto intervaly jsou od oboru přijetí odděleny tzv. kritickými hod- notami. Kritické hodnoty jsou dány příslušným kvantilem rozdělení, které je pro testování použito (obsaženo v testovém kritériu). Plocha pod křivkou je pravděpodobnost a její součet pro kritický obor se musí rovnat hladině významnosti. 5% 95% kritický obor obor přijetí Obrázek 6.2: Kritický obor a obor přijetí (jednostranná varianta, hladina významnosti 5%). V jednostranné variantě testu je kritický obor pouze jedním intervalem. Hovoří-li ve prospěch H1 vysoké hodnoty testového kritéria bude kritický obor pravostranný (viz obrázek 6.2), v opačném případě bude levostranný. 89 6. Testování statistických hypotéz Tyto intervaly jsou od oboru přijetí opět odděleny kritickými hodnotami. Plocha pod křivkou je pravděpodobnost a pro kritický obor se musí rovnat hladině významnosti Ad 5) a 6) Výpočet hodnoty testovacího kritéria, Formulace výsledků testu Na základě hodnot statistických znaků, které obdržíme z výběrového sou- boru, vypočítáme hodnotu testového kritéria (tedy konkrétní číslo). Mohou nastat dva případy: a) Výsledek je v kritickém oboru S 100% pravděpodobností (spolehlivostí) můžeme říct, že zamítáme hypotézu H0 a přijímáme hypotézu H1. Jedná se o žádoucí výsledek testu, nebot' v tomto případě můžeme učinit jednoznačný závěr (neplatí H0 a platí H1) při pevně stanoveném riziku (, obvykle 5%) že toto tvrzení není správné. b) Výsledek je v oboru přijetí S 100% pravděpodobností můžeme říct, že zamítáme H1 a přijímáme hypotézu H0. Protože však obvykle volíme pevnou hladinu spolehlivosti a tudíž neznáme (které je větší než ), nemůžeme stanovit výsledek testu ve formě výše uvedené formulace (platí H0). Omezíme se pouze na vyjádření, že se neprokázala platnost hypotézy H1 na hladině významnosti 5%. Vztah mezi intervalem spolehlivosti a testováním Jak jsme již uvedli v úvodu kapitoly, princip testování statistických hypotéz je velmi úzce spojen s metodami konstrukce intervalových odhadů. Lze konsta- tovat, že každá hypotéza, která leží vně intervalu spolehlivosti se považuje za nepravděpodobnou a tudíž ji zamítáme. Zamítáme ji s pravděpodobností jejíž výše odpovídá spolehlivosti, s jakou je interval konstruován. Každá hypotéza, která leží uvnitř intervalu spolehlivosti se posuzuje jako možná a tudíž ji nezamítáme. Interval spolehlivosti je proto možno považovat za množinu přijatelných hypotéz, v teorii statistického testování označovanou jako obor přijetí. Konstrukce intervalu spolehlivosti je tedy v podstatě jednou z alternativních forem statistického testu. " 95% interval spolehlivosti = test hypotézy na 5% hladině významnosti." Shrnutí kapitoly Jakýkoli předpoklad o vlastnostech či struktuře statistického souboru je ozna- čován pojmem statistická hypotéza. Uvedený předpoklad je obvykle zatížen vysokou mírou nejistoty. Jednou z možností, jak tuto nejistotu snížit je využití metod testování statistických hypotéz. Metody se na základě kvan- tifikovatelných kritérií snaží rozhodnout o správnosti (nezamítnutí) či ne- správnosti (zamítnutí) hypotézy. 90 Standardní statistický test má poměrně ustálenou podobu, kterou je možno rozdělit do šesti kroků. Jednotlivé kroky jsou v kapitole popsány. Prvním kro- kem je formulace hypotézy, kterou se obvykle snažíme formulovat jako negaci toho co chceme ve skutečnosti dokázat. K otestování hypotézy je poté nutno vybrat vhodný statistický test, resp. testové kritérium a stanovit spolehlivost závěru, který vyslovíme ­ hladinu významnosti. Možné výsledky testu jsou rozděleny do dvou skupin ­ na výsledky, které hovoří ve prospěch zamítnutí původní hypotézy (jsou označovány jako kritický obor) a na výsledky, na základě kterých nemůžeme původní hypotézu zamítnout (jsou označovány jako obor přijetí). Po výpočtu testového kritéria na základě příslušných dat pak můžeme vyslovit závěr o zamítnutí, či nezamítnutí hypotézy. Otázky k zamyšlení 1. O čem hovoří výsledek statistického testu, kdy testové kritérium spadá do kritického oboru? 2. Vysvětlete pojem statistické významnosti. 3. Určete, kde bude ležet kritický obor a obor přijetí, budeme-li uvažovat hladinu významnosti 1%. Výsledek se pokuste zachytit i graficky. 91 6. Testování statistických hypotéz 92