Datová analýza pro každého Mgr. Martin Sebera, Ph.D. sebera@fsps.muni.cz Katedra pohybových aktivit a zdraví Fakulta sportovních studií core149 Testování statistických hypotéz Adobe Systems CORE149 | | Úvod •Ve statistice (a připomeňme, že je to aplikovaná matematická věda) platí jen to, co jsme schopni doložit výpočtem. •Konkrétně pro statistiku je typické testování hypotéz. Co je posléze danou hypotézou zamítnuto, o tom vlastně tvrdíme, že to neplatí. •Co není statisticky významné, jakoby neexistovalo. • Adobe Systems CORE149 | | Základní pojmy •Testování hypotéz – ověřování platnosti nějakého výroku (tvrzení). •Statistický test – pravidlo, které rozhoduje o platnosti nebo neplatnosti naší hypotézy. Kritériem bývá většinou velikost nějaké funkce, která je spočítána přímo z datového souboru, při různých datech nabývá různých hodnot (je to tedy náhodná veličina). •Testová statistika – funkce, pomocí které rozhodujeme. •H0: Nulová hypotéza, o které se primárně předpokládá, že platí. •HA: Alternativní hypotéza, která platí, pokud je zamítnuta hypotéza nulová. •Pro konstrukci testu je potřeba definovat obě hypotézy, nestačí jen H0, musíme přeci vědět, co platí, když H0 neplatí. •Výsledkem testu může být zamítnutí H0 nebo nezamítnutí H0. • Adobe Systems CORE149 | | Historie a účel testování statistických hypotéz •Statistické testování hypotéz se začalo rozvíjet na přelomu 19. a 20. století. Karl Pearson zavedl test dobré shody, Ronald Fisher formuloval princip p-hodnoty a Neyman s Pearsonem rozvinuli teoretický rámec testování hypotéz. • •Hlavní účel testování hypotéz je ověření platnosti určitého předpokladu na základě dostupných dat. Testování hypotéz se používá v medicíně, vědě, ekonomii, strojovém učení a dalších oblastech, kde je třeba přijímat rozhodnutí na základě statistické analýzy. Adobe Systems CORE149 | | Postup testování hypotéz 1/4 •Poměrně jasný a jednoduchý J 1.Vytvoříme hypotézu H0, o které předpokládáme, že platí. 2.Proti ní postavíme alternativu (HA, což je obvykle naše výzkumná hypotéza). 3.Ke každému našemu tvrzení, které tvoří prvotní myšlenku při výzkumu, sesbíráme data. 4.Potřebujeme věrohodný aparát, který nám pomůže při konstatování, zda domněnka platí nebo ne → statistický test. • Adobe Systems CORE149 | | Postup testování hypotéz 2/4 •Výsledkem testování jsou 2 možnosti, resp. 3 alternativy •testování jsme provedli správně, výsledkem je tvrzení: hypotézu zamítneme nebo nezamítneme •dopustili jsme se chyby •zamítli jsme hypotézu, která platí. Dopustili jsme se chyby 1. druhu, která se značí a a nazývá se hladina významnosti testu. Výraz 1-a se nazývá pak spolehlivost. •přijali jsme hypotézu, která neplatí. Nastala chyba 2. druhu, značí se b. Výraz 1-b se nazývá síla testu. • Adobe Systems CORE149 | | Postup testování hypotéz 3/4 •Při testování pomocí statistických programů 1.Spočítá se hodnota testové statistiky a k ní nejmenší kritický obor, při kterém bychom ještě mohli na základě této hodnoty zamítnout hypotézu H0 proti dané alternativě. 2.Hladina významnosti, odpovídající tomuto kritickému oboru, se nazývá minimální hladina významnosti (p-hodnota). •pokud je p > , pak hypotézu H0 nezamítáme. •pokud je p < , pak hypotézu H0 zamítáme. • Adobe Systems CORE149 | | Postup testování hypotéz 4/4 •To, že hypotézu H0 nezamítáme, neznamená, že platí. •Stejně jako u soudu se držíme tzv. presumpce neviny Adobe Systems CORE149 | | Důsledky •a chyba 1. druhu, neboli hladina významnosti testu. •1-a spolehlivost •b chyba 2. druhu •1-b síla testu • •Jestliže snížíme a, zvýší se b •snížení chyby II. druhu bez toho abychom ovlivnili chybu I. druhu je možné pouze zvýšením rozsahu výběru. • Adobe Systems CORE149 | | Statistická významnost - hladina a •Hladina a je obvykle volena 0,05 (5 %). •Často je další alternativou k a = 0,05 uváděna a = 0,01. Stejně tak je možné použít a =0,1 nebo 0,2 a to vyžadují-li to specifické podmínky kladeny na náš výzkum. •Pokud tedy zamítneme na hladině statistické významnosti a naši hypotézu, ještě to vůbec nic neznamená pro naši vědeckou hypotézu, pro náš výzkum. •Nevýhody statistické významnosti •závislost výsledku na počtu měření N. •i minimální rozdíl může být pro velké N označen za statistický významný a naopak. •vcelku velký rozdíl může být pro malý počet pozorování označen za nevýznamný. Adobe Systems CORE149 | | Věcná významnost (effect size) •alternativa k statistické významnosti • •Věcnou významnost lze stanovit jako •minimální hodnotu v absolutních hodnotách znamenající věcnou významnost NEBO •Jako minimální vysvětlené procento rozptylu (relativní zhodnocení podílu ostatních faktorů – koeficient w2) •Pro jednotlivé testy lze v literatuře nalézt mnoho tzv. koeficientů věcné významnosti, které přistupují k stanovení významnosti odlišně od hladiny statistické významnosti a. •Jednou z výhod konceptu věcné významnosti je nezávislost na počtu měření N. • • Adobe Systems CORE149 | | •Vybrané •koeficienty •věcné •významnosti Adobe Systems CORE149 | | Příklad 1 •Uvažujme 3 měsíční tréninkovou intervenci na skupině sprinterů na 100 m s velmi slabou výkonností (cca 16 s). Po ukončení intervence u nich dojde k průměrnému zlepšení o 0,1 s. Jak se na toto zlepšení můžeme dívat? •Vzhledem ke skutečnosti, že takové zlepšení v rámci kvality času, je zcela minimální, tak můžeme konstatovat, že ke zlepšení de facto vůbec nedošlo. Rozdíl 0,1 s totiž mohl být způsoben mnoha faktory. Přiznejme, že jedním faktorem mohl být opravdu i trénink J. •Opakuje stejnou situaci, nyní však s elitními světovými sprintery (časy cca 10 s na 100 m). Pokud u nich dojde k lepšení o 0,1 s, pak mluvíme o naprosto nevídaném zlepšení, které je velmi významným počinem v tréninku sprinterů. • Adobe Systems CORE149 | | Příklad 2 •závislost hladiny a na počtu měření N •příklad z roku 1971–1972 s 80.000 branci, u kterých byl změřen čas v běhu na 100 m a posléze se test o rok později zopakoval. •Rozdíl, a to zhoršení, byl v průměru o 0,0003 s (tři desetitisíciny sekundy). •Tento rozdíl je přesto statisticky významný, ačkoliv 0,0003 s de facto žádný rozdíl není. Adobe Systems CORE149 | | Shrnutí 1.Před vlastní výzkumnou prací zvolíme koeficient věcné významnosti 2.V absolutních hodnotách/jednotkách, což bude znamenat určení, kdy budeme považovat změnu za významnou. Lze zvolit věcnou významnost i relativně v procentech vysvětlovaného rozptylu. 3.Poté zvolíme hladinu statistické významnosti a. Pro konečný závěr nejprve posoudíme věcnou významnost a teprve poté statistickou významnost. Uvedené kroky bychom měli provést přesně v pořadí, v jakém jsou popsány. Jinak se nevyhneme případnému podezření, že jsme hladinu významnosti stanovili až po ukončení výpočtů ve snaze dokázat a potvrdit „aspoň něco“… Adobe Systems CORE149 | | Epilog: nebojte se p-hodnot •Co je p hodnota? •p-hodnota je nejmenší hladina, na které zamítáme. •p-hodnota je největší hladina, na které nezamítáme. •pravděpodobnost výsledků, které ještě více svědčí proti H0. •Výhody p-hodnoty •pokud nám stačí se pouze rozhodnout, zda vyšel test statisticky významně, pak p-hodnota nám říká vše potřebné a to navíc nezávisle na tom, jakou si zvolíme hladinu a, dává nám ihned informaci zároveň pro všechny hladiny. Adobe Systems CORE149 | | Kde p-hodnotu najdeme? •Normalita H0: data pocházejí •z normálního rozdělení Korelační koeficient H0: korelační koeficient je nulový Adobe Systems CORE149 | | Diagnostické testy •Diagnostický test u dané osoby indikuje přítomnost nebo nepřítomnost sledovaného onemocnění. •Osoba ve skutečnosti má nebo nemá sledované onemocnění → Zajímají nás diagnostické schopnosti testu. • Skutečnost – přítomnost nemoci ANO NE Výsledek diagnostického testu Pozitivní TP FP Negativní FN TN Adobe Systems CORE149 | | Diagnostické testy •TP (true positive) – kolik výsledků bylo skutečně pozitivních (tzn. kolik pacientů bylo správně diagnostikováno jako pacienti). •FP (false positive) – kolik výsledků bylo falešně pozitivních (tzn. kolik zdravých jedinců bylo chybně diagnostikováno jako pacienti). •FN (false negative) – kolik výsledků bylo falešně negativních (tzn. kolik pacientů bylo chybně diagnostikováno jako zdraví). •TN (true negative) – kolik výsledků bylo skutečně negativních (tzn. kolik zdravých lidí bylo správně diagnostikováno jako zdraví). Skutečnost – přítomnost nemoci ANO NE Výsledek diagnostického testu Pozitivní TP FP Negativní FN TN Adobe Systems CORE149 | | Senzitivita, specificita a celková správnost •Senzitivita testu: schopnost testu rozpoznat skutečně nemocné osoby, tedy pravděpodobnost, že test bude pozitivní, když je osoba skutečně nemocná. Senzitivita testu = TP / (TP + FN) •Specificita testu: schopnost testu rozpoznat osoby bez nemoci, tedy pravděpodobnost, že test bude negativní, když osoba není nemocná. Specificita testu = TN / (FP + TN) •Celková správnost: (TP+TN) / (TP+FP+FN+TN) Skutečnost – přítomnost nemoci ANO NE Výsledek diagnostického testu Pozitivní TP FP Negativní FN TN Adobe Systems CORE149 | | Pozitivní a negativní prediktivní hodnota •Prediktivní hodnota pozitivního testu: pravděpodobnost, že osoba je skutečně nemocná, když je test pozitivní. •Prediktivní hodnota pozitivního testu = TP / (TP + FP) •U klasifikací označována jako přesnost („precision“). •Prediktivní hodnota negativního testu: pravděpodobnost, že osoba není nemocná, když je test negativní. •Prediktivní hodnota negativního testu = TN / (FN + TN) Skutečnost – přítomnost nemoci ANO NE Výsledek diagnostického testu Pozitivní TP FP Negativní FN TN Adobe Systems CORE149 | | Kompromis mezi senzitivitou a specificitou •Ideální testy absolutně specifické a absolutně senzitivní v praxi neexistují! •S poklesem falešně negativních odpovědí se zvyšuje senzitivita, s poklesem falešně pozitivních odpovědí se zvyšuje specificita ! •Nutný kompromis – co je daných okolností závažnější : •falešná pozitivita •falešná negativita • • • Adobe Systems CORE149 | | Příklad •Řešení podle web kalkulačky: https://www.medcalc.org/calc/diagnostic_test.php •Senzitivita testu = 188 / (188+3) = 98,43 %. Test správně identifikuje 98,43 % dětí s Downovým syndromem. •Specificita testu = 857 / (857+122) = 87,54 %. Test správně identifikuje 87,54 % zdravých dětí. •Celková správnost = (188 + 857) / (188+3+122+857) = 89,32 %. Test je celkově správný v 89,32 % případů. •Pozitivní prediktivní hodnota testu = 188 / (188+122) = 60,65 %. Pokud test vyjde pozitivní, je 60,65 % pravděpodobnost, že dítě skutečně má Downův syndrom.) •Negativní prediktivní hodnota testu = 857 / (857+3) = 99,65 %. Pokud test vyjde negativní, je 99,65 % pravděpodobnost, že dítě je skutečně zdravé. •Test je velmi citlivý (zachytí téměř všechny případy Downova syndromu), ale má nižší pozitivní prediktivní hodnotu, což znamená, že relativně vysoký počet falešně pozitivních výsledků může vést k dalšímu nepotřebnému testování nebo stresu rodičů. Skutečnost dítě s Downovým syndromem zdravé dítě Výsledek diagnostického testu Pozitivní TP 188 FP 122 Negativní FN 3 TN 857