Statistická síla o princip testování hypotéz (opakování) o chyby I. a II. druhu o statistická síla o požadovaná velikost výběru Statistická síla o pravděpodobnost, že zamítneme nulovou hypotézu, která neplatí o tj. že najdeme (statisticky významný) rozdíl, když tento rozdíl existuje Statistická síla o příklad: srovnáváme účinnost léčby úzkostných poruch o dva typy léčby – farmakoterapie (A) a psychoterapie (B) Testování hypotéz o náhodně vybereme z populace pacientů s úzkostnou poruchou vzorek pacientů o náhodně zvolená polovina z nich se podrobí farmakoterapii, druhá polovina psychoterapii o po léčbě změříme u obou skupin standardizovaným nástrojem míru úzkosti Testování hypotéz o jaká bude nulová hypotéza v této studii? o nulová hypotéza: průměrná míra úzkosti u pacientů s terapií A je stejná jako průměrná míra úzkosti u pacientů s terapií B [o ] µ[A] = µ[B ]Testování hypotéz o pro porovnání průměrů vzorku A a B můžeme použít t-test (pro nezávislé výběry) o t =( x[A] – x[B]) / s [ o ] hodnotu t vyhledáme v tabulkách t-rozdělení (pro příslušný počet stupňů volnosti) Testování hypotéz o pokud se t blíží nule (tj. mezi průměry vzorků A a B není velký rozdíl), pak nezamítneme nulovou hypotézu – vyvodíme, že ani mezi průměry populace A a B není rozdíl o pokud je t od nuly vzdáleno, pak nulovou hypotézu zamítneme a vyvodíme, že populační průměry se liší Testování hypotéz o jaké mohou být výsledky testování hypotéz? Testování hypotézy Testování hypotéz o předpokládejme, že nulová hypotéza platí (tj. účinnost farmakoterapie a psychoterapie je stejná) o 2 možnosti: n průměry vzorku A a B jsou velice podobné – t je blízké nule a tak správně nezamítneme nulovou hypotézu n nebo se průměry vzorku A a B liší v takové míře, že se dopustíme chyby I. druhu Chyba I. druhu o je možné (i když málo pravděpodobné), že vzorky z populací o stejném průměru mohou mít velice rozdílné průměry o v tomto případě bychom nulovou hypotézu zamítli nesprávně a vyvodili, že průměry populací A a B jsou odlišné Chyba I. druhu o pravděpodobnost takové chyby se označuje hladina významnosti (a) o její úroveň stanovuje výzkumník (velice často na 5%, příp. 1%) o jde vlastně o pravděpodobnost, že získáme tuto hodnotu t (=rozdíl mezi průměry vzorků), pokud by nulová hypotéza platila Testování hypotéz o předpokládejme, že nulová hypotéza neplatí, terapie A není stejně účinná jako terapie B (tj. je rozdíl v míře úzkosti u pacientů z populace A a B) o opět dvě možnosti n najdeme rozdíly mezi průměry vzorků – t je dostatečně velké a nulovou hypotézu tak správně zamítneme n mezi průměry vzorků není dostatečně velký rozdíl a dopustíme se chyby II. druhu Testování hypotézy Chyba II. druhu o průměry populace se liší, ale přesto se může stát, že průměry vzorků budou velice podobné o v tom případě nesprávně nezamítneme nulovou hypotézu a vyvodíme, že terapie jsou podobně účinné o pravděpodobnost této chyby se označuje b Testování hypotézy Statistická síla o pravděpodobnost, že správně zamítneme nulovou hypotézu, která neplatí, je rovna 1 - b o jde o tzv. sílu testu (power) – schopnost zachytit rozdíl, který existuje o cílem je dosáhnout síly >0.8 nebo 0.9 Statistická síla o 4 faktory jsou při testování hypotéz vzájemně provázány: n hladina významnosti n síla testu n velikost účinku n rozsah výběrového souboru o pokud známe 3 z nich, dá se vypočítat zbylý parametr Hladina významnosti o čím přísněji ji stanovíme (např. 0,1%), tím nižší síla testu Velikost vzorku o s větším vzorkem máme větší pravděpodobnost, že existující rozdíl zachytíme Velikost účinku o čím je rozdíl mezi populačními průměry větší, tím větší pravděpodobnost, že najdeme i rozdíl mezi průměry vzorků o proto nejmenší rozdíl, po kterém má smysl pátrat, je ten, který je ještě klinicky významný o vychází i z podstaty problému - pokud porovnáváme např. lék s placebem, můžeme očekávat větší rozdíl účinku než při porovnání dvou léků Požadovaná velikost výběru o jedním z účelů analýzy statistické síly je určení, jak velký musí být náš vzorek, abychom měli dostatečnou pravděpodobnost, že zachytíme předpokládaný rozdíl o je ovšem možné i zpětně posoudit sílu našeho testování poté, co byl výzkum proveden (příp. při metaanalýzách) Požadovaná velikost výběru o nejprve se musíme rozhodnout, jaký nejmenší rozdíl je ještě klinicky významný o často se používá Cohenův koeficient účinku d o označuje se jako tzv. effect size – velikost účinku o jde např. o standardizovaný rozdíl průměrů (vzhledem ke směrodatné odchylce) nebo korelaci mezi nezávislou a závislou proměnnou (pak se označuje r) Požadovaná velikost výběru o podle Cohena je n d < 0.20 malý účinek (r=0.10) n d = 0.50 střední (r=0.243) n d > 0.80 velký (r=0.371) n závisí ale i na kontextu Požadovaná velikost výběru o dále musíme odhadnout variabilitu znaku v populaci (s) – z předchozích výzkumů, pilotní studie atd. o pak stanovit hladinu významnosti (obvykle 5%) o a nakonec sílu testu – tj. jakou chceme mít pravděpodobnost, že pokud rozdíl existuje, že ho prokážeme? (ideálně min. 80%) Požadovaná velikost výběru o pro různé statistické testy se požadovaná velikost vzorku počítá různě o existují speciální počítačové programy, statistické software mají obvykle v pokročilejších modulech tyto výpočty zabudovány o je možné provést i ruční výpočet (s pomocí tabulky pro hodnoty d) Požadovaná velikost výběru o příklad: pro studii srovnávání účinnosti terapií úzkostných poruch chceme vypočítat velikost výběru o velikost účinku: jednu metodu terapie bychom upřednostnili před druhou, pokud by rozdíl v testu úzkosti byl nejméně 5 bodů o směrodatná odchylka pro test úzkosti je 10 bodů Požadovaná velikost výběru o velikost účinku je pro naši studii d = 5/10 = 0.5 o hladina významnosti a = 0.05 o chceme dosáhnout síly testu 0.80 Požadovaná velikost výběru o vzorec pro test porovnávající dva průměry ze stejně velkých výběrů: ^o N = 2(d/d)^2 Požadovaná velikost výběru ^o N = 2(d/d)^2 o d najdeme v tabulce (hledáme d pro sílu testu 0.80 a a = 0.05) ^n d = 2.80 ^o N = 2(2.8/0.5)^2 = 2(5,6)^2 o N = 62.72 ^ Požadovaná velikost výběru o požadovaná velikost výběru je asi 63 v každé skupině, tj. celkem 126 osob Síla již provedeného testu o obdobně můžeme spočítat sílu již provedeného testování – kdy víme, jaká byla velikost výběru o kdyby byl v našem příkladu počet osob v jedné skupině 25, jaká by byla síla testu? Síla již provedeného testu ^o N = 2(d/d)^2 o d = d N/2 o d = 0,5 25/2 o d = 0,5 (3,54) = 1,77 o pro d =1.77 a a =0,05 je síla testu asi 0,43 Síla již provedeného testu o při N=50 (v každé skupině 25) bychom měli pouze 43% pravděpodobnost, že najdeme rozdíl, i kdyby skutečně existoval Požadovaná velikost výběru pro sílu testu >0.80 a 5% hladině významnosti Výpočet síly testu ve Statistice o program Statistica tyto výpočty provádí automaticky – stačí zadat např. hodnoty průměrů a směrodatné odchylky, hladinu významnosti, požadovanou sílu nebo skutečnou velikost výběru o procedury jsou rozděleny podle typu testu (porovnání průměrů, korelace atd.) Analýza síly testu ve výzkumné zprávě o podle Cohenovy analýzy empirických studií z oblasti psychologie (z roku 1972) – průměrná síla testu jen 0,48 o jen malý počet studií obsahuje údaje o síle testu – postupně je však mezinárodní časopisy vyžadují o Cohen zdůrazňuje význam určení alternativní hypotézy Literatura o Hendl: kapitola 11 o Hendl – str. 407, tabulka 11.2