Statistická síla oprincip testování hypotéz (opakování) ochyby I. a II. druhu ostatistická síla opožadovaná velikost výběru o Statistická síla opravděpodobnost, že zamítneme nulovou hypotézu, která neplatí otj. že najdeme (statisticky významný) rozdíl, když tento rozdíl existuje o Statistická síla opříklad: srovnáváme účinnost léčby úzkostných poruch odva typy léčby – farmakoterapie (A) a psychoterapie (B) Testování hypotéz onáhodně vybereme z populace pacientů s úzkostnou poruchou vzorek pacientů onáhodně zvolená polovina z nich se podrobí farmakoterapii, druhá polovina psychoterapii opo léčbě změříme u obou skupin standardizovaným nástrojem míru úzkosti Testování hypotéz ojaká bude nulová hypotéza v této studii? onulová hypotéza: průměrná míra úzkosti u pacientů s terapií A je stejná jako průměrná míra úzkosti u pacientů s terapií B oµA = µB Testování hypotéz opro porovnání průměrů vzorku A a B můžeme použít t-test (pro nezávislé výběry) o o o o ohodnotu t vyhledáme v tabulkách t-rozdělení (pro příslušný počet stupňů volnosti) Testování hypotéz opokud se t blíží nule (tj. mezi průměry vzorků A a B není velký rozdíl), pak nezamítneme nulovou hypotézu opokud je t od nuly vzdáleno, pak nulovou hypotézu zamítneme a vyvodíme, že populační průměry se liší Testování hypotéz ojaké mohou být výsledky testování hypotéz? Testování hypotézy skutečnost rozhodnutí nulová hypotéza platí nulová hypotéza neplatí zamítneme nulovou hypotézu chyba I. druhu správné rozhodnutí nezamítneme nulovou hypotézu správné rozhodnutí chyba II. druhu Testování hypotéz opředpokládejme, že nulová hypotéza platí (tj. účinnost farmakoterapie a psychoterapie je stejná) o2 možnosti: nprůměry vzorku A a B jsou velice podobné – t je blízké nule a tak správně nezamítneme nulovou hypotézu nnebo se průměry vzorku A a B liší v takové míře, že se dopustíme chyby I. druhu Chyba I. druhu oje možné (i když málo pravděpodobné), že vzorky z populací o stejném průměru mohou mít velice rozdílné průměry ov tomto případě bychom nulovou hypotézu zamítli nesprávně a vyvodili, že průměry populací A a B jsou odlišné Chyba I. druhu opravděpodobnost takové chyby se označuje hladina významnosti (a) ojejí úroveň stanovuje výzkumník (velice často na 5%, příp. 1%) ojde vlastně o pravděpodobnost, že získáme tuto hodnotu t (=rozdíl mezi průměry vzorků), pokud by nulová hypotéza platila Testování hypotéz opředpokládejme, že nulová hypotéza neplatí, terapie A není stejně účinná jako terapie B (tj. je rozdíl v míře úzkosti u pacientů z populace A a B) oopět dvě možnosti nnajdeme rozdíly mezi průměry vzorků – t je dostatečně velké a nulovou hypotézu tak správně zamítneme nmezi průměry vzorků není dostatečně velký rozdíl a dopustíme se chyby II. druhu o Testování hypotézy skutečnost rozhodnutí nulová hypotéza platí nulová hypotéza neplatí zamítneme nulovou hypotézu chyba I. druhu správné rozhodnutí nezamítneme nulovou hypotézu správné rozhodnutí chyba II. druhu Chyba II. druhu oprůměry populace se liší, ale přesto se může stát, že průměry vzorků budou podobné ov tom případě nesprávně nezamítneme nulovou hypotézu a vyvodíme, že terapie jsou podobně účinné opravděpodobnost této chyby se označuje b Testování hypotézy skutečnost rozhodnutí nulová hypotéza platí nulová hypotéza neplatí zamítneme nulovou hypotézu chyba I. druhu (a) správné rozhodnutí (1-b) nezamítneme nulovou hypotézu správné rozhodnutí (1-a) chyba II. druhu (b) Statistická síla opravděpodobnost, že správně zamítneme nulovou hypotézu, která neplatí, je rovna 1 - b ojde o tzv. sílu testu (power) – schopnost zachytit rozdíl, který existuje ocílem je dosáhnout síly >0.8 nebo 0.9 Statistická síla o4 faktory jsou při testování hypotéz vzájemně provázány: nhladina významnosti nsíla testu nvelikost účinku nrozsah výběrového souboru opokud známe 3 z nich, dá se vypočítat zbylý parametr Hladina významnosti očím přísněji ji stanovíme (např. 0,1%), tím nižší síla testu Velikost vzorku os větším vzorkem máme větší pravděpodobnost, že existující rozdíl zachytíme Velikost účinku očím je rozdíl mezi populačními průměry větší, tím je větší pravděpodobnost, že najdeme i rozdíl mezi průměry vzorků oproto nejmenší rozdíl, po kterém má smysl pátrat, je ten, který je ještě klinicky významný ovychází i z podstaty problému - pokud porovnáváme např. lék s placebem, můžeme očekávat větší rozdíl účinku než při porovnání dvou léků Požadovaná velikost výběru ojedním z účelů analýzy statistické síly je určení, jak velký musí být náš vzorek, abychom měli dostatečnou pravděpodobnost, že zachytíme předpokládaný rozdíl oje ovšem možné i zpětně posoudit sílu našeho testování poté, co byl výzkum proveden (příp. při metaanalýzách) Požadovaná velikost výběru onejprve se musíme rozhodnout, jaký nejmenší rozdíl je ještě klinicky významný očasto se používá Cohenův koeficient účinku d ooznačuje se jako tzv. effect size – velikost účinku ojde např. o standardizovaný rozdíl průměrů (vzhledem ke směrodatné odchylce) nebo korelaci mezi nezávislou a závislou proměnnou (pak se označuje r) o Požadovaná velikost výběru opodle Cohena je nd < 0.20 malý účinek (r=0.10) nd = 0.50 střední (r=0.243) nd > 0.80 velký (r=0.371) nzávisí ale i na kontextu o Požadovaná velikost výběru odále musíme odhadnout variabilitu znaku v populaci (s) – z předchozích výzkumů, pilotní studie atd. opak stanovit hladinu významnosti (obvykle 5%) oa nakonec sílu testu – tj. jakou chceme mít pravděpodobnost, že pokud rozdíl existuje, tak ho prokážeme? (ideálně min. 80%) Požadovaná velikost výběru opro různé statistické testy se požadovaná velikost vzorku počítá různě oexistují speciální počítačové programy, statistické software mají obvykle v pokročilejších modulech tyto výpočty zabudovány oje možné provést i ruční výpočet (s pomocí tabulky pro hodnoty d) Požadovaná velikost výběru opříklad: pro studii srovnávání účinnosti terapií úzkostných poruch chceme vypočítat potřebnou velikost výběru ovelikost účinku: jednu metodu terapie bychom upřednostnili před druhou, pokud by rozdíl v testu úzkosti byl nejméně 5 bodů osměrodatná odchylka pro test úzkosti je 10 bodů Požadovaná velikost výběru ovelikost účinku je pro naši studii d = 5/10 = 0.5 ohladina významnosti a = 0.05 ochceme dosáhnout síly testu 0.80 o Požadovaná velikost výběru ovzorec pro test porovnávající dva průměry ze stejně velkých výběrů: o o N = 2(d/d)2 o o o Požadovaná velikost výběru oN = 2(d/d)2 od najdeme v tabulce (hledáme d pro sílu testu 0.80 a a = 0.05) nd = 2.80 oN = 2(2.8/0.5)2 = 2(5,6)2 oN = 62.72 o Požadovaná velikost výběru opožadovaná velikost výběru je asi 63 v každé skupině, tj. celkem 126 osob Síla již provedeného testu oobdobně můžeme spočítat sílu již provedeného testování – kdy víme, jaká byla velikost výběru okdyby byl v našem příkladu počet osob v jedné skupině 25, jaká by byla síla testu? o Síla již provedeného testu oN = 2(d/d)2 od = d N/2 od = 0,5 25/2 od = 0,5 (3,54) = 1,77 opro d =1.77 a a =0,05 je síla testu asi 0,43 Síla již provedeného testu opři N=50 (v každé skupině 25) bychom měli pouze 43% pravděpodobnost, že najdeme rozdíl, kdyby skutečně existoval Požadovaná velikost výběru pro sílu testu >0.80 a 5% hladinu významnosti velikost účinku d jedno-výběrový t-test dvouvýběrový (nezávislý) t-test malý ,20 196 784 střední ,50 32 126 velký ,80 13 49 Analýza síly testu ve výzkumné zprávě opodle Cohenovy analýzy empirických studií z oblasti psychologie (z roku 1972) – průměrná síla testu byla jen 0,48 ojen malý počet studií obsahuje údaje o síle testu – postupně je však mezinárodní časopisy vyžadují oCohen zdůrazňuje význam určení alternativní hypotézy Literatura oHendl: kapitola 11 oHendl – str. 407, tabulka 11.2