Přednáška 5 Provádění odhadů Bodové a intervalové odhady Význam intervalu spolehlivosti Institut biostatistiky a analýz, PřF a LF MU Anotace • Dva základní přístupy statistického hodnocení jsou popis dat a testování hypotéz. • Při popisu dat je třeba si uvědomit, že popisné statistiky získané ze vzorku nejsou skutečnou hodnotou v cílové populaci, ale pouze jejím odhadem. • Přesnost odhadu závisí jednak na variabilitě dat, jednak na velikosti vzorku, při vzorkování celé cílové populace by výsledná popisná statistika již byla přesnou hodnotou, nikoliv odhadem. • Odhady a s nimi související intervaly spolehlivosti jsou univerzálním statistickým postupem a je možné je dopočítat k libovolné popisné statistice. Institut biostatistiky a analýz, PřF a LF MU Práce s variabilitou v analýze dat • V analýze dat existují tři hlavní přístupy k práci s variabilitou Variabilita dat Popisná analýza: popis variability Testování hypotéz: vysvětlení variability ? Stochastické modelování: predikce chování systému Odhady popisné statistiky Institut biostatistiky a analýz, PřF a LF MU Bodový odhad popisné statistiky • Výpočtem popisné statistiky vzorku získáme tzv. bodový odhad Bodový odhad průměru, směrodatné odchylky Je to dostatečné? Není, nezohledňujeme vliv náhody, která se uplatnila při vzorkování !!! Institut biostatistiky a analýz, PřF a LF MU Intervalový odhad • Bodový odhad je prvním krokem ve statistickém popisu dat. • Co nám říká jedno číslo? Studie 1 může publikovat číslo x1, studie 2 číslo x2. Které je správnější, lepší, přesnější? • Bodový odhad je sám o sobě nedostatečný pro popis parametru rozdělení pravděpodobnosti náhodné veličiny. • Zajímá nás přesnost (spolehlivost) bodového odhadu. Institut biostatistiky a analýz, PřF a LF MU Jaký je význam intervalového odhadu a jeho spolehlivosti? • Provádíme vzorkování populace živočichů a chceme odhadnout průměrnou hodnotu sledované proměnné • Průměrná délka v populaci = 60, směrodatná odchylka = 10 (tyto hodnoty ve skutečnosti neznáme) 0 20 40 60 80 100 120 Provedeme vzorkování o velikosti N = 100. Populace: průměr = 60, směrodatná odchylka = 10 Institut biostatistiky a analýz, PřF a LF MU Jedno vzorkování • Je pouze nízká pravděpodobnost, že vzorek zcela přesně odpovídá sledované populaci 0 20 40 60 80 100 120 Populace: průměr = 60, směrodatná odchylka = 10 Vzorek 1: průměr = 61.5, směrodatná odchylka = 10.1 Jak by dopadlo další vzorkování? Institut biostatistiky a analýz, PřF a LF MU Dvě vzorkování • Je pouze nízká pravděpodobnost, že vzorek zcela přesně odpovídá sledované populaci Populace: průměr = 60, směrodatná odchylka = 10 Vzorek 1: průměr = 61.5, směrodatná odchylka = 10.1 Jak by dopadlo další vzorkování? 0 20 40 60 80 100 120 Vzorek 2: průměr = 60.4, směrodatná odchylka = 9.3 Institut biostatistiky a analýz, PřF a LF MU Sto vzorkování • Je pouze nízká pravděpodobnost, že vzorek zcela přesně odpovídá sledované populaci Populace: průměr = 60, směrodatná odchylka = 10 Opakovaným vzorkováním jsme získali různé varianty bodového odhadu simulující jak by při dané velikosti vzorku dopadlo různé vzorkování populace. Jak by dopadlo další vzorkování? Jsme schopni jej popsat z pohledu pravděpodobnosti = odhad při dalším vzorkování skončí s určitou pravděpodobností v určitém rozsahu hodnot? 0 20 40 60 80 100 120 Institut biostatistiky a analýz, PřF a LF MU Interval spolehlivosti odhadu I • Odhady průměru z jednotlivých vzorků vytváří rozložení odhadu průměrů • Pokud známe rozložení jsme snadno určit rozsah, v němž leží zadané procento hodnot = pravděpodobnost s níž při vzorkování narazíme na odhad průměru v tomto rozmezí • Nejběžněji se používá 95% rozsah = 95% interval spolehlivosti • Jak jej spočítat? Populace: průměr = 60, směrodatná odchylka = 10 Vzorky (N = 100): průměr = 59.9, směrodatná odchylka odhadů průměru= 0.93 0 20 40 60 80 100 120 ??? 95% Rozložení dat v populaci (neznámé) Rozložení odhadů průměrů ze 100 vzorků Institut biostatistiky a analýz, PřF a LF MU Interval spolehlivosti odhadu II • Jak jej spočítat? • Empiricky: 2,5% a 97,5% kvantil • Dle modelového rozdělení: • Odhady průměrů mají normální rozdělení • Středních 95% hodnot ohraničuje průměr ± 1,96*směrodatná odchylka • Poznámka: popsaný způsob výpočtu intervalu spolehlivosti se používá pouze v počítačových simulacích, ne při reálném vzorkování (zde z výukových důvodů) Populace: průměr = 60, směrodatná odchylka = 10 Vzorky (N = 100): průměr = 59.9, směrodatná odchylka odhadů průměru= 0.93 0 20 40 60 80 100 120 Střední chyba odhadu průměru (standard error, s.e., SE, ) 95% Rozložení dat v populaci (neznámé) Rozložení odhadů průměrů ze 100 vzorků 𝐬ത𝐱 Institut biostatistiky a analýz, PřF a LF MU Pravděpodobnostní chování náhodné veličiny • V klasických statistických výpočtech je interval spolehlivosti odvozen z jednoho vzorku na základě znalosti modelového rozdělení odhadů dané statistiky (např. průměru) • Dvě charakteristiky odráží vlastnosti rozdělení jedním číslem: střední hodnota a rozptyl. Odmocnina z rozptylu je směrodatná odchylka (SD). • Platí následující: • Jednotlivé realizace náhodné veličiny vykazují variabilitu (dle SD). • Jakákoliv statistika (např. průměr) je jako transformace náhodných veličin také náhodnou veličinou. Má tedy i rozdělení pravděpodobnosti. • Jednotlivé realizace statistiky nad různými náhodnými výběry také vykazují variabilitu (opět úměrnou SD). • S.E. – standard error – střední chyba odhadu Institut biostatistiky a analýz, PřF a LF MU Příklad – výběrový průměr • V případě průměru jsou jeho odhady popsatelné modelem normálního rozdělení • Normální rozdělení je popsáno průměrem (vlastní odhad průměru) a směrodatnou odchylkou odhadů (pro odlišení od směrodatné odchylky vzorku se v tomto případě nazývá střední chyba odhadu průměru) Základní prostor Ω Jev A ω1 R0 x Náhodná veličina X R0 x3x1 x2 x5x4 Náhodný výběr X1, X2,…, Xn Výběrový průměr X R0 x Institut biostatistiky a analýz, PřF a LF MU SD a SE • Směrodatná odchylka (SD) není směrodatná chyba popisné statistiky (SE)! • Směrodatná odchylka (SD) je odrazem variability náhodné veličiny ve sledované populaci. • Směrodatná chyba (SE) je odrazem přesnosti popisné statistiky jako odhadu střední hodnoty náhodné veličiny. • Pozor na rozdíl mezi SD a SE v článcích a knihách – tabulkách a grafech! • Na čem závisí velikost SE (a tedy i šířka intervalu spolehlivosti?) Institut biostatistiky a analýz, PřF a LF MU SD a SE • Směrodatná odchylka (SD) není směrodatná chyba popisné statistiky (SE)! • Směrodatná odchylka (SD) je odrazem variability náhodné veličiny ve sledované populaci. • Směrodatná chyba (SE) je odrazem přesnosti popisné statistiky jako odhadu střední hodnoty náhodné veličiny. • Pozor na rozdíl mezi SD a SE v článcích a knihách – tabulkách a grafech! • Na čem závisí velikost SE (a tedy i šířka intervalu spolehlivosti?) • Na velikosti vzorku • Variabilitě (směrodatné odchylce) hodnocené proměnné v populaci • SD populace je daná realitou, ale velikost vzorku je v našich rukou = změnou velikosti vzorku můžeme měnit šíři intervalu spolehlivosti !!!! Institut biostatistiky a analýz, PřF a LF MU Příklad – interval spolehlivosti při různých velikostech vzorku • Provádíme vzorkování populace živočichů a chceme odhadnout průměrnou hodnotu sledované proměnné – zkoušíme různé velikosti vzorku • Průměrná délka v populaci = 60, směrodatná odchylka = 10 (tyto hodnoty ve skutečnosti neznáme) 0 20 40 60 80 100 120 N = 10 N = 100 0 20 40 60 80 100 120 0 20 40 60 80 100 120 N = 1000 Institut biostatistiky a analýz, PřF a LF MU Příklad – interval spolehlivosti při různých velikostech vzorku • Provádíme vzorkování populace živočichů a chceme odhadnout průměrnou hodnotu sledované proměnné – zkoušíme různé velikosti vzorku • Průměrná délka v populaci = 60, směrodatná odchylka = 10 (tyto hodnoty ve skutečnosti neznáme) 0 20 40 60 80 100 120 N = 10 N = 100 0 20 40 60 80 100 120 0 20 40 60 80 100 120 N = 1000 95% IS = 53,8 – 66,2 95% IS = 58,0 – 62,0 95% IS = 59,4 – 60,6 Institut biostatistiky a analýz, PřF a LF MU Obecný vzorec výpočtu intervalu spolehlivosti • Interval spolehlivosti lze spočítat pro odhad jakékoliv popisné statistiky (průměr, směrodatná odchylka, procento, korelační koeficient, regresní koeficient, odds ratio atd.) • Pro danou popisnou statistiku musíme znát odpovídající modelové rozdělení jejího odhadu • Obecná rovnice pro výpočet hranic intervalu spolehlivosti (v některých případech může být složitější – asymetrické intervaly spolehlivosti, různá rovnice pro dolní a horní hranici): Bodový odhad ± kvantil modelového rozdělení * střední chyba odhadu Např. průměr vzorku V případě průměru a 95% intervalu spolehlivosti to je 2.5% a 97.5% kvantil normálního rozdělení = ± 1.96 V případě průměru je vypočtena jako: 𝑠 ҧ𝑥 = 𝑠 𝑁 Institut biostatistiky a analýz, PřF a LF MU Výpočet odhadu průměru • Bodový odhad průměru daného vzorku • Střední chyba odhadu průměru • Interval spolehlivosti 𝑠 ҧ𝑥 = 𝑠 𝑁 ҧ𝑥 ҧ𝑥 − 𝑡1− ൗ𝛼 2 𝜐=𝑁−1 𝑠 𝑁 ≤ 𝜇 ≤ ҧ𝑥 + 𝑡1− ൗ𝛼 2 𝜐=𝑁−1 𝑠 𝑁 𝜇: ҧ𝑥 ± 𝑡1− ൗ𝛼 2 𝜐=𝑁−1 𝑠 𝑁 𝜇: ҧ𝑥 ± 𝑡1− ൗ𝛼 2 𝜐=𝑁−1 𝑠 ҧ𝑥 𝑡1− ൗ𝛼 2 𝜐=𝑁−1 Co je ? t – Studentovo rozdělení (používáno namísto normálního při malé velikosti vzorku)  – stupně volnosti, zde počítány jako N-1 Kvantil modelového rozdělení,  znamená zastoupení případů, které do intervalu nechceme zahrnout, zde pro 95% interval spolehlivosti je  = 5%, hledáme tedy 97.5% kvantil studentova rozdělení Institut biostatistiky a analýz, PřF a LF MU Statistické tabulky t-rozdělení • Na rozdíl od tabulek normálního rozdělení musíme zohlednit i stupně volnosti • Z tohoto důvodu je tabulka konstruována jen pro vybrané hodnoty pravděpodobnosti William Sealy Gosset Publikace pod pseudonymem Student t rozdělení na základě experimentů s kvasinkami Hledáme hodnotu t (= kvantil rozdělení) pro danou plochu (pravděpodobnost) a stupně volnosti Stupně volnosti Pravděpodobnost (plocha pod křivkou), nejběžněji 0.025 (2*0.025=0.05) Institut biostatistiky a analýz, PřF a LF MU • Provádíme vzorkování populace živočichů a chceme odhadnout průměrnou hodnotu sledované proměnné • Vzorek: N = 10, průměr (bodový odhad) 61,5, směrodatná odchylka 10,1 • Jaký je 95% interval spolehlivosti? • Střední chyba odhadu • Kvantil modelového rozdělení pro =0,05 (1-0,95) • 95% interval spolehlivosti – výpočet • 95% interval spolehlivosti - výsledek 61,5 (54,2 – 68,7) • Při opakovaném vzorkování o N=10 bude odhad průměru s pravděpodobností 0,95 ležet v rozsahu (54,2 – 68,7) Odhad průměru a jeho intervalu spolehlivosti – příklad 1 𝑠 ҧ𝑥 = 𝑠 𝑁 = 10,1 10 = 3,207 𝜇: ҧ𝑥 ± 𝑡1− Τ𝛼 2 𝜐=𝑁−1 𝑠 𝑁 = 61,5 ± 2,262 ∗ 3,207=61,5 ±7,256 𝑡1− Τ𝛼 2 𝜐=𝑁−1 = 𝑡1− ൗ0,05 2 𝜐=10−1 = 𝑡0,975 9 =2,262 Institut biostatistiky a analýz, PřF a LF MU • Provádíme vzorkování populace živočichů a chceme odhadnout průměrnou hodnotu sledované proměnné • Vzorek: N = 100, průměr (bodový odhad) 61,5, směrodatná odchylka 10,1 • Jaký je 95% interval spolehlivosti? • Střední chyba odhadu • Kvantil modelového rozdělení pro =0,05 (1-0,95) • 95% interval spolehlivosti – výpočet • 95% interval spolehlivosti - výsledek 61,5 (59,5 – 63,5) • Při opakovaném vzorkování o N=100 bude odhad průměru s pravděpodobností 0,95 ležet v rozsahu (59,5 – 63,5) Odhad průměru a jeho intervalu spolehlivosti – příklad 2 𝑠 ҧ𝑥 = 𝑠 𝑁 = 10,1 100 = 1,014 𝜇: ҧ𝑥 ± 𝑡1− Τ𝛼 2 𝜐=𝑁−1 𝑠 𝑁 = 61,5 ± 1,960 ∗ 1,014=61,5 ±1,988 𝑡1− Τ𝛼 2 𝜐=𝑁−1 = 𝑡1− ൗ0,05 2 𝜐=100−1 = 𝑡0,975 99 =1,960 Institut biostatistiky a analýz, PřF a LF MU Interval spolehlivosti pro odhad rozptylu • Příklad asymetrického intervalu spolehlivosti; modelovým rozdělením je Pearsonovo (chi-kvadrát rozdělení) • Pro rozptyl • Pro směrodatnou odchylku • Pro střední chybu odhadu průměru 0 5 10 15 20 25 0.000.050.100.15 x d(x) Density of Chisq(4, 0) (𝑁 − 1)𝑠2 𝑥2 Τ𝛼 2 𝜈=𝑁−1 ≤ 𝜎2 ≤ (𝑁 − 1)𝑠2 𝑥2 Τ1−𝛼 2 𝜈=𝑁−1 (𝑁 − 1)𝑠2 𝑥2 Τ𝛼 2 𝜈=𝑁−1 ≤ 𝜎 ≤ (𝑁 − 1)𝑠2 𝑥2 Τ1−𝛼 2 𝜈=𝑁−1 (𝑁 − 1)𝑠2 𝑁𝑥2 Τ𝛼 2 𝜈=𝑁−1 ≤ 𝜎 𝑁 ≤ (𝑁 − 1)𝑠2 𝑁𝑥2 Τ1−𝛼 2 𝜈=𝑁−1 Institut biostatistiky a analýz, PřF a LF MU Koncept intervalu spolehlivosti a jeho interpretace: shrnutí • Při výpočtu odhadu popisné statistiky nás zajímá nejenom její vlastní hodnota (bodový odhad) ale také její rozsah spolehlivosti • Interval spolehlivosti závisí na: • Velikosti vzorku • Variabilitě dat • Požadované spolehlivosti • Interval spolehlivosti lze spočítat pro jakoukoliv statistiku (průměr, směrodatná odchylka, korelace, procentuální zastoupení apod.) • Interval spolehlivosti poskytuje vodítko jak „spolehlivé“ jsou naše výsledky a s jakou pravděpodobností jich je možné opakovaně dosáhnout • 95% interval spolehlivosti je rozsah hodnot do nějž se při opakování studie trefíme s 95% pravděpodobností • Tvrzení, že v rozsahu 95% intervalu spolehlivosti leží s 95% pravděpodobností skutečný průměr populace není pravdivé, skutečný průměr populace neznáme !!! Rozložení odhadu pro N=10 Rozložení odhadu pro N=100 Rozložení parametru v populaci Průměr (odhadovaný parametr) Institut biostatistiky a analýz, PřF a LF MU Poznámka k intervalu spolehlivosti • Interval spolehlivosti počítá pouze s variabilitou danou náhodným výběrem, nepočítá se zdroji systematického zkreslení. • Příklady: • Měření koncentrace polutantu nebo krevního tlaku může být systematicky zkresleno starým měřidlem („technical bias“). • Měření koncentrace polutantu může být systematicky zkresleno výběrem pouze čistých nebo pouze kontaminovaných lokalit („selection bias“) • Měření krevního tlaku může být systematicky zkresleno tím, že se do studie přihlásí pouze určitá skupina osob („selection bias“) Základy testování hypotéz Princip statistického testování hypotéz Testová statistika a statistická významnost Chyby statistického testování Institut biostatistiky a analýz, PřF a LF MU Anotace • Testování hypotéz je po popisné statistice druhým hlavním směrem statistických analýz. Při testování pokládáme hypotézy, které se snažíme s určitou pravděpodobností potvrdit nebo vyvrátit. • Tzv. nulovou hypotézu lze nejlépe popsat jako situaci, kdy předpokládáme vliv náhody (rozdíl mezi skupinami je pouhá náhoda, vztah dvou proměnných je pouhá náhoda apod.), alternativní hypotéza předpokládá vliv nenáhodného faktoru. • Výsledkem statistického testu je v zásadě pravděpodobnost nakolik je hodnocený jev náhodný nebo ne, při překročení určité hranice (nejčastěji méně než 5% pravděpodobnost, že jev je pouhá náhoda) deklarujeme, že pravděpodobnost náhody je pro nás dostatečně nízká abychom jev prohlásili za nenáhodný • Statistická významnost je ovlivnitelná velikostí vzorku a tak je pouze indicií k prohlášení např. rozdílu dvou skupin pacientů za skutečně významný. V ideální situaci je nezbytné aby rozdíl byl významný nejenom statisticky (=nenáhodný), ale i prakticky (=nejde pouze o artefakt velikosti vzorku). Institut biostatistiky a analýz, PřF a LF MU Statistické testování neznamená průkaz kauzality !!!! • Výsledek statistického testování neznamená kauzální prokázání nebo neprokázání vztahu, jde pouze o indicii k našemu rozhodování. Institut biostatistiky a analýz, PřF a LF MU Práce s variabilitou v analýze dat • V analýze dat existují tři hlavní přístupy k práci s variabilitou Variabilita dat Popisná analýza: popis variability Testování hypotéz: vysvětlení variability ? Stochastické modelování: predikce chování systému Statistické testy Institut biostatistiky a analýz, PřF a LF MU Princip testování hypotéz • Formulace hypotézy • Výběr cílové populace a z ní reprezentativního vzorku • Měření sledovaných parametrů • Použití odpovídajícího testu závěr testu • Interpretace výsledků Cílová populace Vzorek Reprezentativnost ? Závěr ? Interpretace Měření parametrů Testy hypotéz ? Institut biostatistiky a analýz, PřF a LF MU Stanovení hypotézy • Nulová hypotéza („null hypothesis“) – tvrzení o neznámých vlastnostech rozdělení pravděpodobnosti sledované náhodné veličiny (znaku, vlastnosti) týkající se cílové populace. • Nulová hypotéza má tvar: • Nulová hypotéza obecně říká, že rozdíl není, popřípadě, že rozdíl je tak malý, že jej můžeme považovat za náhodný -> základní otázkou testování tak je „jak definovat co je pro nás „dostatečně“ náhodné?“ • Alternativní hypotéza – tvrzení o neznámých vlastnostech rozdělení pravděpodobnosti sledované náhodné veličiny, které popírá platnost nulové hypotézy. Vymezuje, jaká situace nastává, když nulová hypotéza neplatí. • Alternativní hypotéza má tvar: 01 01 01 : : :       H H H 00 :  =H Institut biostatistiky a analýz, PřF a LF MU Příklady hypotézy • Liší se lokality poblíž lidských sídel od lokalit v chráněných rezervacích co do míry znečištění? Míra znečištění na lokalitách poblíž sídel: Míra znečištění na lokalitách v rezervacích: • Je efekt snížení systolického tlaku novým antihypertenzivem stejný u hypertoniků, kteří kouří, jako u hypertoniků, kteří nekouří? Střední hodnota efektu u kuřáků: Střední hodnota efektu u nekuřáků: 210 :  =H1 2 211 :  H 210 :  =H1 2 211 :  H Institut biostatistiky a analýz, PřF a LF MU Proč nulová hypotéza vyjadřuje nepřítomnost efektu? • Nulová hypotéza odráží fakt, že se něco nestalo nebo neprojevilo → je stanovena obvykle jako opak toho, co chceme experimentem prokázat. • Nulová hypotéza je postavena tak, abychom ji mohli pomocí pozorovaných hodnot vyvrátit. • Pro zamítnutí platnosti nulové hypotézy nám totiž stačí najít jeden příklad, kdy nulová hypotéza neplatí – tím příkladem má být náš náhodný výběr (naše pozorovaná data). • Zamítnout nulovou hypotézu je jednodušší než nulovou hypotézu potvrdit. Institut biostatistiky a analýz, PřF a LF MU Testování hypotéz • Testování hypotéz se zabývá rozhodováním o platnosti stanovených hypotéz na základě pozorovaných dat. • Platnost hypotéz ověřujeme pomocí statistického testu – rozhodovacího pravidla, které každému náhodnému výběru přiřadí právě jedno ze dvou možných rozhodnutí – H0 nezamítáme nebo H0 zamítáme. Institut biostatistiky a analýz, PřF a LF MU Statistický test • Testování hypotéz probíhá na základě dat. • Testované hypotéze odpovídá statistický test, respektive testová statistika, která umožní ověřit platnost nulové hypotézy. • Testová statistika je vzorec vycházející z pozorovaných dat s rozdělením pravděpodobnosti, sama tedy má také rozdělení pravděpodobnosti. Rozdělení pravděpodobnosti testové statistiky za platnosti H0 se označuje jako „null distribution“. Institut biostatistiky a analýz, PřF a LF MU Postup statistického testování • Formulujeme nulovou hypotézu H0 (sledovaný efekt je nulový) • Formulujeme alternativní hypotézu HA(sledovaný efekt je různý mezi skupinami) Alternativní hypotéza u parametrických testů může být oboustranná nebo jednostranná. • Hypotéza musí být stanovena tak abychom mohli vybrat a spočítat tzv. testovou statistiku (např. hypotéza o průměrech bude pravděpodobně řešena pomocí t-testu, jehož testová statistika má t rozdělení) • Hodnotu testové statistiky vypočítáme na základě pozorovaných hodnot • Vypočtenou testovou statistiku porovnáme s jejím rozdělením (= rozdělení náhodných rozdílů), posoudíme náhodnost rozdílu a vyslovíme závěr o zamítnutí / nezamítnutí H0 Institut biostatistiky a analýz, PřF a LF MU Na čem závisí hodnota testové statistiky? • Máme dvě skupiny hodnot, každá je popsána svojí velikostí, průměrem a směrodatnou odchylkou – co ovlivňuje významnost rozdílu jejich průměrů? 0 20 40 60 80 100 120 N = 100 Průměr = 59,4 SD = 9,4 N = 100 Průměr = 70,0 SD = 10,5 Rozdíl = 10,6 Institut biostatistiky a analýz, PřF a LF MU Na čem závisí hodnota testové statistiky? • Máme dvě skupiny hodnot, každá je popsána svojí velikostí, průměrem a směrodatnou odchylkou – co ovlivňuje významnost rozdílu jejich průměrů? • Na velikosti vzorku (větší vzorek = větší významnost) a směrodatné odchylce (větší variabilita = menší významnost) - ovlivňují spolehlivost s jakou odhadujeme srovnávané průměry • Na velikosti rozdílu mezi srovnávanými průměry (větší rozdíl = větší významnost) 0 20 40 60 80 100 120 N = 100 Průměr = 59,4 SD = 9,4 N = 100 Průměr = 70,0 SD = 10,5 Rozdíl = 10,6 Institut biostatistiky a analýz, PřF a LF MU Testová statistika • Testová statistika kombinuje velikost rozdílu s dalšími charakteristikami dat (velikost vzorku, variabilita atd.), jde vlastně o rozdíl vážený dalšími charakteristikami • Hodnota testové statistiky je ve vazbě na významnost rozdílu • Pro finální rozhodnutí o významnosti rozdílu je nezbytné testovou statistiku porovnat s jejím rozdělením náhodných rozdílů (= jaké by bylo rozdělení této statistiky, kdyby byl rozdíl náhodný) 0 20 40 60 80 100 120 N = 100 Průměr = 59,4 SD = 9,4 N = 100 Průměr = 70,0 SD = 10,5 Rozdíl = 10,6 Institut biostatistiky a analýz, PřF a LF MU Dva způsoby získání rozdělení testové statistiky • Testová statistika představuje rozdělení náhodných rozdílů, lze ji získat dvěma způsoby • Aproximací na modelové rozdělení • „standardní“ postup, výhodou je snadný výpočet, citlivé na nedodržení předpokladů o rozložení dat • Různé testy mají své rozdělení náhodných rozdílů popsány různými mdolovými rozděleními (např. t-test pomocí t-rozdělení, test dobré shody pomocí Pearsonova (chi-kvadrát rozdělení) • Permutační metody • Rozdělení náhodných rozdílů je získáno pomocí počítačové simulace buď všech možných nebo zadaného počtu náhodných situací • Vhodné pro malé velikosti vzorku nebo situace, kdy není možná aproximace na modelová rozdělení • Náročné na výpočetní výkon (v současnosti stále menší problém) • Výukově názorné Institut biostatistiky a analýz, PřF a LF MU Způsoby testování • Testování H0 proti HA na hladině významnosti α můžeme provést třemi různými způsoby: 1. Kritický obor (označení W) neboli obor zamítnutí H0 , 2. Interval spolehlivosti, 3. P-hodnota. Institut biostatistiky a analýz, PřF a LF MU Příklad: permutační testování 0 20 40 60 80 100 120 N = 100 Průměr = 59,4 SD = 9,4 N = 100 Průměr = 70,0 SD = 10,5 Rozdíl = 10,6 Jak zjistit, zda pozorovaný rozdíl je daný pouhou náhodou? Nasimulujeme si ho !!!! Rozdíl??? Hodnotíme velikost dvou druhů žab, od každého druhu jsme vzorkovali 100 jedinců. N=100 N=100 Institut biostatistiky a analýz, PřF a LF MU Příklad: permutační testování Hodnotíme velikost dvou druhů žab, od každého druhu jsme vzorkovali 100 jedinců. Náhodné promíchání N=100 N=100 N=100 N=100 Rozdíl??? Jaký je nejpravděpodobnější rozdíl mezi skupinami po náhodném promíchání? Institut biostatistiky a analýz, PřF a LF MU Příklad: permutační testování Hodnotíme velikost dvou druhů žab, od každého druhu jsme vzorkovali 100 jedinců. Náhodné promíchání N=100 N=100 N=100 N=100 Rozdíl??? 0 20 40 60 80 100 120 N = 100 Průměr = 64,9 SD = 10,4 N = 100 Průměr = 64,5 SD = 12,0 Rozdíl = 0,4 Pro stabilizaci výsledku potřebujeme velký počet permutací. Institut biostatistiky a analýz, PřF a LF MU Výsledky při různém počtu permutací • Se zvyšujícím počtem permutací pozorujeme vytváření rozdělení náhodných rozdílů <=-5,0 -4,9--4,5 -4,4--4,0 -3,9--3,5 -3,4--3,0 -2,9--2,5 -2,4--2,0 -1,9--1,5 -1,4--1,0 -,9--,5 -,4-,0 ,1-,5 ,6-1,0 1,1-1,5 1,6-2,0 2,1-2,5 2,6-3,0 3,1-3,5 3,6-4,0 4,1-4,5 4,6-5,0 >5 N = 1000 <=-5,0 -4,9--4,5 -4,4--4,0 -3,9--3,5 -3,4--3,0 -2,9--2,5 -2,4--2,0 -1,9--1,5 -1,4--1,0 -,9--,5 -,4-,0 ,1-,5 ,6-1,0 1,1-1,5 1,6-2,0 2,1-2,5 2,6-3,0 3,1-3,5 3,6-4,0 4,1-4,5 4,6-5,0 >5 N = 100 <=-5,0 -4,9--4,5 -4,4--4,0 -3,9--3,5 -3,4--3,0 -2,9--2,5 -2,4--2,0 -1,9--1,5 -1,4--1,0 -,9--,5 -,4-,0 ,1-,5 ,6-1,0 1,1-1,5 1,6-2,0 2,1-2,5 2,6-3,0 3,1-3,5 3,6-4,0 4,1-4,5 4,6-5,0 >5 N = 10 Náhodné rozdílyNáhodné rozdílyNáhodné rozdíly Institut biostatistiky a analýz, PřF a LF MU Náhodné rozdíly vs. pozorovaný rozdíl • Reálný rozdíl porovnáme s rozložením náhodných rozdílů N=100 N=100 Rozdíl=10,6 <=-5,0 -4,9--4,5 -4,4--4,0 -3,9--3,5 -3,4--3,0 -2,9--2,5 -2,4--2,0 -1,9--1,5 -1,4--1,0 -,9--,5 -,4-,0 ,1-,5 ,6-1,0 1,1-1,5 1,6-2,0 2,1-2,5 2,6-3,0 3,1-3,5 3,6-4,0 4,1-4,5 4,6-5,0 >5 N = 1000 Náhodné rozdíly ? ? ? ? ? ? ? Institut biostatistiky a analýz, PřF a LF MU Rozložení náhodných rozdílů a jeho využití pro testování • Stanovíme si kritický obor testové statistiky = s jakou pravděpodobností náhodného vzniku pozorovaného rozdílu jsme schopni se smířit při zamítnutí nulové hypotézy (tedy prohlášení, že rozdíl nepovažujeme za náhodný) • Nejběžněji se používá kritický obor testové statistiky vedoucí k pravděpodobnosti náhodného rozdílu 0.05 nebo 0.01 (tzv. hladina statistické významnosti, nejde o přírodní zákon, pouze o domluvu) • Náš skutečný rozdíl porovnáme s rozložením náhodných rozdílů a stanoveným kritickým oborem této statistiky • Pokud skutečný rozdíl leží v kritickém oboru, říkáme, že na dané hladině významnosti zamítáme nulovou hypotézu • Pro danou hodnotu testové statistiky jsme schopni určit i přesnou pravděpodobnost s jakou existují náhodné rozdíly větší než je náš pozorovaný rozdíl = pravděpodobnost, že námi pozorovaný rozdíl je pouhá náhoda Institut biostatistiky a analýz, PřF a LF MU Statistická významnost pozorovaného rozdílu • Jako hladinu statistické významnosti budeme uvažovat 0.05 (5%) N=100 N=100 Rozdíl=10,6 <=-5,0 -4,9--4,5 -4,4--4,0 -3,9--3,5 -3,4--3,0 -2,9--2,5 -2,4--2,0 -1,9--1,5 -1,4--1,0 -,9--,5 -,4-,0 ,1-,5 ,6-1,0 1,1-1,5 1,6-2,0 2,1-2,5 2,6-3,0 3,1-3,5 3,6-4,0 4,1-4,5 4,6-5,0 >5 N = 1000 Náhodné rozdíly Skutečný rozdíl = 10,6 Kritický obor (spodních 2,5% případů = 25 nejextrémnějších permutací) Kritický obor (horních 2,5% případů = 25 nejextrémnějších permutací) 1. Skutečný rozdíl leží v kritickém oboru testové statistiky = zamítáme nulovou hypotézu o shodě průměru obou skupin 2. Existuje pouze jeden náhodný rozdíl vzniklý permutacemi větší než je skutečný rozdíl = pravděpodobnost, že pouhou náhodou existuje větší rozdíl než je námi pozorovaný je 1/1000 = 0,001 = statistická významnost námi pozorovaného rozdílu je p=0,001. Institut biostatistiky a analýz, PřF a LF MU Co znamená náhodný rozdíl? Shrnutí. Je tu rozdíl? Jak by vypadal rozdíl, kdyby byl náhodný? Nasimulujme si ho !!! ☺ Léčba Placebo X2 X1 X2 X1 Rozdíl? Rozdíl X2 X1 Rozdíl …. Mnoho- krát Rozdíl ? Rozložení možných náhodných rozdílů Kde leží skutečný rozdíl? Jak moc je pravděpodobné, že je náhodný? 0 Institut biostatistiky a analýz, PřF a LF MU Zamítnutí / nezamítnutí nulové hypotézy • Hodnotu testové statistiky srovnáme s kvantilem (kritickou hodnotou) jejího rozdělení odpovídajícím zvolené hladině významnosti testu α. • Představuje-li pozorovaná hodnota testové statistiky extrémnější (méně pravděpodobnou) hodnotu v rámci rozdělení odpovídajícího nulové hypotéze než je kritická hodnota (kvantil) odpovídající zvolenému riziku α, pak nulovou hypotézu zamítáme. Institut biostatistiky a analýz, PřF a LF MU Zamítnutí / nezamítnutí nulové hypotézy riziko α / 2 riziko α / 2 2,5 %2,5 % 95 % Oboustranný test při α = 0,05 210 :  =H 211 :  H Padne-li testová statistika sem – zamítáme H0 Padne-li testová statistika sem – nezamítáme H0 Padne-li testová statistika sem – zamítáme H0 Rozdělení náhodných rozdílů: - Buď příslušné modelové rozdělení - Nebo výsledek simulace Zamítnutí nulové hypotézy: • Naše testová statistika spadá do kritického oboru • Odvozená přesná hodnota p je menší než s kritickým oborem spjaté p Institut biostatistiky a analýz, PřF a LF MU Testování pomocí intervalů spolehlivosti • Principem testování pomocí intervalů spolehlivosti je výpočet intervalu spolehlivosti pro daný rozdíl nebo míru vztahu proměnných a porovnání s referenční hodnotou (např. 0 v případě rozdílu). • Pokud interval neobsahuje tuto referenční hodnotu, jde o ekvivalent prokázání statistické významnosti rozdílu na dané hladině významnosti (95% interval spolehlivosti je ekvivalentní hladině významnosti 0.05) Source: Piaggio G, Elbourne DR, Altman DG, Pocock SJ, Evans SJ; CONSORT Group. Reporting of noninferiority and equivalence randomized trials: an extension of the CONSORT statement. JAMA. 2006 Mar 8;295(10):1152-60. Statistics and Informatics Services Group, Department of Reproductive Health and Research, World Health Organization, Geneva. Institut biostatistiky a analýz, PřF a LF MU Možné chyby při testování hypotéz Institut biostatistiky a analýz, PřF a LF MU Co se při rozhodování může stát • Vzhledem k nulové hypotéz máme čtyři možnosti výsledku rozhodovacího procesu: • Při rozhodování se můžeme mýlit, můžeme se dopustit dvou chybných úsudků. Rozhodnutí Skutečnost H0 platí H0 neplatí H0 nezamítneme správné přijetí platné nulové hypotézy chyba II. druhu H0 zamítneme chyba I. druhu správné zamítnutí neplatné nulové hypotézy Institut biostatistiky a analýz, PřF a LF MU Analogie se soudním procesem • Ctíme presumpci neviny = předpokládáme, že nulová hypotéza platí. • Požadujeme důkaz pro prokázání viny = na základě dat chceme ukázat, že nulová hypotéza neplatí. • Když nám bude stačit málo důkazů, zvýší se procento odsouzených nevinných = chyba I. druhu, ale zároveň se zvýší i procento odsouzených , kteří jsou skutečně vinni = správné zamítnutí neplatné nulové hypotézy. • Když budeme požadovat hodně důkazů, zvýší se procento nevinných, kteří budou osvobozeni = správné přijetí platné nulové hypotézy, ale zároveň se zvýší i procento vinných, kteří budou osvobozeni = chyba II. druhu. Institut biostatistiky a analýz, PřF a LF MU Pravděpodobnost výsledků rozhodovacího procesu • Jak je vidět z analogie se soudním procesem, nelze zároveň minimalizovat α i β. V praxi je nutné více hlídat α → předem stanovíme maximální hranici pro α (hladina významnosti testu, „level of significance“) a za této podmínky minimalizujeme β. Rozhodnutí Skutečnost H0 platí H0 neplatí H0 nezamítneme správné rozhodnutí P = 1 – α chyba II. druhu P = β H0 zamítneme chyba I. druhu P = α správné rozhodnutí P = 1 – β Institut biostatistiky a analýz, PřF a LF MU Co znamená „padnutí testové statistiky“ • Je-li hodnota testové statistiky větší než kvantil příslušný riziku α, pak mohly nastat dvě situace: 1. buď H0 platí a my jsme pozorovali málo pravděpodobný jev 2. nebo H0 neplatí • My pracujeme s rizikem α, tedy málo pravděpodobné jevy jsou součástí našeho rizika, proto v tomto případě volíme možnost 2 a zamítáme H0. Institut biostatistiky a analýz, PřF a LF MU Chyby statistického testu jako důsledek našeho rozhodnutí • Samotná statistická významnost znamená pouze pravděpodobnost toho, že námi pozorovaný rozdíl nebo vztah proměnných je daný pouhou náhodou • V okamžiku, kdy na základě této pravděpodobnosti provedeme rozhodnutí o neplatnosti nulové hypotézy, smiřujeme se s pravděpodobností (odpovídající dané statistické významnosti), že toto rozhodnutí je chybné a ve skutečnosti nulová hypotéza platí (rozdíl je daný pouhou náhodou) • Každé naše rozhodnutí o zamítnutí nulové hypotézy v sobě skrývá hada chyby I. druhu Institut biostatistiky a analýz, PřF a LF MU P-hodnota • P-hodnota vyjadřuje pravděpodobnost za platnosti H0, s níž bychom získali stejnou nebo extrémnější hodnotu testové statistiky (samozřejmě vzhledem k jednostrannosti nebo oboustrannosti testu). • Platí tedy, že čím nižší p-hodnota testu je, tím menší nám tento test indikuje pravděpodobnost, že platí nulová hypotéza. Jinak řečeno, vyjde-li nám při vyhodnocení statistického testu p-hodnota „blízká nule“ (standardně jsou opět přijímány dvě hranice: 5 % a 1 %), znamená to, že naše nulová hypotéza má velmi malou oporu v pozorovaných datech a můžeme ji zamítnout. Institut biostatistiky a analýz, PřF a LF MU P-hodnota • Výslednou p-hodnotu tedy srovnáme se zvolenou hladinou významnosti α s tím, že nulová hypotéza je zamítána ve chvíli, kdy p-hodnota testu klesne pod tuto hladinu. • Dá se tedy říci, že ve chvíli, kdy riziko falešně pozitivního výsledku v souvislosti se zamítnutím nulové hypotézy klesne pod vybranou hladinu (např. 5 % nebo 1 %), pak ji zamítáme. • P-hodnotu lze chápat jako číselný indikátor platnosti nebo neplatnosti nulové hypotézy vyjádřený na pravděpodobnostní škále. A jako každý indikátor, může i p-hodnota indikovat špatný výsledek, neboť si stále musíme uvědomovat, že nám hrozí jak chyba I. druhu, tak chyba II. druhu. Institut biostatistiky a analýz, PřF a LF MU Síla testu • Pravděpodobnost chyby II. druhu značíme β. • 1 – β se nazývá síla testu a vyjadřuje pravděpodobnost, že zamítneme H0 ve chvíli, kdy H0 opravdu neplatí. • Snažíme se sílu testu optimalizovat při zachování hladiny významnosti testu α → princip výpočtu velikosti experimentálního vzorku před provedením studie • Optimalizovat sílu testu a velikost vzorku předem není triviální, můžeme narazit na spoustu problémů – biologické limity, etické limity, finanční limity. Institut biostatistiky a analýz, PřF a LF MU Faktory ovlivňující sílu testu • Velikost vzorku: čím více pozorování (informace o platnosti nulové hypotézy), tím větší má test sílu. Stejně jako u intervalů spolehlivosti, síla testu roste s odmocninou z n. • Velikost efektu (účinku): velikost rozdílu v neznámých parametrech také ovlivňuje sílu testu. Vždy je jednodušší identifikovat jako významný velký efekt, např. velký rozdíl ve středních hodnotách objemu prostaty dvou populací. Naopak je těžší prokázat jako významný menší efekt (menší rozdíl). • Variabilita dat: variabilita dat zvyšuje variabilitu odhadů a ztěžuje tak rozhodnutí o H0. Čím více jsou pozorované hodnoty variabilní, tím více dat bude potřeba pro přesný odhad velikosti účinku (rozdílu). • Hladina významnosti: snížíme-li hladinu významnosti testu (např. zvolíme 0,01 místo 0,05), bude obtížnější H0 zamítnout → sníží se síla testu.