Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 1 BIOSTATISTIKA Tato prezentace je autorským dílem vytvořeným zaměstnanci Masarykovy univerzity. Studenti předmětu mají právo pořídit si kopii prezentace pro potřeby vlastního studia. Jakékoliv další šíření prezentace nebo její části bez svolení Masarykovy univerzity je v rozporu se zákonem. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 2 Parametrické testy Jednovýběrový parametrický test Dvouvýběrové parametrické testy ANOVA Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 3 Základní statistické testy Typ dat Spojitá x spojitá data Spojitá x kategoriální data Kategoriální x kategoriální data Jeden výběr Dva výběry Tři a více výběrů (nepárově) Jeden výběr Více výběrů Párová data Nepárová data Pearsonův korelační koeficient Jednovýbě-rový t-test Párový t-test Dvouvýbě-rový t-test ANOVA Párová data Nepárová data Chí-kvadrát test Spearmanův korelační koeficient Jednovýbě-rový Wilcoxo-nův test Wilcoxonův / znaménkový test Mannův-Whitneyho test Kruskalův-Wallisův test Jednovýbě-rový bino-mický test McNemarův test Fisherův exaktní test Parametrické testy Neparametrické testy Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 4 Parametrické testy ̶Předpoklad: normalita rozdělení dat ̶Studentův t-test (testování rozdílů dvou středních hodnot) 1. Jednovýběrový t-test (porovnání základního a výběrového souboru; známe střední hodnotu, nepředpokládáme znalost rozptylu; nahrazujeme jej výběrovým rozptylem našich dat) 2. Dvouvýběrový t-test (porovnání dvou výběrových souborů, neznáme střední hodnotu základního souboru): párový (závislé výběry) nepárový (nezávislé výběry) ̶F-test (testování rozdílů dvou rozptylů) Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 5 Statistické testy o parametrech jednoho výběru Jednovýběrový t-test Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 6 Jednovýběrový t-test ̶Jednovýběrové statistické testy srovnávají některou popisnou statistiku výběru (průměr) s jediným číslem, jehož význam je ze statistického hlediska hodnota cílové populace. ̶Z hlediska statistické teorie jde o ověření, zda daný vzorek pochází z testované cílové populace. ̶ Jednovýběrový t-test Předpoklad: normální rozdělení proměnné ve výběru (vhodné ověřit vizuálně i statistickým testem: Shapiro-Wilkův test) ̶ http://files.mscck-trmice.webnode.cz/200000297-22250231ed/vyk%C5%99i%C4%8Dn%C3%ADk.png Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 7 Výpočet jednovýběrového t-testu 1.Stanovit nulovou a alternativní hypotézu: H0: Průměr výběru je rovný referenční hodnotě. HA: Průměr výběru není rovný referenční hodnotě. 2.Ověřit normalitu rozdělení hodnot výběru (vizuálně i statistickým testem: Shapiro-Wilkův test). 3.Vypočítat hodnotu testové statistiky a p-hodnotu. Když je vypočítaná p-hodnota menší než zvolená hladina významnosti α = 0,05, zamítáme nulovou hypotézu. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 8 Statistické testy o parametrech dvou výběrů Dvouvýběrový párový t-test Dvouvýběrový nepárový t-test Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 9 Dvouvýběrové t-testy ̶Jedním z nejčastějších úkolů statistické analýzy dat je srovnání spojitých dat ve dvou skupinách pacientů. Na výběr je celá škála testů, výběr konkrétního testu se pak odvíjí od toho, zda je o srovnání párové nebo nepárové a zda je vhodné použít test parametrický (má předpoklady o rozložení dat) nebo neparametrický (nemá předpoklady o rozložení dat, nicméně má nižší vypovídací sílu). ̶ ̶Nejznámějšími testy z této skupiny jsou tzv. t-testy používané pro srovnání průměrů dvou výběrů. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 10 Párový a nepárový t-test ̶Párový a nepárový t-test v závislosti od designu experimentu ̶Srovnání dvou nezávislých rozložení spojitých hodnot: Nepárový dvouvýběrový t-test ̶ ̶ ̶Srovnání dvou závislých rozložení spojitých hodnot: Párový dvouvýběrový t-test ….. ….. ….. ….. ….. ….. ….. ….. ….. ….. ….. ….. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 11 Nepárový dvouvýběrový t-test ̶Srovnání dvou nezávislých rozložení spojitých hodnot. Příklad: srovnání věku u mužů a žen ̶ ̶Předpoklady t-testu (je vhodné ověřit vizuálně i otestovat statistickými testy): 1. Náhodný výběr subjektů jednotlivých skupin z jejich cílových populací. 2. Nezávislost srovnávaných skupin. 3. Normální rozdělení proměnné v rámci skupin (drobné odchylky od normality jsou přípustné, t-test je dostatečně robustní proti drobným odchylkám od tohoto předpokladu); test normality: Shapiro-Wilkův test. 4. Shodný rozptyl v obou skupinách; test: Levenův test nebo F-test. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 12 Výpočet nepárového t-testu 1.Nulová hypotéza: průměry obou skupin jsou shodné Alternativní hypotéza: průměry obou skupin nejsou shodné 2.Prohlédnout průběh dat, určit průměr, medián apod. Ověřit normalitu dat (např. Shapiro-Wilkovým testem) Ověřit homogenitu rozptylů (F-testem) F-test testuje hypotézu o shodě rozptylů; v případě shodných rozptylů je vše v pořádku a je možné pokračovat ve výpočtu t-testu, v opačném případě není vhodné t-test počítat v jeho původní formě. 3.Vypočítat hodnotu testové statistiky a p-hodnotu. Když je vypočítaná p-hodnota menší než stanovená hladina významnosti α = 0,05, zamítáme nulovou hypotézu. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 13 Párový dvouvýběrový t-test ̶Skupiny dat jsou spojeny přes objekt měření, Příklad: parametr pacienta před léčbou a po léčbě, úbytek hmotnosti u krys stejné linie ̶Oba soubory musí mít shodný počet hodnot, všechna měření v jednom souboru musí být spárována s měřením v druhém souboru. Při vlastním výpočtu se počítá se změnou hodnot (diferencí) subjektů v obou souborech. ̶ ̶Předpokladem je normalita rozdělení diferencí hodnot. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 14 Výpočet párového t-testu 1.Nulová hypotéza: průměry před a po léčbě jsou shodné Alternativní hypotéza: průměry před a po léčbě nejsou shodné 2.Spočítat diference hodnot a prohlédnout jejich průběh. Ověřit normalitu rozdělení diferencí (Shapiro-Wilkův test) 3.Vypočítat hodnotu testové statistiky a p-hodnotu. Když je vypočítaná p-hodnota menší než stanovená hladina významnosti α = 0,05, zamítáme nulovou hypotézu. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 15 Statistické testy o parametrech tří a více výběrů ANOVA Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 16 Analýza rozptylu ANOVA ̶Srovnání tři a více nezávislých výběrů. Příklad: srovnání krevního tlaku u třech skupin pacientů léčených léky A, B a C; srovnání kognitivního výkonu u čtyř skupin kategorizovaných podle věku Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 17 Analýza rozptylu ANOVA ̶Předpoklady ANOVA (je vhodné ověřit vizuálně i otestovat statistickými testy): 1. Náhodný výběr subjektů jednotlivých skupin z jejich cílových populací. 2. Nezávislost srovnávaných skupin. 3. Normální rozdělení proměnné ve všech skupinách (drobné odchylky od normality jsou přípustné, ANOVA je dostatečně robustní proti drobným odchylkám od tohoto předpokladu); test normality: Shapiro-Wilkův test. 4. Shodný rozptyl ve všech skupinách (homogenita rozptylů); test: Levenův test nebo Bartlettův test. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 18 Analýza rozptylu – princip ̶Srovnání variability (rozptylu) mezi výběry s variabilitou uvnitř výběrů. celkový průměr AD CN AD MCI CN Rozdíl ve všech třech skupinách: Žádný rozdíl mezi skupinami: MCI Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 19 Analýza rozptylu – výpočet 1.Stanovit nulovou a alternativní hypotézu: H0: Střední hodnoty všech skupin jsou stejné. HA: Aspoň jedna dvojice středních hodnot se liší. 2.Prohlédnout průběh dat, určit průměr, medián apod. Ověřit normalitu dat (např. Shapiro-Wilkovým testem) Ověřit homogenitu rozptylů (Levenův test) 3.Vypočítat hodnotu testové statistiky F a p-hodnotu. Když je vypočítaná p-hodnota menší než stanovená hladina významnosti α = 0,05, zamítáme nulovou hypotézu a dalším, tzv. post hoc testem hledáme dvojici skupin s odlišnou střední hodnotou. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 20 Praktické cvičení v programu Statistica Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 21 Datový soubor Rehabilitace po mozkovém infarktu Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 22 Rehabilitace po mozkovém infarktu ̶Cvičný datový soubor obsahuje záznamy o celkem 407 pacientech hospitalizovaných pro mozkový infarkt na neurologickém oddělení akutní péče, kde jim byla poskytnuta terapie pro obnovu krevního oběhu v postižené části mozku. ̶Po zvládnutí akutní fáze byl u pacientů vyhodnocen stupeň soběstačnosti v základních denních aktivitách (ADL) pomocí tzv. indexu Barthelové (BI) a byli přeloženi na rehabilitační oddělení. ̶Po dvou týdnech byl opět dle BI vyhodnocen stupeň soběstačnosti a pacienti byli buď propuštěni do ambulantní péče, nebo přeloženi na oddělení následné péče. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 23 Sbírané informace: ̶základní demografické údaje (pohlaví a věk), ̶informace o samotné diagnóze mozkové příhody (etiologie a lokalizace uzávěru cévy), ̶informace o léčbě (typ indikované terapie a výskyt komplikací) ̶informace o způsobu ukončení rehabilitace. ̶Stupeň soběstačnosti před rehabilitací byl dodatečně zjištěn z neurologie a na konci rehabilitace byl vyplněn nový dotazník pro určení výsledného indexu Barthelové. Rehabilitace po mozkovém infarktu Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 24 Úkol 1. Jednovýběrový t-test Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 25 Úkol č. 1 – Jednovýběrový t-test Zadání: „ÚZIS v rámci celorepublikové zdravotnické statistiky publikoval průměrný věk pacientů s mozkovým infarktem 71,6 let. Ověřte, zda váš datový soubor věkově odpovídá celorepublikové hodnotě, anebo zda se vámi hodnocení pacienti věkově vymykají obecnému průměru. “ Postup: 1.Ověříme předpoklady testu: Normalita rozložení věku pacientů (ověříme vizuálně i statistickým testem – Shapiro-Wilkův test). Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 26 Úkol č. 1 – Jednovýběrový t-test Postup (po ověření předpokladů testu): 1.Na hladině významnosti α = 0,05 testujeme hypotézu H0: proti HA: 2.Vypočítáme aritmetický průměr a rozptyl výběrového souboru a určíme počet pozorování. 3.Vypočítáme testovou statistiku t a odpovídající p-hodnotu. 4. 4. 4.Vypočítané t porovnáme s kritickou hodnotou, nebo porovnáme p-hodnotu s hladinou významnosti α = 0,05. 5.Je-li p-hodnota ≤ α zamítáme H0. Věk našich pacientů je odlišný od celorepublikového průměru. 6. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 27 Úkol č. 1 – Ověření normality ① Průměr a medián jsou téměř shodné (cca 71 let) a data jsou tedy nejspíš alespoň symetrická. Srovnání průměru a mediánu Histogram !!! Shapirův-Wilkův test !!! Věk Krabicový graf Diagnostický N-P graf !!! Shapirův-Wilkův test !!! ② Symetrie je patrná i z krabicového grafu. Navíc histogram naprosto jasně odpovídá průběhu normálního rozdělení. Z N-P grafu také nejsou patrné odchylky od normality. ③ Na základě p-hodnoty 0,580 nezamítáme nulovou hypotézu o normalitě (tj. nezamítáme, že není rozdíl mezi pozorovanými daty a teoretickým normálním rozdělením, … tj. data jsou normálně rozdělená). Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 28 Úkol č. 1 – Řešení v programu Statistica •V menu Statistics zvolíme Basic statistics, vybereme t-test, single sample. 3 2 Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 29 Úkol č. 1 – Řešení v programu Statistica •Vybereme proměnnou, kterou chceme testovat. •Na kartě Quick napíšeme do pole Test all means against velikost střední hodnoty populace (lze také na kartě Advanced, Options). •Kliknutím na Summary t-test nebo na Summary získáme výstupy. Adobe Systems Institut biostatistiky a analýz LF 30 Úkol č. 1 – Výsledky v Statistica p-hodnota t-testu Výběrový průměr (pozorovaných dat) Výběrová směrodatná odchylka (pozorovaných dat) Rozsah výběru Referenční konstanta (předpokládaná velikost střední hodnoty) Hodnota testové statistiky http://files.mscck-trmice.webnode.cz/200000297-22250231ed/vyk%C5%99i%C4%8Dn%C3%ADk.png ① Pozorovaný průměrný věk souboru je 70,6 let, což je o rok méně než reference 71,6 let. ② P-hodnota statistické významnosti této pozorované odchylky je p = 0,049, což na hladině významnosti 0,05 značí hraničně významný rozdíl, a lze tedy usuzovat, že naši pacienti jsou v průměru mírně mladší ve srovnání s celou populací mozkových infarktů v ČR. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 31 Úkol 2. Dvouvýběrový t-test Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 32 Úkol č. 2 – Dvouvýběrový t-test Zadání: „V literatuře se často uvádí, že mozkový infarkt postihuje ženy v pozdějším věku než muže. Zjistěte na základě svých dat, zda je věk pacientů dle pohlaví stejný, anebo zda se věk mužů a žen skutečně liší.“ Postup: 1.Ověříme předpoklady testu: Normalita rozložení věku žen a normalita rozložení věku mužů (ověříme vizuálně i statistickým testem – Shapiro-Wilkův test). Shoda rozptylů věku žen a mužů (ověříme F-testem). Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 33 Úkol č. 2 – Dvouvýběrový t-test Postup (po ověření předpokladů testu): 1.Na hladině významnosti α = 0,05 testujeme hypotézu H0: proti HA: 2.Pro obě skupiny vypočítáme aritmetický průměr a rozptyl výběrového souboru a určíme počet pozorování. 3.Vypočítáme testovou statistiku t a odpovídající p-hodnotu: 4. 4. 4.Vypočítané t porovnáme s kritickou hodnotou nebo porovnáme p-hodnotu s hladinou významnosti α = 0,05. 5.Je-li p-hodnota ≤ α zamítáme H0. Věk mužů a žen při mozkovém infarktu se liší. U žen se vyskytuje později. 6. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 34 Úkol č. 2 – Ověření normality – muži ① Průměr a medián jsou téměř shodné (cca 69 let) a data jsou tedy nejspíš alespoň symetrická. Srovnání průměru a mediánu Histogram !!! Shapirův-Wilkův test !!! Věk Krabicový graf Diagnostický N-P graf !!! Shapirův-Wilkův test !!! ② Symetrie je patrná i z krabicového grafu. Navíc histogram naprosto jasně odpovídá průběhu normálního rozdělení. Z N-P grafu také nejsou patrné odchylky od normality. ③ Na základě p-hodnoty 0,814 nezamítáme nulovou hypotézu o normalitě (tj. nezamítáme, že není rozdíl mezi pozorovanými daty a teoretickým normálním rozdělením, … tj. data jsou normálně rozdělená). Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 35 Úkol č. 2 – Ověření normality – ženy ① Průměr a medián jsou podobné (cca 72 až 73 let) a data jsou tedy nejspíš alespoň symetrická. Srovnání průměru a mediánu Histogram !!! Shapirův-Wilkův test !!! Věk Krabicový graf Diagnostický N-P graf !!! Shapirův-Wilkův test !!! ② Spíše symetrie je patrná i z krabicového grafu. Navíc histogram přibližně odpovídá průběhu normálního rozdělení. Z N-P grafu nejsou patrné výrazné odchylky od normality. ③ Na základě p-hodnoty 0,084 nezamítáme nulovou hypotézu o normalitě (tj. nezamítáme, že není rozdíl mezi pozorovanými daty a teoretickým normálním rozdělením, … tj. data jsou normálně rozdělená). Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 36 Úkol č. 2 – Řešení v programu Statistica •V menu Statistics zvolíme Basic statistics, vybereme t-test, independent, by groups. 3 2 Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 37 Úkol č. 2 – Řešení v programu Statistica •Vybereme proměnnou, kterou chceme testovat (dependent) a proměnnou obsahující skupiny, které srovnáváme (grouping). •V záložce Options zaškrtneme možnost Test w/separate variance estimates (umožňuje získat validní výsledek i při nesplnění předpokladu homogenity rozptylů). •Kliknutím na Summary získáme výstupy. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 38 Úkol č. 2 – Výsledky v Statistica Výběrové průměry obou skupin Rozsahy výběru obou skupin Výběrové směrodatné odchylky obou skupin p-hodnota t-testu (při stejných rozptylech) p-hodnota t-testu (při různých rozptylech) http://files.mscck-trmice.webnode.cz/200000297-22250231ed/vyk%C5%99i%C4%8Dn%C3%ADk.png p-hodnota F-testu pro ověření předpokladu shody rozptylů -Pokud je p ≤ 0,05, pak jsou rozptyly různé. -Pokud je p > 0,05, pak jsou rozptyly stejné. ① Pozorovaný průměrný věk mužů je 69,2 let a u žen 72,7 let. V našich datech jsou tedy ženy starší o 3,5 roku. ② P-hodnota statistické významnosti F-testu je 0,096, což znamená, že na hladině významnosti 0,05 nezamítáme nulovou hypotézu o shodě rozptylů mužů a žen (tj. rozptyly jsou v obou skupinách stejné). ③ Na základě p-hodnoty t-testu při stejných rozptylech p = 0,001 vyhodnotíme pozorovaný rozdíl 3,5 let jakožto statisticky významný výsledek a lze tedy prohlásit, že průměrný věk se u mužů a žen liší (tj. ženy skutečně postihuje mozkový infarkt později). Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 39 Úkol 3. Párový t-test Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 40 Úkol č. 3 – Párový t-test Zadání: „Pacientům s mozkovým infarktem byla na lůžku akutní péče poskytnuta terapie pro obnovu krevního oběhu v postižené části mozku. Po zvládnutí akutní fáze byl u pacientů vyhodnocen stupeň soběstačnosti v základních denních aktivitách pomocí indexu Barthelové (BI) a byli přeloženi na rehabilitační oddělení. Po dvou týdnech byl opět vyhodnocen stupeň soběstačnosti dle BI. Zjistěte, zda poskytnutá rehabilitační péče vedla k jeho zlepšení.“ Postup: 1.Ověříme předpoklady testu: normalita rozložení rozdílů hodnot BI (vizuálně i Shapiro-Wilkovým testem). Adobe Systems Úkol č. 3 – Párový t-test Postup (po ověření předpokladů testu): 1.Na hladině významnosti α = 0,05 testujeme hypotézu H0: proti HA: 2.Pro novou proměnnou diferencí prvního a druhého měření vypočítáme průměr, rozptyl a určíme počet pozorování. 3.Vypočítáme testovou statistiku t a odpovídající p-hodnotu stejně jako u jednovýběrového t-testu oproti nule: 4. 4. 4.Vypočítané t porovnáme s kritickou hodnotou nebo porovnáme p-hodnotu s hladinou významnosti α = 0,05. 5.Je-li p-hodnota ≤ α zamítáme H0. Během rehabilitace došlo ke změně soběstačnosti pacientů. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 42 Úkol č. 3 – Ověření normality diferencí ① Průměr a medián jsou v podstatě shodné (cca -30) a data jsou tedy nejspíš alespoň symetrická. Srovnání průměru a mediánu Histogram !!! Shapirův-Wilkův test !!! Změna BI Krabicový graf Diagnostický N-P graf !!! Shapirův-Wilkův test !!! ② Symetrie je patrná i z krabi-cového grafu. Navíc histogram je svým průběhem velmi podobný normálnímu rozdělení. Z N-P grafu také nejsou patrné odchylky od normality. ③ Na základě p-hodnoty 0,003 zamítáme nulovou hypotézu o normalitě (tj. zamítáme, že není rozdíl mezi pozorovanými daty a teoretickým normálním rozdělením, tj. data formálně dle testu nejsou normál-ně rozdělená). Můžeme si přesto dovolit použít t-test? Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 43 Úkol č. 3 – Řešení v programu Statistica •V menu Statistics zvolíme Basic statistics, vybereme t-test, dependent samples. 3 2 Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 44 Úkol č. 3 – Řešení v programu Statistica •Zvolíme obě proměnné (Variables). • •Kliknutím na Summary získáme výstupy. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 45 Úkol č. 3 – Výsledky v Statistica Výběrové průměry obou měření Rozsah výběru Hodnota testové statistiky http://files.mscck-trmice.webnode.cz/200000297-22250231ed/vyk%C5%99i%C4%8Dn%C3%ADk.png p-hodnota t-testu Průměr a směrodatná odchylka rozdílu obou měření Výběrové směrodatné odchylky obou měření ① Pozorovaný průměrný Barthelové index na začátku je 31,8 a po rehabilitaci pak 62,0, což je zlepšení o 30,2 bodů. ② P-hodnota statistické významnosti této pozorované změny je p < 0,001, což na hladině významnosti 0,05 značí významný rozdíl, a lze tedy prohlásit, že průměrný stupeň soběstačnosti v základních denních aktivitách se během péče viditelně zlepšil. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 46 Úkol 4. ANOVA Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 47 Úkol č. 4 – ANOVA Zadání: „Porovnejte věk pacientů s mozkovým infarktem dle terapie, která jim byla indiko- vána (mechanická trombektomie, intravenózní trombolýza rt-PA nebo jiná farmakologická léčba), a zjistěte, zda se jedná o statisticky významný rozdíl.“ Postup: 1.Ověříme předpoklady testu: Normalita rozložení věku ve všech skupinách (ověříme vizuálně a Shapiro-Wilkovým testem), shoda rozptylů (ověříme Levenovým testem). Adobe Systems Úkol č. 4 – ANOVA Postup (po ověření předpokladů testu): 1.Na hladině významnosti α = 0,05 testujeme hypotézu H0: proti HA: alespoň jedna dvojice se liší. 2.Vypočítáme variabilitu v rámci jednotlivých skupin (Se) a variabilitu mezi skupinami (SA). 3.Vypočítáme testovou statistiku F a odpovídající p-hodnotu: 4. 4. 4.Vypočítané F porovnáme s kritickou hodnotou nebo porovnáme p-hodnotu s hladinou významnosti α = 0,05. 5.Je-li p-hodnota ≤ α zamítáme H0. Existuje alespoň jedna dvojice terapie mozkového infarktu, která se liší v průměrném věku pacientů. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 49 Úkol č. 4 – Popis dat a ověření normality Srovnání průměru a mediánu Věk Krabicový graf ① Základní popis i grafické srovnání ukazuje možný rozdíl mezi skupinami, a to především u pacientů s mechanickou trombektomií oproti ostatním pacientům (průměrný věk při mechanické trombektomii je 64 let, při rt-PA trombolýze 70 let a u jiné léčby je průměr 71 let). ② Normalitu dat nezamítáme u žádné skupiny (p = 0,273, p = 0,130 a p = 0,257) s tím, že ani u jedné skupiny není z N-P grafu patrné výrazné porušení normality. !!! Shapirův-Wilkův test !!! Diagnostické N-P grafy Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 50 Úkol č. 4 – Řešení v programu Statistica 3 2 •V menu Statistics zvolíme Basic Statistics, vybereme Breakdown & one-way ANOVA. •Vybereme proměnnou, kterou chceme testovat (dependent) a proměnnou obsahující skupiny, které srovnáváme (grouping) – OK. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 51 Úkol č. 4 – Řešení v programu Statistica •Na záložce ANOVA & tests zvolíme Levene tests. Ověření předpokladu shody rozptylů p-hodnota Levenova testu pro ověření předpokladu shody rozptylů -Pokud je p ≤ 0,05, pak jsou rozptyly různé. -Pokud je p > 0,05, pak jsou rozptyly stejné. ① P-hodnota statistické významnosti Levenova testu je 0,295, což znamená, že na hladině významnosti 0,05 nezamítáme nulovou hypotézu o shodě rozptylů mezi skupinami (tj. rozptyly jsou ve všech skupinách stejné). Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 52 Úkol č. 4 – Výsledky v Statistica 2 •Na záložce ANOVA & tests zvolíme Analysis of Variance. Výsledky ANOVA testu http://files.mscck-trmice.webnode.cz/200000297-22250231ed/vyk%C5%99i%C4%8Dn%C3%ADk.png p-hodnota ANOVA ② Na základě p-hodnoty ANOVA p = 0,002 vyhodnotíme pozorovaný rozdíl mezi průměry 64 let, 70 let, a 71 let jakožto statisticky významný výsledek a lze tedy prohlásit, že existuje alespoň jedna dvojice terapie mozkového infarktu, která se liší v průměrném věku pacientů. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 53 Úkol č. 4 – Výsledky v Statistica •Na záložce Post-hoc zvolíme Tukey HSD. Získáme tak výsledky mnohonásobného porovnání mezi všemi skupinami. Výsledky mnohonásobného porovnání p-hodnoty mnohonásobného porovnání všech skupin ③ Mnohonásobným porovnáním jsme navíc prokázali významný rozdíl mezi trombektomií a rt-PA trombolýzu a mezi trombektomií a jinou terapií. Jinými slovy, pacienti podstupující mechanickou trombektomii jsou významně mladší než pacienti podstupující ostatní dvě terapie.