Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 1 MNBS081 Biostatistika (jaro 2022) MICHAL SVOBODA Institut biostatistiky a analýz LF MU svoboda@iba.muni.cz Adobe Systems Institut biostatistiky a analýz LF – Výuka 2 Osnova ̶Excel: opakování, příprava dat, základní vzorce ̶Základy popisné statistiky ̶Základní rozdělení pravděpodobnosti, testování hypotéz ̶Parametrické testy ̶Neparametrické testy ̶Analýza kontingenčních tabulek ̶Základy korelační analýzy a lineární regrese Adobe Systems Institut biostatistiky a analýz LF – Výuka 3 Důležité informace ̶Výuka: 14:00–15:40, počítačová učebna F01B1/709 ̶Materiály v IS ̶Software: Microsoft Office - Excel, Statistica ̶Pro získání zápočtu/kolokvia je třeba: 1) Účast – povoleny jsou 2 absence oPři větší absenci – splnění písemky na konci semestru (teoretická část + řešení příkladů na počítači) 2) Domácí úkoly – povoleno max 1 neodevzdání oza účelem procvičení, dostanete zpětnou vazbu, na dalším cvičení se vrátíme, kdyby byl problém 3) Závěrečný úkol – datový soubor – praktické úkoly ̶ o o Adobe Systems Institut biostatistiky a analýz LF – Výuka 4 Organizace výuky •15. 2. – Excel: opakování, příprava dat, základní vzorce •1. 3. – Základy popisné statistiky (pozor! 22. 2. setkání nebude) •15. 3. – Základní rozdělení pravděpodobnosti, testování hypotéz (pozor! 8. 3. setkání nebude) •22. 3. – Parametrické testy •29. 3. – Neparametrické testy •5. 4. – Analýza kontingenčních tabulek, testy dobré shody •12. 4. – Korelační analýza + základy lineární regrese •19. 4. – Volitelné sezení (návrat k některým tématům) •3. 5. – Ukončení předmětu, test •10. 5. – Vyhodnocení testu Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 5 Parametrické testy Jednovýběrový parametrický test Dvouvýběrové parametrické testy ANOVA Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 6 Základní statistické testy Typ dat Spojitá x spojitá data Spojitá x kategoriální data Kategoriální x kategoriální data Jeden výběr Dva výběry Tři a více výběrů (nepárově) Jeden výběr Více výběrů Párová data Nepárová data Pearsonův korelační koeficient Jednovýbě-rový t-test Párový t-test Dvouvýbě-rový t-test ANOVA Párová data Nepárová data Chí-kvadrát test Spearmanův korelační koeficient Jednovýbě-rový Wilcoxo-nův test Wilcoxonův / znaménkový test Mannův-Whitneyho test Kruskalův-Wallisův test Jednovýbě-rový bino-mický test McNemarův test Fisherův exaktní test Parametrické testy Neparametrické testy Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 7 Parametrické testy ̶Předpoklad: normalita rozdělení dat ̶Studentův t-test (testování rozdílů dvou středních hodnot) 1. Jednovýběrový t-test (porovnání základního a výběrového souboru; známe střední hodnotu, nepředpokládáme znalost rozptylu; nahrazujeme jej výběrovým rozptylem našich dat) 2. Dvouvýběrový t-test (porovnání dvou výběrových souborů, neznáme střední hodnotu základního souboru): párový (závislé výběry) nepárový (nezávislé výběry) ̶F-test (testování rozdílů dvou rozptylů) Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 8 Statistické testy o parametrech jednoho výběru Jednovýběrový t-test Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 9 Jednovýběrový t-test ̶Jednovýběrové statistické testy srovnávají některou popisnou statistiku výběru (průměr) s jediným číslem, jehož význam je ze statistického hlediska hodnota cílové populace. ̶Z hlediska statistické teorie jde o ověření, zda daný vzorek pochází z testované cílové populace. ̶ Jednovýběrový t-test Předpoklad: normální rozdělení proměnné ve výběru (vhodné ověřit vizuálně i statistickým testem: Shapiro-Wilkův test) ̶ http://files.mscck-trmice.webnode.cz/200000297-22250231ed/vyk%C5%99i%C4%8Dn%C3%ADk.png Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 10 Výpočet jednovýběrového t-testu 1.Stanovit nulovou a alternativní hypotézu: H0: Průměr výběru je rovný referenční hodnotě. HA: Průměr výběru není rovný referenční hodnotě. 2.Ověřit normalitu rozdělení hodnot výběru (vizuálně i statistickým testem: Shapiro-Wilkův test). 3.Vypočítat hodnotu testové statistiky a p-hodnotu. Když je vypočítaná p-hodnota menší než zvolená hladina významnosti α = 0,05, zamítáme nulovou hypotézu. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 11 Statistické testy o parametrech dvou výběrů Dvouvýběrový párový t-test Dvouvýběrový nepárový t-test Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 12 Dvouvýběrové t-testy ̶Jedním z nejčastějších úkolů statistické analýzy dat je srovnání spojitých dat ve dvou skupinách pacientů. Na výběr je celá škála testů, výběr konkrétního testu se pak odvíjí od toho, zda je o srovnání párové nebo nepárové a zda je vhodné použít test parametrický (má předpoklady o rozložení dat) nebo neparametrický (nemá předpoklady o rozložení dat, nicméně má nižší vypovídací sílu). ̶ ̶Nejznámějšími testy z této skupiny jsou tzv. t-testy používané pro srovnání průměrů dvou výběrů. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 13 Párový a nepárový t-test ̶Párový a nepárový t-test v závislosti od designu experimentu ̶Srovnání dvou nezávislých rozložení spojitých hodnot: Nepárový dvouvýběrový t-test ̶ ̶ ̶Srovnání dvou závislých rozložení spojitých hodnot: Párový dvouvýběrový t-test ….. ….. ….. ….. ….. ….. ….. ….. ….. ….. ….. ….. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 14 Nepárový dvouvýběrový t-test ̶Srovnání dvou nezávislých rozložení spojitých hodnot. Příklad: srovnání věku u mužů a žen ̶ ̶Předpoklady t-testu (je vhodné ověřit vizuálně i otestovat statistickými testy): 1. Náhodný výběr subjektů jednotlivých skupin z jejich cílových populací. 2. Nezávislost srovnávaných skupin. 3. Normální rozdělení proměnné v rámci skupin (drobné odchylky od normality jsou přípustné, t-test je dostatečně robustní proti drobným odchylkám od tohoto předpokladu); test normality: Shapiro-Wilkův test. 4. Shodný rozptyl v obou skupinách; test: Levenův test nebo F-test. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 15 Výpočet nepárového t-testu 1.Nulová hypotéza: průměry obou skupin jsou shodné Alternativní hypotéza: průměry obou skupin nejsou shodné 2.Prohlédnout průběh dat, určit průměr, medián apod. Ověřit normalitu dat (např. Shapiro-Wilkovým testem) Ověřit homogenitu rozptylů (F-testem) F-test testuje hypotézu o shodě rozptylů; v případě shodných rozptylů je vše v pořádku a je možné pokračovat ve výpočtu t-testu, v opačném případě není vhodné t-test počítat v jeho původní formě. 3.Vypočítat hodnotu testové statistiky a p-hodnotu. Když je vypočítaná p-hodnota menší než stanovená hladina významnosti α = 0,05, zamítáme nulovou hypotézu. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 16 Párový dvouvýběrový t-test ̶Skupiny dat jsou spojeny přes objekt měření, Příklad: parametr pacienta před léčbou a po léčbě, úbytek hmotnosti u krys stejné linie ̶Oba soubory musí mít shodný počet hodnot, všechna měření v jednom souboru musí být spárována s měřením v druhém souboru. Při vlastním výpočtu se počítá se změnou hodnot (diferencí) subjektů v obou souborech. ̶ ̶Předpokladem je normalita rozdělení diferencí hodnot. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 17 Výpočet párového t-testu 1.Nulová hypotéza: průměry před a po léčbě jsou shodné Alternativní hypotéza: průměry před a po léčbě nejsou shodné 2.Spočítat diference hodnot a prohlédnout jejich průběh. Ověřit normalitu rozdělení diferencí (Shapiro-Wilkův test) 3.Vypočítat hodnotu testové statistiky a p-hodnotu. Když je vypočítaná p-hodnota menší než stanovená hladina významnosti α = 0,05, zamítáme nulovou hypotézu. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 18 Statistické testy o parametrech tří a více výběrů ANOVA Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 19 Analýza rozptylu ANOVA ̶Srovnání tři a více nezávislých výběrů. Příklad: srovnání krevního tlaku u třech skupin pacientů léčených léky A, B a C; srovnání kognitivního výkonu u čtyř skupin kategorizovaných podle věku Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 20 Analýza rozptylu ANOVA ̶Předpoklady ANOVA (je vhodné ověřit vizuálně i otestovat statistickými testy): 1. Náhodný výběr subjektů jednotlivých skupin z jejich cílových populací. 2. Nezávislost srovnávaných skupin. 3. Normální rozdělení proměnné ve všech skupinách (drobné odchylky od normality jsou přípustné, ANOVA je dostatečně robustní proti drobným odchylkám od tohoto předpokladu); test normality: Shapiro-Wilkův test. 4. Shodný rozptyl ve všech skupinách (homogenita rozptylů); test: Levenův test nebo Bartlettův test. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 21 Analýza rozptylu – princip ̶Srovnání variability (rozptylu) mezi výběry s variabilitou uvnitř výběrů. celkový průměr AD CN AD MCI CN Rozdíl ve všech třech skupinách: Žádný rozdíl mezi skupinami: MCI Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 22 Analýza rozptylu – výpočet 1.Stanovit nulovou a alternativní hypotézu: H0: Střední hodnoty všech skupin jsou stejné. HA: Aspoň jedna dvojice středních hodnot se liší. 2.Prohlédnout průběh dat, určit průměr, medián apod. Ověřit normalitu dat (např. Shapiro-Wilkovým testem) Ověřit homogenitu rozptylů (Levenův test) 3.Vypočítat hodnotu testové statistiky F a p-hodnotu. Když je vypočítaná p-hodnota menší než stanovená hladina významnosti α = 0,05, zamítáme nulovou hypotézu a dalším, tzv. post hoc testem hledáme dvojici skupin s odlišnou střední hodnotou. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 23 Praktické cvičení v programu Statistica Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 24 Datový soubor Rehabilitace po mozkovém infarktu Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 25 Rehabilitace po mozkovém infarktu ̶Cvičný datový soubor obsahuje záznamy o celkem 407 pacientech hospitalizovaných pro mozkový infarkt na neurologickém oddělení akutní péče, kde jim byla poskytnuta terapie pro obnovu krevního oběhu v postižené části mozku. ̶Po zvládnutí akutní fáze byl u pacientů vyhodnocen stupeň soběstačnosti v základních denních aktivitách (ADL) pomocí tzv. indexu Barthelové (BI) a byli přeloženi na rehabilitační oddělení. ̶Po dvou týdnech byl opět dle BI vyhodnocen stupeň soběstačnosti a pacienti byli buď propuštěni do ambulantní péče, nebo přeloženi na oddělení následné péče. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 26 Sbírané informace: ̶základní demografické údaje (pohlaví a věk), ̶informace o samotné diagnóze mozkové příhody (etiologie a lokalizace uzávěru cévy), ̶informace o léčbě (typ indikované terapie a výskyt komplikací) ̶informace o způsobu ukončení rehabilitace. ̶Stupeň soběstačnosti před rehabilitací byl dodatečně zjištěn z neurologie a na konci rehabilitace byl vyplněn nový dotazník pro určení výsledného indexu Barthelové. Rehabilitace po mozkovém infarktu Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 27 Úkol 1. Jednovýběrový t-test Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 28 Úkol č. 1 – Jednovýběrový t-test Zadání: „ÚZIS v rámci celorepublikové zdravotnické statistiky publikoval průměrný věk pacientů s mozkovým infarktem 71,6 let. Ověřte, zda váš datový soubor věkově odpovídá celorepublikové hodnotě, anebo zda se vámi hodnocení pacienti věkově vymykají obecnému průměru. “ Postup: 1.Ověříme předpoklady testu: Normalita rozložení věku pacientů (ověříme vizuálně i statistickým testem – Shapiro-Wilkův test). Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 29 Úkol č. 1 – Jednovýběrový t-test Postup (po ověření předpokladů testu): 1.Na hladině významnosti α = 0,05 testujeme hypotézu H0: proti HA: 2.Vypočítáme aritmetický průměr a rozptyl výběrového souboru a určíme počet pozorování. 3.Vypočítáme testovou statistiku t a odpovídající p-hodnotu. 4. 4. 4.Vypočítané t porovnáme s kritickou hodnotou, nebo porovnáme p-hodnotu s hladinou významnosti α = 0,05. 5.Je-li p-hodnota ≤ α zamítáme H0. Věk našich pacientů je odlišný od celorepublikového průměru. 6. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 30 Úkol č. 1 – Ověření normality ① Průměr a medián jsou téměř shodné (cca 71 let) a data jsou tedy nejspíš alespoň symetrická. Srovnání průměru a mediánu Histogram !!! Shapirův-Wilkův test !!! Věk Krabicový graf Diagnostický N-P graf !!! Shapirův-Wilkův test !!! ② Symetrie je patrná i z krabicového grafu. Navíc histogram naprosto jasně odpovídá průběhu normálního rozdělení. Z N-P grafu také nejsou patrné odchylky od normality. ③ Na základě p-hodnoty 0,580 nezamítáme nulovou hypotézu o normalitě (tj. nezamítáme, že není rozdíl mezi pozorovanými daty a teoretickým normálním rozdělením, … tj. data jsou normálně rozdělená). Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 31 Úkol č. 1 – Řešení v programu Statistica •V menu Statistics zvolíme Basic statistics, vybereme t-test, single sample. 3 2 Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 32 Úkol č. 1 – Řešení v programu Statistica •Vybereme proměnnou, kterou chceme testovat. •Na kartě Quick napíšeme do pole Test all means against velikost střední hodnoty populace (lze také na kartě Advanced, Options). •Kliknutím na Summary t-test nebo na Summary získáme výstupy. Adobe Systems Institut biostatistiky a analýz LF 33 Úkol č. 1 – Výsledky v Statistica p-hodnota t-testu Výběrový průměr (pozorovaných dat) Výběrová směrodatná odchylka (pozorovaných dat) Rozsah výběru Referenční konstanta (předpokládaná velikost střední hodnoty) Hodnota testové statistiky http://files.mscck-trmice.webnode.cz/200000297-22250231ed/vyk%C5%99i%C4%8Dn%C3%ADk.png ① Pozorovaný průměrný věk souboru je 70,6 let, což je o rok méně než reference 71,6 let. ② P-hodnota statistické významnosti této pozorované odchylky je p = 0,049, což na hladině významnosti 0,05 značí hraničně významný rozdíl, a lze tedy usuzovat, že naši pacienti jsou v průměru mírně mladší ve srovnání s celou populací mozkových infarktů v ČR. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 34 Úkol 2. Dvouvýběrový t-test Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 35 Úkol č. 2 – Dvouvýběrový t-test Zadání: „V literatuře se často uvádí, že mozkový infarkt postihuje ženy v pozdějším věku než muže. Zjistěte na základě svých dat, zda je věk pacientů dle pohlaví stejný, anebo zda se věk mužů a žen skutečně liší.“ Postup: 1.Ověříme předpoklady testu: Normalita rozložení věku žen a normalita rozložení věku mužů (ověříme vizuálně i statistickým testem – Shapiro-Wilkův test). Shoda rozptylů věku žen a mužů (ověříme F-testem). Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 36 Úkol č. 2 – Dvouvýběrový t-test Postup (po ověření předpokladů testu): 1.Na hladině významnosti α = 0,05 testujeme hypotézu H0: proti HA: 2.Pro obě skupiny vypočítáme aritmetický průměr a rozptyl výběrového souboru a určíme počet pozorování. 3.Vypočítáme testovou statistiku t a odpovídající p-hodnotu: 4. 4. 4.Vypočítané t porovnáme s kritickou hodnotou nebo porovnáme p-hodnotu s hladinou významnosti α = 0,05. 5.Je-li p-hodnota ≤ α zamítáme H0. Věk mužů a žen při mozkovém infarktu se liší. U žen se vyskytuje později. 6. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 37 Úkol č. 2 – Ověření normality – muži ① Průměr a medián jsou téměř shodné (cca 69 let) a data jsou tedy nejspíš alespoň symetrická. Srovnání průměru a mediánu Histogram !!! Shapirův-Wilkův test !!! Věk Krabicový graf Diagnostický N-P graf !!! Shapirův-Wilkův test !!! ② Symetrie je patrná i z krabicového grafu. Navíc histogram naprosto jasně odpovídá průběhu normálního rozdělení. Z N-P grafu také nejsou patrné odchylky od normality. ③ Na základě p-hodnoty 0,814 nezamítáme nulovou hypotézu o normalitě (tj. nezamítáme, že není rozdíl mezi pozorovanými daty a teoretickým normálním rozdělením, … tj. data jsou normálně rozdělená). Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 38 Úkol č. 2 – Ověření normality – ženy ① Průměr a medián jsou podobné (cca 72 až 73 let) a data jsou tedy nejspíš alespoň symetrická. Srovnání průměru a mediánu Histogram !!! Shapirův-Wilkův test !!! Věk Krabicový graf Diagnostický N-P graf !!! Shapirův-Wilkův test !!! ② Spíše symetrie je patrná i z krabicového grafu. Navíc histogram přibližně odpovídá průběhu normálního rozdělení. Z N-P grafu nejsou patrné výrazné odchylky od normality. ③ Na základě p-hodnoty 0,084 nezamítáme nulovou hypotézu o normalitě (tj. nezamítáme, že není rozdíl mezi pozorovanými daty a teoretickým normálním rozdělením, … tj. data jsou normálně rozdělená). Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 39 Úkol č. 2 – Řešení v programu Statistica •V menu Statistics zvolíme Basic statistics, vybereme t-test, independent, by groups. 3 2 Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 40 Úkol č. 2 – Řešení v programu Statistica •Vybereme proměnnou, kterou chceme testovat (dependent) a proměnnou obsahující skupiny, které srovnáváme (grouping). •V záložce Options zaškrtneme možnost Test w/separate variance estimates (umožňuje získat validní výsledek i při nesplnění předpokladu homogenity rozptylů). •Kliknutím na Summary získáme výstupy. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 41 Úkol č. 2 – Výsledky v Statistica Výběrové průměry obou skupin Rozsahy výběru obou skupin Výběrové směrodatné odchylky obou skupin p-hodnota t-testu (při stejných rozptylech) p-hodnota t-testu (při různých rozptylech) http://files.mscck-trmice.webnode.cz/200000297-22250231ed/vyk%C5%99i%C4%8Dn%C3%ADk.png p-hodnota F-testu pro ověření předpokladu shody rozptylů -Pokud je p ≤ 0,05, pak jsou rozptyly různé. -Pokud je p > 0,05, pak jsou rozptyly stejné. ① Pozorovaný průměrný věk mužů je 69,2 let a u žen 72,7 let. V našich datech jsou tedy ženy starší o 3,5 roku. ② P-hodnota statistické významnosti F-testu je 0,096, což znamená, že na hladině významnosti 0,05 nezamítáme nulovou hypotézu o shodě rozptylů mužů a žen (tj. rozptyly jsou v obou skupinách stejné). ③ Na základě p-hodnoty t-testu při stejných rozptylech p = 0,001 vyhodnotíme pozorovaný rozdíl 3,5 let jakožto statisticky významný výsledek a lze tedy prohlásit, že průměrný věk se u mužů a žen liší (tj. ženy skutečně postihuje mozkový infarkt později). Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 42 Úkol 3. Párový t-test Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 43 Úkol č. 3 – Párový t-test Zadání: „Pacientům s mozkovým infarktem byla na lůžku akutní péče poskytnuta terapie pro obnovu krevního oběhu v postižené části mozku. Po zvládnutí akutní fáze byl u pacientů vyhodnocen stupeň soběstačnosti v základních denních aktivitách pomocí indexu Barthelové (BI) a byli přeloženi na rehabilitační oddělení. Po dvou týdnech byl opět vyhodnocen stupeň soběstačnosti dle BI. Zjistěte, zda poskytnutá rehabilitační péče vedla k jeho zlepšení.“ Postup: 1.Ověříme předpoklady testu: normalita rozložení rozdílů hodnot BI (vizuálně i Shapiro-Wilkovým testem). Adobe Systems Úkol č. 3 – Párový t-test Postup (po ověření předpokladů testu): 1.Na hladině významnosti α = 0,05 testujeme hypotézu H0: proti HA: 2.Pro novou proměnnou diferencí prvního a druhého měření vypočítáme průměr, rozptyl a určíme počet pozorování. 3.Vypočítáme testovou statistiku t a odpovídající p-hodnotu stejně jako u jednovýběrového t-testu oproti nule: 4. 4. 4.Vypočítané t porovnáme s kritickou hodnotou nebo porovnáme p-hodnotu s hladinou významnosti α = 0,05. 5.Je-li p-hodnota ≤ α zamítáme H0. Během rehabilitace došlo ke změně soběstačnosti pacientů. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 45 Úkol č. 3 – Ověření normality diferencí ① Průměr a medián jsou v podstatě shodné (cca -30) a data jsou tedy nejspíš alespoň symetrická. Srovnání průměru a mediánu Histogram !!! Shapirův-Wilkův test !!! Změna BI Krabicový graf Diagnostický N-P graf !!! Shapirův-Wilkův test !!! ② Symetrie je patrná i z krabi-cového grafu. Navíc histogram je svým průběhem velmi podobný normálnímu rozdělení. Z N-P grafu také nejsou patrné odchylky od normality. ③ Na základě p-hodnoty 0,003 zamítáme nulovou hypotézu o normalitě (tj. zamítáme, že není rozdíl mezi pozorovanými daty a teoretickým normálním rozdělením, tj. data formálně dle testu nejsou normál-ně rozdělená). Můžeme si přesto dovolit použít t-test? Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 46 Úkol č. 3 – Řešení v programu Statistica •V menu Statistics zvolíme Basic statistics, vybereme t-test, dependent samples. 3 2 Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 47 Úkol č. 3 – Řešení v programu Statistica •Zvolíme obě proměnné (Variables). • •Kliknutím na Summary získáme výstupy. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 48 Úkol č. 3 – Výsledky v Statistica Výběrové průměry obou měření Rozsah výběru Hodnota testové statistiky http://files.mscck-trmice.webnode.cz/200000297-22250231ed/vyk%C5%99i%C4%8Dn%C3%ADk.png p-hodnota t-testu Průměr a směrodatná odchylka rozdílu obou měření Výběrové směrodatné odchylky obou měření ① Pozorovaný průměrný Barthelové index na začátku je 31,8 a po rehabilitaci pak 62,0, což je zlepšení o 30,2 bodů. ② P-hodnota statistické významnosti této pozorované změny je p < 0,001, což na hladině významnosti 0,05 značí významný rozdíl, a lze tedy prohlásit, že průměrný stupeň soběstačnosti v základních denních aktivitách se během péče viditelně zlepšil. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 49 Úkol 4. ANOVA Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 50 Úkol č. 4 – ANOVA Zadání: „Porovnejte věk pacientů s mozkovým infarktem dle terapie, která jim byla indiko- vána (mechanická trombektomie, intravenózní trombolýza rt-PA nebo jiná farmakologická léčba), a zjistěte, zda se jedná o statisticky významný rozdíl.“ Postup: 1.Ověříme předpoklady testu: Normalita rozložení věku ve všech skupinách (ověříme vizuálně a Shapiro-Wilkovým testem), shoda rozptylů (ověříme Levenovým testem). Adobe Systems Úkol č. 4 – ANOVA Postup (po ověření předpokladů testu): 1.Na hladině významnosti α = 0,05 testujeme hypotézu H0: proti HA: alespoň jedna dvojice se liší. 2.Vypočítáme variabilitu v rámci jednotlivých skupin (Se) a variabilitu mezi skupinami (SA). 3.Vypočítáme testovou statistiku F a odpovídající p-hodnotu: 4. 4. 4.Vypočítané F porovnáme s kritickou hodnotou nebo porovnáme p-hodnotu s hladinou významnosti α = 0,05. 5.Je-li p-hodnota ≤ α zamítáme H0. Existuje alespoň jedna dvojice terapie mozkového infarktu, která se liší v průměrném věku pacientů. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 52 Úkol č. 4 – Popis dat a ověření normality Srovnání průměru a mediánu Věk Krabicový graf ① Základní popis i grafické srovnání ukazuje možný rozdíl mezi skupinami, a to především u pacientů s mechanickou trombektomií oproti ostatním pacientům (průměrný věk při mechanické trombektomii je 64 let, při rt-PA trombolýze 70 let a u jiné léčby je průměr 71 let). ② Normalitu dat nezamítáme u žádné skupiny (p = 0,273, p = 0,130 a p = 0,257) s tím, že ani u jedné skupiny není z N-P grafu patrné výrazné porušení normality. !!! Shapirův-Wilkův test !!! Diagnostické N-P grafy Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 53 Úkol č. 4 – Řešení v programu Statistica 3 2 •V menu Statistics zvolíme Basic Statistics, vybereme Breakdown & one-way ANOVA. •Vybereme proměnnou, kterou chceme testovat (dependent) a proměnnou obsahující skupiny, které srovnáváme (grouping) – OK. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 54 Úkol č. 4 – Řešení v programu Statistica •Na záložce ANOVA & tests zvolíme Levene tests. Ověření předpokladu shody rozptylů p-hodnota Levenova testu pro ověření předpokladu shody rozptylů -Pokud je p ≤ 0,05, pak jsou rozptyly různé. -Pokud je p > 0,05, pak jsou rozptyly stejné. ① P-hodnota statistické významnosti Levenova testu je 0,295, což znamená, že na hladině významnosti 0,05 nezamítáme nulovou hypotézu o shodě rozptylů mezi skupinami (tj. rozptyly jsou ve všech skupinách stejné). Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 55 Úkol č. 4 – Výsledky v Statistica 2 •Na záložce ANOVA & tests zvolíme Analysis of Variance. Výsledky ANOVA testu http://files.mscck-trmice.webnode.cz/200000297-22250231ed/vyk%C5%99i%C4%8Dn%C3%ADk.png p-hodnota ANOVA ② Na základě p-hodnoty ANOVA p = 0,002 vyhodnotíme pozorovaný rozdíl mezi průměry 64 let, 70 let, a 71 let jakožto statisticky významný výsledek a lze tedy prohlásit, že existuje alespoň jedna dvojice terapie mozkového infarktu, která se liší v průměrném věku pacientů. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 56 Úkol č. 4 – Výsledky v Statistica •Na záložce Post-hoc zvolíme Tukey HSD. Získáme tak výsledky mnohonásobného porovnání mezi všemi skupinami. Výsledky mnohonásobného porovnání p-hodnoty mnohonásobného porovnání všech skupin ③ Mnohonásobným porovnáním jsme navíc prokázali významný rozdíl mezi trombektomií a rt-PA trombolýzu a mezi trombektomií a jinou terapií. Jinými slovy, pacienti podstupující mechanickou trombektomii jsou významně mladší než pacienti podstupující ostatní dvě terapie.