Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 1 MIAM021p(s) Analýza a management dat pro zdravotnické obory – přednáška a cvičení (jaro 2021) MICHAL SVOBODA Institut biostatistiky a analýz LF MU svoboda@iba.muni.cz Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 2 Analýza kontingenčních tabulek Kontingenční tabulky Pearsonův chí-kvadrát test (test dobré shody) Fisherův exaktní test McNemarův test Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 3 Kontingenční tabulka ̶Sumarizuje vztah dvou kategoriálních proměnných. ̶Řádky (r) jsou tvořeny hodnotami (kategoriemi) prvního znaku, sloupce (c) hodnotami druhého znaku. ̶V příslušné buňce tabulky je uveden počet případů s hodnotou prvního znaku odpovídající příslušnému řádku a druhého znaku s hodnotou odpovídající příslušnému sloupci. y1 … yc x1 n11 … n1c n1. … … … … … xr nr1 … nrc nr. n.1 … n.c N Celkový počet Absolutní četnost Marginální četnost Marginální četnost Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 4 Ukázka kontingenční tabulky Vztah pohlaví a výskytu onemocnění Nemocný Zdravý Celkem Muž 45 11 56 Žena 25 6 31 Celkem 70 17 87 Nemocný Zdravý Celkem Muž a b a + b Žena c d c + d Celkem a + c b + d a + b + c + d Jsou více nemocní muži nebo ženy? Celkový počet Absolutní četnost Marginální četnost Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 5 Analýza kontingenčních tabulek ̶Analýza kontingenčních tabulek umožňuje analyzovat vazbu mezi dvěma kategoriálními proměnnými. Základním způsobem testování je tzv. chí-kvadrát test, který srovnává pozorované četnosti kombinací kategorií oproti očekávaným četnostem, které vychází z teoretické situace, kdy je vztah mezi proměnnými náhodný. ̶Test dobré shody je využíván také pro srovnání pozorovaných četností proti očekávaným četnostem daným určitým pravidlem (např. Hardy-Weinbergova rovnováha v genetice). ̶Specifickým typem výstupů odvozených z kontingenčních tabulek jsou tzv. poměry šancí a relativní rizika, využívaná často v medicíně pro identifikaci rizikových skupin pacientů. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 6 Základní statistické testy Typ dat Spojitá x spojitá data Spojitá x kategoriální data Kategoriální x kategoriální data Jeden výběr Dva výběry Tři a více výběrů (nepárově) Jeden výběr Více výběrů Párová data Nepárová data Pearsonův korelační koeficient Jednovýbě-rový t-test Párový t-test Dvouvýbě-rový t-test ANOVA Párová data Nepárová data Chí-kvadrát test Spearmanův korelační koeficient Jednovýbě-rový Wilcoxo-nův test Wilcoxonův / znaménkový test Mannův-Whitneyho test Kruskalův-Wallisův test Jednovýbě-rový bino-mický test McNemarův test Fisherův exaktní test Parametrické testy Neparametrické testy Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 7 Test dobré shody – princip ̶Srovnání pozorovaných četností oproti očekávaným četnostem, které vychází z teoretické situace, kdy je vztah mezi proměnnými náhodný. ̶Testová statistika pozorovaná četnost očekávaná četnost očekávaná četnost 2 – ( ) pozorovaná četnost očekávaná četnost očekávaná četnost 2 – ( ) + pozorovaná četnost očekávaná četnost očekávaná četnost 2 – ( ) + … 1. jev 2. jev Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 8 Test dobré shody – příklad ̶Příklad: 10 000 lidí hází mincí. V 4 000 případech padne rub a v 6 000 případech padne líc. Lze výsledek považovat za statisticky významně odlišný od očekávaného poměru 1 : 1? ̶H0: Výskyt jevů rub a líc nastává v poměru 1 : 1. HA: Výskyt jevů rub a líc nenastává v poměru 1 : 1. ̶ ̶ ̶ ̶ ̶ ̶ ̶Vypočítaná hodnota zamítáme H0. Tabulková hodnota: pozorovaná četnost očekávaná četnost očekávaná četnost 2 – ( ) Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 9 Analýza kontingenčních tabulek 1.Hypotéza o nezávislosti test: Pearsonův chí-kvadrát test, Fisherův exaktní test ̶Jeden výběr, 2 charakteristiky – obdoba nepárového uspořádání ̶Příklad: existence vztahu mezi krevní skupinou a výskytem nemoci 2.Hypotéza o shodě struktury (tzv. test homogenity) test: Pearsonův chí-kvadrát test, Fisherův exaktní test ̶Více výběrů, jedna charakteristika – obdoba nepárového uspořádání ̶Příklad: věková struktura pacientů s diabetem v K nemocnicích 3.Hypotéza o symetrii – McNemarův test ̶Jeden výběr, opakovaně měřena jedna charakteristika – obdoba párového uspořádání ̶Příklad: posouzení výskytu bolesti před a po léčbě Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 10 Základní statistické testy Typ dat Spojitá x spojitá data Spojitá x kategoriální data Kategoriální x kategoriální data Jeden výběr Dva výběry Tři a více výběrů (nepárově) Jeden výběr Více výběrů Párová data Nepárová data Pearsonův korelační koeficient Jednovýbě-rový t-test Párový t-test Dvouvýbě-rový t-test ANOVA Párová data Nepárová data Chí-kvadrát test Spearmanův korelační koeficient Jednovýbě-rový Wilcoxo-nův test Wilcoxonův / znaménkový test Mannův-Whitneyho test Kruskalův-Wallisův test Jednovýbě-rový bino-mický test McNemarův test Fisherův exaktní test Parametrické testy Neparametrické testy Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 11 Testování nezávislosti – Pearsonův chí-kvadrát test ̶ ̶Hypotéza o nezávislosti: Souvisí spolu výskyt dvou nominálních znaků měřených na jediném výběru? Příklad: Barva očí (modrá, zelená, hnědá) a barva vlasů (hnědá, černá, blond) u vybraných 95 studentů jsou nezávislé. ̶H0: Znaky X a Y jsou nezávislé náhodné veličiny. ̶HA: Znaky X a Y jsou závislé náhodné veličiny. ̶Test: Pearsonův chí-kvadrát ̶ ̶ ̶H0 zamítáme na hladině významnosti α, pokud ̶ Očekávané teoretické četnosti: Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 12 Testování nezávislosti – Pearsonův chí-kvadrát test ̶ Předpoklady Pearsonova chí-kvadrát testu: 1.Jednotlivá pozorování jsou nezávislá (tj. každý prvek patří jen do jedné buňky kontingenční tabulky) 2.Podmínka dobré aproximace Očekávané (teoretické) četnosti jsou aspoň v 80 % případů větší nebo rovné 5 a ve 100 % případů nesmí být pod 2 (pokud není tento předpoklad splněn, je vhodné sloučit kategorie s nízkými četnostmi). Měření síly závislosti: Cramérův koeficient Význam hodnot: 0 – zanedbatelná závislost ……... 1 – silná závislost Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 13 Testování nezávislosti – příklad ̶Příklad: Souvisí pohlaví s výskytem nemoci? ̶H0: Pohlaví a výskyt nemoci jsou nezávislé veličiny. HA: Pohlaví a výskyt nemoci nejsou nezávislé veličiny. Nemocný Zdravý Muž 45 11 56 Žena 25 6 31 70 17 87 Pozorované četnosti Očekávané četnosti Nemocný Zdravý Muž 45,1 70*56/87 10,9 17*56/87 56 Žena 24,9 70*31/87 6,1 17*31/87 31 70 17 87 nezamítáme H0 Adobe Systems Testování shody struktury – Pearsonův chí-kvadrát test ̶ ̶Hypotéza o shodě struktury: Zajímá nás výskyt nominálního znaku u r nezávislých výběrů. Příklad: Je zájem o sport stejný u děvčat jako u chlapců? ̶H0: Pravděpodobnostní rozdělení kategoriální proměnné je stejné v různých populacích. ̶Test: Pearsonův chí-kvadrát test. ̶ Zájem o sport ANO Zájem o sport NE Celkem Dívky a b a + b Chlapci c d c + d Celkem a + c b + d N Některé marginální četnosti (buď sloupcové nebo řádkové) jsou předem pevně stanoveny Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 15 Fisherův exaktní test ̶Využití ve čtyřpolní tabulce s nízkými četnostmi, které znemožňují použití Pearsonova chí-kvadrát testu. ̶Patří mezi neparametrické testy pracující s daty na nominální škále, v nejjednodušší podobě ve dvou třídách: pozitivní/negativní, úspěch/neúspěch apod. ̶Nulová hypotéza H0 předpokládá rovnoměrné zastoupení sledovaného znaku u dvou nezávislých souborů. ̶Slovo exaktní (přímý) znamená, že se přímo vypočítává pravděpodobnost odmítnutí, resp. platnosti nulové hypotézy. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 16 Fisherův exaktní test ̶Výpočet přesné p-hodnoty jako pravděpodobnosti, s jakou dostaneme za předpokladu platnosti nulové hypotézy tabulku stejně nebo více odlišnou od nulové hypotézy. ̶ ̶ ̶ ̶ ̶ ̶ 1.Spočítá se parciální pravděpodobnost čtyřpolní tabulky p1 2.Spočítá se pa všech možných tabulek při zachování marginálních četností (řádkové a sloupcové součty). Výsledná p-hodnota je součtem pa menších nebo stejných jako p1, která přísluší pozorované tabulce. 3. ̶ Sledovaný jev Kontrolní skupina Experimentální skupina Celkem Ano a b a + b Ne c d c + d Celkem a + c b + d N Adobe Systems Testování symetrie – McNemarův test ̶Hypotéza o symetrii: Opakovaně sledujeme binární proměnnou a zajímá nás, zda došlo ke změně jejího rozdělení. Příklad: Výskyt bolesti před a po užití léku. ̶H0: (pokus nemá vliv na výskyt daného znaku) ̶ ̶ ̶ ̶ ̶ ̶ ̶Testová statistika: Pokud je větší než kritická hodnota rozdělení o jednom stupni volnosti (vhodné pro počty údajů b + c > 8), pak nulovou hypotézu zamítáme. ̶ Četnost Po: ANO Po: NE Před: ANO a b a + b Před: NE c d c + d a + c b + d N Teoretická pravděpodobnost Po: ANO Po: NE Před: ANO n11 n12 n1. Před: NE n21 n22 n2. n.1 n.2 Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 18 Praktické cvičení v programu Statistica Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 19 Datový soubor Rehabilitace po mozkovém infarktu Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 20 Rehabilitace po mozkovém infarktu ̶Cvičný datový soubor obsahuje záznamy o celkem 407 pacientech hospitalizovaných pro mozkový infarkt na neurologickém oddělení akutní péče, kde jim byla poskytnuta terapie pro obnovu krevního oběhu v postižené části mozku. ̶Po zvládnutí akutní fáze byl u pacientů vyhodnocen stupeň soběstačnosti v základních denních aktivitách (ADL) pomocí tzv. indexu Barthelové (BI) a byli přeloženi na rehabilitační oddělení. ̶Po dvou týdnech byl opět dle BI vyhodnocen stupeň soběstačnosti a pacienti byli buď propuštěni do ambulantní péče, nebo přeloženi na oddělení následné péče. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 21 Sbírané informace: ̶základní demografické údaje (pohlaví a věk), ̶informace o samotné diagnóze mozkové příhody (etiologie a lokalizace uzávěru cévy), ̶informace o léčbě (typ indikované terapie a výskyt komplikací) ̶informace o způsobu ukončení rehabilitace. ̶Stupeň soběstačnosti před rehabilitací byl dodatečně zjištěn z neurologie a na konci rehabilitace byl vyplněn nový dotazník pro určení výsledného indexu Barthelové. Rehabilitace po mozkovém infarktu Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 22 Úkol 1. Pearsonův chí-kvadrát test Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 23 Úkol č. 1 – Pearsonův chí-kvadrát test Zadání: „Stupeň soběstačnosti pacientů po moz- kovém infarktu lze pomocí indexu Barthelové vyjádřit také kategoriálně. Např. pro definici vysoce závislých pacientů bylo stanoveno rozmezí 0 až 40 bodů. Zjistěte, zda je u žen a můžu stejné procento alespoň částečně soběstačných pacientů (45 až 100 bodů) a zda je tento rozdíl statisticky významný.“ Adobe Systems Úkol č. 1 – Pearsonův chí-kvadrát test Postup: 1.Na hladině významnosti α = 0,05 testujeme hypotézu H0: „Stupeň soběstačnosti nezávisí na pohlaví“ proti HA: „Stupeň soběstačnosti a pohlaví jsou závislé veličiny.“ 2.Vypočítáme očekávané a pozorované četnosti v kategoriích. 3.Vypočítáme testovou statistiku K a odpovídající p-hodnotu: 4. 4. 4.Testovou statistiku porovnáme s kritickou hodnotou nebo porovnáme p-hodnotu s hladinou významnosti α = 0,05. 5.Je-li p-hodnota > α nezamítáme H0. Stupeň soběstačnosti nezávisí na pohlaví (tj. výsledná míra soběstačnosti se u žen a u mužů neliší). 6. 6. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 25 Úkol č. 1 – Popis dat Zastoupení částečně soběstačných a vysoce závislých mužů ① Ze základního popisu je patrný mírný rozdíl v procentu částečně soběstačných pacientů na konci hospitalizace. U žen je podíl těchto pacientů 77 % oproti 83 % u mužů. Zastoupení částečně soběstačných a vysoce závislých žen Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 26 Úkol č. 1 – Řešení v programu Statistica •V menu Statistics zvolíme Basic statistics, vybereme Tables and banners (v češtině Kontingenční tabulky). 3 2 Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 27 Úkol č. 1 – Řešení v programu Statistica •Na záložce Stub-and-banner vybereme proměnné, které chceme testovat, a potvrdíme OK. 2 Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 28 Úkol č. 1 – Řešení v programu Statistica •Na záložce Options zaškrtneme Expected frequencies (Očekávané četnosti potřebné k ověření podmínek dobré aproximace) a Pearsonův chí-kvadrát. 3 •Poté se vrátíme na záložku Advanced a přes volbu Detailed two-way tables získáme výsledky. Adobe Systems Institut biostatistiky a analýz LF 29 Úkol č. 1 – Výsledky v Statistica p-hodnota Pearsonova chí-kvadrát testu http://files.mscck-trmice.webnode.cz/200000297-22250231ed/vyk%C5%99i%C4%8Dn%C3%ADk.png ① Z předchozího popisu je patrný mírný rozdíl mezi muži a ženami (u žen je podíl částečně soběstačných pacientů 77 % oproti 83 % u mužů). ② Očekávané četnosti jsou 200, 48, 128 a 31, což jsou dostatečně vysoké počty a podmínka dobré aproximace pro použití chí-kvadrát testu je tedy splněna. ③ P-hodnota statistické významnosti pozorované závislosti je p = 0,187, což na hladině významnosti 0,05 značí nevýznamný výsledek a ze získaných dat tedy nelze říct, že by míra soběstačnosti souvisela s pohlavím. Pozorované četnosti Očekávané četnosti Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 30 Úkol 2. Fisherův exaktní test Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 31 Úkol č. 2 – Fisherův exaktní test Zadání: „Stupeň soběstačnosti pacientů po moz- kovém infarktu lze pomocí indexu Barthelové vyjádřit také kategoriálně. Např. pro definici vysoce závislých pacientů bylo stanoveno rozmezí 0 až 40 bodů. Zjistěte, zda je u žen a můžu léčených mechanickou trombektomií stejné procento alespoň částečně soběstačných pacientů (45 až 100 bodů) a zda je tento rozdíl statisticky významný.“ Adobe Systems Úkol č. 2 – Fisherův exaktní test Postup (po nemožnosti použít Pearsonův chí-kvadrát test): 1.Na hladině významnosti α = 0,05 testujeme hypotézu H0: „Stupeň soběstačnosti nezávisí na pohlaví“ proti HA: „Stupeň soběstačnosti a pohlaví jsou závislé veličiny.“ 2.Spočítá se parciální pravděpodobnost (pa) všech možných tabulek při zachování marginálních četností. Výsledná p-hodnota je součtem pa menších nebo stejných jako pravděpodobnost, která přísluší námi pozorované tabulce. 3. 3.Vypočítané p porovnáme s hladinou významnosti α = 0,05. 4.Je-li p-hodnota > α nezamítáme H0. Stupeň soběstačnosti nezávisí na pohlaví (tj. výsledná míra soběstačnosti se u žen a u mužů podstupujících mechanickou trombektomii neliší). 5. 5. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 33 Úkol č. 2 – Popis dat Zastoupení částečně soběstačných a vysoce závislých mužů ① Ze základního popisu je patrný mírný rozdíl v procentu částečně soběstačných pacientů na konci hospitalizace. U žen je podíl těchto pacientů 73 % oproti 64 % u mužů. Zastoupení částečně soběstačných a vysoce závislých žen Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 34 Úkol č. 2 – Řešení v programu Statistica •V menu Statistics zvolíme Basic statistics, vybereme Tables and banners (v češtině Kontingenční tabulky). 3 2 Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 35 Úkol č. 2 – Řešení v programu Statistica •Na záložce Stub-and-banner vybereme proměnné, které chceme testovat, a potvrdíme OK. 2 Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 36 Úkol č. 2 – Řešení v programu Statistica •Na záložce Options zaškrtneme Expected frequencies (Očekávané četnosti potřebné k ověření podmínek dobré aproximace) a Fisher exact. • •V nastavení By Group vybereme jako třídící proměnnou terapii (analýza se tak provede pro všechny druhy terapie samostatně). 4 •Poté se vrátíme na záložku Advanced a přes volbu Detailed two-way tables získáme výsledky. Adobe Systems Institut biostatistiky a analýz LF 37 Úkol č. 2 – Výsledky v Statistica p-hodnota Fisherova exaktního testu http://files.mscck-trmice.webnode.cz/200000297-22250231ed/vyk%C5%99i%C4%8Dn%C3%ADk.png ① Z předchozího popisu je patrný mírný rozdíl mezi muži a ženami (u žen je podíl částečně soběstačných pacientů 73 % oproti 64 % u mužů). ② Očekávané četnosti jsou 4, 10, 5 a 10, což nejsou dostatečně vysoké počty a místo chí-kvadrát testu je tedy vhodné použít Fisherův exaktní test. ③ P-hodnota statistické významnosti pozorované závislosti je p = 0,700, což na hladině významnosti 0,05 značí nevýznamný výsledek a ze získaných dat tedy nelze říct, že by míra soběstačnosti souvisela s pohlavím. Pozorované četnosti Očekávané četnosti Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 38 Úkol 3. McNemarův test Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 39 Úkol č. 3 – McNemarův test Zadání: „Pacientům hospitalizovaným s mozko- vým infarktem byla na lůžku akutní péče poskytnuta terapie pro obnovu krevního oběhu v postižené části mozku. Po zvládnutí akutní fáze byl u pacientů vyhodnocen stupeň soběstačnosti pomocí indexu Barthelové (BI) jako vysoce závislý (0 až 40 bodů) nebo částečně soběstačný (45 až 100 bodů) a byli přeloženi na rehabilitační oddělení. Po dvou týdnech byl stejně vyhodnocen stupeň soběstačnosti dle BI. Zjistěte, zda poskytnutá rehabilitační péče vedla ke zvýšení podílu alespoň částečně soběstačných pacientů.“ Adobe Systems Úkol č. 3 – McNemarův test Postup: 1.Na hladině významnosti α = 0,05 testujeme hypotézu H0: „Počet zhoršených případů je stejný jako počet zlepšení“ proti HA: „Počet zhoršených případů není stejný jako počet zlepšení.“ 2.Vypočítáme pozorované četnosti měnících se stavů. 3.Vypočítáme testovou statistiku K a odpovídající p-hodnotu: 4. 4. 4.Testovou statistiku porovnáme s kritickou hodnotou nebo porovnáme p-hodnotu s hladinou významnosti α = 0,05. 5.Je-li p-hodnota ≤ α zamítáme H0. Během rehabilitace se podařilo změnit míru soběstačnosti pacientů. 6. 6. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 41 Úkol č. 3 – Řešení v programu Statistica •V menu Statistics zvolíme Basic statistics, vybereme Tables and banners (v češtině Kontingenční tabulky). 3 2 Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 42 Úkol č. 3 – Řešení v programu Statistica •Na záložce Stub-and-banner vybereme proměnné, které chceme testovat, a potvrdíme OK. 2 Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 43 Úkol č. 3 – Řešení v programu Statistica •Na záložce Options zaškrtneme McNemar (2x2). 3 •Poté se vrátíme na záložku Advanced a přes volbu Detailed two-way tables získáme výsledky. Adobe Systems Úkol č. 3 – Výsledky v Statistica p-hodnota McNemarova testu http://files.mscck-trmice.webnode.cz/200000297-22250231ed/vyk%C5%99i%C4%8Dn%C3%ADk.png ① Počet pacientů, u kterých došlo ke změně z vysoce závislého stavu do částečně soběstačného je 280. Naopak ke zhoršení nedošlo u žádného pacienta. Počty změn jsou v kontingenční tabulce na pozicích A a D. ② P-hodnota statistické významnosti pozorované změny je p < 0,001, což na hladině významnosti 0,05 značí významný výsledek a ze získaných dat jsme prokázali, že během rehabilitace se podařilo změnit míru soběstačnost pacientů v denních aktivitách. Pozorované četnosti A B C D Dvě hodnoty testových statistik a p-hodnoty podle toho, kde jsou ve výstupní kontingenční tabulce uloženy četnosti, u kterých jsme při opakovaném měření zaznamenali rozdílné výsledky (A/D nebo B/C).