Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 1 MIAM021p(s) Analýza a management dat pro zdravotnické obory – přednáška a cvičení (jaro 2024) MICHAL SVOBODA Institut biostatistiky a analýz LF MU svoboda@iba.muni.cz Adobe Systems Institut biostatistiky a analýz LF – Výuka 2 Osnova ̶Excel: opakování, příprava dat, základní vzorce ̶Základy popisné statistiky ̶Základní rozdělení pravděpodobnosti, testování hypotéz ̶Parametrické testy ̶Neparametrické testy ̶Analýza kontingenčních tabulek ̶Základy korelační analýzy a lineární regrese Adobe Systems Institut biostatistiky a analýz LF – Výuka 3 Důležité informace ̶Výuka: 11:00–13:30, D29/347-RCX2 ̶Materiály v IS ̶Software: Microsoft Office - Excel, Statistica ̶Pro získání zápočtu/kolokvia je třeba: 1.Účast – povoleny jsou 2 absence 2.Domácí úkoly – povoleno 1 neodevzdání ̶za účelem procvičení, dostanete zpětnou vazbu, na dalším cvičení se vrátíme, kdyby byl problém 3.Závěrečný úkol – praktické úkoly (povoleny materiály) o Adobe Systems Institut biostatistiky a analýz LF – Výuka 4 Organizace výuky •20. 2. – Excel: opakování, příprava dat, základní vzorce •27. 2. – Základy popisné statistiky •19. 3. – Základní rozdělení pravděpodobnosti, testování hypotéz •26. 3. – Parametrické testy •2. 4. – Neparametrické testy •9. 4. – Analýza kontingenčních tabulek, korelační analýza •16. 4. – Ukončení předmětu, test Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 5 Modelová rozdělení Parametry rozdělení Přehled modelových rozdělení Logaritmicko-normální rozdělení Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 6 Výběrové rozdělení hodnot ̶Lze popsat a definovat pravděpodobnost výskytu X f(x) x f(x) x f(x) x j(x) j(x) j(x) Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 7 Parametry rozdělení ̶Proměnné můžeme charakterizovat parametry rozdělení ̶Hlavní skupiny těchto parametrů můžeme charakterizovat jako ukazatele: ̶Středu (medián, průměr, geometrický průměr) ̶Šířky rozdělení (rozsah hodnot, rozptyl, sm. odchylka) ̶Tvaru rozdělení (skewness, kurtosis) ̶Kvantily rozdělení Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 8 Přehled modelových rozdělení Symetrická data Binomické Asymetrická data Rovnoměr-né diskrétní Geometri-cké Negativní binomické Hypergeo-metrické Rovnoměr-né spojité Triangulární Normální Logistické Exponen-ciální Lognormal, Gamma, Weibull Diskrétní data Spojitá data Symetrická data Asymetrická data Hodnoty kolem středu Hodnoty ne kolem středu Pozice odlehlých hodnot: pozitivní; negativní Hodnoty ne kolem středu Hodnoty kolem středu; různý výskyt odlehlých hodnot Minimum extreme Pozice odlehlých hodnot: pozitivní; negativní Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 9 Normální rozdělení Normální rozdělení Pravidlo 3 sigma Parametry normálního rozdělení Vizuální ověření normality dat Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 10 Normální rozdělení ̶Nejklasičtějším modelovým rozdělením, od něhož je odvozena celá řada statistických analýz je tzv. normální rozdělení, známé též jako Gaussova křivka. ̶Popisuje rozdělení pravděpodobnosti spojité náhodné veličiny, např. výška v populaci, chyba měření ... ̶Je kompletně popsáno dvěma parametry: μ – střední hodnota σ2 – rozptyl Označení: N(μ, σ2) Soubor:Normal Distribution PDF.svg NORMALITA je klíčovým předpo-kladem řady statistických metod http://files.mscck-trmice.webnode.cz/200000297-22250231ed/vyk%C5%99i%C4%8Dn%C3%ADk.png Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 11 Charakteristiky polohy ̶Aritmetický průměr: „Těžiště“ dat – tzn. součet rozdílů podprůměrných hodnot od průměru je stejný jako součet rozdílů nadprůměrných hodnot od průměru ̶Medián: Prostřední hodnota • 25 54 64 73 x1 x2 x3 x 29 19 10 = (25+64+73) / 3 = 54 x 29 Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 12 Průměr vs. medián ̶POZOR: Průměr je silně ovlivněn extrémními hodnotami (tzv. odlehlá pozorování), medián jimi ovlivněn není. ̶Průměr je vhodný ukazatel středu souboru u normálního, resp. symetrického rozložení, medián i v případě proměnných s neznámým rozdělením. ̶V případě symetrického rozložení jsou průměr a medián v podstatě shodné, v případě asymetrického rozložení nikoliv! Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 13 Pravidlo 3 sigma ̶V rozmezí μ ± 3σ by se mělo vyskytovat 99,7 % všech hodnot ̶ ̶ ̶ ̶ ̶ ̶ ̶ ̶ ̶Použití: zhodnotíme tvar rozdělení (pouze orientačně) a přítomnost odlehlých hodnot ̶ Soubor:Standard deviation diagram.svg 99,7 % všech hodnot Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 14 Vizuální ověření normality ̶Pro hodnocení tvaru rozložení lze využít histogram (nevýhoda: nutné určit „vhodný“ počet sloupců) ̶ ̶ ̶ ̶ ̶ ̶ ̶ ̶Vhodnější jsou: ̶Q-Q graf (kvantil-kvantilový graf) ̶P-P graf (pravděpodobnostně-pravděpodobnostní graf) ̶N-P graf (normálně-pravděpodobnostní graf) Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 15 Rozdíl mezi N-P, Q-Q, P-P grafem ??? •Pouze výměna os •Znázorněn pozorovaný a teoretický kvantil •Vykresleno kumulativní rozdělení PAMATUJ: Pocházejí-li data z normálního rozložení, pak body budou ležet okolo přímky http://files.mscck-trmice.webnode.cz/200000297-22250231ed/vyk%C5%99i%C4%8Dn%C3%ADk.png Adobe Systems Asymetrie v diagnostických grafech Konkávní křivka Konvexní křivka Výukové materiály: Výpočetní statistika Dr. Marie Budíková 2011 Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 17 Základy testování hypotéz Princip statistického testování hypotéz Pojmy statistických testů Normalita dat a její význam pro testování Ověření normality dat pomocí testu Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 18 Princip testování hypotéz ̶Formulace hypotézy ̶Výběr cílové populace a z ní reprezentativního vzorku ̶Měření sledovaných parametrů ̶Použití odpovídajícího testu závěr testu ̶Interpretace výsledků Cílová populace Vzorek Reprezentativnost ? Závěr ? Interpretace Měření parametrů Testy hypotéz ? Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 19 Možné chyby při testování hypotéz ̶ ̶I přes dostatečnou velikost vzorku a kvalitní design experimentu se můžeme při rozhodnutí o (ne)zamítnutí nulové hypotézy dopustit chyby. β 1- β 1- α α Závěr testu H0 nezamítáme H0 zamítáme Chyba I. druhu Falešně pozitivní závěr testu Chyba II. druhu Falešně negativní závěr testu Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 20 Význam chyb při testování hypotéz ̶ ̶Pravděpodobnost chyby 1. druhu ̶ ̶ ̶Pravděpodobnost chyby 2. druhu ̶ ̶ ̶Síla testu Pravděpodobnost nesprávného zamítnutí nulové hypotézy, hladina významnosti Pravděpodobnost nerozpoznání neplatné nulové hypotézy Pravděpodobnostně vyjádřená schopnost rozpoznat neplatnost nulové hypotézy α β 1-β Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 21 Možné chyby při testování hypotéz Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 22 Možné chyby při testování hypotéz Adobe Systems ̶Významnost hypotézy hodnotíme dle získané p-hodnoty, která vyjadřuje pravděpodobnost, s jakou číselné realizace výběru podporují H0, je-li pravdivá. ̶P-hodnotu porovnáme s hladinou významnosti α (stanovujeme ji na 0,05, tzn. připouštíme 5% chybu testu, tedy, že zamítneme H0, ačkoliv ve skutečnosti platí). ̶P-hodnotu získáme při testování hypotéz ve statistickém softwaru. ̶ Je-li p ≤ α, pak H0 zamítáme na hladině významnosti α a přijímáme HA. Je-li p > α, pak H0 nezamítáme na hladině významnosti α. Institut biostatistiky a analýz LF – Výuka – Biostatistika 23 Způsoby testování: P-hodnota Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 24 Poznámky k testování hypotéz ̶Nezamítnutí nulové hypotézy neznamená automaticky její přijetí! Může se jednat o situaci, kdy pro zamítnutí nulové hypotézy nemáme dostatečné množství informace. ̶Dosažená hladina významnosti testu (ať už 5 %, 1 % nebo 10 %) nesmí být slepě brána jako hranice pro (ne)existenci testovaného efektu. ̶Malá p-hodnota nemusí znamenat velký efekt. Hodnota testové statistiky a p-hodnota mohou být ovlivněny velkou velikostí vzorku a malou variabilitou pozorovaných dat. ̶Statistická významnost indikuje, že pozorovaný rozdíl není náhodný, ale nemusí znamenat, že je významný i ve skutečnosti. Důležitá je i praktická (klinická) významnost. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 25 Základní statistické testy Typ dat Spojitá x spojitá data Spojitá x kategoriální data Kategoriální x kategoriální data Jeden výběr Dva výběry Tři a více výběrů (nepárově) Jeden výběr Více výběrů Párová data Nepárová data Pearsonův korelační koeficient Jednovýbě-rový t-test Párový t-test Dvouvýbě-rový t-test ANOVA Párová data Nepárová data Chí-kvadrát test Spearmanův korelační koeficient Jednovýbě-rový Wilcoxo-nův test Wilcoxonův / znaménkový test Mannův-Whitneyho test Kruskalův-Wallisův test Jednovýbě-rový bino-mický test McNemarův test Fisherův exaktní test Parametrické testy Neparametrické testy Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 26 Testy normality ̶Testy normality testují nulovou hypotézu, že není rozdíl mezi zpracovávaným rozložením a normálním rozložením. Vždy je ovšem dobré prohlédnout si i histogram, protože některé odchylky od normality, např. bimodalitu některé testy neodhalí. Chí-kvadrát test dobré shody Vhodný pro větší datové soubory. Srovnává pozorované četnosti s očekávanými hodnotami v třídách podobně jako při tvorbě histogramu. Kolmogorovův - Smirnovův test Často používaný test, zaměřuje se zejména na distribuční funkci. Častěji se používá v jeho modifikaci – Lilieforsův test. Shapirův-Wilkův test Jde o neparametrický test použitelný i při velmi malých n (10) s dobrou sílou testu. Je zaměřen na testování symetrie. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 27 Praktické cvičení v programu Statistica Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 28 Datový soubor Rehabilitace po mozkovém infarktu Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 29 Rehabilitace po mozkovém infarktu ̶Cvičný datový soubor obsahuje záznamy o celkem 407 pacientech hospitalizovaných pro mozkový infarkt na neurologickém oddělení akutní péče, kde jim byla poskytnuta terapie pro obnovu krevního oběhu v postižené části mozku. ̶Po zvládnutí akutní fáze byl u pacientů vyhodnocen stupeň soběstačnosti v základních denních aktivitách (ADL) pomocí tzv. indexu Barthelové (BI) a byli přeloženi na rehabilitační oddělení. ̶Po dvou týdnech byl opět dle BI vyhodnocen stupeň soběstačnosti a pacienti byli buď propuštěni do ambulantní péče, nebo přeloženi na oddělení následné péče. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 30 Sbírané informace: ̶základní demografické údaje (pohlaví a věk), ̶informace o samotné diagnóze mozkové příhody (etiologie a lokalizace uzávěru cévy), ̶informace o léčbě (typ indikované terapie a výskyt komplikací) ̶informace o způsobu ukončení rehabilitace. ̶Stupeň soběstačnosti před rehabilitací byl dodatečně zjištěn z neurologie a na konci rehabilitace byl vyplněn nový dotazník pro určení výsledného indexu Barthelové. Rehabilitace po mozkovém infarktu Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 31 Úkol č. 1 – Normálně rozdělená data Zadání: „Ověřte normalitu věku při mozkovém infarktu.“ Postup: 1.Srovnání průměru a mediánu (Statistics – Basic Statistics – Descriptive Statistics – Advanced) 2.Krabicový graf (Graphs – 2D – Box Plots) 3.Histogram (Graphs – Histogram) 4.Diagnostický N-P graf (Graphs – 2D – Normal Probability Plots) 5.Shapirův-Wilkův test nebo Lilieforsovy modifikace Kolmogorovova-Smirnovova testu (lze provést např. těmito dvěma způsoby: 1) v nastavení histogramu: záložka Advanced → Statistics: vybereme test, 2) v nastavení N-P grafu: záložka: Quick → Statistics: zaškrtneme test) Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 32 Úkol č. 1 – Řešení v programu Statistica 3 2 •V menu Graphs zvolíme 2D a vybereme Box Plots. •V menu Graphs zvolíme Histogram •V menu Graphs zvolíme 2D a vybereme Normal Probability Plots, na záložce Quick zaškrtneme test 4 Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 33 Úkol č. 1 – Výsledky v Statistica ① Průměr a medián jsou téměř shodné (cca 71 let) a data jsou tedy nejspíš alespoň symetrická. Srovnání průměru a mediánu Histogram !!! Shapirův-Wilkův test !!! Věk Krabicový graf Diagnostický N-P graf !!! Shapirův-Wilkův test !!! ② Symetrie je patrná i z krabicového grafu. Navíc histogram naprosto jasně odpovídá průběhu normálního rozdělení. Z N-P grafu také nejsou patrné odchylky od normality. ③ Na základě p-hodnoty 0,580 nezamítáme nulovou hypotézu o normalitě (tj. nezamítáme, že není rozdíl mezi pozorovanými daty a teoretickým normálním rozdělením, … tj. data jsou normálně rozdělená). Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 34 Úkol č. 2 – Odlehlá/chybná hodnota Zadání: „Ověřte normalitu věku při mozkovém infarktu obsahující jeden překlep 40 → 400.“ Postup (přepište hodnotu 40 na 400 a ke stanovení závěru opět použijte vybrané nástroje vhodné pro ověření normality): 1.Srovnání průměru a mediánu (Statistics – Basic Statistics – Descriptive Statistics – Advanced) 2.Krabicový graf (Graphs – 2D – Box Plots) 3.Histogram (Graphs – Histogram) 4.Diagnostický N-P graf (Graphs – 2D – Normal Probability Plots) 5.Shapirův-Wilkův test nebo Lilieforsovy modifikace Kolmogorovova-Smirnovova testu (lze provést např. těmito dvěma způsoby: 1) v nastavení histogramu: záložka Advanced → Statistics: vybereme test, 2) v nastavení N-P grafu: záložka: Quick → Statistics: zaškrtneme test) Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 35 Úkol č. 2 – Výsledky v Statistica ① Průměr a medián jsou stále podobné (cca 71 let) a data by tedy mohla být alespoň symetrická. ③ Na základě p-hodnoty < 0,001 zamítáme nulovou hypotézu o normalitě (tj. zamítáme, že není rozdíl mezi pozorovanými daty a teoretickým normálním rozdělením, … tj. data nejsou normálně rozdělená). Srovnání průměru a mediánu Histogram Diagnostický N-P graf Krabicový graf Věk Odlehlá hodnota (400) Odlehlá hodnota (400) Odlehlá hodnota (400) ② Ze všech tří grafických nástrojů lze identifikovat výskyt odlehlé/chybné hodnoty, jejíž přítomnost zkresluje pohled na zbytek souboru. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 36 Úkol č. 3 – Asymetrická data Zadání: „ Ověřte normalitu indexu Barthelové (vyjadřuje stupeň soběstačnosti v základních denních aktivitách) na konci akutní hospitalizační péče o pacienty s mozkovým infarktem.“ Postup: 1.Srovnání průměru a mediánu (Statistics – Basic Statistics – Descriptive Statistics – Advanced) 2.Krabicový graf (Graphs – 2D – Box Plots) 3.Histogram (Graphs – Histogram) 4.Diagnostický N-P graf (Graphs – 2D – Normal Probability Plots) 5.Shapirův-Wilkův test nebo Lilieforsovy modifikace Kolmogorovova-Smirnovova testu (lze provést např. těmito dvěma způsoby: 1) v nastavení histogramu: záložka Advanced → Statistics: vybereme test, 2) v nastavení N-P grafu: záložka: Quick → Statistics: zaškrtneme test) Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 37 Úkol č. 3 – Výsledky v Statistica Srovnání průměru a mediánu ① Průměr a medián se výrazně liší (průměr 62 bodů, medián 70 bodů), což znamená, že data jsou nejspíše asymetrická. Histogram Diagnostický N-P graf ③ Na základě p-hodnoty < 0,001 zamítáme nulovou hypotézu o normalitě (tj. zamítáme, že není rozdíl mezi pozorovanými daty a teoretickým normálním rozdělením, … tj. data nejsou normálně rozdělená). Krabicový graf ② Asymetrie je patrná i z krabicového grafu a histogramu. Z histogramu je navíc zřetelně vidět odlišnost od normálního rozdělení. Odchylky od normality jsou patrné i z N-P grafu. index Barthelové