Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 1 BIOSTATISTIKA Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 2 Modelová rozdělení (rozložení) Parametry rozdělení Přehled modelových rozdělení Logaritmicko-normální rozdělení Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 3 Výběrové rozdělení hodnot ̶Lze popsat a definovat pravděpodobnost výskytu X f(x) x f(x) x f(x) x j(x) j(x) j(x) Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 4 Parametry rozdělení ̶Proměnné můžeme charakterizovat parametry rozdělení ̶Hlavní skupiny těchto parametrů můžeme charakterizovat jako ukazatele: ̶Středu (medián, průměr, geometrický průměr) ̶Šířky rozdělení (rozsah hodnot, rozptyl, sm. odchylka) ̶Tvaru rozdělení (skewness, kurtosis) ̶Kvantily rozdělení Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 5 Přehled modelových rozdělení Symetrická data Binomické Asymetrická data Rovnoměr-né diskrétní Geometri-cké Negativní binomické Hypergeo-metrické Rovnoměr-né spojité Triangulární Normální Logistické Exponen-ciální Lognormal, Gamma, Weibull Diskrétní data Spojitá data Symetrická data Asymetrická data Hodnoty kolem středu Hodnoty ne kolem středu Pozice odlehlých hodnot: pozitivní; negativní Hodnoty ne kolem středu Hodnoty kolem středu; různý výskyt odlehlých hodnot Minimum extreme Pozice odlehlých hodnot: pozitivní; negativní Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 6 Log-normální a normální rozdělení f(x) Medián x Průměr f(y) Medián y Průměr Y = ln [X] = • EXP (Y) = Geometrický průměr X Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 7 Normální rozdělení Normální rozdělení Pravidlo 3 sigma Parametry normálního rozdělení Vizuální ověření normality dat Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 8 Normální rozdělení ̶Nejklasičtějším modelovým rozdělením, od něhož je odvozena celá řada statistických analýz je tzv. normální rozdělení, známé též jako Gaussova křivka. ̶Popisuje rozdělení pravděpodobnosti spojité náhodné veličiny, např. výška v populaci, chyba měření ... ̶Je kompletně popsáno dvěma parametry: μ – střední hodnota σ2 – rozptyl Označení: N(μ, σ2) Soubor:Normal Distribution PDF.svg NORMALITA je klíčovým předpo-kladem řady statistických metod http://files.mscck-trmice.webnode.cz/200000297-22250231ed/vyk%C5%99i%C4%8Dn%C3%ADk.png Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 9 Pravidlo 3 sigma ̶V rozmezí μ ± 3σ by se mělo vyskytovat 99,7 % všech hodnot ̶ ̶ ̶ ̶ ̶ ̶ ̶ ̶ ̶Použití: zhodnotíme tvar rozdělení (pouze orientačně) a přítomnost odlehlých hodnot ̶ Soubor:Standard deviation diagram.svg 99,7 % všech hodnot Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 10 Vizuální ověření normality ̶Pro hodnocení tvaru rozložení lze využít histogram (nevýhoda: nutné určit „vhodný“ počet sloupců) ̶ ̶ ̶ ̶ ̶ ̶ ̶ ̶Vhodnější jsou: ̶Q-Q graf (kvantil-kvantilový graf) ̶P-P graf (pravděpodobnostně-pravděpodobnostný graf) ̶N-P graf (normálně-pravděpodobnostný graf) Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 11 Rozdíl mezi N-P, Q-Q, P-P grafem ??? •Pouze výměna os •Znázorněn pozorovaný a teoretický kvantil •Vykresleno kumulativní rozdělení PAMATUJ: Pocházejí-li data z normálního rozložení, pak body budou ležet okolo přímky http://files.mscck-trmice.webnode.cz/200000297-22250231ed/vyk%C5%99i%C4%8Dn%C3%ADk.png Adobe Systems Asymetrie v diagnostických grafech Konkávní křivka Konvexní křivka Výukové materiály: Výpočetní statistika Dr. Marie Budíková 2011 Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 13 Základy testování hypotéz Princip statistického testování hypotéz Pojmy statistických testů Normalita dat a její význam pro testování Ověření normality dat pomocí testu Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 14 Princip testování hypotéz ̶Formulace hypotézy ̶Výběr cílové populace a z ní reprezentativního vzorku ̶Měření sledovaných parametrů ̶Použití odpovídajícího testu závěr testu ̶Interpretace výsledků Cílová populace Vzorek Reprezentativnost ? Závěr ? Interpretace Měření parametrů Testy hypotéz ? Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 15 Statistické testování – základní pojmy ̶ ̶Nulová hypotéza H0 ̶Alternativní hypotéza HA ̶Testová statistika ̶ ̶ ̶ ̶Kritický obor testové statistiky H0: sledovaný efekt je nulový HA: sledovaný efekt je různý mezi skupinami Pozorovaná hodnota – Očekávaná hodnota Variabilita dat Testová statistika = * Velikost vzorku 0 T Statistické testování odpovídá na otázku, zda je pozorovaný rozdíl náhodný či nikoliv. K odpovědi na otázku je využit statistický model – testová statistika. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 16 Možné chyby při testování hypotéz ̶ ̶I přes dostatečnou velikost vzorku a kvalitní design experimentu se můžeme při rozhodnutí o (ne)zamítnutí nulové hypotézy dopustit chyby. β 1- β 1- α α Závěr testu H0 nezamítáme H0 zamítáme Chyba I. druhu Falešně pozitivní závěr testu Chyba II. druhu Falešně negativní závěr testu Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 17 Význam chyb při testování hypotéz ̶ ̶Pravděpodobnost chyby 1. druhu ̶ ̶ ̶Pravděpodobnost chyby 2. druhu ̶ ̶ ̶Síla testu Pravděpodobnost nesprávného zamítnutí nulové hypotézy, hladina významnosti Pravděpodobnost nerozpoznání neplatné nulové hypotézy Pravděpodobnostně vyjádřená schopnost rozpoznat neplatnost nulové hypotézy α β 1-β Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 18 Způsoby testování ̶Testování H0 proti HA na hladině významnosti α můžeme provést třemi různými způsoby: 1.Kritický obor neboli obor zamítnutí H0 , 2.Interval spolehlivosti, 3.P-hodnota (vyjadřuje pravděpodobnost za platnosti H0, s níž bychom získali stejnou nebo extrémnější hodnotu testové statistiky). Adobe Systems ̶Významnost hypotézy hodnotíme dle získané p-hodnoty, která vyjadřuje pravděpodobnost, s jakou číselné realizace výběru podporují H0, je-li pravdivá. ̶P-hodnotu porovnáme s hladinou významnosti α (stanovujeme ji na 0,05, tzn. připouštíme 5% chybu testu, tedy, že zamítneme H0, ačkoliv ve skutečnosti platí). ̶P-hodnotu získáme při testování hypotéz ve statistickém softwaru. ̶ Je-li p ≤ α, pak H0 zamítáme na hladině významnosti α a přijímáme HA. Je-li p > α, pak H0 nezamítáme na hladině významnosti α. Institut biostatistiky a analýz LF – Výuka – Biostatistika 19 Způsoby testování: P-hodnota Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 20 Poznámky k testování hypotéz ̶Nezamítnutí nulové hypotézy neznamená automaticky její přijetí! Může se jednat o situaci, kdy pro zamítnutí nulové hypotézy nemáme dostatečné množství informace. ̶Dosažená hladina významnosti testu (ať už 5 %, 1 % nebo 10 %) nesmí být slepě brána jako hranice pro (ne)existenci testovaného efektu. ̶Malá p-hodnota nemusí znamenat velký efekt. Hodnota testové statistiky a p-hodnota mohou být ovlivněny velkou velikostí vzorku a malou variabilitou pozorovaných dat. ̶Na výsledky testování musí být nahlíženo kriticky – jedná se o závěr založeny „pouze“ na jednom výběrovém souboru. ̶Statistická významnost indikuje, že pozorovaný rozdíl není náhodný, ale nemusí znamenat, že je významný i ve skutečnosti. Důležitá je i praktická (klinická) významnost. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 21 Základní statistické testy Typ dat Spojitá x spojitá data Spojitá x kategoriální data Kategoriální x kategoriální data Jeden výběr Dva výběry Tři a více výběrů (nepárově) Jeden výběr Více výběrů Párová data Nepárová data Pearsonův korelační koeficient Jednovýbě-rový t-test Párový t-test Dvouvýbě-rový t-test ANOVA Párová data Nepárová data Chí-kvadrát test Spearmanův korelační koeficient Jednovýbě-rový Wilcoxo-nův test Wilcoxonův / znaménkový test Mannův-Whitneyho test Kruskalův-Wallisův test Jednovýbě-rový bino-mický test McNemarův test Fisherův exaktní test Parametrické testy Neparametrické testy Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 22 Testy normality ̶Testy normality testují nulovou hypotézu, že není rozdíl mezi zpracovávaným rozložením a normálním rozložením. Vždy je ovšem dobré prohlédnout si i histogram, protože některé odchylky od normality, např. bimodalitu některé testy neodhalí. Chí-kvadrát test dobré shody Vhodný pro větší datové soubory. Srovnává pozorované četnosti s očekávanými hodnotami v třídách podobně jako při tvorbě histogramu. Kolmogorovův - Smirnovův test Často používaný test, zaměřuje se zejména na distribuční funkci. Častěji se používá v jeho modifikaci – Lilieforsův test. Shapirův-Wilkův test Jde o neparametrický test použitelný i při velmi malých n (10) s dobrou sílou testu. Je zaměřen na testování symetrie. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 23 Praktické cvičení v programu Statistica Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 24 Datový soubor Rehabilitace po mozkovém infarktu Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 25 Rehabilitace po mozkovém infarktu ̶Cvičný datový soubor obsahuje záznamy o celkem 407 pacientech hospitalizovaných pro mozkový infarkt na neurologickém oddělení akutní péče, kde jim byla poskytnuta terapie pro obnovu krevního oběhu v postižené části mozku. ̶Po zvládnutí akutní fáze byl u pacientů vyhodnocen stupeň soběstačnosti v základních denních aktivitách (ADL) pomocí tzv. indexu Barthelové (BI) a byli přeloženi na rehabilitační oddělení. ̶Po dvou týdnech byl opět dle BI vyhodnocen stupeň soběstačnosti a pacienti byli buď propuštěni do ambulantní péče, nebo přeloženi na oddělení následné péče. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 26 Sbírané informace: ̶základní demografické údaje (pohlaví a věk), ̶informace o samotné diagnóze mozkové příhody (etiologie a lokalizace uzávěru cévy), ̶informace o léčbě (typ indikované terapie a výskyt komplikací) ̶informace o způsobu ukončení rehabilitace. ̶Stupeň soběstačnosti před rehabilitací byl dodatečně zjištěn z neurologie a na konci rehabilitace byl vyplněn nový dotazník pro určení výsledného indexu Barthelové. Rehabilitace po mozkovém infarktu Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 27 Úkol č. 1 – Normálně rozdělená data Zadání: „Ověřte normalitu věku při mozkovém infarktu.“ Postup: 1.Srovnání průměru a mediánu (Statistics – Basic Statistics – Descriptive Statistics – Advanced) 2.Krabicový graf (Graphs – 2D – Box Plots) 3.Histogram (Graphs – Histogram) 4.Diagnostický N-P graf (Graphs – 2D – Normal Probability Plots) 5.Shapirův-Wilkův test nebo Lilieforsovy modifikace Kolmogorovova-Smirnovova testu (lze provést např. těmito dvěma způsoby: 1) v nastavení histogramu: záložka Advanced → Statistics: vybereme test, 2) v nastavení N-P grafu: záložka: Quick → Statistics: zaškrtneme test) Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 28 Úkol č. 1 – Řešení v programu Statistica 3 2 •V menu Graphs zvolíme 2D a vybereme Box Plots. •V menu Graphs zvolíme Histogram •V menu Graphs zvolíme 2D a vybereme Normal Probability Plots, na záložce Quick zaškrtneme test 4 Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 29 Úkol č. 1 – Výsledky v Statistica ① Průměr a medián jsou téměř shodné (cca 71 let) a data jsou tedy nejspíš alespoň symetrická. Srovnání průměru a mediánu Histogram !!! Shapirův-Wilkův test !!! Věk Krabicový graf Diagnostický N-P graf !!! Shapirův-Wilkův test !!! ② Symetrie je patrná i z krabicového grafu. Navíc histogram naprosto jasně odpovídá průběhu normálního rozdělení. Z N-P grafu také nejsou patrné odchylky od normality. ③ Na základě p-hodnoty 0,580 nezamítáme nulovou hypotézu o normalitě (tj. nezamítáme, že není rozdíl mezi pozorovanými daty a teoretickým normálním rozdělením, … tj. data jsou normálně rozdělená). Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 30 Úkol č. 2 – Odlehlá/chybná hodnota Zadání: „Ověřte normalitu věku při mozkovém infarktu obsahující jeden překlep 40 → 400.“ Postup (přepište hodnotu 40 na 400 a ke stanovení závěru opět použijte vybrané nástroje vhodné pro ověření normality): 1.Srovnání průměru a mediánu (Statistics – Basic Statistics – Descriptive Statistics – Advanced) 2.Krabicový graf (Graphs – 2D – Box Plots) 3.Histogram (Graphs – Histogram) 4.Diagnostický N-P graf (Graphs – 2D – Normal Probability Plots) 5.Shapirův-Wilkův test nebo Lilieforsovy modifikace Kolmogorovova-Smirnovova testu (lze provést např. těmito dvěma způsoby: 1) v nastavení histogramu: záložka Advanced → Statistics: vybereme test, 2) v nastavení N-P grafu: záložka: Quick → Statistics: zaškrtneme test) Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 31 Úkol č. 2 – Výsledky v Statistica ① Průměr a medián jsou stále podobné (cca 71 let) a data by tedy mohla být alespoň symetrická. ③ Na základě p-hodnoty < 0,001 zamítáme nulovou hypotézu o normalitě (tj. zamítáme, že není rozdíl mezi pozorovanými daty a teoretickým normálním rozdělením, … tj. data nejsou normálně rozdělená). Srovnání průměru a mediánu Histogram Diagnostický N-P graf Krabicový graf Věk Odlehlá hodnota (400) Odlehlá hodnota (400) Odlehlá hodnota (400) ② Ze všech tří grafických nástrojů lze identifikovat výskyt odlehlé/chybné hodnoty, jejíž přítomnost zkresluje pohled na zbytek souboru. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 32 Úkol č. 3 – Asymetrická data Zadání: „ Ověřte normalitu indexu Barthelové (vyjadřuje stupeň soběstačnosti v základních denních aktivitách) na konci akutní hospitalizační péče o pacienty s mozkovým infarktem.“ Postup: 1.Srovnání průměru a mediánu (Statistics – Basic Statistics – Descriptive Statistics – Advanced) 2.Krabicový graf (Graphs – 2D – Box Plots) 3.Histogram (Graphs – Histogram) 4.Diagnostický N-P graf (Graphs – 2D – Normal Probability Plots) 5.Shapirův-Wilkův test nebo Lilieforsovy modifikace Kolmogorovova-Smirnovova testu (lze provést např. těmito dvěma způsoby: 1) v nastavení histogramu: záložka Advanced → Statistics: vybereme test, 2) v nastavení N-P grafu: záložka: Quick → Statistics: zaškrtneme test) Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 33 Úkol č. 3 – Výsledky v Statistica Srovnání průměru a mediánu ① Průměr a medián se výrazně liší (průměr 62 bodů, medián 70 bodů), což znamená, že data jsou nejspíše asymetrická. Histogram Diagnostický N-P graf ③ Na základě p-hodnoty < 0,001 zamítáme nulovou hypotézu o normalitě (tj. zamítáme, že není rozdíl mezi pozorovanými daty a teoretickým normálním rozdělením, … tj. data nejsou normálně rozdělená). Krabicový graf ② Asymetrie je patrná i z krabicového grafu a histogramu. Z histogramu je navíc zřetelně vidět odlišnost od normálního rozdělení. Odchylky od normality jsou patrné i z N-P grafu. index Barthelové