Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 1 BIOSTATISTIKA Tato prezentace je autorským dílem vytvořeným zaměstnanci Masarykovy univerzity. Studenti předmětu mají právo pořídit si kopii prezentace pro potřeby vlastního studia. Jakékoliv další šíření prezentace nebo její části bez svolení Masarykovy univerzity je v rozporu se zákonem. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 2 Typy proměnných ̶Kvalitativní (kategoriální) proměnná lze ji řadit do kategorií, ale nelze ji kvantifikovat Příklad: pohlaví, HIV status, barva vlasů … ̶ ̶Kvantitativní (numerická) proměnná můžeme ji přiřadit číselnou hodnotu Příklad: výška, hmotnost, teplota, počet hospitalizací … Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 3 Popis a vizualizace kvalitativních proměnných ̶ ̶Popis kvalitativních dat: četnost jednotlivých kategorií ̶Vizualizace kvalitativních dat: koláčový nebo sloupcový graf Známka n % A 11 18,0 B 20 32,8 C 16 26,2 D 9 14,8 E 5 8,2 F 0 0,0 Celkem 61 100,0 Koláčový graf Sloupcový graf Frekvenční tabulka Příklad: Známka z biostatistiky (podzim 2014) Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 4 Popis kvantitativních dat ̶Popis kvantitativních dat: charakteristika středu (průměr, medián aj.), charakteristika variability (rozptyl, rozsah hodnot, interkvartilové rozpětí aj.) Příklad: Popis výšky pacientů (cm) Popisné statistiky Charakteristika N 61 Průměr (cm) 161,5 Medián (cm) 161,0 Sm. odchylka (cm) 4,7 Rozptyl (cm2) 22,2 min-max (cm) 144 – 169 dolní-horní kvartil (cm) 158 - 164 Průměr a medián se téměř shodují. Co nám to říká? Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 5 Vizualizace kvantitativních dat ̶Vizualizace kvantitativních dat: nejčastěji pomocí krabicového grafu nebo histogramu Histogram Krabicový graf Příklad: Popis výšky pacientů (cm) maximum (100% kvantil) horní kvartil (75% kvantil) medián (50% kvantil) dolní kvartil (25% kvantil) minimum (0% kvantil) Jsou data symetrická? Odlehlá hodnota? Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 6 Normální rozdělení ̶Nejklasičtějším modelovým rozdělením, od něhož je odvozena celá řada statistických analýz je tzv. normální rozdělení, známé též jako Gaussova křivka. ̶Popisuje rozdělení pravděpodobnosti spojité náhodné veličiny, např. výška v populaci, chyba měření ... ̶Je kompletně popsáno dvěma parametry: μ – střední hodnota σ2 – rozptyl Označení: N(μ, σ2) Soubor:Normal Distribution PDF.svg NORMALITA je klíčovým předpo-kladem řady statistických metod http://files.mscck-trmice.webnode.cz/200000297-22250231ed/vyk%C5%99i%C4%8Dn%C3%ADk.png Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 7 Vizuální ověření normality ̶Pro hodnocení tvaru rozložení lze využít histogram nebo normálně-pravděpodobnostný graf Pocházejí-li data z normálního rozložení, pak body budou ležet okolo přímky Pocházejí-li data z normálního rozložení, pak bude proložená křivka souhlasit s histogramem Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 8 Shapirův-Wilkův test normality ̶Testy normality testují H0: není rozdíl mezi zpracovávaným rozložením a normálním rozložením. Shapirův-Wilkův test Jde o neparametrický test použitelný i při velmi malých n (10) s dobrou sílou testu. Je zaměřen na testování symetrie. Vždy je ovšem dobré prohlédnout si i histogram, protože některé odchylky od normality, např. bimodalitu některé testy neodhalí. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 9 Statistické testování – princip Všechny statistické testy testují tzv. nulovou hypotézu. Proti ní stojí tzv. alternativní hypotéza. ̶Nulová hypotéza H0 ̶Alternativní hypotéza HA ̶ ̶ ̶ ̶Testování nulové hypotézy probíhá většinou výpočtem tzv. testové statistiky a k ní je pak určena tzv. p-hodnota. H0: sledovaný efekt je nulový HA: sledovaný efekt není nulový Statistické testování odpovídá na otázku, zda je pozorovaný rozdíl náhodný či nikoliv. Adobe Systems ̶Významnost hypotézy hodnotíme dle získané p-hodnoty, která vyjadřuje pravděpodobnost, s jakou číselné realizace výběru podporují H0, je-li pravdivá. ̶P-hodnotu porovnáme s hladinou významnosti α (stanovujeme ji na 0,05). ̶P-hodnotu získáme při testování hypotéz ve statistickém softwaru. ̶ Je-li p ≤ α, pak H0 zamítáme na hladině významnosti α a přijímáme HA. Je-li p > α, pak H0 nezamítáme na hladině významnosti α. Institut biostatistiky a analýz LF – Výuka – Biostatistika 10 Způsoby testování: P-hodnota Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 11 Základní statistické testy Typ dat Spojitá x spojitá data Spojitá x kategoriální data Kategoriální x kategoriální data Jeden výběr Dva výběry Tři a více výběrů (nepárově) Jeden výběr Více výběrů Párová data Nepárová data Pearsonův korelační koeficient Jednovýbě-rový t-test Párový t-test Dvouvýbě-rový t-test ANOVA Párová data Nepárová data Chí-kvadrát test Spearmanův korelační koeficient Jednovýbě-rový Wilcoxo-nův test Wilcoxonův / znaménkový test Mannův-Whitneyho test Kruskalův-Wallisův test Jednovýbě-rový bino-mický test McNemarův test Fisherův exaktní test Parametrické testy Neparametrické testy Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 12 Jednovýběrový test 1.Stanovení nulové a alternativní hypotézy: H0: Průměr výběru je rovný referenční hodnotě. HA: Průměr výběru není rovný referenční hodnotě. 2.Ověření normality rozdělení hodnot výběru (vizuálně i statistickým testem: Shapiro-Wilkův test). Předpoklad splněn => jednovýběrový t-test Předpoklad nesplněn => Wilcoxonův test, znaménkový test 3.Vypočítaní hodnoty testové statistiky a p-hodnoty. Když je vypočítaná p-hodnota menší než zvolená hladina významnosti α = 0,05, zamítáme nulovou hypotézu. ….. ….. ….. x Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 13 Párový test 1.Stanovení nulové a alternativní hypotézy: H0: Průměry před a po léčbě se neliší. HA: Průměry před a po léčbě se liší. 2.Spočítání diference hodnot a prohlédnutí jejich průběhu. Ověření normality rozdělení diferencí (vizuálně i statistickým testem: Shapiro-Wilkův test). Předpoklad splněn => párový t-test Předpoklad nesplněn => párový Wilcoxonův/znaménkový t. 3.Vypočítaní hodnoty testové statistiky a p-hodnoty. Když je vypočítaná p-hodnota menší než zvolená hladina významnosti α = 0,05, zamítáme nulovou hypotézu. ….. ….. ….. ….. ….. ….. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 14 Dvouvýběrový test 1.Stanovení nulové a alternativní hypotézy: H0: Průměry obou skupin jsou shodné. HA: Průměry obou skupin nejsou shodné. 2.Prohlédnutí průběhu dat, určení průměru, mediánu Ověření normality dat (vizuálně i Shapiro-Wilkovým testem) Ověření homogenity rozptylů (F-testem) Předpoklady splněny => nepárový dvouvýběrový t-test Předpoklady nesplněny => Mannův-Whitneyův U test 3.Vypočítaní hodnoty testové statistiky a p-hodnoty. Když je vypočítaná p-hodnota menší než zvolená hladina významnosti α = 0,05, zamítáme nulovou hypotézu. ….. ….. ….. ….. ….. ….. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 15 Test pro více nezávislých výběrů 1.Stanovení nulové a alternativní hypotézy: H0: Střední hodnoty všech skupin jsou shodné. HA: Aspoň jedna dvojice středních hodnot se liší. 2.Prohlédnutí průběhu dat, určení průměru, mediánu Ověření normality dat (vizuálně i Shapiro-Wilkovým testem) Ověření homogenity rozptylů (Levenův test) Předpoklady splněny => ANOVA Předpoklady nesplněny => Kruskalův-Wallisův test 3.Vypočítaní hodnoty testové statistiky a p-hodnoty. Když je p < α, zamítáme nulovou hypotézu. Dalším, tzv. post hoc testem hledáme dvojici s odlišnou střední hodnotou. ….. ….. ….. ….. ….. ….. ….. ….. ….. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 16 Základní statistické testy Typ dat Spojitá x spojitá data Spojitá x kategoriální data Kategoriální x kategoriální data Jeden výběr Dva výběry Tři a více výběrů (nepárově) Jeden výběr Více výběrů Párová data Nepárová data Pearsonův korelační koeficient Jednovýbě-rový t-test Párový t-test Dvouvýbě-rový t-test ANOVA Párová data Nepárová data Chí-kvadrát test Spearmanův korelační koeficient Jednovýbě-rový Wilcoxo-nův test Wilcoxonův / znaménkový test Mannův-Whitneyho test Kruskalův-Wallisův test Jednovýbě-rový bino-mický test McNemarův test Fisherův exaktní test Parametrické testy Neparametrické testy Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 17 Typy proměnných ̶Kvalitativní (kategoriální) proměnná lze ji řadit do kategorií, ale nelze ji kvantifikovat Příklad: pohlaví, HIV status, barva vlasů … ̶ ̶Kvantitativní (numerická) proměnná můžeme ji přiřadit číselnou hodnotu Příklad: výška, hmotnost, teplota, počet hospitalizací … Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 18 Popis a vizualizace kvalitativních proměnných ̶ ̶Popis kvalitativních dat: četnost jednotlivých kategorií ̶Vizualizace kvalitativních dat: koláčový nebo sloupcový graf Známka n % A 11 18,0 B 20 32,8 C 16 26,2 D 9 14,8 E 5 8,2 F 0 0,0 Celkem 61 100,0 Koláčový graf Sloupcový graf Frekvenční tabulka Příklad: Známka z biostatistiky (podzim 2014) Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 19 Kontingenční tabulka – vztah kategoriálních proměnných ̶ ̶Řádky (r) hodnotami (kategoriemi) první proměnné, sloupce (c) hodnotami druhé proměnné. ̶V buňkách tabulky jsou uvedeny počty případů s hodnotou první proměnné odpovídající příslušnému řádku a druhé proměnné s hodnotou odpovídající příslušnému sloupci. Nemocný Zdravý Celkem Muž 45 11 56 Žena 25 6 31 Celkem 70 17 87 Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 20 Analýza kontingenčních tabulek ̶Analýza kontingenčních tabulek umožňuje analyzovat vazbu mezi dvěma kategoriálními proměnnými (pomocí chí-kvadrát testu, tj. srovnáním pozorovaných a očekávaných četností) ̶Umožňuje testovat: Hypotézu o nezávislosti: H0: Proměnné jsou nezávislé; HA: Proměnné jsou závislé. Hypotézu o shodě struktury: H0: Procentuální zastoupení kategorií proměnné je stejné ve srovnávaných výběrech; HA: … není stejné Hypotézu o symetrii: H0: (pokus nemá vliv na výskyt daného znaku) HA: (pokus má vliv na výskyt daného znaku) Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 21 Testování nezávislosti dvou kategoriálních proměnných 1. 1.Stanovení nulové a alternativní hypotézy: H0: Dvě kategoriální proměnné jsou nezávislé. HA: Dvě kategoriální proměnné jsou závislé. 2.Vypočítání pozorovaných a očekávaných četností Ověření podmínky dobré aproximace (týká se oček. četností) Předpoklad splněn => Pearsonův chí-kvadrát test Předpoklad nesplněn => Fisherův exaktní test 3.Vypočítaní hodnoty testové statistiky a p-hodnoty. Když je p < α, zamítáme nulovou hypotézu. Adobe Systems Testování shody struktury dvou kategoriálních proměnných 1. 1.Stanovení nulové a alternativní hypotézy: H0: Pravděpodobnostní rozdělení kategoriální proměnné je stejné v různých populacích. HA: Pravděpodobnostní rozdělení kategoriální proměnné není stejné v různých populacích. 2.Vypočítání pozorovaných a očekávaných četností Ověření podmínky dobré aproximace (týká se oček. četností) Předpoklad splněn => Pearsonův chí-kvadrát test Předpoklad nesplněn => Fisherův exaktní test 3.Vypočítaní hodnoty testové statistiky a p-hodnoty. Když je p < α, zamítáme nulovou hypotézu. Adobe Systems Testování symetrie – McNemarův test ̶Hypotéza o symetrii: Opakovaně sledujeme binární proměnnou a zajímá nás, zda došlo ke změně jejího rozdělení. Příklad: Výskyt bolesti před a po užití léku. ̶H0: (pokus nemá vliv na výskyt daného znaku) ̶ ̶ ̶ ̶ ̶ ̶ ̶Testová statistika: Pokud je větší než kritická hodnota rozdělení o jednom stupni volnosti (vhodné pro počty údajů b + c > 8), pak nulovou hypotézu zamítáme. ̶ Četnost Po: ANO Po: NE Před: ANO a b a + b Před: NE c d c + d a + c b + d N Teoretická pravděpodobnost Po: ANO Po: NE Před: ANO n11 n12 n1. Před: NE n21 n22 n2. n.1 n.2 Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 24 Testování hypotézy o symetrii 1.Stanovení nulové a alternativní hypotézy: H0: Pokus nemá vliv na výskyt daného znaku. HA: Pokus má vliv na výskyt daného znaku. 2.Vypočítání pozorovaných četností McNemarův test 3.Vypočítaní hodnoty testové statistiky a p-hodnoty. Když je p < α, zamítáme nulovou hypotézu. Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 25 Základní statistické testy Typ dat Spojitá x spojitá data Spojitá x kategoriální data Kategoriální x kategoriální data Jeden výběr Dva výběry Tři a více výběrů (nepárově) Jeden výběr Více výběrů Párová data Nepárová data Pearsonův korelační koeficient Jednovýbě-rový t-test Párový t-test Dvouvýbě-rový t-test ANOVA Párová data Nepárová data Chí-kvadrát test Spearmanův korelační koeficient Jednovýbě-rový Wilcoxo-nův test Wilcoxonův / znaménkový test Mannův-Whitneyho test Kruskalův-Wallisův test Jednovýbě-rový bino-mický test McNemarův test Fisherův exaktní test Parametrické testy Neparametrické testy Adobe Systems Institut biostatistiky a analýz LF – Výuka – Biostatistika 26 Korelace ̶Korelační analýza je využívána pro vyhodnocení míry vztahu dvou spojitých proměnných. Obdobně jako jiné statistické metody, i korelace mohou být parametrické nebo neparametrické. ̶ Y X X X Y Y Kladná korelace Záporná korelace Bez korelace Adobe Systems Korelační koeficienty ̶Korelační koeficient (r) – kvantifikuje míru vztahu mezi dvěma spojitými proměnnými X a Y. ̶Pearsonův korelační koeficient je parametrický; hodnotí míru lineární závislosti mezi dvěma spojitými proměnnými. Předpoklad: proměnné pocházejí z tzv. dvourozměrného normálního rozdělení (pro každou hodnotu X má proměnná Y normální rozdělení a pro každou hodnotu Y má proměnná X normální rozdělení) ̶Spearmanův korelační koeficient je neparametrický; hodnotí míru závislosti pořadí hodnot dvou spojitých proměnných. ̶Hodnota r je kladná, když vyšší hodnoty X souvisí s vyššími hodnotami Y. Naopak hodnota r je záporná, když nižší hodnoty X souvisí s vyššími hodnotami Y.