Biostatistika Taťána Bržezická, Ondřej Dvorský, Daniela Gachová, Jan Gečnuk, Natálie Němcová Osnova ◦Základní pojmy ◦Data ◦Srovnání průměru a mediánu ◦Směrodatná odchylka, chyba průměru ◦Test odlehlých hodnot ◦Vybraná rozdělení pravděpodobnosti ◦Testování hypotéz v biostatistice ◦Parametrické testy ◦Neparametrické testy Úvod ◦Obecně o biostatistice ◦ ◦Biostatistika primárně vychází ze statistiky ◦ ◦Na rozdíl od statistiky je více zaměřená do praxe ◦Aplikace a vývoj statistických metod pro řešení biologických a klinických problémů ◦ ◦Získání užitečných informací z pozorovaných dat ◦ ◦prostý popis stavu sledovaného souboru ◦identifikace faktorů ovlivňujících chování souboru ◦rozhodnutí o nějaké jeho neznámé charakteristice ◦ ◦ ◦ ◦Důsledek získané informace ◦ ◦žádný (pouze informace pro hodnotitele) ◦výrazná změně lidské činnosti ◦např. ke změně metodických a léčebných postupů nebo klinických doporučení ◦ (účinnost a bezpečnost léčivých přípravků v klinických studiích) ◦ Úvod ◦Cíl biostatistiky ◦ ◦Zásadní postavení biostatistiky v dnešní vědě a výzkumu ◦statistické zpracování experimentálních výsledků (hlavně biomedicínská data) ◦ ◦Aby při hodnocení experimentů na základě limitovaných dat a údajů nedošlo k nesprávným interpretacím a závěrům ◦ ◦Hlavním cílem je získání informace o tzv. cílové populaci (základním souboru) ◦Ve většině případů nereálné a sleduje se pouze část cílové populace, tzv. výběr z cílové populace (experimentální vzorek) Základní pojmy ◦ ◦Obecný postup ◦ ◦Cílová populace ◦Předpoklad určitého pravděpodobnostního chování (model) ◦Vyjádříme hypotézu ◦Experimentální vzorek (výběr z cílové populace) ◦Sledované vlastnosti převedeme na číselné vyjádření (data) ◦Kvalitativní ◦Kvantitativní ◦Platnost hypotézy vyhodnotíme na základě vybraného modelu a pozorovaných dat Základní pojmy ◦Klíčové body pro korektní hodnocení ◦ ◦Zkreslení výsledků ◦snažíme se vyhnout zkreslení hodnot sledované náhodné veličiny veličinami, které nejsou cílem studie ◦tj. zavádějící veličina (př. nošení zapalovače nezpůsobí rakovinu plic, pouze koreluje s kouřením) ◦ ◦Reprezentativnost ◦experimentální vzorek odpovídá cílové populaci ◦př. odhad střední výšky české dospělé populace (vzorkem by neměla být mužská basketbalová reprezentace – zkreslení výsledku) ◦ ◦Srovnatelnost ◦při srovnání dvou a více skupin (srovnávání jablek s jablky a ne jablek s hruškami) ◦srovnatelnost zajištěna pomocí tzv. randomizace nebo srovnáváním výsledků experimentu v rámci podskupin Základní pojmy ◦Klíčové body pro korektní hodnocení ◦ ◦Spolehlivost ◦kvantifikace sledovaného znaku bodový odhad (rozdílný odhad u měření 10 a 1000 jedinců), pro úplnost zmínit intervalový odhad (interval spolehlivosti) ◦- interval, který se zvolenou pravděpodobností pokrývá neznámý parametr, který se snažíme odhadnout bodovým odhadem ◦ ◦Významnost ◦statistická významnost - na základě pravděpodobnosti hodnotí výsledek experimentu, zda pozorovaný rozdíl mezi dvěma skupinami vznikl náhodou či ne ◦praktická významnost - z hlediska experimentátora na základě pozorovaného efektu vedle statistické významnosti zda je biologicky/klinicky podstatný Data ◦Kvalitativní (kategoriální) ◦Binární data - nabývají pouze dvou hodnot, většinou data typu ano/ne (př. osoba s diabetem / osoba bez diabetu) ◦Nominální data - více kategorií, které nelze vzájemně seřadit (př. krevní skupina A/B/AB/0) ◦Ordinální data - více kategorií, lze vzájemně seřadit (př. stadium maligního onemocnění I/II/III/IV) ◦ ◦Kvantitativní (numerická) ◦Spojitá data - jakékoliv hodnoty v určitém intervalu (př. hmotnost osob, velikost nádoru nebo teplota) ◦Diskrétní data - nabývají pouze spočetně mnoha hodnot, na reálné ose jsou zobrazena pomocí izolovaných bodů ◦ (př. počet krevních buněk v 1 ml krve) Popis a vizualizace dat ◦ ◦Cíl: pozorovaná data graficky zpřehlednit a poskytnout maximum informací na minimální ploše ◦ ◦Kvalitativní data ◦Tabulka četností ◦Sloupcový graf, výsečový (koláčový) graf ◦ ◦ Tabulka četností Popis a vizualizace dat ◦Kvantitativní data ◦Míra polohy – shrnuje soubor dat jedním číslem a představuje „typickou hodnotu“ – průměr, medián ◦ ◦Míra variability – jak jsou kolem „typické hodnoty“ rozloženy ostatní hodnoty ◦ – rozpětí = rozsah hodnot (interval min a max hodnoty) - náchylnost k odlehlým hodnotám ◦ – kvantilové rozpětí (interval definovaný hodnotami p% kvantilu a [100 – p]% kvantilu) ◦ – kvartilové rozpětí (dán dolním a horním kvartilem, pokrývá 50 % pozorovaných hodnot) ◦ ◦Bodový graf, krabicový graf, histogram Bodový graf ◦zobrazuje každou měřenou hodnotu jako bod plochy ◦použití zejména pro vizualizaci vzájemného vztahu dvou veličin spojitého typu ◦hodnoty jedné veličiny jsou zobrazeny na ose x ◦hodnoty druhé veličiny jsou zobrazeny na ose y Krabicový graf ◦kvartilové rozpětí – ohraničuje 50% pozorovaných hodnot (hranice horní a dolní kvartil) Histogram ◦pro vizualizaci poměrových a intervalových dat ◦připomíná sloupcový graf ◦Rozdíl: každý sloupec v histogramu odráží absolutní nebo relativní četnost na jednotku sledované veličiny na vodorovné ose ◦seřazení hodnot dle velikosti ◦rozdělení do vzájemně disjunktních intervalů ◦standardizace na šířku intervalu (70+ vypadá četnější než 60-69 viz tabulka, ale není, viz graf) Relativní četnost Absolutní n … celkový počet hodnot sledované veličiny dj … šířka intervalu nj … počet pozorovaných hodnot v intervalu Příklad pacientek s karcinomem prsu SROVNÁNÍ PRŮMĚRU A MEDIÁNU •ukazatele středu souboru dat •jedno číslo, které představuje „typickou hodnotu“, kolem které mají ostatní pozorované hodnoty tendenci kolísat • •PRŮMĚR •vypočten ze všech pozorovaných hodnot •symetrická data, neobsahují odlehlé hodnoty • • •MEDIÁN •prostřední hodnota – dělí celý soubor na dvě poloviny •asymetrická data, přítomnost odlehlé hodnoty •např. výpočet průměrného platu • •zvážit, co použiju, uvést obě hodnoty Výsledek obrázku pro srovnání průměru a mediánu symetrie Symetrická data Asymetrická data SMĚRODATNÁ ODCHYLKA, CHYBA PRŮMĚRU •ukazatele šířky rozložení –např. větší variabilita u hodnot 0-100 než u 40-60 • •ROZPTYL •získaný na základě odchylky jednotlivých hodnot od průměru •nejvyšší vypovídající schopnost v případě symetrického rozdělení •SMĚRODATNÁ ODCHYLKA (SD) – variabilita pozorované proměnné •druhá odmocnina z rozptylu •pro n < 7: X …. průměr R …. rozpětí n …. počet měření •RELATIVNÍ SMĚRODATNÁ ODCHYLKA (RSD; %) •vhodné pro srovnání variability více souborů, které se liší úrovní hodnot • • •STŘEDNÍ CHYBA PRŮMĚRU •směrodatná odchylka rozložení průměru •měří se rozptýlenost vypočteného X v různých výběrových souborech vybraných z 1 velkého základního souboru → s menší chybou • •INTERVAL SPOLEHLIVOSTI •interval, v němž s danou pravděpodobností leží správná hodnota µ •pro n <7: µ = X ± KnR • •pro n > 7: TEST ODLEHLÝCH HODNOT •Q-test a T-test •zjišťujeme, zda se krajní hodnoty souboru statisticky významně liší od ostatních paralelních měření • •DEAN-DIXONŮV Q-TEST – pro n<7 • • •nalezené hodnoty Q1 nebo Qn se srovnávají s tabelovanou hodnotou Qk •když Q1 nebo Qn < Qk → výsledek NENÍ odlehlý a zůstane součástí souboru dat •když Q1 nebo Qn > Qk → výsledek JE odlehlý a vyloučí se ze souboru dat • •GRUBSŮV T-TEST – pro n>7 • • •nalezené hodnoty T1 nebo Tn se srovnávají s tabelovanou hodnotou Tk •když T1 nebo Tn < Tk → výsledek NENÍ odlehlý a zůstane součástí souboru dat •když T1 nebo Tn > Tk → výsledek JE odlehlý a vyloučí se ze souboru dat • •Postup při Q- nebo T-testu: •výsledky daného stanovení se seřadí podle velikosti hodnot → x1 < x2 < x3 < x4 … < xn •otestují se pouze krajní hodnoty souboru dat podle Q- nebo T- testu •pokud ani jedna z krajních hodnot není odlehlá, tak počítáme se všemi hodnotami souboru dat •pokud je alespoň jedna z hodnot odlehlá, vyloučíme ji ze souboru dat a pokračujeme opět krokem 1) • •Př. Ve vzorku multivitaminového přípravku byl pomoci metody AAS stanovován obsah Zn. Opakovaným měřením byly získány tyto obsahy: 164,1 mg/l, 165,0 mg/l, 166,9 mg/l, 157,2 mg/l, 166,9 mg/l, 163,0 mg/l. Výsledky otestujte na odlehlost a vypočtěte průměrnou hodnotu a směrodatnou odchylku měření. • •157,2 mg/l, 163,0 mg/l, 164,1 mg/l, 165,0 mg/l, 166,9 mg/l, 166,9 mg/l •R = 166,9 – 157,2 = 9,7 mg/l • • • • •Q1 = 0,598 > 0,560 (Qk6) …. JE odlehlé •Q6 = 0 < 0,560 (Qk6) …. NENÍ odlehlé • •163,0 mg/l, 164,1 mg/l, 165,0 mg/l, 166,9 mg/l, 166,9 mg/l •R = 166,9 – 163,0 = 3,9 mg/l • •Q1 = 0,282 < 0,642 (Qk5) … NENÍ odlehlé •Q5 = 0 < 0,642 (Qk5) …. NENÍ odlehlé • •X = 165,2 mg/l •s = knR = 0,430 × 3,9 = 1,7 mg/l TEST PRAVDIVOSTI VÝSLEDKU •Lordův a Studentův test •naměřený výsledek se srovnává se správnou hodnotou • •LORDŮV TEST – pro n < 7 • •nalezená hodnot u se srovnává s tabelovanou hodnotou uk •u < uk → výsledek JE pravdivý • •STUDENTŮV TEST – pro n > 7 • •nalezená hodnot t se srovnává s tabelovanou hodnotou tk •t < tk → výsledek JE pravdivý test pravdivosti výsledků – tabelované hodnoty uk a tk 25 Vybraná rozdělení pravděpodobnosti a Kaplan-Meierův odhad funkce přežití Bc. Ondřej Dvorský 26 Schematické vyjádření konceptu náhodné veličiny 27 Spojité a diskrétní náhodné veličiny 28 Statistické metody lNeparametrické - nevyžadují specifikaci konkrétního rozdělení pozorovaných hodnot lParametrické - vyžadují specifikaci 29 Spojitá rozdělení pravděpodobnosti lNormální lRovnoměrně spojité - f(x) na intervalu (a, b) konstantní a mimo tento interval nulová lChí-kvadrát - při konstrukci intervalu spolehlivosti pro rozptyl náhodné veličiny lStudentovo t lLogaritmicko-normální lExponenciální - popisuje délku časových intervalů mezi jednotlivými událostmi, když se tyto události vyskytují vzájemně nezávisle a s konstantní intenzitou lFisherovo F - sestrojení intervalu spolehlivosti pro podíl dvou rozptylů normálního rozdělení; testování hypotézy o rovnosti středních hodnot veličiny X 30 Normální rozdělení lPro veličiny, jejichž hodnoty se symetricky shlukují kolem střední hodnoty a vytvářejí tak charakteristický tvar hustoty pravděpodobnosti, která je známá také pod pojmem Gaussova křivka lParametry μ a σ2 - první z nich představuje střední hodnotu normálního rozdělení a druhý představuje rozptyl normálního rozdělení lX ~ N(μ,σ2). Hustota náhodné veličiny X má tvar: 31 Ukázky hustot náhodných veličin s normálním rozdělením 32 Studentovo t rozdělení – t(k) lCharakterizuje rozdělení pravděpodobnosti průměru jako odhadu střední hodnoty veličiny s normálním rozdělením v případě, že neznáme přesnou hodnotu rozptylu (což je v praktickém životě téměř vždy). Studentovo t rozdělení vzniká jako podíl dvou nezávislych náhodnych veličin, jedné s rozdělením N(0,1) a druhé s rozdělením χ2(k) lPlatí tedy: Počet stupňů volnosti k, ktery přebírá od rozdělení chí-kvadrát 33 Ukázky hustot náhodných veličin s chí-kvadrát rozdělením a Studentovým t rozdělením 34 Logaritmicko-normální rozdělení – lnN(µ,σ2) lNáhodná veličina X má logaritmicko-normální rozdělení právě tehdy, když veličina Y = ln(X) má normální rozdělení. To samé platí i naopak, když veličina Y má normální rozdělení, pak náhodná veličina X = exp(Y) má rozdělení logaritmicko-normální. lHustota je dána vztahem: 35 Ukázka hustot náhodných veličin s log-normálním rozdělením 36 Diskrétní rozdělení pravděpodobnosti lBinomické lPoissonovo 37 Binomické rozdělení – Bi(n,π) lPopisuje počet výskytů sledovaného znaku nebo události (ve formě ano/ne, nastala/nenastala) v sérii n nezávislých experimentů, kdy v každém experimentu máme stejnou pravděpodobnost výskytu daného znaku (události), označenou π. lFunkce má tvar: 38 Pravděpodobnostní funkce náhodné veličiny s binomickým rozdělením pro n=10 39 Poissonovo rozdělení – Po(λ) lPopisuje počet výskytů sledovaného znaku nebo události na danou jednotku času, plochy, případně objemu s tím, že se tyto události vyskytují vzájemně nezávisle a s konstantní intenzitou (tu popisuje jediný parametr tohoto rozdělení, intenzita λ. lPři počtu opakování n→∞;pravděpodobnosti výskytu jednotlivé události π→0 lsoučin nxπ přechází v intenzitu λ lPlatí tedy: 40 Ukázky pravděpodobnostní funkce náhodných veličin s Poissonovým rozdělením 41 Kaplan-Meierův odhad funkce přežití lNeparametrický odhad funkce přežití lAby byl subjekt v čase t bez sledované události (aby se např. pacient s nádorovým onemocněním dožil času t), nesmí se u něj událost vyskytnout v žádném čase takovém, pro nějž platí, že t>t*. Pravděpodobnost přežití daného času můžeme vyjádřit pouze s pomocí údajů o úmrtí v daném čase. Funkci přežití pak můžeme odhadnout pomocí vztahu: kde d je počet sledovaných událostí zaznamenaných v čase a R je počet subjektů v riziku výskytu sledované události v čase 42 Efektivita BNP ve vztahu k celkové mortalitě lBNP - natriuretický peptid typu B l157 osob l4 roky l116 přežilo 43 44 Výsledky lMez BNP - 50 pmol/l lPod – 84 pacientů; 90,5 % lNad – 73 pacientů; 54,3 % lp < 0,0005 Hladina tyroxinu v séru (nmol/l) Mírné symptomy (n1 = 9) Výrazné symptomy (n2 = 7) Průměr 56,4 42,1 Směrodatná odchylka 14,22 37,48 t=testovací kritérium x = průměr výběrového souboru μ = střední hodnota základního souboru s = rozptyl výběrového souboru n = počet členů VS Neparametrické testy pro spojitou náhodnou veličinu •Spojitá náhodná veličina (jakékoli hodnoty v určitém rozmezí) •Nemusíme znát typ rozdělení •Často založené na pořadí hodnot (není potřeba mít přesné hodnoty) •Obecnější ale při srovnání s parametrickými testy mají menší sílu Wilcoxonův test pro jeden výběr •Neparametrická alternativa t-testu •Symetrie rozdělení kolem mediánu •Získané hodnoty jednoho výběru srovnávány se správnou hodnotou •n ≥ 6 • •Př. Denní energetický příjem srovnáván s doporučenou hodnotou 7725 kJ. H0: x = 7725 H1: x ≠ 7725 (x … medián – chybí vlnka) • 1.Diference od hodnoty, se kterou srovnáváme (x1-x0) 2.Určení pořadí absolutních hodnot (stejným hodnotám přiřazujeme průměrnou hodnotu) 3.Součet kladných pořadí, součet záporných pořadí • S+ = 8; S- = 58 -> min (S+ , S- ) = 8 w11 (0,05) = 10 -> 8 < 10 -> zamítám H0 1. Párový Wilcoxonův test •Podobný jako W. test pro jeden výběr •Párová data jsou na sobě závislá (2 měření na jednom subjektu) •Např. stav pacienta před léčbou a po léčbě, míra stisku pravé a levé ruky 1.Dva výběry -> diference mezi párovými hodnotami -> seřadit vzestupně -> pořadí (nulové hodnoty vyřadíme) 2.Postup jako W. test pro jeden výběr • Wilcoxonův test pro dva výběry (Mann-Whitney test) •Obdoba testu shodnosti středních hodnot dvou výběrů (X1, X2) •Ne střední hodnoty ale rozložení funkce -> H0: F(x) = F(y) H1: F(x) ≠ F(y) 1. Prvky z obou souborů seřadit do neklesající posloupnosti -> součet pořadí X1 a X2 (označit T1, T2) 2. Výpočet statistiky: • 3. Menší číslo porovnáváme s kritickou hodnotou (Umin ≤ w(N1, N2; 0,05) -> zamítám H0) •Př. Pole hnojené 2 různými způsoby (výnos v tunách na hektar) X1: 5.7, 5.5, 4.3, 5.9, 5.2, 5.6, 5.8, 5.1 X2: 5.0, 4.5, 4.2, 5.4, 4.4 T1 = 70 U1 = 34 T2 = 21 U2 = 6 -> w(5, 8; 0,05) = 6 -> 6 = 6 -> zamítám H0 • • • • Kruskallův-Wallisův test (neparametrická alternativa ANOVA) •Zobecnění M.-W. testu pro více než 2 srovnávané skupiny • H0: F1(x) = F2(x) = … = Fk(x) H1: nejméně jedna Fi je odlišná od ostatních •Prvky z všech souborů seřadit do neklesající posloupnosti • -> součet pořadí X1, X2, .. Xk (označit T1, T2, .. Tk) •Výpočet statistiky: • •KW > χ2α (k−1) -> zamítám H0 •Pokud jsou shodné hodnoty v pořadí -> průměrné hodnoty pořadí • -> korekční faktor K (p … počet tříd se stejným pořadím, • -> opravný výpočet: KWopr = KW/K ti … počet pořadí v i-té třídě) •Pokud zamítám H0 -> neparametrické metody mnohonásobného porovnávání (Neményiho nebo Dunnova metoda) • • • • Znaménkový test •Zjednodušený Wilcoxonův test pro dva závislé výběry (párový test) •Spojité binomické rozdělení •n ≥ 20 •Často pro orientační hodnocení (sledovanou veličinu nedokážeme přesně změřit) •Př. Účinek jedné terapie nad druhou, výskyt proměnné, pravolevost •3 případy: • A > B …… "+" (terapie A je účinnější než B, A se vyskytlo a B ne) • A < B …… "–" (terapie A je méně účinná než B, B se vyskytlo a A ne) • A = B …… vyřadíme (terapie A je stejně účinná jako B, současný výskyt či nepřítomnost A i B) •Postup: • Vyhodnotit, co je + a - -> sečíst + a – (= m+, m-) -> nižší hodnota porovnána s kritickou • hodnotou-> m ≤ mkrit(n; 0,05) -> zamítám H0 • •Př. Moč 15 pacientů – Furantoin x Penicilin – zkoumáme počet bakterií •1. Rozdíly: 13x – méně bakterií u F než u P -> F < P • 1x – více bakterií u F než u P -> F > P • 1x – nelze rozhodnout -> F = P (vylučujeme) •2. Součet + a -: m- = 13 m+ = 1 -> n = 14 •3. Testovací kritérium: m = min(13, 1) = 1 •4. mkrit(14; 0,05) = 2 -> m < mkrit -> zamítám H0 •5. Prokázán statisticky významný rozdíl (p < 0,05) v účinnosti Furantoinu a Penicilinu na růst bakterií ve vzorcích moči pacientů. • • • Zdroje: •https://portal.matematickabiologie.cz/index.php?pg=aplikovana-analyza-klinickych-a-biologickych-da t--analyza-a-management-dat-pro-zdravotnicke-obory--testovani-hypotez-o-kvantitativnich-promennych •http://ach.upol.cz/user-files/intranet/08-neparametricketesty-2012-1347562623.pdf?fbclid=IwAR1ddEa 32MO4n5ge6LVMwGD6uWVedTpph9E9MLWrapvR1KhtQ8FsMG_JKIc •https://math.feld.cvut.cz/ftp/prucha/ubmi/predn/u15.pdf?fbclid=IwAR2KOU6Rk6ddXL9KbszBQh_NRqxquHEMD 0jMiiCGxbiT2qjUhiZy6nHPVjk •http://www.biostatisticka.cz/wp-content/seminar/Motol-lekce5.pdf •https://www.iba.muni.cz/res/file/ucebnice/pavlik-biostatistika-v2.pdf •https://sms.nipax.cz/_media/planovani_experimentu:ppe_5.pdf •https://wikisofia.cz/wiki/Znam%C3%A9nkov%C3%BD_test •https://cit.vfu.cz/statpotr/POTR/Teorie/Predn4/znamenko.htm Děkujeme za pozornost!