Statistika v biologii a medicíně Soubor matematických postupů spojených se shromažďováním, analýzou a interpretací dat Úplný popis světa je nemožný a navíc značně nepraktický (variabilita dat - statistika je především nástrojem ke zjednodušení) Statistika je nástrojem, který vytváří matematické modely reality, jež mohou mít využití v dalším rozhodování Funguje správně pouze tehdy, jsou-li splněny předpoklady jejích metod Popisná statistika • Celopopulační - práce s daty vztahujícími se k celé zkoumané populaci (např. sčítání lidu, medicínské registry) • Induktivní - závěry získané na podkladě dat ze vzorku cílové populace jsou extrapolovány na celou populaci (nutný reprezentativní výběr) Statistika jako nástroj zpracování dat • „syrová data" - často nepřehledná • Popisná statistika nám zpřehledňuje údaje o souboru jako celku kod Icislo adrenalin noradrenalin hypokineza ERa 397/Pvull ERa 351/Xbal TTCB113 -2013 1 354 3E43 baze CT AG TTCKE14-2013 2 307 2955 apex TT AA TTCKH15-2013 473 ÍÚ7Í apex CT AG TTCAJ16-2013 4 341 2108 apex CT AG TTCCHM17-2013 5 321 2031 apex CC GG TTCCH SIS-2013 6 42 E 1931 apex TT AA TTCRK19-2013 7 508 1753 difuzni TT AA TTCPD20-2013 S 374 1088 difuzni CT AA TTCMJ21-2013 9 597 1798 apex CC GG TTCPO22-2013 10 420 2856 apex CT AG TTWA23-2013 11 367 2(357 apex CT AA TTCNĽ24-2013 12 327 2467 apex CT AG TTCJF25-2013 13 395 3929 apex CC GG TTCZM26-2013 14 344 37ůe apex CT AG TTCHJ27-2013 15 42 E 4225 apex TT AA TTCGT2S-2013 16 2E5 240B apex CT AG TTCSB29-2013 17 295 3186 apex CT AG • Spojitá (vždy kvantitativní) - parametr může teoreticky nabýt jakékoliv hodnoty v určitém intervalu (např. střední arteriální tlak: 0-°°; ejekční frakce: 0-100%) • Poměrová data: je možný poměr i rozdíl mezi dvěma hodnotami (např. tělesná hmotnost) • Intervalová data - lze definovat rozdíl, ale ne poměr mezi dvěma hodnotami (např. IQ) Kategoriální (obvykle kvalitativní) - parametr může nabývat pouze určených hodnot (např. krevní skupina: 0, A, B, AB; pohlaví: muž, žena; choroba je/není přítomna) • Ordinální data - jsou kategoriálního charakteru, ale kvantitativní (lze je seřadit - např. stupeň srdečního selhání-NYHAI-IV) • Diskrétní data - lze je seřadit a tvoří lineárně rostoucí řadu (mezi jednotlivými kategoriemi jsou stejné rozestupy - např. počet dětí v rodině: 0,1,2...) - často se testují jako spojitá data • Binární data - pouze dvě možnosti (zdravý/nemocný) Rozložení spojitých dat - histogramy • Rozložení lze graficky znázornit (např. histogramy) • Obvykle se hodnoty spojitého parametru „shromažďují" kolem určitých čísel 13í.5 149.5 Heights in cm Popis spojitých dat --•oo) normální Log-normální rozložení: po logaritmické transformaci dat získáme Gaussovu křivku (a v jejím vrcholu tzv. „geometrický průměr") - příklad transformace dat Normální (Gaussovo) vs. symetrické rozložení • ne každé symetrické rozložení je normální • nutné splnění několika podmínek • intervalová hustota četností • distribuční funkce • šikmost = 0, špičatost = 0 • transformace dat • převedení na normální rozložení použitím vzorce • Studentovo rozložení je aproximace normálního pro menší vzorky dat "Belt Curve Standard Normal Distribution +3 a ■Mo i-1 l iiiI II i iii l i r Z-Score -4 -3.5 -3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3 3.5 4 K "*> "S*3 "1° 0 +1t> +2t> 0.1% 2.3% 15.9% 50% 84.1% 97.7% I Cumulative_I_I_I_I_I_I_ Percent " I I I T~l I Tl I ^ 1% 5% 10% 20 30 40 50 60 70 80 90% 95% 99% Zápis kategória In ich dat Sumarizace daných kategorií pro popisovaný soubor (frekvenční tabulka) Máme-li u souboru k dispozici více kategoriálních parametrů, můžeme je uspořádat do kontingenční tabulky (a na jejím podkladě event. vykreslit graf) Body Image About Right Overweight Underweight Total Female 560 163 37 760 Gendei Male 295 72 73 440 Total 855 235 110 1200 Right-handed Left-handed Total Males 43 Ö 52 Females 44 4 48 Totals 07 13 100 Cross-classification of Status of Cocaine Users by Treatment Desiprarnine Lithium Placebo Treatment Vyjádření variability kategoriálních dat -příklady • Variační poměr • v = 1 - (fm/N), kde fm = počet případů v nečetnější kategorii, N počet případů celkem • podíl případů mimo nejčetnější kategorii z celkového počtu případů • Shannon-Wienerův index diverzity • Vyjadřuje nejistotu předpovědi, do jaké kategorie bude patřit daný prvek • H' = Pj * In(Pj), kde Pj je procentuální zastoupení kategorie i • Při Pj = 100% je H' = 0; čím vyšší hodnota, tím vyšší diverzita • Oblíbené v ekologii, obvyklé hodnoty: 1,5 - 3,5 Stupeň dosaženého vzdělání představuje data... a(corr), jsou výsledky dalších testů statisticky nevýznamné Alternativně můžeme ponechat a nezměněnou a vytvořit p(corr)-hodnoty vynásobením p-hodnot jmenovateli (dělícími ave výše zmíněných příkladech) Testy pro kategoriální data Z kontingenční tabulky lze spočítat její pravděpodobnost při platnosti H0 (tedy p-hodnotu) i velikost sledovaného efektu - v našem příkladu např. vztah mezi mutací a nemocí (ukazatele RR - relativní riziko; OR - poměr šancí) Někdy je výhodný převod větších tabulek na tabulku 2x2 [lze zejména u ordinálních dat - např. kategorie srdečního selhání NYHA l-IV lze převést na binární data jako lehké selhání (NYHA l+ll) a těžké selhání (NYHA lll+IV)] nemoc zdraví mutace 50 2 ne 4 48 Lze využít i párový design (typicky zdraví a nemocní v čase) Before & After After Before Non-Smoker Smoker Non-Smoker 20 5 Smoker 16 9 Relativní riziko a poměr šancí u tabulek 2x2 WINS oooooo LOSSES Odds = Probability = OOOOOO oooooo Exposure Status Event Occurred Yes No Exposed 3 b Not Exposed C d Relative Risk = Odds Ratio = a/(a+b) c/(c+d} a/b c/d ad cb pravděpodobnost vs. šance RR je vhodné pro prospektivní studie, u OR na designu nezáleží Pokud je závislá (modelovaná) proměnná vždy stejná (např. událost v tabulce vlevo), jsou hodnoty RR (a/(a+b)) a OR (a/b) podobné u nízké incidence jevu a RR je intuitivněji pochopitelné, OR je univerzálnější, oblíbené např. v logistické regresi Vždy je nutno předem určit, která proměnná je nezávislá a která závislá www.statpearls.com Příklady testů pro kategoriální data Kontingenční tabulky Více kategorií/více měření t 2x2 Párový McNemarův test Cochranův Qtest (více měření, binární data) Znaménkový test (dvě měření, ordinální data) Nepárový Chi-kvadrát (x2) test Fisher exact test Chi-kvadrát (x2) test * Cochran-Armitage test (tabulky 3x2, ordinální data) * předpokládá jisté minimální četnosti v každém poli kontingenční tabulky (cca n > 5) t při vyloučení H0 nutno doplnit testy pro 2x2 tabulky s korekcí při mnohonásobném srovnání Příklad Cílem studie bylo testování vztahu mezi krevní skupinou v ABO systému (A, B, AB a 0) a přítomností akutních komplikací krevní transfúze. Kolik polí má příslušná kontingenční tabulka? Ranking Response Votes Correct Answer 1 2 3 4 Others Příklad V předchozím případě bylo při testování X2 testem zjištěno p < 0.05 a následovala série post hoc testů pro tabulky 2x2 „každý s každým". V jednom z nich byl zjištěn vyšší výskyt komplikací u pacientů s krevní skupinou AB oproti skupině A, p = 0,05 (5 %). Jak se p-hodnota změní po Bonferroniho korekci (korigujeme zde p, ne a)? Výsledek uveďte v celých procentech (přirozené číslo), případně na ně zaokrouhlete. Ranking Response Votes Correct Answer 1 2 3 4 Others Regresní modely „Regrese k průměru" (Francis Galton) - ale metody již Friedrich Gauss Cílem je odhadnout hodnotu modelované veličiny (závislá proměnná = regresand) pomocí jiných známých parametrů (faktorů = regresorů -kategoriální a spojité proměnné) Lze odhadnout míru přispění jednotlivých faktorů samostatně (univariační modely) i společně ve vzájemné interakci (multivariační modely) Pro každý faktor lze určit velikost efektu s intervaly spolehlivosti (konfidenční intervaly, většinou 95 %, tj. kde se hodnota s 95 % spolehlivostí nachází) Předpoklad: faktory jsou nezávislé Nejčastěji • Lineární regrese (závislá proměnná je spojitá - např. glykémie nalačno) • Logistická regrese (závislá proměnná je binární- např. nemoc) • Coxova regrese (závislou proměnnou je přežití - endpoint a čas přežití) Vyjádření příspěvku jednotlivých faktorů • Lineární regrese - regresní koeficient 3 (standardizovaný, nestandardizovaný) a 95% interval spolehlivosti (Cl) • Na rozdíl od korelace záleží na tom, která proměnná je závislá a která nezávislá • Je-li regresor kategoriální, jedná se fakticky o ANOVu • Logistická regrese - OR a 95% interval spolehlivosti • Coxova regrese - poměr rizik (HR) a 95% interval spolehlivosti Interpretace regresních modelů • Zahrnuje-li 3 ± 95% Cl hodnotu 0, není příspěvek daného faktoru statisticky významný (tj. nelze rozhodnout, jestli výslednou hodnotu zvyšuje nebo snižuje) • U OR a HR platí totéž, zahrnuje-li 95% Cl hodnotu 1 (pod 1 snižuje pravděpodobnost události, nad 1 zvyšuje) • 95% Cl tak můžou nahradit p-hodnotu • Je-li nezávislá proměnná kategoriální, je nutno jednu kategorii určit jako referenční a regresní koeficienty / OR / H R patří zvlášť každé další kategorii • Je-li nezávislá proměnná spojitá, odpovídá vždy 3 / OR / HR 1 jednotce (např. 1 roku věku) - předpokládá se lineární efekt (jinak lepší kategorizace) Vyberte správné tvrzení V průřezové studii v populaci 700 hospitalizovaných pacientů mezi 80 - 90 lety byly u 40 % zjištěny známky kognitivní dysfunkce. Asociace s kandidátními rizikovými faktory (věk, hypertenze, diabetes) byla hodnocena univariační logistickou regresí. Přítomnost kognitivní dysfunkce byla postupně asociována s: věkem (pro každý další rok OR = 1.20; 95 % Cl = 1.12 - 1.40), hypertenzí (OR 1.40; 95 % Cl 1.20 - 1.78) i diabetem (OR 2.80; 95 % Cl 2.00 - 6.40) 1111 A. faktor věku není pro kognitivní dysfunkci statisticky významný B. Pravděpodobnost vzniku kognitivní dysfunkce je dvakrát větší u diabetiků než u hypertoniků C. Věk, diabetes i hypertenze jsou navzájem nezávislé rizikové faktory D. Testujeme-li statistickou významnost asociace, je p-hodnota ve všech případech < 0.05 E. Můžeme usoudit, že jednotlivé faktory vedou ke kognitivní dysfunkci Co s ordinálními daty? • Testy pro kategoriální data, ANOVA (ale: ignorujeme seřazení) • Neparametrické testy (je-li hodně kategorií) • Dichotomizace a testy pro binární data (v medicíně asi nejčastěji) • Speciální testy-Cochran-Armitage (typicky genetika), znaménkový test (ale: ignoruje hodnoty, kde nedošlo ke změně) Analýza přežití • Soubor metod sledujících výskyt události (koncový bod, endpoint) při obvykle klesajícím počtu účastníků studie („přeživší") • Co je sledováno: • Endpoint • Vyskytne se pouze jednou (pokud vícekrát, pak je obvykle hodnocen první výskyt) • Cenzorovaná data • před koncem studie nedošlo k události • ztraceni ze studie • úmrtí z jiné příčiny • Čas setrvání ve studii (čas přežití) Metody analýzy Úmrtnostní tabulky Kaplan-Meierovy křivky Log rank test Gehan-Wilcoxonův test Coxova regrese Kaplan-Meierova křivka přežití O) > ■> &_ 3 W o o Q. O 5 E O 0,1 i—i Survival Function o Complete + Censored 50 100 150 200 250 Survival Time [months] 300 350 400 1,0 - D) > > CO c o ť o Q. O > ■-4-> E O 0,9 - 0,8 - 0,7 - 0,6 - 0,5 0 Cumulative Proportion Surviving (Kaplan-Meier) o Complete + Censored No atherosclerosis vs. insignificant atheroscleros s: p = 6. 10"3 c ô-....... j. G ó---! O-. ©i o-- i ■1 1 O, No at ľ lerosclen o-DSÍS VS. ( o- + DAD: p = 2.10"5 ô 1 o. k i _I insignii ficant atherosclerosis vs. c ;ad: p = NS Testy přežití log-rank test Gehan-Wilcoxonův test 6 8 10 Time [years] 12 14 16 18 - CAD ...... Insignificant atherosclerosis — No atherosclerosis Vyberte správnou odpověď... Do studie, zabývající se rizikem recidívy infarktu myokardu (endpoint), se přihlásili čtyři pacienti. V následujících letech postupně došlo k následujícímu vývoji: jeden pacient se odstěhoval do Argentiny a ztratil se tak ze studie, poté jeden dostal infarkt a příští měsíc zemřel při autonehodě, následně jeden zemřel na nádor plic a poslední se ve zdraví dožil konce studie. Poslední bod Kaplan-Meierovy křivky je na hodnotě: 11111 Shluková (clusterová) analýza • vícerozměrná analýza (1 parametr = 1 rozměr) • měření vzdálenosti • řadící algoritmus • nutná standardizace dat ke společnému zhodnocení různých parametrů (sjednocení stupnic: všechny parametry jsou vyjádřené v jednotkách a jejich rozložení-tzv. z-skóre; průměr = 0) • k means clustering (předem známý počet clusterů) • hierarchický strom (dendrogram) Vyberte správnou odpověď Na opuštěný ostrov se dostanou antropologové, kteří zde objeví neznámé lebky. Pomocí shlukové (clusterové) analýzy je budou chtít přiřadit k některé z okolních žijících populací. Vedle genetických markerů stanoví i kraniální index (v procentech, průměr = 85, sm. odch. = 10), faciální index (v procentech, průměr = 80, sm. odch. = 5) a objem mozkovny (v cm3, průměr = 1500, sm. odch. = 200). Co se stane, nebudou-li data před analýzou standardizována? 11111 A. Nic, standardizace se používá pro přehlednost. B. Objem mozkovny nebude z hlediska analýzy relevantní. C Clusterová analýza nebude technicky možná. D. Zařazení do clusteru bude záviset především na objemu mozkovny. E. Vzroste vzájemná korelace kraniálního a faciálního indexu. A B C D E