Statistika v biologii a medicíně Soubor matematických postupů spojených se shromažďováním, analýzou a interpretací dat Úplný popis světa je nemožný a navíc značně nepraktický (variabilita dat - statistika je především nástrojem ke zjednodušení) Statistika je nástrojem, který vytváří matematické modely reality, jež mohou mít využití v dalším rozhodování Funguje správně pouze tehdy, jsou-li splněny předpoklady jejích metod Popisná statistika • Celopopulační - práce s daty vztahujícími se k celé zkoumané populaci (např. sčítání lidu, medicínské registry) • Induktivní - závěry získané na podkladě dat ze vzorku cílové populace jsou extrapolovány na celou populaci (nutný reprezentativní výběr) Statistika jako nástroj zpracování dat • „syrová data" - často nepřehledná • Popisná statistika nám zpřehledňuje údaje o souboru jako celku kod Icislo adrenalin noradrenalin hypokineza ERa 397/Pvull ERa 351/Xbal TTCB113 -2013 1 354 3E43 baze CT AG TTCKE14-2013 2 307 2955 apex TT AA TTCKH15-2013 473 ÍÚ7Í apex CT AG TTCAJ16-2013 4 341 2108 apex CT AG TTCCHM17-2013 5 321 2031 apex CC GG TTCCH SIS-2013 6 42 E 1931 apex TT AA TTCRK19-2013 7 508 1753 difuzni TT AA TTCPD20-2013 S 374 1088 difuzni CT AA TTCMJ21-2013 9 597 1798 apex CC GG TTCPO22-2013 10 420 2856 apex CT AG TTWA23-2013 11 367 2(357 apex CT AA TTCNĽ24-2013 12 327 2467 apex CT AG TTCJF25-2013 13 395 3929 apex CC GG TTCZM26-2013 14 344 37ůe apex CT AG TTCHJ27-2013 15 42 E 4225 apex TT AA TTCGT2S-2013 16 2E5 240B apex CT AG TTCSB29-2013 17 295 3186 apex CT AG • Spojitá (vždy kvantitativní) - parametr může teoreticky nabýt jakékoliv hodnoty v určitém intervalu (např. střední arteriální tlak: 0-°°; ejekční frakce: 0-100%) • Poměrová data: je možný poměr i rozdíl mezi dvěma hodnotami (např. tělesná hmotnost) • Intervalová data - lze definovat rozdíl, ale ne poměr mezi dvěma hodnotami (např. IQ) Kategoriální (obvykle kvalitativní) - parametr může nabývat pouze určených hodnot (např. krevní skupina: 0, A, B, AB; pohlaví: muž, žena; choroba je/není přítomna) • Ordinální data - jsou kategoriálního charakteru, ale kvantitativní (lze je seřadit - např. stupeň srdečního selhání-NYHAI-IV) • Diskrétní data - lze je seřadit a tvoří lineárně rostoucí řadu (mezi jednotlivými kategoriemi jsou stejné rozestupy - např. počet dětí v rodině: 0,1,2...) - často se testují jako spojitá data • Binární data - pouze dvě možnosti (zdravý/nemocný) Rozložení spojitých dat - histogramy • Rozložení lze graficky znázornit (např. histogramy) • Obvykle se hodnoty spojitého parametru „shromažďují" kolem určitých čísel 13í.5 149.5 Heights in cm Popis spojitých dat --•oo) normální Log-normální rozložení: po logaritmické transformaci dat získáme Gaussovu křivku (a v jejím vrcholu tzv. „geometrický průměr") - příklad transformace dat Normální (Gaussovo) vs. symetrické rozložení • ne každé symetrické rozložení je normální • nutné splnění několika podmínek • intervalová hustota četností • distribuční funkce • šikmost = 0, špičatost = 0 • transformace dat • převedení na normální rozložení použitím vzorce • Studentovo rozložení je aproximace normálního pro menší vzorky dat "Belt Curve Standard Normal Distribution +3 a ■Mo i-1 l iiiI II i iii l i r Z-Score -4 -3.5 -3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3 3.5 4 K "*> "S*3 "1° 0 +1t> +2t> 0.1% 2.3% 15.9% 50% 84.1% 97.7% I Cumulative_I_I_I_I_I_I_ Percent " I I I T~l I Tl I ^ 1% 5% 10% 20 30 40 50 60 70 80 90% 95% 99% Zápis kategória In ich dat Sumarizace daných kategorií pro popisovaný soubor (frekvenční tabulka) Máme-li u souboru k dispozici více kategoriálních parametrů, můžeme je uspořádat do kontingenční tabulky (a na jejím podkladě event. vykreslit graf) Body Image About Right Overweight Underweight Total Female 560 163 37 760 Gendei Male 295 72 73 440 Total 855 235 110 1200 Right-handed Left-handed Total Males 43 Ö 52 Females 44 4 48 Totals 07 13 100 Cross-classification of Status of Cocaine Users by Treatment Desiprarnine Lithium Placebo Treatment Vyjádření variability kategoriálních dat -příklady • Variační poměr • v = 1 - (fm/N), kde fm = počet případů v nečetnější kategorii, N počet případů celkem • podíl případů mimo nejčetnější kategorii z celkového počtu případů • Shannon-Wienerův index diverzity • Vyjadřuje nejistotu předpovědi, do jaké kategorie bude patřit daný prvek • H' = Pj * In(Pj), kde Pj je procentuální zastoupení kategorie i • Při Pj = 100% je H' = 0; čím vyšší hodnota, tím vyšší diverzita • Oblíbené v ekologii, obvyklé hodnoty: 1,5 - 3,5 Stupeň dosaženého vzdělání představuje data... / A. Ordinální B. Intervalová C. Binární D. Spojitá E. Kvalitativní 0 0 0 0 0 A ~B~ ~C~ D ~E Formulace statistických hypotéz Výzkumná hypotéza (např. léčivo A má lepší efekt než léčivo B, krevní tlak při zavedené léčbě klesá, existuje vztah mezi pohlavím a tělesnou výškou atd...) - lze formulovat jak pro experiment, tak i v rámci pozorování Statistické testování výzkumné hypotézy-vpodstatě důkaz sporem Pro účely testování definujeme nulovou hypotézu H0 (tj. např. mezi skupinami není rozdíl v průměrech, není rozdíl v rozptylech, mezi dvěma parametry není vztah, parametr se v čase nemění...resp. rozdíly jsou dány náhodou) Tuto nulovou hypotézu se snažíme vyvrátit (resp. prokázat, že je vysoce nepravděpodobná) V případě neplatnosti nulové hypotézy platí její negace - alternativní hypotéza HA Výsledek testu hypotéz tedy zní: • A) nezamítnutí nulové hypotézy (na určité hladině statistické významnosti a) • B) zamítnutí nulové hypotézy ve prospěch alternativní Chyby v testování hypotéz Skutečná povaha nulové hypotézy Statistické rozhodnutí H0 platí H0 neplatí Zamítnutí H0 chyba I. typu (a) = falešně poz. Správně (1-p) = správně poz. Potvrzení H0 Správně (1-a) = správně neg. chyba II. typu (P) = falešně neg. Pravděpodobnost chyby I. typu (a) - také hladina statistické významnosti a se definuje již před testováním - v biomedicíně je zvykem obvykle 0,05 (tj. pokud je H0 zamítnuta, pak si můžeme být na 95% jisti, že skutečně neplatí a pozorovaný rozdíl/vztah je skutečný; 1-a = specificita statistického testu l-(3 - také sila testu (vlastně senzitivita statistického testu) P-hodnota - pravděpodobnost, že jsme pozorovaný výsledek získali při platnosti nulové hypotézy Je-li p < a, zamítáme na dané hladině významnosti nulovou hypotézu a platí tedy hypotéza alternativní Říkáme, že rozdíl (efekt) je statisticky signifikantní (což samozrejme nemusí znamenat, že je signifikantní - významný - i prakticky; to závisí i na sile) •„P-hodnota „nedokazuje'' nic. Je to jednoduše způsob, jak využít překvapení jako základ pro rozumná rozhodnutí." Cassie Kozyrkovová Statistické testy • Pro různé druhy statistických hypotéz používáme různé statistické testy • Použití jednotlivých testů se řídí: • počtem srovnávaných skupin • charakterem dat (kategoriální vs. spojitá) • rozložením dat • vzájemnou závislostí dat Síla testu... A. Je vyjádřením jeho praktické (ne statistické) významnosti B. Roste se zvětšující se variabilitou dat C. Udává schopnost testu oprávněně zamítnout nulovou hypotézu D. Se značí písmenem p E. Je pravděpodobnost, že při zamítnutí nulové hypotézy bude platit hypotéza alternativní Vzájemné vztahy parametrů u jednoho výběru • Vztah dvou spojitých proměnných - korelace • Vyjádřením je korelační koeficient (r) • r obecně vyjadřuje míru závislosti obou proměnných • Může dosahovat hodnot od -1 do 1, kde 0 značí žádnou závislost, 1 značí 100% kladnou závislost (s jedním faktorem stoupá druhý) a -1 naprostou zápornou závislost • Pozor -některé nelineární vztahy se do korelačního koeficientu nemusí promítnout! r = 0.0 r= 0.0 -1.0 r= 1.0 r= 0.4 r= -0.3 r= -0.8 r= 0.8 Vztahy kategoriálních proměnných - viz srovnávání více výběrů (jednotlivé výběry jsou vpodstatě kategoriálními proměnnými definovány) Příklady korelačních koeficientů Pearsonův koeficient (parametrický) - hodnotí lineární závislost mezi proměnnými • Hlavní podmínkou je přibližně normální rozložení dat Spearmanův koeficient (neparametrický) - hodnotí závislost v pořadí hodnot obou proměnných Ani jeden z koeficientů ovšem neodhalí závislost např. u křivky ve tvaru U Mimo korelačního koeficientu lze určit i odpovídající p-hodnotu (čili pravděpodobnost, že je pozorovaná korelace dána náhodou) Porovnávání spojité proměnné u dvou a více výběrů H0 - mezi oběma výběry není rozdíl v hodnotě spojité proměnné (resp. je dán náhodou - např. koncentrace glykovaného hemoglobinu u léčených a neléčených diabetiků se neliší) Obecně lze testovat shodu polohy (častěji, viz dále) nebo variability (např. F-test, Levenůvtest) Equal Means Unequal V Variances 1 Unequal Means Equal Variances rx Parametrické vs. neparametrické testy Parametrické • Pracují s hodnotami • Mají vyšší sílu, ale pouze za splnění předpokladů (hl. normální rozložení dat v každém výběru) • Není-li rozložení dat normální, můžeme se pokusit je transformovat (normalizovat) Neparametrické • Pracují s pořadím hodnot • Síla je poněkud nižší (ovšem u velkých souborů se rozdíl stírá) • Jsou „robustnější" - nejsou na rozložení dat tolik závislé • Lze je použít i u diskrétních dat Normalitu je možno testovat testy normality (např. Kolmogorov-Smirnov, Shapiro-Wilks - porovnávají skutečné rozložení s normálním) a „okometrickým" zhodnocením, zda histogramy odpovídají Gaussově křivce, u malých souborů vhodnější normál probability plot Párové vs. n e párové testy Párové • Používané tehdy, když každé hodnotě z výběru A můžeme přiřadit hodnotu z výběru B, která se liší právě jen příslušností k výběru (např. platy v nemocnici: ředitel A - ředitel B; primář A - primář B... až uklízečka A -uklízečka B) • Nejčastěji pro vývoj souboru v čase (hmotnost pacientů teď a po 5 letech: pacient XY teď je stejná osoba jako po 5 letech, stejně jako další pacienti - výběry se liší pouze časovým údajem) • Hodnotí rozdíly mezi oběma výběry (nebo jejich pořadí) Nepárové • Používané u na sobě nezávislých skupin (mohou být i různě velké) • Porovnávají skutečné hodnoty proměnných (nebo jejich pořadí) mezi skupinami • O párovém či nepárovém designu je třeba rozhodnout už před začátkem studie (párování je organizačně náročné, ale párové testy mají vyšší sílu) Jednostranné vs. oboustranné testy Jednostranné (one-tailed) • H0 je postavena asymetricky, např. léčivo A není lepší než léčivo B - ale už nás nezajímá, jestli je nebo není horší • Mají větší sílu Oboustranné (two-tailed) • H0 je symetrická: není rozdíl mezi léčivem A a léčivem B (tj. A není ani lepší, ani horší než B) • Odhalují tedy odchylky na obě strany • Obvykle vhodnější - a priori nevíme, jak pokus dopadne, a zajímají nás oba možné efekty Příklady testů pro spojitá data - 2 výběry Test parametrický neparametrický Párový Párový (závislý) Studentův t-test Wilcoxonův párový test Znaménkový test Nepárový Nepárový (nezávislý) Studentův t-test Mann-Whitneyův U-test * Kolmogorov-Smirnovův test • * má téměř stejnou sílu, jako t-test, ale předpokládá alespoň přibližně podobnou variabilitu obou výběrů (stejně jako t-test) Příklady testů pro spojitá data - více výběrů Test parametrický neparametrický Párový ANOVA (analýza rozptylu) pro opakovaná měření Friedmanův test („ANOVA") Nepárový Jednocestná ANOVA (a její varianty) Kruskal-Wallisův test („ANOVA") • Vyloučí-li ANOVA H0/ je třeba se ptát, rnezi kterými konkrétními výběry je rozdíl -post hoc testy Vyberte nejvhodnější test V rámci studie dostávají pacienti nový lék proti epilepsii nebo placebo. Studie je randomizovaná (lék je náhodně losován). Zařazeni jsou pacienti, kteří mají nejméně jeden a nejvýše deset záchvatů za tři měsíce. Hodnoceným parametrem je počet epileptických záchvatů v prvním roce. A. Párový t-test B. N e párový t-test v/ C. Mann-Whitney U-test D. Znaménkový test E. ANOVA pro opakovaná měření ANOVA • Analýza rozptylu • Testuje nulovou hypotézu u více než dvou vzorků • Předpoklady: normální rozložení, shoda rozptylů • Nutnost dalších analýz pro zjištění, které vzorky se Neparametrická „ANOVA • Kruskal-Wallisův test (nepárový) • Friedmanův test (párový) Problém mnohonásobného srovnání Provedeme-li více testů najednou, zvyšuje se pravděpodobnost, že některý z nich dá signifikantní výsledek pouze díky náhodě (tj. chyba I. typu - neoprávněné zamítnutí H0) - problém zejm. při post hoc testech u ANOVA Např. při deseti testech a a = 0,05 je pravděpodobnost, že při platnosti H0 ani jeden test nedá signifikantní výsledek rovna (1-a)10 =60%, tj. ve 40% dojde k neoprávněnému zamítnutí H0. Proto různými korekcemi (Bonferroni, Benjamini-Hochberg...) hladinu a snižujeme (a tedy zpřísňujeme kritéria pro zamítnutí H0). Bonferroniho korekce: původní a se dělí počtem testů (nebo jsou p-hodnoty testů násobené počtem testů při nezměněné a). • velmi „konzervativní". Post hoc testy u ANOVA • každý s každým („fotbalové zápasy'') • Bonferroniho korekce a / [n (n -1) / 2] • Tukey, Scheffé (ANOVA) • Dunn (Kruskal-Wallis) • Neményi (Friedman) • s kontrolní skupinou • Bonferroniho korekce a / (n - 1) • A priori nás nezajímá srovnání dalších skupin mezi sebou • Dunnett (ANOVA) • Dunnett rank sum (neparametrické testy) Manuální" korekce na mnohonásobné srovnání Tam, kde neexistují standardizované post hoc testy jako součást statistického software • např. genetické testy - parametr u řady kandidátních polymorfismů, srovnání kategoriálních dat u více skupin Bonferroni: a se vydělí počtem testů (k) Bonferroni-Holm: každý test má jinou a-hodnotu. U testu s nejmenší p-hodnotou je a(corr) rovna a/k, u druhého a/(k-l), u třetího a/(k-2)... až u posledního je rovna a Benjamini-Hochberg (FDR): každý test má jinou a-hodnotu. U testu s nejmenší p-hodnotou je a(corr) rovna a/k, u druhého a/(k/2), u třetího a/(k/3)... až u posledního je rovna a Narazíme-li na p > a(corr), jsou výsledky dalších testů statisticky nevýznamné Alternativně můžeme ponechat a nezměněnou a vytvořit p(corr)-hodnoty vynásobením p-hodnot jmenovateli (dělícími ave výše zmíněných příkladech) Testy pro kategoriální data Z kontingenční tabulky lze spočítat její pravděpodobnost při platnosti H0 (tedy p-hodnotu) i velikost sledovaného efektu - v našem příkladu např. vztah mezi mutací a nemocí (ukazatele RR - relativní riziko; OR - poměr šancí) Někdy je výhodný převod větších tabulek na tabulku 2x2 [lze zejména u ordinálních dat - např. kategorie srdečního selhání NYHA l-IV lze převést na binární data jako lehké selhání (NYHA l+ll) a těžké selhání (NYHA lll+IV)] nemoc zdraví mutace 50 2 ne 4 48 Lze využít i párový design (typicky zdraví a nemocní v čase) Before & After After Before Non-Smoker Smoker Non-Smoker 20 5 Smoker 16 9 Relativní riziko a poměr šancí u tabulek 2x2 WINS oooooo LOSSES Odds = Probability = OOOOOO oooooo Exposure Status Event Occurred Yes No Exposed 3 b Not Exposed C d Relative Risk = Odds Ratio = a/(a+b) c/(c+d} a/b c/d ad cb pravděpodobnost vs. šance RR je vhodné pro prospektivní studie, u OR na designu nezáleží Pokud je závislá (modelovaná) proměnná vždy stejná (např. událost v tabulce vlevo), jsou hodnoty RR (a/(a+b)) a OR (a/b) podobné u nízké incidence jevu a RR je intuitivněji pochopitelné, OR je univerzálnější, oblíbené např. v logistické regresi Vždy je nutno předem určit, která proměnná je nezávislá a která závislá www.statpearls.com Příklady testů pro kategoriální data Kontingenční tabulky Více kategorií/více měření t 2x2 Párový McNemarův test Cochranův Qtest (více měření, binární data) Znaménkový test (dvě měření, ordinální data) Nepárový Chi-kvadrát (x2) test Fisher exact test Chi-kvadrát (x2) test * Cochran-Armitage test (tabulky 3x2, ordinální data) * předpokládá jisté minimální četnosti v každém poli kontingenční tabulky (cca n > 5) t při vyloučení H0 nutno doplnit testy pro 2x2 tabulky s korekcí při mnohonásobném srovnání Příklad Cílem studie bylo testování vztahu mezi krevní skupinou v ABO systému (A, B, AB a 0) a přítomností akutních komplikací krevní transfúze. Kolik polí má příslušná kontingenční tabulka? Ranking Response Votes Correct Answer 1 2 3 4 Others Příklad V předchozím případě bylo při testování X2 testem zjištěno p < 0.05 a následovala série post hoc testů pro tabulky 2x2 „každý s každým". V jednom z nich byl zjištěn vyšší výskyt komplikací u pacientů s krevní skupinou AB oproti skupině A, p = 0,05 (5 %). Jak se p-hodnota změní po Bonferroniho korekci (korigujeme zde p, ne a)? Výsledek uveďte v celých procentech (přirozené číslo), případně na ně zaokrouhlete. Ranking Response Votes Correct Answer 1 2 3 4 Others Regresní modely „Regrese k průměru" (Francis Galton) - ale metody již Friedrich Gauss Cílem je odhadnout hodnotu modelované veličiny (závislá proměnná = regresand) pomocí jiných známých parametrů (faktorů = regresorů -kategoriální a spojité proměnné) Lze odhadnout míru přispění jednotlivých faktorů samostatně (univariační modely) i společně ve vzájemné interakci (multivariační modely) Pro každý faktor lze určit velikost efektu s intervaly spolehlivosti (konfidenční intervaly, většinou 95 %, tj. kde se hodnota s 95 % spolehlivostí nachází) Předpoklad: faktory jsou nezávislé Nejčastěji • Lineární regrese (závislá proměnná je spojitá - např. glykémie nalačno) • Logistická regrese (závislá proměnná je binární- např. nemoc) • Coxova regrese (závislou proměnnou je přežití - endpoint a čas přežití) Vyjádření příspěvku jednotlivých faktorů • Lineární regrese - regresní koeficient 3 (standardizovaný, nestandardizovaný) a 95% interval spolehlivosti (Cl) • Na rozdíl od korelace záleží na tom, která proměnná je závislá a která nezávislá • Je-li regresor kategoriální, jedná se fakticky o ANOVu • Logistická regrese - OR a 95% interval spolehlivosti • Coxova regrese - poměr rizik (HR) a 95% interval spolehlivosti Interpretace regresních modelů • Zahrnuje-li 3 ± 95% Cl hodnotu 0, není příspěvek daného faktoru statisticky významný (tj. nelze rozhodnout, jestli výslednou hodnotu zvyšuje nebo snižuje) • U OR a HR platí totéž, zahrnuje-li 95% Cl hodnotu 1 (pod 1 snižuje pravděpodobnost události, nad 1 zvyšuje) • 95% Cl tak můžou nahradit p-hodnotu • Je-li nezávislá proměnná kategoriální, je nutno jednu kategorii určit jako referenční a regresní koeficienty / OR / H R patří zvlášť každé další kategorii • Je-li nezávislá proměnná spojitá, odpovídá vždy 3 / OR / HR 1 jednotce (např. 1 roku věku) - předpokládá se lineární efekt (jinak lepší kategorizace) Vyberte správné tvrzení V průřezové studii v populaci 700 hospitalizovaných pacientů mezi 80 - 90 lety byly u 40 % zjištěny známky kognitivní dysfunkce. Asociace s kandidátními rizikovými faktory (věk, hypertenze, diabetes) byla hodnocena univariační logistickou regresí. Přítomnost kognitivní dysfunkce byla postupně asociována s: věkem (pro každý další rok OR = 1.20; 95 % Cl = 1.12 - 1.40), hypertenzí (OR 1.40; 95 % Cl 1.20 - 1.78) i diabetem (OR 2.80; 95 % Cl 2.00 - 6.40) 11111 A. faktor věku není pro kognitivní dysfunkci statisticky významný B. Pravděpodobnost vzniku kognitivní dysfunkce je dvakrát větší u diabetiků než u hypertoniků C. Věk, diabetes i hypertenze jsou navzájem nezávislé rizikové faktory D. Testujeme-li statistickou významnost asociace, je p-hodnota ve všech případech < 0.05 E. Můžeme usoudit, že jednotlivé faktory vedou ke kognitivní dysfunkci Co s ordinálními daty? • Testy pro kategoriální data, ANOVA (ale: ignorujeme seřazení) • Neparametrické testy (je-li hodně kategorií) • Dichotomizace a testy pro binární data (v medicíně asi nejčastěji) • Speciální testy-Cochran-Armitage (typicky genetika), znaménkový test (ale: ignoruje hodnoty, kde nedošlo ke změně) Analýza přežití • Soubor metod sledujících výskyt události (koncový bod, endpoint) při obvykle klesajícím počtu účastníků studie („přeživší") • Co je sledováno: • Endpoint • Vyskytne se pouze jednou (pokud vícekrát, pak je obvykle hodnocen první výskyt) • Cenzorovaná data • před koncem studie nedošlo k události • ztraceni ze studie • úmrtí z jiné příčiny • Čas setrvání ve studii (čas přežití) Metody analýzy Úmrtnostní tabulky Kaplan-Meierovy křivky Log rank test Gehan-Wilcoxonův test Coxova regrese Kaplan-Meierova křivka přežití O) > ■> &_ 3 W o o Q. O 5 E O 0,1 i—i Survival Function o Complete + Censored 50 100 150 200 250 Survival Time [months] 300 350 400 1,0 - D) > > CO c o ť o Q. O > E O 0,9 - 0,8 - 0,7 - 0,6 - 0,5 0 Cumulative Proportion Surviving (Kaplan-Meier) o Complete + Censored No atherosclerosis vs. insignificant atheroscleros s: p = 6. 10"3 c ô-....... j. G ó---! O-. ©i o-- i ■1 1 O, No at ľ lerosclen o-DSÍS VS. ( o- + DAD: p = 2.10"5 ô 1 o. k i _I insignii ficant atherosclerosis vs. c ;ad: p = NS Testy přežití log-rank test Gehan-Wilcoxonův test 6 8 10 Time [years] 12 14 16 18 - CAD ...... Insignificant atherosclerosis — No atherosclerosis Vyberte správnou odpověď... Do studie, zabývající se rizikem recidívy infarktu myokardu (endpoint), se přihlásili čtyři pacienti. V následujících letech postupně došlo k následujícímu vývoji: jeden pacient se odstěhoval do Argentiny a ztratil se tak ze studie, poté jeden dostal infarkt a příští měsíc zemřel při autonehodě, následně jeden zemřel na nádor plic a poslední se ve zdraví dožil konce studie. Poslední bod Kaplan-Meierovy křivky je na hodnotě: 1111 v A. 66,6% B. 50% C. 33,3% D. 25% E. 0% Shluková (clusterová) analýza • vícerozměrná analýza (1 parametr = 1 rozměr) • měření vzdálenosti • řadící algoritmus • nutná standardizace dat ke společnému zhodnocení různých parametrů (sjednocení stupnic: všechny parametry jsou vyjádřené v jednotkách o jejich rozložení-tzv. z-skóre; průměr = 0) • k means clustering (předem známý počet clusterů) • hierarchický strom (dendrogram) Vyberte správnou odpověď... Na opuštěný ostrov se dostanou antropologové, kteří zde objeví neznámé lebky. Pomocí shlukové (clusterové) analýzy je budou chtít přiřadit k některé z okolních žijících populací. Vedle genetických markerů stanoví i kraniální index (v procentech, průměr = 85, sm. odch. = 10), faciální index (v procentech, průměr = 80, sm. odch. = 5) a objem mozkovny (v cm3, průměr = 1500, sm. odch. = 200). Co se stane, nebudou-li data před analýzou standardizována? 11111 A. Nic, standardizace se používá pro přehlednost. B. Objem mozkovny nebude z hlediska analýzy relevantní. C. Clusterová analýza nebude technicky možná. D. Zařazení do clusteru bude záviset především na objemu mozkovny. E. Vzroste vzájemná korelace kraniálního a faciálního indexu. A B C D E