Statistika v biologii a medicíně
Soubor matematických postupů spojených se shromažďováním, analýzou a interpretací dat
Úplný popis světa je nemožný a navíc značně nepraktický (variabilita dat - statistika je především nástrojem ke zjednodušení)
Statistika je nástrojem, který vytváří matematické modely reality, jež mohou mít využití v dalším rozhodování
Funguje správně pouze tehdy, jsou-li splněny předpoklady jejích metod
Popisná statistika
• Celopopulační - práce s daty vztahujícími se k celé zkoumané populaci (např. sčítání lidu, medicínské registry)
• Induktivní - závěry získané na podkladě dat ze vzorku cílové populace jsou extrapolovány na celou populaci (nutný reprezentativní výběr)
Statistika jako nástroj zpracování dat
• „syrová data" - často nepřehledná
• Popisná statistika nám zpřehledňuje údaje o souboru jako celku
kod	Icislo		adrenalin	noradrenalin	hypokineza	ERa 397/Pvull	ERa 351/Xbal
TTCB113 -2013		1 354		3E43	baze	CT	AG
TTCKE14-2013		2 307		2955	apex	TT	AA
TTCKH15-2013			473	ÍÚ7Í	apex	CT	AG
TTCAJ16-2013		4	341	2108	apex	CT	AG
TTCCHM17-2013		5	321	2031	apex	CC	GG
TTCCH SIS-2013		6	42 E	1931	apex	TT	AA
TTCRK19-2013		7	508	1753	difuzni	TT	AA
TTCPD20-2013		S	374	1088	difuzni	CT	AA
TTCMJ21-2013		9	597	1798	apex	CC	GG
TTCPO22-2013		10	420	2856	apex	CT	AG
TTWA23-2013		11	367	2(357	apex	CT	AA
TTCNĽ24-2013		12	327	2467	apex	CT	AG
TTCJF25-2013		13	395	3929	apex	CC	GG
TTCZM26-2013		14 344		37ůe	apex	CT	AG
TTCHJ27-2013		15	42 E	4225	apex	TT	AA
TTCGT2S-2013		16	2E5	240B	apex	CT	AG
TTCSB29-2013		17	295	3186	apex	CT	AG
• Spojitá (vždy kvantitativní) - parametr může teoreticky nabýt jakékoliv hodnoty v určitém intervalu (např. střední arteriální tlak: 0-°°; ejekční frakce: 0-100%)
• Poměrová data: je možný poměr i rozdíl mezi dvěma hodnotami (např. tělesná hmotnost)
• Intervalová data - lze definovat rozdíl, ale ne poměr mezi dvěma hodnotami (např. IQ)
Kategoriální (obvykle kvalitativní) - parametr může nabývat pouze určených hodnot (např. krevní skupina: 0, A, B, AB; pohlaví: muž, žena; choroba je/není přítomna)
• Ordinální data - jsou kategoriálního charakteru, ale kvantitativní (lze je seřadit - např. stupeň srdečního selhání-NYHAI-IV)
• Diskrétní data - lze je seřadit a tvoří lineárně rostoucí řadu (mezi jednotlivými kategoriemi jsou stejné rozestupy - např. počet dětí v rodině: 0,1,2...) - často se testují jako spojitá data
• Binární data - pouze dvě možnosti (zdravý/nemocný)
Rozložení spojitých dat - histogramy
• Rozložení lze graficky znázornit (např. histogramy)
• Obvykle se hodnoty spojitého parametru „shromažďují" kolem určitých čísel
13í.5 149.5
Heights in cm
Popis spojitých dat
		
--•<r*x%fy--"-"'•"•■^ííííisp]--"*sr		
		
		
míry polohy (střední, typické hodnoty, míry centrální tendence)
• průměr (jli)
• medián (= 50% kvantil)
• dělí pořadí hodnot na dvě poloviny
• modus
• nejčastější hodnota
míry variability
• rozptyl (a2)
• směrodatná odchylka (SD, a)
• koeficient rozptylu (CV)
• CV = a/n
• střední chyba průměru (SE, SEM = ah
• min-max (= rozsah)
• kvartily
• horní 25%
• medián
• dolní 75%
• šikmost
• špičatost
Pravděpodobnost rozložení spojité náhodné veličiny
Negatively < left)	Normal	Positively (right)
skewed	skewed	skewed
distribution _	distribution	_ distribution
• Funkce hustoty pravděpodobnosti
• Grafy přiřazují ke každé (spojitě) kvantifikovatelné hodnotě proměnné(osa x) její pravděpodobnost (osa y)
Příklady rozložení spojitých dat
□ I] ti asi
3 M
<
/
I H OB
i	
1 J	[ S.
Histogramy s proloženými křivkami funkcí hustoty pravděpodobnosti
Další příklady grafického zobrazení
• Krabicové grafy („box and whisker plots'')
• Místo mediánu můžeme zvolit např. aritmetický průměr, místo kvartilů („krabi ±<5, místo celkového rozsahu („fousky") např. neodlehlé hodnoty atd.
Normální rozložení dat
Definované Gaussovou funkcí y = a~(x~b)2/2c2+d, kde a, b, c, d jsou reálnými čísly
Grafickým vyjádřením je Gaussova křivka
Aritmetický průměr = medián = modus
Náhodná veličina x má normální rozdělení tehdy, je-li možno náhodný výsledek interpretovat jako součet nekonečně mnoha nezávislých vlivů se stejnou absolutní hodnotou
Např.: přiřadíme-li na minci líci hodnotu +1 a rubu -1, pak bude rozložení pravděpodobnosti výsledné hodnoty mnohonásobně opakovaného hodu (n->oo) normální
Log-normální rozložení: po logaritmické transformaci dat získáme Gaussovu křivku (a v jejím vrcholu tzv. „geometrický průměr") - příklad transformace dat
Normální (Gaussovo) vs. symetrické rozložení
• ne každé symetrické rozložení je normální
• nutné splnění několika podmínek
• intervalová hustota četností
• distribuční funkce
• šikmost = 0, špičatost = 0
• transformace dat
• převedení na normální rozložení použitím vzorce
• Studentovo rozložení je aproximace normálního pro menší vzorky dat
"Belt Curve
Standard Normal Distribution
+3 a
■Mo
i-1     l     iiiI     II     i     iii     l     i r
Z-Score -4   -3.5 -3   -2.5   -2 -1.5   -1 -0.5    0    0.5    1     1.5    2    2.5    3    3.5 4
K "*> "S*3 "1° 0 +1t> +2t>
0.1%        2.3%        15.9%        50%        84.1% 97.7%
I Cumulative_I_I_I_I_I_I_
Percent " I    I    I   T~l   I Tl    I ^
1%       5% 10%  20 30 40 50 60 70 80 90% 95% 99%
Zápis kategória In ich dat
Sumarizace daných kategorií pro popisovaný soubor (frekvenční tabulka)
Máme-li u souboru k dispozici více kategoriálních parametrů, můžeme je uspořádat do kontingenční tabulky (a na jejím podkladě event. vykreslit graf)
		Body Image			
		About Right	Overweight	Underweight	Total
	Female	560	163	37	760
Gendei	Male	295	72	73	440
	Total	855	235	110	1200
	Right-handed	Left-handed	Total
Males	43	Ö	52
Females	44	4	48
Totals	07	13	100
Cross-classification of Status of Cocaine Users by Treatment
Desiprarnine Lithium Placebo
Treatment
Vyjádření variability kategoriálních dat -příklady
• Variační poměr
• v = 1 - (fm/N), kde fm = počet případů v nečetnější kategorii, N počet případů celkem
• podíl případů mimo nejčetnější kategorii z celkového počtu případů
• Shannon-Wienerův index diverzity
• Vyjadřuje nejistotu předpovědi, do jaké kategorie bude patřit daný prvek
• H' =    Pj * In(Pj), kde Pj je procentuální zastoupení kategorie i
• Při Pj = 100% je H' = 0; čím vyšší hodnota, tím vyšší diverzita
• Oblíbené v ekologii, obvyklé hodnoty: 1,5 - 3,5
Stupeň dosaženého vzdělání představuje data...
</ A. Ordinální
B. Intervalová
C. Binární
D. Spojitá
E. Kvalitativní
0       0       0       0 0
A      B      C      D ~E~
Formulace statistických hypotéz
Výzkumná hypotéza (např. léčivo A má lepší efekt než léčivo B, krevní tlak při zavedené léčbě klesá, existuje vztah mezi pohlavím a tělesnou výškou atd...) - lze formulovat jak pro experiment, tak i v rámci pozorování
Statistické testování výzkumné hypotézy-vpodstatě důkaz sporem
Pro účely testování definujeme nulovou hypotézu H0 (tj. např. mezi skupinami není rozdíl v průměrech, není rozdíl v rozptylech, mezi dvěma parametry není vztah, parametr se v čase nemění...resp. rozdíly jsou dány náhodou)
Tuto nulovou hypotézu se snažíme vyvrátit (resp. prokázat, že je vysoce nepravděpodobná) V případě neplatnosti nulové hypotézy platí její negace - alternativní hypotéza HA
Výsledek testu hypotéz tedy zní:
• A) nezamítnutí nulové hypotézy (na určité hladině statistické významnosti a)
• B) zamítnutí nulové hypotézy ve prospěch alternativní
Chyby v testování hypotéz
	Skutečná povaha nulové hypotézy	
Statistické rozhodnutí	H0 platí	H0 neplatí
Zamítnutí H0	chyba I. typu (a) = falešně poz.	Správně (1-p) = správně poz.
Potvrzení H0	Správně (1-a) = správně neg.	chyba II. typu (P) = falešně neg.
Pravděpodobnost chyby I. typu (a) - také hladina statistické významnosti
a se definuje již před testováním - v biomedicíně je zvykem obvykle 0,05 (tj. pokud je H0 zamítnuta, pak si můžeme být na 95% jisti, že skutečně neplatí a pozorovaný rozdíl/vztah je skutečný;
1-a = specificita statistického testu
l-(3 - také sila testu (vlastně senzitivita statistického testu)
P-hodnota - pravděpodobnost, že jsme pozorovaný výsledek získali při platnosti nulové hypotézy
Je-li p < a, zamítáme na dané hladině významnosti nulovou hypotézu a platí tedy hypotéza alternativní
Říkáme, že rozdíl (efekt) je statisticky signifikantní (což samozrejme nemusí znamenat, že je signifikantní - významný - i prakticky; to závisí i na sile)
•„P-hodnota „nedokazuje'' nic. Je to jednoduše způsob, jak využít překvapení jako základ pro rozumná rozhodnutí."
Cassie Kozyrkovová
Statistické testy
• Pro různé druhy statistických hypotéz používáme různé statistické testy
• Použití jednotlivých testů se řídí:
• počtem srovnávaných skupin
• charakterem dat (kategoriální vs. spojitá)
• rozložením dat
• vzájemnou závislostí dat
Síla testu...
A. Je vyjádřením jeho praktické (ne statistické) významnosti
B. Roste se zvětšující se variabilitou dat
C. Udává schopnost testu oprávněně zamítnout nulovou hypotézu
D. Se značí písmenem p
E. Je pravděpodobnost, že při zamítnutí nulové hypotézy bude platit hypotéza alternativní
Vzájemné vztahy parametrů u jednoho výběru
• Vztah dvou spojitých proměnných - korelace
• Vyjádřením je korelační koeficient (r)
• r obecně vyjadřuje míru závislosti obou proměnných
• Může dosahovat hodnot od -1 do 1, kde 0 značí žádnou závislost, 1 značí 100% kladnou závislost (s jedním faktorem stoupá druhý) a -1 naprostou zápornou závislost
•   Pozor -některé nelineární vztahy se do korelačního koeficientu nemusí promítnout!
r = 0.0
r= 0.0
-1.0
r= 1.0
r= 0.4
r= -0.3
r= -0.8
r= 0.8
Vztahy
kategoriálních proměnných - viz srovnávání více výběrů (jednotlivé výběry jsou vpodstatě kategoriálními proměnnými definovány)
Příklady korelačních koeficientů
Pearsonův koeficient (parametrický) - hodnotí lineární závislost mezi proměnnými
• Hlavní podmínkou je přibližně normální rozložení dat
Spearmanův koeficient (neparametrický) - hodnotí závislost v pořadí hodnot obou proměnných
Ani jeden z koeficientů ovšem neodhalí závislost např. u křivky ve tvaru U
Mimo korelačního koeficientu lze určit i odpovídající p-hodnotu (čili pravděpodobnost, že je pozorovaná korelace dána náhodou)
Porovnávání spojité proměnné u dvou a více výběrů
H0 - mezi oběma výběry není rozdíl v hodnotě spojité proměnné (resp. je dán náhodou - např. koncentrace glykovaného hemoglobinu u léčených a neléčených diabetiků se neliší)
Obecně lze testovat shodu polohy (častěji, viz dále) nebo variability (např. F-test, Levenůvtest)
	Equal Means
	Unequal
	V Variances
1	
Unequal Means	
Equal Variances rx	
Parametrické vs. neparametrické testy
Parametrické
• Pracují s hodnotami
• Mají vyšší sílu, ale pouze za splnění předpokladů (hl. normální rozložení dat v každém výběru)
• Není-li rozložení dat normální, můžeme se pokusit je transformovat (normalizovat)
Neparametrické
• Pracují s pořadím hodnot
• Síla je poněkud nižší (ovšem u velkých souborů se rozdíl stírá)
• Jsou „robustnější" - nejsou na rozložení dat tolik závislé
• Lze je použít i u diskrétních dat
Normalitu je možno testovat testy normality (např. Kolmogorov-Smirnov, Shapiro-Wilks - porovnávají skutečné rozložení s normálním) a „okometrickým" zhodnocením, zda histogramy odpovídají Gaussově křivce, u malých souborů vhodnější normál probability plot
Párové vs. n e párové testy
Párové
• Používané tehdy když každé hodnotě z výběru A můžeme přiřadit hodnotu z výběru B, která se liší právě jen příslušností k výběru (např. platy v nemocnici: ředitel A - ředitel B; primář A - primář B... až uklízečka A -uklízečka B)
• Nejčastěji pro vývoj souboru v čase
(hmotnost pacientů teď a po 5 letech: pacient XY teď je stejná osoba jako po 5 letech, stejně jako další pacienti - výběry se liší pouze časovým údajem)
• Hodnotí rozdíly mezi oběma výběry (nebo jejich pořadí)
Nepárové
• Používané u na sobě nezávislých skupin (mohou být i různě velké)
• Porovnávají skutečné hodnoty proměnných (nebo jejich pořadí) mezi skupinami
• O párovém či nepárovém designu je třeba rozhodnout už před začátkem studie (párování je organizačně náročné, ale párové testy mají vyšší sílu)
Jednostranné vs. oboustranné testy
Jednostranné (one-tailed)
• H0 je postavena asymetricky, např. léčivo A není lepší než léčivo B - ale už nás nezajímá, jestli je nebo není horší
• Mají větší sílu
Oboustranné (two-tailed)
• H0 je symetrická: není rozdíl mezi léčivem A a léčivem B (tj. A není ani lepší, ani horší než B)
• Odhalují tedy odchylky na obě strany
• Obvykle vhodnější - a priori nevíme, jak pokus dopadne, a zajímají nás oba možné efekty
Příklady testů pro spojitá data - 2 výběry
Test
parametrický
neparametrický
Párový
Párový (závislý) Studentův t-test
Wilcoxonův párový test Znaménkový test
Nepárový
Nepárový (nezávislý) Studentův t-test
Mann-Whitneyův U-test * Kolmogorov-Smirnovův test
• * má téměř stejnou sílu, jako t-test, ale předpokládá alespoň přibližně podobnou variabilitu obou výběrů (stejně jako t-test)
Příklady testů pro spojitá data - více výběrů
Test
parametrický
neparametrický
Párový
ANOVA (analýza rozptylu) pro opakovaná měření
Friedmanův test („ANOVA")
Nepárový Jednocestná ANOVA (a její varianty)    Kruskal-Wallisův test („ANOVA")
• Vyloučí-li ANOVA H0/ je třeba se ptát, rnezi kterými konkrétními výběry je rozdíl -post hoc testy
Vyberte nejvhodnější test
V rámci studie dostávají pacienti nový lék proti epilepsii nebo placebo. Studie je randomizovaná (lék je náhodně losován). Zařazeni jsou pacienti, kteří mají nejméně jeden a nejvýše deset záchvatů za tři měsíce. Hodnoceným parametrem je počet epileptických záchvatů v prvním roce.
A. Párový t-test
B. N e párový t-test
v^ C. Mann-Whitney U-test D. Znaménkový test
E. ANOVA pro opakovaná měření
ANOVA
• Analýza rozptylu
• Testuje nulovou hypotézu u více než dvou vzorků
• Předpoklady: normální rozložení, shoda rozptylů
• Nutnost dalších analýz pro zjištění, které vzorky se
Neparametrická „ANOVA
• Kruskal-Wallisův test (nepárový)
• Friedmanův test (párový)
Problém mnohonásobného srovnání
Provedeme-li více testů najednou, zvyšuje se pravděpodobnost, že některý z nich dá signifikantní výsledek pouze díky náhodě (tj. chyba I. typu - neoprávněné zamítnutí H0) - problém zejm. při post hoc testech u ANOVA
Např. při deseti testech a a = 0,05 je pravděpodobnost, že při platnosti H0 ani jeden test nedá signifikantní výsledek rovna (1-a)10 =60%, tj. ve 40% dojde k neoprávněnému zamítnutí H0.
Proto různými korekcemi (Bonferroni, Benjamini-Hochberg...) hladinu a snižujeme (a tedy zpřísňujeme kritéria pro zamítnutí H0).
Bonferroniho korekce: původní a se dělí počtem testů (nebo jsou p-hodnoty testů násobené počtem testů při nezměněné a).
• velmi „konzervativní".
Post hoc testy u ANOVA
• každý s každým („fotbalové zápasy'')
• Bonferroniho korekce a / [n (n -1) / 2]
• Tukey, Scheffé (ANOVA)
• Dunn (Kruskal-Wallis)
• Neményi (Friedman)
• s kontrolní skupinou
• Bonferroniho korekce a / (n - 1)
• A priori nás nezajímá srovnání dalších skupin mezi sebou
• Dunnett (ANOVA)
• Dunnett rank sum (neparametrické testy)
Manuální" korekce na mnohonásobné srovnání
Tam, kde neexistují standardizované post hoc testy jako součást statistického software
• např. genetické testy - parametr u řady kandidátních polymorfismů, srovnání kategoriálních dat u více skupin
Bonferroni: a se vydělí počtem testů (k)
Bonferroni-Holm: každý test má jinou a-hodnotu. U testu s nejmenší p-hodnotou je a(corr) rovna a/k, u druhého a/(k-l), u třetího a/(k-2)... až u posledního je rovna a
Benjamini-Hochberg (FDR): každý test má jinou a-hodnotu. U testu s nejmenší p-hodnotou je a(corr) rovna a/k, u druhého a/(k/2), u třetího a/(k/3)... až u posledního je rovna a
Narazíme-li na p > a(corr), jsou výsledky dalších testů statisticky nevýznamné
Alternativně můžeme ponechat a nezměněnou a vytvořit p(corr)-hodnoty vynásobením p-hodnot jmenovateli (dělícími ave výše zmíněných příkladech)
Testy pro kategoriální data
Z kontingenční tabulky lze spočítat její pravděpodobnost při platnosti H0 (tedy p-hodnotu) i velikost sledovaného efektu - v našem příkladu např. vztah mezi mutací a nemocí (ukazatele RR - relativní riziko; OR - poměr šancí)
Někdy je výhodný převod větších tabulek na tabulku 2x2 [lze zejména u ordinálních dat - např. kategorie srdečního selhání NYHA l-IV lze převést na binární data jako lehké selhání (NYHA l+ll) a těžké selhání (NYHA lll+IV)]
	nemoc	zdraví
mutace	50	2
ne	4	48
Lze využít i párový design (typicky zdraví a nemocní v čase)
Before & After
	After	
Before	Non-Smoker	Smoker
Non-Smoker	20	5
Smoker	16	9
Relativní riziko a poměr šancí u tabulek 2x2
WINS
oooooo
LOSSES
Odds =
Probability =
OOOOOO
oooooo
Exposure Status	Event Occurred	
	Yes	No
Exposed	3	b
Not Exposed	C	d
Relative Risk =
Odds Ratio =
a/(a+b) c/(c+d}
a/b
c/d
ad cb
pravděpodobnost vs. šance
RR je vhodné pro prospektivní studie, u OR na designu nezáleží
Pokud je závislá (modelovaná) proměnná vždy stejná (např. událost v tabulce vlevo), jsou hodnoty RR (a/(a+b)) a OR (a/b) podobné u nízké incidence jevu a
RR je intuitivněji pochopitelné, OR je univerzálnější, oblíbené např. v logistické regresi
Vždy je nutno předem určit, která proměnná je nezávislá a která závislá
www.statpearls.com
Příklady testů pro kategoriální data
Kontingenční tabulky Více kategorií/více měření t 2x2
Párový
McNemarův test
Cochranův Qtest (více měření, binární data)
Znaménkový test (dvě měření, ordinální data)
Nepárový
Chi-kvadrát (x2) test Fisher exact test
Chi-kvadrát (x2) test * Cochran-Armitage test (tabulky 3x2, ordinální data)
* předpokládá jisté minimální četnosti v každém poli kontingenční tabulky (cca n > 5)
t při vyloučení H0 nutno doplnit testy pro 2x2 tabulky s korekcí při mnohonásobném srovnání
Příklad
Cílem studie bylo testování vztahu mezi krevní skupinou v ABO systému (A, B, AB a 0) a přítomností akutních komplikací krevní transfúze. Kolik polí má příslušná kontingenční tabulka?
Ranking	Response	Votes
Correct Answer		
1		
2		
3		
4		
Others		
Příklad
V předchozím případě bylo při testování X2 testem zjištěno p < 0.05 a následovala série post hoc testů pro tabulky 2x2 „každý s každým". V jednom z nich byl zjištěn vyšší výskyt komplikací u pacientů s krevní skupinou AB oproti skupině A, p = 0,05 (5 %). Jak se p-hodnota změní po Bonferroniho korekci (korigujeme zde p, ne a)? Výsledek uveďte v celých procentech (přirozené číslo), případně na ně zaokrouhlete.
Ranking	Response	Votes
Correct Answer		
1		
2		
3		
4		
Others		
Regresní modely
„Regrese k průměru" (Francis Galton) - ale metody již Friedrich Gauss
Cílem je odhadnout hodnotu modelované veličiny (závislá proměnná = regresand) pomocí jiných známých parametrů (faktorů = regresorů -kategoriální a spojité proměnné)
Lze odhadnout míru přispění jednotlivých faktorů samostatně (univariační modely) i společně ve vzájemné interakci (multivariační modely)
Pro každý faktor lze určit velikost efektu s intervaly spolehlivosti
(konfidenční intervaly, většinou 95 %, tj. kde se hodnota s 95 % spolehlivostí nachází)
Předpoklad: faktory jsou nezávislé
Nejčastěji
• Lineární regrese (závislá proměnná je spojitá - např. glykémie nalačno)
• Logistická regrese (závislá proměnná je binární- např. nemoc)
• Coxova regrese (závislou proměnnou je přežití - endpoint a čas přežití)
Vyjádření příspěvku jednotlivých faktorů
• Lineární regrese - regresní koeficient 3 (standardizovaný, nestandardizovaný) a 95% interval spolehlivosti (Cl)
• Na rozdíl od korelace záleží na tom, která proměnná je závislá a která nezávislá
• Je-li regresor kategoriální, jedná se fakticky o ANOVu
• Logistická regrese - OR a 95% interval spolehlivosti
• Coxova regrese - poměr rizik (HR) a 95% interval spolehlivosti
Interpretace regresních modelů
• Zahrnuje-li 3 ± 95% Cl hodnotu 0, není příspěvek daného faktoru statisticky významný (tj. nelze rozhodnout, jestli výslednou hodnotu zvyšuje nebo snižuje)
• U OR a HR platí totéž, zahrnuje-li 95% Cl hodnotu 1 (pod 1 snižuje pravděpodobnost události, nad 1 zvyšuje)
• 95% Cl tak můžou nahradit p-hodnotu
• Je-li nezávislá proměnná kategoriální, je nutno jednu kategorii určit jako referenční a regresní koeficienty / OR / H R patří zvlášť každé další kategorii
• Je-li nezávislá proměnná spojitá, odpovídá vždy 3 / OR / HR 1 jednotce (např. 1 roku věku) - předpokládá se lineární efekt (jinak lepší kategorizace)
Vyberte správné tvrzení
V průřezové studii v populaci 700 hospitalizovaných pacientů mezi 80 - 90 lety byly u 40 % zjištěny známky kognitivní dysfunkce. Asociace s kandidátními rizikovými faktory (věk, hypertenze, diabetes) byla hodnocena univariační logistickou regresí. Přítomnost kognitivní dysfunkce byla postupně asociována s: věkem (pro každý další rok OR = 1.20; 95 % Cl = 1.12 - 1.40), hypertenzí (OR 1.40; 95 % Cl 1.20 - 1.78) i diabetem (OR 2.80; 95 % Cl 2.00 - 6.40)
1111
A. faktor věku není pro kognitivní dysfunkci statisticky významný
B. Pravděpodobnost vzniku kognitivní dysfunkce je dvakrát větší u diabetiků než u hypertoniků
C. Věk, diabetes i hypertenze jsou navzájem nezávislé rizikové faktory
D. Testujeme-li statistickou významnost asociace, je p-hodnota ve všech případech < 0.05
E.  Můžeme usoudit, že jednotlivé faktory vedou ke kognitivní dysfunkci
Co s ordinálními daty?
• Testy pro kategoriální data, ANOVA (ale: ignorujeme seřazení)
• Neparametrické testy (je-li hodně kategorií)
• Dichotomizace a testy pro binární data (v medicíně asi nejčastěji)
• Speciální testy-Cochran-Armitage (typicky genetika), znaménkový test (ale: ignoruje hodnoty, kde nedošlo ke změně)
Analýza přežití
• Soubor metod sledujících výskyt události (koncový bod, endpoint) při obvykle klesajícím počtu účastníků studie („přeživší")
• Co je sledováno:
• Endpoint
• Vyskytne se pouze jednou (pokud vícekrát, pak je obvykle hodnocen první výskyt)
• Cenzorovaná data
• před koncem studie nedošlo k události
• ztraceni ze studie
• úmrtí z jiné příčiny
• Čas setrvání ve studii (čas přežití)
Metody analýzy
Úmrtnostní tabulky Kaplan-Meierovy křivky Log rank test Gehan-Wilcoxonův test Coxova regrese
Kaplan-Meierova křivka přežití
O)
> ■>
&_ 3
W o o
Q.
O
5
E O
0,1 i—i
Survival Function o Complete    + Censored
50 100 150 200 250
Survival Time [months]
300
350
400
1,0 -
D)
>
>
CO
c o
ť o
Q. O
>
■-4->
E O
0,9 -
0,8 -
0,7 -
0,6 -
0,5
0
Cumulative Proportion Surviving (Kaplan-Meier) o Complete   + Censored
		No atherosclerosis vs.			insignificant atheroscleros			s: p = 6.	10"3
		c	ô-....... j. G	ó---! O-.	©i o--	i			
					■1 1 O, No at ľ	lerosclen	o-DSÍS VS. (	o- + DAD: p =	2.10"5
						ô	1 o. k i		
									
_I				insignii	ficant atherosclerosis vs. c			;ad: p =	NS
Testy přežití
log-rank test Gehan-Wilcoxonův test
6       8 10 Time [years]
12
14
16
18
- CAD
...... Insignificant atherosclerosis
— No atherosclerosis
Vyberte správnou odpověď...
Do studie, zabývající se rizikem recidívy infarktu myokardu (endpoint), se přihlásili čtyři pacienti. V následujících letech postupně došlo k následujícímu vývoji: jeden pacient se odstěhoval do Argentiny a ztratil se tak ze studie, poté jeden dostal infarkt a příští měsíc zemřel při autonehodě, následně jeden zemřel na nádor plic a poslední se ve zdraví dožil konce studie. Poslední bod Kaplan-Meierovy křivky je na hodnotě:
11111
Shluková (clusterová) analýza
• vícerozměrná analýza (1 parametr = 1 rozměr)
• měření vzdálenosti
• řadící algoritmus
• nutná standardizace dat ke společnému zhodnocení různých parametrů (sjednocení stupnic: všechny parametry jsou vyjádřené v jednotkách a jejich rozložení-tzv. z-skóre; průměr = 0)
• k means clustering (předem známý počet clusterů)
• hierarchický strom (dendrogram)
Vyberte správnou odpověď
Na opuštěný ostrov se dostanou antropologové, kteří zde objeví neznámé lebky. Pomocí shlukové (clusterové) analýzy je budou chtít přiřadit k některé z okolních žijících populací. Vedle genetických markerů stanoví i kraniální index (v procentech, průměr = 85, sm. odch. = 10), faciální index (v procentech, průměr = 80, sm. odch. = 5) a objem mozkovny (v cm3, průměr = 1500, sm. odch. = 200). Co se stane, nebudou-li data před analýzou standardizována?
11111
A. Nic, standardizace se používá pro přehlednost.
B. Objem mozkovny nebude z hlediska analýzy relevantní. C Clusterová analýza nebude technicky možná.
D. Zařazení do clusteru bude záviset především na objemu mozkovny.
E. Vzroste vzájemná korelace kraniálního a faciálního indexu.
A      B     C      D E