I. Statistika ve vědecké praxi
Pozice statistické analýzy ve vědě a klinické praxi
Význam statistických výstupů
MU
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
IBA
Anotace
•  Statistická analýza biologických dat je jedním z nástrojů, s jejichž pomocí se snažíme zjistit odpovědi na naše otázky týkající se pochopení živé přírody. Jako každý nástroj je i statistickou analýzu nezbytné na jedné straně korektně využívat a na druhou stranu nepřeceňovat její možnosti.
•  Klíčovým faktem při statistické analýze dat je nahlížení na realitu prostřednictvím vzorku a přijmutí toho, že výsledky naší analýzy jsou jen tak dobré, jak dobrý je náš vzorek. Reprezentativnost a náhodnost vzorku spolu s jeho velikostí jsou důležité faktory ovlivňující věrohodnost našich závěrů.
MU
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita I"       J. Jarkovský, L Dušek
Výzkum, realita, statistika
Výzkum je naším způsobem porozumění realitě Ale jak přesné a pravdivé je naše porozumění?
Statistika ie
jedním z nástrojů
vnášejících do
našich výsledků
určitou spolehlivost.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita ■ n j          J. Jarkovský, L Dušek
Význam variability
Naše realita je variabilní a statistika je vědou zabývající se variabilitou
Korektní analýza variabilita a její pochopení přináší užitečné informace o naší realitě
V případě deterministického světa by statistická analýza nebyla potřebná
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Biostatistika - různé přístupy k variabilitě
Variabilita opakovaných měření
/wy
LU
chyba
Variabilita modelovaných dat
chyba = nepřesnost modelu
ÄL_ IBA
Data
2,1 2,8 3,2 1,2 5,2 2,9
Variabilita znaku v populaci
i
o
A
1
165 cm       140 cm       182 cm       163 cm
rozptyl znaku, přirozená variabilita
Variabilita ve skladbě biologických společenstev
DRUH1 DRUH 2 DRUH 3 DRUH 4
15 30 40 14
biodiverzita
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Pojem VARIABILITA má mnoho významů
.... a ty určují přístup k jejímu hodnocení
Maskování a
minimalizace
vlivu
Respektování a odhadování vlivu
Přímé využití k
predikcím chování
systému
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
WWW.WIKIPEDIA.ORG:
Statistika je matematickou vědou zabývající se
shromážděním, analýzou, interpretací, vysvětlením
a prezentací dat. Muže být aplikována v širokém
spektru vědeckých disciplín od přírodních až po
sociální vědy. Statistika je využívána i jako podklad
pro rozhodování, kdy nicméně může být záměrně i
nevědomky zneužita.
Statistika využívá matematické modely reality k zobecnění výsledků experimentů a vzorkování. Statistika funguje korektně pouze pokud jsou splněny předpoklady jejích metod a modelů.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita ■ n j          J. Jarkovský, L Dušek
Co může statistika říci o naší realitě?
Data
Statistika
t
Informace
I
___I
Znalost
t
Pochopení
Statistika není schopna činit
závěry o jevech
neobsazených v našem
vzorku.
Statistika je nasazena v
procesu získání informací
z vzorkovaných dat a je
podporou v získání naší
znalosti a pochopení
problému.
Statistika není náhradou naší inteligence !!!
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Cílová populace - klíčový pojem statistického zpracování
o Skupina objektů o nichž se chceme něco dozvědět (např. pacienti s danou diagnózou, všichni lidé nad 60 let, měření hemoglobinu v dané laboratoři)
o Musí být definována ještě před zahájením sběru dat
o Na cílové populaci probíhá vzorkování dat, které musí cílovou populaci dobře (reprezentativně) charakterizovat
Cílová populace      Klíčové faktory              Design                   Vzorkování a
cílové populace        experimentu a              analýza dat
vzorkovací plán
rClüT
.«SSÍflKW
r^-4
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Neznáma
cílová
populace
Vzorek
Analýza
Díky zobecnění výsledků známe vlastnosti cílové populace
Cílem analýzy není pouhý popis a analýza vzorku, ale zobecnění výsledků ze vzorku na jeho cílovou populaci
Pokud vzorek nereprezentuje cílovou populaci, vede zobecnění k chybným závěrům
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Vzorkování a jeho význam ve statistice
Statistika hovoří o realitě prostřednictvím vzorku!!!
o Statistické předpoklady korektního vzorkování
Representativnost: struktura vzorku musí maximálně reflektovat realitu
Nezávislost: několikanásobné vzorkování téhož objektu nepřináší ze statistického hlediska žádnou novou informaci
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Existuje skutečné rozložení
a skutečný průměr měřené
proměnné
MU
Z jednoho měření nezjistíme nic -Vzorek:   <&   —►   ?????
Vzorek určité velikosti poskytuje | odhad reálné hodnoty s definovanou spolehlivostí
Vzorek: ^
Odhad
průměru
atd.
Vzorkování všech existujících objektů poskytne skutečnou hodnotu dané popisné statistiky, nicméně tento přístup je ve většině případech nereálný.
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Různá role statistiky při různě velkém vzorku
Malá data
Velká data
Obrovská data
Umění prodat
Umění pochopit
Umění uchopit
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Přístup biostatistiky																					
Pacient	'. : Ť-	a Leu	S~    ::	aSŤ:':		aNeu%	a Lyll	aTy	aSe	aNeu	aLy		ä-:;	a C Lak	aCLNeus	a C LOZ	aCLNeuO				
3	1	a .i;--4						cel 1.106/	cel 1.106/	cell. 106/	cell. 106/		33	-v.ä.i:-72	mV.HO*	mVÄltf 32	mV.s.10*		i I I i i I i i IIDDDDDIIII		
4	2	7.6	S	5B		66	24	0.6	4.4	5.0	1.B		ľľ	95	19	4B	10			^^	
S	3	4	3	52		55	40	0.1	2.1	2.2	1.6		22	77	35	33	15				
11	4	6.1	5	59		64	35	0.3	3.6	3.9	2.1		ľľ	103	26	49	13				
			:	BC		RR		n 7	59		n ?										
14	6	5.9											32	137	33	61	15				
16	7	S		7	í		n^ii		«				ľ-:	151	20	59	B				
20	S	9.6			Udl<				1				K	77	11	3B	5				
21	9	6											32	120	26	52	11				
22	10	3.3	^^^			59	39	0.1	1.3	2.0	1.3		:;	B1	42	24	12				
37	11	3. S	10	60		70	30	0.4	2.3	2,7	1.1		32	111	42	29	11				
3S	12	6.4	2	76		7B	17	0.1	4.9	5,0	1.1		25	365	73	115	23				
39	13	6.B	1	57		5 B	39	0.1	3.9	3.9	2.7		20	.,.	59	71	1B				
49	14	B. 5	7	67		74	26	0.6	5.7	6,3	2.2		30	156	25	108	17				
51	15	9.3	7	57		64	35	0.7	5.3	6,0	3.3		3E	129	21	23	4				
52	16	2.2	10	í;		= =	34	0.2	1.2	1,5	0.7		ľľ	46	30	12	B				
55	17	9.9	3	7S		B1	10	0.3	7.7	B,0	0.1		30	135	24	140	1B				
56	18	5	2	SO		B2	13	0.1	4.0	4,1	0.7		26	101	25	54	13				
6	1	S. S	11	72		S3	12	1.0	6.3	7,3	1.1		44	2čS	:=.=	145	13.3				
9	2	9.2	2	6«		6B	2B	0.2	6.1	6,3	2.6		42	16B	2Č.5	76	12.2				
13	3	10.0	7	S3		90	B	0.7	B. 3	9,0	O.B		54	1B1	20.1	B1	9				
15	4	9.6	1	75		76	23	0.1	7.2												
17	5	6.0															^^		Dávka pros tin u (mg)		
19	6	7.2	2	78		BO	1B	0.1	5.6												
24	7	E.2	1	72		73	25	0.1	5.9												
29	9	5.0	1	74		75	21	0.1	3.7	4,0 □   1,600           Q 3/ H   1,800           f ty CC  2,000            g* \% CC   2,200            '   h CC 2,400          f To CH  2,600            £ $ CC  2,800              «^ H  3,000           ■<** H  3,200											
31	11	7?	3	53		56	79	0 ?	3B						KéH ^						
32	12	10.B	36	50		76	S	3.9	5.4												
33	13	11.E	22	54		76	16	2.6	6.4												
34	14	170	1	B?		S3	16	0 ?	139												
40	15	10.0	S	72		BO	4	0.B	7.2												
I.U 0.8 0.6 0.4 0.2 0.0																					
										1      1 above											
											.^rhnnnnQt1 \/irl£t rlata — lenmi iniknvat										
							1         "»I        -       ^------h-					■              á                                                     á                                      á                                                           1      r                           á									
		V} J.	0        100     200     300     4Q									0 ar\	— MILCI piCLUVdL -  |JIUUdVCll								
IB	MU A		tvor Jark	II 0\	ní /si	»tltUT <ý,L	DlOSt Duš	atistiK ek	y a an	aiyz, i\	rias		ková univerzita								
Experimentální design: nezbytná výbava biologa
Účel analýzy:
Popisný
cílová populace
-4..................
\l//
výběr dle optimálního plánu

reprezentativní vzorek n jedinců (faktor F)
měření znaku
MU
OOooOOOoOo
variabilita hodnot ve výběrovém souboru
VÝSLEDKY    ....................
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
o
>
0 o
Q-: </>
-•—■" </> O
>
'■*—»
(0
-•—»
(U N (U
Q-:
(U
rr
>LU
>
<
N
Reprezentativnost
Spolehlivost Přesnost
ů>
oO
... analyzovaný znak cílové populace (X)
... jiný významný faktor charakterizující cílovou populaci (F)
cílová populace
-4..................
Učel analýzy:
Srovnávací (2 ramena)
\~ / i?
výběr subjektů pro vstup do hodnocení / studie
---------------------Y---------------------
RANDOM IZACE
vzájemně srovnatelné vzorky (faktor F)
rameno A
rameno B
•••
měření znaku X
OooOO          oOoOo
variabilita hodnot X v rameni A
variabilita hodnot X v rameni B
MU
VÝSLEDKY
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
<
i °
2  >
-I—»
s-      CO
!—   N
-   (D
•f->      s_
</)    Q_
O    0
C    !-
Q.     -
O    C
-C   £
°  E
<"     TO
CO     </)
£  °
•—'  >
>;  2!
>LU       -:
<
N
4)
oOO
... analyzovaný znak cílové populace (X)
••
... jiný významný faktor charakterizující cílovou populaci (F)
Srovnatelnost
Spolehlivost
Přesnost
Samotná statistická významnost nemá žádný reálný význam, je pouze měřítkem náhodnosti hodnoceného jevu
Pro vyhodnocení reálné významnosti je nezbytné znát i reálně významné hodnoty
«*  o
o  c
H3   B
*■*     P-
4S   5
ANO
OK, praktická i statistická
významnost je ve shodě,
jednoznačný závěr
NE
Výsledek může být pouhá náhoda, neprůkazný výsledek
\/v/"7ri^ľY^n\/ \ /\ #c I ö r\ ö \s  í r\
vyz.1 id i
ly vy:>icuci\ je
statistický artefakt velkého vzorku, prakticky nevyužitelné
OK, praktická i statistická
významnost je ve shodě,
jednoznačný závěr
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Obecné schéma využití statistické analýzy
Experimentálni design
Vzorkovaní
Uložení a management dat
Vizualizace dat
Popisná analýza
Testování hypotéz
Modelování
MU
Jak velký vzorek je nezBytný pro statisticky relevantní výsledky? Klíčová stratifikační kritéria cílové populace.
Vzorkovací plán zabezpečující náhodnost a reprezentativnost vzorku.
Uložení dat ve vhodné formě a jejich vyčištění předcházející vlastní analýze je klíčovým krokem statistické analýzy.
Grafická inspekce dat je nezbytným krokem analýzy vzhledem ke schopnosti lidského mozku primárně akceptovat obrazová data. Poskytne vhled do dat, představu o jejich rozložení, vazbách proměnných apod.
Popisná analýza umožňuje vyhodnotit srovnáním s existující literaturou realističnost naměřených rozsahů dat.
Testování vazeb mezi různými proměnnými s cílem navzájem vysvětlit jejich variabilitu a tím přispět k pochopení řešeného problému.
Možným vyvrcholením analýzy je využití získaných znalostí a pochopení problému k vytvoření prediktivních modelů.
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Stochastické modelování: predikce neurčitých
jevů
Prospektivně - modelově - postihuje chování jevu při respektování variability
Pravděpodobnostní vztahy
Anamnéza x Výsledek vyšetření pacienta
	Karcinom	Benigní leze	Benigní riziková	Zdravá	
Pozitivní anamnéza	2,22	34,44	0,00	63,33	100%
Negativní anamnéza	1,06	28,23	0,96	69,75	100%
p < 0.05
Vícerozměrná diskriminace
Znak X1
	;'   OBOČ*
	
Znak X2
Markovovy řetězce
P(ii-iii)
Stav III
P(III-IV)
Stav II
P(i-ii)
Stav I
Logistické modely
ZnakX
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Funkční vztahy znaků
Znak Y
Znak Y
čSí^qc
ZnakX
ZnakX
Chování systému v čase
Znak (y)
Cas (t)
Stochastické modelování: predikce neurčitých
jevů
1,0
a   š
^ 5  pS
*  °  s
ä sS  ä
O   TS   >G>
Oh     c«
1,01
.-•' -4,0
4,0
0,0
0      10     20     30     40     50     60     70     80
Osa X
Parametr nebo kombinace parametru
Data konkrétních pacientů (subjektů) k přímému hodnocení
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Stochastické modelování: predikce neurčitých
jevů
Maligní lymfomy: Pravděpodobnost časného relapsu
Stádium I -II
Stádium III-IV
# Grade O Grade
2 1
0.0       0.5       1.0       1.5       2.0       2.5       3.0       3.5
0.0       0.5       1.0       1.5       2.0       2.5       3.0       3.5
Index Mitosis / (Apoptosis + 0.5)
MU
IBA
Schopnost: vytvářet prakticky využitelné nástroje
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
IL Příprava dat
Klíčový význam korektního uložení získaných dat
Pravidla pro ukládání dat Čištění dat před analýzou
MU
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
IBA
Anotace
•  Současná statistická analýza se neobejde bez zpracování dat pomocí statistických software. Předpokladem úspěchu je správné uložení dat ve formě „databázové" tabulky umožňující jejich zpracování v libovolné aplikaci.
•  Neméně důležité je věnovat pozornost čištění dat předcházející vlastní analýze. Každá chyba, která vznikne nebo není nalezeno ve fázi přípravy dat se promítne do všech dalších kroků a může zapříčinit neplatnost výsledků a nutnost opakování analýzy.
MU
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita I"       J. Jarkovský, L Dušek
	DATA - ukázka						I Uí	>P(	)ra(	Jáni datového sou						boru		
	Parametry (znaky)																	
																		
	^^H																	
Opakování		Pacient	Človek	a Leu	aTy%	aSe%	aNeu%	al_y%	— ii a Ty	■■ — aSe	a Neu	al_y	aHtc	aCLsk	aCLNeus	aCLOZ	aCLNeuO	
				cell. 106/	%	%	%	%	cell.10e/	cell.10e/	cell.10e:	cell.10e/	%	mV.s.103	mV.s.103	mV.s.103	mV.s.103	
		3	1	4									33	72		32		
		4	2	7,6	8	58	66	24	0,6	4,4	5,0	1,8	33	95	19	48	10	
		8	3	4	3	52	55	40	0,1	2,1	2,2	1,6	22	77	35	33	15	
		11	4	6,1	5	59	64	35	0,3	3,6	3,9	2,1	33	103	26	49	13	
		12	5	6,9	3	85	88	9	0,2	5,9	6,1	0,6	37	81	13	45	7	
		14	6	5,9	15	55	70	19	0,9	3,3	4,1	1,1	32	137	33	61	15	
		16	7	8	18	75	93	7	1,4	6,0	7,4	0,6	34	151	20	59	8	
		20	8	9,6	3	72	75	23	0,3	6,9	7,2	2,2	40	77	11	38	5	
1		21	9	6	10	67	77	19	0,6	4,0	4,6	1,1	32	120	26	52	11	
		22	10	3,3	4	55	59	39	0,1	1,8	2,0	1,3	28	81	42	24	12	
		37	11	3,8	10	60	70	30	0,4	2,3	2,7	1,1	32	111	42	29	11	
		38	12	6,4	2	76	78	17	0,1	4,9	5,0	1,1	25	366	73	115	23	
		39	13	6,8	1	57	58	39	0,1	3,9	3,9	2,7	20	234	59	71	18	
		49	14	8,5	7	67	74	26	0,6	5,7	6,3	2,2	30	156	25	108	17	
		51	15	9,3	7	57	64	35	0,7	5,3	6,0	3,3	35	129	21	23	4	
		52	16	2,2	10	56	66	34	0,2	1,2	1,5	0,7	33	46	30	12	8	
		55	17	9,9	3	78	81	10	0,3	7,7	8,0	0,1	30	189	24	140	18	
		56	18	5	2	80	82	13	0,1	4,0	4,1	0,7	26	101	25	54	13	
		6	1	8,8	11	72	83	12	1,0	6,3	7,3	1,1	44	268	36,6	145	19,9	
		9	2	9,2	2	66	68	28	0,2	6,1	6,3	2,6	42	168	26,9	76	12,2	
		13	3	10,0	7	83	90	8	0,7	8,3	9,0	0,8	54	181	20,1	81	9	
		15	4	9,6	1	75	76	23	0,1	7,2	7,3	2,2	45	343	47	124	16,9	
		17	5	6,0									45	40		21		
		19	6	7,2	2	78	80	18	0,1	5,6	5,8	1,3	44	103	17,8	63	10,9	
		24	7	8,2	1	72	73	25	0,1	5,9	6,0	2,1	41	209	34,9	57	9,6	
		26	8	10,3	1	85	86	3	0,1	8,8	8,9	0,3	41	364	41,1	112	12,6	
		29	9	5,0	1	74	75	21	0,1	3,7	3,8	1,1	39	83	22,1	32	8,5	
		30	10	11,9	1	51	52	47	0,1	6,1	6,2	5,6	33	83	13,4	52	8,4	
		31	11	7,2	3	53	56	29	0,2	3,8	4,0	2,1	28	109	27,1	63	15,5	
		32	12	10,8	36	50	76	8	3,9	5,4	9,3	0,9	27	146	15,7	106	11,4	
		33	13	11,8	22	54	76	16	2,6	6,4	9,0	1,9	45	246	27,4	63	7	
		34	14	17,0	1	82	83	16	0,2	13,9	14.1	2,7	34	440	31,2	119	8,4	
		40	15	10,0	8	72	80	4	0,8	7,2	8,0	0,4	37	176	22,0	52	6,5	
MU																		
7bä	r	Vytvořil Ir J. Jarkovský, L Dušek																
Správné a přehledné uložení dat je základem jejich pozdější analýzy
Je vhodné rozmyslet si předem jak budou data ukládána
Pro počítačové zpracování dat je nezbytné ukládat data v tabulární formě
Nejvhodnějším způsobem je uložení dat ve formě databázové tabulky
o   Každý sloupec obsahuje pouze jediný typ dat, identifikovaný hlavičkou sloupce
o   Každý řádek obsahuje minimální jednotku dat (např. pacient, jedna návštěva pacienta apod.)
o   Je nepřípustné kombinovat v jednom sloupci číselné a textové hodnoty
o   Komentáře jsou uloženy v samostatných sloupcích
o   U textových dat nezbytné kontrolovat překlepy v názvech kategorií
o   Specifickým typem dat jsou datumy u nichž je nezbytné kontrolovat, zda jsou datumy uloženy v korektním formátu
Takto uspořádaná data je v tabulkových nebo databázových programech možné převést na libovolnou výstupní tabulku
Pro základní uložení a čištění dat menšího rozsahu je možné využít aplikací MS Office
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
MS Excel
b    Kontingenční tabulky - rychlá sumarizace rozsáhlých tabulek b    Možnost výpočtů a grafových výstupů přímo v aplikaci b    Visual Basic-složitější aplikace
Omezení tabulky na 256x65536 buněk (do verze 2003)
Omezená kontrola chyb při zadávání
MS Access
b    Plnohodnotná databáze vhodná pro velké množství dat, řádky omezeny v podstatě jen dostupnou pamětí
b    Kontrola typu dat
b    Relace tabulek - omezení velikosti souboru
b    Visual Basic a formuláře - složitější aplikace
Omezení tabulky na 255 sloupců
Výpočty a grafy jsou složitější než v Excelu
hL "r    UI.    tor-    -j-k1-
DrBcHaU   ■
u.L
N1U
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Možnosti MS Excel
Správa a práce s tabulárními daty
Řazení dat, výběry z dat, přehledy dat
Formátování a přehledné zobrazení dat
Zobrazení dat ve formě grafů
Různé druhy výpočtů pomocí zabudovaných funkcí
Tvorba tiskových sestav
Makra - zautomatizování častých činností
Tvorba aplikací (Visual Basic for Aplications)
*• ^
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Import a export dat
•   Import dat
o   Manuální zadávání
o   import - podpora importu ze starších verzí Excelu, textových souborů, databází apod.
o   kopírování přes schránku Windows - vkládání z nejrůznějších aplikací - MS Office, Statistica atd.
o   využití textových souborů jako kompatibilního formátu pro přenos dat mezi různými aplikacemi
•   Export dat
o   Ukládáním souborů ve formátech podporovaných jinými SW, časté jsou textové soubory, dbf soubory nebo starší verze Excelu
o   Přímé kopírování přes schránku Windows
MU
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita I"       J. Jarkovský, L Dušek
Tipy a triky
•    Výběr buněk
o     CTRL+A-výběr celého listu
o     CTRL + klepnutí myší do buňky-výběr jednotlivých buněk
o     SHIFT + klepnutí myší na jinou buňku - výběr bloku buněk
o     SHIFT + šipky - výběr sousedních buněk ve směru šipky
o     SHIFT+CTRL+END (HOME) - výběr do konce (začátku) oblasti dat v listu
o     SHIFT+CTRL+šipky - výběr souvislého řádku nebo sloupce buněk
o     SHIFT + klepnutí na objekty - výběr více objektů
•     Kopírování a vkládání
o    CTRL+C-zkopírování označené oblasti buněk
o    CTRL+V - vložení obsahu schránky - oblast buněk, objekt,    data z jiné aplikace
•    Myš a okraje buňky
o    Chycení myší za okraj umožňuje přesun buňky nebo bloku buněk
o    Při chycení čtverečku v pravém dolním rohu výbU^u je tažením možno vyplnit více buněk hodnotami původní buňky (ve vzorcích se mění relativní odkazy, je také možné vyplnění hodnotami ze seznamu - např. po sobě jsoucí názvy měsíců.
MU
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita I"       J. Jarkovský, L Dušek
Databázová struktura dat v Excelu															
Sloupce tabulky = parametry záznamů, hlavička udává obsah															
sloupce - stejný údaj v <			Delém sloupci												
	Pj  5ouboi					.__								DJ2íl	
			1 Úpravy     Zobrazit			it     Formát     Nástroje     Data     Okno     Nápověda                Nápověda - zadejte dotaz   -  _									
	D e3P		\p s n sů			\f t mm~<? «-" . * e - *i sí m % ioo% . íj),									
	mJf			ŕ 5^											
		A		B			D	E	F	G	H	I        I-	Jä	B	
	1	Číslo		Značka	Sfjoleč		Pohlaví	Délka	Váha	P. anguillae	P. bini				
	2	1		1	1		m	27,5	23,0	2	2				
	3	2		2	2			34,0	62,5	0	2	I	Íl	II	
	4	3		5	3			58,0	230,0	0	0		i^j		
Jednotlivé záznamy   .__\ (taxon, lokalita atd.) ^~~^ ví	5	4		6	4 5 6 7 8		m	42,0 44,0 56,0 48,5 30,5	155,0 149,8 323,0 178,2 47,7	0 0 0 0 4	0 0 1 0 6		ill 0	i	
	6	5		,       7											
	7 8 9	6 7 8		8 9 10											
	10	9		11	9			47,0	175,9	5	14		%	♦"5=	
	11	10		12	10			40,0	85,1	5	9		ŕRi	i=	
	12	11		14	11			40,0	101,0	0	0			=r-	
	13	12		15	12			31,0	84,0	15	9			.....* -	
	14	13		16	13		f?	22,0	9,0	0	0			±'	
	15	14		17	14			42,0	108,0	1	3				
	16	15		18	15			44,0	130,0	0	0	1		A -	
	17	16		19	16			37,0	85,0	2	5			H	
	18	17		20	17			50,0	212,0	1	8	,	1	i	
	MIK    Kl|\ Připraven		data/ společenstva  / List9 / List 10 /Listl2 /List 13 / Lis \i \									liľ	« s	<    s	
			123											^	
MU m               Vytvořil Institut biostatistiky a analýz, Masarykova univerzita															
in A        J. Jarkovský, L Dušek															
Automatický zadávací formulář
•    Slouží k usnadnění zadávání dat do databázových tabulek
•    Načítá automaticky hlavičky sloupců jako zadávané položky
Dél 27 34 58 42 44 56 46 30 47 40 40 31
Nový záznam
Tabulka... Text do sloupců... S|oučit... Skupina a přehled
Kontingenten tabulka a graf.
U
Importovat externí data Aktualizovat data
Názvy sloupců
Vyhledávání
Obsah dané buňky - editovatelný
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Automatické seznamy
•   Vytváří se z hodnot buněk v daném sloupci a umožňují vložit hodnotu výběrem ze seznamu již zadaných hodnot - usnadnění zadávání
Sloupec z nějž je seznam vytvořen a pro který platí
1909 Jnnaeus,1758
E"
ülo
-, 1857
aceurn (Rudolp
jcii (Müller, 177
3
Dion
Eiychowsky, 19;
nnica ( Schneid
i, 1937
-, 1857
Dion
nnica ( Schneid
( Linnaeus, 176
Vyjmout Kopírovat Vložit Vložit jinak...
Vložit buňky... Odstranit... Vymazat obsah
Q   Vložit komentář
Formát buněk..
Vybrat ze seznamu...
Buňka, do níž se vloží vybraná hodnota
i-arYUfJriYiiaťiues leriniua \, aunribiiubir, wuz j   uč
PÍ Pr
Piscicola geometra ( Linnaeus. 17G1 )
Přidat kukátko Hypertextový odkaz...
Acanthocephallus lucii ( Müller, 1776 ) Apophallus rnühlingi Jägerskiöldj 1899
Arqulus foliaceus ( Linnaeus, 1758 )
Caryophyllaeides fennica ( Schneider, 1902 )
D. cabaleroi
D. crucifer Wagener, 1857
D. fallax Wagener, 1857
D, nanus Dogiel et Bychowsky, 1934
-"-----■==■---------------1^=1-------T*-----T-----r^BTÍ—E3S3-------------------
ntic
N1U
IBA
Vytvoril Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Automatická kontrola dat
•   Umožňuje ověřit typ, rozsah nebo povolit pouze určitý seznam hodnot zadávaných do sloupce databázové tabulky
komunikace s uživatelem
/> <\
Ověření dat
IX
Nastavení I    Zpráva pn zadávání |  ChyboveTTiešení |
ve rnes
1*1
Ověřovací kritéria Povolit:
Co je povoleno - definiční obory čísel, seznamy, vzorce atd.
Rozsahy hodnot, načtení seznamů apod
Icelé číslo	d	p
Data:		
1 je mezi	z\	
Minimum:		
lo		^
Maximum:		
11000000000		m
W Přeskakovat prázdné buňky
Použít tyto změny u všech ostatních buněk se stejným nastavením
-
Vymazat vše
OK
Storno
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Seznamy
•   Skupiny hodnot zachovávající logické pořadí, některé jsou zabudované (např. dny v týdnu, měsíce v roce), další je možné uživatelsky vytvořit, slouží pro účely řazení a automatického vyplňování dat
Existující seznamy
-2]*l
Nástroje     Data     Okno     ľ
Barva
Makro
Možnosti.
dpc
Analýza dat
k
Mezinárodní                  Ukládání                  Kontrola chyl
Výpočty                Úpravy                Obecné                Pře1
Položky seznamu:
í>
000
Po, Ut, 5t, CtjVá, So, Ne Pondělí, Úterý, Středa, Čtvrtek, Pátek, Sobotl I, II, III, IV, V, VI, VII, VIII, IX, X, XI, XII leden, únor, březen, duben, květen, červen, i spring 97, autumn 97, spring 98
I
-
d
d
Přidat
Odstranit
d
Položky seznamu můžete oddělit stisknutím klávesy Enter Importovat seznam z buněk:
Výběr buněk pro nový seznam
Načtení nového seznamu
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Řazení dat
•   Řazení dat je nejjednodušším způsobem jejich zpřehlednění, užitečným hlavně u menších/výsledkových tabulek
&
Zkontrolujte, zda seřazení nezničí vazby mezi buňkami = kontrola oblasti, kterou řadíte.
Podle čeho řadit
Data | Okno     Nápověda
Z |    Seřadit...
II
Filtr Formulář.
Text do sloupců.
Ü
(* Vzestupně ^~
C Sestupně
Dále podle
'TT     (* Vzestupně
C Sestupně
Pak podle
T|      (* Vzestupně C" 5estupně_ Seznam
(* 5e záhlavím         (Bez záhlaví
Směr řazení - vzestupně, sestupně
Další možnosti - řazení řádků, řazení podle seznamu
^ Možnosti
OK
Storno
Využít první řádek oblasti jako záhlaví
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Automatický filtr
Pomocí automatického filtru je snadné vybírat úseky dat pro další zpracování na základě hodnot ve sloupcích databázové tabulky, výběr je možný i podle více sloupců (např. určitá skupina pacientů)
Funkce automaticky rozezná hlavičky sloupců v souvislé oblasti buněk
U sloupců použitých pro filtraci jsou rozbalovací seznamy zbarveny modře
Výhodné pro čištění dat (vyhledávání překlepů, kombinace textu a čísel)
Výběr hodnot pro filtraci
-) z i    Seřadit.
Data     Okno     Nápověda
Filtr
Formulář.
Text do sloupců.
I li U S
100%
G
Automatický filtr
Rozšířený filtr..
I      l
>
E Microsoft Ewcel - ryby.Hls
lp]  Soubor     Úpravy     Zobrazit     Vbžit     Formát E5            -             f* 42
Nástroje 1 ®) - ^ I
Rozbalení seznamu hodnot nalezených ve sloupci
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
. Vizualizace dat
Typy grafické vizualizace Rizika desinterpretace grafického zobrazení dat
MU
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
IBA
Prvním krokem v analýze dat je jejich vizualizace. Různé typy dat nám umožňující získání představy o rozložení dat, zastoupení kategorií i vztazích proměnných navzájem. Prostřednictvím vizualizace získáváme vhled do dat a začínáme vytvářet hypotézy o zákonitostech panujících mezi proměnnými v hodnoceném souboru dat.
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Grafická prezentace dat - umění komunikace
1. Výskyt kategorií (1, 2, 3,)
Koláčový (výsečový) gra
Sloupcový graf
H Řada2
Sloupcový graf
Rada2
>o
O Q.
O
.O
<
40
20
%
100
50
2. Vývoj hodnot (v čase) Y vs. X (t)
Spojnicový graf         _
Rada
Bodový graf
■Rada
30
15
30
30
1          2          3         10       20       X
0          5          10         15         20         25    X
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovsky, L Dušek
40%
30%
Plošný graf
Rada2
10           20   X
3. Vztahy mezi proměnnými - korelace
Bodový - korelační diagram
>••
.ě
i
•S>
MU
Bodový - korelační diagram
X1
1             2            3           10          20
X2
0            5           10          15          20         25
X2
.drilu
X1
X2
Rada2
J
X2
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek

0    0°     nOfi
0    0       * °       tP.
0              C
Oo   «bi
%     OQ
lnl.Hi.
0    0        00
jO^O     o c
r "c
o .     o      o c 0       0
iiIMm
.ihi
L
%„<*
°»-    ° I
llhL»
Grafická prezentace dat - umění komunikace
4. Kvantitativní hodnoty parametru(ů) -X-v rámci kategorií A, B, C
X    40
Krabicový graf
20
Rada2
X"
5. Histogram
-2-101   23456789 101112
X   1001
50
Rada2
40 35 30 25 20 15 10
/
llllliiiľhw
-50      0       50     100    150    200    250    300
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Sloupcový graf
100
50
I
Rada2
Grafická prezentace dat - umění komunikace
6. Zviditelnění primárních dat
Á I	1	xl	x2 v.        J	x3
•<!ŕpí%»^<i=if{>^í^ ľ*-' -*-"•
vn*** 2,
■*»*■   j-x>r»*'          «^
<3^
^
^
MU
/BA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Grafická prezentace dat - umění komunikace
7. Vztahy mezi proměnnými - interakce dvou parametrů, reakční plochy
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Grafická prezentace dat - umění komunikace
8. Grafické zviditelnění má nekonečně mnoho možností
I BUNKY2 i BUNKY1 I ENZYW2
^^se^*^6
V71 BUHKY2 K3 BUHKY1 ITT ENZYM2
) o o o o o i
I BÜNKY2 I BUNKY1 I  EMZYM2
Case 10 Case 11/^^ Case 12/		-... ^Csss -Csss "„ "3Z----.-------___Csse?	.CaseS ^^Case 4	
			\ Case 3	
Case 13			5^            \case2	
Case 14/			WA              \case1	
Case 15 f Case 16 \	fz		5%	
			500     700     9Í0	
			/ Cass; 30	
Case17\			/Case 23	
Case 18				
		■      ----..,--■-	/case 26	
Case 19 \ Case20x^ Case 21		"""'-^■■■:"v' '	/Case 27 'Case 26	S  BUNKY2 F?j  BUNKY1
		<^2£ase2ltase2ÍM25		ra  ENZYW2
__77^^9^^ř777^^r7T7if^^-.
^    20
■   ■ *  -jP^ ■
•  • ^^
10         15        20         25        BO         35        40        45         50        0
EMZYM1
£t=^s: = :t CI£<PI'.'.£TA ■■,-::?
-í ŕ-í
H0k
^ S ^
í í í
t
WA
WA
T
wry

■IIP
■í ŕ-í
r
f
W SÍSSÍ
111 P
J
pili
I
pil ■
jööööi
ZZI EUNKY2 EX3 EUHKY-mi EHZYH2
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovsky, L Dušek
Nesprávné užití grafů: problém rozsahu číselné osy

The soaraway Post — the daily paper New Yorkers trust
1,900.000 4
1,800.000 1.700.000 1.600,000
1,500.000
eoo.ooo
700.000
1,511.000
600,000
500.000
ÍJĽÍM.0O0
V-HfcOOO
ST   *
NE
vvj

1W7        \V79           1«7*
1.555,009
1*51,0«
i* no
ueht
IM)        1*17
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek


2,00Ot000

O
1,000,000
The Post struggles to catch up
NEWS
POST
L
_L
1
1
1
1
1977 197S 1979 1980 1981
■a  900
_2 o
"D
-o 600
700
600
500
400
300
200
100
Nesprávné užití grafů: problém standardizace hodnot

»li > l * Kr i......1 I  t i  t  r I  i   i r i   T t ■ i i
1930       1940       1950       1960       1970       13Ů0
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
3
"O
o
O
JO
c ■o
O
w
■fl
C
-0)
3
a
e
I

ftl  I   I   .1   I    I   I   1   ■   F    I   I   1   I   I    I   I   »   I   I    I   ■   1   ■   I   I   I    I
1930  1940   1950  1960   1970  i960
Grafy zaměřené na vícerozměrné soubory dokáží zviditelnit i veliké soubory dat
e
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
IV. Teoretické pozadí statistické analýzy
Jak vznikají informace Rozložení dat
MU
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
IBA
Základním principem statistiky je pravděpodobnost výskytu nějaké události. Prostřednictvím vzorkování se snažíme odhadnout skutečnou pravděpodobnost událostí.Klíčovou otázkou je velikost vzorku, čím větší vzorek, tím větší šance na projevení se skutečné pravděpodobnosti výskytu jevu.
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
JAK vznikají informace ? základní pojmy
kutečnost
Náhoda
(vybere jednu z možností pokusu)
Jev
[mtiítiTrs
/Rozliší, co nastalo
a) podle možností
b) podle toho, jak potřebuje
podmnožina všech možných výsledků pokusu/děje, o které lze říct, zda nastala nebo ne
•iti
třída všech jevů, které jsme se rozhodli nebo jsme schopni sledovat
Skutečnost + Jevové pole = Měřitelný prostor
Experimentální jednotka -   objekt, na kterém se provádí šetření
Populace - soubor experimentálních jednotek Znak - vlastnost sledovaná na objekte
Sledovaná veličina - číselná hodnota vyjadřující výsledek náhodného experimentu
Znak se stává náhodnou veličinou, pokud se jeho hodnota zjišťuje vylosováním objektu ze základního souboru
MU
Výběr - výběrová populace - cílová populace Náhodný výběr                           Reprezentativnost
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
JAK vznikají informace ?
„Empirical approach"
„Classical approach"
••

t t
« *
Empirický postup
n = 10
n   °-3"
0.2-0.1 ■
•       •
n
			n	= 50		
0.3-i						
0.2-	i	i			•	
0.1 -n .		•        •       •        •				
n = oo
n   °-3"
0.2-0.1 -
0       12       3      4       5       6
0       12       3      4       5       6
0       12       3      4       5       6
možné jevy: čísla 1-6
n - počet hodů (opakování)
U složitých stochastických systémů se pravda získá až po odvedení značného množství experimentální práce: musíme dát systému šanci se projevit
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
n
0.3 n 0.2-0.1 ■
MU
JAK vznikají informace ?
o     1
Empirický postup
n = 10
n
			n	= 50	
0.3-i					
0.2-	O				(
0.1 -		•       •       •       •			
n = oo
n
0.3-1 0.2-0.1 -
3       4       5       6
0       12       3      4       5       6
0       12       3      4       5       6
možné jevy: čísla 1-6
n - počet hodů (opakování)
Při realizaci náhodného experimentu roste se zvyšujícím se počtem opakování pravdivá znalost systému (výsledky se stávají stabilnější) .... diskutabilní je ale ovšem míra zobecnění konkrétního experimentu
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Empirický zákon velkých čísel
Při opětovné nezávislé realizaci téhož náhodného experimentu se podíl výskytu sledovaného jevu mezi všemi dosud provedenými realizacemi zpravidla ustaluje kolem konstanty.
Pravděpodobnost je libovolná reálná funkce definovaná na jevovém poli A, která každému jevu A přiřadí nezáporné reálné číslo P(A) z intervalu 0 -1.
Z praktického hlediska je pravděpodobnost idealizovaná relativní četnost
0
1
MU
P (A) = 1 .................................jev jistý
P (A) = 0.................................jev nemožný
P (A n B) = P (A). P(B)............. nezávislé jevy
P (A n B) = P (A). P (B/A) ...........závislé jevy
P (A / B) = P (A n B) / P (B)..........podmíněná pravděpodobnost
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Pravděpodobnost výskytu jevu - rozložení dat
o
-y- existuje pravděpodobnost výskytu jevů (nedeterministické závěry) -y- „vše je možné": pouze jev s pravděpodobností 0 nikdy nenastane -y-    pravděpodobnost lze zkoumat retrospektivně i prospektivně
pravděpodobnost výskytu ▲
<pM4
n
+
+
+
+
+
0        12        3      4      5        x počet chlapců v rodině s X dětmi
plocha = pravděpodobnost výskytu
výška postavy
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
V. Základní typy dat
Spojitá a kategoriální data
Základní popisné statistiky
Grafický popis dat
MU
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
IBA
Anotace
•  Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod - od binárních přes kategoriální, ordinální až po spojitá data roste míra informace v nich obsažené.
•  Základním přístupem k popisné analýze dat je tvorba frekvenčních tabulek a jejich grafických reprezentací-histogramů.
MU
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita I"       J. Jarkovský, L Dušek
Jak vznikají informace ? - různé typy dat znamenají různou informaci
Data poměrová
Data intervalová
Data ordinální
Data nominální
Kolikrát ?
Spojitá data
O kolik ?
Větší, menší ?
Rovná se
Kategoriální otázky
Diskrétn data
Otázky „Ano/Ne"
Podíl
hodnot
vetsi/mensi
než
specifikovaná
hodnota ?
Samotná znalost typu dat ale na dosažení informace nestačí
MU
Procenta
odvozené
hodnoty
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Jak vznikají informace ? - různé typy dat znamenají různou informaci
Statistika středu
Data poměrová
Data intervalová
Data ordinální
Data nominální
MU
PRUMER
Spojitá data
Y = f
MEDIÁN	■	^|^H
^^|	1	Diskrétní data      I
MODUS	■	^■^H
X
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
JAK vznikají informace ? opakovaná měření informují rozložením hodnot
Y: frekvence absolutní / relativní
MU
^l
-X
B
Diskrétní data
KOLIK se

CO se
naměřilo
jť
iv   v
X: měřený znak
Spojitá data
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Příklad I:
Příklad II:
Znak X: Hmotnost Znak Y: Plocha
X: Průměrný počet výrobků v prodejně
Y: Odhad prostoru průměrně nabízeného k vystavení výrobku
průměr !            (min - max)
X: 1,2 : (1,15-1,24) Y: 1,8 : (1,75-1,84)
+ / - 3,8 %
+ / - 2,5 %
+ / - 6,2 %
Nová veličina má jinou šířku rozpětí než ty, ze kterých je odvozená
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Jak vznikají informace ? frekvenční tabulka jako základní nástroj popisu
o
O
o
\— II
Q.
"O O .N
Q. (D
DISKRÉTNI DATA
Primárni data
o o 1
2
1 1 3 1 1 2
n = 100
Frekvenční sumarizace
N: 100 dětí (hemofiliků)
x: znak: počet krvácivých epizod za měsíc
x	n(x)	P(x)	N(x)	F(x)
0	20	0,2	20	0,2
1	10	04	30	0,3
2	30	0,3	60	0,6
3	40	0,4	100	1,0
n(x) - absolutní četnost x p(x) - relativní četnost; p(x) = n(x) / n N(x) - kumulativní četnost hodnot nepřevyšujících x N(x) = 2 n(t)
t <x
F(x) - kumulativní relativní četnost hodnot nepřevyšujících x; F(x) = N(x) / n
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Jak vznikají informace ? Grafické výstupy z frekvenční tabulky
n(x)
0           12          3
N(x)
0           12          3
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
P(X)
0           12          3
F(x)
•               ■
•                ■
d               ■
----------------------1---------------------------1---------------------------1---------------------------1
0           12           3               x
Jak vznikají informace ? - frekvenční tabulka jako základní nástroj popisu
Příklad:
O CO O
O O
II
Q.
O
O
a:
SPOJITÁ DATA
x: koncentrace látky v krvi n = 100 pacientů
Primární data
1,21 1,48 1,56 0,31 1,21 1,33 0,33
Frekvenční sumarizace
n = 100 opakovaných měření (100 pacientů)
x: koncentrace sledované látky v krvi (20 - 100 jednotek)
interv	d(l )	n(D	n(l)/n	N(x")	F(x")
<20, 40)	20	20	0,2	20	0,2
<40, 60)	20	10	0,1	30	0,3
<60, 80)	20	40	0,4	70	0,7
<80,100)	20	30	0,3	100	1,0
n = 100
MU
d(l) - šířka intervalu
n(l) - absolutní četnost
n(l) / n - intervalová relativní četnost
N(x") - intervalová kumulativní četnost do horní hranice X"
F(x") - intervalová relativní kumulativní četnost do horní
hranice X"
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Jak vznikají informace ? - frekvenční sumarizace spojitých dat
Histogram
Plocha: n(l) / n
0.025 -i 0.020 -0.015-0.010-0.005 -0.000 -
20       40       60       80       100
f(x)= J^JL r^>
Intervalová
hustota
četnosti
MU
Výběrová distribuční funkce
1 -r
20        40        60        80       100
F(x)     r=>
Intervalová relativní kumulativní četnost
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Počet zvolených tříd a velikost souboru určují kvalitu výstupu
k= 10 tříd
5 4 3 2 1 O
8 7 6 5 4 3 2 1 0
1,5   2,0 2,5 3,0   3,5 4,0 4,5   5,0
5 4 3 2 1 0
k = 20 tříd
1,0
2,0
3,0
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
k = 5 tříd
4,0
12       3       4       5
5,0
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Příklad: věk účastníků vážných dopravních nehod
Q) O
C
<D
>
d)
>G)
>
0) O
o
u
O
O.
0) O
c
<D
MU
350 300 250 200 150 100 50 0
35 30 25 20 15 10 5 0
0
Správný histogram
td
10   20
30   40   50
Věk (roky)
60   70
80
|-					Správný histogram ?	
						
						
Věk
0-
5-
10
16
20
25
4
9
■15
■19
■24
■59
>60
10  20   30  40  50   60   70   80 Věk (roky)
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
f
28
46
58
20
114
316
103
Rozložení
y
Distribuční funkce
J
MU
Je - li dána
distribuční
funkce,
je dáno
rozložení
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Výběrové rozložení hodnot lze modelově popsat a definovat tak pravděpodobnost výskytu X
f(x)
f(x)
cp(x)
f(x)
cp(x)
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Distribuční funkce jako užitečný nástroj pro
práci s rozložením
Plocha = relativní četnost
oo
-/~<p(x) d(x) = 1
F(x):
Pravděpodobnost, že
se X vyskytuje
v intervalu M
P(X<x)= 0(x) = F(x")
M
O(x)... distribuční funkce
P(X<x)=/>(x) d(x)
"/
Známe-li distribuční funkci, pak známe rozložení sledované veličiny.
Pro jakoukoli množinu hodnot (M) lze určit P, že X do této množiny patří.
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Jak vznikají informace ? - frekvenční sumarizace spojitých dat
Grafické výstupy z frekvenční tabulky - spojitá data
f(x)      0.025 -i
0.02-
0.015-
0.01 -
0.005 -
0-
20       40        60   j  80       100
20       40       60       80       100
MU
Uspořádání čísel podle
velikosti a konstrukce
rozložení umožňuje
pravděpodobnostní
zařazení každé jednotlivé hodnoty
KVANTU!
Xq.1 ! X0-9; ^0.5! ^e
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Otázka: Jak velké musí být X, aby 5 % všech
hodnot bylo nad ním?
j(x)
MU
0 = 0,95 ... Pravděpodobnost
Hledáme: P(X<x0) = 0,95 = e
X0 = (Xo,95) = ?
F(x6 ) = e
Xo,95  X
t
Kvantil je číslo, jehož hodnota distribuční funkce je rovna P, pro kterou je kvantil definován
Jakékoliv číslo na ose x je kvantilem
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
VI. Modelová rozložení
Normální rozložení jako statistický model
Aplikace modelových rozložení
Přehled modelových rozložení
MU
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
IBA
Anotace
•  Klasickým postupem statistické analýzy je na základě vzorku cílové populace identifikovat typ a charakteristiky modelového rozložení dat, využít jeho matematického modelu k popisu reality a získané výsledky zobecnit na hodnocenou cílovou populaci.
•  Využití tohoto přístupu je možné pouze v případě shody reálných dat s modelovým rozložením, v opačném případě hrozí získání zavádějících výsledků.
•  Nejklasičtějším modelovým rozložením, od něhož je odvozena celá řada statistických analýz je tzv. normální rozložení, známé též jako Gaussova křivka.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Rozložení hodnot jako model: Normální
rozložení
N (\i,o)
Standardizovaná forma
N (0,1)
Tabelovaná podoba
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Parametry charakterizující normální rozložení a
jejich význam
E (X) ~ X ~ jLl
D (x) ~ s2 ~ a2
a)
b)
IBA
|Ll~X
průměr - ukazatel středu
i_____________________
a2~s2
s   =
rozptyl
_ E(xz. - x)2
n-\
XI              jLl
MU
cp(x)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
c)
d)
^-------   x
průměr     medián
G ~ S
směrodatná odchylka
= ^
s = -\i s
Pravidlo ± 3s koeficient variance
c = s/x
Rozptyl není univerzálním ukazatelem variability		
s2= -		2(Xi - x)2                              __
	rrT	X;                X                                            X; 1                                                          '~N ~~|—|—|—(—|         P|       =>   neúměrně zvýší s2
		X
MU
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita I"       J. Jarkovský, L Dušek
Normální
í jako model
/. Použitelnost modelu
A) X: spojitý znak - hmotnost jedince (myši)
1,2; 1,4; 1,6; 1,8; 2,0; 2,4; 3.8 n = 7 opakování medián = 1,8
průměr =  lýv= -Ýx;= -(l,2 + l,4 + l,6 + l,8 + 2,0 + 2,4 + 3,8) = -14,2 = 2,03 nVx        7tř        7V                                                7
2>7-x)2     Žfo-2,03)2
rozptyl (s2)
2\ -J^L
i=\
n-\
= 0,766
srn. odchylka (s) = Vs  = Jo,766 = 0,875
o
Je předpoklad normálního rozložení oprávněný ? Jaký předpokládáte možný rozsah hodnot tohoto znaku ?
O
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Normální rozložení jako model
/. Použitelnost modelu
B) X: spojitý znak - hmotnost jedince (myši)
1,2; 1,4; 1,6; 1,8; 2,0; 2,2; 2,4; 3,8; 8,9
n = 9 opakování
medián = 2
O              v
prumer
= -Yx1=-Yx1= -(l,2 +1,4+ 1,6+ 1,8+ 2,0+ 2,2+ 2,4+ 3,8+ 8,9) = -25,3 = 2,81 «tř       9£r       9                                                        9
2>7-x)2     Éfe-2,81)2
rozptyl (s2)
2\ =
i=\
i=\
n-\
8
= 5,79
srn. odchylka (s) = V-r = ^5,79 = 2,269
1  Jak hodnotíte model u těchto dat ?   1
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
2
3-
MU
Stochastické
í jako model
1 ►     Předpoklad: Znak x je rozložen podle daného modelu       ý
Znak x je naměřen o n hodnotách
s modelovými parametry: x a s    ^
Platnost    i ^ modelu ?
i__________
Znak x je převeden na formu
odpovídající tabulkovému
standardu:
lh
\Z;       =
X - jU
Využije se tabelovane (modelové) distribuční funkce
pro testy o rozložení hodnot x
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Normální
í jako model - příklad
Tabulky distribuční funkce
Data z průzkumu jsou publikována jako:
Kosti prehistorického zvířete: n = 2000
průměrná délka = 60 cm srn. odchylka (s) = 10 cm
y     Předpokládáme, zeje oprávněný model normálního rozložení
^   Jaká je pravděpodobnost, že by velikost dané kosti překročila velikost
z =
x - JU (7
9
9
66 cm: P (x > 66) ?
p(x>66)=i-P(x<66) a platí, že P{x <x) = f{x)
tedy   p(x > 66) = 1 -P(x < 66) = 1 -P(x^m- < 66~60) = 1 -f(0,6) = 0,27425
s           10
Kolik kostí mělo zřejmě délku větší než 66 cm ? ^>66)*«=0,27425*2000=548 Jaký podíl kostí ležel svou délkou v rozsahu x od 60 cm do 66 cm ?
P(60<x<66)=P
MU
60-60 10
<Z<
66-60
10
F
J
(0,6)-f(0) = 0,22575 ||^ 22,6% kostí leží v rozsahu 60-66crr
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Stručný přehled modelových rozložení 1.		
Rozložení              Parametry                              Stručný popis		
Normálni	Průměr (ji) Rozptyl (a2)	Symetrická funkce popisující intervalovou hustotu četnosti; nejpravděpodobnější jsou průměrné hodnoty znaku v populaci.
Log-normální	Medián Geometrický průměr Rozptyl (a2)	Funkce intervalové hustoty četnosti, která po logaritmické transformaci nabude tvaru normálního rozložení.
Wei bull ovo	a - parametr tvaru ß - parametr rozsahu hodnot	Změnou parametru a lze modelovat distribuci doby přežití, např. stresovaného organismu. Rozložení využívané i jako model k odhahu LC50 nebo EC50 u testů toxicity.
Rovnoměrné	Medián Geometrický průměr Rozptyl (a2)	Funkce intervalové hustoty četnosti, která po logaritmické transformaci nabude tvaru normálního rozložení.
Triangulární	f(x) = [b - ABS (x - a)] / b2 a-b<x<a+b	Pravděpodobnostní funkce pro typ rozložení, kdy jsou střední hodnoty výrazně pravděpodobnější než hodnoty okrajové.
Gamma	Parametry distribuční funkce: a - parametr tvaru ß - parametr rozsahu hodnot	Umožňuje flexibilně modelování distribučních funkcí nejrůznějších tvarů. Např. %2 rozložení je rozložení typu Gamma. Gamma rozložení s a = 1 je známo jako exponenciální rozložení.
IP>        J. Jarkovský, L Dušek		
Stručný přehled modelových rozložení II.		
Rozložení	Parametry	Stručný popis
Beta	Parametry distribuční funkce: a - parametr tvaru ß - parametr rozsahu hodnot	Pravděpodobnostní funkce pro proměnnou omezenou rozsahem do intervalu [0; 1]. Je matematicky komplikovanější, ale velmi flexibilní při popisu změn hodnot proměnné v ohraničeném intervalu.
Studentovo	Stupně volnosti -uvažuje velikost vzorku Průměr Rozptyl	Simuluje normální rozložení pro menší vzorky čísel. Pro větší soubory (n > 100) se limitně blíží k normálnímu rozložení.
Pearsonovo	Stupně volnosti -uvažuje velikost vzorku	Slouží především k porovnání četností jevů ve dvou a více kategoriích. Používá se k modelování rozložení odhadu rozptylu normálně rozložených dat.
Fisher-Snedecorovo	Dvojí stupně volnosti -uvažuje velikost dvou vzorků	Používá se k testování hodnot průměrů - F test pro porovnání dvou výběrových rozptylů; F test, ANOVA atd.
■ p>        J. Jarkovský, L Dušek		
Log-normální rozložení jako častý model
reálných znaků
cp(x)
Medián   Průměr
U asymetrických rozložení je medián velmi vhodným alternativním ukazatelem středu
Medián - frekvenční střed
•      •
k
• • •
MU
Prumer - teziste osy x
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Log-normální rozložení lze jednoduše
transformovat
Y = Ln [X]
Medián  Průměr     x
ln(x)
Medián  =    Průměr
/
EXP (Y) = Geometrický průměr X
__        n    y
Ý ± Standardní chyba
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Transformace dat - legitimní úprava
/
Základní typy transformací vedou k normalitě rozložení nebo k homogenitě rozptylu
ogaritmická transformace
Logaritmická transformace je velmi vhodná pro data s odlehlými hodnotami na horní hranici rozsahu. Při porovnání průměrů u více souborů dat je pro tuto transformaci indikující situace, kdy se s rostoucím průměrem mění proporcionálně i směrodatná odchylka, a tedy jednotlivé proměnné mají stejný koeficient variance, ačkoli mají různý průměr.
Za takovéto situace přináší logaritmická transformace nejen zeslabení asymetrie původního rozložení, ale také vyšší homogenitu rozptylu proměnných. Pro transformaci se nejčastěji používá přirozený logaritmus a pokud jsou v původním souboru dat nulové hodnoty, je vhodné použít operaci Y = In (X+1).
Je-li průměr logaritmovaných dat (tedy průměrný logaritmus) zpětně transformován do původních hodnot, výsledkem není aritmetický, ale geometrický průměr původních dat.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
IBA
Transformace dat - legitimní úprava
/
Základní typy transformací vedou k normalitě rozložení nebo k homogenitě rozptylu
mocninova transTormac
Transformace je vhodná pro proměnné mající Poissonovo rozložení, tedy proměnné vyjadřující celkový počet nastání určitého jevu (spíše vzácného) v n nezávisle opakovaných pokusech. Obecněji lze tento typ transformace doporučit v případě normalizace dat typu počtu jedinců (buněk, apod.). Jde o transformaci:
Y = yjx      nebo     Y = Vx +1     nebo     7=Vx+Vx+l
Transformace s přičtenou hodnotou 1 jsou efektivní, pokud X nabývá velmi malých nebo nulových hodnot. Situace indikující vhodnost odmocninové transformace je také proporcionalita výběrového rozptylu a průměru, tedy obecně jestliže s2x = k (výběrový průměr).
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Transformace dat - legitimní úprava
Tcsin transformace
Tzv. úhlová transformace - velmi vhodná pro data typu podílů výskytu určitého jevu (znaku) mezi n hodnocenými jedinci - tedy pro data mající binomické rozložení. Pokud se určitý znak vyskytuje r-krát mezi n možnostmi (jedinci, opakováními), pak lze vyjádřit relativní četnost jeho výskytu jako p = r/n s variabilitou p.(1-p)/n. Arcsin transformace odstraní ze souborů dat podíly blízké 0 nebo 1, a tak efektivně sníží variabilitu odhadů středu. Transformace však není schopná odstranit variabilitu vyvolanou rozdílným počtem opakování v jednotlivých variantách - v takovém případě lze doporučit provedení vážených transformací dat. Velmi častou formou této transformace je:                                                      .—
Y = arcsin ^p
- tedy transformace podílů do hodnot, jejichž sinus je roven druhé odmocnině původních hodnot. Pokud celkový počet jedinců (opakování), mezi kterými je výskyt znaku monitorován, je n < 50, pak lze doporučit velmi efektivní empirická opatření pro transformaci podílů blízkých 0 nebo 1. Pro tento případ lze nahrazovat nulové podíly hodnotou 1/4n a 100 % podíly hodnotou (n-1/4)/n. Pokud se mezi hodnotami vyskytuje větší množství krajních hodnot (menší než 0,2 a větší než 0,8), lze doporučit transformaci:
2
x
arcsm
n + 1
+ arcsm
x + 1 n + 1
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
21
VIL Popisná statistika dat
Popisné statistiky dat Vizualizace dat
MU
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
IBA
Anotace
•  Popisná analýza dat je po vizualizaci dat dalším krokem v procesu statistického hodnocení. Poskytuje představu o rozsazích hodnocených dat a umožňuje vyhodnotit, srovnámís literárními údaji nebo dosavadní zkušeností, jejich realističnost.
•  Již při výběru vhodné popisné statistiky se uplatňuje znalost rozložení dat. Některé popisné statistiky, odvozené od modelových rozložení, je možné využít pouze v případě, že data mají dané modelové rozložení. Typickým příkladem je průměr a směrodatná odchylka, jejichž předpokladem je přítomnost normálního rozložení.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Kvalitativní/kategorická
o  binární   -ano/ne
o  nominální            - A,B,C ... několik kategorií
o  ordinální-1<2<3 ...několik kategorií a můžeme se ptát, která je
V   -    v /
vetsi
Kvantitativní
o nespojitá - čísla, která však nemohou nabývat všech hodnot (např. počet porodů)
o spojitá-teoreticky jsou možné všechny hodnoty (např. krevní tlak)
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Řada dat a její vlastnosti
-------o-------
Jednotlivé hodnoty
i—i—i—i—i
ľ?
<h
3    4    3    1
Parametry rozložení
Počty hodnot v kategoriích
OOQ ooooo O  O      o
min
Box & whisker     |. plot
prumer    max medián
kvartily
]
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Frekvenční rozložení
Kategorie	Četnost
B	5
C	8
D	1
Kvalitativní data
Tabulka s četností jednotlivých kategorií.
Kvantitativní data
Četnost hodnot rozložení v jednotlivých intervalech.
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Soubor dat (řada čísel) můžeme charakterizovat parametry jeho rozložení Hlavní skupiny těchto parametrů můžeme charakterizovat jako ukazatele:
o  Středu (medián, průměr, geometrický průměr)
o  Šířky rozložení (rozsah hodnot, rozptyl, směrodatná odchylka)
o  Tvaru rozložení (skewness, kurtosis)
o  Kvantily rozložení- kolik % řady dat leží nad a pod kvantilem
Cp(X)
<P(x)
Průměr      Medián
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Populace představuje veškeré možné objekty vzorkování, např. veškeré obyvatelstvo ČR při sledování na úrovni ČR, z populace získáme reálné parametry rozložení
Z populace je prováděno vzorkování za účelem získání reprezentativního vzorku (sample) populace, toto vzorkování by mělo být náhodné, důležitá je také velikost vzorku, ze vzorku získáme odhady parametrů rozložení
Populace
■► í M
Sample
o
o
Průměr, SD atd.
Odhad průměru, SD
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Průměr-vhodný ukazatel středu u normálního/symetrického rozložení, kde X: jsou jednotlivé hodnoty a n jejich počet
E(x) = x = ^—L

Medián -jde vlastně o 50% kvantil, tj. polovina hodnot leží nad a polovina pod mediánem
V případě symetrického rozložení jsou jejich hodnoty v podstatě shodné
<P(x)
Průměr      Medián
Medián    Průměr
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Ukazatele středu rozložení II.
Geometrický průměr - antilogaritmus průměru logaritmovaných dat, je vhodný pro doleva asymetrická data (lognormální rozložení), která jsou v biologii velmi častá, jeho hodnota v podstatě odpovídá mediánu
Takto asymetrická data je možné převést logaritmickou transformací na normální rozložení
log
V//////////////////////y//////////J(//////////A///////////!f////M
íí     Ť
u           Průměr
Medián, geometrický průměr
Průměr (logaritmovaných dat)
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Ukazatele šířky rozložení
Rozptyl je ukazatelem šířky rozložení získaný na základě odchylky jednotlivých hodnot od průměru. 2    Y(xx -x)2
n-1
•   Obdobně jako u průměru je jeho vypovídací schopnost nejvyšší v případě symetrického/normálního rozložení
•   Směrodatná odchylka je druhá odmocnina z rozptylu
•   Koeficient variance - podíl SD ku průměru (u normálního rozložení by se 95% hodnot mělo vejít do průměr 4-3 SD), pokud je SD větší než 1/3 průměru jsou teoreticky pravděpodobné záporné hodnoty v rozložení- ukazatel problémů s normalitou dat
MU
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita rTT"       J. Jarkovský, L Dušek
Ukazatele tvaru rozložení
Skewness- ukazatel „šikmosti'' rozložení, asymetrie rozložení Kurtosis - ukazatel „špičatosti/plochosti" rozložení
skewness>0                                        skewness<0
kurtosis<0
kurtosis>0
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Další parametry rozložení
Počet hodnot - důležitý ukazatel, znamená jak moc lze na data spoléhat
Střední chyba odhadu průměru -je založena na směrodatné odchylce rozloženia počtu hodnot, vlastně jde o směrodatnou odchylku rozložení průměru. Říká jak přesný je náš výpočet průměru. Čím větší počet hodnot rozložení, tím je náš odhad skutečného průměru přesnější.
Suma hodnot
Modus- nejčastější hodnota, vhodný např. při kategoriálních datech
•    Minimum, maximum
Rozsah hodnot
Harmonický průměr - převrácená hodnota průměru převrácených hodnot (vždy platí harmonický průměr < geometrický průměr < aritmetický průměr)
MU
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita I"       J. Jarkovský, L Dušek
Vlil. Prováděni odhadu
Bodové a intervalové odhady Význam intervalu spolehlivosti
MU
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
IBA
Anotace
•  Dva základní přístupy statistického hodnocení jsou popis dat a testování hypotéz. Při popisu dat je třeba si uvědomit, že popisné statistiky získané ze vzorku nejsou skutečnou hodnotou v cílové populaci, ale pouze jejím odhadem. Přesnost odhadu závisí jednak na variabilitě dat, jednak na velikosti vzorku, při navzorkování celé cílové populace by výsledná popisná statistika již byla přesnou hodnotou, nikoliv odhadem.
•  Odhady a s nimy související intervaly spolehlivosti jsou univerzálním statistickým postupem a je možné je dopočítat k libovolné popisné statistice.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Statistika v průzkumném studiu
Provádění odhadu
Reprezentativnost /
Ověření
POPIS
MU
Výsledek
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Testy hypotéz
Cílová populace
Závěr ? Interpretace
OTÁZKY
INTERVAL SPOLEHLIVOSTI
velmi užitečná míra věrohodnosti odhadů
ODHADY
Bodové
Číslo (chyba) (Odhad parametru)
Intervalové
Interval pravděpodobných hodnot
Spolehlivost (Pravděpodobnostní interpretace)
Obecný tvar:
Odhadovaný parametr
Kvantil
modelového  x   SE (odhadu)
rozložení
Kv pro (1 - a/2)
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
NORMÁLNI ROZLOŽENÍ: model pro odhad průměru
Cílová populace
\
M
X
X......odhad průměru
MU
		
	Prezentace	
L________________	n; x; s s n; x;   .— _   V n n; x; c n;  x; Interval spolehlivost i pro odhad průměru	
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
NORMÁLNÍ ROZLOŽENÍ: odhad průměru je rovněž normálně rozložen
Cílová populace
znakx
X:
M
Náhodné výběry o n = 100
X1     X2      X3      X4
\.
"SS
Xi
q>(x)
prumerx
MU
M
X
x: \x, ± 3s
x
M±3 .
rrT
rrv
^   Standardní chyba odhadu průměru
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
ODHAD PRŮMĚRU: Vztahy
Bodový
f   s   ^
JV    i
V ^rn J
Intervalový
Zr       Av = n-\)
x -1
-^Av = n-\)
\-CCy
v«
< jU < X + ťf_
a,
-yjn

.  TT-U ^(^ = «-l)
ju:x ±ť
a,
S^
x
... příslušný kvantil Studentova
rozložení - a ... spolehlivost hodnoceného
intervalu
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Interval spolehlivosti odhadu průměru je pouze informací o přesnosti tohoto odhadu
Interval spolehlivosti je hodnocen pro (1 - a) procentní spolehlivost
Cílová populace
Výběrové populace
Původní proměnná x
Šířku intervalu určuje:
a) velikost vzorku
b) rozptyl (variabilita) vzorku
c) požadovaná spolehlivost
Výběrn=10 pro odhad průměru
Výběr n=100 pro odhad průměru
VTöö   Vioo
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
ODHAD PRŮMĚRU: Příklad
X: Cena výrobku v n = 21 obchodech Data:
« = 21;jc = 3,58;í  =0,12
s- = J0,12/21 = 0,075
95% Interval spolehlivosti
(u = n-1)
(20)
t
1-0/2
= t0)975 =2,086
ju : x ± 29086  .s
X
3,58 - 2,086.0,075 < ju < 3,58 + 2,086.0,075
3,423 < m < 3,737
hv^l
P (3,423 < m < 3,737) > 0,95
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Interval spolehlivosti pro odhad rozptylu
_____________<n_____________
2             2
S    ~ CT    pro velká n
Interval spolehlivosti
2   («-!)"' a)pro<x  :    2    (Li)
Z  a/2
"     <<72<     ^"^
2            (w-l)
b) pro a:
.    (»-1>
2      (»-1)
X  «/2
<cr<
(n-l)
2            (n-l)
*   (l-«/2)
. (»-iy
c)proo-/Vn:,[          M)
»Z  a/2
<^<
(n-l>
<JHn
2          («-i)      -směrodatná odchylka
^Z M/2)             odhadu průměru (S.E.)
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Interval spolehlivosti pro odhad rozptylu: příklad
Příklad: měření produkce metabolitu (x) u buněk dvou nádorových linií
Linie 1
n = 50
s2(x) = 10 (mg/ml)2
s(x) = 3,16 mg/ml
x = 2 mg/ml
š~x = 0,447 mg/ml
95% IS
49  *   10<   ?<49  *   10 77,22   ~     "31,56
6,98 <<r2 <15,53
c = 1,58
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Linie 1
n = 100
s2(x) = 16 (mg/ml)2
s(x) = 4 mg/ml
x = 2,8 mg/ml
šx = 0,4 mg/ml
95% IS
99   *   16 ^   2 .99   *   16
128,42
73,36
12,33 <a2 < 13,49 c = 1,43
Výpočet mediánu z frekvenčních dat a jeho
odhady
a)  Určete medián tohoto souboru dat: 1,3,4,5,7,8         [4,5]
b)  Určete medián tohoto souboru dat: 5,1,8,3,4           [4]
c)  Tento příklad je ukázkou výpočtu mediánu u velkého souboru dat. V následující tabulce je uveden rozbor rozložení souboru dat od 179 krav, kde sledovanou veličinou byl počet dní od narození telete do znovuobnovení menstruačního cyklu. Uvedená data jsou velmi zjednodušena |a jsou zde uvedena pouze pro ilustraci:
:iass limits
(days)
0,5-20,5
20,5-40,5
40,5-60,5
60,5-80,5
80,5-100,5
100,5-120,5
120,5-140,5
140,5-160,5
160,5-180,5
180,5-200,5
200,5-220,5
Frequency
8
33
50
32
15
20
11
Cumulative frequency
8
41
91
123
138
158
169
175
177
178
179
Frekvence zastoupení dosahuje nejvyšší hodnoty u třídy od 40,5 - 60,5 dnů. Druhý (menší) frekvenční pík lze pozorovat u intervalu od 100,5 do 120,5 dní. Existence dvou maxim (bimodální data) je důkazem nenormality tohoto
konkrétního souboru.
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Výpočet mediánu z frekvenčních dat a jeho
odhady
Jelikož n =179, pak je medián devadesátá hodnota od počátku souboru, a dále je zřejmé, že bude velmi blízko horní hranici třídy 40,5 - 60,5 dní. Za předpokladu, že 50 hodnot této třídy je v ní rovnoměrně rozmístěno lze použít následující vzorec:
XL = hodnota X (sledované veličiny) na spodní hranici třídy obsahující medián: zde 40,5 dní
g = pořadová hodnota mediánu minus kumulativní frekvence do horní hranice předchozí třídy, tj. 90-41= 49
I = třídní interval: 20 dní
f = frekvence ve třídě obsahující medián
Dosadíme-li do uvedeného vzorce, získáme odhad mediánu jako 60 dní. Průměr tohoto datového souboru je 69,9, což je
významně odlišná hodnota, a potvrzuje znovu nenormální charakter dat. U velkých vzorků z normálních populací je výběrový odhad mediánu normálně rozložen kolem populační hodnoty se
směrodatnou odchylkou 1,253 <r /->Jn . U normálního rozložení, kde medián i průměr představují odhad stejné hodnoty, je
medián méně přesný než průměr. Proto hlavní význam mediánu spočívá u nesymetrických distribucí. Existuje velmi jednoduchá metoda pro výpočet intervalu spolehlivosti pro odhad mediánu a jako horní a spodní hranice slouží
pořadová čísla vypočítaná podle následujícího vztahu:
n představuje velikost datového souboru, zje kvantil standardizovaného normálního rozložení pro příslušnou pravděpodobnost. U našeho příkladu je n = 179 a pro 95% interval spolehlivosti je z přibližně rovno 2. Horní a spodní limit pro odhad mediánu tedy je  90 + Vl79 = 77 a 1 03- 95% interval spolehlivosti je tedy tvořen počty dní, které mají pořadí 77 a 103:
77: Počet dní = 40,5+(36)(20)/50 = 55 dní 103: Počet dní = 60,5+(12)(20)/32 = 68 dní
Medián cílové populace byl tedy odhadnut 95% intervalem spolehlivosti jako hodnota ležící mezi 55 a 68 dny. Interpretujte tento výsledek.
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
IX. Základy testování hypotéz
Princip statistického testování hypotéz
Pojmy statistických testů Normalita dat a její význam pro testování
MU
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
IBA
Anotace
•   Testování hypotéz je po popisné statistice druhým hlavním směrem statistických analýz. Při testování pokládáme hypotézy, které se snažíme s určitou pravděpodobností potvrdit nebo vyvrátit.
•   Tzv. nulovou hypotézu lze nejlépe popsat jako situaci, kdy předpokládáme vliv náhody (rozdíl mezi skupinami je pouhá náhoda, vztah dvou proměnných je pouhá náhoda apod.), alternativní hypotéza předpokládá vliv nenáhodného faktoru.
•   Výsledkem statistického testu je v zásadě pravděpodobnost nakolik je hodnocený jev náhodný nebo ne, při překročení určité hranice (nejčastěji méně než 5% pravděpodobnost, že jev je pouhá náhoda) deklarujeme, že pravděpodobnost náhody je pro nás dostatečně nízká abychom jev prohlásili za nenáhodný
•   Statistická významnost je ovlivnitelná velikostí vzorku a tak je pouze indicií k prohlášení např. rozdílu dvou skupin pacientů za skutečně významný. V ideální situaci je nezbytné aby rozdíl byl významný nejenom statisticky (=nenáhodný), ale i prakticky (=nejde pouze o artefakt velikosti vzorku).
MU
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita I"       J. Jarkovský, L Dušek
Statistika v průzkumném studiu
Provádění odhadu
Reprezentativnost /
Ověření
POPIS
MU
Výsledek
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Testy hypotéz
Cílová populace
Závěr ? Interpretace
OTÁZKY
Princip testování hypotéz
•    Formulace hypotézy
•   Výběr cílové populace a z ní reprezentativního vzorku
•    Měření sledovaných parametrů
•    Použití odpovídajícího testu      >        j^>        závěr testu
•    Interpretace výsledků
Cílová populace
Závěr ? Interpretace
			
			
i                   w			
______■—r-\      / \			
i    —       \			
/                  \			
/                    \			
	'		
	Vzorek		
^>           y    Reprezentativnost ?   ^
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Testy hypotéz
/\ Měření parametrů
Nulová hypotéza H0
H0: sledovaný efekt je nulový
Alternativní hypotéza HA       Ha: sledovaný efekt je různý mezi skupina
Testová statistika
mi
Testová statistika =
Pozorovaná hodnota - Očekávaná hodnota
Variabilita dat
*\| Velikost vzorku
Kritický obor testové statistiky
Statistické testování odpovídá na otázku zda je pozorovaný rozdíl náhodný či nikoliv. K odpovědi na otázku je využit statistický model - testová statistika.
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Léčba
&
Placebo
t t t t t
t
...
t
!*
t t t
Co znamená náhodný rozdíl
Xi
Je tu rozdíl?
Jak by vypadal rozdíl, kdyby byl náhodný?
Nasimulujme si ho !!! ©
t t
Mnohokrát
t?
Xi
t
f
í t
T3 N O
CĹ
C>
t t
t
I
t
t t
ŕ t
f
t t
Rozložení možných náhodných rozdílů
Xi
'                         •>	>
x2 -	
_
04
i m m n
í í
Rozdíl ?
Kde lezi skutečny rozdíl?
Jak moc je
pravděpodobné, že
je náhodný?
Možné chyby při testování hypotéz
I přes dostatečnou velikost vzorku a kvalitní design experimentu se můžeme při rozhodnutí o zamítnutí/nezamítnutí nulové hypotézy dopustit chyby.
Správné rozhodnutí
1-a
Závěr testu
Hypotézu              Hypotézu
nezamítáme           zamítáme
Chyba I. druhu
a
1-ß
Správné rozhodnutí
Chyba II. druhu
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
n       v-------1\   Pravděpodobnost nesprávneho
-------v    zamítnutí nulové hypotézy
Pravděpodobnost chyby 2. druhu
ß   i
Pravděpodobnost nerozpoznaní neplatné nulové hypotézy
MU
IBA
____k     Pravděpodobnostně vyjadrená
1 -ß   )        y   schopnost rozpoznat neplatnost
hypotézy
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Parametrické vs. neparametrické testy
Parametrické testy
•    Mají předpoklady o rozložení vstupujících dat (např. normální rozložení)
•    Při stejném N a dodržení předpokladů mají vyšší sílu testu než testy neparametrické
•    Pokud nejsou dodrženy předpoklady parametrických testů, potom jejich síla testu prudce klesá a výsledek testu může být zcela chybný a nesmyslný
Neparametrické testy
•    Nemají předpoklady o rozložení vstupujících dat, lze je tedy použít i při asymetrickém rozložení, odlehlých hodnotách, či nedetekovatelném rozložení
•    Snížená síla těchto testů je způsobena redukcí informační hodnoty původních dat, kdy neparametrické testy nevyužívají původní hodnoty, ale nejčastěji pouze jejich pořadí
MJ
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita m        J. Jarkovský, L Dušek
One-sample vs. two sample testy
One - sample testy
•    Srovnávají jeden vzorek (one sample, jednovýběrově testy) s referenční hodnotou (popřípadě se statistickým parametrem cílové populace)
•    V testu je tedy srovnáváno rozložení hodnot (vzorek) s jediným číslem (referenční hodnota, hodnota cílové populace)
•    Otázka položená v testu může být vztažena k průměru, rozptylu, podílu hodnot i dalším statistickým parametrům popisujícím vzorek
Two - sample testy
•    Srovnávají navzájem dva vzorky (two sample, dvouvýběrové vzorky)
•    V testu jsou srovnávány dvě rozložení hodnot
•    Otázka položená v testu může být opět vztažena k průměru, rozptylu, podílu hodnot i dalším statistickým parametrům popisujícím vzorek
•    Kromě testů pro dvě skupiny hodnot existují samozřejmě i testy pro více skupin dat
MU
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita m        J. Jarkovský, L Dušek
One - tailed testy
•    Hypotéza testu je postavena asymetricky, tedy ptáme se na větší než/ menší než
•    Test může mít pouze dvojí výstup - jedna z hodnot je větší (menší) než druhá a všechny ostatní případy
Two - tailed testy
•    Hypotéza testu se ptá na otázku rovná se/nerovná se
•    Test může mít trojí výstup - menší - rovná se - větší než
•    Situace nerovná se je tedy souhrnem dvou možných výstupů testu (menší+větší)
MU
Kritický obor
Kritický obor
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Nepárový design
•    Skupiny srovnávaných dat jsou na sobě zcela nezávislé (též nezávislý, independent design), např. lidé z různých zemí, nezávislé skupiny pacientu s odlišnou léčbou atd.
•    Při výpočtu je nezbytné brát v úvahu charakteristiky obou skupin dat
Párový design
•    Mezi objekty v srovnávaných skupinách existuje vazba, daná např. člověkem před a po operaci, reakce stejného kmene krys atd.
•    Vazba muže být buď přímo dána nebo pouze předpokládána (v tom případě je nutné ji
v v..-v
ovent)
•    Test je v podstatě prováděn na diferencích skupin, nikoliv na jejich povodních datech
nepárový x I        two sample test
x:
XI   X2
ŕ------*-
í-—•*-\-—~
Diference
XI aX2
L
Párový ^> two sample
lest
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
•    Normalita dat je jedním z předpokladů tzv. parametrických testů (testů založených na předpokladu nějakého rozložení) - např. t-testy
•    Pokud data nejsou normální, neodpovídají ani modelovému rozložení, které je použito pro výpočet (í-rozložení) a test tak může lhát
ň      v
•   Řešením je tedy:
o   Transformace dat za účelem dosažení normality jejich rozložení
o   Neparametrické testy - tyto testy nemají žádné předpoklady o rozložení dat
Typ srovnání
Parametrický test
Neparametrický test
2 skupiny dat nepárově: 2 skupiny dat párově: Více skupin nepárově:
Korelace:
Nepárovýt-test
Párový t-test
AN OVA
Pearsonův koeficient
Mann Whitney test Wilcoxon test, sign test
Kruskal- Wallistest
Spearmanův koeficient
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
250
200
150
100
Testy normality pracují s nulovou hypotézou, že není rozdíl mezi zpracovávaným rozložením a normálním rozložením. Vždy je ovšem dobré prohlédnout si i histogram, protože některé odchylky od normality, např. bimodalitu některé testy neodhalí.
•Test dobré shody
V testu dobré shody jsou data rozdělena do kategorií (obdobně jako při tvorbě histogramu), tyto intervaly jsou normalizovány (převedeny na normální rozložení) a podle obecných vzorců normálního rozložení jsou k nim dopočítány očekávané hodnoty v intervalech, pokud by rozložení bylo normální. Pozorované normalizované četnosti jsou poté srovnány s očekávanými četnostmi pomocí %2 testu dobré shody. Test dává dobré výsledky, ale je náročný na n, tedy množství dat, aby bylo možné vytvořit dostatečný počet tříd hodnot.
• Kolgomorov Smirnov test
Tento test je často používán, dokáže dobře najít odlehlé hodnoty, ale počítá spíše se symetrií hodnot než přímo s normalitou. Jde o neparametrický test pro srovnání rozdílu dvou rozložení. Je založen na zjištění rozdílu mezi reálným kumulativním rozložením (vzorek) a teoretickým kumulativním rozložením. Měl by být počítán pouze v případě, že známe průměr a směrodatnou odchylku hypotetického rozložení, pokud tyto hodnoty neznáme, měla by být použita jeho modifikace - Lilieforsův test.
•Shapiro-Willťs test
Jde o neparametrický test použitelný i při velmi malých n (10) s dobrou sílou testu, zvláště ve srovnání s alternativními typy testů, je zaměřen na testování symetrie.
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
28
Šikmost a špičatost jako testy normality
Parametry normálního rozložení, skewness a kurtosis mohou být využity pro testování normality, ale pouze pro velké vzorky (šikmost - 100, špičatost - 500).
skewness>0                                   skewness<0
kurtosis<0
kurtosis>0
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
c o
ro
> d)
■o
2.5
2
1.5
1
0.5
0      1 -0.5
-1
-1.5 -2
Grafická diagnostika normality
Rootgram
20
40
Zn
60
80
c O
ro
> d)
■o
0.6
0.4
0.2
0
-0.2
-0.4
-0.6
-0.8 -1
Rootgram
TT
W
u
10          15         20         25        30
Pb
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovsky, L Dušek
0,32
d)
g   0,12
d)
>
d)
-0,8
-0,28
-0,48
MU
Grafická diagnostika normality
Hanging Histobars.
-4PS-
-50        -10        10
30
Zn
0,2
d)
ü    0,15
d)
.*    0,1
d)
0,05
-0,05
-0,1
50          70       90
-50
Hanging Histobars.
10
20
Pb
30
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
c d)
d)
Q.
d)
>
3
E
3
O
99,9 99 95 80 50
20 5
1 0,1^
MU
Grafická diagnostika normality
Normal Probability Plot
20
40
Zn
60
80
c	99,9
d)	
E	99
d)	
Q.	
d) >	95
+■>	
CÖ	
3	80
E	
3	
O	50
	20
	5
	1
	0,1
Normal Probability Plot
10
15
20
Pb
25
30
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
X. Statistické testy o parametrech jednoho výběrů
Jednovýberový t-test Jednovýberový test rozptylu
MU
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
IBA
Anotace
• Jednovýberove statistické testy srovnávají některou popisnou statistiku vzorku (průměr, směrodatnou odchylku) s jediným číslem, jehož význam je ze statistické hlediska hodnota cílové populace
Z hlediska statistické teorie jde o ověření, zda daný vzorek pochází z testované cílové populace.
MU
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita I"       J. Jarkovský, L Dušek
V případě one sample testů jde o srovnání výběru dat (tedy one sample) s cílovou populací. Pro parametrické testy musí mít datový soubor normální rozložení.
I     ^     Průměr - cílová vs. výběrová populace
H0	HA	Testová statistika	Interval spolehlivosti
X<jU	X> jU	t	t>vr
X> jU	X < jU	t	t<t/-i)
X = jU	X^ JU	t	Nnr
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
V případě one sample testů jde o srovnání výběru dat (tedy one sample) s cílovou populací. Pro parametrické testy musí mít datový soubor normální rozložení.
CZ^    Rozptyl - cílová vs. výběrová populace
Ho	HA	Testová statistika	Interval spolehlivosti
2 ^      2 S    <<J	2            2 S    ><J	x2	x2 > xL(n-1) 9          9  ŕn-ľ)
2 v^      2 S    ><J	S    <<J	ť	x <x;( '
2            2 S    =<J	2    ,       2 S    ^ <7	x2	2           2 ^2      "|fa/2nebo X    < Xa/2
MU
/BA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Srovnání odhadu průměru s předpokládanou
hodnotou I
Koncentrace antibiotika v cílovém orgánu
Při 1000 měřeních antibiotika byla zjištěna v cílovém orgánu průměrná koncentrace 202,5 jednotek a směrodatná odchylka 44 jednotek.
Požadovaná koncentrace antibiotika je 200 jednotek.
1)   Je daný rozdíl 2,5 významný vzhledem k variabilitě znaku na hladině významnosti 5%?
2) Jaká je skutečná hladina významnosti?
t = ^^ Jn = ^ VTÖÖÖ = 1,797 s             44
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Srovnání odhadu průměru s předpokládanou
hodnotou II
Aktivita enzymu v buňkách
Při zjišťování aktivity enzymu v buňkách na vzorku 25 měření byl zjištěn průměr 3,5 jednotek a
směrodatná odchylka 1. 1. otázka zní, zda se naměřené hodnoty našeho vzorku liší od výsledků dřívější rozsáhlé studie
zaměřené na celou cílovou populaci, kde byla zjištěna průměrná aktivita 2,5 jednotky?
X-jU   r     3,5-2,5   r—
HO: x=n tedy two tailed test t =---------~4n =-------------V25 = 5
s                   1
Íq4975 = 2,064 C^> t > t™a/2 C^> HO zamítnuta při ct<0,05
0,975        -?~v .  |---y  v ^  *\-ai2
od jiné hodnoty bychom zachytili při daných hodnotách?
2. otázka -jakou minimální odchylku X od jiné hodnoty bychom zachytili při daných hodnotách?
x-u   r-    d   r-    ^   , t —-------^n=—^n   ^ d —
d_
s
t
l-a/2
d=***i
3. za předpokladu, že z praktického hlediska je významná odchylka již 0,2 jednotky, jaký minimálni počet měření musíme provést, abychom ji byli schopni prokázat ?
f.*    v
x—u r   « r ^ t=------v«=—v«^ n—
s
d
s
ll-a/2
S
V
J
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Srovnání odhadu průměru s předpokládanou
hodnotou
27 mesicu
•  Přiklad: Nový lek na rakovinu plic (predpokladáme studii s dostatečně velkým n)       n
Průměrná doba přežití pacientů je Průměrná doba přežití bez léku je
22 mesicu
prodlužuje nový lek přežiti?
Testová statistika: T = 6,120
H0: |j = 22,2 měsíce H^ |j > 22,2 měsíce
5% kritická hodnota normálního rozdělení ■=> 1,645
Jelikož hodnota statistiky T překračuje kritickou hodnotu
Zamítáme H0 Doba přežití léčených pacientů se oproti neléčeným prodlouží.
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
XI. Statistické testy o parametrech dvou výběrů
Dvouvýberový párový a neparový t-test Neparametrické alternativy t-testu
MU
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
IBA
Jedním z nejčastějších úkolů statistické analýzy dat je srovnání spojitých dat ve dvou skupinách pacientů. Na výběr je celá škála testů, výběr konkrétního testu se pak odvíjí od toho, zda je o srovnání párové nebo nepárové a zda je vhodné použít test parametrický (má předpoklady o rozložení dat) nebo neparametrický (nemá předpoklady o rozložení dat, nicméně má nižší vypovídací sílu).
Nejznámějšími testy z této skupiny jsou tzv. t-testy používané pro srovnání průměrů dvou skupin hodnot
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Při použití two sample testů srovnáváme spolu dvě rozložení. Jejich základním dělením je podle designu experimentu na testy párové a nepárové.
Základním testem pro srovnání dvou
nepárový y.        i wo sample test
^     fl
X2
nezávislých rozložení spojitých čísel je nepárový two-sample t-test
t
* *
Diference
XI   X2     xiaX2 \  ■      .»           .                  Parovy
\ -■-----■+-         ■   t      y two sample
t »------■*•            •                          test
Základním testem pro srovnání dvou závislých rozložení spojitých čísel je párový two-sample t-test
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Dvouvýběrové testy: párové a nepárové II
Data
X.,    x2
Nezávislé uspořádání     ^
XrX2=D
Párové uspořádání    ^
Design uspořádání zásadně ovlivňuje interpretaci parametrů
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
V-          -/
n D
D
^h -Mi    M:
nx    n
Jv t         Jv
\^:T>=0
(n = n2 = nO
Identifikace párovitosti (Korelace, Kovariance)
r =0,954 (p < 0,001)
MU
^
Jt.
• ••   •
• •••
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
X,
r= 0,218 (p< 0,812)
X-
Předpoklady nepárového dvouvýběrového
t-testu
Náhodný výběr subjektů jednotlivých skupin z jejich cílových populaci
Nezávislost obou srovnávaných vzorků
Přibližně normální rozložení proměnné ve vzorcích, drobné odchylky od normality ovšem nejsou kritické, test je robustní proti drobným odchylkám od tohoto předpokladu, normalita může být testována testy normality
Rozptyl v obou vzorcích by měl být přibližně shodný (homoscedastic). Tento předpoklad je testován několika možnými testy- Levenůvtest nebo F-test.
Vždy je vhodné prohlédnout histogramy proměnné v jednotlivých vzorcích pro okometricke srovnání a ověření předpokladů normality a homogenity rozptylu - nenahradí statistické testy, ale poskytne prvotní představu.
*
ZĽ
+
+
Varianta 1    Varianta 2
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
nulová hypotéza: průměry obou skupin jsou shodné, alternativní hypotéza je, že nejsou shodné, two tailed test
prohlédnout průběh dat, průměr, medián apod. pro zjištění odchylek od normality a nehomogenita rozptylu, provést F -test
F-test pro srovnání dvou výběrových rozptylů
•Používá se pro srovnání rozptylu dvou skupin hodnot, často za účelem ověření homogenity rozptylu těchto skupin dat.
H0	HA	Testová statistika	
^2 v.  ^2 Gx   ><J2	2            2 GX   >G2 2            2 Gx   <G2		2 77 _  S\ F- J ^2 77 _ ^2 1             2 Sl
^2       ^2 Gx   -<J2	2            2 0[ * Gl2	F--	max(s2; sl) min(s2; sl)
V případě ověření homogenity je testována hypotéza shody rozptylů (two tailed); v případě shodných rozptylů je vše v pořádku a je možné pokračovat ve výpočtu t-testu, v opačném případě není vhodné test počítat.
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Nepárový dvouvýběrový t-test - výpočet II
3.   Výpočet testové statistiky (stupně volnosti jsou v = nY +n2 -2):
t =
Rozdíl _ průrůmě SE(rozdílprůo éru)
X\ -xi
— + —
V n\       n2 J
2 = (nx - \)s2x + (n2 - \)s22   vážený odhad «!+«2-2          rozptylu
4.   výsledné t srovnáme s tabulární hodnotou t pro dané stupně volnosti a a (obvykle a=0,05)
5.    Lze spočítat interval spolehlivosti pro rozdíl průměrů (např. 95%), počet stupňů volnosti a s2 odpovídají předchozím vzorcům
(xx    x2) ±t0 975oL(xx    x2) — (xx    x2)±t0975 Á\S
f\   p
+
V n\        n2 J
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Dvouvýběrový t-test - příklad
Průměrná hmotnost ovcí v čase páření byla srovnávána pro kontrolní skupinu a skupinu krmenou zvýšenou dávkou potravy. Kontrolní skupina obsahuje 30 ovcí, skupina se zvýšeným příjmem potravy pak 24 ovcí.
Vlastní experiment byl prováděn tak, že na začátku máme 54 ovcí (ideálně stejného plemene, stejně staré atd.), které náhodně rozdělíme do dvou skupin (náhodné rozdělování objektů do pokusných skupin je objektem celého specializovaného odvětví statistiky nazývaného randomizace). Poté co experiment proběhne, musíme nejprve ověřit teoretický předpoklad pro využití nepárového t-testu. Pro obě proměnné jsou vykresleny grafy (můžeme též spočítat základní popisnou statistiku), na kterých můžeme posoudit normalitu a homogenitu rozptylu, kromě okometrického pohledu můžeme pro ověření normality použít testy normality, pro ověření homogenity rozptylu pak F-test
Pokud platí všechny předpoklady Two sample nepárového t-testu, můžeme spočítat testovou charakteristiku, výsledné t je 2,43 s 52 stupni volnosti, podle tabulek je a t0975(52)= 2,01, tedy t> t0975(52)= a nulovou hypotézu můžeme zamítnout, skutečná pravděpodobnost je pak 0,018. Rozdíl mezi skupinami je 1,59 kg ve prospěch skupiny s lepší výživou.
Rozdíl _ průrůmě SE(rozdílprůo éru)
X\ -Xi
\ni
1    1
—+ — n
(nx - \)sf + (n2 - \)s
nx +n2
u = nx + n2
2J
Pro rozdíl mezi oběma soubory jsou spočítány 95% konfidenční intervaly jako 1,59±2.01*(0,655) kg, což odpovídá rozsahu 0,28 až 2,91 kg. To, že konfidenční interval nezahrnuje Oje dalším potvrzením, že mezi skupinami je významný rozdíl -jde o další způsob testování významnosti rozdílů mezi skupinami dat- nulovou hypotézu o tom, že rozdíl průměrů dvou skupin dat je roven nějaké hodnotě zamítáme v případě, kdy 95% konfidenční interval rozdílu nezahrnuje tuto hodnotu (v tomto případě 0).
(Xj —X2)± t0975oIĹ(Xj — x2) — (Xj — x2) ± ř0j9
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
XI	X2	ALL	Rank ALL	XI rank	X2 rank
27	25	25	5	6	5
35	29	29	7,5	11	7,5
38	31	31	9	13	9
37	23	23	4	12	4
39	18	18	2	14	2
29	17	17	1	7,5	1
41	32	32	10	15	10
	19	19	3		3
		27	6		
		35	11		
		38	13		
		37	12		
		39	14		
		29	7,5		
		41	15		
Mann Whitney U-test
•Stejně jako řada jiných neparametrických testů počítá i tento test s pořadím dat v souborech namísto s originálními daty. Jde o neparametrickou obdobu nepárového t-testu a z těchto neparametrických testů má nejvyšší sílu testu (95% párového t-testu).
•V případě Mann-Whitney testu jsou nejprve čísla obou souborů sloučena a je vytvořeno jejich pořadí v tomto sloučeném souboru, pak jsou hodnoty vráceny do původních souborů a nadále se pracuje již jen s jejich pořadím.
•Pro oba soubory je tedy vytvořen součet pořadí a menší z obou součtů je porovnán s kritickou hodnotou testu, pokud je tato hodnota menší než kritická hodnota testu, zamítáme nulovou hypotézu shody distribučních funkcí obou skupin.
•Podobným způsobem je počítán i Wilcoxon rank sum test (pozor, existuje ještě Wilcoxnův párový test!!!)
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
17 štěňat bylo trénováno v chozeni na záchod metodou pozitivního posilováni (pochvala, když jde na záchod venku) nebo negativního (trest, když jde na záchod doma). Jako parametr bylo měřeno, za kolik dní je štěně vycvičeno.
nulová hypotéza je, že není rozdíl v metodách tréninku, tedy, že oběma metodami je štěně vycvičeno za stejnou dobu.
po srovnání rozložení + malý počet hodnot je vhodné použít neparametrický test
je vytvořeno pořadí sloučených hodnot
pořadí hodnot v jednotlivých skupinách dat je sečteno a menší ze součtů je použit pro srovnání s kritickou hodnotou testu
výsledkem testu je p<a, nulovou hypotézu tedy zamítáme a výsledkem testu je, že pozitivní působení při výcviku štěňat dává lepší výsledky
MU
75 70 65
ä    60 >
o
^ 55
co
Š 50 45 40
35
30
						
c					O	
						>
					(.	
					ó o	
	D				8;	
8					6:	
						
O ,   1   ,						
		,		,		
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
pozitivně
negativné
Párové dvouvýběrové testy - předpoklady
Skupiny dat jsou spojeny přes objekt měřeni, příkladem může být měřeni parametrů pacienta před léčbou a po léčbě (nemusí jit přímo o stejný objekt, dalším příkladem mohou být např. krysy ze stejné linie).
Oba soubory musí mít shodný počet hodnot, protože všechna měření v jednom souboru musí být spárována s měřením v druhém souboru. Při vlastním výpočtu se potom počítá se změnou hodnot (diferencí) subjektů v obou souborech.
Před párovým testem je vhodné ověřit si zda existuje vazba mezi oběma skupinami -vynesení do grafu, korelace.
Existuje několik možných designů experimentu, stručně lze sumarizovat:
i.    pokus je párový a jako párový se projeví
2.    párové provedení pokusu - párově se neprojeví
možná párovost není
špatně provedený pokus - malé n, velká variabilita, špatný výběr jedinců
3.    čekali jsme nezávislé a jsou
4.    čekali jsem nezávislé a nejsou
vazba náhoda
MU
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita y m         J. Jarkovský, L Dušek
Párový dvou výběrový t-test
Tento test nemá žádné předpoklady o rozložení vstupních dat, protože je počítán až na základě jejich diferencí.
Tyto diference by měly být normálně rozloženy a otázkou v párovém t-testu je, zda se průměrná hodnota diferencí rovná nějakému číslu, typicky jde o srovnání s nulou jako důkaz neexistence změny mezi oběma spárovanými skupinami.
V podstatě jde o one sample t-test, kde místo rozdílu průměru vzorku a cílové populace je uveden průměr diferencí a srovnávané číslo (0 v případě otázky, zda není rozdíl mezi vzorky).
Pro srovnání s 0 (testovou statistikou jet rozložení):         / — —yjfj         V — Yl — \
S
Někdy je obtížné rozhodnout, zda jde nebo nejde o párové uspořádání, párový test by měl být použit pouze v případě, že můžeme potvrdit vazbu (korelace, vynesení do grafu), jedním z důvodů proč toto ověřovat je fakt, že v případě párového t-testu není nutné brát ohled na variabilitu původních dvou souborů, tento předpoklad však platí pouze v případě vazby mezi proměnnými. Výpočet obou typů testů se vlastně liší v použité s, jednou jde o s diferencí, v druhém případě o složený odhad rozptylu obou souborů.
Zda je párové uspořádání efektivnější lze určit na základě:
o     Síly vazby
o     Je-li sD výrazně menší než sxl_x2
Závislost je možné rozepsat pomocí vzorce:        SD = <TX  + <TX   — 2Cov(X1 \ X2 )
v případě Cov=0, tedy v případě neexistence vazby pak sD2 odpovídá součtu původních rozptylů, tedy přibližně Sxl.x2.
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
C4D
Byl prováděn pokus s dietou 11 diabetických psů, každý pes byl vystaven dvěma dietám s odlišným typem sacharidů (snadno vstřebatelné X pozvolna se rozkládající na glukózu), hodnoty krevní glukózy v průběhu jednotlivých diet mají být srovnány pro zjištění vlivu diety na hladinu krevní glukózy. Protože každý pes absolvoval obě diety, jde o párové uspořádání, kdy výsledky hodnoty v obou pokusech jsou spojeny přes pokusné zvíře.
l.
2. 3.
MU
Nulová hypotéza zní, že skutečný průměrný rozdíl mezi oběma dietami je 0, alternativní hypotéza zní, že to není 0.
Pro každého psa je spočítán rozdíl mezi jeho hladinou glukózy při obou dietách a měly by být ověřeny předpoklady pro one sample t-test - tedy alespoň přibližně normální rozložení.
Je spočítána testová charakteristika, výpočet vlastně probíhá jako one-sample t-test, kde je zjišťována významnost průměru diferencí obou souborů jako rozdíl mezi touto hodnotou a nulou (nula je hodnota, kterou by průměrná diference měla nabývat, pokud platí nulová hypotéza). T=4.37 s 10 stupni volnosti, skutečná hodnota p=0,0014 a tedy na hladině p=0,05 můžeme nulovou hypotézu zamítnou
rozdíl _ průměru _ vzorku _ a _ populace    x - jli    x - jli
SE(průměru)
s
yjn
IBA
Závěrem můžeme říci, že nulová hypotéza neexistence rozdílu mezi oběma dietami byla zamítnuta, což znamená, že high-fibre dieta má významný vliv na snížení hladiny krevní glukózy.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
79
Wilcoxon test
•   Jsou vytvořeny diference mezi soubory, je vytvořeno jejich pořadí bez ohledu na znaménko a poté je sečteno pořadí kladných a pořadí záporných rozdílů. Menší z těchto dvou hodnot je srovnána s kritickou hodnotou testu a pokud je menší než kritická hodnota testu, pak zamítáme hypotézu shody obou souborů hodnot. Pro test existuje aproximace na normální rozložení, ale pouze pro velká n>25.
Menší _ suma _ diferencí -
n(n + \)
t =
f«(« + l)(2« + l) 24
Před zásahem	Po zásahu	Změna	Absolutní pořadí
6	2	4	10
2,5	3	-0,5	1,5
6,3	5	1,3	6
8,1	9	-0,9	5
1,5	2	-0,5	1,5
3,4	4	-0,6	3
2,5	1	1,5	8
1,11	2	0,89	4
2,6	4	-1,4	7
1	3	-2	9
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Wilcoxonův test - příklad 1 _________________<r\_________________						
	člověk	A	B	diference	pořadí	
	i	142	138	4	4,5	
	2	140	136	4	4,5	
	3	144	147	-3	3	
	4	144	139	5	7	
	5	142	143	-1	1	
	6	146	141	5	7	
	7	149	143	6	9,5	
	8	150	145	5	7	
	9	142	136	6	9,5	
	10	148	146	2	2	
A        parametr krve před podáním léku B        parametr krve po podání léku W+          © pořadí kladných rozdílů = 51 W            =4 W=min(W+;W.) = 4 počet párů = n = 10 Pokud je W menší než kritická hodnota testu, pak zamítáme hypotézu shody distribučních funkcí obou skupin.						
IB	MU Vytvořil Institut biostatistiky a analýz, Masarykova univerzita m        J. Jarkovský, L Dušek					
Byla testována nová dieta pro laboratorní krysy, při pokusu byl zjišťován její vliv na různých liniích krys, bylo proto zvoleno párové uspořádání kdy krysy v obou dietách jsou spojeny přes svoji linii, tj. na začátku byly dvojice krys stejné linie, jedna z nich byla náhodně přiřazena k dietě, druhá z dvojice pak do druhé diety.
nulová hypotéza je, že váha krys není ovlivněna použitou dietou, alternativní, že ovlivnění dietou existuje
spočítáme diference - tyto diference jsou nenormální a proto je vhodné využít neparametrický test
Spočítáme sumu pořadí kladných a záporných diferencí, zde je menší suma záporných diferencí-31
4.    výsledkem výpočtu je p>0,05 a tedy nemáme dostatečné důkazy pro zamítnutí nulové hypotézy, nelze říci, že by nová dieta byla efektivnější než stará
pro doplnění výsledků je vhodné zjistit také skutečnou velikost rozdílu hmotností ve skupinách, např. ve formě mediánu
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Znaménkový test - příklad I
Párově uspořádaný experiment pro nominální data
I. Dva preparáty, každý na 1/2 listu
- sledovaná veličina: počet skvrn (hodnoceno pouze jako rozdíl)
	Počet skvrn									
A	V	V	M	V	V	M	M	V	V	V
B v-ve'	M tefrwH	M - mens	V n——'	M	M	V	V	M	M	M
n = 10 listů s rozdílnými výsledky j, A je větší: +     n+ = 7
JevL
B je menší:-    n.= 3
min(n+; n.) = 3
II. dvě protilátky z různých zdrojů (A;B) - aplikované na vzorek s antigenem n = 10
A	+	+	-	+	-	+	-	+	+	-
B	-	-	+	-	+	+	-	-	+	-
		ových rozdílů:					A: n+ = 4			
n — nenu					o   ^					
A: n =2
min(n+; n.) = 2
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Na konferenci veterinářů bylo předneseno,že průměrný čas konzultace je 12 minut. Následovala debata, zda je lepší použít medián nebo průměr. Jeden z nich se rozhodl ověřit teorii, že průměrná konzultace trvá 12 minut na vlastní praxi a zaznamenal si trvání svých 43 konzultací. K otestování hypotézy, že podíl konzultací kratších a delších než 12 minut použil znaménkový test.
Další výpočet probíhá obdobně jako v případě klasického znaménkového testu na diferencích dvou skupin dat.
Délka konzultace	Počet
<12	22
12	6
>12	15
Celkem	43
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Dvouvýberove testy: schéma analýzy
^^^^^| Nezávislé uspořádání ^^^^^|
NE
ANO
NE
X2 test
Kolmogorov-Smirnov test
Shapiro-Wilks test
transformace -i
ANO
F-test
neparametrické testy
NE
testy:
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
t-test nezávislý
aproximace
Man - Whitney Mediánový test
Dvouvýberove testy: schéma analýzy
Párové uspořádání
Diference D
transformace
ANO
t-test párový
NE
c2 test
Kolmogorov-Smirnov test
Shapiro-Wilks test
neparametrické testy
testy:
Znaménkový
test
Wilcoxonův test
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
XII. Binomické rozložení
Popis binomického rozložení Testování hypotéz binomicky rozložených dat
MU
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
IBA
Kromě spojitých dat se setkáváme také s daty kategoriálními, jejichž nejjednodušším případem jsou data binární. Binární data jsou popsána binomickým rozložením, od chování binomického rozložení je odvozena popisná statistika binárních dat (procento výskytu jevu), její interval spolehlivosti a binomické testy pro srovnání procentuálního výskytů jevů v různých skupinách.
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
n(x) = n pro x = 1 n(x) = 1 - n pro x = o
n(x) = 0 jinak
X= 1
.jev
n
1
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Binomické rozložení
X..... celkový počet nastání jevu v n nezávislých
pokusech
E(x)= n . n D(x)= n . n(1-n)
n- p
■*    jediný parametr distribuce určuje tvar distribuce
n = 0,5
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
n = 0,1
J_L
Binomické rozložení jako model pro zkoumání
výskytu sledovaného jevu
n.....počet nezávislých opakování
(dotazů)
X.....počet lidí s jistým symptomem
r   znamená celkový počet nastání jevu v n nezávislých experimentech
^>!
p ~ TT .. jediný parametr binomického rozložení
p .... relativní četnost nastání jevu
p..........určuje tvar distribuce
r: 0
n
________j
;r = 0.5
P = r
i x
ti = 0.2
O n n n X
MU
Binomická proměnná X
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Jev:     narození chlapce        ľl = 0,5 n :        rodina s 5 dětmi r:           0,1,2,3,4,5 chlapců
P(r) = fnW.(l-p)^=_I%.p'.q
= 0:    (0!   5!)(0?5)0(0?5)5 = 0'°31 = 1:    ^fÍ7)(0'5>(0'5)4 = 0'15625
= 2: P(r) = 0,3125 = 3: P(r) = 0,3125 = 4: P(r) = 0,15625 = 5: P(r) = 0,031
(n-r)
X: Binomická proměnná Střed rozložení: Rozptyl:     *(*)="• P
D(x) = n - p • (1 - p)
Příklad: n = 100 respondentů r = 20 má symptom
E(x) = n- p = 20
je střed rozložení
a nejpravděpodobnější
hodnota
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Binomické rozložení jako model
p (x   =   r ) =
0,3! 0,25
0,2 0,15
0,1
0,05
0
02 018 0,16 0,14 0,12
oi
008 006 004 002 0
n = 10 p = 0,3
Irin
1        23456789      10
n = 50 p = 0,1
n  !
r ! (n  -  r }!
•p   -q
(n- r)
q = 1 -p
0,3			n = 30
0£S 0,2			p = 0,3
0,15			
0,1			
0,05 0 -	J	llnn.	
n = 100 P = 0,3
•
Jlifc
D       5      10      15      20      25      30     0   10   20   30   40   SO   60   70
o«
01 OOB 00B 001 002 0
n = 50   D^ P = 0,5  ;■
0,12 01 0,08 0,06 0,04 0,02
i                 n = 50	
p = 0,9	l
:                             J	L
D
MU
10       15      20253035404550
»15      20253D3540455D
10        15       20       25
35       40       45       50
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Aplikace binomického rozložení
Výskyt krevní skupiny B v určité populaci: p = 0,08
Number in blood group B
Probability
B         B       2
not B         B       1
B   not B       1
not B   not B       q
0,0064 0,0736 0,0736 0,8464
-Q CO -Q O
0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0
Binomial distribution of number of people out of two in blood group B
Lq
Number: blood group B in 2 cases
N1U
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
£»
0,5
0,4
0,3
(O
■§    0,2
0,1 0
0,16
0,14
£,0,12
í5    0,1
-Q
CD   0,08 -Q g   0,06
0-   0,04
0,02
0
Binomial distribution showing the number of subjects out of ten in
blood group B based on the probability of being in in blood group B of 0,08.
U U U D
1
01     23456789    10
Number of subjects
\l
BWhfcai—wi
Binomial distribution showing the number of subjects out of 100 in blood group B based on the probability of being in in blood group B of 0,08.
0      10     20     30     40     50    60     70     80     90    100
Number of subjects
Aplikace binomického rozložení
Populace: 60% jedinců má zvýšenou hladinu cholesterolu Výběr:        5 lidí
I.        Kolik lidí má ve výběru vyšší hladinu cholesterolu ?
n. p = 5 . 0,6 = 3 lidé    ~ E(x) n . p(1-p) = 1,2             - D(x)
II. Jaká je P, že právě 3 lidé budou mít vyšší hladinu cholesterolu ? ~   Tzn. Výběr přesně odpovídá dané populaci ?
P(3)
= 9
P(3)-
5!
3 ! (5 - 3)!
-.(0,6)3.(0,4)2 =0,346
P(3) = 35%
Jaká je P, že většina jedinců (tedy minimálně 3) má vyšší hladinu cholesterolu ? ~ Tzn. výběr alespoň obecně odpovídá zkoumané populaci ?
P(X > 3) = P(3) + P(4) + P (5) = 0,346 + 0,259 + 0,078 = 68 %
MU
IBÄ
P(x)
I
i
«. -^
X
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Odhad parametru n binomického rozložení
Při vícenásobném odhadu se parametr II chová jako normálně rozložen
U malých nebo velkých hodnot p (ľl) je však předpoklad normality omezen
i p
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Odhad parametru n binomického rozložení
n « p\  p-y	
1) Bodový               ^2      ^(l-^) P->   sp —           1 i___________________________________________________________________________________________________________________________________________________________________________________________________________________	
2) Intervalový - aproximace	
i                                   /2     V       «"I                                           /2	V   n-l
i                                   /2   v    n-l 1_________________________________________________________________________________________________________________________________________________________________________	
IBA
MU
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Odhad parametru n binomického rozlc	>zeni:
příklad 1	
X: % jedinců s daným znakem n = 100 jedinců r = 60;   p = 0,6	
sp = 0,049	
Interval spolehlivosti: 95 %	
2 0,975 = ' >96	
0,6 -1,96 • 0,049 < n < 0,6 +1,96 • 0,049	
0,504 < n < 0,697	
U	
P(0,504<;r< 0,697) > 0,95	
MU m               Vytvořil Institut biostatistiky a analýz, Masarykova univerzita ■ p>        J. Jarkovský, L Dušek	
Odhad parametru n binomického rozložení
Intervalový odhad bez aproximací na normálni rozložení
A =
r + \n—r + \)-Fc
a/ 2
[L    spodní limit intervalu                vi ~ A*7    r + v>   v2 - 2r
z -                    2	v|=2(r + l) = v2+2
[L    horní limit intervalu	V2 =2(«-r) = v1-2
pfe^^LJ^l-
ÖT
MU
/BA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Odhad parametru n binomického
příklad II
Náhodný vzorek n = 200 jedinců.
Zjištěno pouze r = 4 jedinci bez určitého znaku.
p = %o = 241
95% interval spolehlivosti = ?
i
Spodní hranice
i

v
! = 2(w- r + l)= 2(200 -4 + l)= 394
v, =2r = 2-4 = 8
F
(394 ;8) _
.a y
= 3,67
A =
4 +(200-4 + 1)-3,67
= 0,0055
".' =	l(r +	0 =	10		
< =	l(n-	-r) =	2(200 -	-4) =	392
p (10 \ — OC	;392 )  _ 2	2,08			
L2 =		(4 +	l)-2,08		= 0,051
	200	-4 +	(4 + 1).	2,08	
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Binomické rozložení v datech: vizualizace
Pravděpodobnost výskytu hodnot X
n opakování
jev ANO jev NE
Binární podstata původních hodnot
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Modelové rozložení odhadovaného parametru
n
0
i.
Interval spolehlivosti pro ľl
Liší se odhad ]3 od předpokládané hodnoty P ?
Liší se dva nebo více odhadů ]3 ?
- závislé odhady -- nezávislé odhady -
^^S     Je výskyt kategorií dvou jevů nezávislý ?
O     Hodnocení relativního rizika z výskytu určitého jevu v rámci skupiny lidí
MU
|S           Vytvořil Institut biostatistiky a analýz. Masarykova univerzita
0 m        J. Jarkovský, L Dušek
Jednovýberový binomický test
H,
Ht
Testová swxistika
Interval spolehlivosti
p<n
p>n
z > z ĺ
a
p>n
p<n
z < z
a
p = n
p*
n
VzzYz > z ĺ
a/2
z =
n-p-n-k      n-p-n-7t\-0,5
n
■p{\-p)
n
■p(i-p)
Korekce na kontinuitu
H,
Af
Testová statistika
Interval spolehlivosti
p<n
p>n
L ,    =
a    , v i    , v
72
( r   +   1 ) F
r   +   ( r   +   1 ) F
a   , v i   ,    v
p = r/n > Lx
p>n
p<n
i, =
r+(w-r + l)F
a   > v 1    - v 2
p < L
p = n
MU
p^n
'-l' 1-2 (^ a/2' ^ l-a/2/
p  <   L,    V  P  >  L,
Vylvuřil liiblilul Uiubldliiliky d diidlýz, Mdbdiykuvd univtíizild J. Jarkovský, L Dušek
IBA
ý    Stromy s pozměněným tvarem koruny
n = 9 000 jedinců
r = 2 250 změněných jedinců
?                                       ?
Jak je pravděpodobná změna u až 1/3 jedinců?
v_    n ■ p - n -n     _         2250    - 3000           _
Z   -  —,     /            s.         -  —/                                          -   - lo ,26
■yjP 0 - />)• n        V0'25   -°'75   ^O00         ^=^=
/BA
a = 5%;   ZW2=1,96;   Z .,.„= 1,645 Z > Z 1<[/2.........zamítáme H0: p < 0,01
95 % Interval spolehlivosti ... p: (0,241; 0,258)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Test 7i ? p
Příklad testu bez aproximace na normální rozložení
/:
12 jedinců bylo zkoumáno pro výskyt určitého znaku, 0 jedinců znak nemělo
a   Jak hodně se tento výsledek liší od výsledku 6-6: tedy od situace, kdy •     polovina jedinců znak má?
a) Využití distribuční funkce
0
8
10
11
12
P(r)
0,0002 4
0,0029 3
0,0161 1
0,0537 1
0,1208 5
0,1933 5
0,2255 9
0,1933 6
0,1208 5
0,0537 1
0,0161 1
0,0029 3
0,0002 4
P (r > 10) = 0,01611 + 0,00393 + 0,00024 = 0,01928
H0: p = 0,5 je tedy značně nepravděpodobná
b) Pozorované   p = 1^0 = 0,833
12
spolehlivosti pro p:
p = 0,5 : L2 =
(ó + l)-2,64
MU
12-6 +(6+ l)-2,64
= 0,755
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Dvouvýběrový binomický test (pl ? p2)
z =
Pi - p*
P(l~ P) ,    P(l~ P)
n
i
n
ř7j + ř72
(A-Jp2)±z(1.
/>(!-/>), pí}- p)
.a
+
Wi
7?
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Dvouvýběrový binomický test (pl ? p2)
Tento příklad je ukázkou testování rozdílů mezi dvěma binomickými populacemi (tedy
srovnání dvou odhadů parametru p).
/Celkem 49 pokusných myší bylo použito k testování toxického preparátu během dvouměsíční kultivace. Následující tabulka obsahuje původní data zároveň s testem nulové hypotézy: Podíl přežívajících jedinců je u zasažené populace stejný.
	Alive	Dead	Total	Proportion alive	Proportion dead
Treated	15	9	24	px = 0,625	qx = 0,375
Not Treated	10	15	25	p2 = 0,400	q2 = 0,600
Total	25	24	49	p   =   0,510	q = 0,490
z =
0,625 - 0,400
0,225
'(0,510) (0,490)    (0,510) (0,490)     V0>010413 + °>009996
24           +           25
= 1,573
Z0,05(2) = t0,05(2) = 1,96
Nezamítáme H0: 0,10 < P < 0,20
S korekcí na kontinuitu: Z =
15-0,5    10 + 0,5
24
25
0,604 - 0,420
= 1,287
0,143                       0,143
Nezamítáme H0: 0,10 < P < 0,20
Z0,05(2) = t0,05(2) = 1,96
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
a) Pravděpodobnost narození chlapce je asi 1/2. Máte zhodnofcP^ysledky průzkumu populace, která žije v silně poškozeném
životním prostředí. Průzkum se týká 1000 náhodně vybraných rodin a zjištěný podíl narozených chlapců je 0.41.
Jaké jsou vaše závěry o této populaci?
Jak se váš odhad zpřesní, když použijete vzorek n = 10 000 rodin při zachování odhadu p = 0.41?
Použijeme jednovýberový binomický test s nulovou hypotézou H0: p=tt, hladina významnosti a=0,05
..,.,,,       ^      n-p-n-n      1000-0,41-1000-0,5       c nn           ,. , .,,      t.,     7          7           , 0,
testová statistika    Z =    ,        ,   —r- =       ,                                 = -5 79     a príslušný kvantil     Z  „ = Zn Q7, = 1,96
Jn-p{l-p)        VlOOO-0,41-0,59          '                                    ^
protože   Z > Z0 975     nulovou hypotézu zamítáme. Chlapci se ve zkoumavé populaci nerodí s pravděpodobností 0,5.
interval spolehlivosti   n\  p±Z^    ,-J^^ = 0,4±Z0975-0,046 = 0,41 ±1,96-0,016 = 0,41 ±0,03
'                I   íl-   )
pokud použijeme n=10 000, bude int. spolehlivosti užší   n\   p±Z^ a/-J—    ^ = 0,41 ±1,96-0,005 = 0,41 ±0,01
1 /2   \\   n-\
b) Jaká je pravděpodobnost, že rodina se třemi dětmi bude mít 2 (3) chlapce?
Podrobně analyzujte problém a použijte obecného definičního vztahu pro binomické rozložení.
n = 3                                                      „t\   (A   r t.     \ín-r)         n!
r = 2
p=0,5 (stejná pravděpodobnost narození
P(r) =      • pr • (l - p)(nr) =    /        • pr • q(nr)           pravděpodobnost narození
chlapce jako narození dívky)           P(2):
v2y
r
!(n-r)!
2 chlapců v rodině se třemi
r = 3 platí    p(3) =
Ml
Ä
ŕi\
9       h\       3'          9       h\                  dětmi je 0,375
■0,52-0,5(1)=^V-0>52-0,5(1) = 0,375              J
2!(l)!
pravděpodobnost narození 3 chlapců
0,53 • 0,5° -1 • 0,53 • 0,5° - 0,125   v rodině se třemi dětmi je 0>125
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Předpokládá se, že lidé trpící určitou krevní chorobou mají abnormální jeden z chromozómů. S cílem odhadnout podíl takto postižených chromozómů bylo studováno 5 buněk od každého ze 120 pacientů a byl zjišťován počet buněk s postiženým chromozómem (tento počet = sledovaný jev = r). Výsledky jsou uvedeny v následující tabulce. Odhadněte podíl postižených chromozómů u populace nemocných lidí.
r(četnost jevu)	0	1	2	3	4	5	celkem
f(poč. pacientů)	6	31	42	29	10	2	120
Pro odhad p se používá vztah     p = J^-
i=i
n
xi	fi	xifi
0	6	0
1	31	31
2	42	84
3	29	87
4	10	40
5	2	10
1/^=252
_ 252/120 _ „ ._    pravděpodobnost výskytu 5              '        postiženého chromozómu
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
XIII.	Kontingenční tabulky
Test dobré shody Fisherův přesný test McNemar test Odds ratio a relativní riziko	
MU m                Vytvořil Institut biostatistiky í . _ _        J. Jarkovský, L. Dušek IBA	a analýz, Masarykova univerzita
Anotace
•  Analýza kontingenčních tabulek umožňuje analyzovat vazbu mezi dvěma kategoriálními proměnnými. Základním způsobem testování je tzv. chi-square test, který srovnává pozorované četnosti kombinací kategorií oproti očekávaným četnostem, které vychází z teoretické situace, kdy je vztah mezi proměnnými náhodný.
•  Test dobré shody je využíván také pro srovnání pozorovaných četností proti očekávaným četnostem daným určitým pravidlem (typickým příkladem je Hardy-Weinbergova rovnováha v genetice)
Specifickým typem výstupů odvozených z kontingenčních tabulek jsou tzv. odds ratia a relativní rizika, využívaná často v medicíně pro identifikaci a popis rizikových skupin pacientů.
MU
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita I"       J. Jarkovský, L Dušek
Test dobré shody - základní teorie
Binomické jevy (1/0)
pozorovaná 2             četnost
/tin =

očekávaná    2      I pozorovaná     očekávaná četnost      I              četnost       " četnost
očekávaná četnost
I. jev 1
očekávaná četnost
'------------v-----------
II. jev 2
©
Příklad
/
10 000 lidí hází mincí
rub: 4 000 případů (R) líc: 6 000 případů (L)
Lze výsledek považovat za statisticky významně odlišný (nebo neodlisný) od očekávaného poměru R : L = 1 : 1 ?
2
(4000 - 5000 f       (6000 - 5000 )2
(i)
5000
5000
400
Tabulková hodnota:    Z<o w(v = 1} = 3=H          (0'95 = l~a)
Rozdíl je vysoce statisticky významný (p « 0,001]
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Kontingenční tabulky HO :Nezávislost dvou jevů A a B
	ľi^A	+	-	Podíl (+)
	+	a	b	^i        i—'^—i
Kontingenční tabulka 2x2				fo1-
				(a + b)\*f
	-	c	d	c           i-------1
				(c + d)\*f
	Podíl (+)	a	b	
		(a + c)	(b  +  d )	
N=a+b+c+d
P (B)-
N (c + d)
N
Očekávané četnosti:
\a + b)\a + C)                  (a + c)(d + c)
r, a-, —--------------------------             r,,    ~
(A)
r(B)
N
{a + b)(b + d)
N
(C)
r(D)
N
(b + d)(c + d)
N
z v=i     2^i
7 = 1
(/, - f, y
F,
v = l = (r-l)*(c-l)
P(A)> P(B)
M
IBA
Zc    =  Z  I
I/* - F-J
-0.5
J
F
u
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Kontingenční tabulky: příklad
gerT^^	Ano	Ne	Z
Ano	20	82	102
Ne	10	54	64
£	30	136	166
FA = FB = Fc =
102*30/166 = 18,43 102*136/166 = 83,57 11,57 52,43
, _(20-1^43)2 | (82-83,57)2 | (10-U57)2 | (54-5^43)2 _Q ^     Q m
(1)         18^43             83,57             11,57             5^43
< zljl) = 3,84
Kontingenční tabulka v obrázku
Gen: ANO
c: 49%
%
d: 33%
80
%
20
Gen: NE
84,4
15,6
Zemřelí     Žijící
Zemřelí       Žijící
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
R x C kontingenční tabulka
Výběr: N lidí ze sociologického průzkumu (delikventi) Jev A: Původ z rozvrácených rodin Jev B: Stupeň zločinnosti I < II < III < IV
V^	1.	II.	III.	IV.
ANO	a	b	c	d
NE	e	f	g	h
číslo2
Stupně volnosti: (R-1)*(C-1) = 1 *3 = 3
Fa =
číslo 1 • číslo 2
N
Očekávané četnosti:
Pa =
a
a + e
Pb =
b + f
Pc =
číslo 1
Tabulky:   X(\-a)
c + g
Pd =
d d + h
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Test dobré shody: příklad I
/
Ověřte na datech z pokusu se 100 květinkami určitého druhu, že barva květů se geneticky štěpí v poměru žlutá : červená = 3:1.
H0: Pozorovaná frekvence pro jednotlivé barvy květů jsou vzorkem populace mající poměr mezi žlutými a červenými květy 3 :1.
Součet frekvencí u obou barev květů (fj) se rovná 100 a pozorované frekvence u kategorií barvy budou srovnány s očekávanými frekvencemi (uvedeny v závorkách):
f
poz.
f
oček.
Kategorie barvy
Žlutá
84
75
Červená
16
25
n
100
2 =y{fpo, - focj J84-75)2 ^(l6-2Sf =
X    ^      fo,              75             25
= 4320
St. volnosti = n = k-1 = 1
Zamítáme hypotézu shody srovnávaných četností
Při testování H0 jsme použili matematický zápis (0,025 < P < 0,05). Z tabulek %2 rozložení vidíme, že
pravděpodobnost překročení hranice 2,706 je 0,1 (10 %), což může být stručně zapsáno jako
P (X2> 2,706) = 0,10.
Dále lze zjistit pro P {j2 > 3,841) = 0,05. V řešené úloze jsme dospěli k hodnotě testové statistiky j2 = 4,320.
Pro tento případ lze tedy psát 0,025 < P (%2 > 4,320) < 0,05; a jednodušeji 0,025 < P < 0,05. Jde v podstatě o
přibližné určení hranic chyby 1. druhu.
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
/
Tento příklad je rozšířením problému z příkladu 1 na srovnání pozorovaných a očekávaných frekvencí pro více kategorií sledovaného znaku:
Celkem bylo zkoumáno 250 semen určitého druhu rostliny a roztříděno do následujících kategorií: žluté/hladké; žluté/vrásčité; zelené/hladké; zelené/vrásčité. Předpokládaný poměr výskytu těchto kategorií v populaci je 9 : 3 : 3 : 1. Následující tabulka obsahuje původní data z pozorování a dále postup při testování H0.
	žluté/hladké	žluté/vrásčité	zelené/hladké	zelené/vrásčité	n
poz.	152	39	53	6	250
oček.	140,6250	46,8750	46,8750	15,6250	
v=k-1=3
2     11,3750
Z  =
+
7,87502     6,1250
+
2 + ™™L = 8 ,72
>
140,6250     46,8750     46,8750     15,6250
Zamítáme hypotézu shody pozorovaných četností s očekávanými
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Test dobré shody: příklad
Složitější příklady řešené srovnáváním frekvencí je možné rozdělit na testování dílčích
hypotéz:
/Předpokládejme, že chceme pro data z předchozí úlohy testovat hypotézu existence štěpného poměru 9:3:3 pro první tři kategorie semen:
f
poz.
f
oček.
X
žluté/hladké
152
146,400
5,600  2 146 ,40
žluté/vrásčité
39
48,800
zelené/hladké
53
48,800
n
244
n=k-1=2
+
9,800 48 ,80
2       4 200 2
+     '           = 2,544
48 ,80
í>
Nezamítáme hypotézu shody pozorovaných četností s očekávanými.
/    Nyní otestujeme hypotézu štěpného poměru kategorií zelené/vrásčité:ostatní
f
poz.
f
oček
typy = 1:15 zelené/vrásčité
15,625
ostatní
244
234,375
n
25
n=k-1=1
2 _   9,625   2 Z     ~   15 ,625
+
9,625
234   ,375
6,324
Zamítáme hypotézu shody pozorovaných četností s očekávanými.
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Test dobré shody: příklad IV - využití aditivity testu
/U 193 páru dvojčat byly zjištěny následující poměry pohlaví: 56 Ch - Ch 72 Ch - H ^                                                                                                            65 H - H
ď          Za předpokladu, že narození chlapečka má stejnou pravděpodobnost jako narození
holčičky, lze očekávat poměry pro výše uvedené skupiny = 0,25: 0,5: 0,25. Ověřte tento předpoklad na uvedeném vzorku populace.
S193 párů                     1/4     :   1/2   :   1/4                    2    =io 90
očekávané četnosti = 48,25 : 96,50 : 48,25           -M2)             '
Proč lze v předchozím případě očekávat zamítnutí H0?
Testujte následující hypotézy:
1) Jsou relativní počty párů se shodným pohlavím ve shodě s očekávanými četnostmi? (ignorujte Ch H páry)
2) Je relativní četnost kombinace Ch - Ch a H - H párů oproti párům s rozdílným pohlavím ve shodě s očekávanými četnostmi?
2 121 párů                        1:1                   2   _                          H_H
očekávané četnosti = 60,5 : 60,5             X(i) ~ U,ooy
Z193 párů                        1:1                  z
očekávané četnosti = 96,5 : 96,5           X(\) ~ A^ ?^4
Ch -Ch
2
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Test dobré shody: příklad V
Města - zatížení exhalacemi - třídy   (A > B   > C > D)
Svět: A:B:C:D=2   :   3   :   6   :   4 Konkrétní země (n = 184 měst): A: B:C: D =32 :  151   :  182 :  116
H0: shoda fs a Fs      a = 0,05
FA: 64,13 FB: 96,19
Fc: 192,39 FD: 128,27
Z (3)   -
_ (32 - 64 ,13 J
64 A3
+
+
(116   - 128 ,27 y _
128 ,27
= 49 ,06
Tabulky
y2 <">  =   y2 ^  = 7 81
Zamítáme hypotézu shody pozorovaných četností s očekávanými.
Příspěvek kategorií A, B,C,Dk celkové hodnotě v2
C (0
3 O
I!
m
0/
/o
VMMMMA____WMMMA
^^       ^^
A
B
D
A
B
D
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
/
Test homogenity binomických rozložení
Jev: Úmrtnost na leukémii
Předpoklad: n = 0,6
Absolutní četnost jevu označena r;
P =
S
Sledovalo s autorů		z s zemí:	
Autor	rtj	ľj	Pí
1			
2			
s	Z ",= N		
MU
IBA
Test homogenity binomických rozložení
Po možném sloučení s výběru
Test shody reálného r   (^)  a  n-u
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Xs-\
X{\)
= (Zr? Pí - pY,ri) p(i-p)
IV r -iv-nl--jv-n-(i-n)
Test homogenity binomických četností: příklad
Pomocí %2 rozložení lze rovněž posuzovat homogenitu většího množství nezávislých
pokusů testujících tutéž hypotézu.
___k       Bylo provedeno 6 nezávislých výběrů z populace mladých mužů, kteří v dětství onemocněli
___y     těžkým zánětem mozkových blan.
H0: V této populaci se vyskytují praváci a leváci v poměru 1:1.
>     Nalezněte v literatuře příslušné vztahy pro testování homogenity všech šesti výběrových populací a na základě výsledků tohoto testu rozhodněte o dalším postupu.
	Vzorek	Praváci	Leváci	n	X2	St. volnosti
Následující tabulka obsahuje původní data a výsledek testování (v závorkách jsou uvedeny očekávané četnosti):	l	3(7)	11(7)	14	4,5714	l
	2	4(8)	12(8)	16	4,000	l
	3	15 (10)	5(10)	20	5,000	l
	4	14(9)	14(9)	18	5,5556	l
	5	13 (8,5)	4 (8,5)	17	4,7647	l
	6	17(11)	5(11)	22	6,5455	l
/Ch
eterogeni ta
= 30,2
v=s-\=5
P < 0,001
Jednoduchým testováním lze zjistit, že všechny testy pro jednotlivé výběry jsou významné, což znamená, že ani v jednom případě nebyla potvrzena shoda očekávaných a pozorovaných četností. Test homogenity štěpného poměru v zkoumaných populacích rovněž vedl k zamítnutí možnosti sloučit jednotlivé výběry a posuzovat je jako celek (kromě testovaného poměru 1 : 1 neexistuje tedy v datech žádný jiný jednotný štěpný poměr mezi oběma vlastnostmi.
V případě, že by tento test neprokázal odchylky mezi jednotlivými výběrovými populacemi, bylo by možné jednotlivé odběry sloučit a posuzovat jako homogenní vzorek.
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
X2 test - příklad složitější kontingenční tabulky I
Caffeine consumption and marital status in antenatal patiens (from Martin and Bracken, 1987)
Caffeine consumption (mg/day)
Marital status	0	1-150	151 - 300	>300	Total
Married	652	1537	598	242	3029
Divorced, separed or widowed	36	46	38	21	141
Single	218	327	106	67	718
Total	906	1910	742	330	3888
Caffeine consumption and marital status data
Caffeine consumption (mg/day)
Marital status
1-150
151 - 300
>300
Total
Married
22%
51%
20%
8%
3029(100%)
Divorced, separed or widowed
26%
33%
27%
15%
141 (100%)
Single
30%
46%
15%
9%
718(100%)
M Li
Total
23%
42.%
19%
8%
3888(100%)
Vylvuľil hiililul Uiuildliiliky d diidlýz, MdSdiyKuvd uiiivemlď J. Jarkovský, L Dušek
IBA
X2 test - příklad složitější kontingenční tabulky II
Expected frequencies
Caffeine consumption (mg/day)
Marital status	0	1-150	151 - 300	>300	Total
Married	705,8	1488	578,1	257,1	3029
Divorced, separed or widowed	32,9	69,3	26,9	12,0	141
Single	167,3	352,7	137	60,9	718
Total	906	1910	742	330	3888
Contributions of each cell
Caffeine consumption (mg/day)
Marital status	0	1-150	151 - 300	>300	Total
Married	4,11	1,61	0,69	0,89	7,30
Divorced, separed or widowed	0,30	7,82	4,57	6,82	19,51
Single	15,36	1,88	7,02	0,60	24,86
Total	19,77	11,31	12,28	8,31	51,66
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
X2 test - příklad frakcionace složitější kontingenční tabulky I
c
'
Cílem rozsáhlejšího průzkumu populace bylo prozkoumat vztah mezi dvěma typy chorob a krevními skupinami u lidí. Konkrétní data jsou uvedena v tabulce:
Krevní skupina	Žaludeční vředy	Rakovina žaludku	Kontrola	Celkem
0	983	383	2892	4258
A	679	416	2625	3720
B	134	84	570	788
Celkem	1796	883	6087	8766
Vypočítejte testovou charakteristiku pro tuto kontingenční tabulku a otestujte nulovou hypotézu nezávislosti jevů (%2 = 40,54; 4 st. volnosti)
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
I
X2 test - příklad frakcionace složitější ^^            kontingenční tabulky II       ^^^^
K podrobnějšímu průzkumu složitějších tabulek výrazně napomáhá přepis původní
tabulky do podoby procentického zastoupení kategorií:
Krevní skupina	Žaludeční vředy	Rakovina žaludku	Kontrola
0	983	383	2892
A	679	416	2625
B	134	84	570
Celkem	1796	883	6087
Z této tabulky je patrné:
2.
Jsou jenom malé rozdíly v distribuci krevních skupin u kontroly a u skupiny nemocných rakovinou žaludku.
Pacienti s vředy mají mnohem častěji krevní skupinu 0.
Na základě těchto poznatků je možné sestrojit menší kontingenční tabulku, která otestuje hypotézu o shodné distribuci krevních skupin pro nemocné rakovinou a pro zdravé lidi. Sestavte tuto tabulku a otestujte nulovou hypotézu. (%2 = 5,64 (2 st. v.), P je přibližně rovna 0,06)
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
X2 test - příklad frakcionace složitější kontingenční tabulky III
• Z tohoto dílčího testu vyplývá možnost sloučení skupiny nemocných rakovinou a zdravých lidí neboť se vzhledem k distribuci krevních skupin chovají jako homogenní populace. Dalším logickým krokem v podrobné analýze je testování shody relativních četností výskytu krevních skupin A a B mezi kombinovaným vzorkem (sloučená skupina s rakovinou a kontrola) a mezi vzorkem lidí nemocných žaludečními vředy - tzn. nyní neuvažujeme krevní skupinu 0. Výsledkem tohoto testu je y2 = 0,68 (1 st. vol.); P > 0,7. Vzorky pro krevní skupiny A a B lze tedy sloučit do směsného vzorku A + B.
• Nyní otestujeme shodu relativních četností výskytu skupiny 0 oproti A + B, a to mezi kombinovanou populací (kontrola + nemocní rakovinou) a mezi vzorkem nemocných vředařů (%2 = 34,29; 1 st. vol.). Lze tedy shrnout, že vysoká hodnota původního %2 se 4 st. volnosti byla způsobena zvýšenou četností lidí s krevní skupinou 0 mezi nemocnými žaludečními vředy.
MU
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita I"       J. Jarkovský, L Dušek
X2 test - příklad frakcionace složitější kontingenční tabulky IV
Průběh hodnocení lze shrnout do tabulky:
Srovnání	St. volnosti	V-
0, A, B skupina u pacientů s rakovinou (r) x kontrola (k)	2	5,64
A, B skupina u pacientů s vředy x kombinovaný vzorek (r + k)	1	0,68
0, A, B skupina u pacientů s s vředy x kombinovaný vzorek (r + k)	1	34,29
Celkem	4	40,61
Celkový součet testových statistik %2 (40,61) odpovídá přibližně původní hodnotě x2 (40,54). Což platí i o stupních volnosti (4). Tato skutečnost potvrzuje, že jsme detailním rozborem vyčerpali informační obsah původní kontingenční tabulky a kromě popsané závislosti (zvýšený výskyt krevní skupiny 0 u lidí s žaludečními vředy) jsou jednotlivé kategorie zkoumaných jevů zcela nezávislé.
MU
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita I"       J. Jarkovský, L Dušek
Kontingenční tabulka 2x2: Řešení při nedostatečné velikosti vzorku
Yates' corection
Fisher's exact test
/
H0: Nezávislost jevů
Test analyzuje všechny možné 2x2 tabulky, které dávají stejnou sumu řádků a
sloupců jako tabulka zdrojová. Algoritmus každé tabulce přiřazuje pravděpodobnost, že taková situace nastane, je-li
H0 pravdivá.
Spectacle wearing among juvenile delinquents and non-delinquents who failed a vision
test (Weindling et al., 1986)
	Juvenile delinquents	Non-deliquents	Total
Yes	1	5	6
jpectacie wearers No	8	2	10
Total	9	7	16
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Kontingenční tabulka 2x2: Řešení při nedostatečné velikosti vzorku
Všechny možné varianty tabulky s danou sumou řádků a sloupců
(1)	0	6
	9	1
(II)	1	5
	8	2
(III)	2	4
	7	3
(IV)	3	3
	6	4
(V)	4	2
	5	5
(VI)	5	1
	4	6
(VII)	6	0
	3	7
MU
Pravděpodobnost náhodného vzniku variant tabulky
	a	b	C	d	P
(1)	0	6	9	i	0,00087
(II)	1	5	8	2	0,02360
(III)	2	4	7	3	0,15734
(IV)	3	3	6	4	0,36713
(V)	4	2	5	5	0,33042
(VI)	5	1	4	6	0,11014
(VII)	6	0	3	7	0,01049
Total					0,99999
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
2x2 frekvenční tabulka pro párové uspořádání: Mc Nemar's test
Příklad: Srovnání 2 metod stanovení antigénu v krvi (antigen vždy přítomen)
/
Hn: metoda 1 = metoda 2
Metoda 1	Metoda 2	Frekvence
úspěch	úspěch	202
úspěch	neúspěch	60
neúspěch	úspěch	42
neúspěch	neúspěch	10
X (c)
(J60   - 42 | - 1)
102
= 2.83
2    (x=l)  _
Tabulky :   zL      = 3,84
E
MU
}2
= 102
Hn nezamítnuta
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Aplikace analýzy 2x2 tabulky pro hodnocení rizika I. Prospektivní studie - odhad relativního rizika
Jedinci jsou sledováni prospektivně, zda se vyskytne nějaká vlastnost.
VÝBĚR JE DÁN SLOUPCEM
PŘIKLAD
	| OBECNĚ		
	Skupina 1	Skupina 2	
ANO	a	b	
ĹlldK NE	c	d	
Retardace plodu
Riziko:
a
(a + c)       (b + d)
	a
RE	b
	(b + d)
/	H0: RR = 1
	Symetrická	Asymetrická
Agar skoré    ANO	2	33
>7             NE	14	58
ľ/1b=U,13       33/yi=U,3b RR   =   2/16    =0,345 33 /91		
Riziko u "symetrické skupiny" je asi 35 % rizika u asymetrické skupiny		
SE   (in   RR   )=-------------
\ a        a +
1
• + — + c        b
1
b + d
IS: In RR - Z ^,2. SE (In RR) In RR + Z 1^2 . SE (In RR)
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Aplikace analýzy 2x2 tabulky pro hodnocení rizika II. Retrospektivní studie - "ODDS RATIO"
Zcela zásadně odlišný přístup od retrospektivní studie
VÝBĚR JE DÁN VLASTNOSTÍ - ŘÁDKEM
Není tedy možné analyzovat relativní riziko, protože přípravou řádků můžeme
měnit velikost kontrol.
OBECNE
	Skupina 1	Skupina 2
ANO	a	b
£ndK ------------oďäs	—sue—	hfrl
Odds ratio :
ale ~b7ď
SE(lnOiř) = ,/-+-+-+-
abed
MU
PŘIKLAD
Vady chrupu
		ANO	NE
Plavání	<6h	32	118
týdně	3 6h	17	127
QR = (32/17)/(118/127)= 2,026 In (OR )= 0,706 SE (in (OR ))= 0,326
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Relative risk                  #ľjp                         Odds ratio
(relativní riziko)                ^c\                      (poměr šancí)
Smysl RR a OR Výpočet Srovnatelnost Interpretace Výhody a nevýhody
Aplikace v klinickém hodnocení
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
• Popis vlivu faktoru (léčba, klinicky parametr) na výskyt události (úmrtí, progrese aj.)
Odds ratio
>oměr šancí)

Relative risk
(relativní riziko)
0 Snadná přirozená interpretace rizik vyjádřených jako procento událostí
ALE
0 Matematická omezení pro některé aplikace
0 Pouze málo lidí má přirozenou schopnost interpretovat OR
ALE
0 OR v řadě aplikací výhodnější matematické vlastnosti
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
event   W     bez eventu
Srovnání výskytu události mezi dvěma rameny (A,B) studie
RR=
MU
IBA
Relative risk (relativní riziko)		ft A        B		Odds ratio (poměr šancí)
tttttt              ^		* t * IT	i t t	tttttt               ň
fiôfiíríŕírírflfifi     10 tíi           3	= 2	n i t t t t t t	n t t    OR= * t t t * I	tttt                 4     3 5 tít               3 tiititt        7
WOTÖW				
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek				
Vztah mezi RR a OR
Relative risk
(relativní riziko)
10
Odds ratio
(poměr šancí)
5-
3-
.2
! i
■o §0.7
0.5-
0.3-
2-
0.1
RR a OR je přímo srovnatelné pouze při nízkém bazálním riziku

"io"
20
^30
40
&T
Ito
Zhang, J. et al. JAMA 1998;280:1690-1691.
MU
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Incidence Among the Nonexposed. %
7o
IBA
Srovnatelnost RR a OR I: maximum
o
Relative risk
relativní riziko)
ft
•    RR mění své maximum podle bazálního rizika
25 -
oč.	20 -				
tt					
sQJ					
C					
>N O	15 -				
E					
Sm					
C	10 -				
^ro					
E					
X					
ns	5 -				
Z	n -				
					
					
	0%		20%	40%              60%	80%              IOC
				Bazálni riziko	
0    RR ve studiích s různým bazálním rizikem jsou nesrovnatelná !!!!
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Odds ratio
(poměr šancí)

0    Odds ratio ma vždy rozsah od 0 do nekonečna
0    Velikost OR není závislá na velikosti bazálního rizika
0    OR lze použít pro srovnání studií s různým bazálním rizikem !!!!
m    Výhodné pro metaanalýzu
Srovnatelnost RR a OR I: symetrie
•   Existuje mezi RR a O rozdíl v případě
(n
Relative risk
relativní riziko)
ft If           A
Ä
výměny definice eventu a non-eventu?
RR(I)=
ttttttt
Ittttt
10
1_
10
= 0.57
RR(II) =
flfl
fifl
in
\WňWň
r i   RR(I)*      l !                 RR(II)
10
10
= 2
i
ii
* i t i 11
i t
11 i*
II II
vs.
MU
/BA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
®
I I I I í í II I I II II I I ♦ I
•     •
T T
Odds ratio
(poměr šancí)
till
OR(I) =
tttttt
íiíitíí
= ^- = 0.29
OR(II) =
tttttt tttt
ttt
ttititt
= 4=35 3
7
OR(I) =
1
OR(II)
i__________________________________________________________________i
TI V\
El flu
RR a OR ve studiích s různou mírou bazálního rizika
100% -90%
Výskyt eventu (%)
100%
90% 80% 70% 60% 50% 40% 30% 20% 10% 0%
TT Q
■v? 00
O
L/l
■v?
Q
(TI
■v?
Ol
L/Í
^H           O
r4      d
■v? (TI (TI
■v? O^
Q
Q L/1
r--       o to      d
to        (X)
Odds ratio
Ve skupině „Case" připadá na jednoho pacienta bez eventu 4x tolik pacientů s eventem než ve skupině „Control"
oč.
O   3
■^i           ^ji           ■^i           ■^i           ■^i           ■^i           ^           víí           víí           vxi           ■^i
o1*1           o1-           cř1^           o1*1           o1*1           o1*1           o1*1           o1*1           o1*1           o1*1           o**
^HrN^-COi-nOCTi^HOrOO
ÖOÖÖ^HrOLO^HÖrOÖ
rr-\        r^J        ro        i_0
Bazálni (control) výskyt eventu (%)
MU
Relative ris
Pacient ve skupině „Case" má x-krát zvýšenou pravděpodobnost výskytu eventu než pacient ve skupině „Control". X-krát závisí na basálním výskytu eventu,
IBA
Vytvořil InstitutYýskyt even^jtJ, (/ß&tj-ykova univerzita J. Jarkovský, L. Dušek
58
RR a OR v prospektivních a retrospektivních
studiích
Prospektivní studie
0    Sledování výskytu eventu a následná analýza jeho příčin
0    Převážně kohortní studie
0    Bazálni výskyt eventu je dán vlastnostmi kohorty pacientů
0    Bezproblémové využití RR
Relative risk
(relativní riziko)
MU
pektivní stu
0    Zpětné sledování příčin eventu
0    Převážně case-control studie
0    Výběrem pacientů ovlivňujeme bazálni výskyt eventu
0    RR nelze použít -ovliněno bazálním výskytem eventu
0    Využiti OR - nem ovliněno designem studie

Odds ratio
(poměr šancí)
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
I
Relative risk
(relativní riziko)
I
0    Intuitivně snadno interpretovatelné
0    Pro prospektivní studie
0    Standardní výstup Coxovy regrese
0    Maximum se liší podle bazálni hodnoty výskytu eventu
Odds ratio
(poměr šancí)
0    Retrospektivní studie
0    Aplikace v metaanalýze
0    Standardní výstup logistické regrese
0    Rozsah vždy 0 až nekonečno, není ovlivněno bazálním výskytem eventu
0    Obtížnější interpretace
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
XIV. Poissonovo rozložení
Popis rozložení a jeho využití
MU
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
IBA
Poissonovo rozložení se používá pro popis četnosti výskytu jevu na experimentální jednotku, příkladem může být počet mutací bakterií na Petriho misku nebo počet srdečních poruch na jednotku času
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Poissonovo
v             ď
Celkový počet jevů v n nezávislých pokusech D((x): "n p   }    E(x)   =   D(x)
P(r) =
— u          r
e M - ju
!
= e
-ä
r !
X
r !
/ji—X— průměrný počet jevu z n pokusu
?(X = 0) = e
-ju
u	p(x	=i)=	--e-"-//
p	(* =	3) =	(3X2)
0>„^      ^     e""-//
p(X = 2) =
p(X = 4)=          M
(4)(3)(2)
MU
/BA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
1,1 1
0,9 0,8 0,7 0,6 0,5 0,4 0,3-0,2 0,1 0
0,4 0,35-
0,3 0,25
0,2 0,15
0,1-
0,05
0
Poissonovo
í jako model
P (x = r ) = e
-x
Á
?t = 0,01
0,7 0,6 0,5 0,4 0,3 0,2 0,1 0
n
3       4        5       6
9      10
X=^
ÍU
r^^-n-------1------
12       3       4       5       6       7
9      10
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovsky, L Dušek
r !
^ = 0,1
0,1
o
^ = 0,5
IU.
3456789      10
0       12       3        4        5       6        7
9      10
= 10
A
Hn.
0123456789   10111213141516 17181920
8295
Poíssonovo
Mutace bakterií na inkubačních miskách
OOOQ
i________________
Výskyt jevu v prostoru
(počet žížal na určitou plochu pole)
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
í v přírodě existuje
Orientační stanovení jevu (při produkci plynu bakteriemi)
+
4
y u u
+
The most probable number technique
Výskyt jevu v čase
(srdeční a ry tmie v určitých časových intervalech)
1 111   1
-I--------1---------1--------1-
cas
Poissonovo rozložení jako model pro
náhodný výskyt jevů
------------ô------------
Předpoklad: náhodná distribuce jevu mezi studovanými objekty
(příp. v čase, v prostoru).
a  < ju
a  > ju
cr   - ju
Uniform
Clustered
Random
Pokud je X spíše větší (~ 5-10), pak Poisson odpovídá spíše binomickému
až normálnímu rozložení.
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Př:   pokus......10 000 bakterií na misce
n = 10 misek Jev: mutace (r=25)
A,..........průměrný počet mutantů na
jednu misku
r=25
x^;i=25/l 0=2,5 95 % IS:
2,5 - 1,96 • A/0,25 < X < 2,5 + 1,96 • A/0,25
1,52   < X < 3,48
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Poissonova náhodná proměnná
Při měření počtu krvinek změněných určitou chorobou (relativně vzácné) je pozorován zředěný vzorek krve pod mikroskopem v komůrce rozdělené na stejně velká pole. Sledovaná veličina, udávající počet krvinek v i-tém poli může být považována za rozdělenou podle Poissonova rozložení:
n = 169 = počet nezávislých pozorování proměnné r = 10 = počet pozorovaných krvinek
Jaká je hodnota parametru X Poissonova rozložení a jaká je jeho interpretace ?
Jaký je interval 95% spolehlivosti pro parametr "k ?
Pokud bychom sledovali celkový počet červených krvinek (opět v n = 169 nezávislých políčkách), bylo by i tuto proměnnou možno považovat za rozloženou podle Poissonova rozložení ? Uvažujte celkový počet pozorovaných krvinek jako 2013.
Výpočet intervalu spolehlivosti pro Á (bez aproximace na normální rozložení
m
MU
IBA
Spodní hranice IS
2        ( /i = 2 r)
Lx = —^
1               2
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Horní hranice IS
X
( /2 = /l + 2 )
L2  =
a
i________________
Poissonova náhodná proměnná
Konstantní zářič: n = 2608 časových intervalů (každý 7,5 s)
i:   počet částic v intervalu (x)
Sj! pozorovaná četnost intervalů s i částicemi
Počet intervalů
P(x = /) =
X-e
-x
o
i\
p,
Poissonova proměnná:
* Výborný model pro experimenty, v nichž je během časového
průběhu zjišťován počet výskytu určitého jevu
7
8
10
11
12
13
s pravé i zaznamenanými částicemi st
57
203
383
525
532
408
273
139
45
27
10
0
n = 2608
teoretické četnosti
"P;
(si - nPi y
npl
54,399
0,
1244
210.523
0,
2688
407361
,4568
525,496
0,
0005
508.418
,0938
393.515
0,
5332
253,817
,4498
140.325
0,
0125
67.882
7,
7132
29,189
0,
1642
17,075 (=P{^10})
0,0677
2608,00
12,8849
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Poissonovo
í: jednovýběrový test
X      ir
P      =
(e~Á-Ár)
Př: Počet hnízd křepelek na dané ploše
n = 8 000     "pod lokalit" r = 28
}'
= 0,0035
Nechť je srovnávací soubor (předchozí průzkum)
Po = 0^0020 po-8 000   =   \6   =   ju   =   A
\H0:     p < Po    ~   ju <16      ?
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
r\
\
1) Vzít data jako pocházející z populace:
éT16-1628 P(r = 28) =--------— = 0,00192
28!
2)     P(r> 28) = ?
< 0,05  =>   H    zamítnuta
"i
[0,00411 ]   )
l
r = 28   je příliš velké pro populaci s p0
^^        aby r = 28 bylo P > po 9                  pravděpodobnější
XV. Analýza rozptylu
Parametrická analýza rozptylu Post hoc testy
MU
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
IBA
Anotace
•  Analýza rozptylu je základním nástrojem pro analýzu rozdílů mezi průměry v několika skupinách pacientů.
•  Základní myšlenka, na níž je ANOVA založena, je rozdělení celkové variability v datech (neznámé, dané pouze náhodným rozložením) na část systematickou (spjatou s kategoriemi pacientů, vysvětlená variabilita) a část náhodnou. Pokud systematická, tedy nenáhodná a vysvětlitelná část variability převažujeme, považujeme daný kategoriální faktor za významný pro vysvětlení variability dat.
•  Analýza rozptylu vyhodnocuje pouze celkový vliv faktoru na variabilitu, v případě analýzy jednotlivých kategorií je třeba využít tzv. post-hoc testy
MU
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita I"       J. Jarkovský, L Dušek
Analýza rozptylu - ANOVA
Základní technika
sloužící k posouzení rozdílů mezi více úrovněmi pokusného zásahu
o
+j c o
>< d> O (ti i-+j d) O o	CM X <D O (ti i-+j d) O o	co X <D O (ti i-+j d> O o
Q.
X
d) o
+j
c d) o c o
Rostoucí koncentrace testované látky / látek
I
I
Celkově významné změny v reakci biologického systému
Vzájemné rozdíly účinku jednotlivých dávek
y   Rozdíly účinku dávek od kontroly
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Analýza rozptylu - ANOVA
Významné kroky
analýzy, vedoucí k
efektivnímu srovnání
variant
o
+j c o
>< d) o (C 1-c d) o c o	CM X d) o (C 1-c d) o c o	CO X d) o (C 1-c d) o c o
Q.
X
d) o
<ti
>_
c d) o c o
MU
Rostoucí koncentrace testované látky / látek
Splnění předpokladů analýzy Transformace dat
Relevantnost kontroly (vliv vlastní aplikace látek)
Vhodnost modelu ANOVA pro účely testu
Vlastní srovnání variant
Minimalizace chyb při ověřování hypotéz
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Analýza rozptylu - ANOVA
SPLNENÍ PREDPOKLADU ANOVA JE NEZBYTNOU PODMÍNKOU
POUŽITÍ TÉTO TECHNIKY
,   Předpoklad nezávislosti opakování experimentu
ANOVA ;  = parametrická \    analýza dat
Homogenita       \ 2.      rozptylu v rámci      » pokusných variant    •
IBA
Normalita rozložení 3. v rámci pokusných .    variant
ALTERNATIVOU JSOU NEPARAMETRICKÉ METODY
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Analýza rozptylu - ANOVA
Předpoklady analýzy rozptylu jsou nezbytné pro dosazení síly testu		
		
1   • Symetrické rozložení hodnot a normalita !   odchylek od hodnoceného modelu ANOVA. |   Velkou část dat lze adekvátně normalizovat |   použitím logaritmické transformace. Předpoklad |   lognormální transformace může pochopitelně být j   teoreticky vyloučen u mnoha datových souborů j   obsahujících diskrétní parametry, kde je j   indikována vhodnost jiného typu transformace. U |   asymetricky rozložených a u diskrétních dat je |   nutné využít neparametrické alternativy analýzy |   rozptylu.		• Homogenita rozptylu ie nutným předpokladem 1 pro smysluplnost vzájemných srovnání pokusných variant. U testů toxicity by splnění tohoto předpokladu mělo být ověřováno (Bartlettův test), neboť vážné rozdíly (až řádové) | v jednotkách testovaného parametru mohou nastat v důsledku inhibice dávkami látky. Nehomogenita rozptylu je často ve vztahu k nenormalitě (asymetrii) dat a lze ji odstranit vhodnou normalizující transformací.
		
1   • Statistická nezávislost reziduí |   vyhodnocovaného modelu ANOVA. Pokud odhad j   a posouzení korelačních vztahů mezi pokusnými |   variantami není přímo předmětem výzkumu, lze |   jejich vliv na vyhodnocení odstranit znáhodněním |   dat v rámci pokusných variant - tedy změnou |   pořadí v náhodné. Rozsah vlivu těchto |   a u to korelačních vztahů musí být ovšem primárně j   omezen správností experimentálního uspořádání.		• Aditivita iako předpoklad týkající se složitějších 1 experimentálních uspořádání. Exaktní otestování | aditivity více pokusných faktorů je procedura poměrně náročná na experimentální design vyvážený co do počtu opakování. Je rovněž obtížné testovat interakci na nestandardních datech, neboť případná transformace může změnit charakter odchylek původních dat od hodnoceného modelu ANOVA.
		
MU m               Vytvořil Institut biostatistiky a analýz, Masarykova univerzita in A        J. Jarkovský, L Dušek		
Analýza rozptylu - ANOVA
Omezení aplikace ANO VA lze řešit                     \			
	• Chybějící data. Vážným problémem isou chybějící údaje o celé skupině kombinací testovaných látek, například u faktoriálních pokusů, kdy je znemožněno hodnocení experimentu jako celku.		• Nehomoqenita rozptylu. Velmi častý nedostatek experimentálních dat, často související s nenormalitou rozložení nebo s odlehlými hodnotami.
	• Různé nočtv opakování Jde o tvoický iev pro experimentální datové soubory. Při různých počtech opakování v experimentálních variantách jsou testy ANOVA citlivější na nenormalitu dat. Pokud jsou počty opakování zcela odlišné(až na řádové rozdíly), je nutno použít neparametrické techniky nebo analýzu rozptylu nevyvážených pokusů.		• Nenormalita dat. 1 v tomto případě Iz situaci 1 upravit vyloučením odlehlých hodnot nebo normalizující transformací.
			
			• Neaditivita kombinovaného vlivu více pokusných zásahů. Tuto situaci lze testovat   1 jednak speciálními testy aditivity nebo přímo F j testem kontrolujícím významnost vlivu interakce pokusných zásahů. Při významné interakci je nutné prozkoumat především její charakter ve vhodném experimentálním uspořádání
			
	• Odlehlé hodnotv. Ojedinělé odlehlé hodnotv musí být před parametrickou analýzou rozptylu vyloučeny.		
	• Nedostatek nezávislosti mezi rezidui modelu. Jde o závažný nedostatek, zkreslující výsledek F-testu. Velmi často je tato skutečnost důsledkem špatného provedení nebo naplánování experimentu.		
IB	MU Vytvořil Institut biostatistiky a analýz, Masarykova univerzita m        J. Jarkovský, L Dušek		
MU
IBA
Modely analýzy rozptylu
Model I. Pevný model
X	0 ^	i	2   X	3   ^	4
u =//+ or, + g;
y
Y
+
+
4-
+
+
XO    X1     X2     X3     X4
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Model II. Náhodný model
A   B   C   D   E
yiJ=V+Ai+siJ
Y
A    B    C    D    E
ANOVA - základní výpočet
Základním principem ANOVY je porovnání rozptylu připadajícího na:
o   Rozdělení dat do skupin (tzv. effect, variance between groups)
o   Variabilitu objektů uvnitř skupin (tzv. error, variance within groups), předpokládá se, že jde o náhodnou
variabilitu (=error)
1.      Variabilita mezi skupinami
Rozptyl je počítán pro celkový průměr (tzv. grand mean) a průměry v jednotlivých skupinách dat
Stupně volnosti jsou odvozeny od počtu skupin (= počet skupin -1)
Variabilita uvnitř skupin
Rozptyl je počítán pro průměry
jednotlivých skupin a objekty uvnitř příslušných, celková variabilita je pak sečtena pro všechny skupiny
Stupně volnosti jsou odvozeny od počtu hodnot (= počet hodnot počet skupin)
SS between
Vj -k-l
SS within
Vo -n-k
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
F =
between _ groups within _ groups
Výsledný poměr (F) porovnáme s
tabulkami F rozložení pro v^
a Vo stupňů volnosti
SS=sum of squares
Jednoduchý ANOVA design
Nejjednodušším případem ANOVA designu je rozdělení na skupiny podle jednoho parametru.
dělící parametr
MU

B
■A      "    B
.,   C
..   C
m
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Rozdělení skupin na náhodné podskupiny (např. opakování experimentu) Cílem je zjistit, zda data v jedné skupině nejsou pouhou náhodou Nejprve je testována shoda podskupin v hlavních skupinách,
• pokud jsou shodné, je vše v pořádku
• pokud nejsou, stále lze zjišťovat, zda se variabilita uvnitř hlavních skupin liší od celkové variability
jednoduchá ANOVA
nested ANOVA
B
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Two way ANOVA
Pro rozdělení do kategorií je zde více parametrů
Na rozdíl od nested ANOVY nejde o náhodná opakování experimentu, ale o řízené zásahy (např.vliv pH a koncentrace 02)
Kromě vlivu hlavních faktorů se uplatňuje i jejich interakce
faktor 1
CM O
CO
	A	B	C
1	S		
2			
interakce
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Modely analýzy rozptylu - základní výstup
Základním výstupem analýzy rozptyluje Tabulka ANO VA -frakcionace komponent rozptylu
Zdroj rozptylu    St. V.
SS
MS
Pok. zásah
(mezi skupinami)
Uvnitř skupin
a-1
N-a
SSB          SSB/(a-1)        MSB/MSE
SSE         SSE/(N - a)
Celkem
N-1
SST
SSB/SST      I
MSB/MST     I
Kvantifikovaný podíl rozdílu mezi pokusnými zásahy na celkovém rozptylu
Statistická významnost rozdílu
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
_co o
-I—»
c o
Analýza rozptylu - obecný F test
0 o
co
-I—»
c 0 o c o
CNI X 0 Ü co c 0 o c o	Koncentrace X3
F test: H
H0 platí
Látka nepůsobí
Q.
X
0 Ü co -i—»
c 0 o c o
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
obecný F test H0: m1 = m2= m3 = .... = m.
H0 neplatí
Látka působí
Další analýzy
Analýza rozptylu - Testy kontrastů
ANOVA:H0 zamítnuta Testy kontrastů
Rozdíly v smysluplných kombinacích ?
	co o o			Koncentrace X1	CNI X 0 Ü co c 0 o c o	Koncentrace X3				Q. X 0 Ü co c 0 o c o	
											
											
											
											
											
Vytvoril Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Plánované
Neplánované
Pro srovnání variant s kontrolou
Testování kontrastů "Multiple range testy'
•isit:
IBA
MU
IBA
Dávka rostlinného stimulátoru (0, 4, 8, 12 mg/l) A=4;n=8
I.      ANOVA
Bartletťs test:        P = 0,9847
K-S test:                 P = 0,482 - 0,6525 pro jednotlivé kategorie
Source	D. f.	SS	MS	F
Between Groups Within Groups	3 28	305,8 322,2	101,9 11,9	8,56
Total (corr.)	31	638,0		
II.     Multiple Range Test
NKS -test
Level
0 4 12 8
Average         Homogenous Groups
34,8 41,4 41,8 52,6
x x
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Příklad: Anova - One way
I. Zásah: 4 klinická stadia virové choroby (napadá kr. buňky) Sledovaná veličina: aktivita enzymu v těchto krevních buňkách
rio .    jdy      fl2      jJ^    //4
I          II         III        IV
22,8   16,4    11,2    14,2
19,4   17,8    18,2    10,1
_______12,5   19,1    15,8    12,8
E          65,7   53,3   45,2   37,1
průměr   21,9   17,8    15,1    12,4
Komponenta rozptylu:
n = 3 MODEL = ?
Source	D.f.	MS F	P
Between groups	3	49,6 8,39	0,0075
Within groups	8	5,9	
Total (corr.)	11	_	
°A~SA
MSA -MSe n
49.6-5.9
= 14.57
IV.
fl
ri =
S2
SA + Se
= 0,7142
S2A=295.S2e
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Srovnání variant v testech
Srovnáváni variant po celkovém testu ANOVA
ANOVA testy (F)
Ryan Q test
MU
Mnoho existujících algoritmů není vhodných pro konkrétní případ
Day and Quin Ecological Monographs, 1989
	
	Využiti
	
Du n nett Williams	Srovnání s kontrolou
Orthogonální kontrasty
Jednoduché kontrasty
Testv oro Jednoduché kontrast
Tu key
LSD
Dunn-Sidák
Kramer
Testy nevhodné
Vyhodnocen jako nejlepší test
Student -Newmann-Keuls
Waller-Duncan k ratio
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Řada post-hoc testů v různých SW
One-Way AN OVA for PRODUCTS
Task Roles Tesis Means ^ ^^
Breakdown Plot? =:es_ :s T-es
jj
Means > Comparison
The main effect is: Product Name.
■ Methods to use
D Bonferronittest
I   I Tu key's studentized range test (HSD]
I   I Duncan's multiple-range test
D Dunnetfsttest
I   I Fis tier's least significant-difference test
I   I Gabriels multiple-comparison procedure
I   I Student-Newman-KeuIs multiple range test
I   I Waller-Duncan k-ratiottest
I   I Scheffe's multiple comparison procedure
I   I Ryan-Ei not-Gabriel-Welsch multiple-range test
I   I Preview code
MU
§sas
la ANOVA Results 1: srovnáni hmotnosti ovci
Profiler |   Custom tests |  Residuals 1   |   Residuals 2 |   MatriK  |  Report Summary   |    Means   |    Planned c amps    j   Post-hoc   ;    Assumptions
Effect:    | Skupina J£LJ                                      I Hmotnost
~3
-Djsplav— (*   Significant differences C Homogeneous groups: C Confidence intervals C Critical ranges:	
-Error term — (*   Between error C Within error C Between; within; pooled
T MS:|ü.Ü0(
f^        Fisher LSD           f^        Bonferroni	
	
H       TukeyHSD	M   Unequal N HSD
m
BHlxi
*        Less
Close
■O     Modifv
^l Options ^
StatSoft'
-Range tests [multi-stage tests)
One-Way ANOVA: Post Hoc Multiple Comparisons
Equal Variances Assumed
T J=SDi "* Bonferroni T Sjdak I- Scheffe T B-E-G-W F T R-E-G-Wfl
r Í-N-K
"* Tukey I- Tukey's-b I- Duncan
_ Hochberg's GT2
~ Waller-Duncan
Type l/ľype II Error Ratio:     li 00 I- Dunnett                          ^^^_^^^
Control Category:            I Last
Gabriel
P 2-sided  C < Control C > Control
Equal Variances Not Assumed
Tamhane's T2   | " Dunnett's T3        _ Garnes-Howell       _ Dunnetťs C
Significance level:   |.05
Continue
Cancel
Help
)uncan's | (
CG cell«:  |i~^
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
ANCOVA
Rozšíření ANOVA
Současná analýza kategoriálních a spojitých prediktoru
Testování hypotézy paralelismu regresních vztahů
>(ü
Q.
Q) O O
■o o
x
kategorie
>(D
Q.
Q) O O
■o o
x
^kategorie
Spojitý prediktor
Spojitý prediktor
Kategorie pacientů (pokusný zásah) neovlivňuje vztah pramenných
Kategorie pacientů (pokusný zásah) ovlivňuje vztah pramenných
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
XVI. Korelace a regrese
Parametrická a neparametrická korelace
Lineární regrese
MU
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
IBA
Anotace
Korelační analýza je využívána pro vyhodnocení míry vztahu dvou spojitých proměnných. Obdobně jako jiné statistické metody, i korelace mohou být parametrické nebo neparametrické
• Regresní analýza vytváří model vztahu dvou nebo více proměnných, tedy jakým způsobem jedna proměnná (vysvětlovaná) závisí na jiných proměnných (prediktorech). Regresní analýza je obdobně jako ANOVA nástrojem pro vysvětlení variability hodnocené proměnné
MU
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita I"       J. Jarkovský, L Dušek
Korelace - vztah (závislost) dvou znaků (parametrů)

x.
•  •
Xi
MU
x^^L	ANO	NE
ANO	a	b
NE	c	d
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Parametrické míry korelace
Ková ri a nee
Cov(x, y) = E(xl - x).{yt - y)
t
-x         - y
t
o
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Pearsonův koeficient korelace
r=1
r = -1
x,
MU
IBA
Základy korelační analýzy - III.
P, (zem)	10	14	15	32	40	20	16	50
P, (rostl.)	19	22	26	41	35	32	25	40
7 = 1,.....,n:n = 8:v = 6
*-?.....? *"?
r =
Cov(x,y)
SXSy
I.     H0:p = <p:a = 0,05 tab :r(v = 6) = 0,7076

= 0,7176
.    H0:p =
t =
0,7176
0,6965
6 = 2,524
tab : t
(n-2)   _ 0,975
2,447
/ —	r
-\	_Vl-r2 _
> 1 J	v < 0,05
• ^Jn - 2
v = n-2
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Základy korelační analýzy - IV. Srovnání dvou korelačních koeficientů (r)
i.   «i
r, =
= 1258 0.682
2.   «7 = 462
r2 = 0,402
Krevní tlak x koncentrace kysl. radikálů
(l + r,)
Zx = 0,833
Zi = 1.1513   -log
O-',)
Z2 = 0,426
Test H0:pl=p2 ; a=0,05
Z =
Zx- Z
1              1
+
0,407 0,0545
= 7,461
nl - 3      «2 - 3
tabulky    :     Z0 975  =1,96
7,461 »1,96 => P «0,01
MU
/BA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Základy korelační analýzy - V. Neparametrická korelace (rs)
P, v půdě	1	2	3	6	7	5	4	8
P, v rostl.	1	2	4	S	6	5	3	7
d,	0	0	1	2	-1	0	-1	-1
r    =
5
i = 1......n;   n = 8 => v = 6
6 • V    di 2 1-------^4------T=   0,9048
tab :   rs(v = ó)= 0,89
Pacient č.	1	2	3	4	5	6	7
Lékař 1	4	1	6	5	3	2	7
Lékař 2	4	2	5	6	1	3	7
d,	0	-1	1	-1	2	-1	0
= 1 -
6 -8
7 (49 - 1)
= 0,857
P = 0,358
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Vztahy velmi často implikují funkční vztah mezi Y a X.
Y=a+b.X
Y = a + b1 . X1 + b2. X2 + b3. X3
Y = a + b., . X^ + b2. X2
Y = a + b1 . X1 + b2. X2 + b3. X1 . X2
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Korelace v grafech II.							
							
Y	Problém rozložení hodnot			^|^^|         Problém typu modelu			
	• • •			Y	• •• •		
		r = 0,981 (p < 0,001)				r = 0,761 (p < 0,032)	
	*• *					X	
	X						
	Problém velikosti vzorku						
							
Y	Y r*					r = 0,212 (p < 0,008)	
	•/•					•	
	^^	r = 0,891 (p < 0,214)			• • ••   %* •		
	S*				#••••    •		
							
m               Vytvoril Institut biostatistiky a analýz, Masarykova univerzita in A        J. Jarkovský, L Dušek							
			Modelování klin				ických dat
1.Tvorba modelu			»van á nná			*>	• Parametry ovlivňující vysvětlovanou charakteristiku
			větlc -omě			osi«	pacienta • Rovnice umožňující predikci
						U	• Platnost modelu pouze v rozsahu
\	v	7	Pred i ktorý				pred i ktorů
2.Validace modelu					»^		•  Nebezpečí „přeučenT modelu •  Testování modelu na známých
					^		datech • Krosvalidace
\	v	7					• Individuální predikce stavu nenámých pacientů
3. Aplikace modelu							• Model musí být podložen korektní statistikou a rozsáhlými f      daty
MU m               Vytvořil Institut biostatistiky a analýz, Masarykova univerzita ■ p>        J. Jarkovský, L Dušek							
27
Základy regresní analýzy
Regrese - funkční vztah dvou nebo více proměnných
Jednorozměrná
y = f (x)
Vícerozměrná y = f(x1, x2, x3,......xp)
Deterministický
Vztah x, y
Regresní, stochastický
• - •'
•••
• •
Pro každé x existuje pravděpodobnostní rozložení y
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Regresní analýza přímky: lineární regrese
Y = a + b-x + e     «     a + ß • X + e
a « a (intercept):   a = y - b ■ x
V----- ß-Xxib-x   (sklon;slope)
s « e  - náhodná složka : N(0;<72e ) = N\0; (J1 x)
e - náhodná složka modelu přímky = rezidua přímky
o]\G
[o1 j ^> rozptyl reziduí
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Základní regresní analýzy:											
model přímk						Y1	\i datech 1				
i	X	1	I	y			Y	•			. :•
											
n	_  -   -	n		- - -				: •			
											x
1	.—. y	= a + b .	x	t		y		.—. y	^^	e	
n	■ - -		...			_ - -		_   -    ■		b            J	
MU m               Vytvořil Institut biostatistiky a analýz, Masarykova univerzita ■ p>        J. Jarkovsky, L Dušek											
Základní regresní analýzy: model přímky v datech II
-------o-------
s
y
S y   =S,
..ym»'^/.t v.» _•_•__. b = o •  . • •. • • • •
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovsky, L Dušek
2
e = 0
b>0
Základní regresní analýzy: model přímky v datech I
d    =y-y       \dy.x=y-y-b{x,-x)\       y = y + b(x,-x)
Smysl proložení přímky
minimalizace odchylek
d2   ->
y-x
^[y-ä-ßix^x)]
Metoda nejmenších čtverců
1) X: Pevná, nestochastická proměnná
2) Rozložení hodnot y pro každé x je normální
3) Rozložení hodnot y pro každé x má stejný rozptyl                       ,        .
4) RezidMa jsou                                                                        NjO^a^
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Základní regresní analýzy: model přímky v datech I
b ~ ß :     b
H{x,-xJ
SÍ~G
ß
llix,-x)
s2
—\2       y-x
S2   =   mean squared deviation from regression
S    =   sample standard deviation from regression
S
I ä
2 y-x
Y.r?-££--*.zix.-xj
y-x
M-2
n-2
a ~ a :    a = Y -b-X intercept
S
a
G
a
K =
j_     x1
S
y-x
A
Y : modelová hodnota
syi={sj. .)-+
i ,(xt-xy
Z^2
N1U
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
X: Množství spáleného odpadu (tuny) Y: Koncentrace kovu ve vzduchu(ng/m3)
Platí: X = 0; 10; 100; 150; 200; 250; 300 tun
Model:Y = a + b.X
Výsledek:  7 = 14 + 0,123-X;   Y^
♦
ngkov
m'
Napr. : Skutečná data pro X = 2001: Y = 16; 25; 41; 28; 31; 20 => Y = 26.8
_       /       _v                                         Odhadnuto z modelu pro X = 2001:
Y = Y + b-(x-xna = Y_b.x    „
Ý = a + b-X           J                                 Y =14+ 0,123.200 = 38,6
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Regresní analýza v grafech I
Grafy residuí modelů (příklady)
•    •
•    •     •                  •       m
••«••«*
•;:••*•:
I
• .••
•. • •
•» • •
• •••• •
•     • •     »ľ •.
•  • • ..
•  • • •


I
y (i; x)
Obecné tvary residuí modelů (schéma)
y (i; x)
y (i; x)
A
e
A
e
/v
e
MU
■> Xj, y
■> Xj, y
■> Xj, y
■> Xj, y
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
1)Yvs. X
Y
Y
MU
X
Y
Y
'
Y
X
.••I
•-   •
• ••• • ••• ••
xm
Y
Y
.•-.^■L

▼
x
Y
Y
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovsky, L Dušek
Lineární regrese - příklad
X: Koncentrace drogy: 0; 2; 6; 8; 10; 12; 15 mg/ml krve Y: Koncentrace volných metabolitů
Pro každé X: 3 opakování Y
Model: Y = a + b . x
Y = 0,11 +0,092. X
I.     H0 \ ß = 0;a = 0,05 b = 0,092 ;sb = 0,023
P < 0,01
>t =
S-.
= 4,00
f(v=i9)    2 093
ř0,975         ^?v^J
ß-b± tt'l ■ S„
P(0,044</?< 0,140) =0,95
.   H0:a - 0;a - 0,05]       a a = 0,ll;sa = 0,029j   ~~Ša
a:a± fo» ■ Sa P(0,049 <a< 0,171) = 0,95
= 3.793
(v=i9)    2 093
'0.975          í-,\>J->
MU
/BA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Analýza rozptylu jako nástroj analýzy regresních modelů - příklad na modelu přímky
1) Experimentální data
Yl     Xg     Xj^     X2     X3     A4
Yn   X0   Xl   X2   X3   X/,
S    2.        C ^   C ^   C ^   C ^ 0   »!   S2   s3   s4
Y
1 i i—i—i—1—1- x
MU
Y
2) Celková ANOVA "one way'
Zdroj rozptylu	St.v.	SS	MS	F
Mezi skupinami	a-1	ssB	SSB/(a-l)	MSB/MSE
Uvnitř skupin	na-a	SSE	SSE /(na- a)	
Celkem	na-1	SST	s2 Y	
SS;
Y
na -I
x
x
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Analýza rozptylu jako nástroj analýzy regresních modelů: příklad na modelu přímky
3)
Celková ANOVA
SSB/SST
MSB/MSE = F
(variance ratio)
4)    Analýza rozptylu regresního modelu (zde přímky)
Zdroj rozptylu
(SSMOD/SST).100 =
% rozptylu Y
^>-      "vyčerpaného"
přímkou = koeficient
determinace (R2)
na-1
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
X: konc.Cd:   1,2,3,4,5,6 ng/ml
Y: absorb:     0,23; 0,49; 0,72; 0,90; 1,16; 1,39
b=0,228 3=0,016
r = 0,999 R2 = 99,81%
Sb=4,99.10"3 Sa=0,019
P = 0,000 P = 0,457
St. Error of est: 0,021
ANOVA
Source	D.f.	SS	MS	F	P
Model	1	0,912	0,912	2086,3	0
Residual	4	0,0017	0,000425		
	5	0,9138			
s%.x =4,25.104
a     -
= 0,18275
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
XVII. Vícerozměrná analýza
dat: úvod
Principy a využití vícerozměrné analýzy dat
MU
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
IBA
Anotace
•  Vícerozměrná analýza dat představuje nadstavbu nad klasickou, jednorozměrnou statistikou a je zvláště vhodná pro biologická a medicínská data, která jsou vícerozměrná již svou podstatou
•  Při vícerozměrné analýze je nicméně nezbytné si uvědomit, že povětšinou vychází ze stejných principů jako jednorozměrné analýzy a tedy i zde je nezbytné dodržovat předpoklady na nichž je výpočet založen. Tento fakt je důležité si uvědomit zejména vzhledem k relativní dostupnosti vícerozměrných analýz v moderních statistických software.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Vztah klasické a vícerozměrné statistiky
•   Vícerozměrná analýza dat využívá přístupů klasické statistiky
•   Zároveň je citlivá i na jejich problémy
•   Agregace dat přes sumární statistiku nebo kontingenční tabulky -korespondenční analýza
•   Korelace - analýza hlavních komponent, faktorová analýza, diskriminační analýza
O
MU
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita I"       J. Jarkovský, L. Dušek
n
Vícerozměrné vnímání skutečnosti - nová kvalita analýzy dat
X
skupinami?       skupina 2
Vícerozměrný systém
X2
J
X2
+
H—►
i
+
J
Klasická
jednorozměrná
analýza
v
í—►
skup.   skup.   skup.  skup. 2 12       1
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Běžná sumarizace dat „likviduje" individualitu jedince
fi
0

Q
T A A A A
Q
A

_o_.    . ~
Prumer ± SE
\f \f           r

BEZNA STATISTICKÁ SUMARIZACE s Zpřehlednění dat s Neodlišípůvodní měření
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita ■ n j          J. Jarkovský, L Dušek
Vícerozměrné hodnocení
s ohledem na individualitu !
Xi     x:
• •••
V-
. • •• ,• • •
•• •
• •   •
•  ••
•••
•• •
• •
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita ipt          J. Jarkovský, L Dušek
Vícerozměrné hodnocení- nová kvalita
Pouze kombinovane parametry mají odpovídající informační silu
BBRB  BB B6   BB B o          B
Ar    " B
A         BBRBB,
Aaaa B   BBb      \
A
\
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Vícerozměrné hodnocení vychází z jednoduchých principů
\
\i
MU
příklad: vícerozměrná vzdálenost
V 'V                7                             m         m         'V
k \	MICI Clil   IIIG^I   u (body)	VGIII
.4..............................	2 .................................................................................................................................c\	
^	c2= á + Ô^^ jy^              b	
^................................	V^^	
^		
b = ife- «i = d
11
12
/BA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Vícerozměrné modelování je strategickou
disciplínou
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Pojmy vícerozměrných analýz
•    Vícerozměrné metody: Název vícerozměrné vychází z typu vstupních dat, tato data jsou tvořena jednotlivými objekty (i.e. klienti) a každý z nich je charakterizován svými parametry (věk, příjem atd.) a každý z těchto parametrů můžeme považovat za jeden rozměr objektu.
•    Maticová algebra: Základem práce s daty a výpočtů vícerozměrných metod je maticová algebra, matice tvoří jak vstupní, tak výstupní data a probíhají na nich výpočty.
•    NxP matice: N objektů s p parametry pak vytváří tzv. NxP matici, která je prvním typem vstupu dat do vícerozměrných analýz.
•    Asociační matice: Na základě těchto matic jsou počítány matice asociační na nichž pak probíhají další výpočty, jde o čtvercové matice obsahující informace o podobnosti nebo rozdílnosti (tzv. metriky) buď objektů (Q mode analýza) nebo parametrů (R mode analýza).Měřítko podobnosti se liší podle použité metody a typu dat, některé metody umožňují použití uživatelských metrik.
MU
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita I"       J. Jarkovský, L Dušek
Vstupní matice vícerozměrných analýz
NxP MATICE
ASOCIAČNÍ MATICE
t-   OJ   CO
'S   "55   'S
E   E   E
co    co    ni
i_     i_     i_
cti    ns    cti
o.   o.   o.
objekt 1 objekt 2 objekt 3 objekt 4 objekt 5 objekt 6
Hodnoty parametru pro jednotlivé objekty
Výpočet metriky
podobností/
vzdáleností
t- cm co Tŕ m co
^ _*: _*; ^ _*: _*;
d)  a)  a)  a)  a)  a)
S1 io* io1 iE1 !q* io1 o   o  o  o   o  o
objekt 1 objekt 2 objekt 3 objekt 4 objekt 5 objekt 6
Korelace, kovariance, vzdálenost, podobnost
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Základní typy vícerozměrných analýz
SHLUKOVÁ ANALÝZA
vytváření shluků objektů na základě jejich podobnosti
identifikace typů objektů
ASIFIKACE
Model zařazení neznámých pacientů do předem daných skupin
Řada algoritmů
RDINACNI METODY
zjednodušení vícerozměrného problému do menšího počtu rozměrů
principem je tvorba nových rozměrů, které lépe vyčerpávají variabilitu dat
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
Typy vícerozměrných analýz
SHLUKOVÁ ANALÝZA
: «i
f
podobnost
MU
t
í
ORDINAČNÍ metod
Faktorové osy
t tí
+4
Diskriminační prostor
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L Dušek
¥
X