I. Statistika ve vědecké praxi
Pozice statistické analýzy ve vědě a klinické praxi
Význam statistických výstupů
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Anotace
• Statistická analýza biologických dat je jedním z nástrojů, s jejichž pomocí se snažíme zjistit odpovědi na naše otázky týkající se pochopení živé přírody. Jako každý nástroj je i statistickou analýzu nezbytné na jedné straně korektně využívat a na druhou stranu nepřeceňovat její možnosti.
• Klíčovým faktem při statistické analýze dat je nahlížení na realitu prostřednictvím vzorku a přijmutí toho, že výsledky naší analýzy jsou jen tak dobré, jak dobrý je náš vzorek. Reprezentativnost a náhodnost vzorku spolu s jeho velikostí jsou důležité faktory ovlivňující věrohodnost našich závěrů.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Výzkum, realita, statistika
• Výzkum je naším způsobem porozumění realitě
• Ale jak přesné a pravdivé je naše porozumění?
Statistika je
jedním z nástrojů vnášejících do našich výsledků určitou spolehlivost.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
• Naše realita je variabilní a statistika je vědou zabývající se variabilitou
• Korektní analýza variabilita a její pochopení přináší užitečné informace o naší realitě
• V případě deterministického světa by statistická analýza nebyla potřebná
Biostatistika - různé přístupy k variabilitě
/v\/ Data
chyba
2.1
2.8
3.2 1,2 5,2
2.9
Včjriííljilita znaku v popude;
A
165 cm     140 cm     182 cm     163 cm rozptyl znaku, přirozená variabilita
	
1    modelovaných dat j	
y	• i
	
	•>* * • i
	
	
	x •
• chyba = nepřesnost modelu i	
y
čas
fluktuace, časová proměnlivost
DRUH 1 15
DRUH 2 30
DRUH 3 40
DRUH 4 14
biodiverzita
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Pojem VARIABILITA má mnoho významů.........
.... a ty určují přístup k jejímu hodnocení
Maskování a minimalizace vlivu
Respektování a odhadování vlivu
Přímé využití k predikcím chování systému
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Statistika - význam a definice
WWW.WIKIPEDIA.ORG:
Statistika je matematickou vědou zabývající se shromážděním, analýzou, interpretací, vysvětlením a prezentací dat. Může být aplikována v širokém spektru vědeckých disciplín od přírodních až po sociální vědy. Statistika je využívána i jako podklad pro rozhodování, kdy nicméně může být záměrně i
nevědomky zneužita.
Statistika využívá matematické modely reality k zobecnění výsledků experimentů a vzorkování. Statistika funguje korektně pouze poku d jsou splněny předpoklady jejích metod a modelů.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Co může statistika říci o naší realitě?
Možnosti
Realita
Vzorek
Data
t
Informace
Statistika
Znalost t
Pochopení
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Statistika není schopna činit závěry o jevech neobsažených v našem vzorku.
Statistika je nasazena v procesu získání informací z vzorkovaných dat a je
podporou v získání naší znalosti a pochopení problému.
Statistika není náhradou naší inteligence !!!
Cílová populace
• Cílová populace -klíčový pojem statistického zpracování
o Skupina objektů o nichž se chceme něco dozvědět (např. pacienti s danou diagnózou, všichni lidé nad 60 let, měření hemoglobinu v dané laboratoři)
o Musí být definována ještě před zahájením sběru dat
o Na cílové populaci probíhá vzorkování dat, které musí cílovou populaci dobře (reprezentativně) charakterizovat
Cílová populace    Klíčové faktory Design Vzorkování a
Statistika a zobecnění výsledků
Neznámá
cílová
populace
Vzorek
Analýza
Díky zobecnění výsledků známe vlastnosti cílové populace
•
Cílem analýzy není pouhý popis a analýza vzorku, ale zobecnění výsledků ze vzorku na jeho cílovou populaci
Pokud vzorek nereprezentuje cílovou populaci, vede zobecnění k chybným závěrům
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Vzorkování a jeho význam ve statistice
Statistika hovořío realitě prostřednictvím vzorku!!!
o Statistické předpoklady korektního vzorkování
Representativnost: struktura vzorku musí maximálně reflektovat realitu
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Velikost vzorku a přesnost statistických výstupů
Existuje skutečné rozložení a skutečný průměr měřené proměnné
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Z jednoho měření nezjistíme nic .Vzorek: ^ —► ?????
Vzorek určité velikosti poskytuje odhad reálné hodn oty s definovanou spolehlivostí
Vzorek:
Odhad
průměru atd.
Vzorkování všech existujících objektů poskytne skutečnou hodnotu dané popisné statistiky, nicméně tento přístup je ve většině případech nereálný.
Různá role statistiky při různě velkém vzorku
Malá data		Velká data		Obrovská data
uchopit
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Přístup biostatistiky
Pacient   Clovek     aLeu     aTyA  aSeA  aNeuA aLyA
aTy
aLy
aHtc    aCLsk    aCLNeus    aCLOZ aCLNeuO
7,B
O,B
4,4
D,O
i,s
O,i
2,i
2,2
i,B
B,a
D,a
a,B
Da 3a
D,a
3,3
4,i
ata
4,0
7,2
2,2
3,s
B,4
s,D
a,3
a,a
a,2
iO,O
B,O
7,2
iO,3
D,O
7,2
iO,s
i7,O
0.8
0.6 0.4 0.2 0.0
O,4
O,i
O,B
O,7
O,3
O,i
O,2
O,7
O,i
O,i
O,i
O,2
3,a
O,2
O,s
I,S
4,B
2,3
2,7
i,i
4,a
D,O
i,i
D,7
B,3
2,2
D,3
B,O
3,3
7,7
s,O
O,i
4,O
4,i
O,7
B,i
B,3
2,B
s,3
a,O
O,s
D,B
s,s
3,7
3,s
i|3 í
D,4
i3,a
7,2
I i ^ 600
I_I ljSOO
I j 2^ 000
I I 2,200
I I 2,400
I I 2,600
I I 2,800
I I 3,000
I I 3,200
I I 3,400
I 1 above
'tí)
? Ü f. Ú
0      100    200    300 400
Schopnost: vidět data - komunikovat - interpretovat - prodávat
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
aSe
aNeu
A
A
A
A
A
cell.IO I
cell.10 I
cell.10 I
cell.10 I
cell.10 I
mV.s.10
3
4
33
72
4
2
s
Ds
BB
24
33
aD
s
3
4
3
D2
DD
40
22
77
ii
4
B,i
D
Da
B4
3D 0,3
3,B
3,a
2,i
33
i03
i2
D
37
si
i4
B
32
i37
DD
0
iB
7
s
is
7D
7,4
0,B
34
iDi
20
s
3
72
40
77
2i
a
B
i0
B7
i,i
32
i20
22
i0
3,3
DD
2,0
,3
2s
si
37
ii
i0
B0
70
30
32
iii
3s
i2
2
7B
7s
i7
2D
3BB
3a
i3
B,s
D7
Ds
3a
0,i
3,a
3,a
2,7
20
234
4a
i4
7
B7
74
2B
30
iDB
Di
iD
7
D7
B4
3D
3D
i2a
D2
iB
2,2
i0
DB
BB
34
0,2
i,2
i,D
0,7
33
4B
DD
i7
3
7s
si
i0
30
isa
DB
is
D
2
s0
s2
i3
2B
i0i
B
s,s
ii
72
s3
i2
i,0
B,3
7,3
i,i
44
2Bs
a
2
2
BB
Bs
2s
42
iBs
i3
3
7
s3
a0
s
D4
isi
iD
4
a,B
7D
7B
23
0,i
7,2
i7
D
ia
B
2
7s
s0
is
24
7
s,2
72
73
2D
0,i
D,a
2B
s
sD
sB
3
2a
a
74
7D
2i
30
i0
ii,a
Di
D2
47
0,i
B,i
3i
ii
3
D3
DB
2a
32
i2
3B
D0
7B
s
33
i3
ii,s
22
D4
7B
iB
2,B
B,4
34
i4
s2
s3
iB
40
iD
s
72
s0
4
Experimentální design: nezbytná výbava biologa
Účel analýzy:
Popisný
cílová populace <..................
výběr dle optimálního plánu
reprezentativní vzorek n jedinců (faktor F)
••O
měření znaku
OO00OOO0O0
*variabilita "hodnot* ve výběrovém souboru
VÝSLEDKY ....................
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
>LU >
N
Reprezentativnost
Spolehlivost Přesnost
4)
oOO	... analyzovaný znak
	cílové populace (X)
••O	... jiný významný
	faktor charakterizující
	cílovou populaci (F)
Experimentální design: nezbytná výbava biologa
Účel analýzy:
Srovnávací (2 ramena)
cílová populace
v\ /17
výběr subjektů pro vstup do hodnocení / studie
-Y-
RANDOMIZACE
vzájemně srovnatelné vzorky (faktor F)
rameno A
měření znaku X
rameno B
OooOO 0O0O0
<.........................................► <.........................................\
variabilita hodnot X       variabilita hodnot X
v rameni A v rameni B
VÝSLEDKY................................
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
x
A
n e
m
a
r
z o
r
r
e
m
a
r
4)
oOO	... analyzovaný znak
	cílové populace (X)
••O	... jiný významný
	faktor charakterizující
	cílovou populaci (F)
■
Srovnatelnost
Spolehlivost Přesnost
Praktická a statistická významnost
•
•
Samotná statistická významnost nemá žádný reálný význam, je pouze měřítkem náhodnosti hodnoceného jevu
Pro vyhodnocení reálné významnosti je nezbytné znát i reálně významné hodnoty
		Praktická významnost	
		ANO	NE
Statistická významnost	ANO	OK, praktická i statistická významnost je ve shodě, jednoznačný závěr	Významný výsledek je statistický artefakt velkého vzorku, prakticky nevyužitelné
	NE	Výsledek může být pouhá náhoda, neprůkazný výsledek	OK, praktická i statistická významnost je ve shodě, jednoznačný závěr
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Obecné schéma využití statistické analýzy		
	Experimentální design	Jak velký vzorek je nezbytný pro statisticky relevantní výsledky? Klíčová stratifikační kritéria cílové populace. Vzorkovací plán zabezpečující náhodnost a reprezentativnost vzorku. Uložení dat ve vhodné formě a jejich vyčištění předcházející vlastní analýze je klíčovým krokem statistické analýzy. Grafická inspekce dat je nezbytným krokem analýzy vzhledem ke schopnosti lidského mozku primárně akceptovat obrazová data. Poskytne vhled do dat, představu o jejich rozložení, vazbách proměnných apod. Popisná analýza umožňuje vyhodnotit srovnáním s existující literaturou realističnost naměřených rozsahů dat. Testování vazeb mezi různými proměnnými s cílem navzájem vysvětlit jejich variabilitu a tím přispět k pochopení řešeného problému.
	Vzorkování	
	Uložení a management dat	
	Vizualizace dat	
	Popisná analýza	
	Testování hypotéz	
	Modelování	Možným vyvrcholením analýzy je využití získaných znalostí a pochopení problému k vytvoření prediktivních modelů.
m m           Vytvoril Institut biostatistiky a analýz, Masarykova univerzita jjj^      J. Jarkovský, L. Dušek		
Stochastické modelování: predikce neurčitých
jevů
Prospektivně - modelově - postihuje chování jevu při respektování variability
Pravděpodobnostní vztahy					
Anamnéza x Výsledek vyšetření pacienta					
	Karcinom	Benigní léze	Benigní riziková	Zdravá	
Pozitivní anamnéza	2,22	34,44	0,00	63,33	100%
Negativní anamnéza	1,06	28,23	0,96	69,75	100%
	p < 0.05				
Vícerozměrná diskriminace		
Znak Xi		
	-,o6 * O w	,     ;' O 6 O cQ}\
		Znak X2
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Stochastické modelování: predikce neurčitých
jevů
n
« 8 © O ^ »fl)
1,0
0,8
0,6
0,4
0,2
0,0 ^
-4,0
-2,0
0,0
2,0
1,0
0,8 0,6
0,4
0,2
4,0 0,0
Age = 55 years
0     10    20    30    40    50    60    70 80
Osa X
Parametr nebo kombinace parametrů
Data konkrétních pacientů (subjektů) k přímému hodnocení
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Stochastické modelování: predikce neurčitých
Stádium I - II
Stádium III - IV
1.0
1.0
% Grade = 2 O Grade = 1
0     0.5     1.0     1.5     2.0     2.5     3.0 3.5
0.0     0.5     1.0     1.5     2.0     2.5     3.0 3.5
Inde x Mitosis / (Apoptosis + 0.5)
Schopnost: vytvářet prakticky využitelné nástroje
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
jevu
Maligní lymfomy: Pravděpodobnost časného relapsu
Klíčový význam korektního uložení získaných dat
Pravidla pro ukládání dat Čištění dat před analýzou
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita , _ ^      J. Jarkovský, L. Dušek
IBA
Anotace
• Současná statistická analýza se neobejde bez zpracování dat pomocí statistických software. Předpokladem úspěchu je správné uložení dat ve formě „databázové" tabulky umožňující jejich zpracování v libovolné aplikaci.
• Neméně důležité je věnovat pozornost čištění dat předcházející vlastní analýze. Každá chyba, která vznikne nebo není nalezeno ve fázi přípravy dat se promítne do všech dalších kroků a může zapříčinit neplatnost výsledků a nutnost opakování analýzy.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
DATA - ukázka uspořádání datového souboru
Parametry (znaky)
Pacient	Clovek	aLeu	aTy%	aSe%	aNeu%	aLy%	aTy	aSe	aNeu	aLy	aHtc	aCLsk	aCLNeus	aCLOZ	aCLNeuO
		cell.10G/	%	%	%	%	cell.10G/	cell.10G/	cell.10G/	cell.10G/	%	mV.s.10S	mV.s.10S	mV.s.10S	mV.s.10S
S	1	4									SS	ľ2		S2	
4	2	ľ,G	B	5B	GG	24	0,G	4,4	5,0	1,B	SS	95	19	4B	10
B	S	4	S	52	55	40	0,1	2,1	2,2	1,G	22	ľľ	S5	SS	15
11	4	G,1	5	59	G4	S5	0,S	S,G	S,9	2,1	SS	10S	2G	49	1S
12	5	G,9	S	B5	BB	9	0,2	5,9	G,1	0,G	Sľ	B1	1S	45	ľ
14	G	5,9	15	55	ľ0	19	0,9	S,S	4,1	1,1	S2	1Sľ	SS	G1	15
1G	ľ	B	1B	ľ5	9S	ľ	1,4	G,0	ľ,4	0,G	S4	151	20	59	B
20	B	9,G	S	ľ2	ľ5	2S	0,S	G,9	ľ,2	2,2	40	ľľ	11	SB	5
21	9	G	10	Gľ	ľľ	19	0,G	4,0	4,G	1,1	S2	120	2G	52	11
22	10	S,S	4	55	59	S9	0,1	1,B	2,0	1,S	2B	B1	42	24	12
Sľ	11	S,B	10	G0	ľ0	S0	0,4	2,S	2,ľ	1,1	S2	111	42	29	11
SB	12	G,4	2	ľG	ľB	1ľ	0,1	4,9	5,0	1,1	25	SGG	ľS	115	2S
S9	1S	G,B	1	5ľ	5B	S9	0,1	S,9	S,9	2,ľ	20	2S4	59	ľ1	1B
49	14	B,5	ľ	Gľ	ľ4	2G	0,G	5,ľ	G,S	2,2	S0	15G	25	10B	1ľ
51	15	9,S	ľ	5ľ	G4	S5	0,ľ	5,S	G,0	S,S	S5	129	21	2S	4
52	1G	2,2	10	5G	GG	S4	0,2	1,2	1,5	0,ľ	SS	4G	S0	12	B
55	1ľ	9,9	S	ľB	B1	10	0,S	ľ,ľ	B,0	0,1	S0	1B9	24	140	1B
5G	1B	5	2	B0	B2	1S	0,1	4,0	4,1	0,ľ	2G	101	25	54	1S
G	1	B,B	11	ľ2	BS	12	1,0	G,S	ľ,S	1,1	44	2GB	SG,G	145	19,9
9	2	9,2	2	GG	GB	2B	0,2	G,1	G,S	2,G	42	1GB	2G,9	ľG	12,2
1S	S	10,0	ľ	BS	90	B	0,ľ	B,S	9,0	0,B	54	1B1	20,1	B1	9
15	4	9,G	1	ľ5	ľG	2S	0,1	ľ,2	ľ,S	2,2	45	S4S	4ľ	124	1G,9
1ľ	5	G,0									45	40		21	
19	G	ľ,2	2	ľB	B0	1B	0,1	5,G	5,B	1,S	44	10S	1ľ,B	GS	10,9
24	ľ	B,2	1	ľ2	ľS	25	0,1	5,9	G,0	2,1	41	209	S4,9	5ľ	9,G
2G	B	10,S	1	B5	BG	S	0,1	B,B	B,9	0,S	41	SG4	41,1	112	12,G
29	9	5,0	1	ľ4	ľ5	21	0,1	S,ľ	S,B	1,1	S9	BS	22,1	S2	B,5
S0	10	11,9	1	51	52	4ľ	0,1	G,1	G,2	5,G	SS	BS	1S,4	52	B,4
S1	11	ľ,2	S	5S	5G	29	0,2	S,B	4,0	2,1	2B	109	2ľ,1	GS	15,5
S2	12	10,B	SG	50	ľG	B	S,9	5,4	9,S	0,9	2ľ	14G	15,ľ	10G	11,4
SS	1S	11,B	22	54	ľG	1G	2,G	G,4	9,0	1,9	45	24G	2ľ,4	GS	ľ
S4	14	1ľ,0	1	B2	BS	1G	0,2	1S,9	14,1	2,ľ	S4	440	S1,2	119	B,4
40	15	10,0	B	ľ2	B0	4	0,B	ľ,2	B,0	0,4	Sľ	1ľG	22,0	52	G,5
Vytvořil Institut biostatistiky a analýz, M J. Jarkovský, L. Dušek
asarykova univerzita
• Správné a přehledné uložení dat je základem jejich pozdější analýzy
• Je vhodné rozmyslet si předem jak budou data ukládána
• Pro počítačové zpracování dat je nezbytné ukládat data v tabulární formě
• Nejvhodnějším způsobem je uložení dat ve formě databázové tabulky
o Každý sloupec obsahuje pouze jediný typ dat, identifikovaný hlavičkou sloupce
o Každý řádek obsahuje minimální jednotku dat (např. pacient, jedna návštěva pacienta apod.)
o Je nepřípustné kombinovat v jednom sloupci číselné a textové hodnoty
o Komentáře jsou uloženy v samostatných sloupcích
o U textových dat nezbytné kontrolovat překlepy v názvech kategorií
o Specifickým typem dat jsou datumy u nichž je nezbytné kontrolovat, zda jsou datumy uloženy v korektním formátu
• Takto uspořádaná data je v tabulkových nebo databázových programech možné převést na libovolnou výstupní tabulku
• Pro základní uložení a čištění dat menšího rozsahu je možné využít aplikací MS Office
YL
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
IBA
•   MS Excel
a   Kontingenční tabulky - rychlá sumarizace rozsáhlých tabulek a   Možnost výpočtů a grafových výstupů přímo v aplikaci a   Visual Basic -složitější aplikace
- Omezení tabulky na 256x65536 buněk (do verze 2003)
- Omezená kontrola chyb při zadávání
•
MS Access
a   Plnohodnotná databáze vhodná pro velké množství dat, řádky omezeny v podstatě jen dostupnou pamětí
b Kontrola typu dat
a Relace tabulek - omezení velikosti souboru
a Visual Basic a formuláře - složitější aplikace
- Omezení tabulky na 255 sloupců
- Výpočty a grafy jsou složitější než v Excelu
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Správa a práce s tabulárními daty
Řazení dat, výběry z dat, přehledy dat
Formátování a přehledné zobrazení dat
Zobrazení dat ve formě grafů
Různé druhy výpočtů pomocí zabudovaných funkcí
Tvorba tiskových sestav
Makra - zautomatizování častých činností
Tvorba aplikací (Visual Basic for Aplications)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Import a export dat
• Import dat
o Manuální zadávání
o  import - podpora importu ze starších verzí Excelu, textových souborů, databází apod.
o  kopírování přes schránku Windows - vkládání z nejrůznějších aplikací - MS Office, Statistica atd.
o  využití textových souborů jako kompatibilního formátu pro přenos dat mezi různými aplikacemi
• Export dat
o Ukládáním souborů ve formátech podporovaných jinými SW, časté jsou textové soubory, dbf soubory nebo starší verze Excelu
o Přímé kopírování přes schránku Windows
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Tipy a triky
• Výběr buněk
o CTRL+A -výběr celého listu
o CTRL + klepnutí myší do buňky -výběr jednotlivých buněk
o SHIFT + klepnutí myší na jinou buňku - výběr bloku buněk
o SHIFT + šipky - výběr sousedních buněk ve směru šipky
o SHIFT+CTRL+END (HOME) - výběr do konce (začátku) oblasti dat v listu
o SHIFT+CTRL+šipky - výběr souvislého řádku nebo sloupce buněk
o SHIFT + klepnutí na objekty - výběr více objektů
• Kopírování a vkládání
o   CTRL+C - zkopírování označené oblasti buněk
o   CTRL+V - vložení obsahu schránky - oblast buněk, objekt,   data z jiné aplikace
• Myš a okraje buňky
o   Chycení myší za okraj umožňuje přesun buňky nebo bloku buněk
o   Při chycení čtverečku v pravém dolním rohu výběru je tažením možno vyplnit více buněk hodnotami původní buňky (ve vzorcích se mění relativní odkazy, je také možné vyplnění hodnotami ze seznamu -např. po sobě jsoucí názvy měsíců.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Databázová struktura dat v Excelu
Sloupce tabulky = parametry záznamů, hlavička udává obsah sloupce - stejný údaj v celém sloupci
Jednotlivé záznamy .—\ (taxon, lokalita atd.) J^""^
\3
Formát   Nástroje   Data   Okno   Nápověda Nápověda - zadejte (
* ífe a - <? ^>-n . | % x . m ii a # 100% .
	A	B	C	D	E	F	G	H
1	Číslo	Značka	Společ	Pohlaví	Délka	Váha	P. anguillae	
2	1	1	1	m	27,5	23,0	2	2
3	2	2	2		34,0	62,5	0	2
4	3	5	3		58,0	230,0	0	0
5	4	6	4		42,0	155,0	0	0
6	5	, 7	5		44,0	149,8	0	0
7	6	8	6		56,0	323,0	0	1
8	7	9	7	m	48,5	178,2	0	0
9	8	10	8		30,5	47,7	4	6
10	9	11	9		47,0	175,9	5	14
11	10	12	10		40,0	85,1	5	9
12	11	14	11		40,0	101,0	0	0
13	12	15	12		31,0	84,0	15	9
14	13	18	13	f?	22,0	9,0	0	0
15	14	17	14		42,0	108,0	1	3
16	15	18	15		44,0	130,0	0	0
17	16	19	16		37,0	85,0	2	5
18	17	20	17		50,0	212,0	1	8
H 4	► N|\data / společenstva / List? /			ListlO / List 12 / ListlJ		/Lblll		
Připraven
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Automatický zadávací formulář
• Slouží k usnadnění zadávání dat do databázových tabulek
• Načítá automaticky hlavičky sloupců jako zadávané položky
Nový záznam
Názvy sloupcU
Obsah dané buňky - editovatelný
Vyhledávání
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
•  Vytváříse z hodnot buněk v daném sloupci a umožňují vložit hodnotu výběrem ze seznamu již zadaných hodnot - usnadnění zadávání
Taxon
Sloupec z nějž je seznam vytvořen a pro který platí
Abundance
Lokalita
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
etc.
Buňka, do níž se vloží vybraná hodnota
•  Umožňuje ověřit typ, rozsah nebo povolit pouze určitý seznam hodnot zadávaných do sloupce databázové tabulky
komunikace s uživatelem
/> <\
Co je povoleno - definiční obory čísel, seznamy, vzorce atd.
Rozsahy hodnot, načtení seznamů apod.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
•
Skupiny hodnot zachovávající logické pořadí, některé jsou zabudované (např. dny v týdnu, měsíce v roce), další je možné uživatelsky vytvořit, slouží pro účely řazení a automatického vyplňování
dat
Existující seznamy
Výběr buněk pro nový seznam
Načtení nového seznamu
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
•
Řazení dat je nejjednodušším způsobem jejich zpřehlednění, užitečným hlavně u menších/výsledkových tabulek
t
» \ Zkontrolujte, zda seřazení nezničívazby mezi buňkami = kontrola oblasti, kterou řadíte.
Podle čeho řadit
Další možnosti - řazení řádkU, řazení podle seznamu
Směr řazení - vzestupně, sestupně
Využít první řádek oblasti jako záhlaví
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
•
Pomocí automatického filtru je snadné vybírat úseky dat pro další zpracování na základě hodnot ve sloupcích databázové tabulky, výběr je možný i podle více sloupců (např. určitá skupina pacientů)
Funkce automaticky rozezná hlavičky sloupců v souvislé oblasti buněk •   U sloupců použitých pro filtraci jsou rozbalovací seznamy zbarveny modře Výhodné pro čištění dat (vyhledávání překlepů, kombinace textu a čísel)
•
•
Výběr hodnot pro filtraci
Rozbalení seznamu hodnot nalezených ve sloupci
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Typy grafické vizualizace Rizika desinterpretace grafického zobrazení dat
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita , _ ^      J. Jarkovský, L. Dušek
IBA
Anotace
• Prvním krokem v analýze dat je jejich vizualizace. Různé typy dat nám umožňující získání představy o rozložení dat, zastoupení kategorií i vztazích proměnných navzájem. Prostřednictvím vizualizace získáváme vhled do dat a začínáme vytvářet hypotézy o zákonitostech panujících mezi proměnnými v hodnoceném souboru dat.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
1. Výskyt kategorií (1, 2, 3,)
Koláčový (výsečový) graf
Sloupcový graf
□ Řada2
Sloupcový graf
□ Řada2
ty o
CL
40
20
%
D
100
50
n
2. Vývoj hodnot (v čase) Y vs. X (t)
Řada
30
Y
15
Spojnicový graf
1       2       3       10     20 X
Bodový graf
Řada
Y
30
15
Y
30
15
0      5      10     15     20     25 X
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
40%
30%
30%
1
□ 2
□ 3
1
40%
2 D3 30%]
Plošný graf
□ Řada2
2 3 10        20 X
0
0
1
2
3
1
2
3
0
0
0
1
3. Vztahy mezi proměnnými - korelace
X1
X1
Bodový - korelační diagram
Řada2
X1
1 2 3 10 20
X2
Řada2
X1
1        2        3       10 20
X2
Řada2
0 5        10       15       20 25
X2
Řada2
•I
J
X2
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Bodový - korelační diagram
.■irilhl			
0 0 8 o*" 0 oaf 0*8° *              03 ^ o' ^ 0 "q 00   0 0 0    0   o) 00 0        0 %	liJjL		
0 o    0 o ° 0 o             <*> 0 u □	0 °   0     0° ° 0        °     o ° 00 »°° •    „               ä  o " 0 í °   0 000 B   * 0	iiIiiIm	
0 o     °o o o ° ' * 0^°	0 0° 0 0 „           0   0        On 0 °o °	0 o    » o «0 0 o°°°	.ikk___
0 0°* °      00j    » ■> tb od    T ° & 0                 D 0	□ 0 0 0 °o             0 ° 0    8          o „ o° ° . °    ° ° °	0 0 „ °o° oP   o °°	°o o°?r:^ lllliLi-
30
30
15
15
0
0
30
30
15
15
0
0
2
3
10 20
Grafická prezentace dat - umění komunikace
4. Kvantitativní hodnoty parametru(ů) - X - v rámci kategorií A, B, C
i >*■—<s
X 40
Krabicový graf
20
Řada2
X
100
0
1
T
A
C
5. Histogram
22 20 18 16 14 12 10 8 6 4 2 0
-2 -1 01 23456789101112
50
0
A
40 35 30 25 20 15 10
C
50   100   150   200   250 300
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Sloupcový graf
Řada2      X 100
50
A
I
Řada2
C
50
100
150
0
B
B
B
0
Grafická prezentace dat - umění komunikace
6. Zviditelnění primárních dat
x1      x2 X3
n
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Grafická prezentace dat - umění komunikace
8. Grafické zviditelnění má nekonečne mnoho možností
BUNKY1 ENZYM2
Lr
u
"II.....
BU N KY2 BU N KY1 ENZYM2
10 5
0 "
10       15       20       25       30       35       40       45       50 0 ENZYM1
Case £pase 8Case 7,
Case 10 Case 11 Case 12
Case 6
Case 5
Case 4 Case 3
Case 13 Case 14 Case 15 Case 16 Case 17 Case 18
Case 19
Case 20
Case 21
Case 30 Case 29 Case 28
Case 27 Case 26
Case 22ase 2Case 2C'
wm BUNKY2
iiäääl BUNKY1
lllllllll ENZYM2
Case 9Case 8Case
Case 13: Case 14 Case 15 Case 16 Case 17 Case 18
Case 2 Case 1
Case 19
Case 20
Case 21
-100   100    300    500 700
/ Case 30 Case 29 Case 28
Case 22ase 2Case 2Ca"
BUNKY2 BUNKY1 ENZYM2
Stacked Plot (DISKRIM.STA 7v*30c)
BU N KY2 BU N KY1 ENZYM2
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
900
900
700
700
35
500
500
300
300
100
100
-100
-100
BUNKY2
0
Nesprávné užití grafů: problém rozsahu číselné osy
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Nesprávné užití grafů: problém standardizace h odnot
L.
o
900^
600 -
/BA
íadO     1940     1950     1960     1970 1980
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
-
3
60,-
o
O
c
n
I
1900     1940     1950 1960
1970 1960
Grafy zaměřené na vícerozměrné soubory dokáží zviditelnit i veliké soubory dat
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
IV. Teoretické pozadí statistické analýzy
Jak vznikají informace Rozložení dat
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Anotace
• Základním principem statistiky je pravděpodobnost výskytu nějaké události. Prostřednictvím vzorkování se snažíme odhadnout skutečnou pravděpodobnost událostí.Klíčovou otázkou je velikost vzorku, čím větší vzorek, tím větší šance na projevení se skutečné pravděpodobnosti výskytu jevu.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
JAK vznikají informace ? základní pojmy
kutečnost
Pozorovatel
Náhoda
(vybere jednu z možností pokusu)
Jev
i  i Rozliší, co nastalo
a) podle možností
b) podle toho, jak potřebuje
podmnožina všech možných výsledků pokusu/děje, o které lze říct, zda nastala nebo ne
Jevové pole
třída všech jevů, které jsme se rozhodli nebo jsme schopni sledovat
Skutečnost + Jevové pole = Měřitelný prostor
Experimentální jednotka - objekt, na kterém se provádí šetření Populace - soubor experimentálních jednotek Znak - vlastnost sledovaná na objektu Sledovaná veličina - číselná hodnota vyjadřující výsledek náhodného experimentu
Znak se stává náhodnou veličinou, pokud se jeho hodnota zjišťuje vylosován ím objektu ze základního souboru
Výběr - výběrová populace - cílová populace Náhodný výběr Reprezentativnost
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
JAK vznikají informace ?
„Empirical approach"
„Classical approach"
Empirický postup
f
n 03
0.2 0.1
n = 10
f
n 0.3 0.2
0.1
n = 50
f
n 0.3 0.2
0.1
n = oo
0     1     2     3     4     5 6
0     1     2     3     4     5 6
0     1     2     3     4     5 6
možné jevy: čísla 1 - 6
n - počet hodů (opakování)
U složitých stochastických systémů se pravda získá až po odvedení značného množství experimentální práce: musíme dát systému šanc i se projevit
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
0
0
0
f
n
0.3 0.2 0.1 0
Empirický postup
n = 10
f n
n = 50
0.3 0.2 0.1 0
0     1     2     3     4     5 6
0     1     2     3     4     5 6
f
n 0.3 0.2
0.1
0
n = oo
0123456
možné jevy: čísla 1 - 6
n - počet hodů (opakování)
Při realizaci náhodného experimentu roste se zvyšujícím se počtem opakování pravdivá znalost systému (výsledky se stávají stabilnější) .... diskutabilní je ale ovšem míra zobecnění konkrétního experimentu
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Empirický zákon velkých čísel
Při opětovné nezávislé realizaci téhož náhodného experimentu se podíl výskytů sledovaného jevu mezi všemi dosud provedenými realizacemi zpravidla ustaluje kolem konstanty.
Pravděpodobnost je libovolná reálná funkce definovaná na jevovém poli A, která každému jevu A přiřadí nezáporné reálné číslo P(A) z intervalu 0 -1.
Z praktického hlediska je pravděpodobnost idealizovaná relativní četnost
0 ................................................................................1.................................................................................................
P (A) = 1 .................................jev jistý
P (A) = 0.................................jev nemožný
P (A n B) = P (A) . P (B)............. nezávislé jevy
P (A n B) = P (A) . P (B/A) ...........závislé jevy
P (A / B) = P (A n B) / P (B)..........podmíněná pravděpodobnost
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
existuje pravděpodobnost výskytu jevU (nedeterministické závěry) <}> „vše je možné": pouze jev s pravděpodobností 0 nikdy nenastane <{>   pravděpodobnost lze zkoumat retrospektivně i prospektivně
pravděpodobnost výskytu ▲
plocha = pravděpodobnost výskytu
+
0 1 2 3 4 5 x počet chlapců v rodině s X dětmi
x
výška postavy
Vytvořil Institut biostatistiky a analýz, Masaryko a univerzita J. Jarkovský, L. Dušek
V. Základní typy dat
Spojitá a kategoriální data Základní pop isné statistiky Grafický popis dat
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Anotace
• Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod - od binárních přes kategoriální, ordinální až po spojitá data roste míra informace v nich obsažené.
• Základním přístupem k popisné analýze dat je tvorba frekvenčních tabulek a jejich grafických reprezentací -histogramů.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Jak vznikají informace ? -ruzne typy dat znamenají různou informaci
Data poměrová
Data intervalová
O kolik ?
Data ordinální
Data nominální
Spojitá
Kategoriální otázky
Diskrétní data
Otázky „Ano/Ne"
Podíl hodnot vetsi/mensi než
specifikovaná
hodnota
?
Procenta odvozené hodnoty
Samotná znalost typu dat ale na dosažení informace nestačí.............
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Jak vznikají informace ? -různé typy dat znamenaj í různou informaci
Statistika středu
Data poměrová
PRŮMĚR     1 Spoji
data
Y = f
Data intervalová
Data ordinální
MEDIÁN
X
Data nominální
MODUS
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Y: frekvence absolutní / relativní
y
B
1
y
				
	■			
IIP		IIP	IIP	
■	■	■	■	P
I   II   III IV V
x
A**
X: měřený znak
Diskrétní data
Spojitá data
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Odvozená data: Pozor na odvozené indexy
Příklad I:
Příklad II:
Znak X: Hmotnost Znak Y: Plocha
X: Průměrný počet výrobků v prodejně
Y: Odhad prostoru průměrně nabízeného k vystavení výrobku
průměr : (min - max)
X: 1,2 : (1,15 -1,24) Y: 1,8 : (1,75 - 1,84)
+ I - 3,8 %
+ I - 2,5 %
X/Y = 0,667 :
(JL15 V 1,84
1,75/
+ I - 6,2 %
Nová veličina má jinou šířku rozpětí než ty, ze kterých je odvozená
Vytvořil Institut biostatistiky a analýz, Masaryko 'a univerzita J. Jarkovský, L. Dušek
II
8
CL
"O O .N
Q.
O CL.
DISKRÉTNÍ DATA
Primární data
o
0
1
2 i i S i
1
2
n = ioo
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Frekvenční sumarizace
N: 100 dětí (hemofiliků)
x: znak: počet krvácivých epizod za měsíc
x	n(x)	p(x)	N(x)	
0	20	0,2	20	0,2
1	10	0,1	30	0,3
2	30	0,3	60	0,6
3	40	0,4	100	1,0
n(x) - absolutní četnost x p(x) - relativní četnost; p(x) = n(x) / n N(x) - kumulativní četnost hodnot n epřevyšujících x N(x) = 2 n(t)
t L x
F(x) - kumulativní relativní če tnost hodnot nepřevyšujících x; F(x) = N(x) / n
n(x)
0 12 3
x
p(x)
0 12 3
x
N(x)
0123
x
F(x)
0 12 3 x
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
SPOJITÁ DATA
Příklad: x: koncentrace látky v krvi n = 100 pacientů
O co O
II
Q.
Primární data
1,21 1,4S
1^
0,31 1,21 1,33 0,33
Frekvenční sumarizace
n = 100 opakovaných měření (100 pacientů)
x: koncentrace sledované látky v krvi (20 - 100 jednotek)
interv	)	n(l)	n(l)/n	N(x'')	F(x'')
<20, 40)	20	20	0,2	20	0,2
<40, 60)	20	10	0,1	30	0,3
<60, 80)	20	40	0,4	70	0,7
<80, 100)	20	30	0,3	100	1,0
n = 100
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
d(l) - šířka intervalu n(l) - absolutní četnost n(l) / n - intervalová relativní četnost N(x'') - interval ová kumu lativní četnost do horní hranice X'1 F(x'') - intervalová relativní ku mulativn í četnost do horní hranice X''
Histogram
Výběrová distribuční funkce
Plocha: n(l) / n
0.025 0.020 0.015 0.010 0.005 0.000 -f
1-\
20   40    60   80 100
x
0
20      40      60      80 100
x
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
1
Počet zvolených tříd a velikost souboru určují kvalitu výstupu
5 H 4 3 2 1 0
k = 10 tříd
■
8 7 6 5 4 3 2 1 0
k = 5 tříd
1,5  2,0 2,5 3,0  3,5 4,0 4,5 5,0
2   3   4 5
5 4 3 2 1
0 J
k = 20 tříd
1,0
2,0
3,0
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
4,0
5,0
1
Histogram vyjadřuje tvar výběrového rozložení
f(x)
f(x)
i i
n   I   I   I I
x
I_I
x
f(x)
_lllllllll
I
f(x)
I
f(x)
1_
x
	1	11	—1			
■1	—		11	r"		■
x
JIH
x
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Příklad: věk účastníků vážných dopravních nehod
3
>
O
O i_
O Q.
350 300 250 200 150 100
50 0
0
35 i 30 25 20
15 H
10 5 0
0
Správný histogram ?
td
1020
30     40 50
Věk (roky)
60
70 80
Správný histogram ?
Věk
0 -4
5 -9 10 -15 16 -19 20 -24
25 - 59
> 60
10     20     30     40     50     60     70     80 Věk (roky)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
f
28
46 58 20 114
316 103
9(x)
L
0
F(x)
u
0
Rozložení
x
Distribuční funkce
x
Je - li dána distribuč ní funkce, je dáno rozložení
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
x
■
x
lllllllllllllllllllllllllll
I_L
x
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
<p(x)
1,00 F(x)
Plocha = relativní četnost
A
/<p(x) d(x) = 1
F(x):
Pravděpodobnost, že se X vyskytuje v intervalu M
A
P(X L x) = O(x) = F(x")
M
x
<D(x) ... distribuční funkce
P(XL x) =y~ <p(x) d(x) M
Známe-li distribuční funkci, pak známe rozložení sledované veličiny.
Pro jakoukoli množinu hodnot (M) lze určit P, že X do této množiny patří.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Grafické výstupy z frekvenční tabulky - spojitá data
f(x) 0.025 0.02 0.015 0.01 0.005 0 +
F(x)
0
x
Uspořádání čísel podle velikosti a konstrukce rozložení umožňuje pravděpodobnostní
zařazení každé jednotlivé hodnoty
20    40    60    80 100
x
X0.1; X0.9; X0.5; Xe
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Otázka: Jak velké musí být X, aby 5 % všech
hodnot bylo nad ním?
6 = 0,95 ... Pravděpodobnost
j(x)
0,95 <í>(x)
Hledáme: P(XL x6) = 0,95 = 6
x6 = (x0,95) = ?
5 %
X0,95 x
F(x6 ) = 6
t
Kvantil je číslo, jehož hodnota distribuční funkce je rovna P, pro kterou je kvantil definován
Jakékoliv číslo na ose x je kvantilem
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Normální rozložení jako statistický model Aplikace modelových rozložení Přehled modelových rozložení
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita , _ ^      J. Jarkovský, L. Dušek
IBA
Anotace
• Klasickým postupem statistické analýzy je na základě vzorku cílové populace identifikovat typ a charakteristiky modelového rozložení dat, využít jeho matematického modelu k popisu reality a získané výsledky zobecnit na hodnocenou cílovou populaci.
• Využití tohoto přístupu je možné pouze v případě shody reálných dat s modelovým rozložením, v opačném případě hrozí získání zavádějících výsledků.
• Nejklasičtějším modelovým rozložením, od něhož je odvozena celá řada statistických analýz je tzv. normální rozložení, známé též jako Gaussova křivka.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
<p(x)
N (ma)
1
(x-m)2
a.
2n
2a
x
Standardizovaná forma
N (0,1)
1
V2.
.e
2
Tabelovaná podoba
0
z
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
b)
|i ~ x
průměr - ukazatel středu
c)
a ~ s směrodatná odc hylka
2
S = Vs Pravidlo ± 3s
d)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
s2 =
Ste - x)2 n -1
x
~[—|—I—r—I       |~~|     T neúměrně zvýší s2
x
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Normální rozložení jako model
I. Použitelnost modelu
A) X: spojitý znak - hmotnost jedince (myši)
1,2; 1,4; 1,6; 1,8; 2,0; 2,4; 3.8 n = 7 opakování medián = 1,8
průměr = 1 ]T Xj = - £ xT =1 (1,2 +1,4 +1,6 +1,8 + 2,0 + 2,4 + 3,8) =114,2 = 2,03
n i=1 7
i=1
7
7
X (x1 - x)2           - 2,03)2 rozptyl (S2) = J=1-:-= J=1-:-= 0,766
n -1
6
sm. odchylka (s) = V s2 = V0,766 = 0,875
■
Je předpoklad normálního rozložení oprávněný ? Jaký předpokládáte možný rozsah hodnot tohoto znaku ?
?
■
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Normální rozložení jako model
/. Použitelnost modelu
B) X: spojitý znak - hmotnost jedince (myši)
1,2; 1,4; 1,6; 1,8; 2,0; 2,2; 2,4; 3,8; 8,9 n = 9 opakování
medián = 2
1
1
prů měr = - E x = n E x = n k2 +1,4+1,6 +1,8 + 2'° + 2'2 + 2'4 + 3'8+8'9) = n 25,3 = 2,81
E (x, - x)2    E (x - 2,81)2
rozptyl (s2) =--:— =----= 5,79
n -1
8
sm. odchylka (s) = Vs2 = ^5J9 = 2,269
Jak hodnotíte model u těchto dat ?
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Stochastické rozložení jako model
1        Předpoklad: Znak x je rozložen podle daného modelu
2
3
Znak x je naměřen o n hodnotách s modelovými parametry: "x a s
Znak x je převeden na formu odpovídající tabulkovému standardu:
/a
Platnost modelu ?
x - //
4
Využije se tabelované (modelové) distribuční funkce
pro testy o rozložení hodnot x
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
• Data z průzkumu jsou publikována jako:
Kosti prehistorického zvířete: n = 2000
průměrná délka = 60 cm sm. odchylka (s) = 10 cm
S Předpokládáme, že je opráv něný model normálního rozložení
^  Jaká je pravděpodobnost, že by velikost dané kosti překročila velikost
66 cm: P (x > 66) ?
Z
x - //
g
9
P (x > 66 )= 1 - P (x < 66) a platí, že P (X < x) = F (x )
tedy P(x > 66) = 1 - P(x < 66) = 1 - P(< 66-60) = 1 - f(0,6) = 0,27425
s 10
Kolik kostí mělo zřejmě délku větší než 66 cm ? p(x>66)*n=0,27425*2000=548 Jaký podíl kostí ležel svou délkou v rozsahu x od 60 cm do 66 cm ?
P(60 < x < 66)= P
60 - 60
< Z <
66 -60
F
.10 10
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
(0,6)-F(0)= 0,22575 ||^ 22,6% kostí leží v rozsahu 60-66cm
Stručný přehled modelových rozložení I.		
Rozložení	Parametry	Stručný popis
Normální	Průměr Rozptyl (ct2)	Symetrická funkce popisující intervalovou hustotu četnosti; nej pravděpodobnějš í jsou průměrné hodnoty znaku v populaci.
Log-normální	Medián Geometrický průměr Rozptyl (ct2)	Funkce intervalové hustoty četnosti, která po logaritmické transformaci nabude tvaru normálního rozložení.
Weibullovo	a - parametr tvaru P - parametr rozsahu hodnot	Změnou parametru a lze modelovat distribuci doby přežití, např. stresovaného organismu. Rozložení využívané i jako model k odhahu LC50 nebo EC50 u testů toxicity.
Rovnoměrné	Medián Geometrický průměr Rozptyl (ct2)	Funkce intervalové hustoty četnosti, která po logaritmické transformaci nabude tvaru normálního rozložení.
Triangulární	f(x) = [b - ABS (x - a)] / b2 a -b < x < a + b	Pravděpodobnostní funkce pro typ rozložení, kdy jsou střední hodnoty výrazně pravděpodobnější než hodnoty okrajové.
Gamma	Parametry distribuční funkce: a - parametr tvaru P - parametr rozsahu hodnot	Umožňuje flexibilně modelován í distribučních funkcí nejrůznějších tvarů. N apř. x2 rozložení je rozložení typu Gamma. Gamma rozložení s a = 1 je známo jako exponenciální rozložení.
.. .      J. Jarkovský, L. Dušek		
Stručný přehled modelových rozložení II.		
Rozložení	Parametry	Stručnýpopis
Beta	Parametry distribuční funkce: a - parametr tvaru P - parametr rozsahu hodnot	Pravděpodobnostní funkce pro proměnnou omezenou rozsahem do inte rvalu [0; 1]. Je matematicky komplikovanější, ale velmi flexibilní při popisu změn hodnot proměnné v ohraničeném intervalu.
Studentovo	Stupně volnosti -uvažuje velikost vzorku Průměr Rozptyl	Simuluje normální rozložení pro menší vzorky čísel. Pro větší soubory (n > 100) se limitně blíží k normálnímu rozložení.
Pearsonovo	Stupně volnosti -uvažuje velikost vzorku	Slouží především k porovnání četností jevů ve dvou a více kat egoriích. Používá se k modelování rozložení odhadu rozptylu normálně rozložených dat.
Fisher-Snedecorovo	Dvojí stupně volnosti -uvažuje velikost dvou vzorků	Používá se k testování hodnot průměrů -F test pro porovnání dv ou výběrových rozptylů; F test, ANOVA atd.
m           Vytvořil Institut biostatistiky a analýz, Masarykova univerzita jjj^      J. Jarkovský, L. Dušek		
Medián Průměr
x
U asymetrických rozložení je medián velmi vhodným alternativním ukazatelem středu
Medián - frekvenční střed
• • •
x
Průměr - těžiště osy x
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Medián Průmer
EXP (Y) = Geometrický průměr X
Medián = Průmer
—
Y = y —
i= 1
n
Y ± Standardní chyba
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Základní typy transformací vedou k normalitě rozložení nebo k homogenitě rozptylu
_ogaritmická transformace
Logaritmická transformace je velmi vhodná pro data s odlehlými hodnotami na horní hranici rozsahu. Při porovnání průměrů u více souborů dat je pro tuto transformaci indikující situace, kdy se s rostoucím průměrem mění p roporcionálně i směrodatná odchylka, a tedy jednotlivé proměnné mají stejný koeficient v ariance, ačkoli mají různý průměr.
Za takovéto situace přináší logaritmická transformace nejen zeslabení asymetrie původního rozložení, ale ta ké vyšší homogenitu rozptylu proměnných. Pro transformaci se nejčastěji používá přirozený logar itmus a pokud jsou v původním souboru dat nulové hodnoty, je vhodné použít operaci Y = ln (X+1).
Je-li průměr logaritmovaných dat (tedy průměrný logaritmus) zpětně transformován do původních hodnot, výsledkem není aritmetický, ale geometr ický průměr původních dat.
MU
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Transformace dat - legitimní úprava rozložení
Základní typy transformací vedou k normalitě rozložení nebo k homogenitě rozptylu
Odmocninová transformace
Transformace je vhodná pro proměnné mající Poissonovo rozložení, tedy proměnné vyjadřující celkový počet nastání určitého jevu (spíše vzácného) v n nezávisle opakovaných poku sech. Obecněji lze tento typ transformace doporučit v případě normalizace dat typu počtu jedinců (buněk, apod.). Jde o transformaci:
Y = y[x     nebo   Y = Vx+T   nebo    Y= Vx +V x+1
Transformace s přičtenou hodnotou 1 jsou efektivní, pokud X nabývá velmi malých nebo nulových hodnot. Situace indikující vhodnost odmocninové transformace je také proporcionalita výběrového rozptylu a průměru, tedy obecn ě jestliže s2x = k (výběrový průměr).
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Transformace dat - legitimní úprava rozložení
Arcsin transformace
Tzv. úhlová transformace - velmi vhodná pro data typu podílů výskytu určitého jevu (znaku) mezi n hodnocenými jedine i - tedy pro data mající binomické rozložení. Pokud se určitý znak vyskytuje r-krát mezi n možnostmi (jedinci, opakováními), pak lze vyjádřit relativní četnost jeho výskytu jako p = r/n s variabilitou p.(1-p)/n. Arcsin transformace odstraní ze so uborů dat podíly blízké 0 nebo 1, a tak efektivně sníží variabilitu odhadů středu. Transformace vš ak není schopná odstranit variabilitu vyvolanou rozdílným počtem opakování v jednotlivých variantách - v takovém případě lze doporučit provedení vážených transformací dat. Velmi častou formou této transformace je: ,—
Y = arcsin ^p
- tedy transformace podílů do hodnot, jejichž sinus je roven druhé odmocnině původních hodnot. Pokud celkový poč et jedinců (opakování), mezi kterými je výskyt znaku monitorován, je n < 50, pak lze doporučit velmi efektivní empirická opatření pro transformaci podílů blízkých 0 nebo 1. Pro tento případ lze nahrazovat nulové podíly hodnotou 1/4n a 100 % podíly hodnotou (n-1/4)/n. Pokud se mezi hodnotami vyskytuje větší množství krajních hodnot (menší než 0,2 a větší než 0,8), lze doporučit
x           .      x +1 arcsin J-+ arcsin -
\n+1 \n+1
transformaci: 1
Y
2
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
VII. Popisná statistika dat
Popisné statistiky dat Vizualizace dat
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita , _ ^      J. Jarkovský, L. Dušek
IBA
Anotace
• Popisná analýza dat je po vizualizaci dat dalším krokem v procesu statistického hodnocení. Poskytuje představu o rozsazích hodnocených dat a umožňuje vyhodnotit, srovnámís literárními údaji nebo dosavadní zkušeností, jejich realističnost.
• Již při výběru vhodné popisné statistiky se uplatňuje znalost rozložení dat. Některé popisné statistiky, odvozené od modelových rozložení, je možné využít pouze v případě, že data mají dané modelové rozložení. Typickým příkladem je průměr a směrodatná odchylka, jejichž předpokladem je přítomnost normálního rozložení.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Typy proměnných	
•	Kvalitativní/kategorická
	o binární - ano/ne
	o nominální        - A,B,C ...několik kategorií
	o ordinální-1<2<3 ..několik kategorií a můžeme se ptát, která je
	VětSI
•	Kvantitativní
	o nespojitá - čísla, která vSak nemohou nabývat vSech hodnot (např.
	počet porodů)
	o spojitá - teoreticky jsou možné vSechny hodnoty (např. krevní tlak)
IBA	Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Řada dat a její vlastnosti
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Kategorie	Četnost
B	S
C	B
D	1
Kvalitativní data
Tabulka s četností jednotlivých kategorií.
Kvantitativní data
Četnost hodnot rozl ožení v jednotlivých intervalech.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Parametry
• Soubor dat (řada čísel) můžeme charakterizovat parametry jeho rozložení
• Hlavní skupiny těchto parametrů můžeme charakterizovat jako ukazatele:
o Středu (medián, průměr, geometrický průměr)
o Šířky rozložení (rozsah hodnot, rozptyl, směrodatná odchylka)
o Tvaru rozložení (skewness, kurtosis)
o Kvantily rozložení - kolik % řady dat leží nad a pod kvantilem
YL
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
IBA
Populace a vzorek
• Populace představuje veškeré možné objekty vzorkování, např. veškeré obyvatelstvo ČR při sledování na úrovni ČR, z populace získáme reálné parametry rozložení
• Z populace je prováděno vzorkování za účelem získání reprezentativního vzorku (sample) populace, toto vzorkování by mělo být náhodné, důležitá je také velikost vzorku, ze vzorku získáme odhady parametrů rozložení
í i i
Populace
Sample
Průměr, SD atd.
Odhad průměru, SD
YL
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
•
Průměr -vhodný ukazatel středu u normálního/symetrického rozložení, kde xi jsou jednotlivé hodnoty a n jejich počet
E (x) = x = V —
n
i=1
•   Medián - jde vlastně o 50% kvantil, tj. polovina hodnot leží nad a polovina
pod mediánem
•  V případě symetrického rozložení jsou jejich hodnoty v podstatě shodné
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Ukazatele středu rozložení II.
• Geometrický průměr - antilogaritmus průměru logaritmovaných dat, je vhodný pro doleva asymetrická data (lognormální rozložení), která jsou v biologii velmi častá, jeho hodnota v podstatě odpovídá mediánu
• Takto asymetrická data je možné převést logaritmickou transformací na normální rozložení
log
Průměr (logaritmovaných dat)
t
Průměr Medián, geometrický průměr
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Ukazatele šířky rozložení
•
•
•
•
Rozptyl je ukazatelem šířky rozložení získaný na základě odchylky jednotlivých hodnot od průměru. 2   Y (xi -x)2
2
S =
n-1
Obdobně jako u průměru je jeho vypovídací schopnost nejvyšší v případě symetrického/normálního rozložení
Směrodatná odchylka je druhá odmocnina z rozptylu
Koeficient variance - podíl SD ku průměru (u normálního rozložení by se 95% hodnot mělo vejít do průměr 4-3 SD), pokud je SD větší než 1/3 průměru jsou teoreticky pravděpodobné záporné hodnoty v rozložení - ukazatel problémů s normalitou dat
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
•
•
Skewness - ukazatel „šikmosti" rozložení, asymetrie rozložení Kurtosis- ukazatel „špičatosti/plochosti" rozložení
skewness>0 skewness<0
kurtosis<0
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
kurtosis>0
Další parametry rozložení	
•	w Počet hodnot - důležitý ukazatel, znamená jak moc lze na data spoléhat
•	Střední chyba odhadu průměru - je založena na směrodatné odchylce rozloženia počtu hodnot, vlastně jde o směrodatnou odchylku rozložení průměru. Říká jak přesný je náš výpočet průměru. Čím větší počet hodnot rozloženi, tím je náš odhad skutečného průměru přesnější.
	Suma hodnot
	Modus — nejčastější hodnota, vhodný např. při kategoriálních datech
	Minimum, maximum
	Rozsah hodnot
	Harmonický průměr - převrácená hodnota průměru převrácených hodnot (vždy platí harmonický průměr < geometrický průměr < aritmetický průměr)
ML IBA	Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Bodové a intervalové odhady Význam intervalu spolehlivosti
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita , _ ^      J. Jarkovský, L. Dušek
IBA
Anotace
• Dva základní přístupy statistického hodnocení jsou popis dat a testování hypotéz. Při popisu dat je třeba si uvědomit, že popisné statistiky získané ze vzorku nejsou skutečnou hodnotou v cílové populaci, ale pouze jejím odhadem. Přesnost odhadu závisí jednak na variabilitě dat, jednak na velikosti vzorku, při navzorkování celé cílové populace by výsledná popisná statistika již byla přesnou hodnotou, nikoliv odhadem.
• Odhady a s nimy související intervaly spolehlivosti jsou univerzálním statistickým postupem a je možné je dopočítat k libovolné popisné statistice.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Statistika v průzkumném studiu
INTERVAL SPOLEHLIVOSTI
velmi užitečná míra věrohodnosti odhadů
ODHADY
Bodové
Číslo (chyba) (Odhad parametru)
Intervalové
Interval pravděpodobných hodnot
Spolehlivost (Pravděpodobnostní interpretace)
Obecný tvar:
Odhadovaný parametr
P (L < Odhad < L2) t 1 - a/2
Kvantil
±     modelového x SE (odhadu) rozložení
KV pro (1 - a/2)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Cílová populace
<p(x)
X
X......odhad průměru
Prezentace
n; x; s n; x; c
n
n; x; Interval
spolehlivost i pro odhad průměru
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Cílová populace
X:
Náhodné výběry o n = 100
X1    X2    X3    X4 .... Xi
průměr x
M
X
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
s
n
X
s
n
Standardní chyba odhadu průměru
ODHAD PRŮMĚRU: Vztahy
Bodový	
x'	í   s 1
	
Intervalový	
1 - a
2 Vň"
a
2 Vň"
^o/ /
ju : x ± tl
2
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
t... příslušný kvantil Studentova
rozložení 1 - a ... spolehlivost hodnoceného
intervalu
Interval spolehlivosti odhadu průměru je pouze informací o přesnosti tohoto odhadu
Interval spolehlivosti je hodnocen pro (1 - a) procentní spolehlivost
Cílová populace
Výběrové populace
Původní proměnná x
Šířku intervalu určuje:
a) velikost vzorku
b) rozptyl (variabilita) vzorku
c) požadovaná spolehlivost
Výběr n=10 pro odhad průměru
Výběr n=100 pro odhad průměru
<p(x)
9(x)
-3s     p +3s
<p(x)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
ODHAD PRŮMĚRU: Příklad
X: Cena výrobku v n = 21 obchodech Data:
n = 21; x = 3,58; s2 = 0,12 s- = A/0,12/21 = 0,075
x        V    7      / 7
95% Interval spolehlivosti:
(u = n-1) (20) t1-a/2      = t 0,975  = 2,086
: x ± 2,086 .s
x
3,58 - 2,086.0,075 <jU< 3,58 + 2,086.0,075
3,423 < p < 3,737
N/1
P (3,423 < p < 3,737) > 0,95
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Interval spolehlivosti
a) pro a2:
b) pro a:
(n -1)
2 (n-1)
X «/2
2
x2 (l-a 2)
(n-1)
(n-1)
2 (n-l)
(n-1)
x2 ((-a 2)
(n-1)
c) pro a/Vn :
(n-1)
2 (n-l)
nx a/ŕ '
(n -1)
2 (n-l)
nx ((-a/2 Ý }
oi4n
-směrodatná odchylka odhadu průměru (S.E .)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Interval spolehlivosti pro odhad rozptylu: příklad
Příklad: měření produkce metabolitu (x) u buněk dvou nádorových linií
Linie 1 n = 50
s2(x) = 10 (mg/ml)2 s(x) = 3,16 mg/ml x = 2 mg/ml sx = 0,447 mg/ml
95% IS
49 *
77,22
10 <a
49 * 10 31,56
6,98 < a2 < 15,53 c = 1,58
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Linie 1 n = 100
s2(x) = 16 (mg/ml)2 s(x) = 4 mg/ml x = 2,8 mg/ml sx = 0,4 mg/ml
95% IS
99  *  16 <a2 < 99  * 16 128,42 73,36
Výpočet mediánu z frekvenčních dat a jeho
odhady
a) Určete medián tohoto souboru dat: 1,3,4,5,7,8 [4,5]
b) Určete medián tohoto souboru dat: 5,1,8,3,4 [4]
c) Tento příklad je ukázkou výpočtu mediánu u velkého souboru dat. V následující tabulce je uveden rozbor rozložení souboru dat od 179 krav, kde sledovanou veličinou byl počet dní od narození telete do znovuobnovení menstruačního cyklu. Uvedená data jsou velmi zjednodušena jsou zde uvedena pouze pro ilustraci:
a
Class limits	0,5-	20,5-	40,5-	60,5-	80,5-	100,5-	120,5-	140,5-	160,5-	180,5-	200,5-
(days)	20,5	40,5	60,5	80,5	100,5	120,5	140,5	160,5	180,5	200,5	220,5
Frequency	8	33	50	32	15	20	11	6	2	1	1
Cumulative frequency	8	41	91	123	138	158	169	175	177	178	179
Frekvence zastoupení dosahuje nejvyšší hodnoty u třídy od 40,5 - 60,5 dnů. Druhý (menší) frekvenční pík lze pozorovat u intervalu od 100,5 do 120,5 dní. Existence dvou maxim (bimodální data) je důkazem nenormality tohoto
konkrétního souboru.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Jelikož n =179, pak je medián devadesátá hodnota od počátku souboru, a dále je zřejmé, že bude velmi blízko horní hranici třídy 40,5 - 60,5 dní. Za předpokladu, že 50 hodnot této třídy je v ní rovnoměrně rozmístěno lze použít následující vzorec:
XL = hodnota X (sledované veličiny) na spodní hranici třídy obsahující medián: zde 40,5 dní
g = pořadová hodnota mediánu minus kumulativní frekvence do horní hranice předchozí třídy, tj. 90 - 41= 49
l = třídní interval : 20 dní
f = frekvence ve třídě obsahující medián
Dosadíme-li do uvedeného vzorce, získáme odhad mediánu jako 60 dní. Průměr tohoto datového souboru je 69,9, což je
významně odlišná hodnota, a potvrzuje znovu nenormální charakter dat. U velkých vzorků z normálních populací je výběrový odhad mediánu normálně rozložen kolem populační hodnoty se
směrodatnou odchylkou 1 ,253 g /-\fň. U normálního rozložení, kde medián i průměr představují odhad stejné hodnoty, je
medián méně přesný než průměr. Proto hlavní význam mediánu spočívá u nesymetrických distribucí. Existuje velmi jednoduchá metoda pro výpočet intervalu spolehlivosti pro odhad mediánu a jako horní a spodní hranice slouží
pořadová čísla vypočítaná podle násl edujícího vztahu:
( n + 1 )
.2..
±
z
,2.
kde
n představuje velikost datového souboru, z je kvantil standardizovaného normálního rozložení pro příslušnou pravděpodobnost. U našeho příkladu je n = 179 a pro 95% interval spolehlivosti je z přibližně rovno 2. Horní a spodní limit pro odhad mediánu tedy je 90 ± -v/179 = 77 a 103. 95% interval spolehlivosti je tedy tvořen počty dní, které mají pořadí 77 a 103:
77: Počet dní = 40,5+(36)(20)/50 = 55 dní 103: Počet dní = 60,5+(12)(20)/32 = 68 dní
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Medián cílové populace byl tedy odhadnut 95% intervalem spolehlivosti jako hodnota ležící mezi 55 a 68 dny. Interpretujte tento výsledek.
IX. Základy testování hypotéz
Princip statistického testování hypotéz
Pojmy statistických testů Normalita dat a její význam pro testování
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
•
•
•
•
Testování hypotéz je po popisné statistice druhým hlavním směrem statistických analýz. Při testování pokládáme hypotézy, které se snažíme s určitou pravděpodobností potvrdit nebo vyvrátit.
Tzv. nulovou hypotézu lze nejlépe popsat jako situaci, kdy předpokládáme vliv náhody (rozdíl mezi skupinami je pouhá náhoda, vztah dvou proměnných je pouhá náhoda apod.), alternativní hypotéza předpokládá vliv nenáhodného faktoru.
Výsledkem statistického testu je v zásadě pravděpodobnost nakolik je hodnocený jev náhodný nebo ne, při překročení určité hranice (nejčastěji méně než 5% pravděpodobnost, že jev je pouhá náhoda) deklarujeme, že pravděpodobnost náhody je pro nás dostatečně nízká abychom jev prohlásili za nenáhodný
Statistická významnost je ovlivnitelná velikostí vzorku a tak je pouze indicií k prohlášení např. rozdílu dvou skupin pacientů za skutečně významný. V ideální situaci je nezbytné aby rozdíl byl významný nejenom statisticky (=nenáhodný), ale i prakticky (=nejde pouze o artefakt velikosti vzorku).
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Statistika v průzkumném studiu
Princip testování hypotéz
•
•
•
•
•
Formulace hypotézy
Výběr cílové populace a z ní reprezentativního vzorku Měření sledovaných parametrů
Použití odpovídajícího testu ^ j> závěr testu Interpretace výsledků
Cílová populace
?
Závěr ? Interpretace
^>       ^   Reprezentativnost ? ^
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Testy hypotéz
Měření parametrů
Nulová hypotéza HO
HO: sledovaný efekt je nulový
Alternativní hypotéza HA sledovaný efekt je různý mezi skupinami
Testová statistika
Testová statistika =
Pozorovaná hodnota - Očekávaná hodnota
Variabilita dat
*\ Velikost vzorku
Kritický obor testové statistiky
0
T
Statistické testování odpovídá na otázku zda je pozorovaný rozdíl náhodný či nikoliv. K odpovědi na otázku je využit statistický model -testová statistika.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Co znamená náhodný rozdíl?
Mnohokrát
Rozložení možných náhodných rozdílů
Je tu rozdíl?
Jak by vypadal., rozdíl, kdyby byl náhodný?
Nasimulujme si ho !!! ©
X1
X2
0
tt t
Rozdíl ?
Kde leží skutečný rozdíl?
Jak moc je pravděpodobné,že je náhodný?
Možné chyby při testování hypotéz
•
I přes dostatečnou velikost vzorku a kvalitní design experimentu se můžeme při rozhodnutí o zamítnutí/nezamítnutí nulové hypotézy dopustit chyby.
Správné rozhodnutí
Závěr testu
Hypotézu nezamítáme
1- a
Hypotézu zamítáme
a
1- P
Chyba I. druhu
Správné rozhodnutí
Chyba II. druhu
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Význam chyb při testování hypotéz
Pravděpodobnost chyby 1. druhu
a
v-\  Pravděpodobnost nesprávného
-'  zamítnutí nulové hypotézy
Pravděpodobnost chyby 2. druhu
Pravděpodobnost nerozpoznání neplatné nulové hypotézy
Síla testu
Pravděpodobnostně vyjádřená schopnost rozpoznat neplatnost hypotézy
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Parametrické vs. neparametrické testy
Parametrické testy
• Mají předpoklady o rozložení vstupujících dat (např. normální rozložení)
• Při stejném N a dodržení předpokladů mají vyšší sílu testu než testy nepa rametrické
• Pokud nejsou dodrženy předpoklady parametrických testů, potom jejich síla testu prudce klesá a výsledek testu může být zcela chybný a nesmyslný
Neparametrické testy
• Nemají předpoklady o rozložení vstupujících dat, lze je tedy použít i při asymetrickém rozložení, odlehlých hod notách, či nedetekovatelném rozložení
• Snížená síla těchto testů je způsobena redukcí informační hodnoty půvo dních dat, kdy neparametrické testy nevyužívají původní hodnoty, ale nejčastěji pouze jejich pořadí
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
One-sample vs. two sample testy
One - sample testy
• Srovnávají jeden vzorek (one sample, jednovýběrové testy) s referenční hodn otou (popřípadě se statistickým parametrem cílové populace)
• V testu je tedy srovnáváno rozložení hodnot (vzorek) s jediným číslem (referenční hodnota, hodnota cílové populace)
• Otázka položená v testu může být vztažena k průměru, rozptylu, podílu hodn ot i dalším statistickým parametrům popisujícím vzorek
Two - sample testy
• Srovnávají navzájem dva vzorky (two sample, dvouvýběrové vzorky)
• V testu jsou srovn ávány dvě rozložení hodnot
• Otázka položená v testu může být opět vztažena k průměru, rozptylu, podíl u hodnot i dalším statistickým parametrům popisujícím vzorek
• Kromě testů pro dvě skupiny hodnot existují samozřejmě i testy pro více skupin dat
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
One-tailed vs. Two-tailed testy
One - tailed testy
• Hypotéza testu je postavena asymetricky, tedy ptáme se na většínež/ menšínež
• Test může mít pouze dvojí výstup - jedna z hodnot je větší (menší) než druhá a všechny ostatní případy
Two - tailed testy
• Hypotéza testu se ptá na otázku rovná se/nerovná se
• Test může mít trojí výstup - menší - rovná se - větší než
• Situace nerovná se je tedy souhrnem dvou možných výstupů testu (menší+větší)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Kritický obor
Kritický obor
Nepárový vs. párový design
Nepárový design
• Skupiny srovnávaných dat jsou na sobě zcela nezávislé (též nezávislý, independent design), např. lidé z různých z emí, nezávislé skupiny pacientů s odlišnou léčbou atd.
• Při výpočtu je nezbytné brát v úvahu charakteristiky obou skupin dat
Párový design
• Mezi objekty v srovnávaných skupinách existuje vazba, daná např. člověkem před a po operaci, reakce stejného kmene krys atd.
• Vazba může být buď přímo dána nebo pouze předpokládána (v tom přípa dě je nutné ji ověřit)
• Test je v podstatě prováděn na diferencích skupin, nikoliv na jejich původních datech
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Statistické testy a normalita dat
•
•
Normalita dat je jedním z předpokladů tzv. parametrických testů (testů založených na předpokladu nějakého rozložení) -např. t-testy
Pokud data nejsou normální, neodpovídají ani modelovému rozložení, které je použito pro výpočet (t-rozložení) a test tak může lhát
•
Řešením je tedy:
o Transformace dat za účelem dosažení normality jejich rozložení
o Neparametrické testy - tyto testy nemají žádné předpoklady o rozložení dat
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
250
200
150
100
50
Testy normality pracují s nulovou hypotézou, že není rozdíl mezi zpracovávaným rozložením a normálním rozložením. Vždy je ovšem dobré prohlédnout si i histogram, protože některé odchylky od normality, např. bimodalitu některé testy neodhalí.
•Test dobré shody
Vtestu dobré shody jsou data rozdělena do kategorií (obdobně jako při tvorbě histogramu), tyto intervaly jsou normalizovány (převedeny na normální rozložení) a podle obecných vzorců normálního rozložení jsou knim dopočítány očeká vané hodnoty vintervalech, pokud by rozložení bylo normální. Pozorované normalizované četnosti jsou poté srovnány sočekávanými četnostmi pomocí x 2 testu dobré shody. Test dává dobré výsledky, ale je náročný na n, tedy množství dat, aby bylo možné vytvořit dostatečný počet tříd hodnot.
•Kolgomorov Smirnov test
Tento test je často používán, dokáže dobře najít odlehlé hodnoty, ale počítá spíše se symetrií hodnot než přímo s normalitou. Jde o neparametrický test pro srovnání rozdílu dvou rozložení. Je založen na zjištění rozdílu mezi reálným kumulativním rozložením (vzorek) a teoretickým kumulativním rozložením. Měl by být počítán pouze vpřípadě, že známe průměr a směrodatnou odchylku hypotetického rozložení, pokud tyto hodnoty neznáme, měla by být použita jeho modifikace - Lilieforsův test.
•Shapiro-Willťs test
Jde o neparametrický test použitelný i při velmi malých n (10) sdobrou sílou testu, zvláště ve srovnání s alternativními typy testů, je zaměřen na testování symetrie.
145    155    165    175    185    195    205 215
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
0
Šikmost a špičatost jako testy normality
•
Parametry normálního rozložení, skewness a kurtosis mohou být využity pro testování normality, ale pouze pro velké vzorky (šikmost — 100, špičatost — 500).
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Grafická diagnostika normality
Rootgram
Rootgram
2.5 2
1.5 1
0.5 0
-0.5 -1
-1.5 -2
11
0
20
40
Zn
60
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
0.6 0.4 0.2 0
-0.2 -0.4 -0.6
-0.8
-1
íl
11
80 0        5        10       15       20       25 30
Pb
Grafická diagnostika normality
Hanging Histobars.
Hanging Histobars.
0,32
0,12
-0,8
-0,28
-0,48
0
0,2
0,15
0,1
0,05 0
-0, 05
-0,1
0
-50 -10
10
30 Zn
50
70 90
-50
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
10
20 Pb
30
Grafická diagnostika normality
n .
o
Normal Probability Plot
ee,e	
es	
es	
so	t
so	
20	•
s	•
i	•
0,1.	
2o
4o Zn
so
so
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
n .
ee,e ee es so so
2o s
i
Grafická diagnostika normality
Frequency Histogram
Frequency Histogram
0,8
0,6
0,4
0,2
0
20
40 Zn
60 80
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
0,3 0,25
0,2
0,15 0,1
0,05
0    5    10   15   20    25 30
Pb
X. Statistické testy o parametrech jednoho výběrů
Jednovýběrový t-test Jednovýběrový test rozptylu
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Anotace
• Jednovýběrové statistické testy srovnávají některou popisnou statistiku vzorku (průměr, směrodatnou odchylku) s jediným číslem, jehož význam je ze statistické hlediska hodnota cílové populace
• Z hlediska statistické teorie jde o ověření, zda daný vzorek pochází z testovanécílovépopulace.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
"One sample" testy I
Vpřípadě one sample testů jde o srovnání výběru dat (tedy one sample) s cílovou populací. Pro parametrické testy musí mít datový soubor normální rozložení.
I   ^   Průměr - cílová vs. výběrová populace_
s
Ho	Ha	Testová statistika	Interval spolehlivosti
x < //	x > i	t	t >
x > |	x < i	t	
x = i	x ^ i	t	
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Vpřípadě one sample testů jde o srovnání výběru dat (tedy one sample) s cílovou populací. Pro parametrické testy musí mít datový soubor normální rozložení.
CZ^   Rozptyl - cílová vs. výběrová populace
H0	Ha	Testová statistika	Interval spolehlivosti
2 ^ 2	22 s > a 22	x2	x2 > x L(n-1)
	s <a	x2	x   < la ()
22 s = a	22 s ^ a	x2	22 x2 < xi2a/2neb0 x   < xa/2
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Koncentrace antibiotika v cílovém orgánu
Při 1000 měřeních antibiotika byla zjištěna v cílovém orgánu průměrná koncentrace 202,5 jednotek a směrodatná odchylka 44 jednotek.
Požadovaná koncentrace antibiotika je 200 jednotek.
1) Je daný rozdíl 2,5 významný vzhledem k variabilitě znaku na hl adině významnosti 5%?
2) Jaká je skutečná hladina významnosti?
t = ^^ijn = 25 VT00Ď = 1,797 s 44
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Aktivita enzymu v buňkách
Při zjišťování aktivity enzymu v buňkách na vzorku 25 měření byl zjištěn průměr 3,5 jednotek a směrodatná odch ylka 1.
1. otázka zní, zda se naměřené hodnoty našeho vzorku liší od výsledků dřívější rozsáhlé studie zaměřené na celou cílovou populaci, kde byla zjištěna průměrná aktivita 2,5 jednotky?
HO: x=n tedy two tailed test
s
10,975
2,064
t > t
24
1-a/ 2
H0 zamítnuta při a<0,05
od jiné hodnoty bychom zachytili při daných hodnotách?
2. otázka - jakou minimální odchylku X od jiné hodnoty bychom zachytili při daných hodnotách?
t = IzEjn =d-4~n * d = ^s * d = 2'°64
s
s
1
5
3. za předpokladu, že z praktického hlediska je významná odchylka již 0,2 jednotky, jaký minimální počet měření musíme provést, abychom ji byli schopni prokázat ?
x-u r d r ^ t =-v n =—V n    n =
s
s
l1-a/2
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
2
XI. Statistické testy o parametrech dvou výběrů
Dvouvýběrový párový a nepárový t-test Neparametrické alternativy t-testu
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Anotace
• Jedním z nejčastějších úkolů statistické analýzy dat je srovnání spojitých dat ve dvou skupinách pacientů. Na výběr je celá škála testů, výběr konkrétního testu se pak odvíjí od toho, zda je o srovnání párové nebo nepárové a zda je vhodné použít test parametrický (má předpoklady o rozložení dat) nebo neparametrický (nemá předpoklady o rozložení dat, nicméně má nižší vypovídací sílu).
• Nejznámějšími testy z této skupiny jsou tzv. t-testy používané pro srovnání prů m ěrů dvou skupin hodnot
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Dvouvýběrové testy: párové a nepárové I
•
Při použití two sample testů srovnáváme spolu dvě rozložení. Jejich základním dělením je podle designu experimentu na testy párové a nepárové.
• Základním testem pro srovnání dvou nezávislých rozložení spojitých čísel je nepárový two-sample t-test
1 ť
ľiepárový two sample test
X2
S
í
1I
• Základním testem pro srovnání dvou závislých rozložení spojitých čísel je párový two-sample t-test
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Dvouvýběrové testy: párové a nepárové II
Data
X1 X2
x1 x2
r    -\   r ~s
Nezávislé uspořádání
X1-X2 = D
12
Párové uspořádání |
Design uspořádání zásadně ovlivňuje interpretaci parametrů
n
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
D
2
s
D
Ho: Ml - M2
J  L J
X 2    X 2
2
'1
s
2
H0:D - O
(n = n2 = n1)
Dvouvýběrové testy: párové a nepárové III	
iuui i li i irxcio^ p cil \j v Xi m m           Vytvoril Institut biostatistiky a analýz, Masarykova un jjj^      J. Jarkovský, L. Dušek	1 LUOLi yi\ui ciauc, r\wvai lai iucy r = 0,954 (p< 0,001) r = 0,218 (p< 0,812) •••• verzita
Předpoklady nepárového dvouvýběrového
t-testu
• Náhodný výběr subjektů jednotlivých skupin zjejich cílových populací
• Nezávislost obou srovnávaných vzorků
• Přibližně normální rozložení proměnné ve vzorcích, drobné odchylky od normality ovšem nejsou kritické, test je robustní proti drobným odchylkám od tohoto předpokladu, normalita může být testována testy normality
• Rozptyl vobou vzorcích by měl být přibližně shodný (homoscedastic). Tento předpoklad je testován několika možnými testy - Levenův test nebo F-test.
• Vždy je vhodné prohlédnout histogramy proměnné v jednotlivých vzorcích pro okometrické srovnání a ověření předpokladů normality a homogenity rozptylu - nenahradí statistické testy, ale poskytne prvotní představu.
X
0
r
M
Varianta 1   Varianta 2
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Nepárový dvouvýběrový t-test - výpočet I
1. nulová hypotéza: průměry obou skupin jsou shodné, alternativní hypotéza je, že nejsou shodné, two tailed test
2. prohlédnout průběh dat, průměr, medián apod. pro zjištění odchylek od normality a nehomogenita rozptylu, provést F -test
H0	Ha	Testová statistika
Gi2 í G22	22 Gi >G2	s 2 F = >
G2 > G2 Gi >CJ1	22 Gi <G2	s 2 F = 2 1 2 s
G1 ~G2	22	F = max(s22; ) min (s2; s2)
F-test pro srovnání dvou výběrových rozptylů
•Používá se pro srovnání rozptylu dvou skupin hodnot, často za účelem ověření homogenity rozptylu těchto skupin da t.
V případě ověření homogenity je testována hypotéza shody rozptylů (two tailed); v případě shodných rozptylů je vše v pořádku a je možné pokračovat ve výpočtu t-testu, v opačném případě není vhodné test počítat.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Nepárový dvouvýběrový t-test - výpočet II
3. Výpočet testové statistiky (stupně volnosti jsou u = nl + n2 - 2):
Rozdíl _ průrůmě SE(rozdílprůo ěrů)
Xi - X2
í
s
1 1
— + —
2
s =
(n1 - i)s12 + (n2 - i)s22
n1 + n2 - 2
vážený odhad rozptylu
t
4. výsledné t srovnáme s tabulární hodnotou t pro dané stupně volnosti a a (obvy kle a=0,05 )
5. Lze spočítat interval spolehlivosti pro rozdíl průměrů (např. 95%), počet stupňů volnosti a s2 odpovídají předchozím vzorcům
(X1     X2) ± t0 975 SE (X1     X2) — (X1     X2) ± ^ 975*\S
	11
—	+—
1 ni	n2 J
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Průměrná hmotnost ovcí v čase páření byla srovnávána pro kontrolní skupinu a skupinu krmenou zvýšenou dávkou potravy. Kontrolní skupina obsahuje 30 ovcí, skupina se zvýšeným příjmem potravy pak 24 ovcí.
Vlastní experiment byl prováděn tak, že na začátku máme 54 ovcí (ideálně stejného plemene, stejně staré atd.), které náhodně rozdělíme do dvou skupin (náhodné rozdělování objektů do pokusných skupin je objektem celého specializovaného odvětví statistiky nazývaného randomizace). Poté co experiment proběhne, musíme nejprve ověřit teoretický předpoklad pro využi tí nep árového t-testu. Pro obě proměnné jsou vykresleny grafy (můžeme též spočítat základní popisnou statistiku), na kterých můžeme posoudit normalitu a homogenitu rozptylu, kromě okometrického pohledu můžeme pro ověření normality použít testy normality, pro ověření homogenity rozptylu pak F-test
Pokud platí všechny předpoklady Two sample nepárového t-testu, můžeme spočítat testovou chara kteristiku, výsledné t je 2,43 s 52 stupni volnosti, podle tabulek je a t0975 (52)= 2,01, tedy t> t0975 (52)= a nulovou hypotézu můžeme zamítnout, skutečná pravděpodobnost je pak 0,018. Rozdíl mezi skupinami je 1,59 kg ve prospěch skupiny s lepší výživou.
t
Rozdíl _ průrůmě SE (rozdílprůo ěrů)
xi - x 2
f\     1 >
— + —
ni      n2 J
s2 =
(ni - 1)s12 + {n2 - l)s
n1 + n2 - 2
u = n1 + n2
2
Pro rozdíl mezi oběma soubory jsou spočítány 95% konfidenční intervaly jako 1,59±2.01*(0,655) kg, což odpovídá rozsahu 0,28 až 2,91 kg. To, že konfidenční interval nezahrnuje 0 je dalším potvrzením, že mezi skupinami je významný rozdíl - jde o další způsob testování významnosti rozdílů mezi skupinami dat - nulovou hypotézu o tom, že rozdíl průměrů dvou skupin dat je roven nějaké hodnotě zamítáme v případě, kdy 95% konfidenční interval rozdílu nezahrnuje tuto hodnotu (v tomto případě 0).
f
(X1     X2 ) ± t0,975 SE(X1     X2 ) — (X1     X2 ) ± t0,975t 'S
11
-+ —
n n
V"1
2 J
•
•
2
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Neparametrické alternativy nepárového t-testu
X1	X2	ALL	Rank ALL	X1 rank	X2 rank
27	25	25	5	6	5
35	29	29	7,5	11	7,5
38	31	31	9	13	9
37	23	23	4	12	4
39	18	18	2	14	2
29	17	17	1	7,5	1
41	32	32	10	15	10
	19	19	3		3
		27	6		
		35	11		
		38	13		
		37	12		
		39	14		
		29	7,5		
		41	15		
Mann Whitney U-test
•Stejně jako řada jiných neparametrických testů počítá i tento test spořadím dat v souborech namísto s originálními daty. Jde o neparametrickou obdobu nepárovéh o t-testu a ztěchto neparametrických testů má nejvyšší sílu testu (95% párového t-testu).
•V případě Mann-Whitney testu jsou nejprve čísla obou souborů sloučena a je vytvořeno jejich pořadí v tomto sloučeném souboru, pak jsou hodnoty vráceny do původních souborů a nadále se pracuje již jen s jejich pořadím.
•Pro oba soubory je tedy vytvořen součet pořadí a menší z obou součtů je porovnán skritickouhodnotou testu, pokud je tato hodnota menší než kritická hodnota testu, zamítáme nulovou hypotézu shod y distribučních funkcí obou skupin.
•Podobným způsobem je počítán i Wilcoxon rank sum
test (pozor, existuje ještě Wilcoxnův párový test!!!)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
•
•
•
•
•
•
17 štěňat bylo trénováno v chození na záchod metodou pozitivního posilování (pochvala, když jde na záchod venku) nebo negativního (trest, když jde na záchod doma). Jako parametr bylo měřeno, za kolik dní je štěně vycvičeno.
nulová hypotéza je, že není rozdíl vmetodáchtréninku, tedy, že oběma metodami je štěně vycvičeno za stejnou dobu.
po srovnání rozložení + malý počet hodnot je vhodné použít neparametrický test
je vytvořeno pořadí sloučených hodnot
pořadí hodnot v jednotlivých skupinách dat je sečteno a menší ze součtů je použit pro srovnání s kritickou hodnotou testu
výsledkem testu je p<a, nulovou hypotézu tedy zamítáme a výsledkem testu je, že pozitivní působení při výcviku štěňat dává lepší výsledky
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
80
75 70 65 60 55 50 45 40 35 30
8
O O
8
8
pozitivně
negativně
Párové dvouvýběrové testy - předpoklady	
•	w Skupiny dat jsou spojeny přes objekt měření, příkladem může být měření parametrů
	pacienta před léčbou a po léčbě (nemusí jít přímo o stejný objekt, dalším příkladem mohou
	být např. krysy ze stejné linie).
•	Oba soubory musí mít shodný počet hodnot, protože všechna měření v jednom souboru
	musí být spárována směřením vdruhém souboru. Při vlastním výpočtu se potom počítá se
	změnou hodnot (diferencí) subjektů v obou souborech.
•	Před párovým testem je vhodné ověřit si zda existuje vazba mezi oběma skupinami -
	vynesení do grafu, korelace.
Existuje několik možných designů experimentu, stručně lze sumarizovat:	
1.	pokus je párový a jako párový se projev í
2.	párové provedení pokusu - párově se neprojeví
	•    možná párovost není
	•    špatně provedený pokus -malén, velká variabilita, špatný výběr jedinců
3.	čekali jsme nezávislé a jsou
4.	čekali jsem nezávislé a nejsou
	• vazba
	• náhoda
ul	Vytvoril Instit t biostatistiky a analýz, Masarykova univerzita
IBA	J. Jarkovský, L. Dušek
Párový dvouvýběrový t-test
Tento test nemá žádné předpoklady o rozložení vstupních dat, protože je počítán až na základě jejich diferencí.
Tyto diference by měly být normálně rozloženy a otázkou vpárovém t-testu je, zda se průměrná hodnota diferencí rovná nějakému číslu, typicky jde o srovnání s nulou jako důkaz neexistence změny mezi oběma spárovanými skupinami.
Vpodstatě jde o one sample t-test, kde místo rozdílu průměru vzorku a cílové populace je uveden průměr diferencí a srovnávané číslo (0 vpřípadě otázky, zda není rozdíl mezi vzorky).
Pro srovnání s 0 (testovou statistikou je t rozložení):      f = — yfň       u = n — i
s
Někdy je obtížné rozhodnout, zda jde nebo nejde o párové uspořádání, párový test by měl být použit pouze v případě, že můžeme potvrdit vazbu (korelace, vynesení do grafu), jedním z důvodů proč toto ověřovat je fakt, že v případě párového t-testu není nutné brát ohled na variabilitu původních dvou souborů, tento předpoklad však platí pouze v případě vazby mezi proměnnými. Výpočet obou typů testů se vlastně liší v použité s, jednou jde o s diferencí, v druhém případě o složený odhad rozptylu obou souborů.
Zda je párové uspořádání efektivnější lze určit na základě:
o    Síly vazby
o    Je-li sD výrazně menší než sx1-x2
Závislost je možné rozepsat pomocí vzorce:     S— = t( +      — 2COv(Xi;
v případě Cov=0, tedy v případě neexistence vazby pak sD2 odpovídá součtu původních rozptylů, tedy přibližně Sx1-x2.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
•
•
•
•
Párový dvouvýběrový t-test - příklad
Byl prováděn pokus sdietou 11 diabetických psů, každý pes byl vystaven dvěma dietám s odlišným typem sacharidů (snadno vstřebatelné X pozvolna se rozkládající na glukózu), hodnoty krevní glukózy vprůběhu jednotlivých diet mají být srovnány pro zjištění vlivu diety na hladinu krevní glukózy. Protože kaž dý pes absolvoval obě diety, jde o párové uspořádání, kdy výsledky hodnoty vobou pokusech jsou spoje ny přes pokusné zvíře.
1.
2.
B.
4.
Nulová hypotéza zní, že skutečný průměrný rozdíl mezi oběma dietami je 0, alternativní hypotéza zní, že to není 0.
Pro každého psa je spočítán rozdíl mezi jeho hladinou glukózy při obou dietách a měly by být ověřeny předpoklady pro one sample t-test - tedy alespoň přibližně normální rozložení.
Je spočítána testová charakteristika, výpočet vlastně probíhá jako one-sam ple t-test, kde je zjišťována významnost průměru diferencí obou souborů jako rozdíl mezi touto hodnotou a nulou (nula je hodnota, kterou by průměrná diference měla n abývat, pokud platí nulová hypotéza). T=4.37 s 10 stupni volnosti, skute čná hodnota p=0,0014 a tedy na hladině p=0,05 můžeme nulovou hypotézu zamítnou
rozdíl _ průměru _ vzorku _ a _ populace   x - H _ x - //
SE(průměru)
s
Závěrem můžeme říci, že nulová hypotéza neexistence rozdílu mezi oběma dietami byla zamítnuta, což znamená, že high-fibre dieta má významný vliv na snížení hladiny krevní glukózy.
24 22 20 18 16 14 12 10
8
6 4
c	3					
						
						
[ L	: \					
						
		\				
			\ \	\	\>	\
i				\		
( <						3 :
				\	i	
i		- -			ni	
						
-o- pes1
-□- pes2 o pes3 pes4 -• pes5 -■- pes6 ♦ pes7 a pes8 pes9 pes10 pes11
low
high
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Neparametrická obdoba párového t-testu
Wilcoxon test
•
Jsou vytvořeny diference mezi soubory, je vytvořeno jejich pořadí bez ohledu na znaménko a poté je sečteno pořadí kladných a pořadí záporných rozdílů. Menší z těchto dvou hodnot je srovnána skritickou hodnotou testu a pokud je menší než kritická hodnota testu, pak zamítáme hypotézu shody obou souborů hodnot. Pro test existuje aproximace na normální rozložení, ale pouze pro velká n>25.
Menší _ suma _ diferencí
n
(n+1)
4
	jn (n + 1)(2n +1)
	24
Před zásahem	Po zásahu	Změna	Absolutní pořadí
6	2	4	10
2,5	3	-0,5	1,5
6,3	5	1,3	6
8,1	9	-0,9	5
1,5	2	-0,5	1,5
3,4	4	-0,6	3
2,5	1	1,5	8
1,11	2	0,89	4
2,6	4	-1,4	7
1	3	-2	9
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
t
Wilcoxonův test - příklad I
Cl
člověk	A	B	diference	pořadí
1	142	138	4	4,5
2	140	136	4	4,5
3	144	147	-3	3
4	144	139	5	7
5	142	143	-1	1
6	146	141	5	7
7	149	143	6	9,5
8	150	145	5	7
9	142	136	6	9,5
10	148	146	2	2
A.......parametr krve před podáním léku
B.......parametr krve po podání léku
W+ ......       I pořadí kladných rozdílů = 51
W- ...... = 4
W = min(W+;W-) = 4 počet párů = n = 10
Pokud je W menší než kritická hodnota testu, pak zamítáme hypotézu shody distribučních funkcí obou skupin.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Wilcoxonův test - příklad II
Byla testována nová dieta pro laboratorní krysy, při pokusu byl zjišťován její vliv na různých liniích krys, bylo proto zvoleno párové uspořádání kdy krysy vobou dietách jsou spojeny přes svoji linii, tj. na začátku byly dvojice krys stejné linie, jedna znich byla náhodně přiřazena kdietě, druhá z dvojice pak do druhé diety.
1. nulová hypotéza je, že váha krys není ovlivněna použitou dietou, alternativní, že ovlivnění dieto u existuje
2. spočítáme diference - tyto diference jsou nenormální a proto je vhodné využít neparametrický test
3. Spočítáme sumu pořadí kladných a záporných diferencí, zde je menší suma záporných diferencí-31
4. výsledkem výpočtu je p>0,05 a tedy nemáme dostatečné důkazy pro zamítnutí nulové hypotézy, nelze říci, že by nová dieta byla efektivnější než stará
5. pro doplnění výsledků je vhodné zjistit také skutečnou velikost rozdílu hmotností ve skupinách, např. v e formě mediánu
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Znaménkový test - příklad I
Párově uspořádaný experiment pro nominální data
I. Dva preparáty, každý na V2 listu
- sledovaná veličina: počet skvrn (hodnoceno pouze jako rozdíl)
	Počet skvrn									
A	V	V	M	V	V	M	M	V	V	V
B	M	M	V	M	M	V	V	M	M	M
n = 10 listů s rozdílnými výsledky je větší: +    n+ = 7
jev
B je menší: -   n = 3
m in(n+; n) = 3
II. dvě protilátky z různých zdrojů (A;B) - aplikované na vzorek s antigenem n = 10
A	+	+	-	+	-	+	-	+	+	-
_					+	+	-	-	+	-
B	—	—	+	—						
n - nenulových rozdílů: 6
A: n+ = 4 A: n = 2
min(n+; n) = 2
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Znaménkový test - příklady II
•
Na konferenci veterinářů bylo předneseno,že průměrný čas konzultace je 12 minut. Následovala debata, zda je lepší použít medián nebo průměr. Jeden znich se rozhodl ověřit teorii, že průměrná konzultace trvá 12 minut na vlastní praxi a zaznamenal si trvání svých 43 konzultací. K otestování hypotézy, že podíl konzultací kratších a delších než 12 minut použil znaménkový test.
Délka konzultace	Počet
<12	22
12	6
>12	15
Celkem	43
Další výpočet probíhá obdobně jako vpřípadě klasického znaménkového testu na diferencích dvou skupin dat.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Dvouvýběrové testy: schéma analýzy
Nezávislé uspořádání
NE
NE
X2 test Kolmogorov-Smirnov test Shapiro-Wilks test
neparametrické testy
NE
aproximace
testy:
Man - Whitney Mediánový test
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Dvouvýběrové testy: schéma analýzy
Diference. D
NE
y N
normalita
transformace
ANO
t-test párový
NE
c2 test Kolmogorov-Smirnov test Shapiro-Wilks test
neparametrické
testy
testy:
Znaménkový test
Wilcoxonův test
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Párové uspořádání
Popis binomického rozložení Testování hypotéz binomicky rozložených dat
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita , _ ^      J. Jarkovský, L. Dušek
IBA
Anotace
• Kromě spojitých dat se setkáváme také s daty kategoriálními, jejichž nejjednodušším případem jsou data binární. Binární data jsou popsána binomickým rozložením, od chování binomického rozložení je odvozena popisná statistika binárních dat (procento výskytu jevu), její interval spolehlivosti a binomické testy pro srovnání procentuálního výskytů jevů v různých skupinách.
Vytvoril Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Alternativní rozložení		
	W n(x) = n pro x = 1 > n(x) = 1 - n pro x = 0    ?    X = 1 jev n(x) = 0 jinak >	
n	_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _1	
	• 1-n	
0                                                       1 X		
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita jjj^      J. Jarkovský, L. Dušek		
X.....     celkový počet nastání jevu v n nezávislých
pokusech
E(x)= n . n d(x)= n . n (1-n)
n~ p
jediný parametr distribuce určuje tvar distribuce
n = 0,5
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
n = 0,1
±_L
n.....počet nezávislých opakování
(dotazů)
X.....počet lidí s jistým symptomem
r znamená celkový počet nastání jevu v n nezávislých experimentech
r : 0
n
n = 0,5
p ~ tt .. jediný parametr binomického rozložení
p .... relativní četnost nastání jevu
určuje tvar distribuce
X
Binomická proměnná X
n = 0,2
Vytvoril Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Binomické rozložení jako model
Jev:	narození chlapce	
n:	rodina s 5 dětmi	
r:	0,1,2,3,4,5 chlapců	
P(r ) =	í " 1	
	lr J	
n = 0,5
n !
r ! (n - r)!
• pr • q(n-r)
r = 0 :
5 !
r = 1 :
(0 j" 5 !) -(0,5 )-(0,5 ) = 0,031 (0,5 )1 -(0,5 )4 = 0,15625
5 !
r = 2: P(r) = 0,3125
r = 3: P(r) = 0,3125 r = 4: P(r) = 0,15625
r = 5: P(r) = 0,031
H _
[IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
X: Binomická proměnná
Střed rozložení:
E( x )
n • p
Rozptyl:
D(x) = n • p • (1 - p)
Příklad: n = 100 respondentů r = 20 má symptom
E(x) = n • p = 20
je střed rozložení a nejpravděpodobnější hodnota
Binomické rozložení jako model
0,30,250,20,150,1 -
0,05 0
0,2 0,18 0,16 0,14 0,12
0,1
0,08 0,06 0,04 0,02 0
P (x = r ) =
n !
r ! (n - r )!
• P   ' q
(n - r )
q = 1 - p
n = 10
p = 0,3
n
n
01      23456789 10
n = 50 p = 0,1
0,3 0,25
0,2 0,15
0,1 0,05 0
0,12 0,1 0,08 0,06 0,04
0,02
n = 30 p = 0,3
n = 50
p = 0,5
0,15 0,1 0,05 0
0,2 0,18 0,16 0,14 0,12
0,1
0,08 0,06 0,04 0,02 0
n = 100 p = 0,3
10      20      30      40      50      60      70      80      90 100
n = 50
p = 0,9
L
0 5
10     15     20     25     30     35     40     45 50
0      5     10     15     20     25     30     35     40     45 50
0 5
10     15     2 0     25     30     35     40     45 50
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
0,3
0,25
0,2
0
5
10
15
20
25
30
0
0
Aplikace binomického rozložení
Výskyt krevní skupiny B v určité populaci: p = 0,08
Number in blood group B
Probability
B	B	2
not B	B	1
B	not B	1
not B	not B	0
0,0064 0,0736 0,0736 0,8464
0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1
0 b
Binomial distribution of number of people out of two in blood group B
Number: blood group B in 2 cases
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
0,5 0,4 0,3 0,2 0,1
0|
Binomial distribution showing the number of subjects out of ten in
blood group B based on the probability of being in in blood group B of 0,08.
U u u □
0,16 0,14 0,12 0,1 0,08
0,06 0,04 0,02 0
01    23456789 10
Number of subjects
i
A
Binomial distribution showing the number of subjects out of 100 in blood group B based on the probability of being in in blood group B of 0,08.
0    10   20   30   40   50   60   70   80   90 100
Number of subjects
0
1
2
Aplikace binomického rozložení
Populace: 60% jedinců má zvýšenou hladinu cholesterolu Výběr:      5 lidí
I.      Kolik lidí má ve výběru vyšší hladinu cholesterolu ?
n. p = 5 . 0,6 = 3 lidé ~ E(x) n . p (1-p) = 1,2 ~ D(x)
II. Jaká je P, že právě 3 lidé budou mít vyšší hladinu cholesterolu ? ~ Tzn. Vý běr přesně odpovídá dané populaci ?
P(3) = ?
P(3 )-
5 !
3 ! (5-3) !
(0,6)3 • (0,4)2 - 0,346
P(3) = 35%
Jaká je P, že většina jedinců (tedy minimálně 3) má vyšší hladinu cholesterolu ? ~ Tzn. výběr alespoň obecně odpovídá zkoumané populaci ?
P(X > 3) = P(3) + P(4) + P (5) = 0,346 + 0,259 + 0,078 = 68 % IBA
p(x)
I
I
1/
X
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Odhad parametru n binomického rozložení
Při vícenásobném odhadu se parametr íl chová jako normálně rozložen
n1;p1 n2;p2
n3;p3
~l-^-ri-r"
p
U malých nebo velkých hodnot p (n) je však předpoklad normality omezen
cp(x)
0
c (x)
n 1
p   0 n
1
p
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Odhad parametru n binomického rozložení
n « p ; p
n
1------------------------------------------------------------------------------------------------------------1 1)B°d°vý      p    s 2     p (1 - p) I n -1	
i------------------------------------------------ 2) Intervalový - aproxima p - v-ip(1~p; n:   p ± Z1-aÁ ^	ace Un,i, + V Jp(l"p) 1 n V   n -1 |p(1 - p) n -1
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
X: % jedinců s daným znakem n = 100 jedinců
r = 60; p = 0,6
sp = 0,049
Interval spolehlivosti : 95 %
Z 0,975 = 1,96
0,6 -1,96 • 0,049 < n < 0,6 +1,96 • 0,049
0,504 < n < 0,697
P (0,504 <n< 0,697)> 0,95
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Odhad parametru n binomického rozložení
T     j 1 r n        11 • r ri     r 1    2Ĺ. r
Intervalový odhad bez aproximací na normální rozložení
T _	r	
!►	r + (n - r+!)• F^'2) spodní limit intervalu vi	- 2(n - r +1); v2 - 2r
u	(r + 1 )• F^1^	
	" n - r + (r + 1 )• F}1"))2) horní limit intervalu	)- 2(r + l)-v2 + 2 ) -2(n-r)-v1 -2
'1
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
P (L1 <7i< L2 )> 1 -a
Náhodný vzorek n = 200 jedinců.
Zjištěno pouze r = 4 jedinci bez určitého znaku.
p = 4/      = 0,02 95% interval spolehlivosti = ?
Spodní hranice
2(n - r + 1) = 2(200 - 4 + l)= 394
v2 = 2r = 2 • 4 = 8
F(394/8) = 3 67
1   /2 —=
^1
4
4 + (200 - 4 + l). 3,67
= 0,0055
Vytvoril Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Horní
hranice
vl = 2 (r + 1 )= 10
v2 = 2(n - r)= 2(200 - 4)= 392
F       ) = 2,08
1- 2
L 2 =
(4 + 1 ). 2,08
200 - 4 + (4 + 1 ). 2,08
0,051
Binomické rozložení v datech: vizualizace
Statistické testování binomických dat
I.
Liší se odhad p od předpokládané hodnoty P ?
Liší se dva nebo více odhadů p ?
- závislé odhady -nezávislé odhady
Je výskyt kategorií dvou jevů nezávislý ?
Hodnocení relativního rizika z výskytu určitého jevu v rámci sku piny lidí
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Jednovýběrový binomický test						
«0				Testová statistika	Interval spolehlivosti	
p L n		p > n		z	z > z 1-a	
p i n		p < n		z	z < z a	
p = n		p q	n	z II 1	/z/    >  z i-a/2	
= n • p - n ,\ n • p (1-			•;r     n • p - n •tt- 0,5 a__ -p)-   > • P (1 - P) ^			ŕ \ Korekce na kontinuitu v j
			Testová statistika			Interval spolehlivosti
p L n	p > n		L i -	( r + 1 ) F       , ,		p = r / n > Li
				n  -  r +  ( r + 1) F        , .		
p í n	p < n		L 2 = r r + (n - r + 1) F     , ,			p < L2
p = n MU	p q n		L1; L2 (F a/2' F 1-a/ž)			p < L2 vp > L1
■   ■                  vyivu......SLILUL uiuoiaiioLiky a anaiyz, masaiykuva univerzita jjj^      J. Jarkovský, L. Dušek						
J Stromy s pozměněným tvarem koruny
n = 9 000 jedinců
r = 2 250 změněných jedinců
? ?
Jak je pravděpodobná změna u až 1/3 jedinců?
v_   n • p - n n 2250   - 3000 _ 10
Vp (1 - P )• n      V0,25 • 0,75 • 9000 ^=^=
a = 5 %; Z i-a/2 = 1,96; Z ^ = 1,645 Z > Z 1-a/2.........zamítáme H0: p < 0,01
95 % Interval spolehlivosti ... p: (0,241; 0,258)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Test n ? p
Příklad testu bez aproximace na normální rozložení
12 jedinců bylo zkoumáno pro výskyt určitého znaku, 10 jedinců znak nemělo
Jak hodně se tento výsledek liší od výsledku 6 - 6: tedy od situace, kdy polovina jedinců znak má?
a) Využití distribuční funkce
r
P(r)
0
l
0,0002 4
2
3
0,0029 3
4
0,0161 1
5
0,0537
1
0,1208
5
6
7
0,1933 5
8
0,2255 9
9
0,1933 6
0,1208 5
l0
0,0537 1
ll
0,0161 1
0,0029 3
l2
0,0002 4
P (r > 10) = 0,01611 + 0,00393 + 0,00024 = 0,01928
H0: p = 0,5 je tedy značně nepravděpodobná
b) Pozorované  p = 10í2 = 0,833   překročilo horní limit 95 % intervalu
(6 +1)-2,64
spolehlivosti pro p:
p = 0,5 : L2
12 - 6 + (6 +1)-2,64
0,755
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Dvouvýběrový binomický test (pl ? p2)
Z
/v /v
- P2
p (1 - p) + p (1 - p)
n
2
n 1 + n
2
.9
p (1 - p ) + p (1 - p )
V n1
n
2
Vytvoril Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Dvouvýběrový binomický test (pl ? p2)
Tento příklad je ukázkou testování rozdílů mezi dvěma binomickými populacemi
(tedy srovnání dvou odhadů parametru p).
Celkem 49 pokusných myší bylo použito k testování toxického preparátu během dvouměsíční kultivace. Následující tabulka obsahuje původní data zároveň s testem nulové hypotézy: Podíl přežívajících jedinců je u zasa žené populace stejný.
Z
	Alive	Dead	Total	Proportion alive	Proportion dead
Treated	1S	9	24	p1 = 0,625	q, = 0,375
Not Treated	10	1S	2S	p2 = 0,400	q2 = 0,600
Total	2S	24	49	p = 0,510	q = 0,490
0,625 - 0,400
0,225
(0,510) (0,490) + (0,510) (0,490)    ^0,010413 + 0,009996
= 1,573
Z0,05(2) = t0,05(2) = 1,96
24
25
H    y     Nezamítáme H0: 0,10 < P < 0,20
S korekcí na kontinuitu:
15 - 0,5   10 + 0,5
Z
24
25
0,604 -0,420
1,287
0,143 0,143
^>     Nezamítáme H0: 0,10 < P < 0,20
Z0,05(2) = t0,05(2) = 1,96
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Příklad I
q
a) Pravděpodobnost narození chlapce je asi 1/2. Máte zhodnotit výsledky průzkumu populace, která žije v silně poškozeném životním prostředí. Průzkum se týká 1000 náhodně vybraných rodin a zjištěný podíl narozených chlapců je 0.41. Jaké jsou vaš e závěry o této populaci?
Jak se váš odhad zpřesní, když použijete vzorek n = 10 000 rodin při zachování odhadu p = 0.41?
Použijeme jednovýběrový binomický test s nulovou hypotézou H0: p=n, hladina významnost i a=0,05
n • p - n•n    1000 • 0,41 -1000 • 0,5
testová statistika Z
-5,79    a příslušný kvantil    Z a - Z0 975 - 1,96
In • p(1 - p)      ^1000 • 0,41- 0,59 protože Z > Z0 975    nulovou hypotézu zamítáme. Chlapci se ve zkoumavé populaci nerodí s pravděpodobností 0,5.
interval spolehlivosti  n: p±Z a/
1 /2
p(1 - p)
n -1
0,4±Z0 975 • 0,046 - 0,41 ± 1,96• 0,016 - 0,41 ±0,03
pokud použijeme n=10 000, bude int. spolehlivosti užší n : p ± Z
2
p
n-1
0,41 ± 1,96 • 0,005 - 0,41 ± 0,01
b) Jaká je pravděpodobnost, že rodina se třemi dětmi bude mít 2 (3) chlapce?
Podrobně analyzujte problém a použijte obecného definičního vztahu pro binomické rozložení.
n = 3 r = 2
v r j
p
(1 - p)(n-
n !
„r      In-r)
r ! (n - r)!
p=0,5 (stejná pravděpodobnost narození ^^
chlapce jako narození dívky)
v 2 j
•0,52 • 0,5(1)
3 !
p ^ qv
• 0,52 • 0,5(1)- 0,375
2!(1)!
pravděpodobnost narození 2 chlapců v rodině se třemi dětmi je 0,375
pravděpodobnost narození 3 chlapců
r = 3 platí   p(3)- 3 ^0,53 ^0,50 -1^0,53 ^0,50 -0,125 v rodině se třemi dětmi je 0,125
v 3j
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Příklad II
Předpokládá se, že lidé trpící určitou krevní chorobou mají abnormální jeden z chromozómů. S cílem odhadnout podíl takto postižených chromozómů bylo studováno 5 buněk od každého ze 120 pacientů a byl zjišťován počet buněk s postiženým chromozómem (tento počet = sledovaný jev = r). Výsledky jsou uvedeny v následující tabulce. Odhadněte podíl postižených chromozómů u populace nemocných lidí.
E w, E f
Pro odhad p se používá vztah p
i-1
i-1
n
r(četnost jevu)	0	1	2	3	4	5	celkem
f(poč. pacientů)	6	31	42	29	10	2	120
Xi	fi	Xifi
0	6	0
1	31	31
2	42	84
3	29	87
4	10	40
5	2	10
E f,Xi - 252
i-1
i-1
n - 5
p
252/120 5
0,42
pravděpodobnost výskytu postiženého chromozómu
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
XIII. Kontingenční tabulky
Test dobré shody Fisherův přesný test McNemar test Odds ratio a relativní riziko
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Anotace
• Analýza kontingenčních tabulek umožňuje analyzovat vazbu mezi dvěma kategoriálními proměnnými. Základním způsobem testování je tzv. chi-square test, který srovnává pozorované četnosti kombinací kategorií oproti očekávaným četnostem, které vychází z teoretické situace, kdy je vztah mezi proměnnými náhodný.
• Test dobré shody je využíván také pro srovnání pozorovaných četností proti očekávaným četnostem daným určitým pravidlem (typickým příkladem je Hardy-Weinbergova rovnováha v genetice)
• Specifickým typem výstupů odvozených z kontingenčních tabulek jsou tzv. odds ratia a relativní rizika, využívaná často v medicíně pro identifikaci a popis rizikových skupin pacientů.
Vytvoril Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Binomické jevy (1/0)
x
pozorovaná četnost
očekávaná četnost
]
2
pozorovaná očekávaná | 2 četnost      " četnost
(1)
očekávaná četnost
+
očekávaná četnost
I. jev 1
II. jev 2
Příklad
10 000 lidí hází mincí
rub: 4 000 případů (R) líc: 6 000 případů (L)
Lze výsledek považovat za statisticky význ amně od lišný (nebo neodlišný) od očekávaného poměru R : L = 1 : 1 ?
X
(4000
(1)
5000
5000 )2 (6000
—— + -—
5000 )2
5000
400
Tabulková hodnota:  X^95) (v =1) = M4
(0,95 = 1 - a)
Rozdíl je vysoc statisticky významný (p << 0,001]
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
2
jjítabulkaji
■ 2 x 2|
+
Podíl (+)
+	-
a	b
c	d
a	b
(a + c )	(b + d )
Podíl (+)
a
(a + b )
(c + d )
N = a + b + c + d
(a + b )
P (B + ) = P (B ) =
N (c + d )
N
Očekávané četnosti:
F =
F =
(a + b )(a + c)
N
(a + b )(b + d)
N
F
(C)
(a + c) (d + c)
N
(b + d )(c + d)
N
v = 1
7 = 1
(f, - Ft )2
f.
v = 1 = (r - 1)*(c -1) IBA
(fy - ľ„ - 0,5)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
2
Kontingenční tabulky: příklad
	Ano	Ne	Z
Ano	20	82	102
Ne	10	54	64
Z	30	136	166
FA = 102 * 30 / 166 = 18,43 FB = 102 * 136 / 166 = 83,57 FC = 11,57 Fd = 52,43
, -(20-18,43)2   (82-83,57)2   (10-11,57)2   (54-52,43)2
10/10 11C7 CO/IO
18,43
- 0,423    0,423 <x
83,57       11,57 52,43 Kontingenční tabulka v obrázku
2 (1) 0,95
3,84
Gen: ANO
b: 6% a: 12%
c: 49%
d: 33%
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
	80
20 I |	
Zemřelí	Žijící
%
Gen: NE
	84,4
15,6	
1 1	
Zemřelí	Žijící
R x C kontingenční tabulka
Výběr: N lidí ze sociologického průzkumu (delikventi) Jev A: Původ z rozvrácených rodin Jev B: Stupeň zločinnosti I < II < III < IV
A^F3	I.	II.	III.	IV.
ANO	a	b	c	d
NE	e	f	g	h
Stupně volnosti: (R-1) * (C-1) = 1 * 3 = 3
číslo2
Fa =
číslo 1 - číslo 2 N
Z
číslo 1
Očekávané četnosti:
a
a + e
b
b + f
c
c + g
Tabulky:
Za
2 (v) (1-a)
d
d + h
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Test dobré shody: příklad I
Ověřte na datech z pokusu se 100 květinkami určitého druhu, že barva květů se geneticky štěpí v poměru žlutá : červená = 3 : 1.
H0: Pozorovaná frekve nce pro je dnotlivé barvy květů jsou vzorkem populace mající poměr mezi žlutými a červenými květy 3 :1.
Součet frekvencí u obou barev květů (fi) se rovná 100 a pozorované frekvence u kategorií barvy budou srovnány s očekávanými frekvencemi (uvedeny v závorkách):
	Kategorie barvy		
	Žlutá	Červená	n
f poz.	84	16	100
oček.	75	25	
x2 =
(f - f )2
^      poz.     J oč.)
(84-7f +í16-2^ = 4,320
oč.
75
25
St. volnosti = n = k -1 = 1
Zamítáme hypotézu shody srovnávaných četností
Při testování H0 jsme použili matematický zápis (0,025 < P < 0,05). Z tabulek x2 rozložení vidíme, že pravděpodobnost překročení hranice 2,706 je 0,1 (10 %), což může být stručně zapsáno jako P (x2 > 2,706) = 0,10.
Dále lze zjistit pro P (x2 > 3,841) = 0,05. V řešené úloze jsme dospěli k hodnotě testové statistiky x2 = 4,320. Pro tento případ l ze tedy psát 0,025 < P (x2 > 4,320) < 0,05; a jednodušeji 0,025 < P < 0,05. Jde v podstatě o přibližné určení hranic chyby 1. druhu.
Vytvořil Institut Diostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Test dobré shody: příklad II
Tento příklad je rozšířením problému z příkladu 1 na srovnání pozorovaných a očekávaných frekvencí pro více kategorií sledovaného znaku:
Celkem bylo zkoumáno 250 semen určitého druhu rostliny a roztříděno do následujících kategorií: žluté/hladké; žluté/vrásčité; zelené/hladké; zelené/vrásčité. Předpokládaný poměr výskytu těchto kategorií v populaci je 9 : 3 : 3 : 1. Následující tabulka obsahuje původní data z pozorování a dále postup při testování H0.
v = k -1 = 3
	žluté/hladk é	žluté/vrásčité	zelené/hladké	zelené/vrásčité	n
f poz.	152	39	53	6	250
f - ■	140,6250	46,8750	46,8750	15,6250	
11,37502    7,8750z    6,1250z 9,6250
2
2
x2
2
+
+
+
140,6250    46,8750    46,8750 15,6250
8,972
ID
Zamítáme hypotézu shody pozorovaných četností s očekávanými
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Test dobré shody: příklad III
Složitější příklady řešené srovnáváním frekvencí je možné rozdělit na testování dílčích
hypotéz:
Předpokládejme, že chceme pro data z předchozí úlohy testovat hypotézu existence štěpného poměru 9 : 3 : 3 pro první tři kategorie semen:
	žluté/hladké	žluté/vrásCité	zelené/hladké	n
f poz.	152	39	53	244        n = k -1 = 2
ocek.	146,400	48,800	48,800	
x2
5,600
+
9,800
146 ,40      48 ,80
+
4,200 48 ,80
2,544
Nezamítáme hypotézu shody pozorovaných Četností s oCekávanými.
Nyní otestujeme hypotézu štěpného poměru kategorií zelené/vrásčité:ostatní typy = 1:15
f
f
oček
zelené/vrásčité
6
15,625
ostatní
244
234,375
n
25
n = k-1 = 1
9,625
15 ,625
+
9 , 625
234 ,375
6,324
Zamítáme hypotézu shody pozorovaných četností s oCekávanými.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
2
2
2
2
Test dobré shody: příklad IV - využití aditivity testu
/U 193 párů dvojčat byly zjištěny následující poměry pohlaví: 56 Ch - Ch 72 Ch - H
4» 65 H - H
f       Za předpokladu, že narození chlapečka má stejnou pravděpodobnost jako narození holčičky, lze očekávat poměry pro výše uvedené skupiny = 0,25: 0,5: 0,25. Ověřte tento předpoklad na uvedeném vzorku populace.
Z193 párů 1/4    :  1/2  :  1/4 2   = 1328
očekáván é četnost i = 48,25 : 96,50 : 48,25       X(2) '
Proč lze v předchozím případě očekávat zamítnutí H0?
Testujte následující hypotézy:
1) Jsou relativní počty párů se shodným pohlavím ve shodě s očekávanými četnostmi? (ignorujte Ch H páry)
2) Je relativní četnost kombinace Ch - Ch a H - H párů oproti párům s rozdílným pohlavím ve shodě s očekávanými četnostmi?
	Z 121 párů                 1   : 1 očekávané četnosti = 60,5 : 60,5	X(1)	= 0,669	H Ch	- H - Ch
	Z 193 párů                 1   : 1 očekávané četnost i = 96,5 : 96,5	X (1)	= 1 ,44		
mí IBA	Vytvořil Institut biostatistiky a analýz,   asarykova univerzita J. Jarkovský, L. Dušek				
1 -a     ~ X 0,95 —
Zamítáme hypotézu shody pozorovaných četností s očekávanými.
Příspěvek kategorií A, B, C, D k celkové hodnotě x2
C (0 3 O
0/
í(SSSSSSSSSSSS5
A
B
C
D
hÉÉÉÉÉÉÉÉÉÉÉÉÉÉh
A
B
C
D
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Test homogenity binomických rozložení
E
E
Jev: Úmrtnost na leukemii
Předpoklad: n = 0,6
Absolutní četnost jevu označena ri
Sledovalo s autorů z s zemí:
Autor
2
p
S
Test homogenity binomických rozložení Po možném sloučení s výběrů
Test shody reálného r     r) a n n
Vytvoril Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
ni ri pi
S n = N
ZS
S-l
p (l - p)
x2
2
(l)
n n(l-n)
l
s
2
Test homogenity binomických četností: příklad
Pomocí y2 rozložení lze rovněž posuzovat homogenitu většího množství nezávislých
pokusů testujících tutéž hypotézu.
Bylo provedeno 6 nezávislých výběrů z populace mladých mu žů, kteřív dětství onemocněli těžkým zánětem mozkových blan.
H0: V této populaci se vyskytují praváci a leváci v poměru 1 : 1.
Nalezněte v literatuře příslušné vztahy pro testování homogenity všech šesti výběrových populací a na základě výsledků tohoto testu rozhodněte o dalším postupu.
Následující tabulka obsahuje původní data a výsledek testování (v závorkách jsou uvedeny očekávané četnosti):
Vzorek	Praváci	Leváci	n	X2	St. volnosti
1	3 (7)	11 (7)	14	4,5714	1
2	4 (8)	12 (8)	16	4,000	1
3	15 (10)	5 (10)	20	5,000	1
4	14 (9)	14 (9)	18	5,5556	1
5	13 (8,5)	4 (8,5)	17	4,7647	1
6	17 (11)	5 (11)	22	6,5455	1
y1 - 30 2
A heterogeni ta '
v - s - 1 - 5
P < 0,001
Jednoduchým testováním lze zjistit, že všechny testy pro jednotlivé výběry jsou významné, což znamená, že ani v jednom případě nebyla potvrzena shoda očekávaných a pozorovaných četností. Test homogenity štěpného poměru v zkoumaných populacích rovněž vedl k zamítnutí možnosti sloučit jednotlivé výběry a posuzovat je jako celek (kromě testovaného poměru 1 : 1 neexistuje tedy v datech žádný jiný jednotný štěpný poměr mezi oběma vlastnostmi.
V případě, že by tento test neprokázal odchyl ky mezi jednotlivými výběrovými populacemi, bylo by možné jednotli vé odběry sloučit a posuzovat jako homogenní vzorek.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
%2 test - příklad složitější kontingenční tabulky I
Caffeine consumption and marital status in antenatal patiens (from Martin and Bracken, 1987)
Caffeine consumption (mg/day)
Marital status	O	l - lSO	lSl - BOO	> BOO	Total
Married	652	1537	598	242	3029
Divorced, separed or widowed	36	46	38	21	141
Single	218	327	106	67	718
Total	906	1910	742	330	3888
Caffeine consumption and marital status data
Caffeine consumption (mg/day)
Marital status	O	l - lSO	lSl - BOO	> BOO	Total
Married	22 %	51 %	20 %	8 %	3029 (100 %)
Divorced, separed or widowed	26 %	33 %	27 %	15 %	141 (100 %)
Single	30 %	46 %	15 %	9 %	718 (100%)
Total	23 %	49 %	19 %	8 %	3888 (100 %)
VyivuTii inoiiiui biuaiaiiaiiky a analýz, maaaiykuva univoiziia
J. Jarkovský, L. Dušek
Z2 test - příklad složitější kontingenční tabulky II					
Expected frequencies					
	Caffeine consumption (mg/day)				
Marital status	O	l - lSO	lSl - BOO	> BOO	Total
Married	705,8	1488	578,1	257,1	3029
Divorced, separed or widowed	32,9	69,3	26,9	12,0	141
Single	167,3	352,7	137	60,9	718
Total	906	1910	742	330	3888
Contributions of each cell					
	Caffeine consumption (mg/day)				
Marital status	O	l - lSO	lSl - BOO	> BOO	Total
Married	4,11	1,61	0,69	0,89	7,30
Divorced, separed or widowed	0,30	7,82	4,57	6,82	19,51
Single	15,36	1,88	7,02	0,60	24,86
Total	19,77	11,31	12,28	8,31	51,66
m m           Vytvořil Institut biostatistiky a analýz, Masarykova univerzita jjj^      J. Jarkovský, L. Dušek					
X2 test - příklad frakcionace složitější kontingentní tabulky I
C
y
Cílem rozsáhlejšího průzkumu populace bylo prozkoumat vztah mezi dvěma typy chorob a krevními skupinami u lidí. Konkrétní data jsou uvedena v tabulce:
Krevní skupina	Žaludeční vředy	Rakovina žaludku	Kontrola	Celkem
0	983	383	2892	4258
A	679	416	2625	3720
B	134	84	570	788
Celkem	1796	883	6087	8766
Vypočítejte testovou charakteristiku pro tuto kontingenční tabulku a otestujte nulovou hypotézu nezávislosti jevů (x2 = 40,54; 4 st. voln osti)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
1
X2 test - příklad frakcionace složitější kontingenční tabulky II
K podrobnějšímu průzkumu složitějších tabulek výrazně napomáhá přepis původní
tabulky do podoby procentického zastoupení kategorií:
ní
Krevní skupina	Žaludeční vředy	Rakovina žaludku	Kontrola
0	983	383	2892
A	679	416	2625
B	134	84	570
Celkem	1796	883	6087
Z této tabulky je patrné:
1.
Jsou jenom malé rozdíly v distribuci krevních skupin u kontroly a u skupiny nemocných rakovinou žaludku.
Z
Pacienti s vředy mají mnohem častěji krevní skupinu 0.
Na základě těchto poznatků je možné sestrojit menší kontingenční tabulku, která otestuje hypotézu o shodné distribuci krevních skupin pro nemocné rakovinou a pro zdravé lidi. Sestavte tuto tabulku a otestujte nulovou hypotézu. (X2 = 5,64 (2 st. v.), P je přibližně rovna 0,06)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
• Z tohoto dílčího testu vyplývá možnost sloučení skupiny nemocných rakovinou a zdravých lidí neboť se vzhledem k distribuci krevních skupin chovají jako homogenní populace. Dalším logickým krokem v podrobné analýze je testování shody relativních četností výskytu krevních skupin A a B mezi kombinovaným vzorkem (sloučená skupina s rakovinou a kontrola) a mezi vzorkem lidí nemocných žaludečními vředy - tzn. nyní neuvažujeme krevní skupinu 0. Výsledkem tohoto testu je x2 = 0,68 (1 st. vol.); P > 0,7. Vzorky pro krevní skupiny A a B lze tedy sloučit do směsného vzorku A + B.
• Nyní otestujeme shodu relativních četností výskytu skupiny 0 oproti A + B, a to mezi kombinovanou populací (kontrola + nemocní rakovinou) a mezi vzorkem nemocných vředařů (x2 = 34,29; 1 st. vol.). Lze tedy shrnout, že vysoká hodnota původního x2 se 4 st. voln osti byla způsobena zvýšenou četností lidí s krevní skupinou 0 mezi nemocnými žaludečními vředy.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Z2 test - příklad frakcionace složitější kontingenční tabulky IV
Průběh hodnocení lze shrnout do tabulky:
Srovnání	St. volnosti	5C2
0, A, B skupina u pacientů s rakovinou (r) x kontrola (k)	2	5,64
A, B skupina u pacientů s vředy x kombinovaný vzorek (r + k)	1	0,68
0, A, B skupina u pacientů s s vředy x kombinovaný vzorek (r + k)	1	34,29
Celkem	4	40,61
Celkový součet testových statistik x2 (40,61) odpovídá přibližně původní hodnotě x2 (40,54). Což platí i o stupních volnosti (4). Tato skutečnost potvrzuje, že jsme detailním rozborem vyčerpa l i informační obsah původní kontingenční tabulky a kromě popsané závislosti (zvýšený výskyt krevní skupiny 0 u lidí s žaludečn ími vředy) jsou jednotlivé kategorie zkoumaných jevů zcela nezávislé.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Kontingenční tabulka 2 x 2: Řešení při nedostatečné velikosti vzork u
Yates' corection
Fisher's exact test
Ho! Nezávislost jevů
Test analyzuje všechny možné 2 x 2 tabulky, které dávají stejnou sumu řádků a
sloupců jako tabulka zdrojová. Algoritmus každé tabulce přiřazuje pravděpodobnost, že taková situace nastane, je-li
H0 pravdivá.
Spectacle wearing among juvenile delinquents and non-delinquents who failed a vision
test (Weindling et al., 1986)
		Juvenile delinquents	Non- deliquents	Total
Spectacle wearers	Yes	l	S	6
	No	S	2	10
	Total	9	ľ	16
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Kontingenční tabulka 2 x 2: Řešení při nedostatečné velikosti vzork u
Všechny možné varianty tabulky s danou sumou řádků a sloupců
(I)	0	6
	9	1
(II)	1	5
	8	2
(III)	2	4
(IV)	7	B
	B	B
	6	4
(V)
(VI)
(VII)
4
5
5 4
6 B
2 5
1 6
0 7
Pravděpodobnost náhodného vzniku variant tabulky
	a	b	c	d	P
( I )	0	6	9	1	0,00087
( II )	1	5	8	2	0,02B60
( III )	2	4	7	B	0,157B4
( IV )	B	B	6	4	0,B671B
( V )	4	2	5	5	0,BB042
( VI )	5	1	4	6	0,11014
( VII )	6	0	B	7	0,01049
Total					0,99999
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Příklad: Srovnání 2 metod stanovení antigenu v krvi (antigen vždy přítomen)
H0: metoda 1 = metoda 2
Metoda 1	Metoda 2	Frekvence
úspěch	úspěch	202
úspěch	neúspěch	60
neúspěch	úspěch	42
neúspěch	neúspěch	10
X (c )
(60 - 42 I - 1)
= 2,83
10
Tabulky :   xí- ("=1)
1-a
3,84
}2
102
H0 nezamítnuta
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
jsou
prospektivně
vyskytne nějaká
VÝBĚR JE DÁN SLOUPCEM
OBECNĚ
PŘÍKLAD
Znak
	Skupina	Skupina		Retardace plodu	
	1	2		Symetrická	Asymetrická
ANO	a	b	Agar skore ANO	2	33
NE	c	d	> 7 NE	14	58
Riziko:
a
b
(a + c)     (b + d)
RR
2/16 33 /91
0,345
a
RR
(a + c )
b
(b + d )
Riziko u "symetrické skupiny" je asi 35 % rizika u asymetrické skupiny
H0: RR = 1
SE   (ln RR )= — V a
IS: ln RR -Z ln RR + Z
1       1 1
-+ — -
a + c
b      b + d
1-a/2 '
1-9/2
SE (ln RR) . SE (ln RR)
Vytvoril Institut biostatistik a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Aplikace analýzy 2 x 2 tabulky pro hodnocení rizika II. Retrospektivní studie - "ODDS RATIO"
Zcela zásadně odlišný přístup od retrospektivní studie VÝBĚR JE DÁN VLASTNOSTÍ - ŘÁDKEM Není tedy možné analyzovat relativní riziko, protože přípravou řádků můžeme
měnit velikost kontrol.
OBECNĚ
ANO
Znak
Odds ratio :
aIc bid
SE(inOR)=
llll
-+-+-+— abcd
PŘÍKLAD
Skupina	Skupina		Vady chrupu	
1	2		ANO	NE
a	b	Plavání      < 6h	32	118
—aŽc—	bíd	týdně *6h	17	127
OR = (32117)l (118I127)= 2,026 in (OR )= 0,706 SE (in (OR ))= 0,326
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Relative risk vs. Odds ratio ?
Relative risk #ľjp Odds ratio
(relativní riziko) WV (poměr šancí)
• Smysl RR a OR
• Výpočet
• Srovnatelnost
• Interpretace
• Výhody a nevýhody
• Aplikace v klinickém hodnocení
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
•
Popis vlivu faktoru (léčba, klinický parametr) na výskyt události (úmrtí, progrese aj.)
0
0
Relative risk
(relativní riziko)
Odds ratio
(poměr šancí)
Snadná přirozená interpretace rizik vyjádřených jako procento událostí
ALE
Matematická omezení pro některé aplikace
0 Pouze málo lidí má přirozenou schopnost interpretovat OR
ALE
0 OR v řadě aplikací výhodnější matematické vlastnosti
Vytvoril Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
•
ji    event bez eventu
Srovnání výskytu události mezi dvěma rameny (A,B) studie
RR=
Relative risk
(relatívni riziko)
fftttt
10
2
10
ft
AB
TT
*
TT TT
m
TT t
*
* T T
OR=
Odds ratio
(poměr šanci)
I
ŤŤŤŤ
tii
6
= i = 3.5
7
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Relative risk
(relativní riziko)
10
Odds ratio
(poměr šancí)
1
S
8 0.7 0.5
03
0.1
RR a OR je přímo srovnatelné pouze při nízkém bazálním riziku
RR = 0.75
RR = 0.5
RR = 0-3
1       5 10 Zhang, J. et al. JAMA 1SS8;28O:1BSO-1BS1.
20 30 AO 50
Incidence Among the Nonexposed. %
60
I
70
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Srovnatelnost RR a OR I: maximum
(
Relative risk
Odds ratio
(relativní riziko)
•  RR mění své maximum podle bazálního rizika
CĽ 20 C
>N 15
E
0% 20% 40% 60%
Bazálni riziko
80 %
100%
0   RR ve studiích s různým bazálním rizikem jsou nesrovnatelná !!!!
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
(poměr šancí)
0   Odds ratio má vždy rozsah od 0 do nekonečna
0   Velikost OR není závislá na velikosti bazálního rizika
0   OR lze použít pro srovnání studií s různým bazálním rizikem !!!!
0   Výhodné pro metaanalýzu
Srovnatelnost RR a OR I: symetrie
•
Existuje mezi RR a O rozdíl v případě
Relative risk
(relativní riziko)
tttt
RR(I)=
iiiiii
RR(II)=
IM
RR (I) *
RR( II)
4
10
1_
10
6
10
0.57
= 10 = 3
2
ft
výměny definice eventu a non-eventu?
Odds ratio
0	
i f	i í
	• • 11
t i	f i
t i	tí
• vs. 11	t i
i t	ft
1t	tí
	t i
	
t1	• • 11
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Odds ratio
(poměr šancí)
MM
OR(I)=
MMM
MMMt M!
MMM
OR(II)=
MM
M!
MMMt
OR(I)
1
OR(II)
6 = 0.29
6
4 = 35 3 3.5
7
1
RR a OR ve studiích s různou mírou bazálního rizika
re
^ 3ř
<-i     rsj     Ť( oo
ó    d    d d
ŕ í í í q r-; <3
f*Í        l/Í        i-i O
Výskyt eventu (%)
Odds ratio
Ve skupině „Case" připadá na jednoho pacienta bez eventu 4x tolik pacientů s eventem než ve skupině „Control"
O
1 '
ä?   ä?   ä? 2?
f*j <í oo m d   d   d   d T-i
g   S?   S? g S? £
o   tn   th o f» o
no     l/>     xH O O
iH íN rť> iy>
si> -vO >vp s£>        \D vpi ~ D '~ D KjO
ů~ fl^V (jfx. B ^        ^, v, tfi, ^Tv O *
ůd-Hfiríi/i^drfiddd -H       (M      n>      l/l       U} 00
Vytvořil InstitutViýshíŕík^ySfli^H, C'fŽÄlOykova univerzita J. Jarkovský, L. Dušek
Bazální (control) výskyt eventu (%) Relative risk
Pacient ve skupině „Case" má x-krát zvýšenou pravděpodobnost výskytu eventu než pacient ve skupině „Control". X-krát závisí na basálním výskytu eventu.
0
0
Sledování výskytu eventu a následná analýza jeho příčin
Převážně kohortní studie
0   Zpětné sledování příčin eventu
0   Převážně case-control studie
0   Výběrem pacientů ovlivňujeme bazální výskyt eventu
0   Bazální výskyt eventu je dán vlastnostmi kohorty pacientů
0   Bezproblémové využití RR
Relative risk
(relativní riziko)
ko)
0   RR nelze použít -ovliněno bazálním výskytem eventu
0   Využití OR -neníovliněno designem studie
Odds ratio
(poměr šancí)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Relative risk vs. Odds ratio: shrnutí
Relative risk
(relativní riziko)
0   Intuitivně snadno interpretovatelné
0   Pro prospektivní studie
0   Standardní výstup Coxovy
regrese
0   Maximum se liší podle bazální hodnoty výskytu eventu
Odds ratio
(poměr šancí)
0   Retrospektivní studie 0   Aplikace v metaanalýze
0   Standardní výstup logistické
regrese
0   Rozsah vždy 0 až nekonečno, není ovlivněno bazálním výskytem eventu
0   Obtížnější interpretace
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
XIV. Poissonovo rozložení
Popis rozložení a jeho využití
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Poissonovo rozložení se používá pro popis četnosti výskytu jevu na experimentální jednotku, příkladem může být počet mutací bakterií na Petriho misku nebo počet srdečních poruch na jednotku času
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Celkový počet jevů v n nezávislých pokusech
D(x) = n p }   E(x) = D(x) .v    e-"-M'        Ä Är
P (r ) =-— = e
r ! r !
jU=A= průměrný počet jevů z n pokusů
(X	= 2 ) =	= e ~" - ju 2 = 2
U P (x	= 4 ) =	e~u -u4 (4)(3)(2)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Poissonovo rozložení jako model
P (x = r ) = e
-x
r !
1,1 i
0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2
0,1 0
0,4 0,35
0,3 0,25
0,2 0,15
0,1 0,05 0
x = 0,01
0123456789 10
X = 1
1 -
0,9~ 0,8" 0,7" 0,6" 0,5" 0,4" 0,30,20,1 -
0-
0,20,180,160,140,120,1 -0,080,060,040,020-
X = 0,1
0123456789 10
X = 5
.1
0,7" 0,60,50,40,30,20,1 -
00,140,120,1 -0,080,060,040,020-
Hu
X = 0,5
01      23456789 10
□ 0
X = 10
0123456789 10
0123456789 10
0123456789 1011 1213141516 17181920
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Poissonovo rozložení v přírodě existuje
Mutace bakterií na inkubačních miskách
ooo©
©OGO
Výskyt jevu v prostoru
(počet žížal na určitou plochu pole)
Orientační stanovení jevu (při produkci plynu bakteriemi)
A
+
The most probable number technique
Výskyt jevu v čase
(srdeční arytmie v určitých časových intervalech)
1 111 1
•-1-1-1-1-
čas
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Předpoklad: náhodná distribuce jevu mezi studovanými objekty
(příp. v čase, v prostoru).
<J2 < jU
<J2 > jU
o2
Uniform
Clustered
Random
Poisson
Pokud je X spíše větší (~ 5 -10), pak Poisson odpovídá spíše binomickému
až n ormálnímu rozložení.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzi J. Jarkovský, L. Dušek
Formální prezentace Poissonova rozložení
Př: pokus......10 000 bakterií na misce
n = 10 misek Jev: mutace (r=25)
X..........průměrný počet mutantů na
jednu misku
r = 25
x *Ä=25/10= 25
95 % IS:
x
Z 1-a2 'Vn
X <X<x + Z i     - X
1 /2   V n
2,5 - 1,96 - V0,25 < X < 2,5 + 1,96 - ^0,25
1,52 < X < 3,48
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Poissonova náhodná proměnná
Při měření počtu krvinek změněných určitou chorobou (relativně vzácné) je pozorován zředěný vzorek krve pod mikroskopem v komůrce rozdělené na stejně velká pole. Sledovaná veličina, udávající počet krvinek v i-tém poli může být považována za rozdělenou podle Poissonova rozložení:
n = 169 = počet nezávislých pozorování proměnné r = 10 = počet pozorovaných krvinek
Jaká je hodnota parametru X Poissonova rozložení a jaká je jeho interpretace ?
Jaký je interval 95% spolehlivosti pro parametr X ?
Pokud bychom sledovali celkový počet červených krvinek (opět v n = 169 nezávislých políčkách), bylo by i tuto proměnnou možno považovat za rozloženou podle Poissonova rozložení ? Uvažujte celkový počet pozorovaných krvinek jako 2013.
Výpočet intervalu spolehlivosti pro A (bez aproximace na normální rozložení)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Poissonova náhodná proměnná
Konstantní zářič: n = 2608 časových intervalů (každý 7,5 s) i: počet částic v intervalu (x) si: pozorovaná četnost intervalů s i částicemi
-A
P(x = i ) = —
i !
~ Pi
Poissonova proměnná:
* Výborný model pro experimenty, v nichž je během časového
průběhu zjišťován počet výskytu určitého jevu
i	Počet intervalů s právě i zaznamenanými částicemi st	teoretické četnosti	
0	57	54,399	0,1244
1	203	210,523	0,2688
2	383	407,361	1,4568
3	525	525,496	0,0005
4	532	508,418	1,0938
5	408	393,515	0,5332
6	273	253,817	1,4498
7	139	140,325	0,0125
8	45	67,882	7,7132
9	27	29,189	0,1642
10	10		
11	4	17,075	
12	2	(= P{ e > 10})	0,0677
13	0	V    1 l r> — 1 ^ SI	
	n = 2608	2608,00	12,8849
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Poissonovo rozložení: jednovýběrový test
ľ  n =
( r )
Př: Počet hnízd křepelek na dané ploše
n = 8 000 "pod lokalit" r = 28
} p = 0,0035
Nechť je srovnávací soubor (předchozí p růzkum)
Po = 0,0020 po • 8 000   = 16  =  ju  = A
H0 :    p < Po   ~  ju < 16 ?
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
1) Vzít data jako pocházející z populace:
e "16-1628 P (r = 28) = ——— = 0,00192
28 !
< 0,05 => Ho zamítnuta
2)    P(r > 28) =
[0,00411 ] /
i
r = 28 je příliš velké pro populaci s po
aby r = 28 bylo p > p0, pravděpodobnější
r !
XV. Analýza rozptylu
Parametrická analýza rozptylu Post hoc testy
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Anotace
• Analýza rozptylu je základním nástrojem pro analýzu rozdílů mezi průměry v několika skupinách pacientů.
• Základní myšlenka, na níž je ANOVA založena, je rozdělení celkové variability v datech (neznámé, dané pouze náhodným rozložením) na část systematickou (spjatou s kategoriemi pacientů, vysvětlená variabilita) a část náhodnou. Pokud systematická, tedy nenáhodná a vysvětlitelná část variability převažujeme, považujeme daný kategoriální faktor za významný pro vysvětlení variability dat.
• Analýza rozptylu vyhodnocuje pouze celkový vliv faktoru na variabilitu, v případě analýzy jednotlivých kategorií je třeba využít tzv. post-hoc testy
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Analýza rozptylu - ANOVA
Základní technika
sloužící k posouzení rozdílů mezi více úrovněmi pokusného zásahu
Rostoucí koncentrace testované látky / látek
I
Celkově významné změny v reakci biologického systému
I
Vzájemné rozdíly účinku jednotlivých dávek
^>  Rozdíly účinku dávek od kontroly
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Analýza rozptylu - ANOVA
Významné kroky analýzy, vedoucí k efektivnímu srovnání variant
Rostoucí koncentrace testované látky / látek
Splnění předpokladů analýzy
Transformace dat
Relevantnost kontroly (vliv vlastní aplikace látek)
Vhodnost modelu ANOVA pro účely testu
Vlastní srovnání variant Minimalizace c hyb při ověřování hypotéz
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
SPLNĚNÍ PŘEDPOKLADŮ ANOVA JE NEZBYTNOU PODMÍNKOU
POUŽITÍ TÉTO TECHNIKY
A Předpoklad nezávislosti
i.
opakováni experimentu
ANOVA
j = parametrická analýza dat
Homogenita 2.    rozptylu v rámci pokusných variant
Normalita rozloženi 3. v rámci pokusných variant
ALTERNATIVOU JSOU NEPARAMETRICKÉ METODY
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Analýza rozptylu - ANOVA
Analýza rozptylu - ANOVA				
				
rieupohiuuy unuiyzy rozptylu jsou nezoyiné pro uosuzem sny tesiu				
	• Symetrické rozložení hodnot a normalita odchylek od hodnoceného modelu ANOVA. Velkou část dat lze adekvátně normalizovat použitím logaritmické transformace. Předpoklad lognormální transformace může pochopitelně být teoreticky vyloučen u mnoha datových souborů obsahujících diskrétní parametry, kde je indikována vhodnost jiného typu transformace. U asymetricky rozložených a u diskrétních dat je nutné využít neparametrické alternativy analýzy rozptylu.		• Homogenita rozptylu je nutným předpokladem pro smysluplnost vzájemných srovnání pokusných variant. U testů toxicity by splnění tohoto předpokladu mělo být ověřováno (Bartlettův test), neboť vážné rozdíly (až řádové) v jednotkách testovaného parametru mohou nastat v důsledku inhibice dávka mi látky. Nehomogenita rozptylu je často ve vztahu k nenormalitě (asymetrii) dat a lze ji odstranit vhodnou normalizující transformací.	
	• Statistická nezávislost reziduí vyhodnocovaného modelu ANOVA. Pokud odhad a posouzení korelačních vztahů mezi pokusnými variantami není přímo předmětem výzkumu, lze jejich vliv na vyhodnoc ení odstranit znáhodněním dat v rámci pokusných va riant - tedy změnou pořadí v náhodné. Rozsah vlivu těchto autokorelačních vztahů musí být ovšem primárně omezen správností experimentálního uspořádání.		• Aditivita jako předpoklad týkající se složitějších experimentálních uspořádání. Exaktní otestování aditivity více pokusných faktorů je procedura poměrně náročná na experimentální design vyvážený co do počtu opakování. Je rovn ěž obtížné testovat int erakci na nestandardních datech, neboť případná transformace může změnit charakter odchylek původních dat od hodnoceného modelu ANOVA.	
m m           Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek				
Analýza rozptylu - ANOVA				
ŕ\ í/l/t ft *T St t/% "Ě   S~W Y% t "t tj" S~W S* S3     á  l\.Tŕ%Tf á     /^T/l    Ě^S9     W 4				
Omezení aplikace anova lze resit				
	• Chybějící data. Vážným problémem jsou chybějící údaje o celé skupině kombinací testovanýc h látek, například u faktoriálních pokusů, kdy je znemožněno hodnocení experimentu jako celku.		• Nehomogenita rozptylu. Velmi častý nedostatek experimentálních dat, často související s nenormalitou rozložení nebo s odlehlými hodnotami.	
	• Různé počty opakování Jde o typický jev pro experimentální datové soubory. Při různých počtech op akován í v experimentálních variantách jsou testy ANOVA citlivější na nenormalitu dat. Pokud jsou počty opakování zcela odlišné(až na řádové rozdíly), je nutno použít neparametrické techniky nebo analýzu rozptylu nevyvážených pokusů.		• Nenormalita dat. I v tomto případě lz situaci upravit vyloučením odlehlých hodnot nebo normalizující transformací.	
			• Neaditivita kombinovaného vlivu více pokusných zásahů. Tuto situaci lze testovat jednak speciálními testy aditivity nebo přímo F testem kontrolujícím významnost vlivu interakce pokusných zásahů. Při významné interakci je nutné prozkoumat především její charakter ve vhodném experimentálním uspořádání.	
	• Odlehlé hodnoty. Ojedinělé odlehlé hodnoty musí být před parametrickou analýzou rozptylu vyloučeny.			
	• Nedostatek nezávislosti mezi rezidui modelu. Jde o závažný nedostatek, zkreslující výsledek F -testu. Velmi často je tato skutečnost důsledkem špatného provedení nebo naplánování experimentu.			
m Vytvořil Institut biostatistik a analýz, Masarykova univerzita jjj^      J. Jarkovský, L. Dušek				
Modely analýzy rozptylu
Model I. Pevný model
Model II. Náhodný model
X0 X1 X2 X3 X4
y,j =M + oc, +e
Y
+
X0   X1    X2    X3 X4
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
A B C  D E
Y
A B
C
D
E
•
o
Základním principem ANOVY je porovnání rozptylu připadajícího na:
o Rozdělení dat do skupin (tzv. effect, variance between groups)
Variabilitu objektů uvnitř skupin (tzv. error, variance within groups), předpokládá se, že jde o náhodnou variabilitu (=error)
SS between
1.    Variabilita mezi skupinami
Rozptyl je poč ítán pro celkový průměr (tzv. grand mean) a průměry v jednotlivých skupinách dat
Stupně volnosti jsou odvozeny od počtu skupin (= počet skupin -1)
2.    Variabilita uvnitř skupin
Rozptyl je poč ítán pro průměry
jednotlivých skupin a objekty uvnitř příslušných, celková variabilita je pak sečtena pro všechny skupiny
Stupně volnosti jsou odvozeny od
počtu hodnot (= počet hodnot počet skupin)
SS within
v2 = n - k
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
F
between _ groups within _ groups
Výsledný poměr (F) porovnáme s
tabulkami F rozložení pro v 1
a v2 stupňů volnosti
SS=sum of squares
Jednoduchý ANOVA design
Nejjednodušším případem ANOVA designu je rozdělení na skupiny podle jednoho parametru.
dělící parametr
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
• Rozdělení skupin na náhodné podskupiny (např. opakování experimentu)
• Cílem je zjistit, zda data v jedné skupině nejsou pouhou náhodou
• Nejprve je testována shoda podskupin v hlavních skupinách,
• pokud jsou shodné, je vše v pořádku
• pokud nejsou, stále lze zjišťovat, zda se variabilita uvnitř hlavních skupin liší od celkové variability
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Pro rozdělení do kategorií je zde více parametrů
Na rozdíl od nested ANOVY nejde o náhodná opakování experimentu, ale o řízené zásahy (např.vliv pH a koncentrace O2)
Kromě vlivu hl avních faktorů se uplatňuje i jejich interakce
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Modely analýzy rozptylu - základní výstup	
Základním výstupem analýzy rozptylu je	
Tabulka ANOVA - frakcionace komponent rozptylu	
	
Zdroj rozptylu	St. v.           SS       MS F
Pok. zásah (mezi skupinami) Uvnitř skupin	a -1                  SSB       SSB/(a -1) MSB/MSE N - a                 SSE       SSE/(N - a)
Celkem	N -1 SST
SSB/SST    )-)	Kvantifikovaný podíl rozdílu mezi pokusnými zásahy na celkovém rozptylu
MSB/MST   > ^	Statistická významnost rozdílu
m           Vytvořil Institut biostatistiky a analýz, Masarykova univerzita jjj^      J. Jarkovský, L. Dušek	
obecný F test H0: m1 = m2 = m3 = .... = mp
F test: H
H0 platí
H0 neplatí
Látka nep ůsobí
Látka působí
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
03
S" 3í
o —
03
N
03 O
<
CD
B
i—t-Q)
Kontrola
Koncentrace X1
Koncentrace X-
Koncentrace X,
CD Í
c/) S t—t- j>
O o1 3 N
q- 0)
Q) 3 (/)
<—i- <—i-c
(—1-
Q)
>
N
o
N
Koncentrace Xp
es
Q) -> (Q O
CD Q) CO CO
■
O
o 2
2 <
C Q)
I
v_/
{/í
Příklad: Anova - One way
Dávka rostlinného stimulátoru (0, 4, 8, 12 mg/l) A = 4 ; n = 8
I. ANOVA
Bartlett's test:      P = 0,9847
K-S test: P = 0,482 - 0,6525 pro jednotlivé kategorie
Source	D. f.	SS	MS	F
Between Groups Within Groups	3 28	305,8 322,2	101,9 11,9	8,56
Total (corr.)	31	638,0		
II.   Multiple Range Test
NKS -test
Level
0 4 12 8
Average
34,8 41,4 41,8 52,6
Homogenous Groups
x
x x
x
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
I. Zásah: 4 klinická stadia virové choroby (napadá kr. buňky) Sledovaná veličina: aktivita enzymu v těchto krevních buňkách
Ho:  Mi   Mi   M3 Ma
n = 3
MODEL = ?
I
II      III IV
II.
22,8 16,4 11,2 14,2
19,4 17,8 18,2 10,1
_12,5 19,1 15,8 12,8
E        65,7 53,3 45,2 37,1
průměr 21,9 17,8 15,1 12,4
III. Komponenta rozptylu:
Source	D.f. MS F	P
Between groups	3    49,6 8,39	0,0075
Within groups	8 5,9	
Total (corr.)	11 -	
IV.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Srovnání variant v testech
Srovnáváni variant po celkovém testu ANOVA
Mnoho existujících algoritmů není vhodných pro konkrétní případ
Day and Quin Ecological Monographs,1989
Test	Využití	Poznámka
Dunnett Williams	Srovnání s kontrolou	Ex. i modifikace pro různá n.
ANOVA testy (F)	Orthogonální kontrasty	Plánovaná srovnání
Ryan Q test	Jednoduché kontrasty	Vyhodnocen jako nejlepší test
Testy pro jednoduché kontrasty
Scheffe	Tukey	LSD
Bonferroni	Dunn-Sidák	Kramer
Testy nevhodné
Duncan
Student -Newmann-Keuls
Waller-Duncan k ratio
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Řada post-hoc testů v různých SW
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
• Rozšíření ANOVA Současná analýza kategoriálních a spojitých prediktorů Testování hypotézy paralelismu regresních vztahů
•
kategorie
kategorie
Spojitý prediktor
Spojitý prediktor
Kategorie pacientů (pokusný zásah) neovlivňuje vztah proměnných
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Kategorie pacientů (pokusný zásah) ovlivňuje vztah proměnných
XVI. Korelace a regrese
Parametrická a neparametrická korelace
Lineární regrese
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Anotace
• Korelační analýza je využívána pro vyhodnocení míry vztahu dvou spojitých proměnných. Obdobně jako jiné statistické metody, i korelace mohou být parametrické nebo neparametrické
• Regresní analýza vytvářímodel vztahu dvou nebo více proměnných, tedy jakým způsobem jedna proměnná (vysvětlovaná) závisí na jiných proměnných (prediktorech). Regresní analýza je obdobně jako ANOVA nástrojem pro vysvětlení variability hodnocené proměnné
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Základy korelační analýzy -1.
Korelace - vztah (závislost) dvou znaků (parametrů)
Parametrické míry korelace
Kovariance
0
t
0
--x --y
ô
0
Pearsonův koeficient korelace
Y2
r = 1
r = -1
Xi
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
PI (zem)	10	14	15	32	40	20	16	50
PI (rostl.)	19	22	26	41	35	32	25	40
I = 1,....., n; n = 8; v = 6
Cov(x,y)
r =
n
I.   H 0 : p = f:a = 0,05 tab: r (v = 6) = 0,7076
0,7176
II.        p = (f)
r
0,7176
0,6965
•X n - 2) ;0,975
^6 = 2,524
tab : 10n975) = 2,447
V1 - r
P < 0,05
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
■\ln - 2
v = n - 2
t
2
t
1.   n1 = 1258 2. n2 = 462
r1 = 0,682 *r2 = 0,402
Krevní tlak x koncentrace kysl. radikálů
(1 + r,)
Z j =
Z1 = 0,833
1.1513 • log
(1 - ^)
Z 2 = 0,426
Test: H0 :p1 =p2 ; a=0,05
Z
Z 1 - Z 2
0,407
1 1
+
0,0545
7,461
n 1 - 3     n 2 - 3
tabulky   :    Z 0 975 = 1,96
7,461 >> 1,96 => P << 0,01
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
_
_
_
PI v půdě	1	2	3	6	7	5	4	8
PI v rostl.	1	2	4	8	6	5	3	
	0	0	1	2	-1	0	-1	-1
r s =
i = 1,.....n; n = 8 => v = 6
6 - £   di 2
n (n 2 - 1 )
tab :  rs (v = 6)= 0,89
= 0 ,9048
Pacient č.	1	2	3	4	5	6	7
Lékař 1	4	1	6	5	3	2	7
Lékař 2	4	2	5	6	1	3	7
di	0	-1	1	-1	2	-1	0
rs = 1
6 - 8
7 (49 - 1)
= 0,857
P = 0,358
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Korelace v grafech I.		
Y	w . Y y	f
	X	X
	Vztahy velmi často implikují funkční vztah mezi Y a X. ^^^1 Y = a + b . X Y = a + b1 . X1 + b2. X2 + b3. X3 Y = a + b1 . X1 + b2. X2 Y = a + b1 . X1 + b2 . X2 + b3 . X1 . X2	
MĹ IBA	Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek	
Problém rozložení hodnot
Y
r = 0,981 (p < 0,001)
X
Y
Problém typu modelu
• \i •• •• •
r = 0,761 (p < 0,032)
X
Problém velikosti vzorku
Y
r = 0,891 (p < 0,214)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Y
r = 0,212 (p < 0,008)
• - ■   • •• • • • •• • •
X
Modelování klinických dat
l.Tvorba modelu
2.Validace modelu
3. Aplikace modelu
Prediktory
• Parametry ovlivňující vysvětlovanou charakteristiku pacienta
• Rovnice umožňující predikci
• Platnost modelu pouze v rozsahu prediktorů
• Nebezpečí„přeučení" modelu
• Testování modelu na známých datech
• Krosvalidace
• Individuální predikce stavu nenámých pacientů
• Model musí být podložen korektní statistikou a rozsáhlými daty
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Základy regresní analýzy
Regrese - funkční vztah dvou nebo více proměnných
Vícerozměrná y = f(x1, x2, x3,......xp)
Y
Deterministický
Vztah x, y
X
Y
Regresní, stochastický
Y
X
X
Pro každé x existuje pravděpodobnostní rozložení y
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Regresní analýza přímky: lineární regrese
Y = a + b - x + e    «    a + J3-X + s
a « a (intercept) :   a = y - b - x }
y-       p-X «b- x   (sklon; slope)
s « e - náhodná složka :
1--/
N(0;a2e )= N(0;a2yx)
s - náhodná složka modelu přímky = rezidua přímky
<72e (a2x) == rozptyl reziduí
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
1 x
n
i y
n
Y
: •
X
.—.
i y
x
y
^—.
y e
													
			= a + b .		—			-					
n	m -			-	-	- ■	-		-	-		■ ■	-
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Základní regresní analýzy: model přímky v datech II
Y
x
x
y
2 2
• • •
. • •. •
y
s
y
b = 0
X
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
y
y
Y
y
e
2
e = 0
b > 0
22
X
Základní regresní analýzy: model přímky v datech I
Y
			Y__^ } b ■(xi -~X)
			} Y
X
X
., = y - y
Smysl proložení přímky
minimalizace odchylek
d . = y - y
y = y+
y + b (X, - X )
dl x - Z [y -«    ((, - x )]
Metoda nejmenších čtverců
1) X: Pevná, nestochastická proměnná
2) Rozložení hodnot y pro každé x je normální
3) Rozložení hodnot y pro každé x má stejný rozptyl , ,
4) ..Rezi^ N{0;<7t;..)
IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
I.
b ~ P :    b =
V2 ~ rr1 •
Sy x =
Sy x =
mean squared deviation from regression sample standard deviation from regression
s 2
—\2     y • x
n - 2
n - 2
II.
a ~ a •   a = Y - b • X
intercept
sa2 ~
o
S =
a
1 +   X2
S
III a
Y : modelová hodnota
Y = a - b^X;
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
S y.  = y- y ^
1   (x, - X )2
n     Z X
2
2
X: Množství spáleného odpadu (tuny) Y: Koncentrace kovu ve vzduchu(ng/m3)
Y.
Y
10
Y
Y
200
X
Platí: X = 0; 10; 100; 150; 200; 250; 300 tun
Model: Y = a + b . X
Výsledek: Y = 14 + 0,123 • X;  Y —
ng kov
m'
Např. : Skutečná data pro X = 200 t: Yi = 16; 25; 41; 28; 31; 20 => Yi = 26.8
Y = Y + b •(X - X)
Y = a + b • X
} a
—
Y - b • X
Odhadnuto z modelu pro X = 200 t: Y = 14 + 0,123 . 200 = 38,6
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Regresní analýza v grafech I
Grafy residuí modelů (příklady)
8
0
8
u—
I
y (i; x)
Obecné tvary residuí modelů (schéma)
a
e
a
A
e
b
i, Xj, y
i, Xj, y
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
• • «—
0
e
• • • ... «
y (i; x)
c
Ak
e
i, xj, y
■
y (i; x)
i, xj, y
Regresní analýza v grafech II
1) Y vs.X
Y
Y
2) Y vs. Y
X
Y
Y
Y
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
X
Y
Y
Y
V*
X
Y
Lineární regrese - příklad
X: Koncentrace drogy: 0; 2; 6; 8; 10; 12; 15 mg/ml krve Y: Koncentrace volných metabolitů
Pro každé X: 3 opakování Y
Model: Y = a + b . x
Y = 0,11 + 0,092 . X
I.    H0 : P = 0;a = 0,05
0,023
b = 0,092 ; sb P < 0,01
b
S
4,00
0,975
2,093
(n - 2) - S
a / 2
P (0,044 <p< 0,140 )= 0,95
II. H0:a = 0;a = 0,05 a = 0,11; sa = 0,029
a : a± řfc2) - Sa
a
> t = - =
S
3,793        t0v9759) = 2,093
a
P(0,049 <a< 0,171) = 0,95
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
b
_
_
1) Experimentální data
2) Celková ANOVA "one way"
y1     x0     x1     x2     x3 x4
yn     x0     x1     x2 x3
x4
S2 c 2 c 2 c 2 c 2 01234
Y
11 i—i—i i i
X
Y
Zdroj rozptylu	St.v.	SS	MS	F
Mezi skupinami	a-1	SSb	SSb /(a-1)	MSB/MSE
Uvnitř skupin	na-a	SSE	SSE /(na- a)	
Celkem	na-1	SST	s 2 y	
Y
X
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
SS
na - l
X
_
3)
Celková ANOVA
SSB/SST MSB/MSE = F
(variance ratio)
4)   Analýza rozptylu regresního modelu (zde přímky)
Zdroj rozptylu
Model (přímka)
Residuum celkem
st.v.	SS	MS
1	ssmod	msmod
na - 2	ssr	MSr
na - 1	SS t	
F
msmod /
MSR
(SSmod/SSt) . i00 = % rozptylu Y "vyčerpaného" přímkou = koeficient determinace (R2)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
X: konc.Cd:  1,2,3,4,5,6 ng/ml Y: absorb:    0,23; 0,49; 0,72; 0,90; 1,16; 1,39
b=Q,228 a=Q,Q16
r = 0,999
R2 = 99,81%
Sb=4,99.1Q-3 Sa=Q,Q19
P = Q,QQQ P = Q,457
St. Error of est: Q,Q21
ANOVA
Source	D.f.	SS	MS	F	P
Model	1	0,912	0,912	2086,3	0
Residual	4	0,0017	0,000425		
Total ( c )	5	0,9138			
s2 y.x = 4,25 . 1Q-4 s2y   = Q,18275
Vytvořil In titut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
XVII. Vícerozměrná analýza
dat: úvod
Principy a využití vícerozměrné analýzy dat
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Anotace
• Vícerozměrná analýza dat představuje nadstavbu nad klasickou, jednorozměrnou statistikou a je zvláště vhodná pro biologická a medicínská data, která jsou vícerozměrná již svou podstatou
• Při vícerozměrné analýze je nicméně nezbytné si uvědomit, že povětšinou vychází ze stejných principů jako jednorozměrné analýzy a tedy i zde je nezbytné dodržovat předpoklady na nichž je výpočet založen. Tento fakt je důležité si uvědomit zejména vzhledem k relativní dostupnosti vícerozměrných analýz v moderních statistických software.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Vztah klasické a vícerozměrné statistiky
• Vícerozměrná analýza dat využívá přístupů klasické statistiky
• Zároveň je citlivá i na jejich problémy
• Agregace dat přes sumární statistiku nebo kontingenční tabulky -korespondenční analýza
• Korelace - analýza hlavních komponent, faktorová analýza, diskriminační analýza
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
n
X1 X2
r     ~n r ~\
skupina 1
skupina 2
Vícerozměrný systé
m
►
X2
x2
r;
1k anaiý
lasička jednorozměrná
i-
skup.     skup.       skup.    skup. 2
1
2
1
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
0
Průměr ± SE
BĚŽNÁ STATISTICKÁ SUMARIZACE
s Zpřehlednění dat s Neodlišípůvodní měření
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
... s ohledem na individualitu !
x2		• • •
	V-	
		• • • •
►	• •	•-• • •
	t • ••• • •	
	•	•
	• ••	•
		Xi
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Vícerozměrné hodnocení - nová kvalita				
Pouze	W 2 kombinované parametry mají odpovídající informační sílu			
		X2	a b   b b b a       b b b b b a a*a aaab ^\\^ aa     V ^ S '	
				
			_	
				
m           Vytvořil Institut biostatistiky a analýz, Masarykova univerzita jjj^      J. Jarkovský, L. Dušek				
X22
X21
*2
příklad: vícerozměrná vzdálenost měření mezi dvěma objekty (body)
2
c2= a + b
1
X1
X11
X12
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Pojmy vícerozměrných analýz
• Vícerozměrné metody: Název vícerozměrné vychází z typu vstupních dat, tato data jsou tvořena jednotlivými objekty (i.e. klienti) a každý z nich je charakterizován svými parametry (věk, příjem atd.) a každý z těchto parametrů můžeme považovat za jeden rozměr objektu.
• Maticová algebra: Základem práce s daty a výpočtů vícerozměrných metod je maticová algebra, matice tvoří jak vstupní, tak výstupní data a probíhají na nich výpočty.
• NxP matice: N objektů s p parametry pak vytvářítzv. NxP matici, která je prvním typem vstupu dat do vícerozměrných analýz.
• Asociační matice: Na základě těchto matic jsou počítány matice asociační na nichž pak probíhají další výpočty, jde o čtvercové matice obsahující informace o podobnosti nebo rozdílnosti (tzv. metriky) buď objektů (Q mode analýza) nebo parametrů (R mode analýza).Měřítko podobnosti se liší podle použité metody a typu dat, některé metody umožňují použití uživatelských metrik.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Vstupní matice vícerozměrných analýz
NxP MATICE
ASOCIAČNÍ MATICE
Výpočet metriky
podobností/
vzdáleností
Hodnoty parametrů pro jednotlivé objekty
Korelace, kovariance, vzdálenost, podobnost
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Základní typy vícerozměrných analýz
SHLUKOVÁ ANALÝZA
ORDINAČNÍ METODY
vytváření shluků objektů na základě jejich podobnosti
identifikace typů objektů
KLASIFIKACE
•
Model zařazení neznámých pacientů do předem daných skupin
v
Rada algoritmů
• zjednodušení vícerozměrného problému do menšího počtu rozměrů
• principem je tvorba nových rozměrů, které lépe vyčerpávají variabilitu dat
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
Typy vícerozměrných analýz
SHLUKOVÁ ANALÝZA
1 ^1
ORDINAČNÍ METODY
podobnost
y
Ť
t
M
Faktorové osy
1-4
Diskriminační prostor
y
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
y
x