Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Pozice statistické analýzy ve vědě a klinické praxi
Význam statistických výstupů
I. Statistika ve vědecké praxi
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Anotace
 Statistická analýza biologických dat je jedním z nástrojů, s
jejichž pomocí se snažíme zjistit odpovědi na naše otázky
týkající se pochopení živé přírody. Jako každý nástroj je i
statistickou analýzu nezbytné na jedné straně korektně
využívat a na druhou stranu nepřeceňovat její možnosti.
 Klíčovým faktem při statistické analýze dat je nahlížení na
realitu prostřednictvím vzorku a přijmutí toho, že výsledky
naší analýzy jsou jen tak dobré, jak dobrý je náš vzorek.
Reprezentativnost a náhodnost vzorku spolu s jeho
velikostí jsou důležité faktory ovlivňující věrohodnost
našich závěrů.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Výzkum, realita, statistika
 Výzkum je naším způsobem porozumění realitě
 Ale jak přesné a pravdivé je naše porozumění?
Statistika je
jedním z nástrojů
vnášejících do
našich výsledků
určitou spolehlivost.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Význam variability
 Naše realita je variabilní a statistika je vědou zabývající se variabilitou
 Korektní analýza variabilita a její pochopení přináší užitečné informace o naší realitě
 V případě deterministického světa by statistická analýza nebyla potřebná
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Data
2,1
2,8
3,2
1,2
5,2
2,9
Variabilita opakovaných měření
rozptyl znaku, přirozená variabilita
165 cm 140 cm 182 cm 163 cm
Variabilita znaku v populaci
chyba = nepřesnost modelu
Variabilita
modelovaných dat
Variabilita časových
řad
Variabilita ve skladbě
biologických společenstev
DRUH 1
DRUH 2
DRUH 3
DRUH 4
15
30
40
14
biodiverzitafluktuace, časová proměnlivost
chyba
y
x
y
čas
Biostatistika - různé přístupy k variabilitě
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
…. a ty určují přístup k jejímu
hodnocení
Maskování a
minimalizace
vlivu
Respektování a
odhadování vlivu
Přímé využití k
predikcím chování
systému
Pojem VARIABILITA má mnoho významů ………
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Statistika – význam a definice
WWW.WIKIPEDIA.ORG:
Statistika je matematickou vědou zabývající se
shromážděním, analýzou, interpretací, vysvětlením
a prezentací dat. Může být aplikována v širokém
spektru vědeckých disciplín od přírodních až po
sociální vědy. Statistika je využívána i jako podklad
pro rozhodování, kdy nicméně může být záměrně i
nevědomky zneužita.
Statistika využívá matematické modely reality k
zobecnění výsledků experimentů a vzorkování.
Statistika funguje korektně pouze pokud jsou
splněny předpoklady jejích metod a modelů.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Co může statistika říci o naší realitě?
Možnosti
Realita
Vzorek
Data
Informace
Znalost
Pochopení
Statistika
Statistika je nasazena v
procesu získání informací
z vzorkovaných dat a je
podporou v získání naší
znalosti a pochopení
problému.
Statistika není schopna činit
závěry o jevech
neobsažených v našem
vzorku.
Statistika není náhradou
naší inteligence !!!
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Cílová populace
 Cílová populace – klíčový pojem statistického zpracování
 Skupina objektů o nichž se chceme něco dozvědět (např. pacienti s
danou diagnózou, všichni lidé nad 60 let, měření hemoglobinu v
dané laboratoři)
 Musí být definována ještě před zahájením sběru dat
 Na cílové populaci probíhá vzorkování dat, které musí cílovou
populaci dobře (reprezentativně) charakterizovat
Cílová populace Klíčové faktory
cílové populace
Design
experimentu a
vzorkovací plán
Vzorkování a
analýza dat
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Statistika a zobecnění výsledků
 Cílem analýzy není
pouhý popis a analýza
vzorku, ale zobecnění
výsledků ze vzorku na
jeho cílovou populaci
 Pokud vzorek
nereprezentuje cílovou
populaci, vede zobecnění
k chybným závěrům
Neznámá
cílová
populace
X, Y, Z
Díky zobecnění
výsledků známe
vlastnosti cílové
populace
Vzorek
Analýza
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Vzorkování a jeho význam ve statistice
 Statistika hovoří o realitě prostřednictvím vzorku!!!
 Statistické předpoklady korektního vzorkování
Representativnost: struktura vzorku
musí maximálně reflektovat realitu
Nezávislost: několikanásobné
vzorkování téhož objektu nepřináší ze
statistického hlediska žádnou novou
informaci
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Velikost vzorku a přesnost statistických výstupů
Existuje skutečné rozložení
a skutečný průměr měřené
proměnné
Z jednoho měření nezjistíme nic
Vzorek: ?????
Vzorek určité velikosti poskytuje
odhad reálné hodnoty s
definovanou spolehlivostí
Vzorek:
Odhad
průměru
atd.
Vzorkování všech existujících
objektů poskytne skutečnou
hodnotu dané popisné
statistiky, nicméně tento přístup je
ve většině případech nereálný.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Malá data Velká data Obrovská data
Umění
uchopit
Umění
prodat
Umění
pochopit
Různá role statistiky při různě velkém vzorku
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Group1
Group2
Group3
0.0
0.2
0.4
0.6
0.8
1.0
0 100 200 300 400
Ukázka uspořádaného datového souboru
4 72 32
7,6 95 19 48
4 77 35 33
6,1 103 26 49
6,9 81 13 45
5,9 137 33 61
8 151 20 59
9,6 77 11 38
6 120 26 52
3,3 81 42 24
3,8 111 42 29
6,4 366 73 115
6,8 234 59 71
8,5 156 25 108
9,3 129 21 23
2,2 46 30 12
9,9 189 24 140
5 101 25 54
8,8 268 36,6 145
9,2 168 26,9 76
10,0 181 20,1 81
9,6 343 47 124
6,0 40 21
7,2 103 17,8 63
8,2 209 34,9 57
10,3 364 41,1 112
5,0 83 22,1 32
11,9 83 13,4 52
7,2 109 27,1 63
10,8 146 15,7 106
11,8 246 27,4 63
17,0 440 31,2 119
3
4
8
11
12
14
16
20
21
22
37
38
39
49
51
52
55
56
6
9
13
15
17
19
24
26
29
30
31
32
33
34
40
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15 10,0
8
3
5
3
15
18
3
10
4
10
2
1
7
7
10
3
2
11
2
7
1
2
1
1
1
1
3
36
22
1
8
58
52
59
85
55
75
72
67
55
60
76
57
67
57
56
78
80
72
66
83
75
78
72
85
74
51
53
50
54
82
72
66
55
64
88
70
93
75
77
59
70
78
58
74
64
66
81
82
83
68
90
76
80
73
86
75
52
56
76
76
83
80
0,6 4,4 5,0 1,8
0,1 2,1 2,2 1,6
0,3 3,6 3,9 2,1
0,2 5,9 6,1 0,6
0,9 3,3 4,1 1,1
1,4 6,0 7,4 0,6
0,3 6,9 7,2 2,2
0,6 4,0 4,6 1,1
0,1 1,8 2,0 1,3
0,4 2,3 2,7 1,1
0,1 4,9 5,0 1,1
0,1 3,9 3,9 2,7
0,6 5,7 6,3 2,2
0,7 5,3 6,0 3,3
0,2 1,2 1,5 0,7
0,3 7,7 8,0 0,1
0,1 4,0 4,1 0,7
1,0 6,3 7,3 1,1
0,2 6,1 6,3 2,6
0,7 8,3 9,0 0,8
0,1 7,2 7,3 2,2
0,1 5,6 5,8 1,3
0,1 5,9 6,0 2,1
0,1 8,8 8,9 0,3
0,1 3,7 3,8 1,1
0,1 6,1 6,2 5,6
0,2 3,8 4,0 2,1
3,9 5,4 9,3 0,9
2,6 6,4 9,0 1,9
0,2 13,9 14,1 2,7
0,8 7,2 8,0 0,4
33
33
22
33
37
32
34
40
32
28
32
25
20
30
35
33
30
26
44
42
54
45
45
44
41
41
39
33
28
27
45
34
37 176 22,0 52
24
40
35
9
19
7
23
19
39
30
17
39
26
35
34
10
13
12
28
8
23
18
25
3
21
47
29
8
16
16
4
aLeu aCLsk aCLNeus aCLOZ
cell.106
/ mV.s.103
mV.s.103
mV.s.103
Pacient Clovek aTy%
%
aSe%
%
aNeu%
%
aTy aSe aNeu aLy
cell.106
/ cell.106
/ cell.106
/ cell.106
/
aHtc
%
aLy%
%
aCLNeuO
mV.s.103
10
15
13
7
15
8
5
11
12
11
23
18
17
4
8
18
13
19,9
12,2
9
16,9
10,9
9,6
12,6
8,5
8,4
15,5
11,4
7
8,4
6,5
Data
Schopnost: vidět data – komunikovat
– interpretovat - prodávat
Přístup biostatistiky
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
VÝSLEDKY
cílová populace
výběr dle optimálního plánu
reprezentativní vzorek n
jedinců (faktor F)
měření znaku
variabilita hodnot
ve výběrovém souboru
?
Účel analýzy:
Popisný
… analyzovaný znak
cílové populace (X)
… jiný významný
faktor charakterizující
cílovou populaci (F)
ZÁVĚRY(reprezentativnost,spolehlivost)
Reprezentativnost
Přesnost
Spolehlivost
?
Experimentální design: nezbytná výbava biologa
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
VÝSLEDKY
cílová populace
výběr subjektů pro vstup do hodnocení / studie
RANDOMIZACE
vzájemně srovnatelné vzorky (faktor F)
měření znaku X
variabilita hodnot X
v rameni A
?
Účel analýzy:
Srovnávací
(2 ramena) … analyzovaný znak
cílové populace (X)
… jiný významný
faktor charakterizující
cílovou populaci (F)
ZÁVĚRY(rozlišovacíschopnost,rozdílramenAx
B,srovnatelnostramen,reprezentativnost)
variabilita hodnot X
v rameni B
rameno A rameno B
Srovnatelnost
Přesnost
Spolehlivost
?
Experimentální design: nezbytná výbava biologa
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Praktická a statistická významnost
 Samotná statistická významnost nemá žádný reálný význam, je
pouze měřítkem náhodnosti hodnoceného jevu
 Pro vyhodnocení reálné významnosti je nezbytné znát i reálně
významné hodnoty
Statistická
významnost
Praktická významnost
ANO NE
ANO
OK, praktická i statistická
významnost je ve shodě,
jednoznačný závěr
Významný výsledek je
statistický artefakt velkého
vzorku, prakticky nevyužitelné
NE
Výsledek může být pouhá
náhoda, neprůkazný výsledek
OK, praktická i statistická
významnost je ve shodě,
jednoznačný závěr
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Obecné schéma využití statistické analýzy
Vzorkování
Experimentální
design
Jak velký vzorek je nezbytný pro statisticky relevantní výsledky?
Klíčová stratifikační kritéria cílové populace.
Vzorkovací plán zabezpečující náhodnost a reprezentativnost vzorku.
Uložení a
management dat
Uložení dat ve vhodné formě a jejich vyčištění předcházející vlastní
analýze je klíčovým krokem statistické analýzy.
Vizualizace dat
Grafická inspekce dat je nezbytným krokem analýzy vzhledem ke
schopnosti lidského mozku primárně akceptovat obrazová data. Poskytne
vhled do dat, představu o jejich rozložení, vazbách proměnných apod.
Popisná analýza
Popisná analýza umožňuje vyhodnotit srovnáním s existující literaturou
realističnost naměřených rozsahů dat.
Testování
hypotéz
Testování vazeb mezi různými proměnnými s cílem navzájem vysvětlit
jejich variabilitu a tím přispět k pochopení řešeného problému.
Modelování
Možným vyvrcholením analýzy je využití získaných znalostí a pochopení
problému k vytvoření prediktivních modelů.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Prospektivně – modelově - postihuje chování jevů při respektování
variability
Stochastické modelování: predikce neurčitých
jevů
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Osa X
Parametr nebo kombinace parametrů
Reg
95%
0,0
0,2
0,4
0,6
0,8
1,0
0 10 20 30 40 50 60 70 80
Age = 55 years
P =0.80
P =0.40
Regression
95% confid.
0,0
0,2
0,4
0,6
0,8
1,0
-4,0
-2,0
0,0
2,0
4,0
Data konkrétních pacientů (subjektů)
k přímému hodnocení
Stochastické modelování: predikce neurčitých
jevů
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Maligní lymfomy: Pravděpodobnost časného relapsu
Estimatedprobability
ofearlyrelapse
Ratio M / (A + 0.5)
Regression
95% confid.0.0
0.2
0.4
0.6
0.8
1.0
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5
M/(A+0.5) =1.0
P =0.50
Regression
95% confid.0.0
0.2
0.4
0.6
0.8
1.0
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5
M/(A+0.5) =1.5
P =0.50
Grade = 2
Grade = 1
Index Mitosis / (Apoptosis + 0.5)
Stádium I - II Stádium III - IV
Schopnost: vytvářet prakticky využitelné nástroje
Stochastické modelování: predikce neurčitých
jevů
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Klíčový význam korektního uložení získaných dat
Pravidla pro ukládání dat
Čištění dat před analýzou
II. Příprava dat
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Anotace
 Současná statistická analýza se neobejde bez zpracování
dat pomocí statistických software. Předpokladem úspěchu
je správné uložení dat ve formě „databázové“ tabulky
umožňující jejich zpracování v libovolné aplikaci.
 Neméně důležité je věnovat pozornost čištění dat
předcházející vlastní analýze. Každá chyba, která vznikne
nebo není nalezeno ve fázi přípravy dat se promítne do
všech dalších kroků a může zapříčinit neplatnost výsledků
a nutnost opakování analýzy.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Ukázka uspořádaného datového souboru
4 72 32
7,6 95 19 48
4 77 35 33
6,1 103 26 49
6,9 81 13 45
5,9 137 33 61
8 151 20 59
9,6 77 11 38
6 120 26 52
3,3 81 42 24
3,8 111 42 29
6,4 366 73 115
6,8 234 59 71
8,5 156 25 108
9,3 129 21 23
2,2 46 30 12
9,9 189 24 140
5 101 25 54
8,8 268 36,6 145
9,2 168 26,9 76
10,0 181 20,1 81
9,6 343 47 124
6,0 40 21
7,2 103 17,8 63
8,2 209 34,9 57
10,3 364 41,1 112
5,0 83 22,1 32
11,9 83 13,4 52
7,2 109 27,1 63
10,8 146 15,7 106
11,8 246 27,4 63
17,0 440 31,2 119
3
4
8
11
12
14
16
20
21
22
37
38
39
49
51
52
55
56
6
9
13
15
17
19
24
26
29
30
31
32
33
34
40
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15 10,0
8
3
5
3
15
18
3
10
4
10
2
1
7
7
10
3
2
11
2
7
1
2
1
1
1
1
3
36
22
1
8
58
52
59
85
55
75
72
67
55
60
76
57
67
57
56
78
80
72
66
83
75
78
72
85
74
51
53
50
54
82
72
66
55
64
88
70
93
75
77
59
70
78
58
74
64
66
81
82
83
68
90
76
80
73
86
75
52
56
76
76
83
80
0,6 4,4 5,0 1,8
0,1 2,1 2,2 1,6
0,3 3,6 3,9 2,1
0,2 5,9 6,1 0,6
0,9 3,3 4,1 1,1
1,4 6,0 7,4 0,6
0,3 6,9 7,2 2,2
0,6 4,0 4,6 1,1
0,1 1,8 2,0 1,3
0,4 2,3 2,7 1,1
0,1 4,9 5,0 1,1
0,1 3,9 3,9 2,7
0,6 5,7 6,3 2,2
0,7 5,3 6,0 3,3
0,2 1,2 1,5 0,7
0,3 7,7 8,0 0,1
0,1 4,0 4,1 0,7
1,0 6,3 7,3 1,1
0,2 6,1 6,3 2,6
0,7 8,3 9,0 0,8
0,1 7,2 7,3 2,2
0,1 5,6 5,8 1,3
0,1 5,9 6,0 2,1
0,1 8,8 8,9 0,3
0,1 3,7 3,8 1,1
0,1 6,1 6,2 5,6
0,2 3,8 4,0 2,1
3,9 5,4 9,3 0,9
2,6 6,4 9,0 1,9
0,2 13,9 14,1 2,7
0,8 7,2 8,0 0,4
33
33
22
33
37
32
34
40
32
28
32
25
20
30
35
33
30
26
44
42
54
45
45
44
41
41
39
33
28
27
45
34
37 176 22,0 52
24
40
35
9
19
7
23
19
39
30
17
39
26
35
34
10
13
12
28
8
23
18
25
3
21
47
29
8
16
16
4
aLeu aCLsk aCLNeus aCLOZ
cell.106
/ mV.s.103
mV.s.103
mV.s.103
Pacient Clovek aTy%
%
aSe%
%
aNeu%
%
aTy aSe aNeu aLy
cell.106
/ cell.106
/ cell.106
/ cell.106
/
aHtc
%
aLy%
%
aCLNeuO
mV.s.103
10
15
13
7
15
8
5
11
12
11
23
18
17
4
8
18
13
19,9
12,2
9
16,9
10,9
9,6
12,6
8,5
8,4
15,5
11,4
7
8,4
6,5
Parametry (znaky)
Opakování
DATA – ukázka uspořádání datového souboru
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
 Správné a přehledné uložení dat je základem jejich pozdější analýzy
 Je vhodné rozmyslet si předem jak budou data ukládána
 Pro počítačové zpracování dat je nezbytné ukládat data v tabulární formě
 Nejvhodnějším způsobem je uložení dat ve formě databázové tabulky
 Každý sloupec obsahuje pouze jediný typ dat, identifikovaný hlavičkou sloupce
 Každý řádek obsahuje minimální jednotku dat (např. pacient, jedna návštěva pacienta apod.)
 Je nepřípustné kombinovat v jednom sloupci číselné a textové hodnoty
 Komentáře jsou uloženy v samostatných sloupcích
 U textových dat nezbytné kontrolovat překlepy v názvech kategorií
 Specifickým typem dat jsou datumy u nichž je nezbytné kontrolovat, zda jsou datumy uloženy
v korektním formátu
 Takto uspořádaná data je v tabulkových nebo databázových programech možné
převést na libovolnou výstupní tabulku
 Pro základní uložení a čištění dat menšího rozsahu je možné využít aplikací MS Office
Zásady pro ukládání dat
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Ukládání dat v MS Office
 MS Excel
 Kontingenční tabulky – rychlá sumarizace rozsáhlých tabulek
 Možnost výpočtů a grafových výstupů přímo v aplikaci
 Visual Basic – složitější aplikace
– Omezení tabulky na 256x65536 buněk (do verze 2003)
– Omezená kontrola chyb při zadávání
 MS Access
 Plnohodnotná databáze vhodná pro velké množství dat, řádky omezeny v podstatě jen
dostupnou pamětí
 Kontrola typu dat
 Relace tabulek – omezení velikosti souboru
 Visual Basic a formuláře – složitější aplikace
– Omezení tabulky na 255 sloupců
– Výpočty a grafy jsou složitější než v Excelu
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Možnosti MS Excel
 Správa a práce s tabulárními daty
 Řazení dat, výběry z dat, přehledy dat
 Formátování a přehledné zobrazení dat
 Zobrazení dat ve formě grafů
 Různé druhy výpočtů pomocí zabudovaných funkcí
 Tvorba tiskových sestav
 Makra – zautomatizování častých činností
 Tvorba aplikací (Visual Basic for Aplications)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Import a export dat
 Import dat
 Manuální zadávání
 import – podpora importu ze starších verzí Excelu, textových souborů, databází apod.
 kopírování přes schránku Windows – vkládání z nejrůznějších aplikací – MS Office,
Statistica atd.
 využití textových souborů jako kompatibilního formátu pro přenos dat mezi různými
aplikacemi
 Export dat
 Ukládáním souborů ve formátech podporovaných jinými SW, časté jsou textové soubory,
dbf soubory nebo starší verze Excelu
 Přímé kopírování přes schránku Windows
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Tipy a triky
 Výběr buněk
 CTRL+A – výběr celého listu
 CTRL + klepnutí myší do buňky – výběr jednotlivých buněk
 SHIFT + klepnutí myší na jinou buňku – výběr bloku buněk
 SHIFT + šipky – výběr sousedních buněk ve směru šipky
 SHIFT+CTRL+END (HOME) – výběr do konce (začátku) oblasti dat v listu
 SHIFT+CTRL+šipky – výběr souvislého řádku nebo sloupce buněk
 SHIFT + klepnutí na objekty – výběr více objektů
 Kopírování a vkládání
 CTRL+C – zkopírování označené oblasti buněk
 CTRL+V – vložení obsahu schránky – oblast buněk, objekt, data z jiné aplikace
 Myš a okraje buňky
 Chycení myší za okraj umožňuje přesun buňky nebo bloku buněk
 Při chycení čtverečku v pravém dolním rohu výběru je tažením možno vyplnit více buněk hodnotami původní
buňky (ve vzorcích se mění relativní odkazy, je také možné vyplnění hodnotami ze seznamu – např. po sobě
jsoucí názvy měsíců.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Databázová struktura dat v Excelu
Jednotlivé záznamy
(taxon, lokalita atd.)
Sloupce tabulky = parametry záznamů, hlavička udává obsah
sloupce – stejný údaj v celém sloupci
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Automatický zadávací formulář
 Slouží k usnadnění zadávání dat do databázových tabulek
 Načítá automaticky hlavičky sloupců jako zadávané položky
Názvy sloupců
Obsah dané buňky - editovatelný
Nový záznam
Vyhledávání
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Automatické seznamy
 Vytváří se z hodnot buněk v daném sloupci a umožňují vložit hodnotu výběrem ze seznamu již
zadaných hodnot – usnadnění zadávání
Taxon Abundance Lokalita etc.
Sloupec z nějž je seznam vytvořen a pro který platí
Buňka, do níž se vloží
vybraná hodnota
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Automatická kontrola dat
 Umožňuje ověřit typ, rozsah nebo povolit pouze určitý seznam hodnot zadávaných do sloupce
databázové tabulky
Co je povoleno – definiční obory
čísel, seznamy, vzorce atd.
Rozsahy hodnot,
načtení seznamů apod.
komunikace s uživatelem
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Seznamy
 Skupiny hodnot zachovávající logické pořadí, některé jsou zabudované (např. dny v týdnu, měsíce
v roce), další je možné uživatelsky vytvořit, slouží pro účely řazení a automatického vyplňování dat
Výběr buněk pro nový seznam
Načtení nového seznamu
Existující seznamy
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Řazení dat
 Řazení dat je nejjednodušším způsobem jejich zpřehlednění, užitečným hlavně u
menších/výsledkových tabulek
Zkontrolujte, zda seřazení nezničí vazby mezi buňkami = kontrola oblasti, kterou řadíte.
Využít první řádek oblasti jako
záhlaví
Další možnosti – řazení řádků,
řazení podle seznamu
Podle čeho řadit
Směr řazení – vzestupně,
sestupně
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Automatický filtr
 Pomocí automatického filtru je snadné vybírat úseky dat pro další zpracování na základě hodnot
ve sloupcích databázové tabulky, výběr je možný i podle více sloupců (např. určitá skupina
pacientů)
 Funkce automaticky rozezná hlavičky sloupců v souvislé oblasti buněk
 U sloupců použitých pro filtraci jsou rozbalovací seznamy zbarveny modře
 Výhodné pro čištění dat (vyhledávání překlepů, kombinace textu a čísel)
Výběr hodnot pro filtraci
Rozbalení seznamu hodnot
nalezených ve sloupci
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Typy grafické vizualizace
Rizika desinterpretace grafického zobrazení dat
III. Vizualizace dat
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Anotace
 Prvním krokem v analýze dat je jejich vizualizace. Různé
typy dat nám umožňující získání představy o rozložení dat,
zastoupení kategorií i vztazích proměnných navzájem.
Prostřednictvím vizualizace získáváme vhled do dat a
začínáme vytvářet hypotézy o zákonitostech panujících
mezi proměnnými v hodnoceném souboru dat.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
1. Výskyt kategorií (1, 2, 3,) Koláčový (výsečový) graf
Absolutnípočty
2. Vývoj hodnot (v čase) Y vs. X (t)
%
Y Y Y
Sloupcový graf
0
20
40
1 2 3
Řada2
Bodový graf
0
15
30
0 5 10 15 20 25 X
Plošný graf
0
15
30
1 2 3 10 20 X
Řada2
30%
40% 30%
1 2 3
30%
30%
40%
1
2
3
Sloupcový graf
0
50
100
1 2 3
Řada2
Spojnicový graf
0
15
30
1 2 3 10 20 X
Řada Řada
Grafická prezentace dat - umění komunikace
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
3. Vztahy mezi proměnnými - korelace
0
15
30
1 2 3 10 20 X2
Řada2
X1
0
15
30
0 5 10 15 20 25 X2
Řada2
X1
0
15
30
1 2 3 10 20 X2
Řada2
X1
0
15
30
1 2 3 10 20 X2
Řada2
X1
Bodový - korelační diagram
AGE
LN_CRP
CD56
CD57
CD80
Bodový - korelační diagram
Grafická prezentace dat - umění komunikace
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
4. Kvantitativní hodnoty parametru(ů) - X - v rámci kategorií A, B, C
Sloupcový grafKrabicový graf
X
0
20
40
A B C
Řada2
0
50
100
A B C
Řada2
X
0
50
100
A B C
Řada2
X
0
2
4
6
8
10
12
14
16
18
20
22
-2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12
0
5
10
15
20
25
30
35
40
-50 0 50 100 150 200 250 300
0
1
2
3
4
5
6
7
8
9
0 50 100 150
5. Histogram
Grafická prezentace dat - umění komunikace
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
6. Zviditelnění primárních dat
n
x1 x2 x3
Grafická prezentace dat - umění komunikace
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
7. Vztahy mezi proměnnými - interakce dvou parametrů, reakční plochy
Grafická prezentace dat - umění komunikace
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
BUNKY2
BUNKY1
ENZYM2
-100
100
300
500
700
900
Case1
Case2
Case3
Case4
Case5
Case6
Case7
Case8
Case9
Case10
Case11
Case12
Case13
Case14
Case15
Case16
Case17
Case18
Case19
Case20
Case21
Case22
Case23
Case24
Case25
Case26
Case27
Case28
Case29
Case30
BUNKY2
BUNKY1
ENZYM2
0
100
200
300
400
500
600
700
800
900
Case1
Case2
Case3
Case4
Case5
Case6
Case7Case8Case9
Case10
Case11
Case12
Case13
Case14
Case15
Case16
Case17
Case18
Case19
Case20
Case21
Case22Case23Case24
Case25
Case26
Case27
Case28
Case29
Case30
BUNKY2
BUNKY1
ENZYM2
-100
100
300
500
700
900
Case1
Case2
Case3
Case4
Case5
Case6
Case7
Case8
Case9
Case10
Case11
Case12
Case13
Case14
Case15
Case16
Case17
Case18
Case19
Case20
Case21
Case22
Case23
Case24
Case25
Case26
Case27
Case28
Case29
Case30
BUN
BUN
ENZ
StackedPlot (DISKRIM.STA 7v*30c)
0
100
200
300
400
500
600
700
800
900
Case1
Case2
Case3
Case4
Case5
Case6
Case7
Case8
Case9
Case10
Case11
Case12
Case13
Case14
Case15
Case16
Case17
Case18
Case19
Case20
Case21
Case22
Case23
Case24
Case25
Case26
Case27
Case28
Case29
Case30
BUNKY2
BUNKY1
ENZYM2
-100 100 300 500 700 900
Case1
Case2
Case3
Case4
Case5
Case6
Case7Case8Case9
Case10
Case11
Case12
Case13
Case14
Case15
Case16
Case17
Case18
Case19
Case20
Case21
Case22Case23Case24
Case25
Case26
Case27
Case28
Case29
Case30
ENZYM1
ENZYM2
0
5
10
15
20
25
30
35
5 10 15 20 25 30 35 40 45 50
0
5
10
0 4
BUNKY2
BUNKY1
ENZYM2
0
100
200
300
400
500
600
700
800
900
Case1
Case2
Case3
Case4
Case5
Case6
Case7Case8Case9
Case10
Case11
Case12
Case13
Case14
Case15
Case16
Case17
Case18
Case19
Case20
Case21
Case22Case23Case24
Case25
Case26
Case27
Case28
Case29
Case30
BUNKY2
BUNKY1
ENZYM2
-100 100 300 500 700 900
Case1
Case2
Case3
Case4
Case5
Case6
Case7Case8Case9
Case10
Case11
Case12
Case13
Case14
Case15
Case16
Case17
Case18
Case19
Case20
Case21
Case22Case23Case24
Case25
Case26
Case27
Case28
Case29
Case30
BUNKY2
BUNKY1
ENZYM2
StackedPlot (DISKRIM.STA 7v*30c)
0
100
200
300
400
500
600
700
800
900
Case1
Case2
Case3
Case4
Case5
Case6
Case7
Case8
Case9
Case10
Case11
Case12
Case13
Case14
Case15
Case16
Case17
Case18
Case19
Case20
Case21
Case22
Case23
Case24
Case25
Case26
Case27
Case28
Case29
Case30
8. Grafické zviditelnění má nekonečně mnoho možností
Grafická prezentace dat - umění komunikace
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Nesprávné užití grafů:
problém rozsahu číselné osy
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Nesprávné užití grafů:
problém standardizace hodnot
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Grafy zaměřené na vícerozměrné soubory
dokáží zviditelnit i veliké soubory dat
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Jak vznikají informace
Rozložení dat
IV. Teoretické pozadí
statistické analýzy
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Anotace
 Základním principem statistiky je pravděpodobnost
výskytu nějaké události. Prostřednictvím vzorkování se
snažíme odhadnout skutečnou pravděpodobnost
událostí.Klíčovou otázkou je velikost vzorku, čím větší
vzorek, tím větší šance na projevení se skutečné
pravděpodobnosti výskytu jevu.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
JAK vznikají informace ? základní pojmy
Skutečnost
Náhoda
(vybere jednu z možností pokusu)
Jev
podmnožina všech možných
výsledků pokusu/děje, o které lze
říct, zda nastala nebo ne
Pozorovatel
Rozliší, co nastalo
a) podle možností
b) podle toho, jak potřebuje
Jevové pole
třída všech jevů, které jsme se rozhodli
nebo jsme schopni sledovat
Skutečnost + Jevové pole = Měřitelný prostor
Experimentální jednotka - objekt, na kterém se provádí šetření
Populace - soubor experimentálních jednotek Znak - vlastnost sledovaná na objektu
Sledovaná veličina - číselná hodnota vyjadřující výsledek náhodného experimentu
Znak se stává náhodnou veličinou, pokud se jeho hodnota
zjišťuje vylosováním objektu ze základního souboru
Výběr - výběrová populace - cílová populace
Náhodný výběr Reprezentativnost
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
0
0.1
0.2
0.3
0 1 2 3 4 5 6
JAK vznikají informace ?
„Empirical approach“ „Classical approach“
Empirický postup
možné jevy: čísla 1 – 6 n – počet hodů (opakování)
f
n
n = 10
0
0.1
0.2
0.3
0 1 2 3 4 5 6
f
n
n = 50
0
0.1
0.2
0.3
0 1 2 3 4 5 6
f
n
n = 
U složitých stochastických systémů se pravda získá až po odvedení značného
množství experimentální práce: musíme dát systému šanci se projevit
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
0
0.1
0.2
0.3
0 1 2 3 4 5 6
JAK vznikají informace ?
Empirický postup
možné jevy: čísla 1 – 6 n – počet hodů (opakování)
f
n
n = 10
0
0.1
0.2
0.3
0 1 2 3 4 5 6
f
n
n = 50
0
0.1
0.2
0.3
0 1 2 3 4 5 6
f
n
n = 
Při realizaci náhodného experimentu roste se zvyšujícím
se počtem opakování pravdivá znalost systému (výsledky
se stávají stabilnější) …. diskutabilní je ale ovšem míra
zobecnění konkrétního experimentu
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Empirický zákon velkých čísel
Při opětovné nezávislé realizaci téhož náhodného experimentu se podíl výskytů
sledovaného jevu mezi všemi dosud provedenými realizacemi zpravidla ustaluje
kolem konstanty.
Pravděpodobnost je libovolná reálná funkce definovaná na jevovém poli A, která
každému jevu A přiřadí nezáporné reálné číslo P(A) z intervalu 0 - 1.
.
A
.
B.
C
.
D
A
P(A)
0 1
Z praktického hlediska je
pravděpodobnost
idealizovaná relativní četnost
P (A) = 1 …………………………… jev jistý
P (A) = 0 …………………………… jev nemožný
P (A  B) = P (A) . P (B/A) …..……závislé jevy
P (A  B) = P (A) . P (B)…………. nezávislé jevy
P (A / B) = P (A  B) / P (B) ……….podmíněná pravděpodobnost
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Pravděpodobnost výskytu jevu – rozložení dat
„vše je možné“: pouze jev s pravděpodobností 0 nikdy nenastane
existuje pravděpodobnost výskytu jevů (nedeterministické závěry)
0
pravděpodobnost
výskytu
x1
počet chlapců v rodině s X dětmi
2 3 4 5
j(x)
x
výška postavy
plocha = pravděpodobnost
výskytu
pravděpodobnost lze zkoumat retrospektivně i prospektivně
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Spojitá a kategoriální data
Základní popisné statistiky
Grafický popis dat
V. Základní typy dat
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Anotace
 Realitu můžeme popisovat různými typy dat, každý z nich
se specifickými vlastnostmi, výhodami, nevýhodami a
vlastní sadou využitelných statistických metod - od
binárních přes kategoriální, ordinální až po spojitá data
roste míra informace v nich obsažené.
 Základním přístupem k popisné analýze dat je tvorba
frekvenčních tabulek a jejich grafických reprezentací –
histogramů.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Jak vznikají informace ?
– různé typy dat znamenají různou informaci
Kolikrát ?
Podíl
hodnot
větší/menší
než
specifikovaná
hodnota
?
O kolik ?
Větší, menší ?
Rovná se ?
Procenta
odvozené
hodnoty
Data poměrová
Data intervalová
Data ordinální
Data nominální
Spojitá
data
Diskrétní
data
Kategoriální otázky
Otázky „Ano/Ne“
Samotná znalost typu dat ale na dosažení informace nestačí ………….
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Jak vznikají informace ?
– různé typy dat znamenají různou informaci
PRŮMĚR
MEDIÁN
MODUS
Data poměrová
Data intervalová
Data ordinální
Data nominální
Spojitá
data
Diskrétní
data
Statistika středu
X
Y = f
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
JAK vznikají informace ?
- opakovaná měření informují rozložením hodnot
KOLIK se
naměřilo
CO se
naměřilo
Diskrétní data Spojitá data
A B C D E
y
x
I II III IV V
y
x
X: měřený znak
Y: frekvence
- absolutní / relativní
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
X: Průměrný počet výrobků v prodejně
Y: Odhad prostoru průměrně nabízeného k vystavení výrobku
X: 1,2 : (1,15 - 1,24)
Y: 1,8 : (1,75 - 1,84)
X/Y = 0,667 :
1,15
1,84
1,24
1,75
( )
Odvozená data: Pozor na odvozené indexy
Znak X: Hmotnost
Znak Y: PlochaPříklad I:
Příklad II:
+ / - 3,8 %
+ / - 2,5 %
+ / - 6,2 %
průměr (min - max):
Nová
veličina má jinou šířku rozpětí než ty, ze kterých je odvozená
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
N: 100 dětí (hemofiliků)
x: znak: počet krvácivých epizod za měsíc
n(x) – absolutní četnost x
p(x) – relativní četnost; p(x) = n(x) / n
N(x) – kumulativní četnost hodnot nepřevyšujících x;
N(x) = S n(t)
F(x) – kumulativní relativní četnost hodnot
nepřevyšujících x; F(x) = N(x) / n
Jak vznikají informace ?
- frekvenční tabulka jako základní nástroj popisu
Primární data Frekvenční sumarizace
x n(x) p(x) N(x) F(x)
0 20 0,2 20 0,2
1 10 0,1 30 0,3
2 30 0,3 60 0,6
3 40 0,4 100 1,0
0
0
1
2
1
1
3
1
1
2
.
.
.
.
.
.
n = 100
Počtyepizodpron=100hemofiliků
t  x
DISKRÉTNÍ DATA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Jak vznikají informace ?
Grafické výstupy z frekvenční tabulky
n(x)
x
p(x)
x
N(x)
x
F(x)
x3210
0 1 2 3 0 1 2 3
0 1 2 3
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Jak vznikají informace ?
- frekvenční tabulka jako základní nástroj popisu
Příklad: x: koncentrace látky v
krvi n = 100 pacientů
Primární data
Frekvenční sumarizace
n = 100 opakovaných měření (100 pacientů)
x: koncentrace sledované látky v krvi (20 – 100 jednotek)
d(l) – šířka intervalu
n(l) – absolutní četnost
n(l) / n – intervalová relativní četnost
N(x’’) – intervalová kumulativní četnost do horní hranice X’’
F(x’’) – intervalová relativní kumulativní četnost do horní
hranice X’’
interv d(l
)
n(l) n(l)/n N(x’’) F(x’’)
<20, 40) 20 20 0,2 20 0,2
<40, 60) 20 10 0,1 30 0,3
<60, 80) 20 40 0,4 70 0,7
<80, 100) 20 30 0,3 100 1,0
1,21
1,48
1,56
0,31
1,21
1,33
0,33
.
.
.
n = 100
Hodnotypron=100osob
SPOJITÁ DATA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Jak vznikají informace ?
- frekvenční sumarizace spojitých dat
x
0
1
20 40 60 80 100
x
F(x)
Intervalová
relativní
kumulativní
četnost
Histogram Výběrová distribuční funkce
0.000
0.005
0.010
0.015
0.020
0.025
f(x)=
Intervalová
hustota
četnosti
20 40 60 80 100
Plocha: n(l) / n
n(l) / n
d(l)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Počet zvolených tříd a velikost
souboru určují kvalitu výstupu
k = 10 tříd k = 5 tříd
1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 1 2 3 4 5
k = 20 tříd
1,0 2,0 3,0 4,0 5,0
0
1
2
3
4
5
0
1
2
3
4
5
6
7
8
0
1
2
3
4
5
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Histogram vyjadřuje tvar výběrového rozložení
x
xx
x x
f(x)
f(x)
f(x)f(x)
f(x)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Příklad: věk účastníků vážných dopravních nehod
0
50
100
150
200
250
300
350
0 10 20 30 40 50 60 70 80
0
5
10
15
20
25
30
35
0 10 20 30 40 50 60 70 80
Věk (roky)
Věk (roky)
Frekvence
Správný histogram ?
Správný histogram ?
Věk
0 - 4
5 - 9
10 - 15
16 - 19
20 - 24
25 - 59
> 60
f
28
46
58
20
114
316
103
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Pojem ROZLOŽENÍ - příklad spojitých dat
j(x)
0
F(x)
Rozložení
x
Distribuční
funkce
0 Je - li dána
distribuční
funkce,
je dáno
rozložení
x
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Výběrové rozložení hodnot lze modelově popsat
a definovat tak pravděpodobnost výskytu X
f(x)
x
f(x)
x
f(x)
x
j(x)
j(x)
j(x)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Distribuční funkce jako užitečný nástroj pro
práci s rozložením
x
j(x)
1,00
F(x)
P(X x) = F(x) = F(x")
F(x) … distribuční funkce
P(X x) = j(x) d(x)
M
j(x) d(x) = 1
 



F(x):
Pravděpodobnost, že
se X vyskytuje
v intervalu M
M
Známe-li distribuční funkci, pak známe
rozložení sledované veličiny.
Pro jakoukoli množinu hodnot (M) lze určit
P, že X do této množiny patří.
Plocha = relativní četnost
x
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Jak vznikají informace ?
- frekvenční sumarizace spojitých dat
Grafické výstupy z frekvenční tabulky – spojitá data
f(x)
x
0
1
20 40 60 80 100
F(x)
x
KVANTIL
0
0.005
0.01
0.015
0.02
0.025
20 40 60 80 100
Uspořádání čísel podle
velikosti a konstrukce
rozložení umožňuje
pravděpodobnostní
zařazení každé
jednotlivé hodnoty
X0.1; X0.9; X0.5; Xq
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Otázka: Jak velké musí být X, aby 5 % všech
hodnot bylo nad ním?
X0,95 x
j(x)
0,95
F(x)
Hledáme: P(X xq) = 0,95 = q
xq = (x0,95) = ?
q = 0,95 … Pravděpodobnost
Jakékoliv číslo na ose x je kvantilem
5 % F (xq ) = q
Kvantil je číslo, jehož hodnota
distribuční funkce je rovna P,
pro kterou je kvantil definován

Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Normální rozložení jako statistický model
Aplikace modelových rozložení
Přehled modelových rozložení
VI. Modelová rozložení
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Anotace
 Klasickým postupem statistické analýzy je na základě
vzorku cílové populace identifikovat typ a charakteristiky
modelového rozložení dat, využít jeho matematického
modelu k popisu reality a získané výsledky zobecnit na
hodnocenou cílovou populaci.
 Využití tohoto přístupu je možné pouze v případě shody
reálných dat s modelovým rozložením, v opačném případě
hrozí získání zavádějících výsledků.
 Nejklasičtějším modelovým rozložením, od něhož je
odvozena celá řada statistických analýz je tzv. normální
rozložení, známé též jako Gaussova křivka.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Rozložení hodnot jako model: Normální
rozložení
N (ms)
j(x)
m
N (0,1)
j(z)
0
Tabelovaná
podoba
Standardizovaná forma
x
z
z = x - m
s
2
2
2
)(
.
2.
1
)( s
m
s
j



x
ex
2
2
.
.2
1
)(
z
ez



j
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Parametry charakterizující normální rozložení a
jejich význam
j(x)
x
mediánprůměrm ~ x
průměr - ukazatel středu
s2 ~ s2
rozptyl
xi x
a)
b)
m
s ~ s
směrodatná odchylka
Pravidlo ± 3s
koeficient variance
c)
d)
2
ss 
xsc 
1
)( 2
2

S

n
xx
s i
E (x) ~ x ~ m
D (x) ~ s2 ~ s2
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Rozptyl není univerzálním ukazatelem
variability
xi x xi
s2 =
 neúměrně zvýší s2
S(xi – x)2
n - 1
x
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Normální rozložení jako model
I. Použitelnost modelu
A) X: spojitý znak - hmotnost jedince (myši)
1,2; 1,4; 1,6; 1,8; 2,0; 2,4; 3.8
n = 7 opakování
medián = 1,8
rozptyl (s2) =
Je předpoklad normálního rozložení oprávněný ?
Jaký předpokládáte možný rozsah hodnot tohoto znaku ? ??
  03,22,14
7
1
8,34,20,28,16,14,12,1
7
1
7
11 7
11
   i
i
n
i
i xx
n
 
766,0
6
03,2
1
)(
7
1
2
1
2




   i
i
n
i
i x
n
xx
sm. odchylka (s) = 875,0766,02
s
průměr =
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Normální rozložení jako model
I. Použitelnost modelu
B) X: spojitý znak - hmotnost jedince (myši)
1,2; 1,4; 1,6; 1,8; 2,0; 2,2; 2,4; 3,8; 8,9
n = 9 opakování
průměr =
sm. odchylka (s) =
Jak hodnotíte model u těchto dat ?
medián = 2
  81,23,25
9
1
9,88,34,22,20,28,16,14,12,1
9
1
9
11 9
11
   i
i
n
i
i xx
n
 
79,5
8
81,2
1
)(
9
1
2
1
2




   i
i
n
i
i x
n
xx
269,279,52
s
rozptyl (s2) =
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Stochastické rozložení jako model
Předpoklad: Znak x je rozložen podle daného modelu
Znak x je naměřen o n hodnotách
s modelovými parametry: x a s
Znak x je převeden na formu
odpovídající tabulkovému
standardu:
Využije se tabelované (modelové) distribuční funkce
pro testy o rozložení hodnot x
Platnost
modelu ?
1
2
3
4
s
m

x
Zi
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Normální rozložení jako model - příklad
Tabulky distribuční funkce
• Data z průzkumu jsou publikována jako:
Kosti prehistorického zvířete:
n = 2000
průměrná délka = 60 cm
sm. odchylka (s) = 10 cm
Předpokládáme, že je oprávněný model normálního rozložení
Jaký podíl kostí ležel svou délkou v rozsahu x od 60 cm do 66 cm ?
Kolik kostí mělo zřejmě délku větší než 66 cm ?
Jaká je pravděpodobnost, že by velikost dané kosti překročila velikost
66 cm: P (x > 66) ?
    27425,06,01)
10
6066
(1)66(166 



 F
s
mx
PxPxP
  )66(166  xPxP a platí, že  XFxXP  )(
s
m

x
Z
tedy
  5482000*27425,0*66  nxP
      22575,006,0
10
6066
10
6060
6660 




 


 FFZPxP 22,6% kostí leží v rozsahu 60-66cm
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Rozložení Parametry Stručný popis
Normální
Průměr (m)
Rozptyl (s2)
Symetrická funkce popisující intervalovou
hustotu četnosti; nejpravděpodobnější jsou
průměrné hodnoty znaku v populaci.
Log-
normální
Medián
Geometrický průměr
Rozptyl (s2)
Funkce intervalové hustoty četnosti, která po
logaritmické transformaci nabude tvaru
normálního rozložení.
Weibullovo
a - parametr tvaru
b - parametr rozsahu hodnot
Změnou parametru a lze modelovat distribuci
doby přežití, např. stresovaného organismu.
Rozložení využívané i jako model k odhahu
LC50 nebo EC50 u testů toxicity.
Rovnoměrné
Medián
Geometrický průměr
Rozptyl (s2)
Funkce intervalové hustoty četnosti, která po
logaritmické transformaci nabude tvaru
normálního rozložení.
Triangulární
f(x) = [b - ABS (x - a)] / b2
a - b < x < a + b
Pravděpodobnostní funkce pro typ rozložení,
kdy jsou střední hodnoty výrazně
pravděpodobnější než hodnoty okrajové.
Gamma
Parametry distribuční funkce:
a - parametr tvaru
b - parametr rozsahu hodnot
Umožňuje flexibilně modelování distribučních
funkcí nejrůznějších tvarů. Např. c2 rozložení
je rozložení typu Gamma. Gamma rozložení
s a = 1 je známo jako exponenciální rozložení.
Stručný přehled modelových rozložení I.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Stručný přehled modelových rozložení II.Rozložení Parametry Stručný popis
Beta
Parametry distribuční
funkce:
a - parametr tvaru
b - parametr rozsahu
hodnot
Pravděpodobnostní funkce pro proměnnou
omezenou rozsahem do intervalu [0; 1]. Je
matematicky komplikovanější, ale velmi
flexibilní při popisu změn hodnot proměnné
v ohraničeném intervalu.
Studentovo
Stupně volnosti uvažuje
velikost vzorku
Průměr
Rozptyl
Simuluje normální rozložení pro menší vzorky
čísel. Pro větší soubory (n > 100) se limitně
blíží k normálnímu rozložení.
Pearsonovo
Stupně volnosti uvažuje
velikost vzorku
Slouží především k porovnání četností jevů ve
dvou a více kategoriích.
Používá se k modelování rozložení odhadu
rozptylu normálně rozložených dat.
Fisher-
Snedecorovo
Dvojí stupně volnosti uvažuje
velikost dvou
vzorků
Používá se k testování hodnot průměrů - F test
pro porovnání dvou výběrových rozptylů; F
test, ANOVA atd.
Stručný přehled modelových rozložení II.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Log-normální rozložení jako častý model
reálných znaků
j(x)
Medián xPrůměr
U asymetrických rozložení je medián velmi
vhodným alternativním ukazatelem středu
Průměr - těžiště osy x
Medián - frekvenční střed
x
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Log-normální rozložení lze jednoduše
transformovat
f(x)
Medián xPrůměr
f(x)
Medián
ln (x)
Průměr=
Y = Ln [X]
`Y ± Standardní chyba
EXP (Y) = Geometrický průměr X 

n
i
i
n
Y
Y
1
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Základní typy transformací vedou k normalitě rozložení nebo k
homogenitě rozptylu
Logaritmická transformace
Logaritmická transformace je velmi vhodná pro data s odlehlými hodnotami na
horní hranici rozsahu. Při porovnání průměrů u více souborů dat je pro tuto
transformaci indikující situace, kdy se s rostoucím průměrem mění proporcionálně
i směrodatná odchylka, a tedy jednotlivé proměnné mají stejný koeficient variance,
ačkoli mají různý průměr.
Za takovéto situace přináší logaritmická transformace nejen zeslabení
asymetrie původního rozložení, ale také vyšší homogenitu rozptylu proměnných.
Pro transformaci se nejčastěji používá přirozený logaritmus a pokud jsou v
původním souboru dat nulové hodnoty, je vhodné použít operaci Y = ln (X+1).
Je-li průměr logaritmovaných dat (tedy průměrný logaritmus) zpětně
transformován do původních hodnot, výsledkem není aritmetický, ale geometrický
průměr původních dat.
Transformace dat - legitimní úprava rozložení
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Transformace je vhodná pro proměnné mající Poissonovo rozložení, tedy
proměnné vyjadřující celkový počet nastání určitého jevu (spíše vzácného) v n
nezávisle opakovaných pokusech. Obecněji lze tento typ transformace doporučit v
případě normalizace dat typu počtu jedinců (buněk, apod.). Jde o transformaci:
nebo nebo
Transformace s přičtenou hodnotou 1 jsou efektivní, pokud X nabývá velmi
malých nebo nulových hodnot. Situace indikující vhodnost odmocninové
transformace je také proporcionalita výběrového rozptylu a průměru, tedy obecně
jestliže s2
x = k (výběrový průměr).
Odmocninová transformace
xY  1 xY 1 xxY
Transformace dat - legitimní úprava rozložení
Základní typy transformací vedou k normalitě rozložení nebo k
homogenitě rozptylu
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Tzv. úhlová transformace - velmi vhodná pro data typu podílů výskytu určitého
jevu (znaku) mezi n hodnocenými jedinci - tedy pro data mající binomické rozložení.
Pokud se určitý znak vyskytuje r-krát mezi n možnostmi (jedinci, opakováními), pak
lze vyjádřit relativní četnost jeho výskytu jako p = r/n s variabilitou p.(1-p)/n. Arcsin
transformace odstraní ze souborů dat podíly blízké 0 nebo 1, a tak efektivně sníží
variabilitu odhadů středu. Transformace však není schopná odstranit variabilitu
vyvolanou rozdílným počtem opakování v jednotlivých variantách - v takovém případě
lze doporučit provedení vážených transformací dat. Velmi častou formou této
transformace je:
- tedy transformace podílů do hodnot, jejichž sinus je roven druhé odmocnině
původních hodnot. Pokud celkový počet jedinců (opakování), mezi kterými je výskyt
znaku monitorován, je n < 50, pak lze doporučit velmi efektivní empirická opatření pro
transformaci podílů blízkých 0 nebo 1. Pro tento případ lze nahrazovat nulové podíly
hodnotou 1/4n a 100 % podíly hodnotou (n-1/4)/n. Pokud se mezi hodnotami vyskytuje
větší množství krajních hodnot (menší než 0,2 a větší než 0,8), lze doporučit
transformaci:
Arcsin transformace
pY arcsin











1
1
arcsin
1
arcsin
2
1
n
x
n
x
Y
Transformace dat - legitimní úprava rozložení
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Popisné statistiky dat
Vizualizace dat
VII. Popisná statistika dat
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Anotace
 Popisná analýza dat je po vizualizaci dat dalším krokem v
procesu statistického hodnocení. Poskytuje představu o
rozsazích hodnocených dat a umožňuje vyhodnotit,
srovnámí s literárními údaji nebo dosavadní zkušeností,
jejich realističnost.
 Již při výběru vhodné popisné statistiky se uplatňuje
znalost rozložení dat. Některé popisné statistiky, odvozené
od modelových rozložení, je možné využít pouze v
případě, že data mají dané modelové rozložení. Typickým
příkladem je průměr a směrodatná odchylka, jejichž
předpokladem je přítomnost normálního rozložení.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Typy proměnných
 Kvalitativní/kategorická
 binární - ano/ne
 nominální - A,B,C … několik kategorií
 ordinální- 1<2<3 …několik kategorií a můžeme se ptát, která je
větší
 Kvantitativní
 nespojitá – čísla, která však nemohou nabývat všech hodnot (např.
počet porodů)
 spojitá – teoreticky jsou možné všechny hodnoty (např. krevní tlak)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Řada dat a její vlastnosti
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Frekvenční rozložení
Kategorie Četnost
B 5
C 8
D 1
Kvalitativní data
Tabulka s četností jednotlivých
kategorií.
Kvantitativní data
Četnost hodnot rozložení v
jednotlivých intervalech.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Parametry rozložení
 Soubor dat (řada čísel) můžeme charakterizovat parametry jeho rozložení
 Hlavní skupiny těchto parametrů můžeme charakterizovat jako ukazatele:
 Středu (medián, průměr, geometrický průměr)
 Šířky rozložení (rozsah hodnot, rozptyl, směrodatná odchylka)
 Tvaru rozložení (skewness, kurtosis)
 Kvantily rozložení – kolik % řady dat leží nad a pod kvantilem
x0,95 x
j(x)
0,95
F(x)
Jakékoliv číslo na ose x je kvantile
95 %
j(x)
x
MediánPrůměr
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Populace a vzorek
 Populace představuje veškeré možné objekty vzorkování, např. veškeré
obyvatelstvo ČR při sledování na úrovni ČR, z populace získáme reálné
parametry rozložení
 Z populace je prováděno vzorkování za účelem získání reprezentativního
vzorku (sample) populace, toto vzorkování by mělo být náhodné, důležitá je
také velikost vzorku, ze vzorku získáme odhady parametrů rozložení
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Ukazatele středu rozložení I
 Průměr – vhodný ukazatel středu u normálního/symetrického rozložení, kde
xi jsou jednotlivé hodnoty a n jejich počet
 Medián – jde vlastně o 50% kvantil, tj. polovina hodnot leží nad a polovina
pod mediánem
 V případě symetrického rozložení jsou jejich hodnoty v podstatě shodné


n
i
i
n
x
xxE
1
)(
j(x)
Medián
x
Průměr
j(x)
x
MediánPrůměr
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Ukazatele středu rozložení II.
log
Medián, geometrický průměr
Průměr Průměr (logaritmovaných dat)
 Geometrický průměr – antilogaritmus průměru logaritmovaných dat, je
vhodný pro doleva asymetrická data (lognormální rozložení), která jsou v
biologii velmi častá, jeho hodnota v podstatě odpovídá mediánu
 Takto asymetrická data je možné převést logaritmickou transformací na
normální rozložení
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Ukazatele šířky rozložení
 Rozptyl je ukazatelem šířky rozložení získaný na základě odchylky
jednotlivých hodnot od průměru.
 Obdobně jako u průměru je jeho vypovídací schopnost nejvyšší v
případě symetrického/normálního rozložení
 Směrodatná odchylka je druhá odmocnina z rozptylu
 Koeficient variance - podíl SD ku průměru (u normálního rozložení
by se 95% hodnot mělo vejít do průměr 3 SD), pokud je SD větší
než 1/3 průměru jsou teoreticky pravděpodobné záporné hodnoty
v rozložení – ukazatel problémů s normalitou dat
1-n
)(x 2
i2  

x
s
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Ukazatele tvaru rozložení
 Skewness – ukazatel „šikmosti“ rozložení, asymetrie rozložení
 Kurtosis – ukazatel „špičatosti/plochosti“ rozložení
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Další parametry rozložení
 Počet hodnot – důležitý ukazatel, znamená jak moc lze na data spoléhat
 Střední chyba odhadu průměru - je založena na směrodatné odchylce
rozložení a počtu hodnot, vlastně jde o směrodatnou odchylku rozložení
průměru. Říká jak přesný je náš výpočet průměru. Čím větší počet hodnot
rozložení, tím je náš odhad skutečného průměru přesnější.
 Suma hodnot
 Modus – nejčastější hodnota, vhodný např. při kategoriálních datech
 Minimum, maximum
 Rozsah hodnot
 Harmonický průměr - převrácená hodnota průměru převrácených hodnot
(vždy platí harmonický průměr < geometrický průměr < aritmetický průměr)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Bodové a intervalové odhady
Význam intervalu spolehlivosti
VIII. Provádění odhadů
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Anotace
 Dva základní přístupy statistického hodnocení jsou popis
dat a testování hypotéz. Při popisu dat je třeba si
uvědomit, že popisné statistiky získané ze vzorku nejsou
skutečnou hodnotou v cílové populaci, ale pouze jejím
odhadem. Přesnost odhadu závisí jednak na variabilitě
dat, jednak na velikosti vzorku, při navzorkování celé
cílové populace by výsledná popisná statistika již byla
přesnou hodnotou, nikoliv odhadem.
 Odhady a s nimy související intervaly spolehlivosti jsou
univerzálním statistickým postupem a je možné je
dopočítat k libovolné popisné statistice.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Statistika v průzkumném studiu
Provádění odhadů Testy hypotéz
Cílová
populace
Vzorek
Ověření
Výsledek
POPIS OTÁZKY
Závěr ?
Interpretace
Závěr ? Reprezentativnost
?
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
INTERVAL SPOLEHLIVOSTI
velmi užitečná míra věrohodnosti odhadů
P (L1 < Odhad < L2)  1 - a/2Obecný tvar:
Odhadovaný
parametr
Kvantil
modelového
rozložení
± ×
KV pro (1 - a/2)
Intervalové
ODHADY
Interval pravděpodobných hodnot
Spolehlivost
Bodové
Číslo (chyba)
(Odhad parametru)
(Pravděpodobnostní interpretace)
SE (odhadu)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
NORMÁLNÍ ROZLOŽENÍ:
model pro odhad průměru
Cílová
populace
Vzorek: n
j(x)
Xµ
X ...... odhad průměru
n;`x; s
n;`x;
s
n
n;`x; c
n;`x; Interval
spolehlivost
i pro odhad
průměru
Prezentace
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
NORMÁLNÍ ROZLOŽENÍ:
odhad průměru je rovněž normálně rozložen
`X
Náhodné výběry o n = 100
Cílová
populace
X: j(x)
Xµ
`X1 `X2 `X3 `X4 .... `Xi
µ
µ ± 3 . s
n
s
n
~
Standardní chyba
odhadu průměru
znak x
x: m ± 3s
průměr x
)(xj
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
ODHAD PRŮMĚRU: Vztahy
Bodový
Intervalový






n
s
x;
   
n
s
tx
n
s
tx nn
 



1
2
1
1
2
1

a

a m
 
n
s
tx n
 

1
2
1
: 
am
 
x
n
stx  

1
2
1
: 
am
t ... příslušný kvantil Studentova
rozložení
1 - a ... spolehlivost hodnoceného
intervalu
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Interval spolehlivosti odhadu průměru je pouze
informací o přesnosti tohoto odhadu
Interval spolehlivosti je hodnocen pro (1 - a) procentní spolehlivost
Výběrové populace
Cílová
populace
Šířku intervalu určuje:
a) velikost vzorku
b) rozptyl (variabilita) vzorku
c) požadovaná spolehlivost
j(x)
-3s +3sµ
Původní proměnná x
j(x)
Výběr n=10 pro
odhad průměru
j(x)
Výběr n=100 pro
odhad průměru
µ µ
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
ODHAD PRŮMĚRU: Příklad
X: Cena výrobku v n = 21 obchodech
Data:
95% Interval spolehlivosti:
t1-a/2 = t 0,975 = 2,086
(u = n-1)
3,423  µ  3,737
P (3,423  µ  3,737)  0,95
(20)
x
sx .086,2: m
12,0;58,3;21 2
 sxn
075,02112,0 x
s
075,0.086,258,3075,0.086,258,3  m
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Interval spolehlivosti pro odhad rozptylu
Interval spolehlivosti
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 1
21
2
2
1
2
2
2
1
21
2
2
1
2
2
2
1
21
2
2
2
1
2
2
2
2
11
:nproc)
11
:prob)
11
:proa)


















nn
nn
nn
n
sn
nn
sn
snsn
snsn
aa
aa
aa
c
s
c
s
c
s
c
s
c
s
c
s
-směrodatná odchylka
odhadu průměru (S.E.)
ns
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Linie 1
n = 50
s2(x) = 10 (mg/ml)2
s(x) = 3,16 mg/ml
x = 2 mg/ml
sx = 0,447 mg/ml
Interval spolehlivosti pro odhad rozptylu: příklad
Příklad: měření produkce metabolitu (x) u buněk dvou nádorových linií
Linie 1
n = 100
s2(x) = 16 (mg/ml)2
s(x) = 4 mg/ml
x = 2,8 mg/ml
sx = 0,4 mg/ml
36,73
16992
42,128
1699 


s
c = 1,43
95% IS
c = 1,58
56,31
10492
22,77
1049 


s
95% IS
53,1598,6 2
s 49,1333,12 2
s
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Výpočet mediánu z frekvenčních dat a jeho
odhady
a) Určete medián tohoto souboru dat: 1,3,4,5,7,8 [4,5]
b) Určete medián tohoto souboru dat: 5,1,8,3,4 [4]
Frekvence zastoupení dosahuje nejvyšší hodnoty u třídy od 40,5 – 60,5 dnů.
Druhý (menší) frekvenční pík lze pozorovat u intervalu od 100,5 do 120,5 dní.
Existence dvou maxim (bimodální data) je důkazem nenormality tohoto
konkrétního souboru.
Class limits
(days)
0,5-
20,5
20,5-
40,5
40,5-
60,5
60,5-
80,5
80,5-
100,5
100,5-
120,5
120,5-
140,5
140,5-
160,5
160,5-
180,5
180,5-
200,5
200,5-
220,5
Frequency 8 33 50 32 15 20 11 6 2 1 1
Cumulative
frequency
8 41 91 123 138 158 169 175 177 178 179
c) Tento příklad je ukázkou výpočtu mediánu u velkého souboru dat. V následující tabulce je
uveden rozbor rozložení souboru dat od 179 krav, kde sledovanou veličinou byl počet dní od
narození telete do znovuobnovení menstruačního cyklu. Uvedená data jsou velmi zjednodušena a
jsou zde uvedena pouze pro ilustraci:
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
kde
f
gl
XM L ,
Jelikož n =179, pak je medián devadesátá hodnota od počátku souboru, a dále je zřejmé, že bude velmi blízko horní hranici třídy
40,5 – 60,5 dní. Za předpokladu, že 50 hodnot této třídy je v ní rovnoměrně rozmístěno lze použít následující vzorec:
XL = hodnota X (sledované veličiny) na spodní hranici třídy obsahující medián: zde 40,5 dní
g = pořadová hodnota mediánu minus kumulativní frekvence do horní hranice předchozí třídy, tj. 90 - 41= 49
l = třídní interval: 20 dní
f = frekvence ve třídě obsahující medián
Dosadíme-li do uvedeného vzorce, získáme odhad mediánu jako 60 dní. Průměr tohoto datového souboru je 69,9, což je
významně odlišná hodnota, a potvrzuje znovu nenormální charakter dat.
U velkých vzorků z normálních populací je výběrový odhad mediánu normálně rozložen kolem populační hodnoty se
směrodatnou odchylkou . U normálního rozložení, kde medián i průměr představují odhad stejné hodnoty, je
medián méně přesný než průměr. Proto hlavní význam mediánu spočívá u nesymetrických distribucí.
Existuje velmi jednoduchá metoda pro výpočet intervalu spolehlivosti pro odhad mediánu a jako horní a spodní hranice slouží
pořadová čísla vypočítaná podle následujícího vztahu:
ns253,1
kde
nzn
,
22
)1(


n představuje velikost datového souboru, z je kvantil standardizovaného normálního rozložení pro příslušnou pravděpodobnost.
U našeho příkladu je n = 179 a pro 95% interval spolehlivosti je z přibližně rovno 2. Horní a spodní limit pro odhad mediánu tedy
je a 103. 95% interval spolehlivosti je tedy tvořen počty dní, které mají pořadí 77 a 103:7717990 
77: Počet dní = 40,5+(36)(20)/50 = 55 dní
103: Počet dní = 60,5+(12)(20)/32 = 68 dní
Medián cílové populace byl tedy odhadnut 95%
intervalem spolehlivosti jako hodnota ležící mezi
55 a 68 dny. Interpretujte tento výsledek.
Výpočet mediánu z frekvenčních dat a jeho
odhady
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Princip statistického testování hypotéz
Pojmy statistických testů
Normalita dat a její význam pro testování
IX. Základy testování hypotéz
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Anotace
 Testování hypotéz je po popisné statistice druhým hlavním směrem
statistických analýz. Při testování pokládáme hypotézy, které se snažíme s
určitou pravděpodobností potvrdit nebo vyvrátit.
 Tzv. nulovou hypotézu lze nejlépe popsat jako situaci, kdy předpokládáme vliv
náhody (rozdíl mezi skupinami je pouhá náhoda, vztah dvou proměnných je
pouhá náhoda apod.), alternativní hypotéza předpokládá vliv nenáhodného
faktoru.
 Výsledkem statistického testu je v zásadě pravděpodobnost nakolik je
hodnocený jev náhodný nebo ne, při překročení určité hranice (nejčastěji
méně než 5% pravděpodobnost, že jev je pouhá náhoda) deklarujeme, že
pravděpodobnost náhody je pro nás dostatečně nízká abychom jev prohlásili
za nenáhodný
 Statistická významnost je ovlivnitelná velikostí vzorku a tak je pouze indicií k
prohlášení např. rozdílu dvou skupin pacientů za skutečně významný. V ideální
situaci je nezbytné aby rozdíl byl významný nejenom statisticky (=nenáhodný),
ale i prakticky (=nejde pouze o artefakt velikosti vzorku).
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Statistika v průzkumném studiu
Provádění odhadů Testy hypotéz
Cílová
populace
Vzorek
Ověření
Výsledek
POPIS OTÁZKY
Závěr ?
Interpretace
Závěr ? Reprezentativnost
?
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Princip testování hypotéz
Cílová
populace
Vzorek Reprezentativnost ?
Závěr ?
Interpretace
 Formulace hypotézy
 Výběr cílové populace a z ní reprezentativního vzorku
 Měření sledovaných parametrů
 Použití odpovídajícího testu závěr testu
 Interpretace výsledků
Měření parametrů
Testy hypotéz
?
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Statistické testování – základní pojmy
Nulová hypotéza HO
Alternativní hypotéza HA
Testová statistika
Kritický obor testové statistiky
0 T
Pozorovaná hodnota – Očekávaná hodnota
Variabilita dat
Testová statistika =
HO: sledovaný efekt je nulový
HA: sledovaný efekt je různý mezi skupinami
* Velikost vzorku
Statistické testování
odpovídá na otázku zda
je pozorovaný rozdíl
náhodný či nikoliv. K
odpovědi na otázku je
využit statistický model
– testová statistika.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Co znamená náhodný rozdíl?
Je tu rozdíl?
Jak by vypadal
rozdíl, kdyby
byl náhodný?
Nasimulujme si
ho !!! 
Léčba
Placebo
X2
X1
X2
X1
Rozdíl?
Rozdíl X2
X1
Rozdíl
….
Mnoho-
krát
Rozdíl ?
Rozložení možných
náhodných rozdílů
Kde leží skutečný
rozdíl?
Jak moc je
pravděpodobné, že
je náhodný?
0
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Možné chyby při testování hypotéz
Závěr testu
Hypotézu
nezamítáme
Hypotézu
zamítáme
β 1- β
1- α α
Skutečnost
H0
Platí
H0
Neplatí
 I přes dostatečnou velikost vzorku a kvalitní design experimentu se můžeme při
rozhodnutí o zamítnutí/nezamítnutí nulové hypotézy dopustit chyby.
Správné rozhodnutí
Správné rozhodnutí
Chyba II. druhu
Chyba I. druhu
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Význam chyb při testování hypotéz
Pravděpodobnost chyby 1. druhu
a Pravděpodobnost nesprávného
zamítnutí nulové hypotézy
Pravděpodobnost chyby 2. druhu
b Pravděpodobnost nerozpoznání
neplatné nulové hypotézy
Síla testu
1-b
Pravděpodobnostně vyjádřená
schopnost rozpoznat neplatnost
hypotézy
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Parametrické vs. neparametrické testy
Parametrické testy
Neparametrické testy
• Mají předpoklady o rozložení vstupujících dat (např. normální rozložení)
• Při stejném N a dodržení předpokladů mají vyšší sílu testu než testy
neparametrické
• Pokud nejsou dodrženy předpoklady parametrických testů, potom jejich
síla testu prudce klesá a výsledek testu může být zcela chybný a
nesmyslný
• Nemají předpoklady o rozložení vstupujících dat, lze je tedy použít i při
asymetrickém rozložení, odlehlých hodnotách, či nedetekovatelném
rozložení
• Snížená síla těchto testů je způsobena redukcí informační hodnoty
původních dat, kdy neparametrické testy nevyužívají původní hodnoty,
ale nejčastěji pouze jejich pořadí
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
One-sample vs. two sample testy
One – sample testy
Two – sample testy
• Srovnávají jeden vzorek (one sample, jednovýběrové testy) s referenční
hodnotou (popřípadě se statistickým parametrem cílové populace)
• V testu je tedy srovnáváno rozložení hodnot (vzorek) s jediným číslem
(referenční hodnota, hodnota cílové populace)
• Otázka položená v testu může být vztažena k průměru, rozptylu, podílu
hodnot i dalším statistickým parametrům popisujícím vzorek
• Srovnávají navzájem dva vzorky (two sample, dvouvýběrové vzorky)
• V testu jsou srovnávány dvě rozložení hodnot
• Otázka položená v testu může být opět vztažena k průměru, rozptylu,
podílu hodnot i dalším statistickým parametrům popisujícím vzorek
• Kromě testů pro dvě skupiny hodnot existují samozřejmě i testy pro více
skupin dat
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
One-tailed vs. Two-tailed testy
One – tailed testy
Two – tailed testy
• Hypotéza testu je postavena asymetricky,
tedy ptáme se na větší než/ menší než
• Test může mít pouze dvojí výstup – jedna
z hodnot je větší (menší) než druhá a
všechny ostatní případy
• Hypotéza testu se ptá na otázku rovná
se/nerovná se
• Test může mít trojí výstup – menší - rovná
se – větší než
• Situace nerovná se je tedy souhrnem dvou
možných výstupů testu (menší+větší)
Kritický obor
Kritický obor
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Nepárový vs. párový design
Nepárový design
Párový design
• Skupiny srovnávaných dat jsou na sobě zcela
nezávislé (též nezávislý, independent
design), např. lidé z různých zemí, nezávislé
skupiny pacientů s odlišnou léčbou atd.
• Při výpočtu je nezbytné brát v úvahu
charakteristiky obou skupin dat
• Mezi objekty v srovnávaných skupinách
existuje vazba, daná např. člověkem před a
po operaci, reakce stejného kmene krys atd.
• Vazba může být buď přímo dána nebo pouze
předpokládána (v tom případě je nutné ji
ověřit)
• Test je v podstatě prováděn na diferencích
skupin, nikoliv na jejich původních datech
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Statistické testy a normalita dat
 Normalita dat je jedním z předpokladů tzv. parametrických testů (testů založených na
předpokladu nějakého rozložení) – např. t-testy
 Pokud data nejsou normální, neodpovídají ani modelovému rozložení, které je použito pro
výpočet (t-rozložení) a test tak může lhát
 Řešením je tedy:
 Transformace dat za účelem dosažení normality jejich rozložení
 Neparametrické testy – tyto testy nemají žádné předpoklady o rozložení dat
Typ srovnání Parametrický test Neparametrický test
2 skupiny dat nepárově: Nepárový t-test Mann Whitney test
2 skupiny dat párově: Párový t-test Wilcoxon test, sign test
Více skupin nepárově: ANOVA Kruskal- Wallis test
Korelace: Pearsonův koeficient Spearmanův koeficient
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Testy normality
 Testy normality pracují s nulovou hypotézou, že není rozdíl mezi zpracovávaným rozložením a normálním
rozložením. Vždy je ovšem dobré prohlédnout si i histogram, protože některé odchylky od normality, např.
bimodalitu některé testy neodhalí.
145 155 165 175 185 195 205 215
0
50
100
150
200
250
•Test dobré shody
V testu dobré shody jsou data rozdělena do kategorií (obdobně jako při tvorbě
histogramu), tyto intervaly jsou normalizovány (převedeny na normální rozložení)
a podle obecných vzorců normálního rozložení jsou k nim dopočítány očekávané
hodnoty v intervalech, pokud by rozložení bylo normální. Pozorované
normalizované četnosti jsou poté srovnány s očekávanými četnostmi pomocí c2
testu dobré shody. Test dává dobré výsledky, ale je náročný na n, tedy množství
dat, aby bylo možné vytvořit dostatečný počet tříd hodnot.
•Kolgomorov Smirnov test
Tento test je často používán, dokáže dobře najít odlehlé hodnoty, ale počítá spíše
se symetrií hodnot než přímo s normalitou. Jde o neparametrický test pro
srovnání rozdílu dvou rozložení. Je založen na zjištění rozdílu mezi reálným
kumulativním rozložením (vzorek) a teoretickým kumulativním rozložením. Měl by
být počítán pouze v případě, že známe průměr a směrodatnou odchylku
hypotetického rozložení, pokud tyto hodnoty neznáme, měla by být použita jeho
modifikace – Lilieforsův test.
•Shapiro-Wilk`s test
Jde o neparametrický test použitelný i při velmi malých n (10) s dobrou sílou
testu, zvláště ve srovnání s alternativními typy testů, je zaměřen na testování
symetrie.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Šikmost a špičatost jako testy normality
 Parametry normálního rozložení, skewness a kurtosis mohou být využity pro
testování normality, ale pouze pro velké vzorky (šikmost – 100, špičatost – 500).
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Rootgram Rootgram
deviation
deviation
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0 10 20 305 15
Pb
25
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
2.5
0 20 8040
Zn
60
Grafická diagnostika normality
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Hanging Histobars. Hanging Histobars.
frekvence
frekvence
0
-0, 05
0
0,1
-0,1
0,2
-50 10 20
Pb
30
0,05
0,15
0
-0,28
-0,8
0,12
-0,48
0,32
-50 -10 10 30
Zn
50 70 90
Grafická diagnostika normality
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Cumulativepercent
Cumulativepercent
Normal Probability Plot Normal Probability Plot
5
20
80
1
99
50
95
0,1
0 20 40
Zn
60
99,9
80
5
20
80
1
99
50
95
0,1
0 10 20
Pb
305 15 25
99,9
Grafická diagnostika normality
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
0,1
0,15
0,05
0,2
0,25
0 10 20
Pb
25
0,3
305 15
0,2
0,4
0,6
0 20 40
Zn
60
0,8
80
Frequency Histogram Frequency Histogram
Frequency
Frequency
Grafická diagnostika normality
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Jednovýběrový t-test
Jednovýběrový test rozptylu
X. Statistické testy o
parametrech jednoho výběrů
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Anotace
 Jednovýběrové statistické testy srovnávají některou
popisnou statistiku vzorku (průměr, směrodatnou
odchylku) s jediným číslem, jehož význam je ze statistické
hlediska hodnota cílové populace
 Z hlediska statistické teorie jde o ověření, zda daný vzorek
pochází z testované cílové populace.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
“One sample“ testy I
H0 HA Testová statistika Interval spolehlivosti
t t > t
t t < t
t |t| > t
Průměr – cílová vs. výběrová populace
n
s
μx
t


(n-1)
1-α
(n-1)
α
(n-1)
1-α/2
mx
mx
mx mx
mx
mx
V případě one sample testů jde o srovnání výběru dat (tedy one sample) s cílovou
populací. Pro parametrické testy musí mít datový soubor normální rozložení.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
“One sample“ testy II
Rozptyl – cílová vs. výběrová populace
H0 HA Testová statistika Interval spolehlivosti
2
2
2
σ
1).s(n
χ


2
χ
2
χ
2
χ
2
-1
2
χχ a
22
χχ a
2
/2
2
χχ a
2
2/-1
2
χχ a
(n-1)
nebo
(n-1)
22
ss
22
ss
22
ss 22
ss
22
ss
22
ss
V případě one sample testů jde o srovnání výběru dat (tedy one sample) s cílovou
populací. Pro parametrické testy musí mít datový soubor normální rozložení.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Srovnání odhadu průměru s předpokládanou
hodnotou I
Koncentrace antibiotika v cílovém orgánu
Při 1000 měřeních antibiotika byla zjištěna v cílovém orgánu
průměrná koncentrace 202,5 jednotek a směrodatná
odchylka 44 jednotek.
Požadovaná koncentrace antibiotika je 200 jednotek.
1) Je daný rozdíl 2,5 významný vzhledem k variabilitě znaku
na hladině významnosti 5%?
2) Jaká je skutečná hladina významnosti?
797,11000
44
5,2


 n
s
x
t
m
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Srovnání odhadu průměru s předpokládanou
hodnotou II
Aktivita enzymu v buňkách
Při zjišťování aktivity enzymu v buňkách na vzorku 25 měření byl zjištěn průměr 3,5 jednotek a
směrodatná odchylka 1.
1. otázka zní, zda se naměřené hodnoty našeho vzorku liší od výsledků dřívější rozsáhlé studie
zaměřené na celou cílovou populaci, kde byla zjištěna průměrná aktivita 2,5 jednotky?
H0: x=m tedy two tailed test 525
1
5,25,3




 n
s
x
t
m
064,224
975,0 t 24
2/1 a tt H0 zamítnuta při a0,05
2. otázka – jakou minimální odchylku X od jiné hodnoty bychom zachytili při daných hodnotách?
od jiné hodnoty bychom zachytili při daných hodnotách?
n
s
d
n
s
x
t 


m
 s
n
t
d

a 2/1
  1
5
064,2
d
3. za předpokladu, že z praktického hlediska je významná odchylka již 0,2 jednotky, jaký minimální
počet měření musíme provést, abychom ji byli schopni prokázat ?
n
s
d
n
s
x
t 


m

2
2/1






 
s
d
t
n

a
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Dvouvýběrový párový a nepárový t-test
Neparametrické alternativy t-testu
XI. Statistické testy o
parametrech dvou výběrů
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Anotace
 Jedním z nejčastějších úkolů statistické analýzy dat je
srovnání spojitých dat ve dvou skupinách pacientů. Na
výběr je celá škála testů, výběr konkrétního testu se pak
odvíjí od toho, zda je o srovnání párové nebo nepárové a
zda je vhodné použít test parametrický (má předpoklady o
rozložení dat) nebo neparametrický (nemá předpoklady o
rozložení dat, nicméně má nižší vypovídací sílu).
 Nejznámějšími testy z této skupiny jsou tzv. t-testy
používané pro srovnání průměrů dvou skupin hodnot
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Dvouvýběrové testy: párové a nepárové I
 Při použití two sample testů srovnáváme spolu dvě rozložení. Jejich
základním dělením je podle designu experimentu na testy párové a
nepárové.
 Základním testem pro srovnání dvou
nezávislých rozložení spojitých čísel
je nepárový two-sample t-test
 Základním testem pro srovnání dvou
závislých rozložení spojitých čísel je
párový two-sample t-test
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Dvouvýběrové testy: párové a nepárové II
Data
Nezávislé uspořádání
Párové uspořádání
……….
……….
……….
X1 X2
X1- X2 = D
……….
……….
X1 X2
Design uspořádání
zásadně ovlivňuje interpretaci parametrů
2
Ds
D
n
0D:H0 
(n = n2 = n1)
210 μμ:H 
2
1
2
1
s
x
n
2
2
2
2
s
x
n
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Identifikace párovitosti (Korelace, Kovariance)
……….
……….
X1 X2
X1
X2
X1
X2
r = 0,954
(p < 0,001)
r = 0,218
(p < 0,812)
Dvouvýběrové testy: párové a nepárové III
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Předpoklady nepárového dvouvýběrového
t-testu
 Náhodný výběr subjektů jednotlivých skupin z jejich cílových populací
 Nezávislost obou srovnávaných vzorků
 Přibližně normální rozložení proměnné ve vzorcích, drobné odchylky od normality ovšem
nejsou kritické, test je robustní proti drobným odchylkám od tohoto předpokladu, normalita
může být testována testy normality
 Rozptyl v obou vzorcích by měl být přibližně shodný (homoscedastic). Tento předpoklad je
testován několika možnými testy – Levenův test nebo F-test.
 Vždy je vhodné prohlédnout histogramy proměnné v jednotlivých vzorcích pro okometrické
srovnání a ověření předpokladů normality a homogenity rozptylu – nenahradí statistické
testy, ale poskytne prvotní představu.
0
j(x)
μ
| | |
•
•
| |
•
•
X
Varianta 1 Varianta 2
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Nepárový dvouvýběrový t-test – výpočet I
1. nulová hypotéza: průměry obou skupin jsou shodné, alternativní hypotéza je, že nejsou shodné,
two tailed test
2. prohlédnout průběh dat, průměr, medián apod. pro zjištění odchylek od normality a
nehomogenita rozptylu, provést F –test
F-test pro srovnání dvou výběrových
rozptylů
•Používá se pro srovnání rozptylu
dvou skupin hodnot, často za
účelem ověření homogenity
rozptylu těchto skupin dat.
• V případě ověření homogenity je testována hypotéza shody rozptylů (two tailed); v případě
shodných rozptylů je vše v pořádku a je možné pokračovat ve výpočtu t-testu, v opačném případě
není vhodné test počítat.
H0 HA Testová statistika
2
2
2
1 ss 
2
2
2
1 ss  2
2
2
1 ss 
2
2
2
1 ss 
2
2
2
1 ss  2
2
2
1 ss 
2
2
2
1
s
s
F 
2
1
2
2
s
s
F 
 
 2
2
2
1
2
2
2
1
;min
;max
ss
ss
F 
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Nepárový dvouvýběrový t-test – výpočet II
3. Výpočet testové statistiky (stupně volnosti jsou ):
4. výsledné t srovnáme s tabulární hodnotou t pro dané stupně volnosti a a
(obvykle a=0,05)
5. Lze spočítat interval spolehlivosti pro rozdíl průměrů (např. 95%), počet
stupňů volnosti a s2 odpovídají předchozím vzorcům
   
2
11
21
2
22
2
112



nn
snsn
s
221  nn
vážený odhad
rozptylu
2
1 2 0,975 1 2 1 2 0,975
1 2
1 1
( ) ( ) ( )x x t SE x x x x t s
n n
 
       
 









21
2
21
11)(
_
nn
s
xx
ěrůrozdílprůoSE
průrůměRozdíl
t
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Dvouvýběrový t-test - příklad
Průměrná hmotnost ovcí v čase páření byla srovnávána pro kontrolní skupinu a skupinu krmenou zvýšenou dávkou potravy.
Kontrolní skupina obsahuje 30 ovcí, skupina se zvýšeným příjmem potravy pak 24 ovcí.
• Vlastní experiment byl prováděn tak, že na začátku máme 54 ovcí (ideálně stejného plemene, stejně staré atd.), které náhodně
rozdělíme do dvou skupin (náhodné rozdělování objektů do pokusných skupin je objektem celého specializovaného odvětví statistiky
nazývaného randomizace). Poté co experiment proběhne, musíme nejprve ověřit teoretický předpoklad pro využití nepárového t-testu.
Pro obě proměnné jsou vykresleny grafy (můžeme též spočítat základní popisnou statistiku), na kterých můžeme posoudit normalitu a
homogenitu rozptylu, kromě okometrického pohledu můžeme pro ověření normality použít testy normality, pro ověření homogenity
rozptylu pak F-test
• Pokud platí všechny předpoklady Two sample nepárového t-testu, můžeme spočítat testovou charakteristiku, výsledné t je 2,43 s 52
stupni volnosti, podle tabulek je a t0,975 (52)= 2,01, tedy t> t0,975 (52)= a nulovou hypotézu můžeme zamítnout, skutečná pravděpodobnost
je pak 0,018. Rozdíl mezi skupinami je 1,59 kg ve prospěch skupiny s lepší výživou.
• Pro rozdíl mezi oběma soubory jsou spočítány 95% konfidenční intervaly jako 1,59±2.01*(0,655) kg, což odpovídá rozsahu 0,28 až 2,91
kg. To, že konfidenční interval nezahrnuje 0 je dalším potvrzením, že mezi skupinami je významný rozdíl – jde o další způsob testování
významnosti rozdílů mezi skupinami dat – nulovou hypotézu o tom, že rozdíl průměrů dvou skupin dat je roven nějaké hodnotě
zamítáme v případě, kdy 95% konfidenční interval rozdílu nezahrnuje tuto hodnotu (v tomto případě 0).
   
2
11
21
2
22
2
112



nn
snsn
s 221  nn
2
1 2 0,975 1 2 1 2 0,975
1 2
1 1
( ) ( ) ( )x x t SE x x x x t s
n n
 
       
 









21
2
21
11)(
_
nn
s
xx
ěrůrozdílprůoSE
průrůměRozdíl
t
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Neparametrické alternativy nepárového t-testu
X1 X2 ALL
Rank
ALL
X1
rank
X2 rank
27 25 25 5 6 5
35 29 29 7,5 11 7,5
38 31 31 9 13 9
37 23 23 4 12 4
39 18 18 2 14 2
29 17 17 1 7,5 1
41 32 32 10 15 10
19 19 3 3
27 6
35 11
38 13
37 12
39 14
29 7,5
41 15
Mann Whitney U-test
•Stejně jako řada jiných neparametrických testů počítá i
tento test s pořadím dat v souborech namísto
s originálními daty. Jde o neparametrickou obdobu
nepárového t-testu a z těchto neparametrických testů
má nejvyšší sílu testu (95% párového t-testu).
•V případě Mann-Whitney testu jsou nejprve čísla obou
souborů sloučena a je vytvořeno jejich pořadí v tomto
sloučeném souboru, pak jsou hodnoty vráceny do
původních souborů a nadále se pracuje již jen s jejich
pořadím.
•Pro oba soubory je tedy vytvořen součet pořadí a
menší z obou součtů je porovnán s kritickou hodnotou
testu, pokud je tato hodnota menší než kritická hodnota
testu, zamítáme nulovou hypotézu shody distribučních
funkcí obou skupin.
•Podobným způsobem je počítán i Wilcoxon rank sum
test (pozor, existuje ještě Wilcoxnův párový test!!!)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Mann – Whitney U test - příklad
 17 štěňat bylo trénováno v chození na záchod metodou pozitivního
posilování (pochvala, když jde na záchod venku) nebo negativního
(trest, když jde na záchod doma). Jako parametr bylo měřeno, za
kolik dní je štěně vycvičeno.
 nulová hypotéza je, že není rozdíl v metodách tréninku, tedy, že
oběma metodami je štěně vycvičeno za stejnou dobu.
 po srovnání rozložení + malý počet hodnot je vhodné použít
neparametrický test
 je vytvořeno pořadí sloučených hodnot
 pořadí hodnot v jednotlivých skupinách dat je sečteno a menší ze
součtů je použit pro srovnání s kritickou hodnotou testu
 výsledkem testu je p<a, nulovou hypotézu tedy zamítáme a
výsledkem testu je, že pozitivní působení při výcviku štěňat dává
lepší výsledky
pozitivne
negativne
30
35
40
45
50
55
60
65
70
75
80
délkavýcviku
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Párové dvouvýběrové testy – předpoklady
 Skupiny dat jsou spojeny přes objekt měření, příkladem může být měření parametrů
pacienta před léčbou a po léčbě (nemusí jít přímo o stejný objekt, dalším příkladem mohou
být např. krysy ze stejné linie).
 Oba soubory musí mít shodný počet hodnot, protože všechna měření v jednom souboru
musí být spárována s měřením v druhém souboru. Při vlastním výpočtu se potom počítá se
změnou hodnot (diferencí) subjektů v obou souborech.
 Před párovým testem je vhodné ověřit si zda existuje vazba mezi oběma skupinami –
vynesení do grafu, korelace.
Existuje několik možných designů experimentu, stručně lze sumarizovat:
1. pokus je párový a jako párový se projeví
2. párové provedení pokusu – párově se neprojeví
• možná párovost není
• špatně provedený pokus – malé n, velká variabilita, špatný výběr jedinců
3. čekali jsme nezávislé a jsou
4. čekali jsem nezávislé a nejsou
• vazba
• náhoda
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Párový dvouvýběrový t-test
 Tento test nemá žádné předpoklady o rozložení vstupních dat, protože je počítán až na základě jejich diferencí.
 Tyto diference by měly být normálně rozloženy a otázkou v párovém t-testu je, zda se průměrná hodnota diferencí
rovná nějakému číslu, typicky jde o srovnání s nulou jako důkaz neexistence změny mezi oběma spárovanými
skupinami.
 V podstatě jde o one sample t-test, kde místo rozdílu průměru vzorku a cílové populace je uveden průměr diferencí
a srovnávané číslo (0 v případě otázky, zda není rozdíl mezi vzorky).
 Pro srovnání s 0 (testovou statistikou je t rozložení):
 Někdy je obtížné rozhodnout, zda jde nebo nejde o párové uspořádání, párový test by měl být použit pouze v
případě, že můžeme potvrdit vazbu (korelace, vynesení do grafu), jedním z důvodů proč toto ověřovat je fakt, že v
případě párového t-testu není nutné brát ohled na variabilitu původních dvou souborů, tento předpoklad však platí
pouze v případě vazby mezi proměnnými. Výpočet obou typů testů se vlastně liší v použité s, jednou jde o s
diferencí, v druhém případě o složený odhad rozptylu obou souborů.
 Zda je párové uspořádání efektivnější lze určit na základě:
 Síly vazby
 Je-li sD výrazně menší než sx1-x2
 Závislost je možné rozepsat pomocí vzorce:
 v případě Cov=0, tedy v případě neexistence vazby pak sD
2 odpovídá součtu původních rozptylů, tedy přibližně Sx1-x2.
D
t n
s
 1n  
1 2
2 2 2
1 22 ( ; )D x xs Cov x xs s  
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Párový dvouvýběrový t-test – příklad
Byl prováděn pokus s dietou 11 diabetických psů, každý pes byl vystaven dvěma dietám s odlišným typem sacharidů
(snadno vstřebatelné X pozvolna se rozkládající na glukózu), hodnoty krevní glukózy v průběhu jednotlivých diet
mají být srovnány pro zjištění vlivu diety na hladinu krevní glukózy. Protože každý pes absolvoval obě diety, jde o
párové uspořádání, kdy výsledky hodnoty v obou pokusech jsou spojeny přes pokusné zvíře.
pes1
pes2
pes3
pes4
pes5
pes6
pes7
pes8
pes9
pes10
pes11
low high
4
6
8
10
12
14
16
18
20
22
24
1. Nulová hypotéza zní, že skutečný průměrný rozdíl mezi oběma dietami je 0, alternativní
hypotéza zní, že to není 0.
2. Pro každého psa je spočítán rozdíl mezi jeho hladinou glukózy při obou dietách a měly by
být ověřeny předpoklady pro one sample t-test – tedy alespoň přibližně normální rozložení.
3. Je spočítána testová charakteristika, výpočet vlastně probíhá jako one-sample t-test, kde je
zjišťována významnost průměru diferencí obou souborů jako rozdíl mezi touto hodnotou a
nulou (nula je hodnota, kterou by průměrná diference měla nabývat, pokud platí nulová
hypotéza). T=4.37 s 10 stupni volnosti, skutečná hodnota p=0,0014 a tedy na hladině
p=0,05 můžeme nulovou hypotézu zamítnou
4. Závěrem můžeme říci, že nulová hypotéza neexistence rozdílu mezi oběma dietami byla
zamítnuta, což znamená, že high-fibre dieta má významný vliv na snížení hladiny krevní
glukózy.
_ _ _ _
( )
rozdíl průměru vzorku a populace x x
t n
sSE průměru s
n
m m 
  
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Neparametrická obdoba párového t-testu
Wilcoxon test
 Jsou vytvořeny diference mezi soubory, je vytvořeno jejich pořadí bez ohledu na znaménko a poté
je sečteno pořadí kladných a pořadí záporných rozdílů. Menší z těchto dvou hodnot je srovnána
s kritickou hodnotou testu a pokud je menší než kritická hodnota testu, pak zamítáme hypotézu
shody obou souborů hodnot. Pro test existuje aproximace na normální rozložení, ale pouze pro
velká n>25.
Před
zásahem
Po
zásahu
Změna
Absolutní
pořadí
6 2 4 10
2,5 3 -0,5 1,5
6,3 5 1,3 6
8,1 9 -0,9 5
1,5 2 -0,5 1,5
3,4 4 -0,6 3
2,5 1 1,5 8
1,11 2 0,89 4
2,6 4 -1,4 7
1 3 -2 9
 
  
1
_ _
4
1 2 1
24
n n
Menší suma diferencí
t
n n n



 
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Wilcoxonův test – příklad I
člověk A B diference pořadí
1 142 138 4 4,5
2 140 136 4 4,5
3 144 147 -3 3
4 144 139 5 7
5 142 143 -1 1
6 146 141 5 7
7 149 143 6 9,5
8 150 145 5 7
9 142 136 6 9,5
10 148 146 2 2
A…….parametr krve před podáním léku
B…….parametr krve po podání léku
W+ ……  pořadí kladných rozdílů = 51
W- …… = 4
W = min(W+;W-) = 4
počet párů = n = 10
Pokud je W menší než kritická hodnota testu, pak zamítáme hypotézu shody distribučních funkcí obou skupin.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Wilcoxonův test – příklad II
Byla testována nová dieta pro laboratorní krysy, při pokusu byl zjišťován její vliv na
různých liniích krys, bylo proto zvoleno párové uspořádání kdy krysy v obou
dietách jsou spojeny přes svoji linii, tj. na začátku byly dvojice krys stejné linie,
jedna z nich byla náhodně přiřazena k dietě, druhá z dvojice pak do druhé diety.
1. nulová hypotéza je, že váha krys není ovlivněna použitou dietou, alternativní, že
ovlivnění dietou existuje
2. spočítáme diference – tyto diference jsou nenormální a proto je vhodné využít
neparametrický test
3. Spočítáme sumu pořadí kladných a záporných diferencí, zde je menší suma
záporných diferencí – 31
4. výsledkem výpočtu je p>0,05 a tedy nemáme dostatečné důkazy pro zamítnutí
nulové hypotézy, nelze říci, že by nová dieta byla efektivnější než stará
5. pro doplnění výsledků je vhodné zjistit také skutečnou velikost rozdílu hmotností
ve skupinách, např. ve formě mediánu
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Znaménkový test – příklad I
Párově uspořádaný experiment pro nominální data
I. Dva preparáty, každý na ½ listu
- sledovaná veličina: počet skvrn (hodnoceno pouze jako rozdíl)
Počet skvrn
A V V M V V M M V V V
B M M V M M V V M M M
V – větší; M – menší
n = 10 listů s rozdílnými výsledky
A je větší: + n+ = 7
jev
B je menší: - n- = 3
min(n+; n-) = 3
II. dvě protilátky z různých zdrojů (A;B)
– aplikované na vzorek s antigenem
n = 10
A + + - + - + - + + B
- - + - + + - - + n
– nenulových rozdílů: 6 A: n+ = 4
A: n- = 2
min(n+; n-) = 2
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Znaménkový test – příklady II
 Na konferenci veterinářů bylo předneseno,že průměrný čas konzultace je 12
minut. Následovala debata, zda je lepší použít medián nebo průměr. Jeden z nich
se rozhodl ověřit teorii, že průměrná konzultace trvá 12 minut na vlastní praxi a
zaznamenal si trvání svých 43 konzultací. K otestování hypotézy, že podíl konzultací
kratších a delších než 12 minut použil znaménkový test.
Délka
konzultace
Počet
<12 22
12 6
>12 15
Celkem 43
Další výpočet probíhá obdobně jako v případě
klasického znaménkového testu na diferencích
dvou skupin dat.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Dvouvýběrové testy: schéma analýzy
Nezávislé uspořádání
neparametrické
testy
testy:
ANO
NE
ANO t-test
nezávislý
aproximace
Man - Whitney
Mediánový test
normalit
a
?
homogenita
rozptylu
?
NE
transformace
NE
c2 test
Kolmogorov-Smirnov test
Shapiro-Wilks test
F-test
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Dvouvýběrové testy: schéma analýzy
Párové uspořádání
neparametrické
testy
testy:
ANODiference
D
t-test
párový
Znaménkový
test
Wilcoxonův test
normalita
?
NE
transformace
NE
c2 test
Kolmogorov-Smirnov test
Shapiro-Wilks test
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Popis binomického rozložení
Testování hypotéz binomicky rozložených dat
XII. Binomické rozložení
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Anotace
 Kromě spojitých dat se setkáváme také s daty
kategoriálními, jejichž nejjednodušším případem jsou data
binární. Binární data jsou popsána binomickým
rozložením, od chování binomického rozložení je
odvozena popisná statistika binárních dat (procento
výskytu jevu), její interval spolehlivosti a binomické testy
pro srovnání procentuálního výskytů jevů v různých
skupinách.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
(x) =  pro X = 1
(x) = 1 -  pro X = 0
(x) = 0 jinak
X = 1 ......jev
0 1 X

1-
Alternativní rozložení
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
X ..... celkový počet nastání jevu v n nezávislých
pokusech
E(x)= n . 
D(x)= n .  (1-)
 ~ p jediný parametr distribuce
určuje tvar distribuce
 = 0,5  = 0,1
Binomické rozložení
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
n
rp 
p ~ π .. jediný parametr
binomického rozložení
p .... relativní četnost nastání jevu
p .......… určuje tvar distribuce
n ..... počet nezávislých opakování
(dotazů)
X ..... počet lidí s jistým symptomem
r znamená celkový počet nastání
jevu v n nezávislých experimentech
r : 0 …… n
X X
5,0 2,0
Binomická proměnná X
Binomické rozložení jako model pro zkoumání
výskytu sledovaného jevu
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Jev: narození chlapce П = 0,5
n : rodina s 5 dětmi
r: 0,1,2,3,4,5 chlapců
    
 
 rnrrnr
qp
!rn!r
!n
p1p
r
n
rP 









r = 0 :
r = 1 :
r = 2: P(r) = 0,3125
r = 3: P(r) = 0,3125
r = 4: P(r) = 0,15625
r = 5: P(r) = 0,031
 
    031,05,05,0
!5!0
!5 50

 
    15625,05,05,0
!4!1
!5 41

X: Binomická proměnná
Střed rozložení:
Rozptyl:
Příklad: n = 100 respondentů
r = 20 má symptom
je střed rozložení
a nejpravděpodobnější
…..hodnota
  pnx E
  )1(D ppnx 
  20E  pnx
Binomické rozložení jako model
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
 
 
 rnr
qp
!rn!r
!n
rxP 


 q = 1 - p
n = 10
p = 0,3
n = 30
p = 0,3
n = 100
p = 0,3
0
0,05
0,1
0,15
0,2
0,25
0,3
0 1 2 3 4 5 6 7 8 9 10
n = 50
p = 0,1
n = 50
p = 0,5
n = 50
p = 0,9
0
0,05
0,1
0,15
0,2
0,25
0,3
0 5 10 15 20 25 30
0
0,05
0,1
0,15
0,2
0,25
0,3
0 10 20 30 40 50 60 70 80 90 100
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0,16
0,18
0,2
0 5 10 15 20 25 30 35 40 45 50
0
0,02
0,04
0,06
0,08
0,1
0,12
0 5 10 15 20 25 30 35 40 45 50
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0,16
0,18
0,2
0 5 10 15 20 25 30 35 40 45 50
Binomické rozložení jako model
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0,16
B
not B
B
not B
B
B
not B
not B
0,0064
0,0736
0,0736
0,8464
2
1
1
0
Number in
blood group B
Probability
Binomial distribution of
number of people out
of two in blood group B
Number: blood group B in 2 cases
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
0 1 2
Probability
Výskyt krevní skupiny B v určité populaci: p = 0,08
0
0,1
0,2
0,3
0,4
0,5
0 1 2 3 4 5 6 7 8 9 10
Binomial distribution
showing the number of
subjects out of ten in
blood group B based on
the probability of being in
in blood group B of 0,08.
Number of subjects
Probability
Binomial distribution
showing the number of
subjects out of 100 in
blood group B based on
the probability of being in
in blood group B of 0,08.
Number of subjects
Probability
Aplikace binomického rozložení
0 10 20 30 40 50 60 70 80 90 100
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Aplikace binomického rozložení
Populace: 60% jedinců má zvýšenou hladinu cholesterolu
Výběr: 5 lidí
I. Kolik lidí má ve výběru vyšší hladinu cholesterolu ?
n. p = 5 . 0,6 = 3 lidé ~ E(x)
n . p (1-p) = 1,2 ~ D(x)
II. Jaká je P, že právě 3 lidé budou mít vyšší hladinu
cholesterolu ? ~ Tzn. Výběr přesně odpovídá
dané populaci ?
P(3) = ?
P(3) = 35%
Jaká je P, že většina jedinců (tedy minimálně 3) má
vyšší hladinu cholesterolu ? ~ Tzn. výběr alespoň
obecně odpovídá zkoumané populaci ?
p(x)
      346,04,06,0
5 23
3 
!3)-(5!3
!
P
P(X > 3) = P(3) + P(4) + P (5) = 0,346 + 0,259 + 0,078 = 68 %
X
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Při vícenásobném odhadu se parametr Π chová jako normálně rozložen
j(x)
p
n1;p1
n2;p2
n3;p3 0
p1 p1 p1
Π 1
p
0 Π 1
j(x)
p
0 Π 1
U malých nebo
velkých hodnot p
(Π) je však
předpoklad
normality omezen
j(x)
Odhad parametru Π binomického rozložení
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Odhad parametru Π binomického rozložení
1) Bodový
2) Intervalový – aproximace
n
rpp  ˆ;ˆ
 
1
ˆ1ˆ
;ˆ 2



n
pp
sp p
   
1
ˆ1ˆ
ˆ
1
ˆ1ˆ
ˆ
2
1
2
1





 
n
pp
Zp
n
pp
Zp aa 
 
1
1
ˆ:
2
1


 
n
pp
Zp a
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
X: % jedinců s daným znakem
n = 100 jedinců
r = 60;
Interval spolehlivosti : 95 %
Z 0,975 = 1,96
6,0ˆ p
049,0ˆ ps
049,096,16,0049,096,16,0  
697,0504,0 

  95,0697,0504,0 P
Odhad parametru Π binomického rozložení:
příklad I
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Intervalový odhad bez aproximací na normální rozložení
spodní limit intervalu
horní limit intervalu
   21;
2
1
1 
aFrnr
r
L


  rrn 2;12 21  
   
   21
21
;
2
;
2
2
1
1

a

a





Frrn
Fr
L
 
  22
212
12
21




rn
r
  a  121 LLP
Odhad parametru Π binomického rozložení
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Náhodný vzorek n = 200 jedinců.
Zjištěno pouze r = 4 jedinci bez určitého znaku.
95% interval spolehlivosti = ?
Spodní hranice Horní hranice
02,0
200
4ˆ p
   
 
 
0055,0
67,3142004
4
67,3
8422
39414200212
1
8;394
2
1
2
1







L
F
r
rn
a

  
   
 
 
 
051,0
08,2144200
08,214
08,2
392420022
1012
2
392;10
2
1
2
1








L
F
rn
r
a


Odhad parametru Π binomického rozložení:
příklad II
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Binomické rozložení v datech: vizualizace
Pravděpodobnost výskytu hodnot X
Xn1
Modelové rozložení odhadovaného parametru
П (x) j(x)
pΠ
Binární podstata původních hodnot
jev ANOn opakování
jev NE
Interval spolehlivosti pro П
I.
П
II.0
ANONE
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Liší se odhad p od předpokládané hodnoty P ?
Liší se dva nebo více odhadů p ?
Je výskyt kategorií dvou jevů nezávislý ?
Hodnocení relativního rizika z výskytu určitého
jevu v rámci skupiny lidí
- závislé odhady -
nezávislé odhady -
II.
I.
III.
IV.
Statistické testování binomických dat
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Jednovýběrový binomický test
H0 HA Testová statistika Interval spolehlivosti
p   p >  z z > z 1-a
p  p <  z z < z a
p =  p   z ½z½ > z 1-a/2
H0 HA Testová statistika Interval spolehlivosti
p   p >  p = r / n > L1
p   p <  p < L2
p =  p   L1; L2 (F a/2; F 1-a/2) p < L2 v p > L1





21
21
,,
,,
1
)1(
)1(
vv
vv
Frrn
Fr
L
a
a


21 ,,
2
)1( vv
Frnr
r
L
a
Korekce na
kontinuitu   ppn
npn
ppn
npn
Z
ˆ1ˆ
5,0ˆ
ˆ1ˆ
ˆ







Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Test  ? p
Stromy s pozměněným tvarem koruny
n = 9 000 jedinců
r = 2 250 změněných jedinců
Jak je pravděpodobná změna u až 1/3 jedinců?
 
26,18
900075,025,0
30002250
1







npp
npn
Z

a = 5 %; Z 1-a/2 = 1,96; Z 1-a = 1,645
Z > Z 1-a/2 ………zamítáme H0: p < 0,01
95 % Interval spolehlivosti … p: (0,241; 0,258)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Test  ? p
Příklad testu bez aproximace na normální rozložení
12 jedinců bylo zkoumáno pro výskyt určitého znaku,
10 jedinců znak nemělo
Jak hodně se tento výsledek liší od výsledku 6 - 6: tedy od situace, kdy
polovina jedinců znak má?
a) Využití distribuční funkce
P (r 10) = 0,01611 + 0,00393 + 0,00024 = 0,01928
H0: p = 0,5 je tedy značně nepravděpodobná
b) Pozorované překročilo horní limit 95 % intervalu
spolehlivosti pro p:
833,0
12
10ˆ p
 
 
755,0
64,216612
64,216
:5,0 2 


 Lp
r 0 1 2 3 4 5 6 7 8 9 10 11 12
P(r) 0,0002
4
0,0029
3
0,0161
1
0,0537
1
0,1208
5
0,1933
5
0,2255
9
0,1933
6
0,1208
5
0,0537
1
0,0161
1
0,0029
3
0,0002
4
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Dvouvýběrový binomický test (p1 ? p2)
   
21
1
11
ˆˆ 2
n
pp
n
pp
pp
Z





21
2211
nn
pnpn
p



   
   
21
2
121
11
ˆˆ
n
pp
n
pp
Zpp



 a
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Dvouvýběrový binomický test (p1 ? p2)
Tento příklad je ukázkou testování rozdílů mezi dvěma binomickými populacemi (tedy
srovnání dvou odhadů parametru p).
Celkem 49 pokusných myší bylo použito k testování toxického preparátu během dvouměsíční
kultivace. Následující tabulka obsahuje původní data zároveň s testem nulové hypotézy: Podíl
přežívajících jedinců je u zasažené populace stejný.
573,1
009996,0010413,0
225,0
25
)490,0()510,0(
24
)490,0()510,0(
400,0625,0





Z Z0,05(2) = t0,05(2) = 1,96
Nezamítáme H0: 0,10 < P < 0,20
287,1
143,0
420,0604,0
143,0
25
5,010
24
5,015






Z
S korekcí
na kontinuitu: Z0,05(2) = t0,05(2) = 1,96
Nezamítáme H0: 0,10 < P < 0,20
Alive Dead Total Proportion alive Proportion dead
Treated 15 9 24
Not Treated 10 15 25
Total 25 24 49
625,0ˆ1 p
400,0ˆ2 p
510,0ˆ p
375,0ˆ1 q
600,0ˆ2 q
490,0ˆ q
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Příklad I
a) Pravděpodobnost narození chlapce je asi 1/2. Máte zhodnotit výsledky průzkumu populace, která žije v silně poškozeném
životním prostředí. Průzkum se týká 1000 náhodně vybraných rodin a zjištěný podíl narozených chlapců je 0.41.
Jaké jsou vaše závěry o této populaci?
Jak se váš odhad zpřesní, když použijete vzorek n = 10 000 rodin při zachování odhadu p = 0.41?
b) Jaká je pravděpodobnost, že rodina se třemi dětmi bude mít 2 (3) chlapce?
Podrobně analyzujte problém a použijte obecného definičního vztahu pro binomické rozložení.
Použijeme jednovýběrový binomický test s nulovou hypotézou H0: p=π, hladina významnosti α=0,05
testová statistika
 
79,5
59,041,01000
5,0100041,01000
ˆ1ˆ
ˆ







ppn
npn
Z

a příslušný kvantil 96,1975,0
2
1


ZZ a
protože 975,0ZZ  nulovou hypotézu zamítáme. Chlapci se ve zkoumavé populaci nerodí s pravděpodobností 0,5.
  03,041,0016,096,141,0046,04,0
1
1
ˆ: 975,0
2
1



 
Z
n
pp
Zp ainterval spolehlivosti
pokud použijeme n=10 000, bude int. spolehlivosti užší
  01,041,0005,096,141,0
1
1
ˆ:
2
1



 
n
pp
Zp a
n = 3
r = 2
p=0,5 (stejná pravděpodobnost narození
chlapce jako narození dívky)
    
 
 
   
 
 
375,05,05,0
!1!2
!3
5,05,0
2
3
2P
qp
!rn!r
!n
p1p
r
n
rP
1212
rnrrnr















 
pravděpodobnost narození
2 chlapců v rodině se třemi
dětmi je 0,375
r = 3 platí   125,05,05,015,05,0
3
3
3P 0303







pravděpodobnost narození 3 chlapců
v rodině se třemi dětmi je 0,125
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Příklad II
Předpokládá se, že lidé trpící určitou krevní chorobou mají abnormální jeden z chromozómů. S cílem
odhadnout podíl takto postižených chromozómů bylo studováno 5 buněk od každého ze 120 pacientů a byl
zjišťován počet buněk s postiženým chromozómem (tento počet = sledovaný jev = r). Výsledky jsou
uvedeny v následující tabulce. Odhadněte podíl postižených chromozómů u populace nemocných lidí.
r(četnost jevu) 0 1 2 3 4 5 celkem
f(poč. pacientů) 6 31 42 29 10 2 120
Pro odhad p se používá vztah
n
fXf
p
k
i
i
k
i
ii  
 11
ˆ
Xi fi Xifi
0 6 0
1 31 31
2 42 84
3 29 87
4 10 40
5 2 10
5
120
252
1
1







n
f
Xf
k
i
i
k
i
ii
42,0
5
120/252
ˆ p
pravděpodobnost výskytu
postiženého chromozómu
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Test dobré shody
Fisherův přesný test
McNemar test
Odds ratio a relativní riziko
XIII. Kontingenční tabulky
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Anotace
 Analýza kontingenčních tabulek umožňuje analyzovat vazbu mezi
dvěma kategoriálními proměnnými. Základním způsobem testování
je tzv. chi-square test, který srovnává pozorované četnosti
kombinací kategorií oproti očekávaným četnostem, které vychází z
teoretické situace, kdy je vztah mezi proměnnými náhodný.
 Test dobré shody je využíván také pro srovnání pozorovaných
četností proti očekávaným četnostem daným určitým pravidlem
(typickým příkladem je Hardy-Weinbergova rovnováha v genetice)
 Specifickým typem výstupů odvozených z kontingenčních tabulek
jsou tzv. odds ratia a relativní rizika, využívaná často v medicíně pro
identifikaci a popis rizikových skupin pacientů.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Test dobré shody - základní teorie
Binomické jevy (1/0)
c
2
)1(
pozorovaná
četnost
očekávaná
četnost
očekávaná četnost= +
2 pozorovaná
četnost
očekávaná
četnost
očekávaná četnost
I. jev 1 II. jev 2
- 2-
0
1
Příklad 10 000 lidí hází mincí rub: 4 000 případů (R)
líc: 6 000 případů (L)
Lze výsledek považovat za statisticky významně odlišný
(nebo neodlišný) od očekávaného poměru R : L = 1 : 1 ?
Rozdíl je vysoce statisticky významný (p << 0,001]
    400
5000
50006000
5000
50004000
22
2
)1(




c
Tabulková hodnota: )195,0(84,3)1(
2
)95,0(
ac 
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Kontingenční tabulky
H0 :Nezávislost dvou jevů A a B
Kontingenční
tabulka
2 x 2
N = a + b + c + d
   
N
ba
BP


   
N
dc
BP


+ - Podíl (+)
+ a b
- c d
Podíl (+)
B A
 ca
a
  db
b

 ba
a

 dc
c

p1
p2
Očekávané četnosti:
  
N
caba
F A

)(
  
N
dbba
F B

)(
  
N
cdca
FC

)(
  
N
dcdb
F D

)(
 




4
1
2
2
1
i i
ii
F
Ff
c
)1(*)1(1  cr
   BA PP ;
 



ij
ijij
c
F
Ff
2
2
5,0
c
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Kontingenční tabulky: příklad
FA = 102 * 30 / 166 = 18,43
FB = 102 * 136 / 166 = 83,57
FC = 11,57
FD = 52,43
        423,0
43,52
43,5254
57,11
57,1110
57,83
57,8382
43,18
43,1820
2222
2
)1( 







c 84,3423,0 )1(2
95,0  c
Ano Ne S
Ano 20 82 102
Ne 10 54 64
S 30 136 166
gen 
Kontingenční tabulka v obrázku
15,6
84,4
Zemřelí Žijící
%
20
80
Zemřelí Žijící
%c: 49%
d: 33%
a: 12%
b: 6%
Gen: ANO Gen: NE
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
R x C kontingenční tabulka
Výběr: N lidí ze sociologického průzkumu (delikventi)
Jev A: Původ z rozvrácených rodin
Jev B: Stupeň zločinnosti I < II < III < IV
I. II. III. IV. S
číslo 1ANO a b c d
NE e f g h
S
A B
číslo2
Stupně volnosti:
(R-1) * (C-1) = 1 * 3 = 3 N
čísločíslo
Fa
21

)(2
)1(

ac Tabulky:
Očekávané četnosti:
ea
a
pa


fb
b
pb


gc
c
pc


hd
d
pd


Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Test dobré shody: příklad I
H0: Pozorovaná frekvence pro jednotlivé barvy květů jsou vzorkem populace mající poměr mezi
žlutými a červenými květy 3 :1.
Součet frekvencí u obou barev květů (fi) se rovná 100 a pozorované frekvence u kategorií barvy
budou srovnány s očekávanými frekvencemi (uvedeny v závorkách):
Ověřte na datech z pokusu se 100 květinkami určitého druhu, že barva květů se geneticky štěpí v
poměru žlutá : červená = 3 : 1.
Kategorie barvy
Žlutá Červená n
f poz. 84 16 100
f oček. 75 25
St. volnosti = n = k - 1 = 1
      320,4
25
2516
75
7584
22
.
2
..2






 
oč
očpoz
f
ff
c
Zamítáme hypotézu shody srovnávaných četností
Při testování H0 jsme použili matematický zápis (0,025 < P < 0,05). Z tabulek c2 rozložení vidíme, že
pravděpodobnost překročení hranice 2,706 je 0,1 (10 %), což může být stručně zapsáno jako
P (c2  2,706) = 0,10.
Dále lze zjistit pro P (c2 3,841) = 0,05. V řešené úloze jsme dospěli k hodnotě testové statistiky c2 = 4,320.
Pro tento případ lze tedy psát 0,025 < P (c2 4,320) < 0,05; a jednodušeji 0,025 < P < 0,05. Jde v podstatě o
přibližné určení hranic chyby 1. druhu.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Celkem bylo zkoumáno 250 semen určitého druhu rostliny a roztříděno do následujících
kategorií: žluté/hladké; žluté/vrásčité; zelené/hladké; zelené/vrásčité. Předpokládaný poměr
výskytu těchto kategorií v populaci je 9 : 3 : 3 : 1. Následující tabulka obsahuje původní data
z pozorování a dále postup při testování H0.
Tento příklad je rozšířením problému z příkladu 1 na srovnání pozorovaných a
očekávaných frekvencí pro více kategorií sledovaného znaku:
žluté/hladké žluté/vrásčité zelené/hladké zelené/vrásčité n
f poz. 152 39 53 6 250
f oček. 140,6250 46,8750 46,8750 15,6250
 = k - 1 = 3
Zamítáme hypotézu shody pozorovaných četností s očekávanými
972,8
6250,15
6250,9
8750,46
1250,6
8750,46
8750,7
6250,140
3750,11 2222
2
c
Test dobré shody: příklad II
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Předpokládejme, že chceme pro data z předchozí úlohy testovat hypotézu
existence štěpného poměru 9 : 3 : 3 pro první tři kategorie semen:
Složitější příklady řešené srovnáváním frekvencí je možné rozdělit na testování dílčích
hypotéz:
žluté/hladké žluté/vrásčité zelené/hladké n
f poz. 152 39 53 244
f oček. 146,400 48,800 48,800
544,2
80,48
200,4
80,48
800,9
40,146
600,5 222
2
c
n = k - 1 = 2
Nezamítáme hypotézu shody pozorovaných četností s očekávanými.
Nyní otestujeme hypotézu štěpného poměru kategorií zelené/vrásčité:ostatní
typy = 1:15
zelené/vrásčité ostatní n
f poz. 6 244 25
f oček 15,625 234,375
n = k - 1 = 1
324,6
375,234
625,9
625,15
625,9 22
2
c
Zamítáme hypotézu shody pozorovaných četností s očekávanými.
Test dobré shody: příklad III
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Test dobré shody: příklad IV - využití aditivity testu
U 193 párů dvojčat byly zjištěny následující poměry pohlaví: 56 Ch - Ch
72 Ch – H
65 H - H
Za předpokladu, že narození chlapečka má stejnou pravděpodobnost jako narození
holčičky, lze očekávat poměry pro výše uvedené skupiny = 0,25 : 0,5 : 0,25.
Ověřte tento předpoklad na uvedeném vzorku populace.
S 193 párů 1/4 : 1/2 : 1/4
očekávané četnosti = 48,25 : 96,50 : 48,25
Proč lze v předchozím případě očekávat zamítnutí H0?
Testujte následující hypotézy:
1) Jsou relativní počty párů se shodným pohlavím ve shodě s očekávanými četnostmi? (ignorujte Ch –
H páry)
2) Je relativní četnost kombinace Ch - Ch a H - H párů oproti párům s rozdílným pohlavím ve shodě s
očekávanými četnostmi?
S 121 párů 1 : 1
očekávané četnosti = 60,5 : 60,5
S 193 párů 1 : 1
očekávané četnosti = 96,5 : 96,5
ChCh
HH


28,132
)2( c
669,02
)1( c
44,122
)1( c
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Města - zatížení exhalacemi - třídy (A > B > C > D)
Svět: A : B : C : D = 2 : 3 : 6 : 4
Konkrétní země (n = 184 měst): A : B : C : D = 32 : 151 : 182 : 116
H0: shoda fi a Fi a = 0,05 FA: 64,13 FC: 192,39
FB: 96,19 FD: 128,27
81,7: )3(2
95,0
)(2
1  cc 
aTabulky
Zamítáme hypotézu shody pozorovaných četností s očekávanými.
    06,49
27,128
27,128116
13,64
13,6432
22
2
)3( 



 c
Příspěvek kategorií A, B, C, D k celkové hodnotě c2
Absolutní
hodnota
%
A B C D A B C D
Test dobré shody: příklad V
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Jev: Úmrtnost na leukemii
Předpoklad:  = 0,6
Absolutní četnost jevu označena ri
Sledovalo s autorů z s zemí:
Autor ni ri pi
1
2
.
.
.
s
Test shody reálného r
S
p
p i
 
 pp
rppr iii
S



 

1
2
1cTest homogenity binomických rozložení
Po možném sloučení s výběrů
 









1
2
1
2
2
)1(
N
Nri
c
   nari
Nni 
Test homogenity binomických rozložení
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Test homogenity binomických četností: příklad
Bylo provedeno 6 nezávislých výběrů z populace mladých mužů, kteří v dětství onemocněli
těžkým zánětem mozkových blan.
H0: V této populaci se vyskytují praváci a leváci v poměru 1 : 1.
Pomocí c2 rozložení lze rovněž posuzovat homogenitu většího množství nezávislých
pokusů testujících tutéž hypotézu.
Nalezněte v literatuře příslušné vztahy pro testování homogenity všech šesti výběrových populací
a na základě výsledků tohoto testu rozhodněte o dalším postupu.
Následující tabulka
obsahuje původní
data a výsledek
testování (v
závorkách jsou
uvedeny očekávané
četnosti):
Vzorek Praváci Leváci n c2 St. volnosti
1 3 (7) 11 (7) 14 4,5714 1
2 4 (8) 12 (8) 16 4,000 1
3 15 (10) 5 (10) 20 5,000 1
4 14 (9) 14 (9) 18 5,5556 1
5 13 (8,5) 4 (8,5) 17 4,7647 1
6 17 (11) 5 (11) 22 6,5455 1
2,302
taheterogenic
51 s
001,0P
Jednoduchým testováním lze zjistit, že všechny testy pro jednotlivé výběry jsou významné, což znamená, že ani v jednom
případě nebyla potvrzena shoda očekávaných a pozorovaných četností. Test homogenity štěpného poměru v zkoumaných
populacích rovněž vedl k zamítnutí možnosti sloučit jednotlivé výběry a posuzovat je jako celek (kromě testovaného poměru 1 : 1
neexistuje tedy v datech žádný jiný jednotný štěpný poměr mezi oběma vlastnostmi.
V případě, že by tento test neprokázal odchylky mezi jednotlivými výběrovými populacemi, bylo by možné jednotlivé odběry
sloučit a posuzovat jako homogenní vzorek.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
c2 test - příklad složitější kontingenční tabulky I
Caffeine consumption and marital status in antenatal patiens (from Martin and Bracken, 1987)
Caffeine consumption (mg/day)
Marital status 0 1 - 150 151 - 300 > 300 Total
Married 652 1537 598 242 3029
Divorced, separed or widowed 36 46 38 21 141
Single 218 327 106 67 718
Total 906 1910 742 330 3888
Caffeine consumption and marital status data
Caffeine consumption (mg/day)
Marital status 0 1 - 150 151 - 300 > 300 Total
Married 22 % 51 % 20 % 8 % 3029 (100 %)
Divorced, separed or widowed 26 % 33 % 27 % 15 % 141 (100 %)
Single 30 % 46 % 15 % 9 % 718 (100 %)
Total 23 % 49 % 19 % 8 % 3888 (100 %)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Contributions of each cell
Caffeine consumption (mg/day)
Marital status 0 1 - 150 151 - 300 > 300 Total
Married 4,11 1,61 0,69 0,89 7,30
Divorced, separed or widowed 0,30 7,82 4,57 6,82 19,51
Single 15,36 1,88 7,02 0,60 24,86
Total 19,77 11,31 12,28 8,31 51,66
Expected frequencies
Caffeine consumption (mg/day)
Marital status 0 1 - 150 151 - 300 > 300 Total
Married 705,8 1488 578,1 257,1 3029
Divorced, separed or widowed 32,9 69,3 26,9 12,0 141
Single 167,3 352,7 137 60,9 718
Total 906 1910 742 330 3888
c2 test - příklad složitější kontingenční tabulky II
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
c2 test - příklad frakcionace složitější
kontingenční tabulky I
Cílem rozsáhlejšího průzkumu populace bylo prozkoumat vztah mezi dvěma typy
chorob a krevními skupinami u lidí. Konkrétní data jsou uvedena v tabulce:
Krevní skupina Žaludeční vředy Rakovina žaludku Kontrola Celkem
0 983 383 2892 4258
A 679 416 2625 3720
B 134 84 570 788
Celkem 1796 883 6087 8766
Vypočítejte testovou charakteristiku pro tuto kontingenční tabulku a
otestujte nulovou hypotézu nezávislosti jevů (c2 = 40,54; 4 st. volnosti)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
K podrobnějšímu průzkumu složitějších tabulek výrazně napomáhá přepis původní
tabulky do podoby procentického zastoupení kategorií:
Krevní skupina Žaludeční vředy Rakovina žaludku Kontrola
0 983 383 2892
A 679 416 2625
B 134 84 570
Celkem 1796 883 6087
Jsou jenom malé rozdíly v distribuci krevních skupin u kontroly a
u skupiny nemocných rakovinou žaludku.
Pacienti s vředy mají mnohem častěji krevní skupinu 0.
Z této tabulky je patrné:
Na základě těchto poznatků je možné sestrojit menší kontingenční tabulku, která otestuje
hypotézu o shodné distribuci krevních skupin pro nemocné rakovinou a pro zdravé lidi.
Sestavte tuto tabulku a otestujte nulovou hypotézu.
(c2 = 5,64 (2 st. v.), P je přibližně rovna 0,06)
c2 test - příklad frakcionace složitější
kontingenční tabulky II
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
• Z tohoto dílčího testu vyplývá možnost sloučení skupiny nemocných rakovinou
a zdravých lidí neboť se vzhledem k distribuci krevních skupin chovají jako
homogenní populace. Dalším logickým krokem v podrobné analýze je testování
shody relativních četností výskytu krevních skupin A a B mezi kombinovaným
vzorkem (sloučená skupina s rakovinou a kontrola) a mezi vzorkem lidí
nemocných žaludečními vředy - tzn. nyní neuvažujeme krevní skupinu 0.
Výsledkem tohoto testu je c2 = 0,68 (1 st. vol.); P > 0,7. Vzorky pro krevní
skupiny A a B lze tedy sloučit do směsného vzorku A + B.
• Nyní otestujeme shodu relativních četností výskytu skupiny 0 oproti A + B, a to
mezi kombinovanou populací (kontrola + nemocní rakovinou) a mezi vzorkem
nemocných vředařů (c2 = 34,29; 1 st. vol.). Lze tedy shrnout, že vysoká hodnota
původního c2 se 4 st. volnosti byla způsobena zvýšenou četností lidí s krevní
skupinou 0 mezi nemocnými žaludečními vředy.
c2 test - příklad frakcionace složitější
kontingenční tabulky III
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Srovnání St. volnosti c2
0, A, B skupina u pacientů s rakovinou (r) x kontrola (k) 2 5,64
A, B skupina u pacientů s vředy x kombinovaný vzorek (r + k) 1 0,68
0, A, B skupina u pacientů s s vředy x kombinovaný vzorek (r + k) 1 34,29
Celkem 4 40,61
Průběh hodnocení lze shrnout do tabulky:
Celkový součet testových statistik c2 (40,61) odpovídá přibližně původní hodnotě
c2 (40,54). Což platí i o stupních volnosti (4). Tato skutečnost potvrzuje, že jsme
detailním rozborem vyčerpali informační obsah původní kontingenční tabulky a
kromě popsané závislosti (zvýšený výskyt krevní skupiny 0 u lidí s žaludečními
vředy) jsou jednotlivé kategorie zkoumaných jevů zcela nezávislé.
c2 test - příklad frakcionace složitější
kontingenční tabulky IV
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Kontingenční tabulka 2 x 2:
Řešení při nedostatečné velikosti vzorku
Test analyzuje všechny možné 2 x 2 tabulky, které dávají stejnou sumu řádků a
sloupců jako tabulka zdrojová.
Algoritmus každé tabulce přiřazuje pravděpodobnost, že taková situace nastane, je-li
H0 pravdivá.
Yates' corection Fisher's exact test
H0: Nezávislost jevů
Spectacle wearing among juvenile delinquents and non-delinquents who failed a vision
test (Weindling et al., 1986)
Spectacle wearers
Juvenile delinquents Non- deliquents Total
Yes 1 5 6
No 8 2 10
Total 9 7 16
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
a b c d P
( I ) 0 6 9 1 0,00087
( II ) 1 5 8 2 0,02360
( III ) 2 4 7 3 0,15734
( IV ) 3 3 6 4 0,36713
( V ) 4 2 5 5 0,33042
( VI ) 5 1 4 6 0,11014
( VII ) 6 0 3 7 0,01049
Total 0,99999
Pravděpodobnost náhodného
vzniku variant tabulky
Všechny možné varianty tabulky s
danou sumou řádků a sloupců
0 6
9 1
1 5
8 2
2 4
7 3
6 0
3 7
5 1
4 6
4 2
5 5
3 3
6 4
(I)
(II)
(III)
(IV)
(V)
(VI)
(VII)
Kontingenční tabulka 2 x 2:
Řešení při nedostatečné velikosti vzorku
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
2 x 2 frekvenční tabulka pro párové
uspořádání: Mc Nemar's test
Příklad: Srovnání 2 metod stanovení antigenu v krvi (antigen vždy přítomen)
H0: metoda 1 = metoda 2
Metoda 1 Metoda 2 Frekvence
úspěch úspěch 202
úspěch neúspěch 60
neúspěch úspěch 42
neúspěch neúspěch 10
102 
  83,2
102
14260
2
2
)( 

cc
84,3: )1(2
1 


acTabulky
H0 nezamítnuta
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Aplikace analýzy 2 x 2 tabulky pro hodnocení rizika
I. Prospektivní studie - odhad relativního rizika
Jedinci jsou sledováni prospektivně, zda se vyskytne nějaká vlastnost.
VÝBĚR JE DÁN SLOUPCEM
OBECNĚ PŘÍKLAD
Skupina
1
Skupina
2
Znak
ANO a b
NE c d
Riziko:
H0: RR = 1
 ca
a
  db
b

 
 db
b
ca
a
RR



Retardace plodu
Symetrická Asymetrická
Agar skore
> 7
ANO 2 33
NE 14 58
2/16=0,13 33/91=0,36
345,0
91/33
16/2
RR
Riziko u "symetrické skupiny" je asi 35 %
rizika u asymetrické skupiny
 
dbbcaa
RRSE




1111
ln
IS: ln RR - Z 1-a/2 . SE (ln RR)
ln RR + Z 1-a/2 . SE (ln RR)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Aplikace analýzy 2 x 2 tabulky pro hodnocení rizika
II. Retrospektivní studie - "ODDS RATIO"
Zcela zásadně odlišný přístup od retrospektivní studie
VÝBĚR JE DÁN VLASTNOSTÍ - ŘÁDKEM
Není tedy možné analyzovat relativní riziko, protože přípravou řádků můžeme
měnit velikost kontrol.
OBECNĚ PŘÍKLAD
Skupina
1
Skupina
2
Znak
ANO a b
NE c d
Vady chrupu
ANO NE
Plavání
týdně
< 6h 32 118
³ 6h 17 127odds a/c b/d
db
ca
ratioOdds
/
/
:
dcba
ORSE
1111
)(ln 
    026,2127/118/17/32 OR
  706,0ln OR
   326,0ln ORSE
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Relative risk vs. Odds ratio ?
 Smysl RR a OR
 Výpočet
 Srovnatelnost
 Interpretace
 Výhody a nevýhody
 Aplikace v klinickém hodnocení
Relative risk
(relativní riziko)
Odds ratio
(poměr šancí)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Smysl RR a OR
 Popis vlivu faktoru (léčba, klinický parametr) na výskyt události
(úmrtí, progrese aj.)
Relative risk
(relativní riziko)
Odds ratio
(poměr šancí)
 Snadná přirozená
interpretace rizik
vyjádřených jako procento
událostí
ALE
 Matematická omezení pro
některé aplikace
 Pouze málo lidí má
přirozenou schopnost
interpretovat OR
ALE
 OR v řadě aplikací výhodnější
matematické vlastnosti
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Výpočet
Relative risk
(relativní riziko)
Odds ratio
(poměr šancí)
event
A B
RR= 2
10
3
10
6
 OR= 5.3
7
3
4
6

bez eventu
 Srovnání výskytu události mezi dvěma rameny (A,B) studie
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Vztah mezi RR a OR
Zhang, J. et al. JAMA 1998;280:1690-1691.
Relative risk
(relativní riziko)
Odds ratio
(poměr šancí)
RR a OR je přímo
srovnatelné pouze při
nízkém bazálním
riziku
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Srovnatelnost RR a OR I: maximum
 RR mění své maximum podle bazálního
rizika
Relative risk
(relativní riziko)
Odds ratio
(poměr šancí)
Bazální riziko
MaximálnímožnéRR
 RR ve studiích s různým bazálním
rizikem jsou nesrovnatelná !!!!
 Odds ratio má vždy rozsah od 0
do nekonečna
 Velikost OR není závislá na
velikosti bazálního rizika
 OR lze použít pro srovnání
studií s různým bazálním
rizikem !!!!
 Výhodné pro metaanalýzu
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Srovnatelnost RR a OR I: symetrie
 Existuje mezi RR a O rozdíl v případě výměny definice eventu a non-eventu?
Relative risk
(relativní riziko)
Odds ratio
(poměr šancí)
I II
vs.
RR(II)= 2
10
3
10
6
 OR(II)= 5.3
7
3
4
6

RR(I)= 57.0
10
7
10
4
 OR(I)= 29.0
3
7
6
4

)(
1
)(
IIOR
IOR 
)(
1
)(
IIRR
IRR 
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
RR a OR ve studiích s různou mírou bazálního rizika
ControlCase
Výskyt eventu (%)
Výskyt eventu (%)
Bazální (control) výskyt eventu (%)
Ve skupině „Case“ připadá na jednoho
pacienta bez eventu 4x tolik pacientů
s eventem než ve skupině „Control“
Odds ratio
RR/OR
Relative risk
Pacient ve skupině „Case“ má x-krát
zvýšenou pravděpodobnost výskytu
eventu než pacient ve skupině „Control“.
X-krát závisí na basálním výskytu eventu.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
RR a OR v prospektivních a retrospektivních
studiích
 Zpětné sledování příčin eventu
 Převážně case-control studie
 Výběrem pacientů ovlivňujeme
bazální výskyt eventu
Retrospektivní studieProspektivní studie
 RR nelze použít –ovliněno bazálním
výskytem eventu
 Využití OR – není ovliněno designem
studie
 Sledování výskytu eventu a
následná analýza jeho příčin
 Převážně kohortní studie
 Bazální výskyt eventu je dán
vlastnostmi kohorty pacientů
 Bezproblémové využití RR
Relative risk
(relativní riziko) Odds ratio
(poměr šancí)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Relative risk vs. Odds ratio: shrnutí
 Intuitivně snadno
interpretovatelné
 Pro prospektivní studie
 Standardní výstup Coxovy
regrese
 Maximum se liší podle bazální
hodnoty výskytu eventu
Relative risk
(relativní riziko)
Odds ratio
(poměr šancí)
 Retrospektivní studie
 Aplikace v metaanalýze
 Standardní výstup logistické
regrese
 Rozsah vždy 0 až nekonečno,
není ovlivněno bazálním
výskytem eventu
 Obtížnější interpretace
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Popis rozložení a jeho využití
XIV. Poissonovo rozložení
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Anotace
 Poissonovo rozložení se používá pro popis četnosti
výskytu jevu na experimentální jednotku, příkladem může
být počet mutací bakterií na Petriho misku nebo počet
srdečních poruch na jednotku času
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Poissonovo rozložení
Celkový počet jevů v n nezávislých pokusech
E(x) = n p
D(x) = n p
průměrný počet jevů z n pokusů
 
!! r
e
r
e
r
rr
m 
m


 

P
m
  m
 eX 0P
 
)2)(3(
3
3
mm



e
XP
  2
1 mm
 
eXP  
2
2
2
mm



e
XP
 
)2)(3)(4(
4
4
mm



e
XP
E(x) = D(x)}
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Poissonovo rozložení jako model
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
0 1 2 3 4 5 6 7 8 9 10
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
1,1
0 1 2 3 4 5 6 7 8 9 10
 
!r
erx
r

 
P
 = 0,01  = 0,1
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0 1 2 3 4 5 6 7 8 9 10
 = 0,5
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0,16
0,18
0,2
0 1 2 3 4 5 6 7 8 9 10
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
 = 5  = 10
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0 1 2 3 4 5 6 7 8 9 10
 = 1
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Poissonovo rozložení v přírodě existuje
Mutace bakterií na
inkubačních miskách
Výskyt jevu v prostoru
(počet žížal na určitou plochu pole)
Orientační stanovení jevu
(při produkci plynu bakteriemi)
+ + +- The
most probable number
technique
Výskyt jevu v čase
(srdeční arytmie v určitých časových intervalech)
čas
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Poissonovo rozložení jako model pro
náhodný výskyt jevů
Uniform Clustered Random
ms 2
ms 2
Předpoklad: náhodná distribuce jevu mezi studovanými objekty
(příp. v čase, v prostoru).
ms 2
Poisson
Pokud je  spíše větší (~ 5 - 10), pak Poisson odpovídá spíše binomickému
až normálnímu rozložení.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Formální prezentace Poissonova rozložení
5,210/25
25


x
r
25,096,15,225,096,15,2  
95 % IS:
Př: pokus......10 000 bakterií na misce
n = 10 misek
Jev: mutace (r=25)
..........průměrný počet mutantů na
jednu misku
n
x
Zx
n
x
Zx  
2
1
2
1 aa 
48,352,1  
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Poissonova náhodná proměnná
Výpočet intervalu spolehlivosti pro  (bez aproximace na normální rozložení)
Při měření počtu krvinek změněných určitou chorobou (relativně vzácné) je pozorován zředěný vzorek krve pod
mikroskopem v komůrce rozdělené na stejně velká pole. Sledovaná veličina, udávající počet krvinek v i-tém poli
může být považována za rozdělenou podle Poissonova rozložení:
n = 169 = počet nezávislých pozorování proměnné
r = 10 = počet pozorovaných krvinek
Jaká je hodnota parametru  Poissonova rozložení a jaká je jeho interpretace ?
Jaký je interval 95% spolehlivosti pro parametr 
Pokud bychom sledovali celkový počet červených krvinek (opět v n = 169 nezávislých políčkách), bylo by i tuto
proměnnou možno považovat za rozloženou podle Poissonova rozložení ? Uvažujte celkový počet pozorovaných
krvinek jako 2013.
Spodní hranice IS Horní hranice IS
2
)212(
2
2
2


ff
L
ac
2
)21(
2
2
1
1
rf
L



ac
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Poissonova náhodná proměnná
Poissonova proměnná:
* Výborný model pro experimenty, v
nichž je během časového
průběhu zjišťován počet výskytu
určitého jevu
  i
i
p
i
e
ix ~
!

 

P
Počet intervalů
s právě i zaznamenanými
částicemi st
teoretické četnosti
np
i
i
0
1
2
3
4
5
6
7
8
9
10
11
12
13
57
203
383
525
532
408
273
139
45
27
10
4
2
0
n = 2608
54,399
210,523
407,361
525,496
508,418
393,515
253,817
140,325
67,882
29,189
17,075
(= P{x  10})
2608,00
0,1244
0,2688
1,4568
0,0005
1,0938
0,5332
1,4498
0,0125
7,7132
0,1642
0,0677
12,8849
 
i
ii
np
nps
2

Konstantní zářič: n = 2608 časových intervalů (každý 7,5 s)
i: počet částic v intervalu (x)
si: pozorovaná četnost intervalů s i částicemi
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Poissonovo rozložení: jednovýběrový test
!
)(
)(
r
e
P
r
r




Př: Počet hnízd křepelek na dané ploše
n = 8 000 "pod lokalit"
r = 28
Nechť je srovnávací soubor
(předchozí průzkum)
}
m160008 op
?16~:  moo ppH
0035,0p
0020,0op
^
1) Vzít data jako pocházející z populace:
2)
r = 28 je příliš velké pro populaci s po
aby r = 28 bylo
pravděpodobnější
00192,0
!28
16
)28(
2816




e
rP
?)28( rP
zamítnutaH05,0 o
 00411,0

,opp 
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Parametrická analýza rozptylu
Post hoc testy
XV. Analýza rozptylu
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Anotace
 Analýza rozptylu je základním nástrojem pro analýzu rozdílů mezi
průměry v několika skupinách pacientů.
 Základní myšlenka, na níž je ANOVA založena, je rozdělení celkové
variability v datech (neznámé, dané pouze náhodným rozložením)
na část systematickou (spjatou s kategoriemi pacientů, vysvětlená
variabilita) a část náhodnou. Pokud systematická, tedy nenáhodná a
vysvětlitelná část variability převažujeme, považujeme daný
kategoriální faktor za významný pro vysvětlení variability dat.
 Analýza rozptylu vyhodnocuje pouze celkový vliv faktoru na
variabilitu, v případě analýzy jednotlivých kategorií je třeba využít
tzv. post-hoc testy
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Analýza rozptylu - ANOVA
Základní technika
sloužící
k posouzení rozdílů
mezi více úrovněmi
pokusného zásahu
Kontrola
KoncentraceX1
KoncentraceX3
..............
KoncentraceXp
Rostoucí koncentrace testované látky / látek
Celkově významné změny v reakci biologického systému
Vzájemné rozdíly účinku jednotlivých dávek
Rozdíly účinku dávek od kontroly
KoncentraceX2
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Analýza rozptylu - ANOVA
Významné kroky
analýzy, vedoucí k
efektivnímu srovnání
variant ..............
Rostoucí koncentrace testované látky / látek
Splnění předpokladů analýzy
Transformace dat
Relevantnost kontroly
(vliv vlastní aplikace látek)
Vhodnost modelu ANOVA pro účely testu
Vlastní srovnání variant
Minimalizace chyb při ověřování hypotéz
Kontrola
KoncentraceX1
KoncentraceX3
KoncentraceXp
KoncentraceX2
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Analýza rozptylu - ANOVA
ANOVA
= parametrická
analýza dat
Předpoklad nezávislosti
opakování experimentu
Normalita rozložení
v rámci pokusných
variant
Homogenita
rozptylu v rámci
pokusných variant
SPLNĚNÍ PŘEDPOKLADŮ ANOVA JE NEZBYTNOU PODMÍNKOU
POUŽITÍ TÉTO TECHNIKY
ALTERNATIVOU JSOU NEPARAMETRICKÉ METODY
1.
3.
2.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Analýza rozptylu - ANOVA
Předpoklady analýzy rozptylu jsou nezbytné pro dosažení síly testu
• Symetrické rozložení hodnot a normalita
odchylek od hodnoceného modelu ANOVA.
Velkou část dat lze adekvátně normalizovat
použitím logaritmické transformace. Předpoklad
lognormální transformace může pochopitelně být
teoreticky vyloučen u mnoha datových souborů
obsahujících diskrétní parametry, kde je
indikována vhodnost jiného typu transformace. U
asymetricky rozložených a u diskrétních dat je
nutné využít neparametrické alternativy analýzy
rozptylu.
• Homogenita rozptylu je nutným předpokladem
pro smysluplnost vzájemných srovnání
pokusných variant. U testů toxicity by splnění
tohoto předpokladu mělo být ověřováno
(Bartlettův test), neboť vážné rozdíly (až řádové)
v jednotkách testovaného parametru mohou
nastat v důsledku inhibice dávkami látky.
Nehomogenita rozptylu je často ve vztahu k
nenormalitě (asymetrii) dat a lze ji odstranit
vhodnou normalizující transformací.
• Statistická nezávislost reziduí
vyhodnocovaného modelu ANOVA. Pokud odhad
a posouzení korelačních vztahů mezi pokusnými
variantami není přímo předmětem výzkumu, lze
jejich vliv na vyhodnocení odstranit znáhodněním
dat v rámci pokusných variant - tedy změnou
pořadí v náhodné. Rozsah vlivu těchto
autokorelačních vztahů musí být ovšem primárně
omezen správností experimentálního uspořádání.
• Aditivita jako předpoklad týkající se složitějších
experimentálních uspořádání. Exaktní otestování
aditivity více pokusných faktorů je procedura
poměrně náročná na experimentální design
vyvážený co do počtu opakování. Je rovněž
obtížné testovat interakci na nestandardních
datech, neboť případná transformace může
změnit charakter odchylek původních dat od
hodnoceného modelu ANOVA.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Analýza rozptylu - ANOVA
Omezení aplikace ANOVA lze řešit
• Chybějící data. Vážným problémem jsou
chybějící údaje o celé skupině kombinací
testovaných látek, například u faktoriálních
pokusů, kdy je znemožněno hodnocení
experimentu jako celku.
• Různé počty opakování Jde o typický jev pro
experimentální datové soubory. Při různých
počtech opakování v experimentálních
variantách jsou testy ANOVA citlivější na
nenormalitu dat. Pokud jsou počty opakování
zcela odlišné(až na řádové rozdíly), je nutno
použít neparametrické techniky nebo analýzu
rozptylu nevyvážených pokusů.
• Nehomogenita rozptylu. Velmi častý
nedostatek experimentálních dat, často
související s nenormalitou rozložení nebo s
odlehlými hodnotami.
• Odlehlé hodnoty. Ojedinělé odlehlé hodnoty
musí být před parametrickou analýzou rozptylu
vyloučeny.
• Nedostatek nezávislosti mezi rezidui
modelu. Jde o závažný nedostatek, zkreslující
výsledek F-testu. Velmi často je tato skutečnost
důsledkem špatného provedení nebo
naplánování experimentu.
• Nenormalita dat. I v tomto případě lz situaci
upravit vyloučením odlehlých hodnot nebo
normalizující transformací.
• Neaditivita kombinovaného vlivu více
pokusných zásahů. Tuto situaci lze testovat
jednak speciálními testy aditivity nebo přímo F
testem kontrolujícím významnost vlivu
interakce pokusných zásahů. Při významné
interakci je nutné prozkoumat především její
charakter ve vhodném experimentálním
uspořádání.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Modely analýzy rozptylu
Model I. Pevný model Model II. Náhodný model
X0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
X2
.
.
.
.
.
.
.
.
.
.
X3
.
.
.
.
.
.
.
.
.
.
X4
.
.
.
.
.
.
.
.
.
.
A B C D E
ijiijy am 
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
ijiij Ay m 
X1
X0 X1 X2 X3 X4
Y
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
A B C D E
Y
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
ANOVA – základní výpočet
 Základním principem ANOVY je porovnání rozptylu připadajícího na:
 Rozdělení dat do skupin (tzv. effect, variance between groups)
 Variabilitu objektů uvnitř skupin (tzv. error, variance within groups), předpokládá se, že jde o náhodnou
variabilitu (=error)
1. Variabilita mezi skupinami
Rozptyl je počítán pro celkový průměr
(tzv. grand mean) a průměry v
jednotlivých skupinách dat
Stupně volnosti jsou odvozeny od počtu
skupin (= počet skupin -1)
2. Variabilita uvnitř skupin
Rozptyl je počítán pro průměry
jednotlivých skupin a objekty
uvnitř příslušných, celková
variabilita je pak sečtena pro
všechny skupiny
Stupně volnosti jsou odvozeny od
počtu hodnot (= počet hodnot počet
skupin)
11  k
kn 2
groupswithin
groupsbetween
F
_
_

Výsledný poměr
(F) porovnáme s
tabulkami F
rozložení pro v1
a v2 stupňů
volnosti
SS=sum of
squares
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Jednoduchý ANOVA design
Nejjednodušším případem ANOVA designu je rozdělení na skupiny podle
jednoho parametru.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Nested ANOVA
• Rozdělení skupin na náhodné podskupiny (např. opakování experimentu)
• Cílem je zjistit, zda data v jedné skupině nejsou pouhou náhodou
• Nejprve je testována shoda podskupin v hlavních skupinách,
• pokud jsou shodné, je vše v pořádku
• pokud nejsou, stále lze zjišťovat, zda se variabilita uvnitř hlavních skupin
liší od celkové variability
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Two way ANOVA
Pro rozdělení do kategorií je zde více parametrů
Na rozdíl od nested ANOVY nejde o náhodná opakování experimentu, ale o
řízené zásahy (např.vliv pH a koncentrace O2)
Kromě vlivu hlavních faktorů se uplatňuje i jejich interakce
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Modely analýzy rozptylu - základní výstup
Základním výstupem analýzy rozptylu je
Tabulka ANOVA - frakcionace komponent rozptylu
Zdroj rozptylu
Pok. zásah
(mezi skupinami)
Uvnitř skupin
Celkem
SSB/SST
MSB/MST
St. v.
a -1 SSB SSB/(a -1) MSB/MSE
N - a SSE SSE/(N - a)
N -1 SST
SS MS F
Kvantifikovaný podíl rozdílu mezi pokusnými zásahy na
celkovém rozptylu
Statistická významnost rozdílu
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Analýza rozptylu - obecný F test
obecný F test
H0: m1 = m2 = m3 = .... = mp
Kontrola
KoncentraceX1
KoncentraceX3
.........
.....
KoncentraceXpF test: H0
KoncentraceX2
Látka nepůsobí
H0 neplatí
Látka působí
Další
analýzy
H0 platí
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Analýza rozptylu - Testy kontrastů
ANOVA:H0 zamítnuta
Testy kontrastů
..........
Kontrola
KoncentraceX1
KoncentraceX3
KoncentraceXp
KoncentraceX2
Rozdíly v smysluplných
kombinacích ?
Testování kontrastů
"Multiple range testy"
Parametrické Neparametrické
Plánované
Neplánované
Pro srovnání variant
s kontrolou
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Příklad: Anova - One way
Dávka rostlinného stimulátoru (0, 4, 8, 12 mg/l)
A = 4 ; n = 8
I. ANOVA
Bartlett's test: P = 0,9847
K-S test: P = 0,482 - 0,6525 pro jednotlivé kategorie
Source D. f. SS MS F
Between Groups 3 305,8 101,9 8,56
Within Groups 28 322,2 11,9
Total (corr.) 31 638,0
II. Multiple Range Test
NKS -test
Level Average Homogenous Groups
0 34,8 x
4 41,4 x
12 41,8 x
8 52,6 x
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Příklad: Anova - One way
I. Zásah: 4 klinická stadia virové choroby (napadá kr. buňky)
Sledovaná veličina: aktivita enzymu v těchto krevních buňkách
4321: mmmm oH n = 3
MODEL = ?
II.II
16,4
17,8
19,1
53,3
17,8
III
11,2
18,2
15,8
45,2
15,1
IV
14,2
10,1
12,8
37,1
12,4
S
průměr
Source
Between
groups
Within
groups
Total (corr.)
D.f.
3
8
11
MS
49,6
5,9
-
F
8,39
P
0,0075
I
22,8
19,4
12,5
65,7
21,9
57,14
3
9,56,49
~ 22





n
MSMS
S eA
AAs
22
5,2 eA SS 
7142,0~ 22
2



eA
A
II
SS
S
r
IV.III. Komponenta rozptylu:
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Srovnání variant v testech
Srovnáváni variant po celkovém testu ANOVA
Mnoho existujících algoritmů není vhodných
pro konkrétní případ
Day and Quin
Ecological Monographs,1989
Test Využití Poznámka
Dunnett
Williams
Srovnání s
kontrolou
Ex. i modifikace
pro různá n.
ANOVA
testy (F)
Orthogonální
kontrasty
Plánovaná
srovnání
Ryan Q test
Jednoduché
kontrasty
Vyhodnocen jako
nejlepší test
Testy pro jednoduché kontrasty
Scheffe Tukey LSD
Bonferroni
Dunn-
Sidák
Kramer
Duncan
Student -
Newmann-Keuls
Waller-Duncan
k ratio
Testy nevhodné
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Řada post-hoc testů v různých SW
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
ANCOVA
 Rozšíření ANOVA
 Současná analýza kategoriálních a spojitých prediktorů
 Testování hypotézy paralelismu regresních vztahů
Spojitý prediktor
Hodnocenáproměnná
kategorie
Spojitý prediktorHodnocenáproměnná
kategorie
Kategorie pacientů (pokusný zásah)
neovlivňuje vztah proměnných
Kategorie pacientů (pokusný zásah)
ovlivňuje vztah proměnných
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Parametrická a neparametrická korelace
Lineární regrese
XVI. Korelace a regrese
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Anotace
 Korelační analýza je využívána pro vyhodnocení míry
vztahu dvou spojitých proměnných. Obdobně jako jiné
statistické metody, i korelace mohou být parametrické
nebo neparametrické
 Regresní analýza vytváří model vztahu dvou nebo více
proměnných, tedy jakým způsobem jedna proměnná
(vysvětlovaná) závisí na jiných proměnných
(prediktorech). Regresní analýza je obdobně jako ANOVA
nástrojem pro vysvětlení variability hodnocené proměnné
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Základy korelační analýzy - I.
Korelace - vztah (závislost) dvou znaků (parametrů)
Y2
X1
Y2
X1
Y2
X1
ANO NE
ANO a b
NE c d
X1
X2
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Základy korelační analýzy - II.
Parametrické míry korelace
Kovariance
Pearsonův
koeficient korelace)).((),( yyxxEyxCov ii 
0
0 0
-- x -- y
Y2
X1
r = 1
r = -1
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Základy korelační analýzy - III.
PI (zem) 10 14 15 32 40 20 16 50
PI (rostl.) 19 22 26 41 35 32 25 40
6;8;,.....,1  vnnI
   
7176,0
11
1
.
),(
2222












  
  
iiii
iiii
yx
y
n
yx
n
x
yx
n
yx
SS
yxCov
r
I. 05,0::0  aH
  7076,06 vr:tab
II.  :0H
2
1 2







 n
r
r
t 2 nv
0,05P 







447,2
524,26
6965,0
7176,0
)2(
975,0
n
t
t
:tab
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Základy korelační analýzy - IV.
Srovnání dvou korelačních koeficientů (r)
1. 2.
682,0
1258
1
1


r
n
402,0
462
2
2


r
n
Krevní tlak x koncentrace kysl. radikálů
 
 i
i
i
r
r
Z



1
1
log1513.1
833,01 Z 426,02 Z
05,0: 210  a ;H:Test
461,7
0545,0
407,0
3
1
3
1
21
21






nn
ZZ
Z
96,1975,0 Z:tabulky
7,461 >> 1,96 => P << 0,01
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Základy korelační analýzy - V.
Neparametrická korelace (rs)
PI v půdě 1 2 3 6 7 5 4 8
PI v rostl. 1 2 4 8 6 5 3 7
dI 0 0 1 2 -1 0 -1 -1
i = 1, ….. n; n = 8 => v = 6
  9048,0
1
6
1 2
2





nn
di
rs
  89,06 vrs:tab
 
857,0
1497
86
1 


sr P = 0,358
Pacient č. 1 2 3 4 5 6 7
Lékař 1 4 1 6 5 3 2 7
Lékař 2 4 2 5 6 1 3 7
dI 0 -1 1 -1 2 -1 0
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Korelace v grafech I.
Y
X
Y
X
Vztahy velmi často implikují funkční vztah mezi Y a X.
Y = a + b . X
Y = a + b1 . X1 + b2 . X2 + b3 . X3
Y = a + b1 . X1 + b2 . X2
Y = a + b1 . X1 + b2 . X2 + b3 . X1 . X2
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Korelace v grafech II.
Problém rozložení hodnot Problém typu modelu
X
Y
X
r = 0,981
(p < 0,001)
r = 0,761
(p < 0,032)
Y
Problém velikosti vzorku
Y
X
Y
X
r = 0,891
(p < 0,214)
r = 0,212
(p < 0,008)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Modelování klinických dat
Prediktory
Vysvětlovaná
proměnná
1.Tvorba modelu
•Parametry ovlivňující
vysvětlovanou charakteristiku
pacienta
• Rovnice umožňující predikci
• Platnost modelu pouze v rozsahu
prediktorů
2.Validace modelu
• Nebezpečí „přeučení“ modelu
• Testování modelu na známých
datech
•Krosvalidace
3. Aplikace modelu
• Individuální predikce stavu
nenámých pacientů
• Model musí být podložen
korektní statistikou a rozsáhlými
daty
?
?
?
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Základy regresní analýzy
Regrese - funkční vztah dvou nebo více proměnných
Jednorozměrná
y = f(x)
Vícerozměrná
y = f(x1, x2, x3, ……xp)
Vztah x, y
Deterministický
Regresní, stochastický
Y
X
Y
X
Y
X
Pro každé x existuje pravděpodobnostní rozložení y
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Regresní analýza přímky: lineární regrese
ba  XexbaY
y
xbyaa  :)(intercepta
slope)(sklon;xbX b
   xNe ye
22
;0;0 ss  :složkanáhodná-
}Komponenty
tvořící y se
sčítají
 - náhodná složka modelu přímky = rezidua přímky
  reziduírozptyl
22
xye ss
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Základní regresní analýzy:
model přímky v datech I
y
1
n
x y1
n
1
n
= a + b .
x y
-
y
=
e
Y
X
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
x
x
y
y
y
y
e
e = 0
2
ys 2
es
Y
X
y
b = 0
22
ey ss  Y
X
y
b > 0
22
ey ss 
Základní regresní analýzy:
model přímky v datech II
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
1) X: Pevná, nestochastická proměnná
2) Rozložení hodnot y pro každé x je normální
3) Rozložení hodnot y pro každé x má stejný rozptyl
4) Rezidua jsou navzájem nezávislá a mají normální rozložení:
yyd xy

  XXbyy i 
 XXbyyd ixy 
Smysl proložení přímky
minimalizace odchylek
    XXyd ixy ba
2
Metoda nejmenších čtverců
 2
;0 es
Y
X
Y
+
[X;Y]
X Xi
}Y
}  XXb i
  XXb i
  XXb i

{xy
d  xy
d  xy
d 
Y
Y
Základní regresní analýzy:
model přímky v datech I
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
I.   
 



 2
~
XX
YYXX
bb
i
ii
:b  
2
2
22 1
:~ xy
i
b S
XX
S 

bs
regressionfromdeviationstandardsample
regressionfromdeviationsquaredmean




xy
xy
S
S2
 
22
22
2
2
2
2





 
 

n
XXb
n
Y
Y
n
d
S
i
i
i
xy
xy
II.
XbYaa :~ a
intercept
2
2
2
222 1
~ xya S
X
X
n
SS 









aas
III. Y : modelová hodnota
ii XbaY 
    


  2
2
1
X
XX
n
SS i
xyyi

Základní regresní analýzy:
model přímky v datech I
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Smysl lineární regrese
X: Množství spáleného odpadu (tuny)
Y: Koncentrace kovu ve vzduchu(ng/m3) Platí: X = 0; 10; 100; 150; 200; 250; 300 tun
Model: Y = a + b . X




 3
;123,014
m
YXY
kovng
:Výsledek

Např. : Skutečná data pro X = 200 t:
Yi = 16; 25; 41; 28; 31; 20 => Yi = 26.8
Odhadnuto z modelu pro X = 200 t:
Y = 14 + 0,123 . 200 = 38,6
Y
X
Y
10 200
Y
Y
 
XbaY
XXbYY




} XbYa 
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Regresní analýza v grafech I

0 0
!
y (i; x)
0

0
y (i; x)

0
y (i; x)
!
Grafy residuí modelů (příklady)
Obecné tvary residuí modelů (schéma)
e
i, xj, y
e
i, xj, y
a b
e
i, xj, y
e
i, xj, y
c dd
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Regresní analýza v grafech II
Y
X
Y
X
1) Y vs. X
Y
Y
Y
Y
Y
Y
2) Y vs. Y
Y
X
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Lineární regrese - příklad
X: Koncentrace drogy: 0; 2; 6; 8; 10; 12; 15 mg/ml krve
Y: Koncentrace volných metabolitů
Pro každé X: 3 opakování Y
Model: Y = a + b . x Y = 0,11 + 0,092 . X
I.
00,4
023,0;092,0
05,0;0:0






bb S
b
t
sb
H ab
P < 0,01
 
093,219
975,0 v
t
 
b
n
Stb  

2
2/1: ab
  95,0140,0044,0  bP
II.  
093,2793,3
029,0;11,0
05,0;0: 19
975,0
0





 v
aa
t
S
a
t
sa
H aa
 
a
n
St  

2
2/1: aaa
  95,0171,0049,0 aP
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Analýza rozptylu jako nástroj analýzy regresních
modelů - příklad na modelu přímky
y1
.
x0 x1 x2 x3 x4
. . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
yn x0 x1 x2 x3 x4
s0
2 s1
2 s2
2 s3
2 s4
2
1) Experimentální data 2) Celková ANOVA "one way"
Zdroj rozptylu St.v. SS MS F
Mezi skupinami a-1 SSB SSB /(a-1) MSB/MSE
Uvnitř skupin na-a SSE SSE /(na- a)
Celkem na-1 SST sy
2
1

na
SST
Y
X
Y
X
Y
X
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Analýza rozptylu jako nástroj analýzy
regresních modelů: příklad na modelu přímky
3) Celková ANOVA SSB/SST (variance ratio)
MSB/MSE = F
4) Analýza rozptylu regresního modelu (zde přímky)
(SSMOD/SST) . 100 =
% rozptylu Y
"vyčerpaného"
přímkou = koeficient
determinace (R2)
Zdroj
rozptylu
st.v. SS MS F
Model
(přímka)
1 SSMOD MSMOD
MSMOD /
MSR
Residuum na - 2 SSR MSR
celkem na - 1 SST
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Lineární regrese - příklad
X: konc.Cd: 1,2,3,4,5,6 ng/ml
Y: absorb: 0,23; 0,49; 0,72; 0,90; 1,16; 1,39
b=0,228
a=0,016
Sb=4,99.10-3
Sa=0,019
P = 0,000
P = 0,457
r = 0,999
R2 = 99,81% St. Error of est: 0,021
s2
y.x = 4,25 . 10-4
s2
y = 0,18275
Source D.f. SS MS F P
Model 1 0,912 0,912 2086,3 0
Residual 4 0,0017 0,000425
Total ( c ) 5 0,9138
ANOVA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Principy a využití vícerozměrné analýzy dat
XVII. Vícerozměrná analýza
dat: úvod
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Anotace
 Vícerozměrná analýza dat představuje nadstavbu nad
klasickou, jednorozměrnou statistikou a je zvláště vhodná
pro biologická a medicínská data, která jsou vícerozměrná
již svou podstatou
 Při vícerozměrné analýze je nicméně nezbytné si
uvědomit, že povětšinou vychází ze stejných principů jako
jednorozměrné analýzy a tedy i zde je nezbytné dodržovat
předpoklady na nichž je výpočet založen. Tento fakt je
důležité si uvědomit zejména vzhledem k relativní
dostupnosti vícerozměrných analýz v moderních
statistických software.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Vztah klasické a vícerozměrné statistiky
 Vícerozměrná analýza dat využívá přístupů klasické statistiky
 Zároveň je citlivá i na jejich problémy
 Agregace dat přes sumární statistiku nebo kontingenční tabulky –
korespondenční analýza
 Korelace – analýza hlavních komponent, faktorová analýza, diskriminační
analýza
!
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Vícerozměrné vnímání skutečnosti
– nová kvalita analýzy dat
x1 x2
n
skupina 1
x1
skupina 2
Vícerozměrný
systém
skup.
1
skup.
2
x
1
x2
x2
skup. 2skup.
1
Klasická
jednorozměrná
analýza
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Běžná sumarizace dat „likviduje“
individualitu jedince
Průměr ± SE
BĚŽNÁ STATISTICKÁ
SUMARIZACE
 Zpřehlednění dat
 Neodliší původní
měření
?
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Vícerozměrné hodnocení
X2
X3 …… Xp
X3 …… Xp
W
X1
X3 …… Xp
.
.
.
.
.
.
.
.
.
.
.
X1
.
.
.
.
.
.
.
.
.
.
.
X2
X1
X2
… s ohledem na individualitu !
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Vícerozměrné hodnocení – nová kvalita
A
A
A
A
A
A
A
A
AA
A
A
A
A
A A
A
A
A
B
B
B
B
B
B B
B
B
B
B
B
B
B
B B
B
B
B B
A
X2
X1
B
B
Pouze kombinované parametry mají odpovídající informační sílu
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Vícerozměrné hodnocení vychází z
jednoduchých principů
příklad: vícerozměrná vzdálenost
měření mezi dvěma objekty
(body)
X
1
X
2
X
22
X
21
X
11
X
12
a = x12- x11 = d1
b = x22- x21 = d2
1
2
c = a
2
+ b
22
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Vícerozměrné modelování je strategickou
disciplínou
X1 X2 X5X3 X4 Xp
X1 …… Xn
technické parametry
automobilu
Xn+1 …… Xp
řidičovy schopnosti
a jeho stav
Xp+1 …… X2
rychlost, povrch,
situace
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
 Vícerozměrné metody: Název vícerozměrné vychází z typu vstupních dat, tato data jsou
tvořena jednotlivými objekty (i.e. klienti) a každý z nich je charakterizován svými
parametry (věk, příjem atd.) a každý z těchto parametrů můžeme považovat za jeden
rozměr objektu.
 Maticová algebra: Základem práce s daty a výpočtů vícerozměrných metod je maticová
algebra, matice tvoří jak vstupní, tak výstupní data a probíhají na nich výpočty.
 NxP matice: N objektů s p parametry pak vytváří tzv. NxP matici, která je prvním typem
vstupu dat do vícerozměrných analýz.
 Asociační matice: Na základě těchto matic jsou počítány matice asociační na nichž pak
probíhají další výpočty, jde o čtvercové matice obsahující informace o podobnosti nebo
rozdílnosti (tzv. metriky) buď objektů (Q mode analýza) nebo parametrů (R mode
analýza).Měřítko podobnosti se liší podle použité metody a typu dat, některé metody
umožňují použití uživatelských metrik.
Pojmy vícerozměrných analýz
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Hodnoty parametrů pro jednotlivé
objekty
NxP MATICE ASOCIAČNÍ MATICE
Korelace, kovariance, vzdálenost,
podobnost
Výpočet metriky
podobností/
vzdáleností
Vstupní matice vícerozměrných analýz
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
 vytváření shluků objektů na
základě jejich podobnosti
 identifikace typů objektů
 zjednodušení vícerozměrného
problému do menšího počtu
rozměrů
 principem je tvorba nových
rozměrů, které lépe vyčerpávají
variabilitu dat
SHLUKOVÁ ANALÝZA ORDINAČNÍ METODY
Základní typy vícerozměrných analýz
KLASIFIKACE
 Model zařazení neznámých
pacientů do předem daných skupin
 Řada algoritmů
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Diskriminační prostor
y
x
Typy vícerozměrných analýz
SHLUKOVÁ ANALÝZA ORDINAČNÍ METODY
x
y Faktorové osy
y
x
podobnost
KLASIFIKACE