w
A frequency table of nominal data
The location of sparrow nests.
Nest site		Number of nests observed
A.	Vines	SB
B.	Building eaves	BQ
C.	Low tree branches	4B
D.	Tree and building cavities	49
ts
s e
Ne
J*.
e
-Q
7Q BQ SQ 4Q 3Q
2Q
1Q
Q
ABCD
Nest site
A bar graph of the sparrow nest data. An example of a bar graph for nominal data.
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
A frequency table of nominal data
The location of sparrow nests.
Nest site		Number of nests observed
A.	Vines	SB
B.	Building eaves	BQ
C.	Low tree branches	4B
D.	Tree and building cavities	49
ts
s e
Ne
f
o
r e b
i
B1
S9 S7 SS
S3
S1
49 47 4S
A bar graph of the sparrow nest data, drawn with the vertical axis starting at 45. Compare this with bar graph, where the axis starts at 0.
i        i        i        i       ■ i ABCD
Nest site
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
A frequency table of ordinal data
Numbers of sunfish, tabulated according to amount of black pigmentation
Pigmentation class
o
Amount of pigmentation
No black pigmentation
Faintly speckled
Moderately speckled
Heavily speckled
Solid black pigmentation
Number of fish
13
68
44
21
8
s
o e
-Q
BG
7G
SG
5G
4G 3G 2G
1G
G
G1234 Pigmentation class
A bar graph of the sunfish pigmentation data. An example of a bar graph for ordinal data.
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
A frequency table of discrete data
Frequency of occurrence of various litter sizes in foxes
Litter size	Frequency
3	10
4	2ľ
5	22
6	4
ľ	1
O v.
•Q
3D 25 2D 15 1D 5 D
A bar graph of the fox litter data. An example of a bar graph for discrete, ratio scale, data.
34567
Litter size
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
ľUA
r*
A frequency table of a discrete data
Number of aphids observed per clover plant
Number of aphids on    Number of plants
Number of aphids
Number of plants
a plant	observed	on a plant	observed
O	3	2O	17
1	1	21	1B
2	1	22	2S
S	1	2S	17
4	2	24	ig
5	3	25	1B
6	5	26	ig
ľ	7	2ľ	21
B	8	2B	1B
g	11	2g	1S
10	10	SO	10
11	11	Si	14
12	13	S2	g
1S	12	SS	10
14	16	S4	B
15	13	S5	5
16	14	S6	4
17	16	Sľ	1
1B	15	SB	2
ig	14	Sg	1
		4O	0
		41	1
Total number of observations = 424
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
r*
A frequency table of a discrete data
Number of aphids observed per clover plant
Number of aphids on a plant	Number of plants observed
0 -3	6
4 -ľ	17
B -11	40
12 -15	54
1B -19	59
20 - 23	75
24 - 2ľ	77
2B - 31	55
32 - 35	32
3B - 39	8
40 - 43	1
f
fo
SD
BD 7D SD SD 4D SD 2D 1D D
A bar graph of the aphid data. An example of a bar graph for grouped discrete data.
0 - 3     4 - 7    8 - 11   12 - 15   16 - 19 20 - 23 24 - 27  28 - 31  32 - 35 36 - 39 40 - 43
Observed Number of Aphids per Plant
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
r*
A frequency table of continuous data
Determinations of the amount of phosphorus in leaves
Phosphorus (mg/g of leaf)	Frequency (i.e.,number of determinations)	Cumulative frequency	
		Starting with low values	Starting with high values
8,15 -8,25	2	2	130
8,25 -8,35	6	8	128
8,35 -8,45	8	16	122
8,45 -8,55	11	27	114
8,55 -8,65	17	44	103
8,65 -8,75	17	61	86
8,75 -8,85	24	85	69
8,85 -8,95	18	103	45
8,95 -9,05	13	116	27
9,05 -9,15	10	126	14
9,15 -9,25	4	130	4
Total frequency = 130
3Q 2S 2Q 1S 1Q
S Q
A histogram of the leaf phosphorus data. An example of a histogram for continuous data (based on equal interval width)..
1
8.2 8.3 8.4 8.5 8.6 8.7 8.8 8.9 9.0 9.1 9.2
Phosphorus (mg/g of leaf)
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
A frequency table of continuous data
Determinations of the amount of phosphorus in leaves
so
25
2o
15
1o
5
o
8.2   8.3   8.4   8.5   8.6   8.7   8.8   8.9   9.0   9.1 9.2
A frequency polygon for the leaf phosphorus data
Phosphorus (mg/g of leaf)
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
r*
Grafický popis rozložení - příklad
ď1
CD O
CD
>
CD
4—
>
-i—>
J?
CD
Histogram: relativní frekvence
25 20 15 10 5 0
01   23456789 10 11 12 Věk (měsíce)
□ Kuřáci
Histogram: kumulativní relativní frekvence
£ 100 8 80
|    60 -j J| 40 20 H
0
012
3  4   5  6  7   8  9 10 11 12 Věk (měsíce)
Nekuřáci
Křivka relativní kumulativní frekvence
4       6 8 Věk (měsíce)
10
12
Věk prvního růstu zubů u dětí kuřáků (-      ) a nekuřáků (-------)
(Rantakalio and Mákinen, 1984)
CENTRUM BIOSTATISTIKY A ANALÝZ
VÝUKA: Biostatistika - základní kurz
ruA
Příklad: spojitá čísla mohou mít různá rozložení
<p(x)
o
cp(x)
o
x
x
cp(x)
q>(x)
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
ruA
Histogram - tvar rozložení a relevantní
ukazatel středu
0, 0 B 0,07 0,06 0,05 0,04 0, 0 S 0,02 0,01 0
0,25
0,2 0,15
0,1 0,05 0
0,15 0,1 S 0,11
0,0 g
0,0 7 0,0 5 0,0 S 0,0 1 -0,0 1
Symetrické rozložení, medián je blízko průměru
Asymetrické rozložení, kde průměr je menší než medián
Asymetrické rozložení, kde průměr je větší než medián
Reálný význam mediánu a průměru jako ukazatelů středu rozložení bude záviset na charakteru sledovaného znaku (např. znečištění vody v určité oblasti dusičnany; respirace půdy po ovlivnění
kontaminantem; koncentrace látky v krvi pokusných zvířat).
Při posuzování rozložení sledovaného znaku v cílové populaci je nutné uvážit jak velký výběr (n), na
základě kterého byly zobrazené histogramy spojeny.
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
ruA
r*
3
>
Q)
O
O i-
O
35G
3GG
25G
2GG
15G 1GG 5G
G
35 3Q
25
2Q
15
1Q
5
Q
G
Příklad: věk účastníků vážných dopravních nehod
Správný histogram ?
td
1G
2G3G4G
Věk (roky)
5GSG7GBG
Správný histogram ?
Věk
Q -4
5 -g
1Q -15
16 -1g 2Q - 24 25 - 5g
> 6Q
Q
1Q2Q3Q4Q     5Q6Q7Q8Q    Věk (roky)
f
28 46 58 2Q
114 316
1Q3
VÝUKA: Biostatistika -základníkurz
CENTRUM BIOSTATISTIKY A ANALÝZ
ľUA
w
r*
Sumární statistiky středu
Modus
Medián
Aritmetický průměr
X
n
Geometrický průměr
Harmonický průměr
X       1 n
1Z1 Z1
n
1
n
n
i=1
c
n
i Xi
x4
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
ruA
i
r*
Výpočet mediánu z primárních dat
A. Lichý počet (n)
B. Sudý počet (n)
Vzorek:
S; 1; B; S; 4
Vzorek:
1; S; 4; S; 7; B
Medián - pořadí:
(n + 1) I 2 = S. číslo = 4
VÝUKA: Biostatistika - základní kurz
Medián - pořadí:
(n I 2) ; [(n + 2) I 2]
= (4 + S)I2 = 4.S
CENTRUM BIOSTATISTIKY A ANALÝZ
ruA
Průměr a medián u frekvenčně tříděných dat
I. Dostupná původní data
x: Měsíční výdaje rodiny na bydlení f: frekvence
xi	3,3	3,4	3,5	3,6	3,7	3,8	3,9	4,0	4,1	4,2	4,3	4,4	4,5
fi	1	0	1	2	1	3	3	4	3	2	2	2	1
Průměr:
Medián:
x
Zí
13-té číslo = 4,0
3,976
Při současném odhadu mediánu a průměru jako ukazatelů středu symetrických rozložení je medián méně přesný než průměr.
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
Examples
Example 3.1
A sample from a population of butterfly wing lengths.
Xi(cm)	Xi(cm)	
3.3	4.0	
3.5	4.0	
3.6	4.0	
3.6	4.1	
3.7	4.1	Z Xi
3.8	4.1	n
3.8	4.2	
3.8	4.2	
3.9	4.3	X
3.9	4.3	
3.9	4.4	
4.0	4.5	
95.0 cm
ZX, _ 95.0 cm
n
24
Figure 3.1
A histogram of the data in Example 3.2. The mean (3.96 cm) is the center of gravity of the histogram, and the median (3.975 cm) divides the histogram into two equal areas.
3.96 cm
Example 3.2
The data from Example 3.1 recorded as a frequency table.
Xi(cm)	f	fX,<cm)
3.3	1	3.3
3.4	0	0
3.5	1	3.5
3.6	2	7.2
3.7	1	3.7
3.8	3	11.4
3.9	3	11.7
4.0	4	16.0
4.1	3	12.3
4.2	2	8.4
4.3	2	8.6
4.4	1	4.4
4.5	1	4.5
3.3 3.4 3.5 3.6 3.7 3.8 3.9   4   4.1 4.2 4.3 4.4 4.5
Wing Length (Xi) in cm
Z f _ n _ 24
n
95.0 cm 24
3.96 cm
median _ 3.95 cm + í ~W1 cm)
3.95 cm + 0.025 cm
3.975 cm
Z f, _ 24     Z fiXi _ 95.0 cm
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
ruA
4
3
2
1
o
r*
Examples
Example 3.3
Life expectancy of two hypothetical species of birds in captivity.
Species A X(mo)
34
36
37
39
40
41
42
43 79
n = 9
median = X5 = 40 mo X = 43.4 mo
Species B
Xi(mo)
34
36
37
39
40
41
42
43
44
45
median
n = 10
X 5 + X6
2
40 mo + 41 mo
2
= 40.5 mo X = 40.1 mo
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
w
r*
Příklady - rozložení, odhady
Rozložení náhodné veličiny, charakteristiky dat, Testy hypotéz, odhady
Příklad 1.
Nakreslete schematicky graf Gausovy křivky pro standardizované normální rozložení a pomocí symbolu A vyjádřete následující pravděpodobnosti:
Pravděpodobnost, že hodnota sled. veličiny	Symbol
leží mezi 0 a Z	A
leží mezi -Z a Z	2A
leží mimo interval -Z,+Z	1-2A
je menší než Z (Z je kladné)	2A+(1-2A)/2=1/2+A
je menší než Z (Z je záporné)	(1-2A)/2
je větší než Z (Z je kladné)	(1-2A)/2
je větší než Z (Z je záporné)	2A+(1-2A)/2=1/2+A
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
r*
Příklady - rozložení, odhady
Příklad 2.
A. Zakreslete schematicky následující dvojice rozložení:
a) N(u. = 5,a = 1) a N(u. = 3, a = 1)
b) N(u. = 0, a = 2) a N(u. = 6, a = 2)
a) f
b) f
Q1       234SB 78
-B   -4   -2   Q   2   4   B    8   1Q 12
Příklad 2.
B. Najděte následující kvantily.
a) 95 % kvantil Studentova rozložení pro výběr o n = 20
b) 95 % kvantil Studentova rozložení pro výběr o n = 120
t
(20-1)
0,95 (
0,95
= 1,7291
t0 95(120-1) = 1,65 7 8
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
ruA
Příklady - rozložení, odhady
C. „Z skóre"
Hodnota kostní dřeně je u pacientů s určitým typem onkologického onemocnění hodnocena podle tzv. „Z skóre", vycházejícího z přepočtu na standardizované normální rozložení
a) Vysvětlete jakou formou takové hodnoty vznikají, jaký mají smysl a jak probíhá hodnocení konkrétního pacienta
b) Jakou pravděpodobnostní pozici má v dané populaci jedinec s hodnotou Z skóre - 0.6
c) Je porovnávání jedinců z různých populací pomocí Z skóre závislé na variabilitě (rozptylu) původních dat ?
Hodnoty Z-skóre vycházejí z přepočtu na standardizované normální rozdělení. Pro jejich získání se od každé odečte střední
hodnota souboru a podělí směrodatnou odchylkou souboru. z = x " ^
a
Tyto hodnoty maji potom střední hodnotu nulovou s jednotkovým rozptylem. Z grafu rozloženi je potom možné odečítat jednotlivé hodnoty Z-skóre. Z-skóre je závislé na variabilitě původních dat.
f
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
Příklady - rozložení, odhady
Příklad 3.
a) Jak velká část hodnot náhodné veličiny X, která má normální rozložení, leží mezi -1,76s a +1.76s?
1.76 je hodnota kvantilu normálního rozložení up pro p=0,96, tedy v intervalu -1,76s a +1.76s leží 96% hodnot náhodné veličiny X
b) Koncentrace toxické chemikálie v tkáních ryb z jezera, které je kontaminováno továrnou produkující celulózu, byla shledána přibližně normální s průměrem 67.56 ng/kg tkáně a směrodatnou odchylkou
2.57 ng/kg. Rozložení této sledované veličiny bylo odhadováno na základě mnohonásobné analýzy vzorků ryb (každý o 30 rybách); výsledkem analýzy každého vzorku je průměrná koncentrace látky na 1 kg tkáně.
Jak velký podíl vzorků má koncentrace nižší než 62 ng/kg?
m = 67.56; s = 2.57
X<
62 - 67.56 2.57
P(X <-2.16) = P(X > 2.16) = 1 - F(2.16) = 0.015
tedy vzorků s koncentrací nižší než 62ng/kg je 1.5%.
Najděte takovou koncentraci chemikálie, kterou může v jezeře překročit 5 % populace ryb.
hledáme hodnotu, pro kterou bude platit, že 95% vzorků má nižší koncentraci než tato hodnota, tedy:
í
0.05 = P
X>
ju- 67.56
2.57
í
=1-P
0.95 = F
A- 67.56
2.57
F (1.65)
X<
A- 67.56
2.57
=1 - F
A- 67.56
2.57
5% populace ryb překročí hodnotu chemikálie 71.08ng/kg
VÝUKA: Biostatistika - základní kurz
I = 1.65*2.57 + 67.56 = 71.08
CENTRUM BIOSTATISTIKY A ANALÝZ
r*
Příklady - rozložení, odhady
Příklad 3.
c) Předpokládejme, že podle mezinárodních norem nesmí koncentrace vysoce toxických látek v mléčných výrobcích překročit hranici 30 pg/kg tuku (jde o vymyšlené hodnoty). Výrobce, který hodlá začít zpracovávat mléko od nového dodavatele zjistil, že je schopen produkovat výrobky s průměrnou koncentrací 28 pg/kg, ale se směrodatnou odchylkou 1.6 pg/kg.
Jaký podíl jeho nových výrobků by pravděpodobně nesplnil podmínky pro uvedení na trh?
X>
30 - 28
l.6
= l - P
X<
30 - 28
l.6
= 1 - F(1.25) = 1 - 0.8943 = 0.1057     10?% "°vých výr°°bků nesp'ní v     ' podmínky pro uvedeni na trh
Zavedením přísné kontroly dodávaného mléka by bylo možné snížit rozptyl hodnot při zachování průměrné koncentrace sledovaných látek v mléce na 28 pg/kg.
Jaká by musela být směrodatná odchylka, aby pouze 2 % nové produkce překračovalo povolený limit?
0.02 = P
X>
30-28
0.98 = F
30 - 28
G
G
í
= l - P
F (2.06)
X<
30 - 28
G
=l-F
30-28
G
g = 2/2.06 = 0.97
aby produkce překračovala povolený limit pouze o 2% musí být sm. odchylka jen 0.97 pg/kg
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
ruA
r*
Příklady - rozložení, odhady
Příklad 4.
a) U následujícího souboru dat (koncentrace zinku v půdě na deseti sousedících kontaminovaných lokalitách) navrhněte vhodné charakteristiky polohy a rozptylu a vypočítejte je. 40.60, 40.29, 37.51, 38.90, 38.13, 38.15, 34.81, 37.00, 39.95, 40.43
jako charakteristiku polohy použijeme průměr:
X
1 n
ti
i=l
10
385,77 = 38,58
jako charakteristiku rozptylu použijeme směrodatnou odchylku:
Sx =
I(x- - x )2 =
i=1
10
30,65 = 1,75
b) Jaké charakteristiky souboru dat lze přibližně zjistit z histogramu četností? Popište co nejpřesněji soubory dat, které jsou zobrazeny na následujících histogramech:
ní
v o
r
o z o
Q. t
e č o P
ní
v o
r
o z o
Q. t
e č o P
ní
v o
r
o z o
Q. t
e č o P
0 1  2 3 4 5 6 Počet zlomenin za rok
0 1 2 3 4 5 6 Počet dětí v rodině
123456789 10 Počet zdravých listů
Z histogramu četností se dá přibližně zjistit modus, minimální a maximální hodnota, kvantily.
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
D
Příklady - rozložení, odhady
Příklad 5.
a) Při stanovení průměrného obsahu dusičnanů v říční vodě iontově selektivní elektrodou má měření směrodatnou odchylku a = 1.5 mg/l.
Kolik vzorků vody musí badatel odebrat (n = ?), pokud požaduje odhad průměrné hodnoty se směrodatnou odchylkou 0.2 mg/I?
a = 1.5 mg /1 sx = 0.2mg /1
a
n=
fa]
V sx j
Badatel musí odebrat 57 vzorků, pokud = 57        požaduje odhad průměrné hodnoty se směrodatnou odchylkou 0.2mgl.
b) Odběr jednoho vzorku půdy na běžné stanovení minerálních forem dusíku má cenu 120 Kč. Na průzkum poměrně rozsáhlé lokality máte k dispozici 12 000 Kč.
1. Máte dostatečné finanční prostředky k odhadu průměrné koncentrace minerálního dusíku na lokalitě tak přesnému, že 95% interval spolehlivosti má šířku 4 jednotky (jednotky o rozměru koncentrace, ve kterém je výsledek vyjádřen); předpokládejte rozptyl a = 12.0 jednotek.
2. Jak se změní situace, použijeme-li 90 % interval spolehlivosti?
P(LI < ju < L2) = 1 -a     pro 95% interval spolehlivosti je a=0.05. Pro L1 a L2 platí   LI,L2 = x ± u
a
4 = L2 - Li = x + u
a
í
0,975
a
x - u
0 975
V
2u
a
0 975
n
n=
1
1,96 • 12
= 139
J
Pokud chceme odhadnout průměrnou koncentraci na lokalitě tak, aby 95% interval spolehlivosti měl šířku 4 jednotky, potřebujeme k tomu 139 vzorků. Finanční prostředky vystačí pouze na 100 vzorků, tedy jsou nedostatečné.
Budeme-li uvažovat jen 90% interval spolehlivosti, u095=1,645. Počet vzorků získáme stejným výpočtem (n=98). V tomto případě budou finanční prostředky dostatečné.
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
ruA
2
2
Příklady - rozložení, odhady
Příklad 5.
c/ Limit EPA pro vypouštění suspendovaných pevných odpadů do řek je maximálně 60 mg na litr denně, s maximálním měsíčním průměrem 30 mg na litr denně. Předpokládejte, že chcete testovat náhodně vybrané vzorky vody z jedné řeky s cílem odhadnout průměrnou denní dávku pevných kontaminantů, které pocházejí z těžebních závodů na břehu řeky.
Pokud chcete získat 95 % interval pro průměr s šířkou 2 mg, jak velký počet vzorků vody musíte zpracovat ? Předchozí zkoušky prokázaly, že výsledky analýzy vodních vzorků jsou přibližně normálně rozloženy se směrodatnou odchylkou 5 mg.
obdobně jako v předchozím příkladu platí
2 = L 2 - Ll = x + u
G
í
0,975
G
x-u
0,975
v
n
2u
G
0,975
n=
(1,96 • 5)2 = 96
Tedy pro získání 95% intervalu spolehlivosti potřebujeme získat 96 vzorků.
d/ Podle Food and Drug Administration (FDA) obsahuje průměrný šálek kávy (7 g kávy) 115 mg kofeinu, a tato hodnota kolísá od 60 do 170 mg (rozsah výsledků provedených analýz). Máte za úkol tyto testy zopakovat tak, aby přesnost vašich závěrů byla v rozsahu 5 mg s 95% pravděpodobností. Kolik šálků kávy musíte přibližně analyzovat k dosažení takových výsledků?
min=BC
max=170
m=115mg
Z rozsahu minimálních a maximálních hodnot vypočítáme směrodatnou odchylku. Platí, že ±3s pokrývají 99,9% všech hodnot normálního rozložení. Tedy 170-60=6s — s=18,3
rozsah 95% intervalu spolehlivosti je 5mg, pro dosažení obdobných výsledků bude zapotřebí 206 šálků kávy.
5 = L2 - Ll = x + u
G
f
0,975
n
x-u
G
0,975
v
n
2u
G
í
0,975
n
n=
1,96 18,3
5
= 206
J
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
ruA
2
r*
Příklady - rozložení, odhady
Příklad 6.
Jsou naměřena následující čísla (opakovaná měření délky jednoho objektu v cm): 15; 13; 12; 11
a) Vypočítejte aritmetický průměr, směrodatnou odchylku a standardní chybu.
b) Vyjádřete správně přesnost odhadu průměru a vysvětlete použitý způsob vyjádření.
c) Jaký význam v tomto případě má interval spolehlivosti pro odhad průměru?
d) Změnil by se odhad ukazatelů variability při měření na 1 desetinné místo? (např. 15.3; 12.7; 12.2; 10.8)
e) Změnil by se odhad ukazatelů variability při zvětšení počtu měření?
a)    X _ - Z X, _ 12,75
i _1
S2
SE
n
Z(Xt - X)) _ 2,19
S _ 1,48
i_1
S
n
0,74
d)   X _ - Z X, _ 12,75
i _1 4
S2
SE
n
Z(X, -X)2 _ 2,65
S _ 1,63
i_1
S
0,82    Variabilita při měření na 1 desetinné místo vzroste.
c)  interval spolehlivosti pro odhad průměru nám říká, pokud budeme znovu provádět vzorkování na souboru, ze kterého byl interval spolehlivosti spočítán, průměrná hodnota nového souboru se bude s 95% pravděpodobností vyskytovat v daném intervalu spolehlivosti
e)    Při zvětšení počtu měření vy variabilita klesla.
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
ruA
1
1
Příklady - rozložení, odhady
Příklad 7.
Měření vzorku 25ti malých semenáčků ve školce (zadáno jako odhad pro celou výsadbu přibližně 600 jedinců) vedlo k následujícím výsledkům:
Průměr: 62.8 cm; SD: 11,8 cm
Vypočítejte 95% interval spolehlivosti pro odhad průměru.
L1 = x - u0 975     = 62,8 -1,96 118 = 58,17
'   -\ n a/25
95% interval spolehlivosti: (58,17; 67,43)
?= = 62,8 +1,96118
n 25
L2 = x + m0 975     = 62,8 +1,96= 67,43
Příklad 8.
Bylo provedeno vzorkování na dvou polních lokalitách s cílem posoudit aktivitu extracelulární ureázy v půdě. Na každé lokalitě bylo odebráno 10 vzorků s následujícími výsledky:
a) Průměr 15,1 U/g (d.w.) / SD 3,1 U/g (d.w.)
b) Průměr 241 U/g (d.w.) / SD 25,8 U/g (d.w.) Která z obou lokalit je v daném znaku variabilnější ?
Má smysl porovnávat intervaly spolehlivosti pro odhad průměru mezi lokalitami A a B?
Pro posouzení variability určíme koeficient variance: C = S /X
Ca = slx = 3?1/15 51 = 0,205 Větší variabilitu má vzorek a. Spíše než intervaly spolehlivosti samotné
= sjx = 25 8/241 = 0 107        by bylo lepší porovnávat šířku těchto intervalů.
VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ
ruA
Příklady - rozložení, odhady
Příklad 9.
Když je medián 15. číslo ve vzestupně seřazeném souboru, jak velký je celkový vzorek (n = ?) Spočítejte medián pro následující vzorky
a) Vzorek I: 5; 1; 8; 3; 4
b) Vzorek      3; 4; 5; 7; 8
Pokud je medián 15.číslo, celkový vzorek obsahuje 2n-1=29 čísel.
a) medián vzorku I. je 4, protože při lichém počtu prvků je medián (n+1)/2 prvek
b) medián vzorku II. je 4,5, protože při sudém počtu prvků je medián průměrem n/2 prvku a n/2+1 prvku.
Příklad 10.
	X: originální data (g)	Ln (X)
otnosti rostlin v g) izované podobě spolehlivosti (95%). )to proveďte.	10,2	2,32
	15,3	2,73
	14,1	2,65
	11,2	2,42
	18,2	2,90
	11,2	2,42
	22,5	2,97
	23,5	3,02
	27,5	3,11
Průměr	17,1	2,78
Medián	15,3	2,72
SD	6,2	Q,3B
SE	2,1	Q,12
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
r*
Výpočet mediánu z frekvenčních dat
a) Určete medián tohoto souboru dat: 1,3,4,5,7,8 [4,5]
b) Určete medián tohoto souboru dat: 5,1,8,3,4 [4]
c) Tento příklad je ukázkou výpočtu mediánu u velkého souboru dat. V následující tabulce je uveden rozbor rozložení souboru dat od 179 krav, kde sledovanou veličinou byl počet dní od narození telete do znovuobnovení menstruačního cyklu. Uvedená data jsou velmi zjednodušena a jsou zde uvedena pouze pro ilustraci:
Class limits (days)	0,520,5	20,540,5	40,560,5	60,580,5	80,5100,5	100,5120,5	120,5140,5	140,5160,5	160,5180,5	180,5200,5	200,5220,5
Frequency	8	33	50	32	15	20	11	6	2	1	1
Cumulative frequency	8	41	91	123	138	158	169	175	177	178	179
Frekvence zastoupení dosahuje nejvyšší hodnoty u třídy od 40,5 - 60,5 dnů. Druhý (menší) frekvenční pík lze pozorovat u intervalu od 100,5 do 120,5 dní. Existence dvou maxim (bimodální data) je důkazem nenormality tohoto
konkrétního souboru.
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
ruA
Výpočet mediánu z frekvenčních dat
Jelikož n =179, pak je medián devadesátá hodnota od počátku souboru, a dále je zřejmé, že bude velmi blízko horní hranici třídy 40,5 - 60,5 dní. Za předpokladu, že 50 hodnot této třídy je v ní rovnoměrně rozmístěno lze použít následující vzorec:
XL = hodnota X (sledované veličiny) na spodní hranici třídy obsahující medián: zde 40,5 dní
g = pořadová hodnota mediánu minus kumulativní frekvence do horní hranice předchozí třídy, tj. 90 - 41= 49
l = třídní interval: 20 dní
f = frekvence ve třídě obsahující medián
• Dosadíme-li do uvedeného vzorce, získáme odhad mediánu jako 60 dní. Průměr tohoto datového souboru je 69,9, což je významně odlišná hodnota, a potvrzuje znovu nenormální charakter dat.
• U velkých vzorků z normálních populací je výběrový odhad mediánu normálně rozložen kolem populační hodnoty se směrodatnou odchylkou 1,253 g /'Vn U normálního rozložení, kde medián i průměr představují odhad stejné hodnoty, je medián méně přesný než průměr. Proto hlavní význam mediánu spočívá u nesymetrických distribucí.
• Existuje velmi jednoduchá metoda pro výpočet intervalu spolehlivosti pro odhad mediánu a jako horní a spodní hranice slouží pořadová čísla vypočítaná podle následujícího vztahu:
i n + 1 )
2
±
z
2
kde
n představuje velikost datového souboru, z je kvantil standardizovaného normálního rozložení pro příslušnou pravděpodobnost. U našeho příkladu je n = 179 a pro 95% interval spolehlivosti je z přibližně rovno 2. Horní a spodní limit pro odhad mediánu tedy je 90±J 179 = 77 a 103. 95% interval spolehlivosti je tedy tvořen počty dní, které mají pořadí 77 a 103:
77: Počet dní = 40,5+(36)(20)/50 = 55 dní 103: Počet dní = 60,5+(12)(20)/32 = 68 dní
Medián cílové populace byl tedy odhadnut 95% intervalem spolehlivosti jako hodnota ležící mezi 55 a 68 dny. Interpretujte tento výsledek.
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
ruA
Průměr a medián u frekvenčně tříděných
dat: příklad
II. Symetrická rozložení
X: třídně uspořádaná koncentrace látky zjišťovaná v n = 27 jedincích
Třída	fi
1,85 - 1,95	2
1,95 - 2,05	1
2,05 - 2,15	2
2,15 - 2,25	3
2,25 - 2,35	5
2,35 - 2,45	6
2,45 - 2,55	4
2,55 - 2,65	3
2,65 - 2,75	1
Medián (M) ~ 14. číslo
M = XL +
g • ' = 2,35 + ±^1
f
2,367
Průměr = 2,33
Modus = 2,4
XL ... hodnota x na spodní hranici třídy
obsahující medián g ... požadovaná hodnota mediánu - kumulativní
frekvence do horní hranice předchozí třídy l .  třídní interval
f ... frekvence ve třídě obsahující medián
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
ruA
w
Příklady - rozložení a testy pro dva výběry
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
ruA
Příklady
Příklad 1:
Hodnotili by jste následující sumární statistiky jako smysluplné ( tedy jako interpretovatelné a správně spočítané ?) Je-li to možné, pojmenujte typ rozložení pro každou takto specifikovanou proměnnou.
ZNAK X1
= počet dnů v roce s deštivým počasím
- hodnoceno pro 20 relativně hodně vzdálených lokalit ( n = 20)
Průměr: 189,6 Medián: 142
SD: 8S,3
log-normální rozložení
ZNAK X2
hmotnost myší pod vlivem určitého typu diety hodnoceno pro 20 jedinců ( n = 20)
Průměr: 100
MIN / MAX: 20 / 180
SE: 15,9
normální rozložení
ZNAK X3
nosnost slepic za určité období - hodnoceno pro 20 jedinců ( n = 20)
Geometrický průměr: 42,3
Medián: 38
MIN / MAX : 15 / 114
log-normální rozložení
VÝUKA: Biostatistika -základníkurz
CENTRUM BIOSTATISTIKY A ANALÝZ
Příklady
Příklad 2:
Čtete vědeckou literaturu a v ní naleznete následující údaj o výšce rostliny:
n = 20
Geometrický průměr: 42,3 MIN / MAX : 10 / 114
Dovedete přibližně určit v jakých hranicích se pohybuje spolehlivý odhad průměru (uvažujte pro výpočet 95 % spolehlivost) ?
Příklad 3:
Chemický experiment (n = 5)
Výsledky jednotlivých opakování:
X1 = 5,3; X2 = 5,6; X3 = 5,9; X4 = 8,2; X5 = 5,0
Do jaké míry by mohlo být oprávněné vyloučit hodnotu X4 = 8,2 ?
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
Příklady
Příklad 4:
Toxikologická laboratoř musela přejít na nový způsob chovu morčat, které používala na průzkum vlivu organických kontaminantů na tělesnou hmotnost organismu v době intenzivního růstu. Dvacet těchto nových morčat ze specializované laboratoře je živeno touto speciální kontaminovanou dietou. jejich průměrný přírůstek na hmotnosti je během dvou měsíců 28g. V předchozích experimentech s bývalou populací o relativně velkém rozsahu (n > 500) byl průměrný přírůstek morčat za těchto podmínek 29,8g a rozptyl s2 = 25. Testujte hypotézu, zda je nová populace srovnatelná s předchozí.
Test se bude provádět využitím jednovýběrového t-testu s nulovou hypotézou: X = jU
t =
t
(l9)
2,093
0,975
protože
t < t
(l9)
nulovou hypotézu nezamítáme.
Nová populace je srovnatelná s předchozí.
0,975
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
Příklady
Příklad 5:
Máte za úkol testovat, zda nově vyvinuté antibiotikum proniká do mléka, je-li podáváno kravám po dobu dvou týdnů. Stanovte cíl experimentu, typ sledované veličiny a uspořádání experimentu. Diskutujte pravděpodobnosti a význam možných chyb. Dále diskutujte předpokládané rozložení sledované veličiny a navrhněte způsob testování. Za normálních podmínek se antibiotikum v mléce vůbec nevyskytuje.
Formulujte hypotézu a systém testování pro následující situace:
a) již stopový průnik antibiotika mléko znehodnotí
b) antibiotikum znehodnotí mléko až od koncentrace Ck
Cílem experimentu bude ověřit hypotézu, že antibiotikum do mléka neproniká. Experiment můžeme uspořádat jako párový
test, tedy vyšetřit skupinu krav před podáváním antibiotika a po podávání antibiotika. Tím zajistíme, že výskyt antibiotika
v mléce po jeho podávání nebude ovlivněn jeho přítomností před podáváním.
hypotéza a) množství antibiotika v mléce po jeho podávání je nulové
hypotéza b) množství antibiotika v mléce po jeho podávání není větší než koncentrace ck
Na Iontově selektivní elektrodě je napsáno, že průměrný obsah dusičnanů ve vzorku naměříse směrodatnou odchylkou 1,5 mg/ml. Jak velký počet opakovaných měření musíte udělat, je-li stanovení průměrné koncentrace požadováno s přesností danou standardní chybou 0,2 mg/ml ?
Příklad 6:
g = 1.5 mg /1 se = 0.2mg /1
se =
n=
v se j
= 57
musíme udělat 57 měření, pokud požaduje odhad průměrné hodnoty se směrodatnou odchylkou 0.2mgl.
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
Příklady
Příklad 7:
Nepříliš čistá protilátka není jako směs proteinů přesně definovaná a její složení je kolísavé, což zvyšuje variabilitu opakovaných stanovení při reakci s antigenem. Jelikož není k dispozici lepší zdroj, je nutné před každým pokusem danou šarži testovat na standard - tedy na antigenní vzorek o přesně známé koncentraci. Je-li rozptyl stanovení pod hranicí a02, lze látku použít k nejdůležitějším stanovením a naopak, překročí-li hodnotu am2, nelze daný preparát použít vůbec.
Navrhněte standardní způsob testování takových experimentů i pro následující konkrétní situaci: Pravdivá koncentrace testovaného antigenu je 115,2 ug/ml ve standardním vzorku.
n = 10
<V = 4,5
°m2= 14,5
s2 = 8,87
Zjištěný odhad průměru standardního vzorku: 110,8 ug/ml
Nejprve je vhodné vyloučit možnost, že rozptyl naměřené koncentrace překročí hodnotu am2. Jinak by musel být preparát úplně vyřazen. Toto provedeme F-testem s jednostrannou hypotézou s2< am2 Pokud hypotézu nevyvrátíme, můžeme testovat hypotézu, že rozptyl naměřené koncentrace je nižší než a02 Pokud hypotézu nezamítneme, je preparát možné použít úplně, pokud hypotézu zamítneme, můžeme preparát použít jen omezeně.
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
Test I
1. Pro vektor čísel: 1,2,5,8,7,4,3,6,11,12,9:
• neexistuje distribuční funkce, protože není uspořádán vzestupně
• neexistuje distribuční funkce, protože tato má smysl pouze pro výběry větší než n =100 vzorků
• existuje distribuční funkce a lze ji bez jakýchkoliv problémů sestrojit
• existuje distribuční funkce, ale pokud jde o výběr z populace, pak má pouze orientační význam
• jsou definovány kvantily, a tudíž i medián
• neexistuje rozložení
• nelze smysluplně předpokládat normální rozložení
2. Máte za úkol uspořádat pokus, který má porovnat pH vody mezi vodními nádržemi ošetřenými fosforem a neošetřenými fosforem.
a) Navrhněte uspořádání pokusu tak, aby bylo párové.
b) Navrhněte uspořádání pokusu tak, aby bylo nezávislé.
c) Můžete studovat n = 100 nádrží: navrhněte možnosti hodnocení takového pokusu.
d) Zdůvodněte výhody a nevýhody nezávislého a párového uspořádání. Jak se interpretačně liší ? Který design více vypovídá o realitě v přírodě ?
CENTRUM BIOSTATISTIKY A ANALÝZ Sx
VÝUKA: Biostatistika -základní kurz
Test II
3. Máte za úkol uspořádat experiment porovnávající koncentraci protilátek proti tetanu po očkování novou vakcínou, která je ve stadiu klinického testování.
a) Naplánujte pokus pro párové uspořádání.
b) Naplánujte pokus pro nezávislé uspořádání.
c) Představte si, že vyberete z populace n = 100 sourozenců ochotných k testování vakcíny. Mezi získanými vektory dat (koncentrace protilátek) je zjištěn koeficient korelace r = 0,123, což je nevýznamná hodnota. Jaké má toto zjištění důsledky pro uspořádání pokusu ?
4. Máte dva vektory dat (n = 150 párů) z pokusu, kde byl sledován rozklad toxických látek v odpadní vodě bakteriemi. Jako kontrola slouží voda neošetřená bakteriemi.
a) Autor pokusu tvrdí, že má pokus uspořádán párově. Jakým způsobem ho tedy musel provést ? Jak by jste ověřili významnost tohoto párování ?
b) Předpokládejme párové uspořádání takového pokusu, tj., výstupem jsou dva vektory čísel (úbytek toxických látek v průběhu pokusu v ng), každý vektor o délce n =150. Nechali jste vypočítat koeficienty korelace mezi oběma vektory dat a byly vám předloženy následující výsledky:
Pearsonova korelace: r = 0,956 Spearmanova korelace rs= 0,196
Co z těchto výsledků vyplývá pro hodnocení pokusu a jaké další hodnocení zvolíte ?
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
Srovnání parametru dvou výběrů Experimenty pro dva pokusné zásahy
Příklad 1:
a) Máte k dispozici počty jedinců kůrovce, kteří byly polapeni do dvou pastí umístěných v zamořené oblasti. Vaším úkolem je srovnat rozptyl obou proměnných: H0: o2 = <522
Počty jedinců											
Past 1	41	34	33	36	40	25	31	37	34	30	38
Past 2	52	57	62	55	64	57	65	55	-	-	-
K otestování shody rozptylu použijeme tzv. F- test pro poměr rozptylů (Variance ratio test):
n1 _
10
n2 _ s2 _
7
F
11; v1
8; v2
21,87; s2 = 15,36
Max (sf • s2) = 21,87 Min (s2 • s2) = 15,36 F(0,05)[10  ;7] = 4,76 p > 0,5
Nezamítáme nulovou hypotézu shody rozptylů. Je tedy možné vypočítat společný rozptyl jako vážený průměr rozptylů obou proměnných:
1,42
s2 _
p
19,19
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
ruA
r*
Tabulka
Pozn: Vzhledem k tomu, že naše H0 byla oboustranná, je třeba k testování použít tabulky (F-rozdělení):
f2 = d. /. for Smaller Mean Square	Z1 = d./. for Larger Mean Square									
	2	4	6	8	10	12	1S	20	30	nekon.
2	39,00	39,25	39,33	39,37	39,40	39,42	39,43	39,45	39,46	39,50
3	16,04	15,10	14,74	14,54	14,42	14,34	14,25	14,17	14,08	13,90
4	10,65	9,60	9,20	8,98	8,84	8,75	8,66	8,56	8,46	8,26
5	8,43	7,39	6,98	6,76	6,62	6,52	6,43	6,33	6,23	6,02
6	7,26	6,23	5,82	5,60	5,46	5,37	5,27	5,17	5,07	4,85
7	6,54	5,52	5,12	4,90	4,76	4,67	4,57	4,47	4,36	4,14
8	6,06	5,05	4,65	4,43	4,30	4,20	4,10	4,00	3,89	3,67
9	5,71	4,72	4,32	4,10	3,96	3,87	3,77	3,67	3,56	3,33
10	5,46	4,47	4,07	3,85	3,72	3,62	3,52	3,42	3,31	3,08
12	5,10	4,12	3,73	3,51	3,37	3,28	3,18	3,07	2,96	2,72
15	4,76	3,80	3,41	3,20	3,06	2,96	2,86	2,76	2,64	2,40
20	4,46	3,51	3,13	2,91	2,77	2,68	2,57	2,46	2,35	2,09
30	4,18	3,25	2,87	2,65	2,51	2,41	2,31	2,20	2,07	1,79
nekon.	3,69	2,79	2,41	2,19	2,05	1,94	1,83	1,71	1,57	1,00
Pro vypočítaný poměr obou rozptylů (1,42) lze vypočítat interval spolehlivosti. Interpretujte výsledek tohoto výpočtu vyjádřený jako:
(
P
0,298 <
4 < 5,61
v
(72
0,95
J
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
r*
Srovnání parametrů dvou výběrů Experimenty pro dva pokusné zásahy
Příklad 2:
Pomocí F-testu uvedeného v úloze 1, lze rovněž testovat rovnost dvou koeficientů variance:
(Slog)l
F
(Slog)2
Je třeba ověřit, zda má koncentrace Zn nalezená v kontaminovaných půdách stejný rozptyl jako obsah mikrobiální biomasy naměřený na stejných lokalitách (srovnání často nutné pro správnou volbu metody současné analýzy obou proměnných). Nulovou hypotézu budeme testovat srovnáním koeficientů variance podle výše uvedeného vztahu:
Obsah Zn (mg/kg)	Log (Zn)	Obsah biomasy (mg C/kg)	Log (biomasa)
72,5	1,86034	183,0	2,26245
71,7	1,85552	172,3	2,23629
60,8	1,78390	180,1	2,25551
63,2	1,80072	190,2	2,27921
71,4	1,85370	191,4	2,28194
73,1	1,86392	169,9	2,22943
77,9	1,89154	166,4	2,22115
75,7	1,89910	177,6	2,24944
72,0	1,85733	-	-
69,0	1,84	-	-
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
ruA
r*
Srovnání parametrů dvou výběrů Experimenty pro dva pokusné zásahy
V _ 9
X1 _ 70,73kg SS, _ 246,1610kg 27,3512kg2
s1 _ 5,23kg
1
s12_
V1 _
0,0739
(SSlog )1 _ 0,00987026 32
(sl2og )1 _ 0,00109669 59
F
0,0004961076
F     _ 4,82
0,05(2)
0,20 < p < 0,50
Nezamítáme H0.
2 _ 7
X2 _ 178,82cm
SS2 _ 590,1350cm2 s22 _ 84,3050cm2
s2 _ 9,18cm
V2 _
0,0513
(SSlog)2 _ 0,0034727534
(sl2og)2 _ 0,004961076
_ 0,0010966959 _
2,21
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
r*
Příklad - two sample test (párový x nepárový)
Pokus na zvířatech - srovnání dvou variant (n = ľ jedinců)
kontrola před ošetřením: X1	= 8,74;.....s2	= 4,026; s2; 0,575
kontrola po ošetření:       X 2	= 7,73; s2	= 2,904; s2; 0,415 ;2
r = 0,981 Cov = 3,352		22 =-1-2 = 3,464 p 12
D = 1,01; sD2 = 0,225		sx-X2 = ^ • sp^A/n = 0,995
sD = 0,179 t = D/sD = 5,639		1,01 , t =        = 1,016 0,995
p < 0.01		p < 0.328
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
ruA
Příklad
Průměrný denní příjem výživy odhadovaný 10 dní před lékařským zásahem a 10 dní po lékařském zásahu.
Pacient	před lékařským zásahem	po lékařském zásahu	diference
1	5260	3910	1350
2	5470	4220	1250
3	5640	3885	1755
4	6180	5160	1020
5	6390	5645	745
6	6515	4680	1835
7	6805	5265	1540
8	7515	5975	1540
9	7515	6790	725
10	8230	6900	1330
11	8770	7335	1435
Průměr	6753,6	5433,2	1320,5
Medián	6515	5265	1350
SD	1142,1	1216,8	366,7
Odhadněte 95% interval spolehlivosti pro rozdíl mezi průměry. Ověřte zda je rozdíl statisticky významný (testujte nulovou hypotézu). Pearsonova korelace: r = 0,9536
Je možné použít neparametrickou alternativu pro tyto testy ?
Test provedeme využitím párového t-testu nebo jednovýběrovým t-testem s nulovou hypotézou, že průměrná hodnota diferencí se neliší od nuly
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
Příklady I
Příklad 1.
Při sledování určitého fyziologického parametru souvisejícího s činností srdce, nesmí rozptyl hodnot přesáhnout stanovený limit, aby možné odchylky od normálu nezanikly v šumu. Tato limitní hodnota je a0 = 4.5. Po zakoupení nového přístroje testovala klinika měření na n = 30 pacientech s výsledkem s = 4.0. Je možné dále pokračovat ve vyšetřování na novém přístroji, nebo je nutné tento test provádět na přesnějším stroji?
Proveďte komplexní rozbor situace, včetně závěrů o dalším postupu měření. (Jde v podstatě o test shody výběrového odhadu rozptylu a rozptylu cílové populace. )
2   (n - 1).s2
Testujeme nulovou hypotézu H0: s2 <a2 na 5% hladině významnosti, jako testovou statistiku použijeme X--2-
a
2   (n- 1)s2   29 • 42 2 (n-D - 2 (29) - 42 557
X ---2-—--^ - 22,91    Porovnáme-li hodnotu testové statistiky s kvantilem   X 1-a     - X0,95    - 42,557
a2 4,52
2    2 (29)
platí, že   X < X0;95        tedy nulovou hypotézu nezamítneme. Je možné dále pokračovat ve vyšetřování na novém přístroji.
Příklad 2.
Aby bylo podávané antibiotikum účinné proti bakteriím v ledvinách, musí jeho koncentrace v krvi dosáhnout alespoň hodnoty 18 jednotek/ ml. Z dřívějších rozsáhlých výzkumů víme, že stanovení obsahu antibiotika v krvi vykazuje směrodatnou odchylku a = 3.3. Při testování nové varianty antibiotika na myších byla u n = 9 myší nalezena průměrná koncentrace látky v krvi 10.2 jednotky.
Při a = 0.05 testujte, zda je tato hodnota dostatečná pro účinnost antibiotika v ledvinách.
-                                                                                    x -11 r-Testujeme nulovou hypotézu H0: x > li na 5% hladině významnosti, jako testovou statistiku použijeme t--v n
s
t - X--JA o -10,2-18 /9 - -7 09  Porovnáme-li hodnotu testové statistiky s kvantilem t (n-l) -10 05(8) - -1 86
/-\ /-\        y ' a 0,05 '
s 3,3
(8)
platí, že   t < t0 05      tedy nulovou hypotézu zamítneme. Tato hodnota není dostatečná pro účinnost antibiotika v ledvinách.
VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ
ruA
Příklady II
Příklad 3.
a) Deset myší bylo testováno na přítomnost jater poškozující toxické látky, která se může vyskytnout v jednom druhu masových konzerv. K testování bylo odebráno 100 konzerv a po deseti dnech uhynuly 2 myši, tzn. ve dvou konzervách byla látka prokázána. Jaký je interval spolehlivosti výskytu této látky v celém souboru konzerv?
n=100 r=2
p = 0,02
p(1
n -1
0,02 • 0,98
99
interval spolehlivosti (1-a)100%   n : p ± Z
1-a
p(1 - p)
n -1
0,014
0,02 ± Z 0,014
1 /2
b) Bylo zkoumáno 115 žen starších 36 let, zda měly potíže s chrupem během těhotenství. Kladně odpovědělo 46 žen.
Jaké jsou vaše závěry o celé populaci žen tohoto věku při 99% spolehlivosti? (Vypočítejte interval spolehlivosti pro p)
n=115 r=46
p = 0,4
F
n -1
0,4 • 0,6
114
0,046
interval spolehlivosti 99%   n: p ± Z
1 /2
p(1 - p)
n -1
0,4±Z0 995 • 0,046 = 0,4±2,58• 0,046 = 0,4±0,12
28%-52% žen tohoto věku má potíže s chrupem během těhotenství při 99% spolehlivosti.
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
Příklady III
Příklad 3.
c) Pravděpodobnost narození chlapce je asi 1/2. Máte zhodnotit výsledky průzkumu populace, která žije v silně poškozeném životním prostředí. Průzkum se týká 1000 náhodně vybraných rodin a zjištěný podíl narozených chlapců je 0.41. Jaké jsou vaše závěry o této populaci?
Jak se váš odhad zpřesní, když použijete vzorek n = 10 000 rodin při zachování odhadu p = 0.41?
Použijeme jednovýběrový binomický test s nulovou hypotézou H0: p=n, hladina významnosti a=0,05
testová statistika Z
n • p - n•n
1000 • 0,41 -1000 • 0,5
-5,79    a příslušný kvantil Z
a ^0,975
= 1,96
\n • p(1 - p)      ^1000 • 0,41- 0,59
protože Z > Z0 975    nulovou hypotézu zamítáme. Chlapci se ve zkoumavé populaci nerodí s pravděpodobností 0,5.
íp(l - p)
interval spolehlivosti  n: p±Zia/-,j^—= 0,4±Z
1 /2
n -1
0,975
pokud použijeme n=10 000, bude int. spolehlivosti užší n : p ± Z
• 0,046 = 0,41 ± 1,96 • 0,016 = 0,41 ± 0,03
p(1 - P) - 0,41 ± 1,96 • 0,005 = 0,41 ± 0,01
1-a/
2
n-1
d) Jaká je pravděpodobnost, že rodina se třemi dětmi bude mít 2 (3) chlapce?
Podrobně analyzujte problém a použijte obecného definičního vztahu pro binomické rozložení.
n = 3 r = 2
v r J
p(r)-r pr-(1 -pf-r)-
n !
p=0,5 (stejná pravděpodobnost narození ^ chlapce jako narození dívky)
v 2 J
0,52 • 0,5(1)
r ! (n-r)!
3 !
2 ! (1)!
0,52 • 0,5(1)- 0,375
pravděpodobnost narození 2 chlapců v rodině se třemi dětmi je 0,375
V 3J
r = 3 platí   p(3)-l   !• 0,53 • 0,50 - !• 0,53 • 0,50 - 0,125
VÝUKA: Biostatistika - základní kurz
pravděpodobnost narození 3 chlapců v rodině se třemi dětmi je 0,125
CENTRUM BIOSTATISTIKY A ANALÝZ
ruA
Příklady IV
Příklad 3.
e) Předpokládá se, že lidé trpící určitou krevní chorobou mají abnormální jeden z chromozómů. S cílem odhadnout podíl takto postižených chromozómů bylo studováno 5 buněk od každého ze 120 pacientů a byl zjišťován počet buněk s postiženým chromozómem (tento počet = sledovaný jev = r). Výsledky jsou uvedeny v následující tabulce. Odhadněte podíl postižených chromozómů u populace nemocných lidí.
r(četnost jevu)	0	1	2	3	4	5	celkem
f(poč. pacientů)	6	31	42	29	10	2	120
Pro odhad p se používá vztah p
Xi	fi	Xifi
0	6	0
1	31	31
2	42	84
3	29	87
4	10	40
5	2	10
E f<x> E f
i=1
i=1
n
£fX = 252
i=1
i=1
n=5
P
252/120 5
0,42
pravděpodobnost výskytu postiženého chromozómu
VÝUKA: Biostatistika -základníkurz
CENTRUM BIOSTATISTIKY A ANALÝZ
ľUA
w
Příklady - různé
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
r*
Příklad 1.
Two-tailed t test for significant diference between a mean and a hypothesized population mean of
jU 0=22 year.
Věk smrti (v letech) 25 koní určitého druhu:
17,2, 18,0, 18,7, 19,8, 20,3, 20,9, 21,0, 21,7, 22,3, 22,6, 23,1, 23,4, 23,8, 24,2, 24,6, 25,8, 26,0, 26,3, 27,2, 27,6, 28,1, 28,6, 29,3, 30,1, 35,1.
h0: u = 22 ha : ju* 22
a = 0,05
n = 25
X _ 24,23 s2 _ 18,0388
X-u_ 24,23 - 22
2,624
v _ n -1 _ 25 -1 _ 24
s- 0,85
x
s- _
x
18,0388
25
0,85
10,05(2),24
2,064
Protože
>t
0,05
(2)24, zamítáme H0 a usuzujeme, že soubor 25 životních délek koňů pochází z populace
jejíž průměr, jU není 22 let.
0,01 < P (Itl > 2,624 ) < 0,02
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
ruA
2
t
Příklad 2.
A two-tailed t test for significant diference between a sample mean and a hypothesized population mean
of zero.
Hmotnostní změny 12 potkanů po pobytu v režimu nuceného cvičení. Každá změna hmotnosti (v gramech) je definována jako hmotnost po cvičení mínus hmotnost před cvičením.
1,7 0,7 -0,4 -1,8 0,2
0,9 -1,2 -0,9 -1,8 -1,4 -1,8 -2,0
X
ZM=Z0I65g = -1,81 h 0,36g
H0 : ju = 0 HA : ji^ 0
a = 0,05 n = 12
X = -0,65 g s2 = 1,5682g
v = n -1 = 11
10,05 i2), 11
2,201
s- =
x
1,5682g
12
Protože
t
<t
0,05 < P < 0.10
0,36g
VÝUKA: Biostatistika -základní kurz
o. )5 ( 2 ), n , nezamítáme H0.
CENTRUM BIOSTATISTIKY A ANALÝZ
t
r*
Příklad 3.
A one-tailed t test for the hypotheses H0: ju < 45 sec and HA : ju > 45 sec Doby rozpustnosti (v sekundách) drogy v žaludeční šťávě::
42,7, 43,4, 44,6, 45,1, 45,6, 45,9, 46,8, 47,6. H0: u < 45sek HA - u > 45sek
a - 0,05
n-8
45,21sek - 45sek
0,58 sek
0,36
v - J
'0,05(1),J
-1,895
X - 45,21sek
SS - 18,8288sek
s2 - 2,6898sek s- - 0,58sek
Když t > to 05(1)7 , zamítáme H0.
Závěr: nezamítáme H0.  P ( t > 0 36 ) > 0 50
VÝUKA: Biostatistika -základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
ruA
t
Příklad 4.
2 2 2 2
A two-tailed variance ratio test for the hypothese H0: <Jl = <J2 and HA \GX ^ <72 . The data are the numbers of moths caught dutiny the night by 11 traps of one style and 8 traps of a second style.
H0 : °l _ <?l
a_ 0,05
Trap type 1      Trap type 2
41 34
33
36 40 25 31
37
34 30
38
52 57 62
55 64 57
56 55
v1 _ 10
n2 _8
v2 _7
SS1 _
218,73moths2        SS2 _ 107,50moths2
s12 _ 21,87moths2
_ 15,36moths2
F
s22
21,87 15,36
_ 1,42
0,05(2),10,7
4,76
sp
P(F > 1,42) > 0,50
218,73moths2 + 107,50moths2 10 + 7
1919moths'
The hypotheses may be submitted to the variance ratio test, for which one calculates
F
s
or
F
s
whichever is larger.
s
s
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
2
2
2
1
2
2
1
2
Srovnání parametrů dvou výběrů Experimenty pro dva pokusné zásahy
a)   Máte k dispozici počty jedinců kůrovce, které byli polapeny do dvou pastí umístněných v zamořené oblasti. Vaším úkolem je srovnat rozptyl obou proměnných
H0 : °í _ ^
Počty jedinců
Past 1	41	34	33	36	40	25	31	37	34	30	38
Past 2	52	57	62	55	64	57	56	55	-	-	-
K otestování shody rozptylů použijeme tzv. F-test pro poměr rozptylů (Variance ratio test)
n1 _ 11, v1 _ 10
n2 _ 8 V2 _ 7 s2 _ 21,87; s22 _ 15,36
F
1,42
Max (s12. s22) _ 21,87 _ Min (s12.s22) _ 15,36 _
F(0,05)[10;7]_ 4,76 P > 0,5
Nezamítáme nulovou hypotézu shody rozptylu.
Je tedy možné vypočítat společný rozptyl jako vážený průměr rozptylů obou proměnných:
19,19
s P _
VÝUKA: Biostatistika -základníkurz
CENTRUM BIOSTATISTIKY A ANALÝZ
ruA
Srovnání parametru dvou výběrů Experimenty pro dva pokusné zásahy
Pozn.: Vzhledem k tomu, že naše H0 byla oboustranná, je třeba k testování použít tabulky:
S LEVEL (TWO-TAILED) OF THE DISTRIBUTION OF F
f2 = d.f. for Smaller Mean Square
f1 = d.f. for Larger Mean Square
2      I      4      I      6      I      8      I     10     I     12     I     15     I     20     I     30     I QQ
2	39,00	39,25	39,33	39,37	39,40	39,42	39,43	39,45	39,46	39,50
3	16,04	15,10	14,74	14,54	14,42	14,34	14,25	14,17	14,08	13,90
4	10,65	9,60	9,20	8,98	8,84	8,75	8,66	8,56	8,46	8,26
S	8,43	7,39	6,98	6,76	6,62	6,52	6,43	6,33	6,23	6,02
e	7,26	6,23	5,82	5,60	5,46	5,37	5,27	5,17	5,07	4,85
										
ľ	6,54	5,52	5,12	4,90	4,76	4,67	4,57	4,47	4,36	4,14
8	6,06	5,05	4,65	4,43	4,30	4,20	4,10	4,00	3,89	3,67
S	5,71	4,72	4,32	4,10	3,96	3,87	3,77	3,67	3,56	3,33
10	5,46	4,47	4,07	3,85	3,72	3,62	3,52	3,42	3,31	3,08
12	5,10	4,12	3,73	3,51	3,37	3,28	3,18	3,07	2,96	2,72
										
1S	4,76	3,80	3,41	3,20	3,06	2,96	2,86	2,76	2,64	2,40
20	4,46	3,51	3,13	2,91	2,77	2,68	2,57	2,46	2,35	2,09
30	4,18	3,25	2,87	2,65	2,51	2,41	2,31	2,20	2,07	1,79
Q	3,96	2,79	2,41	2,19	2,05	1,94	1,83	1,71	1,57	1,00
16
Pro vypočítaný poměr obou rozptylů (1,42) lze vypočítat interval spolehlivosti. Interpretujte výsledek tohoto výpočtu vyjádřený jako: 2
P(0,298 < -V < 5,61) = 0,95
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
r*
I   Příklad 2. I
Srovnání parametrů dvou výběrů Experimenty pro dva pokusné zásahy
Pomocí F-testu uvedeného v Příkladu 1 této kapitoly lze rovněž testovat rovnost dvou koeficientů
variance:
F
(s )
(S log )2
=; jmenovatel < čitatel
Je třeba ověřit, zda má koncentrace Zn nalezená v kontaminovaných půdách stejný rozptyl jako obsah mikrobiální biomasy naměřený na stejných lokalitách (srovnání často nutné pro správnou volbu metody současné analýzy obou proměnných). Nulovou hypotézu budeme testovat srovnáním koeficientů variance podle výše uvedeného vztahu: -
			Obsah Zn		Obsah biomasy	Log
			(mg/kg)	Log (Zn) Log (Zn)	(mg C/kg)	(biomasa)
Koeficient variance je zde označen jako V:						
v = 9		V2 = 7	72,5	1,86034	183,0	2,26245
X = 70,73kg	F 0,0010966959221	X2 = 178,82cm	71,7	1,85552	172,3	2,23629
	F=—-= 2,21		60,8	1,78390	180,1	2,25551
SS1 = 246,1610kg2	0,0004961076	SS2 = 590,1350cm2				
			63,2	1,80072	190,2	2,27921
s2 = 27,3512kg2	F           = 4 ,82 1 0,05 (2),9,7       ^ 'oz-	s22 = 84,3050cm2	71,4	1,85370	191,4	2,28194
S1 = 5,23kg	0,20 < P < 0.50	s2 = 9,18cm	73,1	1,86392	169,9	2,22943
V = 0,0739		V2 = 0,0513	77,9	1,89154	166,4	2,22115
(SS1ög)1 = 0,0098702632		(SS1og)2 = 0,0034727534	75,7	1,89910	177,6	2,24944
(s2g)1 = 0,0010966959	Nezamítáme H0.	(s2g)2 = 0,0004961076	72,0	1,85733	-	-
			69,0	1,84	-	-
VÝUKA: Biostatistika - základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ
ruA
r*
Příklad 5.
A one-tailed variance ratio test for the hypothesis that duck clutch size is less variable in
captive than in wild birds.
H)^12 ^2 _
a = 0,05
n1 = 7 Vj = 6
2,86eggs2 sj2 = 0,48eggs1
F
n2 = 9 V2 = 8 SS 2 =
20,00eggs s
s, =
2,50eggs s
2,50 0,48
F =
1 0,05(1),8,6
5,21
4,15
Clutch Size of Ducks
Captive	Wild
10	9
11	8
12	11
11	12
10	10
11	13
11	11
-	10
-	12
Therefore, reject H0
VÝUKA: Biostatistika - základní kurz
0,025 < P(F > 5,21) < 0,05
CENTRUM BIOSTATISTIKY A ANALÝZ
Confidence interval for variance ratio
A 1-a confidence interval for the variance ratio, cr^/cr^, is defined by its lower confidence
limit,
L =
f s 2 V
1
s 2
v s 2 y
1
F
v a(2),v1,v2 y
and its upper confidence limit,
L2 =
v s 2 y
F
a (2),v 2 , v 1
In Example 9.1, s2/s2 = 1,42, F005(2)107 = 4,76, and F0 05(2) 7 10 = 3,95 . Therefore, we would calculate L1=0,298 and L2=5,61, and we could state
ŕ
0,298 < 5,61
v y
0,95
VÝUKA: Biostatistika -základní kurz
CENTRUM BIOSTATISTIKY A ANALÝZ