logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Spojitá a kategoriální data
Základní popisné statistiky
Frekvenční tabulky
Grafický popis dat
2. Základní typy dat

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Anotace
—Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami,
nevýhodami a vlastní sadou využitelných statistických metod – od binárních přes kategoriální,
ordinální až po spojitá data roste míra informace v nich obsažené.
—Základním přístupem k popisné analýze dat je tvorba frekvenčních tabulek a jejich grafických
reprezentací – histogramů.

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Typy proměnných (dat)
Binární = dummy data
Proměnná, která může nabývat pouze dvou hodnot. Bývá definovaná odpovědí na otázku (např. TRUE ×
FALSE, 1 × 0).
Nominální = kategoriální data
Proměnná, která může nabývat počtu hodnot (n ∊ ℕ), pro které neexistuje přirozené pořadí (např.
barvy vzorků).
Ordinální data
Nominální proměnná, pro kterou ale existuje jasné pořadí kategorií (např. velikost oděvů S, M, L,
XL).
Kardinální data
Kardinální proměnné odpovídají počtům něčeho. Hodnoty jsou od sebe stejně vzdálené (např. počet
dětí v rodině).
Intervalová data
Obvykle spojitá proměnná, u které lze určit rozdíl mezi kategoriemi – často jde o vzdálenost od 0
(např. teplota ve °C, čas).
Poměrová data
Intervalová proměnná, u které má smysl určovat podíly jednotlivých kategorií (např. hmotnost,
vzdálenost).

logo-IBA
Spojitá data
Diskrétní data
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Jak vznikají informace ?
– různé typy dat znamenají různou informaci
Kolikrát ?
Podíl
hodnot větší/menší než specifikovaná
hodnota
?
O kolik ?
Větší, menší ?
Rovná se ?
Procenta odvozené hodnoty
Data poměrová
Data intervalová
Data kardinální
Data ordinální
Data nominální
Data binární
Kategoriální otázky
Otázky „Ano/Ne“
Samotná znalost typu dat ale na dosažení informace nestačí…

logo-IBA
Spojitá data
Diskrétní data
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Jak vznikají informace ?
– různé typy dat znamenají různou informaci
Data poměrová
Data intervalová
Data kardinální
Data ordinální
Data nominální
Data binární
Samotná znalost typu dat ale na dosažení informace nestačí…
PRŮMĚR
MEDIÁN
MODUS
X
Y = f

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Základní soubor × výběr (vzorek)
—Parametry základního souboru jsou obvykle dané, ale neznáme je (např. průměr, směrodatná
odchylka).
—Pro odhad parametrů základního souboru používáme tzv. výběrové charakteristiky založené na našem
omezeném výběru (vzorku).
Rozptyl (základní):
Rozptyl (výběrový):

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Jak vznikají informace ?
– základní popisné statistiky
Průměr (výběrový):
Rozptyl (výběrový):
p-tý kvantil
Medián:
Data:
Směrodatná odchylka (výběrová):
Modus:

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
JAK vznikají informace ?
- opakovaná měření informují rozložením hodnot
KOLIK se naměřilo
CO se naměřilo
Diskrétní data Spojitá data
y
x
y
x
X: měřený znak
Y: frekvence              - absolutní / relativní

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
X: Průměrný počet výrobků v prodejně
Y: Odhad prostoru průměrně nabízeného k vystavení výrobku
X:  1,2  :  (1,15 - 1,24)
Y:  1,8  :  (1,75 - 1,84)
X/Y = 0,667 :
1,15
1,84
1,24
1,75
(
)
Odvozená data: Pozor na odvozené indexy
Znak X: Hmotnost
Znak Y: Plocha
Příklad I:
Příklad II:
+ / - 3,8 %
+ / - 2,5 %
+ / - 6,2 %
průměr
(min - max)
:
-
Nová veličina má jinou šířku rozpětí než ty, ze kterých je odvozená

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
N: 100 dětí (hemofiliků)
x: znak: počet krvácivých epizod za měsíc
n(x) – absolutní četnost x
N(x) – kumulativní četnost hodnot nepřevyšujících x; N(x) = S n(t)
p(x) – relativní četnost; p(x) = n(x) / n
F(x) – kumulativní relativní četnost hodnot nepřevyšujících x; F(x) = N(x) / n
Jak vznikají informace ?
- frekvenční tabulka jako základní nástroj popisu
Primární data
Frekvenční sumarizace
x
n(x)
N(x)
p(x)
F(x)
0
20
20
0,2
0,2
1
10
30
0,1
0,3
2
30
60
0,3
0,6
3
40
100
0,4
1,0
0
0
1
2
1
1
3
1
1
2
.
.
.
.
.
.
n = 100
t Ł x
DISKRÉTNÍ DATA

logo-IBA
n(x)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Jak vznikají informace ?
 Grafické výstupy z frekvenční tabulky
x
p(x)
x
N(x)
x
F(x)
x
3
2
1
0
0
1
2
3
0
1
2
3
0
1
2
3
10 -
20 -
30 -
20 -
40 -
60 -
0,1 -
0,2 -
0,3 -
0,2 -
0,4 -
0,6 -

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Jak vznikají informace ?                                                                      -
frekvenční tabulka jako základní nástroj popisu
—Příklad: x: koncentrace látky v krvi n = 100 pacientů
Primární data
Frekvenční sumarizace
n = 100 opakovaných měření (100 pacientů)
x: koncentrace sledované látky v krvi (20 – 100 jednotek)
d(l) – šířka intervalu
n(l) – absolutní četnost
n(l) / n – intervalová relativní četnost
N(x’’) – intervalová kumulativní četnost do horní hranice X’’
F(x’’) – intervalová relativní kumulativní četnost do horní  hranice X’’
interv
d(l)
n(l)
n(l)/n
N(x’’)
F(x’’)
<20, 40)
20
20
0,2
20
0,2
<40, 60)
20
10
0,1
30
0,3
<60, 80)
20
40
0,4
70
0,7
<80, 100)
20
30
0,3
100
1,0
1,21
1,48
1,56
0,31
1,21
1,33
0,33
.
.
.
n = 100
SPOJITÁ DATA

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Jak vznikají informace ?                                                                    -
frekvenční sumarizace spojitých dat
x
x
  F(x)
Intervalová relativní kumulativní četnost
Histogram
Výběrová distribuční funkce
  f(x)=
Intervalová hustota četnosti
20
40
60
80
100
Plocha: n(l) / n
n(l) / n
d(l)

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Počet zvolených tříd a velikost souboru určují kvalitu výstupu
k = 10 tříd
k = 5 tříd
     1,5   2,0  2,5  3,0   3,5  4,0  4,5   5,0
  1        2       3       4       5
k = 20 tříd
 1,0                 2,0                     3,0                  4,0                   5,0

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Histogram vyjadřuje tvar výběrového rozložení
x
x
x
x
x
f(x)
f(x)
f(x)
f(x)
f(x)

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Příklad: věk účastníků vážných dopravních nehod
Věk (roky)
Věk (roky)
Správný histogram ?
Správný histogram ?
 Věk
 0 - 4
 5 - 9
10 - 15
16 - 19
20 - 24
25 - 59
  > 60
f
28
46
58
20
114
316
103
Plocha histogramu odpovídá počtu případů (pokud jde o pravděpodobnost, je plocha 1).
Kategorie na ose x nemusí být ekvidistantní.

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Pojem ROZLOŽENÍ - příklad spojitých dat
j(x)
0
F(x)
Rozložení
x
Distribuční funkce
0
Je - li dána
 distribuční funkce,
 je dáno rozložení
x

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Výběrové rozložení hodnot lze modelově popsat  a odhadnout tak pravděpodobnost výskytu X
f(x)
x
f(x)
x
f(x)
x
j(x)
j(x)
j(x)

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Distribuční funkce jako užitečný nástroj pro práci s rozložením
x
j(x)
1,00
F(x)
F(x) … distribuční funkce
x1      x2
Známe-li distribuční funkci, pak známe rozložení sledované veličiny.
Pro jakoukoli množinu hodnot (M) lze určit P, že X do této množiny patří.
Plocha = relativní četnost
x
j(x)

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Jak vznikají informace ?
- frekvenční sumarizace spojitých dat
—Grafické výstupy z frekvenční tabulky – spojitá data
f(x)
x
F(x)
x
KVANTIL
20
40
60
80
100
Uspořádání čísel podle velikosti a konstrukce rozložení umožňuje pravděpodobnostní zařazení každé
jednotlivé hodnoty
X0.1; X0.9; X0.5; Xq

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Otázka: Jak velké musí být X, aby 5 % všech hodnot bylo nad ním?
X0,95  x
j(x)
0,95
F(x)
Hledáme:  P(X > xq) = 0,95 = q
xq = (x0,95) = ?
q = 0,95 … pravděpodobnost
Jakékoliv číslo na ose x je kvantilem*
5 %
F (xq ) = q
Kvantil je číslo, jehož hodnota distribuční funkce je rovna P,
pro kterou je kvantil definován
* za předpokladu omezeného definičního oboru distribuční funkce