1
Statistické metody a zpracování dat
II. Popisné statistické metody
Petr Dobrovolný
Popisné (deskriptivní) metody
Deskriptivní metody:
1. přehledné vyjádření výsledků pomocí četnostních tabulek a
grafů
2. Výpočty a grafické znázornění základních popisných
statistických charakteristik
Činíme závěry pouze z určitého zpracovávaného souboru ­ výběrového,
popisujeme jen to, co bylo zjištěno, bez zobecňování
Popisná statistika společně s tzv. explorační (průzkumovou)
analýzou dat obvykle tvoří počátek vlastní statistické analýzy.
Rozdělení četností
* Statistické údaje jednotlivých statistických souborů pro další
zpracování uspořádáváme
* U jednotek statistického souboru můžeme na základě kvantitativních
hodnot zjišťovat jejich četnost ­ frekvenci.
* Četnost - počet prvků se stejnou hodnotou statistického znaku
* Používáme ho pro nespojité znaky a při malém počtu variant (počet
členů domácnosti).
Příklad:
U 20 náhodně vybraných domácností byl sledován počet členů
domácnosti: 1,3,4,3,4,3,3,2,2,1,1,2,2,1,4,5,4,3,2,2
14564četnost
54321Počet členů
Skupinové rozdělení četností
* Pro spojité znaky udáváme počet prvků s hodnotami znaku patřícími do
určitého intervalu (třídy).
* Jednotky statistického souboru roztřídíme podle velikosti do několika
intervalů.
* Dolní a horní hranice (mez) intervalu udává, jakou nejmenší a největší
hodnotu znaku do daného intervalu zařadíme.
* Délka či šířka intervalu je kladný rozdíl dvou po sobě následujících
dolních (horních) mezí.
* Krajní interval může být otevřený (neuzavřený).
* U skupinového rozdělení četností zastupuje hodnoty znaku střed
intervalu (xs).
Skupinové rozdělení četností
Zásady pro stanovení hranic intervalů:
* každý interval je určen horní a dolní hranicí
* každý interval musí být vymezen tak, abychom mohli každý prvek
jednoznačně zařadit
* intervaly se nesmí překrývat
* má-li být rozdělení četností použito k výpočtu dalších statistik, musí
mít intervaly stejnou šířku
* šířka intervalu nesmí být velká ­ aby nesetřela zvláštnosti rozdělení
hodnot, ale ani malá ­ aby nevzniklo více intervalů s nulovou četností
(optimum 5 ­ 20).
* počty intervalů (m) lze určovat subjektivně i pomocí vzorců:
nm log5nm
m = 1 + 3,3 log10(n)Sturgesovo pravidlo
2
Četnosti
* absolutní
* relativní
* kumulované
Interval hodnot Četnost Kumulovaná
dolní mez horní mez střed absolutní relativní absolutní relativní
7,01 7,50 7,25 6 0,027 6 0,027
7,51 8,00 7,75 7 0,032 13 0,059
8,01 8,50 8,25 22 0,100 35 0,158
8,51 9,00 8,75 33 0,149 68 0,308
9,01 9,50 9,25 41 0,186 109 0,493
9,51 10,00 9,75 49 0,222 158 0,715
10,01 10,50 10,25 40 0,181 198 0,896
10,51 11,00 10,75 15 0,068 213 0,964
11,01 11,50 11,25 8 0,036 221 1,000
Suma 221 1
Vícerozměrné rozdělení četností
* třídění se realizuje podle dvou či více znaků
* tzv. kombinační tabulka
* slouží ke zkoumání závislostí studovaných znaků
(korelační tabulka)
* pokud znaky nabývají pouze dvou hodnot - asociační
tabulka
Grafické znázornění rozdělení četností
* Pravoúhlá soustava souřadnic, osa x ­ intervaly hodnot
znaku, osa y ­ četnosti hodnot
* Histogram ­ typ sloupkového diagramu
* Polygon ­ spojnicový diagram
* Čára kumulovaných četností ­ součtová čára, četnosti
vynášíme k horní hranici intervalu
* Graf relativních kumulovaných četností umožňuje odvození
kvantilů
Histogram
Polygon
Speciální typy četnostního zpracování - Věková struktura
obyvatel (strom života)
Histogram
0
10
20
30
40
50
7,50
8,00
8,50
9,00
9,5010,0010,5011,0011,50
Třídy
Četnost
,00%
20,00%
40,00%
60,00%
80,00%
100,00%
Četnost Kumul. %
Součtová čára Popisná statistika
* jednoduše popsat chování statistického souboru dat (kondenzace dat)
* porovnat více souborů mezi sebou
K čemu je to dobré?
Jednoduchý příklad: Vystihnout průměrnou teplotu vzduchu lokality
za určité období
Složitý příklad: Vystihnout průměrné chování lidí nakupujících
v určitém supermarketu
3
Základní statistické charakteristiky
* z reálných hodnot
* ze skupinového rozdělení četností (reálné hodnoty seskupené
do intervalů)
* Charakteristiky úrovně
* Charakteristiky variability
* Charakteristiky asymetrie
* Charakteristiky špičatosti
Výchozí data ­ způsob výpočtu
Charakteristiky úrovně
(střední hodnoty, míry polohy, míry centrální tendence)
Jedná se o čísla, která reprezentují jednotlivé hodnoty
statistického znaku, udávají polohu, charakterizují obecnou
velikost jevu.
Aritmetický průměr ­ úhrn hodnot kvantitativního
statistického znaku dělený rozsahem souboru. Statistický znak
X nabývá hodnot x1, x2, ...xn. Aritmetický průměr bude:
n
x
x
n
i
i=
= 1
Vlastnosti aritmetického průměru
* součet kladných odchylek se rovná součtu odchylek
záporných
* suma čtverců odchylek od průměru je vždy menší než
suma čtverců odchylek od jakékoliv jiné hodnoty
* přičteme-li ke všem hodnotám znaku konstantu,
průměr se zvětší o tuto konstantu
* znásobí-li se všechny hodnoty znaku konstantou k ,
průměr se k-krát zvětší
* průměr součtu dvou proměnných se rovná součtu obou
průměrů
Vlastnosti aritmetického průměru
* Aby aritmetický průměr vhodně vystihoval úroveň studovaného
souboru rozdělení hodnot znaku musí být jednovrcholové.
* Aritmetický průměr má smysl jen tehdy, jestliže má nějaký smysl
součet hodnot.
* Průměr, pokud je uvedený samotný, může být silně zavádějící.
* Geometricky si lze aritmetický
průměr představit jako těžiště.
* Průměr musí být typický (většina
hodnot je blízká průměru).
* Typický je tehdy, blíží-li se
nejčetnější hodnotě.
Aritmetický průměr
Skládá-li se soubor z k skupin o rozsazích ni s průměry
platí pro celkový průměr souboru:
ix


=
=
= k
i
i
k
i
ii
n
nx
x
1
1
Vážený aritmetický průměr


=
=
=
+++
+++
= k
i
i
k
i
ii
k
kk
n
nx
nnnn
nxnxnxnx
x
1
1
321
332211
...
...
Vážený aritmetický průměr
Příklady použití:
* k výpočtu aritmetického průměru z rozdělení četností
* shlazování časových řad
* výpočet množství studovaného prvku v ploše (váha ­ plocha
území v rozmezí intervalu izolinií
* výpočet průměrné denní teploty vzduchu
0
10
20
30
40
50
1961 1966 1971 1976 1981 1986
4
Geometrický průměr
n-tá odmocnina součinu z řady hodnot znaku. Používá se u
souborů, jejichž hodnoty tvoří geometrickou posloupnost.
Prostý geometrický průměr
Vážený geometrický průměr
n
ng xxxxx ...321 =
n n
n
nnn
gv
n
xxxxx ...321
321 =
Použití:
* počítá se pouze z hodnot, které jsou kladné
* v případě, kdy má smysl součin hodnot studovaného jevu
* k určení tzv. tempa růstu v časových řadách.
* obvykle se používá pro veličiny měřené na logaritmické stupnici.
Geometrický průměr - příklad
Růst cen určitého zboží byl postupně 20 %, 10 %, poté 15 % pokles a
10 % růst.
Potom průměrný růst je roven (1,20  1,10  0,85  1,10)1/4  1,054, tzn.
průměrný růst je přibližně 5,4 %.
10x
11,042006/2005
31,052002-2005
11,072002/2001
51,041996-2001
počet roků (ni)roční koef. růstuobdobí
Koeficienty růstu produkce závodu pro jednotlivá období:
046,104,105,107,104,1... 1315
321
321
=== n n
n
nnn
gv
n
xxxxx
Průměrný koeficient růstu produkce závodu za posledních 10 roků je 4,6%
Geometrický průměr - příklad použití:
Nalezení průměrného přírůstku obyvatel, kdy populace na určité ploše
roste geometricky
časový okamžik počet jedinců
t1 3 000
t2 9 000
t3 27 000
Geometrický průměr je vhodný pro použití v situacích, když je rozdělení
hodnot asymetrické a logaritmická transformace jej opět vrací k symetrii.
Harmonický průměr
Počet jednotek souboru dělený součtem reciprokých hodnot. Používá se
pro charakterizování průměrné rychlosti změny ­ k popisu intenzitních
ukazatelů.
Prostý harmonický průměr
Vážený harmonický průměr
=
=
+++
= n
i in
h
x
n
xxxx
n
x
1321
11
...
111


=
=
= k
i i
i
k
i
i
hv
x
n
n
x
1
1
Používá se tam, kde má smysl sčítat převrácené hodnoty.
Harmonický průměr ­ příklady použití
Výpočet celkové průměrné rychlosti dojíždějících do centra.
Vzhledem k rozdílné dopravní propustnosti, průměrná rychlost se výrazně
mění na jednotlivých úsecích cesty.
K výpočtu celkové průměrné rychlosti je pak vhodnější využít
harmonického průměru
Dostupnost místa:
* z bodu A........ 30 min.
* z bodu B........ 20 min.
* z bodu C........ 6 min.
min12
5
1
15
3
10
1
2
1
3
1
3
1
...
111
321
===
++
=
+++
=
n
h
xxxx
n
x
Harmonický průměr ­ příklady použití
Příklad 2: Určení průměrné rychlosti tzv. geostrofického větru ze vzdáleností
dvou izobar
5
Kvadratický průměr
Prostý kvadratický průměr
Vážený kvadratický průměr
n
x
n
xxxx
x
n
i
i
n
k
=
=
+++
= 1
2
22
3
2
2
2
1 ...


=
=
=
++
+++
= k
i
i
k
i
ii
k
kn
kv
n
nx
nnn
nxnxnxnx
x
1
1
2
21
2
3
2
32
2
21
2
1
...
...
Nahrazuje individuální hodnoty řady tak, že se nemění součet jejich čtverců
kgh xxxx <<<
Pokud hodnoty znaku x nejsou stejné, potom platí:
Modus x^
* Nejčetnější (typická) hodnota kvantitativního znaku
studovaného souboru
* U rozdělení četností ­ modální interval závisí na šířce intervalů
(subjektivní vliv ­ modus je nestabilní hodnota).
* V grafu frekvenční funkce je modus hodnota, ve které tato
dosahuje vrcholu.
* Má velký význam u nespojitých veličin a u kvalitativních
znaků. Umožňuje popisovat nominální data (Auto je nejčastěji
využívaným dopravním prostředkem).
Modus - příklad použití:
Určení dominantní třídy v rámci studované plochy
Aritmetický průměr: 4
Modus: 3
Modus - vlastnosti:
* Některá rozdělení mohu mít více modů ­ např. bimodální.
Takovéto soubory mají dva mody. A nebo žádná hodnota
nemusí dominovat.
* Výhodné je použití modu při porovnání souborů, pokud jde o
typické hodnoty znaku.
* Výpočet modu z rozdělení četností:
21
2
^
nn
n
hLx
+
+=
kde L je dolní hranice modálního intervalu, h je šířka modálního
intervalu n1 je četnost intervalu předcházejícího před modálním
intervalem a n2 četnost intervalu následujícího za modálním
Medián x~
* Medián je prvek řady, uspořádané v neklesajícím pořadí, který ji
dělí tak, že polovina prvků má hodnotu větší, druhá polovina
větší, než je hodnota mediánu.
* Medián není ovlivněn extrémními hodnotami, ale jejich počtem.
* Porovnáním mediánu dvou souborů lze získat informaci o
tendenci k vyššímu (nižšímu) výskytu extrémních hodnot.
* Někdy lépe charakterizuje úroveň souboru než průměr.
* Lze ho stanovit z řady uspořádaných hodnot a nebo ho určit
z rozdělení četností.
Kvantily
* Medián dělí statistický soubor na
poloviny.
* Analogickým dělením souboru na více
částí získáme kvantily ( kvartily, decily
percentily)
Dolní kvartil
Horní kvartil 75
~x
25
~x
Medián i kvantity lze snadno určit z čáry
kumulovaných četností
Geografický medián ­ linie rozdělující
plochu, na níž se vyskytuje studovaný
jev na dvě části, tak aby hodnota jevu
byla v obou částech stejná.
6
Aritmetický střed
* Aritmetický průměr min. a max. hodnoty znaku.
* Extrémy se často značně liší od ostatních hodnot ­ jsou netypické,
často nahodilé, mají však význam samy o sobě.
2
minmax xx
xst
+
=
Useknutý (trimmed) průměr
4
~~2~
~ 75,05,025,0 uuu
uT
++
=
Použití měr centrální tendence
Aritmetický průměr použijeme:
* pro data intervalová a poměrová, ne pro data kategoriální
* je-li rozdělení symetrické
* hodláme-li použít statistických testů
Medián použijeme v případech, kdy:
Modus použijeme v případech, kdy:
* data jsou získána minimálně v ordinálním měřítku
* chceme znát střed rozdělení dat
* data mohou obsahovat odlehlé hodnoty
* je-li rozdělení silně zešikmené
* data jsou získána minimálně v ordinálním měřítku
* má-li rozdělení více vrcholů
* chceme-li o rozdělení získat jen základní přehled
* míníme-li slovem ,,průměrný" nejčastější hodnotu
Kritéria pro výběr nejvhodnější míry úrovně
Závisí na těchto faktorech
* vlastnostech použité míry úrovně
* typu řešené úlohy
* typu rozložení dat
Omezení spočívají v porovnávání průměrů dvou výběrových souborů bez
ohledu na tvar rozložení.
Dva soubory se shodnou hodnotou aritmetického průměru mohu mít
zcela odlišné rozložení hodnot.
Je nutné uvažovat také charakteristiky popisující míry proměnlivosti a
koncentrace kolem střední hodnoty
Omezení měr úrovně
Charakteristiky variability
* Popisují stupeň proměnlivosti
statistického znaku v daném statistickém
souboru.
* Vypovídají také o tom, jak dobře
vystihuje použitá míra úrovně jednotlivé
hodnoty souboru.
Míry variability
* založené na vybraných hodnotách znaku v souboru
* založené na všech hodnotách znaku v souboru
Charakteristiky variability
Variační rozpětí minmax xxR -=
Kvantilové odchylky ­ kladné odchylky jednotlivých kvantilů
(kvartilová, decilová, percentilová odchylka).
( ) ( )
2
~~
2
~~~~
25752575 xxxxxx
Q
-
=
-+=Kvartilová
odchylka
Variační rozpětí a kvantilové odchylky nejsou založeny na
všech hodnotách studovaného souboru ­ neberou tedy ohled na
rozdělení hodnot
Průměrné odchylky
* Jsou definovány jako aritmetický průměr absolutních odchylek
jednotlivých hodnot znaku od střední hodnoty.
* Absolutní hodnota odstraňuje kompenzaci kladných a záporných
odchylek.
* Ukazují na odlišnost prvků od střední hodnoty.
Průměrná odchylka od průměru n
xx
d
n
i
i
x
=
=
1
Z rozdělení četností se průměrná odchylka od průměru počítá formou
váženého aritmetického průměru absolutních odchylek ­ jako váhy se
používají četnosti ni:


=
=
=
k
i
i
i
k
i
i
x
n
nxx
d
1
1
7
Střední diference
* Aritmetický průměr absolutních hodnot všech možných
vzájemných rozdílů n jednotlivých hodnot studovaného znaku x.
* Je vhodnou mírou variability znaku u souborů s malým
rozsahem.
)1(
1 1
-
-
=
= =
nn
xx
n
i
n
j
ji
Nejpoužívanější míry variability jsou
založeny na všech hodnotách souboru
Rozptyl s2
Je definován jako průměr ze čtverců odchylek jednotlivých
hodnot znaku od jejich aritmetického průměru:
Rozptyl měří velikost proměnlivosti, avšak v jednotkách čtverců
odchylek.
Výpočet rozptylu ze skupinového rozdělení četností:
n
xx
s
n
i
i=
=
1
2
2
)(


=
=
=
k
i
i
k
i
is
n
nxx
s
1
1
2
2
)(
kde xs jsou středy intervalů a k je počet intervalů.
Směrodatná odchylka
* Druhá odmocnina z rozptylu.
* Je vyjádřením proměnlivosti v jednotkách původních dat. Je
absolutní mírou variability.
* Má největší použití pro porovnání proměnlivosti více souborů.
* Má velký význam pro vymezení třídních intervalů za
předpokladu normálního rozdělení.
n
xx
s
n
i
i=
=
1
2
)(


=
=
=
k
i
i
k
i
is
n
nxx
s
1
1
2
)(
Výpočet směrodatné odchylky ze skupinového rozdělení četností:
Vlastnosti rozptylu a směrodatné odchylky
* Rozptyl hodnot znaku v celém souboru se rovná součtu
aritmetického průměru skupinových rozptylů a rozptylu
skupinových průměrů.
* Přidáním konstanty k jednotlivým znakům se jejich rozptyl
ani směrodatná odchylka nemění.
* Násobíme-li jednotlivé znaky konstantou, jejich rozptyl je
násoben čtvercem této konstanty a směrodatná odchylka je
násobena touto konstantou.
* Násobíme-li váhy konstantou, rozptyl ani směrodatná
odchylka se nemění.
(Modifikace výpočtu rozptylu a směrodatné odchylky pro základní soubor ­ viz.
odhady parametrů)
Variační koeficient
* Nejpoužívanější relativní míra proměnlivosti.
* Poměr směrodatné odchylky k průměru (směrodatná odchylka
vyjádřená v procentech průměru):
100=
x
s
v
Slouží k porovnání proměnlivosti více souborů o nestejné
úrovni (průměru).
Příklad:
Charakteristiky naměřené na dvou objektech mají stejnou
směrodatnou odchylku avšak výrazně jiný aritmetický průměr
hodnot.
Charakteristika Stanice č. 1 Stanice č. 2
X1 6 56
X2 8 58
X3 10 60
X4 12 62
X5 16 66
X6 18 68
Aritmetický průměr 11,67 61,67
Směrodatná odchylka 4,23 4,23
Variační koeficient 39,5 7,5
8
Charakteristiky asymetrie - šikmosti
(SKEWNESS)
Charakterizují nesouměrnost rozdělení četností. Dávají představu
o tvaru rozdělení.
Míry šikmosti založené na variačním rozpětí
Míry šikmosti založené na rozpětí kvantilů
Koeficient asymetrie 
Aritmetický průměr z třetích mocnin odchylek jednotlivých hodnot
znaku od aritmetického průměru vyjádřených v jednotkách
směrodatné odchylky.
Pro ideálně symetrické rozdělení nabývá hodnoty 0.
Ze skupinového rozdělení četností se koeficient asymetrie vypočte:
( ) ( )
3
1
3
1
3
1
3
sn
xxn
ns
xxn
k
i
ii
k
i
i
k
i
ii

-
=
-
=


 =
=
=

Umožňuje objektivní porovnání dvou histogramů.
Koeficient asymetrie 
Podle hodnoty koeficientu asymetrie rozlišujeme rozdělení
* souměrné  = 0
* sešikmené doprava (záporná asymetrie)  < 0
* sešikmené doleva (kladná asymetrie)  > 0
Charakteristiky špičatosti (KURTOSIS)
* Popisují koncentraci prvků souboru v blízkosti určité hodnoty
znaku.
* Dávají představu o rozdělení s ohledem na jeho ,,špičatost" či
,,plochost".
* Vyšší hodnoty charakteristik špičatosti mají soubory, u kterých
jsou prvky souboru více koncentrovány kolem uvažované
hodnoty znaku.
Míra koncentrace kolem mediánu
2575
minmax
~~ xx
xx
K
-
-
=
Koeficient špičatosti (exces) 
Průměrná hodnota součtu čtvrtých odmocnin odchylek hodnot
znaku od průměru měřených v jednotkách směrodatné
odchylky.
Jedná se o bezrozměrné číslo. Ze skupinového rozdělení četností
se koeficient špičatosti vypočte:
( )
34
1
4
-

-
=
=
sn
nxx
k
i
ii

Špičatost (resp. plochost) rozdělení je tím větší, čím více se
hodnota  odlišuje od nuly.
Koeficient špičatosti (exces) 
Podle hodnoty koeficientu špičatosti rozlišujeme rozdělení
1. kladně zašpičatělé (špičaté)  > 0
2. normálně zašpičatělé  = 0
3. záporně zašpičatělé (ploché)  < 0
Obě uvedené míry dávají informaci o tom, do jaké míry se
rozdělení studovaného souboru liší od normálního. Mají využití
v aplikacích tzv. parametrických testů.
9
Průzkumová analýza dat
(EDA - Exploratory Data Analysis)
* Souhrn metod popisné statistiky, které předchází vlastnímu
statistickému zpracování.
* Cílem je ověřit některé vlastnosti vstupního datového souboru, které
jsou nezbytnými předpoklady pro vlastní statistické metody
zpracování.
* EDA se zaměřuje na grafické a tabelační znázorňování dat
* Každá analýza by měla začínat pečlivým zkoumáním struktury dat
Průzkumová analýza dat
(EDA - Exploratory Data Analysis)
EDA zahrnuje především:
* výpočet charakteristik úrovně a variability
* analýzu odlehlých hodnot
* studium histogramu s cílem ověření normality rozdělení
* konstrukci grafů
* ověření homogenity vstupních dat
* ověření stacionarity vstupních dat
Výsledkem EDA je závěr o event. potřebě transformace vstupních dat
Transformace dat
Cíle: úprava dat pro následnou analýzu, splnění
požadavků některých statistických metod, zjednodušení
výpočtu, ...
* funkční transformace
* standardizace
* transformace do pořadí
* transformace na percentily, ...
Krabicový graf (Box plot)
Krabicový graf ­ porovnání více souborů