1
Popisná statistika
(Descriptive statistics)
Výsledkem měření je soubor n naměřených hodnot vytvářející datový soubor D = {xi}. V datovém
souboru se mohou vyskytovat tytéž hodnoty i vícekrát, zejména tehdy, mají-li veličiny diskrétní
(nespojitou) povahu (počet rohlíků).
Pokud chceme tento soubor dat blíže popsat, použijeme některý z instrumentů tzv. popisné statistiky.
1 Váha
Pokud není kvalita jednotlivých pozorování stejná, je užitečné ji popsat nezáporným číslem tzv.
vahou - wi. Váha se vztahuje vždy k jednomu, konkrétnímu měření, proto ji nezaměňujte s četností
příslušného výsledku. Váha většinou souvisí s odhadem tzv. vnitřní nejistoty určení hodnoty konkrétního
měření - δxi:
2
~
ii xw .
Zkušenost ukazuje, že zavedením vah se globální charakteristiky souboru obvykle změní jen nevýznamně,
a proto je třeba si předem rozmyslet, zda váhy při výpočtech vůbec použijeme.
Váhy bychom neměli použít v případě, kdy se ukáže, že očekávaná nejistota jednotlivých měření
v souboru je výrazně menší, než jejich celkový rozptyl v rámci souboru. Naopak jsme je povinni použít
pokud jsou deklarovány, tedy zejména při transformaci měřených veličin nějakou nelineární funkcí
(log x, 1/x) nebo při některých robustních metodách zpracování výsledků.
Zaveďme si sumu vah Sw a střední váhu ws:
n
i
w
i
n
i
siw
n
S
w
n
wwS
11
.
1
,
2 Míra polohy
Nejznámější a nejpoužívanější mírou vztahující se ke středu studovaného datového souboru je tzv.
aritmetický průměr, často jen průměr (arithmetic mean, mean), případně váhovaný průměr (weighted
mean):
n
i
ii
w
n
i
i wx
S
xx
n
x
11
.
1
,
1
Důležitou vlastností průměru je fakt, že: .0)(resp.,0)( iii wxxxx
Geometrický průměr (geometric mean):
W n
n
S www
G
n
nG xxxxxxxx ...... 2
2
1
121 .
Harmonický průměr (harmonic mean):
n
i
ii
w
H
n
i
iH wx
S
xx
n
x
1
11
1
11 1
,
1
.
Kvadratický průměr (quadratic mean):
2
n
i
ii
w
n
i
i wx
S
xx
n
x
1
22
1
22 1
,
1
.
Pro další charakteristiky je vhodné soubor {xi} případně {xi, wi} seřadit podle velikosti xi.
Kvantil (quantile) určený číslem p, 0
, pro nějž platí, že pn hodnot
souboru je menších než x a (1 – p) n větších. Vážený kvantil (weighted quantile) se vztahuje
k vahám. Pokud je zkoumaný soubor vzorkem nějakého většího souboru, pak kvantil p(x) je odhadem
pravděpodobnosti, že nějaké náhodně vybrané číslo ze souboru bude menší než zvolená hodnota
x. Rozdíl p(xa) - p(xb) pak udává odhad pravděpodobnosti, že se takové číslo vyskytne
v intervalu . Je-li p vyjádřeno v procentech, pak se kvantilu říká percentil (percentile).
Zvláštní význam má kvantil pro p = 0,5 (50 %), nazývaný medián, první kvartil (first quartile) - p =
0,25 (25 %) a třetí kvartil (third quartile) – p = 0,75 (75 %).
Výše naznačený předpis je jen rámcový, pro algoritmus výpočtu kvantilů je nutno být konkrétnější.
Výhodné je k tomu definovat si tzv. kumulativní distribuční funkci, případně váhovanou kumulativní
distribuční funkci (x), která vyjadřuje závislost kvantilu p na měřené veličině x. Kumulativní distribuční
funkce (x) je představována lomenou čarou s uzlovými body v {xi, pi}.
Pro pi platí: p1 = 1/(2 n), pi = pi-1 + 1/n pi = (1+2 i)/(2n) pro x < x1 je hodnota p rovna nule, pro x >
xn je funkce rovna 1. Obdobně pak váhovaná kumulativní distribuční funkci (x) je představována
lomenou čarou s uzlovými body v {xi, pi}. Pro pi platí: p1 = w1/(2 Sw), pi = pi-1 + (wi-1+wi)/(2 Sw), pro x
< x1 je hodnota p rovna nule, pro x > xn je funkce rovna 1.
Medián (median) x~ nebo váhovaný medián – je oblíbená robustní míra polohy centra souboru, jež
prakticky nezávisí na výskytu „odlehlých“ bodů. Z výše uvedené definice funkce (x) plyne, že je-li
n liché číslo (n=2m+1), pak mxx ~ , je-li sudé číslo (n=2m), pak 2/)(~
1 mm xxx .
Ořezaný průměr (trimmed mean) ),( pDxT – robustní odhad polohy centra – je jistým kompromisem
mezi aritmetickým průměrem a mediánem. Jako parametr se používá veličina p vyjádřená
zpravidla v procentech (nejčastěji 10 %). Ze seřazený soubor dat odstraníme round(p/2) nejvyšších
a stejný počet nejnižších hodnot a ze zbytku vypočteme aritmetický průměr. Pro p = 0 jde o prů-
3
měr, pro p 100% o medián. U váhovaných veličin je definice ořezaného průměru poněkud vágní
a proto se běžně nepoužívá.
Modus – je-li nejčetněji zastoupená hodnota (nebo hodnota s největší vahou) – bývá u diskrétních
výsledků měření, nebo v určitých intervalech – nejpohodlněji ji lze odečíst z histogramu (viz 1.2)
3 Míry rozptýlení, distribuční funkce
Nejčastější mírou rozptýlení dat kolem centra je takzvaný rozptyl (variance) s2
nebo směrodatná
odchylka (standard deviation) s.
.)(
1
,)(
1 22
1
2222
1
22
xxwxx
S
sxxxx
n
s
n
i
ii
w
n
i
i
Centrem rozptýlení je zde aritmetický průměr. Dokažte, že právě pro něj nabývá funkcionál
iii waxaSaxaS 22
)()(resp.,)()( , svého minima.
Robustní třídou měr rozptýlení je tzv. střední velikost odchylky (mean absolute deviation – MAD),
respektive vážená střední velikost odchylky (weighted mean absolute deviation – WMAD), centrovaná
k a, nejčastěji pak aritmetickému průměru nebo k mediánu:
.
1
)(
1
)(
11
i
n
i
i
w
n
i
i wax
S
awmadax
n
amad
Lze ukázat, že pro xa ~ je hodnota mad(a), resp. wmad(a), minimální.
Celkové rozpětí (total range) daný rozdílem mezi největším a nejmenší naměřenou hodnotou.
Mezikvartilní rozpětí (interquartile range), což je rozdíl mezi 3. a 1. kvartilem slouží jako robustní
odhad rozptýlení, neboť se vztahuje na vnitřní část rozdělovací křivky.
Nejinstruktivnějším vyjádřením distribuční funkce je u diskrétních veličin tzv. tyčkový graf,
v případě spojitých veličin pak histogram (histogram). Celý interval pokrytý daty se rozdělí na
vhodný počet nh ekvidistantních intervalů a počítá se počet (četnost), respektive suma vah dat
k nim příslušejících. Graficky se potom distribuční funkce znázorní sloupcovým diagramem. Doporučený
počet sloupců pro n měření udává Sturgesovo pravidlo:
nnh log3,31 .
4
4 Normální rozdělení
Výjimečné postavení mezi rozdělovacími funkcemi má tzv. normální rozdělovací funkce, zvaná též
Gaussova funkce, odpovídají rozdělení zcela náhodných veličin. Funkce hustoty pravděpodobnosti
f(x) je normovaná na 1 a je popsána dvojicí parametrů a :
2
2
2
)(
exp
2
1
)(
x
xf .
„Gaussův Říp“ je přísně symetrický podle osy x = , kterážto hodnota je současně aritmetickým
průměrem, mediánem i modem souboru podřizujícímu se normálnímu rozdělení. Lze ukázat, že
směrodatná odchylka s je právě rovna parametru popisujícímu šířku normálního rozdělení (disperze),
tedy:
.
2
)(
exp)(
2
1
)()()( 2
2
2
2222
dx
x
xdxxfxxs
Kumulativní distribuční funkci lze s výhodou popsat pomocí speciální tabelované funkce erf(x)
odpovídající Gaussovu rozdělení s = 0 a = 1/2 :
dtex
x
t
0
22
)(erf
1
22
1
x
erf
x
Několik charakteristik: v rozmezí se nachází 68% případů, 2 95%, 3 99,7%. 1. kvartil se
nachází ve vzdálenosti 0.6745 od centra, mezikvartilní rozpětí tak odpovídá 1,349 . =
1/0.6745 mad = 1.483 mad.
4.1 Odhad a
K tomu, abychom dokonale mohli zjistit oba parametry normálního rozdělení σ a μ, bychom museli
mít k dispozici nekonečně mnoho bodů. Ve skutečnosti máme k dispozici jen omezený vzorek celého
souboru, a pomocí dat tohoto vzorku můžeme nanejvýš stanovit odhad obou parametrů, který
5
je zatížen jistou neurčitostí. Za předpokladu, že zkoumaný soubor má normální rozdělení, pak lze
ukázat, že nejlepší nezávislý odhad parametru σ je dán vztahem:
2 2
2 2 2 2
odh odh
s
( ) ( )
( ), ( )
1 1 ( 1) 1
i i ix x x x wn n
x x x x
n n w n n
.
Pomocí tohoto odhadu střední kvadratické odchylky lze odhadnout i neurčitost stanovení parametru
μ (vlastně aritmetického průměru):
2 2
odh
odh odh
( )
; ( )
1
x x
x
nn
.
4.2 Odchylky od normálního rozdělení, šikmost a špičatost
K popisu rozdělovací křivky se občas používá ještě jemnějšího popisu, který využívá
Obecný moment k-tého řádu (moment of k-th order):
n
i
i
k
i
w
k
n
i
k
i
k
wx
S
xx
n
x
11
1
,
1
.
Obecný centrální moment k-tého řádu kolem bodu a (centred moment of k-th order):
n
i
i
k
i
w
k
n
i
k
ik wax
S
max
n
m
11
)(
1
,)(
1
.
Centrem bývá nejčastěji aritmetický průměr, resp. váhovaný aritmetický průměr .x Vidíme, že pro
tento případ m0 = m1 = 0, m2 = s2
.
Zavádíme teď ještě dvě bezrozměrné charakteristiky: tzv. šikmost (skewness): a3 = m3/s3
a špičatost
(kurtosis) a4 = m4/s4
funkce. Šikmost symetrických funkcí je nulová (tedy i normálního rozdělení),
charakteristiky tedy popisuje míru asymetrie funkce. Charakteristika a4 přináší informaci o tom, jak
se vlastně body koncentrují kolem průměru. Je-li a4 blízké 3, pak mluvíme o souborech s normální
špičatostí, při a4 < 3, hovoříme o souborech plochých a při a4 > 3 se mluví o souborech špičatých.
6
Za nejsdělnější nástroj k posouzení odchylek pozorovaného rozdělení od normálního rozdělení
považuji graf normální pravděpodobnosti (normal probability plot), do něhož vynášíme kumulativní
distribuční funkci, přičemž osa pravděpodobností (kvantilová) je transformována tak, aby se
tam soubory s normálním rozdělením zobrazily jako přímky. Je vhodné si přitom body odpovídající
1. a 3. kvartilu proložit přímkou a diskutovat pak odchylky reálného rozložení bodů od ní.
V Matlabu je pro tuto úlohu příkaz: normplot.
5 Úloha
Výsledkem měření atmosférické extinkce z pozorování komet na observatoři Skalnaté Pleso jsou
tyto hodnoty extinkčních koeficientů ve vlnové délce 416 nm (mag/vzdušnou hmotu):
0.82±0.07
0.39±0.07
0.11±0.07
0.26±0.05
0.39±0.03
0.69±0.05
0.23±0.04
0.47±0.04
0.54±0.05
0.81±0.05
0.39±0.04
0.41±0.05
0.57±0.03
0.33±0.05
0.43±0.04
0.52±0.04
0.42±0.04
0.41±0.04
0.97±0.03
0.45±0.03
Instrumentářem popisné statistiky charakterizujte tento soubor, speciálně pak uveďte:
a) počet měření a jejich charakter (spojité, diskrétní?)
b) stanovte váhy jednotlivých měření a diskutujte, zda je v tomto případě případné tyto váhy
použít. Bez ohledu na výsledek úvahy počítejte všechny další úlohy ve dvou variantách –
s vahami a bez nich.
c) odhad aritmetického průměru a jeho nejistotu za předpokladu normálního rozdělení, harmonický,
geometrický, kvadratický průměr a medián, ořezaný průměr pro 10% a 20% (jen
pro případ bez vah)
d) minimální a maximální hodnotu extinkce a celkové rozpětí
e) rozptyl s2
, směrodatnou odchylku s, odhad rozptylu σodh, střední velikost odchylky
s centrem v aritmetickém průměru a v mediánu
f) graf kumulativních distribuční funkce a pomocí ní stanovte hodnoty kvartilů a mezikvartilního
rozpětí
g) Porovnejte odhady μ a σ pro normální rozdělení získané různými metodami
h) Vypočtěte šikmost a špičatost rozdělovací funkce a porovnejte s normálním rozdělením.
Jaký je to typ souboru? Sestrojte graf normálního rozdělení a diskutujte (řešte bez vah).
i) pomocí stanovte optimální počet sloupců v histogramu a sestrojte jej. Doporučuji sloupce
v histogramu centrovat na násobky 0,2
j) odhadněte modus rozdělení
k) diskutujte tvar rozdělovací funkce s vědomím, že konstantní složka extinkčního koeficientu
ve 416 nm způsobená Rayleighovým rozptylem na náhodných shlucích molekul vzduchu
činí 0,262 mag/vzdušnou hmotu.
7
Instrumentářem popisné statistiky charakterizujte tento soubor, speciálně pak uveďte:
a) počet měření a jejich charakter (spojité, diskrétní?) – 20, spojité
b) stanovte váhy jednotlivých měření a diskutujte, zda je v tomto případě případné tyto váhy
použít. Bez ohledu na výsledek úvahy počítejte všechny další úlohy ve dvou variantách –
s vahami a bez nich. – není případné použití, standardní odchylka je mnohem větší, než
nejistota jednoho měření
c) odhad aritmetického průměru a jeho nejistotu za předpokladu normálního rozdělení (mean
= 0,4800,047; meanw = 0,5010,045), harmonický (0,382), geometrický (0,435), kvadratický
průměr (0,552) a medián (0,425), ořezaný průměr pro 10% a 20% (jen pro případ
bez vah: 0,474; 0,468)
d) minimální a maximální hodnotu extinkce a celkové rozpětí (0,11 až 0,97; 0,86)
e) rozptyl s2
, směrodatnou odchylku s, odhad rozptylu σodh, střední velikost odchylky
s centrem v aritmetickém průměru a v mediánu (v aritmetickém průměru: 0,0417; 0,204;
0,0439; 0,210; se středem v mediánu: 0,448; 0,212; 0,0471; 0,217)
f) graf kumulativní distribuční funkce a pomocí ní stanovte hodnoty kvartilů a mezikvartilního
rozpětí (interkv = 0,165)
g) Porovnejte odhady μ a σ pro normální rozdělení získané různými metodami; (σodh = 0,210;
mad = 0,156, madmed = 0,146
h) Vypočtěte šikmost a špičatost rozdělovací funkce a porovnejte s normálním rozdělením.
Jaký je to typ souboru? Sestrojte graf normálního rozdělení a diskutujte (řešte bez vah).
i) pomocí stanovte optimální počet sloupců v histogramu a sestrojte jej. Doporučuji sloupce
v histogramu centrovat na násobky 0,2
j) odhadněte modus rozdělení
k) diskutujte tvar rozdělovací funkce s vědomím, že konstantní složka extinkčního koeficientu
ve 416 nm způsobená Rayleighovým rozptylem na náhodných shlucích molekul vzduchu
činí 0,262 mag/vzdušnou hmotu.