1 Popisná statistika (Descriptive statistics) Výsledkem měření je soubor n naměřených hodnot vytvářející datový soubor D = {xi}. V datovém souboru se mohou vyskytovat tytéž hodnoty i vícekrát, zejména tehdy, mají-li veličiny diskrétní (nespojitou) povahu (počet rohlíků). Pokud chceme tento soubor dat blíže popsat, použijeme některý z instrumentů tzv. popisné statistiky. 1 Váha Pokud není kvalita jednotlivých pozorování stejná, je užitečné ji popsat nezáporným číslem tzv. vahou - wi. Váha se vztahuje vždy k jednomu, konkrétnímu měření, proto ji nezaměňujte s četností příslušného výsledku. Váha většinou souvisí s odhadem tzv. vnitřní nejistoty určení hodnoty konkrétního měření - δxi:   2 ~  ii xw  . Zkušenost ukazuje, že zavedením vah se globální charakteristiky souboru obvykle změní jen nevýznamně, a proto je třeba si předem rozmyslet, zda váhy při výpočtech vůbec použijeme. Váhy bychom neměli použít v případě, kdy se ukáže, že očekávaná nejistota jednotlivých měření v souboru je výrazně menší, než jejich celkový rozptyl v rámci souboru. Naopak jsme je povinni použít pokud jsou deklarovány, tedy zejména při transformaci měřených veličin nějakou nelineární funkcí (log x, 1/x) nebo při některých robustních metodách zpracování výsledků. Zaveďme si sumu vah Sw a střední váhu ws:    n i w i n i siw n S w n wwS 11 . 1 , 2 Míra polohy Nejznámější a nejpoužívanější mírou vztahující se ke středu studovaného datového souboru je tzv. aritmetický průměr, často jen průměr (arithmetic mean, mean), případně váhovaný průměr (weighted mean):    n i ii w n i i wx S xx n x 11 . 1 , 1 Důležitou vlastností průměru je fakt, že:   .0)(resp.,0)( iii wxxxx Geometrický průměr (geometric mean): W n n S www G n nG xxxxxxxx ...... 2 2 1 121  . Harmonický průměr (harmonic mean):       n i ii w H n i iH wx S xx n x 1 11 1 11 1 , 1 . Kvadratický průměr (quadratic mean): 2    n i ii w n i i wx S xx n x 1 22 1 22 1 , 1 . Pro další charakteristiky je vhodné soubor {xi} případně {xi, wi} seřadit podle velikosti xi. Kvantil (quantile) určený číslem p, 0, pro nějž platí, že pn hodnot souboru je menších než x a (1 – p) n větších. Vážený kvantil (weighted quantile) se vztahuje k vahám. Pokud je zkoumaný soubor vzorkem nějakého většího souboru, pak kvantil p(x) je odhadem pravděpodobnosti, že nějaké náhodně vybrané číslo ze souboru bude menší než zvolená hodnota x. Rozdíl p(xa) - p(xb) pak udává odhad pravděpodobnosti, že se takové číslo vyskytne v intervalu . Je-li p vyjádřeno v procentech, pak se kvantilu říká percentil (percentile). Zvláštní význam má kvantil pro p = 0,5 (50 %), nazývaný medián, první kvartil (first quartile) - p = 0,25 (25 %) a třetí kvartil (third quartile) – p = 0,75 (75 %). Výše naznačený předpis je jen rámcový, pro algoritmus výpočtu kvantilů je nutno být konkrétnější. Výhodné je k tomu definovat si tzv. kumulativní distribuční funkci, případně váhovanou kumulativní distribuční funkci (x), která vyjadřuje závislost kvantilu p na měřené veličině x. Kumulativní distribuční funkce (x) je představována lomenou čarou s uzlovými body v {xi, pi}. Pro pi platí: p1 = 1/(2 n), pi = pi-1 + 1/n  pi = (1+2 i)/(2n) pro x < x1 je hodnota p rovna nule, pro x > xn je funkce rovna 1. Obdobně pak váhovaná kumulativní distribuční funkci (x) je představována lomenou čarou s uzlovými body v {xi, pi}. Pro pi platí: p1 = w1/(2 Sw), pi = pi-1 + (wi-1+wi)/(2 Sw), pro x < x1 je hodnota p rovna nule, pro x > xn je funkce rovna 1. Medián (median) x~ nebo váhovaný medián – je oblíbená robustní míra polohy centra souboru, jež prakticky nezávisí na výskytu „odlehlých“ bodů. Z výše uvedené definice funkce (x) plyne, že je-li n liché číslo (n=2m+1), pak mxx ~ , je-li sudé číslo (n=2m), pak 2/)(~ 1 mm xxx   . Ořezaný průměr (trimmed mean) ),( pDxT – robustní odhad polohy centra – je jistým kompromisem mezi aritmetickým průměrem a mediánem. Jako parametr se používá veličina p vyjádřená zpravidla v procentech (nejčastěji 10 %). Ze seřazený soubor dat odstraníme round(p/2) nejvyšších a stejný počet nejnižších hodnot a ze zbytku vypočteme aritmetický průměr. Pro p = 0 jde o prů- 3 měr, pro p  100% o medián. U váhovaných veličin je definice ořezaného průměru poněkud vágní a proto se běžně nepoužívá. Modus – je-li nejčetněji zastoupená hodnota (nebo hodnota s největší vahou) – bývá u diskrétních výsledků měření, nebo v určitých intervalech – nejpohodlněji ji lze odečíst z histogramu (viz 1.2) 3 Míry rozptýlení, distribuční funkce Nejčastější mírou rozptýlení dat kolem centra je takzvaný rozptyl (variance) s2 nebo směrodatná odchylka (standard deviation) s. .)( 1 ,)( 1 22 1 2222 1 22 xxwxx S sxxxx n s n i ii w n i i    Centrem rozptýlení je zde aritmetický průměr. Dokažte, že právě pro něj nabývá funkcionál   iii waxaSaxaS 22 )()(resp.,)()( , svého minima. Robustní třídou měr rozptýlení je tzv. střední velikost odchylky (mean absolute deviation – MAD), respektive vážená střední velikost odchylky (weighted mean absolute deviation – WMAD), centrovaná k a, nejčastěji pak aritmetickému průměru nebo k mediánu: . 1 )( 1 )( 11 i n i i w n i i wax S awmadax n amad    Lze ukázat, že pro xa ~ je hodnota mad(a), resp. wmad(a), minimální. Celkové rozpětí (total range) daný rozdílem mezi největším a nejmenší naměřenou hodnotou. Mezikvartilní rozpětí (interquartile range), což je rozdíl mezi 3. a 1. kvartilem slouží jako robustní odhad rozptýlení, neboť se vztahuje na vnitřní část rozdělovací křivky. Nejinstruktivnějším vyjádřením distribuční funkce je u diskrétních veličin tzv. tyčkový graf, v případě spojitých veličin pak histogram (histogram). Celý interval pokrytý daty se rozdělí na vhodný počet nh ekvidistantních intervalů a počítá se počet (četnost), respektive suma vah dat k nim příslušejících. Graficky se potom distribuční funkce znázorní sloupcovým diagramem. Doporučený počet sloupců pro n měření udává Sturgesovo pravidlo: nnh log3,31 . 4 4 Normální rozdělení Výjimečné postavení mezi rozdělovacími funkcemi má tzv. normální rozdělovací funkce, zvaná též Gaussova funkce, odpovídají rozdělení zcela náhodných veličin. Funkce hustoty pravděpodobnosti f(x) je normovaná na 1 a je popsána dvojicí parametrů  a  :         2 2 2 )( exp 2 1 )(    x xf . „Gaussův Říp“ je přísně symetrický podle osy x = , kterážto hodnota je současně aritmetickým průměrem, mediánem i modem souboru podřizujícímu se normálnímu rozdělení. Lze ukázat, že směrodatná odchylka s je právě rovna parametru popisujícímu šířku normálního rozdělení  (disperze), tedy: . 2 )( exp)( 2 1 )()()( 2 2 2 2222                    dx x xdxxfxxs Kumulativní distribuční funkci lze s výhodou popsat pomocí speciální tabelované funkce erf(x) odpovídající Gaussovu rozdělení s  = 0 a  = 1/2 : dtex x t    0 22 )(erf                           1 22 1     x erf x Několik charakteristik: v rozmezí  se nachází 68% případů, 2 95%, 3 99,7%. 1. kvartil se nachází ve vzdálenosti 0.6745  od centra, mezikvartilní rozpětí tak odpovídá 1,349 .  = 1/0.6745 mad = 1.483 mad. 4.1 Odhad  a  K tomu, abychom dokonale mohli zjistit oba parametry normálního rozdělení σ a μ, bychom museli mít k dispozici nekonečně mnoho bodů. Ve skutečnosti máme k dispozici jen omezený vzorek celého souboru, a pomocí dat tohoto vzorku můžeme nanejvýš stanovit odhad obou parametrů, který 5 je zatížen jistou neurčitostí. Za předpokladu, že zkoumaný soubor má normální rozdělení, pak lze ukázat, že nejlepší nezávislý odhad parametru σ je dán vztahem: 2 2 2 2 2 2 odh odh s ( ) ( ) ( ), ( ) 1 1 ( 1) 1 i i ix x x x wn n x x x x n n w n n                 . Pomocí tohoto odhadu střední kvadratické odchylky lze odhadnout i neurčitost stanovení parametru μ (vlastně aritmetického průměru): 2 2 odh odh odh ( ) ; ( ) 1 x x x nn          . 4.2 Odchylky od normálního rozdělení, šikmost a špičatost K popisu rozdělovací křivky se občas používá ještě jemnějšího popisu, který využívá Obecný moment k-tého řádu (moment of k-th order):    n i i k i w k n i k i k wx S xx n x 11 1 , 1 . Obecný centrální moment k-tého řádu kolem bodu a (centred moment of k-th order):    n i i k i w k n i k ik wax S max n m 11 )( 1 ,)( 1 . Centrem bývá nejčastěji aritmetický průměr, resp. váhovaný aritmetický průměr .x Vidíme, že pro tento případ m0 = m1 = 0, m2 = s2 . Zavádíme teď ještě dvě bezrozměrné charakteristiky: tzv. šikmost (skewness): a3 = m3/s3 a špičatost (kurtosis) a4 = m4/s4 funkce. Šikmost symetrických funkcí je nulová (tedy i normálního rozdělení), charakteristiky tedy popisuje míru asymetrie funkce. Charakteristika a4 přináší informaci o tom, jak se vlastně body koncentrují kolem průměru. Je-li a4 blízké 3, pak mluvíme o souborech s normální špičatostí, při a4 < 3, hovoříme o souborech plochých a při a4 > 3 se mluví o souborech špičatých. 6 Za nejsdělnější nástroj k posouzení odchylek pozorovaného rozdělení od normálního rozdělení považuji graf normální pravděpodobnosti (normal probability plot), do něhož vynášíme kumulativní distribuční funkci, přičemž osa pravděpodobností (kvantilová) je transformována tak, aby se tam soubory s normálním rozdělením zobrazily jako přímky. Je vhodné si přitom body odpovídající 1. a 3. kvartilu proložit přímkou a diskutovat pak odchylky reálného rozložení bodů od ní. V Matlabu je pro tuto úlohu příkaz: normplot. 5 Úloha Výsledkem měření atmosférické extinkce z pozorování komet na observatoři Skalnaté Pleso jsou tyto hodnoty extinkčních koeficientů ve vlnové délce 416 nm (mag/vzdušnou hmotu): 0.82±0.07 0.39±0.07 0.11±0.07 0.26±0.05 0.39±0.03 0.69±0.05 0.23±0.04 0.47±0.04 0.54±0.05 0.81±0.05 0.39±0.04 0.41±0.05 0.57±0.03 0.33±0.05 0.43±0.04 0.52±0.04 0.42±0.04 0.41±0.04 0.97±0.03 0.45±0.03 Instrumentářem popisné statistiky charakterizujte tento soubor, speciálně pak uveďte: a) počet měření a jejich charakter (spojité, diskrétní?) b) stanovte váhy jednotlivých měření a diskutujte, zda je v tomto případě případné tyto váhy použít. Bez ohledu na výsledek úvahy počítejte všechny další úlohy ve dvou variantách – s vahami a bez nich. c) odhad aritmetického průměru a jeho nejistotu za předpokladu normálního rozdělení, harmonický, geometrický, kvadratický průměr a medián, ořezaný průměr pro 10% a 20% (jen pro případ bez vah) d) minimální a maximální hodnotu extinkce a celkové rozpětí e) rozptyl s2 , směrodatnou odchylku s, odhad rozptylu σodh, střední velikost odchylky s centrem v aritmetickém průměru a v mediánu f) graf kumulativních distribuční funkce a pomocí ní stanovte hodnoty kvartilů a mezikvartilního rozpětí g) Porovnejte odhady μ a σ pro normální rozdělení získané různými metodami h) Vypočtěte šikmost a špičatost rozdělovací funkce a porovnejte s normálním rozdělením. Jaký je to typ souboru? Sestrojte graf normálního rozdělení a diskutujte (řešte bez vah). i) pomocí stanovte optimální počet sloupců v histogramu a sestrojte jej. Doporučuji sloupce v histogramu centrovat na násobky 0,2 j) odhadněte modus rozdělení k) diskutujte tvar rozdělovací funkce s vědomím, že konstantní složka extinkčního koeficientu ve 416 nm způsobená Rayleighovým rozptylem na náhodných shlucích molekul vzduchu činí 0,262 mag/vzdušnou hmotu. 7 Instrumentářem popisné statistiky charakterizujte tento soubor, speciálně pak uveďte: a) počet měření a jejich charakter (spojité, diskrétní?) – 20, spojité b) stanovte váhy jednotlivých měření a diskutujte, zda je v tomto případě případné tyto váhy použít. Bez ohledu na výsledek úvahy počítejte všechny další úlohy ve dvou variantách – s vahami a bez nich. – není případné použití, standardní odchylka je mnohem větší, než nejistota jednoho měření c) odhad aritmetického průměru a jeho nejistotu za předpokladu normálního rozdělení (mean = 0,4800,047; meanw = 0,5010,045), harmonický (0,382), geometrický (0,435), kvadratický průměr (0,552) a medián (0,425), ořezaný průměr pro 10% a 20% (jen pro případ bez vah: 0,474; 0,468) d) minimální a maximální hodnotu extinkce a celkové rozpětí (0,11 až 0,97; 0,86) e) rozptyl s2 , směrodatnou odchylku s, odhad rozptylu σodh, střední velikost odchylky s centrem v aritmetickém průměru a v mediánu (v aritmetickém průměru: 0,0417; 0,204; 0,0439; 0,210; se středem v mediánu: 0,448; 0,212; 0,0471; 0,217) f) graf kumulativní distribuční funkce a pomocí ní stanovte hodnoty kvartilů a mezikvartilního rozpětí (interkv = 0,165) g) Porovnejte odhady μ a σ pro normální rozdělení získané různými metodami; (σodh = 0,210; mad = 0,156, madmed = 0,146 h) Vypočtěte šikmost a špičatost rozdělovací funkce a porovnejte s normálním rozdělením. Jaký je to typ souboru? Sestrojte graf normálního rozdělení a diskutujte (řešte bez vah). i) pomocí stanovte optimální počet sloupců v histogramu a sestrojte jej. Doporučuji sloupce v histogramu centrovat na násobky 0,2 j) odhadněte modus rozdělení k) diskutujte tvar rozdělovací funkce s vědomím, že konstantní složka extinkčního koeficientu ve 416 nm způsobená Rayleighovým rozptylem na náhodných shlucích molekul vzduchu činí 0,262 mag/vzdušnou hmotu.