1 Statistické metody a zpracování dat II. Popisné statistické metody Petr Dobrovolný Popisné (deskriptivní) metody Deskriptivní metody: 1. přehledné vyjádření výsledků pomocí četnostních tabulek a grafů 2. Výpočty a grafické znázornění základních popisných statistických charakteristik Činíme závěry pouze z určitého zpracovávaného souboru ­ výběrového, popisujeme jen to, co bylo zjištěno, bez zobecňování Popisná statistika společně s tzv. explorační (průzkumovou) analýzou dat obvykle tvoří počátek vlastní statistické analýzy. Rozdělení četností ˇ Statistické údaje jednotlivých statistických souborů pro další zpracování uspořádáváme ˇ U jednotek statistického souboru můžeme na základě kvantitativních hodnot zjišťovat jejich četnost ­ frekvenci. ˇ Četnost - počet prvků se stejnou hodnotou statistického znaku ˇ Používáme ho pro nespojité znaky a při malém počtu variant (počet členů domácnosti). Příklad: U 20 náhodně vybraných domácností byl sledován počet členů domácnosti: 1,3,4,3,4,3,3,2,2,1,1,2,2,1,4,5,4,3,2,2 14564četnost 54321Počet členů Skupinové rozdělení četností ˇ Pro spojité znaky udáváme počet prvků s hodnotami znaku patřícími do určitého intervalu (třídy). ˇ Jednotky statistického souboru roztřídíme podle velikosti do několika intervalů. ˇ Dolní a horní hranice (mez) intervalu udává, jakou nejmenší a největší hodnotu znaku do daného intervalu zařadíme. ˇ Délka či šířka intervalu je kladný rozdíl dvou po sobě následujících dolních (horních) mezí. ˇ Krajní interval může být otevřený (neuzavřený). ˇ U skupinového rozdělení četností zastupuje hodnoty znaku střed intervalu (xs). Skupinové rozdělení četností Zásady pro stanovení hranic intervalů: ˇ každý interval je určen horní a dolní hranicí ˇ každý interval musí být vymezen tak, abychom mohli každý prvek jednoznačně zařadit ˇ intervaly se nesmí překrývat ˇ má-li být rozdělení četností použito k výpočtu dalších statistik, musí mít intervaly stejnou šířku ˇ šířka intervalu nesmí být velká ­ aby nesetřela zvláštnosti rozdělení hodnot, ale ani malá ­ aby nevzniklo více intervalů s nulovou četností (optimum 5 ­ 20). ˇ počty intervalů (m) lze určovat subjektivně i pomocí vzorců: nm log5 nm m = 1 + 3,3 log10(n)Sturgesovo pravidlo 2 Četnosti ˇ absolutní ˇ relativní ˇ kumulované Interval hodnot Četnost Kumulovaná dolní mez horní mez střed absolutní relativní absolutní relativní 7,01 7,50 7,25 6 0,027 6 0,027 7,51 8,00 7,75 7 0,032 13 0,059 8,01 8,50 8,25 22 0,100 35 0,158 8,51 9,00 8,75 33 0,149 68 0,308 9,01 9,50 9,25 41 0,186 109 0,493 9,51 10,00 9,75 49 0,222 158 0,715 10,01 10,50 10,25 40 0,181 198 0,896 10,51 11,00 10,75 15 0,068 213 0,964 11,01 11,50 11,25 8 0,036 221 1,000 Suma 221 1 Grafické znázornění rozdělení četností ˇ Pravoúhlá soustava souřadnic, osa x ­ intervaly hodnot znaku, osa y ­ četnosti hodnot ˇ Histogram ­ typ sloupkového diagramu ˇ Polygon ­ spojnicový diagram ˇ Čára kumulovaných četností ­ součtová čára, četnosti vynášíme k horní hranici intervalu ˇ Graf relativních kumulovaných četností umožňuje odvození kvantilů Histogram Polygon Speciální typy četnostního zpracování - Věková struktura obyvatel (strom života) Histogram 0 10 20 30 40 50 7,50 8,00 8,50 9,00 9,5010,0010,5011,0011,50 Třídy Četnost ,00% 20,00% 40,00% 60,00% 80,00% 100,00% Četnost Kumul. % Součtová čára Popisná statistika ˇ jednoduše popsat chování statistického souboru dat (kondenzace dat) ˇ porovnat více souborů mezi sebou K čemu je to dobré? Jednoduchý příklad: Vystihnout průměrnou teplotu vzduchu lokality za určité období Složitý příklad: Vystihnout průměrné chování lidí nakupujících v určitém supermarketu Základní statistické charakteristiky ˇ z reálných hodnot ˇ ze skupinového rozdělení četností (reálné hodnoty seskupené do intervalů) ˇ Charakteristiky úrovně ˇ Charakteristiky variability ˇ Charakteristiky asymetrie ˇ Charakteristiky špičatosti Výchozí data ­ způsob výpočtu 3 Charakteristiky úrovně (střední hodnoty, míry polohy, míry centrální tendence) Jedná se o čísla, která reprezentují jednotlivé hodnoty statistického znaku, udávají polohu, charakterizují obecnou velikost jevu. Aritmetický průměr ­ úhrn hodnot kvantitativního statistického znaku dělený rozsahem souboru. Statistický znak X nabývá hodnot x1, x2, ...xn. Aritmetický průměr bude: n x x n i i= = 1 Vlastnosti aritmetického průměru ˇ součet kladných odchylek se rovná součtu odchylek záporných ˇ suma čtverců odchylek od průměru je vždy menší než suma čtverců odchylek od jakékoliv jiné hodnoty ˇ přičteme-li ke všem hodnotám znaku konstantu, průměr se zvětší o tuto konstantu ˇ znásobí-li se všechny hodnoty znaku konstantou k , průměr se k-krát zvětší ˇ průměr součtu dvou proměnných se rovná součtu obou průměrů Vlastnosti aritmetického průměru ˇ Aby aritmetický průměr vhodně vystihoval úroveň studovaného souboru rozdělení hodnot znaku musí být jednovrcholové. ˇ Aritmetický průměr má smysl jen tehdy, jestliže má nějaký smysl součet hodnot. ˇ Průměr, pokud je uvedený samotný, může být silně zavádějící. ˇ Geometricky si lze aritmetický průměr představit jako těžiště. ˇ Průměr musí být typický (většina hodnot je blízká průměru). ˇ Typický je tehdy, blíží-li se nejčetnější hodnotě. Aritmetický průměr Skládá-li se soubor z k skupin o rozsazích ni s průměry platí pro celkový průměr souboru: ix = = = k i i k i ii n nx x 1 1 Vážený aritmetický průměr = = = +++ +++ = k i i k i ii k kk n nx nnnn nxnxnxnx x 1 1 321 332211 ... ... Vážený aritmetický průměr Příklady použití: ˇ k výpočtu aritmetického průměru z rozdělení četností ˇ shlazování časových řad ˇ výpočet množství studovaného prvku v ploše (váha ­ plocha území v rozmezí intervalu izolinií ˇ výpočet průměrné denní teploty vzduchu 0 10 20 30 40 50 1961 1966 1971 1976 1981 1986 Geometrický průměr n-tá odmocnina součinu z řady hodnot znaku. Používá se u souborů, jejichž hodnoty tvoří geometrickou posloupnost. Prostý geometrický průměr Vážený geometrický průměr n ng xxxxx ...321 = n n n nnn gv n xxxxx ...321 321 = Použití: ˇ počítá se pouze z hodnot, které jsou kladné ˇ v případě, kdy má smysl součin hodnot studovaného jevu ˇ k určení tzv. tempa růstu v časových řadách. ˇ obvykle se používá pro veličiny měřené na logaritmické stupnici. 4 Geometrický průměr - příklad Růst cen určitého zboží byl postupně 20 %, 10 %, poté 15 % pokles a 10 % růst. Potom průměrný růst je roven (1,20 1,10 0,85 1,10)1/4 1,054, tzn. průměrný růst je přibližně 5,4 %. 10x 11,042006/2005 31,052002-2005 11,072002/2001 51,041996-2001 počet roků (ni)roční koef. růstuobdobí Koeficienty růstu produkce závodu pro jednotlivá období: 046,104,105,107,104,1... 1315 321 321 === n n n nnn gv n xxxxx Průměrný koeficient růstu produkce závodu za posledních 10 roků je 4,6% Geometrický průměr - příklad použití: Nalezení průměrného přírůstku obyvatel, kdy populace na určité ploše roste geometricky časový okamžik počet jedinců t1 3 000 t2 9 000 t3 27 000 Geometrický průměr je vhodný pro použití v situacích, když je rozdělení hodnot asymetrické a logaritmická transformace jej opět vrací k symetrii. Harmonický průměr Počet jednotek souboru dělený součtem reciprokých hodnot. Používá se pro charakterizování průměrné rychlosti změny ­ k popisu intenzitních ukazatelů. Prostý harmonický průměr Vážený harmonický průměr = = +++ = n i in h x n xxxx n x 1321 11 ... 111 = = = k i i i k i i hv x n n x 1 1 Používá se tam, kde má smysl sčítat převrácené hodnoty. Harmonický průměr ­ příklady použití Výpočet celkové průměrné rychlosti dojíždějících do centra. Vzhledem k rozdílné dopravní propustnosti, průměrná rychlost se výrazně mění na jednotlivých úsecích cesty. K výpočtu celkové průměrné rychlosti je pak vhodnější využít harmonického průměru Dostupnost místa: ˇ z bodu A........ 30 min. ˇ z bodu B........ 20 min. ˇ z bodu C........ 6 min. min12 5 1 15 3 10 1 2 1 3 1 3 1 ... 111 321 === ++ = +++ = n h xxxx n x Harmonický průměr ­ příklady použití Příklad 2: Určení průměrné rychlosti tzv. geostrofického větru ze vzdáleností dvou izobar Kvadratický průměr Prostý kvadratický průměr Vážený kvadratický průměr n x n xxxx x n i i n k = = +++ = 1 2 22 3 2 2 2 1 ... = = = ++ +++ = k i i k i ii k kn kv n nx nnn nxnxnxnx x 1 1 2 21 2 3 2 32 2 21 2 1 ... ... Nahrazuje individuální hodnoty řady tak, že se nemění součet jejich čtverců kgh xxxx <<< Pokud hodnoty znaku x nejsou stejné, potom platí: 5 Modus x^ ˇ Nejčetnější (typická) hodnota kvantitativního znaku studovaného souboru ˇ U rozdělení četností ­ modální interval závisí na šířce intervalů (subjektivní vliv ­ modus je nestabilní hodnota). ˇ V grafu frekvenční funkce je modus hodnota, ve které tato dosahuje vrcholu. ˇ Má velký význam u nespojitých veličin a u kvalitativních znaků. Umožňuje popisovat nominální data (Auto je nejčastěji využívaným dopravním prostředkem). Modus - příklad použití: Určení dominantní třídy v rámci studované plochy Aritmetický průměr: 4 Modus: 3 Modus - vlastnosti: ˇ Některá rozdělení mohu mít více modů ­ např. bimodální. Takovéto soubory mají dva mody. A nebo žádná hodnota nemusí dominovat. ˇ Výhodné je použití modu při porovnání souborů, pokud jde o typické hodnoty znaku. ˇ Výpočet modu z rozdělení četností: 21 2 ^ nn n hLx + += kde L je dolní hranice modálního intervalu, h je šířka modálního intervalu n1 je četnost intervalu předcházejícího před modálním intervalem a n2 četnost intervalu následujícího za modálním Medián x~ ˇ Medián je prvek řady, uspořádané v neklesajícím pořadí, který ji dělí tak, že polovina prvků má hodnotu větší, druhá polovina větší, než je hodnota mediánu. ˇ Medián není ovlivněn extrémními hodnotami, ale jejich počtem. ˇ Porovnáním mediánu dvou souborů lze získat informaci o tendenci k vyššímu (nižšímu) výskytu extrémních hodnot. ˇ Někdy lépe charakterizuje úroveň souboru než průměr. ˇ Lze ho stanovit z řady uspořádaných hodnot a nebo ho určit z rozdělení četností. Kvantily ˇ Medián dělí statistický soubor na poloviny. ˇ Analogickým dělením souboru na více částí získáme kvantily ( kvartily, decily percentily) Dolní kvartil Horní kvartil 75 ~x 25 ~x Medián i kvantity lze snadno určit z čáry kumulovaných četností Geografický medián ­ linie rozdělující plochu, na níž se vyskytuje studovaný jev na dvě části, tak aby hodnota jevu byla v obou částech stejná. Aritmetický střed ˇ Aritmetický průměr min. a max. hodnoty znaku. ˇ Extrémy se často značně liší od ostatních hodnot ­ jsou netypické, často nahodilé, mají však význam samy o sobě. 2 minmax xx xst + = Useknutý (trimmed) průměr 4 ~~2~ ~ 75,05,025,0 uuu uT ++ = 6 Použití měr centrální tendence Aritmetický průměr použijeme: ˇ pro data intervalová a poměrová, ne pro data kategoriální ˇ je-li rozdělení symetrické ˇ hodláme-li použít statistických testů Medián použijeme v případech, kdy: Modus použijeme v případech, kdy: ˇ data jsou získána minimálně v ordinálním měřítku ˇ chceme znát střed rozdělení dat ˇ data mohou obsahovat odlehlé hodnoty ˇ je-li rozdělení silně zešikmené ˇ data jsou získána minimálně v ordinálním měřítku ˇ má-li rozdělení více vrcholů ˇ chceme-li o rozdělení získat jen základní přehled ˇ míníme-li slovem ,,průměrný" nejčastější hodnotu Kritéria pro výběr nejvhodnější míry úrovně Závisí na těchto faktorech ˇ vlastnostech použité míry úrovně ˇ typu řešené úlohy ˇ typu rozložení dat Omezení spočívají v porovnávání průměrů dvou výběrových souborů bez ohledu na tvar rozložení. Dva soubory se shodnou hodnotou aritmetického průměru mohu mít zcela odlišné rozložení hodnot. Je nutné uvažovat také charakteristiky popisující míry proměnlivosti a koncentrace kolem střední hodnoty Omezení měr úrovně Charakteristiky variability ˇ Popisují stupeň proměnlivosti statistického znaku v daném statistickém souboru. ˇ Vypovídají také o tom, jak dobře vystihuje použitá míra úrovně jednotlivé hodnoty souboru. Míry variability ˇ založené na vybraných hodnotách znaku v souboru ˇ založené na všech hodnotách znaku v souboru Charakteristiky variability Variační rozpětí minmax xxR -= Kvantilové odchylky ­ kladné odchylky jednotlivých kvantilů (kvartilová, decilová, percentilová odchylka). ( ) ( ) 2 ~~ 2 ~~~~ 25752575 xxxxxx Q - = -+- =Kvartilová odchylka Variační rozpětí a kvantilové odchylky nejsou založeny na všech hodnotách studovaného souboru ­ neberou tedy ohled na rozdělení hodnot Průměrné odchylky ˇ Jsou definovány jako aritmetický průměr absolutních odchylek jednotlivých hodnot znaku od střední hodnoty. ˇ Absolutní hodnota odstraňuje kompenzaci kladných a záporných odchylek. ˇ Ukazují na odlišnost prvků od střední hodnoty. Průměrná odchylka od průměru n xx d n i i x = - = 1 Z rozdělení četností se průměrná odchylka od průměru počítá formou váženého aritmetického průměru absolutních odchylek ­ jako váhy se používají četnosti ni: = = - = k i i i k i i x n nxx d 1 1 Střední diference ˇ Aritmetický průměr absolutních hodnot všech možných vzájemných rozdílů n jednotlivých hodnot studovaného znaku x. ˇ Je vhodnou mírou variability znaku u souborů s malým rozsahem. )1( 1 1 - - = = = nn xx n i n j ji Nejpoužívanější míry variability jsou založeny na všech hodnotách souboru 7 Rozptyl s2 Je definován jako průměr ze čtverců odchylek jednotlivých hodnot znaku od jejich aritmetického průměru: Rozptyl měří velikost proměnlivosti, avšak v jednotkách čtverců odchylek. Výpočet rozptylu ze skupinového rozdělení četností: n xx s n i i= - = 1 2 2 )( = = - = k i i k i is n nxx s 1 1 2 2 )( kde xs jsou středy intervalů a k je počet intervalů. Směrodatná odchylka ˇ Druhá odmocnina z rozptylu. ˇ Je vyjádřením proměnlivosti v jednotkách původních dat. Je absolutní mírou variability. ˇ Má největší použití pro porovnání proměnlivosti více souborů. ˇ Má velký význam pro vymezení třídních intervalů za předpokladu normálního rozdělení. n xx s n i i= - = 1 2 )( = = - = k i i k i is n nxx s 1 1 2 )( Výpočet směrodatné odchylky ze skupinového rozdělení četností: Vlastnosti rozptylu a směrodatné odchylky ˇ Rozptyl hodnot znaku v celém souboru se rovná součtu aritmetického průměru skupinových rozptylů a rozptylu skupinových průměrů. ˇ Přidáním konstanty k jednotlivým znakům se jejich rozptyl ani směrodatná odchylka nemění. ˇ Násobíme-li jednotlivé znaky konstantou, jejich rozptyl je násoben čtvercem této konstanty a směrodatná odchylka je násobena touto konstantou. ˇ Násobíme-li váhy konstantou, rozptyl ani směrodatná odchylka se nemění. (Modifikace výpočtu rozptylu a směrodatné odchylky pro základní soubor ­ viz. odhady parametrů) Variační koeficient ˇ Nejpoužívanější relativní míra proměnlivosti. ˇ Poměr směrodatné odchylky k průměru (směrodatná odchylka vyjádřená v procentech průměru): 100= x s v Slouží k porovnání proměnlivosti více souborů o nestejné úrovni (průměru). Příklad: Charakteristiky naměřené na dvou objektech mají stejnou směrodatnou odchylku avšak výrazně jiný aritmetický průměr hodnot. Charakteristika Stanice č. 1 Stanice č. 2 X1 6 56 X2 8 58 X3 10 60 X4 12 62 X5 16 66 X6 18 68 Aritmetický průměr 11,67 61,67 Směrodatná odchylka 4,23 4,23 Variační koeficient 39,5 7,5 Charakteristiky asymetrie - šikmosti (SKEWNESS) Charakterizují nesouměrnost rozdělení četností. Dávají představu o tvaru rozdělení. Míry šikmosti založené na variačním rozpětí Míry šikmosti založené na rozpětí kvantilů 8 Koeficient asymetrie Aritmetický průměr z třetích mocnin odchylek jednotlivých hodnot znaku od aritmetického průměru vyjádřených v jednotkách směrodatné odchylky. Pro ideálně symetrické rozdělení nabývá hodnoty 0. Ze skupinového rozdělení četností se koeficient asymetrie vypočte: ( ) ( ) 3 1 3 1 3 1 3 sn xxn ns xxn k i ii k i i k i ii - = - = = = = Umožňuje objektivní porovnání dvou histogramů. Koeficient asymetrie Podle hodnoty koeficientu asymetrie rozlišujeme rozdělení ˇ souměrné = 0 ˇ sešikmené doprava (záporná asymetrie) < 0 ˇ sešikmené doleva (kladná asymetrie) > 0 Charakteristiky špičatosti (KURTOSIS) ˇ Popisují koncentraci prvků souboru v blízkosti určité hodnoty znaku. ˇ Dávají představu o rozdělení s ohledem na jeho ,,špičatost" či ,,plochost". ˇ Vyšší hodnoty charakteristik špičatosti mají soubory, u kterých jsou prvky souboru více koncentrovány kolem uvažované hodnoty znaku. Míra koncentrace kolem mediánu 2575 minmax ~~ xx xx K - - = Koeficient špičatosti (exces) Průměrná hodnota součtu čtvrtých odmocnin odchylek hodnot znaku od průměru měřených v jednotkách směrodatné odchylky. Jedná se o bezrozměrné číslo. Ze skupinového rozdělení četností se koeficient špičatosti vypočte: ( ) 34 1 4 - - = = sn nxx k i ii Špičatost (resp. plochost) rozdělení je tím větší, čím více se hodnota odlišuje od nuly. Koeficient špičatosti (exces) Podle hodnoty koeficientu špičatosti rozlišujeme rozdělení 1. kladně zašpičatělé (špičaté) > 0 2. normálně zašpičatělé = 0 3. záporně zašpičatělé (ploché) < 0 Obě uvedené míry dávají informaci o tom, do jaké míry se rozdělení studovaného souboru liší od normálního. Mají využití v aplikacích tzv. parametrických testů. Průzkumová analýza dat (EDA - Exploratory Data Analysis) ˇ Souhrn metod popisné statistiky, které předchází vlastnímu statistickému zpracování. ˇ Cílem je ověřit některé vlastnosti vstupního datového souboru, které jsou nezbytnými předpoklady pro vlastní statistické metody zpracování. ˇ EDA se zaměřuje na grafické a tabelační znázorňování dat ˇ Každá analýza by měla začínat pečlivým zkoumáním struktury dat 9 Průzkumová analýza dat (EDA - Exploratory Data Analysis) EDA zahrnuje především: ˇ výpočet charakteristik úrovně a variability ˇ analýzu odlehlých hodnot ˇ studium histogramu s cílem ověření normality rozdělení ˇ konstrukci grafů ˇ ověření homogenity vstupních dat ˇ ověření stacionarity vstupních dat Výsledkem EDA je závěr o event. potřebě transformace vstupních dat Transformace dat Cíle: úprava dat pro následnou analýzu, splnění požadavků některých statistických metod, zjednodušení výpočtu, ... ˇ funkční transformace ˇ standardizace ˇ transformace do pořadí ˇ transformace na percentily, ... Krabicový graf (Box plot) Krabicový graf ­ porovnání více souborů