Z1069 Statistické metody a zpracování dat II. Popisné statistické metody Popisná statistika • jednoduše popsat chování statistického souboru dat (kondenzace dat) • porovnat více souborů mezi sebou K čemu je to dobré? • Vystihnout průměrnou teplotu vzduchu lokality za určité období • Vystihnout průměrné chování lidí nakupujících v určitém supermarketu Popisné (deskriptivní) metody Deskriptivní metody: 1. přehledné vyjádření výsledků pomocí četnostních tabulek a grafů 2. Výpočty a grafické znázornění základních popisných statistických charakteristik Činíme závěry pouze z určitého zpracovávaného souboru – výběrového, popisujeme jen to, co bylo zjištěno, bez zobecňování Popisná statistika společně s tzv. explorační (průzkumovou) analýzou dat obvykle tvoří počátek vlastní statistické analýzy. Rozdělení četností • Statistické údaje jednotlivých statistických souborů pro další zpracování uspořádáváme • U jednotek statistického souboru můžeme na základě kvantitativních hodnot zjišťovat jejich četnost – frekvenci. • Četnost - počet prvků se stejnou hodnotou statistického znaku • Používáme ho pro nespojité znaky a při malém počtu variant (počet členů domácnosti). Příklad: U 20 náhodně vybraných domácností byl sledován počet členů domácnosti: 1,3,4,3,4,3,3,2,2,1,1,2,2,1,4,5,4,3,2,2 Počet členů 1 2 3 4 5 četnost 4 6 5 4 1 Skupinové rozdělení četností • Pro spojité znaky udáváme počet prvků s hodnotami znaku patřícími do určitého intervalu (třídy). • Jednotky statistického souboru roztřídíme podle velikosti do několika intervalů. • Dolní a horní hranice (mez) intervalu udává, jakou nejmenší a největší hodnotu znaku do daného intervalu zařadíme. • Délka či šířka intervalu je kladný rozdíl dvou po sobě následujících dolních (horních) mezí. • Krajní interval může být otevřený (neuzavřený). • U skupinového rozdělení četností zastupuje hodnoty znaku střed intervalu (xs). Skupinové rozdělení četností Zásady pro stanovení hranic intervalů: • každý interval je určen horní a dolní hranicí • každý interval musí být vymezen tak, abychom mohli každý prvek jednoznačně zařadit • intervaly se nesmí překrývat • má-li být rozdělení četností použito k výpočtu dalších statistik, musí mít intervaly stejnou šířku • šířka intervalu nesmí být velká – aby nesetřela zvláštnosti rozdělení hodnot, ale ani malá – aby nevzniklo více intervalů s nulovou četností (optimum 5 – 20). • počty intervalů (m) lze určovat subjektivně i pomocí vzorců: nm log5⋅≤ nm≈ m = 1 + 3,3 log10(n)Sturgesovo pravidlo Četnosti • absolutní • relativní • kumulované Interval hodnot Četnost Kumulovaná dolní mez horní mez střed absolutní relativní absolutní relativní 7,01 7,50 7,25 6 0,027 6 0,027 7,51 8,00 7,75 7 0,032 13 0,059 8,01 8,50 8,25 22 0,100 35 0,158 8,51 9,00 8,75 33 0,149 68 0,308 9,01 9,50 9,25 41 0,186 109 0,493 9,51 10,00 9,75 49 0,222 158 0,715 10,01 10,50 10,25 40 0,181 198 0,896 10,51 11,00 10,75 15 0,068 213 0,964 11,01 11,50 11,25 8 0,036 221 1,000 Suma 221 1 Vícerozměrné rozdělení četností • třídění se realizuje podle dvou či více znaků • tzv. kombinační tabulka • slouží ke zkoumání závislostí studovaných znaků (korelační tabulka) • pokud znaky nabývají pouze dvou hodnot - asociační tabulka Asociační tabulka Pohlaví Norma Muž Žena ∑ SSPPLLNNIILL 20 40 60 Nesplnil 80 10 90 ∑ 100 50 150 Grafické znázornění rozdělení četností • Pravoúhlá soustava souřadnic, osa x – intervaly hodnot znaku, osa y – četnosti hodnot • Histogram – typ sloupkového diagramu • Polygon – spojnicový diagram • Čára kumulovaných četností – součtová čára, četnosti vynášíme k horní hranici intervalu • Graf relativních kumulovaných četností umožňuje odvození kvantilů histogram polygon Speciální typy četnostního zpracování - Věková struktura obyvatel (strom života) Histogram 0 10 20 30 40 50 7,50 8,00 8,50 9,00 9,5010,0010,5011,0011,50 Třídy Četnost ,00% 20,00% 40,00% 60,00% 80,00% 100,00% Četnost Kumul. % Součtová čára Základní statistické charakteristiky • z reálných hodnot • ze skupinového rozdělení četností (reálné hodnoty seskupené do intervalů) • Charakteristiky úrovněěěě (momenty I. řádu) • Charakteristiky variability (momenty II. řádu) • Charakteristiky asymetrie (momenty III. řádu) • Charakteristiky špičatosti (momenty IV. řádu) Výchozí data – způsob výpočtu Popisná statistika Charakteristiky úrovněěěě (střední hodnoty, míry polohy, míry centrální tendence) Jedná se o čísla, která reprezentují jednotlivé hodnoty statistického znaku, udávají polohu, charakterizují obecnou velikost jevu. Aritmetický průměr – úhrn hodnot kvantitativního statistického znaku dělený rozsahem souboru. Statistický znak X nabývá hodnot x1, x2, …xn. Aritmetický průměr bude: n x x n i i∑= = 1 Vlastnosti aritmetického průměru • součet kladných odchylek se rovná součtu odchylek záporných • suma čtverců odchylek od průměru je vždy menší než suma čtverců odchylek od jakékoliv jiné hodnoty • přičteme-li ke všem hodnotám znaku konstantu, průměr se zvětší o tuto konstantu • znásobí-li se všechny hodnoty znaku konstantou k , průměr se kkrát zvětší • průměr součtu dvou proměnných se rovná součtu obou průměrů Vlastnosti aritmetického průměru • Aby aritmetický průměr vhodně vystihoval úroveň studovaného souboru rozdělení hodnot znaku musí být jednovrcholové. • Aritmetický průměr má smysl jen tehdy, jestliže má nějaký smysl součet hodnot. • Průměr, pokud je uvedený samotný, může být silně zavádějící. • Geometricky si lze aritmetický průměr představit jako těžiště. • Průměr musí být typický (většina hodnot je blízká průměru). • Typický je tehdy, blíží-li se nejčetnější hodnotě. Aritmetický průměr Skládá-li se soubor z k skupin o rozsazích ni s průměry platí pro celkový průměr souboru: ix ∑ ∑ = = = k i i k i ii n nx x 1 1 Vážený aritmetický průměr ∑ ∑ = = = +++ +++ = k i i k i ii k kk n nx nnnn nxnxnxnx x 1 1 321 332211 ... ... Vážený aritmetický průměr Příklady použití: • výpočet průměrné denní teploty vzduchu • k výpočtu aritmetického průměru z rozdělení četností • shlazování časových řad • výpočet množství studovaného prvku v ploše (váha – plocha území v rozmezí intervalu izolinií 0 10 20 30 40 50 1961 1966 1971 1976 1981 1986 Geometrický průměr n-tá odmocnina součinu z řady hodnot znaku. Používá se u souborů, jejichž hodnoty tvoří geometrickou posloupnost. Prostý geometrický průměr Vážený geometrický průměr n ng xxxxx ...321 ⋅⋅⋅= n n n nnn gv n xxxxx ...321 321 ⋅⋅⋅= Použití: • počítá se pouze z hodnot, které jsou kladné • v případě, kdy má smysl součin hodnot studovaného jevu • k určení tzv. tempa růstu v časových řadách. • obvykle se používá pro veličiny měřené na logaritmické stupnici. Geometrický průměr - příklad Růst cen určitého zboží byl postupně 20 %, 10 %, poté 15 % pokles a 10 % růst. Potom průměrný růst je roven (1,20 · 1,10 · 0,85 · 1,10)1/4 ≅ 1,054, tzn. průměrný růst je přibližně 5,4 %. období roční koef. růstu počet roků (ni) 1996-2001 1,04 5 2002/2001 1,07 1 2002-2005 1,05 3 2006/2005 1,04 1 Σ x 10 Koeficienty růstu produkce závodu pro jednotlivá období: 046,104,105,107,104,1... 1315 321 321 =⋅⋅⋅=⋅⋅⋅= n n n nnn gv n xxxxx Průměrný koeficient růstu produkce závodu za posledních 10 roků je 4,6% Modus xˆ • Nejččččetněěěější (typická) hodnota kvantitativního znaku studovaného souboru • U rozdělení četností – modální interval závisí na šířce intervalů (subjektivní vliv – modus je nestabilní hodnota). • V grafu frekvenční funkce je modus hodnota, ve které tato dosahuje vrcholu. • Má velký význam u nespojitých veličin a u kvalitativních znaků. Umožňuje popisovat nominální data (Auto je nejčastěji využívaným dopravním prostředkem). Modus – příklad použití: Určení dominantní třídy v rámci studované plochy Aritmetický průměr: 4 Modus: 3 Modus – vlastnosti: • Výhodné je použití modu při porovnání souborů, pokud jde o typické hodnoty znaku. • Výpočet modu z rozdělení četností: 21 2 ˆ nn n hLx + += kde L je dolní hranice modálního intervalu, h je šířka modálního intervalu n1 je četnost intervalu předcházejícího před modálním intervalem a n2 četnost intervalu následujícího za modálním • Některá rozdělení mohu mít více modů – např. bimodální. Takovéto soubory mají dva mody. A nebo žádná hodnota nemusí dominovat. Medián x~ • Medián je prvek řady, uspořádané v neklesajícím pořadí, který ji dělí tak, že polovina prvků má hodnotu větší, druhá polovina větší, než je hodnota mediánu. • Medián není ovlivněn extrémními hodnotami, ale jejich počtem. • Porovnáním mediánu dvou souborů lze získat informaci o tendenci k vyššímu (nižšímu) výskytu extrémních hodnot. • Někdy lépe charakterizuje úroveň souboru než průměr. • Lze ho stanovit z řady uspořádaných hodnot a nebo ho určit z rozdělení četností. Kvantily • Medián dělí statistický soubor na poloviny. • Analogickým dělením souboru na více částí získáme kvantily ( kvartily, decily percentily) Dolní kvartil Horní kvartil 75 ~x 25 ~x Medián i kvantity lze snadno určit z čáry kumulovaných četností Aritmetický střed • Aritmetický průměr min. a max. hodnoty znaku. • Extrémy se často značně liší od ostatních hodnot – jsou netypické, často nahodilé, mají však význam samy o sobě. 2 minmax xx xst + = Useknutý (trimmed) průměr 4 ~~2~ ~ 75,05,025,0 uuu uT +⋅+ = Použití měr centrální tendence Aritmetický průměr použijeme: • pro data intervalová a poměrová, ne pro data kategoriální • je-li rozdělení symetrické • hodláme-li použít statistických testů Medián použijeme v případech, kdy: Modus použijeme v případech, kdy: • data jsou získána minimálně v ordinálním měřítku • chceme znát střed rozdělení dat • data mohou obsahovat odlehlé hodnoty • je-li rozdělení silně zešikmené • data jsou získána minimálně v ordinálním měřítku • má-li rozdělení více vrcholů • chceme-li o rozdělení získat jen základní přehled • míníme-li slovem „průměrný“ nejčastější hodnotu Kritéria pro výběr nejvhodnější míry úrovně Závisí na těchto faktorech • vlastnostech použité míry úrovně • typu řešené úlohy • typu rozložení dat Omezení spočívají v porovnávání průměrů dvou výběrových souborů bez ohledu na tvar rozložení. Dva soubory se shodnou hodnotou aritmetického průměru mohu mít zcela odlišné rozložení hodnot. Je nutné uvažovat také charakteristiky popisující míry proměnlivosti a koncentrace kolem střední hodnoty Omezení měr úrovně Charakteristiky variability • Popisují stupeň proměnlivosti statistického znaku v daném statistickém souboru. • Vypovídají také o tom, jak dobře vystihuje použitá míra úrovně jednotlivé hodnoty souboru. Míry variability • založené na vybraných hodnotách znaku v souboru • založené na všech hodnotách znaku v souboru Charakteristiky variability Variační rozpětí minmax xxR −= Kvantilové odchylky – kladné odchylky jednotlivých kvantilů (kvartilová, decilová, percentilová odchylka). ( ) ( ) 2 ~~ 2 ~~~~ 25752575 xxxxxx Q − = −+− =Kvartilová odchylka Variační rozpětí a kvantilové odchylky nejsou založeny na všech hodnotách studovaného souboru – neberou tedy ohled na rozdělení hodnot Rozptyl s2 Je definován jako průměr ze čtverců odchylek jednotlivých hodnot znaku od jejich aritmetického průměru: Rozptyl měří velikost proměnlivosti, avšak v jednotkách čtverců odchylek. Výpočet rozptylu ze skupinového rozdělení četností: n xx s n i i∑= − = 1 2 2 )( ∑ ∑ = = ⋅− = k i i k i is n nxx s 1 1 2 2 )( kde xs jsou středy intervalů a k je počet intervalů. Směrodatná odchylka • Druhá odmocnina z rozptylu. • Je vyjádřením proměnlivosti v jednotkách původních dat. Je absolutní mírou variability. • Má největší použití pro porovnání proměnlivosti více souborů. • Má velký význam pro vymezení třídních intervalů za předpokladu normálního rozdělení. n xx s n i i∑= − = 1 2 )( ∑ ∑ = = ⋅− = k i i k i is n nxx s 1 1 2 )( Výpočet směrodatné odchylky ze skupinového rozdělení četností: (Modifikace výpočtu rozptylu a směrodatné odchylky pro základní soubor – viz. odhady parametrů) Variační koeficient • Nejpoužívanější relativní míra proměnlivosti. • Poměr směrodatné odchylky k průměru (směrodatná odchylka vyjádřená v procentech průměru): 100⋅= x s v Slouží k porovnání proměnlivosti více souborů o nestejné úrovni (průměru). Charakteristika Stanice č. 1 Stanice č. 2 X1 6 56 X2 8 58 X3 10 60 X4 12 62 X5 16 66 X6 18 68 Aritmetický průůůůměr 11,67 61,67 Směrodatná odchylka 4,23 4,23 Variační koeficient 39,5 7,5 Příklad: Charakteristiky asymetrie - šikmosti (SKEWNESS) • Charakterizují nesouměrnost rozdělení četností. • Dávají představu o tvaru rozdělení. Koeficient asymetrie α Aritmetický průměr z třetích mocnin odchylek jednotlivých hodnot znaku od aritmetického průměru vyjádřených v jednotkách směrodatné odchylky. Pro ideálně symetrické rozdělení nabývá hodnoty 0. Ze skupinového rozdělení četností se koeficient asymetrie vypočte: ( ) ( ) 3 1 3 1 3 1 3 sn xxn ns xxn k i ii k i i k i ii ⋅ −⋅ = −⋅ = ∑ ∑ ∑ = = = α Umožňuje objektivní porovnání dvou histogramů. Koeficient asymetrie α Podle hodnoty koeficientu asymetrie rozlišujeme rozdělení a) souměrné α = 0 b) zešikmené zleva (záporná asymetrie) α < 0 c) zešikmené zprava (kladná asymetrie) α > 0 Charakteristiky špičatosti (angl. KURTOSIS) • Popisují koncentraci prvků souboru v blízkosti určité hodnoty znaku. • Dávají představu o rozdělení s ohledem na jeho „špičatost“ či „plochost“. • Vyšší hodnoty charakteristik špičatosti mají soubory, u kterých jsou prvky souboru více koncentrovány kolem uvažované hodnoty znaku. Koeficient špičatosti (exces) ε Průměrná hodnota součtu čtvrtých odmocnin odchylek hodnot znaku od průměru měřených v jednotkách směrodatné odchylky. Jedná se o bezrozměrné číslo. Ze skupinového rozdělení četností se koeficient špičatosti vypočte: ( ) 34 1 4 − ⋅ ⋅− = ∑= sn nxx k i ii ε Špičatost (resp. plochost) rozdělení je tím větší, čím více se hodnota ε odlišuje od nuly. Koeficient špičatosti (exces) ε Podle hodnoty koeficientu špičatosti rozlišujeme rozdělení 1. kladně zašpičatělé (špičaté) ε > 0 2. normálně zašpičatělé ε = 0 3. záporně zašpičatělé (ploché) ε < 0 Míry asymetrie a špičatosti dávají informaci o tom, do jaké míry se rozdělení studovaného souboru liší od normálního (viz dále). Mají využití v aplikacích tzv. parametrických testů. Průzkumová analýza dat (EDA - Exploratory Data Analysis) • Souhrn metod popisné statistiky, které předchází vlastnímu statistickému zpracování. • Cílem je ověřit některé vlastnosti vstupního datového souboru, které jsou nezbytnými předpoklady pro vlastní statistické metody zpracování. • EDA se zaměřuje na grafické a tabelární znázornění dat • Každá analýza by měla začínat pečlivým zkoumáním struktury dat Průzkumová analýza dat Průzkumová analýza dat zahrnuje především: • výpočet charakteristik úrovně a variability • konstrukci grafů • analýzu odlehlých hodnot • studium histogramu s cílem ověření normality rozdělení • ověření homogenity vstupních dat • ověření stacionarity vstupních dat Jejím výsledkem je závěr o event. potřebě úpravy (transformace) vstupních dat Transformace dat Cíle: úprava dat pro následnou analýzu, splnění požadavků některých statistických metod, zjednodušení výpočtu, … • funkční transformace • standardizace – viz dále • transformace do pořadí • transformace na percentily, … Příklad transformace dat ve programu Statistica Krabicový graf (Box plot) Krabicový graf – porovnání více souborů Statistické grafy a jejich analýza Všímáme si základního tvaru a odchylek od něho U tvaru grafu hodnotíme: • zhuštění – místa největší četnosti hodnot • shluky – existence jednoho či více shluků hodnot • mezery – existence intervalů či oblastí bez hodnot • odlehlé hodnoty – existence údajů podstatně rozdílných od ostatních hodnot • extrémní hodnoty – poloha min a max hodnot v grafu • tvar rozdělení – jak ho lze popsat – symetrie, počet vrcholů Volba vhodného typu grafu musí zohledňovat typ zobrazované proměnné (spojitá či diskrétní) Základní typy grafů Z hlediska způsobu použití geometrických prostředků: • rozměrové grafy • souřadnicové grafy Speciální typy grafů využívané v geografii: • ternární graf • větrná růžice, klimadiagram, … 0 20 40 60 80 Neklas. F0 F1 F2 F3 N Základní typy grafů Grafy pro vyjádření jedné proměnné • sloupkový diagram • histogram • kruhový diagram, výsečový graf • bodový graf • spojnicový graf Základní typy grafů Grafy pro vyjádření vztahů dvou a více proměnných - korelogram Speciální typy grafů • krabičkový graf (box-plot) • piktogram • graf stonku a listů (stem-and-leaf-plot) Speciální typy grafů využívané v geografii: • ternární graf • „strom života“ • větrná růžice • klimadiagram