Popisná statistika David Hampel 12235@mail.muni.cz Přednáška Statistika 1 (BKMSTA1) 5. říjen 2013, Brno David Hampel Popisná statistika Motivace ► Popisná statistika slouží zejména k prezentaci dat a výsledků. ► Číselné charakteristiky informují o úrovni, variabilitě a těsnosti závislosti znaků. ► V dalším budeme probírat analogické veličiny u náhodných výběrů. David Hampel Popisná statistika Základní, výběrový a datový soubor David Hampel Popisná statistika Základní a výběrový soubor ► Základním souborem rozumíme libovolnou neprázdnou množinu E. Její prvky značíme e a nazýváme je objekty. ► Libovolnou neprázdnou podmnožinu {ei,...,en} základního souboru E nazýváme výběrový soubor rozsahu n. ► Je-li G C E, pak symbolem N (G) rozumíme absolutní četnost množiny G ve výběrovém souboru, tj. počet těch objektů množiny G, které patří do výběrového souboru. ► Relativní četnost množiny G ve výběrovém souboru zavedeme vztahem n David Hampel Popisná statistika Základní a výběrový soubor - příklad Hodnocení finančního zdraví několika firem dvěma hodnotiteli. I. hodnotitel II. hodnotitel I. hodnotitel II. hodnotitel 2 1 4 1 1 4 3 3 1 1 2 3 3 1 2 4 3 4 1 1 4 4 2 4 2 4 1 4 4 1 2 4 2 3 3 4 1 3 4 3 Hodnocení I. hodnotitele budeme dále označovat X a hodnocení II. hodnotitele Y. i -00,0 David Hampel Popisná statistika Datový soubor Nechť je dán výběrový soubor {ei,..., en} C E. Hodnoty znaků X, Y, Z pro i-tý objekt označíme x\ = X(ei), yi = Y(e,i)..... Zi = Z(e,i), i = l,...,n. Matice xi yi ■■■ zi X2 V2 ■■■ Z2 Xn Vn '' ' Zn typu n x p se nazývá datový soubor. Její řádky odpovídají jednotlivým objektům, sloupce znakům. Libovolný sloupec této matice nazýváme jednorozměrným datovým souborem. David Hampel Popisná statistika Datový soubor Jestliže uspořádáme hodnoty některého znaku (např. znaku X) v jednorozměrném datovém souboru vzestupně podle velikosti, dostaneme uspořádaný datový soubor kde < X(2) <■■■ < 3ľ(n). Vektor \ i kde X[i] < ■ ■ ■ < X[r] jsou navzájem různé hodnoty znaku X, se nazývá vektor variant. David Hampel Popisná statistika Datový soubor - příklad - 2 - - 1 - 1 1 4 1 1 1 1 1 4 1 3 1 3 2 1 2 1 2 4 3 4 3 2 4 4 4 2 4 4 4 1 4 4 4 4 4 . 1 . . 4 . David Hampel Popisná statistika Bodové rozdělení četností David Hampel Popisná statistika Bodové rozdělení četnosti Nechť je dán jednorozměrný datový soubor. Jestliže počet variant znaku X není příliš velký, pak přiřazujeme četnosti jednotlivým variantám a hovoříme o bodovém rozdělení četností. David Hampel Popisná statistika Bodové rozdělení četnosti Existuje několik způsobů, jak graficky znázornit bodové rozdělení četností. ► Tečkový diagram: na číselné ose vyznačíme jednotlivé varianty znaku X a nad každou variantu nakreslíme tolik teček, jaká je její absolutní četnost. ► Polygon četnosti: je lomená čára spojující body, jejichž x-ová souřadnice je varianta znaku X a y-ová souřadnice je absolutní četnost této varianty. David Hampel Popisná statistika Bodové rozdělení četnosti ► Sloupkový diagram: je soustava na sebe nenavazujících obdélníků, kde střed základny je varianta znaku X a výška je absolutní četnost této varianty. ► Výsečový graf: je kruh rozdělený na výseče, jejichž vnější obvod odpovídá absolutním četnostem variant znaku X. ► Dvourozměrný tečkový diagram: na vodorovnou osu vyneseme varianty znaku X, na svislou varianty znaku y a do příslušných průsečíků nakreslíme tolik teček, jaká je absolutní četnost dané dvojice. David Hampel Popisná statistika Bodové rozdělení četnosti - příklad Pro datový soubor " hodnocení finančního zdraví několika firem" sestrojte jednorozměrné tečkové diagramy pro znak X a znak Y Bodové rozdělení četnosti - příklad Pro datový soubor " hodnocení finančního zdraví několika firem" sestrojte polygony četností pro znak X a znak Y David Hampel Popisná statistika Bodové rozdělení četnosti - příklad Pro datový soubor " hodnocení finančního zdraví několika firem" sestrojte sloupkové diagramy pro znak X a znak Y 12 3 4 1 2 3 4 David Hampel Popisná statistika Bodové rozdělení četnosti - příklad Pro datový soubor " hodnocení finančního zdraví několika firem" sestrojte výsečové diagramy pro znak X a znak Y David Hampel Popisná statistika Bodové rozdělení četnosti - příklad Pro datový soubor " hodnocení finančního zdraví několika firem" sestrojte dvourozměrný tečkový diagram pro vektorový znak (X,Y) David Hampel Popisná statistika Variační řada ► Bodové rozdělení četností lze znázornit nejenom graficky, ale též tabulkou zvanou variační řada, která obsahuje absolutní a relativní četnosti jednotlivých variant znaku v daném výběrovém souboru a též absolutní a relativní kumulativní četnosti. ► Pomocí relativních četností se zavádí četnostní funkce, pomocí relativních kumulativních četností empirická distribuční funkce (je pro ni typické, že má schodovitý průběh). David Hampel Popisná statistika Variační řada Nechť je dán jednorozměrný datový soubor, v němž znak X nabývá r variant. Pro j = 1,... , r definujeme: ► absolutní četnost varianty x^j ve výběrovém souboru rij = N(X = xyj) relativní četnost varianty xyj ve výběrovém souboru Pj n ► absolutní kumulativní četnost prvních j variant ve výběrovém souboru Nj = N(X < xy]) = ni H-----\-rij ► relativní kumulativní četnost prvních j variant ve výběrovém souboru Ni Fj = — = pi -\-----h Pj n David Hampel Popisná statistika Variační řada Tabulka typu Pj ni Pi m Fi x\r] nr Pr Nr Fr se nazývá variační řada. David Hampel Popisná statistika Variační řada - příklad Pro datový soubor " hodnocení finančního zdraví několika firem"sestavte variační řadu pro znak X. xlJ] rij Pj N3 F3 1 7 0,35 7 0,35 2 3 0,15 10 0,50 3 2 0,10 12 0,60 4 8 0,40 20 1,00 - 20 1,00 - - David Hampel Popisná statistika Četnostní a empirická distribuční funkce Funkce p{x) = se nazývá četnostní funkce Pj pro x = x\j], j = l,.. 0 jinak Funkce F(x) ( 0 pro x < X[i] pro Xy] < X pro x > X[r] I u i F j pro xyj < x < x[j+l], j = l, , r — 1 se nazývá empirická distribuční funkce. David Hampel Popisná statistika Četnostní a empirická distribuční funkce - příklad Pro datový soubor " hodnocení finančního zdraví několika firem" nakreslete grafy četnostní funkce a empirické distribuční funkce znaku X. David Hampel Popisná statistika Četnostní a empirická distribuční funkce - vlastnosti ► Četnostní funkce je ► nezáporná (Vx G R : p(x) > 0) a ► normovaná, tj. oo x— — oo ► Empirická distribuční funkce je ► neklesající, tzn. Vxi,X2 G iž, xi < aľ2 : F{x\) < F(x2), *■ zprava spojitá (Vxo G i? libovolné, ale pevně dané: lim^-oo F(x) = F{x0)) a ► normovaná (lim2,^_00 = 0, lim,,;-^ F (x) — í). David Hampel Popisná statistika Dvourozměrný datový soubor Nechť je dán dvourozměrný datový soubor x\ yi Xn Vn kde znak X má r variant a znak y má s variant. Pak definujeme: ► simultánní absolutní četnost dvojice (xy^,y^) ve výběrovém souboru njk = N(X = x{j] A Y = y[k]), ► simultánní relativní četnost dvojice (xy^,y^) ve výběrovém souboru Pjk njk n David Hampel Popisná statistika Dvourozměrný datový soubor marginální absolutní četnost varianty xy^ rij, = N(X = xy\) = riji H-----h rijg, marginální relativní četnost varianty xy^ n j Pj. = — =Pji + ---+Pj8, marginální absolutní četnost varianty y^ n.k = N(X = y[k]) = nlk H-----h nsk, marginální relativní četnost varianty y^ n k P.k = — = Plk H-----\-Psk, n David Hampel Popisná statistika Dvourozměrný datový soubor ► sloupcově podmíněná relativní četnost varianty x^j za předpokladu y^ njk Pj(k) =-> n.k ► řádkově podmíněná relativní četnost varianty y^ za předpokladu xyj njk PU)k = — • David Hampel Popisná statistika Dvourozměrný datový soubor Kteroukoliv ze simultánních četností či podmíněných relativních četností zapisujeme do kontingenční tabulky. Kontingenční tabulka simultánních absolutních četností má tvar y V[i] V[a] X njk xm nu nls ni. X[r] nrl n.k n i n.s n s -00.0 David Hampel Popisná statistika Simultánní četnostní funkce Funkce p{x,y) Pjk pro 0 jinak x = x \j],y = y[k], j = i,---,r, k = i,... se nazývá simultánní četnostní funkce. Četnostní funkce pro znaky X a Y (tzv. marginálií četnostní funkce) odlišíme indexem takto: pi(x) P2{y) Pj. pro x = x{j], j = l,...,r 0 jinak p.k pro y = V[k], k = l,...,s 0 jinak David Hampel Popisná statistika Podmíněné četnostní funkce Funkce p^2 (x \y) zavedená vztahem Vx 6 M: Piv(*\v) = {p& r?iy)>0 0 jinak se nazývá sloupcově podmíněná četnostní funkce. Funkce p2|i {v \x) zavedená vztahem Vy £ M: ' p(x,y) / \ ^ n -^^f pro pi (x) > 0 0 jinak P211 {y \x) ~- se nazývá řádkově podmíněná četnostní funkce David Hampel Popisná statistika Cetnostní nezávislost Znaky X, Y jsou v daném výběrovém souboru četnostně nezávislé, jestliže platí: Vj = 1, • • •, r, Vfc = 1,..., s : pjk = pj. • p,k neboli V(x, y) G R2 : p(x, y) = pi{x) ■ p2{y). David Hampel Popisná statistika Četnostní nezávislost - ekvivalentní definice Znaky X, y jsou v daném výběrovém souboru četnostně nezávislé, jestliže platí: Vy G R, P2 (y) > 0 : pi|2 (x\y) = pi (x) resp. Vx G R, pi (x) > 0 : p2\i (y\x) = P2 (y). David Hampel Popisná statistika Dvourozměrný datový soubor - příklad Pro datový soubor " hodnocení finančního zdraví několika firem" • sestavte kontingenční tabulku simultánních absolutních četností y 1 2 3 4 rij. X njk 1 4 1 2 0 7 2 0 2 1 0 3 3 0 0 1 1 2 4 0 1 3 4 8 n.k 4 4 7 5 n = 20 David Hampel Popisná statistika Dvourozměrný datový soubor - příklad Pro datový soubor " hodnocení finančního zdraví několika firem" • sestavte kontingenční tabulku simultánních relativních četností y i 2 3 4 Vi. X Pjk 1 0,20 0,05 0,10 0,00 0,35 2 0,00 0,10 0,05 0,00 0,15 3 0,00 0,00 0,05 0,05 0,10 4 0,00 0,05 0,15 0,20 0,40 P.k 0,20 0,20 0,35 0,25 1,00 David Hampel Popisná statistika Dvourozměrný datový soubor - příklad David Hampel Popisná statistika Dvourozměrný datový soubor - příklad Pro datový soubor " hodnocení finančního zdraví několika firem" • sestavte kontingenční tabulku sloupcově podmíněných relativních četností y i 2 3 4 X Pj(k) 1 1,00 0,25 0,29 0,00 2 0,00 0,50 0,14 0,00 3 0,00 0,00 0,14 0,20 4 0,00 0,25 0,43 0,80 E 1,00 1,00 1,00 1,00 David Hampel Popisná statistika Dvourozměrný datový soubor - příklad Pro datový soubor " hodnocení finančního zdraví několika firem" • sestavte kontingenční tabulku řádkově podmíněných relativních četností y i 2 3 4 E X P(j)k 1 0,57 0,14 0,29 0,00 1,00 2 0,00 0,67 0,33 0,00 1,00 3 0,00 0,00 0,50 0,50 1,00 4 0,00 0,12 0,38 0,50 1,00 David Hampel Popisná statistika Dvourozměrný datový soubor - příklad Pro datový soubor " hodnocení finančního zdraví několika firem" • zjistěte, kolik procent firem, kterým první hodnotitel udělil jedničku, mělo od druhého hodnotitele dvojku y i 2 3 4 E X P(j)k 1 0,57 0,14 0,29 0,00 1,00 2 0,00 0,67 0,33 0,00 1,00 3 0,00 0,00 0,50 0,50 1,00 4 0,00 0,12 0,38 0,50 1,00 David Hampel Popisná statistika Dvourozměrný datový soubor - příklad Pro datový soubor " hodnocení finančního zdraví několika firem" • zjistěte, kolik procent firem, kterým druhý hodnotitel udělil jedničku, mělo od prvního hodnotitele dvojku y i 2 3 4 X p j (k) 1 1,00 0,25 0,29 0,00 2 0,00 0,50 0,14 0,00 3 0,00 0,00 0,14 0,20 4 0,00 0,25 0,43 0,80 E 1,00 1,00 1,00 1,00 David Hampel Popisná statistika Príklad 2 Na plicním oddělení jisté nemocnice bylo náhodně vybráno 20 pacientů a zjišťovalo se u nich pohlaví (znak X: 0 - muž, 1 -žena) a kuřáctví (znak Y: 0 - nekouří, 1 - kouří). Výsledky: (0,0) (1,0) (1,1) (1,0) (0,1) (0,1) (1,0) (0,1) (1,0) (0,0) (1,0) (0,1) (0,1) (1,0) (1,0) (1,1) (0,0) (0,0) (1,0) (1,1) a) Sestrojte variační řady pro oba znaky Variační řada pro znak X Variační řada pro znak Y rij Pj *i F, rij Pj Nj Fj muž (0) 9 0,45 9 0,45 nekouří (0) 12 0,6 12 0,6 žena (1) 11 0,55 20 1,00 kouří (1) 8 0,4 20 1,0 David Hampel Popisná statistika Príklad 2 b) Sestrojte kontingenční tabulku absolutních četností pro oba znaky X\Y nekouří kouří Tli. muž 4 5 9 žena 8 3 11 n.j 12 8 20 David Hampel Popisná statistika Příklad 2 c) Zjistěte procento mužů, žen, kuřáků, nekuřáků. mužů je 45 % žen je 55 % kuřáků je 40 % nekuřáků je 60 % d) Kolik procent mužů kouří? Mezi muži je 5/9 = 55,56 % kuřáků, (z tabulky řádkově podmíněných četností) e) Kolik procent kuřáků jsou muži? Mezi kuřáky je 5/8 = 62,5 % mužů. (z tabulky sloupcově podmíněných četností) David Hampel Popisná statistika Príklad 2 David Hampel Popisná statistika Intervalové rozdělení četností David Hampel Popisná statistika Intervalové rozdělení četnosti ► V některých datových souborech je počet variant znaku příliš veliký a použití bodového rozdělení četností by vedlo k nepřehledným a roztříštěným výsledkům. ► Nechť je dán jednorozměrný datový soubor. Jestliže počet variant znaku X je blízký rozsahu souboru, pak přiřazujeme četnosti nikoliv jednotlivým variantám, ale celým intervalům hodnot. Hovoříme pak o intervalovém rozdělení četností. David Hampel Popisná statistika Stanovení třídících intervalů Číselnou osu rozložíme na intervaly typu (—00, ui], (111,112], ■ ■ ■, (ur,ur+i], (ur+i) °°) tak, aby okrajové intervaly neobsahovaly žádnou pozorovanou hodnotu znaku X. Užíváme označení ► j-tý třídicí interval znaku X, j = 1,... , r: (Uj,uj+1], ► délka j-tého třídicího intervalu znaku X: d j = Mj + l — Uj, ► střed j-tého třídicího intervalu znaku X: !/ x[j] = 2^ui + ui+1>- <|> <|> 1 -Oo^o David Hampel Popisná statistika Stanovení třídících intervalů Třídicí intervaly volíme nejčastěji stejně dlouhé. Jejich počet určíme např. pomocí Sturgesova pravidla: r = 1 + 3, 3 log v, kde v je rozsah souboru. David Hampel Popisná statistika Charakteristiky intervalových dat Nechť je dán jednorozměrný datový soubor rozsahu n. Hodnoty znaku X roztřídíme do r třídicích intervalů. Pro j = 1,... , r definujeme: ► absolutní četnost j-tého třídicího intervalu ve výběrovém souboru n j = N {u j < X < Uj+i), ► relativní četnost j-tého třídicího intervalu ve výběrovém souboru Pj n i n ► četnostní hustota j-tého třídicího intervalu ve výběrovém souboru fi ~ d<' P± David Hampel Popisná statistika Charakteristiky intervalových dat ► absolutní kumulativní četnost prvních j třídicích intervalů ve výběrovém souboru Nj = N(X < uj+1) = ni H-----\-rij, ► relativní kumulativní četnost prvních j třídicích intervalů ve výběrovém souboru Ni Fj = — = pi -\-----\-pj. n David Hampel Popisná statistika Charakteristiky intervalových dat Tabulka typu (Uj,Uj+1) dj xIj] Pi Si Fi ni Pi h Nľ Fi (ur,ur+i) dr x[r] nr Pr fr Nr Fr E n 1 se nazývá tabulka rozdělení četností. David Hampel Popisná statistika Histogram Intervalové rozdělení četností graficky znázorňujeme pomocí histogramu. Je to graf skládající se z r obdélníků, sestrojených nad třídicími intervaly, přičemž obsah j-tého obdélníku je roven relativní četnosti pj j-tého třídicího intervalu, j = 1,..., r. Histogram je shora omezen schodovitou čarou, která je grafem funkce zvané hustota četnosti Pomocí hustoty četnosti zavedeme intervalovou empirickou distribuční funkci r Vztah histogramu a empirické distribuční funkce David Hampel Popisná statistika Dvourozměrný soubor intervalových dat Nechť je dán dvourozměrný datový soubor [ [ 5 . xn yn _ kde hodnoty znaku X roztřídíme do r třídicích intervalů (uj,uj+i\, j = 1,... ,r s délkami di,... ,dr a hodnoty znaku Y roztřídíme do s třídicích intervalů (vk, w/t+i], k = 1,..., s s délkami h±,... ,hs. Pak definujeme: ► simultánní absolutní četnost (j, fc)-tého třídicího intervalu: njk = N(uj < X < uj+1 A vk < Y < vk+i), ► simultánní relativní četnost (j, fc)-tého třídicího intervalu: Dvourozměrný soubor intervalových dat ► marginální absolutní četnost j-tého třídicího intervalu pro znak X: nj- = nil "I-----\~njs, ► marginální relativní četnost j-tého třídicího intervalu pro znak X: Pj- n i n *■ marginální absolutní četnost fc-tého třídicího intervalu pro znak Y: n.k = ník H-----r- nrk, ► marginální relativní četnost fc-tého třídicího intervalu pro znak Y: P.k n.k n David Hampel Popisná statistika Dvourozměrný soubor intervalových dat ► simultánní četnostní hustota v (j,k)-tém třídicím intervalu: Pjk Si j k djhk *■ marginální četnostní hustota v j-tém třídicím intervalu pro znak X: ► marginální četnostní hustota v k-tém třídicím intervalu pro znak Y: , P.k J.k — -7— ■ hk David Hampel Popisná statistika Dvourozměrný datový soubor - kontingenční tabulka Kteroukoliv ze simultánních četností zapisujeme do kontingenční tabulky. Uveďme kontingenční tabulku simultánních absolutních četností: (vi,v2) (vs,vs+1) (Uj,Uj+1) njk nu nls ni. (ur,ur+i) nrl Tirs n.k n i n.s n David Hampel Popisná statistika Simultánní hustota četnosti Funkce ( fjk pro u j < x < uj+1, vk < y < vk+1, f(x,y) = < j = l,...,r, k = l,...,s l. 0 jinak se nazývá simultánní hustota četnosti. Hustoty četnosti pro znaky X a Y (tzv. marginální hustoty četnosti) odlišíme indexem takto: t (~\-í f i- Pro UJ j = l,...,r Jl{ > ~ \ 0 jinak f.k pro vk 0 : fi\2(x\y) = h(x) resp. V^K,/iW>0: f2\i(y\x) = f2(y). David Hampel Popisná statistika Dvourozměrný datový soubor - příklad U 50 náhodně vybraných srovnatelných firem byly zjišťovány náklady na reklamu v tisících Kč (znak X) a hrubý zisk opět v tisících Kč (znak Y). ' 58 178 " " 65 170 " " 72 177 " " 72 191 " ' 63 172 " 68 173 57 169 90 192 57 174 58 163 56 170 65 169 57 176 57 160 64 174 60 170 60 170 51 168 56 170 52 168 61 173 54 162 81 190 56 172 55 164 71 181 52 169 73 177 52 165 67 173 85 184 83 182 75 179 72 185 60 170 80 170 60 168 71 180 75 170 55 160 52 172 68 173 66 178 52 163 62 172 . 72 182 . . 63 171 . . 67 182 . . 63 184 . . 70 171 . □ 4 = ► = David Hampel Popisná statistika Dvourozměrný datový soubor - příklad Pro znak X stanovte optimální počet třídicích intervalů podle Sturgesova pravidla, sestavte tabulku rozdělení četnosti, nakreslete histogram a graf intervalové empirické distribuční funkce. Optimální počet třídicích intervalů je 7. Tabulka rozdělení četností: (Uj,Uj+1) dj X\3] rij Pj Nj fi (50,56) 6 53 12 0,24000 12 0,24000 0,04000 (56,62) 6 59 12 0,24000 26 0,48000 0,04000 (62,68) 6 65 11 0,22000 35 0,70000 0,03667 (68, 74) 6 71 8 0,16000 43 0,86000 0,02666 (74,80) 6 77 3 0,06000 46 0,92000 0,01000 (80,86) 6 83 3 0,06000 49 0,98000 0,01000 (86,92) 6 89 1 0,02000 50 1,00000 0,00333 David Hampel Popisná statistika Dvourozměrný datový soubor - příklad Pro znak X stanovte optimální počet třídicích intervalů podle Sturgesova pravidla, sestavte tabulku rozdělení četnosti, nakreslete histogram a graf intervalové empirické distribuční funkce. Histogram: 0,04-- |-1-1 0,03--0,02-- 0,01-- -1-1 0,00-1-1-1-1-1-1-1-1 I-- 50 56 62 68 74 80 86 92 David Hampel Popisná statistika Dvourozměrný datový soubor - příklad Pro znak X stanovte optimální počet třídicích intervalů podle Sturgesova pravidla, sestavte tabulku rozdělení četnosti, nakreslete histogram a graf intervalové empirické distribuční funkce. Graf intervalové empirické distribuční funkce: u kí 0,75--0,50-0,25--0,0-- 50 m 62 68 74 80 86 92 David Hampel Popisná statistika Dvourozměrný datový soubor - příklad Pro vektorový znak (X,Y) sestavte kontingenční tabulku absolutních četností a nakreslete dvourozměrný tečkový diagram. Optimální počet třídicích intervalů pro znak Y je 7. Kontingenční tabulka absolutních četností "■v o? ä* á* • •c J.' oä Ki- -Č »ß (50,56) 4 4 4 0 0 0 0 ll (56,62) 2 2 6 2 0 u 0 12 (62,68) 0 1 7 1 2 u 0 11 (68, 74) 0 0 1 2 1 1 8 (74, 80) 0 0 2 1 0 u 0 3 (80, 86) 0 0 0 0 2 u 1 3 (86,92) 0 0 0 0 0 0 1 1 6 7 20 6 7 1 3 50 David Hampel Popisná statistika Dvourozměrný datový soubor - příklad Pro vektorový znak (X,Y) sestavte kontingenční tabulku absolutních četností a nakreslete dvourozměrný tečkový diagram. Dvourozměrný tečkový diagram 190 - ' 180 - ' 170- . ■. • ' : 160- H I I I I 50 G 0 70 80 90 David Hampel Popisná statistika Číselné charakteristiky znaků David Hampel Popisná statistika Typy znaků Podle stupně kvantifikace znaky třídíme takto: (n) Nominální znaky připouštějí obsahovou interpretaci jedině relace rovnosti x\ = x2 (popřípadě x\ ^ x2), tj. hodnoty znaku představují jen číselné kódy kvalitativních pojmenování. Např. městské tramvaje jsou očíslovány, ale např. č. 4 a 12 říkají jen to, že jde o různé tratě: nic jiného se z nich o vztahu obou tratí nedá vyčíst. David Hampel Popisná statistika Typy znaků (o) Ordinální znaky připouštějí obsahovou interpretaci kromě relace rovnosti i v případě relace uspořádání x\ < x2 (popřípadě x\ > x2), tj. jejich uspořádání vyjadřuje větší nebo menší intenzitu zkoumané vlastnosti. Např. školní klasifikace vyjadřuje menší nebo větší znalosti zkoušených (jedničkář je lepší než dvojkař), ale intervaly mezi známkami nemají obsahové interpretace (netvrdíme, že rozdíl ve znalostech mezi jedničkářem a dvojkařem je stejný jako mezi troj karem a čtyřka řem. Podobný charakter mají různá bodování ve sportovních, uměleckých a jiných soutěžích. David Hampel Popisná statistika Typy znaků (i) Intervalové znaky připouštějí obsahovou interpretaci kromě relace rovnosti a uspořádání též u operace rozdílu x\ — X2 (popřípadě součtu x\ +X2), tj. stejný interval mezi jednou dvojicí hodnot a jinou dvojicí hodnot vyjadřuje i stejný rozdíl v extenzitě zkoumané vlastnosti. Např. teplota měřená ve stupních Celsia představuje intervalový znak. Naměříme-li ve čtyřech dnech polední teploty 0, 2, 4, 6, znamená to, že každým dnem stoupla teplota o 2 stupně Celsia. Bylo by však chybou interpretovat tyto údaje tvrzením, že ze druhého na třetí den vzrostla teplota dvakrát, kdežto ze třetího na čtvrtý pouze jedenapůlkrát. David Hampel Popisná statistika Typy znaků (p) Poměrové znaky umožňují obsahovou interpretaci kromě relace rovnosti a uspořádání a operace rozdílu ještě u operace podílu x\j%2 (popřípadě součinu x\ -x-i), tj. stejný poměr mezi jednou dvojicí hodnot a druhou dvojicí hodnot znamená i stejný podíl v extenzitě zkoumané vlastnosti. Např. má-li jedna osoba hmotnost 150 kg a druhá 75 kg, má smysl prohlásit, že první je dvakrát hmotnější než druhá. David Hampel Popisná statistika Typy znaků Zvláštní postavení mají: (a) Alternativní znaky, které nabývají jen dvou hodnot, např. 0, 1, což znamená absenci a prezenci nějakého jevu. Například 0 bude znamenat neúspěch, 1 úspěch při řešení určité úlohy. Alternativní znaky mohou být ztotožněny s kterýmkoliv z předcházejících typů. David Hampel Popisná statistika Charakteristiky polohy ► Pro nominální znaky používáme jako charakteristiku polohy modus. U bodového rozdělení četností je to nejčetnější varianta znaku, u intervalového střed nejčetnějšího třídicího intervalu. ► Pro ordinální znaky používáme jako charakteristiku polohy a-kvantil. Jeli a G (0,1), pak a-kvantil xa je číslo, které rozděluje uspořádaný datový soubor na dolní úsek, obsahující aspoň podíl a všech dat a na horní úsek obsahující aspoň podíl 1 — a všech dat. Pro výpočet a-kvantilu slouží algoritmus: ► na je celé číslo c: xa = a'(c)+^(c+1) naje necelé číslo: zaokrouhlíme nahoru na nejbližší celé číslo c a xa — ^C(c) ■ Pro speciálně zvolená a užíváme názvů: xo.50 _ medián, xo.25 - dolní kvartil, xo.75 - horní kvartil, xo.i,... ,2:0.9 ~~ decily, xo.01, • • • ,2:0.99 - percentily. David Hampel Popisná statistika Charakteristiky polohy ► Pro intervalové a poměrové znaky slouží jako charakteristika polohy aritmetický průměr 1 n . Lze ho interpretovat jako těžiště jednorozměrného tečkového digramu. David Hampel Popisná statistika Charakteristiky polohy - příklad Pro datový soubor " hodnocení finančního zdraví několika firem I. hodnotitelem"vypočtěte medián a oba kvartily. I. hodnotitel I. hodnotitel 2 4 1 4 4 2 1 4 1 2 4 4 3 1 3 4 1 4 1 1 David Hampel Popisná statistika Charakteristiky polohy - příklad Pro datový soubor " hodnocení finančního zdraví několika firem I. hodnotitelem"vypočtěte medián a oba kvartily. Hodnoty 1 1 1 1 1 1 1 2 2 2 3 3 4 4 4 4 4 4 4 4 Pořadí 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 David Hampel Popisná statistika Charakteristiky polohy - příklad Pro datový soubor " hodnocení finančního zdraví několika firem I. hodnotitelem"vypočtěte medián a oba kvartily. Hodnoty 1 1 1 1 1 1 1 2 2 2 3 3 4 4 4 4 4 4 4 4 Pořadí 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 a na c xc 025 20 • 0.25 = 5 5 2±H i David Hampel Popisná statistika Charakteristiky polohy - příklad Pro datový soubor " hodnocení finančního zdraví několika firem I. hodnotitelem"vypočtěte medián a oba kvartily. Hodnoty 1 1 1 1 1 1 1 2 2 2 3 3 4 4 4 4 4 4 4 4 Pořadí 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 a na c xa 0.50 20-0.5 = 10 IÖ ^±21 2^5 David Hampel Popisná statistika Charakteristiky polohy - příklad Pro datový soubor " hodnocení finančního zdraví několika firem I. hodnotitelem"vypočtěte medián a oba kvartily. Hodnoty 1 1 1 1 1 1 1 2 2 2 3 3 4 4 4 4 4 4 4 4 Pořadí 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 a na c x0 ÖJ5 20 • 0.75 = 15 15 4 David Hampel Popisná statistika Charakteristiky polohy - příklad Pro datový soubor " hodnocení finančního zdraví několika firem I. hodnotitelem"vypočtěte medián a oba kvartily. Hodnoty 1 1 1 1 1 1 1 2 2 2 3 3 4 4 4 4 4 4 4 4 Pořadí 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 a na c xc Ö36 20 • 0.36 = 7.2 8 2 2 David Hampel Popisná statistika Charakteristiky polohy - příklad Pro datový soubor " hodnocení finančního zdraví několika firem I. hodnotitelem"vypočtěte medián a oba kvartily. Hodnoty 1 1 1 1 1 1 1 2 2 2 3 3 4 4 4 4 4 4 4 4 Pořadí 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 na c xa 0.25 20 ■ 0.25 = = 5 5 (i+i) 2 1 0.50 20 • 0.5 = 10 10 (2+3) 2 2.5 0.75 20 0.75 = 15 15 (4+4) 2 4 0.36 20 • 0.36 = 7.2 8 2 2 David Hampel Popisná statistika Charakteristiky variability Jako charakteristika variability může sloužit kvartilová odchylka IQ R = Xo.75 - Xo.25- Nej používanější charakteristikou variability je však rozptyl 1 n i=l či směrodatná odchylka sx = y^šf. David Hampel Popisná statistika Charakteristiky variability ► Pomocí průměru a směrodatné odchylky zavedeme standardizovanou hodnotu Xi~mx (vyjadřuje, o kolik směrodatných odchylek se i-tá hodnota odchýlila od průměru). ► Rozptyl vychází v kvadrátech jednotek, v nichž byl měřen znak X, proto raději používáme směrodatnou odchylku s. ► Pro poměrové znaky používáme jako charakteristiku variability koeficient variace Je to bezrozměrné číslo, které se často vyjadřuje v procentech. Umožňuje porovnat variabilitu několika znaků. ► Jsou-li všechny hodnoty poměrového znaku kladné, pak jako charakteristiku polohy lze užít geometrický průměr David Hampel Popisná statistika Dvourourozměrný datový soubor - charakteristiky Pro dvourourozměrný datový soubor ' xi yi ; ; 5 . xn yn _ kde znaky X a Y jsou intervalového či poměrového typu, používáme jako charakteristiku společné variability znaků X a Y kolem jejich průměrů kovarianci 1 11 sxy = ~ ^2(xí - mx)(yi - uiy). n í=i David Hampel Popisná statistika Dvourourozměrný datový soubor - charakteristiky Jsou-li směrodatné odchylky sx, sy nenulové, pak definujeme koeficient korelace znaků X, Y vzorcem _ $xy Txy — • SxSy Pro koeficient korelace platí — 1 < rxy < 1 a rovnosti je dosaženo právě když mezi hodnotami x±,... ,xn a yi,... ,yn existuje úplná lineární závislost, tj. existují konstanty a, b tak, že yi = a + bx{, i = 1,..., n, přičemž znaménko + platí pro b > 0, znaménko — pro b < 0. David Hampel Popisná statistika Dvourourozměrný datový soubor - charakteristiky Představu o významu hodnot koeficientu korelace podávají následující dvourozměrné tečkové diagramy. r=l r = 0.7 r = 0 r = -l r = -0.4 r = 0 David Hampel Popisná statistika Vážené číselné charakteristiky ► Vážený aritmetický průměr 1 r ► Vážený rozptyl 1 r ► Vážená kovariance ^ r r «12 = - Y^Yu njk(x[j] - ™i)(ž/[fc] - m2) 71 3=1 k=l David Hampel Popisná statistika Vážené číselné charakteristiky - použití Mějme data zadaná následujícím způsobem: Výše dotace (v milionech) 1 2 5 Počet 4 3 1 ► Hodnot je celkem 8, nikoliv 3 (častá chyba). ► Pokud máme spočítat průměr, můžeme to provést obvyklým způsobem: 1+1+1+1 m ► anebo úsporněji podle vzorce pro vážený průměr: 4 • 1 + 3 • 2 + 1 • 5 m David Hampel Popisná statistika Regresní přímka David Hampel Popisná statistika Regresní přímka ► Cílem regresní analýzy je vystižení závislosti hodnot znaku Y na hodnotách znaku X. Při tom je nutné vyřešit dva problémy: ► jaký typ funkce použít k vystižení dané závislosti a ► jak stanovit konkrétní parametry zvoleného typu funkce? ► Typ funkce určíme bud' logickým rozborem zkoumané závislosti nebo se ho snažíme odhadnout pomocí dvourozměrného tečkového diagramu. David Hampel Popisná statistika Regresní přímka Zde se omezíme na lineární závislost y = /3q + fax. Odhady 60 a &i neznámých parametrů /3q, Pi získáme na základě dvourozměrného datového souboru metodou nejmenších čtverců. Požadujeme, aby průměr součtu čtverců odchylek skutečných a odhadnutých hodnot byl minimální, tj. aby výraz 1 n - y^ivi - A) - Pixif n ^ nabýval svého minima vzhledem k /3o a /3i. Tento výraz je minimální, jsou-li jeho první derivace podle (3q a /3i nulové. Stačí tyto derivace spočítat, položit je rovny 0 a řešit systém dvou rovnic o dvou neznámých, tzv. systém normálních rovnic. David Hampel Popisná statistika Regresní přímka Nechť je dán dvourozměrný datový soubor a přímka y = /3q + fi\x. Výraz 1 n c = - E(y* - ^ - ä^)2 n f—f se nazývá rozptyl hodnot znaku y kolem přímky y = /3q + /3ix. Přímka y = &o + j ej ľž parametry minimalizují rozptyl y = /30 + v celém dvourozměrném prostoru, se nazývá regresní přímka znaku Y na znak X. David Hampel Popisná statistika Regresní přímka ► Regresní odhad i-té hodnoty znaku Y značíme ýi = b0 + b1xi, i = l,...,n. ► Kvadrát koeficientu korelace znaků X, Y se nazývá index determinace a značí se ID2. ► Index determinace udává, jakou část variability hodnot znaku Y vystihuje regresní přímka. ► Nabývá hodnot z intervalu (0,1). ► Čím je bližší 1, tím lépe vystihuje regresní přímka závislost Y na X. David Hampel Popisná statistika Regresní přímka Nechť y = &o + b±x je regresní přímka znaku Y na znak X. Pak použitím metody nejmenších čtverců dostaneme b1 = —f, b0=my-—^mx. ► Parametr 60 udává velikost posunutí regresní přímky na svislé ose (tj. udává, jaký je regresní odhad hodnoty znaku Y, nabývá-li znak X hodnoty 0). ► Směrnice b\ udává, o kolik jednotek se změní hodnota znaku Y, změní-li se hodnota znaku X o jednotku. ► Jestliže je b\ > 0, dochází s růstem X k růstu Y a hovoříme o přímé závislosti hodnot znaku Y na hodnotách znaku X. ► Je-li b\ < 0, dochází s růstem X k poklesu Y a hovoříme o nepřímé závislosti hodnot znaku Y na hodnotách znaku X. David Hampel Popisná statistika Regresní přímka - příklad r(x,y)= 0.72947 1 951-1-1-1-1-1-1-r- 190 185 180 175 170 165 160 50 55 60 65 70 X 75 80 85 90 David Hampel Popisná statistika Regresní přímka - příklad David Hampel Popisná statistika Regresní přímka - příklad Regresní primka y = 136.2073 + 0.58101x 1 951-1-1-1-1-1-1-1-1-r 1601-1-*—•—1-1-1-1-1-1-1-1 45 50 55 60 65 70 75 80 85 90 95 David Hampel Popisná statistika DĚKUJI ZA POZORNOST David Hampel Popisná statistika