Intervalové rozložení četností Nechť je dán jednorozměrný datový soubor. Jestliže počet variant znaku X je blízký rozsahu souboru, pak četnosti přiřazujeme nikoliv jednotlivým variantám, ale celým intervalům hodnot. Hovoříme pak o intervalovém rozložení četnosti. Číselnou osu rozložíme na intervaly typu <- d ^,u2),..., Cr>ur+)> 7r, Ti 1 w, 161 S5 '.'■! 1D7 112 113 141 9fl 97 103 .H L 27 99 : J1J 104 ] 12 125 107 as 97 93 n 72 97 'if; 113 10S 45 89 71 109 ;i!J r.i 95 132 LQ] 114 33 li-ľ' 78 87 i-i- 114 & nn 125 \« 7-1 111 77 104 ■17 in 65 K 113 l:>7 142 L 02 44 a L Of. 92 ill! us 141 h::- 126 LÓS ne 136 i J-HI S2 á 1 IIS i:ifi Lil.! 101 72 7:1 93 S6 s' E9 42 lil 147 113 L23 52 =2 85 1 17 133 147 137 153 179 Mil 35 !JL a) Pro znak X stanovte optimálni počet třídicích intervalů dle Sturgersova pravidla. b) Sestavte tabulku rozloženi četnosti. Řešení: ad a) Rozsah souboru je 60. Podle Sturgersova pravidla je optimální počet třídicích intervalů r = 7. Budeme tedy volit 7 intervalů stejné délky tak, aby v nich byly obsaženy všechny pozorované hodnoty znaku X, z nichž nejmenší je 33, největší 160; volba ui = 30, u8 = 170 splňuje požadavky. ad b)_ UJ> UJ+) dj xD] nj Nj fo 50) 20 40 8 8/60 = 0,13 8 8/60 = 0,13 8/(60-20) = 0,006 fo 70) 20 60 4 4/60 = 0,06 12 12/60 = 1,2 4/(60-20) = 0,003 fo 90 20 80 13 13/60 = 0,216 25 25/60 = 0,416 13/(60-20)= 1,0183 folio) 20 100 15 15/60= 1,25 40 40/60 = 0,6 15/(60-20)= 1,0125 <10, 13^ 20 120 9 9/60= 1,15 49 49/60 = 0,816 9/(60-20)= 1,0075 <30, 150 20 140 7 7/60 = 0,116 56 56/60 = 0,93 7/(60-20)= 1,00583 <50, 170 20 160 4 4/60 = 0,06 60 60/60 = 4/(60-20)= 0,003 Součty 60 1 Histogram, hustota četnosti, intervalová empirická distribuční funkce Intervalové rozložení četností graficky znázorňujeme pomocí histogramu. Je to graf skládající se z r obdélníků, sestrojených nad třídicími intervaly, přičemž obsah j-tého obdélníku je roven relativní četnosti pj j-tého třídicího intervalu, j = 1, r. Histogram je shora omezen schodovitou čarou, která je grafem funkce zvané hustota četnosti: f pro Uj < x < uj+1, j = 1, —, r 1^0 jinak Pomocí hustoty četnosti zavedeme intervalovou empirickou distribuční funkci: x F ) a normovaná ( Jf(x)dx=i). Intervalová — D empirická distribuční funkce je neklesající, spojitá a normovaná (iimx_> 3F(x) = O, lim_ F(X)=1). Příklad: Pro mez plasticity oceli nakreslete histogram a pod histogram graf intervalové empirické distribuční funkce. Řešení: Vyjdeme z tabulky rozložení četností. Uj' Uj+) dj xU] nj pj Nj Fj fj 30, 50 20 40 8 8/60 = 0,13 8 8/60 = 0,13 8/(60-20)= 0,006 50, 70) 20 60 4 4/60 = 0,06 12 12/60= 1,2 4/(60-20) = 0,003 20 80 13 13/60 = 0,216 25 25/60 = 0,416 13/(60-20)= 1,0183 9o, 110) 20 100 15 15/60= 1,25 40 40/60 = 0,6 15/(60-20)= 1,0125 <10, 130 20 120 9 9/60= 1,15 49 49/60 = 0,816 9/(60-20)= 1,0075 <30, 150 20 140 7 7/60 = 0,116 56 56/60 = 0,93 7/(60-20)= 1,00583 <50, 170 20 160 4 4/60 = 0,06 60 60/60 = 4/(60-20)= 0,003 Součty 60 1 Dvourozměrné intervalové rozložení četností Dále se budeme věnovat dvourozměrnému intervalovému rozložení četností, tj. budeme pracovat s dvourozměrným datovým souborem. Zavedeme podobné pojmy jako u dvourozměrného bodového rozložení četností f xi y A Nechť je dán dvourozměrný datový soubor j......[, kde hodnoty ^xn ynJ znaku X roztřídíme do r třídicích intervalů Cj,uj+), j = 1, r s délkami di, dr a hodnoty znaku Y roztřídíme do s třídicích intervalů Ck, vk+), k = 1, s s délkami h1;hs. Obdélník i},u}+)x fkJVk+) se nazývá G>k)-tý dvourozměrný třídicí interval. i j (xij]>y[k\) tik u3 u3+i Simultánní a marginální četnosti Ujk = N(uj < X < Uj+i a vk < Y < Vk+i) - simultánní absolutní četnost (j, k)-tého třídicího intervalu. Pjk = — - simultánní relativní četnost (j, k)-tého třídicího intervalu. nj. = nji + ... + njs - marginální absolutní četnost j-tého třídicího intervalu pro znak X. Pj = ^ - marginální relativní četnost j-tého třídicího intervalu pro znak X. n nk = n1k + ... + nrk - marginální absolutní četnost k-tého třídicího intervalu pro znak Y. p k = — - marginální relativní četnost k-tého třídicího intervalu pro znak Y. n fjk = —— simultánní četnostní hustota v (j, k)-tém třídicím intervalu. djhk fj. = - marginální četnostní hustota v j-tém třídicím intervalu pro znak X. f k = — - marginální četnostní hustota v k-tém třídicím intervalu pro znak Y. Kteroukoliv ze simultánních četností zapisujeme do kontingenční tabulky. Uveďme kontingenční tabulku simultánních absolutních četností: ^* "i* »1- TÍT. n Příklad: Pro datový soubor obsahující údaje o mezi plasticity (znak X) a mezi pevnosti (znak Y) oceli a) stanovte dle Sturgersova pravidla optimální počet třídicích intervalů pro znak Y b) sestavte kontingenční tabulku simultánních absolutních četností. v Řešení: ad a) Rozsah datového souboru je 60. Podle Sturgersova pravidla je tedy optimální počet třídicích intervalů 7. Nejmenší hodnota je 52 a největší 189. Volíme vi = 50, v2 = 70, v8 = 190. ad b) í.".n. ľi i; (70,90) [90,110} (110,130) (130,150) i LÔ0, 170) (170, ioo} nŕ "ji (30, 50) 3 0 0 0 0 0 B (50,70) 0 3 1 II u (l D 1 {70,90) 0 4 7 1 1 il 0 13 (90, 110) (1 n 'i 1 il 0 15 (110,130} 0 n n 4 5 (l 0 a (130,150} 0 n 0 0 2 - 0 v (150,170} 0 U 0 d 0 1 3 4 5 10 14 13 1) G 3 n = 60 Stereogram Dvourozměrné intervalové rozložení četností graficky znázorňujeme pomocí stereogramu. Je to graf skládající se z r x s kvádrů, sestrojených nad dvourozměrnými třídicími intervaly, přičemž objem (j, k)-tého kvádru je roven relativní četnosti pjk (j, k)-tého třídicího intervalu, j = 1, r, k = 1, ..., s. Výška kvádru tedy vyjadřuje simultánní četnostní hustotu. Simultánní a marginální hustota četnosti Pomocí simultánních četnostních hustot zavedeme simultánní hustotu četnosti: u i - ífik Prou, vk jf(x,y)dy, f2*> jf(x,y)dx. — D — 3 Četnostní nezávislost znaků v daném výběrovém souboru při intervalovém rozložení četností Pomocí simultánních a marginálních četnostních zavedeme pojem četnostní nezávislosti znaků v daném výběrovém souboru při intervalovém rozložení četností: Řekneme, že znaky X, Y jsou v daném výběrovém souboru četnostně nezávislé při intervalovém rozložení četností, jestliže pro všechna j = 1, r a všechna k = 1, s platí multiplikativní vztah: fjk = fj fk neboli pro v <, y) e 2: f(x, y) = f^x) f2(y). V našem příkladě nejsou mez pevnosti a mez plasticity četnostně nezávislé, protože už pro j = 1, k = 1 je multiplikativní vztah porušen: í ,".íi 11 ľ: [70,90) (ÍKJ, 110} (110,130) (130,150) (150,170} (170, ISO) 1 («;,«j4-l) {30, 50) 5 3 0 0 0 0 0 B (50,70) 0 3 1 0 u (I 0 i {70,90) 0 4 7 1 1 il 0 n (130,110) íl ; 1 íl 0 15 (110,130} 0 m m 4 5 íl 0 (130, 150} 0 0 0 0 2 " 0 7 (150,170} 0 0 0 d 0 1 3 4 5 10 14 13 13 G 3 il = 60 f„ =---= 1,000208, f. = = 1,006667, f. = —^— = 1,004167, tudíž 60-20-20 60-20 60-20 0,000208 + 0,006667.0,004167 = 0,000028 Číselné charakteristiky znaků Doposud jsme se zabývali funkcionálními charakteristikami znaků, jako jsou empirická distribuční funkce F(x), simultánní četnostní funkce p(x,y), marginální četnostní funkce p1(x), p2(y), simultánní hustots četnosti f(x,y), marginální hustoty četnosti f1(x), f2(y), které nesou úplnou informaci o rozložení četností. Nyní zavedeme číselné charakteristiky, které nás informují o některých rysech tohoto rozložení četností: o poloze (úrovni) hodnot znaku, o jejich variabilitě (rozptýlení), o těsnosti závislosti dvou znaků a pod. Pro různé typy znaků se používají různé číselné charakteristiky, proto se nejdřív seznámíme s jednotlivými typy znaků. Typy znaků (třídění podle stupně kvantifikace) Nominální znak: připouští obsahovou interpretaci pouze u relace rovnosti =. O dvou variantách nominálního znaku lze pouze konstatovat, že jsou buď stejné nebo různé. Čísla, která přiřadíme jednotlivým variantám znaku, nereprezentují skutečnou hodnotu použitých čísel, ale jsou pouhým označením variant znaku. Příklady nominálních znaků: lékařská diagnóza, typ profese, barva očí, rodinný stav, národnost, ... Ordinální znak: připouští obsahovou interpretaci nejen u relace rovnosti =, ale též u relace uspořádání <. Můžeme tedy konstatovat, že varianta xj] je větší (dokonalejší, silnější, vhodnější) než varianta xM. Příklad ordinálního znaku: školní klasifikace vyjadřuje menší nebo větší znalosti zkoušených žáků - jedničkář je lepší než dvojkař, ale intervaly mezi známkami nemají obsahovou interpretaci. Nelze tvrdit, že rozdíl ve znalostech mezi jedničkářem a dvojkařem je stejný jako mezi trojkařem a čtyřkařem. Další příklady: Různá bodování ve sportovních a uměleckých soutěžích, posuzování různých rysů sociálního chování, posuzování stavu pacientů, hodnocení postojů respondentů k různým otázkám, . Intervalový znak: kromě relací rovnosti = a uspořádání < umožňuje obsahovou interpretaci také u operace rozdílu tj. stejný interval mezi jednou dvojicí hodnot a jinou dvojicí hodnot vyjadřuje i stejný rozdíl v extenzitě zkoumané vlastnosti. Příklad intervalového znaku: teplota měřená ve stupních Celsia. Např. naměříme-li ve čtyřech po sobě jdoucích dnech polední teploty 0, 2, 4, 6 °C, znamená to, že každým dnem stouply teploty o 2 °C. Nelze však říci, že z druhého na třetí den vzrostla teplota dvojnásobně, kdežto ze třetího na čtvrtý den pouze jeden a půl krát. Další příklady: kalendářní systémy, směr větru, inteligenční kvocient, ... Společný znak intervalových znaků: nula byla stanovena uměle, pouhou konvencí. Poměrový znak: kromě relací rovnosti = a uspořádání < umožňuje obsahovou interpretaci také u operací rozdílu - a podílu /, tj. stejný poměr mezi jednou dvojicí hodnot a jinou dvojicí hodnot vyjadřuje i stejný podíl v extenzitě zkoumané vlastnosti. Příklad poměrového znaku: délka předmětu měřená v cm. Má-li jeden předmět délku 8 cm a druhý 16 cm, má smysl prohlásit, že druhý předmět je dvakrát delší než první předmět. Další příklady: počet dětí v rodině, výška kapesného v Kč, hmotnost osoby, ... Společný znak poměrových znaků: Poměrový znak má přirozený počátek, ke kterému jsou vztahovány všechny další hodnoty znaku. Mimo uvedenou klasifikaci stojí alternativní znaky, které nabývají jen dvou hodnot, např. 0,1, což znamená absenci a prezenci nějakého jevu. Například 0 bude znamenat neúspěch, l úspěch při řešení určité úlohy. Alternativní znaky mohou být ztotožněny s kterýmkoliv z předcházejících typů. Číselné charakteristiky nominálních znaků Charakteristika polohy: modus - nejčetnější varianta resp. střed nej četnějšího třídicího intervalu. Charakteristika variability: mutabilita m= —nabývá hodnot z intervalu [0, 1]. n,82i n zaokrouhlíme nahoru na nejbližší celéčísloc x t = :(c) Pro speciálně zvolená a užíváme názvů: x0,5o - medián, x^25 - dolní kvartil, xoj5 -horní kvartil, xo,i, Xo,9 - decily, xo,oi, Xo,99 - percentily. Charakteristika variability: kvartilová odchylka: q = xo75 - xo25. Příklad na výpočet kvantilů: U 50 žáků 7. ročníku jedné základní školy byly na pololetním vysvědčení zjištěny známky z matematiky: _ známka 1 2 3 4 5 četnost známky 9 15 20 4 2 Určete medián, 1. a 9. decil a kvartilovou odchylku. Řešení: Pro snadnější výpočet tabulku doplníme ještě o absolutní kumulativní četnosti: známka 1 2 3 4 5 9 15 20 4 2 Ni 9 24 44 48 50 Rozsah souboru n = 50 a na c xa 0,50 50.0,5=25 25 2 2 0,10 50.0,1 = 5 5 2 2 0,90 50.0,9 = 45 45 2 2 0,25 50.0,25 = 12,5 13 X(13) = 2 0,75 50.0,75 = 37,5 38 x(38) = 3 Kvartilová odchylka: q = 3 - 2 = 1. Interpretace např. dolního kvartilu: V souboru žáků je aspoň čtvrtina takových, kteří mají z matematiky jedničku nebo dvojku (neboli v souboru 50 žáků jsou aspoň tři čtvrtiny takových, kteří mají z matematiky dvojku či horší známku). Grafické znázornění ordinálních dat pomocí krabicového diagramu Umožňuje posoudit symetrii a variabilitu datového souboru a existenci odlehlých či extrémních hodnot. Způsob konstrukce o odlehlá hodnota horní vnitřní hradba nebo max. hodnota — horní kvartil — medián dolní kvartil dolní vnitřní hradba nebo min. hodnota ■ír - extrémní hodnota Odlehlá hodnota leží mezi vnějšími a vnitřními hradbami, tj. v intervalu (x0,75 + 1,5q, x0,75 + 3q) či v intervalu (x0,25 - 3q, x0,25 - 1,5q). Extrémní hodnota leží za vnějšími hradbami, tj. v intervalu (x075 + 3q, ao) či v intervalu (-ao, x025 - 3q). Příklad na konstrukci krabicového diagramu Pro datový soubor známek z matematiky 50 žáků 7. ročníku ZS sestrojte krabicový diagram. _ známka 1 2 3 4 5 ni 9 15 20 4 2 Ni 9 24 44 48 50 Řešení: Již jsme spočítali medián x050 = 3, dolní kvartil x025 = 2, horní kvartil x075 = 3, kvarti- lová odchylka q = 3 - 2 = 1. Dále vypočítáme dolní vnitřní hradba: x025 - 1,5q = 2 - 1,5.1 = 0,5, horní vnitřní hradba: x0 75 + 1,5q = 3 + 1,5.1 = 4,5, dolní vnější hradba: x025 - 3q = 2 - 3.1 = -1, horní vnější hradba: x0 75 + 3q = 3 + 3.1 = 6. Nakonec sestrojíme krabicový diagram. 6 |-■-r- 5 4 3 2 1 0 -■-- X Vidíme, že medián splyne s horním kvartilem, soubor známek tedy nemá symetrické rozložení četností. Vyskytuje se zde odlehlá hodnota 5, extrémní hodnoty nikoliv. □ 25%-75% = (2, 3) Rozsah neodleh. = (1, 4) o Odlehlé Charakteristika těsnosti závislosti dvou ordinálních znaků: Spearmanův koeficient pořadové korelace Charles Edward Spearman (i863 - 1945): Britský psycholog a statistik Nejprve je nutné vysvětlit pojem pořadí čísla v posloupnosti čísel. Nechť xi, ..., xn je posloupnost reálných čísel. a) Jsou-li čísla navzájem různá, pak pořadím Ri čísla xi rozumíme počet těch čísel xi; ..., xn, která jsou menší nebo rovna číslu xi. b) Vyskytují-li se mezi danými čísly skupinky stejných čísel, pak každé takové skupince přiřadíme průměrné pořadí. Příklad na stanovení pořadí a) Jsou dána čísla 9, 4, 5, 7, 3, 1. b) Jsou dána čísla 6, 7, 7, 9, 6, 10, 8, 6, 6, 9. Stanovte pořadí těchto čísel. Řešení ad a) usp. čísla 1 3 4 5 7 9 pořadí 1 2 3 4 5 6 ad b) usp. čísla 6 6 6 6 7 7 8 9 9 10 pořadí 1 2 3 4 5 6 7 8 9 10 prům. pořadí 2,25 2,25 2,25 2,25 5,5 5,5 7 8,5 8,5 10 Vzorec pro výpočet Spearmanova koeficientu: f xi y A Předpokládejme, že máme dvourozměrný datový soubor |......|. Označíme Ri pořadí Un yj hodnoty xi a Qi pořadí hodnoty yi, i = 1, n. 6 11 Spearmanuv koeficient pořadové korelace: rs =i- -j-—-J] r; -q;3 • n* -1 j=! Vlastnosti Spearmanova koeficientu pořadové korelace: Koeficient nabývá hodnot mezi -1 a 1. Cím je bližší 1, tím je silnější přímá pořadová závislost mezi znaky X a Y, čím je bližší -1, tím je silnější nepřímá pořadová závislost mezi znaky X a Y. Je-li rS = 1 resp. rS = -1, pak dvojice (xi, yi) leží na nějaké vzestupné resp. klesající funkci. Hodnoty rS se nezmění, když provedeme vzestupnou transformaci původních dat. Hodnoty rS se vynásobí -1, když provedeme sestupnou transformaci původních dat. Koeficient je symetrický. Koeficient je rezistentní vůči odlehlým hodnotám. Význam absolutní hodnoty Spearmanova koeficientu: mezi 0 až 0,1 ... zanedbatelná pořadová závislost, mezi 0,1 až 0,3 ... slabá pořadová závislost, mezi 0,3 až 0,7 ... střední pořadová závislost, mezi 0,7 až 1 ... silná pořadová závislost. Ilustrace významu Spearmanova koeficientu pořadové korelace: rS = 0,82 rS = 0,69 rS = 0,99 rS = 0 2 4 6 8 10 12 14 rS = 0,5 rS = -1 8 10 12 14 12 10 12 10 16 10 16 18 20 1,7 1,0 16 02 10 12 16 Příklad na výpočet Spearmanova koeficientu pořadové korelace: Je dán dvourozměrný datový soubor (2,5 13,4^| i i I 3,4 15,2 | j 1,3 11,8 | I 5,8 13,1 | U6 14,5) Vypočtěte Spearmanův koeficient pořadové korelace. v Řešení: Xi 2,5 3,4 1,3 5,8 3,6 Yi 13,4 15,2 11,8 13,1 14,5 Ri 2 3 1 5 4 Qi 3 5 1 2 4 (Ri-Qi)2 1 4 0 9 0 s ni2- ^ 5-24 - 5-24 Znamená to, že mezi znaky X a Y existuje slabá přímá pořadová závislost.