Intervalové rozložení četností - jednorozměrný případ Je-li počet variant znaku X velký, přiřazujeme četnosti nikoli jednotlivým variantám, ale třídicím intervalům (upu2), (ur,ur+1) a hovoříme o intervalovém rozložení četností. Ilustrace j-tého třídicícho intervalu: Názvy četností jsou podobné jako u bodového rozložení četností, navíc zavádíme četnostní hustotu j-tého třídicího intervalu fj = |i,kdedj=uj+i-uj. Třídicí intervaly volíme nejčastěji stejně dlouhé. Stanovení jejich počtu je dosti subjektivní záležitost. Často se používá Sturgesovo pravidlo: r = 1 + 3,3 logi0n (n je rozsah souboru) nebo se doporučuje volit r blízké Vň. Tabulka rozložení četností: (uj'uj+l) fi (Ul,u2) X[l] Pl N, Fi fi (Ur>Ur+l) X[r] dr Pr Nr Fr Hustota četnosti: f(x) = _ Jfj prouj - (ui,U2) Tlil TlTS Tlr. n. Příklad: U 60 náhodně vybraných manželských párů byl zjišťován průměrný čistý měsíční příjem (v Kč). Příjem manžela považujeme za znakX, příjem manželky za znak Y. Pro oba znaky X, Y najděte podle Sturgesova pravidla optimální počet třídicích intervalů a sestavte kontingenční tabulku simultánních absolutních četností. příjem manžela příjem manželky příjem manžela příjem manželky příjem manžela příjem manželky 16210 13710 31760 30250 24420 14640 30310 27960 38620 21980 15460 12800 33900 24930 27030 25410 37600 24200 40580 36720 43670 37540 42190 28650 19070 12940 45270 30580 15960 14500 29800 25810 39210 25470 18650 20210 26000 24590 14470 10550 26020 30150 37500 34810 23630 14820 23570 18840 21950 18860 15840 16340 20630 12760 19020 21530 25720 18700 31450 26840 17460 19870 17290 11560 19950 17960 13840 14320 18900 12080 16840 20900 29200 21200 47920 35620 16790 15740 14400 17300 29740 31420 26930 23980 15340 11930 13930 15790 46090 27960 23400 13220 25920 12870 22020 17400 18780 12760 21770 15980 31230 13580 33290 27140 17670 14320 20320 18490 31890 36970 19880 14800 19960 20500 18990 15470 14880 12680 36550 24360 v Řešení: Rozsah datového souboru je 60, tedy podle Sturgesova pravidla je optimální počet třídicích intervalů r = 7. Budeme tedy volit 7 intervalů stejné délky tak, aby v nich byly obsaženy všechny pozorované hodnoty znaku X, z nichž nejmenší je 13840, největší 47270; volba ui = 13000,u8 = 48000 splňuje požadavky. Délka třídicích intervalů: dj = 5000. Nyní vhodně stanovíme třídicí intervaly pro znak Y, tj. pro příjem manželky. Bude jich 7, stejně jako pro znak X. Minimální hodnota je 10 550 Kč, maximální 37 550 Kč. Vhodná volba třídicích intervalů bude např. vi = 10000,38000. Délka třídicích intervalů: hk = 4000. Kontingenční tabulka simultánních absolutních četností (symboly RX, RY označují středy třídicích intervalů): RX RY RY RY RY RY RY RY Řádk. 12000 16000 20000 24000 28000 32000 36000 součty 15500 6 7 2 0 0 0 0 15 20500 4 5 5 0 0 0 0 14 25500 2 2 2 3 0 1 0 10 30500 1 0 1 1 2 2 1 8 35500 0 0 0 3 1 0 1 5 40500 0 0 1 1 1 0 1 4 45500 0 0 0 0 1 1 2 4 Celková čet n 13 14 11 8 5 4 5 60 Z této kontingenční tabulky můžeme např. zjistit, že v našem výběrovém souboru je 6 manželských párů, kde muž má průměrný měsíční příjem mezi 13 000 Kč až 18 000 Kč a současně žena má průměrný měsíční příjem mezi 10 000 Kč až 14 000 Kč. Rovněž je patrno, že nenulové četnosti se vyskytují především kolem hlavní diagonály této kontingenční tabulky, tedy nízké (vysoké) příjmy manželů mají tendenci se vyskytovat společně s nízkými (vysokými) příjmy manželek. Dvourozměrné intervalové rozložení četností graficky znázorňujeme pomocí stereogramu. Je to graf skládající se z r x s kvádrů, sestrojených nad dvourozměrnými třídicími intervaly, přičemž objem (j, k)-tého kvádruje roven relativní četnosti Pjk (j, k)-tého třídicího intervalu, j = 1, r, k = 1, ..., s. Výška kvádru tedy vyjadřuje simultánní četnostní hustotu. Příklad stereogramu: Pomocí simultánních četnostních hustot zavedeme simultánní hustotu četnosti: Funkce f(x, y) = |fjk pro u j x a ^necelé číslo zaokrouhlíme nahoru na nejbližší celé číslo c ^> xa = x(c) Pro speciálně zvolená a užíváme názvů: x0,5o - medián (median), xo,25 - dolní kvartil (lower quartile), x0,75 - horní kvartil (upper quartile), x01?x09 - decily (deciles), x0,oi, x0,99 -percentily (percentiles). Charakteristika variability: kvartilová odchylka (quartile range): q = x0j5 - x0,25- Příklad na výpočet kvantilů: U 50 žáků 7. ročníku jedné jí známka 1 2 3 4 5 četnost známky 9 15 20 4 2 Určete medián, 1. a 9. decil a kvartilovou odchylku. v Řešení: Pro snadnější výpočet tabulku doplníme ještě o absolutní kumulativní četnosti: známka 1 2 3 4 5 ni 9 15 20 4 2 9 24 44 48 50 Rozsah souboru n = 50 a na c xa 0,50 50.0,5=25 25 X(25) +X(26) _ 3 + 3 _3 2 2 0,10 50.0,1 = 5 5 X(5)+X(6) _l + l_i 2 2 0,90 50.0,9 = 45 45 X(45) + X(46) _ 4 + 4 _ 2 2 0,25 50.0,25 = 12,5 13 x(13) - 2 0,75 50.0,75 = 37,5 38 x(38) - 3 celé číslo c => x r X(c) +X(c+1) na = ( " 2 i necelé číslo => zaokrouhlíme nahoru na nejbližší celé číslo c => xa Kvartilová odchylka: q = 3 - 2 = 1. Interpretace např. dolního kvartilu: V souboru žáků je aspoň čtvrtina takových, kteří mají z matematiky jedničku nebo dvojku (neboli v souboru žáků jsou aspoň tři čtvrtiny takových, kteří mají z matematiky dvojku či horší známku). Výpočet pomocí systému STATISTIC A: Vytvoříme nový datový soubor o pěti případech a dvou proměnných nazvaných X a četnost a vepíšeme zjištěné hodnoty. Statistika - Základní statistiky/tabulky - Popisné statistiky - Proměnné X - OK - klikneme na ikonu závaží - Proměnná vah četnost - OK - Stav Zapnuto - OK - Detailní výsledky - zaškrtneme Medián, Dolní a horní kvartily, Kvartil. rozpětí Výpočet. Medián Dolní Horní Kvartilové 1 Proměnná kvartil kvartil rozpětí x 3 2 3 1 Grafické znázornění ordinálních dat pomocí krabicového diagramu (box plot) Umožňuje posoudit symetrii a variabilitu datového souboru a existenci odlehlých či extrémních hodnot. Způsob konstrukce Odlehlá hodnota leží mezi vnějšími a vnitřními hradbami, tj. v intervalu Q odlehlá hodnota (x0,75 + l,5q, x0j5 + 3q) či v intervalu (x0,25 - 3q, x0,25- l,5q). horní vnitřní hradba nebo max. hodnota Exirémní hodnota leží za vnějšími hradbami, tj. v intervalu (x0,75 + 3q, oo) či v intervalu (-oo, x0,25 - 3q). horní kvartil medián J — dolní kvartil dolní vnitřní hradba nebo min. hodnota - extrémní hodnota Příklad na konstrukci krabicového diagramu Pro datový soubor známek z matematiky 50 žáků 7. ročníku ZS sestrojte krabicový diagram Řešení: Již jsme spočítali medián x0,5o = 3, dolní kvartil x0,25 = 2, horní kvartil x0,75 = 3, kvartilová odchylka q = 3 - 2 = 1. Dále vypočítáme dolní vnitřní hradba: x0,25 - l,5q = 2 - 1,5.1 =0,5, horní vnitřní hradba: x0,75 + l,5q = 3 + 1,5.1 =4,5, dolní vnější hradba: x0,25 - 3q = 2 - 3.1 = -1, horní vnější hradba: x0j5 +3q = 3 + 3.1 =6. Nakonec sestrojíme krabicový diagram. 1-1 4 □ 25%-75% -(2,3) I Rozsah neodleh. o Odlehlé * Extrémy Vidíme, že medián splyne s horním kvartilem, soubor známek tedy nemá symetrické rozložení četností. Vyskytuje se zde odlehlá hodnota 5, extrémní hodnoty nikoliv. Charakteristika těsnosti závislosti dvou ordinálních znaků: Spearmanův koeficient pořadové korelace (Spearman Rank Correlation Coefficient) Charles Edward Spearman (1863 - 1945): Britský psycholog a statistik Nejprve je nutné vysvětlit pojem pořadí čísla v posloupnosti čísel. Nechť xi, ..., xn je posloupnost reálných čísel. a) Jsou-li čísla navzájem různá, pak pořadím Ri čísla x} rozumíme počet těch čísel xi, ..., xn, která jsou menší nebo rovna Číslu Xj. b) Vyskytují-li se mezi danými čísly skupinky stejných čísel, pak každé takové skupince přiřadíme průměrné pořadí. Příklad na stanovení pořadí a) Jsou dána čísla 9, 4, 5, 7, 3, 1. b) Jsou dána čísla 6, 7, 7, 9, 6, 10, 8, 6, 6, 9. Stanovte pořadí těchto čísel. v Řešení ad a)_ usp. čísla 1 3 4 5 7 9 pořadí 1 2 3 4 5 6 ad b) usp. čísla 6 6 6 6 7 7 8 9 9 10 pořadí 1 2 3 4 5 6 7 8 9 10 prům. pořadí 2,5 2,5 2,5 2,5 5,5 5,5 7 8,5 8,5 10 Zavedení Spearmanova koeficientu Předpokládejme, že máme dvourozměrný datový soubor yn Označíme Ri pořadí hodnoty x} a Qi pořadí hodnoty yi? i = 1, n. 6 n Spearmanův koeficient pořadové korelace: rs = 1 —r—-—(Rj - Q; )2. n (n -l]i=i Vlastnosti Spearmanova koeficientu pořadové korelace: Koeficient nabývá hodnot mezi -1 a 1. Čím je bližší 1, tím je silnější přímá pořadová závislost mezi znaky X a Y, čím je bližší -1, tím je silnější nepřímá pořadová závislost mezi znaky X a Y. Je-li rs = 1 resp. rs = -1, pak dvojice (xi? y0 leží na nějaké vzestupné resp. klesající funkci. Hodnoty rs se nezmění, když provedeme vzestupnou transformaci původních dat. Hodnoty rs se vynásobí -1, když provedeme sestupnou transformaci původních dat. Koeficient je symetrický. Koeficient je rezistentní vůči odlehlým hodnotám. Význam absolutní hodnoty Spearmanova koeficientu: mezi 0 až 0,1 ... zanedbatelná pořadová závislost, mezi 0,1 až 0,3 ... slabá pořadová závislost, mezi 0,3 až 0,7 ... střední pořadová závislost, mezi 0,7 až 1 ... silná pořadová závislost. Příklad na výpočet Spearmanova koeficientu pořadové korelace: Je dán dvourozměrný datový soubor f 2,5 13,4^ 3,4 15,2 1,3 11,8 5,8 13,1 3,6 14,5, Vypočtěte Spearmanův koeficient pořadové korelace. v Řešení: 2,5 3,4 1,3 5,8 3,6 Vi 13,4 15,2 11,8 13,1 14,5 Ri 2 3 1 5 4 Qi 3 5 1 2 4 (RrQi)2 1 4 0 9 0 rs=l—r|-nY(Ri-Qi)2=l~^-(l + 4 + 0 + 9 + 0) = l-^ = 0,3 n(n2-l)tr 5-24 5-24 Znamená to, že mezi znaky X a Y existuje slabá přímá pořadová závislost. Výpočet pomocí systému STATISTICA: Vytvoříme nový datový soubor o 5 případech a dvou proměnných X, Y. Statistiky - Neparametrická statistika - Korelace - OK - Proměnné X, Y - OK - Spearman R. Proměnná X_Y X _ 1,000000 0,300000 Y__0,300000 1,000000