v Číselné charakteristiky znaků Doposud jsme se zabývali funkcionálními charakteristikami znaků, jako jsou empirická distribuční funkce F(x), simultánní četnostní funkce p(x,y), marginální četnostní funkce pi(x), P2(y), simultánní hustots četnosti f(x,y), marginální hustoty četnosti fi(x), f2(y), které nesou úplnou informaci o rozložení četností. Nyní zavedeme číselné charakteristiky, které nás informují o některých rysech tohoto rozložení četností: o poloze (úrovni) hodnot znaku, o jejich variabilitě (rozptýlení), o těsnosti závislosti dvou znaků a pod. Pro různé typy znaků se používají různé číselné charakteristiky, proto se nejdřív seznámíme s jednotlivými typy znaků. Typy znaků (třídění podle stupně kvantifikace) Nominální znak: připouští obsahovou interpretaci pouze u relace rovnosti =. O dvou variantách nominálního znaku lze pouze konstatovat, že jsou buď stejné nebo různé. Čísla, která přiřadíme jednotlivým variantám znaku, nereprezentují skutečnou hodnotu použitých čísel, ale jsou pouhým označením variant znaku. Příklady nominálních znaků: lékařská diagnóza, typ profese, barva očí, rodinný stav, národnost, ... Ordinální znak: připouští obsahovou interpretaci nejen u relace rovnosti =, ale též u relace uspořádání <. Můžeme tedy konstatovat, že varianta Xyj je větší (dokonalejší, silnější, vhodnější) než varianta x[k]. Příklad ordinálního znaku: školní klasifikace vyjadřuje menší nebo větší znalosti zkoušených žáků - jedničkář je lepší než dvojkař, ale intervaly mezi známkami nemají obsahovou interpretaci. Nelze tvrdit, že rozdíl ve znalostech mezi jedničkářem a dvojkařem je stejný jako mezi trojkařem a čtyřkařem. Další příklady: Různá bodování ve sportovních a uměleckých soutěžích, posuzování různých rysů sociálního chování, posuzování stavu pacientů, hodnocení postojů respondentů k různým otázkám, ... Intervalový znak: kromě relací rovnosti = a uspořádání < umožňuje obsahovou interpretaci také u operace rozdílu -, tj. stejný interval mezi jednou dvojicí hodnot a jinou dvojicí hodnot vyjadřuje i stejný rozdíl v extenzitě zkoumané vlastnosti. Příklad intervalového znaku: teplota měřená ve stupních Celsia. Např. naměříme-li ve čtyřech po sobě jdoucích dnech polední teploty 0, 2, 4, 6 °C, znamená to, že každým dnem stouply teploty o 2 °C. Nelze však říci, že z druhého na třetí den vzrostla teplota dvojnásobně, kdežto ze třetího na čtvrtý den pouze jeden a půl krát. Další příklady: kalendářní systémy, směr větru, inteligenční kvocient, ... Společný znak intervalových znaků: nula byla stanovena uměle, pouhou konvencí. Poměrový znak: kromě relací rovnosti = a uspořádání < umožňuje obsahovou interpretaci také u operací rozdílu - a podílu /, tj. stejný poměr mezi jednou dvojicí hodnot a jinou dvojicí hodnot vyjadřuje i stejný podíl v extenzitě zkoumané vlastnosti. Příklad poměrového znaku: délka předmětu měřená v cm. Má-li jeden předmět délku 8 cm a druhý 16 cm, má smysl prohlásit, že druhý předmět je dvakrát delší než první předmět. Další příklady: počet dětí v rodině, výška kapesného v Kč, hmotnost osoby, ... Společný znak poměrových znaků: Poměrový znak má přirozený počátek, ke kterému jsou vztahovány všechny další hodnoty znaku. Mimo uvedenou klasifikaci stojí alternativní znaky, které nabývají jen dvou hodnot, např. 0,1, což znamená absenci a prezenci nějakého jevu. Například 0 bude znamenat neúspěch, 1 úspěch při řešení určité úlohy. Alternativní znaky mohou být ztotožněny s kterýmkoliv z předcházejících typů. v Číselné charakteristiky nominálních znaků Charakteristika polohy: modus - nej četnější varianta resp. střed nej četnějšího třídicího intervalu. Příklad na stanovení modu 20 náhodně vybraných osob mělo odpovědět na otázku, který z pěti výrobků (označíme je A, B, C, D, E) preferují. Výsledky máme v tabulce: Výrobek A B C D E Četnost odpovědí 3 5 3 6 3 Stanovte modus. v Rešení: Modus = D Charakteristika těsnosti závislosti dvou nominálních znaků: Cramérův koeficient kontingence. Carl Harald Cramér (1893 - 1985): Švédský matematik Nechť znak X nabývá variant x^j, x[r] a znak Y nabývá variant yfl], y[s]. Máme dvourozměrný datový soubor Äl Ji . Zjistíme absolutní četnosti njk dvojice variant (X[j],y[k]), j = 1, ...,r, k = 1, ...,sa uspořádáme je do kontingenční tabulky: y y[n • • y[S] nJ. X x[l] nu • • nis ni. nri . • nrs nr. n.k n.i . • n.s n Vypočteme tzv. teoretické četnosti ^—- a s jejich pomocí pak statistiku n j=l k=l njk- n,n.k . Cramérův koeficient: v = K njn.k n(m-l) , kde m = min{r,s}. Tento koeficient nabývá hodnot mezi 0 a 1. Cím blíže je 1, tím je těsnější závislost mezi X a Y, čím blíže je 0, tím je tato závislost volnější. Význam hodnot Cramérova koeficientu: mezi 0 až 0,1 ... zanedbatelná závislost, mezi 0,1 až 0,3 ... slabá závislost, mezi 0,3 až 0,7 ... střední závislost, mezi 0,7 až 1 ... silná závislost. Příklad na výpočet Cramérova koeficientu: 800 náhodně vybraných osob bylo dotázáno na věk (znak X, varianty 1 - nejvýše 29, 2 - od 29 do 49, 3 - nad 49) a zda jsou ochotny volit v parlamentních volbách (znak Y, varianty 1 - ano, 2 - neví, 3 - ne). Výsledky průzkumu jsou uvedeny v kontingenční tabulce: X Y nj- ano nevím ne nejvýše 29 128 21 27 176 od 29 do 49 223 58 39 320 nad 49 198 73 33 304 549 152 99 800 Vypočtěte a interpretujte Cramérův koeficient. v Řešení: Nejprve vypočteme teoretické četnosti: 176-99 nin.i 176-549 n 800 n2n.i _ 320-549 n 800 n3n.i 304-549 : 127,78,^^ n 176452-33,44,^ 800 n 800 21,78 n 800 n = 208,62,- 800 304-152 = 57,76,- 800 304-99 n 800 n 800 n 800 Nyní dosadíme do vzorce pro výpočet statistiky K: K_(128-127,78)2 | (21-33,44)2 | | (33-37,62)2 _n 127,78 33,44 "' 37,62 Nakonec vypočteme Cramérův koeficient: = 37,62 V = . [11,6302 800-2 = 0,0853 Hodnota Cramérova koeficientu svědčí o tom, že mezi znaky X a Y existuje jen velmi slabá závislost. Číselné charakteristiky ordinálních znaků Charakteristika polohy: a-kvantil. Je-li a e(0;i), pak a-kvantil xa je číslo, které rozděluje uspořádaný datový soubor na dolní úsek, obsahující aspoň podíl a všech dat a na horní úsek obsahující aspoň podíl 1 - a všech dat. Pro výpočet a-kvantilu slouží algoritmus: / ^ (c) ^ (c+1) / celé číslo c ^> x „ =- nu—/ a 2 \ necelé číslo zaokrouhlíme nahoru na nejbližší celé číslo c ^> xa = x(c) Pro speciálně zvolená a užíváme názvů: x0;so - medián, x0;25 - dolní kvartil, x0j5 -horní kvartil, x0;i, x0;9 - decily, x0;oi, x0;99 - percentily. Charakteristika variability: kvartilová odchylka: q = x0j5 - x0,25- Příklad na výpočet kvantilů: U 50 žáků 7. ročníku jedné základní školy byly na pololetním vysvědčení zjištěny známky z matematiky: _ známka 1 2 3 4 5 četnost známky 9 15 20 4 2 Určete medián, 1. a 9. decil a kvartilovou odchylku. Řešení: Pro snadnější výpočet tabulku doplníme ještě o absolutní kumulativní četnosti: známka 1 2 3 4 5 9 15 20 4 2 Ni 9 24 44 48 50 Rozsah souboru n = 50 a na c xa 0,50 50.0,5=25 25 X(25) + X(26) _ 3 + 3 _ ^ 2 2 0,10 50.0,1 =5 5 X(5)+X(6) + 2 2 0,90 50.0,9 = 45 45 X(45) + X(46) _ 4 + 4 _ 2 2 0,25 50.0,25 = 12,5 13 X(13) = 2 0,75 50.0,75 = 37,5 38 X(38) = 3 Kvartilová odchylka: q = 3 - 2 = 1. Interpretace např. dolního kvartilu: V souboru žáků je aspoň čtvrtina takových, kteří mají z matematiky jedničku nebo dvojku (neboli v souboru 50 žáků jsou aspoň tři čtvrtiny takových, kteří mají z matematiky dvojku či horší známku). Grafické znázornění ordinálních dat pomocí krabicového diagramu Umožňuje posoudit symetrii a variabilitu datového souboru a existenci odlehlých či extrémních hodnot. Způsob konstrukce o odlehlá hodnota horní vnitřní hradba nebo max. hodnota horní kvartil medián dolní kvartil dolní vnitřní hradba nebo min. hodnota extrémní hodnota Odlehlá hodnota leží mezi vnějšími a vnitřními hradbami, tj. v intervalu (xo,75 + l,5q, x0,75 + 3q) či v intervalu (x0,25 - 3q, x0,25- l,5q). Extrémní hodnota leží za vnějšími hradbami, tj. v intervalu (x0j5 + 3q, oo) či v intervalu (-00, xq,25 - 3q). Příklad na konstrukci krabicového diagramu Pro datový soubor známek z matematiky 50 žáků 7. ročníku ZS sestrojte krabicový diagram. _ známka 1 2 3 4 5 n. 9 15 20 4 2 Ni 9 24 44 48 50 v Řešení: Již jsme spočítali medián x0;5o = 3, dolní kvartil x0,25 = 2, horní kvartil x0j5 = 3, kvarti- lová odchylka q = 3 - 2 = 1. Dále vypočítáme dolní vnitřní hradba: x0,25 - l,5q = 2-1,5.1 = 0,5, horní vnitřní hradba: x0j5 + l,5q = 3 + 1,5.1 = 4,5, dolní vnější hradba: x0,25 -3q = 2- 3.1 = -1, horní vnější hradba: x0j5 +3q = 3 + 3.1 =6. Nakonec sestrojíme krabicový diagram. 3 H____ 1 =(2,3) I Rozsah neodleh. -(1.4) o Odlehlé 0 '-'-'-'-' * Extrémy x Vidíme, že medián splyne s horním kvartilem, soubor známek tedy nemá symetrické rozložení četností. Vyskytuje se zde odlehlá hodnota 5, extrémní hodnoty nikoliv. Charakteristika těsnosti závislosti dvou ordinálních znaků: Spearmanův koeficient pořadové korelace Charles Edward Spearman (1863 - 1945): Britský psycholog a statistik Nejprve je nutné vysvětlit pojem pořadí čísla v posloupnosti čísel. Nechť xi, ..., xn je posloupnost reálných čísel. a) Jsou-li čísla navzájem různá, pak pořadím Rj čísla xj rozumíme počet těch čísel xi, ..., xn, která jsou menší nebo rovna číslu Xj. b) Vyskytují-li se mezi danými čísly skupinky stejných čísel, pak každé takové skupince přiřadíme průměrné pořadí. Příklad na stanovení pořadí a) Jsou dána čísla 9, 4, 5, 7, 3, 1. b) Jsou dána čísla 6, 7, 7, 9, 6, 10, 8, 6, 6, 9. Stanovte pořadí těchto čísel. v Řešení ad a)_ usp. čísla 1 3 4 5 7 9 pořadí 1 2 3 4 5 6 ad b) usp. čísla 6 6 6 6 7 7 8 9 9 10 pořadí 1 2 3 4 5 6 7 8 9 10 prům. pořadí 2,5 2,5 2,5 2,5 5,5 5,5 7 8,5 8,5 10 Vzorec pro výpočet Spearmanova koeficientu: Předpokládejme, že máme dvourozměrný datový soubor xi yi . Označíme Ri pořadí hodnoty xi a Qi pořadí hodnoty yi, i = 1,n. Spearmanův koeficient pořadové korelace: rs =1- ZÍR.-Q,)2. Vlastnosti Spearmanova koeficientu pořadové korelace: Koeficient nabývá hodnot mezi -1 a 1. Címje bližší 1, tím je silnější přímá pořadová závislost mezi znaky X a Y, čím j e bližší -1, tím je silnější nepřímá pořadová závislost mezi znaky X a Y. Je-li rs = 1 resp. rs = -1, pak dvojice (xi, y0 leží na nějaké vzestupné resp. klesající funkci. Hodnoty rs se nezmění, když provedeme vzestupnou transformaci původních dat. Hodnoty rs se vynásobí -1, když u x-ových hodnot provedeme sestupnou transformaci a u y-ových hodnot vzestupnou transformaci (nebo naopak). Koeficient je symetrický. Koeficient je rezistentní vůči odlehlým hodnotám. Význam absolutní hodnoty Spearmanova koeficientu: mezi 0 až 0,1 ... zanedbatelná pořadová závislost, mezi 0,1 až 0,3 ... slabá pořadová závislost, mezi 0,3 až 0,7 ... střední pořadová závislost, mezi 0,7 až 1 ... silná pořadová závislost. Příklad na výpočet Spearmanova koeficientu pořadové korelace: Je dán dvourozměrný datový soubor '2,5 13,4^ 3,4 15,2 1,3 11,8 5,8 13,1 v3,6 14,5, Vypočtěte Spearmanův koeficient pořadové korelace. v Řešení: Xi 2,5 3,4 1,3 5,8 3,6 Yi 13,4 15,2 11,8 13,1 14,5 Ri 2 3 1 5 4 Qi 3 5 1 2 4 (Rx-Qx)2 1 4 0 9 0 rs =1—r^É(Ri -Qi)' =1——(l + 4 + 0 + 9 + 0) = l-^ = 0,3 n(n2-l)tr 5-24 5-24 Znamená to, že mezi znaky X a Y existuje slabá přímá pořadová závislost. Charakteristika polohy: aritmetický průměr je součet hodnot dělený jejich počtem: m = — T x; . Pomocí průměru n i=i zavedeme i-tou centrovanou hodnotu X[ - m (podle znaménka poznáme, zda i-tá hodnota je podprůměrná či nadprůměrná). Znázornění rozložení četností dvou datových souborů, které se liší aritmetickým průměrem Rozdělení s různými polohami 500 400 - « 300 O c flú 200 >u 100 - 0 4 5 10 hodnota znaku 15 20 Příklad: Pro datový soubor obsahující údaje o mezi plasticity (znak X) a mezi pevnosti oceli (znak Y) vypočtěte aritmetické průměry znaků X, Y. " 154 :;s " 83 9$ T.\ 76 133 164 106 111 77 85 58 7o 12 104 47 61 145 161 85 103 68 85 M 107 112 118 137 142 113 141 118 L 02 44 ůtt fie 97 103 I OS 92 116 121 127 99 119 141 157 119 13S 104 126 155 189 112 125 107 ne HÚ L55 S5 97 98 140 82 81 41 11 97 IIS 136 16.*! 96 113 10a 101 72 70 45 S9 71 93 66 81 99 109 30 69 42 61 51 95 122 147 113 123 101 114 33 52 42 S5 ISO ICS 78 117 133 147 ST 101 114 137 153 179 88 139 125 149 85 91 Řešení: 154 + 133 + ... + 85 m, - -95,9, m 2 = 178 + 164 + ... + 91 60 114,4 Vlastnosti aritmetického průměru - Aritmetický průměr si lze představit jako těžiště dat - součet podprůměrných hodnot je stejný jako součet nadprůměrných hodnot - oba součty jsou v rovnováze. 1 n 1 n 1 n 1 - Průměr centrovaných hodnot je nulový, protože —T(xi-m) = —Vx; —Vm=m---n ■ m = 0 = 0. n i=i n i=1 n i=1 n n - Výraz ^(x; - a)2 (tzv. kvadratická odchylka) nabývá svého minima pro a = m. Uvedený výraz charakterizuje i=l celkovou chybu, které se dopustíme, když datový soubor nahradíme jedinou hodnotou a. Tato chyba je tedy nejmenší, když datový soubor nahradíme aritmetickým průměrem, přičemž za míru chyby považujeme kvadratickou odchylku. - Aritmetický průměr je silně ovlivněn extrémními hodnotami. - Aritmetický průměr je vhodné použít, pokud je rozložení dat přibližně symetrické. Charakteristika variability: rozptyl je průměrná kvadratická odchylka hodnot od jejich aritmetického průměru 1 n i— s2 = —V(x -m)2. Kladná odmocnina z rozptylu se nazývá směrodatná odchylka s = Vs2. Pomocí směrodatné odchylky n tŕ x — m zavedeme i-tou standardizovanou hodnotu —1- (vyjadřuje, o kolik směrodatných odchylek se i-tá hodnota odchýlila s od průměru). 1 n Výpočetní tvar vzorce pro rozptyl: s2 = — Y x;2 -m2 n i=i Znázornění rozložení četností dvou datových souborů, které se liší rozptylem: Rozdělení s různými variabilitami 500 0 5 10 15 20 25 hodnota znaku Příklad: Pro datový soubor obsahující údaje o mezi plasticity (znak X) a mezi pevnosti oceli (znak Y) vypočtěte směrodatné odchylky znaků X, Y. Přitom již víme, že = 95,5 a m2 = 114,4. rozptyly a " i!>4 : 7íí " 83 §8 73 7fi L33 164 106 lil 77 85 58 75 92 104 47 61 145 161 85 103 68 85 94 107 112 118 137 142 113 141 98 102 44 08 se 97 103 108 9^ 116 121 127 99 119 141 157 110 138 104 128 155 189 112 125 107 ne 136 155 85 37 98 140 82 81 41 72 97 115 136 16.1 96 113 105 101 72 79 45 89 71 93 (iíi 81 as 109 39 69 42 61 51 95 132 147 113 123 101 114 33 52 42 85 16D 169 78 117 133 147 87 101 114 137 133 179 $8 139 125 149 85 91 Řešení: 2 l ^x^-m,2 = —(l542 +1332 +... + 852)-95,52 =1052,40,8, = Vl052,40 = 32,4 i=l ■z 60 y;2-m22 =-^(l782 +1642 +... + 912)-114,42 =1057,21,8, = ^1057,21 = 32,5 Vlastnosti rozptylu Rozptyl je nulový pouze tehdy, když jsou všechny hodnoty stejné, jinak je vždy kladný. 1 n 1 Rozptyl centrovaných hodnot je roven původnímu rozptylu, neboť — Y[(x; -m)-0]2 =- n i=i n 1 n í x — m i lln s' Rozptyl standardizovaných hodnot je 1, protože — ^ —1--0 = — ■ — ^ (x; - m)2 =— i=l s n i=l Rozptyl je stejně jako průměr silně ovlivněn vybočujícími hodnotami. Rozptyl se nehodí jako charakteristika variability, je-li rozložení dat nesymetrické. 1 ^ 2 ™2 Kromě již uvedeného tvaru pro rozptyl je pro výpočty praktičtější tvar: s2 = — ^ x; - m n — i=l ^É(*i-™)3 Charakteristika nesymetrie dat: šikmost cc3 = -^-^—-- Je-li rozložení dat symetrické kolem aritmetického průměru, pak a3 = 0. Má-li rozložení dat prodloužený pravý konec, jde o kladně zešikmené rozložení, a3 > 0. Má-li rozložení dar prodloužený levý konec, jde o záporně zešikmené rozložení, a3 < 0. Znázornění rozložení četností dvou datových souborů, které se liší aritmetickým průměrem a šikmostí Charakteristika koncentrace dat kolem průměru Informaci o koncentraci dat kolem průměru přináší špičatost cc4 = ———-- s Je-li rozložení dat normální, pak a4 = 0. Je-li rozložení dat strmější než normální rozložení, pak a4 > 0. Je-li rozložení dat plošší než normální rozložení, pak a4 < 0. Znázornění rozložení četností dvou datových souborů, které se liší špičatostí 2 7 12 17 22 hodnota znaku Charakteristika společné variability dvou intervalových znaků: kovariance Předpokládejme, že máme dvourozměrný datový soubor k i 11 x- yn Označme m1? m2 průměry znaků X, Y a Si, s2 směrodatné odchylky znaků X, Y. Zavedeme ko varianci jako charakteristiku společné variability znaků X, Y kolem jejich průměrů 1 '12 n — Z(xi -miXy; ~mi)- i=l Kovariance je průměrem součinů centrovaných hodnot. Pokud se nadprůměrné (podprůměrné) hodnoty znaku X sdružují s nadprůměrnými (podprůměrnými) hodnotami znaku Y, budou součiny centrovaných hodnot Xj - mi a y; - m2 vesměs kladné a jejich průměr (tj. kovariance) rovněž. Znamená to, že mezi znaky X, Y existuje určitý stupeň přímé lineární závislosti. Říkáme, že znaky X, Y jsou kladně korelované. Pokud se nadprůměrné (podprůměrné) hodnoty znaku X sdružují s podprůměrnými (nadprůměrnými) hodnotami znaku Y, budou součiny centrovaných hodnot vesměs záporné a jejich průměr rovněž. Znamená to, že mezi znaky X a Y existuje určitý stupeň nepřímé lineární závislosti. Říkáme, že znaky X, Y jsou záporně korelované. Je-li kovariance nulová, pak řekneme, že znaky X, Y jsou nekorelované a znamená to, že mezi nimi neexistuje žádná lineární závislost. 1 n Pro výpočet kovariance používáme vzorec: Si2 = — T]*^ _mim2 • ntŕ Příklad: Pro datový soubor obsahující údaje o mezi plasticity (znak X) a mezi pevnosti oceli (znak Y) vypočtěte kovarianci znaků X, Y. Přitom již víme, že m2 = 95,5, m2 = 114,4, Sl =32,4, s2 = 32,5 154 :7iy; _mim2 = — (154-178+ 133-164+ ... + 85-91)-95,5-114,4 = 985,76 Charakteristika těsnosti závislosti dvou intervalových znaků: Pearsonův koeficient korelace Jsou-li směrodatné odchylky si, S2 nenulové, pak definujeme Pearsonův koeficient korelace znaků X, Y vzorcem: _ 1 - 12 — 2-i n i=i s, ————. Je to průměr součinů standardizovaných hodnot. Počítá se podle vzorce r12 = Příklad: Pro datový soubor obsahující údaje o mezi plasticity (znak X) a mezi pevnosti oceli (znak Y) vypočtěte koeficient korelace znaků X, Y. Přitom již víme, že mi = 95,5, m2 = 114,4, si =32,4, s2 = 32,5, S12 = 985,76. Řešení: 985,76 = 0,936 SjS2 32,4.32,5 Koeficient korelace svědčí o tom, že mezi oběma znaky existuje velmi silná přímá lineární závislost - čím je vyšší mez plasticity, tím je vyšší mez pevnosti a čím je nižší mez plasticity, tím je nižší mez pevnosti. Vlastnosti Pearsonova koeficientu korelace: Pro koeficient korelace platí -1 < r12 < 1 a rovnosti je dosaženo právě když mezi hodnotami xl5 xn a yi5 yn existuje úplná lineární závislost, tj. existují konstanty a, b tak, že y i - a + bxÍ5 i = 1, n, přičemž znaménko + platí pro b > 0, znaménko - pro b < 0. (Uvedená nerovnost se nazývá Cauchyova - Schwarzova - Buňakovského nerovnost.) Tedy čím je rí2 bližší 1, tím je silnější přímá lineární závislost mezi znaky X a Y, čím je bližší -1, tím je silnější nepřímá lineární závislost mezi X a Y. Je-li rí2 - 1 resp. r12 = -1, pak dvojice (xÍ5 yO leží na nějaké rostoucí resp. klesající přímce. Hodnoty r12 se nezmění, když u x-ových a y-ových hodnot současně provedeme vzestupnou resp sestupnou lineární transformaci. Hodnoty rí2 se vynásobí -1, když u x-ových hodnot provedeme vzestupnou (resp. sestupnou) a u y-ových hodnot sestupnou (resp. vzestupnou) lineární transformaci. Koeficient je symetrický, tj. r12 = r21. Z vlastností Pearsonova koeficientu korelace vyplývá, že se hodí pouze k měření těsnosti lineárního vztahu znaků X a Y. Při složitějších závislostech může dojít k paradoxní situaci, že Pearsonův koeficient korelace je nulový. Početní pravidla pro číselné charakteristiky Nechť mi je aritmetický průměr a Si rozptyl znaku X. Pak znak Y = a + bX má aritmetický průměr m2 = a + bmi a rozptyl s22 = b2Sl2. 2 2 Nechť ml5 m2 jsou aritmetické průměry, Si , s2 rozptyly a si2 kovariance znaků X, Y. Pak znak U = X + Y má aritmetický průměr m3 = m: + m2 a rozptyl s32 = Si2 + s22 + 2si2. Nechť S12 je kovariance znaků X, Y a ml5 m2 jsou aritmetické průměry znaků X, Y. Pak znaky U = a + bX, V = c + dY mají kovarianci s34 = bdsi2. Příklad: a) Znak X má aritmetický průměr 2 a rozptyl 3. Najděte aritmetický průměr a rozptyl znaku Y = -1 + 3X. b) Znaky X a Y mají aritmetické průměry 3 a 2, rozptyly 2 a 3, kovarianci 1,5. Vypočtěte aritmetický průměr a rozptyl znaku Z = 5X - 4Y. c) Součet rozptylů dvou znaků je 120, součin 1000 a rozptyl jejich součtů je 100. Vypočtěte koeficient korelace těchto znaků. v Řešení: ad a) m2 = -1 + 3mi = -1 + 3 x 2 = 5, s22 = 32 x Si2 = 9 x 3 = 27. ad b) m3 = 5mi - 4m2 = 5 x 3 - 4 x 2 = 7, s32 = 52 x Si2 + (-4)2 x s22 + 2 x 5 x (-4) x Si2 = 25 x 2 + 16 x 3 - 40 x 1,5 = 38. ad c) Si2 + s22 = 120, Si2 x s22 = 1000, Si+22 = 100 = Si2 + s22 + 2si2 => Si2 = ~ s/- s22 )=|(100-120) = -10 10 Vážené číselné charakteristiky Pokud nemáme k dispozici původní datový soubor, ale jenom tabulku rozložení četností (resp. kontingenční tabulku), můžeme vypočítat tzv. vážené číselné charakteristiky. i r něr: m = njx[j] n j=1 Vážený rozptyl: s2 = nj(X[j] - m)2 = njX[j]2 - m2 n j=1 n j=1 Vážená kovariance: s12 = 1£ £ njk (X[j] - m,)(ľ[k] - m2) = Í£ É njkWm ~ mim2 n j=l k=l n j=l k=l Příklad na výpočet vážených číselných charakteristik Z dvourozměrného datového souboru rozsahu 27, v němž znak X má varianty 1, 2, 3 a znak Y má simultánní absolutní četnosti: nu = 5, nu = 1, ni3 = 3, n2i = 4, n22 = 3, n23 = 4, n?i = 2, n?2 = 3, n?3 a) Vypočtěte průměry a směrodatné odchylky znaků X a Y. b) Vypočtěte a interpretujte koeficient korelace znaků X a Y. Řešení: Kontingenční tabulka simultánních absolutních četností: X y nJ. i 2 3 1 5 1 3 9 2 4 3 4 11 3 2 3 2 7 n.k 11 7 9 27 ad a) m, = — (l-9 + 2• 11 + 3• 7) = — = 1,926 , m7 = —(l-11 +2-7 + 3• 9) = — = 1,926 27 27 27 27 !2 =— (l2 -9 + 22ll + 32 -7)- 27 52 27 116 2704 428 27 729 729 , si = 0,766 = J_(lMl + 22-7 + 32-9)-í—Y = 27 27 120 2704 536 27 729 729 s2 = 0,857 adb) s17 =— (1-1-5 + 1-2-1 + 1-3-3 + 2-1-4 + 2-2-3 + 2-3-4 + 3-1-2 + 3-2-3 + 3-3-2)- — • — 27 27 27 102 2704 2754-2704 50 27 729 50 729 J428 536 V 729 729 729 = 0,10439. 729 = 0,0685871 Mezi znaky X a Y existuje velmi slabá přímá lineární závislost. Pro poměrové znaky používáme jako charakteristiku variability koeficient variace —. Je to bezrozměrné m číslo, které se často vyjadřuje v procentech. Udává, jakým násobkem průměru je směrodatná odchylka. Umožňuje porovnat variabilitu několika znaků. Jsou-li všechny hodnoty poměrového znaku kladné, pak jako charakteristiku polohy lze užít geometrický průměr ^xl-...-xa . Geometrický průměr je vhodný tehdy, má-li smysl počítat součin pozorovaných hodnot, např. chceme-li charakterizovat vývoj prodeje určitého zboží pomocí řetězových indexů, pak vhodnou charakteristikou souboru získaných indexuje právě geometrický průměr. Příklad: Pro datový soubor obsahující údaje o mezi plasticity (znak X) a mezi pevnosti oceli (znak Y) vypočtěte koeficienty variace znaků X, Y. Přitom již víme, že mj = 95,5, m2 = 114,4, si =32,4, s2 = 32,5 v Řešení: cv, m, 32,4 0,339, ev- il 32,5 : 0,284 95,5 z m2 114,4 Vidíme, že mez plasticity oceli má poněkud vyšší variabilitu než mez pevnosti oceli.