Číselné charakteristiky intervalových znaků 1 n Charakteristika polohy: aritmetický průměr je součet hodnot dělený jejich počtem: fíl_^^X[ . Pomocí průměru zavedeme i-tou centrovanou hodnotu xi - m (podle znaménka poznáme, zda i-tá hodnota je podprůměrná či nadprůměrná). Příklad: (na výpočet aritmetického průměru) Je dán datový soubor (2 8 9 10 1 0 5). Vypočtěte jeho průměr. Řešení: m_ -f I- f :+ Znázornění rozložení četností dvou datových souborů, které se liší aritmetickým průměrem / Vlastnosti aritmetického průměru - Aritmetický průměr si lze představit jako těžiště dat - součet podprůměrných hodnot je stejný jako součet nadprůměrných hodnot - oba součty jsou v rovnováze. I - 1 - 1 - 1 - Průměr centrovaných hodnot je nulový, protože . - \ ^— = 0- n 2 - Výraz ^S^i _ci j(tzv. kvadratická odchylka) nabývá svého minima pro a = m. Uvedený výraz charakterizuje celkovou chybu, které se dopustíme, když datový soubor nahradíme jedinou hodnotou a. Tato chyba je tedy nejmenší, když datový soubor nahradíme aritmetickým průměrem, přičemž za míru chyby považujeme kvadratickou odchylku. - Aritmetický průměr je silně ovlivněn extrémními hodnotami. - Aritmetický průměr je vhodné použít, pokud je rozložení dat přibližně symetrické. Charakteristika variability: rozptyl je průměrná kvadratická odchylka hodnot od jejich aritmetického průměru SS _fíl2. Kladná odmocnina z rozptylu se nazývá směrodatná odchylka s = VS2. Pomocí směrodatné odchylky X zavedeme i-tou standardizovanou hodnotu —— (vyjadřuje, o kolik směrodatných odchylek se i-tá hodnota odchýlila od průměru). Výpočetní tvar vzorce pro rozptyl: S _ : Znázornění rozložení četností dvou datových souborů, které se liší rozptylem: Rxdělerr s lůznýnri vriabilítatTi Příklad na výpočet rozptylu a směrodatné odchylky: Jsou dány dva datové soubory, a to (7 8 9) a (1 10 13). V obou případech vypočtěte rozptyl a směrodatnou odchylku. Řešení: Pro první datový soubor je průměr nii = 8, pro druhý datový soubor je průměr m2 také 8. Výpočet pomocí definičního vzorce: Výpočet pomocí výpočetního vzorce: * = ( + + - = _+.+ - = r- = "= = Ď % = t+ U = F 3+ "- = r- "= ~Z "= := ( s^=í]="8:, Sz= TC" Interpretace směrodatné odchylky pro první soubor: většina čísel se odchyluje od průměru 8 o méně než 1 v obou směrech, většina čísel leží tedy mezi 7 a 9. Interpretace směrodatné odchylky pro druhý soubor: většina čísel se odchyluje od průměru 8 o méně než 5 v obou směrech, většina čísel leží tedy mezi 3 a 13. Vlastnosti rozptylu a směrodatné odchylky: - Směrodatná odchylka je nulová pouze tehdy, když jsou všechny hodnoty stejné, jinak je kladná. 1 " — 1 " 2 - Rozptyl centrovaných hodnot je roven původnímu rozptylu, neboť_ :_ '_ T J n /v fy) „x2 1 1 n r. §2 - Rozptyl standardizovaných hodnot je 1, protože ~V| ~ _U| TTrl 2—J - Směrodatná odchylka je stejně jako průměr silně ovlivněna extrémními hodnotami. - Směrodatná odchylka se nehodí jako charakteristika variability, je-li rozložení dat zešikmené. 1" Charakteristika nesymetrie dat: šikmost 7 Je-li rozložení dat symetrické kolem aritmetického průměru, pak a3 = 0. Má-li rozložení dat prodloužený pravý konec, jde o kladně zešikmené rozložení, a3 > 0. Má-li rozložení dar prodloužený levý konec, jde o záporně zešikmené rozložení, a3 < 0. Znázornění rozložení četností dvou datových souborů, které se liší aritmetickým průměrem a šikmostí Rozdělení s nůnými polohami a skrmStm 0 5 10 15 hodnota znaku 25 1 Charakteristika koncentrace dat kolem průměru: špičatost Je-li rozložení dat normální (Gaussovo), pak a4 = 0. Je-li rozložení dat strmé, pak a4 > 0. Je-li rozložení dat ploché, pak a4 < 0. Znázornění rozložení četností dvou datových souborů, které se liší špičatostí Rzfkrí s iťmýri špčstoGtrri 2 7 12 hochdazhkj 17 22 Příklad na ilustraci významu špičatosti Tři skupiny studentů o počtech 149, 69 a 11 odpovídaly při testu na 10 otázek. Znak X je počet správně zodpovězených otázek. Známe absolutní četnosti znaku X ve všech třech skupinách. č. sk. X 0 1 2 3 4 5 6 7 8 9 10 1 2 5 15 20 25 15 25 20 TT 5 2 2 4 3 2 1 0 49 0 1 2 3 4 3 1 0 0 0 0 9 0 0 0 0 1 Vypočtěte průměr, rozptyl, šikmost a špičatost počtu správně zodpovězených otázek ve všech třech skupinách. Nakreslete sloupkové diagramy absolutních četností. Řešení: l. skupina 2. skupina 3. skupina Variable m s2 alTc alfa t t l-Q,T| _ Variable m s2 alfa alfa Variable m s2 alfa alfa t t L 1,2 t t L 5,0Q 01 2345678910 XväeiDpssSKJ 01 2345678910 XväeiDfresSK? aapoydagan 0 1 2 3 4 t 6 7 8 9 10 XvéiHTDfresSK? Charakteristika společné variability dvou intervalových znaků: kovariance Předpokládejme, že máme dvourozměrný datový soubor i......i. Označme mb m2 průměry znaků X, Y a Si, s2 směrodatné odchylky znaků X, Y. Zavedeme kovarianci jako charakteristiku společné variability znaků X, Y kolem jejich průměrů Kovariance je průměrem součinů centrovaných hodnot. Pokud se nadprůměrné (podprůměrné) hodnoty znaku X sdružují s nadprůměrnými (podprůměrnými) hodnotami znaku Y, budou součiny centrovaných hodnot x; - m1 a y - m2 vesměs kladné a jejich průměr (tj. kovariance) rovněž. Znamená to, že mezi znaky X, Y existuje určitý stupeň přímé lineární závislosti. Říkáme, že znaky X, Y jsou kladně korelované. Pokud se nadprůměrné (podprůměrné) hodnoty znaku X sdružují s podprůměrnými (nadprůměrnými) hodnotami znaku Y, budou součiny centrovaných hodnot vesměs záporné a jejich průměr rovněž. Znamená to, že mezi znaky X a Y existuje určitý stupeň nepřímé lineární závislosti. Říkáme, že znaky X, Y jsou záporně korelované. Je-li kovariance nulová, pak řekneme, že znaky X, Y jsou nekorelované a znamená to, že mezi nimi neexistuje žádná lineární závislost. 1 n Pro výpočet kovariance používáme vzorec: Si2 = ^^^_fíjľt|. Zázměi vyzamkovrace ■ (ni, S 10 x ste =55 -3 -A -5 -a -ľ y-S -9 -10 -11 -12 S 10 x 05 oa x 3 2 4 a 14 1a 4 a 4 a Charakteristika těsnosti závislosti dvou intervalových znaků: Pearsonův koeficient korelace Jsou-li směrodatné odchylky Si, s2 nenulové, pak definujeme Pearsonův koeficient korelace znaků X, Y vzorcem: 1 n x rn v ib ~? 1^2_„ ^ r" 7T ■ Je to průměr součinů standardizovaných hodnot. Počítá se podle vzorce 1J2_ r —Ilij S[ n v m v m. c., Vlastnosti Pearsonova koeficientu korelace: Koeficient nabývá hodnot mezi -1 a 1. Čím je bližší 1, tím je silnější přímá lineární závislost mezi znaky X a Y, čím je bližší -1, tím je silnější nepřímá lineární závislost mezi X a Y. Je-li r12 = 1 resp. r12 = -1, pak dvojice (xi, yi) leží na nějaké rostoucí resp. klesající přímce. Hodnoty r12 se nezmění, když provedeme vzestupnou lineární transformaci původních dat. Hodnoty r12 se vynásobí -1, když provedeme sestupnou lineární transformaci původních dat. Koeficient je symetrický, tj. r12 = r21. Z vlastností Pearsonova koeficientu korelace vyplývá, že se hodí pouze k měření těsnosti lineárního vztahu znaků X a Y. Při složitějších závislostech může dojít k paradoxní situaci, že Pearsonův koeficient korelace je nulový. 0 -0.1 -0.2 -0.3 -0.4 -0.5 -0.6 -0.7 -0.8 -0.9 -11—,—,—,—,—,—,—,—,—,— -1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1 Příklad na výpočet Pearsonova koeficientu korelace Máme k dispozici výsledky testů ze dvou předmětů zjištěné u osmi náhodně vybraných studentů určitého oboru. Číslo studenta 1 2 3 4 5 6 7 8 Počet bodů v 1. testu 80 50 36 58 42 60 56 68 Počet bodů ve 2. testu 65 60 35 39 48 44 48 61 Vypočtěte a interpretujte koeficient korelace. Pro usnadnění výpočtů máte k dispozici tyto součty: Řešení: Vypočteme aritmetické průměry a rozptyly: s^Jv . 2J?66ď 25= 7,43 §§=]D93 s,2 = V . ?J7-08:_"1= ?225 Dále vypočteme kovarianci: 1 - 1 Si2= >r _ m_= 732_"gnC= Dosadíme do vzorce pro výpočet koeficientu korelace: r ~2 8^6..... -S6ŕ r,2= 5= JD9:. KE22= 'oc Lze tedy soudit, že mezi výsledky obou testů existuje středně silná přímá lineární závislost. Vážené číselné charakteristiky Pokud nemáme k dispozici původní datový soubor, ale jenom tabulku rozložení četností (resp. kontingenční tabulku), můžeme vypočítat tzv. vážené číselné charakteristiky. 1 r Vážený aritmetický průměr: m__^ <^Í^Xjj] 9 2 2 ~> Vážený rozptyl: S _ j]_ r_ _ t Váženákovanance: S^^S^k^JWfk-^^^^1^* JTO Příklad na výpočet vážených číselných charakteristik Z dvourozměrného datového souboru rozsahu 27, v němž znak X má varianty 1, 2, 3 a znak Y má rovněž varianty 1, 2, 3, byly určeny simultánní absolutní četnosti: nu = 5, ni2 = 1, no = 3, n2i = 4, n22 = 3, n23 = 4, n31 = 2, n32 = 3, n33 = 2. a) Vypočtěte průměry a směrodatné odchylky znaků X a Y. b) Vypočtěte a interpretujte koeficient korelace znaků X a Y. Řešení: Kontingenční tabulka simultánních absolutních četností: ad a) x y K i 2 3 1 5 1 3 9 2 4 3 4 11 3 2 3 2 7 n.k 11 7 9 27 Ink 111 |7 |9 127 j m= V r+~ Vť^, m= '7.1:+ 7+~ >= 7j?2 1_______. r^c \\^HC\AA1 11^070/1/12 . _ " I - H— TC— 7cSl 0,766 1 --- ' 1 ?n^70^3i %2= ^.-.+ .7+ >_ í)= 7_ 2t= 2-- °-857 adb) J a^7^-7J_ 0685871 ' 5 O" ro 729 "04' V72- 729 Mezi znaky X a Y existuje velmi slabá přímá lineární závislost. Pro poměrové znaky používáme jako charakteristiku variability koeficient variace m Je to bezrozměrné číslo, které se často vyjadřuje v procentech. Umožňuje porovnat variabilitu několika znaků. Jsou-li všechny hodnoty poměrového znaku kladné, pak jako charakteristiku polohy lze užít geometrický průměr r/x7 • • • .