Číselné charakteristiky intervalových a poměrových znaků Připomenutí: Intervalový znak umožňuje obsahovou interpretaci u operace rozdílu, poměrový znak i u operace podílu. Charakteristika polohy: aritmetický průměr (arithmetic mean or mean) m = ∑= n 1i ix n 1 . U poměrových znaků, které nabývají pouze kladných hodnot, lze použít geometrický průměr (geometric mean) n n1 xxg ⋅⋅= K . Vyskytuje se tam, kde má věcný význam součin hodnot znaku. Je zřejmé, že jde o aritmetický průměr logaritmů hodnot x1, …, xn. Přitom geometrický průměr hodnot x1, …, xn je vždy menší nebo roven aritmetickému průměru těchto hodnot (g ≤ m) a rovnosti je dosaženo právě tehdy, jsou-li všechny hodnoty znaku X stejné. Příklad použití geometrického průměru: Máme-li obdélník a čtverec o stejných plochách, pak strana čtverce je geometrickým průměrem stran obdélníku. Pomocí průměru zavedeme i-tou centrovanou hodnotu xi – m (podle znaménka poznáme, zda i-tá hodnota je podprůměrná či nadprůměrná). Znázornění rozložení četností dvou datových souborů, které se liší aritmetickým průměrem: R o z d ě l e n í s r ů z n ý m i p o l o h a m i 0 1 0 0 2 0 0 3 0 0 4 0 0 5 0 0 0 5 1 0 1 5 2 0 h o d n o t a z n a k u četnost Příklad na výpočet geometrického průměru: Růst cen za měsíce červen, červenec a srpen roku 2010 byl postupně 1,2 %, 1,9 % a 1,9 %. Vypočtěte průměrný růst cen. Řešení: 63,19,19,12,1g 3 =⋅⋅= Průměrný růst cen je přibližně 1,63 %. Znamená to, že výsledná cena by taková byla i v případě, že by růst cen byl konstantní, každý měsíc o 1,63 %. Výpočet pomocí systému STATISTICA: Vytvoříme nový datový soubor o třech případech a jedné proměnné X. Do X zapíšeme hodnoty 1,2 1,9 1,9. Statistiky – Základní statistiky/tabulky – Popisné statistiky – Proměnné X – OK – Detailní výsledky – zaškrtneme Geom. Průměr a všechny ostatní volby odškrtneme – Výpočet. Proměnná Geometrický Průměr X 1,630157 Vlastnosti aritmetického průměru - Aritmetický průměr si lze představit jako těžiště dat – součet podprůměrných hodnot je stejný jako součet nadprůměrných hodnot – oba součty jsou v rovnováze. - Průměr centrovaných hodnot je nulový, protože ( ) 0mn n 1 mm n 1 x n 1 mx n 1 n 1i n 1i i n 1i i =⋅⋅−=−=− ∑∑∑ === . - Výraz ( )∑= − n 1i 2 i ax (tzv. kvadratická odchylka) nabývá svého minima pro a = m. Uvedený výraz charakterizuje celkovou chybu, které se dopustíme, když datový soubor nahradíme jedinou hodnotou a. Tato chyba je tedy nejmenší, když datový soubor nahradíme aritmetickým průměrem, přičemž za míru chyby považujeme kvadratickou odchylku. - Pokud každou hodnotu xi podrobíme lineární transformaci yi = a + bxi, pak průměr transformovaných hodnot je roven lineární transformaci původního průměru, tj. m2 = a + bm1. - Mají-li znaky X, Y průměry m1, m2, pak znak Z = X + Y má průměr m1 + m2. - Aritmetický průměr je silně ovlivněn extrémními hodnotami. - Aritmetický průměr je vhodné použít, pokud je rozložení dat přibližně symetrické. Příklad na vlastnosti aritmetického průměru: U skupiny 20 pracovníků v určité dílně byly zjišťovány měsíční mzdy. Průměr mezd činil 15 500 Kč. Určete průměr mezd, jestliže mzdy všech pracovníků se zvýší a) o 300 Kč, b) 1,1 krát, c) o 20%. Řešení: Označme m1 průměr hodnot x1, …, xn a m2 průměr hodnot y1, …, yn, přičemž yi = a + bxi , i = 1, …, n. Pak m2 = a + bm1. ad a) m2 = 300 + m1 = 15 800 Průměr se zvýšil o 300 Kč na 15 800 Kč. ad b) m2 = 1,1.m1 = 17 050 Průměr se zvýšil na 17 050 Kč. ad c) m2 = 1,2.m1 = 18 600 Průměr se zvýšil na 18 600 Kč. Charakteristiky variability intervalových a poměrových znaků Variační rozpětí (range) R = x(n) - x(1) (nevýhoda – bere v úvahu pouze nejmenší a největší hodnotu datového souboru), rozptyl (variance) ∑= −= n 1i 2 i 2 m)(x n 1 s (nevýhoda – vychází ve druhých mocninách jednotek, v nichž byl měřen znak X) směrodatná odchylka (standard deviation) s = 2 s . Pomocí směrodatné odchylky zavedeme i-tou standardizovanou hodnotu s mxi − (vyjadřuje, o kolik směrodatných odchylek se i-tá hodnota odchýlila od průměru). U poměrových znaků se jako charakteristika variability používá též: koeficient variace (coefficient of variation) m s cv = (často se udává v procentech a udává, kolika procent průměru dosahuje směrodatná odchylka), Znázornění rozložení četností dvou datových souborů, které se liší rozptylem: R o z d ě l e n í s r ů z n ý m i v a r i a b i l i t a m i 0 1 0 0 2 0 0 3 0 0 4 0 0 5 0 0 0 5 1 0 1 5 2 0 2 5 h o d n o t a z n a k u četnost Příklad na výpočet charakteristik variability: Kurzy akcií společnosti AAA Auto Group v průběhu 23 dní v měsíci srpnu 2010 byly následující: 17,75; 17,74; 17,85; 17,59; 17,92; 17,98; 18,39; 18,25; 18,30; 18,00; 18,15; 18,15; 18,22; 18,40; 18,25; 17,95; 18,25; 18,23; 17,95; 17,90; 17,80; 17,87; 17,87. Vypočtěte charakteristiky variability. Řešení: Nejprve vypočítáme variační rozpětí: ( ) ( ) 81,059,174,18xxR 1n =−=−= . Před výpočtem dalších charakteristik variability musíme získat aritmetický průměr: ( ) 033,1887,1774,1775,17 23 1 m =+++= K . Rozptyl: ( ) 049,0033,1887,1774,1775,17 23 1 mx n 1 s 22222 n 1i 2 i 2 =−+++=−= ∑= K Směrodatná odchylka: 2213,0049,0ss 2 === Koeficient variace: %23,1%100 033,18 2213,0 %100 m s == Výpočet pomocí systému STATISTICA: Otevřeme nový datový soubor o jedné proměnné X a 23 případech. Do proměnné X zapíšeme zjištěné kurzy akcií. Statistiky – Základní statistiky/tabulky – Popisné statistiky – OK – Proměnné X – OK – Detailní výsledky – vybereme Průměr, Rozptyl, Rozpětí – Výpočet. Systém STATISTICA počítá rozptyl podle vzorce ∑= −= n 1i 2 i 2 m)(x 1-n 1 s , proto výsledek musíme vynásobit n 1n − . Ve výstupní tabulce přidáme za proměnnou Rozptyl tři nové proměnné nazvané rozptyl, směr. odch. a koef. variace. Do Dlouhého jména proměnné rozptyl napíšeme =v3*22/23, do Dlouhého jména proměnné směr. odch. napíšeme =sqrt(v4) a do Dlouhého jména proměnné koef. variace napíšeme =100*v5/v1. Proměnná Průměr Rozpětí Rozptyl rozptyl =v3*22/2 směr. odch. =sqrt(v4) koef. variace =100*v5/v1 x 18,03304 0,810000 0,051231 0,049004 0,221367976 1,22756858 Vlastnosti rozptylu: - Rozptyl je nulový pouze tehdy, když jsou všechny hodnoty stejné, jinak je kladný. - Rozptyl centrovaných hodnot je roven původnímu rozptylu, neboť ( )[ ] ( ) 2 n 1i 2 i n 1i 2 i smx n 1 0mx n 1 =−=−− ∑∑ == . - Rozptyl standardizovaných hodnot je 1, protože ( )∑ ∑= = ==−⋅=      − −n 1i 2 2n 1i 2 i2 2 i 1 s s mx n 1 s 1 0 s mx n 1 . - Rozptyl se zpravidla počítá podle vzorce s2 = 2 n 1i 2 i mx n 1 −∑ = . - Pokud každou hodnotu xi podrobíme lineární transformaci yi = a + bxi, pak rozptyl transformovaných hodnot je roven původnímu rozptylu vynásobenému b2 , tj. s2 2 = b2 s1 2 . - Rozptyl je stejně jako průměr silně ovlivněn extrémními hodnotami. - Rozptyl se nehodí jako charakteristika variability, je-li rozložení dat nesymetrické. Příklad na využití vlastností rozptylu: U skupiny 20 pracovníků v určité dílně byly zjišťovány měsíční mzdy. Směrodatná odchylka výše mezd činila 900 Kč. Určete směrodatnou odchylku výše mezd, jestliže mzdy všech pracovníků se zvýší a) o 300 Kč, b) 1,1 krát, c) o 20%. Řešení: Označme s1 směrodatnou odchylku hodnot x1, …, xn a s2 směrodatnou odchylku hodnot y1, …, yn, přičemž yi = a + bxi , i = 1, …, n. Pak s2 = bs1. ad a) s2 = 1.s1 = 900 Směrodatná odchylka zůstala stejná. ad b) s2 = 1,1s1 =1,1.900 = 990 Směrodatná odchylka se zvýšila na 990 Kč. ad c) s2 = 1,2s1 = 1,2.900 = 1080 Směrodatná odchylka se zvýšila na 1080 Kč. Vážené číselné charakteristiky polohy a variability Známe-li absolutní četnosti n1, …, nr či relativní četnosti p1, …, pr variant x[1], ..., x[r], můžeme spočítat vážený průměr (weighted mean) ∑∑ == == r 1j ]j[j r 1j ]j[j xpxn n 1 m , vážený rozptyl (weighted variance) ( ) ( )∑∑ == −=−= r 1j 2 ]j[j r 1j 2 ]j[j 2 mxpmxn n 1 s (výpočetní vzorec: 2 r 1j 2 ]j[j 2 r 1j 2 ]j[j 2 mxpmxn n 1 s −=−= ∑∑ == ) Příklad na vážené číselné charakteristiky: U 35 zaměstnanců byl zjištěn počet odpracovaných hodin za měsíc. Počet odpracovaných hodin 184 185 186 187 188 189 Počet zaměstnanců 4 6 7 6 7 5 Vypočtěte průměr, směrodatnou odchylku a koeficient variace počtu odpracovaných hodin. Řešení: Hodnot je celkem 35, nikoliv 6 (častá chyba!) Vážený průměr: ( ) 6,186189518871876186718561844 35 1 xn n 1 m r 1j ]j[j =⋅+⋅+⋅+⋅+⋅+⋅== ∑= Vážený rozptyl: ( ) 5257,26,186189518871876186718561844 35 1 mxn n 1 s 22222222 r 1j 2 ]j[j 2 =−⋅+⋅+⋅+⋅+⋅+⋅=−= ∑= Vážená směrodatná odchylka: 59,15257,2ss 2 === h = 1h 35 min Koeficient variace: %85,0%100 6,186 59,1 %100 m s == Vidíme, že zaměstnanci odpracovali za měsíc v průměru 186,6 h, přičemž směrodatná odchylka dosahuje 0,85 % průměrné odpracované doby. Výpočet pomocí systému STATISTICA: Vytvoříme datový soubor o šesti případech a dvou proměnných X a četnost. Zapíšeme zjištěné údaje Statistiky – Základní statistiky/tabulky – Popisné statistiky – OK – Proměnné X – OK – klikneme na ikonu závaží – Proměnná vah četnost – OK – Stav Zapnuto – OK - Detailní výsledky – vybereme Průměr, Rozptyl – Výpočet. Ve výstupní tabulce přidáme za proměnnou Rozptyl tři nové proměnné nazvané rozptyl, směr. odch. a koef. variace. Do Dlouhého jména proměnné rozptyl napíšeme =v*34/35, do Dlouhého jména proměnné směr. odch. napíšeme =sqrt(v3) a do Dlouhého jména proměnné koef. variace napíšeme =100*v4/v1. Proměnná Průměr Rozptyl rozptyl =v2*34/3 smer. odch. =sqrt(v3) koef. variace =100*v4/v1 X 186,6000 2,600000 2,525714 1,5892496 0,851687888 Převod desetinných částí hodiny na minuty můžeme provést např. pomocí aplikace na adrese http://www.prevody- jednotek.cz/. Počáteční a centrální momenty Aritmetický průměr a rozptyl jsou speciální případy momentů. Zavedeme k-tý počáteční moment ∑ = = n 1i k i ´ k x n 1 m , k = 1, 2, ... , k-tý centrální moment ( )∑ = −= n 1i k ik mx n 1 m , k = 1, 2, ... Pomocí 3. a 4. centrálního momentu se definuje šikmost a špičatost. Šikmost (skewness): 3 3 3 s m =α - měří nesouměrnost rozložení četností kolem průměru. Je-li rozložení dat symetrické kolem aritmetického průměru (symmetrical distribution), pak α3 = 0. Má-li rozložení dat prodloužený pravý konec, jde o kladně zešikmené rozložení, α3 > 0. Má-li rozložení dar prodloužený levý konec, jde o záporně zešikmené rozložení, α3 < 0. Příklad kladně sešikmeného rozložení 0 2 4 6 8 10 12 14 16 18 1 2 3 4 5 6 7 8 9 10 11 Příklad symetrického rozložení 0 2 4 6 8 10 12 14 16 1 2 3 4 5 6 7 8 9 10 11 Příklad záporně sešikmeného rozložení 0 2 4 6 8 10 12 14 16 18 1 2 3 4 5 6 7 8 9 10 11 Špičatost (kurtosis): 3 s m 4 4 4 −=α - měří koncentraci rozložení četností kolem průměru. Je-li rozložení dat normální (mesokurtic), pak α4 = 0. Je-li rozložení dat strmé (leptokurtic), pak α4 > 0. Je-li rozložení dat ploché (platykurtic), pak α4 < 0. Znázornění rozložení četností tří datových souborů, které se liší špičatostí A … normální rozložení B … ploché rozložení C … strmé rozložení Příklad na výpočet šikmosti a špičatosti pomocí systému STATISTICA: Datový soubor vysvah.sta obsahuje v proměnné X údaje o hmotnosti 50 náhodně vybraných studentů. Vypočtěte šikmost a špičatost znaku X. Řešení: Statistiky – Základní statistiky/tabulky – Popisné statistiky – OK – Proměnné X – OK – Detailní výsledky – zaškrtneme pouze Šikmost, Špičatost – Výpočet. Proměnná Šikmost Špičatost X 0,713596 -0,037538 Vidíme, že rozložení hmotností je kladně sešikmené a je poněkud plošší než normální rozložení. Asymetrie rozložení je patrná z histogramu: Histogram z X vysvah_r.sta 5v*50c 50 56 62 68 74 80 86 92 X 0 2 4 6 8 10 12 14 Početpozorování Charakteristika společné variability dvou intervalových znaků: kovariance Předpokládejme, že máme dvourozměrný datový soubor           nn 11 yx yx LL . Označme m1, m2 průměry znaků X, Y a s1, s2 směrodatné odchylky znaků X, Y. Zavedeme kovarianci (covariance) jako charakteristiku společné variability znaků X, Y kolem jejich průměrů ( )( )∑= −−= n 1i 2i1i12 mymx n 1 s . Kovariance je průměrem součinů centrovaných hodnot. Pokud se nadprůměrné (podprůměrné) hodnoty znaku X sdružují s nadprůměrnými (podprůměrnými) hodnotami znaku Y, budou součiny centrovaných hodnot xi – m1 a yi – m2 vesměs kladné a jejich průměr (tj. kovariance) rovněž. Znamená to, že mezi znaky X, Y existuje určitý stupeň přímé lineární závislosti. Říkáme, že znaky X, Y jsou kladně korelované. Pokud se nadprůměrné (podprůměrné) hodnoty znaku X sdružují s podprůměrnými (nadprůměrnými) hodnotami znaku Y, budou součiny centrovaných hodnot vesměs záporné a jejich průměr rovněž. Znamená to, že mezi znaky X a Y existuje určitý stupeň nepřímé lineární závislosti. Říkáme, že znaky X, Y jsou záporně korelované. Je-li kovariance nulová, pak řekneme, že znaky X, Y jsou nekorelované a znamená to, že mezi nimi neexistuje žádná lineární závislost. Pro výpočet kovariance používáme vzorec: s12 = ∑= − n 1i 21ii mmyx n 1 . Vážená kovariance Má-li znak X r variant x[1], ..., x[r] a znak Y s variant y[1], ..., y[r] a známe-li simultánní absolutní resp. relativní četnosti njk resp. pjk dvojic variant (x[j], y[k]), j = 1, …, r, k = 1, …, s, můžeme spočítat váženou kovarianci ( )( ) ( )( ) ∑∑∑∑∑∑∑∑ = == == == = −=−−=−=−−= r 1j 21 s 1k ]k[]j[jk r 1j s 1k 2]k[1]j[jk r 1j 21 s 1k ]k[]j[jk r 1j s 1k 2]k[1]j[jk12 mmyxpmymxpmmyxn n 1 mymxn n 1 s Znázornění významu kovariance = 5,5 2 4 6 8 10 12 14 16 x 3 4 5 6 7 8 9 10 11 12 (m1, m2) s12 = -5,5 2 4 6 8 10 12 14 16 x -12 -11 -10 -9 -8 -7 -6 -5 -4 -3 y (m1, m2) s12 = 0 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 x 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 y Vlastnosti kovariance - Kovariance je nulová, právě když aspoň jeden ze znaků X, Y má všechny hodnoty stejné. - Nechť 21 m,m jsou aritmetické průměry, 2 2 2 1 s,s rozptyly a 12s kovariance znaků Y,X . Pak znak YXU += má aritmetický průměr 213 mmm += a rozptyl 12 2 2 2 1 2 3 s2sss ++= . - Nechť 12s je kovariance a 21 m,m jsou aritmetické průměry znaků Y,X . Pak znaky dYcV,bXaU +=+= mají kovarianci 1234 bdss = Příklad na vlastnosti kovariance: Hodnoty znaků X a Y mají postupně aritmetické průměry 3 a –1, rozptyly 2 a 3 a jejich kovariance je rovna 4. Vypočtěte aritmetický průměr a rozptyl hodnot znaku Z = X + Y. Řešení: m1 = 3, m2 = -1, s1 2 = 2, s2 2 = 3, s12 = 4 m3 = m1 + m2 = 3 – 1 = 2 s3 2 = s1 2 + s2 2 + 2 s12 = 2 + 3 + 2.4 = 13 Příklad: Pro datový soubor obsahující údaje o příjmu manžela (znak X) a příjmu manželky (znak Y) vypočtěte kovarianci znaků X, Y. příjem manželapříjem manželkypříjem manželapříjem manželkypříjem manželapříjem manželky 16210 13710 31760 30250 24420 14640 30310 27960 38620 21980 15460 12800 33900 24930 27030 25410 37600 24200 40580 36720 43670 37540 42190 28650 19070 12940 45270 30580 15960 14500 29800 25810 39210 25470 18650 20210 26000 24590 14470 10550 26020 30150 37500 34810 23630 14820 23570 18840 21950 18860 15840 16340 20630 12760 19020 21530 25720 18700 31450 26840 17460 19870 17290 11560 19950 17960 13840 14320 18900 12080 16840 20900 29200 21200 47920 35620 16790 15740 14400 17300 29740 31420 26930 23980 15340 11930 13930 15790 46090 27960 23400 13220 25920 12870 22020 17400 18780 12760 21770 15980 31230 13580 33290 27140 17670 14320 20320 18490 31890 36970 19880 14800 19960 20500 18990 15470 14880 12680 36550 24360 Řešení: m1 = 23485, m2 = 20804,33, s1 = 9398,96, s2 = 7566,14 ( ) 5577349933,2080423485243603655027960303101371016210 60 1 mmyx n 1 s n 1i 21ii12 =⋅−⋅++⋅+⋅=−= ∑= K Výpočet pomocí systému STATISTICA: Otevřeme datový soubor prijmy.sta. Výpočet kovariance: Statistiky – Vícenásobná regrese - Proměnné Nezávislá X, Závislá Y – OK – OK – Residua/předpoklady/předpovědi – Popisné statistiky – Další statistiky - Kovariance. Proměnná X Y X Y 88340482 56718812 56718812 57246442 Vysvětlení: Na hlavní diagonále jsou rozptyly proměnných X, Y, mimo hlavní diagonálu je kovariance. STATISTICA však ve vzorci pro výpočet kovariance nepoužívá 1/n, ale 1/(n-1). Získanou kovarianci přepočítáme: k výstupní tabulce přidáme novou proměnnou, kterou vložíme za proměnnou v2. Do jejího Dlouhého jména napíšeme =v2*59/60. Dostaneme tabulku: Proměnná X Y NProm =v2*59/60 X Y 88340482 56718812 55773498,9 56718812 57246442 56292334,6 Na prvním řádku této nové proměnné najdeme kovarianci 55 773 499. Charakteristika těsnosti závislosti dvou intervalových či poměrových znaků: Pearsonův koeficient korelace Jsou-li směrodatné odchylky s1, s2 nenulové, pak definujeme Pearsonův koeficient korelace (Pearson correlation coefficient) znaků X, Y vzorcem: ∑= −− = n 1i 2 2i 1 1i 12 s my s mx n 1 r . Je to průměr součinů standardizovaných hodnot. Počítá se podle vzorce 21 12 12 ss s r = . Ilustrace různých hodnot koeficientu korelace Příklad: Pro datový soubor obsahující údaje o příjmu manžela (znak X) a příjmu manželky (znak Y) vypočtěte koeficient korelace znaků X, Y. Přitom již víme, že s1 = 9 398,96, s2 = 7 566,14, s12 = 55 773 499. Řešení: 7976,0 756696,9398 55773499 ss s r 21 12 12 = ⋅ == Koeficient korelace svědčí o tom, že mezi oběma znaky existuje silná přímá lineární závislost – čím je vyšší příjem manžela, tím je vyšší příjem manželky a čím je nižší příjem manžela, tím je nižší příjem manželky. Výpočet pomocí systému STATISTICA: Otevřeme datový soubor prijmy.sta. Výpočet koeficientu korelace: Statistiky – Vícenásobná regrese - Proměnné Nezávislá X, Závislá Y – OK – OK – Residua/předpoklady/předpovědi – Popisné statistiky – Korelace Proměnná X Y X Y 1,000000 0,797578 0,797578 1,000000 Dvourozměrný tečkový diagram 10000 15000 20000 25000 30000 35000 40000 45000 50000 prijem manzela 5000 10000 15000 20000 25000 30000 35000 40000 45000 prijemmanzelky Vlastnosti Pearsonova koeficientu korelace: Pro koeficient korelace platí -1 ≤ r12 ≤ 1 a rovnosti je dosaženo právě když mezi hodnotami x1, ..., xn a y1, ..., yn existuje úplná lineární závislost, tj. existují konstanty a, b tak, že yi = a + bxi, i = 1, ..., n, přičemž znaménko + platí pro b > 0, znaménko – pro b < 0. (Uvedená nerovnost se nazývá Cauchyova – Schwarzova – Buňakovského nerovnost.) Tedy čím je r12 bližší 1, tím je silnější přímá lineární závislost mezi znaky X a Y, čím je bližší –1, tím je silnější nepřímá lineární závislost mezi X a Y. Je-li r12 = 1 resp. r12 = -1, pak dvojice (xi, yi) leží na nějaké rostoucí resp. klesající přímce. Hodnoty r12 se nezmění, když u x-ových a y-ových hodnot současně provedeme vzestupnou resp. sestupnou lineární transformaci. Hodnoty r12 se vynásobí -1, když u x-ových hodnot provedeme vzestupnou (resp. sestupnou) a u y-ových hodnot sestupnou (resp. vzestupnou) lineární transformaci. Koeficient je symetrický, tj. r12 = r21. Z vlastností Pearsonova koeficientu korelace vyplývá, že se hodí pouze k měření těsnosti lineárního vztahu znaků X a Y. Při složitějších závislostech může dojít k paradoxní situaci, že Pearsonův koeficient korelace je nulový. -1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1 -1 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1 0 Vysvětlení významu Pearsonova korelačního koeficientu: Máme 4 dvourozměrné datové soubory X Y1 4 4,260 5 5,680 6 7,240 7 4,820 8 6,950 9 8,810 108,040 118,330 1210,840 137,580 149,960 X Y2 4 3,100 5 4,740 6 6,130 7 7,260 8 8,140 9 8,770 109,140 119,260 129,130 138,740 148,100 X Y3 4 5,390 5 5,730 6 6,080 7 6,420 8 6,770 9 7,110 107,460 117,810 128,150 1312,740 148,840 X4 Y4 8 6,580 8 5,760 8 7,710 8 8,840 8 8,470 8 7,040 8 5,250 8 5,560 8 7,910 8 6,890 19 12,500 Pro každou z dvojic proměnných (X,Y1), (X,Y2), (X,Y3), (X4,Y4) vypočtěte Pearsonův korelační koeficient a nakreslete dvourozměrný tečkový diagram. Pro které dvojice proměnných se hodí Pearsonův korelační koeficient jako vhodná míra těsnosti lineární závislosti? Pro všechny dvojice proměnných vyjde korelační koeficient roven 0,816, zdálo by se tedy, že ve všech čtyřech případech existuje mezi proměnnými silná přímá lineární závislost. Oprávněnost této domněnky ověříme pomocí dvourozměrných tečkových diagramů. Dvourozměrný tečkový diagram r = 0,81642 2 4 6 8 10 12 14 16 X 3 4 5 6 7 8 9 10 11 12 Y1 Dvourozměrný tečkový diagram r = 0,81624 2 4 6 8 10 12 14 16 X 2 3 4 5 6 7 8 9 10 Y2 Dvourozměrný tečkový diagram r = 0,81629 2 4 6 8 10 12 14 16 X 5 6 7 8 9 10 11 12 13 14 Y3 Dvourozměrný tečkový diagram r = 0,81652 6 8 10 12 14 16 18 20 X4 4 5 6 7 8 9 10 11 12 13 Y4 Při pohledu na dvourozměrné tečkové diagramy je zřejmé, že pouze v prvním případě je použití Pearsonona korelačního koeficientu oprávněné. Příklad na výpočet vážených číselných charakteristik Z dvourozměrného datového souboru rozsahu 27, v němž znak X má varianty 1, 2, 3 a znak Y má rovněž varianty 1, 2, 3, byly určeny simultánní absolutní četnosti: n11 = 5, n12 = 1, n13 = 3, n21 = 4, n22 = 3, n23 = 4, n31 = 2, n32 = 3, n33 = 2. Vypočtěte a interpretujte koeficient korelace znaků X a Y. Řešení: Kontingenční tabulka simultánních absolutních četností: yx 1 2 3 nj. 1 5 1 3 9 2 4 3 4 11 3 2 3 2 7 n.k 11 7 9 27 Nejprve vypočteme vážené průměry: ( ) 926,1 27 52 7311291 27 1 m1 ==⋅+⋅+⋅= , ( ) 926,1 27 52 9372111 27 1 m2 ==⋅+⋅+⋅= . Dále spočítáme vážené rozptyly: ( ) 729 428 729 2704 27 116 27 52 7311291 27 1 s 2 2222 1 =−=      −⋅++⋅= , s1 = 0,766 ( ) 729 536 729 2704 27 120 27 52 9372111 27 1 s 2 2222 2 =−=      −⋅+⋅+⋅= , s2 = 0,857 Následuje výpočet vážené kovariance: ( ) 0685871,0 729 50 729 27042754 729 2704 27 102 27 52 27 52 233323213432322412331121511 27 1 s12 == − =−= ⋅−⋅⋅+⋅⋅+⋅⋅+⋅⋅+⋅⋅+⋅⋅+⋅⋅+⋅⋅+⋅⋅= Dosadíme do vzorce pro výpočet koeficientu korelace: 10439,0 729 536 729 428 729 50 r12 = ⋅ = . Mezi znaky X a Y existuje velmi slabá přímá lineární závislost. Výpočet pomocí systému STATISTICA: Otevřeme nový datový soubor o 9 případech a 3 proměnných X, Y, četnost. Do proměnné X napíšeme 1 1 1 2 2 2 3 3 3, do proměnné Y napíšeme 1 2 3 1 2 3 1 2 3 a do proměnné četnost napíšeme 5 1 3 4 3 4 2 3 2. Statistiky – Základní statistiky/tabulky – Korelační matice – OK – 2 seznamy – 1. seznam X, 2. seznam Y – OK- klikneme na ikonu závaží – zaškrtneme Stav zapnuto – Proměnná vah četnost - OK - OK – Výpočet Ve výstupní tabulce zvětšíme počet desetinných míst. Proměnná Y X 0,1044