M5VM05 Statistické modelování 12. Analýza závislosti dvou veličin Jan Koláček (kolacek@math.muni.cz) Ustav matematiky a statistiky, Přírodovědecká fakulta, Masarykova univerzita, Brno Jan Koláček (PřF MU) M5VM05 Statistické modeloval 1/38 Motivace Při zpracování dat se velmi často setkáme s úkolem zjistit, zda dvě náhodné veličiny jsou stochasticky nezávislé. Např. nás může zajímat, zda ve sledované populaci je barva očí a barva vlasů nezávislá nebo zda počet dnů absence a věk pracovníka jsou nezávislé. Testování hypotézy o nezávislosti se provádí různými způsoby podle toho, jakého typu jsou dané náhodné veličiny - zda jsou nominální, ordinální, intervalové či poměrové. Zpravidla chceme také zjistit intenzitu případné závislosti sledovaných dvou veličin. K tomuto účelu byly zkonstruovány různé koeficienty, které nabývají hodnot od 0 do 1 (resp. od -1 do 1). Čím je takový koeficient bližší 1 (resp. -1), tím je závislost mezi danými dvěma veličinami silnější a čím je bližší 0, tím je slabší. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 2/38 Testování nezávislosti nominálních veličin Nechť X, Y jsou dvě nominální náhodné veličiny. Nechť X nabývá variant x^j,... ,X[rj a Y nabývá variant t/^j,...,. Pořídíme dvourozměrný náhodný výběr rozsahu n z rozložení, kterým se řídí dvourozměrný diskrétní náhodný vektor (X, Y). Zjištěné absolutní četnosti riß dvojice variant (x^,y^j) uspořádáme do kontingenční tabulky: y J/[i]- ■■y\s] H X riß *[1 «11 • ..nls «i. x\r nrl. nr. n.k n.i ■ ■ n.s n Jan Koláček (PřF MU) M5VM05 Statistické modelování 3/38 Testování nezávislosti nominálních veličin Testujeme hypotézu Hq : X, Y jsou stochasticky nezávislé náhodné veličiny proti Hi :X,Y nejsou stochasticky nezávislé náhodné veličiny. Testová statistika má tvar: njk j=l k=l ~fT Platí-li Hq, pak K se asymptoticky řídí rozložením x2{{r ~ l)(s — !))■ Hypotézu o nezávislosti veličin X,Y tedy zamítáme na asymptotické hladině významnosti a, kdyžK>^_a((r-l)(s-l)). Definice 1 . ,, nink - - ■ i ' - Výraz se nazýva teoretická četnost. Poznámka 2 (Podmínka dobré aproximace) Teoretické četnosti aspoň v 80% případů nabývají hodnoty větší nebo rovné 5 a ve zbylých 20% neklesnou pod 2. Není-li splněna podmínka dobré aproximace, doporučuje se slučování některých variant. Jan Koláček (PřF MU) M5VM05 Statistické modelováni Měření síly závislosti Definice 3 Cramérův koeficient je tvaru V = K n (m — 1)' kde m = min{r,s}. Tento koeficient nabývá hodnot mezi 0 a 1. Čím blíže je 1, tím je těsnější závislost mezi X a Y. Čím blíže je 0, tím je tato závislost volnější. Jan Koláček (PřF MU) M5VM05 Statistické modelováni Příklad Příklad 1 V sociologickém průzkumu byl z uchazečů o studium na vysokých školách pořízen náhodný výběr rozsahu 360. Mimo jiné se zjištovala sociální skupina, ze které uchazeč pochází a typ školy, na kterou se hlásí. Výsledky jsou zaznamenány v kontingenční tabulce: Typ školy Sociální skupina 1 II III IV univerzitní 50 30 10 50 140 technický 30 50 20 10 110 ekonomický 10 20 30 50 110 n.k 90 100 60 110 360 Na asymptotické hladině významnosti 0,05 testujte hypotézu o nezávislosti typu školy a sociální skupiny. Vypočtěte Cramérův koeficient. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 6/38 Příklad Řešení "1.".4 n »2. ".3 »3. ".2 n 140-90 360 140-110 360 110-60 360 360 "2.".l n n2,n 2 n 110-100 360 140-100 — 33 9 "l.".3 27,5, = 18,3, ^ = i™ = 33/6/ nip 30,6,23^1^2 = 18/3/ = 35,^ 42,8, »2. ".4 140-60 360 = 23,3, 110-90 360 110-100 _ qn 110-90 = 27,5, »3. "A n 360 110-110 _ qq t 360 ~~ JJ' ° ix _ (50-35)2 . (30-38,9)2 . . (50-33,6)2 — ^ i- 38,9 "r • • • -r 35 33,6 76,84, r = 3, s = 4, ^q95(6) = 12,6. Protože K > 12,6, hypotézu o nezávislosti typu školy a sociální skupiny zamítáme na asymptotické hladině významnosti 0,05. Cramérův koeficient: V = 76 A 360-2 = 0,3267. Jan Koláček (PřF MU) M5VM05 Statistické modelováni Čtyřpolní tabulky Speciálním případem kontingenčních tabulek, kdy r = s = 2 jsou čtyřpolní tabulky. Zavádí se pro ně jiné značení. Definice 4 Nechť r = s = 2. Pak hovoříme o čtyřpolní kontingenční tabulce a používáme označení: ri\\ = a,nyi = b,ti2i = c,ri22 = d. X y y\i\ y\2\ xm a b a + b x[2] c d c + d n.k a + c b + d n Jan Koláček (PřF MU) M5VM05 Statistické modelování 8/38 Čtyřpolní tabulky Ve čtyřpolních tabulkách používáme charakteristiku OR = ||, která se nazývá podíl šancí (odds ratio). Můžeme si představit, že pokus se provádí za dvojích různých okolností a může skončit bud' úspěchem nebo neúspěchem. Výsledek pokusu okolnosti ni- 1 II úspěch a b a + b neúspěch c d c + d a + c b + d n Poměr počtu úspěchů k počtu neúspěchů (tzv. šance) za prvních okolností je |, za druhých okolností je |. Definice 5 Podíl šancí (odds ratio) ve čtyřpolní tabulce je definován jako OR = Jan Koláček (PřF MU) M5VM05 Statistické modeloval 9/38 Čtyřpolní tabulky Věta 6 Pomocí 100(1 — a) % asymptotického intervalu spolehlivosti pro podíl šancí lze na asymptotické hladině významnosti cc testovat hypotézu o nezávislosti nominálních veličin X a Y. Asymptotický 100(1 — cc) % interval spolehlivosti pro přirozený logaritmus skutečného podílu šancí má meze: Jestliže po odlogaritmování nezahrne interval spolehlivosti 1, pak hypotézu o nezávislosti zamítneme na asymptotické hladině významnosti cc. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 10 / 38 Příklad Příklad 2 U 135 uchazečů o studium na jistou fakultu byl hodnocen dojem, jakým zapůsobili na komisi u ústní přijímací zkoušky. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že přijetí na fakultu nezávisí na dojmu u přijímací zkoušky. přijetí dojem ni- dobrý špatný ano 17 11 28 ne 39 58 97 n± 56 69 125 Jan Koláček (PřF MU) M5VM05 Statistické modeloval 11 / 38 Příklad Řešení OR = tc = ffff = 2'298' lnOR = °'832' íi í í r n í í r Vä + ^ + č + ď = VT7 + ň + 39 + 58 =a439' "o,975 = l,96 ln dm = 0,832 - 0,439 ■ 1,96 = -0,028, ln hm = 0,832 + 0,439 ■ 1,96 = 1,692 ^ dm = e-°'28 = 0,972, hm = e1-692 = 5,433 Protože interval (0,972; 5,433) obsahuje číslo 1, na asymptotické hladině významnosti 0,05 nezamítáme hypotézu o nezávislosti dojmu u přijímací zkoušky a přijetí na fakultu. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 12 / 38 Testování nezávislosti ordinálních veličin Nechť X, Y jsou dvě ordinální náhodné veličiny. Pořídíme dvourozměrný náhodný výběr (Xi, Y\),..., (X„,Y„) z rozložení, jímž se řídí náhodný vektor (X,Y). Označíme i?,- pořadí náhodné veličiny X,- a Q,- pořadí náhodné veličiny Yj,i = l,...,n. Testujeme hypotézu Hq : x, Y jsou pořadově nezávislé náhodné veličiny proti oboustranné alternativě Hi : X, Y jsou pořadově závislé náhodné veličiny (resp. proti levostranné alternativě H^: mezi X a Y existuje nepřímá pořadová závislost resp. proti pravostranné alternativě Hi: mezi X a Y existuje přímá pořadová závislost). Testová statistika se nazývá Spearmanův koeficient pořadové korelace a má tvar: 6 n = 1 - n(n2 — 1) Urí-Qí)2- Jan Koláček (PřF MU) M5VM05 Statistické modeloval 13/ Testování nezávislosti ordinálních veličin Hq zamítáme na hladině významnosti a O ve prospěch oboustranné alternativy, když \r$\ > rs,i-a(n) O ve prospěch levostranné alternativy, když r$ < — J"s,i-2a(n) Q ve prospěch pravostranné alternativy, když r$ > J"s,i-2a(n) rS,i-a(n) Je kritická hodnota, kterou pro a = 0,05 nebo 0,01 a n < 30 najdeme v tabulkách. Pro n > 30 Hq zamítáme na asymptotické hladině významnosti a ve prospěch oboustranné alternativy, když \rs\ > Ul-a/2 y/n — 1 Poznámka 7 Spearmanův koeficient r$ současně měří sílu pořadové závislosti náhodných veličin X,Y. Nabývá hodnot z intervalu ( — 1,1). Čím je jeho hodnota bližší — 1 (resp. 1), tím je silnější nepřímá (resp. přímá) pořadová závislost veličin X, Y. Čím je jeho hodnota bližší 0, tím je slabší pořadová závislost veličin X,Y. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 14 / 38 Příklad Příklad 3 Dva lékaři hodnotili stav sedmi pacientů po témž chirurgickém zákroku. Postupovali tak, že nejvyšší pořadí dostal nejtěžší případ. Číslo pacienta 1 2 3 4 5 6 7 Hodnocení 1. lékaře 4 1 6 5 3 2 7 Hodnocení 2. lékaře 4 2 5 6 13 7 Vypočtěte Spearmanův koeficient r$ a na hladině významnosti 0,05 testujte hypotézu, že hodnocení obou lékařů jsou pořadově nezávislá. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 15 / 38 Příklad Řešení 1 (4-4)2+(l-2)2+(6-5)2 7(72-1) + (3-l)2 + (2-3)2+(7-7)2 0,857 Kritická hodnota: rS/0/95(7) = 0,745. Protože 0,857 > 0,745, nulovou hypotézu zamítáme na hladině významnosti 0,05. Jan Koláček (PřF MU) M5VM05 Statistické modelováni Testování nezávislosti intervalových či poměrových veličin Pearsonův koeficient korelace V teorii pravděpodobnosti byl zaveden Pearsonův koeficient korelace náhodných veličin X,Y (které jsou aspoň intervalového charakteru) vztahem Připomeneme jeho vlastnosti: O R(X,X) = 1 O R(X,Y) =R(Y,X) O R(a + bX, c + dY) = sgn(bd)R(X, Y) O — 1 < R(X,Y) < 1 a rovnosti je dosaženo tehdy a jen tehdy, když existují reálné konstanty a,b, kde b ^= 0 tak, že P(Y = a + bX) = 1, přičemž R(X, Y) = 1 pro b > 0 a R(X, Y) = -1 pro b < 0. Z těchto vlastností plyne, že R(X,Y) je vhodnou mírou těsnosti lineárního vztahu náhodných veličin X,Y. C(X,Y) pro VĎ(X), 7Ď(Y) > 0, R(X,Y) 0 jinak. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 17 / 38 Výběrový koeficient korelace Definice 8 Z dvourozměrného náhodného výběru (Xi, Y\),..., (X„, Yn) můžeme stanovit: n n 9 výběrové průměry M1 = \ E Xir M2 = \ E Y» i=l i=l O výběrové rozptyly O výběrovou kovarianci S12 = ——r E(Xŕ -M!)(Yr -M2) S jejich pomocí zavedeme výběrový koeficient korelace Ru = 7T7T- pro SiS2 > 0. Jan Koláček (PřF MU) M5VM05 Statistické modelování Koeficient korelace dvourozměrného normálního rozdělení Věta 9 Nechí náhodný vektor (X, Y) má dvourozměrné normální rozložení s hustotou 1 1 \(x-ľl\2 ?r,(*-El)(y-f2) i /y-ľ2\2] cp(x,y) =-\ 2(i-p2)[t "i ] 2p w +[ -2 >\r 2 Tl(7\ a2 i/l — p2 přičemž Hi = E(X),pi2 = E(Y),a2 = D(X),a2 = D(Y),p = R(X,Y). Pak marginální hustoty jsou: 1 o„2 / \ 1 (J\y7.K (72V27T Věta 10 Je-// p = 0, pa/c pro V(x,i/) e R2 : 0). Testová statistika má tvar: T = R12Vn - 2 Platí-li nulová hypotéza, pak T ~ t(n — 2). Kritický obor pro test Hq proti oboustranné alternativě: W = (-oo, -h_a/2(n - 2)) U {h_a/2(n - 2),00), proti levostranné alternativě: W = (—00, — ti-a(n — 2)) a proti pravostranné alternativě: W = (ři-a(w — 2), 00). Hq zamítáme na hladině významnosti cc, když T E W. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 20 / 38 Příklad Příklad 4 Máme k dispozici výsledky testů ze dvou předmětů zjištěné u osmi náhodně vybraných studentů určitého oboru. Číslo studenta 1 2 3 4 5 6 7 8 Počet bodů v 1. testu 80 50 36 58 42 60 56 68 Počet bodů ve 2. testu 65 60 35 39 48 44 48 61 Na hladině významnosti 0,05 testujte hypotézu, ze výsledky obou testů nejsou kladně korelované. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 21 / 38 Příklad Řešení. Nejprve se musíme přesvědčit, že uvedené výsledky lze považovat za realizace náhodného výběru z dvourozměrného normálního rozložení. Lze tak učinit orientačně pomocí dvourozměrného tečkového diagramu. Tečky by měly vytvořit elipsovitý obrazec. 0 10 20 30 40 50 60 70 80 90 100 110 120 Obrázek : Dvourozměrný tečkový diagram Jan Koláček (PřF MU) M5VM05 Statistické modeloval 22 / 38 Příklad Obrázek svědčí o tom, že předpoklad dvourozměrné normality je oprávněný a že mezi počty bodů z 1. a 2. testu bude existovat určitý stupeň přímé lineární závislosti. Testujeme Hq : p = 0 proti pravostranné alternativě Hi : p > 0. Výpočtem zjistíme: R12 = 0,6668,T = 2,1917. V tabulkách najdeme rrj,95(6) = 1,9432. Kritický obor: W = (1,9432; 00). Protože T eW, hypotézu o neexistenci kladné korelace výsledků z 1. a 2. testu zamítáme na hladině významnosti 0,05. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 23 / 38 Porovnání koeficientu korelace s danou konstantou Věta 12 Necht c je reálná konstanta. Testujeme Hq : p = c proti Hi : p 7^ c. Test je založen na statistice U 2 1-c Vn — 3, 2(n - 1), která má za platnosti Hq pro n > 10 asymptoticky rozloženíN(0,1), přičemž 2 1-RU je tzv. Fisherova Z-transformace. Kritický obor pro test Hq proti oboustranné alternativě tedy je W = (—00, — «i_a/2) U (wi-a/2/°°)-ŕío zamítáme na asymptotické hladině významnosti cc, když U E W. Jan Koláček (PřF MU) M5VM05 Statistické modelováni Příklad Příklad 5 U 600 vzorků rudy byl stanoven obsah železa dvěma analytickými metodami s výběrovým koeficientem korelace 0,85. V literatuře se uvádí, že koeficient korelace těchto dvou metod má být 0,9. Na asymptotické hladině významnosti 0,05 testujte hypotézu H0 : p = O,9 proti H\ : p ^= 0,9. Řešení Z= 2^^1 = 1,2562, U= (l, 2562-i ln 2(6^)) V6ĎĎ^3 = -5,2976, "0,975 = 1,96, W= (-00,-1,96) U (l,96,oo). Protože U e W,Hq zamítáme na asymptotické hladině významnosti 0,05. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 25 / 38 Porovnání dvou koeficientů korelace Věta 13 Nechí jsou dány dva nezávislé náhodné výběry o rozsazích n a n* z dvourozměrných normálních rozložení s korelačními koeficienty p a p*. Testujeme Hq : p = p* proti H\ : p 7^ p*. Označme R12 výběrový koeficient korelace 1. výběru a R^2 výběrový koeficient korelace 2. výběru. Položme Z=ilni±^ a Z* = ilnl±^ 2 1 - Platí-li Hq, pak testová statistika 2 1 - R12 2 1-R*2 U = Z-Z* 1 +. 1 n—3 n*— 3 má asymptoticky rozloženíN(0,1). Kritický obor pro test Hq tedy je W = (-00, ^l—a/l) U ("l-a/2/00)- Jan KoláCek (PřF MU) M5VM05 Statistické modelováni Příklad Příklad 6 Lékařský výzkum se zabýval sledováním koncentrací látek A a B v moči pacientů trpících určitou ledvinovou chorobou. U 100 zdravých jedinců činil výběrový koeficient korelace mezi koncentracemi obou látek 0,65 a u 142 osob trpících zmíněnou chorobou byl 0,37. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že se koeficienty korelace v obou skupinách neliší. Řešení Z=2lnT±ůf = 0,7753, Z* = £ln£§^ = 0,3884, jj _ 0,7753 -0,3884 _ 2 C)242 \J 100-3 + 142^3 "0,975 = 1,96, W= (-00,-1,96) U (l,96,oo). Protože U e W,Hq zamítáme na asymptotické hladině významnosti 0,05. Jan Koláček (PřF MU) M5VM05 Statistické modelováni Interval spolehlivosti pro koeficient korelace Věta 14 Jestliže dvourozměrný náhodný výběr rozsahu n pochází z dvourozměrného normálního rozložení, jehož koeficient korelace se příliš neliší od nuly (\p\ < 0,5) a rozsah výběru je dostatečně velký (n > 100), lze odvodit, že 100(1 — cc)% interval spolehlivosti pro p má meze Ri2 ± u 1 l-a/2 ■R\2 Nejsou-li uvedené podmínky splněny, pak nelze tento vzorec použít, protože rozložení výběrového korelačního koeficientu je příliš zešikmené. V takovém případě využijeme následujícího tvrzení. Jan Koláček (PřF MU) M5VM05 Statistické modelováni Interval spolehlivosti pro koeficient korelace Věta 15 Náhodná veličina 2 1-R12 má i při malém rozsahu výběru přibližně normální rozložení se střední hodnotou (2. sčítanec lze při větším n zanedbat) a rozptylem D(Z) = Standardizací veličiny Z dostaneme veličinu U_Z-E(Z) y/W)' která má asymptoticky rozložení"N(0,1). Tudíž 100(1 — a.) % asymptotický interval spolehlivosti pro j ln bude mít meze Z ± U^j~*l\ ■ Interval spolehlivosti pro p pak dostaneme zpětnou transformací. ■ Jan Koláček (PřF MU) M5VM05 Statistické modelování 29 / 3; Interval spolehlivosti pro koeficient korelace Poznámka 16 Jelikož Z = arctghRi2, dostáváme R12 = tghZ a meze intervalu spolehlivosti pro p můžeme psát ve tvaru "i-«/2 N ........ ŕ -e- , přičemž tgh x ex + e Jan Koláček (PřF MU) M5VM05 Statistické modelováni Příklad Příklad 7 Pracovník personálního oddělení určité firmy zkoumá, zda existuje vztah mezi počtem dní absence za rok (veličina Y) a věkem pracovníka (veličina X). Proto náhodně vybral údaje o 10 pracovnících. Č.prac. 1 2 3 4 5 6 7 8 9 10 X 27 61 37 23 46 58 29 36 64 40 Y 15 6 10 18 9 7 14 U 5 8 Za předpokladu, že uvedené údaje tvoří číselné realizace náhodného výběru rozsahu 10 z dvourozměrného normálního rozložení, vypočtěte výběrový koeficient korelace a na hladině významnosti 0,05 testujte hypotézu, že X a Y jsou nezávislé náhodné veličiny. Sestrojte 95% asymptotický interval spolehlivosti pro skutečný koeficient korelace p. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 31 / 38 Příklad Řešení. Předpoklad o dvourozměrné normalitě dat ověříme orientačně pomocí dvourozměrného tečkového diagramu, viz. Obr. 2. -20 0 20 40 60 80 100 Obrázek : Dvourozměrný tečkový diagram Vzhled diagramu svědčí o tom, že předpoklad je oprávněný. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 32 / 38 Příklad Testujeme Hq : p = O proti H\ : p 7^ 0. Vypočítáme R12 = —0,9325, tedy mezi věkem pracovníka a počtem dnů pracovní neschopnosti existuje silná nepřímá lineární závislost. Testová statistika: T = —7,3053, kvantil £0,975(8) = 2,306, kritický obor W = (-00,-2,306} U (2,306,00). Jelikož T e W, zamítáme na hladině významnosti 0,05 hypotézu o nezávislosti veličin X a Y. Vypočítáme 1, 1 + ^12 2lnT^ 1 1 -0,9325 2 n 1 +0,9325 -1,6772. leze 95% asymptotického intervalu spolehlivosti pro p jsou tgh( —1,6772 ± ^yp). tedy -0,9842 < p < -0,7336 s pravděpodobností přibližně 0,95. Jan Koláček (PřF MU) M5VM05 Statistické modelováni Úlohy k procvičení Příklad 8.1 (Testování nezávislosti nominálních veličin) Na hladině významnosti 0,05 testujte hypotézu o nezávislosti pedagogické hodnosti a pohlaví a vypočtěte Cramérův koeficient, jsou-li k dispozici následující údaje: pohlaví pedagogická hodnost odb. asistent docent profesor muž 32 15 8 žena 34 8 3 [hypotézu o nezávislosti pohlaví a pedagogické hodnosti nezamítáme, Cramérův koeficient: 0,187] Jan Koláček (PřF MU) M5VM05 Statistické modeloval 34 / 38 Úlohy k procvičení Příklad 8.2 (Testování nezávislosti ordinálních veličin) 12 různých softwarových firem nabízí programy pro vedení účetnictví. Programy byly posouzeny odbornou komisí a komisí složenou z profesionálních účetních. Výsledky v 1. a 2. komisí: (6,4), (7,5), (1,2), (8,10), (4,6), (2.5,1), (9,7), (12,11), (10,8), (2.5,3), (5,12), (11,9). Vypočtěte Spearmanův koeficient pořadové korelace a na hladině významnosti 0,05 testujte hypotézu o nezávislosti pořadí v obou komisích. [rs = 0,715, nulovou hypotézu zamítáme] Jan Koláček (PřF MU) M5VM05 Statistické modeloval 35 / 38 Úlohy k procvičení Příklad 8.3 (Testování nezávislosti intervalových a poměrových veličin) V dílně pracuje 15 dělníků, u nichž byl zjištěn počet směn odpracovaných za měsíc (veličina X) a počet zhotovených výrobků (veličina Y). Orientačně ověřte dvourozměrnou normalitu dat, vypočtěte výběrový koeficient korelace mezi X a Y, sestrojte pro něj 99% asymptotický interval spolehlivosti a na hladině 0,01 testujte hypotézu o nezávislosti X a Y. x 20 21 18 17 20 18 19 21 20 14 16 19 21 15 15 V 92 93 83 80 91 85 82 98 90 60 73 86 96 64 81 Vyl = = 0,927, hypotézu o nezávislosti veličin X a Y zamítáme, IS pro p: (0,7131; o!983)] Jan KoláCek (PřF MU) M5VM05 Statistické modeloval 36 / 38 Úlohy k procvičení Příklad 8.4 Necht (Xi,Yi),... ,(Xig, Yig) je náhodný výběr z dvourozměrného normálního rozložení. Výběrový koeficient korelace Rxy nabyl hodnoty —0,87. Jestliže provedeme transformaci Uj = 1 + 3X,-, V, = —3 — Y,, i = 1,..., 16, jakou hodnotu nabude výběrový koeficient korelace Rjjy ? [RUv = 0,87] Jan Koláček (PřF MU) M5VM05 Statistické modeloval 37 / 38 Úlohy k procvičení Příklad 8.5 400 náhodně vybraných pracovníků potravinářského podniku bylo dotázáno na příčiny nespokojenosti na pracovišti. Výsledky jsou uvedeny v tabulce: kategorie hlavní příčina nespokojenosti pracovníků pracovní prostředí špatné vztahy organizace práce výdělek jiné 1 dělníci 80 50 75 40 55 THP 10 10 25 30 25 \ Na hladině významnosti 0,05 testujte hypotézu, ze hlavní příčina nespokojenosti nezávisí na kategorii, do níž je pracovník zařazen. Vypočtěte Cramérův koeficient. [hypotézu o nezávislosti zamítáme, Cramérův koeficient je V = 0,25] Jan Koláček (PřF MU) M5VM05 Statistické modeloval 38 / 38