11 Korelační analýza Příklad 11.1. Testování nezávislosti ordinálních veličin 12 různých softwarových firem nabízí speciální programové vybavení pro 3D skenování lidského těla. V rámci recenze byly jednotlivé programy posuzovány jednak odbornou komisí složenou z počítačových odborníků a jednak komisí složenou z antropologů. Výsledky posouzení jsou uvedeny v následující tabulce. Produkt firmy číslo 1 2 3 4 5 6 7 8 9 10 11 12 Pořadí dle programátorů Pořadí dle antropologů 6 7 1 8 4 2.5 9 12 10 2.5 5 11 4 5 2 10 6 1 7 11 8 3 12 9 Vypočtěte Spearmanův koeficient pořadové korelace a na hladině významnosti a = 0.05 testujte hypotézu, že hodnocení obou komisí jsou nezávislá. Data jsou uložena v souboru 3D-sken.txt. Řešení příkladu 11.1 Ověření dvourozměrné normality pomocí tečkového diagramu -10 -10 -5 0 5 10 15 20 poradí podle počítačových odborníku Testování hypotézy o nezávislosti • //• : .............................................................................. • //. : .............................................................................. [1] "Spearmanův koeficient: rucni vypočet: 0.715035" [1] "Spearmanův koeficient: cor.test(): 0.714537" [1] "Asymptotická varianta testu: TO = 3.2344' [1] -2.228139 [1] 2.228139 [1] "Asymptotická varianta testu: p-hodnota = 0.008954' Spearmanův koeficient pořadové korelace nabývá hodnoty r$ =................................., tedy mezi hodnocením obou komisí existuje ........................................stupeň ................................................................................závislosti. a) Testování pomocí kritického oboru Tento postup používáme přednostně, protože n = 12 < 20. Testovací statistikou je v tomto případě přímo hodnota Spearmanova koeficientu pořadové korelace r s =................................... Kritický obor má tvar W =................................................ Protože r$............W, Hq o pořadové / lineární nezávislosti............................ na hladině významnosti a =............................. 1 b) Testování pomocí kritického oboru - Asymptotické varianta testu Tento postup používáme v případě, že n > 20. To v našem případě není splněno, řešení si tedy uvádíme jen pro ukázku. Testovací statistika To =.................................. Kritický obor má tvar W =................................................ Protože Tq ............ W, Hq o pořadové / lineární nezávislosti ............................ na hladině významnosti a = c) Testování pomocí p-hodnoty - Asymptotická varianta testu Tento postup používáme v případě, že n > 20. To v našem případě není splněno, řešení si tedy uvádíme jen pro ukázku. Protože p-hodnota ................................... je .................................. než a = 0.05, Hq o pořadové / lineární nezávislosti...............................na asymptotické hladině významnosti a =............................... Interpretace výsledků testování: S rizikem omylu nejvýše 5 % jsme prokázali, že mezi hodnoceními obou komisí existuje / neexistuje statisticky významná pořadová / lineární závislost. Příklad 11.2. Testování nezávislosti intervalových veličin Zjišťovalo se, kolik mg kyseliny mléčné je ve 100 ml krve matek prvorodiček (veličina X) a u jejich novorozenců (veličina Y) těsně po porodu. Byly získány tyto výsledky: Číslo matky i 2 3 4 5 6 40 64 34 15 57 45 33 46 23 12 56 40 Pomocí tečkového diagramu otestujte dvourozměrnou normalitu dat. Vypočtěte výběrový korelační koeficient, sestrojte 95 % interval spolehlivosti pro korelační koeficient a na hladině významnosti a = 0.05 testujte hypotézu o nezávislosti výsledků obou měření. Data jsou uložena v souboru kyselina_mlecna.txt. Řešení příkladu 11.2 Ověření dvourozměrné normality pomocí tečkového diagramu E -20 0 20 40 60 80 100 množství v krvi matky (mg/100 ml) Testování hypotézy o nezávislosti • //• : .............................................................................. • //. : .............................................................................. cor 0.9348324 [1] "TO = 5.2653 9 [1] -2.776445 [1] 2.776445 [1] "IS = -0.8114 ; 0.8114" [1] "p-hodnota = 0.006232" [1] "Asymptoticky IS = 0.5108 0.993" 10 11 12 13 14 Výběrový koeficient korelace nabývá hodnoty r 12 = ................................., tedy mezi množstvím kyseliny mléčné ve 100 ml krve rodiček a jejich novorozenců existuje ........................................ stupeň ........................................ ........................................ závislosti. a) Testování pomocí kritického oboru Testovací statistika To nabývá hodnoty............................, kritický obor má potom tvar..................................... Protože Tq ............ W, Hq o nezávislosti ............................na hladině významnosti a =............................. b) Testování pomocí IS Interval spolehlivosti pro p má tvar.............. Protože............................, Hq o nezávislosti c) Testování pomocí p-hodnoty Protože p-hodnota ............................je ....... na hladině významnosti a =........................... .....na hladině významnosti a = .. než a = 0.05, Hq o nezávislosti d) *Testování pomocí asymptotického IS Asymptotický interval spolehlivosti pro p má tvar Protože............................, Hq o nezávislosti......... na hladině významnosti a Interpretace výsledků testování: S rizikem omylu nejvýše 5 % jsme prokázali, že mezi oběma koncentracemi existuje / neexistuje statisticky významná pořadová / lineární závislost. Příklad 11.3. Porovnání dvou korelačních koeficientů V psychologickém výzkumu bylo vyšetřeno 426 hochů a 430 dívek. Ve skupině hochů činil výběrový koeficient korelace mezi verbální a performační složkou IQ 0.6033, ve skupině dívek činil 0.5833. Za předpokladu dvourozměrné normality dat testujte na hladině významnosti a = 0.05 hypotézu, že korelační koeficienty se neliší. Řešení příkladu 11.3 • //• : .............................................................................. • //. : .............................................................................. a) Testování pomocí kritického oboru [1] 0.449991 [1] -1.959964 Testovací statistika Zyy nabývá hodnoty............................, kritický obor má potom tvar .... Protože Zyy ............ W, Hq o nezávislosti ............................ na hladině významnosti a = b) Testování pomocí p-hodnoty 17 [1] 0.6527169 Protože p-hodnota............................je..............................než a = 0.05, H0 o shodě dvou koeficientů korelace ................................................na asymptotické hladině významnosti a =............................... Interpretace výsledků testování: Oba korelační koeficienty se statisticky významně liší / neliší. 3 Příklady k samostatnému řešení Příklad 11.4. Načtěte datový soubor IQ.txt. Za předpokladu dvourozměrné normality dat (orientačně ověřte pomocí dvourozměrného tečkového diagramu) testujte na hladině významnosti a = 0.1 hypotézu, že korelační koeficienty mezi verbální a performační složkou IQ jsou stejné u dětí z města a venkova. Řešení příkladu 11.4 100 120 140 verbálni složka IQ (v bodech) 80 100 120 verbálni složka IQ (v bodech) r 140 [1] 0.0780111 18 Výsledek: p-hodnota= 0.07801, tedy s rizikem omylu nejvýše 10% jsme prokázali, že korelační koeficienty se liší. Příklad 11.5. V náhodném výběru 10 dvoučlenných domácností byl zjišťován měsíční příjem (veličina X, v tisících Kč) a vydání za potraviny (veličina Y, v tisících Kč). 15 21 34 35 39 42 58 64 75 90 Ví 3 4.5 6.5 6 7 8 9 8 9.5 10.5 Vypočtěte a interpretujte výběrový koeficient korelace. Na hladině významnosti a = 0.05 testujte hypotézu o nezávislosti veličin X, Y. Sestrojte 95% asymptotický interval spolehlivosti pro p. Data jsou uložena v souboru prijem_vydani.txt. Řešení příkladu 11.5 0 50 100 prijem domácnosti (v tisicich Kc) Výsledek: r\2 = 0.9405, mezi měsíčními příjmy a výdaji tedy existuje velmi vysoký stupeň přímé lineární závislosti. p-hodnota= 5.095 e — 05, tedy Hq zamítáme na hladině významnosti a = 0.05. S pravděpodobností alespoň 0.95 platí: 0.7623 < p < 0.9862. 4 Příklad 11.6. Bylo sledováno 10 žáků. Na základě psychologického vyšetření byli tito žáci seřazeni podle nervové lability (čím byl žák labilnější, tím dostal vyšší pořadí Ri). Kromě toho sledovaní žáci dostali pořadí Qi na základě svých výsledků v matematice (nejlepší žák v matematice dostal pořadí 1). Výsledky jsou uvedeny v tabulce: Pořadí Ri 1 2 3 4 5 6 7 8 9 10 Pořadí Qi 9 3 8 5 4 2 10 1 7 6 Vypočtěte vhodný korelační koeficient a jeho hodnotu řádně interpretujte. Na hladině významnosti a = 0.05 testujte hypotézu, že nervová labilita a výsledky v matematice jsou nezávislé. Data jsou uložena v souboru nervova_labilita.txt. Řešení příkladu 11.6 -5 0 5 10 15 poradí zaka podle nervové lability Výsledek: Spearmanův koeficient pořadové korelace r s = —0.127, tedy mezi nervovou labilitou žáka a jeho výsledky v matematice existuje nízký stupeň nepřímé pořadové závislosti. p-hodnota= 0.7329, a tedy Hq nezamítáme na hladině významnosti a = 0.05. 5