Příklady na cvičení ke 13. přednášce Příklad 1.: Porovnání koeficientu korelace s danou konstantou Pro náhodný výběr rozsahu 50 z dvourozměrného normálního rozložení se skutečným koeficientem korelace ρ byl vypočten výběrový koeficient korelace r[12] = 0,5. Na asymptotické hladině významnosti 0,05 testujte hypotézu H[0]: ρ = 0,6 proti H[1]: ρ ≠ 0,6. Test proveďte pomocí kritického oboru i pomocí p-hodnoty. Výsledek: z = 0,5493, realizace u = -1,028. Testování pomocí kritického oboru: kritický obor , tedy H[0] nezamítáme na asymptotické hladině významnosti 0,05. Testování pomocí p-hodnoty: p = 0,303, tedy H[0] nezamítáme na asymptotické hladině významnosti 0,05. Příklad 2.: Porovnání dvou koeficientů korelace Jsou dány dva nezávislé náhodné výběry o rozsazích n = 35, n^* = 40, první pochází z dvourozměrného normálního rozložení s koeficientem korelace ρ, druhý pochází z dvourozměrného normálního rozložení s koeficientem korelace ρ^*. Výběrový koeficient korelace 1. výběru nabyl hodnoty r[12] = 0,4, 2. výběru r[12]^* = 0,55. Na asymptotické hladině významnosti 0,05 testujte H[0]: ρ = ρ^* proti H[1]: ρ ≠ ρ^*. Test proveďte pomocí kritického oboru i pomocí p-hodnoty. Výsledek: z = 0,423649, z^* = 0,618381, u = -0,8067. Testování pomocí kritického oboru: kritický obor , tedy H[0] nezamítáme na asymptotické hladině významnosti 0,05. Testování pomocí p-hodnoty: p = 0,418, tedy H[0] nezamítáme na asymptotické hladině významnosti 0,05. Příklad 3.: Regresní přímka V dílně pracuje 15 dělníků, u nichž byl zjištěn počet směn odpracovaných za měsíc (proměnná X) a počet zhotovených výrobků (proměnná Y). X: 20 21 18 17 20 18 19 21 20 14 16 19 21 15 15 Y: 92 93 83 80 91 85 82 98 90 60 73 86 96 64 81 a) Orientačně ověřte předpoklad, že data pocházejí z dvourozměrného normálního rozložení. Vypočtěte výběrový koeficient korelace mezi X a Y, interpretujte jeho hodnotu a na hladině významnosti 0,05 testujte hypotézu, že X a Y jsou nezávislé náhodné veličiny. b) Za předpokladu, že regresní přímka dobře vystihuje závislost Y na X, sestavte regresní matici, vypočtěte odhady regresních parametrů a napište rovnici regresní přímky. c) Najděte odhad rozptylu, vypočtěte index determinace a interpretujte ho. d) Najděte 95% intervaly spolehlivosti pro regresní parametry. e) Na hladině významnosti 0,05 proveďte celkový F-test. f) Na hladině významnosti 0,05 proveďte dílčí t-testy. g) Vypočtěte regresní odhad počtu výrobků pro 18 odpracovaných směn. h) Nakreslete dvourozměrný tečkový diagram s proloženou regresní přímkou. Řešení: ad a) Orientační ověření dvourozměrné normality, výpočet výběrového koeficientu korelace a testování hypotézy o nezávislosti veličin X a Y bylo provedeno v příkladu 5 ve cvičení k 12. přednášce, nyní se soustředíme na regresní analýzu. ad b) Sestavíme regresní matici X typu 15x2, která má v 1. sloupci samé jedničky a ve 2. sloupci hodnoty proměnné X. Podle vzorce získáme odhady regresních parametrů. Nejprve vypočítáme matici X’ X = a k ní inverzní matici (X’ X)^-1 = . Dále získáme součin X’y = a nakonec b = . = . Regresní přímka má tedy rovnici y = 5,0101 + 4,3024 x. ad c) Nyní vypočteme vektor regresních odhadů proměnné Y (vektor predikce): = Xb = (91,0574 95,3598 82,4527 78,1503 91,0574 82,4527 86,7551 95,3598 91,0574 65,2432 73,8480 86,7551 95,3598 69,5456 69,5456)‘. Stanovíme vektor reziduí: = (0,9426 -2,3598 0,5473 1,8497 -0,0574 2,5473 -4,7551 2,6402 -1,0574 -5,2432 -0,8480 -0,7551 0,6402 -5,5456 11,4544)‘. Pomocí vektoru reziduí vypočteme reziduální součet čtverců: S[E] = e’e = 238,5169. Odhad rozptylu: . Dále potřebujeme celkový součet čtverců S[T] = (y – m[2])’(y – m[2]), kde m[2] je sloupcový vektor typu nx1 složený z průměru m[2] závisle proměnné veličiny Y. V našem případě je m[2] = 83,6. Po dosazení do vzorce pro celkový součet čtverců tedy dostaneme S[T] = 1699,6. (Celkový součet čtverců lze získat také tak, že výběrový rozptyl veličiny Y vynásobíme n-1: S[T] = 14.121,4 = 1699,6.) Regresní součet čtverců pak je: S[R] = S[T] – S[E] = 1699,6 – 238,5169 = 1461,0831. Index determinace: . Znamená to, že variabilita hodnot závisle proměnné veličiny je z 85,97% vysvětlena regresní přímkou. (V případě regresní přímky platí ID^2 = r[12]^2. V našem případě bylo zjištěno, že r[12] = 0,9272, tedy ID^2 = 0,8597.) ad d) Vypočteme směrodatné chyby odhadů regresních parametrů b[0]^ a b[1]. Přitom si uvědomíme, že v[00] = 4,2939, v[11] = 0,0127. , . Stanovíme meze 95% intervalů spolehlivosti pro regresní parametry β[0]^ a β[1]. K tomu slouží vzorec , j = 0, 1. 95% interval spolehlivosti pro β[0]: Znamená to, že -14,1654 < β[0] < 24,1456 s pravděpodobností aspoň 0,95. 95% interval spolehlivosti pro β[1]: Znamená to, že 3,2596 < β[1] < 5,3452 s pravděpodobností aspoň 0,95. ad e) Provedení celkového F-testu: na hladině významnosti α = 0,05 testujeme H[0]: β[1] = 0 proti H[1]: β[1] ≠ 0. Testová statistika , kritický obor: . Protože se testová statistika realizuje v kritickém oboru, hypotézu o nevýznamnosti regresního parametru β[1] (tj. směrnice regresní přímky) zamítáme na hladině významnosti 0,05. Výsledky testování významnosti modelu jako celku zapíšeme do tabulky ANOVA: zdroj variab. součet čtverců stupně volnosti podíl statistika F model S[R] = 1461,0831 p = 1 S[R]/p=1461,0831 79,6341 reziduální S[E] = 238,5169 n-p-1 = 13 S[E]/(n-p-1)=18,3475 - celkový S[T] = 1699,6 n-1 = 14 - - ad f) Provedení dílčích t-testů: Na hladině významnosti α = 0,05 testujeme H[0]: β[0] = 0 proti H[1]: β[0] ≠ 0. Testová statistika: , kritický obor: . Protože se testová statistika nerealizuje v kritickém oboru, hypotézu o nevýznamnosti regresního parametru β[0] (tj. posunutí regresní přímky) nezamítáme na hladině významnosti 0,05. Ke stejnému výsledku dospějeme, podíváme-li se na 95% interval spolehlivosti pro β[0]. Vypočítali jsme, že -14,1654 < β[0] < 24,1456 s pravděpodobností aspoň 0,95. Protože tento interval obsahuje 0, hypotézu H[0]: β[0] = 0 nezamítáme na hladině významnosti 0,05. Na hladině významnosti α = 0,05 testujeme H[0]: β[1] = 0 proti H[1]: β[1] ≠ 0. Testová statistika: , kritický obor: . Protože se testová statistika realizuje v kritickém oboru, hypotézu o nevýznamnosti regresního parametru β[1] (tj. směrnice regresní přímky) zamítáme na hladině významnosti 0,05. Ke stejnému výsledku dospějeme, podíváme-li se na 95% interval spolehlivosti pro β[1]. Vypočítali jsme, že 3,2596 < β[1] < 5,3452 s pravděpodobností aspoň 0,95. Protože tento interval neobsahuje 0, hypotézu H[0]: β[1] = 0 zamítáme na hladině významnosti 0,05. V případě modelu regresní přímky je dílčí t-test pro parametr β[1] ekvivalentní s celkovým F-testem. ad g) Regresní odhad pro x = 18 dostaneme pouhým dosazením do rovnice regresní přímky: . ad h) Příklad 4.: Regresní parabola U automobilu Škoda 120 byla změřena spotřeba benzínu (v l/100 km) v závislosti na rychlosti (v km/h). rychlost 40 50 60 70 80 90 100 110 spotřeba 5,7 5,4 5,2 5,2 5,8 6,0 7,5 8,1 a) Data znázorněte graficky dvourozměrným tečkovým diagramem a najděte vhodnou regresní funkci. b) Sestavte regresní matici, vypočtěte odhady regresních parametrů, odhad rozptylu a index determinace. c) Určete 95 % intervaly spolehlivosti pro regresní parametry. d) Na hladině významnosti 0,05 proveďte celkový F-test. e) Na hladině významnosti 0,05 proveďte dílčí t-testy. f) Určete regresní odhad spotřeby benzínu při rychlosti 80 km/h. g) Znázorněte data s proloženou regresní funkcí. Řešení: ad a) Z dvourozměrného tečkového diagramu je patrno, že vhodnou regresní funkcí bude parabola: . ad b) Regresní matice: X = . Podle vzorce získáme odhady regresních parametrů: b = . Regresní parabola má tedy rovnici: y = 9,751786 – 0,150536x + 0,001244x^2. Nyní vypočteme vektor regresních odhadů proměnné Y (vektor predikce): = Xb = . Vektor reziduí: = . Reziduální součet čtverců: S[E] = e’e = 0,263869. Odhad rozptylu: . Dále potřebujeme celkový součet čtverců S[T] = (y – m[2])’(y – m[2]), kde m[2] je sloupcový vektor typu nx1 složený z průměru m[2] závisle proměnné veličiny Y. V našem případě m[2] = 6,1125. Po dosazení do vzorce pro celkový součet čtverců tedy dostaneme S[T] = 8,32875. (Celkový součet čtverců lze získat také tak, že výběrový rozptyl veličiny Y vynásobíme n-1: S[T] = 7.1,189821 = 8,32875.) Regresní součet čtverců pak je: S[R] = S[T] – S[E] = 8,32875 – 0,263869 = 8,06488. Index determinace: . Znamená to, že variabilita hodnot závisle proměnné veličiny je z 96,83% vysvětlena regresní parabolou. ad c) Podle vzorce , j = 0, 1, 2 vypočteme směrodatné chyby odhadů b[0], b[1] a b[2] regresních parametrů β[0],^ β[1] a β[2]. Přitom si uvědomíme, že v[00], v[11] a v[22 ]jsou diagonální prvky matice (X’ X)^-1. V našem případě = 0,945689, = 0,026821, = 0,000177. Stanovíme meze 95% intervalů spolehlivosti pro regresní parametry β[0]^ a β[1]. K tomu slouží vzorec , j = 0, 1, 2. 95% interval spolehlivosti pro β[0]: Znamená to, že 7,3208 < β[0] < 12,1828 s pravděpodobností aspoň 0,95. 95% interval spolehlivosti pro β[1]: Znamená to, že -0,2195 < β[1] < -0,0816 s pravděpodobností aspoň 0,95. 95% interval spolehlivosti pro β[2]: Znamená to, že 0,0008 < β[2] < 0,0017 s pravděpodobností aspoň 0,95. ad d) Provedení celkového F-testu: na hladině významnosti α = 0,05 testujeme H[0]: (β[1], β[2]) = (0, 0) proti H[1]: (β[1], β[2]) ≠ (0, 0). Testová statistika , kritický obor: . Protože se testová statistika realizuje v kritickém oboru, hypotézu o nevýznamnosti regresního parametru β[1] zamítáme na hladině významnosti 0,05. Výsledky testování významnosti modelu jako celku zapíšeme do tabulky ANOVA: zdroj variab. součet čtverců stupně volnosti podíl statistika F model S[R] = 8,06488 p = 2 S[R]/p=4,03244 76,41 reziduální S[E] = 0,263869 n-p-1 = 5 S[E]/(n-p-1)=0,05277 - celkový S[T] = 8,32875 n-1 = 7 - - ad e) Provedení dílčích t-testů: Na hladině významnosti α = 0,05 testujeme H[0]: β[0] = 0 proti H[1]: β[0] ≠ 0. Testová statistika: , kritický obor: . Protože se testová statistika realizuje v kritickém oboru, hypotézu o nevýznamnosti regresního parametru β[0] zamítáme na hladině významnosti 0,05. Ke stejnému výsledku dospějeme, podíváme-li se na 95% interval spolehlivosti pro β[0]. Vypočítali jsme, že 7,3208 < β[0] < 12,1828 s pravděpodobností aspoň 0,95. Protože tento interval neobsahuje 0, hypotézu H[0]: β[0] = 0 zamítáme na hladině významnosti 0,05. Na hladině významnosti α = 0,05 testujeme H[0]: β[1] = 0 proti H[1]: β[1] ≠ 0. Testová statistika: , kritický obor: . Protože se testová statistika realizuje v kritickém oboru, hypotézu o nevýznamnosti regresního parametru β[1] zamítáme na hladině významnosti 0,05. Ke stejnému výsledku dospějeme, podíváme-li se na 95% interval spolehlivosti pro β[1]. Vypočítali jsme, že -0,2195 < β[1] < -0,0816 s pravděpodobností aspoň 0,95. Protože tento interval neobsahuje 0, hypotézu H[0]: β[1] = 0 zamítáme na hladině významnosti 0,05. Na hladině významnosti α = 0,05 testujeme H[0]: β[2] = 0 proti H[1]: β[2] ≠ 0. Testová statistika: , kritický obor: . Protože se testová statistika realizuje v kritickém oboru, hypotézu o nevýznamnosti regresního parametru β[2] zamítáme na hladině významnosti 0,05. Ke stejnému výsledku dospějeme, podíváme-li se na 95% interval spolehlivosti pro β[2]. Vypočítali jsme, že 0,0008 < β[2] < 0,0017 s pravděpodobností aspoň 0,95. Protože tento interval neobsahuje 0, hypotézu H[0]: β[2] = 0 zamítáme na hladině významnosti 0,05. ad f) Regresní odhad pro x = 80 dostaneme pouhým dosazením do rovnice regresní paraboly: . ad g)