Cvičení 13.: Jednoduchá lineární regresní analýza II Příklad 1.: Rozhodněte, zda následující dvojice přímek mohou být sdruženými regresními přímkami. V kladném případě najděte těžiště příslušného tečkového diagramu. a) y = 13 – 2x, x = 2,5 Výsledek: Uvedené přímky mohou být sdruženými regresními přímkami. Protínají se v bodě o souřadnicích [2,5; 8]. b) y = 13 – 2x, x = 0,4y Výsledek: Uvedené přímky mohou být sdruženými regresními přímkami. Protínají se v bodě o souřadnicích [ 2,7;8,2 ]. c) y = 13 – 2x, x = 8 – y Výsledek: Uvedené přímky nemohou být sdruženými regresními přímkami. d) y = 13 – 2x, x = 6,5 – 0,5y Výsledek: Uvedené přímky mohou být sdruženými regresními přímkami a splynou. Příklad 2.: Od šesti náhodně vybraných domácností byly získány údaje o počtu členů (veličina X) a měsíčních výdajích za určitý druh zboží (veličina Y). X 1 2 3 4 5 6 Y 550 750 1200 1450 2200 2250 a) Najděte rovnici regresní přímky, která vystihuje závislost výdajů na počtu členů domácnosti. Pro úsporu času máte uvedeny následující výsledky: 14310000y,91x,35950yx,8400y,21x 6 1i 2 i 6 1i 2 i 6 1i ii 6 1i i 6 1i i ===== ∑∑∑∑∑ ===== . b) Vypočtěte index determinace a interpretujte ho. Výsledek: ad a) y = 90 + 374,286x ad b) 961,0ID2 = . Znamená to, že 96,1 % variability výdajů za určitý druh zboží je vysvětleno regresní přímkou. Příklad 3.: Koeficienty regresní přímky vyjadřující závislost Y na X jsou b0 = 67,5, b1 = 0,3. Koeficient korelace veličin X a Y je 0,75. Průměr veličiny X je 25, veličiny Y je 75. Najděte koeficienty druhé regresní přímky. Výsledek: Druhá regresní přímka má rovnici x = -115,625 + 1,875y Příklad 4.: Na podzim byla uskladněna zimní jablka. Po čase bylo vždy odebráno několik kusů a u každého byla posuzována chuť, tvrdost, kvalita slupky a celkový vzhled jablka. Vyšší počet bodů odpovídá lepší kvalitě ovoce. Doba, která uplynula od uskladnění, je nezávisle proměnná veličina X, počet bodů závisle proměnná veličina Y. X Y 0 5 6 4 5 2 9 7 8 4 9 8 10 10 8 6 8 5 7 4 6 8 3 1 2 Na hladině významnosti 0,05 testujte hypotézu, že regresní přímka je vhodný model závislosti Y na X. Pokud bude hypotéza o adekvátnosti regresní přímky zamítnuta, použijte model regresní paraboly. Řešení v systému STATISTICA: Načteme datový soubor zimni_jablka.sta se dvěma proměnnými X a Y a 20 případy. Data znázorníme graficky: -1 0 1 2 3 4 5 6 7 8 9 X 0 2 4 6 8 10 12 Y Je zřejmé, že přímka nebude vhodným regresním modelem. Test adekvátnosti modelu provedeme pomocí Obecných regresních modelů: Statistiky – Pokročilé lineární/nelineární modely – Obecné regresní modely – Jednorozměrná regrese - OK – na záložce Možnosti zaškrtneme Kvalita proložení – OK – Závislá Y, Spoj. nezáv. prom. X – OK – Více výsledků – Celkové R – ve stromové struktuře vlevo vybereme Test kvality modelu. Test of Lack of Fit (zimni_jablka.sta) Dependnt Variable SS Residual df Residual MS Residual SS Pure Err df Pure Err MS Pure Err SS Lack of Fit df Lack of Fit MS Lack of Fit F p Y 114,3056 18 6,350309 20,00000 15 1,333333 94,30556 3 31,43519 23,57639 0,000006 Hodnota testové statistiky je 23,576 a odpovídající p-hodnota je blízká 0. Na hladině významnosti 0,05 tedy zamítáme hypotézu, že přímka je vhodným modelem k popisu závislosti kvality jablek na době skladování. Použijeme-li model 2 210 xxy β+β+β= , nemůžeme na hladině významnosti 0,05 zamítnout hypotézu, že tento model je adekvátní, neboť odpovídající p-hodnota je 0,4619: Test of Lack of Fit (zimni_jablka.sta) Dependnt Variable SS Residual df Residual MS Residual SS Pure Err df Pure Err MS Pure Err SS Lack of Fit df Lack of Fit MS Lack of Fit F p Y 22,16943 17 1,304084 20,00000 15 1,333333 2,169434 2 1,084717 0,813538 0,461919 Odhadnuté parametry: Regression Summary for Dependent Variable: Y (zimni_jablka.sta) R= ,90909975 R2= ,82646235 Adjusted R2= ,80604616 F(2,17)=40,481 p<,00000 Std.Error of estimate: 1,1420 N=20 b* Std.Err. of b* b Std.Err. of b t(17) p-value Intercept X Xkv 5,038438 0,542163 9,29322 0,000000 2,32875 0,331422 2,193419 0,312162 7,02653 0,000002 -2,78576 0,331422 -0,325953 0,038779 -8,40547 0,000000 Výsledný model má tvar: y = 5,0384 + 2,1934x – 0,3260x2 . Příklad 5.: Jsou známy údaje o počtu obyvatel USA v letech 1815 až 1975 (v miliónech osob): 181518251835184518551865187518851895190519151925 1935 1945 19551965 1975 8,3 11 14,7 19,7 26,7 35,2 44,4 55,9 68,9 83,2 98,8 114,2127,1140,1164 190,9214,3 Předpokládáme, že růst populace se řídí exponenciální regresní funkcí x10 ey β+β = , kde y je počet jedinců a x je čas, x = 1815, 1825, …, 1975. Odhadněte parametry exponenciální regresní funkce. Znázorněte data s proloženou regresní funkcí. Pomocí D-W statistiky testujte hypotézu, že mezi rezidui neexistuje pozitivní autokorelace. Návod: Data jsou uložena v souboru populace_USA.sta. V datovému souboru přidáme novou proměnnou LnY, do jejíhož Dlouhého jména napíšeme Log(Y). Provedeme regresní analýzu se závisle proměnnou LnY a nezávisle proměnnou X. Výsledky regrese se závislou proměnnou : lny (populace_USA.sta) R= ,98522411 R2= ,97066655 Upravené R2= ,96871099 F(1,15)=496,36 p<,00000 Směrod. chyba odhadu : ,18230 N=17 b* Sm.chyba z b* b Sm.chyba z b t(15) p-hodn. Abs.člen X -34,0828 1,710803 -19,9221 0,000000 0,985224 0,044222 0,0201 0,000902 22,2792 0,000000 Výsledný model má tedy tvar: y = e-34,0828+0,201.x Dílčí t-testy vedou k zamítnutí hypotéz o nevýznamnosti regresních parametrů β0, β1, obě phodnoty jsou blízké 0. Testová statistika celkového F-testu nabývá hodnotu 496,36, odpovídající p-hodnota je také velmi blízká 0. Exponenciální model vysvětluje variabilitu počtu osob v USA v letech 1815 – 1975 z 97 %. Grafické znázornění dat s proloženou regresní funkcí: 1800 1820 1840 1860 1880 1900 1920 1940 1960 1980 2000 X -50 0 50 100 150 200 250 300 D-W statistika nabývá hodnoty 0,1532. Kritické hodnoty pro α = 0,05, n = 15, p = 2 jsou: dL = 0,95, dU = 1,54. Testová statistika je menší než dL, tedy jsme na hladině významnosti 0,05 prokázali existenci pozitivní autokorelace reziduí. Nepovinný úkol: Postupem popsaným v přednášce odstraňte problém autokorelovaných reziduí. Příklad k samostatnému řešení: Ředitel státní správy nebyl spokojen s prací jistého oddělení. Nařídil proto, aby po dobu půl roku nejméně jednou měsíčně byla práce pracovníků tohoto oddělení kontrolována a hodnocena. Po půl roce obdržel výsledky hodnocení a chtěl vědět, zda se práce zlepšila. V tabulce jsou uvedeny průměrné hodnoty bodového hodnocení (škála 1 až 10, 1 nejlepší, 10 nejhorší) za příslušné měsíce: body 8,0 7,8 7,3 6,4 6,0 5,6 měsíc leden leden leden únor únor únor body 5,4 4,8 5,7 5,0 4,8 4,7 měsíc březen březen březen duben květen červen Proveďte test adekvátnosti přímkového modelu [p = 0,043] a kvadratického modelu [p = 0,6]. Pomocí kvadratického modelu najděte 95% empirický interval spolehlivosti pro predikci bodového hodnocení pro měsíc červen a pomocí statistického softwaru nakreslete graf 95% pásu spolehlivosti. [predikce = 4,896, dolní mez = 4,128, horní mez = 5,664]. Data jsou uložena v souboru statni_sprava.sta. Bodový graf z Y proti X statni_sprava.sta 3v*12c Y = 9,3461-1,9704*x+0,2048*x^2; 0,95 Int.spol. 0 1 2 3 4 5 6 7 X 4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,0 8,5 Y