Cvičení 4.: Jednoduchá lineární regrese Příklad 1.: U sedmi náhodně vybraných strojů v určitém podniku se zjišťovalo stáří stroje v letech (proměnná X) a týdenní náklady v Kč na údržbu stroje (proměnná Y). Data: (1,35), (1,52), (3,81), (3,105), (5,100), (6,125), (7, 120) Data znázorněte graficky. Vyzkoušejte následující čtyři modely: y = β[0] + β[1] x, y = β[0] + β[1] √x, y = β[0] + β[1] log[10] x, y = β[0] + β[1] 1/x. Vyberte ten model, který poskytuje nejvyšší index determinace. Určete regresní odhad týdenních nákladů pro stroj starý čtyři roky. Řešení: Nejprve data znázorníme graficky: Datový soubor s proměnnými X a Y doplníme o proměnné SQRTX, LOGX a INVX. Hodnoty proměnné SQRTX resp. LOGX resp. INVX získáme tak, že do Dlouhého jména napíšeme =sqrt(x) resp. =Log10(x) resp. =1/x. Regresní analýzu provedeme tak, že roli nezávisle proměnné bude hrát proměnná X, pak SQRTX, LOGX a nakonec INVX. Model s proměnnou X: Model s proměnnou SQRTX: Model s proměnnou LOGX: Model s proměnnou INVX Vidíme, že nejvyšší index determinace poskytuje model s proměnnou LOGX: ID^2 = 90,9%. Má také nejmenší směrodatnou chybu odhadu. Určíme regresní odhad týdenních nákladů pro stroj starý 4 roky v modelu s nezávisle proměnnou LOGX. Nejprve vypočteme log(4) = 0,602 Pro výpočet predikované hodnoty zvolíme Rezidua/předpoklady/předpovědi Předpovědi závisle proměnné X: 0,602 OK. Ve výstupní tabulce je hledaná hodnota označena jako Předpověď. Bodový odhad je 100,77 Kč. Vidíme, že s pravděpodobností aspoň 0,95 budou týdenní náklady na údržbu stroje starého 4 roky činit minimálně 88,93 Kč a maximálně 112,62 Kč. Nakonec znázorníme data se všemi čtyřmi regresními křivkami. K původnímu datovému souboru s proměnnými X,Y přidáme 4 nové proměnné PREDIKCE1, …, PREDIKCE4. Do Dlouhých jmen těchto proměnných napíšeme příslušné regresní rovnice, tj. =39,44444+13,14957*x =-0,4776+48,55972*sqrtx =44,64571+93,23472*logx =126,6192-84,4832*invx Obrázek vytvoříme pomocí vícenásobného bodového grafu. Příklad 2.: V regresním modelu paraboly, který znázorňuje závislost spotřeby benzínu na rychlosti automobilu Škoda 120 (datový soubor spotreba_benzinu.sta): a) Určete 95 % intervaly spolehlivosti pro regresní parametry. Ve výstupní tabulce výsledků regrese přidáme za proměnnou Úroveň p dvě nové proměnné dm (pro dolní meze 95% intervalů spolehlivosti pro regresní parametry) a hm (pro horní meze 95% intervalů spolehlivosti pro regresní parametry). Do Dlouhého jména proměnné dm resp. hm napíšeme: =v3-v4*VStudent(0,975;5) resp. =v3+v4*VStudent(0,975;5) Vidíme, že 7,320815 < β[0] < 12,18276 s pravděpodobností aspoň 0,95, -0,21948 < β[1] < -0,08159 s pravděpodobností aspoň 0,95, 0,000788 < β[2] < 0,0017 s pravděpodobností aspoň 0,95 b) Na hladině významnosti 0,05 proveďte celkový F-test. Testovou statistiku F-testu a odpovídající p-hodnotu najdeme v záhlaví výstupní tabulky regrese. Zde F = 76,41, p-hodnota < 0,00018, tedy na hladině významnosti 0,05 zamítáme hypotézu o nevýznamnosti modelu jako celku. (Výsledky F-testu jsou rovněž uvedeny v tabulce ANOVA.) c) Na hladině významnosti 0,05 proveďte dílčí t-testy a vypočtěte relativní chyby odhadů regresních parametrů. Výsledky dílčích t-testů jsou uvedeny ve výstupní tabulce regrese. Testová statistika pro test hypotézy H[0]: β[0] = 0 je 10,31183, p-hodnota je 0,000148. Hypotézu o nevýznamnosti parametru β[0 ]tedy zamítáme na hladině významnosti 0,05. Testová statistika pro test hypotézy H[0]: β[1] = 0 je -5,61264, p-hodnota je 0,002483. Hypotézu o nevýznamnosti parametru β[1 ]tedy zamítáme na hladině významnosti 0,05. Testová statistika pro test hypotézy H[0]: β[2] = 0 je 7,01912, p-hodnota je 0,000905. Hypotézu o nevýznamnosti parametru β[2 ]tedy zamítáme na hladině významnosti 0,05. K upravené výstupní tabulce s mezemi intervalů spolehlivosti přidáme proměnnou chyba. Do jejího Dlouhého jména napíšeme =100*abs(0,5*(hm-dm)/v3) Vidíme, že chyby odhadů jsou velké, v řádu desítek procent. d) Určete regresní odhad spotřeby benzínu při rychlosti 80 km/h. Pro výpočet predikované hodnoty zvolíme Rezidua/předpoklady/předpovědi - Předpovědi závisle proměnné X: 80, Xkv 6400 OK. Ve výstupní tabulce je hledaná hodnota označena jako Předpověď: 5,6708 e) Vypočtěte střední absolutní procentuální chybu predikce (MAPE) Ve výsledcích Vícenásobné regrese zvolíme záložku Rezidua/předpoklady/předpovědi – Reziduální analýza – Uložit – Uložit rezidua a předpovědi – Vybrat X, Y – OK. Ve vzniklé tabulce odstraníme proměnné 5 – 10, přidáme proměnnou chyby a do jejího Dlouhého jména napíšeme =100*abs(v4/v2) Pak spočteme průměr této proměnné a zjistíme, že MAPE = 2,15%.