Cvičení 7.: Jednoduchá lineární regrese Vzorový příklad: U sedmi náhodně vybraných strojů v určitém podniku se zjišťovalo stáří stroje v letech (proměnná X) a týdenní náklady v Kč na údržbu stroje (proměnná Y). Data: (1,35), (1,52), (3,81), (3,105), (5,100), (6,125), (7, 120) Data znázorněte graficky. Vyzkoušejte následující čtyři modely: y = β[0] + β[1] x, y = β[0] + β[1] √x, y = β[0] + β[1] log[10] x, y = β[0] + β[1] 1/x. Vyberte ten model, který poskytuje nejvyšší index determinace. Určete regresní odhad týdenních nákladů pro stroj starý čtyři roky. Řešení: Nejprve data znázorníme graficky: Datový soubor s proměnnými X a Y doplníme o proměnné SQRTX, LOGX a INVX. Hodnoty proměnné SQRTX resp. LOGX resp. INVX získáme tak, že do Dlouhého jména napíšeme =sqrt(x) resp. =Log10(x) resp. =1/x. Regresní analýzu provedeme tak, že roli nezávisle proměnné bude hrát proměnná X, pak SQRTX, LOGX a nakonec INVX. Model s proměnnou X: Model s proměnnou SQRTX: Model s proměnnou LOGX: Model s proměnnou INVX Vidíme, že nejvyšší index determinace poskytuje model s proměnnou LOGX: ID^2 = 90,9%. Má také nejmenší směrodatnou chybu odhadu. Určíme regresní odhad týdenních nákladů pro stroj starý 4 roky v modelu s nezávisle proměnnou LOGX. Nejprve vypočteme log(4) = 0,602 Pro výpočet predikované hodnoty zvolíme Rezidua/předpoklady/předpovědi Předpovědi závisle proměnné X: 0,602 OK. Ve výstupní tabulce je hledaná hodnota označena jako Předpověď. Bodový odhad je 100,77 Kč. Vidíme, že s pravděpodobností aspoň 0,95 budou týdenní náklady na údržbu stroje starého 4 roky činit minimálně 88,93 Kč a maximálně 112,62 Kč. Nakonec znázorníme data se všemi čtyřmi regresními křivkami. K původnímu datovému souboru s proměnnými X,Y přidáme 4 nové proměnné PREDIKCE1, …, PREDIKCE4. Do Dlouhých jmen těchto proměnných napíšeme příslušné regresní rovnice, tj. =39,44444+13,14957*x =-0,4776+48,55972*sqrtx =44,64571+93,23472*logx =126,6192-84,4832*invx Obrázek vytvoříme pomocí vícenásobného bodového grafu. Příklad k samostatnému řešení V r. 2010 bylo u studentů MU provedeno dotazníkové šetření, které se týkalo údajů o mobilech. Na dotazník odpovědělo 67 respondentů. Dotazník: 1. Jaká je značka Vašeho mobilního telefonu? a) LG b) Nokia c) Samsung d) Sony Ericsson e) jiná f) nemám mobilní telefon 2. Jaký operační systém Váš mobilní telefon používá? a) Android b) Symbian c) Windows Mobile d) jiný e) žádný 3. Na pětibodové stupnici vyjádřete spokojenost s funkcemi svého mobilu a) naprostá spokojenost b) spokojenost c) neutrální postoj d) nespokojenost e) naprostá nespokojenost 4. Máte v úmyslu si do konce roku 2010 pořídit jiný mobil? a) ano b) ne 5. Jaká je barva Vašeho mobilu? a) bílá b) černá c) stříbrná d) jiná 6. Uveďte hmotnost svého mobilu (v g) 7. Uveďte výšku svého mobilu (v mm) 8. Uveďte šířku svého mobilu (v mm) 9. Uveďte hloubku svého mobilu (v mm) 10. Jaké je Vaše pohlaví? a) muž b) žena Získaná data jsou uložena v souboru dotazník_mobily.sta. Modelujte závislost objemu mobilu na jeho hmotnosti pomocí regresní přímky. a) Vypočtěte odhady regresních parametrů, napište rovnici regresní přímky a interpretujte její parametry. Do dvourozměrného tečkového diagramu zakreslete regresní přímku s 95% pásem spolehlivosti a 95% predikčním pásem. b) Najděte odhad rozptylu, proveďte celkový F-test a rovněž dílčí t-testy o významnosti regresních parametrů.. c) Najděte 95% intervaly spolehlivosti pro regresní parametry a zjistěte relativní chyby odhadů regresních parametrů. d) Vypočtěte index determinace a interpretujte ho. Vypočtěte rovněž střední absolutní procentuální chybu predikce (MAPE). e) Proveďte analýzu reziduí.