Cvičení 9.: Jednoduchá lineární regrese Vzorový příklad: Po dobu 14 dnů byl u stánku se zmrzlinou zjišťován prodej kopečků zmrzliny (veličina Y – počet kopečků prodaných za den) v závislosti na průměrné denní teplotě (veličina Y – ve stupních Celsia). X 20 19 12 10 9 22 23 19 22 12 13 14 15 17 Y 200 218 141 99 85 210 211 170 200 110 131 141 152 166 a) Orientačně ověřte předpoklad, že data pocházejí z dvourozměrného normálního rozložení. Vypočtěte výběrový koeficient korelace mezi X a Y, interpretujte jeho hodnotu a na hladině významnosti 0,05 testujte hypotézu, že X a Y jsou nezávislé náhodné veličiny. Načteme datový soubor prodej_zmrzliny.sta se dvěma proměnnými X a Y a 14 případy: Zobrazíme dvourozměrný tečkový diagram s proloženou elipsou 95% konstantní hustoty pravděpodobnosti, s jehož pomocí posoudíme dvourozměrnou normalitu dat: Grafy – Bodové grafy – vypneme Typ proložení – Proměnné X, Y - OK . Na záložce Detaily vybereme Elipsa Normální – OK. Ve vzniklém dvourozměrném tečkovém diagramu změníme rozsah zobrazených hodnot na vodorovné a svislé ose, abychom viděli celou elipsu Bodový graf z Y proti X prodej_zmrzliny.sta 2v*14c 0 5 10 15 20 25 30 35 X 20 40 60 80 100 120 140 160 180 200 220 240 260 280 300 Y Ze vzhledu diagramu je patrné, že předpoklad dvourozměrné normality je oprávněný a že mezi teplotou a prodejem zmrzliny existuje vcelku silná přímá lineární závislost. Testování hypotézy o nezávislosti: Statistika – Základní statistiky /Tabulky - Korelační matice – OK – 2 seznamy proměnných X, Y, OK. Na záložce Možnosti zaškrtneme Zobrazit detailní tabulku výsledků – Souhrn. Korelace (prodej_zmrzliny.sta) Označ. korelace jsou významné na hlad. p < ,05000 (Celé případy vynechány u ChD) Prom. X & prom. Y Průměr Sm.Odch. r(X,Y) r2 t p N Konst. záv.: Y Směr. záv: Y Konst. záv.: X Směrnic záv.: X X Y 16,2143 4,69334 159,5714 44,09032 0,954717 0,911484 11,11612 0,000000 14 14,14842 8,968820 -0,002646 0,101628 Ve výstupní tabulce najdeme hodnotu výběrového korelačního koeficientu R12 (r = 0,954717, tzn. že mezi X a Y existuje velmi silná přímá lineární závislost), realizaci testové statistiky t = 11,11612 a p-hodnotu pro test hypotézy o nezávislosti (p je velmi blízké 0, H0 tedy zamítáme na hladině významnosti 0,05). b) Předpokládejte, že závislost prodeje zmrzlina na teplotě lze vystihnout regresní přímkou. Vypočtěte odhady regresních parametrů a napište rovnici regresní přímky. Interpretujte parametry regresní přímky. Statistiky – Vícerozměrná regrese – Závisle proměnná Y, nezávisle proměnná X - OK – OK – Výpočet: Výsledky regrese. Výsledky regrese se závislou proměnnou : Y (prodej_zmrzliny.sta) R= ,95471650 R2= ,91148360 Upravené R2= ,90410723 F(1,12)=123,57 p<,00000 Směrod. chyba odhadu : 13,653 N=14 b* Sm.chyba z b* b Sm.chyba z b t(12) p-hodn. Abs.člen X 14,14842 13,58155 1,04174 0,318067 0,954717 0,085886 8,96882 0,80683 11,11612 0,000000 Ve výstupní tabulce najdeme koeficient b0 ve sloupci B na řádku označeném Abs. člen, koeficient b1 ve sloupci B na řádku označeném X. Rovnice regresní přímky: y = 14,14842 + 8,96882 x. Znamená to, že při nulové teplotě by se prodalo 14,15 kopečků zmrzliny při zvýšení teploty o stupeň by se prodej zvedlo o 9 kopečků. c) Najděte odhad rozptylu, vypočtěte index determinace a interpretujte ho. Vrátíme se do Výsledky – vícenásobná regrese – Detailní výsledky – ANOVA. Analýza rozptylu (prodej_zmrzliny.sta) Efekt Součet čtverců sv Průměr čtverců F p-hodn. Regres. Rezid. Celk. 23034,49 1 23034,49 123,5681 0,000000 2236,94 12 186,41 25271,43 Odhad rozptylu najdeme na řádku Rezid., ve sloupci Průměr čtverců, tedy s2 = 186,41. Index determinace je uveden v záhlaví původní výstupní tabulky pod označením R2. V našem případě ID2 = 0,9115, tedy variabilita prodeje zmrzliny je z 91,15 % vysvětlena teplotou. d) Najděte 95% intervaly spolehlivosti pro regresní parametry. Ve výstupní tabulce výsledků regrese přidáme za proměnnou Úroveň p dvě nové proměnné dm (pro dolní meze 95% intervalů spolehlivosti pro regresní parametry) a hm (pro horní meze 95% intervalů spolehlivosti pro regresní parametry). Do Dlouhého jména proměnné dm resp. hm napíšeme: =v3-v4*VStudent(0,975;12) resp. =v3+v4*VStudent(0,975;12) Výsledky regrese se závislou proměnnou : Y (prodej_zmrzliny.sta) R= ,95471650 R2= ,91148360 Upravené R2= ,90410723 F(1,12)=123,57 p<,00000 Směrod. chyba odhadu : 13,653 N=14 b* Sm.chyba z b* b Sm.chyba z b t(12) p-hodn. dm =v3-v4*V hm =v3+v4*V Abs.člen X 14,14842 13,58155 1,04174 0,318067 -15,443231 43,7400634 0,954717 0,085886 8,96882 0,80683 11,11612 0,000000 7,2108882 10,7267521 Vidíme, že -15,44 < β0 < 43,74 s pravděpodobností aspoň 0,95 a 7,21 < β1 < 10,73 s pravděpodobností aspoň 0,95. e) Na hladině významnosti 0,05 proveďte celkový F-test. Testovou statistiku F-testu a odpovídající p-hodnotu najdeme v záhlaví výstupní tabulky regrese. Zde F = 123,57, p-hodnota < 0,0000, tedy na hladině významnosti 0,05 zamítáme hypotézu o nevýznamnosti modelu jako celku. (Výsledky F-testu jsou rovněž uvedeny v tabulce ANOVA.) f) Na hladině významnosti 0,05 proveďte dílčí t-testy Výsledky dílčích t-testů jsou uvedeny ve výstupní tabulce regrese. Výsledky regrese se závislou proměnnou : Y (prodej_zmrzliny.sta) R= ,95471650 R2= ,91148360 Upravené R2= ,90410723 F(1,12)=123,57 p<,00000 Směrod. chyba odhadu : 13,653 N=14 b* Sm.chyba z b* b Sm.chyba z b t(12) p-hodn. Abs.člen X 14,14842 13,58155 1,04174 0,318067 0,954717 0,085886 8,96882 0,80683 11,11612 0,000000 Testová statistika pro test hypotézy H0: β0 = 0 je 1,04174, p-hodnota je 0,318067. Hypotézu o nevýznamnosti úseku regresní přímky tedy nezamítáme na hladině významnosti 0,05. Testová statistika pro test hypotézy H0: β1 = 0 je 11,11612, p-hodnota je 0,000000. Hypotézu o nevýznamnosti směrnice regresní přímky tedy zamítáme na hladině významnosti 0,05. g) Vypočtěte regresní odhad počtu prodaných kopečků zmrzliny při teplotě 16°C. Pro výpočet predikované hodnoty zvolíme Rezidua/předpoklady/předpovědi Předpovědi závisle proměnné X: 16 OK. Ve výstupní tabulce je hledaná hodnota označena jako Předpověď. Předpovězené hodnoty (prodej_zmrzliny.sta) proměnné: Y Proměnná b-váha Hodnota b-váha * Hodnot X Abs. člen Předpověď -95,0%LS +95,0%LS 8,968820 16,00000 143,5011 14,1484 157,6495 149,6902 165,6089 Při teplotě 16°C je predikovaná hodnota prodeje 157,65 kopečků. h) Nakreslete dvourozměrný tečkový diagram s proloženou regresní přímkou a 95% pásem spolehlivosti a 95% predikčním pásem. Grafy – Bodové grafy – ponecháme Typ proložení: Lineární – Proměnné X, Y – OK – zapneme Regresní pásy – Spolehlivost - OK. Ve vytvořeném grafu 2x klikneme na jeho pozadí, z nabídky Spojnice vybereme Regresní pásy – Přidat nový pár pásů - zvolíme Typ Predikční – změníme barvu z červené na modrou - OK. Bodový graf z Y proti X prodej_zmrzliny.sta 2v*14c Y = 14,1484+8,9688*x; 0,95 Int.spol.; 0,95 Int.před. 8 10 12 14 16 18 20 22 24 X 60 80 100 120 140 160 180 200 220 240 Y i) Vypočtěte střední absolutní procentuální chybu predikce (MAPE) Ve výsledcích Vícenásobné regrese zvolíme záložku Rezidua / předpoklady / předpovědi – Reziduální analýza – Uložit – Uložit rezidua a předpovědi – Vybrat vše – OK. Ve vzniklé tabulce odstraníme proměnné 5 – 10, přidáme proměnnou chyby a do jejího Dlouhého jména napíšeme =100*abs(v4/v2) Pak spočteme průměr této proměnné a zjistíme, že MAPE = 5,9 %. j) Proveďte analýzu reziduí. Posouzení nezávislosti reziduí pomocí Durbinovy – Watsonovy statistiky: Statistiky – Vícenásobná regrese – proměnná Závislá: y, nezávislá x – OK – na záložce Residua/předpoklady/předpovědi vybereme Reziduální analýza - Detaily – Durbin-Watsonova statistika: Durbin-Watsonovo d (prodej_zmrzliny.sta) a sériové korelace reziduí Durbin- Watson.d Sériové korelace Odhad 0,835657 0,572812 Hodnota této statistiky je velmi vzdálená od 2, svědčí o tom, že rezidua jsou kladně korelovaná. Posouzení homoskedasticity reziduí Reziduální analýza – Bodové grafy – Předpovědi vs. rezidua Předpovězené hodnoty vs. rezidua Závislá proměnná : Y 80 100 120 140 160 180 200 220 240 Předpov. hodnoty -20 -10 0 10 20 30 40 Rezidua 0,95 Int.spol. Rezidua jsou kolem nuly rozmístěna náhodně. Testování nulovosti střední hodnoty reziduí: Pro proměnnou Rezidua z tabulky uložené pomocí Reziduální analýzy provedeme jednovýběrový t-test: Statistiky - Základní statistiky/tabulky – t-test, samost. vzorek – OK – proměnné Rezidua – OK. Test průměrů vůči referenční konstantě (hodnotě) (Tabulka55) Proměnná Průměr Sm.odch. N Sm.chyba Referenční konstanta t SV p Rezidua -0,000002 13,11762 14 3,505832 0,00 -0,000000 13 1,000000 Na hladině významnosti 0,05 nezamítáme hypotézu, že střední hodnota reziduí je 0. Posouzení normality reziduí: Přepneme se na datovou tabulku, v níž jsou uložena rezidua. Pomocí normálního pravděpodobnostního grafu, který vykreslíme společně s výsledky S-W testu normality, získáme graf: Na záložce Pravděpodobnostní grafy zvolíme Normální pravděpodobnostní graf reziduí: Normální p-graf z Rezidua Tabulka55 5v*14c -20 -10 0 10 20 30 40 Pozorovaný kvantil -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 Oček.normál.hodnoty Rezidua: SW-W = 0,8654; p = 0,0362 Rezidua se odchylují od ideální přímky, p-hodnota S-W testu je 0,0362, tedy rezidua se neřídí normálním rozložení. V neprospěch jednoduchého regresního modelu hovoří nízká hodnota D-W statistiky a porušení normality reziduí. Lze to vysvětlit tím, že na prodej zmrzliny mají vliv i jiné faktory než jenom průměrná denní teplota. Příklad k samostatnému řešení: V rámci psychologického výzkumu byly u 731 dětí ze základních škol zjišťovány následující údaje: Pohlaví (1 – chlapec, 2 – dívka) – proměnná SEX IQ celkové – proměnná IQ_CELK Třída (1. až 9.) – proměnná TRIDA Vzdělání matky (1 – základní, 2 – SŠ, 3 – VŠ) – proměnná VM Vzdělání otce (1 – základní, 2 – SŠ, 3 – VŠ) – proměnná VO Sídlo (1 – město, 2 – venkov) – proměnná SIDLO Prospěch (průměrný prospěch na pololetním vysvědčení) – Proměnná PROSPECH Údaje jsou uloženy v souboru IQ_prospech.sta. Pro žáky z 8. třídy pomocí lineární regrese s nezávisle proměnnou IQ_CELK vysvětlete hodnoty proměnné PROSPECH. a) Dvourozměrnou normalitu dat orientačně posuďte dvourozměrným tečkovým diagramem s 95% elipsou konstantní hustoty pravděpodobnosti. Bodový graf z PROSPECH proti IQ_CELK IQ_prospech.sta 7v*731c Zahrnout jestliže: trida=8 60 70 80 90 100 110 120 130 140 IQ_CELK 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 PROSPECH b) Vypočtěte odhady regresních parametrů, napište rovnici regresní přímky a interpretujte její parametry. Výsledky regrese se závislou proměnnou : PROSPECH (IQ_prospech.sta) R= ,80710847 R2= ,65142408 Upravené R2= ,64496897 F(1,54)=100,92 p<,00000 Směrod. chyba odhadu : ,35806 Zhrnout podmínku: trida=8 N=56 b* Sm.chyba z b* b Sm.chyba z b t(54) p-hodn. Abs.člen IQ_CELK 5,287439 0,351073 15,0608 0,000000 -0,807108 0,080344 -0,034447 0,003429 -10,0457 0,000000 c) Do dvourozměrného tečkového diagramu zakreslete regresní přímku s 95% pásem spolehlivosti a 95% predikčním pásem. PROSPECH vs. IQ_CELK PROSPECH = 5,2874 - ,0344 * IQ_CELK Korelace : r = -,8071 Zhrnout podmínku: trida=8 60 70 80 90 100 110 120 130 IQ_CELK 0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,4 2,6 2,8 3,0 3,2 3,4 3,6 PROSPECH 0,95 Int.spol. d) Najděte odhad rozptylu, proveďte celkový F-test a rovněž dílčí t-testy o významnosti regresních parametrů. (F-test je významný, oba dílčí t-testy rovněž, odhad rozptylu je 0,1282) e) Najděte 95% intervaly spolehlivosti pro regresní parametry. 4,5836 < β0 < 5,9913 s pravděpodobností aspoň 0,95, -0,0413 < β1 < -0,0276 s pravděpodobností aspoň 0,95. f) Vypočtěte index determinace a interpretujte ho. Vypočtěte rovněž střední absolutní procentuální chybu predikce (MAPE) (ID2 = 65 %, MAPE = 17,8 %). g) Proveďte analýzu reziduí.