Kapitola 9.: Jednoduchá lineární regresní analýza Cíl kapitoly Po prostudování této kapitoly budete umět - metodou nejmenších čtverců odhadnout parametry regresní funkce - konstruovat intervaly spolehlivosti pro regresní parametry - testovat hypotézy o regresních parametrech - pomocí různých kritérií posuzovat vhodnost zvolené regresní funkce Časová zátěž Na prostudování této kapitoly a splnění úkolů s ní spojených budete potřebovat asi 13 hodin studia. 9.1. Motivace Cílem regresní analýzy je popsat závislost hodnot náhodné veličiny Y na hodnotách veličiny X, která může být náhodná i nenáhodná. Přitom je zapotřebí vyřešit dva problémy: a) jaký typ funkce se použije k popisu dané závislosti; b) jak se stanoví konkrétní parametry daného typu funkce? ad a) Při určení typu funkce je třeba provést teoretický rozbor zkoumané závislosti. Můžeme např. zkoumat závislost ceny ojetého auta (veličina Y) na jeho stáří (veličina X). Je zřejmé, že s rostoucím stářím bude klesat cena, ale není jasné, zda lineárně, kvadraticky či dokonce ex- ponenciálně. Vždy se snažíme o to aby regresní model byl jednoduchý, tj. aby neobsahoval příliš mnoho parametrů. Připadá-li v úvahu více funkcí, posuzujeme jejich vhodnost pomocí různých kritérií ­ viz dále. Často však nemáme dostatek informací k provedení teoretického rozboru. Pak se snažíme odhadnout typ funkce pomocí dvourozměrného tečkového diagramu. Zde se omezíme na funkce, které závisejí lineárně na parametrech p10 ,,, K . Zvláštní pozornost budeme věnovat polynomiální funkci 1. stupně y = 0 + 1x. ad b) Odhady p10 b,,b,b K neznámých parametrů p10 ,,, K získáme na základě dvourozměrného datového souboru nn 11 yx yx KK metodou nejmenších čtverců, tj. z podmínky, aby součet čtverců odchylek zjištěných a odhadnutých hodnot byl minimální. 9.2. Klasický model lineární regrese 9.2.1. Popis modelu Nechť závislost náhodné veličiny Y na veličině X je vyjádřena modelem ( ) += p10 ,,,;xmY K , kde ( )p10 ,,,;xm K je deterministická složka modelu a je náhodná složka modelu. Je to náhodná odchylka od deterministické závislosti Y na X. Popisuje závislost vysvětlované veličiny na neznámých nebo nepozorovaných veličinách a popisuje i vliv náhody. Nelze ji funkčně vyjádřit. Jako kritérium kvality predikce závisle proměnné veličiny Y na nezávisle proměnné veličině X se obvykle volí střední kvadratická chyba predikce ( )[ ]( )2 p10 ,,,;xmYE - K . Lze dokázat, že střední kvadratická chyba predikce je minimální, když ( ) ( )xYE,,,;xm p10 = K , tj. závislost Y na X budeme modelovat pomocí podmíněné střední hodnoty neboli pomocí regresní funkce veličiny Y vzhledem k veličině X. Nadále předpokládáme, že regresní funkce lineárně závisí na neznámých regresních parametrech p10 ,,, K a známých funkcích ( ) ( )xf,,xf p1 K , které již neobsahují neznámé parametry, tj. ( ) ( )= = p 0j jjp10 xf,,,;xm K , přičemž ( ) 1xf0 . Regresní parametry p10 ,,, K lze interpretovat tak, že parametr j vyjadřuje průměrnou změnu hodnoty Y při růstu hodnoty funkce fj(x) o jednu jednotku za předpokladu, že hodnoty ostatních funkcí fk(x), k = 1, ..., p, jk , zůstanou nezměněné. Pořídíme n dvojic pozorování ( ) ( )nn11 y,x,,y,x K , tj. dvourozměrný datový soubor nn 11 yx yx KK . Pro i = 1, ..., n platí: ( ) ip10ii ,,,;xmy += K . O náhodných odchylkách n1 ,, K předpokládáme, že a) ( ) 0E i = (odchylky nejsou systematické) b) ( ) 0D 2 i >= (všechna pozorování jsou prováděna s touž přesností ­ jsou homoskedas- tická) c) ( ) 0,C ji = pro ji (mezi náhodnými odchylkami neexistuje žádný lineární vztah) d) i ~ ( )2 ,0N . V tomto případě hovoříme o klasickém modelu lineární regrese. 9.2.2. Označení p10 b,,b,b K - odhady regresních parametrů p10 ,,, K (nejčastěji je získáme metodou nejmenších čtverců, tj. z podmínky, že výraz ( ) 2 n 1i p 0j ijji xfy = = - nabývá svého minima pro j = bj, j = 0, 1, ..., p) ( )p0 b,,b;xm^ K - empirická regresní funkce ( ) ( )= == p 0j ijjp0ii xfbb,,b;xm^y^ K - regresní odhad i-té hodnoty veličiny Y (i-tá predikovaná hodnota veličiny Y) iii y^ye -= - i-té reziduum ( )= -= n 1i 2 iiE y^yS - reziduální součet čtverců 1pn S s E2 -- = - odhad rozptylu 2 ( )= -= n 1i 2 2iR my^S - regresní součet čtverců (přitom = = n 1i i2 y n 1 m ) ( )= -= n 1i 2 2iT myS - celkový součet čtverců Pro součty čtverců platí: ERT SSS += . 9.2.3. Maticový zápis klasického modelu lineární regrese Xy += , kde ( )' n1 y,,y K=y - vektor pozorování závisle proměnné veličiny Y, ( ) ( ) ( ) ( ) = npn1 1p11 xfxf1 xfxf1 K KKKK K X - regresní matice (předpokládáme, že h(X) = p+1 < n) ( )' p10 ,,, = K - vektor regresních parametrů, ( )' n1 ,, = K - vektor náhodných odchylek. Podmínky (a) až (d) lze zkráceně zapsat ve tvaru ~ Nn(0, 2 I). Např. pro regresní přímku ++= xy 10 má regresní matice tvar = n 1 x1 x1 MMX a vektor regresních parametrů je = 1 0 Maticově zapsaná metoda nejmenších čtverců vede na rovnice X'X = X'y ­ systém normálních rovnic, b = (X'X)-1 X' y ­ odhad vektoru získaný metodou nejmenších čtverců. Pro regresní přímku získáme řešením systému normálních rovnic odhady 2 1 12 1 s s b = a 1120 mbmb -= kde 12s je výběrová kovariance hodnot (xi, yi), i = 1, ..., n a 2 1s je výběrový rozptyl hodnot n1 x,,x K . Regresní přímku můžeme vyjádřit ve tvaru ( ) +-+= 12 1 12 2 mx s s my . y^ = Xb ­ vektor regresních odhadů (vektor predikce) e = y - y^ ­ vektor reziduí Vlastnosti odhadu b: - odhad b je lineární, neboť je vytvořen lineární kombinací pozorování y1, ..., yn s maticí vah ( ) '1' XXX - ; - odhad b je nestranný, neboť E(b) = ; - odhad b má varianční matici var b = 2 (X'X) -1 ; - odhad b ~ Np+1(, 2 (X'X)-1) vzhledem k platnosti podmínky (d); - pro odhad b platí Gaussova - Markovova věta: Odhad b = (X'X) -1 X'y je nejlepší nestranný lineární odhad vektoru . (Nejlepší v tom smyslu, že rozdíl varianční matice libovolného jiného nestranného odhadu vektoru a varianční matice odhadu b je matice pozitivně semidefi- nitní.) 9.2.4. Příklad U šesti obchodníků byla zjišťována poptávka po určitém druhu zboží loni (veličina X - v kusech) a letos (veličina Y - v kusech). číslo obchodníka 1 2 3 4 5 6 poptávka loni (X) 20 60 70 100 150 260 poptávka letos (Y) 50 60 60 120 230 320 Předpokládejte, že závislost letošní poptávky na loňské lze vystihnout regresní přímkou. Sestavte regresní matici, vypočtěte odhady regresních parametrů a napište rovnici regresní přímky. Interpretujte parametry regresní přímky. Řešení: Sestavíme regresní matici. = n 1 x1 x1 MMX , tedy X = 2601 1501 1001 701 601 201 . Podle vzorce ( ) yXXXb '1' = získáme odhady regresních parametrů. Nejprve vypočítáme matici X'X = 109000660 6606 a k ní inverzní matici (X'X)-1 = - - 000027,0003022,0 003022,0499084,0 . Dále získáme součin X'y = 138500 840 a nakonec vektor odhadů regresních parametrů: b = - - 000027,0003022,0 003022,0499084,0 . 138500 840 = 2665,1 6868,0 . Regresní přímka má tedy rovnici y = 0,6868 + 1,2665 x. Znamená to, že při nulové loňské poptávce by letošní poptávka činila 0,6868 kusů a při zvýšení loňské poptávky o 10 kusů by se letošní poptávka zvedla o 12,665 kusů. Výpočet pomocí systému STATISTICA Vytvoříme nový datový soubor se dvěma proměnnými X a Y a 6 případy: Statistiky ­ Vícerozměrná regrese ­ Závisle proměnná Y, nezávisle proměnná X - OK ­ OK Výpočet: Výsledky regrese. Výsledky regrese se závislou proměnnou : Y (Tabulka1) R= ,97197702 R2= ,94473932 Upravené R2= ,93092415 F(1,4)=68,384 p<,00117 Směrod. chyba odhadu : 29,219 N=6 Beta Sm.chyba beta B Sm.chyba B t(4) Úroveň p Abs.člen X 0,686813 20,64236 0,033272 0,975052 0,971977 0,117538 1,266484 0,15315 8,269474 0,001167 Ve výstupní tabulce najdeme koeficient b0 ve sloupci B na řádku označeném Abs. člen, koeficient b1 ve sloupci B na řádku označeném X. Rovnice regresní přímky: y = 0,686813 + 1,266484 x. Znamená to, že při nulové loňské poptávce by letošní poptávka činila 0,6868 kusů a při zvýšení loňské poptávky o 10 kusů by se letošní poptávka zvedla o 12,665 kusů. 9.2.5. Testování významnosti modelu jako celku (celkový F-test) Na hladině významnosti testujeme H0: ( ) ( ) = 0,,0,, p1 KK proti H1: ( ) ( ) 0,,0,, p1 KK . (Nulová hypotéza říká, že dostačující je model konstanty.) Testová statistika: ( )1pnS pS F E R -- = má rozložení F(p, n-p-1), pokud H0 platí. Kritický obor: ( ) )--= - ,1pn,pFW 1 . Jestliže WF , pak H0 zamítáme na hladině významnosti . Výsledky F-testu zapisujeme do tabulky analýzy rozptylu: zdroj variability součet čtverců stupně volnosti podíl statistika F model SR p SR/p ( )1pnS pS E R -- reziduální SE n-p-1 SE/(n-p-1) celkový ST n-1 - Z této tabulky také můžeme snadno získat odhad rozptylu 2 : 1pn S s E2 -- = . 9.2.6. Testování významnosti regresních parametrů (dílčí t-testy) Na hladině významnosti pro j = 0,1, ..., p testujeme hypotézu H0: j = 0 proti H1: j 0. Testová statistika: jb j j s b T = má rozložení t(n-p-1), pokud H0 platí. Kritický obor: ( ) ( ) )( ------= -- ,1pnt1pnt,W 2/12/1 . Pokud WTj , H0 zamítáme na hladině významnosti . Upozornění: Test významnosti směrnice regresní přímky (tj. test H0: 1 = 0 proti H1: 1 0) je ekvivalentní testování hypotézy o nekorelovanosti veličin X, Y (tj. testu H0: = 0 proti H1: 0). Jestliže koeficient korelace veličin X, Y je blízký 0, nemá smysl počítat parametry regresní přímky. 9.2.7. Příklad Pro zadání z příkladu 9.2.4. najděte odhad rozptylu, proveďte celkový F-test, a proveďte rovněž dílčí t-testy. Řešení: Nejprve vypočteme vektor regresních odhadů proměnné Y (vektor predikce): y^ = Xb = = 97,329 66,190 34,127 34,89 68,76 02,26 2665,1 6868,0 2601 1501 1001 701 601 201 . Stanovíme vektor reziduí: yye ^-= = - - - - = - 97,9 34,39 34,7 34,29 68,16 98,23 97,329 66,190 34,127 34,89 68,76 02,26 320 230 120 60 60 50 . Pomocí vektoru reziduí vypočteme reziduální součet čtverců: SE = e'e = (23,98 -16,68 -29,34 -7,34 39,34 -9,97). - - - - 97,9 34,39 34,7 34,29 68,16 98,23 = 3451,11. Odhad rozptylu: 78,853 116 11,3415 1pn S s E2 = -- = -- = . Dále potřebujeme celkový součet čtverců ST = (y ­ m2)'(y ­ m2), kde m2 je sloupcový vektor typu nx1 složený z průměru m2 závisle proměnné veličiny Y. V našem případě je m2 = 140. Po dosazení do vzorce pro celkový součet čtverců tedy dosta- neme ST =(50-140, 60-140, 60-140, 120-140, 230-140, 320-140) - - - - - - 140320 140230 140120 14060 14060 14050 = 61800. (Celkový součet čtverců lze získat také tak, že výběrový rozptyl veličiny Y vynásobíme n-1: ST = 5.12360 = 61800.) Regresní součet čtverců pak je: SR = ST ­ SE = 61800 ­ 3451,11 = 58348,89. Provedení celkového F-testu: na hladině významnosti = 0,05 testujeme H0: 1 = 0 proti H1: 1 0. Testová statistika 384,68 )116/(11,3415 1/89,58348 )1pn/(S p/S F E R = -- = -- = , kritický obor: ( ) ) ( ) ) )==--= - ,7086,7,4,1F,1pn,pFW 95,01 . Protože se testová statistika realizuje v kritickém oboru, hypotézu o nevýznamnosti regresního parametru 1 (tj. směrnice regresní přímky) zamítáme na hladině významnosti 0,05. Výsledky testování významnosti modelu jako celku zapíšeme do tabulky ANOVA: zdroj variability součet čtverců stupně volnosti podíl statistika F model SR = 58348,89 p = 1 SR/p=58348,89 68,384 reziduální SE = 3415,11 n-p-1 = 4 SE/(n-p-1)=853,78 celkový ST = 61800 n-1 = 5 - Provedení dílčích t-testů: Na hladině významnosti = 0,05 testujeme H0: 0 = 0 proti H1: 0 0. Testová statistika: 3327,0 6424,20 6868,0 s b t 0b 0 0 === , kritický obor: ( )( ( ) ) ( )( ( ) ) ( )--= =--=------= -- ,7764,27764,2, ,4t4t,,1pnt1pnt,W 975,0975,02/12/1 . Protože se testová statistika nerealizuje v kritickém oboru, hypotézu o nevýznamnosti regresního parametru 0 (tj. posunutí regresní přímky) nezamítáme na hladině významnosti 0,05. Ke stejnému výsledku dospějeme, podíváme-li se na 95% interval spolehlivosti pro 0. Vypočítali jsme, že -56,63 < 0 < 58 s pravděpodobností aspoň 0,95. Protože tento interval obsahuje 0, hypotézu H0: 0 = 0 nezamítáme na hladině významnosti 0,05. Na hladině významnosti = 0,05 testujeme H0: 1 = 0 proti H1: 1 0. Testová statistika: 27,8 1532,0 2665,1 s b t 1b 1 1 === , kritický obor: ( )( ( ) ) ( )( ( ) ) ( )--= =--=------= -- ,7764,27764,2, ,4t4t,,1pnt1pnt,W 975,0975,02/12/1 . Protože se testová statistika realizuje v kritickém oboru, hypotézu o nevýznamnosti regresního parametru 1 (tj. směrnice regresní přímky) zamítáme na hladině významnosti 0,05. Ke stejnému výsledku dospějeme, podíváme-li se na 95% interval spolehlivosti pro 1. Vypočítali jsme, že 0,841< 1 < 1,692 s pravděpodobností aspoň 0,95. Protože tento interval neobsahuje 0, hypotézu H0: 1 = 0 zamítáme na hladině významnosti 0,05. V případě modelu regresní přímky je dílčí t-test pro parametr 1 ekvivalentní s celkovým F- testem. Výpočet pomocí systému STATISTICA: Abychom získali odhad rozptylu, vrátíme se do Výsledky ­ vícenásobná regrese ­ Detailní výsledky ­ ANOVA. Analýza rozptylu (Tabulka1) Efekt Součet čtverců sv Průměr čtverců F Úroveň p Regres. Rezid. Celk. 58384,89 1 58384,89 68,38420 0,001167 3415,11 4 853,78 61800,00 Odhad rozptylu najdeme na řádku Rezid., ve sloupci Průměr čtverců, tedy s2 = 853,78. Testovou statistiku F-testu a odpovídající p-hodnotu najdeme v záhlaví výstupní tabulky re- grese: Výsledky regrese se závislou proměnnou : Y (Tabulka1) R= ,97197702 R2= ,94473932 Upravené R2= ,93092415 F(1,4)=68,384 p<,00117 Směrod. chyba odhadu : 29,219 N=6 Beta Sm.chyba beta B Sm.chyba B t(4) Úroveň p Abs.člen X 0,686813 20,64236 0,033272 0,975052 0,971977 0,117538 1,266484 0,15315 8,269474 0,001167 Zde F = 68,384, p-hodnota < 0,00117, tedy na hladině významnosti 0,05 zamítáme hypotézu o nevýznamnosti modelu jako celku. Výsledky F-testu jsou rovněž uvedeny v tabulce ANOVA. Výsledky dílčích t-testů jsou uvedeny ve výstupní tabulce regrese. Testová statistika pro test hypotézy H0: 0 = 0 je 0,033272, p-hodnota je 0,975052. Hypotézu o nevýznamnosti úseku regresní přímky tedy nezamítáme na hladině významnosti 0,05. Testová statistika pro test hypotézy H0: 1 = 0 je 8,269474, p-hodnota je 0,001167. Hypotézu o nevýznamnosti směrnice regresní přímky tedy zamítáme na hladině významnosti 0,05. 9.2.8. Intervaly spolehlivosti pro regresní parametry Označme vjj j-tý diagonální prvek matice (X'X)-1 a jjb vss j = tzv. směrodatnou chybu odhadu bj. Pro j = 0, 1, ..., p se statistika jb jj j s b T = řídí rozložením ( )1pnt -- , tedy 100(1- )% interval spolehlivosti pro j má meze: ( ) jb2/1j s1pntb -- - . (S intervaly spolehlivosti souvisí relativní chyby odhadů regresních parametrů. Získají se tak, že se vypočítá absolutní hodnota podílu poloviční šířky intervalu spolehlivosti a hodnoty odhadu. Relativní chyba odhadu by neměla přesáhnout 10%.) 9.2.9. Příklad Pro zadání z příkladu 9.2.4. najděte 95% intervaly spolehlivosti pro regresní parametry a zjistěte relativní chyby odhadů regresních parametrů. Řešení: Vypočteme směrodatné chyby odhadů regresních parametrů b0 a b1 podle vzorce jjb vss j = , j = 0, 1, kde vjj je j-tý diagonální prvek matice (X'X)-1 : (X'X)-1 = - - 000027,0003022,0 003022,0499084,0 Přitom si uvědomíme, že v00 = 0,499084, v11 = 0,000027, s2 = 853,78. 6424,20499084,078,853vss 00b0 === , 1532,0000027,078,853vss 11b1 === . Stanovíme meze 95% intervalů spolehlivosti pro regresní parametry 0 a 1. K tomu slouží vzorec ( ) jb2/1j s1pntb -- - , j = 0, 1. 95% interval spolehlivosti pro 0: ( ) 63,566424,207764,26868,0s4tbd 0b975,00 -=-=-= ( ) 586424,207764,26868,0s4tbh 0b975,00 =+=+= Znamená to, že -56,63 < 0 < 58 s pravděpodobností aspoň 0,95. Relativní chyba odhadu 0: ( ) %8342%100 6868,0 2/63,5658 = + 95% interval spolehlivosti pro 1: ( ) 841,01532,07764,22665,1s4tbd 1b975,01 =-=-= ( ) 692,11532,07764,22665,1s4tbh 1b975,01 =+=+= Znamená to, že 0,841< 1 < 1,692 s pravděpodobností aspoň 0,95. Relativní chyba odhadu 1: ( ) %6,33%100 2665,1 2/841,0692,1 = - . Výpočet pomocí systému STATISTICA: Ve výstupní tabulce výsledků regrese přidáme za proměnnou Úroveň p tři nové proměnné: dm (pro dolní meze 95% intervalů spolehlivosti pro regresní parametry), hm (pro horní meze 95% intervalů spolehlivosti pro regresní parametry) a chyba (pro relativní chyby odhadů regresních parametrů). Do Dlouhého jména proměnné dm napíšeme: =v3-v4*VStudent(0,975;4) Do Dlouhého jména proměnné hm napíšeme: =v3+v4*VStudent(0,975;4) Do Dlouhého jména proměnné chyba napíšeme: =100*abs(0,5*(hm-dm)/v3) Výsledky regrese se závislou proměnnou : Prom2 (Tabulka1) R= ,97197702 R2= ,94473932 Upravené R2= ,93092415 F(1,4)=68,384 p<,00117 Směrod. chyba odhadu : 29,219 N=6 Beta Sm.chyba beta B Sm.chyba B t(4) Úroveň p dm =v3-v4*V hm =v3+v4* chyba =100*abs Abs.člen Prom1 0,686813 20,64236 0,033272 0,975052 -56,6256 57,99918 8344,681 0,971977 0,117538 1,266484 0,15315 8,269474 0,001167 0,841266 1,691701 33,57463 Vidíme, že -56,63 < 0 < 58 s pravděpodobností aspoň 0,95 a 0,841< 1 < 1,692 s pravděpodobností aspoň 0,95. Relativní chyba odhadu parametru 0 činí 8344,68% a relativní chyba odhadu parametru 1 činí 33,57%. V obou případech jsou chyby příliš velké. 9.2.10. Kritéria pro posouzení vhodnosti zvolené regresní funkce a) Index determinace Číslo T E T R2 S S 1 S S ID -== se nazývá index determinace. Vlastnosti indexu determinace: * nabývá hodnot z intervalu 1,0 ; * udává, jakou část variability závisle proměnné veličiny Y lze vysvětlit zvolenou regresní funkcí (často se vyjadřuje v %); * je zároveň mírou těsnosti závislosti veličiny Y na veličině X; * je to obecná míra, nezávislá na typu regresní funkce (lze použít i pro měření nelineární závislosti); * je to míra, která nebere v úvahu počet parametrů regresní funkce. U regresních funkcí s více parametry vychází tedy obvykle vyšší než u regresních funkcí s méně paramet- ry; * tato míra není symetrická. Za vhodnější se považuje ta regresní funkce, pro niž je index determinace vyšší. V případě, že porovnáváme několik modelů s rozdílným počtem parametrů, používáme adjustovaný index determinace: ( ) 1pn pID1 IDID 2 22 adj -- -= . Malá hodnota indexu determinace nemusí znamenat, že mezi veličinami X, Y je nízká závislost, může signalizovat nevhodnou volbu typu regresní funkce. V případě regresní přímky je index determinace roven kvadrátu koeficientu korelace: 2 12 2 rID = b) Testové kritérium F Za vhodnější je považována ta regresní funkce, u níž je hodnota testové statistiky ( )1pnS pS F E R -- = pro test významnosti modelu jako celku vyšší. c) Reziduální součet čtverců a reziduální rozptyl Reziduální součet čtverců: ( )= -= n 1i 2 iiE y^yS Za vhodnější považujeme funkci, která má reziduální součet čtverců nižší. Reziduální součet čtverců lze použít pouze tehdy, když srovnáváme funkce se stejným počtem parametrů. Reziduální rozptyl: 1pn S s E2 -- = Za vhodnější považujeme tu funkci, která má reziduální rozptyl nižší. Reziduální rozptyl můžeme použít vždy, bez ohledu na to, kolik parametrů mají srovnávané regresní funkce. d) Střední absolutní procentuální chyba predikce (MAPE) = - = n 1i i ii y y^y n 1 MAPE Za vhodnější považujeme tu funkci, která má MAPE nižší. e) Analýza reziduí Rezidua považujeme za odhady náhodných odchylek a klademe na ně stejné požadavky jako na náhodné odchylky, tj. mají být nezávislá, normálně rozložená s nulovou střední hodnotou a konstantním rozptylem (tj. jsou homoskedastická). Nezávislost reziduí (autokorelaci) posuzujeme např. pomocí Durbinovy ­ Watsonovy statistiky, která by se měla nacházet v intervalu 6,2;4,1 (to je ovšem pouze orientační vodítko, korektní postup spočívá v porovnání této statistiky s tabelovanou kritickou hodnotou). Normalitu reziduí ověřujeme pomocí testů normality (např. Lilieforsovou variantou Kolmogorovova ­ Smirnovova testu nebo Shapirovým ­ Wilksovým testem) či graficky pomocí N-P plotu. Testování nulovosti střední hodnoty reziduí provádíme pomocí jednovýběrového t-testu. Homoskedasticitu reziduí posuzujeme pomocí grafu závislosti reziduí na predikovaných hodnotách. V tomto grafu by rezidua měla být rovnoměrně rozptýlena. 9.2.11. Příklad Pro zadání z příkladu 9.2.4. vypočtěte index determinace a interpretujte ho. Vypočtěte rovněž střední absolutní procentuální chybu predikce a najděte regresní odhad letošní poptávky při loňské poptávce 110 kusů. Proveďte analýzu reziduí. Nakreslete regresní přímku do dvourozměrného tečkového diagramu. Řešení: Index determinace se počítá podle vzorce T R2 S S ID = .V příkladu 9.2.7. bylo vypočteno, že regresní součet čtverců 89,58348SR = a celkový součet čtverců 61800ST = . Index determinace: 9442,0 61800 89,58348 ID2 == . Znamená to, že variabilita hodnot závisle proměnné veličiny je z 94,42% vysvětlena regresní přímkou. Pro regresní přímku můžeme využít toho, že 2 12 2 rID = . V našem případě zjistíme, že 971977,0r12 = , tedy 9447,0971977,0ID 22 == . MAPE se počítá podle vzorce = - = n 1i i ii y y^y n 1 MAPE . V příkladě 9.2.7. jsme vypočetli vektor reziduí - - - - =- 97,9 34,39 34,7 34,29 68,16 98,23 y^y ii a vektor pozorování 320 230 120 60 60 50 . Tedy dostáváme MAPE = 2517,0 320 97,9 230 34,39 120 34,7 60 34,29 60 68,16 50 98,23 6 1 = - ++ - + - + + . Regresní odhad pro x = 110 dostaneme pouhým dosazením do rovnice regresní přímky: 1401102665,16868,0y^ =+= . Při loňské poptávce 110 kusů by odhad letošní poptávky činil 140 kusů zboží. Výpočet pomocí systému STATISTICA: Index determinace je uveden v záhlaví původní výstupní tabulky pod označením R2: Výsledky regrese se závislou proměnnou : Y (Tabulka1) R= ,97197702 R2= ,94473932 Upravené R2= ,93092415 F(1,4)=68,384 p<,00117 Směrod. chyba odhadu : 29,219 N=6 Beta Sm.chyba beta B Sm.chyba B t(4) Úroveň p Abs.člen X 0,686813 20,64236 0,033272 0,975052 0,971977 0,117538 1,266484 0,15315 8,269474 0,001167 V našem případě ID2 = 0,9447, tedy variabilita letošní poptávky je z 94,5% vysvětlena regresní přímkou. Abychom vypočetli MAPE, tak ve výsledcích Vícenásobné regrese zvolíme záložku Rezidua / předpoklady / předpovědi ­ Reziduální analýza ­ Uložit ­ Uložit rezidua a předpovědi Vybrat vše ­ OK. Ve vzniklé tabulce přidáme proměnnou chyby a do jejího Dlouhého jména napíšeme =100*abs(v4/v2) Pak spočteme průměr této proměnné a zjistíme, že MAPE = 25,17%. Pro výpočet predikované hodnoty zvolíme Rezidua/předpoklady/předpovědi Předpovědi závisle proměnné X: 110 OK. Ve výstupní tabulce je hledaná hodnota označena jako Předpo- věď. Předpovězené hodnoty (Tabulka1) proměnné: Y Proměnná B-váž. Hodnota B-váž. * Hodnot X Abs. člen Předpověď -95,0%LS +95,0%LS 1,266484 110,0000 139,3132 0,6868 140,0000 106,8803 173,1197 Při loňské poptávce 110 kusů je predikovaná hodnota letošní poptávky 140 kusů. Při analýze reziduí nejprve posoudíme nezávislost reziduí pomocí Durbinova ­ Watsonovy statistiky: Na záložce Rezidua/předpoklady/předpovědi zvolíme Reziduální analýza - Pokročilá ­ Durbinova ­ Watsonova statistika. Durbin-Watsonovo d (poptavka.sta) a sériové korelace reziduí Durbin- Watson.d Sériové korelace Odhad 2,022847 -0,113505 Tato statistika je blízká číslu 2, tedy rezidua můžeme považovat za nezávislá. Normalitu reziduí posoudíme Lilieforsovou variantou K-S testu a S-W testem: Testy normality (Tabulka6) Proměnná N max D Lilliefors p W p Rezidua 6 0,277184 p < ,15 0,911935 0,449251 Ani jeden z testů nezamítá hypotézu o normalitě reziduí na hladině významnosti 0,05. Graficky posoudíme normalitu N-P plotem: Normal Probability Plot of Residuals -40 -30 -20 -10 0 10 20 30 40 50 Residuals -1,4 -1,2 -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4ExpectedNormalValue Vidíme, že rezidua se od ideální přímky neodchylují příliš výrazně. Nulovost střední hodnoty reziduí ověříme jednovýběrovým t-testem: Test průměrů vůči referenční konstantě (hodnotě) (Tabulka6) Proměnná Průměr Sm.odch. N Sm.chyba Referenční konstanta t SV p Rezidua -0,000003 26,13469 6 10,66944 0,00 -0,000000 5 1,000000 Vidíme, že p-hodnota je 1, tudíž na hladině významnosti 0,05 nezamítáme hypotézu, že rezidua mají nulovou střední hodnotu. Homoskedasticitu reziduí posoudíme pomocí grafu závislosti reziduí na predikovaných hodnotách veličiny Y: Na záložce Rezidua/předpoklady/předpovědi zvolíme Reziduální analýza Bodové grafy ­ Předpovědi vs. Rezidua Předpovězené hodnoty vs. rezidua Závislá proměnná : Y 0 50 100 150 200 250 300 350 Předpov. hodnoty -40 -30 -20 -10 0 10 20 30 40 50 Rezidua 0,95 Int.spol. Rezidua nevykazují žádnou závislost na predikovaných hodnotách. Nakonec do dvourozměrného tečkového diagramu nakreslíme regresní přímku. V menu 2D Bodové grafy zvolíme Typ proložení: Lineární, OK. Bodový graf z Y proti X Tabulka1 2v*6c Y = 0,6868+1,2665*x 0 20 40 60 80 100 120 140 160 180 200 220 240 260 280 X 0 50 100 150 200 250 300 350 Y Vzhled grafu naznačuje, že přímka je vhodným modelem závislosti letošní poptávky na loňské poptávce. Shrnutí Jednoduchá lineární regresní analýza slouží k tomu, aby popsala závislost náhodné veličiny Y na veličině X pomocí regresní funkce (tj. podmíněné střední hodnoty ( )xYE ), která je lineární v parametrech. Důležitým úkolem regresní analýzy je nalezení vhodného typu regresní funkce a odhad jejích parametrů. V případě lineárních regresních modelů odhadujeme neznámé parametry metodou nejmenších čtverců na základě znalosti dvourozměrného datového souboru n hodnot veličin X a Y. Pokud se náhodné odchylky regresního modelu od skutečnosti řídí normálním rozložením s nulovou střední hodnotou a konstantním rozptylem a přitom jsou nezávislé, pak můžeme konstruovat intervaly spolehlivosti pro regresní parametry, pomocí F-testu ověřovat významnost modelu jako celku a pomocí dílčích t-testů ověřovat významnost jednotlivých regresních parametrů. Vhodnost zvoleného regresního modelu posuzujeme pomocí různých kritérií, např. pomocí indexu determinace, pomocí odhadu reziduálního rozptylu nebo pomocí střední absolutní procentuální chyby predikce (MAPE). Důležitá je rovněž analýza reziduí, v jejímž průběhu ověřujeme nezávislost reziduí, jejich normalitu, nulovost střední hodnoty a homoskedasticitu rozptylu. Kontrolní otázky 1. Jak je definována podmíněná střední hodnota ( )xYE a k čemu slouží? 2. Popište princip metody nejmenších čtverců. 3. Jak je definován reziduální, regresní a celkový součet čtverců a jaký je mezi nimi vztah? 4. Co platí pro hodnost regresní matice? 5. Jaké vlastnosti má odhad vektoru regresních parametrů získaný metodou nejmenších čtver- ců? 6. Jak získáme relativní chyby odhadů regresních parametrů? 7. K čemu slouží celkový F-test a dílčí t-testy? 8. Jaká kritéria používáme pro hodnocení kvality regresního modelu? Autokorekční test 1. Který z následujících předpokladů klasického lineárního regresního modelu Xy += je chybný? a) h(X) = p+1 n b) var() = 2 I c) E() = 0 2. Jedno z následujících tvrzení o vektoru b, který je získán metodou nejmenších čtverců jako odhad vektoru regresních parametrů , je pravdivé. Které to je? a) var b = 2 (XX') -1 b) odhad b je vychýlený odhad vektoru c) odhad b je lineární 3. Máte k dispozici výstupní tabulku pro model regresní přímky: N=19 b* Std.Err. of b* b Std.Err. of b t(17) p-value Intercept Var1 238,4631 22,62066 10,54183 0,000000 0,964280 0,064244 29,7785 1,98396 15,00958 0,000000 Pokud se hodnota nezávisle proměnné veličiny X zvýší o 5 jednotek, pak regresní odhad hodnoty závisle proměnné veličiny Y se zvýší o: a) 1192,3 jednotek b) 148,9 jednotek c) 29,8 jednotek 4. Máte k dispozici neúplnou tabulku ANOVA pro model regresní přímky: Effect Sums of Squares df Mean Squares F p-value Regress. Residual Total 505451,3 1 505451,3 225,2875 0,000000 38140,9 17 543592,2 Odhad rozptylu je: a) 2243,6 b) 29732,4 c) 28610,1 5. Při výpočtu adjustovaného indexu determinace nepotřebujeme znát: a) počet pozorování b) hodnost regresní matice c) počet parametrů v regresním modelu 6. Výběrový koeficient korelace vypočtený na základě náhodného výběru z dvourozměrného normálního rozložení nabyl hodnoty -0,94. Pokud bychom modelovali závislost veličiny Y na veličině X pomocí regresní přímky, jakou část variability hodnot veličiny Y by nevysvětlovala regresní přímka? a) 88,36% b) 11,64% c) 6% Správné odpovědi: 1a), 2c), 3b), 4a), 5b), 6b) Příklady 1. U osmi náhodně vybraných firem poskytujících odborné konzultace v oblasti jakosti výroby byly v roce 2008 zjištěny počty zaměstnanců (náhodná veličina X) a roční obraty (náhodná veličina Y, v miliónech Kč), jak je uvedeno v tabulce: Číslo firmy 1 2 3 4 5 6 7 8 X 3 5 5 8 9 11 12 15 Y 0,8 1,2 1,5 1,9 1,8 2,4 2,5 3,1 Předpokládáme, že závislost ročního obratu na počtu zaměstnanců lze popsat regresní přímkou. K dispozici jsou částečné výstupy regresní analýzy ze systému STATISTICA: N=8 Beta Sm.chyba beta B Sm.chyba B Abs.člen X 0,361207 0,121417 0,984798 0,070914 0,181034 0,013036 Efekt Součet čtverců sv Průměr čtverců F Úroveň p Regres. Rezid. Celk. 3,801724 1 3,801724 192,8571 0,000009 0,118276 6 0,019713 3,920000 a) Napište rovnici regresní přímky vyjadřující závislost Y na X. Interpretujte úsek a směrnici regresní přímky. b) Najděte 95% intervaly spolehlivosti pro parametry regresní přímky a s jejich pomocí testujte na hladině významnosti hypotézy o nevýznamnosti úseku a směrnice regresní přím- ky. c) Vypočtěte index determinace a interpretujte ho. Výsledek: ad a) y = 0,361207 + 0,181034x Pokud firma nebude mít žádné zaměstnance (tzn., že pracují pouze majitelé), bude roční obrat asi 361 000 Kč. Pokud se zvýší počet zaměstnanců o jednoho, vzroste roční obrat asi o 181 000 Kč. ad b) 95% interval spolehlivosti pro 0: ( ) 064111,0121417,04469,2361207,0s6tbd 0b975,00 =-=-= ( ) 658303,0121417,04469,2361207,0s6tbh 0b975,00 =+=+= Znamená to, že 0,06411 < 0 < 0,65303 s pravděpodobností aspoň 0,95. Protože tento interval neobsahuje číslo 0, na hladině významnosti 0,05 zamítáme hypotézu o nevýznamnosti úseku regresní přímky. 95% interval spolehlivosti pro 1: ( ) 149137,0013036,07764,2181034,0s6tbd 1b975,01 =-=-= ( ) 212932,0013036,07764,2181034,0s6tbh 1b975,01 =+=+= Znamená to, že 0,149137 < 1 < 0,212932 s pravděpodobností aspoň 0,95. Protože tento interval neobsahuje číslo 0, na hladině významnosti 0,05 zamítáme hypotézu o nevýznamnosti směrnice regresní přímky. (Tento interval spolehlivosti nám vlastně udává, že při zvýšení počtu zaměstnanců o jednoho se přírůstek ročního obratu firmy bude s pravděpodobností aspoň 0,95 pohybovat v intervalu 149 000 Kč až 213 000 Kč.) ad c) 9698,0 92,3 801724,3 S S ID T R2 === Znamená to, že variabilita ročního obratu je z téměř 97 % vysvětlena regresní přímkou. 2. V modelu regresní přímky je index determinace roven 0,8 a reziduální rozptyl je 100. Jaký je rozptyl hodnot závisle proměnné veličiny? Výsledek: s2 2 = 500 3. Určitý lék je přepravován v ampulkách, které jsou baleny po 1000 kusech v jednom kartonu. U 10 náhodně vybraných kartonů bylo zjištěno, kolikrát byl karton překládán (veličina X) a počet poškozených ampulek při převzetí zásilky (veličina Y). X 1 0 2 0 3 1 0 1 2 0 Y 16 9 17 12 22 13 8 15 19 11 Na základě těchto údajů, které považujeme za realizace náhodného výběru z dvourozměrného normálního rozložení, byly vypočteny parametry regresní přímky, která vystihuje závislost počtu poškozených ampulek na počtu překládání: b0 = 10,2, b1 = 4. Směrodatné chyby odhadů regresních parametrů jsou: 469042,0s,663325,0s 10 bb == . Na hladině významnosti 0,05 testujte hypotézy o nevýznamnosti parametrů 0 a 1. V obou případech vypočtěte hodnotu testové statistiky, najděte kritický obor a napište rozhodnutí o nulové hypotéze. Výsledek: Na hladině významnosti = 0,05 testujeme H0: 0 = 0 proti H1: 0 0. Testová statistika: 3771,15 663325,0 2,10 s b t 0b 0 0 === , kritický obor: ( )( ( ) ) ( )( ( ) ) ( )--= =--=------= -- ,306,2306,2, ,8t8t,,1pnt1pnt,W 975,0975,02/12/1 . Protože se testová statistika realizuje v kritickém oboru, hypotézu o nevýznamnosti regresního parametru 0 (tj. posunutí regresní přímky) zamítáme na hladině významnosti 0,05. Na hladině významnosti = 0,05 testujeme H0: 1 = 0 proti H1: 1 0. Testová statistika: 528,8 469042,0 4 s b t 1b 1 1 === , kritický obor: ( )( ( ) ) ( )( ( ) ) ( )--= =--=------= -- ,306,2306,2, ,8t8t,,1pnt1pnt,W 975,0975,02/12/1 . Protože se testová statistika realizuje v kritickém oboru, hypotézu o nevýznamnosti regresního parametru 1 (tj. směrnice regresní přímky) zamítáme na hladině významnosti 0,05.