Jednoduchá lineární regrese I Motivace: Cíl regresní analýzy - popsat závislost hodnot veličiny Y na hodnotách veličiny X. Nutnost vyřešení dvou problémů: a) jaký typ funkce se použije k popisu dané závislosti; b) jak se stanoví konkrétní parametry daného typu funkce? ad a) Při určení typu funkce je třeba provést teoretický rozbor zkoumané závislosti. Teoretická analýza může upozornit například na to, že s růstem hodnot veličiny X budou mít hodnoty veličiny Y tendenci monotónně růst či klesat, tato tendence má charakter zrychlujícího se či zpomalujícího se růstu či poklesu, jde o závislost, kdy s růstem hodnot veličiny X dochází zpočátku k růstu hodnot veličiny Y, který je po dosažení určitého maxima vystřídán poklesem, apod. Můžeme např. zkoumat závislost ceny ojetého auta (veličina Y) na jeho stáří (veličina X). Je zřejmé, že s rostoucím stářím bude klesat cena, ale není jasné, zda lineárně, kvadraticky či dokonce exponenciálně. Vždy se snažíme o to aby regresní model byl jednoduchý, tj. aby neobsahoval příliš mnoho parametrů. Připadá-li v úvahu více funkcí, posuzujeme jejich vhodnost pomocí různých kritérií - viz dále. Často však nemáme dostatek informací k provedení teoretického rozboru. Pak se snažíme odhadnout typ funkce pomocí dvourozměrného tečkového diagramu. Zde se omezíme na funkce, které závisejí lineárně na parametrech ^ Zvláštní pozornost budeme věnovat polynomiální funkci 1. stupně y = p0 + Pix. ad b) Odhady t^t},. .rt), neznámých parametrů ^ ^ . získáme na základě dvourozměrného datového souboru !......! K ynj metodou nejmenších čtverců, tj. z podmínky, aby součet čtverců odchylek zjištěných a odhadnutých hodnot byl minimální. Specifikace klasického modelu lineární regrese YJIPR), \>- |_ , kde rtJ^R ^ • -rR " teoretická regresní funkce, která lineárně závisí na neznámých regresních parametrech r ► . a Jde o deterministickou složku modelu. Složka „ - náhodná složka modelu. Je to náhodná odchylka od deterministické závislosti y na x. Popisuje závislost vysvětlované proměnné na neznámých nebo nepozorovaných proměnných a popisuje i vliv náhody. Nelze ji funkčně vyjádřit. Veličina Y - závisle proměnná (též vysvětlovaná) veličina. Veličina x - nezávisle proměnná (též vysvětlující) veličina. Pořídíme n dvojic pozorování fayft. .r^Yn, t). dvourozměrný datový soubor !......!. [^n ynj Proi = 1, ...,nplatí: y _ ^ . ,_ . O náhodných odchylkách p . .Tp předpokládáme, že a) tjp _ (odchylky nejsou systematické) b) ^Íp (všechna pozorování jsou prováděna s touž přesností) c) C , _ pro 1^ (mezi náhodnými odchylkami neexistuje žádný lineární vztah) d) P~Ť^rr- V tomto případě hovoříme o klasickém modelu lineární regrese. Označení tb,t},. .yt), - odhady regresních parametrů ^ ^ . (nejčastěji je získame metodou nejmenších čtverců, tj. z podmínky, že výraz Iv _ R I I nabývá svého minima pro fy = bJ5 j = 0, 1, ..., p) Iľjp;tb,. .rty - empirická regresní funkce Y „irK;tb,. .yaN_ M K - regresní odhad i-té hodnoty veličiny Y (i-tá predikovaná hodnota veličiny Y) ~ \ 7X9 ! QL_ _ - i-té reziduum Sk - n~Yi _M * - reziduální součet čtverců S2= -odhad rozptylu o2 Sb -\í IB^ -regresní součet čtverců (IB CM) Sr _ n y, - celkový součet čtverců (_ , ) —i_l _ , — Význam jednotlivých typů součtů čtverců Předpokládejme, že máme dvourozměrný datový soubor, v němž průměr hodnot závisle proměnné veličiny Y je 9 a závislost veličiny Y na veličině X je popsána regresní přímkou y = 2x + 3. Dvourozměrný tečkový diagram obsahuje bod o souřadnicích (5, 19), který pochází z datového souboru. Na regresní přímce leží bod o souřadnicích (5, 13). Odchylka zjištěné hodnoty 19 od průměru 9 je v obrázku označena „Total deviation" a po umocnění je to jedna ze složek celkového součtu čtverců ST, tj. složka y _ \. Odchylka zjištěné hodnoty 19 od hodnoty 13 na regresní přímce je v obrázku označena „Unexplained deviation" a po umocnění je to jedna ze složek reziduálního součtu čtverců SE, tj. složka y _ . Odchylka hodnoty 13 na regresní přímce od průměru 9 je v obrázku označena „Explained deviation" a po umocnění je to jedna ze složek regresního součtu čtverců SR, tj. složka y _ L Maticový zápis klasického modelu lineární regrese y_ j+ , kde y_ [V .yyn; - vektor pozorování závisle proměnné veličiny y, X_ ... \s ... - regresní matice (předpokládáme, že h(X) = p+l< n) R= , \ • ' " vektor regresních parametrů, 0= .. .rr ' - vektor náhodných odchylek. Podmínky (a) až (d) lze zkráceně zapsat ve tvaru „ ~ N (0, o2 I). Maticově zapsaná metoda nejmenších čtverců vede na rovnice X'XP = X'y - systém normálních rovnic b = (X'X)-1 X' y - odhad vektoru p získaný metodou nejmenších čtverců y= Xb - vektor regresních odhadů (vektor predikce) e = y - y - vektor reziduí Vlastnosti odhadu b: - odhad b je lineární, neboť je vytvořen lineární kombinací pozorování y u ..., yn s maticí vah fiXr X; - odhad b je nestranný, neboť E(b) = p; - odhad b má varianční matici var b = o2(X'X)-1; - odhad b ~ Np+1(p, o2 (X'X)-1) vzhledem k platnosti podmínky (d); - pro odhad b platí Gaussova - Markovova věta: Odhad b = (X'X)-1 X'y je nejlepší nestranný lineární odhad vektoru p. Příklad Sestrojte regresní matici X pro lineární regresní model a) y_ b) y] = Řešení: ada)X_ 1 X2 1 ; 1 X3 1 (1 X4 j , provedeme-li 4 měření, 1+ ~ + > provedeme-li 5 měření. (1 X\ x?1 ln*2\ !l x21 kx22! adb)X=l Xfi ll^2| ■ 1 X41 X^i 1TK42 I 1 x51 lnx52 Intervaly spolehlivosti pro regresní parametry ^ = " směrodatná chyba odhadu bJ; kde VjJ je j-tý diagonální prvek matice (X'X)"1. Pro j = 0, 1,p statistika T? _ h tp_ _ , tedy 100(1- a)% interval spolehlivosti pro fy má meze: tj + _ p_ _ ^ . (S intervaly spolehlivosti souvisí relativní chyby odhadů regresních parametrů. Získají se tak, že se vypočítá absolutní hodnota podílu poloviční šířky intervalu spolehlivosti a hodnoty odhadu. Relativní chyba odhadu by neměla přesáhnout 10 %.) Příklad: V tabulce jsou výnosy technické cukrovky v tunách na ha od roku 2000 do roku 2007. i rok cukrovka technická 1 2000 45,83 2 2001 45,41 3 2002 49,45 4 2003 45,20 5 2004 50,34 6 2005 53,31 7 2006 51,48 8 2007 53,25 Předpokládejte, že závislost výnosu cukrovky na roku lze vyjádřit regresní přímkou y_ o jX^_ | a) MNČ najděte odhady neznámých regresních parametrů |30, p\. b) Sestrojte 95% intervaly spolehlivosti pro regresní parametry p0, p1. c) Najděte relativní chyby odhadů regresních parametrů p0, p1. Řešení: Vytvoříme datový soubor se dvěma proměnnými rok, Y a osmi případy. Získání odhadů b0, b1: Statistiky - Vícerozměrná regrese - Závisle proměnná rok, nezávisle proměnné Y - OK - OK - Výpočet: Výsledky regrese. F(i;6)=15,111 p<,0Ů810 Smerodľ chyba odr N=8 D" sm.cm z D*' D sm.cmi t(b) i p-noc AbS.CÍ -2312 t)U/,4 -3,8U6U,UU8 rok J,84b U,217 1,1 U,3U 3,88- U,UU8 Výpočet mezí intervalu spolehlivosti a relativních chyb odhadů: K výstupní tabulce přidáme tři nové proměnné DM, HM a chyba. Do Dlouhého jméne proměnné DM napíšeme =v3-v4*VStudent(0,975;6) Do Dlouhého jméne proměnné HM napíšeme =v3+v4*VStudent(0,975;6) Do Dlouhého jména proměnné chyba napíšeme =100*abs (0,5*(v8-v7)/v3) N=8 vysíidKy rigrisi si závislou proměnnou : y (cuKrovKa tic R= ,84604287 R2= J1578853 Upraviné R2= v,66841995 F(1,6)=15,111 p<,00810 Směrod. chyba odhadu : 1,9651 sm.cmi d ism.cmi t(6) i p-noc umí cnyb z b* 1 z D 1 I 1 =v3-v| =v3+V=1UU* AbS.CÍ -2312 bU/,4 -3,8U U,UU8 -3/9fc -82b, 64:28 rok U,846 U,217 1,1 U,3U 3,88- U,UU8 U),43e> 1,92U 6324,9^43 S pravděpodobností 95% se bude úsek p0 regresní přímky nacházet v intervalu (-3798,71; -825,738). Odhad b0 úseku p0 je zatížen relativní chybou 64,3%. S pravděpodobností 95% se bude směrnice P1 regresní přímky nacházet v intervalu (-3798,71; -825,738). Odhad b1 úseku P1 je zatížen relativní chybou 62,9%. Testování významnosti modelu jako celku (celkový F-test) Na hladině významnosti a testujeme H0: ,fl5--7ft) _q../)'proti Hj: ^q../)'. (Nulová hypotéza říká, že dostačující je model konstanty.) Testová statistika: F_ ■ má rozložení F(p, n-p-1), pokud H0 platí. 'J — — Kritický obor: W_B_ pilJD _15 ťcW^ H0 zamítáme na hladině významnosti a. Výsledky F-testu zapisujeme do tabulky analýzy rozptylu: zdroj variability součet čtverců stupně volnosti podil statistika F model SR p SR/p SRp reziduálni Se n-p-1 - celkový st n-1 - - Příklad: Majitelé prodejny počítačových her nechali své prodavače absolvovat kurz prodejních dovedností. Poté zjišťovali po dobu 20 dnů, kolik osob navštíví během otevírací doby prodejnu (proměnná X) a jaká je v tento den tržba (proměnná Y, udává se v tisících Kč a je zaokrouhlená). Dvourozměrný tečkový diagram Z grafu závislosti Y na X vyplývá, že s rostoucím počtem zákazníků se tržby zvyšují, avšak při denním počtu zákazníků asi 42 dosahují svého maxima a pak už zase klesají (vyšší počet zákazníků obsluha prodejny nezvládá a zákazníci odcházejí, aniž by nakoupili). Zdá se tedy, že vhodným modelem závislosti tržeb na počtu zákazníků bude regresní parabola y_ o . iX^_ 2x2_ Odhadněte parametry regresního modelu a proveďte celkový F-test. i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 20 21 2 27 28 29 30 31 32 34 35 37 38 39 42 44 48 49 51 54 6 8 9 10 11 12 13 13 14 14 15 16 15 15 14 13 13 5 7 7 12 6 x Řešení: Vytvoříme nový datový soubor se třemi proměnnými X, Xkv, Y a o 20 případech. Do proměnných X a Y napíšeme zjištěné hodnoty a do Dlouhého jména proměnné Xkv napíšeme = XA2. Získání odhadů b0, bb b2: Statistiky - Vícerozměrná regrese - Závisle proměnná rok, nezávisle proměnné Y - OK - OK - Výpočet: Výsledky regrese. N=20 R=s:Ba5K51^!g7r6e^2i€;9Zá2!^u2^Umllnvne0né F F(2,17)=88,524 p<,00000 Směrod. chyba c D" bm.cmi d ibm.cmi t(1/ji p-noc z b* 1 z Dl i ads.ci 1 -20,/ 3,3/3 -b,1b|U,000 x 4,526 11,548 0,1891 8,256 0,000 xkv -3,73 0,548 -0,01 0,002| -0,8110,000 Regresní parabola má tedy tvar: y = -20,7723 + 1,5651x - 0,0173x2. Výsledky celkového F-testu jsou uvedeny v záhlaví výstupní tabulky. Testová statsitika F nabývá hodnoty 88,524, odpovídající p-hodnota je blízká 0, tedy na hladině významnosti 0,05 zamítáme hypotézu, že dostačující je model konstatnty. Podrobnější výsledky získáme v tabulce analýzy rozptylu: Aktivujeme Výsledky-vícenásobná regrese - Detailní výsledky - ANOVA Efekt Anaiyza rozptylu (prodejna : souc ctver s v prum Ctver p-noc Kegre iyy,8 2 yy,y0 88,52 44000 Kezia iy,ii 1 1,128 ueik. 2iy,0 Testování významnosti regresních parametrů (dílčí t-testy) Na hladině významnosti a pro j = 0,1, p testujeme hypotézu H0: Pj = 0 proti H1: Pj í 0. Testová statistika: T/_ ^- má rozložení t(n-p-l), pokud H0 platí. j Kritický obor: W_ , U /2flJ>J ^ fa._/2fJP i, J ij' H0 zamítáme na hladině významnosti a. Příklad: V předešlém příkladě, kde byla modelována závislost tržby na počtu zákazníků regresní parabolou, proveďte dílčí t-testy o nevýznamnosti jednotlivých regresních parametrů Řešení: Stačí interpretovat výstupní tabulku vícenásobné regrese: N=20 vysieciKy regrese se závislou proměnnou : R= ,955XI9276 R2= A91239322 Upravené F F(2,17)=88,524 p<,00000 SměroS. chyba o D" sm.cmi d ism.cm tn/i p-noc z DM 1 z D 1 v r ADS.CÍ -20,7 3,3/31 -b/1510,000 x 4,526 U,548 ^,5b 0,1«y| 8,256 0,000 xkv -3,73 01,548 -0,0' 0,002 -b,8'ľ 01,000 Sloupec označený t(17) obsahuje realizace testových statistik a sloupec p-hodn. pak odpovídající p-hodnoty. Ve všech třech případech jsou p-hodnoty menší než 0,05, tedy na hladině významnosti 0,05 zamítáme hypotézy o nevýznamnosti regresních parametrů p0, p1, p2. Kritéria pro posouzení vhodnosti zvolené regresní funkce a) Index determinace \D_ - _ _ : - index determinace (0^ 3^ ) • udává, jakou část variability závisle proměnné veličiny y lze vysvětlit zvolenou regresní funkcí (často se udává v %); • je zároveň mírou těsnosti závislosti proměnné y na proměnné x; • je to obecná míra, nezávislá na typu regresní funkce (lze použít i pro měření nelineární závislosti); • je to míra, která nebere v úvahu počet parametrů regresní funkce. U regresních funkcí s více parametry vychází tedy obvykle vyšší než u regresních funkcí s méně parametry; • tato míra není symetrická. Za vhodnější se považuje ta regresní funkce, pro niž je index determinace vyšší. V případě, že porovnáváme několik modelů s rozdílným počtem parametrů, používáme adjustovaný index determinace: IQjj - - adjustovaný index determinace V příkladu s prodejem software najdeme index determinace ve výstupní tabulce regrese: |R=s9551 92?fÍ=li?239ou22 US R F(2;ť7)=88,524 p<,00000 Směrod. chyba c N=2U D" sm.cny d ism.cn> tn/i p-noc z D* 1 z D ' Abs.CÍ -2U,/ 3,3/3 -6,15 U,UUU x 11,548 2U,5b U,189 8,256 U,UUU xkv -3,73 U,548 -U,U1 U,UU2 -6,819 U,UUU Index determinace je zde označen jako R2, nabývá hodnoty 0,9124 a říká nám, že 91,24% variability tržeb je vysvětleno regresní parabolou. Adjustovaný index determinace je označen Upravené R2. b) Testové kritérium F Za vhodnější je považována ta regresní funkce, u níž je hodnota testové statistiky F modelu jako celku vyšší. Ve výstupní tabulce regrese je testová statistika F uvedena v záhlaví: pro test významnosti p_r__ F(2,17)=88,524 p<,00000 Směrod. chyba c N=20 D" sm.cmi d ism.cn> t(i/i p-noc z b* 1 z Dl 1 AbS.CÍ -20,7 3,373 -b,1b|U,000 x 4,526 U,54«| 0,5b| 0,1«y «,256 0,000 xkv -3,/3| 0,54« -0,01 0,002 -b,bU| 0,000 V našem příkladě je označena F(2,17) a nabývá hodnoty 88,524. c) Reziduální součet čtverců a reziduální rozptyl Reziduálni součet čtverců: Sfe _ * _Y ^ —11 Za vhodnější považujeme funkci, která má reziduální součet čtverců nižší. Reziduální součet čtverců lze použít pouze tehdy, když srovnáváme funkce se stejným počtem parametrů. Reziduální rozptyl: S2= Za vhodnější považujeme tu funkci, která má reziduální rozptyl nižší. Reziduální rozptyl můžeme použít vždy, bez ohledu na to, kolik parametrů mají srovnávané regresní funkce. Obě charakteristiky najdeme v tabulce ANOVA: Efekt Anaiyza rozptylu (proaejna . Souo s v Prum f Otven otven p-noc Regre 199,8 2 99,90 8086,52 "C45JD0 Kezia uelk. Reziduální součet čtverců je 19,1859 a reziduální rozptyl je 1,12858. d) Střední absolutní procentuální chyba predikce (MAPE) MAP ^0 Ji Za vhodnější považujeme tu funkci, která má MAPE nižší. Systém STATISTICA MAPE neposkytuje, tuto chybu musíme vypočítat. Statistiky - Vícerozměrná regrese - Závisle proměnná rok, nezávisle proměnné Y - OK - OK - zvolíme Rezidua/předpoklady/předpovědi - Reziduální analýza - Uložit - Uložit rezidua & předpovědi - vybereme proměnnou y -OK. K vzniklému datovému souboru přidáme jedni novou proměnnou, nazveme ji chyba a do jejího Dlouhého jména napíšeme =100*abs((v1-v2)/v1) Pomocí Statistiky - Základní statistiky/tabulky - Popisné statistiky zjistíme průměr proměnné chyba. V našem případě je MAPE 9,31%. e) Analýza reziduí Rezidua považujeme za odhady náhodných odchylek a klademe na ně stejné požadavky jako na náhodné odchylky, tj. mají být nezávislá, mají být normálně rozložená, mají mít nulovou střední hodnotu, mají mít konstantní rozptyl (tj. jsou homoskedastická). Nezávislost reziduí (autokorelaci) posuzujeme např. pomocí Durbinovy - Watsonovy statistiky, která by se měla nacházet v intervalu (1,426 (to je ovšem pouze orientační vodítko, korektní postup spočívá v porovnání této statistiky s tabelovanou kritickou hodnotou). Normalitu reziduí ověřujeme pomocí testů normality (např. Lilieforsovou variantou Kolmogorovova - Smirnovova testu nebo Shapirovým - Wilksovým testem) či graficky pomocí N-P plotu. Testování nulovosti střední hodnoty reziduí provádíme pomocí jednovýběrového t-testu. Homoskedasticitu reziduí posuzujeme pomocí grafu závislosti reziduí na predikovaných hodnotách. V tomto grafu by rezidua měla být rovnoměrně rozptýlena. Příklad: Proveďte analýzu reziduí pro příklad s modelováním závislosti tržby na počtu zákazníků. Posouzení nezávislosti reziduí pomocí Durbinovy - Watsonovy statistiky: Statistiky - Vícenásobná regrese - proměnná Závislá: y, nezávislá x, xkv - OK - na záložce Residua/předpoklady/předpovědi vybereme Reziduální analýza - Detaily - Durbin-Watsonova statistika: uuroii seno Watso korels uanž u,/U2 u,5>yy Hodnota této statistiky je nízká, svědčí o tom, že rezidua jsou kladně korelovaná. Posouzení homoskedasticity reziduí Reziduální analýza - Bodové grafy - Předpovědi vs. rezidua HHjo^éloJOyvs rada ZvSáporarra: y 15 10 05 UU -05 -10 -15 -20 Q . O 0 0 ° O c c Q c c "'"2 4 6 8 1 D 1 2 1 4 t FfaJovhotOy H^irtsO. | Je vidět, že rezidua nejsou kolem 0 rozmístěna náhodně. Model s regresní parabolou tedy není úplně vhodný. Testování nulovosti střední hodnoty reziduí: Pro proměnnou Rezidua z tabulky uložené pomocí Reziduálni analýzy provedeme jednovýběrový t-test: Statistiky ní statistiky/tabulky - t-test, samost. vzorek - OK - proměnné Rezidua - OK. Základ- Promě Keziau 1 M I konstai T -U,UUU UUU4 281 U.Z24 ľ I U,U -U,UUU 1 9 1,UUU Na hladině významnosti 0,05 nezamítáme hypotézu, že střední hodnota reziduí je 0. Posouzení normality reziduí: Na záložce Pravděpodobnostní grafy zvolíme Normální pravděpodobnostní graf reziduí: NOnárí pgaz hada Taukasivzc I Rzda: a/W\=U)aUI; p=Ub4žT| Pzoo^ k^l Rezidua se řadí kolem ideální přímky, lze tedy soudit, že se řídí normálním rozložením. Závěr: V neprospěch regresní paraboly hovoří hodnota Durbinovy - Watsonovy statistiky a graf závislosti reziduí na predi- kovaných hodnotách. Problém autokorelovaných reziduí a jeho odstranění Předpokládejme, že náhodná odchylka p je lineárně závislá na předešlé náhodné odchylce p , tj. jde o autokorelaci 1. řádu (v praxi nejčastější případ): p _ ._ ,_ , i = 2, ..., n (u, je náhodná odchylka od modelu lineárni závislosti a p je koeficient korelace dvou sousedních náhodných odchylek p, p ). Předpoklad o existenci autokorelace 1. řádu můžeme ověřit pomocí Durbinova - Watsonova testu, který je založen na Durbinově - Watsonově statistice: _—^ Jejíž hodnoty se nacházejí v intervalu (Q4 . Pro nezamítnutí nulové 1-2 r hypotézy se hodnoty testového kritéria musejí pohybovat kolem hodnoty 2. Testujeme vlastně hypotézu t%:n proti alternativní hypotéze H-n resp. H-n s tím, že zamítnutí H0 se interpretuje jako tvrzení o existenci pozitivní resp. negativní autokorelace 1. řádu (na dané hladině významnosti a). Pro dané a, daný rozsah n náhodného výběru a daný počet p regresních koeficientů jsou tabelovány kritické hodnoty dL a dU. Testujeme-li existenci pozitivní autokorelace, pak při D > dU se nezamítá H a při D < dL se přijímá H1. Je-li dL < D < dU, pak nelze přijmout žádné rozhodnutí (říkáme, že test mlčí). Testujeme-li existenci negativní autokorelace, pak při D < 4 - dU se nezamítá H a při D > 4 - dL se přijímá H1. Je-li 4 - dU < D < 4 - dL, pak nelze přijmout žádné rozhodnutí. Prokážeme-li na dané hladině významnosti a existenci autokorelace 1. řádu, měli bychom ji eliminovat. n Nejprve odhadneme koeficient korelace p: ^ 1 h . P 2 i i-2 r Pak už můžeme vypočítat odhady náhodných odchylek (tj. rezidua) v autokorelaci): l}= _ , i = 2, ...,n. Získané odhady X\ přičteme k predikovaným hodnotám y- získaným z regresního modelu a znovu provedeme regresní analýzu, kde roli závisle proměnné veličiny bude hrát součet $ + . Postup v systému STATISTICA (Použijeme data z příkladu o závislosti tržeb na počtu zákazníků.) Rezidua z modelu y_ 0 . íX^ 2X2+ jsou uložena v proměnné Rezidua. Pro tato rezidua je hodnota D-W statistiky D = 0,702506 a kritické hodnoty pro a = 0,0.............L = 1,1, du = 1,54. Protože D < dL, zamítáme na hladině významnosti 0,05 hypotézu o nekorelovanosti reziduí ve prospěch alternativy o pozitivní autokorelaci 1. řádu. Získání odhadů reziduí v autokorelaci: 4 _ _ , i = 2, ..., n: Statistiky - Pokročilé lineární/nelineární modely - Časové řady/predikce - Proměnné Rezidua - ARIMA & autokorelační funkce - v Parametrech modelu ARIMA zvolíme p-Autoregresní 1 - OK (Zahájit odhady parametrů) - Souhrn: Odhady parametrů. Param Vstup: REZIDUA ( t abuika39) Transformace: žádná 1 Model:(1,0,0) PČ Rezid. = ,64920 Parar Asymi i smc Asymi p uoin 95% s Horn 95% s p(1) U,599|U,'lb9 35,161 U,UU5 U,2U2 U,995 Vidíme, že odhad koeficientu korelace dvou po sobě následujících reziduí je 0,6 a na hladině 0,05 je významný (p-hodnota 0,005134 < 0,05). Uložíme rezidua z autokorelace: Přehled & rezidua - Přehled reziduí. Vzniklou proměnnou okopírujeme do původního datového souboru a k tomuto datovému souboru přidáme ještě proměnnou s predikovanými hodnotami z původního modelu. Do nové proměnné nazvané nove y uložíme součet reziduí a predikovaných hodnot. Pak znovu provedeme regresní analýzu: N=20 F(2;i7)=133,39 p