Osnova přednášky Jednoduchá lineární regrese 1. Motivace 2. Specifikace klasického modelu lineární regrese 2.1. Základní pojmy 2.2. Označení 2.3. Význam jednotlivých typů součtů čtverců 2.4. Maticový zápis klasického modelu lineární regrese 2.5. Odhad regresních parametrů metodou nejmenších čtverců 3. Statistická inference v klasickém modelu lineární regrese 3.1. Intervaly spolehlivosti pro regresní parametry 3.2. Celkový F-test 3.3. Dílčí t-testy 3.4. Interval spolehlivosti pro teoretickou regresní funkci 3.5. Predikční interval spolehlivosti 4. Kritéria pro posouzení vhodnosti zvolené regresní funkce 4.1. Index determinace 4.2. Testové kritérium celkového F-testu 4.3. Reziduální součet čtverců a reziduální rozptyl 4.4. Střední absolutní procentuální chyba predikce 5. Analýza reziduí 5.1. Požadavky kladené na rezidua 5.2. Ověřování požadavků kladených na rezidua 1. Motivace Cíl regresní analýzy - popsat závislost hodnot veličiny Y na hodnotách veličiny X. Nutnost vyřešení dvou problémů: a) jaký typ funkce se použije k popisu dané závislosti; b) jak se stanoví konkrétní parametry daného typu funkce? Základy regresní analýzy položil kolem roku 1880 Francis Galon, anglický vědec, činný ve velmi mnoha různých oborech: psychologii a antropologii, statistice, geografii a dalších. Byl to bratranec Charlese Darwi- na. ad a) Při určení typu funkce je třeba provést teoretický rozbor zkoumané závislosti. Ten může upozornit například na to, že - s růstem hodnot veličiny X budou mít hodnoty veličiny Y tendenci monotónně růst či klesat, - jde o závislost, kdy s růstem hodnot veličiny X dochází zpočátku k růstu hodnot veličiny Y, který je po dosažení určitého maxima vystřídán poklesem, - apod. Vždy se snažíme o to aby regresní model byl jednoduchý, tj. aby neobsahoval příliš mnoho parametrů. Připadá-li v úvahu více funkcí, posuzujeme jejich vhodnost pomocí různých kritérií – viz dále. Není-li dostatek informací k provedení teoretického rozboru, snažíme se odhadnout typ funkce pomocí tečkových diagramů. Zde se omezíme na funkce, které závisejí lineárně na parametrech p10 ,,, βββ K . ad b) Odhady p10 b,,b,b K neznámých parametrů p10 ,,, βββ K získáme na základě dvourozměrného datového souboru           nn 11 yx yx KK metodou nejmenších čtverců, tj. z podmínky, aby součet čtverců odchylek zjištěných a odhadnutých hodnot byl minimální. Ilustrace metody nejmenších čtverců pro model přímky 2. Specifikace klasického modelu lineární regrese 2.1. Základní pojmy Model má tvar ( ) ε+βββ= p10 ,,,;xmY K , kde ( )p10 ,,,;xm βββ K - teoretická regresní funkce - lineárně závisí na neznámých regresních parametrech p10 ,,, βββ K , - lineárně závisí na známých funkcích ( ) ( )xf,,xf p1 K , které již neobsahují neznámé parametry, tj. ( ) ( ) = β=βββ p 0j jjp10 xf,,,;xm K , přičemž ( ) 1xf0 ≡ . Jde o deterministickou složku modelu. Složka ε - náhodná složka modelu: - je to náhodná odchylka od deterministické závislosti Y na X, - popisuje závislost vysvětlované proměnné na neznámých nebo nepozorovaných proměnných a popisuje i vliv náhody, - nelze ji funkčně vyjádřit. Veličina Y - závisle proměnná (též vysvětlovaná) veličina. Veličina X - nezávisle proměnná (též vysvětlující) veličina. Pořídíme n dvojic pozorování ( ) ( )nn11 y,x,,y,x K , tj. dvourozměrný datový soubor           nn 11 yx yx KK . Pro i = 1, ..., n platí: ( ) ip10ii ,,,;xmy ε+βββ= K . O náhodných odchylkách n1 ,, εε K předpokládáme, že a) ( ) 0E i =ε (odchylky nejsou systematické) b) ( ) 0D 2 i >σ=ε (všechna pozorování jsou prováděna s touž přesností) c) ( ) 0,C ji =εε pro ji ≠ (mezi náhodnými odchylkami neexistuje žádný lineární vztah) d) iε ~ ( )2 ,0N σ . V tomto případě hovoříme o klasickém modelu lineární regrese. 2.2. Označení p10 b,,b,b K - odhady regresních parametrů p10 ,,, βββ K (nejčastěji je získáme metodou nejmenších čtverců, tj. z podmínky, že výraz ( ) 2 n 1i p 0j ijji xfy  = =       β− nabývá svého minima pro βj = bj, j = 0, 1, …, p) ( )p0 b,,b;xmˆ K - empirická regresní funkce ( ) ( ) = == p 0j ijjp0ii xfbb,,b;xmˆyˆ K - regresní odhad i-té hodnoty veličiny Y (i-tá predikovaná hodnota veličiny Y) iii yˆye −= - i-té reziduum ( ) = −= n 1i 2 iiE yˆyS - reziduální součet čtverců, fE = n-p-1 … reziduální počet stupňů volnosti 1pn S s E2 −− = - odhad rozptylu σ2 (reziduální rozptyl, průměrný reziduální čtverec) ( ) = −= n 1i 2 2iR myˆS - regresní součet čtverců (  = = n 1i i2 y n 1 m ), fR = p … regresní počet stupňů volnosti p SR … průměrný regresní čtverec ( ) = −= n 1i 2 2iT myS - celkový součet čtverců ( ERT SSS += ) 2.3 Význam jednotlivých typů součtů čtverců Předpokládejme, že máme dvourozměrný datový soubor, v němž průměr hodnot závisle proměnné veličiny Y je 9 a závislost veličiny Y na veličině X je popsána regresní přímkou y = 2x + 3. Dvourozměrný tečkový diagram obsahuje bod o souřadnicích (5, 19), který pochází z datového souboru. Na regresní přímce leží bod o souřadnicích (5, 13). Odchylka zjištěné hodnoty 19 od průměru 9 je v obrázku označena „Total deviation“ a po umocnění je to jedna ze složek celkového součtu čtverců ST, tj. složka 2i my − . Odchylka zjištěné hodnoty 19 od hodnoty 13 na regresní přímce je v obrázku označena „Unexplained deviation“ a po umocnění je to jedna ze složek reziduálního součtu čtverců SE, tj. složka ii yˆy − . Odchylka hodnoty 13 na regresní přímce od průměru 9 je v obrázku označena „Explained deviation“ a po umocnění je to jedna ze složek regresního součtu čtverců SR, tj. složka 2i myˆ − . 2.4. Maticový zápis klasického modelu lineární regrese ( ) ( ) ( ) ( )           ε ε +           β β           =           n 1 p 0 npn1 1p11 n 1 xfxf1 xfxf1 y y KK K KKKK K K , tj εXβy += , kde ( )' n1 y,,y K=y - vektor pozorování závisle proměnné veličiny Y, ( ) ( ) ( ) ( )          = npn1 1p11 xfxf1 xfxf1 K KKKK K X - regresní matice (předpokládáme, že h(X) = p+1 < n) β ( )' p10 ,,, βββ= K - vektor regresních parametrů, ε ( )' n1 ,, εε= K - vektor náhodných odchylek. Podmínky (a) až (d) lze zkráceně zapsat ve tvaru ε ~ Nn(0, σ2 I). Příklad Sestrojte regresní matici X pro lineární regresní model a) ii10i xy ε+β+β= , provedeme-li 4 měření, b) i2i3 2 1i21i10i xlnxxy ε+β+β+β+β= , provedeme-li 5 měření. Řešení: ad a)             = 4 3 2 1 x1 x1 x1 x1 X , ad b)                 = 52 2 5151 42 2 4141 32 2 3131 22 2 2121 12 2 1111 xlnxx1 xlnxx1 xlnxx1 xlnxx1 xlnxx1 X 2.5. Odhad regresních parametrů metodou nejmenších čtverců Maticově zapsaná metoda nejmenších čtverců ( )( ) min' →−− XβyXβy vede na rovnice X’Xβ = X’y - systém normálních rovnic b = (X’X)-1 X’ y – odhad vektoru β získaný metodou nejmenších čtverců yˆ = Xb – vektor regresních odhadů (vektor predikce) e = y - yˆ - vektor reziduí Vlastnosti odhadu b = (X’X)-1 X’ y: - odhad b je lineární, je to lineární kombinace pozorování y1, …, yn s maticí vah ( ) '1' XXX − ; - odhad b je nestranný, neboť E(b) = β; - odhad b má varianční matici var b = σ2 (X'X) -1 ; - odhad b ~ Np+1(β, σ2 (X'X)-1) vzhledem k platnosti podmínky (d), tj i ε ~ ( )2 ,0N σ ; - b = (X'X) -1 X'y je nejlepší nestranný lineární odhad vektoru β. 3. Statistická inference v klasickém modelu lineární regrese 3.1. Intervaly spolehlivosti pro regresní parametry jjb vss j = - směrodatná chyba odhadu bj, kde vjj je j-tý diagonální prvek matice (X'X)-1 . Pro j = 0, 1, ..., p statistika jb jj j s b T β− = ~ ( )1pnt −− , tedy 100(1- α)% interval spolehlivosti pro βj má meze: ( ) jb2/1j s1pntb −−± α− . Pokud interval spolehlivosti obsahu nulu (tj. dolní mez je záporná a horní mez je kladná), pak regresní parametr je nevýznamný. 3.2. Testování významnosti modelu jako celku (celkový F-test) Na hladině významnosti α testujeme H0: ( ) ( )′ = ′ ββ 0,,0,, p1 KK proti H1: ( ) ( )′ ≠ ′ ββ 0,,0,, p1 KK . (Nulová hypotéza říká, že dostačující je model konstanty.) Testová statistika: ( )1pnS pS F E R −− = má rozložení F(p, n-p-1), pokud H0 platí. Kritický obor: ( ) )∞−−= α− ,1pn,pFW 1 . ∈WF H0 zamítáme na hladině významnosti α. Výsledky F-testu zapisujeme do tabulky analýzy rozptylu: zdroj variability součet čtverců stupně volnosti podíl statistika F model SR p SR/p ( )1pnS pS E R −− reziduální SE n-p-1 SE/(n-p-1) celkový ST n-1 - - Příklad: U 24 osob byl zjišťován jejich věk (v letech) a hodnoty systolického krevního tlaku (v mm rtuťového sloupce): 1 i 2 X 3 Y 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 1 34 116 2 40 129 3 29 111 4 23 100 5 57 159 6 26 112 7 31 119 8 50 148 9 47 139 10 66 177 11 51 151 12 57 158 13 40 135 14 42 135 15 42 135 16 58 161 17 46 144 18 34 126 19 61 163 20 53 149 21 34 122 22 53 150 23 67 172 24 38 128 Předpokládejte, že závislost krevního tlaku na věku lze vyjádřit regresní přímkou ε+β+β= xy 10 . a) Vytvořte graf závislosti tlaku na věku a MNČ najděte odhady neznámých regresních parametrů β0, β1. b) Sestrojte 95% intervaly spolehlivosti pro regresní parametry β0, β1. Vytvoříme graf závislosti tlaku na věku: 20 30 40 50 60 70 věk 90 100 110 120 130 140 150 160 170 180 190 systolickýkrevnítlak Vzhled grafu svědčí o tom, že přímka by mohla být vhodným regresním modelem. MNČ získáme odhady b0, b1 společně s 95% intervaly spolehlivosti pro β0, β1: N=24 b d h Abs.člen X 66,808 62,246 71,370 1,609 1,511 1,706 Rovnice regresní přímky: y = 66,808 + 1,609x. S pravděpodobností 95 % se bude úsek β0 nacházet v intervalu (62,241; 71,370). S pravděpodobností 95 % se bude směrnice β1 nacházet v intervalu (1,511; 1,706). Řešení v sytému R Načteme data: >vek_tlak <- read_csv("vek_tlak.csv") Pojmenujeme nezávisle proměnnou X a závisle proměnnou Y: > X<-vek_tlak$X > Y<-vek_tlak$Y Vykreslíme dvourozměrný tečkový diagram závislosti Y na X: > plot(X,Y,xlab="vek",ylab="systolicky krevni tlak") Sestavíme regresní model: > vystup<-lm(Y~X) > summary(vystup) Call: lm(formula = Y ~ X) Residuals: Min 1Q Median 3Q Max -5.4982 -2.2259 0.5037 2.1994 4.5018 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 66.8081 2.1996 30.37 <2e-16 *** X 1.6085 0.0472 34.08 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 2.836 on 22 degrees of freedom Multiple R-squared: 0.9814, Adjusted R-squared: 0.9806 F-statistic: 1161 on 1 and 22 DF, p-value: < 2.2e-16 Najdeme meze 95% intervalů spolehlivosti pro regresní koeficienty: > confint(vystup) 2.5 % 97.5 % (Intercept) 62.246338 71.369825 X 1.510642 1.706422 Příklad: Majitelé prodejny počítačových her nechali své prodavače absolvovat kurz prodejních dovedností. Poté zjišťovali po dobu 20 dnů, kolik osob navštíví během otevírací doby prodejnu (proměnná X) a jaká je v tento den tržba (proměnná Y, udává se v tisících Kč a je zaokrouhlená). i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 xi 20 21 26 27 28 29 30 31 32 34 35 37 38 39 42 44 48 49 51 54 yi 5 6 7 7 8 9 10 11 12 13 13 14 14 15 16 15 15 14 13 13 Dvourozměrný tečkový diagram 15 20 25 30 35 40 45 50 55 60 x 4 6 8 10 12 14 16 18 y Z grafu závislosti Y na X vyplývá, že s rostoucím počtem zákazníků se tržby zvyšují, avšak při denním počtu zákazníků asi 42 dosahují svého maxima a pak už zase klesají (vyšší počet zákazníků obsluha prodejny nezvládá a zákazníci odcházejí, aniž by nakoupili). Zdá se tedy, že vhodným modelem závislosti tržeb na počtu zákazníků bude regresní parabola ε+β+β+β= 2 210 xxy . Odhadněte parametry regresního modelu a proveďte celkový F-test. Řešení: Tabulka s odhady b0, b1, b2 a mezemi 95% intervalů spolehlivosti pro β0, β1, β2: N=20 b d h Abs.člen x x^2 -20,7723 -27,88920 -13,655307 1,5651 1,16517 1,965036 -0,0173 -0,02264 -0,011940 Regresní parabola má tedy tvar: y = -20,7723 + 1,5651x - 0,0173x2 . Výsledky celkového F-testu: Efekt Součet čtverců sv Průměr čtverců F p-hodn. Regres. Rezid. Celk. 199,8141 2 99,90706 88,52445 0,000000 19,1859 17 1,12858 219,0000 Regresní součet čtverců je 199,8141, reziduální 19,1859, testová statistika F nabývá hodnoty 88,524, odpovídající p-hodnota je blízká 0, tedy na hladině významnosti 0,05 zamítáme hypotézu, že dostačující je model konstanty. Odhad rozptylu náhodných odchylek (reziduální rozptyl, průměrný reziduální čtverec) s2 = 1,12858. 3.3. Testování významnosti regresních parametrů (dílčí t-testy) Na hladině významnosti α pro j = 0,1, ..., p testujeme hypotézu H0: βj = 0 proti H1: βj ≠ 0. Testová statistika: jb j j s b T = má rozložení t(n-p-1), pokud H0 platí. Kritický obor: ( ) ( ) )( ∞−−∪−−−∞−= α−α− ,1pnt1pnt,W 2/12/1 . ∈WTj H0 zamítáme na hladině významnosti α. 3.3. Testování významnosti regresních parametrů (dílčí t-testy) Na hladině významnosti α pro j = 0,1, ..., p testujeme hypotézu H0: βj = 0 proti H1: βj ≠ 0. Testová statistika: jb j j s b T = má rozložení t(n-p-1), pokud H0 platí. Kritický obor: ( ) ( ) )( ∞−−∪−−−∞−= α−α− ,1pnt1pnt,W 2/12/1 . ∈WTj H0 zamítáme na hladině významnosti α. Příklad: V předešlém příkladě, kde byla modelována závislost tržby na počtu zákazníků regresní parabolou, proveďte dílčí t-testy o nevýznamnosti jednotlivých regresních parametrů Řešení: Tabulka odhadu regresních parametrů s výsledky dílčích t-testů: N=20 b t(17) p-hodn. Abs.člen x x^2 -20,7723 -6,15792 0,000011 1,5651 8,25655 0,000000 -0,0173 -6,81912 0,000003 Sloupec označený t(17) obsahuje realizace testových statistik a sloupec p-hodn. pak odpovídající p-hodnoty. Ve všech třech případech jsou p-hodnoty menší než 0,05, tedy na hladině významnosti 0,05 zamítáme hypotézy o nevýznamnosti regresních parametrů β0, β1, β2. Interpretace výsledků F-testu a t-testů Mohou nastat tyto situace: a) F-test je významný, všechny t-testy jsou významné => vhodný model b) F-test je nevýznamný, všechny t-testy jsou nevýznamné => nevhodný model c) F-test je významný, ale některé t-testy jsou nevýznamné => vypustíme odpovídající vysvětlující proměnné d) F-test je významný, ale všechny t-testy jsou nevýznamné => model formálně vyhovuje jako celek, ale žádná vysvětlující proměnná není významná. Je to důsledek silného lineárního vztahu mezi proměnnými (tzv. multikolinearita). Je nutné upravit nebo zcela změnit model. 3.4. Interval spolehlivosti pro teoretickou regresní funkci V uvažovaném lineárním modelu ( ) ε+βββ= p100 ,,,;xmY K neboli ( ) = ε+β= p 0j 0jj xfY můžeme na základě n dvojic pozorování (xi, yi), i = 1, …, n získat jak bodové, tak intervalové odhady neznámých regresních parametrů β0, β1, …, βp. Lze však spočítat též meze 100(1-α) % intervalu spolehlivosti pro teoretickou regresní funkci při zadané hodnotě x0, tj. pro hodnotou ( ) ( ) = β=βββ p 0j 0jjp100 xf,,,;xm K . 100(1- α)% interval spolehlivosti pro ( )p100 ,,,;xm βββ K má meze ( ) ( ) 0 1 02/10 ''s1pnt' xXXxbx − α− −−± . Při spojité změně argumentu x0 mezní hodnoty tohoto 100(1-α)% empirického intervalu spolehlivosti pro teoretickou regresní funkci vytvoří 100(1-α)% pás spolehlivosti kolem regresní funkce. Pás spolehlivosti je nejužší v bodě = = n 1i i1 x n 1 m , směrem od tohoto bodu se na obě strany rozšiřuje. Příklad: U automobilu Škoda 120 byla změřena spotřeba benzínu (v l/100 km) v závislosti na rychlosti (v km/h). rychlost X 40 50 60 70 80 90 100 110 spotřeba Y 5,7 5,4 5,2 5,2 5,8 6,0 7,5 8,1 Vhodným modelem je regresní parabola 2 210 xxy β+β+β= . Odhadněte její parametry a najděte 95% pás spolehlivosti kolem regresní funkce. Řešení: N=8 b d h t(5) p-hodn. Abs.člen x x^2 9,751786 7,32081487 12,1827566 10,31183 0,000148 -0,150536 -0,2194809 -0,0815906 -5,61264 0,002483 0,001244 0,00078845 0,00169965 7,01912 0,000905 Spotřeba = 9,751786 – 0,150536*rychlost + 0,001244*rychlost2 95% pás spolehlivosti kolem regresní funkce: Bodový graf z Y proti X spotreba.sta 3v*8c Y = 9,7518-0,1505*x+0,0012*x^2; 0,95 Int.spol. 30 40 50 60 70 80 90 100 110 120 X 4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,0 8,5 Y 3.5. Predikční interval spolehlivosti V případě, kdy chceme zkonstruovat 100(1- α)% interval spolehlivosti nikoli pro hodnotu regresní funkce, ale pro jednu novou pozorovanou hodnotu závisle proměnné veličiny Y (tzv. predikční interval), dostaneme meze ( ) ( ) 0 1 02/10 ''1s1pnt' xXXxbx − α− +−−± . Vidíme, že tento predikční interval je širší než předešlý interval spolehlivosti. Je to interval, který nás informuje o tom, v jakém rozsahu můžeme očekávat jedno další pozorování s pravděpodobností aspoň 1- α. Při spojitě se měnícím x0 vytvoří meze tohoto predikčního intervalu spolehlivosti tzv. predikční pás spolehlivosti kolem regresní funkce. Příklad: Pro regresní parabolu z předešlého příkladu sestrojte 95% predikční pás spolehlivosti kolem regresní funkce. Řešení: Bodový graf z Y proti X spotreba.sta 3v*8c Y = 9,7518-0,1505*x+0,0012*x^2; 0,95 Int.před. 30 40 50 60 70 80 90 100 110 120 X 4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,0 8,5 Y 4. Kritéria pro posouzení vhodnosti zvolené regresní funkce 4.1. Index determinace T E T R2 S S 1 S S ID −== - index determinace ( 1ID0 2 ≤≤ ) • udává, jakou část variability závisle proměnné veličiny Y lze vysvětlit zvolenou regresní funkcí (často se udává v %); • je zároveň mírou těsnosti závislosti proměnné Y na proměnné X; • je to obecná míra, nezávislá na typu regresní funkce (lze použít i pro měření nelineární zá- vislosti); • je to míra, která nebere v úvahu počet parametrů regresní funkce. U regresních funkcí s více parametry vychází tedy obvykle vyšší než u regresních funkcí s méně parametry; • tato míra není symetrická. Za vhodnější se považuje ta regresní funkce, pro niž je index determinace vyšší. V případě, že porovnáváme několik modelů s rozdílným počtem parametrů, používáme adjustovaný index de- terminace: ( ) 1pn pID1 IDID 2 22 adj −− − −= - adjustovaný index determinace V příkladu s prodejem software najdeme index determinace ve výstupní tabulce regrese: Výsledky regrese se závislou proměnnou : y (prodejna_software.sta) R= ,95519276 R2= ,91239322 Upravené R2= ,90208653 F(2,17)=88,524 p<,00000 Směrod. chyba odhadu : 1,0623 N=20 b* Sm.chyba z b* b Sm.chyba z b t(17) p-hodn. Abs.člen x xkv -20,7723 3,373256 -6,15792 0,000011 4,52641 0,548220 1,5651 0,189559 8,25655 0,000000 -3,73838 0,548220 -0,0173 0,002535 -6,81912 0,000003 Index determinace je zde označen jako R2, nabývá hodnoty 0,9124 a říká nám, že 91,24% variability tržeb je vysvětleno regresní parabolou. Adjustovaný index determinace je označen Upravené R2. Upozornění: Ve výstupní tabulce regrese najdeme též směrodatnou chybu odhadu, která je vypočtena podle vzorce ( ) 1pn yˆy n 1i 2 ii −− −= . 4.2. Testové kritérium celkového F-testu Za vhodnější je považována ta regresní funkce, u níž je hodnota testové statistiky ( )1pnS pS F E R −− = pro test významnosti modelu jako celku vyšší. Ve výstupní tabulce regrese je testová statistika F uvedena v záhlaví: Výsledky regrese se závislou proměnnou : y (prodejna_software.sta) R= ,95519276 R2= ,91239322 Upravené R2= ,90208653 F(2,17)=88,524 p<,00000 Směrod. chyba odhadu : 1,0623 N=20 b* Sm.chyba z b* b Sm.chyba z b t(17) p-hodn. Abs.člen x xkv -20,7723 3,373256 -6,15792 0,000011 4,52641 0,548220 1,5651 0,189559 8,25655 0,000000 -3,73838 0,548220 -0,0173 0,002535 -6,81912 0,000003 V našem příkladě je označena F(2,17) a nabývá hodnoty 88,524. 4.3. Reziduální součet čtverců a reziduální rozptyl Reziduální součet čtverců: ( ) = −= n 1i 2 iiE yˆyS Za vhodnější považujeme funkci, která má reziduální součet čtverců nižší. Reziduální součet čtverců lze použít pouze tehdy, když srovnáváme funkce se stejným počtem parametrů. Reziduální rozptyl: 1pn S s E2 −− = Za vhodnější považujeme tu funkci, která má reziduální rozptyl nižší. Reziduální rozptyl můžeme použít vždy, bez ohledu na to, kolik parametrů mají srovnávané regresní funkce. Obě charakteristiky najdeme v tabulce ANOVA: Analýza rozptylu (prodejna_software.sta) Efekt Součet čtverců sv Průměr čtverců F p-hodn. Regres. Rezid. Celk. 199,8141 2 99,90706 88,52445 0,000000 19,1859 17 1,12858 219,0000 Reziduální součet čtverců je 19,1859 a reziduální rozptyl je 1,12858. 4.4. Střední absolutní procentuální chyba predikce (MAPE)  = − = n 1i i ii y yˆy n 1 MAPE Za vhodnější považujeme tu funkci, která má MAPE nižší. V příkladě s prodejem software je MAPE 9,31%. 5. Analýza reziduí 5.1. Požadavky kladené na rezidua Rezidua považujeme za odhady náhodných odchylek a klademe na ně stejné požadavky jako na náhodné odchylky, tj. - mají být nezávislá, - mají být normálně rozložená, - mají mít nulovou střední hodnotu, - mají mít konstantní rozptyl (tj. jsou homoskedastická). 5.2. Ověřování požadavků kladených na rezidua Nezávislost reziduí (autokorelaci) posuzujeme např. pomocí Durbinovy – Watsonovy statistiky, která by se měla nacházet v intervalu 6,2;4,1 (to je ovšem pouze orientační vodítko, korektní postup spočívá v porovnání této statistiky s tabelovanou kritickou hodnotou). Normalitu reziduí ověřujeme pomocí testů normality (např. Lilieforsovou variantou Kolmogorovova – Smirnovova testu nebo Shapirovým – Wilkovým testem) či graficky pomocí N-P plotu. Testování nulovosti střední hodnoty reziduí provádíme pomocí jednovýběrového t-testu. Homoskedasticitu reziduí posuzujeme pomocí grafu závislosti reziduí na predikovaných hodnotách. V tomto grafu by rezidua měla být rovnoměrně rozptýlena. Příklad: Proveďte analýzu reziduí pro příklad s modelováním závislosti tržby na počtu zákazníků. Posouzení nezávislosti reziduí pomocí Durbinovy – Watsonovy statistiky: Durbin- Watson.d Odhad 0,702506 Hodnota této statistiky je nízká, svědčí o tom, že rezidua jsou kladně korelovaná. Posouzení homoskedasticity reziduí pomocí grafu závislosti reziduí na předikovaných hodnotách Předpovězené hodnoty vs. rezidua Závislá proměnná : y 2 4 6 8 10 12 14 16 Předpov. hodnoty -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 Rezidua 0,95 Int.spol. Je vidět, že rezidua nejsou kolem 0 rozmístěna náhodně. Model s regresní parabolou tedy není úplně vhodný. Testování nulovosti střední hodnoty reziduí: Proměnná Průměr Sm.odch. N Sm.chyba Referenční konstanta t SV p Rezidua -0,000000 1,004880 20 0,224698 0,00 -0,000000 19 1,000000 Na hladině významnosti 0,05 nezamítáme hypotézu, že střední hodnota reziduí je 0. Posouzení normality reziduí pomocí N-P plotu: Normální p-graf z Rezidua Tabulka1 9v*20c -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 Pozorovaný kvantil -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 Oček.normál.hodnoty Rezidua : SW-W = 0,9601; p = 0,5453 Rezidua se řadí kolem ideální přímky, lze tedy soudit, že se řídí normálním rozložením. Závěr: V neprospěch regresní paraboly hovoří hodnota Durbinovy – Watsonovy statistiky a graf závislosti reziduí na predikovaných hodnotách. Postup pro regresní analýzu souboru prodejna_software.txt v systému R Načteme data: data <- read.delim('prodejna_software.txt',sep = ';',header=T) Vytvoříme dvourozměrný tečkový diagram: plot(x,y,xlab='pocet zakazniku', ylab='trzba') Zavedeme novou proměnnou xkv: xkv<-x^2 Sestavíme model regresní přímky a pomocí analýzy reziduí ověříme předpoklady modelu: model<-lm(y~x+xkv) par(mfrow=c(2,2)) plot(model) Předpoklad normality reziduí můžeme dále posoudit Shapirovým-Wilkovým testem, nulovost střední hodnoty pomocí t-testu a nezávislost reziduí pomocí Durbinova-Watsonova testu (v R je třeba načíst knihovnu car). shapiro.test(model$residuals) Shapiro-Wilk normality test data: model$residuals W = 0.96007, p-value = 0.5453 t.test(model$residuals) One Sample t-test data: model$residuals t = -6.792e-17, df = 19, p-value = 1 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: -0.4702982 0.4702982 sample estimates: mean of x -1.52615e-17 durbinWatsonTest(model) lag Autocorrelation D-W Statistic p-value 1 0.5958889 0.7025064 0 Alternative hypothesis: rho != 0 Podíváme se na podrobné informace o modelu: summary(model) Call: lm(formula = y ~ x + xkv) Residuals: Min 1Q Median 3Q Max -1.8817 -0.7343 0.2185 0.5356 1.5361 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -20.772255 3.373256 -6.158 1.05e-05 *** x 1.565102 0.189559 8.257 2.37e-07 *** xkv -0.017289 0.002535 -6.819 2.99e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.062 on 17 degrees of freedom Multiple R-squared: 0.9124, Adjusted R-squared: 0.9021 F-statistic: 88.52 on 2 and 17 DF, p-value: 1.027e-09 Výpočet 95% intervalů spolehlivosti pro regresní parametry: confint(model) 2.5 % 97.5 % (Intercept) -27.88920254 -13.65530683 x 1.16516818 1.96503626 xkv -0.02263843 -0.01193997 Výpočet střední absolutní procentuální chyby predikce: MAPE<-100 * mean(abs(model$residuals/y)) > MAPE [1] 9.308607 Vykreslení regresní paraboly společně s 95% pásem spolehlivosti a 95% predikčním pásem: interval.spol <-predict(model,interval='confidence') pred.interval <-predict(model,interval='predict') plot(x,y,xlab='pocet zakazniku', ylab='trzba') lines(x,interval.spol[,1],col='red') > lines(x,interval.spol[,2], col='red', lty=2) > lines(x,interval.spol[,3], col='red', lty=2) > lines(x,pred.interval[,2], col='blue', lty=2) > lines(x,pred.interval[,3], col='blue', lty=2) > legend("topleft",c('model','IS','pred. int.'), lty=c(1,2,2), + col=c('red', 'red', 'blue'))