Jednoduchá lineární regrese II Opakování Studujeme regresní model y_ j+ , kde y_ i,.. ?ynA - vektor pozorování závisle proměnné veličiny Y, X_ ... \s ... . i - regresní matice ^1 f^> ...fpfxrj (předpokládáme, že h(X) = p+1 < n) R= , p.rR '-vektor regresních parametrů, 0= • - vektor náhodných odchylek, pro který platí c ~ Nn(0, o2 I). Maticově zapsaná metoda nejmenších čtverců vede na rovnice X'XP = X'y - systém normálních rovnic b = (X'X)-1 X' y - odhad vektoru p získaný metodou nejmenších čtverců y= Xb - vektor regresních odhadů (vektor predikce) e = y - y - vektor reziduí Vlastnosti odhadu b: - odhad b je lineární, neboť je vytvořen lineární kombinací pozorování yl5 ..., yn s maticí vah JiXr} K; - odhad b je nestranný, tj. E(b) = p; - odhad b má varianční matici var b = a2(X'X)-1; - odhad b ~ Np+1(p, a2 (X'X)-1); - odhad b je nejlepší nestranný lineární odhad vektoru p. Součty čtverců a index determinace: SE = e'e ... reziduálni součet čtverců (podíl S2 _ je odhad rozptylu o2) SR = (ý-m2)'(ý-m2) ... regresní součet čtverců, kde m2 je sloupcový vektor průměrů závisle proměnné veličiny Y ST = (y-m2)'(y-m2) ... celkový součet čtverců Platí Sp_ , IB_ - _ _ : - index determinace (0^ 3^ ), udává, jakou část variability Y lze vysvětlit zvolenou regresní funkcí Intervaly spolehlivosti pro regresní parametry 100(1- a)% interval spolehlivosti pro fy má meze: ^ + _ f_ _ , kde ^ = ^jj Je směrodatná chyba odhadu bJ5 vy je j-tý diagonální prvek matice (X'X)"1, j = 0,1, ..., p Testování významnosti modelu jako celku (celkový F-test) Na hladině významnosti a testujeme, 0: ^.fä _Q. •/)'proti Hi: (^,. ^Q../)'. Testová statistika: F_ ^ P ■ má rozložení F(p, n-p-1), pokud H0 platí. Kritický obor: W F_ pn_J3 • t ^ W_ H0 zamítáme na hladině významnosti a. Testování významnosti regresních parametrů (dílčí t-testy) Na hladině významnosti a pro j = 0,1, p testujeme hypotézu H0: fy = 0 proti Hi: Pj ^ 0. Testová statistika: T/_^- má rozložení t(n-p-l), pokud H0 platí. Kritický obor: W_ , ti_/2fl_J3_l ^ nfLP X ^ -j Jj Ho zamítáme na hladině významnosti a. Nové poznatky Interval spolehlivosti pro teoretickou regresní funkci Nechť x0 je pevně zvolená hodnota nezávisle proměnné veličiny X. Vytvoříme vektor Jfc _ lfif<0> -fpfo^ a zabýváme se lineární kombinací ^ p složek vektoru regresních parametrů, tj. p ~ hodnotou H^pb =. Wi ^teoretické regresní funkce v bodě x0. 100(1- a)% interval spolehlivosti pro Jq p, tj. pro hodnotu regresní funkce ny^ft \ • P- - Při spojitě se měnícím x0 vytvoří meze tohoto intervalu spolehlivosti tzv. pás spolehlivosti kolem regresní funkce. Tento pás spolehlivosti však nelze interpretovat tak, že pokrývá celou regresní funkci s pravděpodobností 1- a ..... ukazuje na šířku intervalu spolehlivosti pro vypočtenou hodnotu z modelu pro zvolenou hodnotu argumentu xc Příklad: U automobilu Škoda 120 byla změřena spotřeba benzínu (v l/100 km) v závislosti na rychlosti (v km/h). rychlost X 40 50 60 70 80 90 100 110 spotřeba Y 5,7 5,4 5,2 5,2 5,8 6,0 7,5 8,1 Vhodným modelem je regresní parabola y_ 0 iX^_ 2X2+ . Odhadněte její parametry a najděte 95% pás spolehlivosti kolem regresní funkce. Řešení: N=8 R=S!i§4yb^e^?iRe2=eA9zgvf1o8u2 g ^^^"vgSé F(2;5)=76,410 p<,00018 Směroď chyba ( b* sm.cm d z b*' sm.cn> t(b) z b ' p-noc ADS.CÍ y,751| U,y45 1U,31 u,uuu X -3,380 U,6U2 -U,15U U,U2b| -5,612 U,UU2 Xkv 4,227 U,bU2| U,UU1| U,UUU| 7,U19 U,UUU Spotřeba = 9,751786 - 0,150536*rychlost + 0,001244*rydilost2 Získání 95% pásu spolehlivosti kolem regresní funkce: Grafy - Bodové grafy - Proměnné X, Y - OK - na záložce Detaily zvolíme Proložení Polynomiální (implicitně je nastaveno na polynom 2. stupně, lze měnit na záložce Možnosti 2) - zapneme Regresní pásy Spolehl. - OK. bOOvýgatz Ypdi X Y=S9r318U)iaU5X)UlUU12X,22 UfcirtspO. 4)9D6DD8DSD1UU11U12U X Predikční interval spolehlivosti V případě, kdy chceme zkonstruovat 100(1- a)% interval spolehlivosti nikoli pro hodnotu regresní funkce, ale pro i-tou predikovanou hodnotu % (tzv. predikční interval), dostaneme meze Vidíme, že tento predikční interval je širší než předešlý interval spolehlivosti. Je to interval, který nás informuje o tom, v jakém rozsahu můžeme očekávat jedno další pozorování s pravděpodobností aspoň 1- a Při spojitě se měnícím x0 vytvoří meze tohoto predikčního intervalu spolehlivosti tzv. predikční pás spolehlivosti kolem regresní funkce. Příklad: Pro model regresní paraboly z předešlého příkladu sestrojte 95% predikční pás spolehlivosti kolem regresní funkce. Řešení: Grafy - Bodové grafy - Proměnné X, Y - OK - na záložce Detaily zvolíme Proložení Polynomiální (implicitně je nastaveno na polynom 2. stupně) - zapneme Regresní pásy Predikce - OK. 85 ach/ýgcfzYpdi X Y=9£iqiäJBX+.]UJi2X2 OSfcirtpisj 80 75 70 65 *~ 600 55 50 45 40 * / / / / / ' / 7 / / 04)9060708090100 110 120 X Chceme-li mít v jednom obrázku zakresleny oba typy pásů, postupujeme takto: ve vytvořeném grafu 2x klikneme na pozadí - vybereme Regresní pásy - Přidat nový pár pásů - OK. Test adekvátnosti regresního modelu Nechť hodnoty závisle proměnné veličiny Y jsou roztříděny do r > 3 skupin podle variant xm, xw nezávisle proměnné veličiny X. Označme ni počet pozorování v i-té skupině, i = 1, ..., r, přičemž aspoň jedna skupina má více než jedno pozorování. Budeme předpokládat, že každá skupina hodnot má normální rozložení a že všechny skupiny mají týž rozptyl. Všech pozorování je n. Průměr hodnot v i-té skupině označme M, a průměr všech hodnot označme M. Charakter závislosti Y na X popíšeme regresní funkcí rtj^ß ^ . .^ß a budeme se zabývat testováním hypotézy, zda je tato regresní funkce vhodným modelem pro naše data. Při testování budeme potřebovat tyto součty čtverců: celkový součet čtverců Sp_ " M^, —il jj * j skupinový součet čtverců * M M?, —j l , regresní součet čtverců & _ H V _Nf*. —il i Testová statistika: F= V ^■ se řídí rozložením F(r-p-1,n-r), jestliže H0 platí. Kritický obor: W = na hladině významnosti a zamítáme hypotézu, že funkce \ . je vhodným regresním modelem závislosti Y na X. Těsnost závislosti Y na X vyjádřenou skupinovými průměry měří poměr determinace P2 = SA/ST. Nabývá hodnot z intervalu <0,1>. Čím je poměr determinace bližší jedné, tím je závislost silnější, čím je bližší nule, tím je závislost slabší. Příklad: Máme k dispozici údaje o cenách 23 náhodně vybraných domů (veličina Y - v tisících $) a počtu jejich pokojů (veličina X) v jednom americkém městě. počet pokojů cena 5 155,168,180 6 166,172,179,190,200 7 210,215,218,225,230,245 8 213,225,240,247,249 9 267,275,290,298 Závislost ceny domu na počtu pokojů popište regresní přímkou. Na hladině významnosti 0,05 testujte hypotézu, že přímka je vhodným regresním modelem pro tato data. Těsnost závislosti vyjádřete poměrem determinace. Znázorněte data s proloženou regresní přímkou. Řešení: Empirická regresní přímka má tvar y = 17,2885 + 28,5851 x, SR = 30907,9041, ST = 35870,6087, SA = 32474,1087, ?8^BD8~ ffij^8^~ =~76>Fo,95(3,18) = 3,161, kritický obor W= <3,161, oo) "jelikož F „W, nezamítáme na hladině významnosti 0,05 hypotézu, že přímka je vhodným regresním modelem. Poměr determinace: P2 = SA/ST = 32474,1087/35870,6087 = 0,9053, tedy závislost ceny domu na počtu pokojů je v daném datovém souboru značně silná. 320 300 2S0 230 240 220 200 180 160 140 5 5 50 55 60 65 70 75 80 85 90 £ X v Řešení v systému STATISTICA: Vytvoříme nový datový soubor se dvěma proměnnými X a Y a 23 případy: 1 z X Y ^^^^ v. 1 \_« u v. i- lä Ĺ u ~E 1 / ~£ 1 / / ~£ liž ~E 21 21 21 ~T 21 ~T. Z2 ~T Zč ~T> 24 ~T 21 22 ~T 24 ~T< 24 ~T 24 Z 2fc Z 2/ 'Z L 2b z: L -JU v. ^.O Odhadneme parametry regresní přímky: N=23 F(1: *QKyr£ajese se zavisiou proměnnou §2825096 R2= A86164984 Upravené 21)=130,79 p< ,00000 SměroS. chybc beta betaJ b sm.cm B t(2'lj u rove Abs.cl 'l/,2b Ib.UU u,ybi _ub4/ u,uuu A b U,Ub'l 2b, bb 2,4yi 'IT7f3" Cena = 17,28851 + 28,5806*počet pokojů Sestavíme tabulku ANOVA: Vrátíme se do Výsledky - vícenásobná regrese - Detailní výsledky - ANOVA. Efekt Analýza rozptylu (ceny_bytu. St\/erc55V prumi f Ctverc Urovei Keqre 3U9U/ i 3UyU/ 13U,/ Kezicc 4962 2 236, uelk. 358/U Vidíme, že Sr = 30907,9, St = 35870,61 Provedeme jednofaktorovou analýzu rozptylu, abychom získali skupinový součet čtverců: Statistiky - Základní statistiky a tabulky - Rozklad & jednofakt. ANOVA - OK - Proměnné - Závislé - Y, Grupovací - X -OK - OK - Analýza rozptylu._ Proměi Analýza rozptylu (ceny bytu.sta) Označ. efekty jso\u význ. na hlad. p < ,05000 Sč sv PČ Sč SV PČ f p efektlefell efekt chybí chyb chybi M IIY 324/4 4 8118, 3396, 18 188,6 43,U2 U,UUU Zde najdeme Sa = 32474,11. Vypočteme testovou statistiku F_ S£- M- - fán^fc- Ia^lSswŘ- - ^6 a najdeme kritický obor W = <3,161, oo). Jelikož F„W, nezamítáme na hladině významnosti 0,05 hypotézu, že přímka je vhodným regresním modelem. Test adekvátnosti modelu pomocí Obecných regresních modelů Zadáme data a použijeme cestu: Statistiky - Pokročilé lineární/nelineární modely - Obecné regresní modely - Jednorozměrná regrese - OK - na záložce Možnosti zaškrtneme Kvalita proložení - OK - Závislá Y, Spoj. nezáv. prom. X - OK - Více výsledků - Celkové R - ve stromové struktuře vlevo vybereme Test kvality modelu. Závislá Promel lest Kvanty moaeiu (ceny oytu .sta) SČ Rezid sv PČ Rezid Rezid Chyb dřVi Chyb SČ KV prolož prolož PČ KV prolož ta p II Y 4962,1 2 236,3 3396, 11100,61 1466, 3 b22,U 2,/66 U,U/1 Čitatel testové statistiky F je roven 1566,205 a je uveden ve sloupci Kvalita proložení. Jmenovatel testové statistiky F je roven 3396,5 a je uveden ve sloupci SČ Chyba. Hodnota testové statistiky je 2,767 a odpovídající p-hodnota je 0,0717. Na hladině významnosti 0,05 tedy nemůžeme zamítnout hypotézu, že přímka je vhodným modelem k popisu závislosti ceny domu na počtu pokojů. Regresní přímka a její vlastnosti Uvažujeme regresní model y_ 0 . iX^_ . (Parametr R interpretujeme jako teoretickou hodnotu Y při x = 0 a R udává změnu Y, když X se změní o jednotku. Systém normálních rovnic získáme derivováním výrazu 4 Rb l - n 0 1*1^ parciálně podle o a o : V i i , " . 2^ o Ä\ 1 Q^BH 2^ o tf\ 3 Jj Řešením tohoto systému získáme odhady tb =i= d = d = , = , ,1} _ i= j -i= i = i Po jednoduchých úpravách dospějeme ke tvaru 1} ^J, kde Sfen je kovariance hodnot (xf, yi), i = 1,n a ^2je rozptyl hodnot X!,. Dále dostáváme tb _ ^_ 1^, tedy regresní přímku můžeme vyjádřit ve tvaru V_ľfy , ^X_1I^ , ■ 1 ------------------4 * Pro regresní přímku má reziduální součet čtverců tvar Odhad rozptylu: S2_ Index determinace: ID_ s kde 2 Iv ^ -i- iŕi— < _ ŕ c_ 2 « y = TV A= J 2 nsXY n c 2 tt2) 5x xy 2 — rč2~— 2^7— v- c 2 7XY 2 ŕ, tedy Vidíme tedy, že v případě regresní přímky index determinace je roven kvadrátu koeficientu korelace. Test významnosti směrnice regresní přímky (tj. test H0: = 0 proti H1: p\ í 0) je ekvivalentní hypotéze o nulovosti koeficientu korelace (tj. testu H0: p = 0 proti H1: p í 0). Jestliže koeficient korelace veličin X, Y je blízký 0, nemá smysl počítat parametry regresní přímky. Interval spolehlivosti pro teoretickou regresní přímku při zadané hodnotě x0 má meze: Predikční interval spolehlivosti pro budoucí pozorování při zadané hodnotě x0 má meze: d 1 h L 1 Data s proloženou regresní přímkou, pásy spolehlivosti (červeně) a predikčními pásy (zeleně) X Srovnání intervalu spolehlivosti a predikčního intervalu při zadané hodnotě x0: oba intervaly jsou nejužší v místě xo = mx, interval spolehlivosti pro dané xo je vždy užší než odpovídající predikční interval, predikční interval je určen pro individuální pozorování, zatímco interval spolehlivosti je určen pro hodnoty ležící na regresní přímce, s rostoucím rozsahem výběru se zmenšuje šířka obou intervalů. 3 3 1 1 X) 9D 0 0 2D 4J £D 60"E012)101801802E23202B2D Předpoklady použití regresní přímky: - Závislost Y na X má lineární charakter. - Pro celý rozsah uvažovaných hodnot nezávisle proměnné X je reziduální rozptyl s konstantní (hovoříme o homoskedasticitě a znamená to, že variabilita hodnot závisle proměnné veličiny Y kolem regresní přímky je stejná pro všechny uvažované hodnoty nezávisle proměnné veličiny X). - Hodnoty závisle proměnné veličiny Y mají normální rozložení pro dané hodnoty xi a jsou stochasticky nezávislé (to souvisí s uspořádáním experimentu). Poznámka: Menší odchylky od normality a homoskedasticity je možno tolerovat. Sdružené regresní přímky Uvažme nyní situaci, kdy obě veličiny Y a X jsou náhodné, přičemž samozřejmě předpokládáme, že X nezávisí na náhodné složce 0. Pak jde o případ oboustranné závislosti. Závislost Y na X vystihuje 1. regresní přímka Y_ 0 iX+ a závislost X na Y vystihuje 2. regresní přímka X= o - Odhady fy A regresních koeficientů n f v modelu ){_ + získáme opět metodou nejmenších čtverců ve tvaru 3l=C"^fy= 1\= k^z^V 2. regresní přímka má tedy rovnici: = x+Sy2< " y+ 1. a 2. regresní přímka se nazývají sdružené regresní přímky a odhady regresních koeficientů t},^ se nazývají odhady párově sdružených regresních koeficientů. Je zřejmé, že lofa _ y- Rovnice sdružených regresních přímek můžeme tedy psát ve tvaru: Sdružené regresní přímky se protínají v bodě o souřadnicích p^n^" V případě, že náhodné veličiny X, Y jsou nekorelované, jsou odhady t},^ nulové a sdružené regresní přímky mají tvar Y_nV_,_ , Y=n^+ . Pokud mezi náhodnými veličinami X, Y existuje úplná lineární závislost, pak sdružené regresní přímky splynou. K tomu dojde tehdy, když Txy= ,tj. 3i= . Označíme-li fn úhel, který svírají sdružené regresní přímky, pak z předešlých úvah plyne: CO£ U _mezi X a Y neexistuje žádná lineární závislost; CO£ 1 jnezi X a Y existuje úplná přímá lineární závislost; CO& 1 _<=> mezi X a Y existuje úplná nepřímá lineární závislost. Příklad: Z fiktivního základního souboru všech vzorků oceli odpovídajících „všem myslitelným tavbám" bylo do laboratoře dodáno 60 vzorků a zjištěny a hodnoty proměnné X - mez plasticity a Y - mez pevnosti. Datový soubor má tvar: " 1ÍH 178 ' 83 9S ?■'. 76 133 164 106 111 77 SB 58 76 104 ■17 61 145 m es m ss S5 94 1D7 112 i ih l:>7 142 i i.--; 141 9fl L 02 44 tt 8ti 97 103 ins S2 116 121 LllT 99 LIS 141 157 119 L38 104 126 L.v) 189 112 125 107 118 136 155 85 87 93 J -III &2 81 41 75 97 US m 96 113 lOS 101 72 79 45 89 71 93 66 SI SS 109 ;i!J 69 42 91 51 35 122 14? 113 123 101 114 33 52 i2 85 16D 78 1 17 m 1 17 ST UK 114 l:<7 153 179 S3 125 M!i 35 91 a) Určete regresní přímku meze pevnosti na mez plasticity. b) Zakreslete regresní přímku do dvourozměrného tečkového diagramu spolu s 95% pásem spolehlivosti a predikčním pásem spolehlivosti. c) Najděte regresní odhad meze pevnosti pro mez plasticity = 60. d) Vypočtěte index determinace a interpretujte ho. e) Určete regresní přímku meze plasticity na mez pevnosti. f) Zakreslete regresní přímku do dvourozměrného tečkového diagramu. g) Obě regresní přímky zakreslete do téhož dvourozměrného tečkového diagramu. Řešení v systému STATISTICA: Odhad parametrů 1. regresní přímky: Statistiky - Vícerozměrná regrese - Závisle proměnná Y, nezávisle proměnná X - OK - OK - Výpočet: Výsledky regrese. N=60 R=S!Íd4^lgÍTSfeÍe,^733S83O0U1 TOSSSJ F(1,58)=400,06 p<0',0000 Směrod. chyba beta sm.cny betaJ b Snbcnyl t(S8) urO3ei ads.ci 4,/40| b,1«J 0,000 X 0,934| 0,046 0,936 0,046 230,00 0,000 Zakreslení regresních pásů do dvourozměrného tečkového diagramu s proloženou regresní přímkou: Grafy - Bodové grafy - Proměnné X, Y - OK - na záložce Detaily zaškrtneme Regresní pásy Spolehl. - OK. Ve vytvořeném grafu pak 2x klikneme na pozadí grafu a v nabídce Regresní pásy vybereme Přidat nový pár pásů - zaškrtneme Predikční. tttioýgáz YpOi X ae.sta2/6C Y=215B8H0ä&X 0S5ttspl.; 085Irtpei X Analogicky získáme výsledky pro 2. regresní přímku: N60 FTISWCKB ptiOdOOSrírocl chteodhdi : 11,741 -1,9454 00:6b/9 Y 093454 00462 0932 00661 2000016 0010000 180 16U 140 120 X 100 8) 8D 4) BoCo/ýgcf zXpot Y X=-t)7SBiq^C<; qSBIrtspcl.; qSBIrtpeC ^0 '--------------^ -' o , -tí 0 ° , o'' ° c 3D 8D 100 120 Y 14) 160 180 200 Nakreslení sdružených regresních přímek do jednoho diagramu: K datovému souboru ocel.sta přidáme dvě nové proměnné yl a y2. Do proměnné yl uložíme predikované hodnoty meze pevnosti na mezi plasticity (do Dlouhého jména proměnné yl napíšeme =24,58814 - 0,93668*x a do Dlouhého jména proměnné y2 napíšeme =(x+10,7858)/0,9324 Grafy - Bodové grafy - zaškrtneme Vícenásobný - Proměnné X: X, Y: Y, yl, y2 - OK. Ve vytvořeném grafu pak vypneme zobrazování značek pro yl, y2 a naopak zapneme Spojnici. 230 180 160 140 120 100 83 83 ° 0 0 0/y 0 Si* c ° ° »> 43 83 83 100 120 140 160 180