Jednoduchá lineární regrese II Model regresní přímky Máme regresní model ε+β+β= xY 10 , kde xy 10 β+β= - teoretická regresní přímka (deterministicka složka modelu). (Parametr 0β interpretujeme jako teoretickou hodnotu Y při x = 0 a 1β udává změnu Y, když X se změní o jednotku.) Složka ε - náhodná složka modelu. Předpoklady použití regresní přímky: - Závislost Y na X má lineární charakter. - Pro celý rozsah uvažovaných hodnot nezávisle proměnné X je reziduální rozptyl s2 konstantní (hovoříme o homoskedasticitě a znamená to, že variabilita hodnot závisle proměnné veličiny Y kolem regresní přímky je stejná pro všechny uvažované hodnoty nezávisle proměnné veličiny X). - Hodnoty závisle proměnné veličiny Y mají normální rozložení pro dané hodnoty xi a jsou stochasticky nezávislé (to souvisí s uspořádáním experimentu). Poznámka: Menší odchylky od normality a homoskedasticity je možno tolerovat. Systém normálních rovnic pro regresní přímku Uvažujeme regresní model ε+β+β= xY 10 . Systém normálních rovnic pro odhad regresních parametrů 0β a 1β získáme derivováním výrazu ( ) ( )∑= β−β−=ββ n 1i 2 i10i10 xy n 1 ,q parciálně podle 0β a 1β : ( ) ( )( )∑= =−β−β−= β∂ ββ∂ n 1i i10i 0 10 01xy n 1 2 ,q , ( ) ( )( )∑= =−β−β−= β∂ ββ∂ n 1i ii10i 1 10 0xxy n 1 2 ,q Řešením tohoto systému získáme odhady 2n 1i i n 1i 2 i n 1i i n 1i i n 1i ii 12n 1i i n 1i 2 i n 1i ii n 1i i n 1i i n 1i 2 i 0 xxn yxyxn b, xxn yxxyx b       − − =       − − = ∑∑ ∑∑∑ ∑∑ ∑∑∑∑ == === == ==== Po jednoduchých úpravách dospějeme ke tvaru 2 1 12 1 s s b = , kde 12s je kovariance hodnot (xi, yi), i = 1, ..., n a 2 1s je rozptyl hodnot n1 x,,x K . Dále dostáváme 1120 mbmb −= , tedy regresní přímku můžeme vyjádřit ve tvaru ( )12 1 12 2 mx s s my −+= . Index determinace regresní přímky Kvalitu regresních modelů posuzujeme mj. pomocí indexu determinace: T R2 S S ID = , kde ( )∑= −= n 1i 2 2iR myˆS je regresní součet čtverců a ( )∑= −= n 1i 2 2iT myS je celkový součet čtverců. Pro regresní přímku má regresní součet čtverců tvar: ( ) ( ) ( ) 2 1 2 12 n 1i 2 2i4 1 2 12 n 1i 2 21i2 1 12 2 n 1i 2 2iR s s nmx s s mmx s s mmyˆS =−=      −−+=−= ∑∑∑ === . Celkový součet čtverců ( ) 2 2 n 1i 2 2iT nsmyS =−= ∑= , tedy index determinace 2 122 2 2 1 2 12 2 2 2 1 2 12 T R2 r ss s ns s s n S S ID ==== Vidíme tedy, že v případě regresní přímky index determinace je roven kvadrátu koeficientu korelace. Index determinace nabývá hodnot z intervalu 1,0 . Často se vyjadřuje v procentech a informuje nás o tom, jakou část variability hodnot závisle proměnné veličiny Y vyčerpává regresní model. Sdružené regresní přímky Předpokládáme, že obě veličiny Y a X jsou náhodné a veličina X nezávisí na náhodné složce ε . Pak jde o případ oboustranné závislosti. Závislost Y na X vystihuje regresní model ε+β+β= xY 10 , závislost X na Y vystihuje regresní model δ+α+α= yX 10 . Odhady 10 a,a regresních parametrů 10 ,αα v modelu ii10i yX δ+α+α= získáme opět MNČ ve tvaru 22 2 12 121102 2 12 1 m s s mmama, s s a −=−== . Empirická regresní přímka závislosti X na Y má tedy rovnici: ( )22 2 12 1 my s s mx −+= . Obě empirické regresní přímky y = b0 + b1x, x = a0 + a1y se nazývají sdružené regresní přímky a odhady regresních parametrů 11 a,b se nazývají odhady párově sdružených regresních parametrů. Je zřejmé, že 2 1211 rab = . Rovnice sdružených regresních přímek můžeme tedy psát ve tvaru: ( )12 1 12 2 mx s s my −+= , ( )2 1 2 12 1 mx s s r 1 my −+= . Vlastnosti sdružených regresních přímek a) Sdružené regresní přímky se protínají v bodě o souřadnicích [ ]21 m,m (tj. v těžišti dvourozměrného tečkového diagramu). b) Je-li r12 = 0 (tj. náhodné veličiny X, Y jsou nekorelované), pak sdružené regresní přímky mají rovnice 2my = , 1mx = (tj. jsou to kolmice rovnoběžné se souřadnými osami). c) Je-li r12 2 = 1 (tj. mezi náhodnými veličinami X, Y existuje úplná lineární závislost), pak sdružené regresní přímky splynou a 1 1 b 1 a = . d) Je-li 0 < r12 2 < 1, pak sdružené regresní přímky se liší a svírají úhel, který je tím menší, čím je těsnější lineární závislost veličin X, Y. e) Označíme-li ϕ úhel, který svírají sdružené regresní přímky, pak z předešlých úvah plyne: ⇔=ϕ 0cos mezi X a Y neexistuje žádná lineární závislost; ⇔=ϕ 1cos mezi X a Y existuje úplná přímá lineární závislost; ⇔−=ϕ 1cos <=> mezi X a Y existuje úplná nepřímá lineární závislost. Příklad: Z fiktivního základního souboru všech vzorků oceli odpovídajících „všem myslitelným tavbám“ bylo do laboratoře dodáno 60 vzorků a zjištěny a hodnoty proměnné X – mez plasticity a Y – mez pevnosti. Datový soubor má tvar: a) Určete regresní přímku meze pevnosti na mez plasticity. b) Zakreslete regresní přímku do dvourozměrného tečkového diagramu. c) Najděte regresní odhad meze pevnosti pro mez plasticity = 60. d) Vypočtěte index determinace a interpretujte ho. e) Najděte reziduální součet čtverců a odhad rozptylu náhodných odchylek. f) Určete regresní přímku meze plasticity na mez pevnosti. g) Zakreslete regresní přímku do dvourozměrného tečkového diagramu. h) Obě regresní přímky zakreslete do téhož dvourozměrného tečkového diagramu. Řešení v systému STATISTICA: Ad a) Odhad parametrů 1. regresní přímky: Statistiky – Vícerozměrná regrese – Závisle proměnná Y, nezávisle proměnná X - OK – OK – Výpočet: Výsledky regrese. Výsledky regrese se závislou proměnnou : Y (ocel.sta) R= ,93454811 R2= ,87338017 Upravené R2= ,87119707 F(1,58)=400,06 p<0,0000 Směrod. chyba odhadu : 11,768 N=60 Beta Sm.chyba beta B Sm.chyba B t(58) Úroveň p Abs.člen X 24,58814 4,740272 5,18707 0,000003 0,934548 0,046724 0,93668 0,046830 20,00160 0,000000 Ad b) Zakreslení regresních přímky do dvourozměrného tečkového diagramu: Grafy – Bodové grafy – Proměnné X, Y – OK – OK. Bodový graf z Y proti X ocel.sta 2v*60c Y = 24,5881+0,9367*x 20 40 60 80 100 120 140 160 180 X 40 60 80 100 120 140 160 180 200 Y Ad c) Výpočet predikované hodnoty: Pro výpočet predikované hodnoty zvolíme Rezidua/předpoklady/předpovědi Předpovědi závisle proměnné X: 60 OK. Ve výstupní tabulce je hledaná hodnota označena jako Předpověď: 80,79 Předpovězené hodnoty (ocel.sta) proměnné: Y Proměnná b-váha Hodnota b-váha * Hodnot X Abs. člen Předpověď -95,0%LS +95,0%LS 0,936679 60,00000 56,20071 24,58814 80,78885 76,25426 85,32344 Regresní odhad meze pevnosti pro mez plasticity 60 je tedy 80,8. Ad d) Index determinace najdeme ve výstupní tabulce regrese pod označením R2: Výsledky regrese se závislou proměnnou : Y (ocel.sta) R= ,93454811 R2= ,87338017 Upravené R2= ,87119707 F(1,58)=400,06 p<0,0000 Směrod. chyba odhadu : 11,768 N=60 Beta Sm.chyba beta B Sm.chyba B t(58) Úroveň p Abs.člen X 24,58814 4,740272 5,18707 0,000003 0,934548 0,046724 0,93668 0,046830 20,00160 0,000000 Vidíme, že variabilita meze pevnosti je regresní přímkou vyčerpána z 87,3 %. Ad e) Reziduální součet čtverců a odhad rozptylu najdeme v tabulce ANOVA: Vrátíme se do Výsledky – Vícenásobná regrese – na záložce Detailní výsledky zvolíme ANOVA (Celk. vhodnost modelu) Analýza rozptylu (ocel.sta) Efekt Součet čtverců sv Průměr čtverců F p-hodn. Regres. Rezid. Celk. 55400,60 1 55400,60 400,0641 0,000000 8031,80 58 138,48 63432,40 Vidíme, že reziduální součet čtverců je 8031,8 a reziduální rozptyl nabývá hodnoty 138,48. Ad f) Výsledky pro 2. regresní přímku: Výsledky regrese se závislou proměnnou : X (ocel.sta) R= ,93454811 R2= ,87338017 Upravené R2= ,87119707 F(1,58)=400,06 p<0,0000 Směrod. chyba odhadu : 11,741 N=60 Beta Sm.chyba beta B Sm.chyba B t(58) Úroveň p Abs.člen Y -10,7858 5,544250 -1,94540 0,056579 0,934548 0,046724 0,9324 0,046617 20,00160 0,000000 Vidíme, že x = -10,7858 + 0,9324y. Ad g) Dvourozměrný tečkový diagram se zakreslenou 2. regresní přímkou Bodový graf z X proti Y ocel.sta 2v*60c X = -10,7858+0,9324*x 40 60 80 100 120 140 160 180 200 Y 20 40 60 80 100 120 140 160 180 X Ad h) Nakreslení sdružených regresních přímek do jednoho diagramu: K datovému souboru ocel.sta přidáme dvě nové proměnné y1 a y2. Do proměnné y1 uložíme predikované hodnoty meze pevnosti na mezi plasticity (do Dlouhého jména proměnné y1 napíšeme =24,58814 + 0,93668*x a do Dlouhého jména proměnné y2 napíšeme =(x+10,7858)/0,9324 Grafy – Bodové grafy – zaškrtneme Vícenásobný – Proměnné X: X, Y: Y, y1, y2 – OK. Ve vytvořeném grafu pak vypneme zobrazování značek pro y1, y2 a naopak zapneme Spojnici. 20 40 60 80 100 120 140 160 180 40 60 80 100 120 140 160 180 200 Test adekvátnosti regresního modelu Hodnoty veličiny Y jsou roztříděny do r ≥ 3 skupin podle variant x[1], ..., x[r] veličiny X. Označme ni počet pozorování v i-té skupině, i = 1, …, r, přičemž aspoň jedna skupina má více než jedno pozorování. Budeme předpokládat, že každá skupina hodnot má normální rozložení a že všechny skupiny mají týž rozptyl. Všech pozorování je n. Průměr hodnot v i-té skupině označme Mi a průměr všech hodnot označme M. Charakter závislosti Y na X popíšeme regresní funkcí ( )p10 ,,,;xm βββ K . Budeme testovat hypotézu, zda je tato regresní funkce vhodným modelem pro naše data. Při testování budeme potřebovat tyto součty čtverců: celkový součet čtverců ( )∑∑ = = −= r 1i n 1j 2 ijT i MYS , skupinový součet čtverců ( )∑ = −= r 1i 2 iiA MMnS , regresní součet čtverců ( )∑ = −= r 1i 2 iiiR MyˆnS . Testová statistika: ( ) ( ) ( ) ( )rn/SS 1pr/SS F AT RA −− −−− = se řídí rozložením F(r-p-1, n-r), jestliže H0 platí. Kritický obor: W = na hladině významnosti α zamítáme hypotézu, že funkce ( )p10 ,,,;xm βββ K je vhodným regresním modelem závislosti Y na X. Těsnost závislosti Y na X vyjádřenou skupinovými průměry měří poměr determinace P2 = SA/ST. Nabývá hodnot z intervalu <0,1>. Čím je poměr determinace bližší jedné, tím je závislost silnější, čím je bližší nule, tím je závislost slabší. Příklad: Máme k dispozici údaje o cenách 23 náhodně vybraných domů (veličina Y – v tisících $) a počtu jejich pokojů (veličina X) v jednom americkém městě. počet pokojů cena 5 155,168,180 6 166,172,179,190,200 7 210,215,218,225,230,245 8 213,225,240,247,249 9 267,275,290,298 Závislost ceny domu na počtu pokojů popište regresní přímkou. Na hladině významnosti 0,05 testujte hypotézu, že přímka je vhodným regresním modelem pro tato data. Těsnost závislosti vyjádřete poměrem determinace. Znázorněte data s proloženou regresní přímkou. Řešení: MNČ odhadneme parametry regresní přímky. Má tvar y = 17,2885 + 28,5851 x. Vypočítáme regresní součet čtverců: ( )∑ = −= r 1i 2 iiiR MyˆnS = 30907,9041, celkový součet čtverců: ( )∑∑ = = −= r 1i n 1j 2 ijT i MYS = 35870,6087, skupinový součet čtverců: ( )∑ = −= r 1i 2 iiA MMnS = 32474,1087. Testová statistika: ( ) ( ) ( ) ( )rn/SS 1pr/SS F AT RA −− −−− = = ( ) ( ) ( ) ( ) 768,2 523/1087,324746087,35870 25/9041,309071087,32474 = −− −− Stanovíme kritický obor W = dU, tudíž nelze zamítnout hypotézu, že rezidua nejsou kladně korelovaná. Parametry výsledného modelu jsou: Výsledky regrese se závislou proměnnou : nove y2 (Tabulka12) R= ,97136268 R2= ,94354546 Upravené R2= ,93690375 F(2,17)=142,06 p<,00000 Směrod. chyba odhadu : ,82061 N=20 b* Sm.chyba z b* b Sm.chyba z b t(17) p-hodn. Abs.člen x xkv -19,7523 2,605683 -7,58046 0,000001 4,53932 0,440084 1,5103 0,146425 10,31467 0,000000 -3,73197 0,440084 -0,0166 0,001958 -8,48013 0,000000 Regresní parabola má tedy rovnici: y = -19,7523 + 1,5103x - 0,0166x2 . Linearizující transformace Odhad parametrů regresních funkcí, které nejsou lineární z hlediska parametrů, se neprovádí metodou nejmenších čtverců přímo, protože její použití vede k soustavě nelineárních rovnic. V některých speciálních případech však nelineární regresní funkci můžeme vhodnou transformací převést na lineární. Např. máme exponenciální regresní funkci x 10y ββ= . Provedeme logaritmickou transformaci ln y = ln β0 + x ln β1 , čímž získáme regresní funkci lineární v parametrech. Parametry ln β0 a ln β1 odhadneme metodou nejmenších čtverců a odlogaritmováním získáme odhady původních regresních koeficientů β0, β1. Přehled linearizujících transformací Funkce Linearizující transformace x 10y ββ= ln y = ln β0 + x ln β1 1 xy 0 β β= ln y = ln β0 + β1 ln x 1 x y 0 β β = ln y = ln β0 - β1 ln x x 1 y 10 β+β = x y 1 10 β+β= Příklad: Hotelová společnost vlastnící 12 hotelů analyzuje vztah mezi celkovými měsíčními tržbami (veličina Y) a tržbami vyprodukovanými stravovacími úseky (veličina X). č. h. 1 2 3 4 5 6 7 8 9 10 11 12 x 2,0 1,2 14,8 8,3 8,4 3,0 4,8 15,6 16,1 11,5 14,2 14,0 y 12,0 8,0 76,4 17,0 21,3 10,0 12,5 97,3 88,0 25,0 38,6 47,3 Popište tuto závislost exponenciální regresní funkcí x 10y ββ= . Najděte odhady parametrů β0, β1 a vypočtěte predikovanou hodnotu celkových měsíčních tržeb pro x = 10. Řešení: Provedeme logaritmickou transformaci ln y = ln β0 + x ln β1. Metodou nejmenších čtverců získáme odhady ln b0 = 1,8559, ln b1 = 0,1504. Odlogaritmováním dostaneme b0 = 6,3973, b1 = 1,1623. Predikovaná hodnota y pro x = 10 je 6,3973.1,162310 = 28,7859. Řešení v systému STATISTICA: Vytvoříme datový soubor se dvěma proměnnými a 12 případy: 1 Y 2 X 1 2 3 4 5 6 7 8 9 10 11 12 12 2 8 1,2 76,4 14,8 17 8,3 21,3 8,4 10 3 12,5 4,8 97,3 15,6 88 16,1 25 11,5 38,6 14,2 47,3 14 Přidáme novou proměnnou ln y. Do jejího Dlouhého jména napíšeme =log(y). Pak provedeme regresní analýzu se závisle proměnnou ln y a nezávisle proměnnou X: Výsledky regrese se závislou proměnnou : ln y (hotely.sta) R= ,95851605 R2= ,91875303 Upravené R2= ,91062833 F(1,10)=113,08 p<,00000 Směrod. chyba odhadu : ,26364 N=12 Beta Sm.chyba beta B Sm.chyba B t(10) Úroveň p Abs.člen X 1,855881 0,154338 12,02480 0,000000 0,958516 0,090137 0,150428 0,014146 10,63398 0,000001 K výsledné tabulce přidáme novou proměnnou b, do jejíhož Dlouhého jména napíšeme =exp(B). Výsledky regrese se závislou proměnnou : ln y (hotely.sta) R= ,95851605 R2= ,91875303 Upravené R2= ,91062833 F(1,10)=113,08 p<,00000 Směrod. chyba odhadu : ,26364 N=12 Beta Sm.chyba beta B Sm.chyba B t(10) Úroveň p b =exp(B) Abs.člen X 1,855881 0,154338 12,02480 0,000000 6,397333 0,958516 0,090137 0,150428 0,014146 10,63398 0,000001 1,162332 Model má tedy tvar: y = 6,397333.1,162332x . Získání predikované hodnoty pro x = 10: Vrátíme se do Výsledky – vícenásobná regrese – na záložce Rezidua/předpoklady/předpovědi vybereme Předpověď závisle proměnné – X = 10 – OK. K výsledné tabulce přidáme proměnnou predikce a do jejího Dlouhého jména napíšeme =exp(v3). Předpovězené hodnoty (hotely.sta) proměnné: ln y Proměnná b-váha Hodnota b-váha * Hodnot predikce =exp(v3) X Abs. člen Předpověď -95,0%LS +95,0%LS 0,150428 10,00000 1,504281 4,500918 1,855881 6,397333 3,360163 28,79387 3,189835 24,28441 3,530490 34,14071 Vidíme, že predikovaná hodnota je 28,79. Vytvoříme ještě dvourozměrný tečkový diagram s proloženou exponenciálou. Na záložce Rezidua/předpoklady/předpovědi vybereme reziduální analýza – Uložit – Uložit rezidua & předpovědi – vybereme X, Y – OK. Ve vzniklé tabulce odstraníme proměnné č. 5 až 10 a proměnnou rezidua přejmenujeme na Predikce. Do Dlouhého jména této proměnné napíšeme =exp(v3). Tento datový soubor uspořádáme podle velikosti hodnot proměnné X: Data - Setřídit – Proměnná X – OK. hotely.sta 1 Y 2 X 3 Předpovědi 4 Predikce 1 1 3 4 5 6 7 8 9 10 11 12 8 1,2 2,04 7,66 12 2 2,16 8,64 10 3 2,31 10,05 12,5 4,8 2,58 13,17 17 8,3 3,10 22,30 21,3 8,4 3,12 22,63 25 11,5 3,59 36,08 47,3 14 3,96 52,56 38,6 14,2 3,99 54,16 76,4 14,8 4,08 59,28 97,3 15,6 4,20 66,86 88 16,1 4,28 72,08 Vytvoření grafu: Grafy – Bodové grafy – zaškrtneme Vícenásobný – Proměnné X: X, Y: Y, Predikce – OK. Ve vytvořeném grafu pak vypneme zobrazování značek pro Predikce a naopak zapneme Spojnici. Bodový graf z více proměnných proti X Tabulka4 4v*12c Y Predikce 0 2 4 6 8 10 12 14 16 18 X 0 10 20 30 40 50 60 70 80 90 100 110 Provedení regresní analýzy pomocí modulu Jednoduchá nelineární regrese Pro data z předešlého příkladu najdeme odhady parametrů modelu x 10y ββ= pomocí modulu Jednoduchá nelineární regrese. Statistiky - Pokročilé lineární/nelineární odhady - Jednoduchá nelineární regrese – Proměnné X, Y – OK – OK – zaškrtneme LN(X) – OK – Proměnné – Závislé LN-V1, Nezávislé X – OK. Dostaneme stejnou tabulku jako předešlým postupem a výsledné hodnoty odhadů regresních parametrů získáme exponenciální transformací. Získání odhadů parametrů modelu x 10y ββ= pomocí Bodových grafů Grafy – Bodové grafy – Proměnné X, Y – OK – na záložce Detaily zaškrtneme Proložení Exponenciální – OK. Bodový graf z Y proti X hotely.sta 3v*12c Y = 6,3973*exp(0,1504*x) 0 2 4 6 8 10 12 14 16 18 X 0 10 20 30 40 50 60 70 80 90 100 110 Y V záhlaví grafu je uvedena regresní rovnice y = 6,3973*exp(0,1504*x), tedy b0 = 6,3973, b1 = e0,1504 = 1,1623. Kritické hodnoty Durbinova-Watsonova testu pro autokorelaci 1. řádu pro α = 0,05, rozsah výběru n a počet regresorů p (bez konstant) p=1 p=2 p=3 p=4 p=5 n dL dU dL dU dL dU dL dU dL dU 15 1,08 1,36 0,95 1,54 0,82 1,75 0,69 1,97 0,56 2,21 20 1,20 1,41 1,10 1,54 1,00 1,68 0,90 1,83 0,79 1,99 30 1,35 1,49 1,28 1,57 1,21 1,65 1,14 1,74 1,07 1,83 40 1,44 1,54 1,39 1,60 1,34 1,66 1,29 1,72 1,23 1,79 60 1,55 1,62 1,51 1,65 1,48 1,69 1,44 1,73 1,41 1,77 80 1,61 1,66 1,59 1,69 1,56 1,72 1,53 1,74 1,51 1,77 100 1,65 1,69 1,63 1,72 1,61 1,74 1,59 1,76 1,57 1,78