Pokročilé metody v jednoduché lineární regresi Test adekvátnosti regresního modelu Hodnoty veličiny Y jsou roztříděny do r ≥ 3 skupin podle variant x[1], ..., x[r] veličiny X. Označme ni počet pozorování v i-té skupině, i = 1, …, r, přičemž aspoň jedna skupina má více než jedno pozorování. Budeme předpokládat, že každá skupina hodnot má normální rozložení a že všechny skupiny mají týž rozptyl. Všech pozorování je n. Průměr hodnot v i-té skupině označme Mi a průměr všech hodnot označme M. Charakter závislosti Y na X popíšeme regresní funkcí ( )p10 ,,,;xm βββ K . Budeme testovat hypotézu, zda je tato regresní funkce vhodným modelem pro naše data. Při testování budeme potřebovat tyto součty čtverců: celkový součet čtverců ( )∑∑ = = −= r 1i n 1j 2 ijT i MYS , skupinový součet čtverců ( )∑ = −= r 1i 2 iiA MMnS , regresní součet čtverců ( )∑ = −= r 1i 2 iiiR MyˆnS . Testová statistika: ( ) ( ) ( ) ( )rn/SS 1pr/SS F AT RA −− −−− = se řídí rozložením F(r-p-1, n-r), jestliže H0 platí. Kritický obor: W = na hladině významnosti α zamítáme hypotézu, že funkce ( )p10 ,,,;xm βββ K je vhodným regresním modelem závislosti Y na X. Těsnost závislosti Y na X vyjádřenou skupinovými průměry měří poměr determinace P2 = SA/ST. Nabývá hodnot z intervalu <0,1>. Čím je poměr determinace bližší jedné, tím je závislost silnější, čím je bližší nule, tím je závislost slabší. Příklad: Máme k dispozici údaje o cenách 23 náhodně vybraných domů (veličina Y – v tisících $) a počtu jejich pokojů (veličina X) v jednom americkém městě. počet pokojů cena 5 155,168,180 6 166,172,179,190,200 7 210,215,218,225,230,245 8 213,225,240,247,249 9 267,275,290,298 Závislost ceny domu na počtu pokojů popište regresní přímkou. Na hladině významnosti 0,05 testujte hypotézu, že přímka je vhodným regresním modelem pro tato data. Těsnost závislosti vyjádřete poměrem determinace. Znázorněte data s proloženou regresní přímkou. Řešení: MNČ odhadneme parametry regresní přímky. Má tvar y = 17,2885 + 28,5851 x. Vypočítáme regresní součet čtverců: ( )∑ = −= r 1i 2 iiiR MyˆnS = 30907,9041, celkový součet čtverců: ( )∑∑ = = −= r 1i n 1j 2 ijT i MYS = 35870,6087, skupinový součet čtverců: ( )∑ = −= r 1i 2 iiA MMnS = 32474,1087. Testová statistika: ( ) ( ) ( ) ( )rn/SS 1pr/SS F AT RA −− −−− = = ( ) ( ) ( ) ( ) 768,2 523/1087,324746087,35870 25/9041,309071087,32474 = −− −− Stanovíme kritický obor W = dU, tudíž nelze zamítnout hypotézu, že rezidua nejsou kladně korelovaná. Parametry výsledného modelu jsou: Výsledky regrese se závislou proměnnou : nove y2 (Tabulka12) R= ,97136268 R2= ,94354546 Upravené R2= ,93690375 F(2,17)=142,06 p<,00000 Směrod. chyba odhadu : ,82061 N=20 b* Sm.chyba z b* b Sm.chyba z b t(17) p-hodn. Abs.člen x xkv -19,7523 2,605683 -7,58046 0,000001 4,53932 0,440084 1,5103 0,146425 10,31467 0,000000 -3,73197 0,440084 -0,0166 0,001958 -8,48013 0,000000 Regresní parabola má tedy rovnici: y = -19,7523 + 1,5103x - 0,0166x2 . Linearizující transformace Odhad parametrů regresních funkcí, které nejsou lineární z hlediska parametrů, se neprovádí metodou nejmenších čtverců přímo, protože její použití vede k soustavě nelineárních rovnic. V některých speciálních případech však nelineární regresní funkci můžeme vhodnou transformací převést na lineární. Např. máme exponenciální regresní funkci x 10y ββ= . Provedeme logaritmickou transformaci ln y = ln β0 + x ln β1 , čímž získáme regresní funkci lineární v parametrech. Parametry ln β0 a ln β1 odhadneme metodou nejmenších čtverců a odlogaritmováním získáme odhady původních regresních koeficientů β0, β1. Přehled linearizujících transformací Funkce Linearizující transformace x 10y ββ= ln y = ln β0 + x ln β1 1 xy 0 β β= ln y = ln β0 + β1 ln x 1 x y 0 β β = ln y = ln β0 - β1 ln x x 1 y 10 β+β = x y 1 10 β+β= Příklad: Hotelová společnost vlastnící 12 hotelů analyzuje vztah mezi celkovými měsíčními tržbami (veličina Y) a tržbami vyprodukovanými stravovacími úseky (veličina X). č. h. 1 2 3 4 5 6 7 8 9 10 11 12 x 2,0 1,2 14,8 8,3 8,4 3,0 4,8 15,6 16,1 11,5 14,2 14,0 y 12,0 8,0 76,4 17,0 21,3 10,0 12,5 97,3 88,0 25,0 38,6 47,3 Popište tuto závislost exponenciální regresní funkcí x 10y ββ= . Najděte odhady parametrů β0, β1 a vypočtěte predikovanou hodnotu celkových měsíčních tržeb pro x = 10. Řešení: Provedeme logaritmickou transformaci ln y = ln β0 + x ln β1. Metodou nejmenších čtverců získáme odhady ln b0 = 1,8559, ln b1 = 0,1504. Odlogaritmováním dostaneme b0 = 6,3973, b1 = 1,1623. Predikovaná hodnota y pro x = 10 je 6,3973.1,162310 = 28,7859. Řešení v systému STATISTICA: Vytvoříme datový soubor se dvěma proměnnými a 12 případy: 1 Y 2 X 1 2 3 4 5 6 7 8 9 10 11 12 12 2 8 1,2 76,4 14,8 17 8,3 21,3 8,4 10 3 12,5 4,8 97,3 15,6 88 16,1 25 11,5 38,6 14,2 47,3 14 Přidáme novou proměnnou ln y. Do jejího Dlouhého jména napíšeme =log(y). Pak provedeme regresní analýzu se závisle proměnnou ln y a nezávisle proměnnou X: Výsledky regrese se závislou proměnnou : ln y (hotely.sta) R= ,95851605 R2= ,91875303 Upravené R2= ,91062833 F(1,10)=113,08 p<,00000 Směrod. chyba odhadu : ,26364 N=12 Beta Sm.chyba beta B Sm.chyba B t(10) Úroveň p Abs.člen X 1,855881 0,154338 12,02480 0,000000 0,958516 0,090137 0,150428 0,014146 10,63398 0,000001 K výsledné tabulce přidáme novou proměnnou b, do jejíhož Dlouhého jména napíšeme =exp(B). Výsledky regrese se závislou proměnnou : ln y (hotely.sta) R= ,95851605 R2= ,91875303 Upravené R2= ,91062833 F(1,10)=113,08 p<,00000 Směrod. chyba odhadu : ,26364 N=12 Beta Sm.chyba beta B Sm.chyba B t(10) Úroveň p b =exp(B) Abs.člen X 1,855881 0,154338 12,02480 0,000000 6,397333 0,958516 0,090137 0,150428 0,014146 10,63398 0,000001 1,162332 Model má tedy tvar: y = 6,397333.1,162332x . Získání predikované hodnoty pro x = 10: Vrátíme se do Výsledky – vícenásobná regrese – na záložce Rezidua/předpoklady/předpovědi vybereme Předpověď závisle proměnné – X = 10 – OK. K výsledné tabulce přidáme proměnnou predikce a do jejího Dlouhého jména napíšeme =exp(v3). Předpovězené hodnoty (hotely.sta) proměnné: ln y Proměnná b-váha Hodnota b-váha * Hodnot predikce =exp(v3) X Abs. člen Předpověď -95,0%LS +95,0%LS 0,150428 10,00000 1,504281 4,500918 1,855881 6,397333 3,360163 28,79387 3,189835 24,28441 3,530490 34,14071 Vidíme, že predikovaná hodnota je 28,79. Vytvoříme ještě dvourozměrný tečkový diagram s proloženou exponenciálou. Na záložce Rezidua/předpoklady/předpovědi vybereme reziduální analýza – Uložit – Uložit rezidua & předpovědi – vybereme X, Y – OK. Ve vzniklé tabulce odstraníme proměnné č. 5 až 10 a proměnnou rezidua přejmenujeme na Predikce. Do Dlouhého jména této proměnné napíšeme =exp(v3). Tento datový soubor uspořádáme podle velikosti hodnot proměnné X: Data - Setřídit – Proměnná X – OK. hotely.sta 1 Y 2 X 3 Předpovědi 4 Predikce 1 1 3 4 5 6 7 8 9 10 11 12 8 1,2 2,04 7,66 12 2 2,16 8,64 10 3 2,31 10,05 12,5 4,8 2,58 13,17 17 8,3 3,10 22,30 21,3 8,4 3,12 22,63 25 11,5 3,59 36,08 47,3 14 3,96 52,56 38,6 14,2 3,99 54,16 76,4 14,8 4,08 59,28 97,3 15,6 4,20 66,86 88 16,1 4,28 72,08 Vytvoření grafu: Grafy – Bodové grafy – zaškrtneme Vícenásobný – Proměnné X: X, Y: Y, Predikce – OK. Ve vytvořeném grafu pak vypneme zobrazování značek pro Predikce a naopak zapneme Spojnici. Bodový graf z více proměnných proti X Tabulka4 4v*12c Y Predikce 0 2 4 6 8 10 12 14 16 18 X 0 10 20 30 40 50 60 70 80 90 100 110 Provedení regresní analýzy pomocí modulu Jednoduchá nelineární regrese Pro data z předešlého příkladu najdeme odhady parametrů modelu x 10y ββ= pomocí modulu Jednoduchá nelineární regrese. Statistiky - Pokročilé lineární/nelineární odhady - Jednoduchá nelineární regrese – Proměnné X, Y – OK – OK – zaškrtneme LN(X) – OK – Proměnné – Závislé LN-V1, Nezávislé X – OK. Dostaneme stejnou tabulku jako předešlým postupem a výsledné hodnoty odhadů regresních parametrů získáme exponenciální transformací. Získání odhadů parametrů modelu x 10y ββ= pomocí Bodových grafů Grafy – Bodové grafy – Proměnné X, Y – OK – na záložce Detaily zaškrtneme Proložení Exponenciální – OK. Bodový graf z Y proti X hotely.sta 3v*12c Y = 6,3973*exp(0,1504*x) 0 2 4 6 8 10 12 14 16 18 X 0 10 20 30 40 50 60 70 80 90 100 110 Y V záhlaví grafu je uvedena regresní rovnice y = 6,3973*exp(0,1504*x), tedy b0 = 6,3973, b1 = e0,1504 = 1,1623. Kritické hodnoty Durbinova-Watsonova testu pro autokorelaci 1. řádu pro α = 0,05, rozsah výběru n a počet regresorů p (bez konstant) p=1 p=2 p=3 p=4 p=5 n dL dU dL dU dL dU dL dU dL dU 15 1,08 1,36 0,95 1,54 0,82 1,75 0,69 1,97 0,56 2,21 20 1,20 1,41 1,10 1,54 1,00 1,68 0,90 1,83 0,79 1,99 30 1,35 1,49 1,28 1,57 1,21 1,65 1,14 1,74 1,07 1,83 40 1,44 1,54 1,39 1,60 1,34 1,66 1,29 1,72 1,23 1,79 60 1,55 1,62 1,51 1,65 1,48 1,69 1,44 1,73 1,41 1,77 80 1,61 1,66 1,59 1,69 1,56 1,72 1,53 1,74 1,51 1,77 100 1,65 1,69 1,63 1,72 1,61 1,74 1,59 1,76 1,57 1,78