Osnova přednášky Pokročilé metody v jednoduché lineární regresi 1. Dvě nezávislé regresní přímky 1.1. Popis modelů a označení 1.2. Test homoskedasticity náhodných odchylek 1.3. Test totožnosti dvou regresních přímek 1.4. Test rovnoběžnosti dvou regresních přímek 1.5. Příklad 2. Test adekvátnosti regresního modelu 3. Linearizující transformace 3.1. Přehled linearizujících transformací 3.2. Příklad 3.3. Provedení regresní analýzy pomocí modulu Jednoduchá nelineární regrese 3.4. Získání odhadů parametrů modelu x 10y ββ= pomocí Bodových grafů 1. Dvě nezávislé regresní přímky 1.1. Popis modelů a označení Předpokládáme, že máme dva nezávislé regresní modely ii10i xY ε+β+β= , i = 1, 2, …, n * i * i * 1 * 0 * i xY ε+β+β= , i = 1, 2, …, n* Přitom platí, že ( )n1 ,, εε= Kε ~ ( )I0 2 n ,N σ , ( )* n * 1 * ,, εε= Kε ~ ( )I0 2 n ,N σ , vektory ε a ε* jsou nezávislé. Označíme b1, b1 * odhady směrnic v 1. a 2. modelu, SE a SE * reziduální součty čtverců v 1. a 2. modelu, S2 a S*2 výběrové rozptyly nezávisle proměnných veličin v 1. a 2. modelu. 1.2. Ověření předpokladu o homoskedasticitě náhodných odchylek ε a ε* 1:H 2* 2 0 = σ σ proti 1:H 2* 2 0 ≠ σ σ Testová statistika: 2n S 2n S T * * E E 0 − −= má rozložení F(n-2, n* -2), pokud H0 platí. Kritický obor: ( ) ( ) )∞−−∪−−= α−α ,2n,2nF2n,2nF,0W * 2/1 * 2/ 1.3. Test totožnosti dvou regresních přímek         β β =      β β * 1 * 0 1 0 0 :H proti         β β ≠      β β * 1 * 0 1 0 1 :H Sestavíme nový model regresní přímky, v němž hodnoty nezávisle proměnné veličiny vzniknou sdružením hodnot xi a xi * a hodnoty závisle proměnné veličiny vzniknou sdružením hodnot yi a yi * . Označíme * EE S reziduální součet čtverců v tomto sdruženém modelu. Testová statistika: 4nn SS 2 SSS T * * EE * EEEE 0 * −+ + −− = se v případě platnosti H0 řídí rozložením F(2, n+n* - 4). Kritický obor: ( ) )∞−+= α− ,4nn,2FW * 1 1.4. Test rovnoběžnosti dvou regresních přímek * 110 :H β=β proti * 111 :H β≠β Testová statistika: ( ) ( ) ( ) ( )         − + − + −+− = 2**2 * EE ** 11 0 S1n 1 S1n 1 SS 4nnbb T se v případě platnosti nulové hypotézy řídí rozložením t(n + n* - 4). Kritický obor: ( ) ( ) )( ∞−+∪−+−∞−= α−α− ,4nnt4nnt,W * 2/1 * 2/1 . ⇒∈WTj H0 zamítáme na hladině významnosti α. 1.5. Příklad: Máme k dispozici údaje o počtu rozvodů za rok, které připadají na 100 000 obyvatel, a to v českých zemích a na Slovensku v letech 1960 – 1970. Hodnoty xi udávají roky po odečtení 1960, yi rozvodovost v českých zemích a yi * na Slovensku. xi yi yi * 0 1,34 0,58 1 1,45 0,59 2 1,47 0,58 3 1,52 0,55 4 1,48 0,54 5 1,66 0,57 6 1,77 0,64 7 1,76 0,57 8 1,89 0,67 9 2,08 0,75 10 2,19 0,76 Je zapotřebí zjistit, zda průběh rozvodovosti v letech 1960 – 1970 byl stejný v českých zemích jako na Slovensku. Pokud se ukáže, že stejný nebyl, pak je třeba zjistit, zda aspoň vzestup rozvodovosti byl v obou případech stejný. Testy se mají provádět na hladině významnosti 0,05. Řešení pomocí systému STATISTICA: Otevřeme datový soubor rozvody_CSSR.sta o třech proměnných a 22 případech. V proměnné x jsou 2x pod sebou hodnoty 0 – 10, v proměnné y jsou pod sebou hodnoty rozvodovosti pro ČSR a pro SSR a proměnná id obsahuje 1 pro ČSR a 0 pro SSR. Nejprve znázorníme data s proloženými regresními přímkami. Grafy – Bodové grafy – Proměnné x,y – OK – Kategorizovaný – Kategorie X – Zapnuto – Změnit proměnnou – id – OK – Rozložení Přes sebe – OK. Bodový graf z y proti x; kategorizovaný id rozvody_CSSR.sta 4v*22c id: SSR y = 0,5295+0,0177*x id: ČSR y = 1,2918+0,08*x x y id: SSR id: ČSR-2 0 2 4 6 8 10 12 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,4 Z grafického znázornění dat vyplývá, že regresní přímky se zřejmě budou lišit v obou parametrech. Dále ověříme, zda rozptyly náhodných odchylek ε a ε* jsou shodné. Statistiky – Vícenásobná regrese – Select cases – Zapnout filtr – zadáme id = 1 – OK – Proměnné y, x – OK – OK – Detailní výsledky – ANOVA. Analogicky pro 2. model zadáme id = 0. Analýza rozptylu (rozvody_CSSR.sta) Zhrnout podmínku: id=1 Efekt Součet čtverců sv Průměr čtverců F p-hodn. Regres. Rezid. Celk. 0,704000 1 0,704000 122,4025 0,000002 0,051764 9 0,005752 0,755764 Analýza rozptylu (rozvody_CSSR.sta) Zhrnout podmínku: id=0 Efekt Součet čtverců sv Průměr čtverců F p-hodn. Regres. Rezid. Celk. 0,034568 1 0,034568 12,34801 0,006577 0,025195 9 0,002799 0,059764 Vypočteme testovou statistiku 0623,2 9 025195,0 9 051764,0 2n S 2n S T * * E E 0 == − −= . Kritický obor: ( ) ( ) ) ( ) ( ) ) )∞∪= =∞∪=∞−−∪−−= α−α ;026,42484,0;0 ,9,9F9,9F,0,2n,2nF2n,2nF,0W 975,0025,0 * 2/1 * 2/ Testová statistika nepatří do kritického oboru, hypotézu o homogenitě rozptylů nezamítáme na hladině významnosti 0,05. Nyní provedeme test totožnosti dvou regresních přímek. Testová statistika má tvar ( ) ( ) ( )4nnSS 2SSS T ** EE * EEEE 0 * −++ −− = . Reziduální součty čtverců SE a SE * již známe, SE = 0,051764 a SE * = 0,025195. Stanovíme reziduální součet čtverců SEE * ve sdruženém modelu. Statistiky – Vícenásobná regrese – OK – Proměnné – Závislá y, Nezávislé x – OK – OK – Detailní výsledky – ANOVA. Analýza rozptylu (rozvody_CSSR.sta) Efekt Součet čtverců sv Průměr čtverců F p-hodn. Regres. Rezid. Celk. 0,525284 1 0,525284 1,584552 0,222602 6,630066 20 0,331503 7,155350 ( ) ( ) 356,766 18025195,0051764,0 2025195,0051764,0630066,6 T0 = + −− = Kritický obor: ( ) ) ( ) ) )∞=∞=∞−+= α− ;5546,3,18,2F,4nn,2FW 95,0 * 1 Testová statistika patří do kritického oboru, hypotézu o totožnosti regresních přímek zamítáme na hladině významnosti 0,05. Průběh rozvodovosti v letech 1960 – 1970 byl jiný v ČSR a SSR. Nakonec budeme testovat hypotézu o rovnoběžnosti dvou regresních přímek. K datovému souboru přidáme novou proměnnou id*x, která vznikne jako součin proměnných id a x. Statistiky – Vícenásobná regrese – OK – Proměnné – Závislá y, Nezávislé x, id, id*x – OK – OK – Výpočet: výsledky regrese. Výsledky regrese se závislou proměnnou : y (rozvody_CSSR.sta) R= ,99460773 R2= ,98924454 Upravené R2= ,98745196 F(3,18)=551,86 p<,00000 Směrod. chyba odhadu : ,06539 N=22 b* Sm.chyba z b* b Sm.chyba z b t(18) p-hodn. Abs.člen x id id*x 0,529545 0,036883 14,35727 0,000000 0,098296 0,034570 0,017727 0,006234 2,84344 0,010783 0,668307 0,045731 0,762273 0,052161 14,61383 0,000000 0,366244 0,051854 0,062273 0,008817 7,06294 0,000001 Testovou statistiku najdeme na řádku id*x, ve sloupci t(18): t0 = 7,06294. Odpovídající p-hodnota je velmi blízká 0, tedy na hladině významnosti 0,05 zamítáme hypotézu, že vzestup rozvodovosti v letech 1960 – 1970 je stejný v ČSR a SSR. 2. Test adekvátnosti regresního modelu Hodnoty veličiny Y jsou roztříděny do r ≥ 3 skupin podle variant x[1], ..., x[r] veličiny X. Označme ni počet pozorování v i-té skupině, i = 1, …, r, přičemž aspoň jedna skupina má více než jedno pozorování. Budeme předpokládat, že každá skupina hodnot má normální rozložení a že všechny skupiny mají týž rozptyl. Všech pozorování je n. Průměr hodnot v i-té skupině označme Mi a průměr všech hodnot označme M. Charakter závislosti Y na X popíšeme regresní funkcí ( )p10 ,,,;xm βββ K . Budeme testovat hypotézu, zda je tato regresní funkce vhodným modelem pro naše data. Při testování budeme potřebovat tyto součty čtverců: celkový součet čtverců ( )∑∑= = −= r 1i n 1j 2 ijT i MYS , skupinový součet čtverců ( )∑= −= r 1i 2 iiA MMnS , regresní součet čtverců ( )∑= −= r 1i 2 iiiR MyˆnS . Testová statistika: ( ) ( ) ( ) ( )rn/SS 1pr/SS F AT RA −− −−− = se řídí rozložením F(r-p-1, n-r), jestliže H0 platí. Kritický obor: W = na hladině významnosti α zamítáme hypotézu, že funkce ( )p10 ,,,;xm βββ K je vhodným regresním modelem závislosti Y na X. Těsnost závislosti Y na X vyjádřenou skupinovými průměry měří poměr determinace T A2 S S P = . Nabývá hodnot z intervalu <0,1>. Čím je poměr determinace bližší jedné, tím je závislost silnější, čím je bližší nule, tím je závislost slabší. Příklad: Máme k dispozici údaje o cenách 23 náhodně vybraných domů (veličina Y – v tisících $) a počtu jejich pokojů (veličina X) v jednom americkém městě. počet pokojů cena 5 155,168,180 6 166,172,179,190,200 7 210,215,218,225,230,245 8 213,225,240,247,249 9 267,275,290,298 Závislost ceny domu na počtu pokojů popište regresní přímkou. Na hladině významnosti 0,05 testujte hypotézu, že přímka je vhodným regresním modelem pro tato data. Těsnost závislosti vyjádřete poměrem determinace. Znázorněte data s proloženou regresní přímkou. Řešení v systému STATISTICA: Otevřeme datový soubor ceny_bytu.sta se dvěma proměnnými X a Y a 23 případy: Parametry regresní přímky získáme pomocí bodových grafů s lineárním proložením: Bodový graf z Y proti X ceny_bytu.sta 2v*23c Y = 17,2885+28,5851*x 4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,0 8,5 9,0 9,5 X 140 160 180 200 220 240 260 280 300 320 Y Pro test adekvátnosti modelu použijeme modul Pokročilé lineární/nelineární modely. Statistiky – Pokročilé lineární/nelineární modely – Obecné regresní modely – Jednorozměrná regrese – OK – na záložce Možnosti zaškrtneme Kvalita proložení – OK – Závislá Y, Spoj. nezáv. prom. X – OK – Více výsledků – Celkové R – ve stromové struktuře vlevo vybereme Test kvality modelu. Test kvality modelu (ceny_bytu.sta) Závislá Proměnná SČ Rezidua sv Rezidua PČ Rezidua SČ Chyba sv Chyba PČ Chyba SČ Kvali proložen SV Kvali proložen PČ Kvali proložen ta F p Y 4962,705 21 236,3193 3396,500 18 188,6944 1566,205 3 522,0682 2,766739 0,071737 Čitatel testové statistiky F je roven 1566,205 a je uveden ve sloupci Kvalita proložení. Jmenovatel testové statistiky F je roven 3396,5 a je uveden ve sloupci SČ Chyba. Hodnota testové statistiky je 2,767 a odpovídající p-hodnota je 0,0717. Na hladině významnosti 0,05 tedy nemůžeme zamítnout hypotézu, že přímka je vhodným modelem k popisu závislosti ceny domu na počtu pokojů. Pro výpočet poměru determinace použijeme cestu: Statistiky – Základní statistiky/tabulky – Rozklad & jednofakt. ANOVA – OK – Proměnné Y, X – OK – OK – Analýza rozptylu. Dostaneme tabulku Analýza rozptylu (ceny_bytu.sta) Označ. efekty jsou význ. na hlad. p < ,05000 Proměnná SČ efekt SV efekt PČ efekt SČ chyba SV chyba PČ chyba F p Y 32474,11 4 8118,527 3396,500 18 188,6944 43,02473 0,000000 V 1. sloupci je skupinový součet čtverců SA a ve 4. sloupci reziduální součet čtverců SE. Poměr determinace počítáme podle vzorce P2 = SA/ST = SA/(SA + SE). K této tabulce tedy přidáme novou proměnnou P2 a do jejího dlouhého jména napíšeme =v1/(v1+v4). Analýza rozptylu (ceny_bytu.sta) Označ. efekty jsou význ. na hlad. p < ,05000 Proměnná SČ efekt SV efekt PČ efekt SČ chyba SV chyba PČ chyba F p P2 =v1/(v1+v4) Y 32474,11 4 8118,527 3396,500 18 188,6944 43,02473 0,000000 0,90531245 Vidíme, že poměr determinace nabývá hodnoty 0,905. 3. Linearizující transformace Odhad parametrů regresních funkcí, které nejsou lineární z hlediska parametrů, se neprovádí metodou nejmenších čtverců přímo, protože její použití vede k soustavě nelineárních rovnic. V některých speciálních případech však nelineární regresní funkci můžeme vhodnou transformací převést na lineární. Např. máme exponenciální regresní funkci x 10y ββ= . Provedeme logaritmickou transformaci ln y = ln β0 + x ln β1 , čímž získáme regresní funkci lineární v parametrech. Parametry ln β0 a ln β1 odhadneme metodou nejmenších čtverců a odlogaritmováním získáme odhady původních regresních koeficientů β0, β1. 3.1. Přehled linearizujících transformací Funkce Linearizující transformace x 10y ββ= ln y = ln β0 + x ln β1 1 xy 0 β β= ln y = ln β0 + β1 ln x 1 x y 0 β β = ln y = ln β0 - β1 ln x x 1 y 10 β+β = x y 1 10 β+β= x x y 10 β+β = x y x 10 β+β= 3.2. Příklad: Hotelová společnost vlastnící 12 hotelů analyzuje vztah mezi celkovými měsíčními tržbami (veličina Y) a tržbami vyprodukovanými stravovacími úseky (veličina X). č. h. 1 2 3 4 5 6 7 8 9 10 11 12 x 2,0 1,2 14,8 8,3 8,4 3,0 4,8 15,6 16,1 11,5 14,2 14,0 y 12,0 8,0 76,4 17,0 21,3 10,0 12,5 97,3 88,0 25,0 38,6 47,3 Popište tuto závislost exponenciální regresní funkcí x 10y ββ= . Najděte odhady parametrů β0, β1 a vypočtěte predikovanou hodnotu celkových měsíčních tržeb pro x = 10. Řešení: Provedeme logaritmickou transformaci ln y = ln β0 + x ln β1. Metodou nejmenších čtverců získáme odhady ln b0 = 1,8559, ln b1 = 0,1504. Odlogaritmováním dostaneme b0 = 6,3973, b1 = 1,1623. Predikovaná hodnota y pro x = 10 je 6,3973.1,162310 = 28,7859. Řešení v systému STATISTICA: Otevřeme datový soubor hotely.sta se dvěma proměnnými a 12 případy. Přidáme novou proměnnou ln y. Do jejího Dlouhého jména napíšeme =log(y). Pak provedeme regresní analýzu se závisle proměnnou ln y a nezávisle proměnnou X: Výsledky regrese se závislou proměnnou : ln y (hotely.sta) R= ,95851605 R2= ,91875303 Upravené R2= ,91062833 F(1,10)=113,08 p<,00000 Směrod. chyba odhadu : ,26364 N=12 Beta Sm.chyba beta B Sm.chyba B t(10) Úroveň p Abs.člen X 1,855881 0,154338 12,02480 0,000000 0,958516 0,090137 0,150428 0,014146 10,63398 0,000001 K výsledné tabulce přidáme novou proměnnou b, do jejíhož Dlouhého jména napíšeme =exp(B). Výsledky regrese se závislou proměnnou : ln y (hotely.sta) R= ,95851605 R2= ,91875303 Upravené R2= ,91062833 F(1,10)=113,08 p<,00000 Směrod. chyba odhadu : ,26364 N=12 Beta Sm.chyba beta B Sm.chyba B t(10) Úroveň p b =exp(B) Abs.člen X 1,855881 0,154338 12,02480 0,000000 6,397333 0,958516 0,090137 0,150428 0,014146 10,63398 0,000001 1,162332 Model má tedy tvar: y = 6,397333.1,162332x . Získání predikované hodnoty pro x = 10: Vrátíme se do Výsledky – vícenásobná regrese – na záložce Rezidua/předpoklady/předpovědi vybereme Předpověď závisle proměnné – X = 10 – OK. K výsledné tabulce přidáme proměnnou predikce a do jejího Dlouhého jména napíšeme =exp(v3). Předpovězené hodnoty (hotely.sta) proměnné: ln y Proměnná b-váha Hodnota b-váha * Hodnot predikce =exp(v3) X Abs. člen Předpověď -95,0%LS +95,0%LS 0,150428 10,00000 1,504281 4,500918 1,855881 6,397333 3,360163 28,79387 3,189835 24,28441 3,530490 34,14071 Vidíme, že predikovaná hodnota je 28,79. Vytvoříme ještě dvourozměrný tečkový diagram s proloženou exponenciálou. Na záložce Rezidua/předpoklady/předpovědi vybereme reziduální analýza – Uložit – Uložit rezidua & předpovědi – vybereme X, Y – OK. Ve vzniklé tabulce odstraníme proměnné č. 5 až 10 a proměnnou rezidua přejmenujeme na Predikce. Do Dlouhého jména této proměnné napíšeme =exp(v3). Tento datový soubor uspořádáme podle velikosti hodnot proměnné X: Data - Setřídit – Proměnná X – OK. hotely.sta 1 Y 2 X 3 Předpovědi 4 Predikce 1 1 3 4 5 6 7 8 9 10 11 12 8 1,2 2,04 7,66 12 2 2,16 8,64 10 3 2,31 10,05 12,5 4,8 2,58 13,17 17 8,3 3,10 22,30 21,3 8,4 3,12 22,63 25 11,5 3,59 36,08 47,3 14 3,96 52,56 38,6 14,2 3,99 54,16 76,4 14,8 4,08 59,28 97,3 15,6 4,20 66,86 88 16,1 4,28 72,08 Vytvoření grafu: Grafy – Bodové grafy – zaškrtneme Vícenásobný – Proměnné X: X, Y: Y, Predikce – OK. Ve vytvořeném grafu pak vypneme zobrazování značek pro Predikce a naopak zapneme Spojnici. Bodový graf z více proměnných proti X Tabulka4 4v*12c Y Predikce 0 2 4 6 8 10 12 14 16 18 X 0 10 20 30 40 50 60 70 80 90 100 110 3.3. Provedení regresní analýzy pomocí modulu Jednoduchá nelineární regrese Pro data z předešlého příkladu najdeme odhady parametrů modelu x 10y ββ= pomocí modulu Jednoduchá nelineární regrese. Statistiky – Pokročilé lineární/nelineární odhady – Jednoduchá nelineární regrese – Proměnné X, Y – OK – OK – zaškrtneme LN(X) – OK – Proměnné – Závislé LN-V1, Nezávislé X – OK. Dostaneme stejnou tabulku jako předešlým postupem a výsledné hodnoty odhadů regresních parametrů získáme exponenciální transformací. 3.4. Získání odhadů parametrů modelu x 10y ββ= pomocí Bodových grafů Grafy – Bodové grafy – Proměnné X, Y – OK – na záložce Detaily zaškrtneme Proložení Exponenciální – OK. Bodový graf z Y proti X hotely.sta 3v*12c Y = 6,3973*exp(0,1504*x) 0 2 4 6 8 10 12 14 16 18 X 0 10 20 30 40 50 60 70 80 90 100 110 Y V záhlaví grafu je uvedena regresní rovnice y = 6,3973*exp(0,1504*x), tedy b0 = 6,3973, b1 = e0,1504 = 1,1623.