13. Jednoduchá lineární regrese 13.1. Motivace Cíl regresní analýzy - popsat závislost hodnot veličiny Y na hodnotách veličiny X. Nutnost vyřešení dvou problémů: a) jaký typ funkce se použije k popisu dané závislosti; b) jak se stanoví konkrétní parametry daného typu funkce? 13.2. Specifikace klasického modelu lineární regrese , kde - teoretická regresní funkce, která lineárně závisí na neznámých regresních parametrech a známých funkcích , které již neobsahují neznámé parametry, tj. , přičemž . Složka - náhodná odchylka . Veličina Y - závisle proměnná (též vysvětlovaná) veličina. Veličina X - nezávisle proměnná (též vysvětlující) veličina. Pořídíme n dvojic pozorování , pro i = 1, ..., n platí: . O náhodných odchylkách předpokládáme, že a) (odchylky nejsou systematické) b) (všechna pozorování jsou prováděna s touž přesností) c) pro (mezi náhodnými odchylkami neexistuje žádný lineární vztah) d) ~ . V tomto případě hovoříme o klasickém modelu lineární regrese. 13.3. Označení - odhady regresních parametrů (nejčastěji je získáme metodou nejmenších čtverců, tj. z podmínky, že výraz nabývá svého minima pro β[j] = b[j], j = 0, 1, …, p) - empirická regresní funkce - regresní odhad i-té hodnoty veličiny Y (i-tá predikovaná hodnota veličiny Y) - i-té reziduum - reziduální součet čtverců - odhad rozptylu σ^2^ - regresní součet čtverců ( ) - celkový součet čtverců ( ) - index determinace ( ) - adjustovaný index determinace 13.4. Maticový zápis klasického modelu lineární regrese , kde - vektor pozorování závisle proměnné veličiny Y, - regresní matice (předpokládáme, že h(X) = p+1 > n) - vektor regresních parametrů, - vektor náhodných odchylek. Podmínky (a) až (d) lze zkráceně zapsat ve tvaru ~ N[n](0, σ^2 I). Maticově zapsaná metoda nejmenších čtverců vede na rovnice X’Xβ = X’y - systém normálních rovnic b = (X’X)^-1 X’ y – odhad vektoru β získaný metodou nejmenších čtverců = Xb – vektor regresních odhadů (vektor predikce) e = y - - vektor reziduí Vlastnosti odhadu b: - odhad b je lineární, neboť je vytvořen lineární kombinací pozorování y[1], …, y[n] s maticí vah ; - odhad b je nestranný, neboť E(b) = β; - odhad b má varianční matici var b = σ^2(X'X)^-1; - odhad b ~ Np+1(β, σ^2 (X'X)-1) vzhledem k platnosti podmínky (d); - pro odhad b platí Gaussova - Markovova věta: Odhad b = (X'X)^-1 X'y je nejlepší nestranný lineární odhad vektoru β. (Nejlepší v tom smyslu, že rozdíl varianční matice libovolného jiného nestranného odhadu vektoru β a varianční matice odhadu b je matice pozitivně semidefinitní.) 13.5. Intervaly spolehlivosti pro regresní parametry - směrodatná chyba odhadu b[j], kde v[jj] je j-tý diagonální prvek matice (X'X)^-1. Pro j = 0, 1, ..., p statistika ~ , tedy 100(1- α)% interval spolehlivosti pro β[j] má meze: . 13.6. Testování významnosti modelu jako celku (celkový F-test) Na hladině významnosti α testujeme H[0]: proti H[1]: . (Nulová hypotéza říká, že dostačující je model konstanty.) Testová statistika: má rozložení F(p, n-p-1), pokud H[0] platí. Kritický obor: . H[0] zamítáme na hladině významnosti α. Výsledky F-testu zapisujeme do tabulky analýzy rozptylu: zdroj variability součet čtverců stupně volnosti podíl statistika F model S[R] p S[R]/p reziduální S[E] n-p-1 S[E]/(n-p-1) - celkový S[T] n-1 - - 13.7. Testování významnosti regresních parametrů (dílčí t-testy) Na hladině významnosti α pro j = 0,1, ..., p testujeme hypotézu H[0]: β[j] = 0 proti H[1]: βj ≠ 0. Testová statistika: má rozložení t(n-p-1), pokud H[0] platí. Kritický obor: . H[0] zamítáme na hladině významnosti α. 13.8. Příklad: U šesti obchodníků byla zjišťována poptávka po určitém druhu zboží loni (veličina X - v kusech) a letos (veličina Y - v kusech). číslo. obchodníka 1 2 3 4 5 6 poptávka loni (X) 20 60 70 100 150 260 poptávka letos (Y) 50 60 60 120 230 320 a) Orientačně ověřte předpoklad, že data pocházejí z dvourozměrného normálního rozložení. Vypočtěte výběrový koeficient korelace mezi X a Y, interpretujte jeho hodnotu a na hladině významnosti 0,05 testujte hypotézu, že X a Y jsou nezávislé náhodné veličiny. b) Předpokládejte, že závislost letošní poptávky na loňské lze vystihnout regresní přímkou. Sestavte regresní matici, vypočtěte odhady regresních parametrů a napište rovnici regresní přímky. Interpretujte parametry regresní přímky. c) Najděte odhad rozptylu, vypočtěte index determinace a interpretujte ho. d) Najděte 95% intervaly spolehlivosti pro regresní parametry. e) Na hladině významnosti 0,05 proveďte celkový F-test. f) Na hladině významnosti 0,05 proveďte dílčí t-testy. g) Vypočtěte regresní odhad letošní poptávky při loňské poptávce 110 kusů. h) Nakreslete dvourozměrný tečkový diagram s proloženou regresní přímkou. Řešení: ad a) Orientačně ověřte předpoklad, že data pocházejí z dvourozměrného normálního rozložení. Vytvoříme dvourozměrný tečkový diagram s proloženou 95% elipsou konstantní hustoty pravděpodobnosti: Ze vzhledu diagramu je patrné, že předpoklad dvourozměrné normality je oprávněný a že mezi loňskou a letošní poptávkou existuje vcelku silná přímá lineární závislost. Vypočtěte výběrový koeficient korelace mezi X a Y, interpretujte jeho hodnotu a na hladině významnosti 0,05 testujte hypotézu, že X a Y jsou nezávislé náhodné veličiny. Výpočtem zjistíme: r[12] = 0,972, tedy mezi poptávkou loni a letos existuje velmi silná přímá lineární závislost. Realizace testové statistiky: . Kritický obor: Testová statistika se realizuje v kritickém oboru, hypotézu o nezávislosti veličin X a Y tedy zamítáme na hladině významnosti 0,05. ad b) Sestavíme regresní matici. , tedy X = . Podle vzorce získáme odhady regresních parametrů. Nejprve vypočítáme matici X’X = a k ní inverzní matici (X’X)^-1 = . Dále získáme součin X’y = a nakonec vektor odhadů regresních parametrů: b = . = . Regresní přímka má tedy rovnici y = 0,6868 + 1,2665 x. Znamená to, že při nulové loňské poptávce by letošní poptávka činila 0,6868 kusů a při zvýšení loňské poptávky o 10 kusů by se letošní poptávka zvedla o 12,665 kusů. ad c) Nyní vypočteme vektor regresních odhadů proměnné Y (vektor predikce): = Xb = . Stanovíme vektor reziduí: = . Pomocí vektoru reziduí vypočteme reziduální součet čtverců: S[E] = e’e = (23,98 -16,68 -29,34 -7,34 39,34 -9,97). = 3451,11. Odhad rozptylu: . Dále potřebujeme celkový součet čtverců S[T] = (y – m[2])’(y – m[2]), kde m[2] je sloupcový vektor typu nx1 složený z průměru m[2] závisle proměnné veličiny Y. V našem případě je m[2] = 140. Po dosazení do vzorce pro celkový součet čtverců tedy dostaneme S[T] =(50-140, 60-140, 60-140, 120-140, 230-140, 320-140) = 61800. (Celkový součet čtverců lze získat také tak, že výběrový rozptyl veličiny Y vynásobíme n-1: S[T] = 5.12360 = 61800.) Regresní součet čtverců pak je: S[R] = S[T] – S[E] = 61800 – 3451,11 = 58348,89. Index determinace: . Znamená to, že variabilita hodnot závisle proměnné veličiny je z 94,42% vysvětlena regresní přímkou. (V případě regresní přímky platí ID^2 = r[12]^2. V našem případě bylo zjištěno, že r[12] = 0,972, tedy ID^2 = 0,9447.) ad d) Vypočteme směrodatné chyby odhadů regresních parametrů b[0]^ a b[1] podle vzorce , j = 0, 1, kde v[jj] je j-tý diagonální prvek matice (X'X)^-1 : (X'X)^-1 = Přitom si uvědomíme, že v[00] = 0,499084, v[11] = 0,000027 , . Stanovíme meze 95% intervalů spolehlivosti pro regresní parametry β[0]^ a β[1]. K tomu slouží vzorec , j = 0, 1. 95% interval spolehlivosti pro β[0]: Znamená to, že -56,63 < β[0] < 58 s pravděpodobností aspoň 0,95. 95% interval spolehlivosti pro β[1]: Znamená to, že 0,841< β[1] < 1,692 s pravděpodobností aspoň 0,95. ad e) Provedení celkového F-testu: na hladině významnosti α = 0,05 testujeme H[0]: β[1] = 0 proti H[1]: β[1] ≠ 0. Testová statistika , kritický obor: . Protože se testová statistika realizuje v kritickém oboru, hypotézu o nevýznamnosti regresního parametru β[1] (tj. směrnice regresní přímky) zamítáme na hladině významnosti 0,05. Výsledky testování významnosti modelu jako celku zapíšeme do tabulky ANOVA: zdroj variab. součet čtverců stupně volnosti podíl statistika F model S[R] = 58348,89 p = 1 S[R]/p=58348,89 68,384 reziduální S[E] = 3415,11 n-p-1 = 4 S[E]/(n-p-1)=853,78 - celkový S[T] = 61800 n-1 = 5 - - ad f) Provedení dílčích t-testů: Na hladině významnosti α = 0,05 testujeme H[0]: β[0] = 0 proti H[1]: β[0] ≠ 0. Testová statistika: , kritický obor: . Protože se testová statistika nerealizuje v kritickém oboru, hypotézu o nevýznamnosti regresního parametru β[0] (tj. posunutí regresní přímky) nezamítáme na hladině významnosti 0,05. Ke stejnému výsledku dospějeme, podíváme-li se na 95% interval spolehlivosti pro β[0]. Vypočítali jsme, že -56,63 < β[0] < 58 s pravděpodobností aspoň 0,95. Protože tento interval obsahuje 0, hypotézu H[0]: β[0] = 0 nezamítáme na hladině významnosti 0,05. Na hladině významnosti α = 0,05 testujeme H[0]: β[1] = 0 proti H[1]: β[1] ≠ 0. Testová statistika: , kritický obor: . Protože se testová statistika realizuje v kritickém oboru, hypotézu o nevýznamnosti regresního parametru β[1] (tj. směrnice regresní přímky) zamítáme na hladině významnosti 0,05. Ke stejnému výsledku dospějeme, podíváme-li se na 95% interval spolehlivosti pro β[1]. Vypočítali jsme, že 0,841< β[1] < 1,692 s pravděpodobností aspoň 0,95. Protože tento interval neobsahuje 0, hypotézu H[0]: β[1] = 0 zamítáme na hladině významnosti 0,05. V případě modelu regresní přímky je dílčí t-test pro parametr β[1] ekvivalentní s celkovým F-testem. ad g) Regresní odhad pro x = 110 dostaneme pouhým dosazením do rovnice regresní přímky: . ad h) Výpočet pomocí systému STATISTICA Vytvoříme nový datový soubor se dvěma proměnnými X a Y a 6 případy: a) Orientačně ověřte předpoklad, že data pocházejí z dvourozměrného normálního rozložení. Vypočtěte výběrový koeficient korelace mezi X a Y, interpretujte jeho hodnotu a na hladině významnosti 0,05 testujte hypotézu, že X a Y jsou nezávislé náhodné veličiny. Zobrazíme dvourozměrný tečkový diagram s proloženou elipsou 95% konstantní hustoty pravděpodobnosti, s jehož pomocí posoudíme dvourozměrnou normalitu dat: Grafy – Bodové grafy – vypneme Typ proložení – Proměnné X, Y - OK . Na záložce Detaily vybereme Elipsa Normální – OK. Ve vzniklém dvourozměrném tečkovém diagramu změníme rozsah zobrazených hodnot na vodorovné a svislé ose, abychom viděli celou elipsu – viz obrázek výše. Testování hypotézy o nezávislosti: Statistika – Základní statistiky /Tabulky - Korelační matice – OK – 2 seznamy proměnných X, Y, OK. Na záložce Možnosti zaškrtneme Zobrazit detailní tabulku výsledků – Souhrn. Ve výstupní tabulce najdeme hodnotu výběrového korelačního koeficientu R[12] (r = 0,971977, tzn. že mezi X a Y existuje velmi silná přímá lineární závislost), realizaci testové statistiky t = 8,269474 a p-hodnotu pro test hypotézy o nezávislosti (p = 0,001167, H[0 ]tedy zamítáme na hladině významnosti 0,05). b) Předpokládejte, že závislost letošní poptávky na loňské lze vystihnout regresní přímkou. Vypočtěte odhady regresních parametrů a napište rovnici regresní přímky. Interpretujte parametry regresní přímky. Statistiky – Vícerozměrná regrese – Závisle proměnná Y, nezávisle proměnná X - OK – OK – Výpočet: Výsledky regrese. Ve výstupní tabulce najdeme koeficient b[0] ve sloupci B na řádku označeném Abs. člen, koeficient b[1] ve sloupci B na řádku označeném X. Rovnice regresní přímky: y = 0,686813 + 1,266484 x. Znamená to, že při nulové loňské poptávce by letošní poptávka činila 0,6868 kusů a při zvýšení loňské poptávky o 10 kusů by se letošní poptávka zvedla o 12,665 kusů. c) Najděte odhad rozptylu, vypočtěte index determinace a interpretujte ho. Vrátíme se do Výsledky – vícenásobná regrese – Detailní výsledky – ANOVA. Odhad rozptylu najdeme na řádku Rezid., ve sloupci Průměr čtverců, tedy s^2 = 853,78. Index determinace je uveden v záhlaví původní výstupní tabulky pod označením R2. V našem případě ID^2 = 0,9447, tedy variabilita letošní poptávky je z 94,5% vysvětlena regresní přímkou. d) Najděte 95% intervaly spolehlivosti pro regresní parametry. Ve výstupní tabulce výsledků regrese přidáme za proměnnou Úroveň p dvě nové proměnné dm (pro dolní meze 95% intervalů spolehlivosti pro regresní parametry) a hm (pro horní meze 95% intervalů spolehlivosti pro regresní parametry). Do Dlouhého jména proměnné dm resp. hm napíšeme: =v3-v4*VStudent(0,975;4) resp. =v3+v4*VStudent(0,975;4) Vidíme, že -56,63 < β[0] < 58 s pravděpodobností aspoň 0,95 a 0,841< β[1] < 1,692 s pravděpodobností aspoň 0,95. e) Na hladině významnosti 0,05 proveďte celkový F-test. Testovou statistiku F-testu a odpovídající p-hodnotu najdeme v záhlaví výstupní tabulky regrese. Zde F = 68,384, p-hodnota < 0,00117, tedy na hladině významnosti 0,05 zamítáme hypotézu o nevýznamnosti modelu jako celku. (Výsledky F-testu jsou rovněž uvedeny v tabulce ANOVA.) f) Na hladině významnosti 0,05 proveďte dílčí t-testy. Výsledky dílčích t-testů jsou uvedeny ve výstupní tabulce regrese. Testová statistika pro test hypotézy H[0]: β[0] = 0 je 0,033272, p-hodnota je 0,975052. Hypotézu o nevýznamnosti úseku regresní přímky tedy nezamítáme na hladině významnosti 0,05. Testová statistika pro test hypotézy H[0]: β[1] = 0 je 8,269474, p-hodnota je 0,001167. Hypotézu o nevýznamnosti směrnice regresní přímky tedy zamítáme na hladině významnosti 0,05. g) Vypočtěte regresní odhad letošní poptávky při loňské poptávce 110 kusů. Pro výpočet predikované hodnoty zvolíme Rezidua/předpoklady/předpovědi Předpovědi závisle proměnné X: 110 OK. Ve výstupní tabulce je hledaná hodnota označena jako Předpověď. Při loňské poptávce 110 kusů je predikovaná hodnota letošní poptávky 140 kusů. h) Nakreslete dvourozměrný tečkový diagram s proloženou regresní přímkou. Nakreslení regresní přímky: Návrat do Výsledky: Vícenásobná regrese – Rezidua/předpoklady/předpovědi - Reziduální analýza – Bodové grafy – Korelace dvou proměnných – X, Y – OK. Jiný způsob: Do dvourozměrného tečkového diagramu nakreslíme regresní přímku tak, že v tabulce 2D Bodové grafy zvolíme Typ proložení: Lineární, OK.