M5VM05 Statistické modelování 5. Lineární regresní model Jan Koláček (kolacek@math.muni.cz) Ustav matematiky a statistiky, Přírodovědecká fakulta, Masarykova univerzita, Brno Jan Koláček (PřF MU) M5VM05 Statistické modelování 1/51 Motivace Často chceme prozkoumat vztah mezi dvěma veličinami, kde jedna z nich, tzv. „nezávisle proměnná" X, má řídit druhou, tzv. „závisle proměnnou" Y. Předpokládá se, že obě veličiny jsou spojité. Prvním krokem ve zkoumání by mělo být zakreslení dat do grafu. V řadě případů tento krok napoví mnohé o tom, co nás zajímá: Existuje vztah mezi oběma proměnnými (veličinami)? Pokud ano, pak rostou či klesají obě v jednom směru, nebo jedna klesá, když druhá roste? Je přímka vhodným modelem pro vyjádření vztahu mezi těmito dvěma veličinami? Chceme-li se dostat dále za tuto intuitivní úroveň analýzy, je lineární regrese často užitečným nástrojem. Tato metoda zahrnuje proložení přímky daty a analýzu statistických vlastností takovéto přímky. Jan Koláček (PřF MU) M5VM05 Statistické modelování 2/51 Lineární regresní model Předpokládejme, že mezi nějakými nenáhodnými veličinami y,X\,... ,x^ platí lineární vztah y = j8i*i +----h pkxk, ve kterém j6i,.. .,j6^ jsou neznámé parametry. Informace o neznámých parametrech budeme získávat pomocí experimentu, a to tak, že opakovaně budeme měřit hodnoty veličiny y při vybraných hodnotách proměnných X\,... ,xk Při měřeních však vznikají chyby, což lze modelovat takto y = jSi*i h-----h jSfcXfc + e, kde £ je náhodná chyba měření. Opakované hodnoty sledovaných veličin budeme pro i = 1,...,n značit Yl,Xi\,.. obdobně také náhodné chyby £j. Jan Koláček (PřF MU) M5VM05 Statistické modelování 3 Lineární regresní model Celkově jsme dostali model Yi = Pi*u +----1- jSfcxlfc + ei /Yi\ Yn = j6i*nl H-----^hxnk+^n \^n) All + X(matice plánu) O náhodných chybách £i,...,£n budeme předpokládat, že jsou 9 nesystematické, což lze matematicky vyjádřit požadavkem, že Eev = 0 i = 1,... ,n, tj. £g = 0 a tedy EY X/5 • homogenní v rozptylu, tj. že Dey = 0 pro z = 1,... ,n\ • jednotlivé náhodné chyby jsou nekorelované, tj. že C(£i,£j) = 0 pro i = 1,... ,n, tj. DY = De = (T2In , takže i měření jsou nekorelovaná. Jan Koláček (PřF MU) M5VM05 Statistické modelování 4/51 Terminologie Používá se následující terminologie a značení • parametry /5i,... ,/5fc se nazývají regresní koeficienty; • matice X obsahuje nenáhodné prvky Xjj a nazývá se regresní maticí nebo maticí plánu (Design Matrix); popsaný model souhrnně zapíšeme jako Y ~ C(XfS,cr2\n) Takto zavedený model budeme nazývat linerární regresní model. Dále budeme předpokládat, že n > k a o hodnosti matice X budeme předpokládat, že je rovna k, tj. h(X) = k . Bude-li tento přepoklad splněn, budeme říkat, že jde linerární regresní model plné hodnosti. V tom případě jsou sloupce matice X nezávislé. V opačném případě, by bylo možné daný sloupec matice X napsat jako lineární kombinaci ostatních sloupců, což je možné interpretovat tak, že proměnná odpovídající danému sloupci je nadbytečná, protože ji lze vyjádřit jako lineární funkci ostatních proměnných. Jan Koláček (PřF MU) M5VM05 Statistické modelování 5/51 Příklad Regresní přímka v klasickém lineárním regresním modelu Jednoduchá lineární regrese: předpokládáme Yj (i = \,...,n) mají normální rozdělení I n-r 0.0 0.5 i-1-r 1.0 1.5 2.0 V tomto případě Y = \Yn/ , x = \1 *n/ kde Xj jsou dané konstanty, které nejsou všechny stejné. = j80 + j8i*i + £i n _ (h £ = \£n/ N„(0,(72I„). Jan Koláček (PřF MU) M5VM05 Statistické modelování 6/51 Odhady neznámých parametrů Definice 1 Řekneme, že odhad jS = j6(Y) je lineárním odhadem vektoru jS, jestliže existuje matice reálných čísel B^xn taková, že jS = BY. Dále řekneme, že odhad jS = j8(Y) je nestranným odhadem vektoru jS, jestliže pro každé jS G Kk platí Ej6 = jS. Jestliže j6 = j8(Y) je takový lineární nestranný odhad vektoru parametrů j6, že pro každý jiný lineární nestranný odhad jS = j8(Y) je rozdíl variančních matic Dj6(Y) — Dj6(Y) pozitivně semidefinitní matice, potom budeme říkat, že jS = j8(Y) je nejlepší nestranný lineární odhad (Best Linear Unbiased Estimator) parametrů jS, zkráceně BLUE odhad. Jan Koláček (PřF MU) M5VM05 Statistické modelování 7/51 Metoda nejmenších čtverců Definice 2 Řekneme, že odhad j60LS je odhadem parametru jS metodou nejmenších čtverců, jestliže ní k \ P0LS = arg min (Y - X/5)'(Y - X/5) = arg min £ Y, - £ Věta 3 Odhad parametru v modelu Y ~ C(XfS,cr2\n) je tvaru fi0LS = (X'X^X'Y. Jan Koláček (PřF MU) M5VM05 Statistické modelování 8/ Důkaz Důkaz Nejprve označme symbolem x- z-tý řádek matice plánu X a symbolem X, j-tý sloupec této matice, tj. X = Au X nk/ \Xn/ = (Xi... Xfc) Nutnou podmínkou pro extrém je, aby parciální derivace byly nulové, tj. pro $ _L j • • • j /c Jan Koláček (PřF MU) M5VM05 Statistické modelování 9/51 Proto počítejme = Wsh j=i V=i n is nik \ = -2 £ YiXis + 2 £ £ xíjPj xt i=l i=l V=l / n n k = -2 £ YA-S + 2 £ £ Z^jSy = \o\ z=l z=l;=l Jan Koláček (PřF MU) M5VM05 Statistické modelování 10 / 51 Nyní se budeme snažit vyjádřit předchozí rovnost maticově. Upravujme postupně levou a pravou stranu: ti k n n k i=lj=l i=l j=l i=l 57 u/v 5 a celkově, zapíšeme-li fc rovnic pod sebe a uvažujeme-li obě strany rovnosti, dostaneme íXl\ tzv. normální rovnice ■NT" =X/XjS =X'Y Vzhledem k předpokladu h(X) = h(X'X) = k, Jan Koláček (PřF MU) M5VM05 Statistické modelování 11 / 51 Nyní zbývá dokázat, že tento extrém je také minimem, tj. že matice druhých parciálních derivací je pozitivně semidefinitní matice. Proto počítejme (sh)-tý prvek matice druhých parciálních derivací a2 n n n k ~ 2 ^ y^is + 2 ^ ^ XjjXjsf5j i=l í=l 7=1 n 2 ^ ^zs^z/i — 2XgX/j i=i Takže matice druhých parciálních derivací je n s,h=l i=l = X'X > o, s,/z=l tj. jde o pozitivně definitní matici a tím je věta dokázaná Jan Koláček (PřF MU) M5VM05 Statistické modelování 12 / 51 Věty Věta 4 (Gaussova-Markovova věta) Odhad j6OLS v modelu Y ~ £(XjS,(72In) Je BLUE-odhad (tj. je nejlepšínestranný lineární odhad) a jeho variační matice je rovna _DPols = r2 (X'X)-1_ Věta 5 Pro libovolný vektor c G Rfc je c'Pqls BLUE-odhad parametrické funkce c'fi a má rozptyl o2x'pC'X)"^. M5VM05 Statistické modelování 13/5 Věty Věta 6 Platí Se = S(POLS) = (Y - Ý)'(Y - Ý) = Y'(I - H)Y, kde H je tzv. „hat" matice H = X(X'X) 1X'. Věta 7 Odhad s2 = r je nestranným odhadem rozptylu crz Jan Koláček (PřF MU) M5VM05 Statistické modelování 14 / 51 Příklad Příklad 1 VLRM (Y,X,j8), X = n -i "3\ (5\ i -i -2 7 i -i -1 8 i i 1 , Y = 12 i i 2 13 V1 i 3^ \15) v spočítejte MNC-odhady vektoru parametrů jS, aproximace Y, rezidua lni součty čtverců Se a sx Jan Koláček (PřF MU) M5VM05 Statistické modelování 15 / 51 Řešení Řešení Nejprve vypočteme matice 6 0 0 X'X = I 0 6 12 ] , (X'X)_1 0 12 28 0,5 0 -0,0714 0 0,0357 0 -0,0714 0 0,0153 Odtud pak jS = (x'x) 1 X'Y Nakonec ještě a Y = XjS Se = (Y-Ý)'(Y-Ý) = 1/3, s2 = Se n — k /5,17\ 6,67 8,17 11,83 13,33 V14,83) 1/3 = 1/9. Jan Koláček (PřF MU) M5VM05 Statistické modelování 16/ Testování hypotéz v lineárním regresním modelu Díky předchozím větám dokážeme v lineárním regresním modelu plné hodnosti vypočítat nejen OLS-odhady neznámých parametrů jS = (/5i,..., fy)', ale také máme k dispozici odhad neznámého rozptylu cr2 a známe vlastnosti těchto odhadů. V dalším se zaměříme na stanovení jejich rozdělení v případě, že náhodný vektor [V] má vícerozměrné normální rozdělení. Pak teprve budeme moci přejít k testování hypotéz o neznámých parametrech /5i,... ,/3fc- Jestliže náhodný vektor Y se řídí lineárním regresním modelem plné hodnosti, což zapisujeme Y ~ £(XjS,(72In), a navíc má vícerozměrné normální rozdělení, budeme psát Y ~Nn(Xp,cr2In) Jan Koláček (PřF MU) M5VM05 Statistické modelování 17 / 51 Věta Věta 8 Mějme lineární regresní model plné hodnosti, přičemž Y ~ Nn(Xj6,(r2In). Pak platí (a) OLS-odhad vektoru neznámých parametrů má normální rozdělení ols NfcfjSVíX'X)-1 (b) náhodná veličina j, n~k2 2 (c) náhodná veličina K = C7Z a OLS-odhad X (n-k) jsou nezávislé. Jan Koláček (PřF MU) M5VM05 Statistické modelování 18 / 51 Test významnosti koeficientu ß Věta 9 V modelu Y ~ N„(Xj6, cr2I„) plné hodnosti pro každé c G Rk, c ^ 0 p/at/' r= c%LS-c>f}= ^ sy/dQCX)-1* Důsledek 10 V modelu Y ~ Nn(Xf},cr2In) plné hodnosti má 100(1 — a) % interval spolehlivosti pro parametrickou funkci c'j6 (kde c 0) tvar (c%ls ~ s^c'(X'X)-^c h_K/2{n-k),c%LS + s^/c'(X'X)-ic ŕ2_a/2(n-/c)) . Jan Koláček (PřF MU) M5VM05 Statistické modelování 19 / 51 Praktický test Prakticky lze provést test hypotézy H0 : c'j6 = 70 (?o je dané reálné číslo) proti alternativě Hi : c')S ^ j0 na hladině významnosti a tak, že hypotézu H0 zamítáme, pokud platí c%ls ~ 7o > h_ct/2(n-k) Jan Koláček (PřF MU) M5VM05 Statistické modelování Poznámka V praktických situacích se nejčastěji volí vektor c jako jednotkový s jedničkou na /-tém místě c = (0,..., 1,0,... , O)7 a v tom případě c7/5 = /57- , takže (a) 100(1 — oc)% interval spolehlivosti má tvar (při značení (X7X) 1 = (rzy)^=1) (^OLS/j-sv^jjh_0Ĺ/2(n-k) , poLS,j + s^jh-a/2(n-k)y (b) Test hypotézy Hq : /3y = 70 (70 je dané reálné číslo) proti alternativě Hl : ]6y 7^ 70 na hladině významnosti # se provede tak, že hypotézu Hq zamítáme, pokud platí POLSj ~ To > h-cc/i(n-k). Jan Koláček (PřF MU) M5VM05 Statistické modelování Test významnosti modelu Zavedeme následující bloková značení: P = (/H/ • • • / fint/ - - - / fik) > V-v-' V-v-' obdobně f PoLS = (PoLS,v PoLS,2) a nakonec také pro matici xx"lv21 V22)' kde matice Vn je typu m x m. Věta 11 V modelu Y ~ Nn(X[í,cr2In) plné hodnosti platí, že statistika F = s2(k-m) \Pols,2 - h) ^22 \}ols,2 ~ &) ~ F(k-m,n-k). Jan Koláček (PřF MU) M5VM05 Statistické modelování 22 / 51 Poznámka Díky předcházející větě můžeme testovat nulovou hypotézu (kde j62o Je daný vektor reálných čísel, nejčastěji nulový vektor) proti alternativě na hladině významnosti oc tak, že hypotézu Hq zamítáme, pokud platí F° = s2(k-m) (Pols,2 - &,o) y22 \Pols,2 ~ h,o) > -m,n-k) Jan Koláček (PřF MU) M5VM05 Statistické modelování Prakticky Testujeme nulovou hypotézu Ho:(j6i,...,j8jfc)=(0.....0) proti alternativě Hj : 3i > 0; ŕ 0 na hladině významnosti oc tak, že hypotézu fíg zamítáme, pokud platí 4 ID n-k kdes| = i Ľ (y/-ý)2 Jan Koláček (PřF MU) M5VM05 Statistické modelování Příklad Příklad 2 Pro data X -2 -1 0 1 2 Y -2 1 -2 1 -1 spočítejte MNČ-odhady vektoru parametrů 0, aproximace Ý, reziduálni součty čtverců s a index determinace ID v následujících modelech. Odhadnuté regresní funkce znázorněte také graficky. O y = 0o + 0i* © y = 0i* O y = 0O + + 02*2 O y = 0i* + 02*2 O y = 0o + 0i* + 02^ Testujte významnost koeficientů /5Z, testujte významnost modelu pomocí statistiky F. Porovnejte vhodnost regresních modelů pomocí F, s2 a ID. Jan Koláček (PřF MU) M5VM05 Statistické modelování 25 / 51 Řešení Řešení Pro jednotlivé modely počítejme postupně O y = j60 + j6ix j6 = (-0,6;0,2)', Ý = (-1;-0,8;-0,6;-0,4;-0,2)', s2 = 2,93, ID = 0,04348, F = 0,136, p-hodnoty pro jednotlivé koeficienty: (0,49; 0,73) © v = hx j§a =0,2, Ý= (-0,4;-0,2;0;0,2;0,4)', s2 = 2,65, ID = 0,0363, F = 0,15, p-hodnoty pro jednotlivé koeficienty: 0,717 O y = /So + j6i* + /S2x2 )6 = (-0,0286; 0,2;-0,2857)', Ý= (-1,5714; -0,5143; -0,0286; -0,1143; -0,7714)', s2 = 3,8286, ID = 0,1677, F = 0,2015, p-hodnoty pro jednotlivé koeficienty: (0,985; 0,777; 0,6396) Jan Koláček (PřF MU) M5VM05 Statistické modelování O y = fi\x + fax2 jS = (0,2; -0.2941)', Ý= (-1,576;-0,4941; 0;-0,0941;-0,776)', s = 2,55, ID = 0,3037, F = 0,654, p-hodnoty pro jednotlivé koeficienty (0,718; 0,362) O y = fa + fax + fať fi= (0,291; 0,847;-0,384)', Ý = (-1,4547;-0,6969;-0,0926; 0,0949;-0,851)', s2 = 3,8283, ID = 0,1677, F = 0,2015, p-hodnoty pro jednotlivé koeficienty: (0,8894; 0,59; 0,639). Speciální modely lineární regrese Model I: Regresní přímka Y, = j6o + P\%i + £; ,2 = 1, /l Xi\ í Matice plánu X = \1 *nj n n \ e xí » i=l n « 2 x'x = e Xj e Xi \i=l 1=1 / Model bude plné hodnosti, pokud všechny hodnoty nebudou stejné Normální rovnice jsou tvaru: ,n; n > 2. i=i . e XíYí \i=i / X'Y = n e xí n = e y i i=i TI i=l ľl čo e Xf + h i=l 1 i Ľxf 1 = 1 = ĽXíYí 1=1 Speciální modely lineární regrese Model II: Regrese procházející počátkem Y, = jBx, + e,, i = 1,..., n; n > 1 Matice plánu X n n X7Y = ( e XfYi i=l a model bude plné hodnosti, pokud alespoň jedna z hodnot X\,...,xn bude různá od nuly. Normální rovnice: n n P Ľ x} = ĽXíYí i=l i=l Jan Koláček (PřF MU) M5VM05 Statistické modelování Speciální modely lineární regrese Model III: Kvadratická regrese Yz- = jSq + $\X{ + /^xf + . z = 1,... ,n; n > 3. íl X\ Matice plánu X \1 ^n/ xx = n 2\ X'Y = / « \ ' ľ y i * z'=l n z=l n V=i / n n e *i e *, Z=l 1=1 n n n e e *? e ^ i=i i=i i=i n n n e *? e *■ e xf \í=i j=i i=i / /So" + j8i TI e *i + jS2 z'=l zz zz e*? z=l TI zz = e y i i=i zz í í , Norm. rov.: j6q e xi + Pi z=l e^ + fc 1=1 I í e *; i=l TI = e *ťYť i=i zz čo e*-+Č1 z'=l zz z=l z=l ZZ = e xfYi i=i Jan Koláček (PřF MU) M5VM05 Statistické modelování Speciální modely lineární regrese Model IV: Polynomická regrese Y j = jSo+jSixz-+ i = l,... ,n; n > m+1. / X = \1 X X'Y = z=l e XíYí z=l , X'X = n e *z z=l e *i e ^ z=l z=l \z=l z=l n Ľ *f Y, V=i n z=l m+1 z=l z 2m ť=i / Jan Koláček (PřF MU) M5VM05 Statistické modelování Příklad Příklad 3 Analyzujte data o počtu pracovních hodin za měsíc Y spojených s provozováním anesteziologické služby v závislosti na velikosti spádové populace nemocnice X (v tisících). Údaje byly získány ve 12 nemocnicích ve Spojených státech. i Y X 4000 p 1 304,37 25,5 3500 - 2 2616,32 294,3 3 1139,12 83,7 3000 - 4 285,43 30,7 2500 - 5 1413,77 129,8 6 1555,68 180,8 2000 - 7 383,78 43,4 -) cnn - 8 2174,27 165,2 \ OUU 9 845,30 74,3 1000 - 10 1125,28 60,8 11 3462,60 319,2 500 - 12 3682,33 376,2 0 -0 400 Jan Koláček (PřF MU) M5VM05 Statistické modelování 32 / 51 Řešení Graf naznačuje lineární vztah mezi pracovní dobou a velikostí populace, a tak budeme pokračovat kvantifikací tohoto vztahu pomocí přímky y = j6q + fi\X. 4000 3500 3000 2500 2000 h 1500 h 1000 500 1 1 1 1 1 1 1 0 / / o _ o / _ - / o - o o/ - / o 1 1 1 1 1 1 1 0 50 100 150 200 250 300 350 400 Jan Koláček (PřF MU) M5VM05 Statistické modelování Řešení Parametr Koeficient SE koef. r-statistika p-hodnota 180,658 128,381 1,407 0,1896823 h 9,429 0,681 13,847 7,520972e-08 Z tabulky tedy dostáváme: pracovní doba = 180,658 + 9,429 • velikost populace. Co je na tom divného? Jan Koláček (PřF MU) M5VM05 Statistické modelování 34/ Řešení Oboustranný interval spolehlivosti pro Oboustranný interval spolehlivosti pro 180,6575 ± 2,228 • 128,3812 = 180,6575 ± 286,051 9,429 ± 2,228 • 0,681 = 9,429 ± 1,517 -200 500 (-105,394; 466,709) (7,912; 10,946) Jan Koláček (PřF MU) M5VM05 Statistické modelování 35 / 51 v Řešení Uvažujeme regresi procházející počátkem (plná čára) a výsledek srovnáme s obecnou regresní přímkou (čárkovaná čára). t* =3,30157, p*-hodnota=l,0318e-10 Oboustranný interval spolehlivosti pro Pí 10,185 ± 2,2 • 0,4371 = 10,185 ± 0,962 4500 4000 3500 3000 2500 2000 1500 1000 500 50 100 150 200 250 300 350 400 pracovní doba = 10,185 • velikost populace. Jan Koláček (PřF MU) M5VM05 Statistické modelování 36 / 51 Speciální modely lineární regrese Model VI: Dvě regresní přímky (se stejným rozptylem). Mějme dva nezávislé náhodné výběry ..., Yini (resp. Y^x,..., Y2n2) a k tomu odpovídající hodnoty regresorů X\\,... ,X\ni (resp. %2\,.../^2n2)- Předpokládejme, že platí ^lz = «1 + Miz + £if, 1 = 1, • • •, ni, £if - N(0, cr^) ^2z = #2 + &2*2i + £2z'/ / = 1,. . •, n2, £2i ~ flf) Jan Koláček (PřF MU) M5VM05 Statistické modelování 37 / 51 Speciální modely lineární regrese Vytvořme společný regresní model Yi "i Y21 \ Yln2 / / 1 xn 0 0 \ I o o 0 ~Ô~ 1 x2i v o o i x2„2 y V b2 ) + £21 V £2n2 / Vyjádřeno blokově: Yi Y2 Xi 0 0 x2 + £l £2 Jan Koláček (PřF MU) M5VM05 Statistické modelování Speciální modely lineární regrese Počítejme postupně y'y — ( XíXl 0 ^ y'v — ( XíYl X X " 1 0 X'2X2 )' XY-\X'2Y2 = ( (x;xi)_1xíYi ^ (^x2)_1>^Y2 Označme Pak P V f2 / V Y2-Y2 ; l Y2-X2j62 SSE = £ 1 £ = f i 7 f i + £2 7 ^2 = SSEi + SSE2 a ,2 _ sse1 _ £1 ' £1 s ^2 n2-2 n2-2 1 ~ «i-2 - «i-2 _ 2 _ SSE _ (ni - 2)sf + (n2 - 2)s^ sse1 _ £2f£2 ni + n2 - 4 ni + n2 - 4 Jan Koláček (PřF MU) M5VM05 Statistické modelování 39 / 51 Testování rovnobežnosti dvou regresních přímek Při testování hypotézy Hq :b\ = b2 proti alternativě H\ : b\ ^ b2 využijeme toho, že statistika T = c'fi - c'/3 t(n — k). Položme c = (0,1,0,-1) c'iX'X)-^ = v22 + vU/ (X'X)"1 = (vX\ V21 031 \041 Za platnosti nulové hypotézy statistika ^ _ b\—b2 0 _ 5^22+^44 t(rt\ +íi2 — 4) Nulovou hypotézu zamítáme na hladině významnosti ol, pokud lřo| > t1_a(n1+n2-4:) Jan Koláček (PřF MU) M5VM05 Statistické modelování 012 V32 042 013 023 033 043 014 \ 024 034 044/ 40 / 51 Testování shodnosti dvou regresních přímek Budeme testovat hypotézu Hq : j61 = j62 Prot' alternativě H\ : j61 7^ j62 Využijeme vlastnosti & - ~ - ^^((XÍXQ^-KX^Xz)-1)). NT" w dále SSE (ni + n2-4)s2 2, A. K2 = — = —-\----X (ni+n2-4)/ takže k testování nulové hypotézy použijeme statistiku fo = K2/(£fn2-4) =Mh~ ^W-1 (A ~ h) ~ H2, n1 + n2- 4) a nulovou hypotézu zamítáme na hladině významnosti ol, pokud fo < Fa (2,ni + ti2 — 4) nebo/o > Fx_^(7.,ri\ + n2 — 4) Jan Koláček (PřF MU) M5VM05 Statistické modelování 41 / 51 Ověřování shodnosti rozptylů Při testování hypotézy Hq : cr2 = cr\ proti alternativě YL\ : (fti —2,ni— 2) Jan Koláček (PřF MU) M5VM05 Statistické modelování Příklad Příklad 4 V souboru „ teploty .Rdata" jsou uvedeny průměrné roční teploty v Praze (proměnná Y\) a ve Velkých Pavlovicích (proměnná Y2) v letech 1978 - 1995 (proměnná x). Předpokládejme, že závislost teplot na čase lze popsat regresní přímkou. Na hladině významnosti oc = 0,05 testujte hypotézy: (a) Hq : vzestup teplot byl stejný na obou stanovištích (b) Hq : průběh teplot byl stejný na obou stanovištích (c) Hq : rozptyl teplot byl stejný na obou stanovištích (d) Vykreslete graf obou regresních přímek Jan Koláček (PřF MU) M5VM05 Statistické modelování 43 / 51 Řešení (a) Vypočteme odhady parametrů bx = 0,091, b2 = 0,0885 a také s2 = 0,4334. V našem případě je v22 = ^44 = 0,002 a můžeme vypočítat hodnotu testové statistiky bi — &2 *0 = = 0,0603, SVv22 + V u kterou porovnáme s kvantilem Studentova rozdělení £9,975(32) = 2,037 Protože |řo| < £0,975(32), hypotézu Hq na dané hladině významnosti nezamítáme. (b) Vypočteme odhady parametrů j6x = (-170,44;0,091/, = (-166,31;0,0885)' a také matici W = ( 16289'82 ~8'2 y —o,2 U, UU41 tedy Ki = - j62)'w^1 (ft - )62) = 7,9 a K2 = s2 = 0,4334. Pro testování hypotézy použijeme statistiku . Pak /o 2K2 = 9,122, kterou porovnáme s kvantily Fisherova-Snedecorova rozdělení /0,o25(2,32) = 0,025 a /0,975(2,32) = 4,149. Protože /„ > f0/975(2,32), hypotézu Hq na dané hladině významnosti zamítáme. Jan Koláček (PřF MU) M5VM05 Statistické modelování Řešení (c) Vypočteme odhady parametrů s\ = 0,4308 a = 0,436. Pro testování hypotézy použijeme statistiku /o = 4 = 0'988' kterou porovnáme s kvantily Fisherova-Snedecorova rozdělení /o,025(16,16) = 0,3621 3/0,975(16,16) = 2,7614. Protože /o je mezi oběma hodnotami, hypotézu Hq na dané hladině významnosti nezamítáme. Jan Koláček (PřF MU) M5VM05 Statistické modelování 45 / 51 Řešení Jan Koláček (PřF MU) M5VM05 Statistické modelování 46 Úlohy k procvičení Příklad 1 VLRM (Y,X,p), X /l -3 9\ (7\ 1 -2 4 4 1 -1 1 2 1 1 1 , ^ — 2 1 2 4 5 v1 3 w v spočítejte MNC-odhady vektoru parametru j6, aproximace Ý, reziduálni součty čtverců Se as. [j6 = (1,5;0,1786; 0,6786)', Ý = (7,0714;3,8571;2;2,3571;4,5714; 8,1429)', Se = 0,3571, s2 = 0,119.] Jan Koláček (PřF MU) M5VM05 Statistické modelování 47 / 51 Úlohy k procvičení Příklad 2 Pro data X -2 -1 0 1 2 Y 0 2 3 3 1 V /V ----- spočítejte MNC-odhady vektoru parametrů jS, aproximace Y, reziduální součty čtverců Se a s2 ve dvou modelech. Který model je vhodnější? (Proč?) Oba modely vykreslete. (a) model s regresní funkcí Y = j6o + fi\X + j62x2 A A 1 1 (b) model s maticí plánu X \ 0 0 1 1 1 4 / [(a) fi = (3,09;0,3;-0,64)', Y = (-0,086;2,143;3,086;2,743; 1,114)', Se = 0,114, s2 = 0,057. (6j )6 = (3,17; -0,67)', Y = (0,5; 2,5; 0; 2,5; 0,5)', Se = 10, s2 = 3,33J Jan Koláček (PřF MU) M5VM05 Statistické modelování 48 / 51 Úlohy k procvičení Příklad 3 Pomocí regresní přímky procházející počátkem spočítejte MNČ-odhady vektoru parametrů jS, aproximace Y, reziduálni součty čtverců Se a s2 v LRM (Y, X,/5) pro data X 10 20 30 40 50 60 Y 0,18 0,35 0,48 0,65 0,84 0,97 Jedná se o měření teplotní délkové roztažnosti měděné trubky. Rozdíl teploty od referenční 20 ° C je x, prodloužení tyče je měřená veličina Y. [j6 = 0,0164, Y = (0,164;0,328;0,493;0,657;0,821;0,985)', Se = 0,0015, s2 = 0,0003.] Jan Koláček (PřF MU) M5VM05 Statistické modelování 49 / 51 Úlohy k procvičení Příklad 4 U 118 podniků řepařské oblasti v České Republice byl sledován hektarový výnos cukrovky ve vztahu ke spotřebě průmyslových hnojiv. Data jsou uložena v souboru „ cukrovka.Rdata" ve 4 sloupcích: O dolní hranice spotřeby K2O (kg/ha) Q horní hranice spotřeby K2O (kg/ha) O četnosti O průměrné výnosy cukrovky (q/ha) a) odhadněte parametry regresní funkce tvaru y = £0 + hx y = fa + fax0'5 b) Poznámka: Za hodnoty nezávisle proměnné volte střed intervalu. Porovnejte vhodnost tří použitých regresních modelů. Jan Koláček (PřF MU) M5VM05 Statistické modelování 50 / 51 Úlohy k procvičení Příklad 5 U 19 vzorků potravinářské pšenice byl zjišťován obsah zinku v zrnu (proměnná Y), v kořenech (proměnná X\), v otrubách (proměnná X2) a ve stonku a listech (proměnná X^). Data jsou uložena v souboru „pšenice.Rdata". a) Předpokládejte, že je vhodný regresní model Y = j80 + jSjXi + /32X2 + /33X3. Odhadněte regresní koeficienty a rozptyl, vypočtěte vektor predikce a index determinace. Proveďte celkový F-test a dílčí t-testy Hladinu významnosti volte 0,05. Normalitu reziduí posuďte graficky pomocí funkce qqnorm. b) Z regresního modelu odstraňte ty proměnné, jejichž regresní koeficienty se ukázaly nevýznamné pro oc = 0,05. Sestavte nový regresní model a proveďte v něm všechny úkoly z bodu a). Jan Koláček (PřF MU) M5VM05 Statistické modelování 51 / 51