M5VM05 Statistické modelování 5. Lineární regresní model Jan Koláček (kolacek@math.muni.cz) Ústav matematiky a statistiky, Přírodovědecká fakulta, Masarykova univerzita, Brno Jan Koláček (PřF MU) M5VM05 Statistické modelování 1/51 Často chceme prozkoumat vztah mezi dvěma veličinami, kde jedna z nich, tzv. „nezávisle proměnná" X, má řídit druhou, tzv. „závisle proměnnou" Y. Předpokládá se, že obě veličiny jsou spojité. Prvním krokem ve zkoumání by mělo být zakreslení dat do grafu. V řadě případů tento krok napoví mnohé o tom, co nás zajímá: Existuje vztah mezi oběma proměnnými (veličinami)? Pokud ano, pak rostou či klesají obě v jednom směru, nebo jedna klesá, když druhá roste? Je přímka vhodným modelem pro vyjádření vztahu mezi těmito dvěma veličinami? Chceme-li se dostat dále za tuto intuitivní úroveň analýzy, je lineární regrese často užitečným nástrojem. Tato metoda zahrnuje proložení přímky daty a analýzu statistických vlastností takovéto přímky. Jan Koláček (PřF MU) M5VM05 Statistické modelování 2/51 Lineární regresní model Předpokládejme, že mezi nějakými nenáhodnými veličinami y,X\,... fX^ platí lineární vztah y = j8i*i +----h fox*, ve kterém jSi,... ,/3fc jsou neznámé parametry. Informace o neznámých parametrech budeme získávat pomocí experimentu, a to tak, že opakovaně budeme měřit hodnoty veličiny y při vybraných hodnotách proměnných Při měřeních však vznikají chyby, což lze modelovat takto Y = j6i*i H-----h jSfcXfc + e, kde £ je náhodná chyba měření. Opakované hodnoty sledovaných veličin budeme pro i = 1,značit Yl,Xi\,... obdobně také náhodné chyby Jan Koláček (PřF MU) M5VM05 Statistické modelování 3 Lineární regresní model Celkově jsme dostali model Yi = +----hjBfcXiJt + či /YA Y« = j8ix„i +----h j6fcx„it + £ /+ii ••• Xi^\ /j6i\ /či\ + X(matice plánu) O náhodných chybách t\,...,tn budeme předpokládat, že jsou • nesystematické, což lze matematicky vyjádřit požadavkem, že Eev = 0 / = 1,... ,n, tj. Eg = 0 a tedy EY X/S • homogenní v rozptylu, tj. že Dey = cr2 > 0 pro z = 1,...,n\ • jednotlivé náhodné chyby jsou nekorelované, tj. že C(£i,£j) = 0 pro i 7^ j,i,j = 1,... ,7i, tj. DY = De = íT^In . takže i měření jsou nekorelovaná. Jan Koláček (PřF MU) M5VM05 Statistické modelování 4/51 Terminologie Používá se následující terminologie a značení • parametry /3i,... ,/3fc se nazývají regresní koeficienty; • matice X obsahuje nenáhodné prvky Xy a nazývá se regresní maticí nebo maticí plánu (Design Matrix); popsaný model souhrnně zapíšeme jako Y ~ C(Xfi,cr2\n) Takto zavedený model budeme nazývat linerární regresní model. Dále budeme předpokládat, že n > k a o hodnosti matice X budeme předpokládat, že je rovna k, tj. h(X) = k . Bude-li tento přepoklad splněn, budeme říkat, že jde linerární regresní model plné hodnosti. V tom případě jsou sloupce matice X nezávislé. V opačném případě, by bylo možné daný sloupec matice X napsat jako lineární kombinaci ostatních sloupců, což je možné interpretovat tak, že proměnná odpovídající danému sloupci je nadbytečná, protože ji lze vyjádřit jako lineární funkci ostatních proměnných. Jan Koláček (PřF MU) M5VM05 Statistické modelování 5/51 Příklad Regresní přímka v klasickém lineárním regresním modelu Jednoduchá lineární regrese: předpokládáme Yj (i = \,...,n) mají normální rozdělení i kde Xj jsou dané konstanty, které nejsou všechny stejné. n = j80 + j8i*i + £i n-r 0.0 0.5 i-1-r 1.0 1.5 2.0 V tomto případě yn = čo + hxn + e n Y = \Y„J x = \1 xnJ e = \£nj Nn(0,a2ln) Jan Koláček (PřF MU) M5VM05 Statistické modelování 6/51 Odhady neznámých parametrů Definice 1 Řekneme, že odhad /S = j6(Y) je lineárním odhadem vektoru /S, jestliže existuje matice reálných čísel Bjcxn taková, že /S = BY. Dále řekneme, že odhad /S = j8(Y) je nestranným odhadem vektoru /S, jestliže pro každé jS G Kk platí EJ6 = jS. Jestliže j6 = j8(Y) je takový lineární nestranný odhad vektoru parametrů j6, že pro každý jiný lineární nestranný odhad j6 = j8(Y) je rozdíl variančních matic Dj8(Y) — Dj8(Y) pozitivně semidefinitní matice, potom budeme říkat, že /S = j8(Y) je nejlepší nestranný lineární odhad (Best Linear Unbiased Estimator) parametrů j6, zkráceně BLUE odhad. Jan Koláček (PřF MU) M5VM05 Statistické modelování 7/51 Metoda nejmenších čtverců Definice 2 Řekneme, že odhad j60LS je odhadem parametru /S metodou nejmenších čtverců, jestliže Věta 3 Odhad parametru /S v modelu Y ~ C(Xfi,cr2\n) je tvaru fi0LS = (tfX)-1^. Jan Koláček (PřF MU) M5VM05 Statistické modelování 8/ Důkaz Důkaz Nejprve označme symbolem x- z-tý řádek matice plánu X a symbolem X, j-tý sloupec této matice, tj. X = Mi • ■ ■ xlk\ (x'i\ \%nl \XnJ = (Xi... xfc) Nutnou podmínkou pro extrém je, aby parciální derivace byly nulové, tj. pro $ 1 j • • • j 0 = few=^ - X/!>'(Y -m=á Š (r' -fi-r'ft Jan Koláček (PřF MU) M5VM05 Statistické modelování 9/51 Proto počítejme = Wsh Yl-lYi^XijPj+l^Xijfij j=i V=i n is nik \ = -2 £ YfXfs + 2 £ £ x^y X; z=l z=l V=l / n n k = -2 £ YA-S + 2 £ £ XijXispj = \0\ i=l z=l;=l Jan Koláček (PřF MU) M5VM05 Statistické modelování 10 / 51 Nyní se budeme snažit vyjádřit předchozí rovnost maticově. Upravujme postupně levou a pravou stranu: ti lc n n k z=l/=l z=l ;=1 z=l = X^X/S U/7 xp n i=l a celkove, zapíšeme-li k rovnic pod sebe a uvažujeme-li obě strany rovnosti, dostaneme (4\ xfxp X'Y tzv. normálni rovnice Vzhledem k předpokladu h(X) = /z(X'X) = k, iSoLS=(^/X)-1X/Y. Jan Koláček (PřF MU) M5VM05 Statistické modelování 11 / 51 Nyní zbývá dokázat, že tento extrém je také minimem, tj. že matice druhých parciálních derivací je pozitivně semidefinitní matice. Proto počítejme (s/z)-tý prvek matice druhých parciálních derivací 92 9j8s9j8Ä S(j6) = n n k i=l i=\j=l n 2E x \ ôPh V/tí s =xih n X/y^y J 2 ^ X/gX^ 2XSX/Z 1=1 Takže matice druhých parciálních derivací je a2s()8) s,h=l i=l = X'X > o, s,h=l tj. jde o pozitivně definitní matici a tím je věta dokázaná M5VM05 Statistické modelování 12 / 51 Věta 4 (Gaussova-Markovova věta) Odhad j60LS v modelu Y ~ £(X/S,(72In) 7'e BLUE-odhad (tj. je nejlepší nestranný lineární odhad) a jeho variační matice je rovna DpOLS = a2 (X'X) 1 Pro libovolný vektor cel* _/'e c'j6OLS BLUE-odhad parametrické funkce c'fi a má rozptyl (72c/(X/X)~1c. I Věty Věta 6 Platí Se = S(j6OLS) = (Y — Ý)'(Y - Ý) = Y'(I - H)Y, kde H je tzv. „hat" matice H = X(X'X) 1X'. Věta 7 Odhad s2 = r je nestranným odhadem rozptylu crz Jan Koláček (PřF MU) M5VM05 Statistické modelování 14 / 51 Příklad Příklad 1 V LRM (Y,X,j8), X = (1 -1 -3\ /5\ 1 -1 -2 7 1 -1 -1 8 1 1 1 , Y = 12 1 1 2 13 v 1 3^ i^lSyi spočítejte MNC-odhady vektoru parametrů />, aproximace Y, reziduálnísoučty čtverců Se a sx Jan Koláček (PřF MU) M5VM05 Statistické modelování 15 / 51 Řešení Řešení Nejprve vypočteme matice '6 0 0\ X'X = I 0 6 12 , (X'X)_1 0 12 28 / 0,5 0 -0,0714 0 0,0357 0 -0,0714 0 0,0153 Odtud pak j8 = (X'X) 1 X'Y Nakonec ještě ✓v. /v a Y = Xj8 Se = (Y-Ý)'(Y-Ý) = l/3, s2 = n — k (5,17\ 6,67 8,17 11,83 13,33 \14,83 / 1/3 = 1/9. Jan Koláček (PřF MU) M5VM05 Statistické modelování 16/ Testování hypotéz v lineárním regresním modelu Díky předchozím větám dokážeme v lineárním regresním modelu plné hodnosti vypočítat nejen OLS-odhady neznámých parametrů /S = (/3i,..., jS^-)7, ale také máme k dispozici odhad neznámého rozptylu cr2 a známe vlastnosti těchto odhadů. V dalším se zaměříme na stanovení jejich rozdělení v případě, že náhodný vektor [V] má vícerozměrné normální rozdělení. Pak teprve budeme moci přejít k testování hypotéz o neznámých parametrech /3i,...,/3fc. Jestliže náhodný vektor Y se řídí lineárním regresním modelem plné hodnosti, což zapisujeme Y ~ £(X/S,(72In), a navíc má vícerozměrné normální rozdělení, budeme psát Y ~Nn(Xp,CT2In) Jan Koláček (PřF MU) M5VM05 Statistické modelování 17 / 51 Věta Mějme lineární regresní model plné hodnosti, přičemž Y ~ Nn(X[í,cr2In). Pak platí (a) OLS-odhad vektoru neznámých parametrů má normální rozdělení ols NJpyiX'X)-1 (b) náhodná veličina K = n — k 2 2 s ~ X (n-k) (c) náhodná veličina K = _ n-kn2 9 D a OLS-odhad jsou nezávislé. Jan Koláček (PřF MU) M5VM05 Statistické modelování 18 / 51 Test významnosti koeficientu ß j V modelu Y ~ N„(Xj8, cr2ln) plné hodnosti pro každé ceR^c/O platí Sy/J(X'X)-lc Důsledek 10 V modelu Y ~ Nn(Xf}, o~2In) plné hodnosti má 100(1 — o) % interval spolehlivosti pro parametrickou funkci c' f} (kde c ^ 0) tvar (c%LS - s^c'(X'X)-ic h_K/2{n-k),c%LS + s^/c'(X'X)-ic h_a/2(n-k)) . Jan Koláček (PřF MU) M5VM05 Statistické modelování 19 / 51 Praktický test Prakticky lze provést test hypotézy H0 : c'= 70 (70 je dané reálné číslo) proti alternativě Hi : c'fi 7^ 70 na hladině významnosti oc tak, že hypotézu H0 zamítáme, pokud platí c%ls ~ 70 sy/diX'X)-^ > h-a/2(n-k) Jan Koláček (PřF MU) M5VM05 Statistické modelování Poznámka V praktických situacích se nejčastěji volí vektor c jako jednotkový s jedničkou na /-tém místě c = (0,..., 1,0,... , O)7 a v tom případě c'/S = /37- , takže (a) 100(1 — oc)% interval spolehlivosti má tvar (při značení (X7X) 1 = (^•/)^=1) (j$OLSj-s^jh-oc/2(n-k) , poLSj + s^jh-oc/2(n-k)y (b) Test hypotézy Hq : /3y = 70 (70 je dané reálné číslo) proti alternativě Hl : /3y 7^ 70 na hladině významnosti oc se provede tak, že hypotézu Hq zamítáme, pokud platí > h-cc/i(n-k). 11 Jan Koláček (PřF MU) M5VM05 Statistické modelování 21 Test významnosti modelu Zavedeme následující bloková značení: ~ (^1/ • • • / fint/ fim+lr - - - r fik) / V-v-' V-v-' obdobně f PoLS = (PoLS,V PoLS,2) a nakonec také pro matici XX"VV21 V22J' kde matice Vn je typu m x m. Věta 11 V modelu Y ~ Aín(Xj8, cr2In) p/né hodnosti platí, že statistika F = 1 ^ s2(fr_m) (/oLS,2 - ßl) Y22 (ßoLS,2 ~ ßl) ~ F(* - m, n - *). Jan Koláček (PřF MU) M5VM05 Statistické modelování 22 / 51 mka Díky předcházející větě můžeme testovat nulovou hypotézu (kde j62o Je daný vektor reálných čísel, nejčastěji nulový vektor) proti alternativě na hladině významnosti oc tak, že hypotézu Hq zamítáme, pokud platí F° = s2(k-m) (Pols,2 - fcjo) V22 (Pols,i ~ h,o) > -m,n-k) Jan Koláček (PřF MU) M5VM05 Statistické modelování Prakticky Testujeme nulovou hypotézu H0: (j6i,...,j8jfc)=(0.....0) proti alternativě Hj : 3i > 0; / 0 na hladině významnosti oc tak, že hypotézu Hq zamítáme, pokud platí 4 1D n-k W^) =t^iďk^t^f^{k-1'n-k) n kde 4 = i Ľ(yf-ý)2 Jan Koláček (PřF MU) M5VM05 Statistické modelování Příklad Příklad 2 Pro data X -2 -1 0 1 2 Y -2 1 -2 1 -1 spočítejte MNČ-odhady vektoru parametrů j8, aproximace Y, reziduálni součty čtverců s a index determinace ID v následujících modelech. Odhadnuté regresní funkce znázorněte také graficky. O y = j6o + fax Q y = fi\x O y = j60 + j8i* + j62*2 © y = čo + j8i* + ^ Testujte významnost koeficientů pj, testujte významnost modelu pomocí statistiky F. Porovnejte vhodnost regresních modelů pomocíF, s2 a ID. Jan Koláček (PřF MU) M5VM05 Statistické modelování 25 / 51 Řešení Řešení Pro jednotlivé modely počítejme postupně O y = j6o + j6ix j6 = (-0,6;0,2)', Ý = (-1;-0,8;-0,6;-0,4;-0,2)', s2 = 2,93, ID = 0,04348, F = 0,136, p-hodnoty pro jednotlivé koeficienty: (0,49; 0,73) O y = hx fa =0,2, Ý= (-0,4;-0,2;0;0,2;0,4)', s2 = 2,65, ID = 0,0363, F = 0,15, p-hodnoty pro jednotlivé koeficienty: 0,717 O y = j80 + či* + /32x2 )6 = (-0,0286;0,2;-0,2857)', Ý= (-1,5714;-0,5143;-0,0286;-0,1143;-0,7714)', s2 = 3,8286, ID = 0,1677, F = 0,2015, p-hodnoty pro jednotlivé koeficienty: (0,985; 0,777; 0,6396) Jan Koláček (PřF MU) M5VM05 Statistické modelování 26 / 51 O y = $\x + fax2 j6 = (0,2; -0.2941)', Ý= (-1,576;-0,4941;0;-0,0941;-0,776)', s = 2,55, 7D = 0,3037, F = 0,654, p-hodnoty pro jednotlivé koeficienty: (0,718; 0,362) O y = fa + fax + fa<ř /S = (0,291; 0,847;-0,384)', Ý = (-1,4547;-0,6969;-0,0926; 0,0949;-0,851)', s2 = 3,8283, ID = 0,1677, F = 0,2015, p-hodnoty pro jednotlivé koeficienty: (0,8894; 0,59; 0,639). Speciální modely lineární regrese Model I: Regresní přímka Yz- = jSq + fiixi + , z = 1,... ,n; n > 2. Matice plánu X V1 W x'x = V n \ n e *i í=i n n e *i e x? ;=1 í=l / X'Y = / n \ ľ y i i=l n v=i / Model bude plné hodnosti, pokud všechny hodnoty nebudou stejné. Normální rovnice jsou tvaru: j6o" + j6i = e y í=i 1=1 ľl h ľ *i + 1=1 ľ X? 1 = 1 i=l Jan Koláček (PřF MU) M5VM05 Statistické modelování 28 / 51 Speciální modely lineární regrese Model II: Regrese procházející počátkem Y,- = j6x; + e,, i = 1,..., n; n > 1 Matice plánu X n n xfx = e x i ' X7Y = ( e ^-Vi .z=l a model bude plné hodnosti, pokud alespoň jedna z hodnot bude různá od nuly. Normální rovnice: n n fi Ľ x* = LxíYí i=l i=l Jan Koláček (PřF MU) M5VM05 Statistické modelování Speciální modely lineární regrese Model III: Kvadratická regrese Yz- = jSq + Pixi + fiixi + . i — 1,...,n) n > 3. /I x\ X|\ / Matice plánu X X'X = \1 Xn XnJ n n n \ L xí £ xf l n X'Y = í=i n e XíYí i=l n V=i / z=l z=l n n e *i Ľ x} Lxf i=l i=l i=l n n n Ľ xf E xf E xf \i=l i=l i=l ) n n 2 i i=l i=l n n 2 i £?_ ~3 fon + pr ĽXi + fcĽxf Norm. rov.: jSo e *z + 01 e *f + H e z=l i=l i=l i=l i=l i=l Jan Koláček (PřF MU) M5VM05 Statistické modelování Speciální modely lineární regrese Model IV: Polynomická regrese Y j = po+piXj+ i — .. ,n) n > m+1. í £ z=l +pmxf+e l I (\ Xi X = \1 x , x'x = i \ X'Y = e y i z=l n Ľ XíYí i=i V=i / n n e xí e *f z=l z=l \z=l z=l e*r z=l ľ 4 m+1 z=l z 2m z=l Jan Koláček (PřF MU) M5VM05 Statistické modelování Příklad Příklad 3 Analyzujte data o počtu pracovních hodin za měsíc Y spojených s provozováním anesteziologické služby v závislosti na velikosti spádové populace nemocnice X (v tisících). Údaje byly získány ve 12 nemocnicích ve Spojených státech. i Y X 4000 p 1 304,37 25,5 3500 - 2 2616,32 294,3 3 1139,12 83,7 3000 - 4 285,43 30,7 2500 - 5 1413,77 129,8 6 1555,68 180,8 2000 - 7 383,78 43,4 -j cnn - 8 2174,27 165,2 \ ouu 9 845,30 74,3 1000 - 10 1125,28 60,8 11 3462,60 319,2 500 - 12 3682,33 376,2 0 -0 400 Jan Koláček (PřF MU) M5VM05 Statistické modelování 32 / 51 Řešení Graf naznačuje lineární vztah mezi pracovní dobou a velikostí populace, a tak budeme pokračovat kvantifikací tohoto vztahu pomocí přímky y = jSq + filx- 4000 3500 3000 2500 2000 h 1500 h 1000 500 1 1 1 1 1 1 1 0 / / o _ o / _ - / o - o o/ - / o 1 1 1 1 1 1 1 0 50 100 150 200 250 300 350 400 Jan Koláček (PřF MU) M5VM05 Statistické modelování Řešení Parametr Koeficient SE koef. r-statistika p-hodnota 180,658 128,381 1,407 0,1896823 h 9,429 0,681 13,847 7,520972e-08 Z tabulky tedy dostáváme: pracovní doba = 180,658 + 9,429 • velikost populace. Co je na tom divného? Jan Koláček (PřF MU) M5VM05 Statistické modelování 34/ Řešení Oboustranný interval spolehlivosti pro Oboustranný interval spolehlivosti pro 180,6575 ± 2,228 • 128,3812 = 180,6575 ± 286,051 9,429 ± 2,228 • 0,681 = 9,429 ± 1,517 -200 -100 100 200 300 400 500 (-105,394; 466,709) (7,912; 10,946) Jan Koláček (PřF MU) M5VM05 Statistické modelování 35 / 51 v Řešení Uvažujeme regresi procházející počátkem (plná čára) a výsledek srovnáme s obecnou regresní přímkou (čárkovaná čára). í* =3,30157, p*-hodnota=l,0318e-10 Oboustranný interval spolehlivosti pro Pí 10,185 ± 2,2 • 0,4371 = 10,185 ± 0,962 4500 4000 3500 3000 2500 2000 1500 1000 500 50 100 150 200 250 300 350 400 pracovní doba = 10,185 • velikost populace. Jan Koláček (PřF MU) M5VM05 Statistické modelování 36 / 51 Speciální modely lineární regrese Model VI: Dvě regresní přímky (se stejným rozptylem). Mějme dva nezávislé náhodné výběry Y\\,..., Y\ni (resp. Y2\,..., Y2n2) a k tomu odpovídající hodnoty regresorů X\\,... ,X\nx (resp. x2\,...,x2íl2). Předpokládejme, že platí y u = ai+ hxu + tu, / = 1,..., ni, £1/ - N(0, cr^) yn = a2 + b2x2i + e2i, i = l,...,n2, e2i ~ N(0,trf) Jan Koláček (PřF MU) M5VM05 Statistické modelování 37 / 51 Speciální modely lineární regrese Vytvořme společný regresní model I Yl1 \ "i y21 V Y2ni ) ( 1 xu 0 0 I Xlni_ Q 0 0 ~Ô~ 1 X2i \ Vo 0 1 x2„2 / h Vyjádřeno blokově: Yl Y2 X1 0 0 x2 fil + Jan Koláček (PřF MU) M5VM05 Statistické modelování Speciální modely lineární regrese Počítejme postupně y'y — ( XíXl 0 ^ y'v — i XíYl XX~{ 0 XÍ,X2 ) ' X Y ~ V XÍ,Y2 e=( h\ = ( (K^r1^ P 1 j62 j \ (X^X2)-1X^Y2 Označme Ž = Y-Y = Y-X/S= ( h) = (Yl-^) = ( Yl~X* P \ £2 J VY2-Y2; 1VY2-X2i62 Pak SSE = e/e = ei 1 e\ + £2 1 £2 = SSEi + SSE2 a ,2 _ SSE1 _ ei ' £i S 1 2 ss^ g2 7 g2 " ni + n2 - 4 ni + n2 - 4 S2 n2-2 n2-2 i ~ «i-2 - «i-2 _ 2 _ SSE _ {ni - 2)s{ + (n2 - 2)s{ Jan Koláček (PřF MU) M5VM05 Statistické modelování 39 / 51 Testování rovnobežnosti dvou regresních přímek Při testování hypotézy Hq :b\ = proti alternativě H\ : b\ ^ využijeme toho, že statistika T = c'j6 - c')S r(n — k). Položme c = (0,1,0,-1) d (X'X)-1 c = v22 + vu, (X'X)'1 = í Vn v21 »31 \»41 Za platnosti nulové hypotézy statistika r0 = J:,:íi„ ~ŕ(m+n2-4) S\/í;22+í'44 Nulovou hypotézu zamítáme na hladině významnosti a, pokud N > h-^in\ +n2 -4) »12 »22 »32 »42 »13 »23 »33 »43 014 \ »24 »34 »44/ Jan Koláček (PřF MU) M5VM05 Statistické modelování 40 / 51 Testování shodnosti dvou regresních přímek Budeme testovat hypotézu Hq : j81 = /S2 Prot' alternativě H\ : ^ 7^ j62 Využijeme vlastnosti - % ~ - /^((X^)"1 + (X^)"1)). W a dále K2 = —= —-1----^(ni+n2-4), takže k testování nulové hypotézy použijeme statistiku f0 = K2/(^n2-4) = 2? Ä " W_1 Ä " k) ~ f(2' "1 + "2 " 4) a nulovou hypotézu zamítáme na hladině významnosti cc, pokud fo < Fa (2,ni + ft2 — 4) nebo/o > (2,fti + n2 — 4) Jan Koláček (PřF MU) M5VM05 Statistické modelování 41 / 51 Ověřování shodnosti rozptylů Při testování hypotézy Hq : crf = cr^ proti alternativě H\ : crf 7^ cr^ využijeme toho, že statistika (n2-2)a2 2 a nulovou hypotézu zamítáme na hladině významnosti oc, pokud fo < Fa (m — 2, n2 — 2) nebo/o > (wi —2,712 — 2) Jan Koláček (PřF MU) M5VM05 Statistické modelování Příklad Příklad 4 V souboru „ teploty .Rdata" jsou uvedeny průměrné roční teploty v Praze (proměnná Y\) a ve Velkých Pavlovicích (proměnná Y2) v letech 1978 - 1995 (proměnná x). Předpokládejme, že závislost teplot na čase lze popsat regresní přímkou. Na hladině významnosti oc = 0,05 testujte hypotézy: (a) Hq : vzestup teplot byl stejný na obou stanovištích (b) Hq : průběh teplot byl stejný na obou stanovištích (c) Hq : rozptyl teplot byl stejný na obou stanovištích (d) Vykreslete graf obou regresních přímek Jan Koláček (PřF MU) M5VM05 Statistické modelování 43/ Řešení (a) Vypočteme odhady parametrů b\ = 0,091, b2 = 0,0885 a také s2 = 0,4334. V našem případě je v22 — v44 = 0,002 a můžeme vypočítat hodnotu testové statistiky ío = / , = 0,0603, kterou porovnáme s kvantilem Studentova rozdělení ^,975(32) = 2,037. Protože |řo| < ío,975(32), hypotézu Hq na dané hladině významnosti nezamítáme. (b) Vypočteme odhady parametrů fa = (-170,44;0,09i)7, j62 = (-166,31;0,0885y a také matici W = f^6^'^ q^qq^) • Pak tedy ICi = (ft - j62)/W"1 - J82) = 7,9 a K2 = s2 = 0,4334. Pro testování hypotézy použijeme statistiku A = ^ = 9,122, kterou porovnáme s kvantily Fisherova-Snedecorova rozdělení /0/o25(2,32) = 0,025 a /o,975 (2,32) = 4,149. Protože f0 > f0/975(2,32), hypotézu Hq na dané hladině významnosti zamítáme. Jan Koláček (PřF MU) M5VM05 Statistické modelování 44 / 51 Řešení (c) Vypočteme odhady parametrů s\ = 0,4308 a = 0,436. Pro testování hypotézy použijeme statistiku /o = 4 = 0'988' kterou porovnáme s kvantily Fisherova-Snedecorova rozdělení /o,025(16,16) = 0,3621 a/o7975(16,16) = 2,7614. Protože f$ je mezi oběma hodnotami, hypotézu Hq na dané hladině významnosti nezamítáme. Jan Koláček (PřF MU) M5VM05 Statistické modelování 45 / 51 Řešení Jan Koláček (PřF MU) M5VM05 Statistické modelování 46 Úlohy k procvičení Příklad 5.1 V LRM (Y, X, p), X (1 -3 9\ (7\ 1 -2 4 4 1 -1 1 2 1 1 1 , ' — 2 1 2 4 5 v 3 V w spočítejte MNC-odhady vektoru parametrů j6, aproximace Ý, reziduálni součty čtverců Se as. [j6 = (1,5;0,1786; 0,6786)', F = (7,0714;3,8571;2;2,3571;4,5714; 8,1429)', Se = 0,3571, s2 = 0,119.] Jan Koláček (PřF MU) M5VM05 Statistické modelování 47 / 51 Úlohy k procvičení Příklad 5.2 Pro data X -2 -1 0 1 2 Y 0 2 3 3 1 spočítejte MNC-odhady vektoru parametrů j6, aproximace Y, reziduálni součty čtverců Se a s ve dvou modelech. Který model je vhodnější? (Proč?) Oba modely vykreslete. (a) model s regresní funkcí Y = /3o + jSi* + fiix l\ 4\ 1 1 (b) model s maticí plánu X 0 0 1 1 vi 4/ [(a) fl = (3,09;0,3;-0,64)', r = (-0,086;2,143;3,086;2,743; 1,114)', Se = 0,114, s2 = 0,057. (b) j6 = (3,17;-0,67)', Y = (0,5; 2,5; 0; 2,5; 0,5)', Se = 10, s2 = 3,33./ Jan Koláček (PřF MU) M5VM05 Statistické modelování 48 / 51 Úlohy k procvičení Příklad 5.3 Pomocí regresní přímky procházející počátkem spočítejte MNČ-odhady vektoru parametrů /?, aproximace Y, reziduálni součty čtverců Se a s2 v LRM (Y,X,fi) pro data X 10 20 30 40 50 60 Y 0,18 0,35 0,48 0,65 0,84 0,97 Jedná se o měření teplotní délkové roztažnosti měděné trubky. Rozdíl teploty od referenční 20 ° C je x, prodloužení tyče je měřená veličina Y. [j6 = 0,0164, Y = (0,164;0,328;0,493;0,657;0,821;0,985)', Se = 0,0015, s2 = 0,0003.] Jan Koláček (PřF MU) M5VM05 Statistické modelování 49 / 51 Úlohy k procvičení Příklad 5.4 U 118 podniku řepařské oblasti v České Republice byl sledován hektarový výnos cukrovky ve vztahu ke spotřebě průmyslových hnojiv. Data jsou uložena v souboru „ cukrovka.Rdata" ve 4 sloupcích: O dolní hranice spotřeby k2o (kg/ha) Q horní hranice spotřeby k2o (kg/ha) O četnosti O průměrné výnosy cukrovky (q/ha) a) odhadněte parametry regresní funkce tvaru y = £0 + j8i* y = £0 + jSix + /32x2 y = čo + frx0'5 Poznámka: Za hodnoty nezávisle proměnné volte střed intervalu. b) Porovnejte vhodnost tří použitých regresních modelů. Jan Koláček (PřF MU) M5VM05 Statistické modelování 50 / 51 Úlohy k procvičení Příklad 5.5 U 19 vzorků potravinářské pšenice byl zjišiován obsah zinku v zrnu (proměnná y), v kořenech (proměnná v otrubách (proměnná x2) a ve stonku a listech (proměnná x^). Data jsou uložena v souboru „pšenice.Rdata". a) Předpokládejte, že je vhodný regresní model y = ]80 + frXi + Č2X2 + £3X3. Odhadněte regresní koeficienty a rozptyl, vypočtěte vektor predikce a index determinace. Proveďte celkový F-test a dílčí t-testy Hladinu významnosti volte 0,05. Normalitu reziduí posuďte graficky pomocí funkce qqnorm. b) Z regresního modelu odstraňte ty proměnné, jejichž regresní koeficienty se ukázaly nevýznamné pro oc = 0,05. Sestavte nový regresní model a proveďte v něm všechny úkoly z bodu a). Jan Koláček (PřF MU) M5VM05 Statistické modelování 51 / 51