M5VM05 Statistické modelování 5. Lineární regresní model Jan Koláček (kolacek@math.muni.cz) Ustav matematiky a statistiky, Přírodovědecká fakulta, Masarykova univerzita, Brno podzim 2013 Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 1/51 Motivace Často chceme prozkoumat vztah mezi dvěma veličinami, kde jedna z nich, tzv. „nezávisle proměnná" X, má řídit druhou, tzv. „závisle proměnnou" Y. Předpokládá se, že obě veličiny jsou spojité. Prvním krokem ve zkoumání by mělo být zakreslení dat do grafu. V řadě případů tento krok napoví mnohé o tom, co nás zajímá: Existuje vztah mezi oběma proměnnými (veličinami)? Pokud ano, pak rostou či klesají obě v jednom směru, nebo jedna klesá, když druhá roste? Je přímka vhodným modelem pro vyjádření vztahu mezi těmito dvěma veličinami? Chceme-li se dostat dále za tuto intuitivní úroveň analýzy, je lineární regrese často užitečným nástrojem. Tato metoda zahrnuje proložení přímky daty a analýzu statistických vlastností takovéto přímky. Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 2/51 Lineární regresní model Předpokládejme, že mezi nějakými nenáhodnými veličinami y,X\,... ,xk platí lineární vztah V = jMi + —i- hxk, ve kterém f>\,..., f>k jsou neznámé parametry. Informace o neznámých parametrech budeme získávat pomocí experimentu, a to tak, že opakovaně budeme měřit hodnoty veličiny y při vybraných hodnotách proměnných X\,... ,x^. Při měřeních však vznikají chyby, což lze modelovat takto Y = faxi H-----h fikxk + e, kde e je náhodná chyba měření. Opakované hodnoty sledovaných veličin budeme pro i = 1,..., n značit Yj,Xn,... ,Xjk, obdobně také náhodné chyby £,-. Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 3/51 Lineární regresní model Celkově jsme dostali model Yl = 01*11 +----h faxlk + £1 Y„ = fíiX„i H-----h 0)t*nJt + en (Y1) Y X(matice pl O náhodných chybách £i, ...,£„ budeme předpokládat, že jsou nesystematické, což lze matematicky vyjádřit požadavkem, že Ee, = 0 í= l,...,n, tj. \Ee = 0\a tedy EY = X0 homogenní v rozptylu, tj. že De, = c2 > 0 pro i = 1,... ,n jednotlivé náhodné chyby jsou nekorelované, tj. že C(e;,£y) = 0 pro i j, i, j = 1,... ,n, tj. DY = De = í7"2In , takže i měření jsou nekorelovaná. Jan Koláček (PřF MU) M5VM05 Statistické modelováni podzim 2013 4 / 51 Terminologie Používá se následující terminologie a značení • parametry /3i,...,/3j- se nazývají regresní koeficienty; • matice X obsahuje nenáhodné prvky x^ a nazývá se regresní maticí nebo maticí plánu (Design Matrix); » popsaný model souhrnně zapíšeme jako Y~£(Xß,tT2I„) Takto zavedený model budeme nazývat linerární regresní model. Dále budeme předpokládat, že n > k a o hodnosti matice X budeme předpokládat, že je rovna k, tj. h(X) = k . Bude-li tento přepoklad splněn, budeme říkat, že jde linerární regresní model plné hodnosti. V tom případě jsou sloupce matice X nezávislé. V opačném případě, by bylo možné daný sloupec matice X napsat jako lineární kombinaci ostatních sloupců, což je možné interpretovat tak, že proměnná odpovídající danému sloupci je nadbytečná, protože ji lze vyjádřit jako lineární funkci ostatních proměnných. Jan Koláček (PřF MU) M5VM05 Statistické modelováni Příklad Regresní přímka v klasickém lineárním regresním modelu Jednoduchá lineární regrese: předpokládáme Y,- (i = l,...,n) mají normální rozdělení Yi-N^o + fr*"^)", kde X{ jsou dané konstanty, které nejsou všechny stejné. = 00 + 01*1+^1 Y„ = j6o + fa*n + £n 6/51 Odhady neznámych parametrů Definice 1 Řekneme, že odhad = /S(Y) je lineárním odhadem vektoru jestliže existuje matice reálných čísel Bj-Xn taková, že = BY. Dále řekneme, že odhad = /S(Y) je nestranným odhadem vektoru jestliže pro každé jSeR1 platí E/3 = /3. Jestliže = /3(Y) je takový lineární nestranný odhad vektoru parametrů že pro každý jiný lineární nestranný odhad = /3(Y) je rozdíl variančních matic D/3(Y) — D/3(Y) pozitivně semidefinitní matice, potom budeme říkat, že = /3(Y) je nejlepší nestranný lineární odhad (Sesř Linear Unbiased Estimator) parametrů zkráceně BLUE odhad. Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 7 / 51 Metoda nejmenších čtverců Definice 2 Řekneme, že odhad /30LS je odhadem parametru metodou nejmenších čtverců, jestliže P0LS = arg min (Y - Xj8)'(Y - X/3) = arg min £ Y« " E *^ Věta 3 Odhad parametru fí v modelu Y ~ £(X/3, c2I„) je tvaru Jan KoláCek (PřF MU) M5VM05 Statistické modelováni podzim 2013 8 / 51 Důkaz Důkaz Nejprve označme symbolem z-tý řádek matice plánu X a symbolem Xj j-tý sloupec této matice, tj. xlk (Xi...Xfc Nutnou podmínkou pro extrém je, aby parciální derivace byly nulové, tj. pro s = l,...,k Jan Koláček (PřF MU) M5VM05 Statistické modelováni podzim 2013 9 / 51 Proto počítejme 3^ ops — Y k (k n ;=i V=i / n nik \ -2 £ Y,-xís + 2 £ xís i=i i=i \]=\ ) n n k -2 £ YíXís + 2 £ £ xiixi^j = GD (=1 i=l ;'=1 y, ^^Xij%isfij y, Y)X,ř (=1 ;'=1 z'=l Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 10 / 51 Nyní se budeme snažit vyjádřit předchozí rovnost maticově. Upravujme postupně levou a pravou stranu: n k n k n 11 n (=1 a celkově, zapíšeme-li A: rovnic pod sebe a uvažujeme-li obě strany rovnosti, dostaneme Y' / Vy'/ \ Y' lAic/ \Xn/ \Aic/ tzv. normálni rovnice =X'X£ =X'Y Vzhledem k předpokladu fc(X) = h (X'X) = k, Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 11 / Nyní zbývá dokázat, že tento extrém je také minimem, tj. že matice druhých parciálních derivací je pozitivně semidefinitní matice. Proto počítejme (sh)-tý prvek matice druhých parciálních derivací d2 _ _d_ n n k i=l i=lj=l í'=1 Takže matice druhých parciálních derivací je k / \ k x'x > o, s,h=l tj. jde o pozitivně definitní matici a tím je věta dokázaná. Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 12 / 51 Věty Věta 4 (Gaussova-Markovova věta) Odhad I$qis v modelu Y ~ £(X/3, c2I„) je BLUE-odhad (tj. je nejlepšínestranný lineární odhad) a jeho variační matice je rovna Věta 5 Pro libovolný vektor c e R4 je c'/}0LS BLUE-odhad parametrické funkce c'/} a má rozptyl ^c'iX'X^c. Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 13 / 51 Věty Věta 6 Platí Se = S(P0LS) = YY - p'0LSX'\ = Y'(I - H)Y, kde H je tzv. „hat" matice H = X(X'X) X'. Věta 7 Odhad 2 Se s = —r n — k je nestranným odhadem rozptylu o2. Jan KoláCek (PřF MU) M5VM05 Statistické modeloval podzim 2013 14 / 51 Příklad Příklad 8 VLRM (Y,X,/3), X í1 -1 -3^ (5\ 1 -1 -2 7 1 -1 -1 8 1 1 1 , Y = 12 1 1 2 13 \1 1 3^ usy spočítejte MNČ-odhady vektoru parametrů /?, aproximace Ý, reziduálni součty čtverců Se a s Jan KoláCek (PřF MU) M5VM05 Statistické modelováni podzim 2013 15 / 51 Řešení Řešení Nejprve vypočteme matice /6 0 0 X'X = 0 6 12 ] , (X'X) \0 12 28, Odtud pak j3 = (X'X) 1 X'Y 0,5 0 -0,0714^ 0 0,0357 0 -0,0714 0 0,0153 a Ý = Xj& Nakonec ještě Ss = (Y-Ý)'(Y-Ý) = 1/3, s2 /5,17\ 6,67 8,17 11,83 13,33 \14,83/ Jan KoláCek (PřF MU) M5VM05 Statistické modelování podzim 2013 16 / 51 Testování hypotéz v lineárním regresním modelu Díky předchozím větám dokážeme v lineárním regresním modelu plné hodnosti vypočítat nejen OLS-odhady neznámých parametrů = (fy,... ,fy)', ale také máme k dispozici odhad neznámého rozptylu c2 a známe vlastnosti těchto odhadů. V dalším se zaměříme na stanovení jejich rozdělení v případě, že náhodný vektor [y] má vícerozměrné normální rozdělení. Pak teprve budeme moci přejít k testování hypotéz o neznámých parametrech fy,..., fy. Jestliže náhodný vektor y se řídí lineárním regresním modelem plné hodnosti, což zapisujeme y ~ £(Xfya2l„), a navíc má vícerozměrné normální rozdělení, budeme psát y~N„(x/3/t72I„) . Jan KoláCek (PřF MU) M5VM05 Statistické modeloval podzim 2013 17 / 51 Věta Věta 9 Mějme lineární regresní model plné hodnosti, přičemž Y ~ N„(Xfí,cr2ln). Pak platí (a) OLS-odhad vektoru neznámých parametrů má normální rozdělení 0 OLS (b) náhodná veličina K n — k NfcfjS^X'X)-1 X2(n-k) (c) náhodná veličina K = n-k„2 a OLS-odhad ols jsou nezávislé. Jan Koláček (PřF MU) M5VM05 Statistické modelováni podzim 2013 18 / 51 Test významnosti koeficientu ßj Věta 10 V modelu Y ~ N„(X/3, cr2ln) plné hodnosti pro každé cěE* c/0 platí t(n-k). Důsledek 11 V modelu Y ~ N„(Xfí, cr2l„) plné hodnosti má 100(1 — o.) % interval spolehlivosti pro parametrickou funkci c'/3 (kde c 7^ 0) tvar c'ßo^-sJc'iX'X^ch^in-^^'ßo^ + sJc'iX'X^ch^n-k) Jan Koláček (PřF MU) M5VM05 Statistické modelováni podzim 2013 19 / 51 Praktický test Prakticky lze provést test hypotézy Hq : c'/3 = 70 (70 je dané reálné číslo) proti alternativě Hi : c'/3 7^ 70 na hladině významnosti a tak, že hypotézu Hq zamítáme, pokud platí ols 7o > t l-a/2 (n-k) Jan KoláCek (PřF MU) M5VM05 Statistické modelováni Poznámka V praktických situacích se nejčastěji volí vektor c jako jednotkový s jedničkou na /-tém místě c = (0,..., 1,0,..., 0)' a v tom případě c'/3 = j3j , takže (a) 100(1 — oc)% interval spolehlivosti má tvar (při značení (X'X) 1 = (» h-a/i(n-k). Jan Koláček (PřF MU) M5VM05 Statistické modelovaní podzim 2013 21 / 51 Test významnosti modelu Zavedeme následující bloková značení: ß=(ßl.....ßm,ßm+l.....ßk)', obdobně ^ PoLS = (PoLS,ľ PoLS,2) a nakonec také pro matici X'X Vn v12 V21 V22 kde matice Vy je typu m x m. Věta 12 V modelu Y ~ N„(X/S, c2I„) p/né hodností platí, že statistika Jan KoláCek (PřF MU) M5VM05 Statistické modelování podzim 2013 22 / 51 Poznámka Díky předcházející větě můžeme testovat nulovou hypotézu H0 : ^2 = 02,0' (kde /320 je daný vektor reálných čísel, nejčastěji nulový vektor) proti alternativě Hl : & 7^ &,o na hladině významnosti a tak, že hypotézu Hq zamítáme, pokud platí F° = sHk-m) {Pols,2 - 02,o) y22 (}ols,2 ~ 02,o) > Fi-«(^ - m,n - k). Jan KoláCek (PřF MU) M5VM05 Statistické modeloval podzim 2013 23 / 51 Prakticky Testujeme nulovou hypotézu H0:(/3i.....fo)=(0.....0) proti alternativě Hi : 3i > 0; ^ 0 na hladině významnosti a tak, že hypotézu Hq zamítáme, pokud platí c2 ÍD n - A: kde 4 = 1 Ľ(y«-y)2 1=1 Jan KoláCek (PřF MU) M5VM05 Statistické modelováni podzim 2013 24 / 51 Příklad Příklad 13 Pro data X -2 -1 0 1 2 Y -2 1 -2 1 -1 spočítejte MNČ-odhady vektoru parametrů 0, aproximace Ý, reziduálni součty čtverců s2 a index determinace ID v následujících modelech. Odhadnuté regresní funkce znázorněte také graficky. 0 y = 00 + Pix o y = o y = 00 + 01* + 02*2 o y = 01X + 02*2 o y = 00 + 0i* + 02e* Testujte významnost koeficientů fij, testujte významnost modelu pomocí statistiky F. Porovnejte vhodnost regresních modelů pomocí F, s2 a ID. Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 25 / 51 Řešení Řešení Pro jednotlivé modely počítejme postupně O y = fy + fyx /} = (-0,6;0,2)', Ý = (-1; -0,8;-0,6; -0,4; -0,2)', s2 = 2,93, ID = 0,04348, F = 0,136, p-hodnoty pro jednotlivé koeficienty: (0,49;0,73) O y= fyx fy =0,2, Ý = (-0,4;-0,2;0;0,2; 0,4)', s2 = 2,65, ID = 0,0363, F = 0,15, p-hodnoty pro jednotlivé koeficienty: 0,717 O y = fy + fyx + fyx2 j}= (-0,0286; 0,2;-0,2857)', Ý= (-1,5714;-0,5143;-0,0286;-0,1143;-0,7714)', s2 = 3,8286, ID = 0,1677, F = 0,2015, p-hodnoty pro jednotlivé koeficienty: (0,985; 0,777; 0,6396) Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 26 / 51 Řešení O y= fax + fax2 j&= (0,2;-0.2941)', Ý= (-1,576;-0,4941;0;-0,0941;-0,776)', s2 = 2,55, ID = 0,3037, F = 0,654, p-hodnoty pro jednotlivé koeficienty: (0,718; 0,362) O y = fa + fax + fae* j6 = (0,291; 0,847;-0,384)', Ý= (-1,4547;-0,6969;-0,0926;0,0949;-0,851)', s2 = 3,8283, ID = 0,1677, F = 0,2015, p-hodnoty pro jednotlivé koeficienty: (0,8894; 0,59; 0,639). Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 27 / 51 Speciální modely lineární regrese Model I: Regresní přímka Y,- = /3q + f>\X{ + , i = 1,... ,n; n > 2. Matice plánu X /l xA n n \ ĽXi) \ )' X'X = n z'=l n , X'Y = z'=l n \1 xnJ Ľ *í V=i i=i j Ľ *,Y V=i / Model bude plné hodnosti, pokud všechny hodnoty X\,...,xn nebudou stejné. Normální rovnice jsou tvaru: + řiE *« n ľ y i i=l z'=l z'=l z'=l Jan Koláček (PřF MU) M5VM05 Statistické modelovaní podzim 2013 28 / 51 Speciální modely lineární regrese Model II: Regrese procházející počátkem Y, = /3x, + e,■., i = 1,... ,n; n > 1. Matice plánu X = í : J , X'X=^j, X'Y = ^E ^Y, \x„J a model bude plné hodnosti, pokud alespoň jedna z hodnot x\,...,xn bude různá od nuly. Normální rovnice: i=l n Ľ XíYí Jan Koláček (PřF MU) M5VM05 Statistické modelováni podzim 2013 29 / 51 Speciální modely lineární regrese Model III: Kvadratická regrese Y; = /30 + /3ixr + /32x2 + e,-i = 1,... ,n; n > 3. Matice plánu X / n \ ' E V- » i=l X'Y = £ XíYí i=l v=l / /l Xj X2^ í " n ř=l n \ Ľ ^ 1 ř=l , XX = Ľ ŕ=l 1=1 Ľ*? !=1 \1 xn x2y v=i Ľ*? !=1 i=l / II Ľ *i + fc n Ľxf = n -- ľ y i i=l i=l i=l Norm. rov.: /30 E x, + ^ Ľ A + fc Ľxf = = Ľ XíYí i=l i=l í-l Poľ 4 + Pi i=l Ľ A i=l + fc Ľxf = i=l ~- íxfY i=l (PřFMU) M5VM05 Statistické modeloval podzim 2013 30 / 51 Speciální modely lineární regrese Model IV: Polynomická regrese Y,- = fi0+fi1xi + - ■ ■+f5mx™+£i i= 1,... ,n; n > m+í. xf\ ( \1 xn / n \ X'X : n E xi i=l n n 2 (=1 (=1 \z = 1 i=l m+1 X'Y = í'=i n Ľ *,Yŕ í'=i , Ľ xfYi V=l i=l i=l J Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim Příklad Příklad 14 Analyzujte data o počtu pracovních hodin za měsíc Y spojených s provozováním anesteziologické služby v závislosti na velikosti spádové populace nemocnice X (v tisících). Údaje byly získány ve 12 nemocnicích ve Spojených státech. i Y X 4000 - 1 304,37 25,5 3500 - 2 2616,32 294,3 3 1139,12 83,7 3000 - 4 285,43 30,7 5 1413,77 129,8 6 1555,68 180,8 2000 - 7 383,78 43,4 8 2174,27 165,2 9 845,30 74,3 1000 - 10 1125,28 60,8 11 3462,60 319,2 500 - 12 3682,33 376,2 0 -0 Jan Koláček (PřF MU) M5VM05 Statistické modelováni Řešení Graf naznačuje lineární vztah mezi pracovní dobou a velikostí populace, a tak budeme pokračovat kvantifikací tohoto vztahu pomocí přímky y = j3q + fi-yx. 0 50 100 150 200 250 300 350 400 Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 33 / 51 Řešení Parametr Koeficient SE koef. ŕ-statistika p-hodnota 180,658 128,381 1,407 0,1896823 h 9,429 0,681 13,847 7,520972e-08 Z tabulky tedy dostáváme: pracovní doba = 180,658 + 9,429 ■ velikost populace. Co je na tom divného? Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 34 / 51 Řešení Oboustranný interval spolehlivosti pro Oboustranný interval spolehlivosti pro 0o 0i 180,6575 ± 2,228 • 128,3812 = 180,6575 ± 286,051 9,429 ± 2,228 • 0,681 = 9,429 ± 1,517 -200 -100 100 200 300 400 500 10 12 (-105,394; 466,709) (7,912; 10,946) Jan Koláček (PřF MU) M5VM05 Statistické modelováni podzim 2013 35 / 51 Řešení Uvažujeme regresi procházející počátkem (plná čára) a výsledek srovnáme s obecnou regresní přímkou (čárkovaná čára). 4500 i-i-i-i-i-i-i-r- 0 50 100 150 200 250 300 350 400 pracovní doba = 10,185 ■ velikost populace. Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 36 / 51 Speciální modely lineární regrese Model VI: Dvě regresní přímky (se stejným rozptylem). Mějme dva nezávislé náhodné výběry Y\\,...,Y\ni (resp. Yi\, ■ ■ ■,Y2tl7) a k tomu odpovídající hodnoty regresorů ... ,X\n (resp. x2\, ■ ■ ■ ,*2n2)- Předpokládejme, že platí Ylr = a1 + bxxxi + elir i = 1,..., nlr elr - JV(0, cr2) y2r = fl2 + fo2x2r + e2i, i = l,...,n2, e2i ~ JV(0,cr\) Jan KoláCek (PřF MU) M5VM05 Statistické modeloval podzim 2013 37 / 51 Speciální modely lineární regrese Vytvořme společný regresní model: / Yii \ Vln, Y21 V y2„2) Vyjádřeno blokově ( 1 xn 0 0 \ 1 Xini 0 0 0 "Ô" 1 x2i V o o 1 x2„2 y Yi Y2 V bi J Xi 0 o x2 či /s2 + Jan Koláček (PřF MU) M5VM05 Statistické modelováni Speciální modely lineární regrese Počítejme postupně (X2X2) X2Y2 X2Y2 Pak h \ ( \ = ( Yi-XijSi £2 y* l Y2 - Ý2 y* Y2- X2/32 SSE = £ ' £ = £1 ' £1 + £2 ' £2 = SSEi + SSE2 2 _ SSEt _ ?i £1 «1-2 h!-2 _^ ^ _ SSE _ (ni - 2)sf + (n2 - 2)s| s2 _ _ s2 n2-2 n2-2 SSEj _ e2'e2 řll + n2 - 4 «1 + n2 - 4 Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 39 / 51 Testování rovnobežnosti dvou regresních přímek Při testování hypotézy Hq : b\ = b^ proti alternativě Hi : b\ 7^ bi využijeme toho, že statistika Položme c'jS - c'j8 t(n-k). c= (0,1,0,-1) C/(X/X)-iC = 022 + »44, (X'X)_1 = »12 »13 »14 \ v21 V22 »23 »24 »31 »32 »33 »34 \»41 »42 »43 »44/ Za platnosti nulové hypotézy statistika ř(ni + n2 -4). Nulovou hypotézu zamítáme na hladině významnosti a, pokud |ř0| > íi-f ("1 +"2 -4) Jan KoláCek (PřF MU) M5VM05 Statistické modelování podzim 2013 40 / 51 Testování shodnosti dvou regresních přímek Budeme testovat hypotézu Hq : fíy = /32 proti alternativě H\ : fix 7^ 02 Využijeme vlastnosti w dále SSE (n1+n2-A)s2 7. „, K2= -5- = —-i----r"i+»2-4, takže k testování nulové hypotézy použijeme statistiku Fo = ^Tltfe) = 2? (Či " ft)'(ft " fc) ~ H2,n1+n2- 4) a nulovou hypotézu zamítáme na hladině významnosti a, pokud fo < F«(2,n1 +n2 -4) nebo/0 > F1_«(2,n1 +n2 -4) Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 41 / 51 Ověřování shodnosti rozptylů Při testování hypotézy Hq : c2 = cr| proti alternativě Hi : c2 7^ cr| využijeme toho, že statistika SSE, (ni-2) F1_«(n1 -2,n2-2) Jan KoláCek (PřF MU) M5VM05 Statistické modelováni Příklad Příklad 15 V souboru „teploty .Rdata" jsou uvedeny průměrné roční teploty v Praze (proměnná Y\) a ve Velkých Pavlovicích (proměnná Yi) v letech 1978 - 1995 (proměnná x). Předpokládejme, že závislost teplot na čase lze popsat regresní přímkou. Na hladině významnosti cc = O,05 testujte hypotézy: (a) Hq : vzestup teplot byl stejný na obou stanovištích (b) Hq : průběh teplot byl stejný na obou stanovištích (c) Hq : rozptyl teplot byl stejný na obou stanovištích (d) Vykreslete graf obou regresních přímek Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 43 / 51 tQ = / L = 0,0603, Řešení (a) Vypočteme odhady parametrů b1 = 0,091, bz = 0,0885 a také s2 = 0,4334. V našem případě je o22 = v4á = 0,002 a můžeme vypočítat hodnotu testové statistiky b\ —1>2 Sa/»22 + »44 kterou porovnáme s kvantilem Studentova rozdělení ŕo,97s(32) = 2,037. Protože |řo| < ro,97s(32), hypotézu Hq na dané hladině významnosti nezamítáme. (b) Vypočteme odhady parametrů fa = (-170,44;0,091)', fa = (-166,31;0,0885)' a také matici W = f^6^'®2 q""^) • pak tedy Ki = (fa - fa)'w~l (fa -fa)=7,9aK2 = s2 = 0,4334. Pro testování hypotézy použijeme statistiku *> = ěr2 = 9'm' kterou porovnáme s kvantily Fisherova-Snedecorova rozdělení /o,025(2,32) = 0,025 a /0,975(2,32) = 4,149. Protože f0 > /0/975(2,32), hypotézu Hq na dané hladině významnosti zamítáme. Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 Řešení (c) Vypočteme odhady parametrů s2 = 0,4308 a s| = 0,436. Pro testování hypotézy použijeme statistiku s2 fo = \ = 0,988, s2 kterou porovnáme s kvantily Fisherova-Snedecorova rozdělení /o,025(16/16) = 0,3621 a/o,975(16,16) = 2,7614. Protože/o Je mezi oběma hodnotami, hypotézu Hq na dané hladině významnosti nezamítáme. Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 45 / 51 Řešení Úlohy k procvičení Příklad 1.1 VLRM (Y,X,P), X í1 -3 9\ 1 -2 4 4 1 -1 1 X/" 2 1 1 1 2 1 2 4 5 v 3 9y1 w spočítejte MNČ-odhady vektoru parametru [5, aproximace Ý, reziduálni součty čtverců Ss a s [j§= (1,5; 0,1786; 0,6786)', Ý Se = 0,3571, s2 = 0,119.] (7,0714; 3,8571; 2; 2,3571; 4,5714; 8,1429)', Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 47 / 51 Úlohy k procvičení Příklad 1.2 Pro data x -2 -1 0 1 2 Y 0 2 3 3 1 spočítejte MNČ-odhady vektoru parametrů /?, aproximace Y, reziduální součty čtverců Se a s2 ve dvou modelech. Který model je vhodnější? (Proč?) Oba modely vykreslete. (a) model s regresní funkcí Y = /3q + fiix + fa*2 (1 4\ 1 1 (b) model s maticí plánu X 0 0 1 1 \1 4/ /faj j8 = (3,09; 0,3; -0,64)', F = (-0,086; 2,143; 3,086; 2,743; 1,114)', Se = 0,114, s2 = 0,057. (b)&= (3,17; -0,67)', Y = (0,5; 2,5; 0; 2,5; 0,5)', Se = 10, s2 = 3,33./ Jan Koláček (PřF MU) M5VM05 Statistické modelováni Úlohy k procvičení Příklad 1.3 Pomocí regresní přímky procházející počátkem spočítejte MNČ-odhady vektoru parametrů fi, aproximace Y, reziduálni součty čtverců Se a s2 v LRM (Y,X,fí) pro data X 10 20 30 40 50 60 Y 0,18 0,35 0,48 0,65 0,84 0,97 Jedná se o měření teplotní délkové roztažnosti měděné trubky. Rozdíl teploty od referenční 20° C je x, prodloužení tyče je měřená veličina Y. [/? = 0,0164, Y = (0,164;0,328;0,493;0,657;0,821;0,985)/, Se = 0,0015, s2 = 0,0003.] Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 49 / 51 Úlohy k procvičení Příklad 1.4 U 126 podniku řepařské oblasti v České Republice byl sledován hektarový výnos cukrovky ve vztahu ke spotřebě průmyslových hnojiv. Data jsou uložena v souboru „ cukrovka.Rdata" ve 4 sloupcích: O dolní hranice spotřeby K2O (kg/ha) 0 horní hranice spotřeby K2O (kg/ha) O četnosti O průměrné výnosy cukrovky (q/ha) a) odhadněte parametry regresní funkce tvaru y = fo + hx y = /30 + frx0-5 Poznámka: Za hodnoty nezávisle proměnné volte střed intervalu. b) Porovnejte vhodnost tří použitých regresních modelů. Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 50 / 51 Úlohy k procvičení Příklad 1.5 U 19 vzorku potravinářské pšenice byt zjišíován obsah zinku v zrnu (proměnná Y), v kořenech (proměnná X\), v otrubách (proměnná X2) a ve stonku a listech (proměnná X3). Data jsou uložena v souboru „pšenice.Rdata". a) Předpokládejte, že je vhodný regresní model Y = p0 + p1X1 + p2X2 + p3X3. Odhadněte regresní koeficienty a rozptyl, vypočtěte vektor predikce a index determinace. Proveďte celkový F-test a dílčí t-testy. Hladinu významnosti volte 0,05. Normalitu reziduí posuďte graficky pomocí funkce qqnorm. b) Z regresního modelu odstraňte ty proměnné, jejichž regresní koeficienty se ukázaly nevýznamné pro cc = 0,05. Sestavte nový regresní model a proveďte v něm všechny úkoly z bodu a). Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 51 / 51