M5VM05 Statistické modelování 5. Lineární regresní model Jan Koláček (kolacek@math.muni.cz) Ustav matematiky a statistiky, Přírodovědecká fakulta, Masarykova univerzita, Brno Jan Koláček (PřF MU) M5VM05 Statistické modeloval 1/51 Motivace Často chceme prozkoumat vztah mezi dvěma veličinami, kde jedna z nich, tzv. „nezávisle proměnná" X, má řídit druhou, tzv. „závisle proměnnou" Y. Předpokládá se, že obě veličiny jsou spojité. Prvním krokem ve zkoumání by mělo být zakreslení dat do grafu. V řadě případů tento krok napoví mnohé o tom, co nás zajímá: Existuje vztah mezi oběma proměnnými (veličinami)? Pokud ano, pak rostou či klesají obě v jednom směru, nebo jedna klesá, když druhá roste? Je přímka vhodným modelem pro vyjádření vztahu mezi těmito dvěma veličinami? Chceme-li se dostat dále za tuto intuitivní úroveň analýzy, je lineární regrese často užitečným nástrojem. Tato metoda zahrnuje proložení přímky daty a analýzu statistických vlastností takovéto přímky. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 2/51 Lineární regresní model Předpokládejme, že mezi nějakými nenáhodnými veličinami y,X\,... ,xk platí lineární vztah V = jMi + —i- hxk, ve kterém f>\,..., f>k jsou neznámé parametry. Informace o neznámých parametrech budeme získávat pomocí experimentu, a to tak, že opakovaně budeme měřit hodnoty veličiny y při vybraných hodnotách proměnných X\,... ,x^. Při měřeních však vznikají chyby, což lze modelovat takto Y = faxi H-----h fikxk + e, kde e je náhodná chyba měření. Opakované hodnoty sledovaných veličin budeme pro i = 1,..., n značit Yj,Xn,... ,Xjk, obdobně také náhodné chyby £,-. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 3/51 Lineární regresní model Celkově jsme dostali model Yl = 01*11 +----h faxlk + £1 Y„ = fíiX„i H-----h 0)t*nJt + en (Y1) y x(matice pl O náhodných chybách £i, ...,£„ budeme předpokládat, že jsou • nesystematické, což lze matematicky vyjádřit požadavkem, že Ee í= l,...,n, tj. \Ee = 0\a tedy EY = X/3 homogenní v rozptylu, tj. že De, = a > 0 pro f = 1,... ,n jednotlivé náhodné chyby jsou nekorelované, tj. že C(e;,£y) = 0 pro i y, z',/ = 1,... ,n, tj. DY = De = í7"2In , takže i měření jsou nekorelovaná. Jan Koláček (PřF MU) M5VM05 Statistické modelováni Terminologie Používá se následující terminologie a značení • parametry /3i,...,/3j- se nazývají regresní koeficienty; • matice X obsahuje nenáhodné prvky x^ a nazývá se regresní maticí nebo maticí plánu (Design Matrix); » popsaný model souhrnně zapíšeme jako Y~£(Xß,r72I„) Takto zavedený model budeme nazývat linerární regresní model. Dále budeme předpokládat, že n > k a o hodnosti matice X budeme předpokládat, že je rovna k, tj. h(X) = k . Bude-li tento přepoklad splněn, budeme říkat, že jde linerární regresní model plné hodnosti. V tom případě jsou sloupce matice X nezávislé. V opačném případě, by bylo možné daný sloupec matice X napsat jako lineární kombinaci ostatních sloupců, což je možné interpretovat tak, že proměnná odpovídající danému sloupci je nadbytečná, protože ji lze vyjádřit jako lineární funkci ostatních proměnných. Jan Koláček (PřF MU) M5VM05 Statistické modelováni Příklad Regresní přímka v klasickém lineárním regresním modelu Jednoduchá lineární regrese: předpokládáme Y,- (i = l,...,n) mají normální rozdělení kde X{ jsou dané konstanty, které nejsou všechny stejné. = 00 + 01*1+^1 Y n = fa + hxn + £n Nn{Q,a2\n). Jan Koláček (PřF MU) M5VM05 Statistické modeloval 6/51 Odhady neznámych parametrů Definice 1 Řekneme, že odhad = /S(Y) je lineárním odhadem vektoru jestliže existuje matice reálných čísel Bj-Xn taková, že = BY. Dále řekneme, že odhad = /S(Y) je nestranným odhadem vektoru jestliže pro každé jSeR1 platí E/3 = /3. Jestliže = /3(Y) je takový lineární nestranný odhad vektoru parametrů že pro každý jiný lineární nestranný odhad = /3(Y) je rozdíl variančních matic D/3(Y) — D/3(Y) pozitivně semidefinitní matice, potom budeme říkat, že = /3(Y) je nejlepší nestranný lineární odhad (Sesř Linear Unbiased Estimator) parametrů zkráceně BLUE odhad. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 7/51 Metoda nejmenších čtverců Definice 2 Řekneme, že odhad /30LS je odhadem parametru metodou nejmenších čtverců, jestliže P0LS = arg min (Y - Xj8)'(Y - X/3) = arg min £ Y« " E *^ Věta 3 Odhad parametru fí v modelu Y ~ £(X/3, c2I„) je tvaru Jan KoláCek (PřF MU) M5VM05 Statistické modelováni Důkaz Důkaz Nejprve označme symbolem z-tý řádek matice plánu X a symbolem Xj j-tý sloupec této matice, tj. = (Xi...Xfc) Nutnou podmínkou pro extrém je, aby parciální derivace byly nulové, tj. pro s = l,...,k Jan Koláček (PřF MU) M5VM05 Statistické modeloval 9/51 Proto počítejme 3^ ops — Y k (k n ;=i V=i / n nik \ -2 £ Y,-xís + 2 £ xís i=i i=i \]=\ ) n n k -2 £ YíXís + 2 £ £ xiixi^j = GD (=1 i=l ;'=1 (=1 ;'=1 z'=l Jan Koláček (PřF MU) M5VM05 Statistické modelování Nyní se budeme snažit vyjádřit předchozí rovnost maticově. Upravujme postupně levou a pravou stranu: n k n k n 11 n (=1 a celkově, zapíšeme-li A: rovnic pod sebe a uvažujeme-li obě strany rovnosti, dostaneme Y' / Vy'/ \ Y' lAic/ \Xn/ \Aic/ tzv. normálni rovnice =x'x£ =x'y Vzhledem k předpokladu íí(X) = h (X'X) = k, Jan Koláček (PřF MU) M5VM05 Statistické modeloval 11 / 51 Nyní zbývá dokázat, že tento extrém je také minimem, tj. že matice druhých parciálních derivací je pozitivně semidefinitní matice. Proto počítejme (sh)-tý prvek matice druhých parciálních derivací d2 _ _d_ n n k i=l i=lj=l í'=1 Takže matice druhých parciálních derivací je k / \ k x'x > o, s,h=l tj. jde o pozitivně definitní matici a tím je věta dokázaná. Jan Koláček (PřF MU) M5VM05 Statistické modelování Věty Věta 4 (Gaussova-Markovova věta) Odhad I$qis v modelu Y ~ £(X/3, c2I„) je BLUE-odhad (tj. je nejlepšínestranný lineární odhad) a jeho variační matice je rovna Věta 5 Pro libovolný vektor c e R4 je c'/}0LS BLUE-odhad parametrické funkce c'/} a má rozptyl ^c'iX'X^c. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 13 / 51 Věty Věta 6 Platí Se = S(P0LS) = YY - p'0LSX'\ = Y'(I - H)Y, kde H je tzv. „hat" matice H = X(X'X) X'. Věta 7 Odhad 2 Se s = —r n — k je nestranným odhadem rozptylu o2. Jan KoláCek (PřF MU) M5VM05 Statistické modeloval 14 / 51 Příklad Příklad 8 VLRM (Y,X,/3), X í1 -1 -3^ (5\ 1 -1 -2 7 1 -1 -1 8 1 1 1 , Y = 12 1 1 2 13 \1 1 3^ usy spočítejte MNČ-odhady vektoru parametrů /?, aproximace Ý, reziduálni součty čtverců Se a s Jan KoláCek (PřF MU) M5VM05 Statistické modelováni Řešení Řešení Nejprve vypočteme matice /6 0 0 X'X = 0 6 12 ] , (X'X) \0 12 28 0,5 0 -0,0714^ 0 0,0357 0 -0,0714 0 0,0153 Odtud pak / 10 1 ~ ~ j& = (X'X) 1 X'Y = 1/3 a Y = X/3 \3/2y Nakonec ještě Se = (Y-Ý)'(Y-Ý) = 1/3, s2 n —k (5,\7\ 6,67 8,17 11,83 13,33 \14,83/ Jan KoláCek (PřF MU) M5VM05 Statistické modelováni Testování hypotéz v lineárním regresním modelu Díky předchozím větám dokážeme v lineárním regresním modelu plné hodnosti vypočítat nejen OLS-odhady neznámých parametrů = (fy,... ,fy)', ale také máme k dispozici odhad neznámého rozptylu c2 a známe vlastnosti těchto odhadů. V dalším se zaměříme na stanovení jejich rozdělení v případě, že náhodný vektor [y] má vícerozměrné normální rozdělení. Pak teprve budeme moci přejít k testování hypotéz o neznámých parametrech fy,..., fy. Jestliže náhodný vektor Y se řídí lineárním regresním modelem plné hodnosti, což zapisujeme Y ~ £(Xfya2l„), a navíc má vícerozměrné normální rozdělení, budeme psát Y~N„(X/3/t72I„) . Jan KoláCek (PřF MU) M5VM05 Statistické modeloval 17 / 51 Věta Věta 9 Mějme lineární regresní model plné hodnosti, přičemž Y ~ N„(Xfí,cr2ln). Pak platí (a) OLS-odhad vektoru neznámých parametrů má normální rozdělení 0 OLS (b) náhodná veličina K n — k NfcfjS^X'X)-1 X2(n-k) (c) náhodná veličina K = n-k„2 a OLS-odhad ols jsou nezávislé. Jan Koláček (PřF MU) M5VM05 Statistické modelováni Test významnosti koeficientu ßj Věta 10 V modelu Y ~ N„(X/3, cr2ln) plné hodnosti pro každé c 6 jRfc, c 7^ 0 platí t(n-k). Důsledek 11 V modelu Y ~ N„(X/S, c2I„) p/né hodnosti má 100(1 — a) % interval spolehlivosti pro parametrickou funkci c'/3 (Trcŕe c 7^ Oj tvar C%LS-VC,(X,X)_lcíl-«/2(n-fc)'C%LS + SVC,(X,X)_lcřl-«/2(n-fc) Jan Koláček (PřF MU) M5VM05 Statistické modelováni Praktický test Prakticky lze provést test hypotézy Hq : c'/3 = 70 (70 je dané reálné číslo) proti alternativě Hi : c'/3 7^ 70 na hladině významnosti a tak, že hypotézu Hq zamítáme, pokud platí ols 7o > t l-a/2 (n-k) Jan KoláCek (PřF MU) M5VM05 Statistické modelováni Poznámka V praktických situacích se nejčastěji volí vektor c jako jednotkový s jedničkou na /-tém místě c = (0,..., 1,0,..., 0)' a v tom případě c'/3 = j3j , takže (a) 100(1 — oc)% interval spolehlivosti má tvar (při značení (X'X) 1 = (» h-a/i(n-k). Jan KoláCek (PřF MU) M5VM05 Statistické modelovaní 21 / 51 Test významnosti modelu Zavedeme následující bloková značení: ß=(ßl.....ßm,ßm+l.....ßk)', obdobně ^ ^ a nakonec také pro matici X'X Vn v12 V2i V22 kde matice Vy je typu m x m. Věta 12 V modelu Y ~ N„(X/S, c2I„) p/né hodností platí, že statistika f = s2(/_ ffl) (loLS,2 ~ fe)' V^1 (č0ls,2 ~ fe) ~ F(*-m,n-A:). Jan KoláCek (PřF MU) M5VM05 Statistické modelování : Poznámka Díky předcházející větě můžeme testovat nulovou hypotézu (kde /32q je daný vektor reálných čísel, nejčastěji nulový vektor) proti alternativě Hl : & 7^ j82/0 na hladině významnosti a tak, že hypotézu Hq zamítáme, pokud platí F° = sHk-m) {Pols,2 - ho) y22 (}ols,2 ~ Ay>) > Fi-«(^ - m,n - k). Jan KoláCek (PřF MU) M5VM05 Statistické modeloval 23 / 51 Prakticky Testujeme nulovou hypotézu H0:(/3i.....fo)=(0.....0) proti alternativě Hi : 3i > 0; ^ 0 na hladině významnosti a tak, že hypotézu Hq zamítáme, pokud platí c2 ÍD n - A: kde 4 = 1 Ľ(y«-y)2 1=1 Jan KoláCek (PřF MU) M5VM05 Statistické modelováni Příklad Příklad 13 Pro data X -2 -1 0 1 2 Y -2 1 -2 1 -1 spočítejte MNČ-odhady vektoru parametrů 0, aproximace Ý, reziduálni součty čtverců s2 a index determinace ID v následujících modelech. Odhadnuté regresní funkce znázorněte také graficky. 0 y = 00 + Pix o y = o y = 00 + 01* + 02*2 o y = 01X + 02*2 o y = 00 + 0i* + 02e* Testujte významnost koeficientů 0,-, testujte významnost modelu pomocí statistiky F. Porovnejte vhodnost regresních modelů pomocí F, s2 a ID. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 25 / 51 Řešení Řešení Pro jednotlivé modely počítejme postupně O y = ft, + hx /} = (-0,6;0,2)', Ý = (-1; -0,8;-0,6; -0,4; -0,2)', s2 = 2,93, ID = 0,04348, F = 0,136, p-hodnoty pro jednotlivé koeficienty: (0,49;0,73) O y= fax ySi = 0,2, Ý= (-0,4;-0,2;0;0,2; 0,4)', s2 = 2,65, ID = 0,0363, F = 0,15, p-hodnoty pro jednotlivé koeficienty: 0,717 O y = j6o + jM + či*2 /?= (-0,0286; 0,2;-0,2857)', Ý= (-1,5714;-0,5143;-0,0286;-0,1143;-0,7714)', s2 = 3,8286, ID = 0,1677, F = 0,2015, p-hodnoty pro jednotlivé koeficienty: (0,985; 0,777; 0,6396) Jan Koláček (PřF MU) M5VM05 Statistické modelování 26 / 51 Řešení O y= fax + fax2 j&= (0,2;-0.2941)', Ý= (-1,576;-0,4941;0;-0,0941;-0,776)', s2 = 2,55, ID = 0,3037, F = 0,654, p-hodnoty pro jednotlivé koeficienty: (0,718; 0,362) O y = fa + fax + fae* j6 = (0,291; 0,847;-0,384)', Ý= (-1,4547;-0,6969;-0,0926;0,0949;-0,851)', s2 = 3,8283, ID = 0,1677, F = 0,2015, p-hodnoty pro jednotlivé koeficienty: (0,8894; 0,59; 0,639). Jan Koláček (PřF MU) M5VM05 Statistické modeloval 27 / 51 Speciální modely lineární regrese Model I: Regresní přímka y,- = /3q + f>\Xi + , i = 1,... ,n; n > 2. Matice plánu X /l xA n n \ ĽXi) \ )' X'X = n z'=l n , X'Y = z'=l n \1 xnJ ľ *í V=i i=i j ľ *,y,-V=i / Model bude plné hodnosti, pokud všechny hodnoty X\,...,xn nebudou stejné. Normální rovnice jsou tvaru: + řiE *« n ľ y i i=l z'=l z'=l z'=l Jan Koláček (PřF MU) M5VM05 Statistické modelovaní 28 Speciální modely lineární regrese Model II: Regrese procházející počátkem Y, = /3x, + e,■., i = 1,... ,n; n > 1. Matice plánu X = í : J , X'X = ^ E xfj , X'Y = ^ E x, Y, \x„J a model bude plné hodnosti, pokud alespoň jedna z hodnot x\,...,xn bude různá od nuly. Normálni rovnice: i=l n i=l Jan KoláCek (PřF MU) M5VM05 Statistické modelováni Speciální modely lineární regrese Model III: Kvadratická regrese Y; = fa + fax{ + /32x2 + e,-i = 1,...,n; n > 3. Matice plánu X / n \ ' ľ Vi ' X'Y = Ľ xíYí 1=1 yE^Y \'=l / /l x: x\\ í " Ľ*i i=l E*A , X'X = E *i 1=1 E^ i=i E*? 1=1 \1 xn x2y \i=i 1=1 E4 í=i / !=] 1/ 1 = 1 e*; + /32 1=1 n e 4 = e y í i=l Ľxf + fa =i £*? = 1=1 e i-l Ľxf + fa =i e 4 = e^yi i=i i Koláŕek ÍPřF MU) M5VM05 Statistické modelovaní Speciální modely lineární regrese Model IV: Polynomická regrese Y,- = f50+fi1xi + - ■ ■+f5mx™+£i i= 1,... ,n; n > m+í. xf\ ( \1 xn / n \ X'X : n E xi i=l n n 2 E Xj E X(- (=1 (=1 \í'=l i=\ m+1 X'Y = í'=i n ľ *iY,-í'=i , ľ xfYi V=l i=l i=l J Jan Koláček (PřF MU) M5VM05 Statistické modelování 31 / 51 Příklad Příklad 14 Analyzujte data o počtu pracovních hodin za měsíc Y spojených s provozováním anesteziologické služby v závislosti na velikosti spádové populace nemocnice X (v tisících). Údaje byly získány ve 12 nemocnicích ve Spojených státech. i Y X 4000 - 1 304,37 25,5 3500 - 2 2616,32 294,3 3 1139,12 83,7 3000 - 4 285,43 30,7 5 1413,77 129,8 6 1555,68 180,8 2000 - 7 383,78 43,4 8 2174,27 165,2 9 845,30 74,3 1000 - 10 1125,28 60,8 11 3462,60 319,2 500 - 12 3682,33 376,2 0 -0 Jan Koláček (PřF MU) M5VM05 Statistické modelováni Řešení Graf naznačuje lineární vztah mezi pracovní dobou a velikostí populace, a tak budeme pokračovat kvantifikací tohoto vztahu pomocí přímky y = j3q + fi-yx. 0 50 100 150 200 250 300 350 400 Jan Koláček (PřF MU) M5VM05 Statistické modeloval 33 / 51 Řešení Parametr Koeficient SE koef. ŕ-statistika p-hodnota 180,658 128,381 1,407 0,1896823 h 9,429 0,681 13,847 7,520972e-08 Z tabulky tedy dostáváme: pracovní doba = 180,658 + 9,429 ■ velikost populace. Co je na tom divného? Jan Koláček (PřF MU) M5VM05 Statistické modeloval 34 / 51 Řešení Oboustranný interval spolehlivosti pro Oboustranný interval spolehlivosti pro 180,6575 ± 2,228 • 128,3812 = 180,6575 ± 286,051 9,429 ± 2,228 • 0,681 = 9,429 ± 1,517 -200 -100 100 200 300 400 500 10 12 (-105,394; 466,709) (7,912; 10,946) Jan Koláček (PřF MU) M5VM05 Statistické modelováni Řešení Uvažujeme regresi procházející počátkem (plná čára) a výsledek srovnáme s obecnou regresní přímkou (čárkovaná čára). 4500 i-i-i-i-i-i-i-r- 0 50 100 150 200 250 300 350 400 pracovní doba = 10,185 ■ velikost populace. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 36 / 51 Speciální modely lineární regrese Model VI: Dvě regresní přímky (se stejným rozptylem). Mějme dva nezávislé náhodné výběry Y\\,...,Y\ni (resp. Ytl, ■ ■ ■ ,Y2n2) a k tomu odpovídající hodnoty regresorů Xn,... ,x\n (resp. x2\, ■ ■ ■ ,*2n2)- Předpokládejme, že platí Yií = fli + Mií + elŕ, i = 1,..., m, elr - JV(0, cr2) Y2r = a2 + fc2x2r + e2r, i=l,...,n2, e2i ~ JV(0,cr2) Jan Koláček (PřF MU) M5VM05 Statistické modeloval 37 / 51 Speciální modely lineární regrese Vytvořme společný regresní model: / Yii \ Vln, Y2i V v2„2) Vyjádřeno blokově ( 1 xn 0 0 \ 1 Xini 0 0 0 "Ô" 1 x2i V o o 1 x2„2 y Yi Y2 (a, \ «2 V y Xi o o x2 či /s2 + Jan Koláček (PřF MU) M5VM05 Statistické modelováni Speciální modely lineární regrese Počítejme postupně Pak Yi-Xxft Y2 - X2/32 SSE = £ ' £ = e\ ' £l + £2 ' £-2 = SSEi + SSE2 «1-2 sse1 n2-2 £1 £1 «1-2 £2 'e2 n2-2 S2 = SSE ni + n2 — 4 (ni - 2)s^ + (w2 - 2)s2 «i + n2 — 4 Jan Koláček (PřF MU) M5VM05 Statistické modelování 39 / 51 Testování rovnobežnosti dvou regresních přímek Při testování hypotézy Hq : b\ = b2 proti alternativě Hy : b\ 7^ b2 využijeme toho, že statistika c'jS - c'j8 t(n-k). Položme c= (0,1,0,-1) c'(X'X)-1c = v22 + vu, (XX)-1 = ŕ Vn v12 v13 vlá\ v11 v22 v23 v2i v31 v32 ^33 v3á \v41 v42 v43 v4iJ Za platnosti nulové hypotézy statistika t(ni + n2 -4). Nulovou hypotézu zamítáme na hladině významnosti a, pokud |ř0| > íi-f ("1 +"2 -4) Jan KoláCek (PřF MU) M5VM05 Statistické modelování 40 / 51 Testování shodnosti dvou regresních přímek Budeme testovat hypotézu Hq : fí-y = /32 proti alternativě H\ : ^ 7^ /32 Využijeme vlastnosti A-A- n (h - ^((x'^y1 + (x^)-1)). v--^-' / w a id = ^(A- A)'^\A - A) ~ x2(2), dále SSE (n1+n2-A)s2 7. „, takže k testování nulové hypotézy použijeme statistiku Fo = ^Tltfe) = MA- A)'™-1 (A - A) ~ H2,nx + n2 a nulovou hypotézu zamítáme na hladině významnosti a, pokud fo < F«(2,n1 +n2 -4) nebo/0 > F1_«(2,n1 +n2 -4) Jan KoláCek (PřF MU) M5VM05 Statistické modelování Ověřování shodnosti rozptylů Při testování hypotézy Hq : a2 = cr| proti alternativě Hi : a2 7^ cr| využijeme toho, že statistika SSE, SSE, ^ ~ F(ni -2,n2 -2) (n2-2)cr2 2 a nulovou hypotézu zamítáme na hladině významnosti a, pokud f0 F1_«(n1 -2,n2-2) Jan KoláCek (PřF MU) M5VM05 Statistické modelováni Příklad Příklad 15 V souboru „teploty .Rdata" jsou uvedeny průměrné roční teploty v Praze (proměnná Y\) a ve Velkých Pavlovicích (proměnná Yi) v letech 1978 - 1995 (proměnná x). Předpokládejme, že závislost teplot na čase lze popsat regresní přímkou. Na hladině významnosti cc = o,05 testujte hypotézy: (a) Hq : vzestup teplot byl stejný na obou stanovištích (b) Hq : průběh teplot byl stejný na obou stanovištích (c) Hq : rozptyl teplot byl stejný na obou stanovištích (d) Vykreslete graf obou regresních přímek Jan Koláček (PřF MU) M5VM05 Statistické modeloval 43 / 51 tQ = / L = 0,0603, Řešení (a) Vypočteme odhady parametrů b1 = 0,091, bz = 0,0885 a také s2 = 0,4334. V našem případě je o22 = v4á = 0,002 a můžeme vypočítat hodnotu testové statistiky b\ —1>2 Sa/»22 + »44 kterou porovnáme s kvantilem Studentova rozdělení ŕo,97s(32) = 2,037. Protože |řo| < ^0,975(32), hypotézu Hq na dané hladině významnosti nezamítáme. (b) Vypočteme odhady parametrů ^ = (-170,44;0,091)', j&2 = (-166,31;0,0885)' a také matici W = f^6^'®2 q""^) • pak tedy Ki = (ft - j62)'w_:l - j82) = 7,9 a K2 = s2 = 0,4334. Pro testování hypotézy použijeme statistiku kterou porovnáme s kvantily Fisherova-Snedecorova rozdělení /0/025(2,32) = 0,025 a f0/975(2,32) = 4,149. Protože f0 >/0/975(2,32), hypotézu Hq na dané hladině významnosti zamítáme. Jan Koláček (PřF MU) M5VM05 Statistické modelováni Řešení (c) Vypočteme odhady parametrů s2 = 0,4308 a s| = 0,436. Pro testování hypotézy použijeme statistiku s2 fo = \ = 0,988, s2 kterou porovnáme s kvantily Fisherova-Snedecorova rozdělení /o,025(16/16) = 0,3621 a/o,975(16,16) = 2,7614. Protože/o Je mezi oběma hodnotami, hypotézu Hq na dané hladině významnosti nezamítáme. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 45 / 51 Řešení Úlohy k procvičení Příklad 1.1 VLRM (Y,X,P), X í1 -3 9\ í7\ 1 -2 4 4 1 -1 1 X/" 2 1 1 1 2 1 2 4 5 v 3 9y1 w spočítejte MNČ-odhady vektoru parametru [5, aproximace Ý, reziduálni součty čtverců Ss a s [/? = (1,5; 0,1786; 0,6786)', Ý Se = 0,3571, s2 = 0,119.] (7,0714; 3,8571; 2; 2,3571; 4,5714; 8,1429)', Jan Koláček (PřF MU) M5VM05 Statistické modeloval 47 / 51 Úlohy k procvičení Příklad 1.2 Pro data x -2 -1 0 1 2 Y 0 2 3 3 1 spočítejte MNČ-odhady vektoru parametrů /?, aproximace Y, reziduální součty čtverců Se a s2 ve dvou modelech. Který model je vhodnější? (Proč?) Oba modely vykreslete. (a) model s regresní funkcí Y = /3q + Pix + fii*2 (1 4\ 1 1 (b) model s maticí plánu X 0 0 1 1 \1 AJ [(a) ft = (3,09; 0,3; -0,64)', F = (-0,086; 2,143; 3,086; 2,743; 1,114)', Se = 0,114, s2 = 0,057. (b)&= (3,17; -0,67)', Y = (0,5; 2,5; 0; 2,5; 0,5)', Se = 10, s2 = 3,33./ Jan Koláček (PřF MU) M5VM05 Statistické modelováni Úlohy k procvičení Příklad 1.3 Pomocí regresní přímky procházející počátkem spočítejte MNČ-odhady vektoru parametrů fi, aproximace Y, reziduálni součty čtverců Se a s2 v LRM (Y,X,fí) pro data X 10 20 30 40 50 60 Y 0,18 0,35 0,48 0,65 0,84 0,97 Jedná se o měření teplotní délkové roztažnosti měděné trubky. Rozdíl teploty od referenční 20° C je x, prodloužení tyče je měřená veličina Y. [/? = 0,0164, Y = (0,164;0,328;0,493;0,657;0,821;0,985)/, Se = 0,0015, s2 = 0,0003.] Jan Koláček (PřF MU) M5VM05 Statistické modeloval 49 / 51 Úlohy k procvičení Příklad 1.4 U 126 podniku řepařské oblasti v České Republice byl sledován hektarový výnos cukrovky ve vztahu ke spotřebě průmyslových hnojiv. Data jsou uložena v souboru „ cukrovka.Rdata" ve 4 sloupcích: O dolní hranice spotřeby K20 (kg/ha) 0 horní hranice spotřeby K20 (kg/ha) O četnosti O průměrné výnosy cukrovky (q/ha) a) odhadněte parametry regresní funkce tvaru y = fio + fyx y = fy + fyx + fyx2 y = fy + fyx0'5 Poznámka: Za hodnoty nezávisle proměnné volte střed intervalu. b) Porovnejte vhodnost tří použitých regresních modelů. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 50 / 51 Úlohy k procvičení Příklad 1.5 U 19 vzorku potravinářské pšenice byt zjišíován obsah zinku v zrnu (proměnná Y), v kořenech (proměnná X\), v otrubách (proměnná Xi) a ve stonku a listech (proměnná X3). Data jsou uložena v souboru „pšenice.Rdata". a) Předpokládejte, že je vhodný regresní model Y = p0 + p1X1 + p2X2 + p3X3. Odhadněte regresní koeficienty a rozptyl, vypočtěte vektor predikce a index determinace. Proveďte celkový F-test a dílčí t-testy. Hladinu významnosti volte 0,05. Normalitu reziduí posuďte graficky pomocí funkce qqnorm. b) Z regresního modelu odstraňte ty proměnné, jejichž regresní koeficienty se ukázaly nevýznamné pro cc = 0,05. Sestavte nový regresní model a proveďte v něm všechny úkoly z bodu a). Jan Koláček (PřF MU) M5VM05 Statistické modeloval 51 / 51