M5VM05 Statistické modelování 4. Základy regresní a korelační analýzy Jan Koláček (kolacek@math.muni.cz) Ustav matematiky a statistiky, Přírodovědecká fakulta, Masarykova univerzita, Brno Jan Koláček (PřF MU) M5VM05 Statistické modeloval 1/44 Motivace V předchozím jsme zkoumali jednotlivé jevy (statistické znaky) izolovaně; zabývali jsme se tzv. jednorozměrnými soubory, tj. soubory popisujícími pouze jeden statistický znak a nezajímaly nás jeho vazby a vztahy k jiným jevům. V reálném světě (v přírodě, společnosti, ekonomice,...) se ovšem jevy nacházejí ve více nebo méně složitých vzájemných vztazích - navzájem na sobě závisí a podmiňují se. Proto se statistická analýza nemůže omezit pouze na zkoumání izolovaných jevů, ale musí se také zabývat analýzou jejich vzájemných vztahů. Tato analýza se dá obecně rozdělit na dvě části: regresní a korelační. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 2/44 Úloha regresní analýzy Hlavní úlohou regresní analýzy je provést predikci nějaké závisle proměnné náhodné veličiny Y na základě informace, kterou poskytují měření nějakých jiných náhodných veličin, řekněme X\,... , Xj-. Veličinám Xi,...,Xj- se potom říká nezávisle proměnné nebo též doprovodné proměnné, nebo také kovariáty. Měření nezávislých proměnných jsou pro experimentátora snáze dostupné než měření závisle proměnné Y. Predikce spočívá v nalezení nějaké funkce g(X\,... ,Xj.), která vhodně aproximuje závisle proměnnou Y. Kvalita predikce se obvykle posuzuje pomocí tzv. střední kvadratické chyby predikce E[Y — g(Xi,... ,Xj-)]2. Za optimální se považuje volba takové predikční funkce g, která uvedenou střední kvadratickou chybu minimalizuje. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 3/44 Úloha korelační analýzy Vedle průběhu sledované závislosti Y na Xi,...,Xj- dané funkcí g je také třeba se zaměřit na měření těsnosti tohoto vztahu, tedy je nutné zavést nějaké míry velikosti statistické vazby (závislosti) závisle proměnné Y na nezávisle proměnných Xi,...,X£ s ohledem na vybranou funkci g a případně také s ohledem na závislosti mezi náhodnými veličinami Xi,...,X^. Tato problematika je hlavní úlohou korelační analýzy. K tomuto účelu byly zkonstruovány různé koeficienty, které nabývají hodnot od 0 do 1 (resp. od — 1 do 1). Čím je takový koeficient bližší 1 (resp. —1), tím je závislost mezi danými dvěma veličinami silnější a čím je bližší 0, tím je slabší. Korelační analýza většinou přirozeně navazuje na regresní analýzu. Nejprve pomocí regresní analýzy najdeme nějaký model závislosti v datech. Poté pomocí regresní analýzy zkoumáme vhodnost tohoto modelu. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 4/44 Optimální volba predikční funkce g Věta 1 Nechí Y,Xi,... ,Xfr- jsou náhodné veličiny. Označme X = (Xi, EY2 < oo. Pak pro každou měřitelnou funkci ,Xj-)' a nechí g:lRk platí E(Y-g(X))2>E[Y-E(Y\X)}2 a rovnost v uvedené nerovnosti nastává právě když P(g(X)=E(Y\X)) = l. Jan Koláček (PřF MU) M5VM05 Statistické modelováni Podmíněná střední hodnota Z = (Y,X)' . .. sdruž, hustota f{y,x); X a Y . .. margin. hustoty fx{x), /y(y)- Označme Mx = {ieR :/x(x) > 0}, My = {y E IR :/Y(y) > 0}. Pak podmíněná distribuční funkce je v tomto případě definována vztahem F(»|X)=(ÍM* Pr°"Mx' [o proxelR\Mx a podmíněná hustota je rovna [O proxelR\Mx. Položme h(x) = E(Y\X = x) = JR VdF(y\x) = JR /yj^j-dy, Pro Vx e Mx. Pak náhodnou veličinu E(Y|X) = fr(X) nazveme podmíněnou střední hodnotou. Jan Koláček (PřF MU) M5VM05 Statistické modelování Vlastnosti • Nechť Yi,Y2,Xjsou náhodné veličiny a fl0/fli/fl2 Jsou reálne konstanty, pak pokud střední hodnoty EYi,EY2 existují, platí E(a0 + fll Yi + fli^ilX) = fl0 + |X) + a2E(Y2\X). • Nechť X, Y jsou náhodné veličiny a střední hodnota EY existuje, pak E [E(Y|X)] = EY. Jan Koláček (PřF MU) M5VM05 Statistické modelováni Podmíněný rozptyl Definujeme také podmíněný rozptyl náhodné veličiny Y při daném X vztahem D(Y|X) = E | [Y - E(Y|X)]2 |x|. Platí DY = E[D(Y\X)]+D[E(Y\X)]. (1) Jan KoláCek (PřF MU) M5VM05 Statistické modelováni Korelační koeficient Definice 2 Pearsonův koeficient korelace náhodných veličin X, Y (které jsou aspoň intervalového charakteru) je definován vztahem kde C(X, Y) = E[(X - EX)(Y - EY)] je kovariance náhodných veličin X a Y. Připomeneme jeho vlastnosti: • R(X,X) = 1 • R(X,Y) =R(Y,X) • R(a + bX,c + dY) = sgn(bd)R(X, Y) • —1 < R(X,Y) < 1 a rovnosti je dosaženo tehdy a jen tehdy, když existují reálné konstanty a,b, kde b ^= 0 tak, že P(Y = a + i>X) = 1, přičemž R(X, Y) = 1 pro b > 0 a K(X, Y) = -1 pro b < 0. Z těchto vlastností plyne, že _R(X, Y) je vhodnou mírou těsnosti lineárního vztahu náhodných veličin X, Y. C(X,Y) pro VĎ(X), 7Ď(Y) > 0, 1?(X,Y) o jinak, Jan Koláček (PřF MU) M5VM05 Statistické modeloval 9/44 Vlastnosti Věta 3 Mějme náhodnou veličinu Y s konečným a nenulovým rozptylem a náhodný vektor X = (Xi,... ,Xj.)'. Potom pro libovolnou měřitelnou funkci g : Rfc -> R takovou, že existuje korelační koeficient R(Y,g(X)) platí \R(Y,g(X))\?Y|X - DY nazýváme korelačním poměrem náhodné veličiny Y na náhodném vektoru X= (Xi,... ,Xj.)', nebo též korelačním poměrem náhodné veličiny Y na náhodných veličinách Xi,..., Xj. a pak jej též značíme J/yix x • Jan Koláček (PřF MU) M5VM05 Statistické modelováni Poznámky (1) Z předchozích vět plyne, že V2]X=[R(Y,E(Y\X))}2 a tedy pro korelační poměr platí nerovnost 0 < rj*lx < 1. (2) Po vydělení rovnosti (1) rozptylem DY a jednoduché úpravě dostaneme „ E(Y-E(Y\X))2 2 1 = --Dy +Vy\ x- Označme symbolem (Ty,x střední kvadratickou chybu predikce, když prediktorem je regresní funkce E(Y|X), tj. a2,lx = E(Y-E(Y\X))2, pak díky předchozímu máme 2 -i UY\X nY\x = i" ĎY • Jan KoláCek (PřF MU) M5VM05 Statistické modelováni Interpretace Z tohoto vztahu plyne velice názorná interpretace korelačním poměru J/y|X. (a) Je-li střední kvadratická chyba predikce cr^x = 0, tedy v případě ideální predikce, je korelační poměr = ^■ (b) V druhém krajním případě, když střední kvadratická chyba predikce je rovna DY, tj. cy|X = DY, pak je ?/y|X = 0 a využití informace, kterou o náhodné veličině Y poskytuje náhodný vektor X, nepřináší žádné zmenšení chyby predikce. Tedy korelační poměr poskytuje míru přesnosti predikce a je velice užitečný při srovnávání různých vektorů doprovodných proměnných. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 14 / 44 Graficky Praktický výpočet Návod 5 Při praktických výpočtech se príslušné rozptyly odhadují výběrovými rozptyly. Odhadnutý korelační poměr se Pa^ nazÝva index determinace. Nechí tedy máme realizace y-y,..., yn a jejich predikované hodnoty ýi,..., yn Koeficient determinace má tvar ID kde n 1 n 1 n n . Uvi n . i=l i=l i=l Jan Koláček (PřF MU) M5VM05 Statistické modeloval 16 / 44 Příklad Příklad 1 Při laboratorním pokusu bylo získáno následujících 8 výsledků měření 1 2 3 4 5 6 7 8 xt 2,2840 2,8170 y i 4,3046 6,3235 2,8367 3,5288 4,1031 4,4262 3,7082 7,6835 7,0239 8,7973 4,5211 10,2961 4,9446 8,4979 Zvolený model nám predikoval tyto hodnoty y = (4,2614; 5,3352; 5,3750; 6,7694; 7,9264; 8,5774; 8,7685; 9,6217). Určete index determinace a interpretujte ho. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 17 / 44 Řešení Řešení Ukážeme oba způsoby výpočtu. Vypočteme nejprve příslušné výběrové rozptyly: y = 7,079, s| = I E (9i - 7,079)2 = 3,283, s2y? = I £ (y,- - ý)2 = í'=i 1,131, 4 = g Ľ (y,- - 7,079)2 = 4,414. í'=i Podle definice je ID =4 3,283 4,414 z'=l 0,7438 nebo ID = 1 YY = 1 1,131 4,414 = 0,7438. Výsledek lze interpretovat tak, že 74,38% celkové variability je vysvětleno zvoleným modelem. Jan Koláček (PřF MU) M5VM05 Statistické modelováni Analýza závislosti Výpočet podmíněné střední hodnoty E(y|X) vyžaduje znalost sdruženého rozdělení náhodného vektoru Z = (y, Xi,... ,Xk)', což činí hlavní potíž, neboť v praktických situacích nebývá sdružené rozdělení vektoru Z = (Y,X\,... ,Xk)' známé. Proto se, pokud to praktická situace dovolí, uvažují pouze lineární modely typu g(X) = /30 + ftXx + ■ ■ ■ + faXk = /30 + jg'X, jestliže označíme = (fii,... ,/3j-). Úloha predikce se pak redukuje na nalezení neznámých koeficientů /3q, ... ,/3;t, které minimalizují střední kvadratickou chybu této predikce, tj. (#),•••,&)'= argmin E(Y - c0 - -----ckXk)2 (c0,...,ck)>eRk+1 Označme y = /3q + /3'X nejlepší lineární predikci náhodné veličiny y. Střední kvadratickou chybu nejlepší lineární predikce označíme tentokrát t7Y.x = E(y-/30-/3/X)2 Jan KoláCek (PřF MU) M5VM05 Statistické modelování 19 / 44 Koeficient mnohonásobné korelace Definice 6 Pearsonův korelační koeficient R(Y,Y) označíme py-x a budeme jej nazývat koeficientem mnohonásobné korelace náhodné veličiny Y na náhodném vektoru X = (Xi,... ,Xj.)' (nebo též na náhodných veličinách Xi,..., Xj. a pak budeme podrobněji psát py.(Xl,...,xk))- Definice 7 (Korelační matice) Nechť X = (Xi,..., X„)' a Y = (Yi,..., Ym)' jsou náhodné vektory. Potom matici ÍRiX^Y^ ■■■ R(XlfYm)\ R(X,Y)=\ = (R(XitYj)) i=1.....„ V^YO ■■■ R(X„,Ym)J i=1m nazýváme korelační maticí náhodných vektorů X a Y. Dále matici jR(X,X) budeme značit R(X) a budeme ji nazývat korelační maticí náhodného vektoru X. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 20 / 44 Vlastnosti Věta 8 Koeficient mnohonásobné korelace pyx má následující vlastnosti (1) Koeficient mnohonásobné korelace py.x je vždy nezáporný. (2) Pomocí regresních koeficientu po, fii, ■ ■ ■, fík jej lze vyjádřit ve tvaru Py-x dy (3) Pomocí korelačních matic jej lze vyjádřit ve tvaru p2y.x = R(Y,X)(R(X))-1R(X,Y) (4) Pomocí reziduálního rozptylu lineární predikce jej lze vyjádřit ve tvaru o2 „2 _ -i UY-x PY-x = 1 dy Jan Koláček (PřF MU) M5VM05 Statistické modelováni Poznámka O Vzorec 2 _ P'DXfi ry-x — DY je vhodný pro výpočet koeficientu mnohonásobné korelace v prípade, že je k dispozici vektor regresních koeficientu (ft>, či.....h)'- O Vzorec p1Y.x = R(Y,X)(R(X))-íR(X,Y) se využívá v prípade, že jsou k dispozici korelační koeficienty mezi náhodnými veličinami Y,X\,..., Xj.. Identity P2Y-X 1 DY Vy\x 1 u2 DY ukazují, že korelační poměr ?/y|X je roven kvadrátu koeficientu mnohonásobné korelace py x v prípade, že teoretická regresní funkce g(X) = E(Y|X) je lineární funkcí proměnných Xi, ...,Xfc. Dále je z tohoto vzorce patrné, že pokud se omezíme na lineární predikce, je interpretace koeficientu mnohonásobné korelace stejná jako je interpretace korelačního poměru v obecném případě. Jan Koláček (PřF MU) M5VM05 Statistické modelováni Pokračování O Podle uváděných vzorců lze koeficient mnohonásobné korelace pyx počítat i v případě, kdy podmíněná střední hodnota E(Y|X) není lineární. V tomto případě potom díky vztahu (dokázaném ve Větě 1) E(Y - ft, - č'X)2 > E[Y - E(Y|X)]2 "-v-'--v-' -Í72 -Í72 ~UY-X ~UY\X snadno vidíme, že 0 < p2y.X < Vy\X < 1 Jan KoláCek (PřF MU) M5VM05 Statistické modeloval 23 / 44 Vlastnosti Věta 9 Pro libovolný nenulový vektor c = (ci,..., c{)' E JR* a Cq E IR platí PÍx>R2(Y,c0 + c'X), tj. koeficient mnohonásobné korelace je maximální korelační koeficient mezi náhodnou veličinou Y a libovolnou lineární funkcí Cq + c'X náhodného vektoru X. Důsledek 10 Pro libovolné j = 1,... ,k platí rô.x>R2(Y,X;-), tj. absolutní hodnota libovolného korelačního koeficientu mezi náhodnou veličinou Y a libovolnou z náhodných veličin X\,..., Xj. je nejvýše rovna koeficientu mnohonásobné korelace mezi náhodnou veličinou Y a náhodným vektorem x=(Xx.....xky. Jan Koláček (PřF MU) M5VM05 Statistické modelováni Prakticky Definice 11 lějme náhodný výběr rozsahu n s vektory Xi = zi).....*»=(z:;>^ pro i = 1,... ,n jsou náhodné vektory Y, typu p x 1 a Z,- typu ijxl, přičemž p + q = k. Definujme výběrové kovarianční matice Syz = ^ E (yí " Y) (z<- " Ž)' = (%) (typu p x q), í=i kde z'=l a výběrovou korelační matici R zy Í5L Jan KoláCek (PřF MU) M5VM05 Statistické modelováni Yl\ {Yn Prakticky Definice 12 Mějme náhodné vektory J >' ' ' > \x' J' ^e ^' Jsou shodné veličiny a X,- (i = 1, ■ ■ ■ ,n) jsou náhodné vektory typu p x 1. Jestliže matice Rxx Je regulární, pak výběrový koeficient mnohonásobné korelace je definován vztahem: rY-X = ryxrxxrxy- Návod 13 (praktický výpočet) V praxi se většinou výběrový koeficient mnohonásobné korelace počítá pomocí nějakého software. Hledání inverzní matice R-^ může být obecně složitý proces, proto ještě uvedeme alternativní výpočet. Položme Z = (y, X) a R = Rzz- Pak , _ det(R) t*-1 det(Rxx)- Jan KoláCek (PřF MU) M5VM05 Statistické modeloval 26 / 44 Příklad Příklad 2 Zjišťujeme závislost koncentrace ozónu3 (proměnná Y) ve spodních vrstvách atmosféry na meteorologických podmínkách, které jsou popsány intenzitou slunečního záření (Xi), rychlosti větru (Xi) a teplotě vzduchu (X3). Naměřená data udává následující tabulka. i ~Y X\ X2 X3 1 23 148 8,00 82 2 21 191 14,90 77 3 37 284 20,70 72 4 20 37 9,20 65 5 12 120 11,50 73 6 13 137 10,30 76 7 135 269 4,10 84 8 49 248 9,20 85 9 32 236 9,20 81 10 64 175 4,60 83 Vypočtěte výběrový koeficient mnohonásobné korelace. ačást datového souboru airquality implementovaného v jazyce R Jan Koláček (PřF MU) M5VM05 Statistické modelování 27/ Řešení Řešení Ryx = (0,55;-0,51;0,54). '1,00 0,19 0,60 Rxx = ( 0,19 1,00 -0,52 ,0,60 -0,52 1,00 Její inverze je tvaru R xx 3,29 -2,25 —3,13> -2,25 2,91 2,85 -3,13 2,85 4,34 a celkově dostáváme r2.x = RyXRx^RxY = 0,8557. Jan Koláček (PřF MU) M5VM05 Statistické modelováni Řešení Pokud bychom použili druhý způsob uvedený v Návodu 18, je třeba vypočítat matici R, kterou lze z předešlého vyjádřit R = ( } ), tj. vyx xx R / 1,00 0,55 -0,51 V 0,54 0,55 1,00 0,19 0,60 -0,51 0,54 \ 0,19 0,60 1,00 -0,52 -0,52 1,00 ) Pak ' YX = 1 det(R) = 1 0,032 = 0,8557. det(Rxx) - 0,22 Hodnota tohoto koeficientu poukazuje na do jisté míry velkou lineární závislost proměnné Y na ostatních proměnných. Tato hodnota je však značně ovlivněna také korelacemi proměnných X\, X^ a X3 mezi sebou. Při pohledu na prvky matice Rxx vidíme, že je např. významná korelace mezi intenzitou slunečního záření (X^) a teplotou vzduchu (X3). Pro vyloučení těchto vlivů je třeba spočítat parciální korelační koeficienty - viz dále. Jan Koláček (PřF MU) M5VM05 Statistické modelováni Parciální korelační koeficient Budeme uvažovat náhodné veličiny Y,Z,Xx,...,Xk. Motivací k zavedení tohoto korelačního koeficientu je fakt, že korelační koeficient R(Y,Z) mezi náhodnou veličinou Y a Z může být dosti vysoký proto, že obě náhodné veličiny jsou silně závislé na náhodném vektoru X= (Xi,... ,Xj.)'. Zajímá nás proto, jaká by byla korelace mezi Y a Z při vyloučení vlivu, který je způsoben náhodným vektorem X. Toto odstranění vlivu náhodného vektoru X lze uskutečnit tak, že se sleduje korelace mezi Y a Z při pevných hodnotách náhodného vektoru X. Protože v praktických situacích není možné uspořádání experimentu takovým způsobem, aby byla provedena eliminace vlivu náhodného vektoru X, je třeba ji provést pomocí vhodného matematického modelu. Obdobně jako v případě koeficientu mnohonásobné korelace se omezíme pouze na lineární vztahy. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 30 / 44 Definice Označme y a z nejlepší lineární predikce náhodných veličin y a z pomocí náhodného vektoru X. Korelaci očištěnou od vlivu náhodného vektoru X dostaneme, budeme-li počítat korelaci R(Y — Y,Z — z). Definice 14 Nechť existuje korelační koeficient R(Y — Y,Z — z). Potom jej budeme nazývat parciálním korelačním koeficientem náhodných veličin y a z při pevném X a budeme jej značit pY,z-x=R(Y-Y,Z-Ž). Jan KoláCek (PřF MU) M5VM05 Statistické modelováni Vlastnosti Věta 15 Pro parciální korelační koeficient náhodných veličin Y a Z při pevném X platí Py,zx — R(Y,Z)-R(Y,X)(R(X)r1R(X,Z)} \(l-fi.x) (l - (% Z hodnoty korelačního koeficientu R(Y,Z) nelze usuzovat na velikost parciálního korelačního koeficientu py,zx- Tyto dva koeficienty se od sebe mohou dosti odlišovat, mohou mít i různé znaménko a v případě, že jeden z nich je roven nule, může být druhý různý od nuly a podobně. Jejich vztah je tedy odlišný od vztahu R(Y,Xj) a Py-x, který dává Důsledek 15. Jan Koláček (PřF MU) M5VM05 Statistické modelováni Prakticky Definice 16 X,- (z = 1, ■ ■ ■ ,n) jsou náhodné vektory typu p x 1. Pak výběrový parciální korelační koeficient je definován vztahem (Yn\ z„\ rY,ZX 2 2 2 rYZ rYXrZX kde fyZ je výběrový koeficient korelace náhodných veličin y, z a ^y.x. rz-X Jsou příslušné výběrové koeficienty mnohonásobné korelace. Jan KoláCek (PřF MU) M5VM05 Statistické modelováni Prakticky Definice 17 X,- (z = 1, ■ ■ ■ ,n) jsou náhodné vektory typu p x 1. Pak výběrový parciální korelační koeficient je definován vztahem z„ rY,ZX 2 2 2 rYZ rYXrZX v^-'ix) (i-4.x)' kde fyZ je výběrový koeficient korelace náhodných veličin y, z a fy.x, Jsou příslušné výběrové koeficienty mnohonásobné korelace. Jan KoláCek (PřF MU) M5VM05 Statistické modelováni Prakticky Návod 18 V praxi se pro výpočet parciálního korelačního koeficientu používá následujícího postupu. Položme W = (y, z, X) a R = Ryvw- Pak = det(R(12)) ^det(R(11))det(R(22))' kde je submatice, která vznikne z R vynecháním i-tého řádku a j-tého sloupce. Jan KoláCek (PřF MU) M5VM05 Statistické modeloval 35 / 44 Příklad Příklad 3 Na datech z Příkladu 2 vypočtěte parciální korelační koeficient J"y/x1(x2/X3)- Řešení Připomeňme matici R, která byla tvaru R / 1,00 0,55 -0,51 0,55 1,00 0,19 -0,51 0,19 1,00 \ 0,54 0,60 -0,52 0,54 \ 0,60 -0,52 1,00 / Jan Koláček (PřF MU) M5VM05 Statistické modelováni Řešení Příslušné submatice jsou R (li) R (12) R (22) Po dosazení dostáváme rY,Xv(X2,X3) '1,00 0,19 0,60 0,19 1,00 -0,52 ,0,60 -0,52 1,00 0,55 -0,51 0,54 1,00 -0,51 0,54 0,19 0,60 1,00 -0,52 -0,52 1,00 -0,51 1,00 -0,52 0,2827 a/O, 2220-0,4654 0,54 -0,52 1,00 = 0,8795. Výsledek lze interpretovat jako velikost lineární závislosti ozónu na intenzitě slunečního záření s vyloučením vlivu rychlosti větru a teploty vzduchu. Podobně by šlo zkoumat ostatní vazby mezi proměnnými. Jan Koláček (PřF MU) M5VM05 Statistické modelováni Úlohy k procvičení Příklad 4.1 V tabulce jsou uvedeny výsledky měření (xi,yi) a predikované hodnoty pi, i = 1,..., 10 i 1 2 3 4 5 6 7 8 9 10 Xi 1,60 1,86 2,21 2,29 3,38 3,42 3,62 3,65 3,76 4,27 Vi 3,24 3,12 3,81 5,12 6,28 7,15 7,33 7,81 8,08 8,43 V i 2,98 3,54 4,31 4,48 6,85 6,94 7,37 7,44 7,68 8,79 Určete index determinace a interpretujte ho. [ID = 0.95532/ Jan Koláček (PřF MU) M5VM05 Statistické modeloval 38 / 44 Úlohy k procvičení Příklad 4.2 Během 14-ti dní byla měřena polední teplota vzduchu. K predikci teploty byly použity dva modely - model A a model B. Naměřené hodnoty a predikované hodnoty obou modelů jsou uvedeny v následující tabulce. 12345678 9 10 11 12 13 14 yi 0,35 -1,54 0,47 -0,50 -1,99 -2,17 -1,86 -1,37 yf -0,62 -0,75 -0,87 -0,99 -1,11 -1,24 -1,36 -1,48 yf -0,17 -0,35 -0,52 -0,70 -0,87 -1,05 -1,22 -1,39 -1,88 -2,30 -2,13 -2,12 -1,60 -1,73 -1,85 -1,97 -1,57 -1,74 -1,92 -2,09 1,76 2,09 2,27 -1,06 -2,22 -2,44 Na základě indexu determinace rozhodněte, který z modelů je lepší. pDA = 0,31; ID B = 0,24/ Příklad 4.3 Na datech ze Cvičení 4.2 byla predikována hodnota polední teploty vzduchu v 15. den. Model A tuto hodnotu odhadl yf5 = —2,34, predikce pomocí modelu B byla y^5 = —2,61. Ve skutečnosti byla naměřena hodnota = —1,34. Na nových datech opět porovnejte oba modely pomocí indexu determinace. [IDA = 0,22; IDB = 0,09/ Jan Koláček (PřF MU) M5VM05 Statistické modeloval 39 / 44 Úlohy k procvičení Příklad 4.4 Zjišt ujeme závislost spotřeby paliva osobních automobilů3 (proměnná Y, počet mil/galon) na vlastnostech motoru, které jsou popsány objemem válců (X\, kubické palce), výkonem (X2, počet koní), hmotností vozidla (Xj, kilolibry) a zrychlením (X^, počet sekund na 1/4 míle). Naměřená data udává tabulka na další straně. Vypočtěte závislost spotřeby paliva osobních automobilů na objemu válců, výkonu, hmotnosti a zrychlením vozidla. [r\.x = 0,934/ ačást datového souboru mtcars implementovaného v jazyce R Jan Koláček (PřF MU) M5VM05 Statistické modeloval 40 / 44 Model (r.v. 1974) Y Xi X2 x3 x4 Mazda RX4 Wag 21,00 160,00 110,00 2,88 17,02 Datsun 710 22,80 108,00 93,00 2,32 18,61 Hornet 4 Drive 21,40 258,00 110,00 3,21 19,44 Valiant 18,10 225,00 105,00 3,46 20,22 Merc 280C 17,80 167,60 123,00 3,44 18,90 Cadillac Fleetwood 10,40 472,00 205,00 5,25 17,98 AMC Javelin 15,20 304,00 150,00 3,44 17,30 Fiat Xl-9 27,30 79,00 66,00 1,94 18,90 Porsche 914-2 26,00 120,30 91,00 2,14 16,70 Ford Pantera L 15,80 351,00 264,00 3,17 14,50 n Koláček (PřF MU) M5VM05 Statistické modeloval Úlohy k procvičení Příklad 4.5 V rámci biometrického výzkumu byl na jednotlivých stromech zjišťován vztah mezi veličinami objem (Y, m3), výčetní tloušťka (X\, cm), výška (X2, m) a délka zelené koruny (X3, m). Naměřené hodnoty jsou uvedeny v tabulce na další straně. Vyšetřete korelační závislost objemu na tloušťce, výšce a délce zelené koruny. [r\,x = 0,9634/ Jan Koláček (PřF MU) M5VM05 Statistické modeloval 42 / 44 Strom Y Xi X2 x3 1 0,013 8 9,8 3,6 2 0,021 8 10,2 3,6 3 0,012 7 9,4 3,0 4 0,009 7 7,8 1,4 5 0,065 12 11,2 4,6 6 0,071 12 12,0 5,1 7 0,102 13 13,5 6,9 8 0,048 10 12,1 4,6 9 0,049 11 10,8 4,3 10 0,011 7 8,9 3,9 11 0,017 8 9,3 3,5 12 0,059 11 12,0 4,8 Jan Koláček (PřF MU) M5VM05 Statistické modelování 43 / 44 Úlohy k procvičení Příklad 4.6 Na datech ze Cvičení 4.4 vypočtěte parciální korelační koeficienty i'y,xr{x2,x3„xi)' ^XriX^Xi)- ^Xg-ÍX^XzÄ). rXuXi-iXuXifc)- Vy^íx^x,) = 0,2319; rY/Xr(Xi/X3/Xi) = -0,5219; rY/X3