M5VM05 Statistické modelování 4. Základy regresní a korelační analýzy Jan Koláček (kolacek@math.muni.cz) Ustav matematiky a statistiky, Přírodovědecká fakulta, Masarykova univerzita, Brno podzim 2013 Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 1/44 Motivace V předchozím jsme zkoumali jednotlivé jevy (statistické znaky) izolovaně; zabývali jsme se tzv. jednorozměrnými soubory, tj. soubory popisujícími pouze jeden statistický znak a nezajímaly nás jeho vazby a vztahy k jiným jevům. V reálném světě (v přírodě, společnosti, ekonomice,...) se ovšem jevy nacházejí ve více nebo méně složitých vzájemných vztazích - navzájem na sobě závisí a podmiňují se. Proto se statistická analýza nemůže omezit pouze na zkoumání izolovaných jevů, ale musí se také zabývat analýzou jejich vzájemných vztahů. Tato analýza se dá obecně rozdělit na dvě části: regresní a korelační. Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 2/44 Úloha regresní analýzy Hlavní úlohou regresní analýzy je provést predikci nějaké závisle proměnné náhodné veličiny Y na základě informace, kterou poskytují měření nějakých jiných náhodných veličin, řekněme X\,... , Xj-. Veličinám Xi,...,Xj- se potom říká nezávisle proměnné nebo též doprovodné proměnné, nebo také kovariáty. Měření nezávislých proměnných jsou pro experimentátora snáze dostupné než měření závisle proměnné Y. Predikce spočívá v nalezení nějaké funkce g(X\,... ,Xj.), která vhodně aproximuje závisle proměnnou Y. Kvalita predikce se obvykle posuzuje pomocí tzv. střední kvadratické chyby predikce E[Y — g(Xi,... ,Xj-)]2. Za optimální se považuje volba takové predikční funkce g, která uvedenou střední kvadratickou chybu minimalizuje. Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 3/44 Úloha korelační analýzy Vedle průběhu sledované závislosti Y na Xi,...,Xj- dané funkcí g je také třeba se zaměřit na měření těsnosti tohoto vztahu, tedy je nutné zavést nějaké míry velikosti statistické vazby (závislosti) závisle proměnné Y na nezávisle proměnných Xi,...,X£ s ohledem na vybranou funkci g a případně také s ohledem na závislosti mezi náhodnými veličinami Xi,...,X^. Tato problematika je hlavní úlohou korelační analýzy. K tomuto účelu byly zkonstruovány různé koeficienty, které nabývají hodnot od 0 do 1 (resp. od — 1 do 1). Čím je takový koeficient bližší 1 (resp. —1), tím je závislost mezi danými dvěma veličinami silnější a čím je bližší 0, tím je slabší. Korelační analýza většinou přirozeně navazuje na regresní analýzu. Nejprve pomocí regresní analýzy najdeme nějaký model závislosti v datech. Poté pomocí regresní analýzy zkoumáme vhodnost tohoto modelu. Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 4 / 44 Optimální volba predikční funkce g Věta 1 Nechí Y,Xi,... ,Xfr- jsou náhodné veličiny. Označme X = (Xi, EY2 < oo. Pak pro každou měřitelnou funkci ,Xj-)' a nechí g:lRk platí E(Y-g(X))2>E[Y-E(Y\X)}2 a rovnost v uvedené nerovnosti nastává právě když P(g(X)=E(Y\X)) = l. Jan Koláček (PřF MU) M5VM05 Statistické modelováni podzim 2013 5 / 44 Podmíněná střední hodnota Z = (Y,X)' . .. sdruž, hustota f{y,x); X a Y . .. margin. hustoty fx{x), /y(y)- Označme Mx = {ieR :/x(x) > 0}, My = {y E IR :/Y(y) > 0}. Pak podmíněná distribuční funkce je v tomto případě definována vztahem F(»|x)=(ÍM* Pr°"Mx' [o proxe!R\Mx a podmíněná hustota je rovna [O proxelR\Mx. Položme h(x) = E(Y\X = x) = JR VdF(y\x) = JR /yj^j-dy, Pro Vx e Mx. Pak náhodnou veličinu E(Y|X) = fr(X) nazveme podmíněnou střední hodnotou. Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 6 / 44 Vlastnosti • Nechť Yi,Y2,Xjsou náhodné veličiny a fl0/fli/fl2 Jsou reálne konstanty, pak pokud střední hodnoty EYi,EY2 existují, platí E(a0 + fll Yi + fli^ilX) = fl0 + |X) + a2E(Y2\X). • Nechť X, Y jsou náhodné veličiny a střední hodnota EY existuje, pak E [E(Y|X)] = EY. Jan Koláček (PřF MU) M5VM05 Statistické modelováni podzim 2013 7 / 44 Podmíněný rozptyl Definujeme také podmíněný rozptyl náhodné veličiny Y při daném X vztahem D(Y|X) = E | [Y - E(Y|X)]2 |x|. Platí DY = E [D(Y|X)] + D [E(Y|X)]. Jan KoláCek (PřF MU) M5VM05 Statistické modeloval podzim 2013 Korelační koeficient Definice 2 Pearsonův koeficient korelace náhodných veličin X, Y (které jsou aspoň intervalového charakteru) je definován vztahem kde C(X, Y) = E[(X - EX)(Y - EY)] je kovariance náhodných veličin X a Y. Připomeneme jeho vlastnosti: • R(X,X) = 1 • R(X,Y) =R(Y,X) • R(a + bX,c + dY) = sgn(bd)R(X, Y) • —1 < R(X,Y) < 1 a rovnosti je dosaženo tehdy a jen tehdy, když existují reálné konstanty a,b, kde b ^= 0 tak, že P(Y = a + i>X) = 1, přičemž R(X, Y) = 1 pro b > 0 a K(X, Y) = -1 pro b < 0. Z těchto vlastností plyne, že _R(X, Y) je vhodnou mírou těsnosti lineárního vztahu náhodných veličin X, Y. c(x,y) pro VĎ(X), 7Ď(Y) > 0, 1?(X,Y) o jinak, Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 9/44 Vlastnosti Věta 3 Mějme náhodnou veličinu Y s konečným a nenulovým rozptylem a náhodný vektor X = (Xi,... ,Xj.)'. Potom pro libovolnou měřitelnou funkci g : IR^ -> R takovou, že existuje korelační koeficient R(Y,g(X)) platí \R(Y,g(X))\?y|x - dy nazýváme korelačním poměrem náhodné veličiny Y na náhodném vektoru X= (Xi,... ,Xj.)', nebo též korelačním poměrem náhodné veličiny Y na náhodných veličinách Xi,..., Xj. a pak jej též značíme J/yix x • Jan Koláček (PřF MU) M5VM05 Statistické modelováni Poznámky (1) Z předchozích vět plyne, že V2]X=[R(Y,E(Y\X))}2 a tedy pro korelační poměr platí nerovnost 0 < j#|x < 1. (2) Po vydělení rovnosti (1) rozptylem DY a jednoduché úpravě dostaneme „ E(Y-E(Y\X))2 2 1 = --Dy +Vy\ x- Označme symbolem cr2,x střední kvadratickou chybu predikce, když prediktorem je regresní funkce E(Y|X), tj. a2lx = E(Y-E(Y\X))2, pak díky předchozímu máme 2 -i UY\X nY\x = i" ĎY • Jan KoláCek (PřF MU) M5VM05 Statistické modelováni podzim 2013 13 / 44 Interpretace Z tohoto vztahu plyne velice názorná interpretace korelačním poměru J/y|X. (a) Je-li střední kvadratická chyba predikce cr^x = 0, tedy v případě ideální predikce, je korelační poměr = ^■ (b) V druhém krajním případě, když střední kvadratická chyba predikce je rovna DY, tj. cy|X = DY, pak je ?/y|X = 0 a využití informace, kterou o náhodné veličině Y poskytuje náhodný vektor X, nepřináší žádné zmenšení chyby predikce. Tedy korelační poměr poskytuje míru přesnosti predikce a je velice užitečný při srovnávání různých vektorů doprovodných proměnných. Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 14 / 44 Graficky Praktický výpočet Návod 5 Při praktických výpočtech se príslušné rozptyly odhadují výběrovými rozptyly. Odhadnutý korelační poměr se Pa^ nazÝva index determinace. Nechí tedy máme realizace y-y,..., yn a jejich predikované hodnoty ýi,..., yn Koeficient determinace má tvar kde ■y n 1 n 1 n s? = - E(fc - y)2> 4y= z E (y*_ 9t)2' sy = - E (y*~ y)2- í=i i—i i—i Jan KoláCek (PřF MU) M5VM05 Statistické modeloval podzim 2013 16 / 44 Příklad Příklad 6 Při laboratorním pokusu bylo získáno následujících 8 výsledků měření 1 2 3 4 5 6 7 8 xt 2,2840 2,8170 y i 4,3046 6,3235 2,8367 3,5288 4,1031 4,4262 3,7082 7,6835 7,0239 8,7973 4,5211 10,2961 4,9446 8,4979 Zvolený model nám predikoval tyto hodnoty y = (4,2614; 5,3352; 5,3750; 6,7694; 7,9264; 8,5774; 8,7685; 9,6217). Určete index determinace a interpretujte ho. Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 17 / 44 Řešení Řešení Ukážeme oba způsoby výpočtu. Vypočteme nejprve příslušné výběrové rozptyly: y = 7,079, s| = I E (9i - 7,079)2 = 3,283, s2y? = I £ (y,- - ý)2 i=l i=l 1,131, 4 = g Ľ (y,- - 7,079)2 = 4,414. í'=i Podle definice je s| _ 3,283 ID= -4- s\ 4,414 0,7438 nebo ÍD = 1_!^ = 1_14§ = 0,7438. s2 4,414 Výsledek lze interpretovat tak, že 74,38% celkové variability je vysvětleno zvoleným modelem. Jan Koláček (PřF MU) M5VM05 Statistické modelováni podzim 2013 18 / 44 Analýza závislosti Výpočet podmíněné střední hodnoty E(y|X) vyžaduje znalost sdruženého rozdělení náhodného vektoru Z = (y, Xi,... ,Xk)', což činí hlavní potíž, neboť v praktických situacích nebývá sdružené rozdělení vektoru Z = (Y,X\,... ,Xk)' známé. Proto se, pokud to praktická situace dovolí, uvažují pouze lineární modely typu g(X) = /30 + ftXx + ■ ■ ■ + faXk = /30 + jg'X, jestliže označíme = (fii,... ,/3j-). Úloha predikce se pak redukuje na nalezení neznámých koeficientů /3q, ... ,/3;t, které minimalizují střední kvadratickou chybu této predikce, tj. (#),•••,&)'= argmin E(Y - c0 - -----ckXk)2 (c0,...,ck)>eRk+1 Označme y = /3q + /3'X nejlepší lineární predikci náhodné veličiny y. Střední kvadratickou chybu nejlepší lineární predikce označíme tentokrát crlx = E(Y-p0-l5'X)2 Jan KoláCek (PřF MU) M5VM05 Statistické modelování podzim 2013 19 / 44 Koeficient mnohonásobné korelace Definice 7 Pearsonův korelační koeficient R(Y,Y) označíme py-x a budeme jej nazývat koeficientem mnohonásobné korelace náhodné veličiny Y na náhodném vektoru X = (Xi,... ,Xj.)' (nebo též na náhodných veličinách Xi,..., Xj. a pak budeme podrobněji psát py.(Xl,...,xk))- Definice 8 (Korelační matice) Nechť X = (Xi,..., X„)' a Y = (Yi,..., Ym)' jsou náhodné vektory. Potom matici ÍRiX^Y^ ■■■ R(XlfYm)\ R(X,Y)=\ = (R(XitYj)) i=1.....„ ^(X^YO ■■■ R(Xn,Ym)J i=1m nazýváme korelační maticí náhodných vektorů X a Y. Dále matici _R(X,X) budeme značit R(X) a budeme ji nazývat korelační maticí náhodného vektoru X. Jan KoláCek (PřF MU) M5VM05 Statistické modeloval podzim 2013 20 / 44 Vlastnosti Věta 9 Koeficient mnohonásobné korelace pyx má následující vlastnosti (1) Koeficient mnohonásobné korelace py.x je vždy nezáporný. (2) Pomocí regresních koeficientu po, fii, ■ ■ ■, fík jej lze vyjádřit ve tvaru Py-x dy (3) Pomocí korelačních matic jej lze vyjádřit ve tvaru p2y.x = R(Y,X)(R(X))-1R(X,Y) (4) Pomocí reziduálního rozptylu lineární predikce jej lze vyjádřit ve tvaru o2 „2 _ -i UY-x PY-x = 1 dy Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 21 / 44 Poznámka O Vzorec 2 _ P'DXfi pyx — dy je vhodný pro výpočet koeficientu mnohonásobné korelace v prípade, že je k dispozici vektor regresních koeficientu (ft>, či.....h)'- O Vzorec p1Y.x = R(Y,X)(R(X))-íR(X,Y) se využívá v prípade, že jsou k dispozici korelační koeficienty mezi náhodnými veličinami Y,Xi,..., Xj-. Identity P2Y-X 1 DY Vy\x 1 u2 dy ukazují, že korelační poměr ?/y|X je roven kvadrátu koeficientu mnohonásobné korelace py x v případě, že teoretická regresní funkce g(X) = E(Y|X) je lineární funkcí proměnných Xi, ...,Xfc. Dále je z tohoto vzorce patrné, že pokud se omezíme na lineární predikce, je interpretace koeficientu mnohonásobné korelace stejná jako je interpretace korelačního poměru v obecném případě. Jan Koláček (PřF MU) M5VM05 Statistické modelováni Pokračování O Podle uváděných vzorců lze koeficient mnohonásobné korelace pyx počítat i v případě, kdy podmíněná střední hodnota E(Y|X) není lineární. V tomto případě potom díky vztahu (dokázaném ve Větě 1) E(Y - ftj - č'X)2 > E[Y - E(Y|X)]2 "-v-'--v-' -Í72 -Í72 ~UY-X ~UY\X snadno vidíme, že 0 < p2y.X < Vy\X < 1 Jan KoláCek (PřF MU) M5VM05 Statistické modeloval podzim 2013 23 / 44 Vlastnosti Věta 10 Pro libovolný nenulový vektor c = (ci,..., c{)' E JR* a Cq E IR platí PÍx>R2(Y,c0 + c'X), tj. koeficient mnohonásobné korelace je maximální korelační koeficient mezi náhodnou veličinou Y a libovolnou lineární funkcí Cq + c'X náhodného vektoru X. Důsledek 11 Pro libovolné j = 1,... ,k platí rô.x>R2(Y,X;-), tj. absolutní hodnota libovolného korelačního koeficientu mezi náhodnou veličinou Y a libovolnou z náhodných veličin X\,..., Xj. je nejvýše rovna koeficientu mnohonásobné korelace mezi náhodnou veličinou Y a náhodným vektorem x=(Xx.....xky. Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 24 / 44 Prakticky Definice 12 Mějme náhodný výběr rozsahu n s vektory Xi = (-1 ) / •••/X„ = ), kde pro i = 1,... ,n jsou náhodné vektory Y, typu p x 1 a Z,- typu ijxl, přičemž p + g = k. Definujme výběrové kovarianční matice Syz = ^ E (Y<- " Y) (zí " Ž)' = (Sij) (typu p x í'=i kde i = l \y i = l , 7 a výběrovou korelační matici rzy = fa/) Jan Koláček (PřF MU) M5VM05 Statistické modelování SJL Yl\ {Yn Prakticky Definice 13 Mějme náhodné vektory J >' ' ' > \x' J' ^e ^' Jsou shodné veličiny a X,- (i = 1, ■ ■ ■ ,n) jsou náhodné vektory typu p x 1. Jestliže matice Rxx Je regulární, pak výběrový koeficient mnohonásobné korelace je definován vztahem: ryx = ryxrxxrxy- Návod 14 (praktický výpočet) V praxi se většinou výběrový koeficient mnohonásobné korelace počítá pomocí nějakého software. Hledání inverzní matice R-^ může být obecně složitý proces, proto ještě uvedeme alternativní výpočet. Položme Z = (Y, X) a R = Rzz- Pak , _ det(R) t*-1 det(Rxx)- Jan KoláCek (PřF MU) M5VM05 Statistické modeloval podzim 2013 26 / 44 Příklad Příklad 15 Zjišťujeme závislost koncentrace ozónu3 (proměnná Y) ve spodních vrstvách atmosféry na meteorologických podmínkách, které jsou popsány intenzitou slunečního záření (Xi), rychlosti větru (Xi) a teplotě vzduchu (X3). Naměřená data udává následující tabulka. i ~Y X\ X2 X3 1 23 148 8,00 82 2 21 191 14,90 77 3 37 284 20,70 72 4 20 37 9,20 65 5 12 120 11,50 73 6 13 137 10,30 76 7 135 269 4,10 84 8 49 248 9,20 85 9 32 236 9,20 81 10 64 175 4,60 83 Vypočtěte výběrový koeficient mnohonásobné korelace. ačást datového souboru airquality implementovaného v jazyce R Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 27 / 44 Řešení Řešení Ryx = (0,55;-0,51;0,54). '1,00 0,19 0,60 Rxx = ( 0,19 1,00 -0,52 ,0,60 -0,52 1,00 Její inverze je tvaru R xx 3,29 -2,25 —3,13> -2,25 2,91 2,85 -3,13 2,85 4,34 a celkově dostáváme r2.x = RyxRxxRxy = 0,8557. Jan Koláček (PřF MU) M5VM05 Statistické modelováni podzim 2013 28 / 44 Řešení Pokud bychom použili druhý způsob uvedený v Návodu 20, je třeba vypočítat matici R, kterou lze z předešlého vyjádřit R = ( } ), tj. vyx xx R / 1,00 0,55 -0,51 V 0,54 0,55 1,00 0,19 0,60 -0,51 0,54 \ 0,19 0,60 1,00 -0,52 -0,52 1,00 ) Pak ' yx = 1 det(R) = 1 0,032 = 0,8557. det(Rxx) - 0,22 Hodnota tohoto koeficientu poukazuje na do jisté míry velkou lineární závislost proměnné y na ostatních proměnných. Tato hodnota je však značně ovlivněna také korelacemi proměnných X\, X^ a X3 mezi sebou. Při pohledu na prvky matice Rxx vidíme, že je např. významná korelace mezi intenzitou slunečního záření (x^) a teplotou vzduchu (x3). Pro vyloučení těchto vlivů je třeba spočítat parciální korelační koeficienty - viz dále. Jan Koláček (PřF MU) M5VM05 Statistické modelováni Parciální korelační koeficient Budeme uvažovat náhodné veličiny Y,Z,Xx,...,Xk. Motivací k zavedení tohoto korelačního koeficientu je fakt, že korelační koeficient R(Y,Z) mezi náhodnou veličinou Y a Z může být dosti vysoký proto, že obě náhodné veličiny jsou silně závislé na náhodném vektoru X= (Xi,... , Xj-)'. Zajímá nás proto, jaká by byla korelace mezi Y a Z při vyloučení vlivu, který je způsoben náhodným vektorem X. Toto odstranění vlivu náhodného vektoru X lze uskutečnit tak, že se sleduje korelace mezi Y a Z při pevných hodnotách náhodného vektoru X. Protože v praktických situacích není možné uspořádání experimentu takovým způsobem, aby byla provedena eliminace vlivu náhodného vektoru X, je třeba ji provést pomocí vhodného matematického modelu. Obdobně jako v případě koeficientu mnohonásobné korelace se omezíme pouze na lineární vztahy. Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 30 / 44 Definice Označme y a z nejlepší lineární predikce náhodných veličin y a z pomocí náhodného vektoru X. Korelaci očištěnou od vlivu náhodného vektoru X dostaneme, budeme-li počítat korelaci R(Y — Y,Z — z). Definice 16 Nechť existuje korelační koeficient R(Y — Y,Z — z). Potom jej budeme nazývat parciálním korelačním koeficientem náhodných veličin y a z při pevném X a budeme jej značit pY,z-x=R(Y-Y,Z-Ž). Jan KoláCek (PřF MU) M5VM05 Statistické modeloval podzim 2013 31 / 44 Vlastnosti Věta 17 Pro parciální korelační koeficient náhodných veličin Y a Z při pevném X platí Py,zx — R(Y,Z)-R(Y,X)(R(X)r1R(X,Z)} \(l-p2Y.x) (1 - p\ Z hodnoty korelačního koeficientu R(Y,Z) nelze usuzovat na velikost parciálního korelačního koeficientu py,zx- Tyto dva koeficienty se od sebe mohou dosti odlišovat, mohou mít i různé znaménko a v případě, že jeden z nich je roven nule, může být druhý různý od nuly a podobně. Jejich vztah je tedy odlišný od vztahu R(Y,Xj) a Py-x- který dává Důsledek 17. Jan Koláček (PřF MU) M5VM05 Statistické modelováni Prakticky Definice 18 X,- (z = 1, ■ ■ ■ ,n) jsou náhodné vektory typu p x 1. Pak výběrový parciální korelační koeficient je definován vztahem (Yn\ z„\ rY,ZX 2 2 2 rYZ rYXrZX kde fyZ je výběrový koeficient korelace náhodných veličin y, z a ^y.x. rz-X Jsou příslušné výběrové koeficienty mnohonásobné korelace. Jan KoláCek (PřF MU) M5VM05 Statistické modelováni Prakticky Definice 19 X,- (z = 1, ■ ■ ■ ,n) jsou náhodné vektory typu p x 1. Pak výběrový parciální korelační koeficient je definován vztahem (Yn\ z„\ rY,ZX 2 2 2 rYZ rYXrZX kde fyZ je výběrový koeficient korelace náhodných veličin y, z a ^y.x. rz-X Jsou příslušné výběrové koeficienty mnohonásobné korelace. Jan KoláCek (PřF MU) M5VM05 Statistické modelováni Prakticky Návod 20 V praxi se pro výpočet parciálního korelačního koeficientu používá následujícího postupu. Položme W = (y, z, X) a R = Ryvw- Pak = det(R(12)) ^det(R(11))det(R(22))' kde je submatice, která vznikne z R vynecháním i-tého řádku a j-tého sloupce. Jan KoláCek (PřF MU) M5VM05 Statistické modeloval podzim 2013 35 / 44 Příklad Příklad 21 Na datech z Příkladu 15 vypočtěte parciální korelační koeficient J"y/x1(x2/X3) • Řešení Připomeňme matici R, která byla tvaru R / 1,00 0,55 -0,51 0,55 1,00 0,19 -0,51 0,19 1,00 \ 0,54 0,60 -0,52 0,54 \ 0,60 -0,52 1,00 / Jan Koláček (PřF MU) M5VM05 Statistické modelováni Řešení Příslušné submatice jsou R (li) R (12) R (22) Po dosazení dostáváme rY,Xv(X2,X3) '1,00 0,19 0,60 0,19 1,00 -0,52 ,0,60 -0,52 1,00 0,55 -0,51 0,54 1,00 -0,51 0,54 0,19 0,60 1,00 -0,52 -0,52 1,00 -0,51 1,00 -0,52 0,2827 a/O, 2220-0,4654 0,54 -0,52 1,00 = 0,8795. Výsledek lze interpretovat jako velikost lineární závislosti ozónu na intenzitě slunečního záření s vyloučením vlivu rychlosti větru a teploty vzduchu. Podobně by šlo zkoumat ostatní vazby mezi proměnnými. Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 37 / 44 Úlohy k procvičení Příklad 1.1 V tabulce jsou uvedeny výsledky měření (xi,yi) a predikované hodnoty pi, i = 1,..., 10 i 1 2 3 4 5 6 7 8 9 10 Xi 1,60 1,86 2,21 2,29 3,38 3,42 3,62 3,65 3,76 4,27 Vi 3,24 3,12 3,81 5,12 6,28 7,15 7,33 7,81 8,08 8,43 V i 2,98 3,54 4,31 4,48 6,85 6,94 7,37 7,44 7,68 8,79 Určete index determinace a interpretujte ho. [ID = 0.95532/ Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 38 / 44 Úlohy k procvičení Příklad 1.2 Během 14-ti dní byla měřena polední teplota vzduchu. K predikci teploty byly použity dva modely - model A a model B. Naměřené hodnoty a predikované hodnoty obou modelů jsou uvedeny v následující tabulce. 12345678 9 10 11 12 13 14 yi 0,35 -1,54 0,47 -0,50 -1,99 -2,17 -1,86 -1,37 yf -0,62 -0,75 -0,87 -0,99 -1,11 -1,24 -1,36 -1,48 yf -0,17 -0,35 -0,52 -0,70 -0,87 -1,05 -1,22 -1,39 -1,88 -2,30 -2,13 -2,12 -1,60 -1,73 -1,85 -1,97 -1,57 -1,74 -1,92 -2,09 1,76 2,09 2,27 -1,06 -2,22 -2,44 Na základě indexu determinace rozhodněte, který z modelů je lepší. pDA = 0,31; ID B = 0,24/ Příklad 1.3 Na datech ze Cvičení 1.2 byla predikována hodnota polední teploty vzduchu v 15. den. Model A tuto hodnotu odhadl yf5 = —2,34, predikce pomocí modelu B byla y^5 = —2,61. Ve skutečnosti byla naměřena hodnota yi$ = —1,34. Na nových datech opět porovnejte oba modely pomocí indexu determinace. [IDA = 0,22; IDB = 0,09/ Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 39 / 44 Úlohy k procvičení Příklad 1.4 Zjišt ujeme závislost spotřeby paliva osobních automobilů3 (proměnná Y, počet mil/galon) na vlastnostech motoru, které jsou popsány objemem válců (X\, kubické palce), výkonem (X2, počet koní), hmotností vozidla (Xj, kilolibry) a zrychlením (X^, počet sekund na 1/4 míle). Naměřená data udává tabulka na další straně. Vypočtěte závislost spotřeby paliva osobních automobilů na objemu válců, výkonu, hmotnosti a zrychlením vozidla. [r\.x = 0,934/ ačást datového souboru mtcars implementovaného v jazyce R Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 40 / 44 Model (r.v. 1974) Y Xi X2 x3 x4 Mazda RX4 Wag 21,00 160,00 110,00 2,88 17,02 Datsun 710 22,80 108,00 93,00 2,32 18,61 Hornet 4 Drive 21,40 258,00 110,00 3,21 19,44 Valiant 18,10 225,00 105,00 3,46 20,22 Merc 280C 17,80 167,60 123,00 3,44 18,90 Cadillac Fleetwood 10,40 472,00 205,00 5,25 17,98 AMC Javelin 15,20 304,00 150,00 3,44 17,30 Fiat Xl-9 27,30 79,00 66,00 1,94 18,90 Porsche 914-2 26,00 120,30 91,00 2,14 16,70 Ford Pantera L 15,80 351,00 264,00 3,17 14,50 Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 41 / 44 Úlohy k procvičení Příklad 1.5 V rámci biometrického výzkumu byl na jednotlivých stromech zjišiován vztah mezi veličinami objem (Y, m3), výčetní tloušika (X\, cm), výška (X2, m) a délka zelené koruny (X3, m). Naměřené hodnoty jsou uvedeny v tabulce na další straně. Vyšetřete korelační závislost objemu na tlouštce, výšce a délce zelené koruny. [r\,x = 0,9634/ Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 42 / 44 Strom Y Xi X2 x3 1 0,013 8 9,8 3,6 2 0,021 8 10,2 3,6 3 0,012 7 9,4 3,0 4 0,009 7 7,8 1,4 5 0,065 12 11,2 4,6 6 0,071 12 12,0 5,1 7 0,102 13 13,5 6,9 8 0,048 10 12,1 4,6 9 0,049 11 10,8 4,3 10 0,011 7 8,9 3,9 11 0,017 8 9,3 3,5 12 0,059 11 12,0 4,8 Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 43 / 44 Úlohy k procvičení Příklad 1.6 Na datech ze Cvičení 1.4 vypočtěte parciální korelační koeficienty i'Y,xr{x2,x3„xi)' ^XriX^Xi)- ^Xg-ÍX^XzÄ). rXuXi-iXuXifc)- Vy^íx^x,) = 0,2319; rY/Xr(Xi/X3/Xi) = -0,5219; rY/X3