i Pohlaví (P) Výška (V) Hmotnost (H) Vi - mV Hi - mH (Vi-mV)(Hi-mH) H.stř.i ei 1 0 172 86 -2.5 11.04545455 -27.61363636 162 -76 2 1 169 58 -5.5 -16.95454545 93.25 158.5 -100.5 3 0 183 80 8.5 5.045454545 42.88636364 173 -93 korelace průměr 4 1 170 69 -4.5 -5.954545455 26.79545455 159.5 -90.5 1 (xi - mX) (yi - mY) mX = (1/N) Suma(1…N) xi 5 0 180 85 5.5 10.04545455 55.25 170 -85 rXY = -------- SUMA (i = 1 … N) {------------------------} 6 1 173 76 -1.5 1.045454545 -1.568181818 162.5 -86.5 (N - 1) sX sY rozptyl (variance) 7 0 190 89 15.5 14.04545455 217.7045455 180 -91 úprava vzorce korelace s2X = [1/(N-1)] Suma(1…N) (xi - mX)2 8 1 174 62 -0.5 -12.95454545 6.477272727 163.5 -101.5 = 1/(N - 1) SUMA(i = 1 … N) [ zXi zYi ] 9 1 160 55 -14.5 -19.95454545 289.3409091 149.5 -94.5 směrodatná odchylka 10 0 182 75 7.5 0.045454545 0.340909091 172 -97 s = odmocnina(s2) 11 0 198 101 23.5 26.04545455 612.0681818 188 -87 kovariance 12 1 153 48 -21.5 -26.95454545 579.5227273 142.5 -94.5 cXY = sX rXY sY z toho rXY = cXY/(sX sY) 13 1 174 65 -0.5 -9.954545455 4.977272727 163.5 -98.5 14 1 162 76 -12.5 1.045454545 -13.06818182 151.5 -75.5 15 0 171 69 -3.5 -5.954545455 20.84090909 161 -92 Vícenásobná regrese (v tomto případě tří proměnných) 16 1 159 48 -15.5 -26.95454545 417.7954545 148.5 -100.5 17 0 192 78 17.5 3.045454545 53.29545455 182 -104 Cíl: předpovědět hodnoty závislé proměnné (zde Y) pomocí hodnot nezávislých proměnných (zde X1 a X2) 18 1 170 59 -4.5 -15.95454545 71.79545455 159.5 -100.5 19 1 181 76 6.5 1.045454545 6.795454545 170.5 -94.5 Regresní rovnice: 20 0 179 95 4.5 20.04545455 90.20454545 169 -74 21 0 165 101 -9.5 26.04545455 -247.4318182 155 -54 nebo pro každou individuální hodnotu 22 0 182 98 7.5 23.04545455 172.8409091 172 -74 "Y se stříškou: Hodnota proměnné Y předpovězená pomocí hodnot X1 a X2 a regresních koeficientů a, b1 a b2" m 0.5 174.5 74.95454545 vzorcem 0.651652535 "a: Tzv. regresní konstanta, anglicky intercept, v podstatě hodnota proměnné Y pro X = 0" sd - vzorec 11.18566259 16.15247961 funkcí 0.651652535 "b1 a b2: Tzv. regresní koeficienty, které vyjadřují, o kolik vzroste hodnota závislé proměnné (zde Y), pokud se hodnota nezávislých proměnných (zde X1 a X2) změní o 1" sd - funkcí 0.511766316 11.18566259 16.15247961 a -10 R2: tzv. mnohonásobná korelace se rovná korelaci hodnot Y a hodnot Y předpovězených pomocí regresní rovnice (Y se stříškou) b1 1 b2 -0.5 Postup R 0.659656644 "V případě, že máme v regresi více než dvě proměnné, NELZE koeficienty najít analyticky na základě vzorců (tzn. neexistují žádné vzorce pro výpočet a, b1 a b2)" R2 0.435146888 "Nastupuje řešení pomocí metod tzv. numerické matematiky. Abychom si prakticky vyzkoušeli, jak tyto metody mohou postupovat, vyzkoušíme si to formou hry." Zkusíme odhadnout regresní model H = a + b1 V + b2 P (tzn. odhadneme hmotnost na základě výšky a pohlaví). SS 178525.75 "1. Předstíráme, že známe hodnoty a, b1 a b2 - vlevo v příslušných políčkách jsem napsal nějaké odhady hodnot, které jsem určil zcela ""od oka""" rHe 0.71286914 "2. Vypočítáme H se stříškou pro hodnoty pohlaví a výšky každého respondenta a tyto ""od oka"" stanovené hodnoty a, b1 a b2" rVe -0.06730946 3. Musíme si stanovit nějaká kritéria kvality toho modelu "1. bude to jednak již známý koeficient R (potažmo R2), tzn. korelace H a H se stříškou" "čím vyšší, tím lepší model (odhad hmotnosti na základě výšky a pohlaví" "2. další bude tzv. suma čtverců reziduí, neboli chyb odhadu, neboli hodnot ei (značí se často jako SS - z angl. Sum of Squares)" "čím nižší, tím lepší model" "4. Měníme, přepisujeme hodnoty a, b1 a b2 tak, abychom dosáhli co nejvyšší hodnoty R (nebo R2) a nejnižší hodnoty SS"