Regrese z našich dat. Predikce délky pídě v cm z výšky v cm. Tohle jsou výstupy z druhého populárního programu ­ Statistica. Nejprve něco popisných statistik a scatter (trochu jinak) Means and Standard Deviations (data na zkousku Variable Means Std.Dev. N VYSKA PID 172,6154 8,121210 78 19,6923 1,885059 78 Correlations (data na zkousku) Variable VYSKA PID VYSKA PID 1,000000 0,384097 0,384097 1,000000 Correlations (data na zkousku 22v*84c) 158,0 162,2 166,4 170,7 174,9 179,1 183,3 187,6 191,8 196,0 15,0 16,1 17,1 18,2 19,2 20,3 21,3 22,4 23,4 24,5 VYSKA PID A nyní již si můžete položit tytéž otázky jako na prvním úkolu na semináři: 1. Vypadá vztah lineárně? 2. Jsou splněny další předpoklady pro použití lineární regrese (korelace) (úroveň měření, odlehlé hodnoty, omezení variability, homoscedascita závislé...) 3. Spočítejte regresní koeficient b a průsečík a. 4. Sestavte regresni rovnici a zakreslete regresní přímku do bodového grafu (Toho správného; pro ten účel je jeden prima na následující stránce). 5. Předpovězte, jak velkou píď bychom očekávali u studenta, který měří 160cm. A u dvoumetrového? Scatterplot (data na zkousku.sta 22v*84c) 155 160 165 170 175 180 185 190 195 200 VYSKA 16 18 20 22 24 PID VYSKA:PID: r2 = 0,1475 A nyní výsledky jak je spočítala STATISTICA. Summary Statistics; DV: PID (data na zkousku.sta) Statistic Value Multiple R Multiple R2 Adjusted R2 F(1,76) p Std.Err. of Estimate 0,38410 0,14753 0,13631 13,15273 0,00052 1,75187 Regression Summary for Dependent Variable: PID (data na zkousku.sta R= ,38409669 R2= ,14753027 Adjusted R2= ,13631356 F(1,76)=13,153 p<,00052 Std.Error of estimate: 1,7519 N=78 Beta Std.Err. of Beta B Std.Err. of B t(76) p-level Intercept VYSKA 4,302817 4,248057 1,012891 0,314326 0,384097 0,105909 0,089155 0,024583 3,626669 0,000517 Analysis of Variance; DV: PID (data na zkousku.sta) Sums of Squares df Mean Squares F p-level Effect Regress. Residual 40,3666 1 40,36655 13,15273 0,000517 233,2488 76 3,06906 273,6154Total A analýza reziduí pro účely vyhodnocení splnění předpokladů observed value predicted value residual z(predicted value) z(rezidual) min 15,00000 18,38928 -5,35068 -1,79966 -3,05426 max 24,50000 21,77716 4,54087 2,87945 2,59201 mean 19,69231 19,69231 0,00000 0,00000 0,00000 median 20,00000 19,50371 0,09509 -0,26048 0,05428 sd 1,885059 0,724045 1,740461 1 0,993485 Distribution of Raw residuals Expected Normal -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 0 2 4 6 8 10 12 14 16 18 20 22 24 Noofobs Predicted vs. Residual Scores Dependent variable: PID 18,0 18,5 19,0 19,5 20,0 20,5 21,0 21,5 22,0 Predicted Values -6 -4 -2 0 2 4 6 Residuals 95% confidence Observed Values vs. Residuals Dependent variable: PID 14 16 18 20 22 24 26 Observed Values -6 -4 -2 0 2 4 6 Residuals 95% confidence Standard Residual: PID (data na zkousku.sta) Outliers Standard Residuals Case name -5. -4. -3. 2. 3. 4. Observed Value Predicted Value Residual Standard Pred. v. Standard Residual Std.Err. Pred.Val 502,000000 . . * . . . 513,000000 . . .* . . . 121,000000 . . . *. . . 305,000000 . . . . * . . Minimum . . * . . . Maximum . . . . * . . Mean . . . .* . . Median . . . * . . . 15,00000 20,35068 -5,35068 0,909300 -3,05426 0,268891 15,00000 19,90491 -4,90491 0,293628 -2,79981 0,206842 16,00000 20,08322 -4,08322 0,539897 -2,33077 0,225755 24,00000 19,45913 4,54087 -0,322044 2,59200 0,208520 15,00000 19,45913 -5,35068 -0,322044 -3,05426 0,206842 24,00000 20,35068 4,54087 0,909300 2,59200 0,268891 17,50000 19,94949 -2,44949 0,355195 -1,39821 0,227502 15,50000 19,99406 -4,49406 0,416762 -2,56529 0,217137