PSY117 Statistická analýza dat v psychologii Přednáška 6 - 2016 Vztahy mezi dvěma proměnnými II Statistická predikce - lineární regrese The only useful action for a statistician is to make predictions, and thus to provide basis for action. William Edwards Deming Statistická predikce oJaký výsledek v inteligenčním testu lze nejspíše očekávat od náhodně přišedšího, víme-li, že test má přibližně normální rozložení s průměrem 100 a směrodatnou odchylkou 15 ? oJaká informace by nám pomohla zpřesnit náš odhad? ndélka vlasů: l = 31 cm nvzdělání: vysokoškolské nvýsledek v testu paměti: z = 1,6 nvýsledek v jiném inteligenčním testu: IQ = 108 o o oStatistická predikce je předpovídání (kvalifikované odhadování) nejpravděpodobnější hodnoty proměnné z údajů, které již známe, a to pomocí modelu vztahu mezi predikovanou proměnnou a jejími koreláty. o o oAJ: statistical prediction, estimate, predicted value Predikce délky prostředníčku z ukazováčku K predikci je třeba funkce ofce = jak ze známé hodnoty X vypočítat tu neznámou Y : Y = f (X ) nrůzné fce: - stanovené výčtem § - trigonometrické, exponenciální a logaritmické ... n - polynomické: lineární: Y = bX +a (rovná čára … Pearsonova r) § kvadratické: Y = cX 2+bX +a (jedna zatáčka) oVe statistice... otuto funkci odhadujeme (modelujeme) nJak dobře dokážeme vyjádřit (=predikovat) Y pomocí X a funkce f ? oříkáme výsledku výpočtu odhad (Y ’) a stanovení té funkce říkáme regrese oregrese Y na X : Y = Y ’ + e = f (X ) + e ,kde e = Y –Y ’ ne je reziduální hodnota (reziduum), Y je závislá p., X je prediktor (nezáv.) ne představuje všechny ostatní zdroje variability vyjma X § oAJ: function, polynomial, linear, quadratic, estimation, modelling, estimate n., regression, residual n., predictor, sources of variability(variance), dependent and independent variable o Lineární regrese I. – odhad přímou úměrou oJe-li Pearsonova korelace dobrým popisem vztahu mezi dvěma proměnnými, lze popsat vztah mezi nimi lineární funkcí oY ’ = a +bX nb ... směrnice na ... průsečík o(Y’ – my)= b(X – mx ) oY = Y’ + e = a + bX + e o oNejlepší přímka? oOdhad metodou nejmenších čtverců o b = rxy(sy/sx) o a = my – bmx oJsou-li X a Y vyjádřeny v z-skórech, pak b = rxy o oAJ: slope, intercept, least squares (estimation), regression coefficents (a,b) Jak stanovit „nejlepší přímku“? oVíce možných kritérií oKritérium nejmenších čtverců nSnažíme se minimalizovat sumu čtverců reziduí Řešení metodou nejmenších čtverců oY ’ = a +bX :odhad metodou nejmenších čtverců o b = rxy(sy/sx) o a = my – bmx oJsou-li X a Y vyjádřeny v z-skórech, pak b = rxy oPřímka prochází mx a my oPrůměr Y a Y’ je stejný oSoučet reziduí je nulový, součet reziduí umocněných na druhou nejmenší možný o mP=7,109 sP=0,843 mU=6,983 sU=0,658 rPU=0,917 P’ = 1,176U – 1,100 (P’ – 7,109) = 1,176(U – 6,983) Predikované hodnoty U P P' 6,5 6,4 6,5413 7 7 7,1291 7,5 7,5 7,7169 5,2 4,8 5,0130 6,6 6,7 6,6589 6,6 6,8 6,6589 7 7 7,1291 6,8 ? Rozložení predikovaných hodnot mP’= 7,109 = mP sP’ = 0,773 Lineární regrese II. – úspěšnost predikce oJak dobré jsou takto predikované hodnoty? oDobré ≈ přesné ≈ s co nejmenšími rezidui nOdhad metodou nejmenších čtverců oJak velká jsou rezidua? o o U P P' e = (P-P') 6,5 6,4 6,5413 -0,1413 7 7 7,1291 -0,1291 7,5 7,5 7,7169 -0,2169 5,2 4,8 5,0130 -0,2130 6,6 6,7 6,6589 0,0411 6,6 6,8 6,6589 0,1411 7 7 7,1291 -0,1291 Rozložení reziduí o me= 0 se = 0,337 Přesnost predikce ose vyjadřuje míru chyby při individuální predikci způsobenou nedokonalou těsností lineárního vztahu nvzhledem k normálnímu rozložení reziduí je pravděpodobnost určitých intervalů reziduí dána kvantily normálního rozložení (standardizovaného se) nNapř. 68% rezidují délky prsteníčků <|0,337| neboli pravděpodobnost, že se při odhadu délky prsteníčku mýlíme o 0,337 a méně je přibližně 68% n oZatím nezohledňujeme nejistotu predikce způsobenou tím, že jsme parametry regresní přímky pouze odhadovali z (malého) vzorku oTaké nezohledňujeme to, že chyby odhadu jsou v extrémech X vyšší než okolo průměru X (viz Hendl, s. 285 s chybou) o Rozložení predikovaných hodnot a reziduí omP=7,109 osP=0,843 o omP’= 7,109 = mP me= 0 osP’ = 0,773 se = 0,337 o n o o + Rozložení predikovaných hodnot a reziduí omP=7,109 os2P=0,711 o omP’= 7,109 = mP me= 0 os2P’ = 0,598 s2e = 0,113 o n o o + Lineární regrese II. – úspěšnost predikce osy2 = sreg2 + sres2 (ssy=ssres+ssreg) o oR2 = sreg2 / sy2 … sres2= sy2(1−R2) o oKoeficient determinace (R2) nPodíl vysvětleného rozptylu nJe ukazatelem kvality, úspěšnosti regrese nVyjadřuje shodu modelu s daty oPro jednoduchou lin. regr. platí R 2 = r 2 o oAJ: regression and residual variance (sum of squares), explained variance, model fit with the data, coefficient of determination (R square) oPozn. Zde uvedené vzorce jsou pro s2res. Pro populační parametr,tj. nejlepší odhad z výběrových dat s2res počítáme ssres/ (n-2). o regrese2 Zde uvedené vzorce jsou pro populační sres. Pro výběrovou sres dělíme (n-2), popř,. korigujeme s2res (n-1)/(n-2) – píše Grimm. Na úrovni SS toto neřešíme. Lineární regrese III. – předpoklady, platnost oPředpoklady oprávněnosti použití lineárně-regresního modelu ojako u Pearsonovy korelace okonceptuální předpoklady: nvztah je ve skutečnosti lineární nX je jediným zdrojem Y orezidua mají normální rozložení o s průměrem 0 a SD=sres ohomoskedascita n=rozptyl reziduí (chyb odhadu) n se s rostoucím X nemění o o oPlatnost modelu je omezena daty, z nichž byl získán, a teorií. nExtrapolace, neoprávněná extrapolace (»jako generalizace nad rámec empirických dat) nPozor na odlehlé hodnoty – jako u všech ostatních momentových statistik n oAJ: assumptions of the linear regression model, residuals normally distributed, homoscedascity, regrese4 Použití (lineární) regrese oProzkoumání (lineárního) vztahu mezi proměnnými (místo korelace) nanalyticko-konceptuální využití nstředem zájmu je b n oPredikce npraktické využití nstředem zájmu je odhad a jeho chyba Predikce Y pro nového jedince oDosazením do regresní rovnice získáme odhad Y’ oJak přesný? nRezidua (=chyby odhadu) mají podle předpokladů LR normální rozložení s m=0 a s=sres n95% chyb odhadu se tak bude přibližně mezi −2sres a +2sres oPřesněji, jak přesný? nsres je „průměrná“ chyba. Čím dále je X od průměru, tím jsou chyby větší. nParametry regrese (a a b) stanovujeme s chybou. Ta závisí hlavně na N. nPak a rozložení chyb je t s N-2 st.v. n n o Další druhy regrese oZde je prezentovaná pouze jednoduchá lineární regrese, tj. s jednou závislou a jednou nezávislou proměnnou. Potřeb a možností je více. omnohočetná (mnohonásobná) lineární regrese nY = a +b1X1 + b2X2 + … + bmXm nkomplikují ji vztahy mezi prediktory ologistická regrese npokud je závislá dichotomie, nominální proměnná npredikuje se tak pravděpodobnost jednotlivých hodnot závislé o oNení-li vztah lineární nsnažíme se transformovat proměnné tak, aby byl lineární. ndělíme vzorek na podskupiny, v nichž vztah za lineární považovat lze n… opatrně zvážíme, zda se pustit do nelineární regrese n n oAJ: multiple regression, logistic regression, nonlinear regression Shrnutí oPro praktické účely (predikce/odhad) je korelace málo, je třeba uvažovat o funkčním vztahu mezi proměnnými. oVztah můžeme znát analyticky nebo ho zkoušet modelovat. oLineární regrese je model lineár. vztahu mezi proměnnými. oModel se vždy liší od skutečných dat ndíky zjednodušení ndíky chybě měření oMíra shody modelu s daty je ukazatelem vhodnosti modelu. nU lineární regrese R 2 – podíl vysvětleného rozptylu o oHendl: kapitoly 7.3 – 7.3.2, 7.3.6, 7.4