PSY117/454 Statistická analýza dat v psychologii Přednáška 6 Vztahy mezi dvěma proměnnými III Statistická predikce, modelování Lineární regrese, parciální korelace The only useful action for a statistician is to make predictions, and thus to provide basis for action. William Edwards Deming Statistická predikce  Jaký výsledek v inteligenčním testu lze nejspíše očekávat od náhodně přišedšího, víme-li, že test má přibližně normální rozložení s průměrem 100 a směrodatnou odchylkou 15 ?  Jaká informace by nám pomohla zpřesnit náš odhad?  délka vlasů  vzdělání  výsledek v testu paměti  výsledek v jiném inteligenčním testu  Statistická predikce je předpovídání (kvalifikované odhadování) nejpravděpodobnější hodnoty proměnné z údajů, které již známe, a to pomocí modelu vztahu mezi predikovanou proměnnou a jejími koreláty. AJ: statistical prediction, estimate, predicted value Dhodobá adaptace sluchu hlasitost [%] výdrž [s] 25 5 31 9 55 20 42 13 47 18 53 17 40 15 35 10 28 10 Lidé, kteří poslouchají osobní přehrávač na vysokou hlasitost [% z maxima přehrávače], vydrží nepříjemný hlasitý zvuk déle? K predikci je třeba funkce  fce = jak ze známé hodnoty X vypočítat tu neznámou Y : Y = f (X )  různé fce: - stanovené výčtem - trigonometrické, exponnciální a logaritmické ... - polynomické: lineární: Y = bX +a (rovná čára) kvadratické: Y = cX 2+bX +a (jedna zatáčka) Ve statistice...  tuto funkci odhadujeme (modelujeme)  Jak dobře dokážeme vyjádřit (=predikovat) Y pomocí X a funkce f ?  říkáme výsledku výpočtu odhad (Y ’) a stanovení té funkce říkáme regrese  regrese Y na X : Y ’ = f (X ) + e ,kde e = Y –Y ’ (1)  e je reziduální hodnota (reziduum), Y je závislá p., X je prediktor (nezáv.)  e představuje všechny ostatní zdroje variability vyjma X AJ: function, polynomial, linear, quadratic, estimation, modelling, estimate n., regression, residual n., predictor, sources of variablity(variance), dependent and independent variable Lineární regrese I. - odhad Je-li Pearsonova korelace dobrým popisem vztahu mezi dvěma proměnnými, lze popsat vztah mezi nimi lineární funkcí Y ’ = a +bX b – směrnice a – průsečík Y = Y’ + e Y = a + bX + e Odhad metodou nejmenších čtverců b = rxy(sy/sx) a = my – bmx Jsou-li X a Y vyjádřeny v z-skórech, pak b = rxy AJ: slope, intercept, least squares (estimation), regression coefficents (a,b) Lineární regrese II. – příklad mh=39,6 sh = 10,7 mv=13,0 sv = 4,9 r = 0,95 výdrž’ = 0,43.hlasitost − 4,15 Predikované hodnoty a rezidua hlasitost [%] výdrž [s] výdrž’ [s] reziduum [s] 25 5 6,69 -1,69 31 9 9,29 -0,29 55 20 19,70 0,30 42 13 14,06 -1,06 47 18 16,23 1,77 53 17 18,83 -1,83 40 15 13,19 1,81 35 10 11,02 -1,02 28 10 7,99 2,01 Lineární regrese II. – příklad 160 170 180 190 výška 16 18 20 22 pid                   pid = 1,40 + 0,10 * výška R-Square = 0,23 mvýška=172,9 svýška = 9,14 mpíď=18,9 spíď = 2,14 Lineární regrese III. – úspěšnost predikce  sy 2 = sreg 2 + sres 2 (ssy=ssres+ssreg)  R 2 = sreg 2 / sy 2  Koeficient determinace (R 2)  Podíl vysvětleného rozptylu  Je ukazatelem kvality, úspěšnosti regrese  Vyjadřuje shodu modelu s daty  Pro jednoduchou lin. regr. platí R 2 = r 2 AJ: regression and residual variance (sum of squares), explained variance, model fit with the data, coefficient of determination (R square) 1 )( 2 2 − ′− = ∑ n Ym s y reg 1 )( 2 2 − ′− = ∑ n YY sres 1 )( 2 2 − − = ∑ n mY s y y Lineární regrese IV. – předpoklady, platnost Předpoklady oprávněnosti použití lineárně-regresního modelu  jako u Pearsonovy korelace  konceptuální předpoklad: vztah je ve skutečnosti lineární  rezidua mají normální rozložení s průměrem 0  homoskedascita  =rozptyl reziduí (chyb odhadu) se s rostoucím X nemění  Platnost modelu je omezena daty, z nichž byl získán, a teorií.  Extrapolace, neoprávněná extrapolace (≈jako generalizace nad rámec empirických dat)  Pozor na odlehlé hodnoty – jako u všech ostatních momentových statistik AJ: assumptions of the linear regression model, residuals normally distributed, homoscedascity, Další druhy regrese Zde je prezentovaná pouze jednoduchá lineární regrese, tj. s jednou závislou a jednou nezávislou proměnnou. Potřeb a možností je více.  mnohočetná (mnohonásobná) lineární regrese  Y = a +b1X1 + b2X2 + … + bmXm  komplikují ji vztahy mezi nezávislými proměnnými - prediktory  logistická regrese  pokud je závislá dichotomie, nominální proměnná  predikuje se tak pravděpodobnost jednotlivých hodnot závislé  Není-li vztah lineární  snažíme se transformovat proměnné tak, aby byl lineární.  dělíme vzorek na podskupiny, v nichž vztah za lineární považovat lze AJ: multiple regression, logistic regression, nonlinear regression Vztah mezi třemi proměnnými Parciální a semiparciální korelace Zjistili jsme, že účastníci našeho experimentu se nám opili. To nám vadí, protože opilost snižuje citlivost na podněty a zvyšuje obě naše proměnné. Bylo by možné zjistit korelaci mezi hlasitostí a výdrží, bez vlivu alkoholu? A H V 0,9? A H V Jak ale rozdělovat ty rozptyly? Regrese dělí proměnnou na sdílený rozptyl a reziduální rozptyl…. Parciální korelace rHV.A  Uděláme regresi výdrže na alkohol – reziduum výdrže bez alkoholu  Uděláme regresi hlasitosti na alkohol – reziduum hlasitosti bez alkoholu  Korelace dvou reziduí je PARCIÁLNÍ KORELACE Semiparciální korelace rV(H.A)  Korelace rezidua (V.A) se závislou proměnnou (H) 22. 11 VAHA VAHAHV AHV rr rrr r −− − = 2).( 1 VA VAHAHV AVH r rrr r − − = AJ: partial correlation, part (semi-partial) correlation Korelace mezi hlastiostí a výdrží , kontrolujeme-li statisticky* alkohol je… A H V hlasitost vydrz alkohol hlasitost 1,000 ,949** ,864** vydrz ,949** 1,000 ,902** alkohol ,864** ,902** 1,000 rHV.A = 0,78 * Též, „pokud by alkohol byl konstantní“ Shrnutí  Pro praktické účely (predikce/odhad) je korelace málo, je třeba uvažovat o funkčním vztahu mezi proměnnými.  Vztah můžeme znát analyticky nebo ho zkoušet modelovat.  Lineární regrese je model lineár. vztahu mezi proměnnými.  Model se vždy liší od skutečných dat  díky zjednodušení  díky chybě měření  Míra shody modelu s daty je ukazatelem vhodnosti modelu.  U lineární regrese R 2 – podíl vysvětleného rozptylu  Vliv nežádoucích třetích proměnných lze někdy eliminovat použitím parciální nebo semiparciální korelace.  Hendl: kapitoly 7.3 – 7.3.2, 7.3.6, 7.4