PSY117
Statistická analýza dat v psychologii
Přednáška 6 - 2017
Vztahy mezi dvěma proměnnými II
Statistická predikce - lineární regrese
The only useful action for a statistician is to make predictions, and thus to provide basis for
action.
William Edwards Deming

Statistická predikce
oJaký výsledek v inteligenčním testu lze nejspíše očekávat od náhodně přišedšího, víme-li, že test
má přibližně normální rozložení s průměrem 100 a směrodatnou odchylkou 15 ?
oJaká informace by nám pomohla zpřesnit náš odhad?
ndélka vlasů:  l = 31 cm
nvzdělání:  vysokoškolské
nvýsledek v testu paměti:  z = 1,6
nvýsledek v jiném inteligenčním testu:  IQ = 108
o
o
oStatistická predikce je předpovídání (kvalifikované odhadování) nejpravděpodobnější hodnoty
proměnné z údajů, které již známe, a to pomocí modelu vztahu mezi predikovanou proměnnou a jejími
koreláty.
o
o
oAJ: statistical prediction, estimate, predicted value

Dvě základní otázky predikce
1.Jakou hodnotu predikovat?
nStanovení modelu
ovýběr z mnoha „šablon“
ostanovení parametrů modelu
nPoužití modelu k predikci
2.S jakou přesností predikujeme?
nChyby ve volbě modelu
nChyby ve stanovení parametrů modelu
nChyby implikované modelem
1.

1. Stanovení modelu
o


Predikce délky prostředníčku z ukazováčku


K predikci je třeba funkce
ofce = jak ze známé hodnoty X  vypočítat tu neznámou Y :   Y = f (X )
nrůzné fce: - stanovené výčtem
§  - trigonometrické, exponenciální a logaritmické ...
n - polynomické:   lineární:  Y = bX +a  (rovná čára … Pearsonova r)
§            kvadratické: Y = cX 2+bX +a (jedna zatáčka)
oVe statistice...
otuto funkci odhadujeme (modelujeme)
nJak dobře dokážeme vyjádřit (=predikovat) Y  pomocí  X a funkce f ?
oříkáme výsledku výpočtu odhad (Y ’) a stanovení té funkce říkáme regrese
oregrese Y na X :      Y = Y ’ + e = f (X ) + e       ,kde  e = Y –Y ’
ne  je reziduální hodnota (reziduum), Y  je závislá p., X  je prediktor (nezáv.)
ne  představuje všechny ostatní zdroje variability vyjma X
§
oAJ:  function, polynomial, linear, quadratic, estimation, modelling, estimate n., regression,
residual n., predictor, sources of variability(variance), dependent and independent variable
•

o


Lineární regrese I. – odhad přímou úměrou
oJe-li Pearsonova korelace dobrým popisem vztahu mezi dvěma proměnnými, lze popsat vztah mezi nimi
lineární funkcí
oY ’ = a +bX
nb ... směrnice
na ... průsečík
o(Y’ – my)= b(X – mx )
oY = Y’ + e = a + bX + e
o
o
oNejlepší přímka?
o
o
o
o
oAJ: slope, intercept, least squares (estimation), regression coefficents (a,b)

Stanovení parametrů modelu
o
o


Jak stanovit „nejlepší přímku“?
oVíce možných kritérií
oKritérium nejmenších čtverců
nSnažíme se minimalizovat sumu čtverců reziduí


Řešení metodou nejmenších čtverců
oY ’ = a +bX :odhad metodou nejmenších čtverců
o         b = rxy(sy/sx)
o         a = my – bmx
oJsou-li X a Y vyjádřeny v z-skórech, pak b = rxy
oPřímka prochází mx a my
oPrůměr Y a Y’ je stejný
oSoučet reziduí je nulový, součet reziduí umocněných na druhou nejmenší možný
o

mP=7,109
sP=0,843
mU=6,983
sU=0,658
rPU=0,917
               P’ = 1,176U  – 1,100
(P’ – 7,109) = 1,176(U – 6,983)

Použití modelu
o


Predikované hodnoty
U
P
P'
6,5
6,4
6,5413
7
7
7,1291
7,5
7,5
7,7169
5,2
4,8
5,0130
6,6
6,7
6,6589
6,6
6,8
6,6589
7
7
7,1291
6,8
?

Rozložení predikovaných hodnot
mP’= 7,109 = mP
sP’  = 0,773

S jakou přesností predikujeme?
o


Lineární regrese II. – úspěšnost predikce
oJak dobré jsou takto predikované hodnoty?
oDobré ≈ přesné ≈ s co nejmenšími rezidui
nOdhad metodou nejmenších čtverců
oJak velká jsou rezidua?
o
o
U
P
P'
e = (P-P')
6,5
6,4
6,5413
-0,1413
7
7
7,1291
-0,1291
7,5
7,5
7,7169
-0,2169
5,2
4,8
5,0130
-0,2130
6,6
6,7
6,6589
0,0411
6,6
6,8
6,6589
0,1411
7
7
7,1291
-0,1291

Rozložení reziduí
o
me= 0
se   = 0,337

Přesnost predikce
ose  vyjadřuje míru chyby při individuální predikci způsobenou nedokonalou těsností lineárního
vztahu
nvzhledem k normálnímu rozložení reziduí je pravděpodobnost určitých intervalů reziduí dána
kvantily normálního rozložení (standardizovaného se)
nNapř. 68% rezidují délky prsteníčků <|0,337| neboli pravděpodobnost, že se při odhadu délky
prsteníčku mýlíme o 0,337 a méně je přibližně 68%
n
oZatím nezohledňujeme nejistotu predikce způsobenou tím, že jsme parametry regresní přímky pouze
odhadovali z (malého) vzorku
oTaké nezohledňujeme to, že chyby odhadu jsou v extrémech X vyšší než okolo průměru
X                                   (viz Hendl, s. 285 s chybou)
o

Rozložení predikovaných hodnot a reziduí
omP=7,109
osP=0,843
o
omP’= 7,109 = mP  me= 0
osP’  = 0,773 se   = 0,337
o
n
o
o
+

Rozložení predikovaných hodnot a reziduí
omP=7,109
os2P=0,711
o
omP’= 7,109 = mP  me= 0
os2P’  = 0,598 s2e   = 0,113
o
n
o
o
+

Lineární regrese II. – úspěšnost predikce
osy2 = sreg2 + sres2      (ssy=ssres+ssreg)
o
oR2 = sreg2 / sy2    …   sres2= sy2(1−R2)
o
oKoeficient determinace (R2)
nPodíl vysvětleného rozptylu
nJe ukazatelem kvality, úspěšnosti regrese
nVyjadřuje shodu modelu s daty
oPro jednoduchou lin. regr. platí R 2 = r 2
o
oAJ: regression and residual variance (sum of squares), explained variance, model fit with the
data, coefficient of determination (R square)
oPozn. Zde uvedené vzorce jsou pro s2res. Pro populační parametr,tj. nejlepší odhad z výběrových
dat s2res počítáme ssres/ (n-2).
o
regrese2

Zde uvedené vzorce jsou pro populační sres. Pro výběrovou sres dělíme (n-2), popř,. korigujeme
s2res (n-1)/(n-2) – píše Grimm.  Na úrovni SS toto neřešíme.

Chyby při volbě modelu
o
o

Lineární regrese III. – předpoklady, platnost
oPředpoklady oprávněnosti použití lineárně-regresního modelu
ojako u Pearsonovy korelace
okonceptuální předpoklady:
nvztah je ve skutečnosti lineární
nX je jediným zdrojem Y
orezidua mají normální rozložení
o s průměrem 0 a SD=sres
ohomoskedascita
n=rozptyl reziduí (chyb odhadu)
n se s rostoucím X nemění
o
o
oPlatnost modelu je omezena daty, z nichž byl získán, a teorií.
nExtrapolace, neoprávněná extrapolace (»jako generalizace nad rámec empirických dat)
nPozor na odlehlé hodnoty – jako u všech ostatních momentových statistik
n
oAJ: assumptions of the linear regression model, residuals normally distributed, homoscedascity,
regrese4

Dvě základní otázky predikce
1.Jakou hodnotu predikovat?
nStanovení modelu
ovýběr z mnoha „šablon“ – lineární regrese
ostanovení parametrů modelu – výpočet hodnot
nPoužití modelu k predikci – dosazení do rovnice
2.S jakou přesností predikujeme?
nChyby ve volbě modelu – linearita, homoskedascita
nChyby ve stanovení par. – outlieři, výběrová chyba
nChyby implikované modelem – chyba odhadu sres
1.

Použití (lineární) regrese
oProzkoumání (lineárního) vztahu mezi proměnnými (místo korelace)
nanalyticko-konceptuální využití
nstředem zájmu je b
n
oPredikce
npraktické využití
nstředem zájmu je odhad a jeho chyba

Predikce Y pro nového jedince
oDosazením do regresní rovnice získáme odhad Y’
oJak přesný?
nRezidua (=chyby odhadu) mají podle předpokladů LR normální rozložení s m=0 a s=sres
n95% chyb odhadu se tak bude přibližně mezi −2sres a +2sres
oPřesněji, jak přesný?
nsres je „průměrná“ chyba. Čím dále je X od průměru, tím jsou chyby větší.
nParametry regrese (a a b) stanovujeme s chybou. Ta závisí hlavně na N.
nPak                                          a rozložení chyb je t s N-2 st.v.
n
n
o

Další druhy regrese
oZde je prezentovaná pouze jednoduchá lineární regrese, tj. s jednou závislou a jednou nezávislou
proměnnou. Potřeb a možností je více.
omnohočetná (mnohonásobná) lineární regrese
nY = a +b1X1 + b2X2 + … + bmXm
nkomplikují ji vztahy mezi prediktory
ologistická regrese
npokud je závislá dichotomie, nominální proměnná
npredikuje se tak pravděpodobnost jednotlivých hodnot závislé
o
oNení-li vztah lineární
nsnažíme se transformovat proměnné tak, aby byl lineární.
ndělíme vzorek na podskupiny, v nichž vztah za lineární považovat lze
n… opatrně zvážíme, zda se pustit do nelineární regrese
n
n
oAJ: multiple regression, logistic regression, nonlinear regression

Shrnutí
oPro praktické účely (predikce/odhad) je korelace málo, je třeba uvažovat o funkčním vztahu mezi
proměnnými.
oVztah můžeme znát analyticky nebo ho zkoušet modelovat.
oLineární regrese je model lineár. vztahu mezi proměnnými.
oModel se vždy liší od skutečných dat
ndíky zjednodušení
ndíky chybě měření
oMíra shody modelu s daty je ukazatelem vhodnosti modelu.
nU lineární regrese R 2 – podíl vysvětleného rozptylu
o
oHendl: kapitoly 7.3 – 7.3.2, 7.3.6, 7.4