Jednoduchá lineární regrese
Motivace: Cíl regresní analýzy - popsat závislost hodnot veličiny Y na hodnotách veličiny X.
Nutnost vyřešení dvou problémů:
a) jaký typ funkce se použije k popisu dané závislosti;
b) jak se stanoví konkrétní parametry daného typu funkce?
ad a) Při určení typu funkce je třeba provést teoretický rozbor zkoumané závislosti. Teoretická analýza může upozornit například na
to, že
s růstem hodnot veličiny X budou mít hodnoty veličiny Y tendenci monotónně růst či klesat,
tato tendence má charakter zrychlujícího se či zpomalujícího se růstu či poklesu,
jde o závislost, kdy s růstem hodnot veličiny X dochází zpočátku k růstu hodnot veličiny Y, který je po dosažení určitého maxima
vystřídán poklesem,
apod.
Můžeme např. zkoumat závislost ceny ojetého auta (veličina Y) na jeho stáří (veličina X). Je zřejmé, že s rostoucím stářím bude klesat
cena, ale není jasné, zda lineárně, kvadraticky či dokonce exponenciálně.
Vždy se snažíme o to aby regresní model byl jednoduchý, tj. aby neobsahoval příliš mnoho parametrů. Připadá-li v úvahu více funkcí,
posuzujeme jejich vhodnost pomocí různých kritérií – viz dále.
Často však nemáme dostatek informací k provedení teoretického rozboru. Pak se snažíme odhadnout typ funkce pomocí dvourozměrného
tečkového diagramu.
Zde se omezíme na funkce, které závisejí lineárně na parametrech p10 ,,, βββ K .
ad b) Odhady p10 b,,b,b K neznámých parametrů p10 ,,, βββ K získáme na základě dvourozměrného datového souboru










nn
11
yx
yx
KK metodou
nejmenších čtverců, tj. z podmínky, aby součet čtverců odchylek zjištěných a odhadnutých hodnot byl minimální.
Osnova:
- specifikace klasického modelu lineární regrese a jeho maticový zápis
- intervaly spolehlivosti pro regresní parametry
- celkový F-test
- dílčí t-testy
- kritéria pro posouzení vhodnosti zvolené regresní funkce
- detailní rozbor modelu regresní přímky
Specifikace klasického modelu lineární regrese
( ) ε+βββ= p10 ,,,;xmY K , kde
( )p10 ,,,;xm βββ K - teoretická regresní funkce, která lineárně závisí na neznámých regresních parametrech p10 ,,, βββ K a
známých funkcích ( ) ( )xf,,xf p1 K , které již neobsahují neznámé parametry, tj. ( ) ( )∑=
β=βββ
p
0j
jjp10 xf,,,;xm K , přičemž ( ) 1xf0 ≡ .
Jde o deterministickou složku modelu.
Složka ε - náhodná složka modelu. Je to náhodná odchylka od deterministické závislosti Y na X. Popisuje závislost
vysvětlované proměnné na neznámých nebo nepozorovaných proměnných a popisuje i vliv náhody. Nelze ji funkčně
vyjádřit.
Veličina Y - závisle proměnná (též vysvětlovaná) veličina.
Veličina X - nezávisle proměnná (též vysvětlující) veličina.
Pořídíme n dvojic pozorování ( ) ( )nn11 y,x,,y,x K , tj. dvourozměrný datový soubor










nn
11
yx
yx
KK .
Pro i = 1, ..., n platí: ( ) ip10ii ,,,;xmy ε+βββ= K .
O náhodných odchylkách n1 ,, εε K předpokládáme, že
a) ( ) 0E i =ε (odchylky nejsou systematické)
b) ( ) 0D 2
i >σ=ε (všechna pozorování jsou prováděna s touž přesností)
c) ( ) 0,C ji =εε pro ji ≠ (mezi náhodnými odchylkami neexistuje žádný lineární vztah)
d) iε ~ ( )2
,0N σ .
V tomto případě hovoříme o klasickém modelu lineární regrese.
Označení
p10 b,,b,b K - odhady regresních parametrů p10 ,,, βββ K (nejčastěji je získáme metodou nejmenších čtverců, tj. z podmínky, že
výraz
( )
2
n
1i
p
0j
ijji xfy∑ ∑= =








β− nabývá svého minima pro βj = bj, j = 0, 1, …, p)
( )p0 b,,b;xmˆ K - empirická regresní funkce
( ) ( )∑=
==
p
0j
ijjp0ii xfbb,,b;xmˆyˆ K - regresní odhad i-té hodnoty veličiny Y (i-tá predikovaná hodnota veličiny Y)
iii yˆye −= - i-té reziduum
( )∑=
−=
n
1i
2
iiE yˆyS - reziduální součet čtverců
1pn
S
s E2
−−
= - odhad rozptylu σ2
( )∑=
−=
n
1i
2
2iR myˆS - regresní součet čtverců ( ∑=
=
n
1i
i2 y
n
1
m )
( )∑=
−=
n
1i
2
2iT myS - celkový součet čtverců ( ERT SSS += )
Význam jednotlivých typů součtů čtverců
Předpokládejme, že máme dvourozměrný datový soubor, v němž průměr hodnot závisle proměnné veličiny Y je 9 a
závislost veličiny Y na veličině X je popsána regresní přímkou y = 2x + 3. Dvourozměrný tečkový diagram obsahuje bod o
souřadnicích (5, 19), který pochází z datového souboru. Na regresní přímce leží bod o souřadnicích (5, 13).
Odchylka zjištěné hodnoty 19 od průměru 9 je v obrázku označena „Total deviation“ a po umocnění je to jedna ze složek
celkového součtu čtverců ST, tj. složka 2i my − .
Odchylka zjištěné hodnoty 19 od hodnoty 13 na regresní přímce je v obrázku označena „Unexplained deviation“ a po
umocnění je to jedna ze složek reziduálního součtu čtverců SE, tj. složka ii yˆy − .
Odchylka hodnoty 13 na regresní přímce od průměru 9 je v obrázku označena „Explained deviation“ a po umocnění je to
jedna ze složek regresního součtu čtverců SR, tj. složka 2i myˆ − .
Maticový zápis klasického modelu lineární regrese
εXβy += , kde
( )'
n1 y,,y K=y - vektor pozorování závisle proměnné veličiny Y,
( ) ( )
( ) ( )









=
npn1
1p11
xfxf1
xfxf1
K
KKKK
K
X - regresní matice
(předpokládáme, že h(X) = p+1 < n)
ββββ ( )'
p10 ,,, βββ= K - vektor regresních parametrů,
εεεε ( )'
n1 ,, εε K= - vektor náhodných odchylek.
Podmínky (a) až (d) lze zkráceně zapsat ve tvaru εεεε ~ Nn(0, σ2
I).
Maticově zapsaná metoda nejmenších čtverců vede na rovnice
X’Xβ = X’y - systém normálních rovnic
b = (X’X)-1
X’ y – odhad vektoru β získaný metodou nejmenších čtverců
yˆ = Xb – vektor regresních odhadů (vektor predikce)
e = y - yˆ - vektor reziduí
Vlastnosti odhadu b:
- odhad b je lineární, neboť je vytvořen lineární kombinací pozorování y1, …, yn s maticí vah ( ) '1'
XXX
−
;
- odhad b je nestranný, neboť E(b) = β;
- odhad b má varianční matici var b = σ2
(X'X)
-1
;
- odhad b ~ Np+1(β, σ2
(X'X)-1) vzhledem k platnosti podmínky (d);
- pro odhad b platí Gaussova - Markovova věta: Odhad b = (X'X)
-1
X'y je nejlepší nestranný lineární odhad vektoru β.
Příklad
Sestrojte regresní matici X pro lineární regresní model
a) ii10i xy ε+β+β= , provedeme-li 4 měření,
b) i2i3
2
1i21i10i xlnxxy ε+β+β+β+β= , provedeme-li 5 měření.
Řešení:
ad a)














=
4
3
2
1
x1
x1
x1
x1
X , ad b)
















=
52
2
5151
42
2
4141
32
2
3131
22
2
2121
12
2
1111
xlnxx1
xlnxx1
xlnxx1
xlnxx1
xlnxx1
X
Intervaly spolehlivosti pro regresní parametry
jjb vss j
= - směrodatná chyba odhadu bj, kde vjj je j-tý diagonální prvek matice (X'X)-1
.
Pro j = 0, 1, ..., p statistika
jb
jj
j
s
b
T
β−
= ~ ( )1pnt −− , tedy 100(1- α)% interval spolehlivosti pro βj má meze:
( ) jb2/1j s1pntb −−± α− .
(S intervaly spolehlivosti souvisí relativní chyby odhadů regresních parametrů. Získají se tak, že se vypočítá absolutní
hodnota podílu poloviční šířky intervalu spolehlivosti a hodnoty odhadu. Relativní chyba odhadu by neměla přesáhnout 10
%.)
Příklad:
V tabulce jsou výnosy technické cukrovky v tunách na ha od roku 2000 do roku 2007.
i rok cukrovka technická
1 2000 45,83
2 2001 45,41
3 2002 49,45
4 2003 45,20
5 2004 50,34
6 2005 53,31
7 2006 51,48
8 2007 53,25
Předpokládejte, že závislost výnosu cukrovky na roku lze vyjádřit regresní přímkou ε+β+β= xy 10 .
a) MNČ najděte odhady neznámých regresních parametrů β0, β1.
b) Sestrojte 95% intervaly spolehlivosti pro regresní parametry β0, β1.
c) Najděte relativní chyby odhadů regresních parametrů β0, β1.
Řešení:
Vytvoříme datový soubor se dvěma proměnnými rok, Y a osmi případy.
Získání odhadů b0, b1:
Statistiky – Vícerozměrná regrese – Závisle proměnná rok, nezávisle proměnné Y - OK – OK – Výpočet: Výsledky regrese.
Výsledky regrese se závislou proměnnou : Y (cukrovka_technicka.sta)
R= ,84604287 R2= ,71578853 Upravené R2= ,66841995
F(1,6)=15,111 p<,00810 Směrod. chyba odhadu : 1,9651
N=8
b* Sm.chyba
z b*
b Sm.chyba
z b
t(6) p-hodn.
Abs.člen
rok
-2312,22 607,4943 -3,80616 0,008903
0,846043 0,217643 1,18 0,3032 3,88729 0,008102
Výpočet mezí intervalu spolehlivosti a relativních chyb odhadů:
K výstupní tabulce přidáme tři nové proměnné DM, HM a chyba.
Do Dlouhého jméne proměnné DM napíšeme
=v3-v4*VStudent(0,975;6)
Do Dlouhého jméne proměnné HM napíšeme
=v3+v4*VStudent(0,975;6)
Do Dlouhého jména proměnné chyba napíšeme
=100*abs(0,5*(v8-v7)/v3)
Výsledky regrese se závislou proměnnou : Y (cukrovka_technicka.sta)
R= ,84604287 R2= ,71578853 Upravené R2= ,66841995
F(1,6)=15,111 p<,00810 Směrod. chyba odhadu : 1,9651
N=8
b* Sm.chyba
z b*
b Sm.chyba
z b
t(6) p-hodn. DM
=v3-v4*V
HM
=v3+v4*V
chyba
=100*abs
Abs.člen
rok
-2312,22 607,4943 -3,80616 0,008903 -3798,71 -825,738 64,28814
0,846043 0,217643 1,18 0,3032 3,88729 0,008102 0,436747 1,920634 62,94643
S pravděpodobností 95% se bude úsek β0 regresní přímky nacházet v intervalu (-3798,71; -825,738). Odhad b0 úseku β0 je zatížen relativní chybou
64,3%.
S pravděpodobností 95% se bude směrnice β1 regresní přímky nacházet v intervalu (-3798,71; -825,738). Odhad b1 úseku β1 je zatížen relativní
chybou 62,9%.
Testování významnosti modelu jako celku (celkový F-test)
Na hladině významnosti α testujeme
H0: ( ) ( )′
=
′
ββ 0,,0,, p1 KK proti H1: ( ) ( )′
≠
′
ββ 0,,0,, p1 KK .
(Nulová hypotéza říká, že dostačující je model konstanty.)
Testová statistika:
( )1pnS
pS
F
E
R
−−
= má rozložení F(p, n-p-1), pokud H0 platí.
Kritický obor: ( ) )∞−−= α− ,1pn,pFW 1 .
⇒∈ WF H0 zamítáme na hladině významnosti α.
Výsledky F-testu zapisujeme do tabulky analýzy rozptylu:
zdroj variability součet čtverců stupně volnosti podíl statistika F
model SR p SR/p
( )1pnS
pS
E
R
−−
reziduální SE n-p-1 SE/(n-p-1) celkový
ST n-1 - -
Příklad:
Majitelé prodejny počítačových her nechali své prodavače absolvovat kurz prodejních dovedností. Poté zjišťovali po dobu
20 dnů, kolik osob navštíví během otevírací doby prodejnu (proměnná X) a jaká je v tento den tržba (proměnná Y, udává se
v tisících Kč a je zaokrouhlená).
i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
xi 20 21 2 27 28 29 30 31 32 34 35 37 38 39 42 44 48 49 51 54
yi 5 6 7 7 8 9 10 11 12 13 13 14 14 15 16 15 15 14 13 13
Dvourozměrný tečkový diagram
15 20 25 30 35 40 45 50 55 60
x
4
6
8
10
12
14
16
18
y
Z grafu závislosti Y na X vyplývá, že s rostoucím počtem zákazníků se tržby zvyšují, avšak při denním počtu zákazníků asi
42 dosahují svého maxima a pak už zase klesají (vyšší počet zákazníků obsluha prodejny nezvládá a zákazníci odcházejí,
aniž by nakoupili). Zdá se tedy, že vhodným modelem závislosti tržeb na počtu zákazníků bude regresní parabola
ε+β+β+β= 2
210 xxy .
Odhadněte parametry regresního modelu a proveďte celkový F-test.
Řešení:
Vytvoříme nový datový soubor se třemi proměnnými X, Xkv, Y a o 20 případech. Do proměnných X a Y napíšeme zjištěné
hodnoty a do Dlouhého jména proměnné Xkv napíšeme = X^2.
Získání odhadů b0, b1, b2:
Statistiky – Vícerozměrná regrese – Závisle proměnná rok, nezávisle proměnné Y - OK – OK – Výpočet: Výsledky regrese.
Výsledky regrese se závislou proměnnou : y (prodejna_software.sta)
R= ,95519276 R2= ,91239322 Upravené R2= ,90208653
F(2,17)=88,524 p<,00000 Směrod. chyba odhadu : 1,0623
N=20
b* Sm.chyba
z b*
b Sm.chyba
z b
t(17) p-hodn.
Abs.člen
x
xkv
-20,7723 3,373256 -6,15792 0,000011
4,52641 0,548220 1,5651 0,189559 8,25655 0,000000
-3,73838 0,548220 -0,0173 0,002535 -6,81912 0,000003
Regresní parabola má tedy tvar: y = -20,7723 + 1,5651x - 0,0173x2
.
Výsledky celkového F-testu jsou uvedeny v záhlaví výstupní tabulky. Testová statistika F nabývá hodnoty 88,524, odpovídající
p-hodnota je blízká 0, tedy na hladině významnosti 0,05 zamítáme hypotézu, že dostačující je model konstanty.
Podrobnější výsledky získáme v tabulce analýzy rozptylu:
Aktivujeme Výsledky–vícenásobná regrese – Detailní výsledky – ANOVA
Analýza rozptylu (prodejna_software.sta)
Efekt
Součet
čtverců
sv Průměr
čtverců
F p-hodn.
Regres.
Rezid.
Celk.
199,8141 2 99,90706 88,52445 0,000000
19,1859 17 1,12858
219,0000
Testování významnosti regresních parametrů (dílčí t-testy)
Na hladině významnosti α pro j = 0,1, ..., p testujeme hypotézu
H0: βj = 0 proti H1: βj ≠ 0.
Testová statistika:
jb
j
j
s
b
T = má rozložení t(n-p-1), pokud H0 platí.
Kritický obor: ( ) ( ) )( ∞−−∪−−−∞−= α−α− ,1pnt1pnt,W 2/12/1 .
⇒∈ WTj H0 zamítáme na hladině významnosti α.
Příklad:
V předešlém příkladě, kde byla modelována závislost tržby na počtu zákazníků regresní parabolou, proveďte dílčí t-testy o
nevýznamnosti jednotlivých regresních parametrů
Řešení:
Stačí interpretovat výstupní tabulku vícenásobné regrese:
Výsledky regrese se závislou proměnnou : y (prodejna_software.sta)
R= ,95519276 R2= ,91239322 Upravené R2= ,90208653
F(2,17)=88,524 p<,00000 Směrod. chyba odhadu : 1,0623
N=20
b* Sm.chyba
z b*
b Sm.chyba
z b
t(17) p-hodn.
Abs.člen
x
xkv
-20,7723 3,373256 -6,15792 0,000011
4,52641 0,548220 1,5651 0,189559 8,25655 0,000000
-3,73838 0,548220 -0,0173 0,002535 -6,81912 0,000003
Sloupec označený t(17) obsahuje realizace testových statistik a sloupec p-hodn. pak odpovídající p-hodnoty. Ve všech třech
případech jsou p-hodnoty menší než 0,05, tedy na hladině významnosti 0,05 zamítáme hypotézy o nevýznamnosti regresních
parametrů β0, β1, β2.
Kritéria pro posouzení vhodnosti zvolené regresní funkce
a) Index determinace
T
E
T
R2
S
S
1
S
S
ID −== - index determinace ( 1ID0 2
≤≤ )
• udává, jakou část variability závisle proměnné veličiny Y lze vysvětlit zvolenou regresní funkcí (často se udává v %);
• je zároveň mírou těsnosti závislosti proměnné Y na proměnné X;
• je to obecná míra, nezávislá na typu regresní funkce (lze použít i pro měření nelineární závislosti);
• je to míra, která nebere v úvahu počet parametrů regresní funkce. U regresních funkcí s více parametry vychází tedy
obvykle vyšší než u regresních funkcí s méně parametry;
• tato míra není symetrická.
Za vhodnější se považuje ta regresní funkce, pro niž je index determinace vyšší. V případě, že porovnáváme několik modelů
s rozdílným počtem parametrů, používáme adjustovaný index determinace:
( )
1pn
pID1
IDID
2
22
adj
−−
−
−= - adjustovaný index determinace
V příkladu s prodejem software najdeme index determinace ve výstupní tabulce regrese:
Výsledky regrese se závislou proměnnou : y (prodejna_software.sta)
R= ,95519276 R2= ,91239322 Upravené R2= ,90208653
F(2,17)=88,524 p<,00000 Směrod. chyba odhadu : 1,0623
N=20
b* Sm.chyba
z b*
b Sm.chyba
z b
t(17) p-hodn.
Abs.člen
x
xkv
-20,7723 3,373256 -6,15792 0,000011
4,52641 0,548220 1,5651 0,189559 8,25655 0,000000
-3,73838 0,548220 -0,0173 0,002535 -6,81912 0,000003
Index determinace je zde označen jako R2, nabývá hodnoty 0,9124 a říká nám, že 91,24% variability tržeb je vysvětleno
regresní parabolou. Adjustovaný index determinace je označen Upravené R2.
b) Testové kritérium F
Za vhodnější je považována ta regresní funkce, u níž je hodnota testové statistiky
( )1pnS
pS
F
E
R
−−
= pro test významnosti
modelu jako celku vyšší.
Ve výstupní tabulce regrese je testová statistika F uvedena v záhlaví:
Výsledky regrese se závislou proměnnou : y (prodejna_software.sta)
R= ,95519276 R2= ,91239322 Upravené R2= ,90208653
F(2,17)=88,524 p<,00000 Směrod. chyba odhadu : 1,0623
N=20
b* Sm.chyba
z b*
b Sm.chyba
z b
t(17) p-hodn.
Abs.člen
x
xkv
-20,7723 3,373256 -6,15792 0,000011
4,52641 0,548220 1,5651 0,189559 8,25655 0,000000
-3,73838 0,548220 -0,0173 0,002535 -6,81912 0,000003
V našem příkladě je označena F(2,17) a nabývá hodnoty 88,524.
c) Reziduální součet čtverců a reziduální rozptyl
Reziduální součet čtverců: ( )∑=
−=
n
1i
2
iiE yˆyS
Za vhodnější považujeme funkci, která má reziduální součet čtverců nižší. Reziduální součet čtverců lze použít pouze tehdy,
když srovnáváme funkce se stejným počtem parametrů.
Reziduální rozptyl:
1pn
S
s E2
−−
=
Za vhodnější považujeme tu funkci, která má reziduální rozptyl nižší. Reziduální rozptyl můžeme použít vždy, bez ohledu
na to, kolik parametrů mají srovnávané regresní funkce.
Obě charakteristiky najdeme v tabulce ANOVA:
Analýza rozptylu (prodejna_software.sta)
Efekt
Součet
čtverců
sv Průměr
čtverců
F p-hodn.
Regres.
Rezid.
Celk.
199,8141 2 99,90706 88,52445 0,000000
19,1859 17 1,12858
219,0000
Reziduální součet čtverců je 19,1859 a reziduální rozptyl je 1,12858.
d) Střední absolutní procentuální chyba predikce (MAPE)
∑=
−
=
n
1i i
ii
y
yˆy
n
1
MAPE
Za vhodnější považujeme tu funkci, která má MAPE nižší.
Systém STATISTICA MAPE neposkytuje, tuto chybu musíme vypočítat.
Statistiky – Vícerozměrná regrese – Závisle proměnná y, nezávisle proměnné x, xkv - OK – OK – zvolíme Rezidua/předpoklady/předpovědi
– Reziduální analýza – Uložit – Uložit rezidua & předpovědi – vybereme proměnnou y - OK.
K vzniklému datovému souboru přidáme jednu novou proměnnou, nazveme ji chyba a do jejího Dlouhého jména napíšeme
=100*abs((v1-v2)/v1)
Pomocí Statistiky – Základní statistiky/tabulky – Popisné statistiky zjistíme průměr proměnné chyba. V našem případě je
MAPE 9,31%.
e) Analýza reziduí
Rezidua považujeme za odhady náhodných odchylek a klademe na ně stejné požadavky jako na náhodné odchylky, tj.
mají být nezávislá,
mají být normálně rozložená,
mají mít nulovou střední hodnotu,
mají mít konstantní rozptyl (tj. jsou homoskedastická).
Nezávislost reziduí (autokorelaci) posuzujeme např. pomocí Durbinovy – Watsonovy statistiky, která by se měla nacházet
v intervalu 6,2;4,1 (to je ovšem pouze orientační vodítko, korektní postup spočívá v porovnání této statistiky s tabelovanou
kritickou hodnotou).
Normalitu reziduí ověřujeme pomocí testů normality (např. Lilieforsovou variantou Kolmogorovova – Smirnovova testu
nebo Shapirovým – Wilkovým testem) či graficky pomocí N-P plotu.
Testování nulovosti střední hodnoty reziduí provádíme pomocí jednovýběrového t-testu.
Homoskedasticitu reziduí posuzujeme pomocí grafu závislosti reziduí na predikovaných hodnotách. V tomto grafu by rezidua
měla být rovnoměrně rozptýlena.
Příklad: Proveďte analýzu reziduí pro příklad s modelováním závislosti tržby na počtu zákazníků.
Posouzení nezávislosti reziduí pomocí Durbinovy – Watsonovy statistiky:
Statistiky – Vícenásobná regrese – proměnná Závislá: y, nezávislá x, xkv – OK – na záložce Residua/předpoklady/předpovědi
vybereme Reziduální analýza - Detaily – Durbin-Watsonova statistika:
Durbin-
Watson.d
Sériové
korelace
Odhad 0,702506 0,599248
Hodnota této statistiky je nízká, svědčí o tom, že rezidua jsou kladně korelovaná.
Posouzení homoskedasticity reziduí
Reziduální analýza – Bodové grafy – Předpovědi vs. rezidua
Předpovězené hodnoty vs. rezidua
Závislá proměnná : y
2 4 6 8 10 12 14 16
Předpov. hodnoty
-2,5
-2,0
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
2,0
Rezidua
0,95 Int.spol.
Je vidět, že rezidua nejsou kolem 0 rozmístěna náhodně. Model s regresní parabolou tedy není úplně vhodný.
Testování nulovosti střední hodnoty reziduí:
Pro proměnnou Rezidua z tabulky uložené pomocí Reziduální analýzy provedeme jednovýběrový t-test: Statistiky - Základní
statistiky/tabulky – t-test, samost. vzorek – OK – proměnné Rezidua – OK.
Proměnná
Průměr Sm.odch. N Sm.chyba Referenční
konstanta
t SV p
Rezidua -0,000000 1,004880 20 0,224698 0,00 -0,000000 19 1,000000
Na hladině významnosti 0,05 nezamítáme hypotézu, že střední hodnota reziduí je 0.
Posouzení normality reziduí:
Na záložce Pravděpodobnostní grafy zvolíme Normální pravděpodobnostní graf reziduí:
Normální p-graf z Rezidua
Tabulka1 9v*20c
-2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0
Pozorovaný kvantil
-2,0
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
2,0
Oček.normál.hodnoty
Rezidua : SW-W = 0,9601; p = 0,5453
Rezidua se řadí kolem ideální přímky, lze tedy soudit, že se řídí normálním rozložením.
Závěr: V neprospěch regresní paraboly hovoří hodnota Durbinovy – Watsonovy statistiky a graf závislosti reziduí na predikovaných
hodnotách.
Model regresní přímky
Máme regresní model ε+β+β= xY 10 , kde
xy 10 β+β= - teoretická regresní přímka (deterministicka složka modelu).
(Parametr 0β interpretujeme jako teoretickou hodnotu Y při x = 0 a 1β udává změnu Y, když X se změní o jednotku.)
Složka ε - náhodná složka modelu.
Předpoklady použití regresní přímky:
- Závislost Y na X má lineární charakter.
- Pro celý rozsah uvažovaných hodnot nezávisle proměnné X je reziduální rozptyl s2
konstantní (hovoříme o
homoskedasticitě a znamená to, že variabilita hodnot závisle proměnné veličiny Y kolem regresní přímky je stejná pro
všechny uvažované hodnoty nezávisle proměnné veličiny X).
- Hodnoty závisle proměnné veličiny Y mají normální rozložení pro dané hodnoty xi a jsou stochasticky nezávislé (to
souvisí s uspořádáním experimentu).
Poznámka: Menší odchylky od normality a homoskedasticity je možno tolerovat.
Systém normálních rovnic pro regresní přímku
Uvažujeme regresní model ε+β+β= xY 10 .
Systém normálních rovnic pro odhad regresních parametrů 0β a 1β získáme derivováním výrazu
( ) ( )∑=
β−β−=ββ
n
1i
2
i10i10 xy
n
1
,q parciálně podle 0β a 1β :
( ) ( )( )∑=
=−β−β−=
β∂
ββ∂ n
1i
i10i
0
10
01xy
n
1
2
,q
,
( ) ( )( )∑=
=−β−β−=
β∂
ββ∂ n
1i
ii10i
1
10
0xxy
n
1
2
,q
Řešením tohoto systému získáme odhady 2n
1i
i
n
1i
2
i
n
1i
i
n
1i
i
n
1i
ii
12n
1i
i
n
1i
2
i
n
1i
ii
n
1i
i
n
1i
i
n
1i
2
i
0
xxn
yxyxn
b,
xxn
yxxyx
b






−
−
=






−
−
=
∑∑
∑∑∑
∑∑
∑∑∑∑
==
===
==
====
Po jednoduchých úpravách dospějeme ke tvaru 2
1
12
1
s
s
b = , kde 12s je kovariance hodnot (xi, yi), i = 1, ..., n a 2
1s je rozptyl
hodnot n1 x,,x K . Dále dostáváme 1120 mbmb −= , tedy regresní přímku můžeme vyjádřit ve tvaru ( )12
1
12
2 mx
s
s
my −+= .
Index determinace regresní přímky
Kvalitu regresních modelů posuzujeme mj. pomocí indexu determinace:
T
R2
S
S
ID = , kde
( )∑=
−=
n
1i
2
2iR myˆS je regresní součet čtverců a ( )∑=
−=
n
1i
2
2iT myS je celkový součet čtverců.
Pro regresní přímku má regresní součet čtverců tvar:
( ) ( ) ( ) 2
1
2
12
n
1i
2
2i4
1
2
12
n
1i
2
21i2
1
12
2
n
1i
2
2iR
s
s
nmx
s
s
mmx
s
s
mmyˆS =−=





−−+=−= ∑∑∑ ===
.
Celkový součet čtverců ( ) 2
2
n
1i
2
2iT nsmyS =−= ∑=
, tedy index determinace
2
122
2
2
1
2
12
2
2
2
1
2
12
T
R2
r
ss
s
ns
s
s
n
S
S
ID ====
Vidíme tedy, že v případě regresní přímky index determinace je roven kvadrátu koeficientu korelace.
Index determinace nabývá hodnot z intervalu 1,0 . Často se vyjadřuje v procentech a informuje nás o tom, jakou část
variability hodnot závisle proměnné veličiny Y vyčerpává regresní model.
Sdružené regresní přímky
Předpokládáme, že obě veličiny Y a X jsou náhodné a veličina X nezávisí na náhodné složce ε . Pak jde o případ
oboustranné závislosti.
Závislost Y na X vystihuje regresní model ε+β+β= xY 10 ,
závislost X na Y vystihuje regresní model δ+α+α= yX 10 .
Odhady 10 a,a regresních parametrů 10 ,αα v modelu ii10i yX δ+α+α= získáme opět MNČ ve tvaru
22
2
12
121102
2
12
1 m
s
s
mmama,
s
s
a −=−== .
Empirická regresní přímka závislosti X na Y má tedy rovnici:
( )22
2
12
1 my
s
s
mx −+= .
Obě empirické regresní přímky y = b0 + b1x, x = a0 + a1y se nazývají sdružené regresní přímky a odhady regresních
parametrů 11 a,b se nazývají odhady párově sdružených regresních parametrů.
Je zřejmé, že 2
1211 rab = . Rovnice sdružených regresních přímek můžeme tedy psát ve tvaru:
( )12
1
12
2 mx
s
s
my −+= , ( )2
1
2
12
1 mx
s
s
r
1
my −+= .
Vlastnosti sdružených regresních přímek
a) Sdružené regresní přímky se protínají v bodě o souřadnicích [ ]21 m,m (tj. v těžišti dvourozměrného tečkového diagramu).
b) Je-li r12 = 0 (tj. náhodné veličiny X, Y jsou nekorelované), pak sdružené regresní přímky mají rovnice 2my = , 1mx = (tj.
jsou to kolmice rovnoběžné se souřadnými osami).
c) Je-li r12
2
= 1 (tj. mezi náhodnými veličinami X, Y existuje úplná lineární závislost), pak sdružené regresní přímky splynou
a
1
1
b
1
a = .
d) Je-li 0 < r12
2
< 1, pak sdružené regresní přímky se liší a svírají úhel, který je tím menší, čím je těsnější lineární závislost
veličin X, Y.
e) Označíme-li ϕ úhel, který svírají sdružené regresní přímky, pak z předešlých úvah plyne:
⇔=ϕ 0cos mezi X a Y neexistuje žádná lineární závislost;
⇔=ϕ 1cos mezi X a Y existuje úplná přímá lineární závislost;
⇔−=ϕ 1cos <=> mezi X a Y existuje úplná nepřímá lineární závislost.
Příklad:
Z fiktivního základního souboru všech vzorků oceli odpovídajících „všem myslitelným tavbám“ bylo do laboratoře dodáno
60 vzorků a zjištěny a hodnoty proměnné X – mez plasticity a Y – mez pevnosti. Datový soubor má tvar:
a) Určete regresní přímku meze pevnosti na mez plasticity.
b) Zakreslete regresní přímku do dvourozměrného tečkového diagramu.
c) Najděte regresní odhad meze pevnosti pro mez plasticity = 60.
d) Vypočtěte index determinace a interpretujte ho.
e) Najděte reziduální součet čtverců a odhad rozptylu náhodných odchylek.
f) Určete regresní přímku meze plasticity na mez pevnosti.
g) Zakreslete regresní přímku do dvourozměrného tečkového diagramu.
h) Obě regresní přímky zakreslete do téhož dvourozměrného tečkového diagramu.
Řešení v systému STATISTICA:
Ad a) Odhad parametrů 1. regresní přímky:
Statistiky – Vícerozměrná regrese – Závisle proměnná Y, nezávisle proměnná X - OK – OK – Výpočet: Výsledky regrese.
Výsledky regrese se závislou proměnnou : Y (ocel.sta)
R= ,93454811 R2= ,87338017 Upravené R2= ,87119707
F(1,58)=400,06 p<0,0000 Směrod. chyba odhadu : 11,768
N=60
Beta Sm.chyba
beta
B Sm.chyba
B
t(58) Úroveň p
Abs.člen
X
24,58814 4,740272 5,18707 0,000003
0,934548 0,046724 0,93668 0,046830 20,00160 0,000000
Ad b) Zakreslení regresních přímky do dvourozměrného tečkového diagramu:
Grafy – Bodové grafy – Proměnné X, Y – OK – OK.
Bodový graf z Y proti X
ocel.sta 2v*60c
Y = 24,5881+0,9367*x
20 40 60 80 100 120 140 160 180
X
40
60
80
100
120
140
160
180
200
Y
Ad c) Výpočet predikované hodnoty: Pro výpočet predikované hodnoty zvolíme Rezidua/předpoklady/předpovědi Předpovědi
závisle proměnné X: 60 OK. Ve výstupní tabulce je hledaná hodnota označena jako Předpověď: 80,79
Předpovězené hodnoty (ocel.sta)
proměnné: Y
Proměnná
b-váha Hodnota b-váha
* Hodnot
X
Abs. člen
Předpověď
-95,0%LS
+95,0%LS
0,936679 60,00000 56,20071
24,58814
80,78885
76,25426
85,32344
Regresní odhad meze pevnosti pro mez plasticity 60 je tedy 80,8.
Ad d) Index determinace najdeme ve výstupní tabulce regrese pod označením R2:
Výsledky regrese se závislou proměnnou : Y (ocel.sta)
R= ,93454811 R2= ,87338017 Upravené R2= ,87119707
F(1,58)=400,06 p<0,0000 Směrod. chyba odhadu : 11,768
N=60
Beta Sm.chyba
beta
B Sm.chyba
B
t(58) Úroveň p
Abs.člen
X
24,58814 4,740272 5,18707 0,000003
0,934548 0,046724 0,93668 0,046830 20,00160 0,000000
Vidíme, že variabilita meze pevnosti je regresní přímkou vyčerpána z 87,3 %.
Ad e) Reziduální součet čtverců a odhad rozptylu najdeme v tabulce ANOVA: Vrátíme se do Výsledky – Vícenásobná
regrese – na záložce Detailní výsledky zvolíme ANOVA (Celk. vhodnost modelu)
Analýza rozptylu (ocel.sta)
Efekt
Součet
čtverců
sv Průměr
čtverců
F p-hodn.
Regres.
Rezid.
Celk.
55400,60 1 55400,60 400,0641 0,000000
8031,80 58 138,48
63432,40
Vidíme, že reziduální součet čtverců je 8031,8 a reziduální rozptyl nabývá hodnoty 138,48.
Ad f) Výsledky pro 2. regresní přímku:
Výsledky regrese se závislou proměnnou : X (ocel.sta)
R= ,93454811 R2= ,87338017 Upravené R2= ,87119707
F(1,58)=400,06 p<0,0000 Směrod. chyba odhadu : 11,741
N=60
Beta Sm.chyba
beta
B Sm.chyba
B
t(58) Úroveň p
Abs.člen
Y
-10,7858 5,544250 -1,94540 0,056579
0,934548 0,046724 0,9324 0,046617 20,00160 0,000000
Vidíme, že x = -10,7858 + 0,9324y.
Ad g) Dvourozměrný tečkový diagram se zakreslenou 2. regresní přímkou
Bodový graf z X proti Y
ocel.sta 2v*60c
X = -10,7858+0,9324*x
40 60 80 100 120 140 160 180 200
Y
20
40
60
80
100
120
140
160
180
X
Ad h) Nakreslení sdružených regresních přímek do jednoho diagramu:
K datovému souboru ocel.sta přidáme dvě nové proměnné y1 a y2. Do proměnné y1 uložíme predikované hodnoty meze
pevnosti na mezi plasticity (do Dlouhého jména proměnné y1 napíšeme =24,58814 + 0,93668*x a do Dlouhého jména
proměnné y2 napíšeme =(x+10,7858)/0,9324
Grafy – Bodové grafy – zaškrtneme Vícenásobný – Proměnné X: X, Y: Y, y1, y2 – OK. Ve vytvořeném grafu pak vypneme
zobrazování značek pro y1, y2 a naopak zapneme Spojnici.
20 40 60 80 100 120 140 160 180
40
60
80
100
120
140
160
180
200
Kritické hodnoty Durbinova-Watsonova testu pro autokorelaci 1. řádu pro α = 0,05, rozsah výběru n a počet regresorů p
(bez konstant)
p=1 p=2 p=3 p=4 p=5
n dL dU dL dU dL dU dL dU dL dU
15 1,08 1,36 0,95 1,54 0,82 1,75 0,69 1,97 0,56 2,21
20 1,20 1,41 1,10 1,54 1,00 1,68 0,90 1,83 0,79 1,99
30 1,35 1,49 1,28 1,57 1,21 1,65 1,14 1,74 1,07 1,83
40 1,44 1,54 1,39 1,60 1,34 1,66 1,29 1,72 1,23 1,79
60 1,55 1,62 1,51 1,65 1,48 1,69 1,44 1,73 1,41 1,77
80 1,61 1,66 1,59 1,69 1,56 1,72 1,53 1,74 1,51 1,77
100 1,65 1,69 1,63 1,72 1,61 1,74 1,59 1,76 1,57 1,78