7
Úvod do zpracování měření
Teorie chyb
Opakujeme-li měření téže fyzikální veličiny za stejných podmínek několikrát za
sebou, dostáváme zpravidla různé hodnoty. Měřené veličině přísluší však jediná správná
hodnota. Každou odchylku naměřené hodnoty od správné hodnoty nazýváme obecně chybou.
Chybou měření ∆X budeme rozumět rozdíl mezi hodnotou správnou X a hodnotou x získanou
měřením, tedy
xXX −=∆ . (1)
Chyba může být jak kladná, tak i záporná. Je-li chyba kladná, musíme ji k naměřené
hodnotě přičíst, abychom dostali hodnotu správnou, a naopak ji odečítáme, jde-li o chybu
zápornou. Udáváme-li chybu rozdílem správné hodnoty a naměřené hodnoty dané veličiny, tj.
absolutně, mluvíme o absolutní chybě měřené veličiny. Rovnice (1) je pak rovnicí pro
absolutní chybu.
Jestliže vyjádříme chybu relativně vůči měřené hodnotě, docházíme k pojmu relativní
chyby měřené veličiny. Relativní chybou δ měřené veličiny rozumíme poměr absolutní chyby
∆X této veličiny a správné hodnoty veličiny X. Pro relativní chybu tedy platí
X
X∆
=δ . (2)
Relativní chybu lze také vyjádřit poměrem naměřené a správné hodnoty dané veličiny:
X
x
−=δ 1 . (3)
Relativní chyba se velmi často udává v procentech. Z obou uvedených výrazů (2 i 3) je
patrné, že také relativní chyba může nabývat kladných i záporných hodnot.
Podle jejich původu dělíme chyby do tří skupin:
Chyby hrubé vznikají při měření prováděném nedbale nebo nepozorně, s nedokonalými či
vadnými přístroji, při užití nevhodné metody. Naměřená hodnota se při opakovaném měření
značně liší od ostatních, a proto je nutné ji nahradit novým měřením nebo ji při konečném
zpracování výsledků neuvažovat.
Chyby systematické (soustavné) jsou způsobeny stále stejnými a pravidelnými vlivy, tedy
výsledek měření je soustavně větší nebo menší než správná hodnota. Podle toho můžeme
systematické chybě přisoudit určité znaménko. Původ systematických chyb je obvykle buď
v měřící metodě (založené na určitých zjednodušujících předpokladech), v měřících
přístrojích (např. posunutí počátku (nuly) na stupnici, závislost výchylky na měřené veličině
neodpovídá dělení stupnice apod.), nebo ve způsobu činnosti pozorovatele (např. odhad a
zaokrouhlování zlomků dílků na stupnici, pozorování stupnice a ukazatele z nevhodného
směru – chyba úkosu, paralaxa). V řadě případů je možno systematické chyby vyloučit
vhodnými korekcemi. Systematické chyby nelze vyloučit statistickými metodami.
Chyby náhodné vznikají zcela náhodně vzájemným působením pozorovatele, přístroje a
prostředí. Jejich původ nemůžeme odhalit. Každou náhodnou chybu můžeme považovat za
složenou z velkého počtu velmi malých náhodně vzniklých a ojediněle nepozorovatelných
elementárních chyb. O těchto elementárních chybách můžeme předpokládat, že jejich
znaménka i velikosti jsou nepravidelně rozděleny a aby vznikla pozorovatelná chyba, musí se
jich složit větší počet. Elementární chyby jsou kladné i záporné a jejich složením dojde
pravděpodobně stejně často k chybám kladným i záporným. Nejčastěji se sejde přibližně
stejný počet elementárních chyb kladných i záporných, čímž vzniknou malé náhodné chyby.
Méně často se vyskytuje případ, že převažují elementárních chyby stejného znaménka, a pak
8
vznikne náhodná chyba větší. Takové případy jsou málo pravděpodobné, takže počet
náhodných chyb bude s velikostí chyby znatelně klesat.
Chyby systematické nás svým způsobem informují o správnosti měření, chyby
náhodné o přesnosti měření.
Normální rozdělení
Obecně lze říci, že toto rozdělení je použitelné všude tam, kde na kolísání náhodné
veličiny působí velký počet nepatrných a vzájemně nezávislých jevů.
Pro nahodilé rozdělení měřených hodnot při počtu měření, které se blíží nekonečnu,
platí vztah, odvozený Gaussem – tzv. normální statistické rozdělení, jemuž odpovídá i
analogické vyjádření pro rozdělení četnosti náhodných chyb. Ze statistického rozboru tohoto
problému plyne několik důležitých závěrů, které umožňují určit nejpravděpodobnější hodnotu
měřené veličiny a interval, v němž se dá očekávat skutečná hodnota s předem zvolenou
pravděpodobností:
Kdybychom mohli vykonat nekonečný počet měření, pak by z přesné platnosti zákona
četnosti plynulo, že počet kladných chyb je rovný počtu záporných chyb a že se tedy součet
všech chyb rovná nule. Aritmetický průměr všech měření by pak udával správnou hodnotu
měřené veličiny. Při skutečných měřeních můžeme najít pouze nejpravděpodobnější hodnotu
měřené veličiny.
Předpokládejme pro veličinu x měřením získané hodnoty x1, x2, ….. , xn.
Předpokládejme dále, že chyby v jednom směru (kladné odchylky) jsou právě tak
pravděpodobné jako chyby ve směru druhém (záporné odchylky), takže součet všech chyb je
roven nule. Označíme-li pravděpodobnou hodnotu měřené veličiny x , pak platí
( ) ( ) ( ) 0.....21 =−++−+− nxxxxxx (4)
a odtud plyne pro pravděpodobnou hodnotu x měřené veličiny výraz
∑
=
=
n
i
ix
n
x
1
1
. (5)
Pravděpodobnou hodnotou je aritmetický průměr naměřených hodnot. To ovšem
neznamená, že aritmetický průměr je přesně rovný správné hodnotě. Jeho smysl je ten, že
kdybychom měli velký počet řad o konečném počtu měření, vedl by aritmetický průměr
častěji ke správné hodnotě, než kdybychom hodnotu měřené veličiny počítali jakýmkoli jiným
způsobem.
Každá hodnota kk xx −=∆ udává odchylku měření od aritmetického průměru.
Abychom určili střední chybu jednotlivého měření, nemůžeme odchylky sečíst a dělit počtem
měření, protože součet odchylek od aritmetického průměru je rovný nule. Proto odchylky
umocníme a sečteme; součet označíme ∑∆2
. Dělíme-li tento součet počtem měření,
dostaneme průměr ze čtverců chyb, který se ve statistice nazývá rozptyl nebo také variance a
značí se 2
nσ .
n
n
∑∆
=
2
2
σ (6)
Odmocnina z tohoto průměru je směrodatná odchylka σn
n
n
∑∆
=
2
σ . (7)
Tuto hodnotu bychom mohli považovat za střední chybu jednoho měření, kdyby
aritmetický průměr byl správnou hodnotou. Musíme však uvážit, že pro určení směrodatné
odchylky máme k dispozici jen výběr ze souboru všech možných měření. Jedno měření
potřebujeme k naměření hodnoty, zbývajících n-1 měření ke kontrole výpočtu chyby. Proto
9
pro výpočet střední chyby jednoho měření bereme n-1 místo n. Výběrová směrodatná
odchylka σn-1 nazývaná též střední kvadratická chyba jednoho měření je
1
2
1
−
∆
=
∑
−
n
nσ . (8)
Nás však bude především zajímat, jakou chybou je zatížen výsledek měření aritmetický
průměr. Tento průměr je stanoven z většího počtu naměřených hodnot, máme
tedy větší jistotu, že se skutečné hodnotě blíží aritmetický průměr, než pouze jediná hodnota
měření. Projeví se to i v chybách: aritmetickému průměru přísluší menší chyby, než
jednotlivým měřením. Teorie chyb vede k výsledku, že chyba aritmetického průměru je n
krát menší než chyba jednoho měření, přičemž n je počet měření.
Směrodatná odchylka aritmetického průměru (střední kvadratická chyba) je dána
vztahem
( )1
2
−
∆
=
∑
nn
σ . (9)
Vztah (9) není příliš vhodný pro praktický výpočet, protože pro výpočet odchylek od
průměru je třeba mít průměr předem vypočítaný. Můžeme vyjádřit:
( ) ( ) ( )222222 1
2 ∑∑∑∑∑ −=+−=−=∆ iiiii x
n
xxxxxxx , (10)
využili jsme při tom skutečnosti, že
( )22
22 ∑∑
∑
∑ == ii
i
i x
n
x
n
x
xx a
( ) ( )2
2
2
22 1
∑
∑
∑ === i
i
x
nn
x
nxnx . (11)
Do (1.9) dosadíme (1.10) a (1.11) a dostaneme
( )
( )1
1 22
−
−
=
∑∑
nn
x
n
x ii
σ . (12)
Na obrázku 1 je nakreslena funkce hustoty pravděpodobnosti pro normální rozdělení.
Obr. 1: Funkce hustoty pravděpodobnosti pro normální rozdělení.
10
Plocha pod křivkou (integrál funkce) je úměrná pravděpodobnosti, se kterou správná
hodnota může nabývat hodnot vynesených na ose x. V intervalu (-σ, σ) (na obr. 1 vybarveno
tmavě) je tato pravděpodobnost 0,683, to znamená. že v tomto intervalu by mělo být 68%
hodnot. V intervalu (-2σ, 2σ) (na obr. 1 vybarveno světle i tmavě) je pravděpodobnost 0,955.
V intervalu (-3σ, 3σ) pak je to 0,997. Kromě střední chyby uvádíme někdy také
pravděpodobnou chybu, která je rovna 2/3 střední chyby. Její význam je tento: je stejně
pravděpodobné, že chyba jednoho měření (libovolně vybraného) je menší než pravděpodobná
chyba, jako že tato chyba je větší než pravděpodobná chyba. Při velkém počtu měření je tedy
polovina skutečných chyb menší, druhá polovina větší než pravděpodobná chyba.
Pravděpodobná chyba jednoho měření je
1
3
2
−= nσϑ . (13)
V některých případech používáme ještě krajní chybu χ, která je rovna trojnásobku
střední chyby: σχ 3= . U krajní chyby máme pravděpodobnost 99,73 %, že se nám v měření
nevyskytne hodnota s chybou větší než je krajní chyba. Jednu chybu větší než χ můžeme tedy
očekávat průměrně v 370 měřeních.
Vzájemné vztahy mezi uvedenými chybami jsou následující:
3:1:67,0:: =χσϑ . (14)
Stejné vztahy jako mezi chybami jednoho měření jsou i mezi odpovídajícími chybami
aritmetického průměru.
Na Gaussově křivce (obr. 1) odpovídá pravděpodobné chybě hodnota, jejíž pořadnice
dělí plochu Gaussovy křivky na části, z nichž prostřední zaujímá polovinu celkové plochy,
obě krajní také polovinu. Geometrický význam střední kvadratické chyby je ten, že v místě σ
má Gaussova křivka inflexní bod.
Aby bylo zřejmé, do jaké míry je zaručen výsledek měření, připisujeme k němu jeho
střední kvadratickou chybu. Píšeme tedy výsledek ve tvaru:
σ±= xx . (15)
Číselně uvádíme chybu zpravidla pouze na jedno platné místo a počet číslic ve
výsledku omezíme tak, aby chyba zasahovala pouze do posledního místa. Například:
m=(27,32 ± 0,04) g. V případě, že je mantisa chyby 1, uvádíme chybu zpravidla na dvě místa
(např. m=(27,32 ± 0,12) g).
Pokud z nějakých důvodů uvádíme jinou chybu než střední kvadratickou, je třeba na
tento fakt v textu výslovně upozornit!
Obr. 2: Závislost chyby průměru na počtu měření. Chyba průměru je vynášena jako násobek
výběrové chyby jednoho měření.
11
Je zřejmé, že čím větší počet měření vykonáme, tím máme větší jistotu při stanovení
výsledné hodnoty a tím menší bude chyba výsledku. Závislost střední chyby aritmetického
průměru na počtu měření je graficky znázorněna na obr.2. Vidíme, že se vzrůstajícím počtem
měření klesá chyba aritmetického průměru zpočátku prudce, pak mírně. Z této křivky
můžeme odhadnout, kolik musíme vykonat měření,abychom dosáhli požadované přesnosti.
Obvykle stačí měřit desetkrát; při dalším zvyšování počtu měření vzrůstá přesnost výsledku
jen velmi zvolna.
Výpočet aritmetického průměru a chyby (příklad)
Ruční zpracování
Posuvným měřítkem byla stanovena desetkrát tloušťka x, přičemž byly odhadovány
ještě desetiny dílků stupnice. Výsledky jsou uvedeny v tabulce:
i xi (cm) 2
ix (cm2
)
1 0,256 0,0655
2 0,258 0,0666
3 0,255 0,0650
4 0,255 0,0650
5 0,254 0,0645
6 0,256 0,0655
7 0,257 0,0660
8 0,255 0,0650
9 0,259 0,0671
10 0,254 0,0645
Σ 2,559 0,654873
2559,0
10
559,2
===
∑
n
x
x
i
cm
Aritmetický průměr tloušťky je 0,2559 cm.
( )
( )
=
−
=
−
−
=
∑∑
90
10/559,2654873,0
1
1
2
22
nn
x
n
x ii
σ 00053,0
90
6548481,0654873,0
=
−
cm.
Směrodatná odchylka aritmetického průměru je 0,00053 cm.
Zaokrouhlíme na jednu platnou číslici: 0005,0±=σ cm.
Výsledek měření napíšeme tak, že k aritmetickému průměru připíšeme střední
kvadratickou chybu zaokrouhlenou na jedno platné místo: x=(0,2559±0,0005) cm.
Pravděpodobná chyba aritmetického průměru je rovna dvěma třetinám směrodatné odchylky:
00035,000053,0.
3
2
3
2
±=±== σϑ cm.
Zpracování v Excelu
Výpočet průměru s směrodatné odchylky průměru je v Excelu velmi jednoduchý. Pro
výpočet aritmetického průměru obsahuje funkci PRŮMĚR(). Pro směrodatnou odchylku
průměru není k dispozici přímá funkce a je třeba použít funkce SMODCH(), která vrací
směrodatnou odchylku jednoho měření vypočítanou podle vztahu (1.7). Abychom získali
směrodatnou odchylku průměru, je třeba tuto hodnotu vydělit, v souladu se vztahem (1.9),
odmocninou z počtu měření zmenšeného o jednu.
12
Obr. 2: Výřez listu Excelu s výpočtem průměru a jeho směrodatné odchylky.
Výpočet chyby hodnoty funkce z chyb nezávisle proměnných
Než přejdeme k určení chyby aritmetického průměru, předpokládejme, že máme
z výsledků měření několika vzájemně nezávislých veličin x, y, z, ……, určit hodnotu veličiny
V = f (x,y,z, …) (16)
(Veličina V je tedy výsledkem nepřímých měření).
Jsou-li chyby jednotlivých měřených veličin ( )xσ , ( )yσ , ( )zσ , ……, (nemusí to
ovšem být právě směrodatné odchylky, mohou to být chyby odpovídající jiné
pravděpodobnosti výskytu, avšak pro všechny veličiny x, y, z, …., stejného druhu), pak při
počítání chyby veličiny V s nimi pracujeme podobně jako s diferenciály nezávisle
proměnných. Z teorie pravděpodobnosti pro chybu veličiny V dostáváme
( ) ( )[ ] ( )[ ] .....
2
2
2
2
+





∂
∂
+





∂
∂
= y
y
f
x
x
f
V σσσ . (17)
Je-li V = f (x) (funkce jedné nezávisle proměnn0), pak
( ) ( ) ( ) ( )xxfx
dx
df
V σσσ ′== . (18)
Např. je-li V = ax, je ( ) ( )xaV σσ = .
Zavedeme-li relativní chybu ( ) ( )
x
x
x
σ
δ = pak pro k
xV = je
( ) ( )xkxV k
σδ 1−
= (19)
a odtud
( ) ( ) ( )xk
V
V
V δ
σ
δ .== . (20)
Pro yxV ±= je 1=
∂
∂
x
f
, 1±=
∂
∂
y
f
a
( ) ( ) ( )yxV 22
σσσ += . (21)
Geometricky to znamená, že chybu součtu nebo rozdílu dvou veličin určíme jako
délku přepony v pravoúhlém trojúhelníku, o odvěsnách rovných velikostem chyb jednotlivých
sčítanců. Toto pravidlo snadno rozšíříme i na větší počet sčítanců.
Pro součin yxV .= dostaneme
( ) ( ) ( )xyyxV 2222
.. σσσ += (22)
nebo relativní chybu součinu
13
( ) ( ) ( )xxV 22
δδδ += . (23)
Vidíme, že relativní chyba součinu je vyjádřena podobným vztahem, jako absolutní
chyba součtu. Snadno se odvodí podobné vztahy i pro chybu součinu zyxV ..= a podílu
y
x
V = . (Odvoďte sami, obojí i pro relativní chyby).
Příklad 1: Vypočteme objem V válečku a jeho střední kvadratickou chybu ( )Vσ užitím
vzorce hrV .. 2
π= , kde r je poloměr válečku a h jeho výška.
Mikrometrem byl změřen průměr d válečku: d = (2,442 ± 0,004) cm, posuvným
měřítkem výška h válečku: h = (4,56 ± 0,01) cm. Vypočteme nejdříve poloměr válečku.
Poloměr
2
d
r = = 1,221 cm. Střední chyba poloměru je rovna polovině střední chyby
průměru: ( ) ( ) 002,0
2
==
d
r
σ
σ cm. Poloměr válečku je tedy r = (1,221± 0,002) cm.
Dosadíme do vzorce hrV .. 2
π= :
V=3,142.(1,221)2
. 4,56 = 21,25 .
Protože průměr je měřen na čtyři místa, výška na tři, počítáme objem zkráceně na čtyři místa.
Objem V = 21,25 cm3
.
Střední chybu tohoto výsledku vypočteme dosazením do vzorce
( ) ( ) ( ) ( ) ( )
22




∂
∂
+



∂
∂
±= h
h
V
r
r
V
V σσσ .
Protože parciální derivace
r
V
∂
∂
a
h
V
∂
∂
jsou
rh
r
V
π=
∂
∂
2 , 2
r
h
V
π=
∂
∂
,
je ( ) ( )[ ] ( )[ ]222
2 hrrhrV δπσπσ +±=
a po úpravě
( ) ( ) ( ) ( ) ( ) 2
22
2
22 2






+



±=
h
h
hr
r
r
hrV
σ
π
σ
πσ .
Absolutní střední chyba výsledku je dána vzorcem
( ) ( ) ( ) 22
2






+





±=
h
h
r
r
VV
σσ
σ
a relativní chyba
( ) ( ) ( ) 22
2
)( 





+





±==
h
h
r
r
V
V
V
σσσ
δ .
Numericky počítáme absolutní střední chybu objemu na jedno místo, tj pod
odmocninou na dvě místa různá od nuly:
( ) 22
22
0022,00033,0.25,21
56,4
01,0
221,1
004,0
.25,21 +±=





+





±=Vσ =
14
000016,0.25,21000005,0000011,0.25,21 =+±= =
08,0004,0.25,21 =±= & .
Střední kvadratická chyba objemu válečku je 0,08 cm3
. Výsledek píšeme ve tvaru:
Objem V = (21,25±0,08) cm3
.
Poznámka 1: Při výpočtu jsme viděli, že relativní chyba poloměru, který je ve vzorci pro
výpočet objemu ve druhé mocnině, se uplatnila dvojnásobně, bylo by proto vhodné měřit
poloměr s větší přesností!
Vypočteme ještě relativní chybu objemu:
( ) 0038,0
25,21
08,0
==
V
Vσ
.
Relativní chyba objemu je 0,0038, tj. přibližně 0,4%.
Poznámka 2: U funkcí typu u = xk
ym
zn
vychází pro relativní chybu vztah
( ) ( ) ( ) ( ) 222
...




+





+



±=
z
zn
y
ym
x
xk
u
u σσσσ
.
Příklad 2: Určete chybu objemu koule vypočítaného z naměřeného průměru d:
Protože platí vztah 3
6
dV
π
= ,
určíme ( ) ( )ddV σ
π
σ 2
2
= ,
takže
( ) ( )
d
d
V
V σσ
3= .
Sami zvažte, co plyne z provedeného rozboru chyby.
Regresní analýza
V praxi se často setkáme s úkolem, kdy nějaká proměnná y je funkcí nezávisle
proměnné x, tedy y=f (x). Z hodnot {xi,yi} pak máme odhadnout parametry funkční závislosti.
Zpravidla předpokládáme, že hodnoty xi jsou dány pevně a hodnoty yi byly získány měřením.
Kdyby měření hodnot yi nebylo zatíženo chybami, platilo by yi=f (xi). Ve skutečnosti však
platí yi=f (xi)+∆i, kde ∆i je chyba i-tého měření. Body [xi,yi] jsou pak vlivem chyb rozptýleny
kolem křivky y=f (x). Obecně funkce y=f (x) obsahuje p neznámých konstant - parametrů,
které označíme b0,...bp-1. Máme-li soustavou bodů [xi,yi] proložit křivku y=f(x;b0,..., bp-1),
musíme určit (statisticky odhadnout) neznámé parametry b0,..., bp-1, které se vyskytují v
rovnici křivky. Při tom vyžadujeme, aby se křivka co nejvíc přiblížila blížila bodům [xi,yi].
Statistický odhad parametru bi označme βi. Způsob odhadu βi závisí na tom, jak definujeme
"přiblížení". Mohli bychom například požadovat, aby součet absolutních hodnot odchylek
bodů od křivky byl minimální. V praxi se však nejčastěji za kritétium přiblížení považuje
suma čtverců hodnot yi=f(xi; β0, ..., βp-1) a odhadem parametrů β0, ..., βp-1 jsou pak hodnoty,
které tento součet čtverců minimalizují.
Označíme-li
( )( )∑=
−−=
n
i
pii xfyS
1
2
10 ,...,; ββ , (24)
15
budou odhady βi určeny z podmínky
S = min. (25)
Touto podmínkou je vyjádřen princip metody nejmenších čtverců. O křivce y=f(x;
β0,..., βp-1) říkáme, že byla body [xi, yi] proložena metodou nejmenších čtverců.
Nejčastěji se setkáme s případem, kdy je očekávaná závislost lineární
y=b0+b1x. (26)
Chceme tedy nalézt parametry β0 a β1 tak, aby co nejlépe odpovídaly zadaným bodům.
Podle (24 a 25) můžeme odhady β0 a β1 určit z podmínky
( )∑=
=−−=
n
i
ii xyS
1
2
10 .minββ (27)
Hodnoty parametrů β0 a β1, které minimalizují sumu čtverců odchylek S,
0
0
=
∂
∂
β
S
a 0
1
=
∂
∂
β
S
(28)
dostaneme soustavu dvou rovnic
0
11
10
0
=−+=
∂
∂
∑∑ ==
n
i
i
n
i
i yxn
S
ββ
β
(29)
a
0
11
2
1
1
0
1
=−+=
∂
∂
∑∑∑ ===
n
i
ii
n
i
i
n
i
i yxxx
S
ββ
β
(30)
Jejím řešením získáme odhady β0 a β1, parametrů b0 a b1:






−= ∑∑ ==
n
i
i
n
i
i xy
n 1
1
1
0
1
ββ (31)
2
11
2
111
1






−












−
=
∑∑
∑∑∑
==
===
n
i
i
n
i
i
n
i
i
n
i
i
n
i
ii
xxn
yxyxn
β (32)
Podobně lze nalézt odhady parametrů i pro jiné (složitější) regresní funkce.
Bez odvození napíšeme odhady směrodatných odchylek 0βσ a 1βσ parametrů β0 a β1.
Označme:
























−−






−=
∑∑
∑
∑
∑ ==
=
=
= n
yx
yx
n
y
yS
n
i
i
n
i
in
i
ii
n
i
in
i
i
11
1
1
2
1
1
2
0 β , (33)
2
0
−
=
n
S
s , (34)
směrodatné odchylky parametrů β0 a β1 pak vypočítáme ze vztahů:
2
11
2
1
2
1
1
0






−
=
∑∑
∑
==
=
n
i
i
n
i
i
n
i
i
x
n
x
x
n
sβσ (35)
16
2
11
2 1
1






−
=
∑∑ ==
n
i
i
n
i
i x
n
x
s
βσ (36)
Výpočet lineární regrese pomocí Excelu
K výpočtu lineární regrese metodou nejmenších čtverců slouží v Excelu funkce
=LINREGRESE(), která vrací matici parametrů regresní funkce. Protože funkce vrací matici,
je třeba s ní pracovat jako s maticovým vzorcem:
1) označíme v listu Excelu prázdnou oblast o pěti řádcích a dvou sloupcích, do které se umístí
výsledky lineární regrese.
2) zadáme vzorec =LINREGRESE(y;x;b;stat), kde y je pole závisle proměnných (sloupec
hodnot y), x je pole nezávisle proměnných (sloupec hodnot x), b je logická hodnota udávající,
zda má být konstanta β0 rovna 0 (je-li b PRAVDA nebo 1, hodnota β0 se počítá, je-li b
NEPRAVDA nebo 0, je pevně dáno β0 = 0).
3) po napsání vzorce zmáčkneme současně klávesy Ctrl+Shift+Enter (tím říkáme, že se má
vzorec rozepsat do všech prvků matice); nebude-li vám výpočet regresní přímky fungovat,
s vysokou pravděpodobností jste místo Ctrl+Shift+Enter odklepli jen Enter
Výsledná matice pak obsahuje hodnoty:
β1 β0
σβ1
σβ0
r2
σ
F počet stupňů volnosti
ssreg ssresid
kde β0 a β1 jsou odhady parametrů parametrů b0 a b1 z rovnice (26), σβ0
a σβ1
jsou jejich
směrodatné odchylky, r2
je koeficient determinace, σ směrodatná odchylka odhadu y, F je
F-statistika (používá se při statistickém testování), počet stupňů volnosti (v případě regresní
rovnice (26) je to počet hodnot zmenšená o 2), ssreg je regresní součet čtverců a ssresid
reziduální součet čtverců.
Korelační koeficient
Mějme dvě řady proměnných xi a yi. V předchozích kapitolách jsme se pokoušeli
nalézt parametry optimálně charakterizující vztah mezi těmito proměnnými. Míru závislosti
mezi proměnnými je možné částečně odhadnout ze směrodatných odchylek parametrů
charakterizujících tento vztah, kdy můžeme předpokládat, že čím větší jsou relativní chyby
těchto parametrů, tím slabší bude závislost. My však potřebujeme kvantitativní veličinu, která
nám popíše, jak se změní veličina y při nějaké změně veličiny x. Při tom veličiny x a y mohou
být zcela nesouměřitelné. Abychom mohli veličiny x a y srovnat, musíme je standardizovat a
to tak, že od každé veličiny odečteme průměr a rozdíl vydělíme směrodatnou odchylkou.
Standardizované veličiny xi
+
a yi
+
jsou definovány vztahy:
xi
+
= (xi- x )/σx , (37)
yi
+
= (yi- y )/σy . (38)
Tím jsme zajistili, že xi
+
i yi
+
mají nulovou střední hodnotu a jednotkovou
směrodatnou odchylku. V tomto okamžiku už můžeme diskutovat o tom, jak se změní yi
+
při
nějaké změně xi
+
. Veličinou, která popisuje tento vztah, je korelační koeficient r. Korelační
koeficient je možné vypočítat ze vztahu:
17














−














−
−
=
∑∑∑∑
∑∑∑
====
===
2
11
2
2
11
2
111
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
ii
yynxxn
yxyxn
r (39)
Zaměřme se na otázku, jakých hodnot může korelační koeficient nabývat. Existuje-li
mezi veličinami x a y pozitivní lineární závislost, pak vzroste-li x o jednu směrodatnou
odchylku, vzroste i y o jednu směrodatnou odchylku a r=1. Existuje-li mezi veličinami x a y
negativní lineární závislost, pak vzroste-li x o jednu směrodatnou odchylku, klesne y o jednu
směrodatnou odchylku a r = -1. Není-li mezi proměnnými žádná závislost, nedojde při
jakékoliv změně proměnné x k žádné změně proměnné y a korelační koeficient r = 0.
Už rozumíme, jaký význam mají extrémní hodnoty korelačního koeficientu. Pokusme
se teď interpretovat, jaký význam má korelační koeficient 0,43 nebo –0,16. Kladná hodnota
0,43 indikuje, že s rostoucím x roste y, záporná hodnota -0,16 pak znamená, že s rostoucím x
klesá y.
Pomocí korelačního koeficientu můžeme testovat nulovou hypotézu r=0,0 (mezi
proměnnými x a y není závislost). Testovací veličinou je
2
1
2
r
r
nt
−
−= . (40)
Je-li testovací veličina t větší než hodnota Studentova rozdělení na dané hladině významnosti
α, s příslušným počtem stupňů volnosti t1-α/2(n-2), můžeme zamítnout nulovou hypotézu
r=0,00.
Tabulka: Kvantily Studentova rozdělení pro k=n-2 stupňů volnosti
k 1 2 3 4 5 6 7 8 9 10 12 15 20 30 ∞
α=0,05 12,71 4,30 3,18 2,78 2,57 2,45 2,37 2,31 2,26 2,23 2,18 2,13 2,09 2,04 1,96
α=0,01 63,66 9,93 5,84 4,60 4,03 3,71 3,50 3,36 3,25 3,17 3,06 2,95 2,85 2,75 2,58
Druhá mocnina korelačního koeficientu se nazývá koeficient determinace a určuje ,
jak velká část rozptylu veličiny y je vysvětlitelná veličinou x.
18
Výpočet regresní přímky (příklad)
Ruční výpočet
Mějme deset experimentálně zjištěných dvojic xi a yi. zadaných prvními třemi sloupci
následující tabulky. Dopočítejme hodnoty x2
, y2
a xy, a doplňme je do dalších tří sloupců.
Spočítejme v každém sloupci součet hodnot a zapišme ho do posledního řádku tabulky:
i x y x2
y2
xy
1 10 194 100 37636 1940
2 20 389 400 151321 7780
3 30 332 900 110224 9960
4 40 466 1600 217156 18640
5 50 483 2500 233289 24150
6 60 618 3600 381924 37080
7 70 591 4900 349281 41370
8 80 674 6400 454276 53920
9 90 742 8100 550564 66780
10 100 900 10000 810000 90000
Σ 550 5389 38500 3295671 351620
V posledním řádku tabulky máme všechny veličiny potřebné pro vyčíslení vztahů (31-36).
Dosazením do vztahu (32) vypočítáme:
694,6
82500
48770
55038500.10
5389.550351620.10
21 ==
−
−
=β
a dosazením do vztahu (31):
( ) 7,170550.694,65389
10
1
0 =−=β .
Tím jsme vypočítali odhady parametrů β0 a β1. Nyní odhadneme jejich směrodatné odchylky.
Ze vztahu (33) vypočteme S0 = 21866 a pak ze vztahu (34) s = 52,28. Veličinu s dosadíme do
vztahů (35) a (36) a dostaneme 71,350
=βσ a 58,01
=βσ . Vypočítali jsme tedy odhady
parametrů regresní rovnice ( )401700 ±=β a 6,074,61 ±=β .
Ze vztahu (36) vypočítáme hodnotu korelačního koeficientu
[ ][ ]
972,0
568348
552250
53893295671.1055038500.10
5389.550351620.10
22
==
−−
−
=r
Na závěr otestujme pomocí vztahu (40) hodnotu r. Vypočítáme parametr t:
63,11
972,01
972,0
8
2
=
−
=t
Srovnáním s tabulkou kvantilů Studentova rozdělení pro k=8 a α=0,05 resp. α=0,01,
které jsou 2,31 resp. 3,36 vidíme, že tato hodnota značně převyšuje kritickou hodnotu
Studentova rozdělení. Můžeme tedy zamítnout nulovou hypotézu a pokládat vliv proměnné x
na proměnnou y za prokázaný. Zdůrazněme, že tento test nám pouze potvrdil korelaci mezi
proměnnými x a y. Podobnou informaci můžeme získat i z dříve vypočítané hodnoty
6,074,61 ±=β . Protože je hodnota směrnice přímky větší než trojnásobek její chyby,
můžeme opět tvrdit, že směrnice β1>0 a tedy existuje korelace mezi proměnnými x a y.
19
Výpočet v Excelu
Vstupní hodnoty jsou uloženy v listu Excelu:
Vybereme v listu Excelu oblast o dvou sloupcích a pěti řádcích a do příkazového řádku
vepíšeme vzorec =LINREGRESE(C2:C11;B2:B11;1;1):
Vložíme vzorec maticově do vybraných buněk současným stiskem kláves Ctrl+Shift+Enter:
Ze zvolené oblasti nás nejvíc zajímají první tři řádky. V prvním řádku jsou odhady regresních
parametrů, ve druhém pak jejich směrodatné odchylky. V prvním sloupci třetího řádku je pak
druhá mocnina korelačního koeficientu r2
. Získali jsme tedy všechny důležité parametry
regresní přímky.
Pokud se zobrazilo číslo jen v jedné buňce vybrané oblasti nebo je v některých buňkách
chybové hlášení #HODNOTA! případně ########, nevložili jste pravděpodobně vzorec
klávesami Ctrl+Shift+Enter, ale jen Enter nebo rozkopírováním jedné buňky.