7 Úvod do zpracování měření Teorie chyb Opakujeme-li měření téže fyzikální veličiny za stejných podmínek několikrát za sebou, dostáváme zpravidla různé hodnoty. Měřené veličině přísluší však jediná správná hodnota. Každou odchylku naměřené hodnoty od správné hodnoty nazýváme obecně chybou. Chybou měření ∆X budeme rozumět rozdíl mezi hodnotou správnou X a hodnotou x získanou měřením, tedy xXX −=∆ . (1) Chyba může být jak kladná, tak i záporná. Je-li chyba kladná, musíme ji k naměřené hodnotě přičíst, abychom dostali hodnotu správnou, a naopak ji odečítáme, jde-li o chybu zápornou. Udáváme-li chybu rozdílem správné hodnoty a naměřené hodnoty dané veličiny, tj. absolutně, mluvíme o absolutní chybě měřené veličiny. Rovnice (1) je pak rovnicí pro absolutní chybu. Jestliže vyjádříme chybu relativně vůči měřené hodnotě, docházíme k pojmu relativní chyby měřené veličiny. Relativní chybou δ měřené veličiny rozumíme poměr absolutní chyby ∆X této veličiny a správné hodnoty veličiny X. Pro relativní chybu tedy platí X X∆ =δ . (2) Relativní chybu lze také vyjádřit poměrem naměřené a správné hodnoty dané veličiny: X x −=δ 1 . (3) Relativní chyba se velmi často udává v procentech. Z obou uvedených výrazů (2 i 3) je patrné, že také relativní chyba může nabývat kladných i záporných hodnot. Podle jejich původu dělíme chyby do tří skupin: Chyby hrubé vznikají při měření prováděném nedbale nebo nepozorně, s nedokonalými či vadnými přístroji, při užití nevhodné metody. Naměřená hodnota se při opakovaném měření značně liší od ostatních, a proto je nutné ji nahradit novým měřením nebo ji při konečném zpracování výsledků neuvažovat. Chyby systematické (soustavné) jsou způsobeny stále stejnými a pravidelnými vlivy, tedy výsledek měření je soustavně větší nebo menší než správná hodnota. Podle toho můžeme systematické chybě přisoudit určité znaménko. Původ systematických chyb je obvykle buď v měřící metodě (založené na určitých zjednodušujících předpokladech), v měřících přístrojích (např. posunutí počátku (nuly) na stupnici, závislost výchylky na měřené veličině neodpovídá dělení stupnice apod.), nebo ve způsobu činnosti pozorovatele (např. odhad a zaokrouhlování zlomků dílků na stupnici, pozorování stupnice a ukazatele z nevhodného směru – chyba úkosu, paralaxa). V řadě případů je možno systematické chyby vyloučit vhodnými korekcemi. Systematické chyby nelze vyloučit statistickými metodami. Chyby náhodné vznikají zcela náhodně vzájemným působením pozorovatele, přístroje a prostředí. Jejich původ nemůžeme odhalit. Každou náhodnou chybu můžeme považovat za složenou z velkého počtu velmi malých náhodně vzniklých a ojediněle nepozorovatelných elementárních chyb. O těchto elementárních chybách můžeme předpokládat, že jejich znaménka i velikosti jsou nepravidelně rozděleny a aby vznikla pozorovatelná chyba, musí se jich složit větší počet. Elementární chyby jsou kladné i záporné a jejich složením dojde pravděpodobně stejně často k chybám kladným i záporným. Nejčastěji se sejde přibližně stejný počet elementárních chyb kladných i záporných, čímž vzniknou malé náhodné chyby. Méně často se vyskytuje případ, že převažují elementárních chyby stejného znaménka, a pak 8 vznikne náhodná chyba větší. Takové případy jsou málo pravděpodobné, takže počet náhodných chyb bude s velikostí chyby znatelně klesat. Chyby systematické nás svým způsobem informují o správnosti měření, chyby náhodné o přesnosti měření. Normální rozdělení Obecně lze říci, že toto rozdělení je použitelné všude tam, kde na kolísání náhodné veličiny působí velký počet nepatrných a vzájemně nezávislých jevů. Pro nahodilé rozdělení měřených hodnot při počtu měření, které se blíží nekonečnu, platí vztah, odvozený Gaussem – tzv. normální statistické rozdělení, jemuž odpovídá i analogické vyjádření pro rozdělení četnosti náhodných chyb. Ze statistického rozboru tohoto problému plyne několik důležitých závěrů, které umožňují určit nejpravděpodobnější hodnotu měřené veličiny a interval, v němž se dá očekávat skutečná hodnota s předem zvolenou pravděpodobností: Kdybychom mohli vykonat nekonečný počet měření, pak by z přesné platnosti zákona četnosti plynulo, že počet kladných chyb je rovný počtu záporných chyb a že se tedy součet všech chyb rovná nule. Aritmetický průměr všech měření by pak udával správnou hodnotu měřené veličiny. Při skutečných měřeních můžeme najít pouze nejpravděpodobnější hodnotu měřené veličiny. Předpokládejme pro veličinu x měřením získané hodnoty x1, x2, ….. , xn. Předpokládejme dále, že chyby v jednom směru (kladné odchylky) jsou právě tak pravděpodobné jako chyby ve směru druhém (záporné odchylky), takže součet všech chyb je roven nule. Označíme-li pravděpodobnou hodnotu měřené veličiny x , pak platí ( ) ( ) ( ) 0.....21 =−++−+− nxxxxxx (4) a odtud plyne pro pravděpodobnou hodnotu x měřené veličiny výraz ∑ = = n i ix n x 1 1 . (5) Pravděpodobnou hodnotou je aritmetický průměr naměřených hodnot. To ovšem neznamená, že aritmetický průměr je přesně rovný správné hodnotě. Jeho smysl je ten, že kdybychom měli velký počet řad o konečném počtu měření, vedl by aritmetický průměr častěji ke správné hodnotě, než kdybychom hodnotu měřené veličiny počítali jakýmkoli jiným způsobem. Každá hodnota kk xx −=∆ udává odchylku měření od aritmetického průměru. Abychom určili střední chybu jednotlivého měření, nemůžeme odchylky sečíst a dělit počtem měření, protože součet odchylek od aritmetického průměru je rovný nule. Proto odchylky umocníme a sečteme; součet označíme ∑∆2 . Dělíme-li tento součet počtem měření, dostaneme průměr ze čtverců chyb, který se ve statistice nazývá rozptyl nebo také variance a značí se 2 nσ . n n ∑∆ = 2 2 σ (6) Odmocnina z tohoto průměru je směrodatná odchylka σn n n ∑∆ = 2 σ . (7) Tuto hodnotu bychom mohli považovat za střední chybu jednoho měření, kdyby aritmetický průměr byl správnou hodnotou. Musíme však uvážit, že pro určení směrodatné odchylky máme k dispozici jen výběr ze souboru všech možných měření. Jedno měření potřebujeme k naměření hodnoty, zbývajících n-1 měření ke kontrole výpočtu chyby. Proto 9 pro výpočet střední chyby jednoho měření bereme n-1 místo n. Výběrová směrodatná odchylka σn-1 nazývaná též střední kvadratická chyba jednoho měření je 1 2 1 − ∆ = ∑ − n nσ . (8) Nás však bude především zajímat, jakou chybou je zatížen výsledek měření aritmetický průměr. Tento průměr je stanoven z většího počtu naměřených hodnot, máme tedy větší jistotu, že se skutečné hodnotě blíží aritmetický průměr, než pouze jediná hodnota měření. Projeví se to i v chybách: aritmetickému průměru přísluší menší chyby, než jednotlivým měřením. Teorie chyb vede k výsledku, že chyba aritmetického průměru je n krát menší než chyba jednoho měření, přičemž n je počet měření. Směrodatná odchylka aritmetického průměru (střední kvadratická chyba) je dána vztahem ( )1 2 − ∆ = ∑ nn σ . (9) Vztah (9) není příliš vhodný pro praktický výpočet, protože pro výpočet odchylek od průměru je třeba mít průměr předem vypočítaný. Můžeme vyjádřit: ( ) ( ) ( )222222 1 2 ∑∑∑∑∑ −=+−=−=∆ iiiii x n xxxxxxx , (10) využili jsme při tom skutečnosti, že ( )22 22 ∑∑ ∑ ∑ == ii i i x n x n x xx a ( ) ( )2 2 2 22 1 ∑ ∑ ∑ === i i x nn x nxnx . (11) Do (1.9) dosadíme (1.10) a (1.11) a dostaneme ( ) ( )1 1 22 − − = ∑∑ nn x n x ii σ . (12) Na obrázku 1 je nakreslena funkce hustoty pravděpodobnosti pro normální rozdělení. Obr. 1: Funkce hustoty pravděpodobnosti pro normální rozdělení. 10 Plocha pod křivkou (integrál funkce) je úměrná pravděpodobnosti, se kterou správná hodnota může nabývat hodnot vynesených na ose x. V intervalu (-σ, σ) (na obr. 1 vybarveno tmavě) je tato pravděpodobnost 0,683, to znamená. že v tomto intervalu by mělo být 68% hodnot. V intervalu (-2σ, 2σ) (na obr. 1 vybarveno světle i tmavě) je pravděpodobnost 0,955. V intervalu (-3σ, 3σ) pak je to 0,997. Kromě střední chyby uvádíme někdy také pravděpodobnou chybu, která je rovna 2/3 střední chyby. Její význam je tento: je stejně pravděpodobné, že chyba jednoho měření (libovolně vybraného) je menší než pravděpodobná chyba, jako že tato chyba je větší než pravděpodobná chyba. Při velkém počtu měření je tedy polovina skutečných chyb menší, druhá polovina větší než pravděpodobná chyba. Pravděpodobná chyba jednoho měření je 1 3 2 −= nσϑ . (13) V některých případech používáme ještě krajní chybu χ, která je rovna trojnásobku střední chyby: σχ 3= . U krajní chyby máme pravděpodobnost 99,73 %, že se nám v měření nevyskytne hodnota s chybou větší než je krajní chyba. Jednu chybu větší než χ můžeme tedy očekávat průměrně v 370 měřeních. Vzájemné vztahy mezi uvedenými chybami jsou následující: 3:1:67,0:: =χσϑ . (14) Stejné vztahy jako mezi chybami jednoho měření jsou i mezi odpovídajícími chybami aritmetického průměru. Na Gaussově křivce (obr. 1) odpovídá pravděpodobné chybě hodnota, jejíž pořadnice dělí plochu Gaussovy křivky na části, z nichž prostřední zaujímá polovinu celkové plochy, obě krajní také polovinu. Geometrický význam střední kvadratické chyby je ten, že v místě σ má Gaussova křivka inflexní bod. Aby bylo zřejmé, do jaké míry je zaručen výsledek měření, připisujeme k němu jeho střední kvadratickou chybu. Píšeme tedy výsledek ve tvaru: σ±= xx . (15) Číselně uvádíme chybu zpravidla pouze na jedno platné místo a počet číslic ve výsledku omezíme tak, aby chyba zasahovala pouze do posledního místa. Například: m=(27,32 ± 0,04) g. V případě, že je mantisa chyby 1, uvádíme chybu zpravidla na dvě místa (např. m=(27,32 ± 0,12) g). Pokud z nějakých důvodů uvádíme jinou chybu než střední kvadratickou, je třeba na tento fakt v textu výslovně upozornit! Obr. 2: Závislost chyby průměru na počtu měření. Chyba průměru je vynášena jako násobek výběrové chyby jednoho měření. 11 Je zřejmé, že čím větší počet měření vykonáme, tím máme větší jistotu při stanovení výsledné hodnoty a tím menší bude chyba výsledku. Závislost střední chyby aritmetického průměru na počtu měření je graficky znázorněna na obr.2. Vidíme, že se vzrůstajícím počtem měření klesá chyba aritmetického průměru zpočátku prudce, pak mírně. Z této křivky můžeme odhadnout, kolik musíme vykonat měření,abychom dosáhli požadované přesnosti. Obvykle stačí měřit desetkrát; při dalším zvyšování počtu měření vzrůstá přesnost výsledku jen velmi zvolna. Výpočet aritmetického průměru a chyby (příklad) Ruční zpracování Posuvným měřítkem byla stanovena desetkrát tloušťka x, přičemž byly odhadovány ještě desetiny dílků stupnice. Výsledky jsou uvedeny v tabulce: i xi (cm) 2 ix (cm2 ) 1 0,256 0,0655 2 0,258 0,0666 3 0,255 0,0650 4 0,255 0,0650 5 0,254 0,0645 6 0,256 0,0655 7 0,257 0,0660 8 0,255 0,0650 9 0,259 0,0671 10 0,254 0,0645 Σ 2,559 0,654873 2559,0 10 559,2 === ∑ n x x i cm Aritmetický průměr tloušťky je 0,2559 cm. ( ) ( ) = − = − − = ∑∑ 90 10/559,2654873,0 1 1 2 22 nn x n x ii σ 00053,0 90 6548481,0654873,0 = − cm. Směrodatná odchylka aritmetického průměru je 0,00053 cm. Zaokrouhlíme na jednu platnou číslici: 0005,0±=σ cm. Výsledek měření napíšeme tak, že k aritmetickému průměru připíšeme střední kvadratickou chybu zaokrouhlenou na jedno platné místo: x=(0,2559±0,0005) cm. Pravděpodobná chyba aritmetického průměru je rovna dvěma třetinám směrodatné odchylky: 00035,000053,0. 3 2 3 2 ±=±== σϑ cm. Zpracování v Excelu Výpočet průměru s směrodatné odchylky průměru je v Excelu velmi jednoduchý. Pro výpočet aritmetického průměru obsahuje funkci PRŮMĚR(). Pro směrodatnou odchylku průměru není k dispozici přímá funkce a je třeba použít funkce SMODCH(), která vrací směrodatnou odchylku jednoho měření vypočítanou podle vztahu (1.7). Abychom získali směrodatnou odchylku průměru, je třeba tuto hodnotu vydělit, v souladu se vztahem (1.9), odmocninou z počtu měření zmenšeného o jednu. 12 Obr. 2: Výřez listu Excelu s výpočtem průměru a jeho směrodatné odchylky. Výpočet chyby hodnoty funkce z chyb nezávisle proměnných Než přejdeme k určení chyby aritmetického průměru, předpokládejme, že máme z výsledků měření několika vzájemně nezávislých veličin x, y, z, ……, určit hodnotu veličiny V = f (x,y,z, …) (16) (Veličina V je tedy výsledkem nepřímých měření). Jsou-li chyby jednotlivých měřených veličin ( )xσ , ( )yσ , ( )zσ , ……, (nemusí to ovšem být právě směrodatné odchylky, mohou to být chyby odpovídající jiné pravděpodobnosti výskytu, avšak pro všechny veličiny x, y, z, …., stejného druhu), pak při počítání chyby veličiny V s nimi pracujeme podobně jako s diferenciály nezávisle proměnných. Z teorie pravděpodobnosti pro chybu veličiny V dostáváme ( ) ( )[ ] ( )[ ] ..... 2 2 2 2 +      ∂ ∂ +      ∂ ∂ = y y f x x f V σσσ . (17) Je-li V = f (x) (funkce jedné nezávisle proměnn0), pak ( ) ( ) ( ) ( )xxfx dx df V σσσ ′== . (18) Např. je-li V = ax, je ( ) ( )xaV σσ = . Zavedeme-li relativní chybu ( ) ( ) x x x σ δ = pak pro k xV = je ( ) ( )xkxV k σδ 1− = (19) a odtud ( ) ( ) ( )xk V V V δ σ δ .== . (20) Pro yxV ±= je 1= ∂ ∂ x f , 1±= ∂ ∂ y f a ( ) ( ) ( )yxV 22 σσσ += . (21) Geometricky to znamená, že chybu součtu nebo rozdílu dvou veličin určíme jako délku přepony v pravoúhlém trojúhelníku, o odvěsnách rovných velikostem chyb jednotlivých sčítanců. Toto pravidlo snadno rozšíříme i na větší počet sčítanců. Pro součin yxV .= dostaneme ( ) ( ) ( )xyyxV 2222 .. σσσ += (22) nebo relativní chybu součinu 13 ( ) ( ) ( )xxV 22 δδδ += . (23) Vidíme, že relativní chyba součinu je vyjádřena podobným vztahem, jako absolutní chyba součtu. Snadno se odvodí podobné vztahy i pro chybu součinu zyxV ..= a podílu y x V = . (Odvoďte sami, obojí i pro relativní chyby). Příklad 1: Vypočteme objem V válečku a jeho střední kvadratickou chybu ( )Vσ užitím vzorce hrV .. 2 π= , kde r je poloměr válečku a h jeho výška. Mikrometrem byl změřen průměr d válečku: d = (2,442 ± 0,004) cm, posuvným měřítkem výška h válečku: h = (4,56 ± 0,01) cm. Vypočteme nejdříve poloměr válečku. Poloměr 2 d r = = 1,221 cm. Střední chyba poloměru je rovna polovině střední chyby průměru: ( ) ( ) 002,0 2 == d r σ σ cm. Poloměr válečku je tedy r = (1,221± 0,002) cm. Dosadíme do vzorce hrV .. 2 π= : V=3,142.(1,221)2 . 4,56 = 21,25 . Protože průměr je měřen na čtyři místa, výška na tři, počítáme objem zkráceně na čtyři místa. Objem V = 21,25 cm3 . Střední chybu tohoto výsledku vypočteme dosazením do vzorce ( ) ( ) ( ) ( ) ( ) 22     ∂ ∂ +    ∂ ∂ ±= h h V r r V V σσσ . Protože parciální derivace r V ∂ ∂ a h V ∂ ∂ jsou rh r V π= ∂ ∂ 2 , 2 r h V π= ∂ ∂ , je ( ) ( )[ ] ( )[ ]222 2 hrrhrV δπσπσ +±= a po úpravě ( ) ( ) ( ) ( ) ( ) 2 22 2 22 2       +    ±= h h hr r r hrV σ π σ πσ . Absolutní střední chyba výsledku je dána vzorcem ( ) ( ) ( ) 22 2       +      ±= h h r r VV σσ σ a relativní chyba ( ) ( ) ( ) 22 2 )(       +      ±== h h r r V V V σσσ δ . Numericky počítáme absolutní střední chybu objemu na jedno místo, tj pod odmocninou na dvě místa různá od nuly: ( ) 22 22 0022,00033,0.25,21 56,4 01,0 221,1 004,0 .25,21 +±=      +      ±=Vσ = 14 000016,0.25,21000005,0000011,0.25,21 =+±= = 08,0004,0.25,21 =±= & . Střední kvadratická chyba objemu válečku je 0,08 cm3 . Výsledek píšeme ve tvaru: Objem V = (21,25±0,08) cm3 . Poznámka 1: Při výpočtu jsme viděli, že relativní chyba poloměru, který je ve vzorci pro výpočet objemu ve druhé mocnině, se uplatnila dvojnásobně, bylo by proto vhodné měřit poloměr s větší přesností! Vypočteme ještě relativní chybu objemu: ( ) 0038,0 25,21 08,0 == V Vσ . Relativní chyba objemu je 0,0038, tj. přibližně 0,4%. Poznámka 2: U funkcí typu u = xk ym zn vychází pro relativní chybu vztah ( ) ( ) ( ) ( ) 222 ...     +      +    ±= z zn y ym x xk u u σσσσ . Příklad 2: Určete chybu objemu koule vypočítaného z naměřeného průměru d: Protože platí vztah 3 6 dV π = , určíme ( ) ( )ddV σ π σ 2 2 = , takže ( ) ( ) d d V V σσ 3= . Sami zvažte, co plyne z provedeného rozboru chyby. Regresní analýza V praxi se často setkáme s úkolem, kdy nějaká proměnná y je funkcí nezávisle proměnné x, tedy y=f (x). Z hodnot {xi,yi} pak máme odhadnout parametry funkční závislosti. Zpravidla předpokládáme, že hodnoty xi jsou dány pevně a hodnoty yi byly získány měřením. Kdyby měření hodnot yi nebylo zatíženo chybami, platilo by yi=f (xi). Ve skutečnosti však platí yi=f (xi)+∆i, kde ∆i je chyba i-tého měření. Body [xi,yi] jsou pak vlivem chyb rozptýleny kolem křivky y=f (x). Obecně funkce y=f (x) obsahuje p neznámých konstant - parametrů, které označíme b0,...bp-1. Máme-li soustavou bodů [xi,yi] proložit křivku y=f(x;b0,..., bp-1), musíme určit (statisticky odhadnout) neznámé parametry b0,..., bp-1, které se vyskytují v rovnici křivky. Při tom vyžadujeme, aby se křivka co nejvíc přiblížila blížila bodům [xi,yi]. Statistický odhad parametru bi označme βi. Způsob odhadu βi závisí na tom, jak definujeme "přiblížení". Mohli bychom například požadovat, aby součet absolutních hodnot odchylek bodů od křivky byl minimální. V praxi se však nejčastěji za kritétium přiblížení považuje suma čtverců hodnot yi=f(xi; β0, ..., βp-1) a odhadem parametrů β0, ..., βp-1 jsou pak hodnoty, které tento součet čtverců minimalizují. Označíme-li ( )( )∑= −−= n i pii xfyS 1 2 10 ,...,; ββ , (24) 15 budou odhady βi určeny z podmínky S = min. (25) Touto podmínkou je vyjádřen princip metody nejmenších čtverců. O křivce y=f(x; β0,..., βp-1) říkáme, že byla body [xi, yi] proložena metodou nejmenších čtverců. Nejčastěji se setkáme s případem, kdy je očekávaná závislost lineární y=b0+b1x. (26) Chceme tedy nalézt parametry β0 a β1 tak, aby co nejlépe odpovídaly zadaným bodům. Podle (24 a 25) můžeme odhady β0 a β1 určit z podmínky ( )∑= =−−= n i ii xyS 1 2 10 .minββ (27) Hodnoty parametrů β0 a β1, které minimalizují sumu čtverců odchylek S, 0 0 = ∂ ∂ β S a 0 1 = ∂ ∂ β S (28) dostaneme soustavu dvou rovnic 0 11 10 0 =−+= ∂ ∂ ∑∑ == n i i n i i yxn S ββ β (29) a 0 11 2 1 1 0 1 =−+= ∂ ∂ ∑∑∑ === n i ii n i i n i i yxxx S ββ β (30) Jejím řešením získáme odhady β0 a β1, parametrů b0 a b1:       −= ∑∑ == n i i n i i xy n 1 1 1 0 1 ββ (31) 2 11 2 111 1       −             − = ∑∑ ∑∑∑ == === n i i n i i n i i n i i n i ii xxn yxyxn β (32) Podobně lze nalézt odhady parametrů i pro jiné (složitější) regresní funkce. Bez odvození napíšeme odhady směrodatných odchylek 0βσ a 1βσ parametrů β0 a β1. Označme:                         −−       −= ∑∑ ∑ ∑ ∑ == = = = n yx yx n y yS n i i n i in i ii n i in i i 11 1 1 2 1 1 2 0 β , (33) 2 0 − = n S s , (34) směrodatné odchylky parametrů β0 a β1 pak vypočítáme ze vztahů: 2 11 2 1 2 1 1 0       − = ∑∑ ∑ == = n i i n i i n i i x n x x n sβσ (35) 16 2 11 2 1 1       − = ∑∑ == n i i n i i x n x s βσ (36) Výpočet lineární regrese pomocí Excelu K výpočtu lineární regrese metodou nejmenších čtverců slouží v Excelu funkce =LINREGRESE(), která vrací matici parametrů regresní funkce. Protože funkce vrací matici, je třeba s ní pracovat jako s maticovým vzorcem: 1) označíme v listu Excelu prázdnou oblast o pěti řádcích a dvou sloupcích, do které se umístí výsledky lineární regrese. 2) zadáme vzorec =LINREGRESE(y;x;b;stat), kde y je pole závisle proměnných (sloupec hodnot y), x je pole nezávisle proměnných (sloupec hodnot x), b je logická hodnota udávající, zda má být konstanta β0 rovna 0 (je-li b PRAVDA nebo 1, hodnota β0 se počítá, je-li b NEPRAVDA nebo 0, je pevně dáno β0 = 0). 3) po napsání vzorce zmáčkneme současně klávesy Ctrl+Shift+Enter (tím říkáme, že se má vzorec rozepsat do všech prvků matice); nebude-li vám výpočet regresní přímky fungovat, s vysokou pravděpodobností jste místo Ctrl+Shift+Enter odklepli jen Enter Výsledná matice pak obsahuje hodnoty: β1 β0 σβ1 σβ0 r2 σ F počet stupňů volnosti ssreg ssresid kde β0 a β1 jsou odhady parametrů parametrů b0 a b1 z rovnice (26), σβ0 a σβ1 jsou jejich směrodatné odchylky, r2 je koeficient determinace, σ směrodatná odchylka odhadu y, F je F-statistika (používá se při statistickém testování), počet stupňů volnosti (v případě regresní rovnice (26) je to počet hodnot zmenšená o 2), ssreg je regresní součet čtverců a ssresid reziduální součet čtverců. Korelační koeficient Mějme dvě řady proměnných xi a yi. V předchozích kapitolách jsme se pokoušeli nalézt parametry optimálně charakterizující vztah mezi těmito proměnnými. Míru závislosti mezi proměnnými je možné částečně odhadnout ze směrodatných odchylek parametrů charakterizujících tento vztah, kdy můžeme předpokládat, že čím větší jsou relativní chyby těchto parametrů, tím slabší bude závislost. My však potřebujeme kvantitativní veličinu, která nám popíše, jak se změní veličina y při nějaké změně veličiny x. Při tom veličiny x a y mohou být zcela nesouměřitelné. Abychom mohli veličiny x a y srovnat, musíme je standardizovat a to tak, že od každé veličiny odečteme průměr a rozdíl vydělíme směrodatnou odchylkou. Standardizované veličiny xi + a yi + jsou definovány vztahy: xi + = (xi- x )/σx , (37) yi + = (yi- y )/σy . (38) Tím jsme zajistili, že xi + i yi + mají nulovou střední hodnotu a jednotkovou směrodatnou odchylku. V tomto okamžiku už můžeme diskutovat o tom, jak se změní yi + při nějaké změně xi + . Veličinou, která popisuje tento vztah, je korelační koeficient r. Korelační koeficient je možné vypočítat ze vztahu: 17               −               − − = ∑∑∑∑ ∑∑∑ ==== === 2 11 2 2 11 2 111 n i i n i i n i i n i i n i i n i i n i ii yynxxn yxyxn r (39) Zaměřme se na otázku, jakých hodnot může korelační koeficient nabývat. Existuje-li mezi veličinami x a y pozitivní lineární závislost, pak vzroste-li x o jednu směrodatnou odchylku, vzroste i y o jednu směrodatnou odchylku a r=1. Existuje-li mezi veličinami x a y negativní lineární závislost, pak vzroste-li x o jednu směrodatnou odchylku, klesne y o jednu směrodatnou odchylku a r = -1. Není-li mezi proměnnými žádná závislost, nedojde při jakékoliv změně proměnné x k žádné změně proměnné y a korelační koeficient r = 0. Už rozumíme, jaký význam mají extrémní hodnoty korelačního koeficientu. Pokusme se teď interpretovat, jaký význam má korelační koeficient 0,43 nebo –0,16. Kladná hodnota 0,43 indikuje, že s rostoucím x roste y, záporná hodnota -0,16 pak znamená, že s rostoucím x klesá y. Pomocí korelačního koeficientu můžeme testovat nulovou hypotézu r=0,0 (mezi proměnnými x a y není závislost). Testovací veličinou je 2 1 2 r r nt − −= . (40) Je-li testovací veličina t větší než hodnota Studentova rozdělení na dané hladině významnosti α, s příslušným počtem stupňů volnosti t1-α/2(n-2), můžeme zamítnout nulovou hypotézu r=0,00. Tabulka: Kvantily Studentova rozdělení pro k=n-2 stupňů volnosti k 1 2 3 4 5 6 7 8 9 10 12 15 20 30 ∞ α=0,05 12,71 4,30 3,18 2,78 2,57 2,45 2,37 2,31 2,26 2,23 2,18 2,13 2,09 2,04 1,96 α=0,01 63,66 9,93 5,84 4,60 4,03 3,71 3,50 3,36 3,25 3,17 3,06 2,95 2,85 2,75 2,58 Druhá mocnina korelačního koeficientu se nazývá koeficient determinace a určuje , jak velká část rozptylu veličiny y je vysvětlitelná veličinou x. 18 Výpočet regresní přímky (příklad) Ruční výpočet Mějme deset experimentálně zjištěných dvojic xi a yi. zadaných prvními třemi sloupci následující tabulky. Dopočítejme hodnoty x2 , y2 a xy, a doplňme je do dalších tří sloupců. Spočítejme v každém sloupci součet hodnot a zapišme ho do posledního řádku tabulky: i x y x2 y2 xy 1 10 194 100 37636 1940 2 20 389 400 151321 7780 3 30 332 900 110224 9960 4 40 466 1600 217156 18640 5 50 483 2500 233289 24150 6 60 618 3600 381924 37080 7 70 591 4900 349281 41370 8 80 674 6400 454276 53920 9 90 742 8100 550564 66780 10 100 900 10000 810000 90000 Σ 550 5389 38500 3295671 351620 V posledním řádku tabulky máme všechny veličiny potřebné pro vyčíslení vztahů (31-36). Dosazením do vztahu (32) vypočítáme: 694,6 82500 48770 55038500.10 5389.550351620.10 21 == − − =β a dosazením do vztahu (31): ( ) 7,170550.694,65389 10 1 0 =−=β . Tím jsme vypočítali odhady parametrů β0 a β1. Nyní odhadneme jejich směrodatné odchylky. Ze vztahu (33) vypočteme S0 = 21866 a pak ze vztahu (34) s = 52,28. Veličinu s dosadíme do vztahů (35) a (36) a dostaneme 71,350 =βσ a 58,01 =βσ . Vypočítali jsme tedy odhady parametrů regresní rovnice ( )401700 ±=β a 6,074,61 ±=β . Ze vztahu (36) vypočítáme hodnotu korelačního koeficientu [ ][ ] 972,0 568348 552250 53893295671.1055038500.10 5389.550351620.10 22 == −− − =r Na závěr otestujme pomocí vztahu (40) hodnotu r. Vypočítáme parametr t: 63,11 972,01 972,0 8 2 = − =t Srovnáním s tabulkou kvantilů Studentova rozdělení pro k=8 a α=0,05 resp. α=0,01, které jsou 2,31 resp. 3,36 vidíme, že tato hodnota značně převyšuje kritickou hodnotu Studentova rozdělení. Můžeme tedy zamítnout nulovou hypotézu a pokládat vliv proměnné x na proměnnou y za prokázaný. Zdůrazněme, že tento test nám pouze potvrdil korelaci mezi proměnnými x a y. Podobnou informaci můžeme získat i z dříve vypočítané hodnoty 6,074,61 ±=β . Protože je hodnota směrnice přímky větší než trojnásobek její chyby, můžeme opět tvrdit, že směrnice β1>0 a tedy existuje korelace mezi proměnnými x a y. 19 Výpočet v Excelu Vstupní hodnoty jsou uloženy v listu Excelu: Vybereme v listu Excelu oblast o dvou sloupcích a pěti řádcích a do příkazového řádku vepíšeme vzorec =LINREGRESE(C2:C11;B2:B11;1;1): Vložíme vzorec maticově do vybraných buněk současným stiskem kláves Ctrl+Shift+Enter: Ze zvolené oblasti nás nejvíc zajímají první tři řádky. V prvním řádku jsou odhady regresních parametrů, ve druhém pak jejich směrodatné odchylky. V prvním sloupci třetího řádku je pak druhá mocnina korelačního koeficientu r2 . Získali jsme tedy všechny důležité parametry regresní přímky. Pokud se zobrazilo číslo jen v jedné buňce vybrané oblasti nebo je v některých buňkách chybové hlášení #HODNOTA! případně ########, nevložili jste pravděpodobně vzorec klávesami Ctrl+Shift+Enter, ale jen Enter nebo rozkopírováním jedné buňky.