KONTINGENČNÍ TABULKY 201 Příklad 4.2 Výzkumná agentura zjišťovala u 128 náhodně vybraných osob, zda v referendu souhlasili se vstupem ČR do Evropské unie a zda nyní, řadu let po vstupu, mají stejný názor. Získané údaje obsahuje následující tabulka. Lze považovat zjištěnou změnu názorů za významnou? Názor v referendu Nynější názor na členství v EU kladný záporný kladný záporný 48 26 14 40 Řešení: Vzhledem k tomu, že v tomto případě v časovém odstupu zjišťujeme hodnoty téže alternativní proměnné, dostáváme zvláštní typ čtyřpolní kontingenční tabulky. Na jejím základě provedeme výpočet hodnoty McNemarovy statistiky _(nn-n2l)2 která má pro nn +nlx >30 asymptoticky chí-kvadrát rozdělení s jedním stupněm volnosti. Při 5% hladině významnosti tvoří kritický obor hodnoty testového kritéria převyšující 95% kvantil tohoto rozdělení (tj. 3,84). Z tabulky dostáváme hodnotu testového kritéria m 26 + 14 40 která nás neopravňuje na 5% hladině významnosti zamítnout testovanou hypotézu. Významnou změnu názorů jsme tedy neprokázali. Excel Při sestavení tabulky v Excelu nyní vyjdeme z četností, jež jsou součástí zadání příkladu. Kombinacím kategorií obou veličin přiřadíme příslušnou četnost. 202 STATISTIKA V PŘÍKLADECH S C D 1 řádek sloupec četnost 1 kladný kladný 48 3 kladný záporný 26 4 záporný kladný 14 5 záporný záporný 40 6 Nástroje pro sestavení kontin-genční tabulky používáme stejně jako v předchozím příkladu. Po jejich zobrazení jméno proměnné řádek přetáhneme do pole Popisky řádků, jméno proměnné sloupec do pole Popisky sloupců. Jméno proměnné četnosti přetáhneme do pole Hodnoty. Ještě je ovšem třeba provést změnu nastavení pole hodnot, která je zatím Počet z četnosti, na Součet z četnosti (klikneme na šipku, která je v pravé části tlačítka Počet z četnosti a dále zvolíme Nastavení polí hodnot). Obdržíme čtyřpolní kontingcnční tabulku. Součet z četnost Sloupce - Řádky kladný záporný Celkem kladný 48 26 74 záporný 14 40 54 Celkem 62 66 12S Výpočet testového kritéria provedeme z Četností v tabulce standardním způsobem na základě výše uvedeného vzorce. (Pro výpočty je výhodnější zkopírovat si potřebné sestavy; / řádek J sloupec .' četnost Přetáhnout pote mezi následujicíw oblastmi: / Ri$r sestavy ;_j Popisky sloupcfi -.J Popisky řádkč £ Hodnoty řádek w i Součet z č... w * KONTINGENČNÍ TABULKY 203 četnosti mimo tabulku, vzorce jsou přehlednější). Kritickou hodnotu určíme pomocí funkce CHISQ.INV.RT s argumenty 0,05 a 1; kvantil je, jak již bylo uvedeno, 3,84. □ Příklad 4.3 Na základě průzkumu, provedeného u čtenářů časopisů A, B a C, byla sestavena následující kontingenční tabulka. Rozhodněte, zda výběr časopisu závisí na vzdělání čtenáře. Vzdělání A Časopis B C Celkem ZŠ 75 75 50 200 sš 40 70 40 150 vš 35 5 10 50 Celkem 150 150 100 400 Řešení: Excel Sestavíme kontingenční tabulku. Součet z Četnost Časopi •* Vzdělání A 8 C Celkem základní 75 75 50 200 středoškolské 40 70 40 150 vysokoškolské 35 5 10 50 Celkem 150 ISO 100 400 Dále provedeme výpočet statistiky G. Absolutní četnosti z kontingenční tabulky překopírujeme například do oblasti A1:D4. Na jejich základě spočteme očekávané četnosti: 1) do pole A7 vložíme vzorec =A$4*$DS 1/400; 2) do pole A8 vložíme vzorec =A$4*$D$2/400; 3) do pole A9 vložíme vzorec =A$4*$D$3/400; pole zkopírujeme do sloupců B a C. Kontrolní součty všech sloupců i řádků a také celkový součet musí být stejné jako u původní kontingenční tabulky. V oblasti A7:D10 získáme tedy následující tabulku 204 STATISTIKA V PŘÍKLADECH 200 150 50 400 Pro účely výpočtu hodnoty statistiky G vložíme dále například do pole AI 1 vzorec =(A1-A7)A2/A7. Zkopírujeme jej do celé plochy kontingenční tabulky (A11:C13) a všechny obdržené hodnoty sečteme. Výsledkem je hodnota statistiky G, tedy 32,889. 0 0 0 3,361111 0,166667 14,03333 10,08333 0,5 32,88889 Kritickou hodnotu určíme pomocí funkce CHISQ.INV.RT s argumenty 0,05 a 4, kvantil je 9,5. Na hladine významnosti 0,05 je závislost volby časopisu na vzdělání prokázána. P-hodnota testu spočtená pomocí funkce CHISQ.TEST na základě výše uvedených zjištěných a očekávaných četností je prakticky nulová (l,3E-06), samozřejmě to opět znamená, že alternativní hypotéza byla prokázána. 75 75 50 56,25 56,25 37,5 18,75 18,75 12,5 150 150 100 KONTINGENČNÍ TABULKY 205 Cvičení 1. Na základě údajů v následující kontingenční tabulce (případně v souboru Zme-na.xlsx) ověřte (na 5% hladině významnosti), zda ochota přestěhovat se do jiného města ( 1 = „naprostý souhlas", 2 = „souhlas", 3 = ,je mi to jedno", 4 = „nesouhlas", 5 = „naprostý nesouhlas") závisí na pohlaví (1 = muž, 2 = žena). Která pole v kontingenční tabulce nejvíce přispívají k hodnotě testového kritéria? Určete výběrový koeficient kontingence. Ochota přestěhovat se Pohlaví 1 2 3 4 5 1 4 35 15 28 48 2 14 23 19 39 50 2. Následující kontingenční tabulka je výsledkem třídění výběrových údajů o úrovni znalostí o Evropské unii (1 = „nevím nic", 2 = „vím dost málo", 3 = „vím poměrně dost", 4 = „vím toho mnoho" a stáří respondenta (pět věkových skupin, 1 = nejmladší, ..., 5 = nejstarší). Lze říci, že úroveň znalostí o Evropské unii závisí na věku? Jsou splněny podmínky užití testu chí-kvadrát? Úroveň Věková skupina znalostí 1 2 3 4 5 1 2 2 4 7 6 2 13 20 13 31 40 3 27 36 50 40 50 4 10 10 12 13 14 3. Pro řídké tabulky sinalými četnostmi se často doporučuje spojování kategorií proměnných. Spojte v předchozí tabulce první tři věkové kategorie do jedné („mladší osoby") a zbývající věkové skupiny do druhé („starší osoby") a přesvědčte se o tom, že takový postup může ovlivnit výsledek testu. 4. Při zjišťování spokojenosti studentů ekonomie se studiem jsme zjistili, že u 46 dotázaných studium splňuje očekávání, 22 od studia očekávalo více, 34 dotázaných mčlo nižší nároky. Lze na 5% hladině významnosti říci, že je významný rozdíl mezi očekáváními a úrovní studia ekonomie? 206 STATISTIKA V PŘÍKLADECH Výsledky 1. G = 9,566; kritická hodnota pro a = 0,05 je 9,488 (závisí); naprostý souhlas a souhlas u obou pohlaví; C = 0,183; V= 0,187. 2. G = 14,300; kritická hodnota pro a = 0,05 je 21,026 (nezávisí); 4 očekávané četnosti z 20 (tj. 20 %) jsou nižší než pět, podmínky testu jsou splněny. 3. G = 9,552 ; kritická hodnota pro a = 0,05 je 7,815 (závisí). 4. Qmc = 2,571; kritická hodnota pro a = 0,05 je 3,841 (nelze). ANALÝZA ROZPTYLU i ANA 5 . Příkl U 18 nán u li dr.: hladil Y Ta KTvd*." k ovč ana.;, reci; měrr.. novel noty j Der. r motn< • : vnitro ANALÝZA ROZPTYLU 209 5 Analýza rozptylu Příklad 5.1 U 18 studentů byl zjišťován počet získaných kreditu za poslední semestr a zaznamenán údaj o studované fakultě, viz Tab. 5.1. Rozhodněte pomocí vhodného testu, zdali druh studované fakulty ovlivňuje počet získaných kreditů. Test proveďte na 5% hladině významnosti. Tab. 5.1 Fakulta Získané kredity 1 27,27,27,28,30,31 2 21,20,19,20,18,21 3 36,38,34,35,33,32 Řešení: V Tab. 5.1 jsou uspořádány hodnoty kvantitativní proměnné Y (počet získaných kreditů) podle hodnot faktoru X (studovaná fakulta). Vzhledem k povaze dat bude k ověření, zda-li je počet získaných kreditů ovlivněn studovanou fakultou, využita analýza rozptylu. Proměnná Y nabývá n hodnot, které je možné roztřídit do £ skupin (podle variant faktoru X), n, představuje počet pozorování v /-té skupině, yi je průměrná hodnota proměnné Y v /-té skupině a y je celkový průměr proměnné Y, stanovený na základě všech n hodnot. Dále označme jednotlivé skupinové střední hodnoty proměnné Y symboly //,. Definujme jednotlivé součty čtverců, které budeme využívat jednak k výpočtu samotného testového kritéria analýzy rozptylu, jednak k ověření předpokladů analýzy rozptylu. Celkový součet čtverců jako í=l 7=1 meziskupinový součet čtverců k ;=i vnitroskupinový součet čtverců 210 STATISTIKA V PŘÍKLADECH •V, XIFUk-l,n-k)}, kde F\_a představuje kvantil F-rozdělení. Pokud je hodnota testového kritéria větší než uvedený kvantil F-rozdělení, je zřejmé, že testovaná hypotéza o rovnosti středních hodnot bude na zvolené hladině významnosti a zamítnuta. Pokud se na dané hladině významnosti podaří prokázat, že jednotlivé střední hodnoty proměnné Y nejsou shodné, tj. pokud je na dané hladině významnosti zamítnuta testovaná hypotéza o jejich rovnosti, dále se zkoumá těsnost této závislosti. Měříme ji pomocí poměru determinace, který je definován jako pi _ Sy.m ANALÝZA ROZPTYLU 211 Tento poměr nabývá hodnot z uzavřeného intervalu od 0 do 1. Pokud je výsledkem hodnota 0, je to způsobeno tím, že meziskupinový součet čtverců je nulový. V takovém případě je celková variabilita tvořena pouze variabilitou uvnitř skupin a tedy proměnné jsou nezávislé (střední hodnoty proměnné Y jsou ve všech k skupinách podle faktoru X stejné). Čím je hodnota poměru determinace bližší jedné, tím je těsnost závislosti proměnné ľna faktoru X silnější. Uvedené použití analýzy rozptylu vychází z předpokladu, že hodnoty proměnné F v každé z k skupin představují výběry z normálního rozdělení, a že tyto výběry jsou nezávislé. Za závislé je možné považovat například výběry, kdy se sledují opakovaně hodnoty u stejných respondentů. Ověření normality lze provádět např. pomocí některé z grafických metod. Jak se často uvádí, porušení předpokladu normality proměnné V nemá zásadní vliv na rozdělení statistiky F u analýzy rozptylu. Dalším předpokladem analýzy rozptyluje shoda všech skupinových rozptylů of. Tento předpoklad je možné ověřit pomocí tzv. Bartlettova testu. V případě, že jsou rozsahy skupin stejné, uvádí se, že nesplnění předpokladu o shodě skupinových rozptylů nemá zásadní vliv na analýzu rozptylu. V Bartlettově testuje ověřována shoda všech skupinových rozptylů proměnné F proti alternativní hypotéze, která je negací testované hypotézy, tedy: H0:ť72 =o] =... = of, Hi: non H0. Testovým kritériem je statistika (rc-*)InS2-£(«,.-l)-lns,2 T = kde n — k Toto testové kritérium má při platnosti testované hypotézy H0 rozdělení %2 s (k - 1) stupni volnosti. Kritický obor je definován na základě nerovnosti 212 STATISTIKA V PŘÍKLADECH wa=>a2> wa={r>zla(k-V}> kde X\-a představuje kvantil rozdělení chí-kvadrát. Pokud je hodnota testového kritéria větší než uvedený kvantil chí-kvadrát rozdělení, je zřejmé, že testovaná hypotéza o rovnosti skupinových rozptylů bude na hladině významnosti a zamítnuta a předpoklad analýzy rozptylu o shodně skupinový rozptylů nebude splněn. V našem příkladu nejprve ověřme, zda-li je splněn předpoklad užití analýzy rozptylu pomocí Bartlettova testu. Jak bylo uvedeno výše, v našem konkrétním příkladu by však toto ověření nebylo bezpodmínečně nutné, neboť počty hodnot ve všech skupinách jsou stejné. Pomocné výpočty jsou uvedeny v Tab. 5.2. Tab. 5.2 j y« i n, y, (yy-yt? 0>/-y)2*«i 1 27 1,7778 2 27 1,7778 3 4 27 28 1 6 28,3333 1,7778 0,1111 3,1296 5 30 2,7778 6 31 7,1111 7 8 21 20 1,3611 0,0278 9 10 19 20 2 6 19,8333 0,6944 0,0278 362,9630 11 18 3,3611 12 21 1,3611 13 36 1,7778 14 38 11,1111 15 16 34 35 3 6 34,6667 0,4444 0,1111 298,6852 17 33 2,7778 18 32 7,1111 I 497 - 18 27,6111 45,5000 664,7778 Pro stanovení testového kritéria Bartlettova testu je třeba určit další hodnoty, které jsou uspořádány do Tab. 5.3. ANALÝZA ROZPTYLU 213 Tab. 5.3 í 2 rti ln s,2 {n, -l)-lns2 1 w,-l 1 3,0667 6 1,1206 5,6030 0,2 2 1,3667 6 0,3124 1,5619 0,2 3 4,6667 6 1,5404 7,7022 0,2 E - 18 - 14,8671 0,6 S využitím Tab. 5.2 stanovme hodnotu $i = 45^50 = 3 0333 18-3 kterou budeme potřebovat pro výpočet testového kritéria. Výpočet samotného testového kritéria s využitím pomocných výpočtů z Tab. 5.2 a Tab. 5.3 je následující (18 - 3) ■ ln(3,0333) -14,8671 0,6 T = ±---—í--—r-= 1,6327. 1 („ , 1 3(3-1) v 18-3 Kritickou hodnotou pro Barttlettův test je v našem případě kvantil ^95(2) = 5,9915 . Vzhledem k tomu, že hodnota testového kritéria nespadá do kritického oboru, na 5% hladině významnosti nezamítáme testovanou hypotézu Bartlettova testu, tedy předpoklad o rovnosti skupinových rozptylů můžeme považovat za splněný. Přistupme nyní k testování hypotézy o rovnosti středních hodnot u tří fakult, tedy H0: jUi = fi2 = &, Hi'. non H0. Testové kritérium F se určí s využitím pomocných výpočtů v Tab. 5.2 jako 664,7778 F = —|^— = 109,5788. 18-3 214 STATISTIKA V PŘÍKLADECH Kritickou hodnotou jc kvantil Fot95(2,15) = 3,6823. Protože hodnota testového kritéria je větší než kritická hodnota, na 5% hladině významnosti zamítáme testovanou hypotézu o rovnosti středních hodnot a prokázali jsme, žc existuje alespoň jedna dvojice středních hodnot počtu získaných kreditů, která je odlišná. Protože jsme prokázali, že počet získaných kreditů je ovlivněn typem studované fakulty, stanovme těsnost závislosti pomocí poměru determinace p2 = 664,7778 710,2778 Z vypočteného poměru determinace je zřejmé, že se jedná o značně těsnou závislost. Excel Z grafu na Obr. 5.1 jsou patrné počty bodů jednotlivých studentů v rámci fakult. Je zřejmé, že počty bodů, dosahované u studentů ze druhé fakulty, jsou výrazně nižší než počty bodů studentů ze třetí fakulty. Obr. 5.1 Ukažme si nyní, jak vyřešíme příklad za pomoci Excelu. Vyvolání nástroje jednofak-torové analýzy rozptyluje následující: ANALÝZA ROZPTYLU 215 Data Analýza dat Anova: jeden faktor Analytické nástroje: (BSP. a Anova: dva faktory s opakovaním Anova: dva faktory bez opakovaní Korelace Kovaríaoce Popisná statistika Exponenciální vyrovnaní "Dvouvýbšrový F-test pro rozptyl i Fouríerova analýza Histogram _____ _____ _____ v OK Storno Nápověda Hodnoty kvantitativní proměnné Y máme uspořádány do jednotlivých sloupců, kterých je celkem k, tj. podle počtu variant faktoru X. V případě, že vybereme oblast, která obsahuje zároveň názvy jednotlivých variant faktoru X, tj. v našem případč označení jednotlivých fakult, musíme tuto skutečnost vyznačit ve vstupním okně, tj. zaškrtneme Popisky v prvním řádku. Do políčka Alfa uvedeme zvolenou hladinu významnosti, standardně je uvedena hodnota 0,05. Pokud nezvolíme jinak, standardně je výstup ANOVA umístěn na nový list. V případě, že bychom chtěli konkrétní umístění v rámci aktivního listu, zvolíme Výstupní oblast, případně můžeme výstup umístit do Nového sešitu. A B C D E F H 1 í Fakulta 1 Fakulta 2 Fakuita 3 r ■ ...... ■ -5- ...... ■ ■■■■ ■■ ........ ^ /Khovo; jeden faktor ■■. f? X 2 27 21 36 27 2G 38 I ok i 3 Vstupní oblast: 27 19 34 4 © Soupce OSá*y 1 Storno 1 6 28 20 35 s Sdruäit: V 30 18 33 f£] Popisky v prvním řádku 1 Nápověda j 31 21 32 3 Afra; 0,0S 10 : ^OÍTiOSl! Výkupy . _____________.............. : O Výstupní oblast: 12 ä hodnota menší než zvolená hladina významnosti, testovanou hypotézu na dané hladině významnosti zamítáme. V našem případě je zřejmé, že testovanou hladinu o rovnosti středních hodnot na 5% hladině zamítáme, neboť/^-hodnota je velmi malé číslo. ANOVA Zdroj variability SS Rozdíl MS F Hodnota P Fkrit Mezi výběry 664,7778 2 332,3889 109,5788 L1204E-09 3,68232 Všechny výběry 45,5 15 3,033333 ...................... ! 1.....'................:....................j Celkem 710,2778 17 Z uvedených výstupů vyplývá, že hodnotu poměru determinace bychom museli stanovit „ručně" a to jako podíl dvou výše popsaných součtů četverců, tj. jako podíl dvou hodnot ze sloupce SS. Stejně tak výpočet testového kritéria T u Bartlettova testu bychom museli stanovit „ručně" s využitím dílčích výpočtů z uvedených výstupů. ANALÝZA ROZPTYLU 217 Cvičení 1. Ve 4 lokalitách bylo náhodně osloveno celkem 28 respondentů, u nichž bylo zjišťováno, kolikrát navštíví hypermarket potravin v rámci jednoho měsíce. Pomocí vhodného testu rozhodněte, zda je počet návštěv hypermarketu ovlivněn lokalitou hypermarketu. Test proveďte na 5% hladině významnosti. Lokalita Počet návštěv A 2,3,3,2,4,3,3 B 4,5,4,4,5,4,5 C 2,3,3,2,1,2,2 D 3,3,2,3,3,4,3 2. Ve 3 různých skupinách byl proveden test znalostí o Evropské unii. Každá ze skupin obsahovala 8 osob, u nichž byl zaznamenán počet bodů, získaný z daného testu. Výstup jednofaktorové analýzy rozptylu z MS Excel je uveden v následující tabulce. Na 5% hladině významnosti ověřte, zda se střední hodnoty počtu bodů z testu významně odlišují. Pokud ano, stanovte koeficient, který měří těsnost této závislosti, a interpretujte jej. ANOVA Zdroj variability SS ftozdíi MS F Hodnoto P Fkrit Mezi výběry 785,3333 2 392,6667 28,19145 1,128576-06 3,4668 Všechny výběry 292,5 21 13,92857 Celkem 1077,833 23 3. Pomocí experimentu byla ověřována spotřeba automobilů 5 různých typů. V každé ze skupin byla spotřeba měřena u 5 automobilů. Uvažujte tabulku, která obsahuje výstup jednofaktorové analýzy rozptylu z MS Excel. Doplňte chybějící údaje do tabulky a pomocí vhodného testu na 5% hladině významnosti rozhodněte, zda jsou střední hodnoty spotřeby automobilů významně odlišné. Pokud ano, stanovte koeficient těsnosti závislosti. ANOVA Zdroj variability SS Rozdíl MS F Fkrit Mezi výběry 2,866081402 Všechny výběry 0,644 20 0,0322 Celkem 14,4 218 STATISTIKA V PŘÍKLADECH Výsledky 1. F= 16,33; />-hodnota = 5,36E-06; testovanou hypotézu o rovnosti středních hodnot zamítáme na 5% hladině významnosti (i na 1% hladině významnosti), a tak jsme prokázali, že se střední hodnoty počtu návštěv hypermarketu významně liší. Hodnota poměru determinace je P2 = 0,6712, tj. jedná se o středně silnou intenzitu závislosti. Testovaná hypotéza Bartlettova testuje zamítnuta (na 1% i 5% hladině významnosti) a tedy předpoklad o shodě skupinových rozptyluje splněn. 2. F = 28,19; protože F> „F krit", můžeme na 5% hladině významnosti testovanou hypotézu o rovnosti středních hodnot zamítnout, a tím pádem jsme prokázali, že se střední hodnoty počtu bodů z testu znalostí o EU významně liší. Hodnota poměru determinace je P2 = 0,7286, což znamená, že se jedná o poměrně silnou intenzitu závislosti. 3. Po dopočtení bychom získali následující tabulku, kde je pro úplnost uvedena i /7-hodnota, kterou bychom jednoduchým ručním výpočtem nestanovili. ANOVA Zdroj variability ss Rozdíl MS F Hodnoto P F krit Mezi výběry 13,756 4 3,439 106,8012 3.37754E-13 2,866081 Všechny výběry 0,644 20 0,0322 ............ Celkem 14,4 24 Kritická hodnota F krit představuje kvantil r"0j95(4,20) = 2,866. Protože hodnota testového kritéria F> F0 95, testovanou hypotézu o rovnosti středních hodnot spotřeby jednotlivých typů automobilů zamítáme a prokázali j sme, že se tyto střední hodnoty na 5% hladině významnosti odlišují. Hodnota poměru determinace je P~ = 0,9553, a jedná se tedy o velmi silnou intenzitu závislosti. KAPITOLA VI REGRESNÍ A KORELAČNÍ ANALÝZA n? y. x, - y x,) y. /'i M x2 - 3:' REC 6 6.1 Pfik U 12 vy r vyjá ního střeí uspc ľ' ?: . Řeš. Je ir čet c véhc vhoť kde (nez .;. zisk; Pro i Para stanl REGRESNÍ A KORELAČNÍ ANALÝZA 221 6 Regresní a korelační analýza 6.1 Jednoduchá regrese Příklad 6.1 U 13 náhodně vybraných studentů byla pomocí experimentu zjišťována doba přípravy na určitý test (v minutách) a počet dosažených bodů. Pomocí regresní přímky vyjádřete závislost počtu bodů na době přípravy studenta. Zhodnoťte kvalitu regresního modelu, vyjádřete intenzitu závislosti počtu bodů na době přípravy. Odhadněte střední hodnotu počtu bodů studenta, který se připravoval 182 minut. Údaje jsou uspořádány do Tab. 6.1. Tab. 6.1 Doba př. 160 160 162 163 161 170 172 177 179 178 182 184 183 Počet b. 57 55 59 60 52 67 69 74 75 76 78 80 87 Řešení: Je možné očekávat, že s rostoucí dobou přípravy studenta bude v průměru růst i počet dosažených bodů z testu. Tuto skutečnost je možné vyčíst i z následujícího bodového diagramu, viz Obr. 6.1. Na základě tohoto grafu je také možné usuzovat, že vhodným tvarem bude lineární model. Jeho tvar můžeme vyjádřit pomocí vztahu }' = /?o+ kde y jsou hodnoty vysvětlované (závislé) proměnné, X jsou hodnoty vysvětlující (nezávislé) proměnné a eje nesystematická (náhodná) složka. Regresní přímka tj = J3n+ j5^x vyjadřuje lineární vztah mezi střední hodnotou počtu získaných bodů a dobou přípravy. Pro odhad parametrů regresní přímky /30 a ji\ využijeme metodu nejmenších čtverců. Parametr bt představuje směrnici regresní přímky a parametr b0 představuje její konstantu. Vypočteme je pomocí následujících vzorců: n n i=\_1=1 :=l n n «5X - (Z**)2 xy — x-y 222 STATISTIKA V PŘÍKLADECH resp. k = y-h~x. Ke zhodnocení kvality použitého regresního modelu se používá koeficient determinace R". K tomu, abychom jej mohli určit, je nejprve nutné definovat jednotlivé součty čtverců. Teoretický součet čtverců definujme podle vzorce 5,,?=Z(^-v)2, reziduálni součet čtverců jako !=1 a celkový součet čtverců podle vzorce 1=1 kde v, jsou skutečně naměřené hodnoty vysvětlované proměnné Y, Y j jsou očekávané (teoretické) hodnoty vysvětlované proměnné Y získané na základě modelu, které získáme dosazením hodnot x, do odhadnutého modelu a y je aritmetický průměr skutečně naměřených hodnot vysvětlované proměnné Y. Pro výše uvedené součty čtverců platí vztah sv=svR+svJ. Koeficient determinace je pak definován jako podíl 5, Sy nabývá hodnot z intervalu od 0 do 1 a po vynásobení stem je interpretován jako podíl variability hodnot vysvětlované proměnné v %, kterou se podařilo vysvětlit pomocí daného regresního modelu. REGRESNÍ A KORELAČNÍ ANALÝZA 223 Poznámka: Pokud bychom porovnávali kvalitu regresních modelů s různým počtem parametrů (například regresní přímku s regresní parabolou), je třeba použít hodnotu upraveného koeficientu determinace, který se stanoví podle vzorce n-p Upravený koeficient detenninace zohledňuje počet regresních parametrů p daného regresního modelu a jeho interpretace je identická. Ke zhodnocení modelu jako celku slouží tzv. celkový F-test. Testovaná hypotéza v tomto testu obsahuje tvrzení, že všechny regresní parametry fy (j' = 1, k), kromč konstanty, jsou rovny nule, což znamená, že v modelu není ani jedna vysvětlující proměnná Xj, která je statisticky významná. Alternativní hypotéza popírá platnost tohoto tvrzení, tedy Hi: non H0. Testovým kritériem je statistika F, která se stanoví podle vzorce Sr.r F = J^ n — p kde p - k+ 1 je počet regresních parametrů a k je počet vysvětlujících proměnných. Kritický obor jc dán nerovností Wa ={F;F > Ft_a] , kde F,.H představuje kvantil F-rozdělení s (p - l)a(n-p) stupni volnosti. Dílčí t-testy K postupnému ověření významnosti konstanty a vysvětlující proměnné v modelu samostatně slouží dílčí t-testy. Test hypotézy o parametru p\: Pomocí prvního dílčího t-testu otestujeme hypotézu o nulové hodnotě konstanty H0: J30 - 0, Hi:#*0. 224 STATISTIKA V PŘÍKLADECH Testovým kritériem je statistika t, která se vypočítá podle vzorce kde směrodatná chyba odhadu parametru s(b0) se stanoví podle vzorce s(b0) = ss n n ;=i í=i a kde odmocnina z reziduálního rozptylu sR se určí jako «-2 Kritický obor je dán nerovností Pí^, ={r;|ř| >řj_a/2], kde ři_a,2 představuje kvantil t-rozdělení s (n - 2) stupni volnosti. Test hypotézy o parametru Pomocí druhého dílčího t-testu ověřujeme existenci vztahu mezi vysvětlovanou proměnnou Y a vysvětlující proměnnou X. H0: A = 0, Hi:A*0. Testovým kritériem je statistika ŕ, která se vypočítá podle vzorce 6, C kde s(bl) = sR ■ i n n regresní a korelační analýza 225 Kritický obor je opět dán nerovností Wa = {ŕ;|/| >rj_ff/2j , kde t\^% představuje kvantil t-rozdělení s (n - 2) stupni volnosti. Intervaly spolehlivosti pro regresní parametry je možné určit podle vzorce P(bj -tx_al2(n-2)-s(bj)< J3j (80,1594 - 2,20 ■ 2,7995 < Eym < 80,1594 + 2,20 • 2,7995) = 0,95, P(74,0005 < Eym < 86,3183) = 0,95 , kde Ste, = 2.5794. |l + l+(182-|7'-6l54ľ =2.7995. 13 383941-^ 13 Hodnotu korelačního koeficientu, který měří intenzitu lineární závislosti počtu bodů na době přípravy studenta, vypočteme jako odmocninu z koeficientu determinace, přičemž znaménko je kladné (podle hodnoty parametru b\), tedy rvx = Vä2 = V0,9494 = 0,9743 . Podle vypočtené hodnoty korelačního koeficientu usuzujeme, že počet bodů z testu je velmi silně přímo úměrně závislý na době přípravy. i Excei V grafu na následujícím obrázku jsou znázorněny počty bodů v závislosti na době přípravy jednotlivých studentů. Je vidět, že srůstem doby přípravy jednotí ivých studentů roste také počet získaných bodů. Jak bylo uvedeno výše, vhodným modelem k popsání této závislosti by mohla být regresní přímka. regresní a korelační analýza 231 Obr. 6.1 Ukažme si nyní, jak vyvoláme regresní analýzu v Excelu. Data Analýza dat Regrese i-----^yg^H.-,*,*.*,.,, i, U U i ^f-Cfi Ji.'."i&UjUijiťil i luť.dLiuftii t.....itti m Á tiífi ih Hi 1—b--_ I Analytické nástroje; Dvouvýbérový F-test pro rozptyl ÍFourletova analýza jrfstoojam klouzavý průměr {Generátor p«udonáhodnýďi Osel ) Pořadová staMsIfea a percentily Storno Nápověda [ Vzorkování iDrouvýbérový párový t-test na střední hodnotu Dvouvýběrový t-tett rovnosti rozptylu Ve vstupním okne je třeba vyznačit oblast vysvětlované proměnné Y a vysvětlující proměnné X. Pokud označíme oblast včetně názvů proměnných, tuto skutečnost je nutné vyznačit zaškrtnutím ve volbě Popisky. Dále je třeba uvést Hladinu spolehlivosti pro příslušné intervaly spolehlivosti jednotlivých regresních parametrů. Stan- 232 STATISTIKA V PŘÍKLADECH dardně je uvedena hodnota 95 %, tj. pokud tuto hodnotu nezměníme, budou ve výstupu uvedeny 95% intervaly spolehlivosti pro oba regresní parametry. Stejně jako v případě analýzy rozptylu je třeba zvolit umístění výstupu regresní analýzy. Standardně je nabízena volba Nový list, alternativou je umístění do zvolené Výstupní oblasti v rámci aktivního listu či umístění do Nového sešitu. Ve vstupním okně je ještě možné zaškrtnou různé grafické výstupy a hodnoty reziduí. Pokud zaškrtneme volbu Rezidua, do výstupu budou uvedeny jednak vyrovnané hodnoty, jednak jednotlivá rezidua. Zvolením položky Graf regresní přímky získáme graf napozorovaných a vyrovnaných hodnot. A e C 0 E F G H 1 Dobo přípravy Počet bodu Regrese " ?"X 2 160 57 Vstup 3 160 55 t <* J 4 162 59 Vstupní oWdst £ ;$fi$l:$B$H ip» j [ Storno ] 5 163 60 VstuprsobfsslX: :$A$l;$ft$M 6 7 161 170 52 67 S Sopi&y O gpnÄanta }s mis | NžpovSIa | 8 172 69 : O íj^ána spolehlivosti \'& % 9 177 74 1« '" 179 75 Gvýs^'ofctest; i_________..... F* 11 176 76 ; O Nový |st! ] 12 182 7S 13 184 80 14 183 87 3|?!^J 0 Graf s reaŕ* :;! Q gandardní rsadua EZI Srrf regresní pf^y 16 ty ;: D graf pravděpodobnou 18 1S Základní výstup regresní analýzy je rozdělen do tří tabulek. V první tabulce, označené jako Regresní statistika, jsou uvedeny následující hodnoty: korelační koeficient mezi vysvětlovanou a vysvětlující proměnnou rxy pojmenovaný jako Násobné R, koeficient determinace R2 označený názvem Hodnota spolehlivosti R, upravený koeficient determinace RadJ pojmenovaný jako Nastavená hodnota spolehlivosti, směrodatná chyba odhadu sR, která je označena jako Chyba stř. hodnoty a počet pozorování. Regresní statistiko Násobné R 0,974348707 Hodnota spolehlivosti R 0,949355404 Nastavená hodnota spolehlivosti 0,94475135 Chyba stř. hodnoty 2,579382191 Pozorování 13 Druhá tabulka s názvem ANOVA obsahuje rozklad celkového součtu čtverců Celkem na část vysvětlenou regresním modelem, tj. teoretický součet čtverců označený jako Regrese, a zbytek, tj. reziduálni součet čtverců označený jako Rezidua. Dále je REGRESNÍ A KORELAČNÍ ANALÝZA 233 v tabulce uveden test o modelu, tedy celkový F-test. Sloupec označený jako Rozdíl obsahuje příslušné stupně volnosti, tj. (p - 1) a (n -• p), kde p je počet regresních parametrů, tj. v případě regresní přímky dva. Sloupec SS obsahuje jednotlivé součty čtverců, MS* obsahuje podíly jednotlivých součtů čtverců a příslušných stupňů volnosti. Hodnota ve sloupci F představuje testové kritérium celkového F-testu. P-hodnota tohoto testuje uvedena v posledním sloupci a je označena jako Významnost F. ANOVA Rozdíl SS MS F Významnost F Regrese l 1371,891586 1371,8916 206,1998753 1,802348-08 Rezidua 11 73,18533737 6,6532125 Celkem 12 1445,076923 Z uvedené j9-hodnoty vyplývá, že testovaná hypotéza celkového F-testu, je na 5%, ale i 1% hladině významnosti zamítnuta, neboť je tato hodnota menší než 0,05 resp. 0,01. Třetí tabulka obsahuje jednak odhady regresních parametrů, jednak příslušné t-testy. Parametr b0 je vždy označen jako Hranice a směrnice přímky, tj. parametr b\ je označen názvem vysvětlující proměnné, pokud byl vložen, v našem případě Doba přípravy. Bodové odhady jednotlivých parametrů jsou uvedeny ve sloupci Koeficienty. Směrodatné chyby odhadu parametrů s(b,~) jsou uvedeny ve sloupci Chyba stř. hodnoty. Ve sloupci, který je označen t Stat, jsou hodnoty testového kritéria dílčích t-testů. P-hodnota pro test o příslušném parametru j c označena Hodnota P. Horní a dolní mez intervalu spolehlivosti pro regresní parametry pro zvolenou Hladinu spolehlivosti, uvedenou ve vstupním okně, v našem případě horní a dolní mez 95% intervalu spolehlivosti je možné najít v dalších sloupcích, tj. Dolní 95% a Horní 95%. Koeficienty Chyba sír. hodnoty t Stát Hodnota P Dolní 95% Horní 35% Dolm95,0% Homí95,m Hranice -126.2043685 13,56995485 -9,3002792 L51869E-06 -156,0716378 -96,33709926 -156,0716378 -96,33709926 Doba přípravy 1,133866782 0,078961944 14,359661 1.80234E-0* 0,960072715 1,307660849 0,960072715 1,307660849 Pokud bychom ve vstupním okně vybrali také rezidua, získali bychom následující tabulku, která obsahuje jednak Očekávané počty bodů, tj. vyrovnané hodnoty, a jednak hodnoty Reziduí odpovídající jednotlivým pozorováním. Pro úpravu vytvořeného grafu (Graf regresní přímky) „klikněme" pravým tlačítkem myši na libovolný napozorovaný (nikoliv vyrovnaný) počet bodů, zvolme možnost Přidat spojnici trendu, vyberme položku Lineární, dále vyberme Zobrazit rovnici v grafu a Zobrazit hodnotu spolehlivosti R, viz následující dialogové okno. 234 STATISTIKA V PŘÍKLADECH REZIDUA Pozorování Očekávané Počet boáv 1 55,21431661 1,785683391 2 55,21431661 -0,214316609 3 57,48205017 1,517949827 4 58,61591696 1,384083045 5 56,34818339 -4,348183391 6 66,55298443 0,447015571 7 68,82071799 0,179282007 S 74,4900519 -0,490051903 9 76,75778547 -1,757785467 10 75,62391869 0,376081315 U 8C1S93S581 -2,159385813 12 82,4:711938 -2,427119377 13 81,2932526 5,706747405 i Možností spojnice trendu si i 1 ^; j O (JwmrrortWr _ : O i**** l i ^ ifupft- *M>' ' ] obdt* JO*****- :.. i Tím získáme graf, ve kterém je kromě napozorovaných hodnot zobrazena také regresní přímka a její rovnice, včetně hodnoty koeficientu determinace, viz Obr. 6.2. Poslední graf, který jsme si nechali vygenerovat, obsahuje hodnoty reziduí pro jednotlivá pozorování. REGRESNÍ A KORELAČNÍ ANALÝZA 235 Obr. 6.2 Obr. 6.3 Příklad 6.2 U 13 pracovníků byla zjišťována chybovost případů při řešení obtížných úkolů (v procentech) v závislosti na délce jejich praxe (v měsících). Získané údaje byly uspořádány do Tab. 6.4. Pomocí regresní hyperboly vyjádřete závislost chybovosti 236 STATISTIKA V PŘÍKLADECH pracovníka na délce jeho praxe. Zhodnoťte kvalitu regresního modelu a vyjádřete intenzitu této závislosti. Tab. 6.4 Délka praxe Chybovost případů 1 55,26 2 35,20 2 31,16 3 25,12 5 18,72 5 19,05 6 18,62 7 16,47 9 15,13 11 12,21 12 17,98 15 13,02 22 12,04 Řešení: Při zkoumání vztahu mezi chybovostí při řešení obtížných úkoluje možné očekávat, že s růstem délky praxe bude docházet k jejímu poklesu. Tuto skutečnost je možné vyčíst i z následujícího bodového diagramu, viz Obr. 6.4. Tvar regresní hyperboly je možné vyjádřit následujícím způsobem x Vzhledem k tomu, že zvolená regresní funkce je lineární z hlediska regresních parametrů, je možné její parametry, stejně jako v případě regresní přímky, odhadnout pomocí metody nejmenších čtverců. Při odhadování jejích parametrů se využívají výše uvedené vzorce pro regresní přímku, přičemž za hodnoty vysvětlující proměnné se dosazují převrácené hodnoty chybovosti pracovníků, tedy vzorce je možné upravit do tvaru n±l/x:-(±\/x,f REGRESNÍ A KORELAČNÍ ANALÝZA 237 resp. -h Pomocné výpočty uspořádejme do Tab. 6.5. Tab. 6.5 i 1/jc, y, y/xt (I/*,)2 1 1,00 55,26 55,2600 1,0000 2 0,50 35,20 17,6000 0,2500 3 0,50 31,16 15,5800 0,2500 4 0,33 25,12 8,3733 0,1111 5 0,20 18,72 3,7440 0,0400 6 0,20 19,05 3,8100 0,0400 7 0,17 18,62 3,1033 0,0278 8 0,14 16,47 2,3529 0,0204 9 0,11 15,13 1,6811 0,0123 10 0,09 12,21 1,1100 0,0083 11 0,08 17,98 1,4983 0,0069 12 0,07 13,02 0,8680 0,0044 13 0,05 12,04 0,5473 0,0021 S 3,44 289,98 115,5282 1,7734 Dosazením do výše uvedených vzorců získáme odhady parametrů regresní hyperboly 13115,5282-3,44.289,98 13-1,7734-3,442 289 98 3 44 zo?,?5_ 44949g ,£in = i 0,4106. 13 13 Výsledný tvar regresní hyperboly můžeme zapsat jako 44 9498 7 = 10,4106+ 238 STATISTIKA V PŘÍKLADECH Ke zhodnocení kvality tohoto regresního modelu pomocí koeficientu determinace je třeba stanovit další pomocné výpočty, které jsou uspořádány do Tab. 6.6. Tab. 6.6 i 1/x, yt Y, (y,-Yd2 iy-yf 1 1,00 55,26 55,3604 0,0101 1 085,9560 2 0,50 35,20 32,8855 5,3569 166,2513 3 0,50 31,16 32,8855 2,9774 78,3906 4 0,33 25,12 25,3939 0,0750 7,9177 5 0,20 18,72 19,4006 0,4632 12,8605 6 0,20 19,05 19,4006 0,1229 10,6025 7 0,17 18,62 17,9022 0,5152 13,5877 8 0,14 16,47 16,8320 0,1310 34,0607 9 0,11 15,13 15,4050 0,0756 51,4972 10 0,09 12,21 14,4969 5,2301 101,9323 11 0,08 17,98 14,1564 14,6199 18,7156 12 0,07 13,02 13,4072 0,1500 86,2327 13 0,05 12,04 12,4538 0,1712 105,3939 E 3,44 289,98 - 29,8984 1 773,3987 Z předchozí tabulky vyplývá, že jednotlivé součty čtverců jsou Sv =1773,3987, SyJt =29,8984, a teoretický součet čtvercuje SvJ = 1773,3987 - 29,8984 = 1743,5003 . Koeficient determinace určíme jako podíl ť. 1743.5003 29,8984 1773,3987 1773,3987 REGRESNÍ A KORELAČNÍ ANALÝZA 239 Z hodnoty vypočteného koeficientu determinace vyplývá, že pomocí zvoleného regresního modelu se podařilo vysvětlit 98,31 % variability hodnot proměnné chybovost pracovníka, kde vysvětlující proměnnou je převrácená hodnota délky praxe. II Excel V grafu na Obr. 6.4 jsou znázorněny hodnoty chybovosti v závislosti na délce praxe. Je patrné, že s růstem praxe klesá chybovost pracovníka. Z uvedeného grafu je patrné, že vhodným modelem by mohla být regresní hyperbola. ♦ 50,00 40,00 ♦ 5 * ♦ 2Q,ú& ♦ » # ♦ * ♦ aoo i 5 Deik« prsa;* » Obr. 6.4 A .8 i praxe chybovost 2 1,0000 55,2a J 0.5000 35,20 4 0,5000 31,16 5 0,3331 25.12 6 0,2000 18,72 7 0,3000 19,05 3 0,16*7 aja 9 0,1429 14« JO 0,1111 15,13 tl 0,0909 12,21 13 CCS» 17,93 13 0,0*67 13.02 M 0,0455 11,04 IS 16 17 li . íílsip'Ästí ■ Jas: SAÍM §§ ■ ■■ftestfca ■■ O Eeadua 0 Ota* s rtütj^ O 5taná»tHr*ňdua Q Graf rtqnsr*^^ _j 240 STATISTIKA V PŘÍKLADECH Podle výše uvedeného tvaru regresní hyperboly budeme jako vstupní hodnoty vysvětlující proměnné uvažovat převrácené hodnoty délky praxe, tj. do Vstupní oblasti X vložíme dříve připravené převrácené hodnoty. Pokud modelujeme regresní hyperbolu v Excelu, zvolíme opět nabídky Analýza dat a Regrese, stejně jako v případě regresní přímky (viz předchozí dialogové okno). Získaný výstup je opět rozdělen do tří tabulek. V první tabulce jsou uvedeny Regresní statistiky, které hodnotí model regresní hyperboly. VÝSLEDEK Regresní statistika Násobné R 0,991534492 Hodnota spolehlivosti R 0,98314065 Nastavená hodnota spolehlivostí 0,981607931 Chyba stí. hodnoty 1,648645452 Pororování 13 Ve druhé tabulce je celkový F-test a hodnoty jednotlivých součtů čtverců. ANOVA Rozdtt SS MS F Významnost f Regrese 1 1743,500358 1743,5 641,4569 4.18921E11 Rezidua 11 29,89535008 2,713032 Celkem 12 1773,398708 Třetí tabulka opět obsahuje odhady jednotlivých parametrů regresní hyperboly a dílčí t-testy. Koeficienty Chyba stí. hodnoty t Stát Hodnota P Dolní 95% Homi95% Doíei95,0% Homi9S,0% Hranice 10,41058119 0,655498437 15,88193 S.23695E09 8,967838861 11,853324 8,967838861 11,85332353 l/délka prase 44,94986223 1,774780357 25,327 4.1S921E-H 41,043597 48,858127 41,045597 48,85612746 □ Příklad 6.3 Využijte data z předchozího příkladu (chybovost případů při řešení obtížných úkolů (v procentech) v závislosti na délce jejich praxe (v měsících)). Pomocí regresní logaritmické funkce vyjádřete závislost chybovosti pracovníka na jeho praxi a zhodnoťte kvalitu regresního modelu. Řešení: Tvar regresní logaritmické funkce je možné vyjádřit následujícím způsobem REGRESNÍ A KORELAČNÍ ANALÝZA 241 T] = /30+j3llnx. Vzhledem k tomu, že i regresní logaritmická funkce je lineární z hlediska regresních parametrů, je možné její parametry odhadnout pomocí metody nejmenších čtverců. Při odhadování jejích parametrů se využívají uvedené vzorce, přičemž za hodnoty vysvětlující proměnné se dosazují přirozené logaritmy hodnot proměnné chybovost pracovníků, tedy vzorce je možné upravit do tvaru n n n «Z>'/'ln*/~Xlnx/Z>/ -«=4—í=s—, »Z(ln*,)2-(£lnx;)2 resp. n n n n Pomocné výpočty uspořádejme do tabulky Tab. 6.7 i lnxŕ y> lnx^',- (lnx,)2 1 0,0000 55,26 0,0000 0,0000 2 0,6931 35,2 24,3988 0,4805 3 0,6931 31,16 21,5985 0,4805 4 1,0986 25,12 27,5971 1,2069 5 1,6094 18,72 30,1287 2,5903 6 1,6094 19,05 30,6598 2,5903 7 1,7918 18,62 33,3626 3,2104 8 1,9459 16,47 32,0491 3,7866 9 2,1972 15,13 33,2440 4,8278 10 2,3979 12,21 29,2783 5,7499 11 2,4849 17,98 44,6786 6,1748 12 2,7081 13,02 35,2588 7,3335 13 3,0910 12,04 37,2162 9,5545 S 22,3206 289,98 379,4705 47,9859 242 STATISTIKA V PŘÍKLADECH Dosazením do výše uvedených vzorců získáme odhady parametrů regresní logaritmické funkce: , 13-379,4705-22,3206-289,98 h =-----r-5— = 43,3484, ' 13-47,9859-22,3206' 6o = ^8-43,3484.^06 =-12,2555. 0 13 13 Výsledný tvar regresní logaritmické funkce je tedy možné vyjádřit následovně: Y = -12,2555 + 43,3484- ln x. Ke zhodnocení kvality tohoto regresního modelu pomocí koeficientu determinace je opět třeba stanovit další pomocné výpočty, které jsou uspořádány do tabulky Tab. 6.8 i ln Xj y, Y, (yt-Yf (y, - v)2 1 0,0000 55,26 43,3484 141,8858 1 085,9560 2 0,6931 35,20 34,8536 0,1200 166,2513 3 0,6931 31,16 34,8536 13,6424 78,3906 4 1,0986 25,12 29,8844 22,6994 7,9177 5 1,6094 18,72 23,6240 24,0490 12,8605 6 1,6094 19,05 23,6240 20,9212 10,6025 7 1,7918 18,62 21,3895 7,6703 13,5877 8 1,9459 16,47 19,5003 9,1830 34,0607 9 2,1972 15,13 16,4204 1,6650 51,4972 10 2,3979 12,21 13,9610 3,0662 101,9323 11 2,4849 17,98 12,8947 25,8605 18,7156 12 2,7081 13,02 10,1599 8,1799 86,2327 13 3,0910 12,04 5,4662 43,2149 105,3939 I 22,3206 289,98 - 322,1577 1 773,3987 Z tabulky vyplývá, že jednotlivé součty čtverců jsou S =1773,3987, REGRESNÍ A KORELAČNÍ ANALÝZA 243 SyR= 322,1577, a teoretický součet čtvercuje SvT =1773,3987-322,1577 = 1451,2410. Koeficient determinace určíme jako podíl ^ = 1451,2410 =1_ 322,1577 1773,3987 1773,3987 Z hodnoty vypočteného koeficientu determinace vyplývá, že pomocí zvoleného regresního modelu se podařilo vysvětlit 81,83 % variability hodnot proměnné chybovost pracovníka, kde vysvětlující proměnnou je přirozený logaritmus délky praxe. Excel Pokud modelujeme regresní logaritmickou funkci v Excelu, postupuje analogicky, jako ve výše uvedených případech, tj. zvolíme opět nabídky Analýza dat a Regrese. Podle výše uvedeného tvaru regresní logaritmické funkce budeme jako vstupní hodnoty vysvětlující proměnné uvažovat přirozené logaritmy hodnoty délky praxe, tj. do Vstupní oblasti X vložíme drive připravené logaritmované hodnoty vysvětlující proměnné. K logaritmování původních hodnot využijeme funkci LN. J: A 8 1 IsMdšífca praxe} chybovost 3 O.WOO 55,2S 3 C.M11 35,2» 4 0,6331 31,16 5 1,0986 25,12 6 1,6094 18,72 7 1,6094 19,05 8 1,7918 18,62 9; 1,9459 16,47 10 2,1972 15,13 11 2,3979 12,21 u 2,4849 17,98 13 2,7081 13,02 14 3,0*10 22,04 15 16 17 18 Vstupní ofefa* £ |3 fcfatäna fipatetife^i ©ftovýtot: ftabdua OS**** i O "j? * P« ■av.^00óobfi35t- e Výstup i v tomto případě je rozdělen do tri samostatných tabulek, kde v první z nich jsou Regresní statistik}', hodnotící model logaritmické funkce. 244 STATISTIKA V PŘÍKLADECH VÝSLEDEK Regres^' s/af-sř** Násobné R 0,904621 Hodnota spolehlivosti R 0 813339 Nastavená hodnota spolehlivosti R 0,801324 Chyba stí. hodnoty S 411752 Pozorováni 13 Druhá tabulka obsahuje rozklad součtu čtverců a celkový F-test. ANOVA Rozdíl SS MS F i ¥fmwmK>$t F Regrese 1 1451,241 1451 241 49 55229 2 15624E-05 Rezidua 11 322.1577 29.28706 Celkem 12 1773,399 A třetí obsahuje odhady parametrů a dílčí t-testy. Chyba stř. froáiQty f srn Hoánoia P Oohl 95% Horní 95% Dotni 950% Horní §5,0% Hranice 43.34841S8 3,344906226 12,35953 S.25582E-08 35,98632638 50.71050481 36 9863. 50.71050481 injdéka praxe) -12,255484 1.740999356 -7.03934 2.15624E-05 -16,08739784 -8.423579351 -16,08739734 -8.423570351 Pokud bychom postupovali analogicky jako u regresní přímky a v jejím grafu bychom zvolili Logaritmický trend získali bychom graf, který kromě napozorovaných hodnot obsahuje i regresní logaritmickou funkci. mm ■. UM..................................................................................-.....................................................-...............- .........—>--------........-™».......----»............-..... & i m i? M II Obr. 6.5 REGRESNÍ A KORELAČNÍ ANALÝZA 245 Příklad 6.4 Pomocí regresní mocninné funkce vyjádřete závislost zisku firmy (ve stovkách tisíc korun) na počtu jejích poboček. Odhadněte střední hodnotu zisku v případě 5 poboček. Údaje jsou uspořádány do Tab. 6.9. Tab. 6.9 Počet poboček 1 2 2 3 4 5 6 7 8 9 Zisk 2,20 6,16 8,62 25,13 33,77 57,89 75,06 101,69 132,28 185,72 Řešení: Ze vstupních údajů, kde počet poboček je vysvětlující proměnná a zisk firmy je vysvětlovaná proměnná, vyplývá, že s rostoucím počtem poboček poroste také zisk firmy. Vzhledem k možným úsporám z rozsahu je také možné předpokládat, že zisk firmy poroste rychleji, než počet jejích poboček. Tomuto předpokladu odpovídá situace zobrazená na Obr. 6.6. Tvar regresní mocninné funkce je možné vyjádřit následujícím způsobem Vzhledem k tomu, že regresní mocninná funkce není lineární z hlediska regresních parametrů, je nutné pomocí logaritmické transformace upravit funkci na tvar ln 7] = ln /?„ + /?, In x . Pokud bychom symbolicky rovnici přepsali tak, že logaritmované výrazy označíme hvězdičkou, je možné zapsat Z upraveného výrazu je zřejmé, že aplikací vzorců pro odhady parametrů regresní přímky na transformovaná (zlogaritmovaná) data vysvětlující i vysvětlované proměnné získáme odhady pro regresní mocninnou funkci. Odhad parametru J30, který získáme standardním postupem, bude však nutné zpětně transformovat (odlogarit-movat), tedy 246 STATISTIKA V PŘÍKLADECH kde $je parametr získaný metodou nejmenších čtverců, kterou jsme aplikovali na výše popsaná zlogaritmovaná data. Vzorce pro odhad parametrů je možné upravit do tvarů n£\ny, ■ lnx,. - £ln x. ]T lny,. bx=^-n-^-^-, «£(ln*,.)2-(/>*, )2 í=i i=i resp. £ lny, ]Trnx, A* = J=!__A i=!- Pomocné výpočty k odhadu parametrů uspořádejme do Tab. 6.10. Tab. 6.10 i lnx, lny, lnx,lny, (lnx,)2 1 0,0000 0,7885 0,0000 0,0000 2 0,6931 1,8181 1,2602 0,4805 3 0,6931 2,1541 1,4931 0,4805 4 1,0986 3,2241 3,5420 1,2069 5 1,3863 3,5196 4,8792 1,9218 6 1,6094 4,0585 6,5320 2,5903 7 1,7918 4,3183 7,7373 3,2104 8 1,9459 4,6219 8,9939 3,7866 9 2,0794 4,8849 10,1579 4,3241 10 2,1972 5,2242 11,4788 4,8278 Z 13,4950 34,6122 56,0744 22,8288 Dosazením do výše uvedených vzorců získáme odhady parametrů regresní mocninné funkce: , 10-56,0744-13,4950-34,6122 b =-:-= 2,02828, 10-22,8288-13,49502 REGRESNÍ A KORELAČNÍ ANALÝZA 247 .= H6122_ g2g.lM950 = 0 10 10 Zpětnou transformací získáme parametr Výsledný tvar odhadnuté regresní mocninné funkce můžeme vyjádřit jako ľ = 2,06279-x2'02828 . Ke zhodnocení kvality tohoto regresního modelu pomocí koeficientu determinace je opět třeba stanovit další pomocné výpočty, které jsou uspořádány do Tab. 6.11. Tab. 6.1 1 i ln Xj lny i ln Y, (ln^-ln^)2 {\ny-\nyf 1 0,0000 0,7885 0,7241 0,0041 7,1436 2 0,6931 1,8181 2,1300 0,0973 2,6999 3 0,6931 2,1541 2,1300 0,0006 1,7086 4 1,0986 3,2241 2,9524 0,0738 0,0562 5 1,3863 3,5196 3,5359 0,0003 0,0034 6 1,6094 4,0585 3,9884 0,0049 0,3568 7 1,7918 4,3183 4,3582 0,0016 0,7346 8 1,9459 4,6219 4,6709 0,0024 1,3473 9 2,0794 4,8849 4,9417 0,0032 2,0269 10 2,1972 5,2242 5,1806 0,0019 3,1082 Z 13,4950 34,6122 - 0,1901 19,1856 Z Tab. 6.11 vyplývá, že jednotlivé součty čtverců jsou následující Sv =19,1856, ^=0,1901, a teoretický součet je SyX = 19,1856 - 0,1901 = 18,9955 . 248 STATISTIKA V PŘÍKLADECH Koeficient determinace určíme jako podíl 19,1856 19,1856 Z hodnoty vypočteného koeficientu determinace vyplývá, že pomocí daného regresního modelu se podařilo vysvětlit 99,009 % variability hodnot proměnné logaritmus zisku firmy. Proveďme nyní odhad střední hodnoty zisku firmy, která má 5 poboček. Dosadíme číslo 5 do rovnice regresní mocninné funkce, 7 = 2,06279-52'02828 = 53,9711. •21 Exc©l V grafu na Obr. 6.6 jsou zachyceny hodnoty zisku firmy v závislosti na počtu jejích poboček. Je zřejmé, že zisk firmy roste rychleji než počet jejích poboček, a proto, jak bylo uvedeno výše, by vhodným modelem mohla být regresní mocninná funkce. Obr. 6.6 REGRESNÍ A KORELAČNÍ ANALÝZA 249 V případě, že modelujeme závislost pomocí regresní mocninné funkce, postupujeme opět analogicky jako ve výše uvedených případech, tj. zvolíme nabídky Analýza dat a Regrese. Podle výše uvedeného tvaru regresní mocninné funkce budeme jako vstupní hodnoty vysvětlující proměnné uvažovat přirozené logaritmy zisku, tj. do Vstupní oblasti X vložíme tyto předem připravené zlogaritmované hodnoty vysvětlující proměnné. Do Vstupní oblasti Y vložíme předem připravené zlogaritmované hodnoty vysvětlované proměnné (zlogaritmovaný počet poboček). a ] 0 t ■ s4 ! 2 IrííIiSí! | 0 7S85 j 3 & í 8,6931 0,6931 1,0» J.8J81 2.1M1 í,224t 6 MBS |5M 7 1.6W4 4.C5S5 •i 1,7918 4,3183 :.*»« 4,«H 1Ů i,(fm 4,8849 Ó výstup ůíte*; p»] 12 2.1S»2 13 M> It V) : f jgiSWÍft -i-iŕ.«M í -aloi r^y- . ■ it Získané výstupy jsou opět rozděleny do tří tabulek. Charakteristiky, které hodnotí model regresní mocninné funkce, jsou uvedeny v tabulce Regresní statistiky. VÝSLEDEK Recnusríl statistika Násobné R 0,995033 Hodnota spolehlivostí R 0.99009 Nastavená hodnota spolehlivosti R 0.988351 Chyba stí hodnoty 0.154182 Pozorováni 10 Celkový F-test a rozklady součtů čtverců jsou v následující tabulce. ANOVA Rozdíl SS MS F Vhnamnost F Regrese 1 18.99547 18,89547 799,2698 2,64772E-09 Rezidua 8 0 190128 0.023766 Celkem 9 19.1856 Odhady parametrů regresní mocninné funkce jsou uvedeny v poslední tabulce. KoefiCienti Cttyba siř. hodnoty tStat Hodnota P Oofaí 95% Horní SS% Dolní 95.« Horní 35,9% Hranice 0.724058528 0,108398386 6 679606193 0.000165955 0.474091403 0,974025654 0,474091403 0,974026654 ln(Počet poboček) 2,028280325 0.071743289 28 27135948 2.64772E-09 1,862840003 2 193720648 1,862840003 2 193720648 250 STATISTIKA V PŘÍKLADECH Zde je třeba připomenout, že hodnota parametru v uvedeném výstupu odpovídá výše popsanému parametru, který jsme označili bQ, tj. musíme provést zpětnou transformaci odlogaritmováním. Pokud bychom chtěli získat graf, který obsahuje napozorované hodnoty, formálně zapsaný model regresní mocninné funkce a hodnotu koeficientu determinace, postupovali bychom opět analogicky jako u výše uvedených případů a zvolili bychom Mocninný trend. Tím bychom získali následující graf. 0 | W $: 4 í$ * $ * S «6 Obr. 6.7 Povšimněme si, že tvar rovnice regresní mocninné funkce již obsahuje hodnotu odlo-garitmovaného parametru b0. Příklad 6.5 Využijte data z předchozího příkladu a pomocí regresní exponenciální funkce vyjádřete závislost zisku firmy (ve stovkách tisíc korun) na počtu jejích poboček. Odhadněte střední hodnotu zisku v případě 5 poboček. Řešení: Tvar regresní exponenciální funkce je možné vyjádřit následujícím způsobem: REGRESNÍ A KORELAČNÍ ANALÝZA 251 Vzhledem k tomu, že regresní exponenciální funkce není lineární z hlediska regresních parametrů, je nutné pomocí logaritmické transformace upravit funkci na tvar ln 77 = ln /70 + x ■ ln (3}. Pokud bychom opět symbolicky rovnici přepsali tak, že logaritmované výrazy označíme hvězdičkou, je možné přepsat model do tvaru Z upraveného výrazu je zřejmé, že aplikací vzorců pro odhady parametrů regresní přímky na transformovaná (zlogaritmovaná) data vysvětlované proměnné získáme odhady pro regresní exponenciální funkci. Hodnoty vysvětlující proměnné jsou při výpočtech netransformované, na rozdíl od regresní mocninné funkce. Oba získané odhady parametrů, tj. jak odhad parametru /?0, tak v tomto případě i odhad parametru /?,, bude nutné zpětně transformovat (odlogaritmovat) a to následujícím způsobem kde j30 a 0[ jsou parametry získané metodou nejmensích čtverců, aplikovanou na výše popsaná zlogaritmovaná data. Vzorce pro odhad parametrů je možné upravit do tvarů n n n «Z-Vln v.-Z^Zhi >'.. _U_ŕ=l M_ 1=1 i=l Zln-v< Hx- --b*—— . n n Pomocné výpočty k odhadu parametrů uspořádejme do Tab. 6.12. resp. 252 STATISTIKA V PŘÍKLADECH Tab. 6.12 i lny,- X/lny/ (*,)2 1 1 0,7885 0,7885 1 2 2 1,8181 3,6362 4 3 2 2,1541 4,3082 4 4 3 3,2241 9,6722 9 5 4 3,5196 14,0783 16 6 5 4,0585 20,2927 25 7 6 4,3183 25,9097 36 8 7 4,6219 32,3535 49 9 8 4,8849 39,0794 64 10 9 5,2242 47,0182 81 Z 47 34,6122 197,1367 289 Dosazením do výše uvedených vzorců získáme odhady parametrů regresní exponenciální funkce 10-197,1367-47-34,6122 ^ 10-289-47- 34 6122 47 bl= ' -0,506013- —= 1,08295. 0 10 10 Zpětnou transformací získáme parametry řb=e1'08295 =2,9534, bl=^omi =1,6587. Výsledný tvar odhadnuté regresní exponenciální funkce můžeme vyjádřit Y = 2,9534-1,6587'. Ke zhodnocení kvality tohoto regresního modelu pomocí koeficientu determinace je opět třeba stanovit další pomocné výpočty, které jsou uspořádány do Tab. 6.13. REGRESNÍ A KORELAČNÍ ANALÝZA 253 Tab. 6.13 i Xj lny/ ln7, (lmv-lnF;)2 (lny,-lny)2 1 1 0,7885 1,58897 0,64082 7,14365 2 2 1,8181 2,09498 0,07668 2,69991 3 2 2,1541 2,09498 0,00349 1,70860 4 3 3,2241 2,60099 0,38821 0,05624 5 4 3,5196 3,10701 0,17021 0,00341 6 5 4,0585 3,61302 0,19849 0,35680 7 6 4,3183 4,11904 0,03970 0,73457 8 7 4,6219 4,62505 0,00001 1,34725 9 8 4,8849 5,13106 0,06059 2,02693 10 9 5,2242 5,63708 0,17043 3,10825 I 47 34,61218 - 1,74863 19,18560 Z Tab. 6.13 vyplývá, že jednotlivé součty čtverců jsou následující SY =19,1856, 5^=1,74863, a teoretický součet je SvT = 19,1856-1,74863 = 17,4369 . Koeficient determinace určíme jako podíl Ä2 = 17^ = 1_U4863 = 19,1856 19,1856 Z hodnoty vypočteného koeficientu determinace vyplývá, že pomocí daného regresního modelu se podařilo vysvětlit 90,88 % variability hodnot proměnné logaritmus zisk firmy. Proveďme nyní odhad střední hodnoty zisku firmy, která má 5 poboček. Dosadíme číslo 5 do rovnice regresní exponenciální funkce, tj. Y = 2,9534-L65 875 = 37,082. 254 STATISTIKA V PŘÍKLADECH Excel Pokud modelujeme regresní exponenciální funkci v Excelu, postupujeme opět analogicky volbou Analýzy dat a Regrese. Podle výše uvedeného tvaru regresní exponenciální funkce budeme jako vstupní hodnoty vysvětlované proměnné uvažovat přirozené logaritmy hodnoty zisku, tj. do Vstupní oblasti Y vložíme tyto předem připravené zlogaritmované hodnoty vysvětlující proměnné. Hodnoty vysvětlující proměnné jsou bez transformace. A 6 C i a - * : ■S; : H 1 ílEäíi -í v 2 0.78S5 1 i 2 1,S»1 "ritu}) ľ of.; i A 2 2,1541 j8$iií8tn usJ 5 i 3,2241 Vsiuprt abtosí $ í**1 ***'■......... s 6 7 i 4 5 6 3,51« 4,65B5 4,3383 3 7 4,:6219 113 S 4,SS45 11 9 5,2242 12 13 14 15 [j S«ňáäf**(eSdy» {>£ li 17 18 •• Výstupy regresní analýzy jsou opět rozděleny do 3 tabulek. VÝSLEDEK Regresní statistika Násobné R 0,95334 Hodnota spolehlivosti R 0.908857 Nastavená hodnota spolehlivosti R 0.897464 Chyba stř hodnoty 0.467524 Pozorování 10 ANOVA Rozdií SS MS F Významnost F Regrese 1 17 43697 17 43697 79.77433 1 95988E-05 Rezidua 8 1,74863 0.218579 Celkem 9 19 1856 Koeficient! Chyba stř. hodnoty f Stal Hodwoía P Dolní 95% Horní 95% Dolní 95,« Hom! 95,0% Hranice 1.082954915 0 304564513 3,555749 0.007446734 0.380627878 1 785281952 0.380627878 1.785281952 Počet poboček 0.606913356 0,056653975 8.931648 1 96988E-05 0.375369056 0.636657656 0.375369056 0.636657666 Odhady parametrů, které jsou uvedeny ve sloupci koeficienty v rámci třetí tabulky výstupu, jsou opět uvedeny ve zlogaritmovaném tvaru, a proto je třeba provést jejich transformaci odlogaritmováním. 254 STATISTIKA V PŘÍKLADECH Excel Pokud modelujeme regresní exponenciální funkci v Excelu, postupujeme opět analogicky volbou Analýzy dat a Regrese. Podle výše uvedeného tvaru regresní exponenciální funkce budeme jako vstupní hodnoty vysvětlované proměnné uvažovat přirozené logaritmy hodnoty zisku, tj. do Vstupní oblasti Y vložíme tyto předem připravené zlogaritmované hodnoty vysvětlující proměnné. Hodnoty vysvětlující proměnné jsou bez transformace. A E , € £>; ' F S 1 Počfl poboéek InIZiik; Mít,™. " '-' 2 0,2885 „_,. .. 3 4 2 2 i,8131 11541 i * i i 'i..ľ- 1 5 3 3J241 Vstupr* cétaít j Har*> | $ « 4 3 t 331» 4,(885 4,3383 7 4,i21S 1.C tl 1 9 4.SS43 5,2242 _ l_ Jj] 12 FjMdwi ta a 1» I? a "i Výstupy regresní analýzy jsou opět rozděleny do 3 tabulek. VÝSLEDEK Regresní statistika Násobné R 0 95334 Hodnota spolehlivosti R 0.908857 Nastavená hodnota spolehlivosti R 0 897464 Chyba stí hodnoty 0.467524 Pozorování 10 ANOVA Rozdíl SS US F Významnost F Regrese 1 17.43697 17.43697 79.77433 1 9S388E-05 Rezidua 8 1.74863 0.218579 Celkem 9 19 1856 Koeficienty Chiba siř hodnoty ! Sta: Hodnota P Doírtí 95% Horní 95% DoMfS.OK Hraníce 1.082954915 0 304564518 3,555749 0 007446734 0 380627878 1.785281952 0 380627878 1,785281952 Počet poboček 0.506013356 0 066653976 3.931643 1 95988E-05 0 375369056 0.636657656 0 375369056 0.636657666 Odhady parametrů, které jsou uvedeny ve sloupci koeficienty v rámci třetí tabulky výstupu, jsou opět uvedeny ve zlogaritmovaném tvaru, a proto je třeba provést jejich transformaci odlogaritmováním. REGRESNÍ A KORELAČNÍ ANALÝZA 255 Graf, který obsahuje napozorované hodnoty, model regresní exponenciální funkce a hodnotu koeficientu determinace, získáme volbou Exponenciální trend ve výše uvedeném postupu. Obr. 6.8 256 STATISTIKA V PŘÍKLADECH Cvičení 1. U 13 studentů byla zjišťována jejich výška (v cm) a jejich hmotnost (v kg). Vstupní údaje jsou uspořádány do tabulky. a) Pomocí regresní přímky vyjádřete závislost hmotnosti studenta na jeho výšce. b) Pomocí testu ověřte, zda se jedná o vhodný model. c) Zhodnoťte kvalitu regresního modelu pomocí vhodného koeficientu. d) Vyjádřete intenzitu závislosti mezi hmotností studenta a jeho výškou. e) Interpretujte věcně hodnotu vypočteného regresního koeficientu b\. f) Odhadněte střední hodnotu hmotnosti studenta, který měří 180 cm. Výška Hmotnost 180 72 197 86 205 81 202 85 180 71 160 63 183 71 185 73 183 72 150 55 170 65 190 75 170 67 2. Uvažujte závislost nabízeného množství výrobku (v kusech), které je ochoten výrobce nabízet při daných cenách (v tisících korun). Vstupní údaje jsou uspořádány do tabulky. a) Modelujte závislost nabízeného množství na ceně pomocí vybraných regresních funkcí (regresní přímka, hyperbola, logaritmická funkce, exponenciální a mocninná funkce). b) Popište kvalitu všech vybraných funkcí. c) Vyberte nej vhodnější model a výběr zdůvodněte. d) Určete, jaká je intenzita závislosti nabízeného množství na ceně. regresní a korelační analýza 257 e) Odhadněte střední hodnotu nabízeného množství při ceně 20 tis. Kč. Cena Nabízené množství 10 5 11 14 12 16 13 17 14 18 16 21 18 24 19 25 20 26 21 25 22 29 25 33 26 34 28 37 30 39 32 42 34 52 Výsledky a) Y = -23,3191 + 0,526178 x. b) F= 142,00;^-hodnota = 1,25E-07 ; na 5% i 1% hladině významnosti je prokázána statisticky významná závislost. c) R2= 0,9281, d) ryx= 0,9634, e) při růstu výšky studenta o 1 centimetr je možné očekávat, že se střední hodnota hmotnosti zvýší o 0,5262 kilogramu, f) Fi8o = 71,3929; P(69,9064 <7]m < 72,8793) = 0,95 . 2. a) Přímka: Hyperbola: Log. funkce: Exp. funkce: Mocninná fee: F= - 4,43776 + 1,51693 x Y = 54,6868 -500,436/*. ľ = - 60,3456 + 29,4627-lux. Y= exp(l,85848 + 0,0638816-x): 6,41398T,065966l. Y = 0,49852 -x1'30836. STATISTIKA V PŘÍKLADECH Přímka: 7?2 = 0,9595. Hyperbola: R2 = 0,8746. Log. funkce: R2 = 0,9364. Exp. funkce: R2 = 0,7872. Mocninná fce: i?2 = 0,8543. Nejvhodnější model je regresní přímka, a to dle grafu napozorovaných hodnot, nej vyšší hodnoty R ; celkový F-test vychází významný (na 5% i 1% hladině významnosti) - F = 355,0 , u obou dílčích /-testuje zamítnuta testovaná hypotéza o nulové hodnotě příslušného parametru (na 5% hladině významnosti). ryx = 0,9795 (regresní přímka), jedná se velmi silnou lineární závislost (s růstem ceny roste i nabízené množství). Y20 = 25,90; P(24,6377 < i]20 < 27,1639) = 0,95. REGRESNÍ A KORELAČNÍ ANALÝZA 259 6.2 Regresní parabola Příklad 6.6 U 8 automobilů byly měřeny roční náklady na údržbu (v korunách) v závislosti na jejich stáří (v letech). Pomocí regresní paraboly popište závislost ročních nákladů na stáří automobilu. Dále zhodnoťte kvalitu tohoto regresního modelu a odhadněte střední hodnotu nákladů na údržbu automobilu, který je starý 5 let. Vstupní údaje jsou uspořádány do Tab. 6.14. Tab. 6.14 Stáří 1 2 3 4 5 6 7 8 Náklady 1 200 1 140 1 100 1 100 1 220 1 260 1 420 1 680 Řešení: Tvar regresní paraboly je možné vyjádřit následujícím způsobem: 7J=fi0+filx+/í2x2. Postup řešení regresní paraboly si ukážeme pro jednoduchost pouze s využitím Exce-lu. Excel Pokud modelujeme regresní parabolu v Excelu, postupujeme opět analogicky volbou nabídek Analýza dat a Regrese. Do Vstupní oblasti X musíme vložit současně hodnoty stáří vozu a jeho druhé mocniny, kterou si musíme připravit předem. A 8. C D. 5 F " : G H: í 1 Slití Njkldtíy 2 i i im i 2 i 1WÖ 1100 ~2—j 4 16 1100 5""° 1 5 3$ 1220 □ 8#dM*pdet*** Mäfcosti '/!»iXi - ..... CjKofisbír*-1* iŕ f* M i \ 3 : '{$ _ 6 7 8 « 64 126C 1420 16SC m 31: 12 13 ■Q ftoiíf-fgř* m 15 Ü i?. m □ StarJet** rtódu* Net m JJr. píůvoípQifctirass1 Qfáfar-Sřeájjul 260 STATISTIKA V PŘÍKLADECH Z grafu napozorovaných hodnot, viz Obr. 6.9, je patrné, že průběh závislosti nákladů na stáří automobilu bude zřejmě vhodné modelovat pomocí regresní paraboly. 17B0: -V * nu "i * I I 1190 I 1090 ifMwm-----1---,—i--1 0 12 Obr. 6.9 Výstupy získané z Excelu jsou rozděleny opět do tří tabulek: VÝSLEDEK ti* ' 'i *ľ% Násobné R 0.991826 Hodnots spolehlivostí R 0,983719 Nastavenáhodnota spolehlivosti R 0.977207 Chyba sír hodnoty 29,79294 ANOVA Rozďtí SS MS F : Výzmmnost F Regrese Z 268161.9 134081 151.0569 3.38203E-05 Rezidua 5 4438,095 887,819 Celkem 7 272600 Koeíkmniý GfcjíM siř hodnoty t Síst Hodnotí P DoktiSm Horní 95% Méss,o% Horní 95,0« Hranice 1338,57143 41 56545631 32.20394 5 42E-07 1231.724024 1445418833 1231.724024 1445.418833 Stáři -152,619048 21.19181376 -7 20179 0 000804 -207,0943391 -98,1437561 -207,0943391 -98 1437561 Stáři»2 24.047619 2.298574931 10 46197 0.000138 18.13894408 29.95629401 18.13894408 29.95629401 Z uvedeného výstupu z MS Excel vyplývá, že rovnici regresní paraboly můžeme vyjádřit následovně: F = 1338,57-152,619x + 24,0476x2. REGRESNÍ A KORELAČNÍ ANALÝZA 261 Vzhledem k tomu, že uvažujeme model, který má oproti doposud výše popsaným modelům vyšší počet parametrů, je pro případné srovnání s uvedenými funkcemi nutné stanovit upravený koeficient determinace, a to podle výše uvedeného vzorce, tedy R2 = 1- (1 - 0,983719)-^- = 0,977207 . Tato hodnota je uvedena v první tabulce výstupu a je označena jako Nastavená hodnota spolehlivosti R. Proveďme nyní odhad střední hodnoty nákladů na údržbu automobilu, který je starý 5 let. Získáme jej tak, že dosadíme číslo 5 do rovnice regresní paraboly, tedy y = 1338,57-152,619-5 + 24,0476-52 =1176,67 . Graf, který obsahuje napozorované hodnoty, rovnici regresní paraboly a hodnotu koeficientu determinace, získáme volbou Polynomický trend. Hodnotu Pořadí ponecháme na přednastavené hodnotě 2. Pokud bychom chtěli polynom vyššího stupně, museli bychom tuto skutečnost vyjádřit právě nastavením vyšší hodnoty. isoo 1700 j * 11Q0 1000 *-------.-•----1--1----------—T--N----'-r------, mm Obr. 6.10 262 STATISTIKA V PŘÍKLADECH Cvičení 1. V tabulce jsou uvedeny zisky firmy (v korunách) a počty zákazníků. a) Modelujte závislost zisku firmy na počtu zákazníků pomocí regresní paraboly. b) Zhodnoťte vhodnost lineárního a kvadratického členu v modelu. c) Popište kvalitu daného regresního modelu. d) Odhadněte střední hodnotu zisku firmy s 10 zákazníky. Počet zákazníků Zisk 1 500 2 746 2 760 3 810 5 917 6 961 6 980 8 1028 9 1052 10 1070 12 1084 13 1082 17 1060 21 800 Výsledky 1. a) 7 = 528,119 + 94,7928-x - 3,88085-x2. b) Na 5% i 1% hladině významnosti je zamítnuta testovaná hypotéza u obou regresních parametrů. c) R2 = 0,936519, tj. pomocí daného regresního modelu se podařilo vysvětlit 93,6519 % variability hodnot závisle proměnné (zisk). d) 7,0= 1087,96; P(1046,63 < n20 < 1129,29) = 0,95. REGRESNÍ A KORELAČNÍ ANALÝZA 263 6.3 Vícenásobná regrese Příklad 6.7 Prozkoumejte závislost ceny automobilu (v tisících korun) na počtu ujetých kilometrů (v tisících) a na jeho stáří (v měsících). Vstupní údaje jsou uspořádány do Tab. 6.15. a) Modelujte závislost pomocí lineární regresní funkce a pomocí vhodného testu zhodnoťte model jako celek. b) Zhodnoťte vhodnost jednotlivých vysvětlujících proměnných v modelu pomocí vhodných testů. c) Popište kvalitu daného regresního modelu. d) Interpretujte věcně hodnoty dílčích regresních parametrů. e) Odhadněte střední hodnotu ceny automobilu, který je starý 3 roky a má najeto 42 tis. kilometrů. Tab. 6.15 Cena Stáří Počet km 262 42 26 85 60 125 110 57 122 36 93 54 409 9 7 275 37 46 250 11 19 216 53 25 160 44 74 324 26 38 295 24 29 54 85 92 34 95 75 430 6 3 150 62 93 105 73 91 292 35 26 340 37 12 30 95 50 108 72 94 264 STATISTIKA V PŘÍKLADECH Řešení: Uvažujme lineární závislost ceny automobilu na počtu ujetých kilometrů a stáří automobilu. Regresní funkci pak můžeme vyjádřit ve tvaru kde proměnná X\ vyjadřuje stáří automobilu a proměnná X2 vyjadřuje počet ujetých kilometrů (v tisících). Vzhledem k tomu, že jde o zcela lineární model, k odhadu parametrů lze využít metodu nej menších čtverců. Je možné očekávat, že cena automobilu bude klesat jednak s růstem počtu ujetých kilometrů, jednak s růstem jeho stáří. Výpočet regresní roviny si pro jednoduchost opět ukážeme pouze s využitím Excelu. Excel Pokud modelujeme regresní rovinu v Excelu, do Vstupní oblasti X musíme vložit současně hodnoty obou vysvětlujících proměnných, tj. stáří automobilu i počet ujetých kilometrů. ,:.. .A B ■ t p [ £ f G . H i 1 Cena staň Potet km 2 4 5 262 SS no Ú 42 m 57 93 26 12S 122 54 v#xp—t::"'í: 1 VŕiífMlťsí-a-;! v B ! jjf í íš 409 9 7 C."j íí»ÍCi3 íf****rt«<ä O SáPtlstainia J* nuía j* 1 275 250 37 U 46 S9 % 21Ě 13 23 10 m 44 74 Šfc! n 26 38 : & 295 24 29 n u S4 34 » 99 92 75 LJSnŕs«ad>i ís «30 6 3 16 130 R 93 V 105 71 91 .■i-.tl- :ra: " -.'J r! i ■ KvtWA sk 292 35 26 IS M& 17 :m ___jjT . 50 21 1Ô8 n 94 Odhady regresních parametrů, celkový F-test, dílčí t-testy i další výsledky jsou patrné z následujícího výstupu z Excelu. VÝSLEDEK Regresní statistika Násobné R 0.960113 Hodnota spolehlivosti R 0,921817 Nastavená hodnota spolehlivosti R 0,91262 Chyba stí hodnoty 37,68454 Pozorovaní 20 REGRESNÍ A KORELAČNÍ ANALÝZA 265 anova Rok* ss MS F Významnost F Regrese 2 284649,6 142324,8 100.2199 3.90331E-10 Rezidua 17 24142,12 1420,125 Celkem 19 308791,8 Koeficienty Chyba siř. hodnoty t Stal Hodnota P Dolní 95% Horní 95% Dolní 85,0% Horní 95 0% Hranice 421 6552 17 89320905 23,5651 2019E-W 383 9038256 459.406568 383 9038256 459,406568 Stáří •3 28191 0.392051903 -8,3711 1.958E-07 4.109062264 -2,454747842 4.109062264 -2,454747842 Počet km -1.02969 0 293674324 -3,50623 0 0027072 -1 649288402 -0.410091075 -1.649288402 -0 410091075 a) Z uvedeného výstupu vyplývá, že rovnici regresní roviny, která popisuje vztah mezi cenou automobilu, jeho stářím a počtem ujetých kilometrů, je možné vyjádřit jako Y= 421,655 - 3,28191 -X\ - l,02969-x2; testovaná hypotéza celkového F-testu je na 5% hladině významnosti je zamítnuta, protože uvedená j9-hodnota je 3,903E-10, což znamená, že je menší než zvolená hladina významnosti. b) Vzhledem k tomu, že /^-hodnoty dílčích /-testů u obou vysvětlujících proměnných jsou v porovnání se zvolenou hladinou významnosti (0,05 i 0,01) menší, je možné testované hypotézy o nulových hodnotách regresních parametrů na dané hladině významnosti zamítnout a tím pádem jsme prokázali, že jednak proměnná stáří vozu, jednak proměnná počet ujetých kilometrů je v modelu opodstatněná. c) Kvalitu zvoleného regresního modelu zhodnotíme pomocí koeficientu determinace R2 = 0,921817, ze kterého vyplývá, že pomocí daného modelu se podařilo vysvětlit 92,1817 % variability proměnné cena automobilu. Modifikovaný koeficient determinace pro případ srovnání s modely, které mají jiný počet parametrů, je R2adj =0,91262. d) Hodnota parametru b\ = -3,28191; udává, že srůstem stáří o jeden měsíc můžeme očekávat, že střední hodnota ceny automobilu poklesne o částku 3281,91 Kč; hodnota parametru b2 = -1,02969 nám říká, že s každým dalším najetým tisícem kilometrů poklesne střední hodnota ceny automobilu o 1029,69 Kč. e) Střední hodnota ceny tři roky starého automobilu, který najel 42 000 km, je YyA2 = 260 259 Kč. 266 STATISTIKA V PŘÍKLADECH Cvičení 1. Prozkoumejte závislost mzdy pracovníka (v tisících korun) na jeho počtu odpracovaných hodin a počtu úspěšně dokončených výrobků. Vstupní údaje jsou uspořádány do tabulky. a) Modelujte závislost pomocí lineární regresní funkce a pomocí vhodného testu zhodnoťte model jako celek. b) Zhodnoťte vhodnost jednotlivých vysvětlujících proměnných v modelu pomocí vhodných testů. Mzda Počet výrobků Počet hodin 31 105 180 40 99 196 35 126 180 30 102 172 19 120 140 20 108 148 25 120 160 30 114 164 35 96 180 25 120 160 19 120 140 20 108 148 25 120 160 Výsledky 1. a) Y = -42,2037 + 0,0349378•*! + 0,400239x2. Na 5% (i na 1%) hladině významnosti byla zamítnuta testovaná hypotéza použitím celkového F-tcstu, tj. prokázali jsme, že existuje alespoň jedna vysvětlující proměnná, která je v modelu statisticky významná, tj. statisticky významně ovlivňuje mzdu pracovníka. K tomuto výsledku jsme dospěli jednak na základě stanovené /j-hodnoty, která jc menší než zvolená hladina významnosti (0,05 i 0,01), resp. podle hodnoty testového kritéria F = 116,98, kterou porovnáme s kritickou hodnotou FQ95(2;\0) = 4,103 . REGRESNÍ A KORELAČNÍ ANALÝZA 267 b) Vhodnost jednotlivých vysvětlujících proměnných ověříme pomocí dílčích t-testů. P-hodnota dílčího t-testu u proměnné počet dokončených výrobků (X{) vychází 0,5196, což znamená, že na všech obvyklých hladinách významnosti (0,01, 0,05 či 0,10) nejsme oprávněni zamítnout testovanou hypotézu, a tedy na dané hladině významnosti můžeme daný regresní parametr (J3\) považovat za nulový. Z tohoto důvodu je proměnná X\ v modelu neopodstatněná, a můžeme ji tedy z modelu vyřadit, f-hodnota u proměnné počet odpracovaných hodin (X2) vychází velmi malé číslo, což znamená, že na všech obvyklých hladinách významnosti jsme oprávněni zamítnout testovanou hypotézu o nulové hodnotě regresního parametru (j32), a tedy tato vysvětlující proměnná je v daném modelu významná. Jako vhodný model by tedy mohl být zvolen model regresní přímky (po vyjmutí proměnné X\ z modelu) a výsledný tvar rovnice by byl následující: Y = -36,6957 + 0,390528-x2. Hodnota koeficientu determinace je R2 = 0,957185, což znamená, že pomocí regresní přímky se podařilo vysvětlit 95,7185 % variability proměnné mzda pracovníka, což představuje převážnou část a daný model můžeme považovat za vhodný. 268 STATISTIKA V PŘÍKLADECH 6.4 Korelační analýza Příklad 6.8 Pomocí korelačního koeficientu vyjádřete míru lineární závislosti mezi příjmy (X) a výdaji (7) domácností. Hodnotu korelačního koeficientu interpretujte. Vstupní údaje jsou uspořádány do Tab. 6.16. Tab. 6.16 Příjem (v tis. Kč) Výdaj (v tis. Kč) 20 18 25 22 17 15 18 16 19 16 26 22 28 24 28 24 32 29 31 26 26 22 26 22 29 25 Řešení: Vzorec pro výpočet výběrového korelačního koeficientu mezi proměnnými X a Y můžeme vyjádřit následujícím způsobem n n n "Z^.-ZX-Z^ y. —y _ 1 = 1 1 = 1 1 = 1_ V í=i í=i V 1=1 i=i Tento koeficient nabývá hodnot z intervalu od 1 do 1. Záporné hodnoty znamenají nepřímou lineární závislost, kladné hodnoty přímou lineární závislost a hodnota 0 znamená lineární nezávislost. REGRESNÍ A KORELAČNÍ ANALÝZA 269 Pomocné výpočty jsou uspořádány do Tab. 6.17. Hodnotu korelačního koeficientu získáme dosazením do výše uvedeného vzorce, tedy 13-7276-325-281 r = Vl3-8421-3252 Vl3-6291-2812 = 0,990196. Z hodnoty vypočteného výběrového korelačního koeficientu vyplývá, že mezi výdajem domácnosti a jejím příjmem existuje velmi silný, přímo úměrný vztah (s růstem příjmu domácnosti roste i její výdaj). Eil Excel Tab. 6.17 i Xi Ji 2 Xi 2 Ví 1 20 18 360 400 324 2 25 22 550 625 484 3 17 15 255 289 225 4 18 16 288 324 256 5 19 16 304 361 256 6 26 22 572 676 484 7 28 24 672 784 576 8 28 24 672 784 576 9 32 29 928 1 024 841 10 31 26 806 961 676 11 26 22 572 676 484 12 26 22 572 676 484 13 29 25 725 841 625 X 325 281 7 276 8 421 6 291 Pokud chceme získat hodnoty korelačních koeficientů v Excelu, postupujeme následujícím způsobem. Data Analýza dat Korelace 270 STATISTIKA V PŘÍKLADECH Analytické nástroje; OK Mnova: ova rawory oez opaKovani Storno Kovariance Popisná statistika ExporenciáH vyrovnání Dvouvýběrovy F-test pro rozptyl Fourierova analýza Histogram Klouzavý průměr Generátor pseodonáhodny ch čísel s v Nápověda Do vstupního okna vyznačíme Vstupní oblast, která obsahuje hodnoty proměnných a v případě, že první řádek obsahuje názvy proměnných, tuto skutečnost také vyznačíme. A . B c o E F G../.,.... H.... 1 Pří/em WUUBBĚĚá i^il 2 20 18 Korelace 3 ■4 P. i7 22 X5 -Vstup Vstupní oJWsst: H MM 6 18 16 Sdruž*: i 1 Storno | 6 19 16 | Nápov&fa | 7 26 22 0£opisky v prvnfe řá*u| a ........ 28 24 Mi:i?rior-íí wífeay-................. ................ a- 28 24 : Ovys&^oWašt: 10 32 29 & Nový [M: ii 31 26 OWvýsäsIt 12 26 22 13 26 22 1*1 29 25 Výsledná hodnota korelačního koeficientu je uspořádána do čtvercové symetrické korelační matice, která má následující podobu Příjem Výdai Příjem 1 Výdaj 0.990196 1 n Příklad 6.9 Pomocí korelačního koeficientu vyjádřete závislost poptávaného množství výrobku (v kusech), které je spotřebitel ochoten nakupovat při daných cenách (v korunách). Hodnotu korelačního koeficientu interpretujte a pomocí vhodného testu ověřte, zda se jedná o statisticky významnou závislost. Vstupní údaje jsou uspořádány do Tab. 6.18. REGRESNÍ A KORELAČNÍ ANALÝZA 271 Tab. 6.18 Poptávané množství Cena 45 40 55 63 38 80 40 89 40 81 55 61 60 50 60 75 75 13 65 36 55 70 55 90 61 80 Řešení: Pro ověření, zda závislost mezi proměnnými X a Y můžeme považovat na zvolené hladině významnosti za statisticky významnou, použijeme test, kde ověřujeme hypotézu, že hodnota populačního korelačního koeficientu mezi danou dvojicí proměnných je rovna 0, tedy že proměnné jsou lineárně nezávislé (nekorelované) H0: p„ = 0, Testovým kritériem tohoto testuje statistika t, která se stanoví podle vzorce _ rvxyJn-2 Předpokládejme, že dvojice hodnot x a v jsou výběrem z dvourozměrného normálního rozdělení. Kritický obor je pak dán nerovností Wa ={ř;|/|>ř1_ffi/2] , kde t\.a,2 představuje kvantil t-rozdělení s (« - 2) stupni volnosti. Pro velké rozsahy výběru (stačí když n-2 > 30), lze kvantil t\.a,2 nahradit kvantilem U].a/2 normovaného normálního rozdělení. 272 STATISTIKA V PŘÍKLADECH Hodnotu korelačního koeficientu získáme postupem, který byl podrobně popsán v předchozím příkladu. Tím získáme výsledek ryx = -0,6248, což vyjadřuje, že mezi poptávaným množstvím a cenou výrobku je středně silná, nepřímo úměrná závislost (s růstem ceny výrobku dochází k poklesu poptávaného množství). Ověření statistické významnosti dané závislosti provedeme pomocí testu H0: pyx=0, H,: p^*0. Testové kritérium stanovíme podle výše uvedeného vzorce jako -0,6248 . -/ = --' _Jl 3 - 2 =-2,65418. Vl-(-0,6248)2 Kritická hodnota je dána kvantilem /0975(11) = 2,20. Vzhledem k tomu, že hodnota testového kritéria spadá do kritického oboru, na 5% hladině významnosti zamítáme testovanou hypotézu a prokázali jsme, že mezi poptávaným množstvím a cenou výrobku existuje statisticky významná závislost. Příklad 6.10 Pomocí vhodného koeficientu změřte těsnost závislosti mezi hodnocením 10 firem, které pochází od dvou nezávislých skupin hodnotitelů. Pořadí firem, sestavená na základě těchto hodnocení, jsou upořádána do Tab. 6.19. Tab. 6.19 Firma Pořadí od Pořadí od skupiny 1 skupiny 2 1 2 2 2 1 3 3 3 1 4 5 6 5 6 5 6 9 9 7 8 8 8 7 7 9 4 4 10 10 10 regresní a korelační analýza 273 Řešení: Vzhledem k tomu, že je třeba prozkoumat těsnost závislosti mezi dvěma pořadovými proměnnými, použijeme k jejímu vyjádření Spearmanův korelační koeficient, který se počítá podle vzorce 6Za-g2 n(n2 -1) kde ix a iv jsou hodnoty pořadových proměnných. Ověření statistické významnosti dané závislosti provedeme pomocí testu: H0: ps=0, Hy. Ps*o. Testovým kritériem tohoto testuje statistika t, která se stanoví podle vzorce Kritický obor je dán nerovností Wa = \t;\t\ > t{_a/2] , kde t\^2 představuje kvantil t-rozdělení s (n - 2) stupni volnosti. Pomocné údaje uspořádejme do Tab. 6.20, kde ix a /,. jsou pořadí, která stanovila příslušná skupina hodnotitelů. Tab. 6.20 Firma ix Íy ix ~ Íy 0x - iy)2 1 2 2 0 0 2 1 3 -2 4 3 3 1 2 4 4 5 6 -1 1 5 6 5 1 1 6 9 9 0 0 7 8 8 0 0 8 7 7 0 0 9 4 4 0 0 10 10 10 0 0 274 STATISTIKA V PŘÍKLADECH Dosazením do výše uvedeného vzorce získáme hodnotu Spearmanova korelačního koeficientu r =1--6 ]° =0,93939. 10(102-1) Z hodnoty vypočteného korelačního koeficientu vyplývá, že mezi pořadím přiřazeným firmám oběma skupinami hodnotitelů existuje velmi silná přímo úměrná korelace. Nyní otestujme významnost závislosti pomocí testu: H0: ps=0, H,: ps *D. Dosazením do výše uvedeného vzorce získáme hodnotu testového kritéria t 0 93939 i- t= . u'yjyjy 7hTT = 7,75. Vl-0,939392 Kritická hodnota je dána kvantilem tQ 975 (8) = 2,306. Vzhledem k tomu, že hodnota testového kritéria spadá do kritického oboru, na 5% hladině významnosti zamítáme testovanou hypotézu, a tedy jsme prokázali, že mezi hodnocením obou skupin existuje statisticky významná závislost. REGRESNÍ A KORELAČNÍ ANALÝZA 275 Cvičení 1. U 16 směsí byl sledován výskyt jednotlivých látek (proměnné X\ -X3). a) Pomocí vhodných koeficientů stanovte, zda-li se výskyt jednotlivých látek vzájemně ovlivňuje. b) Ověřte, zda-li danou závislost je možné považovat za statisticky významnou. x2 x3 1,2 2,56 4,27 1,7 3,76 2,34 1,9 3,92 1,84 2,2 4,42 1,29 2,4 4,32 1,01 2,6 4,48 0,8 2,7 4,56 0,71 2,9 4,72 0,56 3,1 4,88 0,44 3,3 5,04 0,34 3,2 4,72 0,39 4,1 5,68 0,13 4,2 6,11 0,12 4,4 5,92 0,09 4,6 6,08 0,07 4,8 9,16 0,06 2. Dvě skupiny porotců hodnotily 20 filmů. Na jejich základě bylo stanovena tabulka pořadí jednotlivých filmů. a) Pomocí vhodného koeficientu vyjádřete shodu pořadí hodnocení oběma skupinami. b) Pomocí vhodného testu ověřte, zda-li je možné danou shodu považovat za statisticky významnou. Film Porota 1 Porota 2 1 9 7 2 8 9 3 2 2 4 1 1 5 7 9 6 6 3 7 3 6 8 5 4 276 STATISTIKA V PŘÍKLADECH Film Porota 1 Porota 2 9 4 5 10 10 10 11 11 11 12 16 16 13 17 17 14 12 12 15 13 13 16 20 20 17 17 18 18 18 15 19 14 14 20 15 17 3. Modelujte závislost proměnné Y na proměnných X\ a X2. Vstupní údaje jsou uspořádány do tabulky. a) Vyjádřete rovnici regresní funkce ve tvaru r/ = /30 + fixxx + p2x2. b) Zhodnoťte pomocí koeficientu determinace model. c) Pomocí vhodných testů ověřte významnost tohoto modelu jako celku a významnost jednotlivých vysvětlujících proměnných. d) Pomocí korelačních koeficientů zhodnoťte intenzitu závislosti mezi všemi dvojicemi proměnných. e) Navrhněte alternativní model. Y xi x2 1008 101 1,6 1146 115 3,9 10 46 1,6 2282 229 7,7 2800 203 9,3 1684 169 5,7 2052 206 7,1 757 76 2,6 886 89 3,3 780 75 2,4 REGRESNÍ A KORELAČNÍ ANALÝZA 277 Výsledky 1. a) = 0,8886, = -0,8379, = -0,7238. b) Na 1% i 5% hladině významnosti je možné zamítnout testovanou hypotézu o nulové hodnotě korelačního koeficientu u všech dvojic proměnných. 2. a) rs =0,9616. b) Na 1 % i 5% hladině významnosti je zamítnuta testovaná hypotéza o nulové hodnotě Spearmanova korelačního koeficientu. 3. a) F = -170,288 + 5,94106x, + 162,19Lx2. b) R2 = 0,943732 (/?,;,. = 0,927656). c) P-hodnota u celkového F-testu je menší než zvolená hladina významnosti (0,05 i 0,01), a tak je na dané hladině významnosti možné zamítnout testovanou hypotézu, tj. existuje alespoň jedna vysvětlující proměnná, která je opodstatněná; /j-hodnoty u všech dílčích t-testů jsou jsou větší než hladina významnosti (0,05 i 0,01), a tedy nejsme oprávněni na dané hladině významnosti zamítnout testované hypotézy dílčích t-testů. d) rVXi =0,9546, ^=0,9588, rrr =0,9399 - z uvedených hodnot korelačních koeficientů je zřejmé, že mezi všemi dvojicemi hodnot existuje velmi silná přímá lineární závislost. e) Jak vyplývá z řešení v úloze c) výsledek celkového F-testu a dílčích t-testů je v rozporu, což je zřejmě způsobeno tzv. multikolinearitou, která byla prokázána pomocí korelačního koeficientu rxx , neboť pro danou dvojici je větší (v absolutní hodnotě) než 0,8. Tyto dvě vysvětlující proměnné nemohou být ponechány v modelu současně, a proto z modelu vyřadíme tu proměnnou, která má „nižší" vazbu na vysvětlovanou proměnnou Y. V našem případě se jedná o proměnnou Xi (měřeno korelačním koeficientem mezi proměnnými Y a X\ resp. Y a X2). Výsledným modelem tedy bude regresní přímka ve tvaru ľ = 9,96797 + 294,365 x2, hodnota R2 = 0,919278. KAPITOLA VII ČASOVÉ ŘADY • : 22 600 20 000 1? SK! 12 500 10 000 jř* 1009.2X-2E+05 R' - 0.9946 7 500 ■ 19SS 1997 1999 2001 2003 2005 2007 2009 2011 ČAS 7 7.1 Přík V ča čete lutni rok poče rozvi Zdrc; Řeše Absc a ted Rela- a ted Koef ČASOVÉ ŘADY 281 7 Časové řady 7.1 Jednoduché míry dynamiky časové řady Příklad 7.1 V časové řadč v tabulce jsou uvedeny počty rozvodů v České republice za 12 let. Určete pro tuto řadu absolutní a relativní přírůstky, koeficienty růstu, průměrný absolutní přírůstek a průměrný koeficient růstu. rok 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 počet rozvodů 29704 31586 31758 32824 33060 31288 31415 31129 31300 29133 30783 28113 Zdroj: http://www.czso.cz/ Řešení: Absolutní přírůstky (první diference řady) mají tvar A, = y, -y,_„ í = 2,3,...,n , a tedy lze pro t = 2, 3, ... psát A2 = y2 ->• =31586-29704 = 1882, A3 =y3 -y2 = 31758-31586 = 172. Relativní přírůstky jsou rovny (yř = 3WtLj , = 2,3,...,«, a tedy lze pro t = 2,3, ... psát ,^31586-29704 yx 29704 3^31758-31586 y2 31586 Koeficienty růstu jsou rovny 282 STATISTIKA V PŘÍKLADECH k,=^, t = 2,3,.,.,n. y,-i Pro / = 2, 3, ... platí ^ = ^ = 1,063, v, 29704 *, = *=21™=1,005, y2 31586 V následující tabulce jsou uvedeny všechny hodnoty výše uvedených charakteristik. rok počty pracovníků absolutní přírůstek relativní přírůstek koeficient růstu 2000 29 704 - - - 2001 31 586 1 882 0,063 1,063 2002 31 758 172 0,005 1,005 2003 32 824 1 066 0,034 1,034 2004 33 060 236 0,007 1,007 2005 31 288 -1 772 -0,054 0,946 2006 31 415 127 0,004 1,004 2007 31 129 -286 -0,009 0,991 2008 31 300 171 0,005 1,005 2009 29 133 -2 167 -0,069 0,931 2010 30 783 1 650 0,057 1,057 2011 28 113 -2 670 -0,087 0,913 Pro průměrný absolutní přírůstek platí - =ZlZA= 28.13-29704 H-l 11 Průměrný koeficient růstu časové řady je roven ř = ,É = ,JMiLo,995. V v, V 29704 ČASOVÉ ŘADY 283 Počet rozvodu tedy ročně poklesl v průměru o 0,5 %, což absolutně vyjádřeno, znamená průměrný roční pokles o 145 rozvodů. V Excelu zadáme příslušné vzorce do jednotlivých buněk - jak výsledky tak vzorce jsou vidět na částečném výřezu tabulky. Ä B c D E 1 2000 29704 ' 2 2001 31586 1882 0,063 1,063 3 2002 31758 172 0,005 1,005 4 2003 32824 1066 0,034 1,034 S 2004 33060 236 0,007 1,007 A B C D E 1 2000 29704 2 2001 31586 =B2-B1 =(B2 B1J/B1 =B2/B1 3 2002 31758 =B3-B2 =(B3-B2)/B2 =B3/B2 4 2003 32824 =B4-B3 =(B4-B3)/B3 =B4/B3 5 2004 33060 =B5-B4 =(B5-B4)/B4 =B5/B4 □ 7.2 Trendová analýza 7.2.1 Trendové křivky Příklad 7.2 Roční časová řada v tabulce obsahuje údaje o průměrné výši mezd v České republice. Jedná se přitom o data za 2. Čtvrtletí běžného roku, neboť v tomto čtvrtletí je nejsta-bilnější fond pracovní doby. Určete pro tuto řadu vhodnou trendovou křivku a odhadněte, jakou hodnotu bude mít průměrná mzda v roce 2012. rok t průměrná mzda rok t průměrná mzda 1995 1 8 311 2004 10 17 759 1996 2 9 962 2005 11 18 640 1997 3 11 322 2006 12 19 526 1998 4 12 026 2007 13 20 953 1999 5 12 982 2008 14 22 338 2000 6 13 541 2009 15 23 418 284 STATISTIKA V PŘÍKLADECH rok t průměrná mzda rok t průměrná mzda 2001 7 14 743 2010 16 24 077 2002 8 15 964 2011 17 24 484 2003 9 17 748 2012 18 - Zdroj: MPSV Řešení: Nejprve se podíváme na grafický záznam řady. Z obrázku lze usoudit, že řada roste v podstatě lineárně a tak jako vhodnou trendovou křivku zvolíme přímku Odhadneme parametry přímky metodou nej menších čtverců h = n^ty, -Z'X>, = 17-3001899-153-287794 =1QQ9 2 »Z'J-(Z0 17-1785-153' 6o = &_^Zl=287793_1009,2.153 0 A7 1 « 17 17 7846,3. 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 Výsledná rovnice trendové funkce má tedy tvar Ť, = 7846,3 +1009,2-t. Odhad pro t = 18 (rok 2012) získáme dosazením do rovnice trendu, čímž obdržíme ČASOVÉ ŘADY 285 Yn=Ťa = 7846,3 + 1009,2 18 = 26011,9. Pokud se tedy neočekávaně nezmění podmínky působící na vznik řady, naroste průměrná mzda za druhé čtvrtletí roku 2012 na hodnotu 26 011,90 Kč. Na druhé straně se jedná pouze o analytickou předpověď, která nebere v potaz ekonomické aspekty zkonstruované předpovědi. Do grafu časové řady můžeme vExcelu přidat spojnici trendu. Tím se nám zobrazí (pokud to v nabídce zaškrtneme) přímo v grafu rovnice regresní přímky. Je vidět, že výsledky této grafické analýzy odpovídají našim výpočtům. 30 000 25 000 20 000 15 000 10 000 5 000 y = 1009,2x +7846,3 R! = 0,9946 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 286 STATISTIKA V PŘÍKLADECH Odhad———....................................... období Vpřed: |l,0 tíazpět: jo,0 období Odhad pro ŕ = 18 (rok 2012) můžeme získat i graficky tak, že v dialogovém okně Formát spojnice trendu v části Odhad, Vpřed vyplníme 1, čímž získáme předpověď - odhad trendové křivky o 1 období dopředu. Výsledek pak získáme pouze graficky. Další možností je spočítat parametry trendové přímky pomocí nabídky Analýza dat a procedury Regrese. Do pole Vstupní oblast Y zadáme odkaz na hodnoty časové řady, do pole Vstupní oblasti X zadáme čas (vysvětlující proměnná) a zaškrtneme pole Popisky (nadpisy sloupců dat v Excelu). Vstup ] Vstupní oblast i: Vstupní oblast X: P Eppjsky P" Hjap^spofentvosti Možnosti výstupu ■'• Výstupn oblast <~ Nový list: - j" ; ' r Nový sešit : Rezidua ! P geíttía}"" T" Graf s rezidui | r gandat dní rezidua V Graf reoresnípftfícý rřipriT^:Dravaeikxipbfiost:............... ......... \ V Graf pravděpodobnosti V konstanta že nula lišil ~ 3 Nápověda B C 0 13 rok t Vt 14 199S 1 8 311 15 1996 2 9 962 16 1997 3 11 322 17 1998 4 12 026 18 1999 5 12 982 19 2000 6 13 541 20 2001 7 14 743 21 2002 S 15 964 22 2003 9 17 748 23 2004 10 17 759 24 2005 11 18 640 25 200S 12 19526 26 2007 13 20 953 27 2008 14 22 338 28 2009 15 23 418 29 2010 16 24 077 30 2011 17 24 484 ČASOVÉ ŘADY 287 Obdržíme výstup z regresní analýzy, jehož součástí jsou i odhady parametru b0 (Hranice) a ň, (t) jakož i index determinace (Hodnota spolehlivosti R) sl korelační koeficient (Násobné R). VÝSLEDEK i Regresní statistiko Násobné R 0,99727 .......! , 1 j í 1 Hodnota spolehlivosti R 0,99456 ■ i................. i r Nastavená hodnota spolehlivosti R 0,99419 Chyba str. hodnoty 389,36 Pozorování 17 ANOVA Rozdíl ss MS F Významnost F Regrese 1 4,26+08 4.2E+08 2741,01 2.1E-18 Rezidua 15 2274021 151601 Celkem 16 4.2E+08 Koeficientyya str. hodí tStat Hodnota FOolni95%Horni9S%Mní95,09tiorni 95,0% Hranice 7846,27 197,522 39,7235 1.3E-16 7425,26 8267,28 7425,26 8267,28 t 1009,2 19,2762 52,3546 2,16-18 968,112 1050,28 968,112 1050,28 □ Příklad 7.3 V tabulce jsou uvedeny hodnoty roční časové řady počtu narozených v České republice za období let 2006 - 2011. Vyrovnejte časovou řadu vhodnou trendovou funkcí a posuďte kvalitu vyrovnání. rok t počet narozených 2006 1 105 831 2007 2 114 632 2008 3 119 570 2009 4 118 348 2010 5 117 153 2011 6 108 673 Zdroj: http://www.czso.cz/ Řešení: Nejprve se podíváme na grafický záznam řady. I když máme k dispozici poměrně málo pozorování, je přesto z obrázku jako vhodná trendová křivka patrná parabola, tedy polynom druhého stupně. Ten má tvar 288 STATISTIKA V PŘÍKLADECH T,=fo+frt + p2t2, t = \,2,...,n. 124 000 120 000 116 000 112 000 108 000 104 000 01234567 Odhadneme parametry paraboly metodou nej menších čtverců, která vede k soustavě normálních rovnic ve tvaru Po dosazení obdržíme soustavu rovnic ve tvaru 684 207 = 6 ■ 60 + -2\ + b2-91, 2 405 000 = 60-21 + i,-91 + ^-441, 10 375 110 = ^-91 + 6,-441 + ^-2275. Řešením této soustavy jsou odhady parametrů paraboly b0 =93490, ^ =14454, i2=-1981. Obdržíme tedy rovnici paraboly 7>93490 + 14454r-1981/2. Vhodnost trendové křivky posoudíme pomocí indexu determinace (při použití metody nej menších čtverců platí Y = j, což se projeví při zápisu v čitateli zlomku) ČASOVÉ ŘADY 289 sy £(y,-50 155 373 186 Jako kritérium pro posouzení síly závislosti zvolíme (v časových řadách možná poněkud netradičně) index determinace. Ten je blízký 1, tudíž těsnost závislosti je velmi vysoká a parabola se tedy jeví jako vyhovující. xcel Do grafu časové řady můžeme v Excelu přidat spojnici trendu. Tím se nám zobrazí (pokud to v nabídce zaškrtneme) přímo v grafu rovnice trendové křivky. Je vidět, že výsledky této grafické analýzy odpovídají výsledkům našich výpočtů. Možnosti spojnice trendu Typ íren&j e regrett.....-............------- ...v j C &»Or*TO»í' .• I C Lpeimí ^ j (5 wsoism/ j, J C jjJOtftavjrflríNsěr G?^-" 124 000 120 000 116 000 104 000 290 STATISTIKA V PŘÍKLADECH Další možností je spočítat parametry trendové přímky pomocí nabídky Analýza dat a procedury Regrese. Postupujeme obdobně jako v případě přímky. Jelikož však trendovou křivkou je nyní parabola, musíme proměnnou ŕ (tedy čtverec vysvětlující proměnné) nejprve v Excelu dopočítat. f vstup..................................... ' Vstupní oblast Y_; ; Vstupní oblastg $E$34:$E$40 F Popisky i (~ Hladina spdehfvosti Možnosti výstupu1............... i ■<• Výstupní oblast: i C Nový list; ' C fóový sešít: ; Rezidua........ ■ f Rezidua í~ SJ:aridardní: rezidua ! řfíwmáKpravAptJO^bnost1 : \ ľ" Graf pravbleiJodobnostl ; |$CÍ34:$D$40 F" Konstanta jgfiula $P$34 2 1 Gfaf S řoS^B ,F" ^ Graf rer^e«m|»ťfrik'/ C D E 34 t t* Y, 35 1 1 105 831 36 2 4 114 632 37 3 9 119 570 38 4 16 118 348 39 5 25 117 153 40 6 36 108 673 Výstup z regresní analýzy opět odpovídá našim předchozím výpočtům. Regresní statistika Násobné R 0,99086 Hodnota spolehlivosti R 0,9818 Nastavená hodnota spolehlivosti R 0,96967 Chyba stř. hodnoty 970,839 Pozorováni 6 Regrese Rezidua Celkem Významnost F 152545598,7 2827536,807 155373185,5 7,6E*-07 80,9236 0,00246 942529 Koeficienty Chyba stř. hodnoty t Stat Hodnota P Dolní 95% Horní 959 Dolní 95,( Horní 95,0% 93489,9 14454,3 -1981,02 1736,690126 53,8322 1,46-05 8 7963 99016,8 S7963 99016,8 1136,190136 12,7217 0,00105 10838,4 18070,2 10838,4 18070,2 158,890877 -12,4678 0,00111 -2486,68 -1475,4 -2486,7 -1475,36 Příklad 7.4 Firma, zabývající se internetovým prodejem, se v posledních 10 letech velmi rychle rozvíjela. V tabulce jsou údaje o tržbách firmy v mil. Kč za roky 2003 - 2012. Na- ČASOVÉ ŘADY 291 jděte vhodnou trendovou křivku, kterou data vyrovnáte, a odhadněte vývoj tržeb na 2 roky dopředu. rok 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 tržby 102 113 149 189 202 256 291 378 422 515 Zdroj: vlastní data Řešení: Nejprve se podíváme na koeficienty růstu této časové řady. t 2 3 4 5 6 7 8 9 10 k, 1,1 1 1,32 1,27 1,07 1,27 1,14 1,30 1.12 1,22 Z tabulky je patrné, že koeficienty růstu kolísají kolem určité konstantní úrovně, což poukazuje na exponcnciálu jako na vhodnou trendovou křivku. Tt=0ofí, t = 1,2,..., «. Po zlogaritmování obdržíme lnľ; =ln/?0 + řln/?,, f = 1,2,..., «, Nyní můžeme odhadnout parametry exponenciály metodou nejmenších čtverců »X?ln^~ZfZln>V 10-313,91-55-54,35 nifi1„, ln b, = ——-^ ,-=---= 0,181636, "E'MZO 10-385-55^ Y lny, Y/ 54 348889 55 lni = ^ • ' -lnr.^-=' -0,181636- —= 4,435891. 0 « 1 n 10 10 Pro výsledný model tedy můžeme psát In Ť, =4,435891 + 0,181636-/, neboli Ťt = exp(4,435891 + 0,181636 -1) = 84,427316 • eom' = 84,427316 1,199176'. Předpovědi pro ŕ=11 (rok 2013) a / = 12 (rok 2014) dostaneme dosazením za t do rovnice trendu 292 STATISTIKA V PŘÍKLADECH Ťu = 84,427316 1,19917611 =622,580, Ťa =84,427316-1,19917612 =746,583. Firma tedy může očekávat v roce 2013 tržby ve výši necelých 623 mil. Kč a v roce 2014 tržby ve výši necelých 747 mil. Kč. Do grafu časové řady můžeme v Excelu přidat spojnici trendu. Tím se nám zobrazí (pokud to v nabídce zaškrtneme) přímo v grafu rovnice trendové křivky. Je vidět, že výsledky této grafické analýzy přesně odpovídají výsledkům našich výpočtů. vloinosti spojnice trendu Typ tmjjo regres*.............-.............- I 3 ; ) ^ V5as£líľ jsf';:"í'. -—-—— ■Odhrni íjarael: JOT" obdotť Ir Hodnota' - j {5 2oOrsBt rovnä v grsrý 600 500 400 300 100 y = 84,392e0'1817* R! = 0,9936 ČASOVÉ ŘADY 293 Dosažené výsledky této grafické analýzy jsou plně v souladu s výsledky našich výpočtů. Zadáme-li v dialogovém okně Formát spojnice trendu v části Odhad, Vpřed číslo 2, získáme f Odhad —...................................—__ Vpred: J2 období obdob" Nazpět; jô.Ô odhad trendové křivky o 2 období dopředu. Výsledek pak vidíme znázorněny graficky. 800 0 +----1---------.....-,......---------T ........--------------1.....---------.........r-......------r----1 0 2 4 6 8 10 12 14 Nabízí se opět další možnost výpočtu parametrů trendové přímky a to pomocí nabídky Analýza dat a procedury Regrese. Postupujeme obdobně jako v předchozím příkladu. Trendovou křivkou je nyní exponenciála, a musíme tudíž dopočítat proměnnou ln Yt (tedy logaritmus vysvětlované proměnné), kterou dosadíme jako vysvětlovanou proměnnou. Jako trendovou křivku použijeme přímku s tím, že odhadnuté hodnoty jejích parametrů je dále třeba odlogaritmovat Vstup .......... í' • -okv i i 'usnula "T rjitdsi..* i* v s* Výkupní oblsst; \tH^ <*• Nový |sti | r Novýseät ■ fteodua ' iaŕ: t*v& Sco-.™ Nápověd* B C D 81 t In Y, 82 1 102 4,6249728 83 2 113 4,7273878 84 3 149 5,0039463 85 4 189 5,241747 86 5 202 5,3082677 87 6 2S6 5,5451774 88 7 291 5,6733233 89 8 378 5,9348942 90 9 422 6,0450053 91 10 515 6,2441669 294 STATISTIKA V PŘÍKLADECH VÝSLEDEK Regresní statistika Násobné R 0,99677 Hodnota spolehlivosti R 0,99355 Nastavená hodnota spolehlivosti R 0,99275 Chyba str. hodnoty 0,04701 Pozorování 10 ANOVA ROldíl SS MS F JZnamnost f Regrese 1 2,724082244 2,72408 1232,58 4,71-10 Rezidua 8 0,017680567 0,00221 Celkem 9 2,741762811 Koeficienty Chyba stř, hodnoty t Stot Hodnota P Dolní 95% HorníSSWcini95,marni95,0% Hranice 4,43547 0,032114894 138,113 8,4E-15 4,36142 4,50953 4,36142 4,50953 t 0,18171 0,005175784 35,1081 4,7E-10 0,16978 0,19365 0,16978 0,19365 Tím jsme obdrželi model ln Tt = 4,43547 + 0,18171/, který zcela odpovídá již dosaženým výsledkům. Dále je postup již zřejmý. □ 7.2.2 Klouzavé průměry Příklad 7.5 V tabulce jsou hodnoty časové řady počtu zahájených bytů v rodinných domech v ČR za období let 1998 - 2011. Vyrovnejte tuto řadu jednoduchými klouzavými průměry délky 3, 5 a 7. rok t počet bytů rok t počet bytů 1998 1 14 933 2005 8 17 579 1999 2 12 489 2006 9 20 620 2000 3 12 177 2007 10 20 990 2001 4 12 895 2008 11 22 918 2002 5 13 659 2009 12 18 750 2003 6 17 250 2010 13 16 611 2004 7 17 485 2011 14 17 060 Zdroj: http://www.czso.cz/ Řešení: 3-členný klouzavý průměr pro rok 1999 je - _>i+J;2+>'3 _ 14933 + 12489 + 12177 _ y2_ _ _ _ .LADECH - 50953 I 19365 CASOVE RADY pro rok 2000 295 - = >'2 + y3 +>4 = 12489 + 12177 + 12895 =1252Q atd. 5-členný klouzavý průměr pro rok 2000 je - _yi+y2 +>3+>;4+>'5 _ 14933 + 12489 + 12177 + 12895 + 13659 _ "\r 5 ~ í ^} ^ „J X, pro 2001 -i liž dosa- :'r. domech klouzavými - - _ y1+yí+y4+yi+y6 12489 + 12177 + 12895 + 13659 + 17250 „rn. y4 = —---=-= 13 694, atd. 7-členný klouzavý průměr pro rok 2001 je - _ >'i + y2 + y} + ^4 + ys + y6 +y? y 4 ~ i _ 14933 +12489+ 12177+ 12895+ 13659 +17250+ 17485 7 pro rok 2002 _ y i + >'3 + y 4 + y$ + j;6 + >'? + y» _ = 14413 , 3;5 7 12489 + 12177 + 12895 + 13659 + 17250 + 17485 + 17579 = 14791, atd. V následující tabulce uvádíme všechny hodnoty klouzavých průměrů. rok počet bytů klouzavé průměry délky 3 klouzavé průměry délky 5 klouzavé průměry délky 7 1. 14 933 - - - 2. 12 489 13 200 - - 296 STATISTIKA V PŘÍKLADECH rok počet bytů klouzavé průměry délky 3 klouzavé průměry délky 5 klouzavé průměry délky 7 3. 12 177 12 520 13 231 - 4. 12 895 12 910 13 694 14413 5. 13 659 14 601 14 693 14 791 6. 17 250 16 131 15 774 15 952 7. 17 485 17 438 17319 17211 8. 17 579 18 561 18 785 18 643 9. 20 620 19 730 19 918 19 370 10. 20 990 21 509 20 171 19 279 11. 22 918 20 886 19 978 19218 12. 18 750 19 426 19 266 - 13. 16611 17 474 - - 14. 17 060 - - - Excel V Excelu si snadno poradíme zadáním příslušných vzorců - vše je vidět na částečném výřezu tabulky. Pro ilustraci j sou použity jak vzorce, tak funkce Suma. A B .......... C D E 1 1998 14 933 2 1999 12 489 13 200 3 2000 12 177 12 520 13 231 4 2001 12 895 12 910 13 694 14 413 5 2002 13 659 14 601 14 693 14 791 6 2003 17 250 16 131 15 ?74 15 952 AB C D E 1 1998 14933 2 1999 12489 =4= 35 = -3-17876 + 12-17687+ 17-18057+ 12-18558-3-18290 35 18 097,5 , atd. b) 7-členný klouzavý průměr 2. řádu má váhy —(-2,3,6,7,6,3,-2). Potom první vyrovnaná hodnota pro t = 4 je rovna 298 STATISTIKA V PŘÍKLADECH - _ -2y, + 3 v, + 6y3 + 7y4 + 6y, + 3y6 - 2y7 _ >4- 21 _ -2-17366 + 3-17876 + 6-17687+ 7-18057+ 6-18558 + 3-18290-2-17946 21 = 18 178,2. Vyrovnaná hodnota pro t = 5 je rovna - _ ~2y, + 3y3 + 6y4 + 7y5 + 6y6 + 3y7 - 2y8 _ _ -2-17876 + 3-17687 + 6-18057 + 7-18558 + 6-18290 + 3-17946-2 17796 21 = 18 264,0, atd. rok Y, 5-členné klouzavé průměry 2. řádu 7-členné klouzavé průměry 2. řádu 1993 17 366 - - 1994 17 876 - - 1995 17 687 17 831,5 - 1996 18 057 18 097,5 18 178,2 1997 18 558 18 421,5 18 264,0 1998 18 290 18 326,3 18 274,8 1999 17 946 17 978,2 18 044,1 2000 17 796 17 767,5 17 806,4 2001 17 734 17 782,5 17 788,1 2002 17 987 17 942,9 17 958,2 2003 18216 18 251,7 18 143,2 2004 18 596 18 485,2 18 781,9 2005 18 885 19 293,6 19 081,1 2006 20 134 19 399,9 19 399,0 2007 18 627 19 392,3 - 2008 19213 - - 2009 17 813 - - ČASOVÉ ŘADY 299 V předchozí tabulce jsou uvedeny hodnoty všech 5-členných i 7-členných klouzavých průměrů řádu 2. Excel V Excelu si snadno získáme požadované výsledky zadáním příslušných vzorců - vše je vidět na částečném výřezu tabulky. A B C D E 1 rok t 5členný Tčtenný 2 (tis. hl) 3 1993 1 17 366 - 4 1994 2 17 876 - 5 1995 3 17 687 17 831,5 - 6 1996 4 18 057 18 097,5 18 178,2 7 1997 5 18 558 18 421,5 18 264,0 8 1998 6 18 290 18 326,3 18 274,8 A B ' "t Ď ■ ;....... .......e.................. i rgií pivo 5č!enný 7čtenný i |tJs. U) 3 1993 1 17366 - A 1994 2 17876 5 1995 3..... 17687 ■I 3"C3»12,C4»17,CS»12'C6-3*C7|/Í5 6 199« 4 16C57 =!-3*C4+12'C5+n*C6+12'C7-3-CS]/35 =j-2*C3+3*C4*6'C5+7"CS*6řC7+3*C8-2*C9S/2l ? 1997 S 18558 =(-3řCS+12'C6,17*C7.!2'C8-3-C91/3S =í-2'C4*3-C5t6-C6+7*C7*bŕCS^3iC9,2*ClQ]/21 8 1998 6 18290 43»eM2^*!J'-3*Cllí/35 =^2sC6*3eC7+6'C8*7'C9*6'C10*3"Cll-2*Ci2ř/71 10 200C 8 17796 ={-3*CS*12*e9*17*ClC*12"Cll-3*C12}/35 =(-2*C7*3íC8*6"CS*7"C10*6*Cll»3-C12-2*C13J/21 □ 7.2.3 Exponenciální vyrovnávání Příklad 7.7 V následující tabulce jsou hodnoty měsíčních průměrných kurzů české koruny vůči Euru za období leden 2008 - září 2012 (proměnná EUR). Pomocí jednoduchého exponenciálního vyrovnávání se zvolenou vyrovnávací konstantou « = 0,9 odhadněte hodnota této časové řady pro říjen roku 2012 a poté na Internetu na webových stránkách ČNB (www.cnb.cz) ověřte kvalitu předpovědi (vysoká hodnota or = 0,9 znamená, že při vyrovnávání časové řady přisuzujeme poměrně velký význam poslední známé hodnotě). 300 STATISTIKA V PŘÍKLADECH 2008 EUR 2009 EUR 2010 EUR 2011 EUR 2012 EUR 1 26,051 1 27,169 1 26,136 1 24,449 1 25,532 2 25,376 2 28,459 2 25,976 2 24,276 2 25,041 3 25,221 3 27,229 3 25,540 3 24,392 3 24,676 4 25,067 4 26,760 4 25,313 4 24,291 4 24,799 5 25,098 5 26,738 5 25,666 5 24,383 5 25,322 6 24,314 6 26,545 6 25,780 6 24,285 6 25,641 7 23,529 7 25,787 7 25,305 7 24,341 7 25,434 8 24,286 8 25,649 8 24,807 8 24,273 8 25,020 9 24,497 9 25,349 9 24,651 9 24,557 9 24,731 10 24,787 10 25,836 10 24,526 10 24,848 11 25,183 11 25,827 11 24,637 11 25,453 12 26,106 12 26,076 12 25,165 12 25,515 Zdroj: http://www.cnb.cz/ Podívejme se nejprve na průběh této analyzované řady na obrázku. Je zřejmé, že pro tuto řadu nelze nalézt vhodnou trendovou křivku v celé její délce, je tedy namístě pokusit se modelovat trend adaptivně pomocí exponenciálního vyrovnávání. 29 28 27 26 25 24 23 1 12 23 34 45 56 Při výpočtech budeme používat obvyklý rekurentní vztah Podotkněme ještě, že někdy se předchozí vztah vyjadřuje ve tvaru ČASOVÉ RADY 301 Yt={\-a)yt+aYt^. což je v podstatě totéž (stačí zaměnit a za l-a). Chybu predpovedi počítáme dle vzorce E=yt-Yt{t-y), kde Yt (t -1) j e předpověď hodnoty yt, konstruovaná v čase t — 1. Potřebujeme získat tzv. „startovací" hodnotu y0, přičemž je zřejmé, že v bodu t = 0 žádné pozorování nemáme k dispozici. Tato situace se dá řešit nejrůznějším způsobem - například lze jako startovací hodnotu zvolit průměr z několika prvních pozorování, ale existují i další možnosti, jak dále uvidíme. V našem příkladu zvolíme za startovací hodnotu průměr z prvních osmi pozorování - tedy hodnotu y0 = 24,868 . Jako kritérium pro výběr vhodné vyrovnávací konstanty nám bude sloužit statistika SSE (součet střední čtvercové chyby) ve tvaru SSE = 5>.-Y,(t-l))2 - Pak už pro a = 0,9 snadno vypočítáme Yx = 0,9 ■ 26,051 + (1 -0,9) ■ 24,868 = 25,933 , Y2 = 0,9 ■ 25,376 + (1 - 0,9) • 25,933 = 25,432, Pro a = 0,9 je statistika SSE rovna SSE = 2>,-}^-l))2 =14,407. V následující tabulce jsou uvedeny všechny vyrovnané hodnoty a z nich plynoucí výpočty. Rok Měsíc y, Y, Y,(t-l) y,-Y,(t-\) (yt-Y,(t-V)2 2008 Leden 26,051 25,933 24,868 1,183 1,400 Únor 25,376 25,432 25,933 -0,557 0,310 Březen 25,221 25,242 25,432 -0,21 1 0,044 302 STATISTIKA V PŘÍKLADECH Rok Měsíc y, Y, Yt(t-\) y,-Y,(t-\) Čvř-^(r-l))2 Duben 25,067 25,085 25,242 -0,175 0,031 Květen 25,098 25,097 25,085 0,013 0,000 Červen 24,314 24,392 25,097 -0,783 0,613 Červenec 23,529 23,615 24,392 -0,863 0,745 Srpen 24,286 24,219 23,615 0,671 0,450 Září 24,497 24,469 24,219 0,278 0,077 Říjen 24,787 24,755 24,469 0,318 0,101 Listopad 25,183 25,140 24,755 0,428 0,183 Prosinec 26,106 26,009 25,140 0,966 0,933 2009 Leden 27,169 27,053 26,009 1,160 1,345 Únor 28,459 28,318 27,053 1,406 1,977 Březen 27,229 27,338 28,318 -1,089 1,187 Duben 26,760 26,818 27,338 -0,578 0,334 Květen 26,738 26,746 26,818 -0,080 0,006 Červen 26,545 26,565 26,746 -0,201 0,040 Červenec 25,787 25,865 26,565 -0,778 0,605 Srpen 25,649 25,671 25,865 -0,216 0,047 Září 25,349 25,381 25,671 -0,322 0,103 Říjen 25,836 25,791 25,381 0,455 0,207 Listopad 25,827 25,823 25,791 0,036 0,001 Prosinec 26,076 26,051 25,823 0,253 0,064 2010 Leden 26,136 26,127 26,051 0,085 0,007 Únor 25,976 25,991 26,127 -0,151 0,023 Březen 25,540 25,585 25,991 -0,451 0,204 Duben 25,313 25,340 25,585 -0,272 0,074 Květen 25,666 25,633 25,340 0,326 0,106 Červen 25,780 25,765 25,633 0,147 0,021 Červenec 25,305 25,351 25,765 -0,460 0,212 ČASOVÉ ŘADY 303 Rok Měsíc y, Y, Ut-X) y,-Yt(t-i) (yt-Yt(t-l))2 Srpen 24,807 24,861 25,351 -0,544 0,296 Září 24,651 24,672 24,861 -0,210 0,044 Říjen 24,526 24,541 24,672 -0,146 0,021 Listopad 24,637 24,627 24,541 0,096 0,009 Prosinec 25,165 25,111 24,627 0,538 0,289 2011 Leden 24,449 24,515 25,111 -0,662 0,439 Únor 24,276 24,300 24,515 -0,239 0,057 Březen 24,392 24,383 24,300 0,092 0,008 Duben 24,291 24,300 24,383 -0,092 0,008 Květen 24,383 24,375 24,300 0,083 0,007 Červen 24,285 24,294 24,375 -0,090 0,008 Červenec 24,341 24,336 24,294 0,047 0,002 Srpen 24,273 24,279 24,336 -0,063 0,004 Září 24,557 24,529 24,279 0,278 0,077 Říjen 24,848 24,816 24,529 0,319 0,102 Listopad 25,453 25,389 24,816 0,637 0,406 Prosinec 25,515 25,502 25,389 0,126 0,016 2012 Leden 25,532 25,529 25,502 0,030 0,001 Únor 25,041 25,090 25,529 -0,488 0,238 Březen 24,676 24,717 25,090 -0,414 0,171 Duben 24,799 24,791 24,717 0,082 0,007 Květen 25,322 25,269 24,791 0,531 0,282 Červen 25,641 25,604 25,269 0,372 0,138 Červenec 25,434 25,451 25,604 -0,170 0,029 Srpen 25,020 25,063 25,451 -0,431 0,186 Září 24,731 24,764 25,063 -0,332 0,110 celkem 14,407 304 STATISTIKA V PŘÍKLADECH Protože u jednoduchého exponenciálního vyrovnávání je nejlepší předpovědí poslední vyrovnaná hodnota, můžeme odhad kurzu Kč/EUR pro říjen 2012 položit roven hodnotě 25,063. Ve skutečnosti byl říjnový průměr kurzů roven číslu 24,955. 11 ^xce' Zadání včetně použitých vzorců je znázorněno na následujících dvou obrázcích: F G H I K M H o 1 průměr t y. y, {y. - Yě-W 2 ; 24,8678 1 2008 Leden 26,051 25 933 24,868 1.183 1,400 3 2 Unor 25,376 25,432 25.933 -0.557 0.310 ■ 4:. a 3 Březen 25,221 25.242 25,432 ■0,211 0,044 0,9 4 Duben 25,067 25.085 25,242 -0.175 0,031 6 S Kveten 25,098 25.097 25,085 0,013 0 000 E......... . F G H < l K M j N o i průměr t i yt Y, Y^t-1) y,-Y,(t-i) (y,-Y,(t-1j)J ...... =PRÚMĚR(I2 19} 1 2008 leden 26.051 =SESS*I2+(1-SE$S)'E2 •E2 =I2-M2 =N2'N2 3 2 Únor 25.376 =SE$5"l3+(1-$ES5rK2 =M2+SE$5'(I2-M2) =I3-M3 =N3"N3 4 a 3 Březen 25.221 =SES5"I4+{1-SES5)"K3 =M3+SES5-(I3-M3) =I4-M4 =N4"N4 5 3.9 4 Duben 25.067 =$ES5'l5+{1-$ES5fK4 =M4+SES5'(I4-M4) =I5-M5 =N5'N5 "6 5 Květen 25.098 =SES5'l6+(1-SES5rK5 =M5+SES5'(I5-MS) =16-M6 =N6*N6 Re Ne pat sez 7.3 Sezónnosť v časových řadách 7.3.1 Regresní přístup k sezónní složce Jak Příklad 7.8 Uvedená tabulka obsahuje hodnoty čtvrtletní časové řady výdajů na hrubý domácí produkt ČR v běžných cenách v mil. Kč v letech 2007 - 2012. Modelujte trendovou a sezónní složku této řady pomocí regresního přístupu a odhadněte vývoj této časové řady na poslední dvě čtvrtletí roku 2012 a na dvě první čtvrtletí roku 2013. Pokud jsou již známy hodnoty za tento rok, porovnejte vypočtené předpovědi se skutečností. Zdrojem dat jsou webové stránky Českého statistického úřadu, kde můžete kvalitu vypočítaných předpovědí ověřit. kde def pro v n ČASOVÉ ŘADY 305 rok/čtvrtletí 1 2 3 4 2007 843 399 905 917 935 100 978 157 2008 889 080 970 995 997 237 991 099 2009 888 452 932 655 939 543 978 575 2010 872 980 956 630 959 164 986 463 2011 884 085 961 173 965 752 996 792 2012 896 108 958 377 Zdroj: http://www.czso.cz/ Řešení: Nejprve se podíváme na grafický záznam řady na následujícím obrázku. Z něho je patrné, že sledovaná časová řada vykazuje mírně rostoucí lineární trend a aditivní sezónnost. 1050 600 4..........trr—!---1--1-,-1--1-r-r-ľ--,-1-1-1-f—1-r---,------r- 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 Jako vhodný model zvolíme ľ, = A, + A 1 + aiXU + a2X2, + «3*3, + £,. kde xh,x2l,xyi jsou nula-jedničkové proměnné detekující 1., 2. nebo 3. čtvrtletí, definované jako xit = 1, pro t odpovídající z'-tému čtvrtletí v roce, = 0, jinak, pro i = 1, 2, 3 (pracujeme se čtvrtletní řadou). Konkrétní hodnoty xit jsou uvedeny v následující tabulce. 306 STATISTIKA V PŘÍKLADECH Na základě odhadů parametrů ax, a2 a a3 pak vypočítáme sezónní faktory. Do modelu není zařazen parametr a4 (4. čtvrtletí). Ten však pro výpočet sezónního faktoru nepotřebujeme. Při jeho určení vycházíme z podmínky jednoznačnosti dekompozič-ního rozkladu, při které se požaduje, aby se vliv sezónních faktorů v rámci každého roku celkově vykompenzoval. V důsledku tohoto požadavku musí být součet sezónních aditivních faktorů roven 0. Tato podmínka již jednoznačně určuje hodnotu sezónního faktoru pro 4. čtvrtletí. Pro odhad parametrů modelu aplikujeme metodu nejmenších čtverců a získáme odhady b0, bx, ax, at, a3 parametrů /?0, f$l, ax, a2, a3 ve tvaru b0 = 969809, by= 1367, «,= -105833, a2= -38593, a3 = -25491. Protože součet aditivních sezónních faktorů musí být roven nule (uvažujeme zaokrouhlení), vypočítáme jednotlivé sezónní faktory následujícím způsobem: __a1+a1 + a1 _-105833-38593-25491 _ 4 4 SMJ = ax -ä = -105833-(-42479) = - 63354, 52+4/ = a2 - ä = -38593 - (-42479) = 3886, Si+4j = a, -ä = -25491 -(-42479) = 16988, S4+4,=-ä = 42479. Potom přepočítáme parametry lineárního trendu t y, xx, x2t xil Yf=Tl+S, s, y,-l 1 843 399 1 0 0 0 865 344 -63 354 928 698 -21 945 2 905 917 0 1 0 0 933 951 3 886 930 065 -28 034 3 935 100 0 0 1 0 948 421 16 988 931 432 -13 321 4 978 157 0 0 0 1 975 279 42 479 932 800 2 878 5 889 080 1 0 0 0 870 813 -63 354 934 167 18 267 6 970 995 0 1 0 0 939 420 3 886 935 534 31 575 ČASOVÉ ŘADY 307 t y, X2, x3( X4l Yt=Tl+S, s, T, y,-r, 7 997 237 0 0 1 0 953 890 16 988 936 902 43 347 8 991 099 0 0 0 1 980 748 42 479 938 269 10 351 9 888 452 1 0 0 0 876 283 -63 354 939 636 12 169 10 932 655 0 1 0 0 944 890 3 886 941 004 -12 235 11 939 543 0 0 1 0 959 359 16 988 942 371 -19 816 12 978 575 0 0 0 1 986 217 42 479 943 738 -7 642 13 872 980 1 0 0 0 881 752 -63 354 945 106 -8 772 14 956 630 0 1 0 0 950 359 3 886 946 473 6 271 15 959 164 0 0 1 0 964 829 16 988 947 840 -5 665 16 986 463 0 0 0 1 991 687 42 479 949 208 -5 224 17 884 085 1 0 0 0 887 221 -63 354 950 575 -3 136 18 961 173 0 1 0 0 955 829 3 886 951 942 5 344 19 965 752 0 0 1 0 970 298 16 988 953 310 . -4 546 20 996 792 0 0 0 1 997 156 42 479 954 677 -364 21 896 108 1 0 0 0 892 691 -63 354 956 044 3 417 22 958 377 0 1 0 0 961 298 3 886 957 412 -2 921 23 - 0 0 1 0 975 767 16 988 24 - 0 0 0 1 1 002 625 42 479 25 - 1 0 0 0 898 160 -63 354 26 - 0 1 0 0 966 767 3 886 Tt = (b0 +a)+hlí = 927330 + 1367 ŕ. V předchozí tabulce jsou uvedeny hodnoty vstupních proměnných, odhadnutý model, odhadnuté sezónní faktory, odhadnuté hodnoty lineárního trendu a rezidua. Na základě vypočítaných odhadů v tabulce můžeme model přepsat (v již odhadnutém tvaru) Yt =927330 + 1367 ŕ-63 357x„+3 8886x2, + 16988x3, + 42479x4,. 308 STATISTIKA V PŘÍKLADECH V posledních čtyřech řádcích tabulky jsou údaje pro předpovědi HDP na další čtyři čtvrtletí. Mají hodnotu (v mil. Kč): 3. čtvrtletí 2012 4. čtvrtletí 2012 1. čtvrtletí 2013 2. čtvrtletí 2013 4 =975767, 724 = 1 002 625. Y15 =898 160, K, =966 767. n ^xce' Pro odhady parametrů v modelu yt = /50 + yflj t + a,xu + ot2xlt + or,x3f + et využijeme proceduru Regrese z Analýzy dat. hSH •-Vstup----------- \ Vstupní oblast fi Vstupní oblast S J$A$2t4:$AÍ236 |$BÍ2H:$E»236 Y~ Konstanta je nula 13 ■(■■■ W Popisky ■..v.. :F~>fa^á^ ráznosti výířuplj ; C Novýfet: J ■ s <~ Novýsfi&t Rezidua —......-.......-........ ....... .........~~- ...... ľ~ Rezíduá F Graf sré^a . . : u T~ ^andardrtrezidua P Gfrfr^esripří^cy j i T Graf pravděpodobnosti Napoja A C D E 214 y, t Xjl «2! x3t 215 843 399 1 1 0 0 216 905 917 2 0 1 0 217 935 100 3 0 0 1 218 978 157 4 0 0 0 219 889 080 5 1 0 0 220 970995 6 0 i 0 221 997 237 7 0 0 1 222 991099 8 0 0 0 223 888 452 9 1 0 0 Z výsledného výstupu z procedury Regrese je vidět, že odhady parametrů (až na zaokrouhlení) jsou stejné, jako v našich předchozích výpočtech. Tím jsme učinili první krok v řešení a dále postupujeme dle výše uvedených vzorců v souladu s teorií. Využijeme výstupu z regrese a přepočítáme hodnoty parametru regresního modelu. ČASOVÉ ŘADY 309 VÝSLEDEK ......;........................ Regresní statistika Násobné R 0,92982 Hodnota spolehlivo 0,86457 Nastavená hodnotí 0,8327 Chyba stř. hodnoty 18429,3 Pozorování 22 ANOVA Rozdíl SS MS F iznamnost F Regrese 4 3,7E+10 9,2E+09 27,13070457 3,5E-07 Rezidua 17 5,8E+09 3.4E+08 Celkem 21 4,3E+10 Koeficienty Chyba stř. tStat Hodnota P Dolní 95% Horní 95% Dolní ?5,0> Horní 95,0% Hranice 969809 11113,3 87,2656 5,45776E-24 946362 | 993256,2044 946362 993256 t 1367,33 621,252 2,20093 0,041847868 56,6062 2678,061993 56,6062 2678,06 xlt -105833 11176,8 -9,46896 3,42416E-08 -129413 -82251,56984 -129413 -82251,6 x2t -33592,7 11159,5 -3,45828 0,00300374 -62137,2 -15048,19329 -62137,2 -15048,2 x3t -25490,7 11672,3 -2,18386 0,043275029 -50117 -864,3244397 -50117 -864,324 Li M 230 Hranice 969809,190909091 231 t 1367,33409090909 232 xlt -105832,532575758 233 X2t -38592,7 234 x3t -25490,6659090909 235 236 237 aprí-nft =[M232-»M233*M234j/4 238 SM, =M232-$M5237 239 S;„, =M233-SMS237 240 S,.,. =M234-$M$237 241 S^, =-M237 242 Trend 243 b„ =M230+M237 i244:b, =M231 Další výpočty jsou již zřejmé z následujícího výřezu tabulky. " A B c ........6 E F G H J 214 y, f H % x« Y, s T. + S, S, Vt-Yt 215:843399 1 l 0 0 0 -SMS243+5njB244*8!15tSMS238*C215tSMS239'D22S»5MS2«*E215*SM$í41*F215 =M23S =G21S-H21S =A21S-G215 216:905917 2 0 i 0 0 =SMS243*SM5244-B216+5M$233-C2I6+SMS239*D216t$MS240*E216+5MS241*F216 -M239 "C216-H216 =A2Í6-G216 217 935100 3 0 0 1 0 -SM52434-SM$244-B217*SM$233*C2Í7+SM5?39*D217+$MS240,E217+SMS241*f217 =M240 *G2a?-H217 =A217-G21? 213-978157 4 0 ti □ 1 ^5MS243+SMS2ft4'B218+SMÉ238'C218+SM5?39*DřÍ8-tSMS240J-E2IB4Sf«fS241fF218 #mm =G2ÍS-H21S *A21S-621B 219^889030 5 i 0 0 0 -SMS243^5MS244'B219-f5MS238•C219^5fv1S239*D219+SMS240*t219+SMS241*F219 ■S33$3,55? -4 =G4-5GS6/4 =AVEftAGEIF! SB$4;SBS49; 3; $ES4:SE$49) =14-D4 =C4-F4 5 4 4 1278351 =1/8 •( C3*2*C4+reS*2-C6*C7} =CS-D5 -G5-SGS6/4 =AVERAGEIF (S854:SBS49i4;SES4:SeS49} =15-05 =C5-F5 to 5........ i............... 1139493 =1/8'(C4*2*C51-2»C6+2'C7+C8} -C6-06 -382943,524857955 =SUMA{G2.GS} =16-1» =C6-FS 7 6 2 1667637 =1/8 "(C5*2*Cö*2*C7*2'CS+C3i =0-0? 2004Ô0.975I42045 =17-07 =C7-F7 y 7 3 1801029 =l/a*{C6+2*C7*2*C8+2*C9fCia) =C8-D8 376380.352982355 =18-D8 =C8-F8 9 8 1374676 =l/8'(C7+2"CS*2'C9+2* CltHCll) =»D9 -193837,303267045 sCOUftTff{$B&4;SeS49;l) =19-D9 =C9-F9 10 9 i 1244772 =1/S'f C8+2,C9*2 'ClEH-2*Cli-*C12) =C10-ĎK -382943,524857955 rf:OUÍíiT!F(S«S458S«93í =U0-D10 =C10-F10 11 10 2 1333449 =l/8*tC9+2*CÍ0*2 *CU+2"C12*CÍ3 j =C1Í-D11 200460,975142045 =COL^ÍTiF{$8S4:Sfl549;3J =111-011 =C11-F11 12 a '" :3 197Q93Q =l/8*fClC*2"Cll*2*C12+2*a3-K;i4S »C12-DM 376380,352982955 =COUNT!Fi^S4:S8S49ř4J =112-012 =CÍ2-F12 ''i 12 4 1381884 =l/8*(Cll»-2*C12í-2 •C13+2*C14*CI5) =C13-D13 -193897,803267045 =113-013 14 13 :i 120B832 =l/8*{C12*2*C13+2 ,C14*2'C15«:iS) =C14-D14 ■ 382943,524357955 =113-014 ■C14-F14 318 STATISTIKA V PŘÍKLADECH A B C D F (3 H i 1 t čtvrtletí Vt T, + Q S, + £t St + prurti; Sts E« ytad( = y,-S,, 2 1 .....i 1 018 861 -382943,5 -381911,7 1401804,5 3 |___ 2 ...... 1 599 177 200461,0 201492.B 1 398 716,0 4 _ 3 1 813 359 1442516 370 843,0 376 380,4 377412,2 -5 537,4 1436978,6 5 4 4 1 278 351 1466159 -187807,8 -193897,8 -192865,9 6 090,1 1472 248,8 6 5 1 1 139493 1473 181 -333 688,3 -382943,5 4127,5 49 255,3 1522436,5 7 6 2 1 667 687 1483 706 183981,4 200461,0 -16479,6 1467226,0 S 7 3 1 801 029 1508931 292097,9 376380,4 Countff -84 282,5 1424648,6 8 4 1 374 876 1542 811 -167935,3 -193897,8 11 25 962,6 1568 773,8 10 9 1 1 244 772 1 584 769 -339 997,1 -382943,5 11 42 946,4 1627 7153 11 10 2 1 833 449 1606883 226566,3 200461,0 12 26105,3 1632 988,0 12 11 3 1 970 930 1603 266 367 663,8 376380,4 12 -8 716,6 1594549,6 13 12 4 1 381 884 1601 299 -219415.1 -193 897,8 -25 517,3 1575 781,8 14 13 1 1 208 832 1612 648 -403 815,5 -382943,5 -20872,0 1591775,5 Příklad 7.11 V následující tabulce jsou údaje o počtu pracovníků v oblasti ubytování a stravování. Jedná se čtvrtletí za roky 2000 - 2006. Podívejme se na graf této řady. rok/čtvrtletí 1 2 3 4 2000 162 590 165 930 167 639 166 200 2001 167 378 168 976 168 572 166 130 2002 168 004 168 603 168 740 165 378 2003 171 025 169 958 168 814 165 737 2004 169 674 172 855 172 196 166 404 2005 169 690 172 141 171 544 165 498 2006 171 075 173 737 173 022 Zdroj: http://www.czso.cz/ 7 3 9 10 jí) se 2i CASOVE RADY 319 Je zjevné, že řada vykazuje sezónnost. Z obrázku lze usuzovat na multiplikativní model ve tvaru Budeme postupovat analogicky, jako v předchozím příkladu. Nejprve očistíme časovou řadu od sezónnosti. Veškeré výpočty budou patrné z uvedené tabulky. Sezónní složku odstraníme tak, že na časovou řadu budeme aplikovat centrované klouzavé průměry (viz předchozí příklad). Protože pracujeme se čtvrtletní časovou řadou, budou mít tyto průměry délku k=2m+1=5 a váhy Tím získáme hodnoty řady, které budou obsahovat pouze trendovou a cyklickou složku y't=Tt- C (5. sloupec tabulky). Přijdeme bohužel o 2 pozorování na začátku a dvě pozorování na konci časové řady (m = 2), která zůstanou nevyrovnaná. Pokud původní hodnoty řady vydělíme hodnotou klouzavých průměrů, obdržíme sezónní indexy, zahrnující náhodnou složku (6. sloupec tabulky) Nyní vezmeme z hodnot St -et údaje za všechna 1. čtvrtletí a spočítáme z nich průměr. Obdržíme tedy průměrný sezónní index y, =Tt-St-Ct ■£,, ? = !,...,«. 7(1,2,2,2,1). y, =TIS,C,£I y, T< •c, = St-£t, t = \,...,n. Stprumx = Stejně postupujeme pro všechna 2. čtvrtletí 1,007172 +1,004933 +1,006633 +1,015607 +1,0136 5 = 1,009589 a rovněž pro 3. a 4. čtvrtletí. Za každá čtvrtletí sice máme jiný počet pozorování a proto pracujeme s průměrnými hodnotami, čímž tento fakt nijak nevadí. Důvod, proč jsme počítali jednotlivé průměry ze součinu sezónní a náhodné složky pro jed- 320 STATISTIKA V PŘÍKLADECH notlivá čtvrtletí je opět ten, že průměrování těchto hodnot by mělo potlačit vliv náhodné složky (její vliv je v průměru nulový). Vypočtené hodnoty průměrů jsou v prvních čtyřech číselných řádcích v 7. sloupci tabulky. Poté spočítané průměry sečteme (5. číselný řádek v 7. sloupci) Stprum = Stprwnl + Stprum2 + Stprum3 + Slprum4 = = 1,002151 +1,009589 +1,006446 + 0,982604 = 4,000790 a spočítáme sezónní indexy Sti, i = 1,2,3,4. Při výpočtu těchto indexů vycházíme z požadavku Výše uvedený předpoklad má opět zaručit jednoznačnost dekompozičního rozkladu -tedy aby se vliv sezónních faktorů v rámci jednoho kalendářního roku celkově vykompenzoval. Vlastní výpočet sezónních indexů Sti, i = 1,2,3,4 se provádí dle vzorce 4 S,, =--S,pnim., / = 1,2,3,4. í>tprum Po dosazení tedy obdržíme S.-----S: pí um, - . . 4_ , ■!.«) 2151 = S,prum 4,000790 S,2 = - Sýriím atd., viz 8. sloupec tabulky. S,prum2 = 4,000790 1,009589 = 1,009589, t rok y, TrC, Sre, Slprumi s„ y,isu E, 1 Qi 162 590 1,002151 1,001953 162 274 2 Q2 165 930 1,009589 1,009390 164 386 3 zuuu Q3 167 639 166 188 1,008731 1,006446 1,006247 166 599 1,002469 4 Q4 166 200 167 168 0,994213 0,982604 0,982410 169 176 1,012014 5 Ql 167 378 167 665 0,998288 4,000790 1,001953 167 052 0,996343 6 2001 Q2 168 976 167 773 1,007172 1,009390 167 404 0,997803 7 Q3 168 572 167 843 1,004349 1,006247 167 526 0,998114 8 Q4 166 130 167 874 0,989611 0,982410 169 105 1,00733 ČASOVÉ ŘADY 321 t rok y t T ■ C S,-e, sti y,istl E, 9 Qi 168 004 167 848 1,000928 1,001953 167 677 0,998977 10 2002 Q2 168 603 167 775 1,004933 1,009390 167 035 0,995585 11 Q3 168 740 168 059 1,004054 1,006247 167 692 0,99782 12 Q4 165 378 168 606 0,980855 0,982410 168339 0,998417 13 Ql 171 025 168 784 1,013273 1,001953 170 691 1,011298 14 2003 Q2 169 958 168 838 1,006633 1,009390 168 377 0,997269 15 Q3 168 814 168 715 1,000587 1,006247 167 765 0,994375 16 Q4 165 737 168 908 0,981225 0,982410 168 704 0,998794 17 Ql 169 674 169 693 0,999893 1,001953 169 344 0,997944 18 19 2004 Q2 Q3 172 855 172 196 170 199 170 284 1,015607 1,011225 1,009390 1,006247 171 247 171 126 1,006159 1,004946 20 Q4 166 404 170 197 0,977713 0,982410 169 383 0,995219 21 Ql 169 690 170 026 0,998022 1,001953 169 359 0,996077 22 2005 Q2 172 141 169 832 1,0136 1,009390 170 540 1,004171 23 Q3 171 544 169 892 1,009729 1,006247 170 479 1,00346 24 Q4 165 498 170 264 0,972007 0,982410 168 461 0,98941 25 Ql 171 075 170 648 1,0025 1,001953 170 742 1,000546 26 2006 Q2 173 737 1,009390 172 121 27 Q3 173 022 1,006247 171 948 Sezónně očištěné hodnoty časové řady získáme nakonec tak, že původní napozorované hodnoty vydělíme po jednotlivých čtvrtletích hodnotami sezónních indexů (9. sloupec tabulky). Při výpočtu hlídáme, abychom pozorování v čase / v určitém čtvrtletí dělili sezónním indexem pro stejné čtvrtletí. y,adj = ^-, i = 1,2,3,4; ŕ = 1, V posledním sloupci tabulky jsou hodnoty reziduálni složky. S takto očištěnou časovou řadou již můžeme dále pracovat např. pomocí trendové analýzy. Excel Při výpočtech v Excelu budeme postupovat obdobným způsobem, jako v předchozím příkladu v případě modelu s aditivní dekompozicí. Použijeme výše uvedené vzorce s respektováním multiplikativního modelu, který s sebou pochopitelně nese jinou podobu použitých vzorců. 322 STATISTIKA V PŘÍKLADECH 8 > Cl:: P £ F G i t čtvrtletí Vt T,*C, St * prum. s» Vt/Stí 2 1 i 162590 1,00X353 1,002150671 162274 1 i 165 930 1,009390 1,0(B58S131 164386 3 3 167633 166138 1,003731433 1,006247 1,006445826 166599 1,002468805 5... 4 4 166 200 167 168 0,394212715 0,982410 0,982603903 169176 1,01201405 6 S í 167 378 167665 0,933288279 1,001353 4,800789531 167 052 0,99634252 1 6 2 168 976 167773 1,007172037 1,009396 167404 0,997802773 «. 7 j..........* I j 168 572 167 843 1,004349245 1,006247 167526 %mmm 8 4 2 166130 167874 rj,9S96Í12?3 Ú.982416 169105 1,00733022 10 9 .....1 168004 167 848 1,0009277 1.002953 167677 0,998376796 lí to a 168603 167775 1,004333399 1,009390 167 03S C99S5S4962 12 11 3 168740 168059 1,004053576 1,006247 167692 0,997819935 J3 12 4 165 378 168 606 0,982418 1SS33S 0,998417334 li 13 í 171025 168 784 1,013273059 1,001953 170691 1,011298092 B "c o ■ r y e ~ '■ h" . j i t Čtvrtletí Vt St * prum: Vi/Sh Et 1 i 162590,499789684 =4/SG$6,G2 =P8ŮMĚR{E6;£ie;E14;ElS;E22;E26) =C2/F2 3 2 2 165329,523746906 =4/SG56*G3 =P8ŮM£RÍ£7;£ll;Ei5;£19;£23} i=C3/F3 4 3 3 167639,463697706 =1/S*{ C2+2 *C3+2*C4+2"C5+C6} =C4/04 =4/SGS6'G4 =PRÚMĚR(E8;E12;E1&;£4;E20;E24} -C4/F4 =H4/t>4 :S. 4 4 166200,262340344 =l/8*ÍC3+2"C4*2*C5+2 "C6+C7J =C5/G5 =4/$S$&*65 =PRŮMěR{ £3;E13; ES;E17;E21;Ě25Í -C5/FS =H5/05 6 5 | 167378,190063682 =1/S»ÍC4*2*C5+2*C6+2*C7*€S} =£6/06 1,00195290221465 *SU&tA(62:G5) ■ =£^/f6 =H6/06 '7- 6 Z 168976,315048933 =2/«*(C5+2*C6+2*a+2' C8+C9} *C?fp? 3,00938989522234 ;=C7/F7 =H7/D7 7 3 163572,423932591 =3/8'{ C6+2*C7+2*CS+2"CS+CI0) =C8/DS 1,00624721024329 =CS/?8 =H3/D8 3 S 4 166130,872833637 =1/S"{e7+2,C8+2*C9+2"C10+Cllj =C9/D9 0,932409992319921 =C9/f9 =H9/D9 10 9 1 16SO04,O6S19043S -l/8*{CS+2*C9*2*C10+2*Cll+a2) =C10/D1G 1,00135290221465 =C10/F1G =H1D/D30 II 10 2 168602,983478547 =l/8*{C9*2*Cl Et =H4/D4 fn =H5/D5 =HS/06 =*Í7/D7 =K3/oa =KIO/DiO _ =H11/031 z. 12 4412/012 =H13/013 - =*tM/014 KAPITOLA VIII INDEXY A ABSOLUTNÍ ROZDÍLY INDI 8 8.1 Výpc pinai vloze a výr pod i Nejp ství í Výpc přísli Pode rozkl INDEXY A ABSOLÚTNI ROZDÍLY 325 8 Indexy a absolutní rozdíly 8.1 Indexy bazické a řetězové Výpočty indexů a rozdílů spočívají v jednoduchých opakujících se operacích se skupinami čísel (násobení a sčítání), které lze provádět v Excelu běžným způsobem, tedy vložením příslušného vzorce do pole, jeho zkopírováním do dalších polí ve sloupci a výpočtem součtu. V ukázce použijeme údaje z příkladu, zařazeného v této kapitole pod číslem 11. A B C u 1 pO pl q0 ql 2 60 70 200 300 3 40 30 500 400 4 80 100 300 400 Nejprve provedeme některé dílčí výpočty (budeme potřebovat součiny cen p a množství q v různých obdobích). Dostáváme: Q0=p0q0 Ql=plql pOql plqO 12000 21000 18000 14000 20000 12000 16000 15000 24000 40000 32000 30000 Součty 56000 73000 66000 59000 Výpočty indexů, případně diferencí, pak provádíme jednoduchým dosazováním do příslušných vzorců. Podobně si můžeme rovněž připravit dílčí výpočty pro použití logaritmické metody rozkladu indexů apod. In(pl/p0) In(ql/q0) ln(Ql/Q0) 0,154151 0,405465 0,559616 -0,28768 -0,22314 -0,51083 0,223144 0,287682 0,510826 326 STATISTIKA V PŘÍKLADECH Příklad 8.1 V tabulce je uvedena časová řada spotřeby piva v České republice (v litrech na osobu za rok) v letech 2003 až 2010. Charakterizujte vývoj spotřeby piva pomocí bazických indexů (1989 = 100) a řetězových indexů. Rok 1989 2003 2004 2005 2006 2007 2008 2009 2010 Spotřeba 151,0 161,7 160,5 163,5 159,1 159,1 156,6 150,7 144,4 Řešení: Chceme-li vývoj charakterizovat ve vztahu k roku 1989, použijeme bazické indexy (tj. indexy se stálým základem, spotřebou piva v roce 1989). Například pro rok 2003 dostaneme ■ -161>7-i 03/89 151,0 ' To znamená, že v roce 2003 vzrostla spotřeba piva o 7,1 % vůči roku 1989. Chceme-li posoudit vývoj vždy k předchozímu roku, použijeme řetězové indexy. Například pro rok 2004 ve vztahu k roku 2003 dostaneme 0 161,7 To znamená, že v roce 2004 poklesla spotřeba piva v ČR o 0,7 % proti předchozímu roku. Hodnoty bazických a řetězových indexů (v %) jsou uvedeny v následující tabulce: Indexy 1989 2003 2004 2005 2006 2007 2008 2009 2010 bazické 100,0 107,1 106,3 108,3 105,4 105,4 103,7 99,8 95,6 řetězové - - 99,3 101,9 97,3 100,0 98,4 96,2 95,8 Průměrný koeficient růstu pro období 2004 - 2010 bude geometrickým průměrem spočtených řetězových indexů, tedy ^0,993 • 1,019 • 0,973 • 1,000 ■ 0,984 • 0,962 • 0,958 = 0,984. Stejného výsledku dosáhneme (po úpravě vzorce použitého pro předchozí výpočet) s využitím hodnoty spotřeby v roce 2010 a 2004, případně s využitím příslušných bazických indexů, takto: INDEXY A ABSOLUTNÍ ROZDÍLY 327 ^144,4/161,7 = 0,984; ^95,6/107,1 = 0,984. Příklad 8.2 V tabulce jsou bazické indexy počtu dokončených bytů v ČR v letech 2004 až 2007 se základem v roce 2004 (Im), a dále bazické indexy počtu dokončených bytů v letech 2007 až 2010 se základem v roce 2007 (Im), obojí v procentech. Dopočítejte chybějící bazické indexy v obou řadách. Rok í/04 2004 100,0 2005 101,8 2006 93,6 2007 129,1 100,0 2008 92,2 2009 92,4 2010 87,5 Řešení: Protože známe z první řady bazický index v roce 2007 a tento rok je základem srovnání v řadě druhé, můžeme provést přepočet takto: Chybějící hodnoty bazických indexů se základem v roce 2004 získáme tak, že indexy se základem v roce 2007 budeme násobit podílem 129,1/100 (stanoveným z indexů roku 2007, které jsou zvýrazněny v následující tabulce): Rok 'i/04 A/07 2004 100,0 77,5 2005 101,8 78,9 2006 93,6 72,5 2007 129,1 100,0 2008 119,0 92,2 2009 119,3 92,4 2010 113,0 87,5 92,2 • 129,1/100= 119,0 92,4 • 129,1/100= 119,3 328 STATISTIKA V PŘÍKLADECH 87.5 • 129,1/100= 113,0. Při výpočtu chybějících bazických indexů se základem v roce 2007 budeme indexy se základem v roce 2004 podílem 129,1/100 naopak dělit (neboli násobit podílem 100/129,1): 100 ■ 100/129,1 =77,5 101,8 • 100/129,1 =78,9 93.6 • 100/129,1 = 72,5 . 8.2 Individuální indexy 8.2.1 Individuální indexy jednoduché Příklad 8.3 Porovnejte rozlohu, počet obyvatel a hustotu obyvatelstva České republiky (ČR) a Slovenska (S) v letech 1996 a 2011, máte-li následující údaje (k 1. lednu): Rok Počet obyvatel (tis.) ČR S Rozloha (km2) ČR S Hustota (na km2) ČR S 1996 10 300 5 410 78 866 49 036 131 110 2011 10 533 5 435 78 865 49 037 134 111 Řešení: Označíme-li jako Q počet obyvatel, jako q rozlohu státu a jako p hustotu obyvatel, dostaneme například pro rok 2011: Q=^435_ Q, 10533 = 0,516; AQ = Q,-Q0 =5 435-10 533 = -5 098. V roce 2011 mělo Slovensko téměř o polovinu, tj. o cca 5 mil. obyvatel méně než Česká republika. T q, 49 037 _ Iq = — =-= 0,622; Aq = qi-q0 =49 037-78 865 = -29 828. q0 78 865 INDEXY A ABSOLUTNÍ ROZDÍLY 329 Rozloha Slovenska byla o 37,8 %, tj. o 29 828 km2 menší než rozloha České republi-ky. Ip = ^- = — = 0,828; Ap = Pi-p0 = 111-134 = -23 . Po 134 Hustota obyvatelstva Slovenska byla o 17,2 %, tj. o 23 obyvatele na 1 km2 nižší než hustota obyvatel České republiky. Při srovnání veličin v roce 2011 a 1996 dostáváme pro Českou republiku: a=i^= A=i34= Q, 10300 y Po 131 Počet obyvatel stejně jako hustota vzrostl za 15 let o 2,3 %, neboť rozloha státu je prakticky stejná. Podobně pro Slovensko dostáváme u obou veličin nárůst o 0,5 % (výpočet pro Slovensko je nutno provést přesněji, aby nebyl nepříznivě ovlivněn zaokrouhlením): IQ = 9l,^5=1,005; ^=A = HM = 1,005. e0 5410 ť Po 110,3 Příklad 8.4 Prášku na praní značky Nela se prodalo o 6 % méně, ale tržba z jeho prodeje byla o 2 % vyšší než u prášku značky Lena. Jaký je vztah mezi cenami prášků na praní těchto značek? Řešení: Cenu za kilogram prášku (p) lze vyjádřit jako podíl kde Q značí tržbu, q množství prodaného prášku. Pro index ceny prášku na praní, bereme-li za základ cenu prášku Lena, platí 330 STATISTIKA V PŘÍKLADECH Ip = ¥z- = -^ = Qe./^ = 1, 02/0,94 = 1,085. Pl Q, 1l Ql Index ceny je 1,085; prášek Nela je tedy o 8,5 % dražší než prášek Lena. □ Příklad 8.5 Jak se změnilo prodané množství prášku na praní značky Nela v červnu oproti květnu sledovaného roku, zůstala-li tržba z prodeje tohoto prášku stejná, ale jeho cena vzrostla o 5 %? Řešení: a P0 Ol Qn 0Q ' 1,05 = 1/-^, % Iq = 0,952. Nezměnila-li se tržba z prodeje prášku, znamená to, že index tržby je roven 1. Z toho plyne, že index prodaného množství prášku se rovná převrácené hodnotě cenového indexu, který je 1,05. V červnu se tedy prodalo prášku Nela o 4,8 % méně než v květnu. Příklad 8.6 V tabulce jsou údaje o cenách, prodaném množství a tržbách z prodeje určitého druhu čaje v letech 2009 - 2012. Spočtěte všechny individuální indexy (základní období je rok 2009). Rok Cena (Kč/ks) Množství (tis. ks) Tržba (tis. Kč) 2009 40 20 800 2010 42 18 756 2011 43 19 820 2012 44 17 748 INDEXY A ABSOLUTNÍ ROZDÍLY 331 Řešení: Bude-li rok 2010 základním obdobím a rok 2009 obdobím běžným, je individuální cenový index Ip= — = 1,05. 40 Cena se zvýšila o 5 %. Obdobně individuální index množství je Iq = — = 0,9. 20 Prodané množství pokleslo o 10 %. Individuální index tržby je IQ = — = 0,945, ^800 tržba klesla o 5,5 %. Budeme-li i dále používat rok 2009 jako základní období a ostatní roky jako období běžná, můžeme vypočtené jednoduché indexy zapsat do tabulky jako bazické indexy ceny, množství a tržby se základem v roce 2009 (viz následující tabulka). Rok Ip Iq IQ 2009 1,00 1,00 1,000 2010 1,05 0,90 0,945 2011 1,08 0,95 1,026 2012 1,10 0,85 0,935 Povšimněme si, že mezi individuálním indexem tržby, ceny a množství musí opět platit jq=Q\ = pľ3i Qo Po-% Po % v procentech 7(2-100= =_a.100=m.10o=A.10o.=i.ioo/ioo=^= Q, pngn pn qn 100 332 STATISTIKA V PŘÍKLADECH Například pro rok 2012: 1,1 • 0,85 = 0,935, resp. v procentech 110 85 / 100 = 93,5 %. 8.2.2 Individuální indexy složené Příklad 8.7 V následující tabulce je uvedena průměrná měsíční mzda zaměstnance, počet zaměstnanců a měsíční mzdový fond ve čtyřech pobočkách určité firmy v lednu roku 2011 (základní období) a v lednu roku 2010 (běžné období). Jak se změnily tyto ukazatele v jednotlivých pobočkách a jak za celou firmu v roce 2011 oproti roku 2010? Piům. měs. mzda (Kč) Počet zaměstnanců Měs. mzd. fond (Kč) Pobočka Po P\ 9o 0 130 A(£g) = 140-130 = 10. Počet zaměstnanců vzrostl proti lednu 2011 o 7,7 %, tj. o 10 lidí, a měsíční mzdový fond se zvýšil o 10,5 %, tj. o 243 000 Kč. Stejnorodé intenzitní veličiny shrnujeme průměrem; v závislosti na tom, které veličiny máme k dispozici, ho určíme jako P~2>~ Z^ 990 Podle Paascheho cenového indexu, tj. vezmeme-li v úvahu prodané množství na úrovni prosince, došlo v prosinci oproti červnu k růstu cen o 24,1 %. Avšak podle Laspeyresova cenového indexu, tj. vezmeme-li v úvahu prodané množství na úrovni června, vzrostly ceny v prosinci oproti červnu o 30,3 %. Fisherův cenový index ¥F)=Wri (i) je geometrickým průměrem Paascheho a Laspeyresova cenového indexu. V příkladu vychází I/F)= 7l,241-1,303 =1,272. INDEXY A ABSOLUTNÍ ROZDÍLY 337 Montgomeryho cenový index má tvar lp{M) = AÍZQ), EG kde ln Pro jeho stanovení v příkladu musíme provést ještě další pomocné výpočty - viz následující tabulka: Zboží Po a AQ = a-a lnIp AQ A 1,250 0,833 -40 48,956 B 1,500 1,200 40 88,956 C 1,600 0,960 -10 115,135 D 1,000 0,667 -70 0 E 0,889 1,778 70 -14,330 Součet x x -10 238,717 Z tabulky plyne, že A(£0 = -1O, A(£fi), =238,717 a Montgomeryho cenový index 238.717 980 1 -io 990, = 1,274. 338 STATISTIKA V PŘÍKLADECH Fisherův index představuje tedy nárůst cen uvedeného zboží o 27,2 % a Mont-gomeryho index růst cen o 27,4 % (rozdíl mezi Fisherovým a Montgomeryho indexem je obvykle relativně malý). □ 8.3.2 Souhrnné indexy množství Souhrnné indexy množství se označují také jako indexy objemové. Nejčastěji se používají při porovnávání prodávaného množství nestejnorodých výrobků. Příklad 8.9 - pokračování Určete pomocí souhrnných objemových indexů, jak se změnilo množství prodaného zboží v prosinci (běžné období) oproti červnu (základní období). Cena Množství Pomocné výpočty Zboží pa Pi <7o Qi Poqo pm Poqi Piqo A 8 10 30 20 240 200 160 300 B 4 6 50 40 200 240 160 300 C 5 8 50 30 250 240 150 400 D 7 7 30 20 210 140 140 210 E 9 8 10 20 90 160 180 80 Součet x x x x 990 980 790 1 290 Řešení: Paascheho objemový index Iq (p _ Z A _ TAP} Z?iA 1 q_A q0j vyjadřuje relativní změnu objemu prodeje při cenové hladině odpovídající běžnému období. V příkladu Iq (P) 980 Z<7„A 1290 = 0,760. INDEXY A ABSOLUTNÍ ROZDÍLY 339 Laspeyresův objemový index lq(L)=lSl _ go Z^o Z^o představuje relativní změnu objemu prodeje při cenové hladině odpovídající základnímu období. V příkladu ZíoPo 990 Podle Paascheho objemového indexu, tj. bereme-li v úvahu prosincové ceny, kleslo množství prodaného zboží v prosinci proti červnu o 24 %. Avšak podle Laspeyresova objemového indexu, tj. bereme-li v úvahu červnové ceny, kleslo množství prodaného zboží v prosinci proti červnu o 20 %. Fisherův objemový index (L) je geometrickým průměrem Paascheho a Laspeyresova objemového indexu; v příkladu Iq(F) = V0,760 0,800 = 0,780 . Montgomeryho objemový index má tvar Iq™ = Za Za kde A(Zö)=Za-Za, In* ^Za^Z-Irva-a), ln-=^ a 340 STATISTIKA V PŘÍKLADECH Potřebné pomocné výpočty obsahuje následující tabulka. Dostáváme v ní A(£0 = -1O, A(£Q\ =-248,717 a Montgomeryho objemový index je tedy (M)=|980, - = Fisherův index představuje pokles množství prodaného zboží o 22 % a Montgomeryho index pokles o 22,3 %. Zboží a a-Qo= ^AQ A 0,667 0,833 -40 -88,956 B 0,800 1,200 40 -48,956 C 0,600 0,960 -10 -125,135 D 0,667 0,667 -70 -70,000 E 2,000 1,778 70 84,330 Součet x x -10 -248,717 Poznámka: Součet posledních sloupců v obou tabulkách s pomocnými výpočty pro stanovení Montgomeryho cenového a objemového indexu musí být roven AQ\ tak například pro zboží A: 48,956 + (-88,956) = -40, pro zboží B: 88,956 + (- 48, 956) = 40 apod. Příklad 8.10 Na základě údajů v následující tabulce o tržbách z prodeje čtyř druhů mléčných výrobků v roce 2011 a 2012 (v tis. Kč) a o změnách cen v roce 2012 oproti roku 2011 určete Fisherův souhrnný cenový a Fisherův souhrnný objemový index. INDEXY A ABSOLÚTNI ROZDÍLY 341 Výrobek Po Qo = Po% Qi=PA 1. 1,20 600 576,0 2. 1,12 400 425,6 3. 1,08 500 648,0 4. 1,02 500 479,4 Součet x 2 000 2 129 Řešení: Nejprve určeme souhrnný cenový index Laspeyresův v průměrovém tvaru (pomocné výpočty jsou v následující tabulce): Zboží — ■Poao Po m P J Po U 720 480 V 448 380 X 540 600 Y 510 470 Součet 2218 1 930 P± Po Z^/V/o 2218 = 1,109. EM 2 000 Dále souhrnný cenový index Paascheho v průměrovém tvaru ZW, ,2129 y PA 1930 Pi I Po Konečně Fisherův index bude ^/l,109 • 1,103 =1,106 a vyjadřuje souhrnně nárůst cen o 10,6%. Analogicky pro souhrnné indexy objemové. Laspeyresův index 342 STATISTIKA V PŘÍKLADECH 5>tfo 2 000 Paascheho index zr>=IčĚL = 1129=0,960. Fisherův index potom bude i/0,965 • 0,960 = 0,962 a vyjadřuje pokles prodaného množství o 3,8 %. 8.4 Analýza indexů a absolutních rozdílů 8.4.1 Rozklad indexu a absolutního rozdílu průměrného intenzitního ukazatele Příklad 8.11 a) Na základě údajů v tabulce určete, jak se změnila průměrná cena, počet prodaných kusů a celková tržba z prodeje oplatek Artemis v květnu (běžné období) oproti lednu (základní období) ve čtyřech sledovaných prodejnách. b) Určete vliv změny cen v jednotlivých prodejnách a vliv změny struktury prodeje na změnu průměrné ceny. Prodejna Cena (Kč) Prodáno (ks) Tržba (Kč) Po P\ <7o <7i On 0i 1 16 19 200 250 3 200 4 750 2 18 20 150 120 2 700 2 400 3 20 22 80 50 1 600 1 100 4 20 20 70 80 1 400 1 600 Součet X X 500 500 8 900 9 850 Řešení: a) Výpočet indexů a absolutních rozdílů TNDEXY A ABSOLUTNÍ ROZDÍLY 343 Z?i _500 = 1, Z?0 500 A(Z?) = Z?,-Z4o =500-500 = 0, a(ZG) = Za-ZA = 9 850-8 900 = 950, Ip = Z q 9 850 ä = Zgi =1qt7 = 19,70 = 1,107, Ä ZO- 8900 17>80 Z^o 500 Äp = p]-p0 =19,70-17,80 = 1,90. Celkový objem prodeje se v květnu oproti lednu nezměnil (vždy 500 kusů); celková tržba vzrostla o 10,7 %, tj. o 950 Kč. Průměrná cena tak vzrostla rovněž o 10,7 %, a sice o 1,90 Kč za kus. b) Vliv změny samotných cen a vliv změny struktury prodeje určíme na základě rozkladu indexu proměnlivého složení. Použít můžeme metodu postupných změn, metodu rozkladu se zbytkem, případně logaritmickou metodu rozkladu. Metoda postupných změn Index proměnlivého složení lze rozložit s užitím této metody při zvoleném pořadí změn analytických veličin p, s ( kdy s = q I Xq) na součin indexu stálého složení a indexu struktury: Ip = Zmo Im Zffo Zfl Z/V: Z Polo Z^» Zaso Z^iso Z^o z^> Přitom struktura prodeje v lednu, resp. v květnu je 344 STATISTIKA V PŘÍKLADECH Z^o = s, Prodejna P\qa s = 9l PoS\ 1 3 800 4 000 0,40 0,50 7,60 8,00 2 3 000 2 160 0,30 0,24 6,00 4,32 3 1 760 1 000 0,16 0,10 3,52 2,00 4 1 400 1 600 0,14 0,16 2,80 3,20 Součet 9 960 8 760 1,00 1,00 19,92 17,52 fp = 9 960 9 850 500 500 _ 19,92 19,70 8 900 9 960 n,80 19,92 500 500 1,119 0,989 = 1,107. Vlivem změny cen v jednotlivých prodejnách (při zachování lednové struktury prodeje) tedy došlo ke zvýšení průměrné ceny o 11,9 %, změna struktury prodeje (při květnové cenové hladině) vyvolala pokles průměrné ceny o 1,1 %. Rozklad odpovídajícího absolutního rozdílu je vyjádřen vztahem Ap = Z Ago Z#>g<> 1, í Z^^i Z^i^o Z^o z o J Z?i Z?" ; = (Z Piso - Z /Vo) + (Z /Ví - Xm)' Ap = (19,92 -17,80) + (19,70 -19,92) = 2,12 + (-0,22) = 1,90. Vlivem změny cen v jednotlivých prodejnách (při zachování lednové struktury prodeje) došlo ke zvýšení průměrné ceny jednoho balení o 2,12 Kč; změna struktury prodeje (při květnové cenové hladině) však vyvolala pokles průměrné ceny o 0,22 Kč. S užitím metody postupných změn při zvoleném pořadí změn analytických veličin s, p lze index proměnlivého složení rozložit na součin indexu struktury a indexu stálého složení ADECH INDEXY A ABSOLUTNÍ ROZDÍLY 345 Ip = Z Ago Z^ogi Z^o Em' Zgo Z* s 00 i.32 :.oo :.:o 8 760 9 850 500 500\ 17,52 19,70 = 8 900 8 760 17,80 17,52 500 500 0,984 1,124 = 1,107 Změna struktury prodeje zboží při lednových cenách snižuje v tomto případě průměrnou cenu o 1,6 %, důsledkem změn cen v jednotlivých prodejnách je zvýšení průměrné ceny o 12,4 %. Rozklad odpovídajícího absolutního rozdílu lze zapsat jako Ap = Z* Z<7o J l Z* =(Z - Z aj«)+(Z - Z ) , Ap-(17,52-17,80)+ (19,70-17,52) = -0,28+ 2,18 = 1,90. Změna struktury prodeje při lednových cenách snižuje průměrnou cenu o 0,28 Kč, důsledkem změn cen v jednotlivých prodejnách je však zvýšení průměrné ceny o 2,18 Kč. Rozklad se zbytkem Chceme-li eliminovat nejednoznačnost rozkladu při použití metody postupných změn, lze index proměnlivého složení Ip rozložit na součin indexu stálého složení, indexu struktury a zbytkového indexu Iz, Ip: Z pi° Z^gi Z^o Z/Vi Z Z Zgo Zgo 346 STATISTIKA V PŘÍKLADECH Zbytek ovšem představuje nevysvětlenou část změny průměrné ceny. V tomto případě tedy dostáváme 19 92 17 52 ^ = j^£ .ih3±.j -i ,119-0,984-1,005. 17,80 17,80 Odpovídající rozklad absolutního rozdílu je potom *p=Em-Em )+(Z~ E m )+Az. zde zbytek je Az. Tedy = (19,92 -17,80) + (17,52-17,80) + AZ =2,12 + (-0,28) + 0,06. Vlivem změny cen průměrná cena vzrostla o 11,9 %, tj. o 2,12 Kč při lednové struktuře prodeje. Změna struktury prodeje při lednových cenách znamená pokles průměrné ceny o 1,6 % (0,28 Kč). Nevysvětlen zůstává v tomto případě pouze nepatrný nárůst průměrné ceny o 0,06 Kč (0,5 %). Logaritmická metoda rozkladu Touto metodou rozložíme index proměnlivého složení na součin indexu stálého složení a struktury Ip=lp^ , kde AP = Pi-Po=APs+APP, hA in El aä = X—~(m-Pos0) a A^ = Z—^-(pa-Poso) ln Ä in Ä Poso Poso První sčítanec zde představuje absolutní změnu průměrné ceny vysvětlenou vlivem změny struktury prodeje a druhý sčítanec absolutní změnu průměrné ceny vysvětlenou vlivem změn cen v jednotlivých prodejnách. Víme již, že Ap = l,90, INDEXY A ABSOLUTNÍ ROZDÍLY Tp = 1,107. Výpočty potřebné pro analýzu jsou shrnuty v následujících tabulkách 347 Prodejna Po P\ o<7o = 73 000 - 56 000 = 17 000 . Celkové tržby vzrostly o 17 000 tis. Kč, tj. o 30,4 %. Jak byla celková změna tržeb ovlivněna změnami cen a jak změnami prodaného množství, zjistíme na základě rozkladu indexu (a diference) celkových tržeb. Metoda postupných změn a) Uvažujeme-li v rozkladu nejprve změnu cen a pak změnu prodaného množství, dostaneme LMo IsPolo LPilo Pomocné výpočty obsahuje následující tabulka: Tržba Tržba (2008) (2010) Pomocné výpočty Výrobek Mo Pid\ pm Mi A 12 000 21 000 14 000 18 000 B 20 000 12 000 15 000 16 000 C 24 000 40 000 30 000 32 000 Součet 56 000 73 000 59 000 66 000 Po dosazení tedy dostáváme: y ^.Z™=59000,73000 = ZíW. 2>,?o 56 000 59 000 Rozklad příslušného absolutního rozdílu lze vyjádřit vztahem A(£0 = (XPtfo ~Z ) + (Xm, "ZPilo). tedy A(Z 0 = (59 000 - 56 000) + (73 000 - 59 000) = 3 000 +14 000 350 STATISTIKA V PŘÍKLADECH Změna cen tedy způsobila nárůst tržeb o 5,4 %, tj. o 3 000 tis. Kč, změna prodaného množství nárůst tržeb o 23,7 %, tj. o 14 000 tis. Kč. b) Uvažujeme-li v rozkladu naopak nejprve změnu prodaného množství a teprve poté změnu cen, dostaneme 2^o?o Z^otfo ZxPoli neboli 6^ 73000 = ^ 56000 66000 Analogicky absolutní rozdíl celkových tržeb rozložíme takto: A(Z Q)=(Z Poii - Z Po4o)+(Z / Wi - Z ). a po dosazení dostáváme A(]T g) = (66 000-56 000) + (73 000 - 66 000) = 10 000 + 7 000 . Změna cen způsobila nárůst tržeb o 10,6 %, tj. o 7000 tis. Kč, změna prodaného množství nárůst tržeb o 17,9 %, tj. o 10 000 tis. Kč. Metoda rozkladu se zbytkem Souhrnný index celkových tržeb lze rozložit podle vzorce kde zbytek Iz je nevysvětlená část změny celkových tržeb. y(l0 = 5?^.66OOO. ^ 56000 56 000 z Odpovídající rozklad absolutního rozdílu lze zapsat jako A(ZS) = (ZPo* -ZPo4o) + (Za4o-Zw7o) + az: INDEXY A ABSOLUTNÍ ROZDÍLY 351 Azje zde nevysvětlená část absolutního přírůstku celkových tržeb. H^Q) = (59 000 - 56 000) + (66 000-56 000) + Az = = 3000 + 10000 + 4000. Při cenách roku 2008 by změna prodaného množství způsobila nárůst celkové tržby o 17,9 %, tj. 10 000 tis. Kč; změna cen při stejném prodaném množství jako v roce 2008 by způsobila zvýšení celkové tržby o 5,4 %, tj. o 3000 tis. Kč. Nevysvětlen zůstává v tomto případě další nárůst tržeb o 4,9 % (4 000 tis. Kč). Logaritmická metoda Rozklad absolutního rozdílu celkových tržeb 17 000 tis. Kč (potřebný také pro výpočet exponentů obou indexů) je kde Z ln {Pili Po9o)> z ln <7o {Pili Po%) • ln Vzorec pro rozklad souhrnného indexu celkových tržeb má pak tvar /(Zô)=/(Z£)A(2> -/(Zô)A(2> ■ A<2>„ a(Xq) V následujících tabulkách nejprve opět provedeme potřebné dílčí výpočty: 352 STATISTIKA V PŘÍKLADECH Výrobek ln* In* In™ AQ = Po Qo Poao A 0,154151 0,405465 0,559616 9 000 B -0,287682 -0,223144 -0,510826 -8 000 C 0,223144 0,287682 0,510826 16 000 Součet X X X 17 000 Výrobek bxIQ * A 2 479 6 521 B -4 505 -3 495 C 6 989 9011 Součet 4 963 12 037 Dostáváme tedy A(X0p=4963a A(X0f/=12O37. Index celkových tržeb je roven, jak jsme zjistili hned v prvních krocích řešení celého příkladu, 7(20 = 1,304. Analytické indexy (tedy Montgomeryho souhrnný index cenový a objemový) potom jsou rovny 4963 7/>w =1,304"000 =1,081 , resp. 12 037 /g(i0 =1,304" °°° =1207. Celkové tržby vlivem změny cen vzrostly o 8,1 %, tj. o 4 963 tis. Kč; vlivem změny prodaného množství vzrostly o 20,7 %, tj. o 12 037 tis. Kč. Poznamenejme ještě, že Fisherův cenový a Fisherův objemový index jsou v tomto příkladu INDEXY A ABSOLÚTNI ROZDÍLY 353 Ip'F) = 4l 054 -1,106 = 1,080, Iq(n = 71,237-1,179 = 1,208, a zaregistrujme jejich praktickou shodu s indexy Montgomeryho. □ 8.5 Bortkiewiczův rozklad Příklad 8.13 V první části příkladu 8.8 jsme určili Laspeyresův souhrnný cenový index (1,303) a Paascheho souhrnný cenový index (1,241). Vysvětlete rozdíl v hodnotách obou indexů užitím Bortkiewiczova rozkladu. Řešení: Na základě tzv. Bortkiewiczova rozkladu lze podíl souhrnných cenových indexů Laspeyresova a Paascheho vyjádřit jako kde vIp je variační koeficient jednoduchých cenových indexů (pi/po), v,q je variační koeficient jednoduchých objemových indexů (qi/qo) a rIplq je korelační koeficient mezi jednoduchými cenovými a objemovými indexy. Následující tabulka obsahuje potřebné dílčí výpočty. Zboží Po qo Qo Qo-U2 Qo-v2 Qo-U-V A 1,250 0,667 240 0,674 4,245 1,692 B 1,500 0,800 200 7,762 0 0 C 1,600 0,600 250 22,052 10,000 -14,850 D 1,000 0,667 210 19,280 3,715 8,463 E 0,889 2,000 90 15,426 129,600 -44,712 Součet x x 990 65,194 147,560 -49,407 354 STATISTIKA V PŘÍKLADECH Poznámka.: U = Ip-Ip{L), V = Iq-Iq{L> V samotném rozkladu potom Y Q.U V -49 407 =-_=_ ' _= _o 504 'Zeo-^ZSo^2 V65,194-147,560 a tedy '-(Z) 1,303 Z^-a vto=1 ~r = - ľ90 =q>483, 147,560 Za ;" Iq1- 0,8 1 241 =--= 0,952 = 1 + 0,197 • 0,483 • (-0,504). 1,303 Variační koeficient jednoduchých cenových indexů je 0,197 a variační koeficient jednoduchých objemových indexuje 0,483, a tudíž je variabilita prodaného množství jednotlivých druhů zboží vyšší než variabilita cen. Korelační koeficient mezi jednoduchými cenovými a objemovými indexy je záporný, to znamená, že při růstu cen dochází k poklesu množství prodaného zboží (a naopak). Paascheho souhrnný index je proto nižší než index Laspeyresův. INDEXY A ABSOLUTNÍ ROZDÍLY 355 Cvičení 1. Doplníme-li k príkladu 8.2 index porovnávající počet dokončených bytů v ČR v roce 2004 s jejich počtem v roce 2000 (tento index je 1,280), určete index porovnávající počet dokončených bytů v roce 2010 s rokem 2000. 2. Index proměnlivého složení v příkladu 8.7 rozložte metodou postupných změn na index stálého složení a index struktury. 3. Údaje o ceně tří základních tarifů a o počtu klientů v určité oblasti v okamžiku vstupu nového telefonního operátora na trh (základní období) a v současnosti (běžné období) obsahuje následující tabulka. Určete, jak se změnila průměrná cena tarifu a dále, jak byla tato změna ovlivněna samotnou změnou cen jednotlivých tarifů a jak ji ovlivnila změna zájmu klientů o jednotlivé tarify. Cena Počet klientů (tis.) Tarif z.o. b.o. z.o. b.o. TI 320 384 25 50 T2 400 480 35 20 T3 500 600 40 20 4. V příkladu 8.9 index celkových tržeb rozložte metodou postupných změn a metodou se zbytkem. Určete souhrnný cenový a objemový index Montgomeryho. Dále vysvětlete rozdíl mezi Laspeyresovým a Paascheovým souhrnným cenovým indexem na základě Bortkiewiczova rozkladu. Výsledky 1. 1,446. 2. Pořadí změn p, s: index stálého složeni 1,0363, index struktury 1,0024. Pořadí změn s,p: index stálého složení 1,0367, index struktury 1,0020. 3. Index proměnlivého složení je 1,079. Rozklad metodou postupných změn: v důsledku zdražení vzrostla průměrná cena tarifu o 20 % (index stálého složení je 1,200), v důsledku změny zájmu klientů o jednotlivé tarify poklesla průměrná cena o cca 10 % (index strukturyje 0,899). 4. Index celkových tržeb 1,065; Laspeyresův index cenový je 1,109, Paascheho index objemový 0,960; STATISTIKA V PŘÍKLADECH Paascheho index cenový je 1,103, Laspeyresův index objemový je 0,965. Montgomeryho souhrnný index cenový je 1,106 a Montgomeryho souhrnný index objemový je 0,963. Cenové indexy se od sebe příliš neliší, je to dáno především relativně malou variabilitou ve změnách cen (variační koeficient je 0,061); korelační koeficient je záporný, závislost vývoje cen a prodaného množství je nepřímá (Paascheho index je menší než Laspeyresův). B = 1,103/1,109 = 1 - 0,061-0,149(-0,521) KAPITOLA IX PŘÍLOHA PRAVDĚPODOBNOSTNÍ ROZDĚLENÍ ¥ MS EXCEL fronty'."ta* x J33 H - U4 s-triíij odc.yijj. jc k hodnota. p*e Ml třieefce íjsllt roK»en. VflW* - 0,9-»*^7Mi? L. ■ PR.V Tato s pra'^ zim a u m nahra verzíí kvant funkc nenal BlXO starší verzi. z ozn (resp. k fuiL určin Dále 2010. pra\'d hodni děné 9.1 v ob; ní. u 1 Jedna kvant PRAVDĚPODOBNOSTNÍ ROZDĚLENÍ V MS EXCEL 359 9 Pravděpodobnostní rozdělení v MS Excel Tato příloha je v podstatě stručným manuálem, poskytujícím návod na práci s pravděpodobnosmími rozděleními v MS Excel verze 10 a vyšších. Oproti předchozím verzím došlo totiž ke změnám názvu všech pravděpodobnostních funkcí a u mnoha z nich se změnil i jejich obsah. Navíc přibyly některé nové funkce, které nahrazují ty starší, přičemž byly tyto funkce rozšířeny (např. počítají oproti starším verzím nejen hodnoty distribuční funkce, ale i hodnoty hustoty pravděpodobnosti či kvantilů). Z důvodů zpětné kompatibility jsou vExcelu platné i dřívější syntaxe funkcí. To znamená, že tyto starší funkce sice fungují, ale již je v nabídce funkcí nenalezneme. Ukázkou může být např. funkce BlNOM.DIST, která nahradila funkci BlNOMDIST, přičemž stará i nová verze fungují úplně stejně. Naproti tomu např. ve starší verzi Excelu funkce Tdist počítá něco úplně jiného než funkce T.DIST v nové verzi. Došlo též ke sjednocení názvu funkcí, neboť nyní je název důsledně složen z označení rozdělení, pak následuje tečka a označení DIST pro distribuční funkci (resp. pravděpodobnostní funkci či hustotu) či inv (pro označení inverzní funkce k funkci distribuční, tedy pro kvantilovou funkci). Do označení funkcí tak byl vnesen určitý řád a jednotnost. Dále popíšeme všechny funkce pravděpodobnostních rozdělení ve verzi MS Excel 2010. U každého rozdělení uvedeme vzorec pravděpodobnostní funkce či hustoty pravděpodobnosti, jak je definován v MS Excel. Dále popíšeme možnosti výpočtů hodnot distribuční funkce a kvantilů a syntaxi příslušných funkcí. Veškeré dále uváděné skutečnosti jsou vázané na MS Excel verze 10. 9.1 Diskrétní rozdělení V oblasti diskrétních (nespojitých) rozdělení obsahuje MS Excel následující rozdělení, u kterých zároveň uvádíme název příslušné funkce: Tab. 9.1: Přehled funkcí pro nespojitá rozdělení rozdělení pravděpodobnostní a distribuční funkce kvantily binomické BlNOM.dist BENOM.inv negativně binomické negbinom.dist - Poissonovo POISSON.dist - hypergeometrické Hypgeom.dist - Jedná se tedy o naprosto o základní typy rozdělení, navíc ne vždy je možné spočítat kvantily. To ale není žádné neštěstí, neboť kvantily jsme schopni poměrně snadno 360 STATISTIKA V PŘÍKLADECH PF spočítat z hodnot pravděpodobnostní funkce. Podívejme se nyní na jednotlivá rozdělení podrobněji. Je třeba ještě uvést, že distribuční funkce je vExcelu definována jako F(x) = P(X- 1B4 I - 2 ■ C4 - 10 !CM - »,14666666? '0 ■ MBSAVDA KumubttVní je fo&M hodnotBr kumtistjvni ůstrhuĚri íurte * PfiÄ¥£Mt, hromadriá -pra^d^Xídobnostnifes^cea^ílAVOft,-: : ; .Storno, Její argumenty mají následující význam: Počet_úspěchů - x (počet úspěchů). Hodnota, pro kterou počítáme F(x) či P(x). Pokusy - n (počet pokusů) a parametr rozdělení. Pravděpodobnost_úspěchu - n. Pravděpodobnost úspěchu a parametr rozdělení. Kumulativní - NEPRAVDA pro hodnotu pravděpodobnostní funkce P(x), PRAVDA pro hodnotu distribuční funkce F(x). ADECH PRAVDĚPODOBNOSTNÍ ROZDĚLENÍ V MS EXCEL 361 Jako pro jediné z nespojitých rozdělení jev Excelu uvedena i funkce pro výpočet kvantilů BrNOM.lNV. Její argumenty mají obdobný význam, jako je tomu u funkce BlNOM.DIST. Argumenty funkce BWOM.JNV ! Pokusy ;C4 Alfa Is9 LI jj| » 0,166666667 SI - 0.9S Vrátí nejmenšf hodnotu, pro kterou má kixmisllvní bffromkké rozděleni Hodnotí větJÍ nebo mvnu hodnotě khténa. Pokusy JepwfetBernotÄopaJcuso. Výsledek- 4 ; Pokusy -« (počet pokusů) a parametr rozdělení. Pravděpodobnost_úspěchu - n. Pravděpodobnost úspěchu a parametr rozdělení. Alfa - pravděpodobnost P pro hodnotu kvantilu xp . Negativně binomické rozdělení Náhodná veličina X má negativně binomické rozdělení s parametry n a n, jestliže její pravděpodobnostní funkce má pro n celočíselné tvar P(x) = n + x-í\ x"(\-7r)x, x = 0,l,... 00. x\ V Excelu se jak pro distribuční funkci i pro pravděpodobnostní funkci používá funkce poisson.dist Její argumenty mají následující význam: X - x. Hodnota, ve které většinou počítáme F(x) či P(x). PRAVDĚPODOBNOSTNÍ ROZDĚLENÍ V MS EXCEL 363 Střední -A. Parametr a zároveň střední hodnota rozdělení. Kumulativní - nepravda pro hodnotu pravděpodobnostní funkce P(x), Pravda pro hodnotu distribuční funkce F(x). POlSSQN.DtST X ^B4 Strední ;C4 Komutativní ;0 j ¥fití hodnotu Poissonova roEdseni. Výsledek - 0,003065662 - 5 - i - 0,003065662 X Jepo&tudäostí. OK Storno Hypergeometrické rozděleni Náhodná veličina X má hypergeometrické rozdělení s parametry N, M a. n, jestliže její pravděpodobnostní funkce má tvar P{x)- N-M n-x x = max(0,M- N + ri),min(M,«). Přitom N, M a h jsou přirozená čísla, \x) *l-PI2 xi-p Studentovo (t) t.dist.rt t.dist.2t t.inv.2t - Fischer-Schnedecorovo (F) F.dist.rt - - F.inv.rt chí-kvadrát chisq.dist.rt - - chisq.inv.rt Je tedy zřejmé, že nabídka spojitých rozdělení je podstatně širší, než je tomu u rozdělení nespojitých. Normální rozdělení Náhodná veličina X má normální rozdělení s parametry p a o1, jestliže její hustota pravděpodobnosti má tvar -U-fif f(x) =—j=e 2<7~ , -oo0. 366 statistika v příkladech P v Excelu se pro distribuční funkci a hustotu používá funkce norm.dist. Její argumenty mají následující význam: X -x. Hodnota, ve které počítáme F(x), resp./(x). Střed_hodn - JU. Parametr rozdělení a zároveň střední hodnota. Sm_odch - 0, -oo0, crxv 2n = 0, x<0. Připomeňme, že náhodná veličina Y = ln(X) má potom normální rozdělení s parametry jU a a2 - tedy přirozený logaritmus náhodné veličiny s logaritmicko normálním rozdělením má normální rozdělení se stejnými parametry jU a a2. V Excelu se pro výpočet hodnot distribuční funkce používá funkce Lognorm.dist. Její argumenty mají následující význam: X - x. Hodnota, ve které počítáme F(x) či J{x). Střední - jU. Parametr rozdělení. Pozor, nejedná se o střední hodnotu X, nýbrž o střední hodnotu \n(X). Sm_odchylka - o. Parametr rozdělení. Opět se nejedná o směrodatnou odchylku X, nýbrž o směrodatnou odchylku hodnoty lnLY). Kumulativní - NEPRAVDA pro hodnota hustoty /(x), PRAVDA pro hodnotu distribuční funkce F(x). Argumenty funkce 1 IOGNORM.D1ST 11 83 - - 10 Stíráni C3 - '- 5 1 Sn)_oddi^lta E3 ' 632455532 Kumulativní f l PRAVDA . , - 0,9973 h9s2 Wáa" hodnoty íoc^trf^ffl-norrréhfio rozdieFs hodnot x, kde funkce rňé riaměm rozdělení s parametry Střední a X je hodnota, prokíeř£30 chcete zjistit hodnotu rozdito". Ärguíftent)efladné í Výaedek - 0,99781*82 PRAVDĚPODOBNOSTNÍ ROZDĚLENÍ V MS EXCEL 369 Funkce pro výpočet kvantilů logaritmicko normálního rozdělení má v Excelu název LOGNORM.INV. Jedná se o kvantilovou funkci F~l(P) = xP, která má následující argumenty: Pravděpodobnost - pravděpodobnost P pro hodnotu kvantilu xp . Stř_hodn - jU. Parametr rozdělení a zároveň střední hodnota veličiny \n(X). Nejedná se tedy o střední hodnotu logaritmicko normálního rozdělení, jak by název parametru mohl mylně evokovovat. Sm_odch - cr. Parametr rozdělení, odmocnina ze i mémmänimztMmsparametry5f_hodna5m„oddi. Pravděpodobnost JepravděpodcIíníatíogantrfÉ^-f^^ vřetně. I Výsledek • 4,665974814 Exponenciální rozdělení Náhodná veličina Imá exponenciální normální rozdělení s parametrem A, jestliže její hustota pravděpodobnosti má tvar f(x) =Áe *\ x>0, Á>% = 0, x<0. Pokud položíme X = — , dostali bychom tvar rozdělení, v jakém je obvykle uváděn S v literatuře. Nicméně v Excelu je uveden v této podobě a tento tvar je prezentován pro hodnoty x > 0 , neuvažuje se zde tedy možné posunutí A. 370 STATISTIKA V PŘÍKLADECH V Excelu se pro výpočet hodnot distribuční funkce a hustoty používá funkce EX-PON.DIST. Její argumenty mají následující význam: X - x. Hodnota, ve které počítáme F{x), resp.yfx)- Lambda - Ä. Parametr rozdělení. Kumulativní - Nepravda pro hodnotu hustoty /(x), Pravda pro hodnotu distribuční funkce F(x). Aříjymefity fui^cff EXPOM.OBT lambda C3 Kumulatívni \ 1 Vrátí hodnotu exponendáWso rozděleni fit * 0,1 HU « P8AVDA « 0,65212«» X: Je hodnota funkce, nezáporné č&b. Výsledek » 0,6S21MSS9 Ot Sto-no Funkce pro výpočet kvantilů tohoto rozdělení není k dispozici. S jejím výpočtem si však snadno poradíme, neboť pro 100.P% kvantil exponenciálního rozdělení platí vztah Jf = -'°<'-p). 00, /3>0, a>0, x<0. Speciálním případem Weibullova rozdělení je pro a = 1 exponenciální rozdělení. Pro výpočet hodnot distribuční funkce a hustoty se používá funkce WEIBULL.DIST. Její argumenty mají následující význam: PRAVDĚPODOBNOSTNÍ ROZDĚLENÍ V MS EXCEL 371 X - x. Hodnota, ve které počítáme F(x), resp. /(x). Alfa - a. Parametr rozdělení. Beta - /3 . Parametr rozdělení. Kumulativní - Nepravda pro hodnom hustoty J{x), Pravda pro hodnotu distribuční funkce F(x). Argumenty funkce »£&m4 WHBtlLDBT X B3 Alfa C3 "t -1,8 Beta D3 Kumulativní \ i - PRAVDA » 0,874411275 Vrátj' hodnotu Webufova rozděleni. X je hodnota (íiezápomé ö*sk>), pro kterou chcete žystit ro^eri. T"-t;:;t "; " " : ;............... výsledek - 0,8744112.75 i:, ■; OK ..... ; Storno j _ ...............................' Funkce pro výpočet kvantilů tohoto rozdělení není v Excelu k dispozici. Pro výpočet \00P% kvantilu Weibullova rozdělení můžeme použít vztah xP=/?[-ln(l-P)]ltř, 00W®Bt©bc^$tjanr^Síuc^^ meÉ 0 a 1 včetně. vy****- L»i2«:;23 Nlijsvé 3iX W:o.M>m ; í ; i: -Storno r ; Další funkce Excel disponuje dalšími funkcemi pro t-rozdělení. Jedná se o funkci T.DIST.2t. Tato funkce počítá pravděpodobnost P(|X|>x), jde tedy o funkci kritických hodnot. Argumenty funkce T.DIST.2t mají následující význam: PRAVDĚPODOBNOSTNÍ ROZDĚLENÍ V MS EXCEL 373 X - x. Hodnota, ve které počítáme výraz F{x) či j{x). Volnost - n. Parametr rozdělení, počet stupňů volnosti. Argumenty funkce T.DÍST.2T X 33 Volnost Ic3 i V g|| - 5 Híl ■ W - 0,000537334 Vrátí hodnotu obojstranného Studentova t-rozdělers'. X >eč1seíná hodnota, proltterc« mezí 0 a 1. včetně. výsledek- Ofňmsm Pravděpodobnost - pravděpodobnost P pro hodnotu kvantilu xx_pl2. Volnost - n. Parametr rozdělení, počet stupňů volnosti. Funkce T.DIST.RT počítá hodnom \-F{x), tedy doplněk distribuční funkce do jedné. Argumenty funkce T.DIST.RT mají následující význam: 374 STATISTIKA V PŘÍKLADECH Argumenty funkce T.OIST.RT X S3 Volnost C3 ■ 0,000268667 Vraf hodnotu pravostranného Studentova t-rozdeten*. X jeSsehá hotärejta, pro kterou öicete ZjBötrradnotu rozdělení. Výsledek- 0,000268667 tjáoovéaa k této runko X - x. Hodnota, ve které počítáme výraz F(x) či/(x). Volnost - n. Parametr rozdělení, počet stupňů volnosti. Fischerovo-Schnedecorovo rozdělení (F rozdělení) Náhodná veličina A'má Fischerovo-Schnedecorovo rozdělení s parametry man (počty stupňů volnosti), jestliže její hustota pravděpodobnosti má tvar ŕ m + n^ v = o, v 2 J m Iři n 1 2 ) l 2 (m^ m/2 m/2-1 X íl m \ l+ — X \ « ) V n J >}l t H 2 , x>0, me N, ne N, x<0. V Excelu se pro výpočet hodnot distribuční funkce používá funkce F.DIST. Argumenty funkce F.DIST mají následující význam: X - x. Hodnota, ve které počítáme výraz F(x) čij[x). Volnosti - m. Parametr rozdělení, počet stupňu volnosti. Volnost2 - n. Parametr rozdělení, počet stupňů volnosti. Kumulativní - NEPRAVDA pro hodnotu hustoty j(x), PRAVDA pro hodnotu distribuční funkce F(x). ADECH PRAVDĚPODOBNOSTNÍ ROZDĚLENÍ V MS EXCEL 375 Argumenty funkce F.WST 11 x [b3___^_____ . í í • 5 Volnosti c3 g) - 3 VolnostJ {03 - 8 Kumulativní u_ "' MI • pravda « 0,969« 1603 vrátí hodnotu fjevoslranného) rozdétení pravděpodoímoslS F {stupeň nonekvřvafence) pro dvě množiny dat. x y& hodnota, pro kterou aVete2^Btro2dě^'pravděrxidobnost3. Anjtjíient musí být nezáporné Sslo. Výsledek = 0,969421603 Pro výpočet hodnot kvantilů se používá funkce F.inv, která má následující parametry: Pravděpodobnost - pravděpodobnost P pro hodnotu kvantilu xp . Volnosti - m. Parametr rozdělení, počet stupňů volnosti. Volnost2 - n. Parametr rozdělení, počet stupňů volnosti. Argumenty funkce Pravděpodobnost e3 » 0,05 Volnosti c3 '* - 3 Volnosti d3 _____......hj - 3 - 0,113055177 Vrstf hKbotu inverzrs funkce k dtstrtoučre funko (levostrariného} rozdělen* pravděpodobnosti F; jesíiže p » F.DÍ5T(x,...), F.mfy,...)~x, Pravděpodobnost Je pravděpodobnost kxjmuiatrvniho rojděiers F, $šäc mes 0 a 1 včetně. výsledek- 0,113055177 Dalšími funkcemi jsou F.DIST.RT a F.INV.RT. Funkce F.D1ST.RT počítá hodnotu 1 - F(x), tedy doplněk distribuční funkce do jedné, funkce F.INV.RT počítá hodnotu kvantilu x, „. Argumenty obou funkcí mají následující význam: 376 STATISTIKA V PŘÍKLADECH Argumenty funkce F.DI5T.RT X :B3 Volnosti C3 Volnosti 03 H - S - 0,030578397 Vrátí hodnotu £^avc*trarine*ho) rozdělení pravděpodobnosti F (stupen nonekvívaJenoa) pro dvě množiny dat, X je hodnota, pro kterou chcete záštit rozděleni* pravděpodobnosti. Argument musí být nezáporné čisto. Výsledek = 0,030578397 X - x. Hodnota, ve které počítáme výraz F(x) čif(x). Volnosti - m. Parametr rozdělení, počet stupňů volnosti. Volnost2 - n. Parametr rozdělení, počet stupňů volnosti. Inverzní funkcí k funkci předcházející je F.INV.RT s následujícími parametry. Argumenty funtee Pravděpodobnost ÍE3 S*1 Volnosti C3 Volnosti (03 - 4,066180551 Vráti hodnotu inverzní funkce k rislhbucriŕ furátd (pravostrannerx)} rozdělení rxavděpodobnosti F: jesrjiže p => F.DtSr.RTOt,.,.),F.INV.RTfp,...) - x. Pravděpodobnost je rxavrjěprjdobríost "íurnulatívníio rozdělení F, čisto mezí 0 a X včetně. Výsledek- 4,066180551 Nápověda k teto fatei Pravděpodobnost - pravděpodobnost P pro hodnotu kvantilu xl_p . Volnosti - m. Parametr rozdělení, počet stupňů volnosti. Volnost2 - n. Parametr rozdělení, počet stupňů volnosti. Při výpočtu kvantilů Fischer-Schnedecorova rozdělení můžeme využít pro 0 < P < 1 vztah PRAVDĚPODOBNOSTNÍ ROZDĚLENÍ V MS EXCEL 377 xP(rn,n) = 1 x{_p(n,m) Chí kvadrát rozdělení Náhodná veličina X má chí-kvadrát rozdělení s parametrem n (počet stupňů volnosti), jestliže její hustota pravděpodobnosti má tvar /(*) = 1 2"2 T = 0, xal2~'e~x'2, x>0, n&N, x<0. V Excelu se pro výpočet hodnot distribuční funkce používá funkce Chisq.dist. Argumenty funkce Chisq.dist mají následující význam: Argumenty funkce OflSQ.OiST X 33 Volnost :C3 Kumulativní l Wéi tevostramou pr avděpsdobrost rozdětefs' cW-kvadrát. li « S - 5 - to - PRAVDA X Je hodnota, pro kterou chcete zjísät pravděpockítmcst rozdelení. Argument musí být nezáporné čslo. Výsledek- 0,108821981 ...... .... .... OK i Storno j j X - x. Hodnota, ve které počítáme výraz F(x) či fix). Volnost - n. Parametr rozdělení, počet stupňů volnosti. Kumulativní - Nepravda pro hodnotu hustoty fix), Pravda pro hodnotu distribuční funkce F(x). Pro výpočet hodnot kvantilů se používá funkce chisq.inv, která má následující parametry: 378 STATISTIKA V PŘÍKLADECH PR.- Argumenty funkce CH1SQ.WV FravděpodoDfiost ;D3 Volnost ;C3 0,05 10 - 3,M0299i36 i Vráfe'hodnotu funkce Inverzní k dstríbucrH funkci íevostrarmé ipravc^jodobnosíf rozděleni dtí-kvadrát Pravdepodoímost |epra^děr»ckabr^razděle«cW^ uzavřeného ftt^vaiu ô až 1. Výsledek - 3,90299136 OK .Samo, Pravděpodobnost - pravděpodobnost P pro hodnotu kvantilu xp Volnost - n. Parametr rozdělení, počet stupňů volnosti. Dalšími funkcemi jsou Chisq.dist.rt a Chisq.inv.rt. Funkce Chisq.dist.rt počítá hodnotu l-F(x), tedy doplněk distribuční funkce do jedné. Její argumenty mají následující význam: Argumenty funkce CHISQ.DIST.RT volnost )C3 I wéíípravostrôrawirtfeyaepodob^ §3 - io - 0.891179019 msTí dvs ím-iíízxm oslo. I ¥ýstedek - 0391178019 X - x. Hodnota, ve které počítáme výraz F(x) či f (x). Volnost - n. Parametr rozdělení, počet stupňů volnosti. Inverzní funkcí k funkci předchozí je CHISQ.INV.RT. Ta počítá hodnotu kvantilu xx_p. Argumenty funkcí mají následující význam: Betí PRAVDĚPODOBNOSTNÍ ROZDĚLENÍ V MS EXCEL 379 Argumenty funkce ■f |^..... ... CHISQ.WV.RT Pravděpodobnost D 3 Volnost C3 V . 0,05 - 10 - 18,30703805 WáS hodnotu funkce inverzní k cSstnbučhi' funkci pravostranné pravdepodobností rozdělení crí-kvadrét Pravděpodobnost j€r^avděrxidob?^trozděle«chí4rvadrát. Afo^rtrerit je hodnota z uzavřeného intervalu ô až 1. Výsledek* 18,30703805 Pravděpodobnost - pravděpodobnost P pro hodnotu kvantilu x,_p . Volnost - n. Parametr rozdělení, počet stupňů volnosti. Beta rozdělení (4 parametrické) Náhodná veličina Xmá Beta rozdělení s parametry a, b, a, j3 , jestliže její hustota pravděpodobnosti má tvar f(x) =---—--—st, a0, p>0, b>a, = 0, jinak. Pokud bychom položili a = 0 a 6 = 1, obdržíme „klasické" dvouparametrické Beta rozdělení ve tvaru B(a,j3) = 0, jinak. V Excelu se pro výpočet hodnot distribuční funkce používá funkce BETA.DIST. Argumenty funkce BETA.DIST mají následující význam: X - x. Hodnota, ve které počítáme hodnotu distribuční funkce F(x). Alfa - a, parametr rozdělení. Beta - f3 , parametr rozdělení. 380 STATISTIKA V PŘÍKLADECH Kumulativní - nepravda pro hodnotu hustoty fix), pravda pro hodnotu distribuční funkce F(x). A- a, parametr rozdělení, dolní mez pro hodnoty x. Jedná se o nepovinný argument. B - b, parametr rozdělení, horní mez pro hodnoty x. Jedná se o nepovinný argument. Argumenty A a B jsou nepovinné, pokud nejsou zadány, automaticky platí A = 0 a B = 1. Argumenty funkce eerA.Disr X :B3 AHa ,C3 Beta -m Kumutathmí j1 Vrátí funkci rozděleni pravděpodobnost beta. S " 5 S *7 B ■2 F*! - PRAVDA f§§ - » « 0.016746027 hodnotu funkce. Výsledek « 0,0167<íS827 Excel umožňuje i výpočet kvantilů beta rozdělení. Slouží k tomu funkce Beta.inv, jejíž parametry mají následující význam: Argumenty funk<^ Pravdéiwxkíbno-st IA3 - 0,95 Ala ti - 7 Beta D3 ■ e - 2 A :E3 - 1 B ■F3 » 10 - 9,582496624 vtad *Kvzri hocnotu kumulalivnt funkce hustoty pravcBpodobmsti teta roidSerŕ (BOA.MST), Pravděpodobnost jepravo^odebnosĚrozdětesbeta. Výsledek" 9.582-86624 SiKľáilsisasäJiia, Pravděpodobnost - pravděpodobnost P pro hodnotu kvantilu xp . Alfa - a, parametr rozdělení. PRAVDĚPODOBNOSTNÍ ROZDĚLENÍ V MS EXCEL 381 Beta - j3 , parametr rozdělení. A - a, parametr rozdělení, dolní mez pro hodnoty x. Jedná se o nepovinný argument. B - b, parametr rozdělení, horní mez pro hodnoty x. Jedná se o nepovinný argument. Pokud nejsou argumenty A a B zadány, automaticky platí A = 0 a B = 1. Gama rozdělení Náhodná veličina X má Gama rozdělení s parametry a a j3 , jestliže její hustota pravděpodobnosti má tvar xa~le~x/ft = ^rVT' X>0' a>°' ^>0' p r(a) = 0, jinak. Pro výpočet hodnot distribuční funkce rozdělení gama se v Excelu používá funkce GAMMA.DIST. Argumenty funkce GAMMA.DIST mají následující význam: ■-i -^mjFwsm Argumenty funkce i tí .wsbmbbs: GAMMA,DIST X |» - 10 AKa C3 ■ ^ . 5 Beta D3 -2 Kumulatívni [l_ s - PRAVDA - 0.559506715 Vrátí hodnotu gama rozdeíers. X )e hodnota (nezáporné Oslo}, pro kterou chcete zjstst hodnotu rozděleni. Výsledek- 0,559506715 X - x. Hodnota, ve které počítáme hodnotu distribuční funkce F(x). Alfa - a, parametr rozdělení. Beta - f3 , parametr rozdělení. Kumulativní - NEPRAVDA pro hodnotu hustoty fix), PRAVDA pro hodnotu distribuční funkce F{x). Pro výpočet kvantilů se používá funkce GAMMA.INV. OK . { Storno 382 STATISTIKA V PŘÍKLADECH PR Argumenty funkce GAMMA.INV Pravděpodobnost ;A3 " Ml - 0,05 Alfa C3 m = 5 Beta D3 bri »2 ■ 3.W0299136 Vrátí hodnotu inverzní funkce k ctetribuiní funko kumutoíwnäio rozdelení oama: Jestíře p ■ GAMMA.OIST(x,...). potom GAAWAJNVjp,...) - ». Pravděpodobnost je pravc%»doonost rozdelení gama, osia mezi 0 a 1 včetně. Výsledek = 3,540299136 Pravděpodobnost - pravděpodobnost P pro hodnotu kvantilu xp . Alfa - a, parametr rozdělení. Beta - J3 , parametr rozdělení. Pokud položíme parametr a-1, obdržíme exponenciální rozdělení (X = 1 / j5). Shrnutí syntaxe Rozdělení F{x) normální =NORM.DIST(x;n;a;l) norm. normálni= NORM.S.DlST(x; 1) Log. normální =LOGNORM.DIST(x;n;a;l) exponenciální =EXPON.DIST(x;A.; 1) Weibullovo =WEIBULL.DIST(x;a;(3; 1) l-rozdělení =T.DIST(x;n; 1) F-rozdělení =F.DIST(x;n;m;l) Chí-kvadrát =CHISQ.DIST(x;n;l) Beta =BETA.DIST(x;a;P;l;a;b) Gama =GAM VIA DIST(x;a;(3;l) f(x) xp =NORM.DIST(x;n;a;0) =NORM.INV(P;n;a) =NORM.S.DIST(x;0) =LOGNORM.DIST(x;p.;o;0) =LOGNORM.INV(P;Wc) =EXPON.DIST(x;a,;0) WEIBULL.DIST(x;a;ß;0) =T.DIST(x;n:0) =T.lNV(P:n) =F.DIST(x;n;m;0) =F.INV(x;n;m) =CHISQ.DIST(x;n;0) =CHISQ.INV(P;n) =BETA.DIST(x;ct;ß;0;a;b) =BETA.INV(P;a;ß;a;b) =GAMMA.DIST(x:a;ß;0) =GAMMA.INV(P;cc;ß) ADECH PRAVDĚPODOBNOSTNÍ ROZDĚLENÍ V MS EXCEL 383 Další funkce Rozdčlcní l-F(x) xl_e P(\X\> x) xx_pj2 t-rozdélení =T.DIST.RT(x;n) - =T.DIST.2T(x;n) =T.INV.2T(P;n) F-rozdélení =F.DIST.RT(x;m;n) =F.INV.RT(P;m;n) Chi-kvadrát =CHISQ.DIST.RT(x;n) =CHISQ.INV.RT(P;n) KAPITOLA X PŘÍLOHA TABULKY ti i m u u j ««) 0.00 ôlíóbôc m C.535 83 0,70 0,"5SO- 0,01 : 0.503 99 QM : 0.640 58 0,71 i 0,1« i 5 0.02 i 0,50?§S #,37 Q£2 • 0764 24 0,03 3.51! f? 0.38 0.648 03 0.1 ■ 0.-6" 3C 0.04 : 0.515 95 C,59 0.651 "3 0,74 6,770 35 TABULKY 387 Tabulky 1. Distribuční funkce normovaného normálního rozdčlení 2. Kvantily uP normovaného normálního rozdělení 3- Kvantily Zp rozdělení j2 o vstupních volnosti 4. Kvantily /> t-rozdělení o vstupních volnosti 5. Kvantily FP F-rozdělení o V\ a V2 stupních volnosti 6. Kvantily rozdělení Dn.]_a pro Kolmogorovův-Smirnovův test pro jeden výběr 388 STATISTIKA V PŘÍKLADECH Tabulka 1 Distribuční funkce normovaného normálního rozdělení u m u F(u) u F(u) u F(«) 0,00 0,500 00 0,35 0,636 83 0,70 0,758 04 1,05 0,853 14 0,01 0,503 99 0,36 0,640 58 0,71 0,761 15 1,06 0,855 43 0,02 0,507 98 0,37 0,644 31 0,72 0,764 24 1,07 0,857 69 0,03 0,511 97 0,38 0,648 03 0,73 0,767 30 1,08 0,859 93 0,04 0,515 95 0,39 0,651 73 0,74 0,770 35 1,09 0,862 14 0,05 0,519 44 0,40 0,655 42 0,75 0,773 77 1,10 0,864 33 0,06 0,523 92 0,41 0,659 10 0,76 0,776 37 1,11 0,866 50 0,07 0,527 90 0,42 0,662 76 0,77 0,779 35 1,12 0,868 64 0,08 0,531 88 0,43 0,666 40 0,78 0,782 30 1,13 0,870 76 0,09 0,535 86 0,44 0,670 03 0,79 0,785 24 1,14 0,872 86 0,10 0,539 83 0,45 0,673 64 0,80 0,788 14 1,15 0,874 93 0,11 0,543 80 0,46 0,677 24 0,81 0,791 03 1,16 0,876 98 0,12 0,547 76 0,47 0,680 80 0,82 0,793 89 1,17 0,879 00 0,13 0,551 72 0.48 0,684 39 0,83 0,796 73 1,18 0,881 00 0,14 0,555 67 0,49 0,687 93 0,84 0,799 55 1,19 0,882 98 0,15 0,559 62 0,50 0,691 46 0,85 0,802 34 1,20 0,884 93 0,16 0,563 56 0,51 0,694 97 0,86 0,805 11 1,21 0,886 86 0,17 0,567 49 0,52 0,698 47 0,87 0,807 85 1,22 0,888 77 0,18 0,571 42 0,53 0,701 94 0,88 0,810 57 1,23 0,890 65 0,19 0,575 35 0,54 0,705 40 0,89 0,813 27 1,24 0,892 51 0,20 0,579 26 0,55 0,708 84 0,90 0,815 94 1,25 0,894 35 0,21 0,583 17 0.56 0,712 26 0,91 0,818 59 1,26 0,896 17 0,22 0,587 06 0,57 0,715 66 0,92 0,821 21 1,27 0,897 96 0,23 0,590 95 0,58 0,719 04 0,93 0,823 81 1,28 0,899 73 0,24 0,594 83 0,59 0,722 40 0,94 0,826 39 1,29 0,901 47 0,25 0,598 71 0,60 0,725 75 0,95 0,828 94 1,30 0,903 20 0,26 0,602 57 0,61 0,729 07 0,96 0,831 47 1,31 0,904 90 0,27 0,606 42 0,62 0,732 37 0,97 0,833 98 1,32 0,906 58 0,28 0,610 26 0,63 0,735 65 0,98 0,836 46 1,33 0,908 24 0,29 0,614 09 0,64 0,738 91 0,99 0,838 91 1,34 0,909 88 0,30 0,617 91 0,65 0,742 15 1,00 0,841 34 1,35 0,911 49 0,31 0,621 72 0,66 0,745 37 1,01 0,843 75 1,36 0,913 09 0,32 0,625 52 0,67 0,748 57 1,02 0,846 14 1,37 0,914 66 0,33 0,629 30 0,68 0,751 75 1,03 0,848 50 1,38 0,916 21 0,34 0.633 07 0,69 0,754 90 1,04 0,850 83 1,39 0,917 74 Pro u < 0 jsou hodnoty distribuční funkce dány vztahem F(-u) = 1 ~F(u). TABULKY 389 Tabulka 1 - pokračování u F{u) u F(u) u F(u) u F{u) 1,40 0,919 24 1,85 0,967 84 2,30 0,989 28 3,00 0,998 65 1,41 0,920 73 1,86 0,968 56 2,31 0,989 56 3,02 0,998 74 1,42 0,922 20 1,87 0,969 26 2,32 0,989 83 3,04 0,998 82 1,43 0,923 64 1,88 0,969 95 2,33 0,990 10 3,06 0,998 89 1,44 0,925 07 1,89 0,970 62 2,34 0,990 36 3,08 0,998 97 1,45 0,926 47 1,90 0,971 28 2,35 0,990 61 3,10 0,999 03 1,46 0,927 86 1,91 0,971 93 2,36 0,990 86 3,12 0,999 09 1,47 0,929 22 1,92 0,972 57 2,37 0,991 11 3,14 0,999 16 1,48 0,930 56 1,93 0,973 20 2,38 0,991 34 3,16 0,999 21 1,49 0,931 89 1,94 0,973 81 2,39 0,991 58 3,18 0,999 26 1,50 0,933 19 1,95 0,974 41 2,40 0,991 80 3,20 0,999 31 1,51 0,934 48 1,96 0,975 00 2,41 0,992 02 3,22 0,999 36 1,52 0,935 74 1,97 0,975 58 2,42 0,992 24 3,24 0,999 40 1,53 0,936 99 1,98 0,976 15 2,43 0,992 45 3,26 0,999 44 1,54 0,938 22 1,99 0,976 70 2,44 0,992 66 3,28 0,999 48 1,55 0,939 43 2,00 0,977 25 2,45 0,992 86 3,30 0,999 52 1,56 0,940 62 2,01 0,977 78 2,46 0,993 05 3,32 0,999 55 1,57 0,941 79 2,02 0,978 31 2,47 0,993 24 3,34 0,999 58 1,58 0,942 95 2,03 0,978 82 2,48 0,993 43 3,36 0,999 61 1,59 0,944 08 2,04 0,979 32 2,49 0,993 61 3,38 0,999 64 1,60 0,945 20 2,05 0,979 82 2,50 0,993 79 3,40 0,999 66 1,61 0,946 30 2,06 0,980 30 2,52 0,994 13 3,42 0,999 69 1,62 0,947 38 2,07 0,980 77 2,54 0,994 46 3,44 0,999 71 1,63 0,948 45 2,08 0,981 24 2,56 0,994 77 3,46 0,999 73 1,64 0,949 50 2,09 0,981 69 2,58 0,995 06 3,48 0,999 75 1,65 0,950 53 2,10 0,982 14 2,60 0,995 34 3,50 0,999 77 1,66 0,951 54 2,11 0,982 57 2,62 0,995 60 3,55 0,999 81 1,67 0,952 54 2,12 0,983 00 2,64 0,995 85 3,60 0,999 84 1,68 0,953 52 2,13 0,983 41 2,66 0,996 09 3,65 0,999 87 1,69 0,954 49 2,14 0,983 82 2,68 0,996 32 3,70 0,999 89 1,70 0,955 43 2,15 0,984 22 2,70 0,996 53 3,75 0,999 91 1,71 0,956 37 2,16 0,984 61 2,72 0,996 74 3,80 0,999 93 1,72 0,957 28 2,17 0,985 00 2,74 0,996 93 3,85 0,999 94 1,73 0,958 18 2,18 0,985 37 2,76 0,997 11 3,90 0,999 95 1,74 0,959 07 2,19 0,985 74 2,78 0,997 28 3,95 0,999 96 Pro u < 0 jsou hodnoty distribuční funkce dány vztahem F(-u) = 1 - F(u). 390 STATISTIKA V PŘÍKLADECH Tabulka 1 - dokončení u F(u) u F(u) u F(u) 1,75 0,959 94 2,20 0,986 10 2,80 0,997 44 4,00 0,999 97 1,76 0,960 80 2,21 0,986 45 2,82 0,997 60 4,05 0,999 97 1,77 0,961 64 2,22 0,986 79 2,84 0,997 74 4,10 0,999 98 1,78 0,962 46 2,23 0,987 13 2,86 0,997 88 4,15 0,999 98 1,79 0,963 27 2,24 0,987 45 2,88 0,998 01 4,20 0,999 99 1,80 0,964 07 2,25 0,987 78 2,90 0,998 13 4,25 0,999 99 1,81 0,964 85 2,26 0,988 09 2,92 0,998 25 4,30 0,999 99 1,82 0,965 62 2,27 0,988 40 2,94 0,998 36 4,35 0,999 99 1,83 0,966 38 2,28 0,988 70 2,96 0,998 46 4,40 0,999 99 1,84 0,967 12 2,29 0,988 99 2,98 0,998 56 4,45 1,000 00 Pro u < 0 jsou hodnoty distribuční funkce dány vztahem F(-u) = 1 - F(u). "ŘJ KLADECH TABULKY 391 Tabulka 2 Kvantily normovaného normálního rozdělení uP F{u) p P uP P Up P Up 0.999 97 0,50 0,000 0,75 0,674 0,950 1,645 0,975 1,960 0,999 97 0,51 0,025 0,76 0,706 0,951 1,655 0,976 1,977 0.999 98 0,52 0,050 0,77 0,739 0,952 1,665 0,977 1,995 0.999 98 0,53 0,075 0,78 0,772 0,953 1,675 0,978 2,014 0.999 99 0,54 0,100 0,79 0,806 0,954 1,685 0,979 2,034 ,.999 99 0,55 0,126 0,80 0,842 0,955 1,695 0,980 2,054 0,999 99 0,56 0,151 0,81 0,878 0,956 1,706 0,981 2,075 0,999 99 0,57 0,176 0,82 0,915 0,957 1,717 0,982 2,097 0.999 99 0,58 0,202 0,83 0,954 0,958 1,728 0,983 2,120 1.000 00 0,59 0,228 0,84 0,994 0,959 1,739 0,984 2,144 0,60 0,253 0,85 1,036 0,960 1,751 0,985 2,170 0,61 0,279 0,86 1,080 0,961 1,762 0,986 2,197 0,62 0,305 0,87 1,126 0,962 1,774 0,987 2,226 0,63 0,332 0,88 1,175 0,963 1,787 0,988 2,257 - 0,64 0,358 0,89 1,227 0,964 1,799 0,989 2,290 0,65 0,385 0,900 1,282 0,965 1,812 0,990 2,326 0,66 0,412 0,905 1,311 0,966 1,825 0,991 2,366 0,67 0,440 0,910 1,341 0,967 1,838 0,992 2,409 0,68 0,468 0,915 1,372 0,968 1,852 0,993 2,457 0,69 0,496 0,920 1,405 0,969 1,866 0,994 2,512 0,70 0,524 0,925 1,440 0,970 1,881 0,995 2,576 0,71 0,553 0,930 1,476 0,971 1,896 0,996 2,652 0,72 0,583 0,935 1,514 0,972 1,911 0,997 2,748 0,73 0,613 0,940 1,555 0,973 1,927 0,998 2,878 0,74 0,643 0,945 1,598 0,974 1,943 0,999 3,090 Pro P < 0,5 jsou hodnoty kvantilů dány vztahem uP = -u \-p- 392 STATISTIKA V PŘÍKLADECH Tabulka 3 Kvantily^ rozdělení ;)f2 o v stupních volnosti v P 0,000 5 0,001 0,005 0,01 0,025 0,05 0,10 1 0,063 93 0,051 57 0,043 93 0,031 57 0,039 82 0,023 93 0,015 8 2 0,021 00 0,022 00 0,010 0 0,020 1 0,050 6 0,103 0,211 3 0,015 3 0,024 3 0,071 7 0,115 0,216 0,352 0,584 4 0,063 9 0,090 8 0,20 7 0,297 0,484 0,711 1,06 5 0,158 0,210 0,412 0,544 0,831 1,15 1,61 6 0,299 0,381 0,676 0,872 1,24 1,64 2,20 7 0,485 0,598 0,989 1,24 1,69 2,17 2,83 8 0,710 0,857 1,34 1,65 2,18 2,73 3,49 9 0,972 1,15 1,73 2,09 2,70 3,33 4,17 10 1,26 1,48 2,16 2,56 3,25 3,94 4,87 11 1,59 1,83 2,60 3,05 3,82 4,57 5,58 12 1,93 2,21 3,07 3,57 4,40 5,23 6,30 13 2,31 2,62 3,57 4,11 5,01 5,89 7,04 14 2,70 3,04 4,07 4,66 5,63 6,57 7,79 15 3,11 3,48 4,60 5,23 6,26 7,26 8,55 16 3,54 3,94 5,14 5,81 6,91 7,96 9,31 17 3,98 4,42 5,70 6,41 7,56 8,67 10,1 18 4,44 4,90 6,26 7,01 8,23 9,39 10,9 19 4,91 5,41 6,84 7,63 8,91 10,1 11,7 20 5,40 5,92 7,43 8,26 9,59 10,9 12,4 21 5,90 6,45 8,03 8,90 10,3 11,6 13,2 22 6,40 6,98 8,64 9,54 11,0 12,3 14,0 23 6,92 7,53 9,26 10,2 11,7 13,1 14,8 24 7,45 8,08 9,89 10,9 12,4 13,8 15,7 25 7,99 8,65 10,5 11,5 13,1 14,6 16,5 26 8,54 9,22 11,2 12,2 13,8 15,4 17,3 27 9,09 9,80 11,8 12,9 14,6 16,2 18,1 28 9,66 10,4 12,5 13,6 15,3 16,9 18,9 29 10,2 11,0 13,1 14,3 16,0 17,7 19,8 30 10,8 11,6 13,8 15,0 16,8 18,5 20,6 TABULKY 393 Tabulka 3 - dokončení v P 0,90 0,95 0,975 0,99 0,995 0,999 0,999 5 1 2,71 3,84 5,02 6,63 7,88 10,8 12,1 2 4,61 5,99 7,38 9,21 10,6 13,8 15,2 3 6,25 7,81 9,35 11,3 12,8 16,3 17,7 4 7,78 9,49 11,1 13,3 14,9 18,5 20,0 5 9,24 11,1 12,8 15,1 16,7 20,5 22,1 6 10,6 12,6 14,4 16,8 18,5 22,5 24,1 7 12,0 14,1 16,0 18,5 20,3 24,3 26,0 8 13,4 15,5 17,5 20,1 22,0 26,1 27,9 9 14,7 16,9 19,0 21,7 23,6 27,9 29,7 10 16,0 18,3 20,5 23,2 25,2 29,6 31,4 11 17,3 19,7 21,9 24,7 26,8 31,3 33,1 12 18,5 21,0 23,3 26,2 28,3 32,9 34,8 13 19,8 22,4 24,7 27,7 29,8 34,5 36,5 14 21,1 23,7 26,1 29,1 31,3 36,1 38,1 15 22,3 25,0 27,5 30,6 32,8 37,7 39,7 16 23,5 26,3 28,8 32,0 34,3 39,3 41,3 17 24,8 27,6 30,2 33,4 35,7 40,8 42,9 18 26,0 28,9 31,5 34,8 37,2 42,3 44,4 19 27,2 30,1 32,9 36,2 38,6 43,8 46,0 20 28,4 31,4 34,2 37,6 40,0 45,3 47,5 21 29,6 32,7 35,5 38,9 41,4 46,8 49,0 22 30,8 33,9 36,8 40,3 42,8 48,3 50,5 23 32,0 35,2 38,1 41,6 44,2 49,7 52,0 24 33,2 36,4 39,4 43,0 45,6 51,2 53,6 25 34,4 37,7 40,6 44,3 46,9 52,6 54,9 26 35,6 38,9 41,9 45,6 48,3 54,1 56,4 27 36,7 40,1 43,2 47,0 49,6 55,5 57,9 28 37,9 41,3 44,5 48,3 51,0 56,9 59,3 29 39,1 42,6 45,7 49,6 52,3 58,3 60,7 30 40,3 43,8 47,0 50,9 53,7 59,7 62,2 394 STATISTIKA V PŘÍKLADECH Tabulka 4 Kvantily íP rozdělení t o v stupních volnosti v P 0,90 0,95 0,975 0,99 0,995 1 3,078 6,314 12,706 31,821 63,657 2 1,886 2,920 4,303 6,965 9,925 3 1,638 2,353 3,182 4,541 5,841 4 1,533 2,132 2,776 3,747 4,604 5 1,476 2,015 2,571 3,365 4,032 6 1,440 1,943 2,447 3,143 3,707 7 1,415 1,895 2,365 2,998 3,499 8 1,397 1,860 2,306 2,896 3,355 9 1,383 1,833 2,262 2,821 3,250 10 1,372 1,812 2,228 2,764 3,169 11 1,363 1,796 2,201 2,718 3,106 12 1,356 1,782 2,179 2,681 3,055 13 1,350 1,771 2,160 2,650 3,012 14 1,345 1,761 2,145 2,624 2,977 15 1,341 1,753 2,131 2,602 2,947 16 1,337 1,746 2,210 2,583 2,921 17 1,333 1,740 2,110 2,567 2,898 18 1,330 1,734 2,101 2,552 2,878 19 1,328 1,729 2,093 2,539 2,861 20 1,325 1,725 2,086 2,528 2,845 21 1,323 1,721 2,080 2,518 2,831 22 1,321 1,717 2,074 2,508 2,819 23 1,319 1,714 2,069 2,500 2,807 24 1,318 1,711 2,064 2,492 2,797 25 1,316 1,708 2,060 2,485 2,787 26 1,315 1,706 2,056 2,479 2,779 27 1,314 1,703 2,052 2,473 2,771 28 1,313 1,701 2,048 2,467 2,763 29 1,311 1,699 2,045 2,462 2,756 Pro P < 0,5 jsou hodnoty kvantilů dány vztahem tp = - t^P. DECH TABULKY 395 Tabulka 5a Kvantily F0t95 rozdělení F o V\ a v2 stupních volnosti v2 V) 1 2 3 4 5 6 7 8 9 1 161,450 199,500 215,710 224,580 230,160 233,990 236,770 238,880 240,540 2 18,513 19,000 19,164 19,247 19,296 19,330 19,253 19,371 19,385 3 10,128 9,552 9,277 9,117 9,014 8,941 8,887 8,845 8,812 4 7,709 6,944 6,591 6,388 6,256 6,163 6,094 6,041 5,999 5 6,608 5,786 5,410 5,192 5,050 4,950 4,876 4,818 4,773 6 5,987 5,143 4,757 4,534 4,387 4,284 4,207 4,147 4,099 7 5,591 4,737 4,437 4,120 3,972 3,866 3,787 3,726 3,677 8 5,318 4,459 4,066 3,838 3,688 3,581 3,501 3,438 3,388 9 5,117 4,257 3,863 3,633 3,482 3,374 3,293 3,230 3,179 10 4,965 4,103 3,708 3,478 3,326 3,217 3,136 3,072 3,020 11 4,844 3,982 3,587 3,357 3,204 3,095 3,012 2,948 2,796 12 4,747 3,885 3,490 3,259 3,106 2,996 2,913 2,849 2,896 13 4,667 3,806 3,411 3,179 3,025 2,915 2,832 2,767 2,714 14 4,600 3,739 3,344 3,112 2,958 2,848 2,764 2,699 2,646 15 4,543 3,682 3,287 3,056 2,901 2,791 2,707 2,641 2,588 16 4,494 3,634 3,239 3,007 2,852 2,741 2,657 2,591 2,538 17 4,451 3,592 3,197 2,965 2,810 2,699 2,614 2,548 2,494 18 4,414 3,555 3,160 2,928 2,773 2,661 2,577 2,510 2,456 19 4,381 3,522 3,127 2,895 2,740 2,628 2,544 2,477 2,423 20 4,351 3,493 3,098 2,866 2,711 2,599 2,514 2,447 2,393 21 4,325 3,467 3,073 2,840 2,685 2,573 2,488 2,421 2,366 22 4,301 3,443 3,049 2,817 2,661 2,549 2,464 2,397 2,342 23 4,279 3,422 3,028 2,796 2,640 2,528 2,442 2,375 2,320 24 4,260 3,403 3,009 2,776 2,621 2,508 2,423 2,355 2,300 25 4,242 3,385 2,991 2,759 2,603 2,490 2,405 2,337 2,282 26 4,225 3,369 2,975 2,743 2,587 2,475 2,388 2,321 2,266 27 4,210 3,354 2,960 2,728 2,572 2,459 2,373 2,305 2,250 28 4,196 3,340 2,947 2,714 2,558 2,445 2,359 2,291 2,236 29 4,183 3,328 2,934 2,701 2,545 2,432 2,346 2,278 2,223 30 4,171 3,316 2,922 2,690 2,534 2,421 2,334 2,266 2,211 40 4,085 3,232 2,839 2,606 2,450 2,336 2,249 2,180 2,124 60 4,001 3,150 2,758 2,525 2,368 2,254 2,167 2,097 2,040 120 3,920 3,072 2,680 2,447 2,290 2,175 2,087 2,016 1,959 oo 3,842 2,996 2,605 2,372 2,214 2,099 2,010 1,938 1,880 396 STATISTIKA V PŘÍKLADECH Tabulka 5a - dokončení V\ 10 12 15 20 24 30 40 60 120 OO 1 241,88 243.91 245,95 248,01 249,05 250,09 251,14 252.20 253.25 254.32 2 19,396 19,413 19,429 19,446 19,454 19,462 19,471 19,479 19,487 19,496 3 8,786 8,745 8,703 8,660 8,639 8,617 8,594 8,572 8,549 8,527 4 5,964 5,912 5,858 5,803 5,774 5,746 5,717 5,688 5,658 5,628 5 4,735 4,678 4,619 4,558 4,527 4,496 4,464 4,431 4,398 4,365 6 4,060 4,000 3,938 3,874 3,842 3,808 3,774 3,740 3,705 3,669 7 3,637 3,575 3,511 3,445 3,411 3,376 3,340 3,304 3,267 3,230 8 3,347 3,284 3,218 3,150 3,115 3,079 3,043 3,005 2,967 2,928 9 3,137 3,073 3,006 2,937 2,901 2,864 2,826 2,787 2,748 2,707 10 2,978 2,913 2,845 2,774 2,737 2,700 2,661 2,621 2,580 2,538 11 2,854 2,788 2,719 2,646 2,609 2,571 2,531 2,490 2,448 2,405 12 2,753 2,687 2,617 2,544 2,506 2,466 2,426 2,384 2,341 2,296 13 2,671 2,604 2,533 2,459 2,420 2,380 2,339 2,297 2,252 2,206 14 2,602 2,534 2,463 2,388 2,349 2,308 2,266 2,223 2,178 2,131 15 2,544 2,475 2,404 2,328 2,288 2,247 2,204 2,160 2,114 2,066 16 2,494 2,425 2,352 2,276 2,235 2,194 2,151 2,106 2,059 2,010 17 2,450 2,381 2,308 2,230 2,190 2,148 2,104 2,058 2,011 1,960 18 2,412 2,342 2,269 2,191 2,150 2,107 2,063 2,017 1,968 1,917 19 2,378 2,308 2,234 2,156 2,114 2,071 2,026 1,980 1,930 1,878 20 2,348 2,278 2,203 2,124 2,083 2,039 1,994 1,946 1,896 1,843 21 2,321 2,250 2,176 2,096 2,054 2,010 1,965 1,917 1,866 1,812 22 2,297 2,226 2,151 2,071 2,028 1,984 1,938 1,890 1,838 1,783 23 2,275 2,204 2,128 2,048 2,005 1,961 1,914 1,865 1,813 1,757 24 2,255 2,183 2,108 2,027 1,984 1,939 1,892 1,842 1,790 1,733 25 2,237 2,165 2,089 2,008 1,964 1,919 1,872 1,822 1,768 1,711 26 2,220 2,148 2,072 1,990 1,946 1,901 1,853 1,803 1,749 1,691 27 2,204 2,132 2,056 1,974 1,930 1,884 1,836 1,785 1,731 1,672 28 2,190 2,118 2,041 1,959 1,915 1,869 1,820 1,769 1,714 1,654 29 2,177 2,105 2,028 1,945 1,901 1,854 1,806 1,754 1,698 1,638 30 2,165 2,092 2,015 1,932 1,887 1,841 1,792 1,740 1,684 1,622 40 2,077 2,004 1,925 1,839 1,793 1,744 1,693 1,637 1,577 1,509 60 1,993 1,917 1,863 1,748 1,700 1,649 1,594 1,534 1,467 1,389 120 1,911 1,834 1,751 1,659 1,608 1,554 1,495 1,429 1,352 1,254 oo 1,831 1.752 1,666 1,571 1,517 1,459 1,394 1,318 1,221 1,000 TABULKY 397 Tabulka 5b Kvantily F0j975 rozdělení F o v, a v2 stupních volnosti v2 Ví ] 2 3 4 5 6 7 8 9 1 647,790 799,500 864,160 899,580 921,850 937,110 948,220 956,660 963,280 2 38,506 39,000 39,165 39,248 39,298 39,331 39,355 39,373 39,387 3 17,443 16,044 15,439 15,101 14,885 14,735 14,624 14,540 14,473 4 12,218 10,649 9,979 9,605 9,365 9,197 9,074 8,980 8,905 5 10,007 8,434 7,764 7,388 7,146 6,978 6,853 6,757 6,681 6 8,813 7,260 6,599 6,227 5,988 5,820 5,696 5,600 5,523 7 8,073 6,542 5,890 5,523 5,285 5,119 4,995 4,899 4,823 8 7,571 6,060 5,416 5,053 4,817 4,652 4,529 4,433 4,357 9 7,209 5,715 5,078 4,718 4,484 4,320 4,197 4,102 4,026 10 6,937 5,456 4,826 4,468 4,236 4,072 3,950 3,855 3,779 11 6,724 5,256 4,630 4,275 4,044 3,881 3,759 3,664 3,588 12 6,554 5,096 4,474 4,121 3,891 3,728 3,607 3,512 2,436 13 6,414 4,965 4,347 3,996 3,767 3,604 3,483 3,388 3,312 14 6,298 4,857 4,242 3,892 3,663 3,501 3,380 3,285 3,209 15 6,200 4,765 4,153 3,804 3,576 3,415 3,293 3,199 3,123 16 6,115 4,687 4,077 3,729 3,502 3,341 3,219 3,125 3,049 17 6,024 4,619 4,011 3,665 3,438 3,277 3,156 3,061 2,985 18 5,978 4,560 3,954 3,608 3,382 3,221 3,100 3,005 2,929 19 5,922 4,508 3,903 3,559 3,333 3,172 3,051 2,956 2,880 20 5,872 4,461 3,859 3,515 3,289 3,128 3,007 2,913 2,837 21 5,827 4,420 3,819 3,475 3,250 3,090 2,969 2,875 2,798 22 5,786 4,383 3,783 3,440 3,215 3,055 2,934 2,839 2,763 23 5,750 4,349 3,751 3,408 3,184 3,023 2,902 2,808 2,731 24 5,717 4,319 3,721 3,379 3,155 2,995 2,874 2,779 2,703 25 5,686 4,291 3,694 3,353 3,129 2,969 2,848 2,753 2,677 26 5,659 4,266 3,670 3,329 3,105 2,945 2,824 2,729 2,653 27 5,633 4,242 3,647 3,307 3,083 2,923 2,802 2,707 2,631 28 5,610 4,221 3,626 3,286 3,063 2,903 2,782 2,687 2,611 29 5,588 4,201 3,607 3,267 3,044 2,884 2,763 2,669 2,592 30 5,568 4,182 3,589 3,250 3,027 2,867 2,746 2,651 2,575 40 5,424 4,051 3,463 3,126 2,904 2,744 2,624 2,529 2,452 60 5,286 3,925 3,343 3,008 2,786 2,627 2,507 2,412 2,334 120 5,152 3,805 3,227 2,894 2,674 2,515 2,395 2,299 2,222 oo 5,024 3,689 3,116 2,786 2,567 2,408 2,288 2,192 2,114 398 STATISTIKA V PŘÍKLADECH Tabulka 5b - dokončení v2 10 12 15 20 24 30 40 60 120 OQ 1 968,63 976,71 984,87 993,10 997,25 1001,4 1005,6 1009,8 1014,0 1018,3 2 39,398 39,415 39,431 39,448 39,456 39,465 39,473 39,481 39,490 39,498 3 14,419 14,337 14,253 14,167 14,124 14,081 14,037 13,992 13,947 13,902 4 8,844 8,751 8,657 8,560 8,511 8,461 8,411 8,360 8,309 8,257 5 6,619 6,525 6,428 6,329 6,278 6,227 6,175 6,123 6,069 6,015 6 5,461 5,366 5,269 5,168 5,117 5,065 5,015 4,959 4,905 4,849 7 4,761 4,666 4,568 4,467 4,415 4,362 4,309 4,254 4,199 4,142 8 4,295 4,200 4,101 4,000 3,947 3,894 3,840 3,784 3,728 3,670 9 3,964 3,868 3,769 3,667 3,614 3,560 3,506 2,449 3,392 3,333 10 3,717 3,621 3,522 3,419 3,365 3,311 3,255 3,198 3,140 3,080 11 3,526 3,430 3,330 3,226 3,173 3,118 3,061 3,004 2,944 2,883 12 3,374 3,277 3,177 3,073 3,019 2,963 2,906 2,848 2,787 2,725 13 3,250 3,153 3,053 2,948 2,893 2,827 2,780 2,720 2,659 2,596 14 3,147 3,050 2,949 2,844 2,789 2,732 2,674 2,614 2,552 2,487 15 3,060 2,963 2,862 2,756 2,701 2,644 2,585 2,524 2,461 2,395 16 2,986 2,889 2,788 2,681 2,625 2,568 2,509 2,447 2,385 2,316 17 2,922 2,825 2,723 2,616 2,560 2,502 2,442 2,380 2,315 2,247 18 2,866 2,769 2,667 2,559 2,503 2,445 2,384 2,321 2,256 2,187 19 2,817 2,720 2,617 2,509 2,452 2,394 2,333 2,270 2,203 2,133 20 2,774 2,676 2,573 2,465 2,408 2,349 2,287 2,223 2,156 2,085 21 2,735 2,637 2,534 2,425 2,368 2,308 2,247 2,182 2,114 2,042 22 2,700 2,602 2,498 2,389 2,332 2,272 2,210 2,145 2,076 2,003 23 2,668 2,570 2,467 2,357 2,299 2,239 2,176 2,111 2,042 1,968 24 2,640 2,541 2,437 2,327 2,269 2,209 2,146 2,080 2,010 1,935 25 2,614 2,515 2,411 2,301 2,242 2,182 2,118 2,052 1,981 1,906 26 2,590 2,491 2,387 2,276 2,217 2,157 2,095 2,026 1,953 1,878 27 2,568 2,469 2,364 2,253 2,195 2,133 2,069 2,002 1,930 1,853 28 2,547 3,448 2,344 2,232 2,174 2,112 2,048 1,980 1,907 1,829 29 2,529 2,430 2,325 2,213 2,154 2,092 2,028 1,959 1,886 1,807 30 2,511 2,412 2,307 2,195 2,136 2,074 2,009 1,940 1,866 1,787 40 2,388 2,288 2,182 2,068 2,007 1,945 1,875 1,803 1,724 1,637 60 2,270 2,169 2,061 1,945 1,882 1,815 1,744 1,667 1,581 1,482 120 2,157 2,055 1,945 1,825 1,760 1,690 1,614 1,590 1,433 1,510 CO 2,048 1,945 1,833 1,709 1,640 1,566 1,484 1,588 1,268 1,000 TABULKY 399 Tabulka 5c Kvantily F039 rozdělení F o f, a v2 stupních volnosti V, 1 2 i ;> 4 5 6 7 8 9 1 4052,2 4999,5 5403,3 5624,6 5763,7 5859,0 5928,3 5981,6 6022,5 2 98,503 99,000 99,166 99,249 99,299 99,332 99,356 99,374 99,388 3 34,116 30,817 29,457 28,710 28,237 27,911 27,672 27,489 27,345 4 21,198 18,000 16,694 15,977 15,522 15,207 14,976 14,799 14,659 5 16,258 13,274 12,060 11,392 10,967 10,207 10,456 10,289 10,158 6 13,745 10,925 9,780 9,148 8,746 8,466 8,260 8,102 7,976 7 12,246 9,547 8,451 7,847 7,460 7,191 6,993 6,840 6,719 8 11,259 8,469 7,591 7,006 6,632 6,371 6,178 6,029 5,911 9 10,561 8,022 6,992 6,422 6,057 5,802 5,613 5,467 5,351 10 10,044 7,559 6,552 5,994 5,636 5,386 5,200 5,057 4,942 11 9,646 7,206 6,217 5,668 5,316 5,069 4,886 4,745 4,632 12 9,330 6,927 5,953 5,412 5,064 4,821 4,640 4,499 4,388 13 9,074 6,701 5,739 5,205 4,862 4,620 4,441 4,302 4,191 14 8,862 6,515 5,564 5,035 4,695 4,456 4,278 4,140 4,030 15 8,683 6,359 5,417 4,893 4,556 4,318 4,132 4,005 3,895 16 8,531 6,226 5,292 4,773 4,437 4,202 4,026 3,890 3,780 17 8,400 6,112 5,185 4,669 4,336 4,102 3,927 3,791 3,682 18 8,285 6,013 5,092 4,579 4,248 4,015 3,841 3,705 3,597 19 8,185 5,926 5,010 4.500 4,171 3,939 3,765 3,631 3,523 20 8,096 5,849 4,938 4,431 4,103 3,871 3,699 3,564 3,457 21 8,017 5,780 4,874 4,369 4,042 3,812 3,640 3,506 3,398 22 7,945 5,719 4,817 4,313 3,988 3,758 3,578 3,453 3,346 23 8,881 5,664 4,765 4,264 3,939 3,710 3,539 3,406 3,299 24 7,823 5,614 4,718 4,218 3,895 3,667 3,496 3,363 3,256 25 7,770 5,568 4.676 4,177 3,855 3,627 3,457 3,324 3,217 26 7,721 5,526 4,637 4,140 3,818 3,591 3,421 3,288 3,128 27 7,667 5,488 4,601 4,106 3,785 3,558 3,388 3,256 3,149 28 7,636 5,453 4,568 4,074 3,754 3,528 3,358 3,226 3,120 29 7,598 5,421 4,538 4,045 3,725 3,500 3,330 3,198 3,092 30 7,536 5,390 4,510 4,018 3,699 3,474 3,305 3,173 3,067 40 7,314 5,179 4,313 3,828 3,514 3,291 3,124 2,993 2,888 60 7,077 4,977 4,126 3,649 3,339 3,119 2,953 2,823 2,719 120 6,851 4,787 3,949 3,480 3,174 2,956 2,792 2,663 2,559 CO 6,635 4,605 3,782 3,319 3,017 2,802 2.639 2,511 2,407 400 STATISTIKA V PŘÍKLADECH Tabulka 5c - dokončení v2 v, 10 12 15 20 24 30 40 60 120 1 6055,8 6106,3 6157,3 6208,7 6234,7 6260,7 6286,8 6313,0 6339,4 6366,0 2 99,399 99,416 99,432 99,449 99,458 99,466 99,474 99,483 99,491 99,501 3 27,229 27,052 26,872 26,690 26,598 26,505 26,411 26,316 26,221 26,125 4 14,546 14,374 14,198 14,020 13,929 13,838 13,745 13,652 13,558 13,463 5 10,051 9,888 9,722 9,553 9,467 9,379 9,291 9,202 9,112 9,020 6 7,874 7,718 7.559 7,396 7,313 7,229 7,143 7,057 6,969 6,880 7 6,620 6,469 6,314 6,155 6,074 5,992 5,908 5,824 5,737 5,650 8 5,814 5,667 5,515 5,359 5,279 5,198 5,116 5,032 4,946 4,859 9 5,257 5,111 4,962 4,808 4,729 4,649 4,567 4,483 4,398 4,311 10 4,849 4,706 4,558 4,405 4,327 4,247 4,165 4,082 3,997 3,909 11 4,539 4,397 4,251 4,099 4,021 3,941 3,860 3,776 3,690 3,603 12 4,296 4,155 4,010 3,858 3,781 3,701 3,619 3,536 3,449 3,361 13 4,100 3,960 3,815 3,665 3,587 3,507 3,425 3,341 3,255 3,165 14 3,939 3,800 3,656 3,505 3,427 3,348 3,266 3,181 3,094 3,004 15 3,805 3,666 3,522 3,372 3,294 3,214 3,132 3,047 2,960 2,868 16 3,691 3,553 3,409 3,259 3,181 3,101 3,018 2,933 2,845 2,753 17 3,593 3,455 3,312 3,162 3,084 3,003 2,921 2,835 2,746 2,653 18 3,508 3,371 3,227 3,077 2,999 2,919 2,835 2,749 2,660 2,566 19 3,434 3,297 3,153 3,003 2,925 2,844 2,761 2,674 2,584 2,489 20 3,368 3,231 3,088 2,938 2,859 2,779 2,695 2,608 2,517 2,421 21 3,310 3,173 3,030 2,880 2,801 2,720 2,636 2,548 2,457 2,360 22 3,258 3,121 2,978 2,827 2,749 2,668 2,583 2,495 2,403 2,306 23 3,211 3,074 2,931 2,781 2,702 2,620 2,536 2,447 2,354 2,256 24 3,168 3,032 2,889 2,738 2,659 2,577 2,492 2,404 2,310 2,211 25 3,129 2,993 2,850 2,699 2,620 2,538 2,453 2,364 2,270 2,169 26 3,094 2,958 2,815 2,664 2,585 2,503 2,417 2,327 2,233 2,132 27 3,062 2,926 2,783 2,632 2,552 2,470 2,384 2,294 2,198 2,097 28 3,032 2,896 2,753 2,602 2,522 2,440 2,354 2,263 2,167 2,064 29 3,005 2,869 2,726 2,574 2,495 2,412 2,325 2,234 2,138 2,034 30 2,979 2,843 2,700 2,549 2,469 2,386 2,299 2,208 2,111 2,006 40 2,801 2,665 2,522 2,369 2,288 2,203 2,114 2,019 1,917 1,805 60 2,632 2,496 2,352 2,198 2,115 2,029 1,936 1,836 1,726 1,601 120 2,472 2,336 2,192 2,035 1,950 1,860 1,763 1,656 1,533 1,381 oo 2,321 2,185 2,039 1,878 1,791 1,696 1,592 1,473 1,325 1,000 TABULKY 401 Tabulka 5d Kvantily F05995 rozdělení F o v, a v2 stupních volnosti Vi V\ 1 2 3 4 5 6 7 8 9 1 16211 20 000 21 615 22 500 23 056 23 437 23 715 23 925 24 091 2 198,50 199,00 199,17 199,25 199,30 199,33 199,36 199,37 199,39 3 55,552 49,799 47,467 46,195 45,392 44,838 44,434 44,126 43,882 4 31,333 26,284 24,259 23,155 22,456 21,975 21,622 21,352 21,139 5 22,785 18,314 16,350 15,556 14,940 14,513 14,200 13,961 13,772 6 18,635 14,544 12,917 12,028 11,464 11,073 10,786 10,566 10,391 7 16,236 12,404 10,882 10,050 9,155 9,155 8,885 8,678 8,514 14,688 11,042 9,597 8,805 8,302 7,964 7,694 7,496 7,339 9 13,614 10,107 8,717 7,956 7,471 7,134 6,885 6,693 6,541 10 12,826 9,427 8,081 7,343 6,872 6,545 6,303 6,116 5,968 11 12,226 8,912 7,600 6,881 6,422 6,102 5,865 5,682 5,537 12 11,754 8,510 7,226 6,521 6,071 5,757 5,525 5,345 5,202 13 11,374 8,187 6,926 6,234 5,791 5,482 5,253 5,076 4,935 14 11,060 7,922 6,680 5,998 5,562 5,257 5,031 4,857 4,717 15 10,798 7,701 6,476 5,803 5,372 5,071 4,847 4,674 4,536 16 10,575 7,514 6,303 5,638 5,212 4,913 4,692 4,521 4,384 17 10,384 7,354 6,156 5,497 5,075 4,779 4,559 4,389 4,254 18 10,218 7,215 6,028 5,375 4,956 4,663 4,445 4,276 4,141 19 10,073 7,094 5,916 5,268 4,853 4,561 4,345 4,177 4,043 20 9,944 6,987 5,818 5,174 4,762 4,472 4,257 4,090 3,956 21 9,830 6,891 5,730 5,091 4,681 4,393 4,179 4,013 3,880 22 9,727 6,806 5,652 5,017 4,609 4,323 4,109 3,944 3,812 23 9,635 6,730 5,582 4,950 4,544 4,259 4,047 3,882 3,750 24 9,551 6,661 5,519 4,890 4,486 4,202 3,991 3,826 3,695 25 9,475 6,598 5,462 4,835 4,433 4,150 3,939 3,776 3,645 26 9,406 6,541 5,409 4,785 4,384 4,103 3,893 3,730 3,599 27 9,342 6,489 5,361 4,740 4,340 4,059 3,850 3,688 3,557 28 9,284 6,440 5,317 4,698 4,300 4,020 3,811 3,649 3,519 29 9,230 6,396 5,276 4,659 4,262 3,983 3,775 3,613 3,483 30 9,180 6,355 5,239 4,623 4,228 3,949 3,742 3,580 3,451 40 8,828 6,066 4,976 4,374 3,986 3,713 3,509 3,350 3,222 60 8,495 5,795 4,729 4,140 3,760 3,492 3,291 3,134 3,008 120 8,179 5,539 4,497 3,921 3,548 3,285 3,087 2,933 2,808 oo 7,879 5,298 4,279 3,715 2,250 3,091 2,897 2,744 2,621 402 STATISTIKA V PŘÍKLADECH Tabulka 5d - dokončení V2 V| 10 12 15 20 24 30 40 60 120 OO 1 24 224 24 426 24 630 24 836 24 940 25 044 25 148 25 253 25 359 25 465 2 199,40 199,42 199,43 199,45 199,46 199,47 199,47 199,48 199,49 199,51 3 43,686 43,387 43,085 42,778 42,622 42,466 42,308 42,149 41,989 41,829 4 20,967 20,705 20,438 20,167 20,030 19,892 19,752 19,611 19,468 19,325 5 13,168 13,384 13,146 12,903 12,780 12,656 12,530 12,402 12,274 12,144 6 10,250 10,034 9,814 9,589 9,474 9,358 9,241 9,122 9,002 8,879 7 8,380 8,176 7,968 7,754 7,645 7,535 7,423 7,309 7,193 7,076 8 7,811 7,015 6,814 6,608 6,503 6,396 6,288 6,177 6,065 5,951 9 6,417 6,227 6,033 5,832 5,729 5,625 5,519 5,410 5,300 5,188 10 5,847 5,661 5,471 5,274 5,173 5,071 4,966 4,859 4,750 4,639 11 5,418 5,236 5,049 4,855 4,756 4,654 4,551 4,445 4,337 4,226 12 5,086 4,906 4,721 4,530 4,432 4,331 4,228 4,123 4,015 3,904 13 4,820 4,643 4,460 4,270 4,173 4,073 3,970 3,866 3,758 3,647 14 4,603 4,428 4,247 4,059 3,961 3,862 3,760 3,655 3,547 3,436 15 4,424 4,250 4,070 3,883 3,786 3,687 3,585 3,480 3,372 3,260 16 4,272 4,099 3,921 3,734 3,638 3,539 3,437 3,332 3,224 3,112 17 4,142 3,971 3,793 3,607 3,511 3,412 3,311 3,206 3,097 2,984 18 4,031 3,860 3,683 3,498 3,402 3,303 3,201 3,096 2,987 2,873 19 3,933 3,763 3,587 3,402 3,306 3,208 3,106 3,000 2,891 2,776 20 3,847 3,678 3,502 3,318 3,222 3,123 3,022 2,916 2,806 2,690 21 3,771 3,602 3,427 3,243 3,147 3,049 2,947 2,841 2,730 2,614 22 3,703 3,535 3,360 3,176 3,081 2,982 2,880 2,774 2,663 2,546 23 3,642 3,475 3,300 3,117 3,021 2,922 2,820 2,713 2,602 2,484 24 3,587 3,420 3,246 3,062 2,967 2,868 2,765 2,659 2,546 2,428 25 3,537 3,370 3,196 3,013 2,918 2,819 2,716 2,609 2,496 2,377 26 3,492 3,325 3,152 2,969 2,873 2,774 2,671 2,563 2,450 2,330 27 3,450 3,284 3,110 2,928 2,832 2,733 2,630 2,522 2,408 2,287 28 3,412 3,246 3,073 2,890 2,794 2,695 2,592 2,483 2,369 2,247 29 3,377 3,211 3,038 2,855 2,759 2,660 2,557 2,448 2,333 2,210 30 3,344 3,179 3,006 2,823 2,727 2,628 2,524 2,415 2,300 2,176 40 3,117 2,953 2,781 2,598 2,502 2,402 2,296 2,184 2,064 1,932 60 2,904 2,742 2,571 2,387 2,290 2,187 2,079 1,962 1,834 1,688 120 2,705 2,544 2,373 2,188 2,089 1,984 1,871 1,747 1,606 1,431 oo 2,519 2,358 2,187 2.000 1,898 1,789 1,669 1,533 1.364 1,000 -.DECH TABULKY 403 Tabulka 6 Kvantily rozdělení Dn.x_a při platnosti Ff0 pro Kolmogorovův - Smirno-vův test pro 1 výběr OO n A>; 0,9 D„ ■ 0,95 D„ ; 0,99 n A;; 0,9 D„ ■ 0,95 Dn ■ 0,99 25 465 1 0,950 0,975 0,995 26 0,233 0,259 0,311 199,51 2 0,776 0,842 0,929 27 0,229 0,254 0,305 41,829 3 0,636 0,708 0,829 28 0,225 0,250 0,300 19,325 4 0,565 0,624 0,734 29 0,221 0,246 0,295 12.144 5 0,509 0,563 0,669 30 0,218 0,242 0,290 8,879 6 0,468 0,519 0,617 31 0,214 0,238 0,285 7,076 7 0,436 0,483 0,576 32 0,211 0,234 0,281 5.951 8 0,410 0,454 0,542 33 0,208 0,231 0,277 5.188 9 0,387 0,430 0,513 34 0,205 0,227 0,273 4,639 10 0,369 0,409 0,489 35 0,202 0,224 0,269 -.226 11 0,352 0,391 0,468 36 0,199 0,221 0,265 3.904 12 0,338 0,375 0,449 37 0,196 0,218 0,262 .".647 13 0,325 0,361 0,432 38 0,194 0,215 0,258 3.436 14 0,314 0,349 0,418 39 0,191 0,213 0,255 3.260 15 0,304 0,338 0,404 40 0,189 0,210 0,252 3.112 16 0,295 0,327 0,392 41 0,187 0,208 0,249 2.984 17 0,286 0,318 0,380 42 0,185 0,205 0,246 2,873 18 0,279 0,309 0,371 43 0,183 0,203 0,243 2,776 19 0,271 0,301 0,361 44 0,181 0,201 0,241 2.690 20 0,265 0,294 0,352 45 0,179 0,198 0,238 2.614 21 0,259 0,287 0,344 46 0,177 0,196 0,235 2.546 22 0,253 0,281 0,337 47 0,175 0,194 0,233 2,484 23 0,247 0,275 0,330 48 0,173 0,192 0,231 2-28 24 0,242 0,269 0,323 49 0,171 0,190 0,228 2,377 25 0,238 0,264 0,317 50 0,170 0,188 0,226 LITERATURA Anděl J.: Matematická statistika. Praha, SNTL/ALFA 1978. Cipra, T.: Analýza časových řad s aplikacemi v ekonomii. Praha, SNTL/Alfa 1986, ISBN 04-012-86. Čermák, V. , Vrabec, M.: Teorie výběrových šetření, 3. díl. VŠE Praha 1999, ISBN 80-245-0003-5. Hátle J., Kahounová J.: Úvod do teorie pravděpodobnosti. Praha, SNTL 1987. Hátle J., Likeš J.: Základy počtu pravděpodobnosti a matematické statistiky. Praha, SNTL Alfa 1987. Hebák P., Kahounová J.: Cvičení z teorie pravděpodobnosti. Praha, Státní pedagogické nakladatelství 1983. Hebák P., Kahounová J.: Počet pravděpodobnosti v příkladech. Praha, SNTL 1978. Hindls, R., Hronová, S., Seger, J.: Statistika pro ekonomy. 5. vyd. Praha : Professional Publishing, 2003. Likeš J., Machek J.: Počet pravděpodobnosti. Praha, SNTL 1991. Likeš J., Laga J.: Základní statistické tabulky. Praha, SNTL 1978. Marek a kol.: Statistika pro ekonomy - aplikace. Praha, Professional Publishing 2005. Renyi A.: Teorie pravděpodobnosti. Praha, Academia 1972. URL Český statistický úřad: http://www.czso.cz/ URL Česká národní banka: http://www.cnb.cz/