Jednoduchá lineární regrese Motivace: Cíl regresní analýzy - popsat závislost hodnot veličiny Y na hodnotách veličiny X. Nutnost vyřešení dvou problémů: a) jaký typ funkce se použije k popisu dané závislosti; b) jak se stanoví konkrétní parametry daného typu funkce? ad a) Při určení typu funkce je třeba provést teoretický rozbor zkoumané závislosti. Teoretická analýza může upozornit například na to, že s růstem hodnot veličiny X budou mít hodnoty veličiny Y tendenci monotónně růst či klesat, tato tendence má charakter zrychlujícího se či zpomalujícího se růstu či poklesu, jde o závislost, kdy s růstem hodnot veličiny X dochází zpočátku k růstu hodnot veličiny Y, který je po dosažení určitého maxima vystřídán poklesem, apod. Můžeme např. zkoumat závislost ceny ojetého auta (veličina Y) na jeho stáří (veličina X). Je zřejmé, že s rostoucím stářím bude klesat cena, ale není jasné, zda lineárně, kvadraticky či dokonce exponenciálně. Vždy se snažíme o to aby regresní model byl jednoduchý, tj. aby neobsahoval příliš mnoho parametrů. Připadá-li v úvahu více funkcí, posuzujeme jejich vhodnost pomocí různých kritérií – viz dále. Často však nemáme dostatek informací k provedení teoretického rozboru. Pak se snažíme odhadnout typ funkce pomocí dvourozměrného tečkového diagramu. Zde se omezíme na funkce, které závisejí lineárně na parametrech p10 ,,,   . Zvláštní pozornost budeme věnovat polynomiální funkci 1. stupně y = β0 + β1x. ad b) Odhady p10 b,,b,b  neznámých parametrů p10 ,,,   získáme na základě dvourozměrného datového souboru           nn 11 yx yx  metodou nejmenších čtverců, tj. z podmínky, aby součet čtverců odchylek zjištěných a odhadnutých hodnot byl minimální. Specifikace klasického modelu lineární regrese    p10 ,,,;xmY  , kde  p10 ,,,;xm   - teoretická regresní funkce, která lineárně závisí na neznámých regresních parametrech p10 ,,,   a známých funkcích    xf,,xf p1  , které již neobsahují neznámé parametry, tj.      p 0j jjp10 xf,,,;xm  , přičemž   1xf0  . Jde o deterministickou složku modelu. Složka  - náhodná složka modelu. Je to náhodná odchylka od deterministické závislosti Y na X. Popisuje závislost vysvětlované proměnné na neznámých nebo nepozorovaných proměnných a popisuje i vliv náhody. Nelze ji funkčně vyjádřit. Veličina Y - závisle proměnná (též vysvětlovaná) veličina. Veličina X - nezávisle proměnná (též vysvětlující) veličina. Pořídíme n dvojic pozorování    nn11 y,x,,y,x  , tj. dvourozměrný datový soubor           nn 11 yx yx  . Pro i = 1, ..., n platí:   ip10ii ,,,;xmy   . O náhodných odchylkách n1 ,,   předpokládáme, že a)   0E i  (odchylky nejsou systematické) b)   0D 2 i  (všechna pozorování jsou prováděna s touž přesností) c)   0,C ji  pro ji  (mezi náhodnými odchylkami neexistuje žádný lineární vztah) d) i ~  2 ,0N  . V tomto případě hovoříme o klasickém modelu lineární regrese. Označení p10 b,,b,b  - odhady regresních parametrů p10 ,,,   (nejčastěji je získáme metodou nejmenších čtverců, tj. z podmínky, že výraz   2 n 1i p 0j ijji xfy            nabývá svého minima pro βj = bj, j = 0, 1, …, p)  p0 b,,b;xmˆ  - empirická regresní funkce      p 0j ijjp0ii xfbb,,b;xmˆyˆ  - regresní odhad i-té hodnoty veličiny Y (i-tá predikovaná hodnota veličiny Y) iii yˆye  - i-té reziduum    n 1i 2 iiE yˆyS - reziduální součet čtverců 1pn S s E2   - odhad rozptylu σ2    n 1i 2 2iR myˆS - regresní součet čtverců (   n 1i i2 y n 1 m )    n 1i 2 2iT myS - celkový součet čtverců ( ERT SSS  ) Význam jednotlivých typů součtů čtverců Předpokládejme, že máme dvourozměrný datový soubor, v němž průměr hodnot závisle proměnné veličiny Y je 9 a závislost veličiny Y na veličině X je popsána regresní přímkou y = 2x + 3. Dvourozměrný tečkový diagram obsahuje bod o souřadnicích (5, 19), který pochází z datového souboru. Na regresní přímce leží bod o souřadnicích (5, 13). Odchylka zjištěné hodnoty 19 od průměru 9 je v obrázku označena „Total deviation“ a po umocnění je to jedna ze složek celkového součtu čtverců ST, tj. složka 2i my  . Odchylka zjištěné hodnoty 19 od hodnoty 13 na regresní přímce je v obrázku označena „Unexplained deviation“ a po umocnění je to jedna ze složek reziduálního součtu čtverců SE, tj. složka ii yˆy  . Odchylka hodnoty 13 na regresní přímce od průměru 9 je v obrázku označena „Explained deviation“ a po umocnění je to jedna ze složek regresního součtu čtverců SR, tj. složka 2i myˆ  . Maticový zápis klasického modelu lineární regrese εXβy  , kde  ' n1 y,,y y - vektor pozorování závisle proměnné veličiny Y,                   npn1 1p11 xfxf1 xfxf1    X - regresní matice (předpokládáme, že h(X) = p+1 < n)   ' p10 ,,,   - vektor regresních parametrů,   ' n1 ,,   - vektor náhodných odchylek. Podmínky (a) až (d) lze zkráceně zapsat ve tvaru  ~ Nn(0, σ2 I). Maticově zapsaná metoda nejmenších čtverců vede na rovnice X’Xβ = X’y - systém normálních rovnic b = (X’X)-1 X’ y – odhad vektoru β získaný metodou nejmenších čtverců yˆ = Xb – vektor regresních odhadů (vektor predikce) e = y - yˆ - vektor reziduí Vlastnosti odhadu b: - odhad b je lineární, neboť je vytvořen lineární kombinací pozorování y1, …, yn s maticí vah   '1' XXX  ; - odhad b je nestranný, neboť E(b) = β; - odhad b má varianční matici var b = σ2 (X'X) -1 ; - odhad b ~ Np+1(β, σ2 (X'X)-1) vzhledem k platnosti podmínky (d); - pro odhad b platí Gaussova - Markovova věta: Odhad b = (X'X) -1 X'y je nejlepší nestranný lineární odhad vektoru β. Příklad U šesti obchodníků byla zjišťována poptávka po určitém druhu zboží loni (veličina X - v kusech) a letos (veličina Y - v kusech). číslo obchodníka 1 2 3 4 5 6 poptávka loni (X) 20 60 70 100 150 260 poptávka letos (Y) 50 60 60 120 230 320 Předpokládejte, že závislost letošní poptávky na loňské lze vystihnout regresní přímkou. Sestavte regresní matici, vypočtěte odhady regresních parametrů a napište rovnici regresní přímky. Interpretujte parametry regresní přímky. Řešení: Sestavíme regresní matici.            n 1 x1 x1 X , tedy X =                     2601 1501 1001 701 601 201 . Podle vzorce   yXXXb '1'   získáme odhady regresních parametrů. Nejprve vypočítáme matici X’X =       109000660 6606 a k ní inverzní matici (X’X)-1 =         000027,0003022,0 003022,0499084,0 . Dále získáme součin X’y =       138500 840 a nakonec vektor odhadů regresních parametrů: b =         000027,0003022,0 003022,0499084,0 .       138500 840 =       2665,1 6868,0 . Regresní přímka má tedy rovnici y = 0,6868 + 1,2665 x. Znamená to, že při nulové loňské poptávce by letošní poptávka činila 0,6868 kusů a při zvýšení loňské poptávky o 10 kusů by se letošní poptávka zvedla o 12,665 kusů. Výpočet pomocí systému STATISTICA Vytvoříme nový datový soubor se dvěma proměnnými X a Y a 6 případy: Statistiky – Vícerozměrná regrese – Závisle proměnná Y, nezávisle proměnná X - OK – OK – Výpočet: Výsledky regrese. Výsledky regrese se závislou proměnnou : Y (Tabulka1) R= ,97197702 R2= ,94473932 Upravené R2= ,93092415 F(1,4)=68,384 p<,00117 Směrod. chyba odhadu : 29,219 N=6 Beta Sm.chyba beta B Sm.chyba B t(4) Úroveň p Abs.člen X 0,686813 20,64236 0,033272 0,975052 0,971977 0,117538 1,266484 0,15315 8,269474 0,001167 Ve výstupní tabulce najdeme koeficient b0 ve sloupci B na řádku označeném Abs. člen, koeficient b1 ve sloupci B na řádku označeném X. Rovnice regresní přímky: y = 0,686813 + 1,266484 x. Znamená to, že při nulové loňské poptávce by letošní poptávka činila 0,6868 kusů a při zvýšení loňské poptávky o 10 kusů by se letošní poptávka zvedla o 12,665 kusů. Testování významnosti modelu jako celku (celkový F-test) Na hladině významnosti α testujeme H0:        0,,0,, p1  proti H1:        0,,0,, p1  . (Nulová hypotéza říká, že dostačující je model konstanty.) Testová statistika:  1pnS pS F E R   má rozložení F(p, n-p-1), pokud H0 platí. Kritický obor:     ,1pn,pFW 1 . WF H0 zamítáme na hladině významnosti α. Výsledky F-testu zapisujeme do tabulky analýzy rozptylu: zdroj variability součet čtverců stupně volnosti podíl statistika F model SR p SR/p  1pnS pS E R  reziduální SE n-p-1 SE/(n-p-1) celkový ST n-1 - - Příklad: Majitelé prodejny počítačových her nechali své prodavače absolvovat kurz prodejních dovedností. Poté zjišťovali po dobu 20 dnů, kolik osob navštíví během otevírací doby prodejnu (proměnná X) a jaká je v tento den tržba (proměnná Y, udává se v tisících Kč a je zaokrouhlená). i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 xi 20 21 2 27 28 29 30 31 32 34 35 37 38 39 42 44 48 49 51 54 yi 5 6 7 7 8 9 10 11 12 13 13 14 14 15 16 15 15 14 13 13 Dvourozměrný tečkový diagram 15 20 25 30 35 40 45 50 55 60 x 4 6 8 10 12 14 16 18 y Z grafu závislosti Y na X vyplývá, že s rostoucím počtem zákazníků se tržby zvyšují, avšak při denním počtu zákazníků asi 42 dosahují svého maxima a pak už zase klesají (vyšší počet zákazníků obsluha prodejny nezvládá a zákazníci odcházejí, aniž by nakoupili). Zdá se tedy, že vhodným modelem závislosti tržeb na počtu zákazníků bude regresní parabola  2 210 xxy . Odhadněte parametry regresního modelu a proveďte celkový F-test. Řešení: Vytvoříme nový datový soubor se třemi proměnnými X, Xkv, Y a o 20 případech. Do proměnných X a Y napíšeme zjištěné hodnoty a do Dlouhého jména proměnné Xkv napíšeme = X^2. Získání odhadů b0, b1, b2: Statistiky – Vícerozměrná regrese – Závisle proměnná Y, nezávisle proměnné X, Xkv - OK – OK – Výpočet: Výsledky re- grese. Výsledky regrese se závislou proměnnou : y (prodejna_software.sta) R= ,95519276 R2= ,91239322 Upravené R2= ,90208653 F(2,17)=88,524 p<,00000 Směrod. chyba odhadu : 1,0623 N=20 b* Sm.chyba z b* b Sm.chyba z b t(17) p-hodn. Abs.člen x xkv -20,7723 3,373256 -6,15792 0,000011 4,52641 0,548220 1,5651 0,189559 8,25655 0,000000 -3,73838 0,548220 -0,0173 0,002535 -6,81912 0,000003 Regresní parabola má tedy tvar: y = -20,7723 + 1,5651x - 0,0173x2 . Výsledky celkového F-testu jsou uvedeny v záhlaví výstupní tabulky. Testová statistika F nabývá hodnoty 88,524, odpovídající p-hodnota je blízká 0, tedy na hladině významnosti 0,05 zamítáme hypotézu, že dostačující je model konstanty. Podrobnější výsledky získáme v tabulce analýzy rozptylu: Aktivujeme Výsledky–vícenásobná regrese – Detailní výsledky – ANOVA Analýza rozptylu (prodejna_software.sta) Efekt Součet čtverců sv Průměr čtverců F p-hodn. Regres. Rezid. Celk. 199,8141 2 99,9070688,524450,000000 19,1859 17 1,12858 219,0000 Testování významnosti regresních parametrů (dílčí t-testy) Na hladině významnosti α pro j = 0,1, ..., p testujeme hypotézu H0: βj = 0 proti H1: βj ≠ 0. Testová statistika: jb j j s b T  má rozložení t(n-p-1), pokud H0 platí. Kritický obor:        ,1pnt1pnt,W 2/12/1 .  WTj H0 zamítáme na hladině významnosti α. Příklad: V předešlém příkladě, kde byla modelována závislost tržby na počtu zákazníků regresní parabolou, proveďte dílčí t-testy o nevýznamnosti jednotlivých regresních parametrů Řešení: Stačí interpretovat výstupní tabulku vícenásobné regrese: Výsledky regrese se závislou proměnnou : y (prodejna_software.sta) R= ,95519276 R2= ,91239322 Upravené R2= ,90208653 F(2,17)=88,524 p<,00000 Směrod. chyba odhadu : 1,0623 N=20 b* Sm.chyba z b* b Sm.chyba z b t(17) p-hodn. Abs.člen x xkv -20,7723 3,373256 -6,15792 0,000011 4,52641 0,548220 1,5651 0,189559 8,25655 0,000000 -3,73838 0,548220 -0,0173 0,002535 -6,81912 0,000003 Sloupec označený t(17) obsahuje realizace testových statistik a sloupec p-hodn. pak odpovídající p-hodnoty. Ve všech třech případech jsou p-hodnoty menší než 0,05, tedy na hladině významnosti 0,05 zamítáme hypotézy o nevýznamnosti regresních parametrů β0, β1, β2. Kritéria pro posouzení vhodnosti zvolené regresní funkce a) Index determinace T E T R2 S S 1 S S ID  - index determinace ( 1ID0 2  )  udává, jakou část variability závisle proměnné veličiny Y lze vysvětlit zvolenou regresní funkcí (často se udává v %);  je zároveň mírou těsnosti závislosti proměnné Y na proměnné X;  je to obecná míra, nezávislá na typu regresní funkce (lze použít i pro měření nelineární závislosti);  je to míra, která nebere v úvahu počet parametrů regresní funkce. U regresních funkcí s více parametry vychází tedy obvykle vyšší než u regresních funkcí s méně parametry;  tato míra není symetrická. Za vhodnější se považuje ta regresní funkce, pro niž je index determinace vyšší. V případě, že porovnáváme několik modelů s rozdílným počtem parametrů, používáme adjustovaný index determinace:   1pn pID1 IDID 2 22 adj    - adjustovaný index determinace V příkladu s prodejem software najdeme index determinace ve výstupní tabulce regrese: Výsledky regrese se závislou proměnnou : y (prodejna_software.sta) R= ,95519276 R2= ,91239322 Upravené R2= ,90208653 F(2,17)=88,524 p<,00000 Směrod. chyba odhadu : 1,0623 N=20 b* Sm.chyba z b* b Sm.chyba z b t(17) p-hodn. Abs.člen x xkv -20,7723 3,373256 -6,15792 0,000011 4,52641 0,548220 1,5651 0,189559 8,25655 0,000000 -3,73838 0,548220 -0,0173 0,002535 -6,81912 0,000003 Index determinace je zde označen jako R2, nabývá hodnoty 0,9124 a říká nám, že 91,24% variability tržeb je vysvětleno regresní parabolou. Adjustovaný index determinace je označen Upravené R2. b) Testové kritérium F Za vhodnější je považována ta regresní funkce, u níž je hodnota testové statistiky  1pnS pS F E R   pro test významnosti modelu jako celku vyšší. Ve výstupní tabulce regrese je testová statistika F uvedena v záhlaví: Výsledky regrese se závislou proměnnou : y (prodejna_software.sta) R= ,95519276 R2= ,91239322 Upravené R2= ,90208653 F(2,17)=88,524 p<,00000 Směrod. chyba odhadu : 1,0623 N=20 b* Sm.chyba z b* b Sm.chyba z b t(17) p-hodn. Abs.člen x xkv -20,7723 3,373256 -6,15792 0,000011 4,52641 0,548220 1,5651 0,189559 8,25655 0,000000 -3,73838 0,548220 -0,0173 0,002535 -6,81912 0,000003 V našem příkladě je označena F(2,17) a nabývá hodnoty 88,524. c) Reziduální součet čtverců a reziduální rozptyl Reziduální součet čtverců:    n 1i 2 iiE yˆyS Za vhodnější považujeme funkci, která má reziduální součet čtverců nižší. Reziduální součet čtverců lze použít pouze tehdy, když srovnáváme funkce se stejným počtem parametrů. Reziduální rozptyl: 1pn S s E2   Za vhodnější považujeme tu funkci, která má reziduální rozptyl nižší. Reziduální rozptyl můžeme použít vždy, bez ohledu na to, kolik parametrů mají srovnávané regresní funkce. Obě charakteristiky najdeme v tabulce ANOVA: Analýza rozptylu (prodejna_software.sta) Efekt Součet čtverců sv Průměr čtverců F p-hodn. Regres. Rezid. Celk. 199,8141 2 99,9070688,524450,000000 19,1859 17 1,12858 219,0000 Reziduální součet čtverců je 19,1859 a reziduální rozptyl je 1,12858. d) Střední absolutní procentuální chyba predikce (MAPE)    n 1i i ii y yˆy n 1 MAPE Za vhodnější považujeme tu funkci, která má MAPE nižší. Systém STATISTICA MAPE neposkytuje, tuto chybu musíme vypočítat. Statistiky – Vícerozměrná regrese – Závisle proměnná Y, nezávisle proměnné x, xkv - OK – OK – zvolíme Rezidua/předpoklady/předpovědi – Reziduální analýza – Uložit – Uložit rezidua & předpovědi – vybereme proměnnou y - OK. K vzniklému datovému souboru přidáme jednu novou proměnnou, nazveme ji chyba a do jejího Dlouhého jména napíšeme =100*abs((v1-v2)/v1) Pomocí Statistiky – Základní statistiky/tabulky – Popisné statistiky zjistíme průměr proměnné chyba. V našem případě je MAPE 9,31%. e) Analýza reziduí Rezidua považujeme za odhady náhodných odchylek a klademe na ně stejné požadavky jako na náhodné odchylky, tj. mají být nezávislá, mají být normálně rozložená, mají mít nulovou střední hodnotu, mají mít konstantní rozptyl (tj. jsou homoskedastická). Nezávislost reziduí (autokorelaci) posuzujeme např. pomocí Durbinovy – Watsonovy statistiky, která by se měla nacházet v intervalu 6,2;4,1 (to je ovšem pouze orientační vodítko, korektní postup spočívá v porovnání této statistiky s tabelovanou kritickou hodnotou). Normalitu reziduí ověřujeme pomocí testů normality (např. Lilieforsovou variantou Kolmogorovova – Smirnovova testu nebo Shapirovým – Wilksovým testem) či graficky pomocí N-P plotu. Testování nulovosti střední hodnoty reziduí provádíme pomocí jednovýběrového t-testu. Homoskedasticitu reziduí posuzujeme pomocí grafu závislosti reziduí na predikovaných hodnotách. V tomto grafu by rezidua měla být rovnoměrně rozptýlena. Příklad: Proveďte analýzu reziduí pro příklad s modelováním závislosti tržby na počtu zákazníků. Posouzení nezávislosti reziduí pomocí Durbinovy – Watsonovy statistiky: Statistiky – Vícenásobná regrese – proměnná Závislá: y, nezávislá x, xkv – OK – na záložce Residua/předpoklady/předpovědi vybereme Reziduální analýza - Detaily – Durbin-Watsonova statistika: Durbin- Watson.d Sériové korelace Odhad 0,702506 0,599248 Hodnota této statistiky je nízká, svědčí o tom, že rezidua jsou kladně korelovaná. Posouzení homoskedasticity reziduí Reziduální analýza – Bodové grafy – Předpovědi vs. rezidua Předpovězené hodnoty vs. rezidua Závislá proměnná : y 2 4 6 8 10 12 14 16 Předpov. hodnoty -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 Rezidua 0,95 Int.spol. Je vidět, že rezidua nejsou kolem 0 rozmístěna náhodně. Model s regresní parabolou tedy není úplně vhodný. Testování nulovosti střední hodnoty reziduí: Pro proměnnou Rezidua z tabulky uložené pomocí Reziduální analýzy provedeme jednovýběrový t-test: Statistiky - Základní statistiky/tabulky – t-test, samost. vzorek – OK – proměnné Rezidua – OK. Proměnná Průměr Sm.odch. N Sm.chyba Referenční konstanta t SV p Rezidua -0,000000 1,00488020 0,224698 0,00 -0,000000 19 1,000000 Na hladině významnosti 0,05 nezamítáme hypotézu, že střední hodnota reziduí je 0. Posouzení normality reziduí: Na záložce Pravděpodobnostní grafy zvolíme Normální pravděpodobnostní graf reziduí: Normální p-graf z Rezidua Tabulka1 9v*20c -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 Pozorovaný kvantil -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 Oček.normál.hodnoty Rezidua : SW-W = 0,9601; p = 0,5453 Rezidua se řadí kolem ideální přímky, lze tedy soudit, že se řídí normálním rozložením. Závěr: V neprospěch regresní paraboly hovoří hodnota Durbinovy – Watsonovy statistiky a graf závislosti reziduí na predikovaných hodnotách. Popis časových řad Pojem časové řady: Časovou řadou rozumíme řadu hodnot n1 tt y,,y  určitého ukazatele uspořádanou podle přirozené časové posloupnosti t1 < ... < tn. Jsou-li časové intervaly (t1, t2), ..., (tn-1, tn) stejně dlouhé (ekvidistantní), zjednodušeně zapisujeme časovou řadu jako y1, ..., yn. Přitom ukazatel je veličina, která charakterizuje nějaký jev v určitém prostoru a určitém čase (okamžiku či intervalu). Druhy časových řad a) Časová řada okamžiková: příslušný ukazatel udává, kolik jevů existuje v daném časovém okamžiku (např. počet obyvatelstva k určitému dnu). b) Časová řada intervalová: příslušný ukazatel udává, kolik jevů vzniklo či zaniklo v určitém časovém intervalu (např. počet sňatků během roku). Nejsou-li jednotlivé časové intervaly ekvidistantní, musíme provést očištění časové řady od důsledků kalendářních variací. Příklad: Máme k dispozici údaje o tržbě obchodní organizace (v tis. Kč) v jednotlivých měsících roku 1995: 2400, 2134, 2407, 2445, 2894, 3354, 3515, 3515, 3225, 3063, 2694, 2600. Vypočtěte očištěné údaje. Řešení: Průměrná délka měsíce je 365/12 dne. Očištěná hodnota pro leden 84,2354 3112 365 2400y )o( 1    , pro únor 18,2318 2812 365 2134y )o( 2    . Pro ostatní měsíce analogicky dostaneme 2361,71; 2478,96; 2839,54; 3400,58, 3448,86; 3448,86; 3269,79; 3005,36; 2731,42; 2551,08. Výpočet pomocí systému STATISTICA: Vytvoříme nový datový soubor o třech proměnných: trzba, dm (délky jednotlivých měsíců) a ot (očištěná tržba) a 12 případech. Do proměnné trzba zapíšeme zjištěné hodnoty. Do proměnné dm vložíme délky jednotlivých měsíců, tj. 31, 28, 30, …, 31. Do Dlouhého jména proměnné ot napíšeme =trzba*365/(12*dm). 1 trzba 2 dm 3 ot 1 2 3 4 5 6 7 8 9 10 11 12 2400 31 2354,839 2134 28 2318,185 2407 31 2361,707 2445 30 2478,958 2894 31 2839,543 3354 30 3400,583 3515 31 3448,858 3515 31 3448,858 3225 30 3269,792 3063 31 3005,363 2694 30 2731,417 2600 31 2551,075 Grafické znázornění okamžikové časové řady Použijeme spojnicový diagram. Na vodorovnou osu vynášíme časové okamžiky t1, ..., tn, na svislou osu odpovídající hodnoty y1, ..., yn. Dvojice bodů (ti, yi), i = 1, ..., n spojíme úsečkami. Příklad: Časová řada obsahuje údaje o počtu zaměstnanců určité akciové společnosti v letech 1989 – 1996 vždy k 31.12. 1989 1990 1991 1992 1993 1994 1995 1996 622 627 631 635 641 641 632 625 Znázorněte tuto časovou řadu graficky. Řešení pomocí systému STATISTICA: Vytvoříme datový soubor o dvou proměnných nazvaných rok a pocet a 8 případech. Grafy – Bodové grafy – odškrtneme Lineární proložení – Proměnné X – rok, Y – počet – OK – OK. 2x klikneme na pozadí grafu – vybereme Graf: obecné – zaškrtneme Spojnice – OK. 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 rok 620 622 624 626 628 630 632 634 636 638 640 642 pocet Grafické znázornění intervalové časové řady Použijeme sloupkový diagram. Je to soustava obdélníků, kde šířka obdélníku je rovna délce intervalu a výška odpovídá hodnotě ukazatele v daném intervalu. Ke znázornění intervalové časové řady lze použít i spojnicový diagram, přičemž na vodorovnou osu vynášíme středy příslušných intervalů. Příklad: Máme k dispozici údaje o produkci určitého podniku (v tisících výrobků) v letech 1991-1996. 1991 1992 1993 1994 1995 1996 114 106 107 102 116 137 Znázorněte tuto časovou řadu graficky. Řešení pomocí systému STATISTICA: Vytvoříme datový soubor o dvou proměnných nazvaných rok a produkce a 6 případech. Grafy – Bodové grafy – odškrtneme Lineární proložení – Proměnné X – rok, Y – produkce – OK – OK. 2x klikneme na pozadí grafu – vybereme Graf: obecné – zaškrtneme Spojnice – Přidat nový graf – typ Sloupcový graf – OK. Do sloupců označených jako Nový1, Nový2 okopírujeme hodnoty proměnných rok a produkce. Ve Všech možnostech: Sloupce upravíme šířku sloupce na 1. 1990 1991 1992 1993 1994 1995 1996 1997 rok 100 105 110 115 120 125 130 135 140 produkce Průměr okamžikové časové řady Nejprve vypočteme průměry pro jednotlivé dílčí intervaly (t1, t2), (t2, t3), ..., (tn-1, tn): 2 yy ,, 2 yy , 2 yy n1n3221    . Jsou-li všechny tyto intervaly stejně dlouhé, vypočteme prostý chronologický průměr okamžikové časové řady:                   n 2i n 1n 2i i 1i1i 2 y y 2 y 1n 1 2 yy 1n 1 y . Nemají-li intervaly stejnou délku, vypočteme di = ti – ti-1, i = 2, ..., n a použijeme vážený chronologický průměr okamžikové časové řady:         n 2i i i1i n 2i i d 2 yy d 1 y . Příklad: Časová řada vyjadřuje počet obyvatelstva ČSSR (v tisících) v letech 1965 až 1974 vždy ke dni 31.12. Rok 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 počet 14194 14271 14333 14387 14443 14345 14419 14576 14631 14738 Charakterizujte tuto časovou řadu chronologickým průměrem. Řešení: 14430 2 14738 1463114271 2 14194 9 1 y         . Průměr intervalové časové řady    n 1i iy n 1 y . Příklad:Vypočtěte průměrnou hodnotu roční časové řady HDP ČR (v miliardách Kč) v letech 1994 až 2000. 1994 1995 1996 1997 1998 1999 2000 1303,6 1381,1 1447,7 1432,8 1401,3 1390,6 1433,8 Řešení:   7,13988,14336,1303 7 1 y   . Dynamické charakteristiky časových řad Absolutní přírůstky 1. diference: n,,2i,yyy 1iii   2. diference:   n,,3i,yy2yyyy 2i1ii1iii 2   atd. (Diferencování má velký význam při odhadu trendu časové řady regresními metodami.) Průměrný absolutní přírůstek: 1n yy 1n y 1n n 2i i         Relativní přírůstek n,,2i, y y 1i i i     (Relativní přírůstek po vynásobení 100 udává, o kolik procent se změnila hodnota v čase ti oproti času ti-1.) Koeficient růstu (tempo růstu) n,,2i, y y k 1i i i   (Koeficient růstu po vynásobení 100 udává, na kolik procent hodnoty v čase ti-1 vzrostla či poklesla hodnota v čase ti.) Průměrný koeficient růstu 1n 1 n1n n32 y y kkkk    Průměrný relativní přírůstek 1k  Příklad: Pro časovou řadu HDP ČR v letech 1994 až 2000 (v miliardách Kč) vypočtěte základní charakteristiky dynamiky a graficky znázorněte 1. diference a koeficienty růstu. Řešení: rok HDP Δyi ki δi 1994 1303,6 x x x 1995 1381,1 77,5 1,059 0,059 1996 1447,7 66,6 1,048 0,048 1997 1432,8 -14,7 0,990 -0,010 1998 1401,3 -31,5 0,978 -0,022 1999 1390,6 -10,7 0,992 -0,008 2000 1433,8 43,2 1,031 0,031 Průměrný absolutní přírůstek: 7,21 6 6,13038,1433    , tzn., že v období 1994 – 2000 rostl HDP průměrně o 21,7 miliard Kč ročně. Průměrný koeficient růstu: 016,1 6,1303 8,1433 k 6  , tzn., že v období 1994 – 2000 rostl HDP průměrně o 1,6% ročně. Graf 1. diferencí: Graf koeficientů růstu: 1994 1995 1996 1997 1998 1999 2000 2001 rok -40 -20 0 20 40 60 80 100 1.diference 1994 1995 1996 1997 1998 1999 2000 2001 rok 0.97 0.98 0.99 1.00 1.01 1.02 1.03 1.04 1.05 1.06 1.07 koeficientyrůstu Výpočet pomocí systému STATISTICA Statistiky – Pokročilé lineární/nelineární modely – Časové řady/predikce – Proměnné HDP – OK – OK (transformace, autokorelace, kříž. korelace, grafy) – Diferencování - OK (transformovat vybrané řady) – vykreslí se graf. Graf proměnné: HDP D(-1) 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 Čísla případů -60 -40 -20 0 20 40 60 80 100 HDP -60 -40 -20 0 20 40 60 80 100 Vrátíme se do Transformace proměnných – Uložit proměnné. Otevře se nové datové okno, kde v proměnné HDP_1 jsou uloženy 1. diference. HDP HDP_1 1 1303,600 2 1381,100 77,500 3 1447,700 66,600 4 1432,800 -14,900 5 1401,300 -31,500 6 1390,600 -10,700 7 1433,800 43,200 Výpočet relativních přírůstků: 1i i i y y    pro i = 2,...,n Vrátíme se do Transformace proměnných – označíme proměnnou, kterou chceme transformovat (HDP) – vybereme Posun – OK, (Transformovat vybrané řady) – vykreslí se graf. Vrátíme se do Transformace proměnných – Uložit proměnné. Tato transformovaná veličina se uloží do tabulky pod názvem HDP_1 (proměnná s 1. diferencemi se přejmenuje na HDP_2). Přidáme novou proměnnou RP a do jejího Dlouhého jména napíšeme vzorec =HDP_2/HDP_1. Výpočet koeficientů růstu: 1i i i y y k   pro i = 2,...,n Do tabulky přidáme proměnnou KR a do jejího Dlouhého jména napíšeme vzorec =HDP/HDP_1. Získáme tabulku 1 HDP 2 HDP_2 3 HDP_1 4 RP 5 KR 1 2 3 4 5 6 7 8 1303,600 1381,100 77,500 1303,6000,0594511,059451 1447,700 66,600 1381,1000,0482221,048222 1432,800 -14,900 1447,700 -0,01029 0,989708 1401,300 -31,500 1432,800 -0,02198 0,978015 1390,600 -10,700 1401,300 -0,00764 0,992364 1433,800 43,200 1390,6000,0310661,031066 1433,800 Pomocí Grafy - 2D Grafy – Spojnicové grafy (Proměnné) vykreslíme průběh relativních přírůstků a koeficientů růstu. Průměrný absolutní přírůstek a průměrný koeficient růstu vypočteme na kalkulačce pomocí vzorců 7,21 6 6,13038,1433    a 016,1 6,1303 8,1433 k 6  . Aditivní model časové řady Předpokládejme, že pro časovou řadu y1, ..., yn platí model yt = f(t) + εt, t = 1, ..., n, kde f(t) je neznámá trendová funkce (trend), kterou považujeme za systematickou (deterministickou) složku časové řady (popisuje hlavní tendenci dlouhodobého vývoje časové řady), εt je náhodná složka časové řady zahrnující odchylky od trendu. Náhodná složka splňuje předpoklady E(εt) = 0, D(εt) = σ2 , C(εt, εt+h) = 0, εt ~ N(0, σ2 ) (říkáme, že εt je bílý šum). Odhad trendu časové řady pomocí klouzavých průměrů Podstata klouzavých průměrů Předpokládáme, že časová řada se řídí aditivním modelem yt = f(t) + εt, t = 1, ..., n. Odhad trendu v bodě t získáme určitým zprůměrováním původních pozorování z jistého okolí uvažovaného časového okamžiku t. Můžeme si představit, že podél dané časové řady klouže okénko, v jehož rámci se průměruje. Nechť toto okénko zahrnuje d členů nalevo od bodu t a d členů napravo od bodu t. Hovoříme pak o vyhlazovacím okénku šířky h = 2d + 1. Prvních a posledních d hodnot trendu neodhadujeme, protože pro    n,,1dnd,,1t   není vyhlazovací okénko symetrické. Odhad trendu ve středu vyhlazovacího okénka je dán vztahem:          d2 0k kdtdt1dtdt y 1d2 1 yyy 1d2 1 )t(fˆ  , t = d+1, ..., n-d. Šířka vyhlazovacího okénka Velmi důležitou otázkou je stanovení šířky vyhlazovacího okénka. Je-li okénko příliš široké, bude se odhad trendu blížit přímce (říkáme, že je přehlazen) a zároveň se ztratí velký počet členů na začátku a na konci časové řady. Je-li naopak okénko úzké, bude se odhad trendu blížit původním hodnotám (říkáme, že odhad je podhlazen). Nejčastěji se volí šířka okénka h = 3, 5, 7, pro čtvrtletní hodnoty pak 4. Příklad: Časová řada 215, 219, 222, 235, 202, 207, 187, 204, 174, 172, 201, 272 udává roční objemy vývozu piva (v miliónech litrů) z Československa v letech 1980 až 1991. a) Odhadněte trend této časové řady pomocí klouzavých průměrů s vyhlazovacím okénkem šířky 3 a poté 5. b) Graficky znázorněte průběh časové řady s odhadnutým trendem. Řešení pomocí systému STATISTICA: Vytvoříme datový soubor export_piva.sta o dvou proměnných ROK a VYVOZ a dvanácti případech. Statistiky – Pokročilé lineární/nelineární modely – Časové řady/predikce – Proměnné Y – OK– OK (transformace, autokorelace, kříž. korelace, grafy) – Vyhlazování – zaškrtneme N-bod. klouzavý průměr, N = 3 – OK (Transformovat vybrané řady) – vykreslí se graf, vrátíme se do Transformace proměnných – Uložit proměnné. Otevře se nový spreadsheet, kde v proměnné VYVOZ_1 jsou uloženy klouzavé průměry pro N = 3. Totéž uděláme pro případ N = 5. Ve spreadsheetu se proměnná VYVOZ_1 přepíše na VYVOZ_2 a nová proměnná se uloží jako VYVOZ_1. Nově vzniklé proměnné nazveme KP3 a KP5. K datovému souboru přidáme proměnnou ROK, do jejíhož Dlouhého jména napíšeme =1979+v0. export_piva.sta 1 rok 2 VYVOZ 3 KP3 4 KP5 1 2 3 4 5 6 7 8 9 10 11 12 1980 215,000 1981 219,000 218,667 1982 222,000 225,333 218,600 1983 235,000 219,667 217,000 1984 202,000 214,667 210,600 1985 207,000 198,667 207,000 1986 187,000 199,333 194,800 1987 204,000 188,333 188,800 1988 174,000 183,333 187,600 1989 172,000 182,333 204,600 1990 201,000 215,000 1991 272,000 Grafické znázornění časové řady s odhadnutým trendem provedeme pomocí vícenásobných bodových grafů. 1978 1980 1982 1984 1986 1988 1990 1992 160 180 200 220 240 260 280 1978 1980 1982 1984 1986 1988 1990 1992 160 180 200 220 240 260 280 Porovnání empirického a teoretického rozložení Motivace: Možnost použití statistických testů je podmíněna nějakými předpoklady o datech. Velmi často je to předpoklad o typu rozložení, z něhož získaná data pocházejí. Mnoho testů je založeno na předpokladu normality. (Testování normality bylo probráno ve 2. kapitole.) Opomíjení předpokladů o typu rozložení může v praxi vést i ke zcela zavádějícím výsledkům, proto je nutné věnovat tomuto problému patřičnou pozornost. V této kapitole se seznámíme s testem dobré shody, který je (po splnění určitých předpokladů) použitelný k ověření shody empirického rozložení s jakýmkoliv teoretickým rozložením. Tato univerzálnost je ovšem provázena poněkud sníženou silou testu. Proto byly pro některá rozložení vyvinuty speciální testy využívající charakteristických vlastností těchto rozložení. Zde uvedeme tzv. jednoduché testy exponenciálního a Poissonova rozložení. Testy dobré shody Popis testu Testujeme hypotézu, která tvrdí, že náhodný výběr X1, ..., Xn pochází z rozložení s distribuční funkcí Φ(x). Spojitý případ: - data rozdělíme do r třídicích intervalů  1jj u,u  , j = 1, ..., r - zjistíme absolutní četnost nj j-tého třídicího intervalu - vypočteme pravděpodobnost pj, že náhodná veličina X s distribuční funkcí Φ(x) se bude realizovat v j-tém třídicím intervalu. Platí-li nulová hypotéza, pak pj = Φ(uj+1) - Φ(uj). Diskrétní případ: - určíme varianty x[j], j = 1, …, r - pro variantu x[j] zjistíme absolutní četnost nj - vypočteme pravděpodobnost pj, že náhodná veličina X s distribuční funkcí Φ(x) se bude realizovat variantou x[j]. Platí-li nulová hypotéza, pak          j xx jj xXPxlimxp j   . Testová statistika:      r 1j j 2 jj np npn K . Platí-li nulová hypotéza, pak K ≈ χ2 (r-1-p), kde p je počet odhadovaných parametrů daného rozložení. (Např. pro normální rozložení p = 2, protože z dat odhadujeme střední hodnotu a rozptyl.) Pokud žádný parametr nemusíme odhadovat, hovoříme o úplně specifikovaném problému. Nulovou hypotézu zamítáme na asymptotické hladině významnosti α, když K ≥ χ2 1-α(r-1-p). Aproximace se považuje za vyhovující, když npj ≥ 5, j = 1, ..., r. Upozornění: Při nesplnění podmínky npj ≥ 5, j = 1, ..., r je třeba některé intervaly resp. varianty slučovat, což vede ke ztrátě informace. Ve spojitém případě je hodnota testové statistiky K silně závislá na volbě třídicích intervalů Příklad: (Testování shody empirického a teoretického rozložení při úplně specifikovaném problému) Ze souboru rodin s pěti dětmi bylo náhodně vybráno 84 rodin a byl zjišťován počet chlapců: Počet chlapců 0 1 2 3 4 5 Počet rodin 3 10 22 31 14 4 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že rozložení počtu chlapců se řídí binomickým rozložením Bi(5; 0,5). Řešení: Počet chlapců v náhodně vybrané rodině s 5 dětmi je náhodná veličina s rozložením Bi(5; 0,5), její pravděpodobnostní funkce je ,50,1,j, 32 1 j 5 pj        . Výpočty potřebné pro stanovení testové statistiky K uspořádáme do tabulky. j nj pj npj 0 3 0,03125 84.0,03125=2,625 1 10 0,15625 84.0,15625=13,125 2 22 0,3125 84.0,3125=26,25 3 31 0,3125 84.0,3125=26,25 4 14 0,15625 84.0,15625=13,125 5 4 0,03125 84.0,03125=2,625 Podmínky dobré aproximace nejsou splněny, sloučíme tedy první dvě varianty a poslední dvě varianty. j nj pj npj   j 2 jj np npn  0 a 1 13 0,1875 84.0,1875=15,75 0,480159 2 22 0,3125 84.0,3125=26,25 0,688095 3 31 0,3125 84.0,3125=26,25 0,859524 4 a 5 18 0,1875 84.0,1875=15,75 0,321429 Vypočteme realizaci testové statistiky: K = 0,48059 + 0,688095 + 0,859524 + 0,321429 = 2,3492, počet tříd r = 4, počet odhadovaných parametrů p = 0, r – p - 1 = 3, kritický obor         ;8147,7,3,1prW 95,0 2 1 2 . Protože WK  , nulovou hypotézu nezamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA: Vytvoříme datový soubor se dvěma proměnnými a čtyřmi případy. Proměnná nj obsahuje zjištěné četnosti (po sloučení variant), proměnná npj pak teoretické četnosti. Statistiky – Neparametrická statistika – Pozorované vs. očekávané χ2 – OK – Proměnné – Pozorované četnosti nj, očekávané četnosti npj – OK – Výpočet. Pozorované vs. očekávané četnosti (T abulka1) Chi-Kvadr. = 2,349206 sv = 3 p = ,503161 Případ pozorov. nj očekáv. npj P - O (P-O)^2 /O C: 1 C: 2 C: 3 C: 4 Sčt 13,0000015,75000 -2,75000 0,480159 22,0000026,25000 -4,25000 0,688095 31,0000026,25000 4,75000 0,859524 18,0000015,75000 2,25000 0,321429 84,0000084,00000 0,00000 2,349206 V záhlaví výstupní tabulky je uvedena hodnota testového kritéria (2,349206), počet stupňů volnosti = 3 a p-hodnota (0,503161). Nulová hypotéza se tedy nezamítá na asymptotické hladině významnosti 0,05. Příklad: (Testování shody empirického a teoretického rozložení při neúplně specifikovaném problému – diskrétní případ) V tabulce jsou roztříděny fotbalové zápasy určité soutěže podle počtu vstřelených branek. Počet branek 0 1 2 3 4 a víc Počet zápasů 19 30 17 10 8 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že jde o výběr z Poissonova rozložení. Výpočet pomocí systému STATISTICA: Vytvoříme datový soubor s dvěma proměnnými a 5 případy. Proměnná POCET obsahuje počet vstřelených branek, proměnná CETNOST pak počet zápasů, v nichž bylo dosaženo zjištěného počtu branek. Statistiky – Prokládání rozdělení – Diskrétní rozdělení – Poissonovo – OK – Proměnná POCET – klikneme na ikonu se závažím – Proměnná vah CETNOST – Stav Zapnuto – OK – Výpočet. Proměnná:POCET, Rozdělení:Poissonovo, Lambda = 1,500 (branky.sta) Chí-kvadrát = 2,07051, sv = 3, p = 0,55790 Kategorie Pozorované Četnosti Kumulativ. Pozorované Procent Pozorované Kumul. % Pozorované Očekáv. Četnosti Kumulativ. Očekáv. Procent Očekáv. Kumul. % Očekáv. Pozorované - Očekáv. <= 0,00000 1,00000 2,00000 3,00000 < Nekonečno 19 19 22,61905 22,619018,74294 18,7429422,31302 22,3130 0,25706 30 49 35,71429 58,333328,11440 46,8573333,46952 55,7825 1,88560 17 66 20,23810 78,571421,08580 67,9431325,10214 80,8847 -4,08580 10 76 11,90476 90,476210,54290 78,4860312,55107 93,4358 -0,54290 8 84 9,52381 100,0000 5,51397 84,00000 6,56424 100,0000 2,48603 V tomto případě je parametr λ Poissonova rozložení neznámý, je odhadnut pomocí výběrového průměru a odhad činí 1,5. Podmínky dobré aproximace jsou splněny, dokonce všechny teoretické četnosti jsou větší než 5. Dále je v záhlaví výstupní tabulky uvedena hodnota testového kritéria (2,07051), počet stupňů volnosti r – p – 1 = 5 – 1 – 1 = 3 a p-hodnota (0,5578). Nulová hypotéza se tedy nezamítá na asymptotické hladině významnosti 0,05. Pro vytvoření grafu se vrátíme do Proložení diskrétních rozložení – Základní výsledky – Graf pozorovaného a očekávaného rozdělení. -1 0 1 2 3 4 5 Kategorie (horní meze) 0 5 10 15 20 25 30 35 Početpozorování Příklad: (Testování shody empirického a teoretického rozložení při neúplně specifikovaném problému – spojitý případ) U 48 studentek VŠE v Praze byla zjišťována výška (v cm): 165 170 170 179 170 168 174 162 167 165 170 173 183 176 165 168 171 178 168 168 169 163 172 184 176 175 176 169 168 170 166 160 167162 162 166 170 168 155 162 169 166 160 169 165 163 168 163 Pomocí testu dobré shody testujte na hladině významnosti 0,05 hypotézu, že data pocházejí z normálního rozložení. Pomocí histogramu posuďte vizuálně předpoklad normality. Výpočet pomocí systému STATISTICA: Statistiky - Prokládání rozdělení – ponecháme implicitní nastavení na normální rozložení – OK – Proměnná X – OK – na záložce Parametry změníme Počet kategorií na 7 (podle Sturgesova pravidla) – Výpočet. Proměnná: X, Rozdělení:Normální (vyska.sta) Chí-kvadrát = 1,09280, sv = 1 (uprav.) , p = 0,29585 Horní hranice Pozorované Četnosti Kumulativ. Pozorované Procent Pozorované Kumul. % Pozorované Očekáv. Četnosti Kumulativ. Očekáv. Procent Očekáv. Kumul. % Očekáv. Pozorované - Očekáv. <= 157,14286 162,28571 167,42857 172,57143 177,71429 182,85714 < Nekonečno 1 1 2,08333 2,0833 1,19706 1,19706 2,49387 2,4939 -0,19706 6 7 12,50000 14,5833 5,51484 6,7118911,48924 13,9831 0,48516 12 19 25,00000 39,583313,46220 20,1740928,04624 42,0293 -1,46220 19 38 39,58333 79,166715,89146 36,0655533,10721 75,1366 3,10854 6 44 12,50000 91,6667 9,07700 45,1425518,91042 94,0470 -3,07700 2 46 4,16667 95,8333 2,50365 47,64620 5,21594 99,2629 -0,50365 2 48 4,16667 100,0000 0,35380 48,00000 0,73708 100,0000 1,64620 Při tomto roztřídění dat do 7 intervalů nejsou splněny podmínky dobré aproximace, ve třech intervalech jsou teoretické četnosti pod 5. Změníme tedy dolní mez na 159 a horní na 178. Proměnná: X, Rozdělení:Normální (vyska.sta) Chí-kvadrát = 3,85268, sv = 4, p = 0,42631 Horní hranice Pozorované Četnosti Kumulativ. Pozorované Procent Pozorované Kumul. % Pozorované Očekáv. Četnosti Kumulativ. Očekáv. Procent Očekáv. Kumul. % Očekáv. Pozorované - Očekáv. <= 161,71429 164,42857 167,14286 169,85714 172,57143 175,28571 < Nekonečno 3 3 6,25000 6,25005,722996 5,7230011,92291 11,9229 -2,72300 7 10 14,58333 20,83335,675946 11,3989411,82489 23,7478 1,32405 9 19 18,75000 39,58337,862633 19,2615716,38048 40,1283 1,13737 11 30 22,91667 62,50008,812455 28,0740318,35928 58,4876 2,18755 8 38 16,66667 79,16677,991516 36,0655516,64899 75,1366 0,00848 3 41 6,25000 85,41675,863558 41,9291012,21575 87,3523 -2,86356 7 48 14,58333 100,00006,070896 48,0000012,64770 100,0000 0,92910 V tomto případě jsou podmínky dobré aproximace splněny. Testová statistika se realizuje hodnotou 3,85268, p-hodnota je 0,42631, tedy na asymptotické hladině významnosti 0,05 hypotézu o normalitě nezamítáme. Podívejme se ještě na histogram s proloženou Gaussovou křivkou: Na záložce Základní výsledky zvolíme Graf pozorovaného a očekávaného rozdělení. Proměnná: X, Rozdělení:Normální Chí-kvadrát test = 3,85268, sv = 4, p = 0,42631 160,1429 162,8571 165,5714 168,2857 171,0000 173,7143 176,4286 179,1429 Kategorie (horní meze) 0 2 4 6 8 10 12 14 Početpozorování Jednoduchý test exponenciálního a Poissonova rozložení Jednoduchý test exponenciálního rozložení Testujeme hypotézu, která tvrdí, že náhodný výběr X1, ..., Xn pochází z exponenciálního rozložení. Označme M výběrový průměr a S2 výběrový rozptyl tohoto náhodného výběru. Víme, že střední hodnota náhodné veličiny X ~ Ex(λ) je E(X) = 1/λ a rozptyl je D(X) = 1/λ2 . Test založíme na statistice   2 2 M S1n K   , která se v případě platnosti H0 asymptoticky řídí rozložením χ2 (n-1). Kritický obor:       ,1n1n,0W 2/1 2 2/ 2 . Jestliže WK  , H0 zamítáme na asymptotické hladině významnosti α. Příklad Byla zkoumána doba životnosti 45 součástek (v hodinách). Průměrná životnost byla m = 99,93 a rozptyl s2 = 7328,91. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že daný náhodný výběr pochází z exponenciálního rozložení. Řešení: Testovou statistiku K vypočteme podle vzorce   2 2 M S1n K   . Kritický obor má tvar:       ;1n1n;0W 2/1 2 2/ 2 . V našem případě K = 32,2924, ,;202,64575,27;0W  H0 tedy nezamítáme na asymptotické hladině významnosti 0,05. Jednoduchý test Poissonova rozložení Testujeme hypotézu, která tvrdí, že náhodný výběr X1, ..., Xn pochází z Poissonova rozložení. Označme M výběrový průměr a S2 výběrový rozptyl tohoto náhodného výběru. Víme, že střední hodnota náhodné veličiny X ~ Po(λ) je E(X) = λ a rozptyl je D(X) = λ. Test založíme na statistice   M S1n K 2   , která se v případě platnosti H0 asymptoticky řídí rozložením χ2 (n-1). Kritický obor:       ,1n1n,0W 2/1 2 2/ 2 . Jestliže WK  , H0 zamítáme na asymptotické hladině významnosti α. Příklad Studujeme rozložení počtu pacientů, kteří během 75 dnů přijdou na pohotovost. Osmihodinovou pracovní dobu rozdělíme do půlhodinových intervalů a v každém intervalu zjistíme počet příchozích pacientů: Počet pacientů 0 1 2 3 4 4 6 7 8 9 10 Pozrovaná četnost 79 188 282 275 196 114 45 10 7 3 1 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že daný náhodný výběr pochází z Poissonova rozložení. Řešení: Celkový počet pacientů je n = 1200. Realizaci výběrového průměru M získáme jako vážený průměr počtu pacientů (m = 2,8033) a realizaci výběrového rozptylu S2 získáme jako vážený rozptyl počtu pacientů (s2 = 2,7086). Testovou statistiku vypočteme podle vzorce   M S1n K 2   , tedy K = 1158,5, kritický obor           .;86,129693,1104;0 ,11991199,0,1n1n,0W 975,0 2 025,0 2 2/1 2 2/ 2    Protože testová statistika se nerealizuje v kritickém oboru, H0 nezamítáme na asymptotické hladině významnosti 0,05.