BAYESIÁNSKÁ ANALÝZA - CVIČENÍ 4 Toto cvičení je založeno na znalosti čtvrté kapitoly z učebnice Koop (2003): Bayesian econometrice, případně na odpovídající kapitole podkladového učebního textu Bayesiánská analýza. Co bude náplní cvičení? ^ Odhad a posteriorní analýza normálního lineárního regresního modelu s nezávislou normální-gama apriorní hustotou a s omezeními ve tvaru nerovnosti. ^ Osvojení si Gibbsova vzorkovače a importance sampling. ^ Odhad a posteriorní analýza na příkladech s využitím reálných dat. Zadání příkladů 1. Gibbsův vzorkovač a jeho vlastnosti: Předpokládejme elementární příklad modelu, kdy při odhadu jeho parametrů získáváme posteriorní hustotu odpovídající dvourozměrnému normálnímu rozdělení (to, že máme známou posteriorní hustotu bude sloužit k tomu, že výsledky simulátorů budeme schopni porovnat s výsledky analytickými): (£)-"( kde \p\ < 1 je známá posteriorní korelace mezi parametry 6\ a 62- (a) Začněte si vytvářet skript, kdy si nejprve zadefinujete počet generovaných vzorků S (např. S = 10000), vytvořte vektor středních hodnot p jakožto nulový vektor (později ho můžete změnit), korelační koeficient p a kovarianční matici E, kdy na diagonále budou jedničky a mimo ní koeficienty p (díky tomu odpovídá kovarianční matice přímo i korelační matici). (b) Vytvořte si vlastní funkci, která využívá Monte Carlo integraci k výpočtu posteriorní střední hodnoty, směrodatné odchylky parametrů 9i a 92 a numerické standardní chyby (NSE) pro střední hodnotu a rozptyl odhadu parametrů, popřípadě využijte dodanou funkci MC_int. m. V rámci této funkce můžete využít generátor náhodných čísel z vícerozměrného rozdělení buď přímo dostupný v rámci statistického tool-boxu Matlabu (funkce mvnrnd.m) nebo funkci LeSageho ekonometrického toolboxu norm_rnd.m. Poznámka: Je třeba si uvědomit, že Monte Carlo integrace nevyužívá nic jiného než zákon velkých čísel, který říká, že výběrový průměr nějaké funkce parametrů bude konvergovat ke střední hodnotě této funkce parametrů pro rostoucí velikost vygenerovaných vzorků rozdělení, z něhož tyto parametry pocházejí. NSE je definováno jako \f^§-, kde a2g je rozptyl funkce parametrů (nahrazován odhadem), který nás zajímá. (c) Vytvořte funkci, která budeý využívat Gibbsův vzorkovač k výpočtu střední hodnoty a směrodatné odchylky parametrů 6\ a 62 (využijte vlastností vícerozměrného normálního rozdělení pro výpočet odpovídajících podmíněných hustot pravděpodobnosti). i. Vyjděte z funkce sdružené hustoty normálního rozdělení (dvojrozměrné), se střední hodnotou p = (/Lil, P2)' a kovarianční maticí £ definovanou v úvodu příkladu: -l-(6 - p)'Y,-\6 - p) Odvoďte podmíněné hustoty pro 6\ #2 a #2 |#i Pokud jste šikovnější, odvoďte podmíněné hustoty pro obecné fc-rozměrné normální rozdělení s arbit-rárním dělením vektoru středních hodnot a kovarianční matice (zde je dobré využít teorém o inverzi a determinantu dělené matice z přílohy učebního textu či Koopovy učebnice). Důkaz inverze dělené matice lze nalézt např. zde a odvození podmíněných hustot zde. 1 p p 1 exp ii. iii. 1 iv. Výsledné funkce podmíněných hustot pravděpodobnosti j sou 6\ #2 -^(M(i|2) j ^(i|2)) a #2|#i -^(M(2|i) j ^(2|i)): M(l|2) = Ml + P * (#2 - M2)£(i|2) = 1 - P2 (d) Nastavte p = 0 pro porovnání výsledků z části (a) a (b). Kolik replikací je nutných k odhadu středních hodnot a směrodatných odchylek parametrů 6\ a 62 s přesností na dvě desetinná místa? (e) Zopakujte část (c) pro p = 0.5, 0.9, 0.95, 0.99, 0.999. Jak velikost korelace ovlivní výkonnost Gibbsova vzorkovače? Pro srovnání vykreslete průběh Gibbsova vzorkovače pro prvních 50 a 1000 iterací a rovněž i výslednou sekvenci vzorků po odstranění počátečních Sq vzorků, a to pro odlehlé počáteční hodnoty parametrů. (f) Obohaťte své programy o výpočet numerické standardní chyby a v případě Gibbsova vzorkovače i o Gewekovu CD diagnostiku, konvergenční diagnostiku Gelmana a Rubina případně některý z typů konver-genčních diagnostik Brookse a Gelmana (nejlepší je vytvoření vlastních funkcí). Pro Gewekovu konvergenční diagnostiku využijte funkce moment g . m z LeSageho ekonometrického toolboxu případně funkce odhadu spektrální hustoty Matlabu (Signál processing toolboxu - funkce psd). Zopakujte části (c) a (d) s příslušnými kovergenčními diagnostikami. Je NSE dobrou charakteristikou přesnosti aproximace? Bude CD přesně signalizovat dosažení konvergence Gibbsova vzorkovače ve všech případech? i. Funkce moment g .m vychází z odvození, které lze nalézt v rámci příkladu 11.14 na straně 144 z knihy Koop, Poirier, Tobias (2007): Bayesian Econometric Methods. Jedná se o způsob výpočtu NSE v rámci Gibbsova vzorkovače za předpokladu existence korelace mezi výběry z Gibbsova vzorkovače. Touto metodou (s využitím informace o korelacích resp. kovariancích v rámci vzorku) se tak aproximuje výpočet spektrální hustoty v bodě 0, která je přímo vztažena k rozptylu dané časové řady (zbaveného vlivu možných autokorelací). ii. Konstrukce konvergenčních diagnostik není v zásadě nijak obtížná, neboť jde jen o vytvoření funkcí s odpovídajícími algoritmy. Zajímavým aspektem je však případ, kdy je potřeba generovat více řetězců s rozptýlenými počátečními hodnotami. Obvyklý způsob je ten, že se posteriorní rozdělení aproximuje směsí (kompozice) vícerozměrných hustot normálního rozdělení, se středními hodnotami odpovídajícími nalezeným modům posteriorní hustoty a rozptylem vycházející z druhých parciálních derivací jader posteriorních hustot vyhodnocených v těchto modech. P{x) = ^wfc(27r)-d/2|Efc|-1/2exp (-±(x - Mfc)'^1^ - Mfc)) Takto konstruované kompozice mají samozřejmě své váhy ui^, které se získají tak, aby aproxima-tivní hustota P odpovídala původní hustotě P svou funkční hodnotou právě v oněch modech, tedy P(p-k) = P(p-k) pro k = 1,..., K. Pokud jsou mody dobře od sebe odděleny, je ui^ přibližně proporcionální \'Ľk\1^žP(lJ-k)- V našem případě máme unimodální rozdělení a není tak další mody třeba hledat. Vzorky z přerozptýleného rozdělení (overdispersed distribution) de pa získají tak, že se generují náhodné výběr z aproximativní kompozice normálních rozdělení a následně se každý vektor násobí skalární náhodnou veličinou, kdy je obvyklá volba náhodné veličiny z dělená rj. Výsledkem je pak v podstatě nové rozdělení, které odpovídá kompozici vícerozměrných í-rozdělení. K P{x) oc J2^k\-1/2 PkY^ix - fik))~id+n)/2 k=l Konzervativn volba je 77 = 1 (Cauchyho rozděleni), prakticky je obvyklá volba 77 = 4. Gelman a Rubin dále zavádějí k metodu importance resampling pro odstranění výběrů z příliš odlehlých oblastí posteriorní hustoty. Nejedná se o nic složitého, fakticky jde o metodu bootstrapu aplikovanou způsobem, kdy se vygeneruje TV výběrů z vícerozměrného í-rozdělení (škálovaná náhodná veličina z vícerozměrného normálního rozdělení) a pro každý výběr se spočítá váha P(x)/P(x) (stačí počítat s jádry hustot). Následně se vybere jeden vzorek s pravděpodobnostmi danými oněmi spočítanými vahami. Tento postup výběru (bez nahrazování) se postupně opakuje (tzn. ve druhém kroku se vybírá z N-l zbylých výběrů) až dokud nemáme potřebný počet m vzorků počátečních hodnot parametrů. 2 iii. Podrobnosti k metodě Brookse a Gelmana jsou obsahem prezentace „Konvergenční diagnostiky" a samozřejmě i jejich (vcelku čtivého) článku. 2. Importance sampling Cílem tohoto úkolu je osvojení techniky importance sampling a pochopení vlastností tohoto postupu. Předpokládejme zcela jednoduchý model s jediným parametrem 9, jehož posteriorní hustota odpovídá TV(0,1). (a) Vytvořte program počítající posteriorní střední hodnotu a směrodatnou odchylku parametru 9 pomocí Monte Carlo integrace. (b) Vytvořte program počítající posteriorní střední hodnotu a směrodatnou odchylku parametru 9 za použití techniky importance sampling a spočítejte rovněž střední hodnotu a směrodatnou odchylku použitých vah. Jako importance function použijte funkci hustoty pravděpodobnosti í(0,1, v). i. Metoda importance sampling využívá generování vzorků ze známé kandidátské hustoty (importance function) a zahrnuje počítání vah jakožto podílů jader posteriorní hustoty a kandidátské hustoty vyhodnocené ve vygenerovaném kandidátovi. Výpočet středních hodnot funkcí parametrů, které nás zajímají pak vyžaduje provedení Monte Carlo integrace, kde místo aritmetických průměrů využíváme vážené průměry s vypočtenými vahami z „importance sampleru". (c) Proveďte Monte Carlo integraci a importance sampling pro různé hodnoty v, např. v = 2, 5 a 100 pro daný počet replikací (např. R = 10). Porovnejte přesnost odhadů pro oba algoritmy a různou volbu v. Všimněte se co se děje s váhami při zvyšujícím se v. (d) Zopakujte část (c) při využití í(3,1, v) jakožto importance function. Diskutujte faktory ovlivňující přesnost importance sampling ve světle skutečnosti, že importance function jen slabě aproximuje posteriorní hustotu. (e) Vyzkoušejte i jiné importance function, např. U (a, b), měňte i počet replikací R. (f) Vypočítat požadované momenty posteriorní hustoty s využitím importance samplingu je vcelku jednoduchá záležitost. Existuje ale způsob, jak získat pomocí importance samplingu a s využitím umění generovat vzorky z importance funkce i přímo vzorky odpovídající posteriornímu rozdělení? i. Myšlenka, jak na to není zas tak obtížná. Co máme k dispozici jsou jednak výběry z importance funkce, ale i velmi důležité váhy. Kdyby tedy existovala metoda, která by pro nějaký vzorek dat dokázala vybírat náhodné výběry, a to navíc i tak, že bychom mohli definovat s ajkou pravděpodobností se ten který prvek původního výběru může vybrat, tak máme vyhráno. ii. Touto metodou je metoda bootstrapu. V základním principu se nejedná o nic jiného, než o metodu, která vygeneruje z nějakého mepirického rozdělení náhodný výběr (o požadované délce) tak, že pravděpodobnost výběru z každého vzorku je stejná. Máme-li tedy výběr o velikosti 100, každý z těchto prvků se bude vybírat s pravděpodobností 1 %, přičemž si sami můžeme zvolit, jestli se bude jednat o výběr s nahrazováním (to znamená, že po výběru nějakého prvku z empirického rozdělení tento prvek zůstává a v dalším kole může být vybrán znovu) prvku nebo bez nahrazování (když nějaký prvek vybereme, už jej v druhém kole vybrat nemůžeme). V našem případě využijeme samozřejmě variantu s nahrazováním, což je právě princip bootstrapu (druhý případ by odpovídal situaci, kdybychom potřebovali vybrat náhodnou podmnožinu výběru). Takovýto boostrapový generátor si zvládneme vytvořit sami: stačí umět generovat čísla z uniformního rozdělení (pro 100 pozorování např. na intervalu 0 až 100, funkce rand transformovaná do požadovaného intervalu), která zaokrouhlíme na celá čísla (funkce ceil) a získáme tak index prvku, který z našeho vektoru dat máme vybrat. To opakuje tolikrát, kolik budeme chtít výběrů (počet výběrů nemusí odpovídat počtu prvků původního vektoru). iii. V našem případě ale nechceme vybírat prvky z kandidátské hustoty se stejnou pravděpodobností. Chtěli bychom předchozí proceduru modifikovat tak, aby pravděpodobnosti, s jakými budeme vybírat jednotlivé prvky vektoru byly proporcionální váhám získaným z importance samplingu. I zde bychom si příslušnou funkci mohli naprogramovat sami, např. tak, že si jednak nanormujeme váhy na jedničkový součet, vyhodíme prvky s nulovými vahami a vytvoříme nový umělý vzorek, ve kterém počet každého z prvků zvýšíme proporcionálně jeho váze (pravděpodobnosti). Následně pak na takto 3 rozšířený vzorek aplikujeme metodu bootstrapu popsanou výše (i když každý prvek má stejnou pravděpodobnost výběru, jeho početní zastoupení zajistí požadovanou pravděpodobnost danou původními vahami). iv. Abychom si ale ulehčili práci, mužem využít funkci bootstrp Statistického toolboxu. Tato funkce má různé podoby volání, ale my budeme potřebovat podobu: [bootstat, bootsam] = bootstrp (1, [ ] , theta_IS, Weights,-weight_IS) ; kde bootstat by za normálních okolností obsahovalo boostrapované statistiky či funkce původního vzorku, bootsam obsahuje boostrapované indexy ze vzorku proměnných (v našem případě vektoru) theta_IS (tyto indexy pak použijeme pro výběr z vektoru theta_IS), [ ] je prázdný argument, kde by za jiných okolností byla funkce nebo vektro funkcí aplikovaný na náš bootstra-povaný vzorek (např boostrapované střední hodnoty, směrodatné odchylky apod.), theta_IS je vektor parametrů z kandidátské hustoty a weight_IS je vektor odpovídajících vah z importance samplingu. Weights ' je dodatečná volba funkce bootstrp, umožňující zavést požadované váhy. Jednička ve funkci pak říká, že chceme jeden jediný bootstrapový vzorek (o stejné vleikosti jako vektor theta_IS). Kdybychom dali např. hodnotu 2, potom by se vytvořily dva vzorky a bootsam by byla matice indexů (o dvou sloupcích). 3. Lion Forest je velmi úspěšný profesionální hráč golfu. Ve věku 45 let však jeho hra přestala být tou, kterou bývala dříve. Svou profesionální kariéru začal, když mu bylo 20 a o 45. narozeninách se začal zajímat o analýzu historického průběhu svých vsledků s tím jak postupně stárnul. Soubor go 1 f . m obsahuje údaje o jeho konečném skóre (skutečné skóre mínus par) ze 150 turnajů spolu s údaji o věku (v jednotkách odpovídajících deseti letům). V souboru jsou obsaženy výsledky z šesti hlavních turnajů (pro každý rok) v průběhu posledních 25 let. Označíme-li si výsledek turnaje jako SCO RE a jeho věk jako AGE, odhadněte následující model a pokuste se i o modelovou predikci jeho výsledků v rámci vzorku: SCORE = /3i + f32AGE + f3aAGE2 + f34AGE3 + e. (a) Odhadněte model za předpokladu nezávislé normální-gama apriorní hustoty. (b) Ověřte (pomocí porovnání modelů), který z modelů je vhodnější, zda-li kvadratický nebo kubický. (c) Použijte modelové predikce (v rámci vzorku, tzn. pro věk od 20 do 45 let) pro zodpovězení následujících otázek: i. V jakém věku byl Lion na vrcholu své kariéry? ii. V jakém období jeho věku docházelo ke zlepšování jeho hry, a to rostoucím tempem? iii. V jakém období docházelo ke zlepšování Lionovy hry, a to klesjícím tempem? iv. Ve kterém věku začal hrát Lion hůře než na začátku své kariéry (ve věku 20 let)? v. Od kterého věku Lion už nebyl (či nebude) schopen hrát pod par? (v průměru) (d) Když bude Lionovi 70, bude (podle našho modelu) schopen zahrát turnaj na 100 úderů? Předpokládáme, že par je 72. 4. Odhad hysterezní Phillipsovy křivky Jednoduchý model Phillipsovy křivky je možno nalézt v článku Roberta Gordona z roku 1989. V tomto modelu je jednoduchá verze hypotézy přirozené míry nezaměstnanosti, která propojuje inflaci irt a míru nezaměstnanosti Ut, zapsána následovně: 7rt = mrt_i+/3(t/t-t/t*). (1) Parametr a vyjadřuje setrvačnost v očekávání inflačního vývoje ajedná se tak o jistý druh adaptivních očekávání. Umožníme-li existenci jevu hystereze, můžeme definovat pravidlo, podle kterého se vyvíjí rovnovážná míra nezaměstnanosti U* (reprezentována úrovní NAIRU): u; = jfUt-i + zt (2) 4 Hystereze tedy nastává v případě, kdy Č7t* závisí na zpožděné hodnotě míry nezaměstnanosti Ut-i a na mikroekonomických determinantech reprezentovanými proměnnou Zt. Tyto mikroekonomické determinanty můžeme ztotožnit s těmi, které uvádí Friedmann v rámci své hypotézy o přirozené míře nezaměstnanosti. Spojením obou vztahů získáme: wt = airt-i+l3(Ut-riUt-i-Zt). (3) Následná transformace vede k rovnici: 7Tt = mrt_i + 13(1 - jf)Ut + f3v(Ut - Ut-i) - f3Zt. (4) Tuto rovnici využijte k empirickému testování hypotézy hystereze. Všimněte si teoretických aspektů a implikací, které nám předpoklad hysterezního charakteru nezaměstnanosti přináší. Je zřejmé, že pro rj = 1 nastává případ "plné hystereze". V tomto případě již nebude existovat jedinečné Č7t* a rovnovážná úroveň nezaměstnanosti bude zcela variabilní veličinou nemající svou ustálenou (steady state) hodnotu. „Plná hystereze" má zásadní dopad na vztah inflace a nezaměstnanosti. Inflace v tomto případě nebude záviset na aktuální úrovni nezaměstnanosti, ale jen na změně v nezaměstnanosti. To je samozřejmě v protikladu s hypotézou o přirozené míře nezaměstnanosti, které by odpovídal případ rj = 0. Rovnovážná úroveň nezaměstnanosti by v tomto případě plně reflektovala mikroekonomické determinanty reprezentované proměnnou Zt. Jakýmsi kompromisem pak jsou hodnoty rj € (0; 1), které připouštějí existenci inflačních tlaků jak ze strany aktuální úrovně nezaměstnanosti, tak i ze strany změn v míře nezaměstnanosti. Tento případ umožňuje existenci ustálené úrovně nezaměstnanosti, tedy úrovně, která nebude akcelerovat míru inflace a bude dlouhodobě udržitelná. Aktuální rovnovážná úroveň nezaměstnanoti bude mít tendenci k této ustálené úrovni konvergovat. Čím více se bude hodnota parametru rj blížit jedné, tím pomalejší bude přizpůsobování NAIRU svému ustálenému stavu a tím menší budou "inflační náklady" (v důsledku akceleračních tlaků na růst cenové hladiny) expanzivní, poptávkově orientované hospodářské politiky cílené na snížení míry nezaměstnanosti. (a) Úkol: K dispozici máte čtvrtletní data o nezaměstnanosti (sezónně očištěné) a meziroční inflaci (pro ČR se jedná o čistou inflaci, pro Nový Zéland o inflaci spotřebitelskou, počítanou na základě CPI). Pro Českou republiku jsou data od 2. čtvrtletí 1995 do 3. čtvrtletí 2007, pro Nový zéland od 2. čtvrtletí 1991 do 3. čtvrtletí 2007. Níže uvedené úkoly řešte pro ekonomiku České republiky nebo ekonomiku Nového Zélandu (případně pro obě) a kriticky diskutujte dosažené výsledky. Alternativně se pokuste získat novější data pro zkoumané ekonomiky nebo data pro ekonomiku vlastní (viz např. databáze OECD, kdy pro plnohodnotný přístup je potřeba jít přes proxy-server naší knihovny, či databáze Eurostatu). (b) Výchozí soubor je gordon_bayes_zadani .m, data jsou obsahem souborů gordon_data_CZ .mat a gordon_data_NZ.mat. (c) Odhadovaný ekonometrický model má v souladu s rovnicí (4) následující podobu (model je chápán jako normální lineární regresní model s nezávislou normální-gama apriorní hustotou): 7Tt = Ai + A27rt_i + A3č7t + A4(č7t - Ut-i) + et. (5) (d) Předpokládáme, že strukturální charakteristiky jsou v čase neměnné a náhodná složka splňuje obvyklé požadavky. Odhadněte parametry tohoto modelu (využijte Gibbsův vzorkovač) a na jejich základě pak zpětně získejte původní strukturální parametry. Apriorní hustotu obohaťte o informaci, týkající se přípustných hodnota parametrů rj, tedy o informaci, že rj € (0,1). Nezapomeňte ověřit konvergenci. i. Využijte výsledky ze čtvrté kapitoly pro vytvoření odpovídajícího Gibbsova vzorkovače. Pracujeme totiž stále s lineárním regresním modelem s nezávislou normální-gama apriorní hustotou. ii. Zakomponování apriorního omezení na parametr rj je velmi snadné. V rámci generování vzorků redukované formy modelu si vždy spočítáme původní strukturální parametry a vzorky v daném kroku replikací generujeme tak dlouho, dokud nebude splněna podmínka, že ryje v intervalu nula až jedna. Dobré je rovněž uchovat si informaci o tom, kolik vzorků se vygenerovalo celkem, protože tím získáme důležitou hodnotu pro výpočet odpovídající integrační konstanty pro omezené vícerozměrné normální rozdělení (využitelné to je v rámci konstrukce Savage-Dickey ho poměru hustot, protože v něm potřebujeme znát plné hustoty a nikoliv jen jejich jádra). 5 (e) Vypočítejte jednotlivé pravděpodobnosti modelu, které odpovídají platnosti hypotézy o přirozené míře nezaměstnanosti, hypotézy hystereze a teorii NAIRU. Model odpovídající teorii NAIRU tak bude neomezený model, zbylé dva modely budou odpovídat vnořeným modelům 77 = 0 resp rj = 1. Vypočítejte tedy příslušné Bayesovy faktory (na základě Savage-Dickey poměru hustot. (f) Díky znalosti „law of motion" pro vývoj NAIRU nasimulujte jeho trajektorii a sestrojte i příslušné 95% intervaly spolehlivosti. i. NAIRU v kontextu oné rovnice není nic jiného než funkce pozorovaných (minulých) hodnot nezaměstnanosti a parametrů rj a Zt (chápané jeko část úrovňové konstanty). ii. Střední hodnotu a rozptyl jakékoliv funkce paramtrů jsme pomocí Monte Carlo integrace schopni velmi snadno spočítat. V tomto případě máme totiž vygenerované platné výběry s psoteriorní hustoty) a tudíž jsme schopni snadno generovat i rozdělení NAIRU. iii. Vcelku efektivní může být zachování vygenerovaných vzorků pomocí Matlabovské funkce save. (uložení do .mat souboru). Příslušný datový soubor si pak můžeme načíst v rámci nového skriptu věnovanému simulaci NAIRU. 5. Soubor cocaine . m obsahuje 56 pozorování proměnných vztahujících se k prodeji kokainu v severovýchodní Kalifornii v období 1984-1991. Data jsou podmnožinou dat použitých ve studii Culkins, J.R a Padman, R. (1993): „Quantity Discounts and Quality Prémia for Illicit Drugs," Journal of the American Statistical Associ-ation, 88, 748-757. Proměnné jsou • price = cena za gram kokainu v rámci dané transakce; • quant = počet gramů kokainu prodaných v dané transakci; • qual = kvalita kokainu vyjádřená jako procento čistoty; • trend = časová proměnná s hodnotami od 1984=1 až po 1991=8. Předpokládejme regresní model price = /3q + /3iquant + ^qual + fi^trend + e. (a) Jaká znaménka koeficientů byste očekávali u parametrů $2 a Aí? (b) Odhadněte daný model (předpokládáme, že se jedná o NLRM s nezávislou normální gama apriorní hustotou). Zvolte si vhodné hyperparametry dle vašich zkušeností. Jsou znaménka parametrů v souladu s vašim očekáváním? (c) Říká se, že čím větší objem obchodů, tím větší riziko, že vás dostihne ruka zákona. Prodejci tak jsou ochotni akceptovat nižší cenu, pokud prodávají větší množství. Pokuste se testovat tuto hypotézu. (d) Ověřte hypotézu, že kvalita kokainu nemá vliv na jeho cenu. (e) Jaká je průměrná roční změna ceny kokainu? Zamyslete se nad tím, proč by se měla cena takto měnit. 6. Každé ráno mezi 6:30 a 8:00 opouští Bili Melbournské předměstí Carnegie, aby se dostal do práce na University of Melbourne. Čas, který Bili stráví cestou do práce, Ume, závisí na času odjezdu, depart, počtu červených světel na semaforech, reds a počtu vlaků, kvůli kterým musí čekat na Murrumbeenském přejezdu, trains. Pozorování těchto proměných je celkem získáno za 231 pracovních dní v roce 2006 a jsou obsahem souboru commute .m. Proměnná Ume je měřena v minutách, depart je počet minut po 6:30, které uplynou než Bili vyrazí z domu. (a) Odhadněte rovnici (v kontextu NLRM s nezávislou normální gama apriorní hustotou) Ume = /30 + Pidepart + /32reds + fi^trains + e. (b) Jaká znaménka koeficientů byste očekávali u parametrů Pi, P2 a Aí? 6 (c) Otestujte hypotézu, že každé červené světlo zpozdí Billa nejméně o 2 minuty. (d) Testujte hypotézu, že čas odjezdu nemá vliv na čas strávený cestováním. (e) Otestujte hypotézu, čas cestování navíc díky čekání na jednom semaforu je stejný jako čas čekání průjezdu jednoho vlaku. 7