Bayesiánská analýza Vybrané konvergenční diagnostiky Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 1/47 Konvergenčnŕ diagnostiky - přehled Q Konvergenční diagnostiky - úvod O Gelman a Rubin (1992) rooks a Gelman (1998) O Geweke (1992) © Yu a Mykland (1994) Bayesiánská analýza (BAAN) Konvergencí diagnostiky Konvergenčnľ diagnostiky - úvod Q Konvergenční diagnostiky - úvod $ Gelman a Rubin (1992) Brooks a Gelman (1998) Geweke (1992) Yu a Mykland (1994) Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 3/47 Konvergenční diagnostiky - úvod Konvergence MCMC • Cowles a Carlin (1996) + původní články . 9 Problém, kdy ukončit MCMC algoritmus. 9 Otázka - kdy můžeme předpokládat reprezentativnost vzorků z hlediska stacionarity rozdělení MC řetězce. 9 Obecnější označení konvergence než je obvyklé pro iterativní postupy. • Důvod - výsledkem algoritmu není číslo či rozdělení, ale jen výběr z rozdělení. 9 Markovovský charakter algoritmu = vzorky jsou navzájem korelovány =4> zpomalení algoritmu z hlediska efektivity výběrů z celého stacionárního rozdělení =4> negativní ovlivnění Monte Carlo odhadu variance odhadu charakteristik modelu na základě výstupu. < tg? ► < ► 1 -O°sO Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 4/47 Konvergenční diagnostiky - úvod Konvergence MCMC - řešení problému I • Dvě oblasti řešení. • 1. teoretická: • analýza Markovského jádra přechodu řetězce predeterminace počtu iterací zajišťujících konvergenci v rámci definované tolerance od skutečného rozdělení; • sofistikovaná matematika a pracné výpočty pro každý model (modelově specifické); • mnohdy získané meze dosti volné (o několik řádu přesahují počet iterací vyhovujících v praktických aplikacích). Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 5/47 Konvergenční diagnostiky - úvod Konvergence MCMC - řešení problému II • 2. aplikace diagnostických nástrojů: • aplikace na výstup algoritmu; • první pokusy - porovnání empirických rozdělení výstupů na základě po sobě jdoucích iterací (konvergence na základě „zanedbatelnosti" rozdílu dvou po sobě jdoucích iterací); • generátory využívající velký počet paralelních, nezávislých řetězců k získání odhadu jednoduchých momentů, kvantilů a hustot; • hojně užívaná diagnostika ,,thick felt-tip pen test" (Gelfand a Smith (1960)) - konvergence v případě, kdy odhady hustot vzdálené od sebe dostatečně daleko (dostatečný počet běhuů), aby byly nezávislé (např. 5 iterací) se lišily graficky méně než tloušťka onoho fixu; • problém - nevyužití předkonvergenčních vzorků (masivní paralelní přístup) + identifikace předčasné konvergence pro „pomalu se mísící" vzorkovače. Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 6/47 Konvergenční diagnostiky - úvod Konvergence MCMC - řešení problému III • Měření vzdálenosti výběrového rozdělení ve dvou iteracích, ne rozdíl příslušného rozdělení od skutečného (teoretického). 9 Stacionární rozdělení vždy neznámé (v praxi) =4> problém jakékoliv konvergenční diagnostiky. • =4> dle řady teoretiků všechny tradiční diagnostiky zcela špatné. • Stejný závěr i v jiných oblastech využívajících MCMC metody (fyzika, operační výzkum). • Mnoho statistiků tyto diagnostiky využívá - „slabá" diagnostika vždy epsi nez zadna. Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 1 j AI Konvergenční diagnostiky - úvod Konvergenční diagnostiky - kategorizace I • 1. Diagnostika konvergence kvantit pro jednorozměrný případ (jedna proměnná) nebo pro celou sdruženou hustotu. • 2. Výsledky kvantitativní nebo kvalitativní (např. grafické). • 3. Diagnostika analyzuje problém zkreslení (rozdíl odhadu kvantit, které nás zajímají na základě iterací od skutečných hodnot cílového rozdělení) a rozptylu výsledných odhadů charakteristik (tzn. kvalita odhadů) stacionárního rozdělení (téměř všechny diagnostiky usilují o odhalení zkreslení pocházející z výběrů, které nereprezentuje příslušné rozdělení). • 4. Metoda využívá jediný řetězec nebo několik paralelních řetězců. Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 8/47 Konvergenční diagnostiky - úvod Konvergenční diagnostiky - kategorizace II • 5. Diagnostiky říkající uživateli kolik (autokorelovaných) výběrů je třeba generovat k odhadům, jejichž variabilita je dostatečně malá (kvůli věrohodnosti jejich přesnosti). • 6. Diagnostiky modelově specifické, jen pro Gibbsův vzorkovač nebo pro jakýkoliv MCMC algoritmus. • 7. Snadnost použití - existence obecného kódu; obecný kód je třeba napsat a aplikovat na MCMC výstup jakéhokoliv problému; potřeba problémově-specifického kódu; potřeba analytického odvozenia problémově-specifického kódu. Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 9/47 Gelman a Rubin (1992) 9 Konvergenční diagnostiky - úvod O Gelman a Rubin (1992) O Brooks a Gelman (1998) O Geweke (1992) 0 Yu a Mykland (1994) Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 10 / 47 Charakteristika Gelman a Rubin (1992) • Dvoukrokový algoritmus. • Původně vytvořený pro Gibbsův vzorkovač. • Fakticky uplatnitelný pro výstup jakéhokoliv MCMC algoritmu • Pro jednotlivé parametry (funkce parametrů). < S1 ► < -ž ► < -E ► -E -O Q, O Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 11/47 Gelman a Rubin (1992) rvní krok 9 Před algoritmem generování vzorků. • Zisk rozptýlených počátečních hodnot (z cílového rozdělení). • hledají se mody (K modů) cílového rozdělení —>» pro každý z nich matice druhých derivací—^ oblasti nejvyšších posteriorních hustot jsou aproximovány mixem K vícerozměrných normálních rozdělení (se střední hodnotou fík a varianční matici Y.k odpovídající matici druhých derivací v každém modu); • vzorky z rozptýleného rozdělení: výběr z mixu normálních rozdělení a každý vzorek dělen skalární náhodnou veličinou (obvykle volba z dělená rf) —>» nové rozdělení mixem vícerozměrných r-rozdělení; konzervativní výběr je r\ = 1 (Cauchyho rozdělení). • 10 počátečních hodnot (unimodálního rozdělení), více hodnot (multimodální případ). 1 -O°sO Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 12 / 47 Gelman a Rubin (1992) Druhý krok 9 Pro každou skalární kvantitu na základě vygenerovaných vzorků. • Vzorky délky 2n; n iterací využíváme: • k odhadu cílového rozdělení požadované skalární kvantity (jakožto konzervativního r-rozdělení); • k odhadu scale parametru zahrnujícího rozptyl mezi vzorky a v rámci vzorku; • ke zjištění konvergence na základě odhadu faktoru popisujícího jak by se mohl scale parametr zmenšit, pokud by délka vzorku šla k nekonečnu. Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 13 / 47 Odhad faktoru Gelman a Rubin (1992) n-1 m+1B -+ n df m + nW J df -2 • B - rozptyl mezi středními hodnotami m paralelních řetězců; • 1/1/ - průměr m variancí (rozptylů) v rámci řetězců; 9 df - počet stupňů volnosti aproximativní t-hustoty; • na počátku je B mnohem větší než W pro pomalu se mísící vzorkovače (řetězce startují z rozptýlených pozici vzhledem k cílové hustotě). Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 14/47 Test konvergence Gelman a Rubin (1992) 9 Návrh dodatečných iterací paralelních řetězců dokud „faktor zmenšení" pro všechny kvantity nebude blízko 1. 9 Analýza na základě posledních n iterací všech řetězců. 9 Bodové odhady a .975 kvantily „faktoru zmenšení". • Empirické kvantily vzorkovaných kvantit z celých vzorků. • Odhadované kvantily Studentova r-rozdělení. Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 15 / 47 Gelman a Rubin (1992) Problémy a diskuse 9 Hledání počátečních rozptýlených startovních hodnot cílového rozdělení. • Normální aproximace pro diagnostiku konvergence (diskutabilní). • „Obhájci" dlouhých řetězců - neefektivní generovat řadu řetězců a vyhození jejich významné části x srovnání běhu jednoho řetězce o délce 10000 (pravděpodobnější konvergence) a 10 nezávislých řetězců po 1000. • Rozšíření pro konvergenci sdružené hustoty - aplikace procedury na —2 krát logaritmus posteriorní hustoty. Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 16 / 47 Brooks a Gelman (1998) Konvergenční diagnostiky - úvod $ Gelman a Rubin (1992) O Brooks a Gelman (1998) Geweke (1992) Yu a Mykland (1994) Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 17 / 47 Charakteristika Brooks a Gelman (1998) Zobecnění a korekce Gelmana a Rubina (1992). Rozšírení diagnostiky Gelmana a Rubina (1992) pro vícerozměrný případ. Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 18 / 47 Brooks a Gelman (1998) Scale Reduction Factor (SRF) I • Skalární náhodná statistika ip, mající střední hodnotu fi a rozptyl a2 v rámci cílového rozdělení. 9 Nevychýlený estimator p, pro /i. • i/jjt označuje ŕ-tou z n iterací statistiky í/j v řetězci j; vezmeme jl — {[).. a počítáme mezisekvenční rozptyl 6/n a rozptyl uvnitř sekvence l/l/: j= m n Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 19/47 Brooks a Gelman (1998) SRF II • Odhad a jako vážený průměr 6 a l/l/. n n • nevychýlený odhad skutečné variance a2 pokud výchozí hodnoty řad jsou výběry z cílového rozdělení; • nahodnocuje a2 pokud je počáteční rozdělení adekvátně přerozptýlené (pokud pře rozptyl e n ost není, potom a\ může být příliš nízké =4> chybná diagnostika konvergence). • při výběrové variabilitě odhadu jl je posteriorní odhad variance V = &l + B/(mn). Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 20 / 47 Brooks a Gelman (1998) SRF a PSRF I—\ XX I / V /V V.VO X V . V O V i I o Porovnaní analýzy napne retezcu a v rámci retezcu - pomer rozptylu a2 • Tzv. scale reduction factor (SRF) - označení spise pro yR =>■ obvykle práce s variance reduction factor (bez odmocniny). • Jmenovatel v /? není znám, třeba odhadnout z dat; získáváme nahodnocený R díky podhodnocení a prostřednictvím W. - \/ m + 15-2 n - 1 o _ _ _____x. _ _ W m W mn • Tzv. potential scale reduction factor (PSRF) = konvergenční diagnostika- ^rSi^ 1 >0°sO Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 21 / 47 Intepretace PSRF Brooks a Gelman (1998) 9 Velké R znamená, že odhad rozptylu a lze snížit více simulacemi nebo další simulace zvýší l/l/, neboť simulace neprošly zcela cílové rozdělení. o PSRF blízký jedné naznačuje, že každý z m řetězců n simulací se V ■ I I XV ■ I XI X I v I ' priblížil cílovému rozděleni. Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 22 / 47 Brooks a Gelman (1998) Korigovaný SRF • Doladění PSRF pro výběrový rozptyl. o Odhad stupňů volnosti d pro Studentovu r-aproximaci cílového rozdělení. • Odhad metodou momentů: d « 2V/var(V). 9 Gelman a Rubin (1992) - nekorektně použitý faktor d/d — 2 -reprezentuje poměr rozptylů a normálního rozdělení (problémy nekonečnosti či negativních hodnot pro příliš pomalou konvergenci, kdy d < 2). • Korektní faktor {d + 3)/(d + 1); vychází z vyhodnocení Fisherovy informace pro rozdělení, koriguje V o stupně volnosti, na kterých je založen. • Zanedbatelný význam korekce (při konvergenci je d obrovské). S_d+3~_d+3V "c d + 1n d+lW Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 23 / 47 Brooks a Gelman (1998) Iterující grafický přístup - motivace • Gelman a Rubin (1992) - pro konvergenci nutné Rc blízko jedné pro všechny parametry. • Tento postup ignoruje celou informaci dostupnou v simulacích; pro konvergenci nutné podmínky: O Mix (kompozice) rozptylu sekvencí V by se měl stabilizovat jako funkce n (před konvergencí předpokládáme č>\ klesá s n a roste tehdy pokud řady prozkoumávají novou oblast parametrického prostoru původní řady nebyly dostatečně přerozptýlené pro konkrétní skalární statistiku, která je monitorována) Q Rozptyl v rámci řady W by se měl stabilizovat jako funkce n (před konvergencí očekáváme, že W je menší než V). O Rc by se měl blížit jedné. • Pozorování samotného Rc předpokládá jen třetí podmínku. Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 24 / 47 Brooks a Gelman (1998) Iterující grafický přístup • Rozdělení m sekvencí na části délky b. • Výpočet V(k), W(k) a Rc založený na druhé polovině pozorování řad délky 2kb pro k — 1,..., n/b (pro dostatečně velké n). o Vyhazujeme první polovinu každého vzorku (kompromis) - více vyhozených vzorků = diagnostika založená na příliš malé části vzorku; méně vyhozených vzorlů = vzorek pozorování použitý v každé iteraci by se měnil velmi pozvol n u (/? by zůstával vysoký příliš dlouho) =4> diagnostika rozpozná kovergenci později, než je žádoucí. 9 Vykresleni konvergence vzhledem ke k nebo 2kb. • Volba b\ malé b zvyšuje výpočetní náročnost, velké b dává malou dodatečnou informaci ve smyslu pozorování konvergence =4> ze zkušenosti b « n/20. Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 25 / 47 Brooks a Gelman (1998) Iterující grafický přístup - další diagnostiky • Vykreslení nejen Řc(k) vzhledem ke k. <* Další užitečné diagnostiky: vykreslení dvou scale faktorů V1/2{k) a l/l/1/2(/c) jako funkci k do jednoho obrázku (mocnina | z důvodu přímé interpretovatelnosti faktorů jako „scale" faktorů). • Aproximativní konvergence - obě křivky se stabilizují (podmínky 1 a 2), a to na stejné hodnotě (podmínka 3) Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 26 / 47 Brooks a Gelman (1998) Zobecnění pro jednorozměrný případ • Omezení původní diagnostiky = předpoklad normality marginálního rozdělení každé skalární kvantity íp (normalitu předpokládáme expicitně využitím korekčního faktoru (d + 3)/(c/ + 1) a implicitně porovnáním mísících se řetězců pozorováním středních hodnot a rozptylů). • MCMC metody - využití pro vysoce nenormální a multimodální hustoty =4> definice rodiny dalších PSRF s vlastností, že R —> 1 v rámci konvergence + nevyžadován předpoklad normality. 9 Alternativní interpretace diagnostiky R - poměr (čtverců) intervalových délek (oproti poměru rozptylů). • Pro dostatečně dlouhé sekvence - hledáme 100(1 — a)% interval pro nějaký parametr íp —>► konstrukce R na základě posledních n z 2n iterací. Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 27 / 47 Brooks a Gelman (1998) Intervalový PSRF Postup konstrukce: • 1. z každého řetězce vezmeme empirický 100(1 — a)% interval (tzn. 100^% a 100(1 — a/2)% bod n nasimulovaných výběrů) vytvoříme m intervalových odhadů v rámci jednotlivých řetězců —>» IL, 2. z celé množiny mn pozorování (ze všech řetězců) spočítáme empirický 100(1 — a)% interval odhad délky intervalu úplné řady TIL • 3. spočítáme R definované jako R - TIL ^interval — i „m 9 Jednoduchá metoda, Rinterval Je PSRF (založený na délce empirických intervalů, jakožto nositel informace o konvergenci), podobně jako na normalitě založená diagnostika se blíží jedné v případě konvergence řetězce. Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 28 / 47 Brooks a Gelman (1998) Pravděpodobnost pokrytí o Postup konstrukce: • 1. z každého řetězce vezmeme krajní body 100(1 — a)% interval pro odhad intervalu v rámci řetězce • 2. pro každý z intervalů odhadneme empirickou pravděpodobnost pokrytí intervalu na základě kombinace všech m řetězců, tj. počítáme podíl pozorování ze všech m sekvencí spadajících do příslušného intervalu • 3. spočítáme průměrnou empirickou pravděpodobnost pokrytí m intervalů; v konvergenci bude rovna nominální pravděpodobnosti pokrytí 1 — a. Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 29 / 47 Brooks a Gelman (1998) Neintervalové přístupy Předpokládáme-li existenci vyšších momentů, které nás zajímají—^ nahrazení čitatele a jmenovatele ve vztahu pro původní PSRF empirickými odhady centrovaných momentů s-tého řádu ze všech řetězců dohromady respektive průměrný s-tý moment počítaný pro každou sekvenci: mn- Bayesiánská analýza (BAAN) □ S1 ~ = Konvergencí diagnostiky Podzim 2018 30/47 Brooks a Gelman (1998) Grafické zobrazení o Odpovídající grafické znázornění: souběžné vykreslení čitatele a jmenovatele Rinterval nebo Rs pro sekvence délky 2kb, k = 1,..., n/b. • Měřítko momentu druhého řádu R2 podobné původně definovanému R. 9 Zanedbání korekčního faktoru (nepředpokládáme normalitu + zanedbatelný vliv na rozhodnutí o dosažení konvergence). • Pokud Rc < 1 měli bychom mít dost pozorování (tudíž výběrová variabilita zanedbatelná). 9 V případě nezanedbatelného vlivu: řetězce nekonvergovaly a R = V/W je tak jak tak vysoké. • V případě nutnosti lze korekční faktor vhodně přepočítat (myšlenka aplikace semi-parametrického bootstrapu). 1 -O°sO Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 31 / 47 Brooks a Gelman (1998) V/ V / \f /v / icerozmerne rozšířeni o Řada možností pro rozšíření. • Přímá analogie jednorozměrného přístupu: íp je vektor parametrů, vzorek íjjj^ označuje /-tý prvek vektoru parametrů v řetězci j v čase t odhad posteriorní veriančně-kovarianční matice 2 m n " ' i=l t=l W = m[n — ■ 7=1t= m f f f j 7=1 > 6 je p-rozměrný odhad mezisekvenční kovarianční matice, W je p-rozměrný odhad kovarianční matice v rámci sekvence > sledujeme V a W pro determinaci konvergence v rámci vhodně zvoleného měřítka vzdálenosti. <□►<(*► o^o Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 32 / 47 Brooks a Gelman (1998) Skalární měřítko vzdálenosti • Statistika maximálního kořene: maximum SRF nějaké lineární projekce íp daná jako arVa RP = max ——— & cx Wa a tzv. multivariate PSRF (MPSRF) - lze spočítat níže uvedeným způsobem. • Pro nesingulární, pozitivně definitnía symetrické matice M a N platí: o! M a max = A oí ď Na 9 kde A je největší vlastní číslo pozitivně definitní matice N~ľM bp = zzl + (m±l) Al, n \ m J • kde Ai je největší vlastní číslo symetrické, pozitivně definitní matice W-ľB/n. Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 33 / 47 Brooks a Gelman (1998) MPSRF - vyhodnocení I • Za předpokladu stejných průměrů mezi sekvencemi Ai —>► 0 a tudíž Rp se blíží jedné pro dostatečně velké n. • Nelze spočítat v případě, že 1/1/ je singulární; pokud 1/1/ a B jsou singulární, potom problém (dva nebo více parametrů mohou být silně korelovány). • Pokud jen 1/1/ singulární - problém ve vzorkovači (jedna nebo více proměnných se neposunuje v rámci daného počtu iterací). • V případě nespočítatelnosti Rp (singularita l/l/) - cenná informace na základě determinantů matic B a l/l/. Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 34 / 47 Brooks a Gelman (1998) MPSRF - vyhodnocení II • Důvod pro výběr Rp z jiných zobecnění SRF: lze využít jako aproximaci horní meze maximální jednorozměrné R statistiky přes všech p proměnných. • Pokud pro k — 1,..., p je R(k) jednorozměrná PSRF aplikovaná na /c-tý prvek vektoru 9 a Rmax označuje maximální hodnotu z R(k) pro k = 1,..., p, potom d max ^ ô P Sledování MPSRF vede k pozdější diagnostice konvergence než naznačují obrázky jednotlivýh PSRF (tento rozdíl je měřítkem chybějícího propojení mezi skalárními funkcionály, které sledujeme) Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 35 / 47 9 Konvergenční diagnostiky - úvod 0 Gelman a Rubin (1992) O Brooks a Gelman (1998) O Geweke (1992) 0 Yu a Mykland (1994) Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 36 / 47 Charakteristika Geweke (1992) Metody spektrální analýzy. • Původně pro konvergenci Gibbsova vzorkovače. Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 37 / 47 Princip Geweke (1992) o Zajímá nás střední hodnota nějaké funkce g simulovaných parametrů 6. • V rámci každé iterace získáme g(9^). • Výsledná řada - časová řada. • Gewekova metoda - předpoklad, že podstata M C M C procesu a funkce g implikuje existenci spektrální hustoty Sg(uj) pro tuto časovou řadu, která nemá nespojitosti v nulové frekvenci. Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 38 / 47 Konvergenční diagnostika I • Za předchozího předpokladu - estimátor E[g-(#)] založený na n iteracích g" =-n- • Jeho asymptotická variance je Sg(0)/n. 9 Odmocnina tohoto rozptylu pro odhad standardní chyby střední hodnoty ("numeric standard error"- NSE). Geweke (1992) Konvergenční diagnostika II • Gewekova diagnostika (CD) po n iteracích: o rozdíl mezi střední hodnotou (průměrem) g^ - na základě prvních ha iterací a g„ - na základě posledních A7#; • dělení asymptotickou standardními chybami (vypočítané na základě spektrální hustoty) obou částí. • Pokud ha/n a ns/n jsou pevná čísla a + ns < n =4> dle centrální limitní věty rozdělení této diagnostiky se blíží standardizovanému normálnímu rozdělení (pro n jdoucí k nekonečnu). Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 40 / 47 Praktická aplikace Geweke (1992) • ľlA = . 1 n a ríš — .5a7. • Kovergence pro \ CD\ < 2 (95% interval spolehlivosti). 9 Lze využít pro zjištění kolik výchozích iterací vyhodit, poté musí běžet dostatečný počet iterací pro získání požadované přsnosti (NSE). • Rozšíření pro konvergenci sdružené hustoty - aplikace procedury pro g{9) rovnému —2 krát logaritmus (jádra) posteriorní hustoty. Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 41 / 47 Geweke (1992) Problémy a hodnocení 9 Gewekova metoda se snaží řešit problém zkreslení i variance (v odhadu požadovaných charakteristik). • Citlivost na specifikaci spektrálního okna (odhad spektrální hustoty) • Kvantitativní diagnostika x Geweke nespecifikuje jak proceduru aplikovat (ponecháno na zkušenostech a subjektivním hodnocení výzkumníka). □ iS1 - = Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 42/47 Yu a Mykland (1994) Konvergenční diagnostiky - úvod Gelman a Rubin (1992) Brooks a Gelman (1998) Geweke (1992) O Yu a Mykland (1994) Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 43 / 47 Charakteristika Yu a Mykland (1994) • Grafická procedura založená na vykreslení CU MS U M trajektorie (kumulativní součty). • Aplikovatelnosti na jednorozměrnou sumarizující statistiku (jakou je jeden parametr) z jednoho řetězce. • Aplikovatelnost pro jakýkoliv MCMC algoritmus. Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 44 / 47 Yu a Mykland (1994) Diagnostika - postup • Nejprve třeba použít metodu pro determinaci počtu vyhozených iterací no - např. postupné vykreslení souhrnné statistiky iteraci za iterací. 9 Konstrukce CUSUM trajektorie pro iterace r?o + 1 až n (poslední iterace). • 7~(X) - vybraná souhrnná statistika =4> odhad střední hodnoty na zbytku iterací: Pozorovaný kumulativní (částečný) součet: t Št= E [UXU))-P], t = "o + l,... n j=n0+l □ iS1 - = Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 Yu a Mykland (1994) Diagnostika - CUSUM graf 9 Obrázek vykreslení {St} vzhledem k t = no + 1,..., n a spojení jednotlivých bodů. • Graf vždy začíná a končí v nule. • Čím pomaleji se mísící vzorky —>► graf tím hladší a více se vzdalující od nuly. Opačná analogie. • Srovnání s benchmarkem = CUSUM trajektorie pro IID proměnné z normálního rozdělení se střední hodnotou a rozptylem odpovídajícím výběrové střední hodnotě a rozptylu M CM C vzorků. Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 46 / 47 Yu a Mykland (1994) Shrnutí a hodnocení Odstranění potřeby jiné informace než obsažené v řetězci. • Podobně jako jiné metody - selhání pokud jedny oblasti výběrového prostoru jsou pomaleji se mísící než jiné. • Není to zcela samostatná metoda (potřeba metody pro zjištění počtu počátečních vzorků k vyhození). • Užitečná pro identifikaci vzorkovačů, které jsou natolik pomalu se mísící, že je potřeba nalézt alternativní algoritmus nebo parametrizaci pro projití celého parametrického prostoru v rozumném počtu iterací. • Nepřímo pokrývá otázku variance a zkreslení odhadu (odhaduje závislost mezi iteracemi). □ iS1 - = Bayesiánská analýza (BAAN) Konvergencí diagnostiky Podzim 2018 47/47