BAYESOVSKÉ METODY Marie Hušková OBSAH Předmluva 5 Kapitola 1. Úvod 1.1 Formulace problematiky 7 1.2 Bayesova věta a její použití 10 Kapitola 2. Volba apriorního rozdělení 2.1 Úvod 13 2.2 Konjugované systémy hustot 15 2.3 Princip neurčitosti, Jeffreysova hustota a limitní aposteriomí hustoty 26 2.4 Empirické bayesovské metody 35 Kapitola 3. Statistické rozhodovací funkce 3.1 Formulace problému 38 3.2 Bayesovské rozhodovací funkce 43 Kapitola 4. Úloha odhadu 4.1 Úvod 50 4.2 Bodový odhadj jednorozměrný případ 50 4.3 Bodový odhad; vícerozměrný případ 61 4.4 Věrohodnostní množiny 65 -3- Kapitola 5. Testování hypotéz 5.1 Úvod 70 5«2 Ztrátové funkce používaná při testovaní hypotéz 70 5.3 Testy při *<®0) =0 76 5.4 Testy o střední hodnotě normálního rozdělení 79 Apendix : Přehled použitých rozdělení 86 Literatura 93 \ -4- PŘEDMLUVA Bayesovské metody představují jeden ze základních přístupů teoreticko-pravděpodobnostního myšlení i matematicko-statistických vyhodnocovacích metod. Vychází se z předpokladu, že naše informace (apriorní znalost, zkušenost) a hodnotě neznámého parametru může být vyjádřena pomocí pravděpodobnostního rozdělení, tj. neznámý parametr můžeme považovat za náhodnou veličinu. K závěrům o hodnotě neznámého parametru využijeme jednak apriorní informaci o hodnotě parametru, jednak experimentální výsledky (nezávislé na. této apriorní informaci). Tento přístup byl a dosud je předmětem kritiky mnoha statistiků. Ha bayesovské metody však můžeme hledět jako na metody, které nám poskytují jisté řešení statistických problémů. Bez ohledu na výše zmíněnou kritiku mohou být bayesovské metody užitečné v řadě praktických situací, především v případech, kdy jsou dostupné výsledky obdobných experimentů z minulosti,(např. při kontrole jakosti výrobků). Účelem skript je vyložit základy bayesovských metod v úlohách testování hypotéz a teorie odhadu. Skriptum je rozděleno do šesti kapitol. V první kapitole jsou vyloženy základní principy bayesovské-ho přístupu k řešení statistických problémů. V druhé se čtenář seznámí s možnostmi volby apriorního rozdělení, v další se základy teorie rozhodovacích funkci. Čtvrtá a pátá kapitola je věnována teorii odhadu resp. testování hypotéz. Poslední kapitola obsahuje přehled používaných rozdělení. - 5 - Skriptum bylo napsáno jako pomůcka k přednášce Matematická statistika II., ale může sloužit i širšímu okruhu čtenářů, neboí pokud je mi známo, nebyla dosud v českém jazyce publikována samostatná knížka věnovaná pouze bayesovským metodám. Předpokládá se, že čtenář je seznámen se základy vyšší matematiky a. matematické statistiky na úrovni knihy J. Anděl! Matematická statistika, kap. 1-10, 13—15- Značení je převzato z této knihy. Závěrem bych chtěla poděkovat recenzentovi prof. ing. !F. Fabiánovi, CSc a dr. D. Vorlíčkové za podnětné připomínky a paní I. Marešové za pečlivé přepsání rukopisu. - 6 - 1. ÚVOD 1.1 FORMULACE PROBLJJMATIKY Nechl X * (XX^)' je náhodný vektor s hustotou r(j|e) vzhledem k o R^. Při klasickém (nikoli bayesovskóm) přístupu k problému odhadu parametru 6 nebo testováni hypotézy o § považujeme § za neznámou konstantu popř. vektor neznámých konstant a k závěrům o hodnotě parametru G použijeme pouze I » (i1,... ,Xn)* a tvar rozdělení X. Při bayesovskám přístupu k závěrům o parametru 6 použijeme kromě X ještě informaci (byí neúplnou) o parametru 8, kterou máme k dispozici nezávisle na realizaci X. Mluvíme o tzv. apriorní informaci* Tato informace může mít objektivní či subjektivní charakter, popř. může být kombinací informací obou typů. 0 objektivní apriorní Informaci mluvíme, jestliže využijeme informaci z podobných úloh, problémů z minulosti. Subjektivní apriorní informace vyjadřuje názor či zkušenost nějakého subjektu. Apriorní informace se vyjadřuje předpokladem, že 6 je náhodný vektor popř. náhodná veličina s rozdělením, které je více Si méně známo v závislosti na tom, jak úplnou Si neúplnou informaci o § máme. Výjimečně pracujeme s náhodným 6 jako metodou získání závěrů o parametru 6 (náhodnost tedy nevyjadřuje žádnou apriorní informaci, ale slouží jako prostředek jak obdržet závěry o §). V kapitole 3 uvidíme, že znáhodnění parametru 8 je jedna e možnosti jak zavést uspořádání na množině rozhodovacích funkcí a definovat kritérium optimality. - 7 - Přiklad 1.1. Uvažujme problém odhadu kvocientu inteligence 6 u určitého dítSte na základě testu s výsledkem X. Dlouholeté výskumy ukazují, že X má rosdělení H(8,100), kde 6 je kvocient inteligence, Se 6 je obecné různé u různých dští a lze ho považovat za náhodnou veličinu s rozdělením H(100,225). Poslední uvedeny fakt lze považovat za objektivní apriorní informaci - závěr ze série předchozích realizací. Příklad 1.2. Ha základe krevní zkoušky se má rozhodnout, zda pacient trpí jistou chorobou. Z předchozích výzkumů je známo, že touto chorobou trpí asi 5 % populace. Toto je opět objektivní apriorní informace dostupná před provedením zkouSky. Při bayesovském přístupu použijeme pro zmíněné rozhodnutí jak výsledku krevní zkoušky, tak apriorní informace o procentu populace trpící touto chorobou. Příklad 1.3. Úkolem fyzika je odhadnout jistou fyzikální konstantu 8. Fyzik má určitou představu o možných hodnotách 8. Připouští několik možných hodnot 6, přikládá jim obecně různé váhy (pravděpodobnosti) a tedy považuje je z tohoto hlediska za náhodné veličiny. Různí fyzikové mohou vyjádřit svou představu o hodnotě parametru 6 obecně různými rozděleními. Tato apriorní informace je subjektivní. Opět k závěrům o hodnotě fyzikální konstanty použijeme jak výsledku (popř. výsledků) příslušného experimentu tak apriorní informace. Přiklad 1.4. Při předpovědi počasí se běžně používají nejen výsledky měření provedených v minulosti a současnosti, ale i subjektivní názory (Informace) zkušených meteorologů. Kromě výsledků měření v současnosti tedy použijeme jak objektivních tak subjektivních apriorních informací. Je nutné si povšimnout rozdílné interpretace rozdělení parametru 6 v jednotlivých příkladech. Zatímco v 1. a 2. příkladě bylo rozdělení parametru 8 získáno z řady (objektivních) měření a 8 lze - 8 - skuteční pokládat za náhodnou veličinu, ve třetím přiklade rozdělení parametru 6 vyjadřuje "stupeň vízy" v Jednotlivá hodnoty parametru 6 (popř. víry, že náleží do určité množiny). V prvníoh dvou příkladech se jedná o běžné rozdělení pravděpodobností s četnostní interpretací tak jak se e ní běžně setkáváme v klasické statistice. Ve třetím příkladě rozdělení pravděpodobností parametru zachycuje "stupen víry" v určitá hodnoty 6, pro různé subjekty je obecně toto rozdělení různé. Z těchto důvodů nepřipadá v úvahu četnostní interpretace. V tomto případě mluvíme obvykle o tzv. subjektivní pravděpodobnosti, o které se předpokládá, že vyhovuje Kolmogorově definici pravděpodobnosti. Rozdíl je pouze v interpretaci. Subjektivní pravděpodobnost vyjadřuje víru subjektu, že určitý jev nastane. Určení subjektivní pravděpodobnosti je velkým problémem. Hej-jednoduSSí způsob určení subjektivní pravděpodobnosti je porovnat relativní věrohodnosti. Hapř. chceme-li najít pravděpodobnost jevu £, tj. P(E), srovnáme věrohodnosti E a jeho doplňkového jevu B°. Přikládáme-li oběma jevům stejnou Šanci, klademe P(E) « P(EC) - 1/2. Přikládáme-li Jevu £ třikrát větSí Šanci než E°, klademe P(B) - 3/4, P(BC) - 1/4. Jiné možnost je porovnávat víry ve dvojice jevů na základě sázek. Za určitých předpokladů potom existuje jediná pravděpodobnost na uvažované ť-algebře jevů. Podrobný postup spolu s diskusí o dalSích možnostech lze najít např. v [2], [5]* Se subjektivní pravděpodobností se setkáváme i v běžném životě. Mluvíme o naději (Šanci) oblíbeného fotbalového družstva. Uvažujeme o možnosti nepříznivého počasí o nejbllžSím víkendu a podobně. Přikládáme vlastně váhy možným výsledkům, obvykle říkáme, že ten či onen výsledek je nejpravděpodobnějSí, méně pravděpodobný či málo pravděpodobný. Nyní obrátíme pozornost na výhody a nevýhody bayesovakého přístupu. Jeho kladem je bezesporu využiti i apriorní informace. Ba - 9 - druhou stranu je bayesovský přistup předmětem kritiky mnoha statistiků, která se týká v podstatě tři bodů, a to konstrukce rozdělení parametru 6 na základě apriorní informace, použití subjektivní apriorní informace a v některých případech připustit, že 8 je náhodná veličina. Část kritiky je filozofického rázu. Většina statistiků nemá námitek vůči postupu v příkladě 1, kde g lze skutečně považovat za náhodnou veličinu a rozdělení parametru g je konstruováno na základě předchozích objektivních měření. V příkladě 3 však může být obtížná považovat fyzikální konstantu 8 za náhodnou veličinu s určitým rozdělením. Subjektivní informace může výrazně ovlivnit závěry o parametru g (na základě apriorní informace dvou různých subjektů můžeme dojít k diametrálně odlišným závěrům). Je-li apriorní informace velmi neurčitá či žádná, může volba apriorního rozdělení parametru g způsobit značná problémy. Je nutné si uvědomit, že různé volby apriorního rozdělení mohou vést k různým závěrům. Poznamenejme, že pro n dostatečně velké a za jistých podmínek regularity závěry o g nezávisí na volbě apriorního rozdělení parametru 6 (viz Věta 2.1). 1.2 BAYESOVA VĚTA A JEJÍ POUŽITÍ Necht g » (81t...,6^)' je náhodný vektor s hustotou q(g) vzhledem k if-konečné míře X na (© , &(@)), kde © je neprázdná borelovská podmnožina R^, &(@) označuje borelovské podmnožiny ® . Kechf J ■ (X-j,...,!^) * je náhodný vektor s podmíněnou hustotou **(x) 6) při daném 8 vzhledem k ť-konečné míře vn na (R^, fón), kde @>n označuje borelovské podmnožiny ILj, tj* P(geB, JeC) - \ ( ^r(x|8)d^x))q(g)dX(e), (1.1) B C kde B a C jsou libovolné měřitelné množiny. - 10 - Yžta 1.1 (Bavesova). Pro podmíněnou hustotu t( §|x) náhodného vektoru § při daném X platí q(6)r(x|8) t ff(6jx ) - . / ~ , je-li $q<8>r(ô> / 0, Sq(&)r(xlg)dX(e) & (1.2) * 0 jinak. Důkaz provedeme stejně jako důkaz věty III.3«14 v [i] (str. 54). Ze vztahu (1.1) je vidět, že r(x|6)q(§) je sdružená hustota vektoru (x',6')' vzhledem k v„»)i • Proto podle věty III.3.7 v [i] o marginální hustotě je \ q(G)r(s|e)dÄ(e) marginální hustota vektoru X. Tvrzení věty nyní plyne z věty III.3.13 v [1]. Q.E.D. Tato věta má v bayesovských metodách klíčové postavení. Je-li 6 parametr uvažovaný v minulém paragrafu, nazýváme q( 0) apriorní hustotou, nebol vyjadřuje informaci o 8 ještě před realizací £. Podmíněnou hustotu fr(6]x) parametru § pak nazýváme hustotou aposteriomi. nebol jde o hustotu parametru G po realizaci X. E závěrům o parametru G pak použijeme aposteriorní hustotu r(Jj?|x), která v sobě zahrnuje jak apriorní informaci o parametru § tak informaci plynoucí z realizace £. Poznamenejme, že při klasickém přístupu použijeme k závěrům o parametru § pouze r(jc|6). atr. 8 Příklad l.l(pokraSováni). Apriorní hustota parametru G je N(100,225), podmíněné rozdělení X při daném G je H( 6,100). Pak aposteriorní hustot* je B(22Ífffijfo10°i 69,23), je-li x hodnota X. Kvocient inteligence můžeme odhadnout (viz str. 52) 8 střední hodnotou příslušnou aposteriorní hustotě, tedy hodnotou 3§|*x + ^°^.100. Příslušný rozptyl je 69,23« Zatímco při klasickém přístupu bychom použili jako odhad G přímo x, jehož rozptyl je 100. Tedy použití bayesovského - 11 -toéoma mat-fc fofofty UK přístupu redlo k odhadu s menším rozptylem než při klasickém přístupu. PovBiimiéme si nyní vzorce (1.2). Existují-li měřitelné funkce h.,(§,x.) a h2(g) takové, že 1. Předpokládejme, že pro daný xe^ platí 0* i*(x|§)d>(g) < 0<^$ r(x|8)q(g)dM§) c + ~. Označme lechí existuje taková borelovská množina A c ® , že pro daná čísla a,b,c (O^a-O, b»0, c > 0) plstit - 14 - ( TTQ(g|x)d>(g) > 1 - a, (2.2) m » ±nf q(§) > O, (2.3) Se A sup q(6) i (1+b)m, G<£ A sup q(6) é (1+c)m. Be © -A Pak platí Důkaz lze najít např. v Li] kap. JVI.3, Věta 1 (str. 288). Věta říká, Se aposteriorní hustoty 7r0(§]x) a ¥(§jx) se nebudou příliš lišit, jestliže a a b budou dostatečně malá nezáporná čísla a c nebude příliš velká. Uvědomíme-li si význam čísel a,b,c, předpoklady znamenají, že na množině A je koncentrována velká část pravděpodobnosti odpovídající r0(8|$), q(B) musí být na A prakticky konstantní a nenulová a omezená na ®- A. Je-li X^...,^ náhodný výběr z rozdělení r(x[8), pak při dostatečně velkém n je často aposteriorní hustota tq(Q|^) koncentrována kolem nějakého bodu. Pak lze najít množinu A (většinou k-rozměrný interval) splňující (2.2) a takovou, že ^(A) je velmi malá a široká třída hustot q(Q) splňuje (2.3), pak většinou stačí, aby q(8) byla hladká na A a omezená na ®- A. 2.2 KONJUGOVANÉ SYSTÉMY HUSTOT Hechl I * (1^...,^) je-náhodný výběr z rozdělení s hustotou - 15 - r(i|6) vzhledem k nQ existují nezáporné funkoe ^ a h^ takové, Se rCxilg) - g^xhe^íx.). (2.4) kde Tn(I1,... ,In) je r-rozměrná postačující statistika, r nezávisí na n. Označme Sn - [\f t«Tn(X)j množinu vfi. bodů URy, kterých může nabývat náhodný vektor 2^(£)» Předpokládejme, Se pro každé teSn platí 0< $ 6n(íl§HX(e) < + ® Pak'systém hustot ifn,t(§>» S6Sin» B>nol (2'5) je systém konjugovaný s jr(xjg); §«©}, kde řn,t^> - «n(tíe)(J €fe<*#fl>**C«»"1- (2.6) - 16 - Ukážeme si, že toto tvrzení skutečně platí. Heohí Xi,...,!^ a Y.,,...,^ jsou dra nezávislé výbery a rosdělení 0 hustotou r(x|§). Hechí m>n0, n>nQ. Sdružena hustota obou výběrů má tvar f r(x±|e) . ff tíj±\q takže (2.7) Pro jednoduchost nyní předpokládejme, ie \(&> 0 pro každá n>nQ. Bechí US^. Pak existuje taková 1^, ie t ■ ^(jr). Je-li apriorní hustota parametru 8 rovna řm^t(8), pak podle Bayeaovy vety je aposteriorní hustota dána vzorcem rr(ejx) - k fr rCxJg) fB(t(í), kde k je normující konstanta. Odtud dále dostaneme b * ^(Tn(s))gm(Tn(jr))na($)hm(y) 9 Tedy 2 (2.7) vyplývá kde u » T (x.y), c ■ ■■ ^ » Odtud je již vidět, že kde u& Sn+Jn« Tím jsme dokázali, že ¥ patří do systému (2.5). Systém hustot (2.5) někdy nazýváme přirozený konJugpvanf systém. Jak uvidíme z následujících příkladů oasto pracujeme se systémem hustot, který je o něco bohatší než přirozený konjugovaný sys-témi budeme ho nazývat obvyklým. - 17 - lyní si trredeae přehled kanjugovaných systénn hustot, které pří-slugí nejběžněji poušíraným systémům rozdělení {r(xj§)| . Pod- robní probereme případ binomického a normálního (jedno- i vícerozměrného) rosdíleni. Binomické rozdělaní ■ imittlTT faift)' * 3« dáno* ® - <0,1>. Postačující statistika je Z X1( tedy S - Í0,1,2,...,nm\. Vzhledem i»1 k U.1) je Odtud a z (2.6) plyne f ,.(9) - (1-e)"11"7 (B(y+1,mn-y+1))~1 Ge(0,l) n, j a * 1,2,...j y ■ 0,1,2,*..,mn* Tedy přirozený konjugoraný systém je systém beta rozdělení s parametry (y+1,a&-y+1), kde y - 0,1,...,mn, n > 1,2,3,... Obvyklý konjugovaný systém je systém beta rozdělení s parametry (o< , /2>), kde o(> 0, /3>0. Je-li apriorní rozdělení beta rozdělení s parametry (o< , (h ), je apos- n terlorní rozdělení beta rozdělení s parametry (°< + H Xit /3 + mn -- Xj). MarglnálnÝ rozdělení (1^.,3^)je podle (1.7) B(c* +£xj, (3+ mn -^-x.) x* ■ 0,*..,m PCIi-xiW--5^73-^ * i -i....... ŽoleeenoTO rozdělení s parametrem Qi <3> - (0,+~). Postačující statistika je Z X1# tedy Sn - £o,1,2,...$. i»1 Přirozený konjugovaný systém vzhledem k Lebeaguově míře je systém -ti r ------^1 £ V' gama rozděleni e parametry (m,t), t - 1,2,...» m - 1,2,... Obvyklý - fM- ; .t ' konjugovaný systém tvoří systém gama rozdělení s parametry (a,p), !^ a> 0, p>0. Je-li apriorní rozdělení gama rozdělení (m,t), je apos- n teriorní rozdělení těž gama s parametry (m-mj t+Z ', i-1 A • J ' Negativně binomické rozděleni a parametry (a.6)t s je známé,® - <0,1>. n , Postačující statistika je £*if sn - {0,1,2,...}. ^ , , , . jr ., > ;.. '. i( - Přirozený konjugovaný systém je systém beta rozděleni s parametry (sm+1,t), t « 1,2,...; m = 1,2,... Obvyklý konjugovaný systém je systém beta rozděleni s parametry + TL^ J^). -1,/ ''i. í '.- * 4 " 1 Exponenciální rozdělení a parametrem 9: © = (0,+«). / PostaSující statistika Je 21 X,, tedy S_ - (0,+«). i=1 ^ n Přirozený konjugovaný systém je systém gama rozdělení s parametry ' i (t,m), t > 0, m « 1,2,*.. Obvyklý konjugovaný systém je systém gama rozděleni (t,m), t> 0, . m >0. . . ' f ' i Apriorní hustotě gama rozdělení (t,m) odpovídá apoateriorní hustota n gama rozdělení (t+ 2_ X.., m+n). i«1 1 Rovnoměrné rozdělení na (0.6) i ®= (0,+-). 7, ! Postačující statistika je max X., tedy sn - (0,+»). 1éi*n 1 n Přirozený konjugovaný systém je systém Paretovýoh rozdělení s para-, , metry (m,t), m - 1,2,...; t> 0. Obvyklý konjugovaný systém je systém Paretových rozdělení (m,t),m>0; t > 0. Apriorní hustotě - Paretovo rozděleni (mjt) odpovídá apooteriorní hustota - Paretovo rozděleni (nM-n,max(t,21,... ,X_)). j^'^^ Brnwiraf rgrtfttnž aft 0. Je-li apriorní rozdělení '1" CfjVří^-i/^rétovo rozdělení (t^t^m)» pak aposteriorní rozdělení je opit Ba-t P .j, rétovo • parametry (minít^Xj,...,Xa), max(t2,Xt.....J^), m+n). ■4- lí^miM rft»*81*** »Cyi-tfg^. 0 známé, ® - R^ '.^L Postačující statistika je £ X^ ^ - i* í, St- al » "Přirozený konjugovaný systém je systém normálníoh rozdělení (a,0. 4 '/Je-li apriorní rozdělení H(a,b2), pak aposteriorní je Ify^.r2), kde I Z±\>2 + a*g nb2 + C2, * 1 nb2 + " (2.9) MKrginalní rozdělení Iije podle (1.7) [j Í! í X*) *[^£±ťV>2} ^r^-^c-a)2)*, - (2T)-a/2(nb2+<ř2r1/2C /. • - a v • var XjL - Cq + b2 oortt^Xj) - b2, ijtj - 20 - (2.11) (2.12) (2.13) ff^TlMn* rffg^lení J(p0.ff2). fiQ známé, ® - (0,+«). - VI . n p Postačující statistika je Z (Xj-un)' l SL ■ (0,+«»). i-1 x ru, n Přirozený kanjugovaný systém pro 1/6" je systém gama rozdílení 0 pa- (5 rametry (t,m/2), t > 0, m » 1,2,... Obvykle bereme t > 0, m>0. Je-li apriorní hustota gama hustota (t,m/2), pak aposteriorní hustota je téš gama s parametry (t + X (Ii-(U0)2/2t (m+n)/2). Pozor t Za neznámý parametr bereme 1/ff2 (nikoli ff2), nebol systém konju govanýoh rozdělení pro 1/ťľ2 má jednodušší tvar. 1/6*2 se někdy nazývá parametr přesnosti. Hormální rozdělení g(^.C2). p. i fl"2 neznámá, ® ■ x(0,+*»). Postačujíoí statistika je ( Jí X1t H X2), tedy S„ » R. x(0,+«& a i-1 1 i-1 x n i é^Ct^tgifi.ff2) - (ľ"n exp^--Í5t2ní. Odtud a z (2.6) plyne Přirozený konjugovaný systém pro parametry (^,1/6" ) je systém rozdelení vymezený následovne: podmíněné rozdělení p, při daném 1/ľ2 je !I(a,ff r ) a marginální rozdělení 1/6" je gama rozdělení (o,d), kde atR^ r - 1,2,...} 2d - 1,2,..., o>0. Obvykle bereme aeR^, r> 0, o > 0, d > 0. Takovéto rozdělení budeme nazývat normální - gama s parametry (a,r,c,d). Apriornímu rozdělení popsaného typu odpovídá aposteriorní rozdělení normální - gama s parametry (ji* ,r+n,o* ,d*), kde c* - o + d* = d + n/2 (2.17) ■i n . , ' n itl 1 Tedy apriorní sdružená hustota ) (tj. hustota normálního - gama rozdělení s parametry (a,r,c,d)) je H&R^t cT2>0, což implikuje, že marginálni hustota ^u. je až na násobící konstantu rovna 1 aWii o^2 ~(2d+l)/2 1/2 Jinými slovy (|H-a)(dr/c) 'má t-rozdšlení o 2d stupních volnosti (pro 2d přirozené). Marginální hustota (X1t...,Xn) je -1/2 •d,,...,^) = JJ ^ (2ir - \p - (p1>««-tPfc)l 0<.p±*1, i - 1,...,k, x. Pí - 1\« - 22 - Postačující statistika jej Z x-m» 1 - tedy S_ - = Jt = (t.,,...,tk)±± = 0,1, ...,sn; i « 1t...,k| f t± = snf. Přirozený konjugovaný systém je systém Dirichletovych rozdělení s parametry (ttk), ti = 1,...,s, i - 1,...,k, s = 1,2,... Obvykle používáme systém s -t^> O, i ■ 1,...,k. Je-li apriorní rozdělení Dirich- letovo s parametry (t1,...,tk), pak aposteriorní rozdělení je také n n Dirichletovo s parametry (t 1 + X In»• • •»ti_+ jL Xt, ). 1 d=i 13 * j=i *J Vícerozměrné normální rozdělení ^^..Iq). kde XQ je známá symetrická pozitivně deřinitní matice typu k* k, <3> » R^. Postačující statistika je £ = (X.,,...,^), í± = j X. Podle (2.6) a (A.29) B^Jll*) = expj- f^-i)'^-1 (jí-J)} nk n h^x) = (2f)"T (detž0)-n/2 expj- j 1(^-1)'J 31(X±-I)1 Tedy přirozený konjugovaný systém je systém normálních rozdělení Hjj.Ca^Q/n), aeR^, n = 1,2,... Obvykle bereme systém Sfc(a,bXQ), aeRjj., b>0. Apriorní hustotě Hjj.Ca,^), B positivně definitní symetrická typu k x k, odpovídá apoeteriorní hustota N^Cg" »B*), kde a* = (n£"1 + B~1 B* = (ni;1 + B*"1 Vícerozměrné normální rozdělení ^(^p* ÚL definitní symetrická neznámá matice k x k ně definitní matice kxkj. Postačující statistika Je V « ^vi^i j=i rij £ (Iiq- ľ±0> q«1 "1 (n^p1X+ B"1a) (2.21) -1 (2.22) , jíq je známé, £ pozitivně ® » \b} symetrická pozitiv- * ♦ • f 1c' Xjq" NO5' - 23 - 1*0 = ty 10* * * •,/*k0^* Sn = ^ symetrická pozitivně definitní matice k« . Podle (2.6) a (A.29) a (A.31) SaCYír1) - C««t£""1>n/2 £ trj£"1 v}} 5 «nr1> ^ » Cdet v)"<-k+l)/2 c-1n+k+i ® kde je dáno (A.32), tr\.\ označuje stopu matice. Přirozený konju- govaný systém pro Xl~1 je systém (centrálních) Wishartovych rozdělení s r stupni volnosti a parametrickou maticí g, kde r <■ k+1,...,Re . Je-li apriorní rozděleni Wishartovo s a stupni volnosti a parametrickou maticí R, pak aposteriorní rozdělení je opeč Wishartovo s a+n stupni volnosti a parametrickou maticí g" splňující r«-1 = g*1 + y . Vícerozměrné normální rozdělení Hfcfyi.X). g i £ > 0 neznámé, 0 » ■ |a, §>0j aeR^, B symetrická pozitivno definitní matice typu kt k\. Postačující statistika je (X,S), kde S - ±£ (X±-I) (2i-$)'. a Sn B **k* 5 ~ symetrická pozitivno definitní matice typu k x k}. Dle (2.6) a (A.29) platí «n<*.S»ti-£> " můžeme popsat následovně: podmíněné rozdělení £i při daném £ je Nk(g,r-1 £), q marginální rozdělení ^ je k-rozměrné Wishartovo rozdělení s stupni volnosti a parametrickou maticí V, přičemž agB^, r=1,2,...| - 24 - I je symetrická pozitivně derinitní matice typu k * k, q > k-1. Obvykle pracujeme e r>0 nikoli jen s r přirozenými. Sdružené rozdělení p a x má tvar (deti)"172 expj- § tT&-\-fL)(ti-*)')}Tk/2. (2.25) . ckq ( det V)-^2 (det£)-(tl-k-1)/2 expj- \ trOrV"1)} . Odtud lze integrací získat marginální rozdělení ^ . Stačí vlastně vypočítat integrál a uvědomit si, že funkce pod integrálem je až na násobící konstantu rovna hustotě k-rozměmóho Wishartova rozdělení s (q+1) stupni vol-nosti a parametrickou maticí (r(£i-a)fyí-a)'+V~ )~ . Odtud dostaneme, že marginální hustota ^ je až na násobící konstantu rovna CdetCjf1 + r^-a)(^-a)'))-(cl+1)/2 - - Qí1 =(det ]f1 . (1 + r^-arityi-s))) • Porovnáním s (A.33) je vidět, že ^ má k-rozměmó t-rozdělení 11 «• 1 s (q-k+1) stupni volnosti a parametry a a ^" r~ (q-k+1) . Apriornímu rozdělení (2.25) odpovídá aposteriomí rozdělení, které* lze popsat následovně: podmíněná rozdělení j£ při danám £ je Ry^y.* »(r+n) 21), rozdělení L. je k-rozměrné Wishartovo s (q+n)--stupni volnosti a parametrickou maticí V*, kde ŕ- * (2-26) r1 - r1 + § + ^t-z Cft-ixrf)'- (2.27) K odvození tohoto výsledku lze použít faktu, že aposteriomí hustota je až na násobící konstantu rovna součinu g^JĚJ§*/&»£) dané (2.24) - 25 - a pravé strany (A.29). Je-li £ » S"2ík» kde Ik je jednotková matice typu k x k, je ob-vykly konjugovaný systém pro (^,6" ) tvořen hustotami •xpj- (n-a)'(|t-a^ (r(2W6"2)-1)l/2 . (ff"2)d"1cdr(d)r1exp{-c.«-2! V 0, (2.28) kde parametry (a,r,c,d) probíhají množinu *(0f+*») *(0t+o>} * (0t+«£, tj. podmíněné rozdělení |U při daném (7 je N^Ca.ff r 1^) a marginální rozdělení 5"~2 je gama rozdělení s parametry (c,d). Marginální rozdělení ju je až na násobící konstantu rovno 1 dr(fi-a) 'C^t-ô) -(2d+1)/2 (1 +153-5-) , f&&\ ' Apriornímu rozdělení (2.28) odpovídá aposteriorní rozdělení expU Et| (\l-pyty-V')} ((r+n)(2Fř2)"1)1/2 . (2.30) l 26" . (ff-2)dW2-1 c.,d+n/2 (fíd^))-1 exp^0, kde ^ je dáno (2.26) o** = c + \ I (Z^I)'(I±-I) + (I-a)'(X-a) (2.31) 2.3 PRINCIP NEURČITOSTI, JBFFREYSOVA HUSTOTA, LIMITNÍ APOSTERIORNÍ HUSTOTY Nechí ríjlg) je podmíněná hustota náhodného vektoru J=(X1,•..,2^)' při dané hodnotě parametru 9 6 © €• &k, © jí /Ď. Pokládáme-li g za náhodný vektor, o němž víme jen to, že 8 s ® , vzniká problém jak volit apriorní rozdělení. Uěkterým řešením tohoto problému se budeme věnovat - 26 - v tomto paragrafu. Podle principu neurčitosti bereme za apriorní rozdělení 0 rovnoměrné rozdělení na ®. Příslušnou hustotu budeme značit qQ(G) a příslušnou aposteriorní hustotu TTq( 6)35). Pro ® nanejvýš spočetnou půjde o hustotu vzhledem k čítací míře. Je-li Lebesgueova míra ® kladná, bude qQ hustota vzhledem k Lebesgueově míře. 7 obou případech je rovna identicky kladné konstantě, pro účely výpočtu aposteriorního rozdělení ji vzhledem k (1.4) můžeme klást rovnu 1. Je-li Q nekonečná spočetná nebo je-li Lebesgueova míra ® nekonečná, je hustota q0(6) nevlastní. Je-li např. (I1,... .J^)' náhodný výběr z alternativního rozdělení s parametrem 8€.(0,1) a nemáme-li o parametru 8 žádné informace, volíme apriorní hustotu (vzhledem k Lebesgueově míře) rovnu q0(6) = 1 pro 6 e(0,1). Příslušná aposteriorní hustota je ir0(8|x) = (bíIxj+i, n-^jc±+D)"1 e1 (1-e) 1 ee(o,D, tj. beta rozdělení s parame-try (X x..-i-1,n-Z.x.,+l). i 1 1 1 Je-li náhodný výběr z N(p,ff2), kde ff2> 0 je známé a jLi je parametr, o němž pouze víme, že pcR^. Pak podle principu neurčitosti vezmeme za apriorní hustotu (vzhledem k Lebesgueově míře) q0(p.) = 1 p^Ri a odpovídající aposteriorní hustota je opět H(X,n~1). Definujme si nyní náhodnou veličinu Z = 1 - (Lt . Z výše řečeného plyne, že podmíněné rozdělení Z při daném Ž je N(0,9 /n) a že rovněž podmíněné rozdělení Z při daném \i je - 27 - N(0,fr2/n). Tudíž Z a Z jsou nezávislá náhodné veličiny a podobně Z a |U jsou nezávislá náhodné veličiny. Var Z, var I a var ju. jsou konečné a tedy var X = var p + var Z var p = var S + var Z, což implikuje, Se var Z b o a tedy Z je skoro jistě konstanta. Toto je spor s tím, že Z má rozdělení N(0,62/n), S2 > 0. V tomto případě tedy není použití principu neurčitosti vhodné, neboí vede k nesmyslným závěrům. Je vidět, že při použití principu neurčitosti musíme postupovat velmi opatrně. Princip neurčitosti má ještě další nevýhodu, změníme--li totiž parametrizaci modelu (tj. místo parametru G vezmeme tj » 8 ), apriorní hustota nového parametru už není rovnoměrná. Nechí je X1,...,Xn výběr z Foissonova rozdělení s parametrem 6 «■( 0, +•»). Apriorní hustotě qn(8) - 1 8c(0,+-) 0 (2.32) = 0 8^(0,+-) přísluší aposterioraí hustota gama rozdělení s parametry Cn,rxi+1). 1/2 ^ Definujme nový parametr A » 8 ' , pak apriorní hustota parametru (odpovídající (2.14)) je q(X) - \ *>0 (2.33) = 0 % £,0. Tedy není již konstantní. Je vidět, že nevíme-li nic o hodnotách 8, máme již jakousi iníormaoi o "X, což je paradoxní závěr. Navíc apos-teriorní hustota 7r(7k\x) příslušná apriorní hustotě (2.33) je XXj+1 T(7,J5)BÄL- e" A 1 X>0 rcix±+D >é0 - 28 - Zatímco apriorní hustotě q*U) - 1 A >0 . o * «0 přísluší aposteriorní hustota X > 0 o Tedy aposteriorní hustoty T a T* jsou různé, ačkoli oba postupy, kterými jsme k nim dospěli, jsou z hlediska logického rovnocenné. Tyto úvahy vedly k závěru, že místo podle principu neurčitosti bychom měli volit apriorní rozdělení takové, aby nezáviselo na počáteční parametrizaci modelu. Následující věta nám dává řešení pro případ, že A je Lebesgueova míra a M®) > 0. Nejprve si však připomeneme pojmy regulárního systému hustot a Pisherovy informační matice. Řekneme, že systém hustot $r(xj8), Ge.®\ je regulární. jsou-li splněny tyto podmínky: a) © je neprázdná otevřená množina interval v R^. b) Množina M » \x; r(x|8)> o} nezávisí na 8. c) Pro skoro všechna ze M (vzhledem k 5" -konečné míře v_) exis-tuje konečná parciální derivace r^(x|8) = 3r^^ i«1,...,k. d) Pro každé i a pro vš. 8e<3> platí S r,' (xle)dvfx) » 0. H n ~ o) Pro každou dvojici (i,j) existuje konečný integrál r2Cíl§) f) Matice J(g) = (Ji;j(e)) každé 8 e a předpokládejme, že 0 < c <č +••. Budiž H regulární prosté zobrazení množiny ® na ®*e CB^. Označme 27=H(8) ar-Cslg) = r(xlH~1( 3 )). Pak \t*u\ti) i ®'\ je regulární systém hustot. Označíme-li J*(i}) Fisherovu informační matici, pak pro libovolnou množinu B splňující podmínky BC®, B € Qb-^ platí $ c'r(x]8) (det J(§))1/2 dg - (2.35) B » [ c1r-(x|2j) (det J*(2)))1/2 *2/• H(B) Důkaz. Regularita systému ^r*(x|ij),2| je zřejmá až na to, že se musí dokázat positivní definitnost matice J*(z|). Necht g = = (e^.,.,6^)', ^ ■ (tjv ...,1^)'. Ze vztahu ainrí^lS) 9 ln rMglt)) £ >ln r*(xjq) 98± ieí j=l dostaneme pro prvky Jj^(®) a J^Ctj) informačních matic J(8) a J*(;»j) rovnost r w3ln r(xlS) *ln r(g|§) ( f y ^u T« M 31Iv (2.36) Označíme-li D = Cä57)l,u-1t...,k» - 30 - * 6 .'JI: * Podle věty o substituci v mnohonásobných integrálech platí \ c r(xlg) (det J(g))1/2d§ B = \ c r(x|lT1(x|))(detCg'J*(r])Ji))1/2(det fi)"1d2} • H(B) Tvrzení věty nyní plyne, použijeme-li vztah det(D'J*(Tj)£)1/2(det g)"1 - (det(J*(rj))1/2. q.e.d. Je vidět, že za předpokladů věty je apriorní hustota parametru 6 rovna funkci (det JÍB))1^2 (nebo jakémukoliv kladnému násobku této funkce) a aposteriorní hustota parametru G je rovna cr(x|§). 1 /2 .(det J(§)) a že je to pravděpodobnostní hustota. Funkci k.(det J(g))1/2, kde k je libovolné kladné číslo, budeme říkat Jeffreysova apriorní hustota. Z tvrzení věty plyne, že při Jeffrey-sově volbě apriorní hustoty parametrů 6 a j| jsou obě aposteriorní pravděpodobnosti stejné a nemůže dojít k paradoxnímu výsledku jako u principu neurSitosti. Někdy je Jeffreysova hustota nevlastní* Uvedeme si Jeffreysovy hustoty pro některé případy. Pro binomické rozdělení s parametry (m,p), m je známé, je ?eysova hustota beta hui 1 n 1 S beta (•%+ X x4, "i+mn- 21 x_.). * i=1 1 2 i-1 1 Jeffreysova hustota beta hustota (1/2,1/2). Aposteriorní hustota je n « n - 31 - Pro Poissonovo rozděleni a parametrem A má Jeffreysova hustota tvar '* " q(*) = A"1/2 > > 0, ■• , ' , n 0 > 4*0. '■;f.\ - ■< Je tedy nevlastní a aposteriorní rozdělení je gama a parametry (n, I x.41/2). i-1 1 Pro negativně binomické rozdělení 8 parametry (a,p), a - známé, je Jeffreysova hustota q(p) - p"1 (1-p)"1/2 P€.(0,1) - 0 p<É(0,D. Jde o nevlastní hustotu a aposteriorní hustota je beta s parametry (an, 5 x.41/2). 1 1 Pro normální rozdělení 5(|u,ffQ), 6q > 0, je Jeffreysova hustota konstantní (vady této hustoty jsou v první žásti tohoto paragrafu). Pro normální rozdělení N(p0,ff ), |xQ známé, je Jeffreysova hustota rovna o"2 pro o"""2 > 0. Jde o nevlastní hustotu. Aposteriorní hustota 5 "2 je gama rozdělení ( !L (xjL~pi0)2/2, n/2). Pro normální rozdělení H(p,62), |Lt i o"2> 0 neznámé je Jeffreysova hustota dána vzorcem qty,5~2) - , peR.,, S"2>0. Opět jde o nevlastní hustotu a aposteriorní hustota (p,(T ) se dá popsat následovně: podmíněné rozdělení jx při daném je H(X,ff2/n) a marginální rozdělení 1/ff2 je gama s parametry (^I(xi-x)2,n/2). - 32 - Další možná volba apriorní hustoty parametru 6 Je vyjít z kon-jugováného systému hustot (většinou tzv. obvyklého) ^q< 6| ^);^ «A] T příslušného {r(x|8)|§6®} (JL Je většinou otevřená borelovská množina] a volíme přímo aposteriorní hustotu V^ejx,), kterou dostaneme Jako limitu aposteriorníoh hustot z iq(6í£) pro % konvergující k nějakému bodu na hranici množiny A . Formálně odpovídá tento způsob tomu, Se za apriorní hustotu q*(6) vezmeme limitu apriorních hustot z |q(e, ^), >>e_i\ pro X konvergující k nějakému bodu na hranici množiny -i . Hustota q*(g) Je obvykle nevlastní. V řadě případů Jsou potom bayesovské odhady a bayesovské testy shodné s klasickými. Aposteriorní hustoty získané právě popsaným způsobem budeme nazývat limitní aposteriorní hustoty. Uvedeme si několik příkladů: Id binomické rozdělení (m,p) Je konjugovaný systém systémem beta rozdělení 0*,(J), ot > 0, A>0. Limita aposteriorního rozdělení 1 n n pro ot ~*0 a /l->0 Je beta rozdělení ( £ ,mn-51i.), což odpovídá 1 i-1 1 i-1 1 apriornímu rozdělení q*Cp) - (p(1-p))"1 p €■ (0,1) = 0 p é (0,1). Pro Tjiasonovo rozdělení s parametrem 6 Je systém konjugovaných hustot tvořen systémem gama rozdělení (a,t), a > 0, t > 0. Limita apos- n teriorního rozdělení pro a-*0, t->0 Je gama rozdělení (n, x.X.,). To- i=1 1 též aposteriorní rozdělení dostaneme, Jestliže za apriorní rozdělení zvolíme q*(e) ■ e"1 e>o = 0 8*0. Stejnou úvahou dospějeme pro negativně binomické rozdělení (s,p) k tomu, že za aposteriorní rozdělení V*(p|x) vezmeme beta rozdělení (sn, ^ xi), které odpovídá apriorní hustotě - 33 - q*(p) = (p(1-p))"1 = O p £ (0,1) p é (0,1). Pro exponenciální rozdôlení s parametrem 8 vezmeme za aposterior-ní hustotu ir*(8|x) gama hustotu (Zx^n), které odpovídá apriorní hustota q' (8) » G~1 6 > 0 = 0 6 4 0. p O Pro normální rozdělení N(fx,fiQ), 0 známé, vezmeme za aposte-riorní hustotu N(5č,6*^/n), která odpovídá apriorní hustotě rovnoměrné na R.,. (U apriorního rozdělení N(a,b ) klademe b^*<*>.) Pro normální rozdělení N(^Q,ff2), fX0 známé, vezmeme za apoaterior-ní hustotu gama s parametry ( X.(xi-jUQ)2/2,n/2), která odpovídá apriorní hustotě q*(S~2) - S~2 6"2>0 = 0 <5~2úQ. Pro normální rozdělení Hípt.c2), u i 52>0 neznámé, bereme v aposteriorní hustotě r->0, c-*0, d-*-£. Pak podmíněné aposteriorní rozdělení u při daném 1/ff2 je N(ž,52/n) a marginální aposteriorní rozdělení 1/52 je gama s parametry (X(xi-x)2/2,(n-1)/2). Toto aposteriorní rozdělení odpovídá apriornímu q*(fA,l/C2) -(S2)"372 fisR1t 1/6-2> 0. (2.37) Marginální aposteriorní rozdělení (tj. při daném x) náhodné veličiny » kde n Sn - ÍPT £ (xi-i)2» (2'38) - 34 - je t-r'sdělení s (n-1) otupni volnosti. Obdobné výsledky platí i pro vícerozměrné normální rozděleni. 2.4 EMPIRICKÉ BAYESOVSKŽ METODY \ Jedná se o metody volby apriorního rozdělení q(8), jestliže máme k dispozici výsledky z minulosti v následujícím tvaru. Y.,,...,Yj jsou nezávislé náhodné veličiny, Yi má podmíněnou hustotu r(y|6i) (vzhledem k ď-konečné míře v), 8^e®, i * 1,...,N, §^,...,6^ jsou nezávislé náhodné vektory, 6^ má hustotu q(8) (vzhledem k f-konečné míře X). Tedy nepodmíněné rozdělení Y., je za předpokladu konečnosti EY^ resp. var Y^. Na základě Y^t».. ,Y-g můžeme odhadnout hustotu rq(y) popř. příslušnou distribuční funkci některou běžnou metodou. Označíme-li r(y) odhad hustoty r(y) a dosadíme-li do (2.39} dostáváme funkcionální rovnice, které lze obecně jen velmi těžko řešit. Místo řešení funkcionální rovnice někdy minimalizujeme vzdálenost r a r^ vzhledem k q a za odhad q vezmeme hustotu q, pro kterou je dosaženo minimum. Za vzdálenost nejčastěji volíme (2.39) a odtud plyne pro nepodmíněnou střední hodnotu a rozptyl (2.41) (2.40) - 35 - V obecném případě je řešení složité. Seší se jen ve speciálních případech. Další informaoe o tomto postupu lze nalézt v [2] a [7]. Spíše než najít odhad popsanou obecnou metodou se nejdříve podíváme, zda variabilita náhodné veličiny (popsané r(y)), která vznikne složením variability 6 (popsané q(8)) a variability y^^ při pevném B± (popsané r(y|8)) je způsobená hlavně variabilitou 6^ V kladném případě můžeme za odhad q(8) v řadě případů vzít odhad r(y). Variabilitou často míníme rozptyl. Je-li v tomto případě var(yi|6) malá ve srovnání s var 8, pak bereme za odhad q(8) funkci rCy) (pro 6 jednorozměrné). Oba vyložené postupy nemají příliš velkou naději na použití v praxi, nebol v prvním případě je obtížné najít řešení a druhá metoda je příliš intuitivní. Používají se zatím jen v určitých velmi speciálních případech viz např. [li* Mnohem větší naději na úspěch má metoda, kterou si nyní vyložíme. Předpokládáme, že q(8) má určitý funkcionální tvar, u kterého neznáme jen parametry, tj. předpokládáme, že apriorní hustota je q(6;£), kde £ * (oi-j,...,* )* je vektor konstant, který neznáme, víme jen, Že o< e A , kde /) jí Jl^ <&fl. Tedy také marginální hustotu yi známe až na vektor o< , který můžeme odhadnout pornooí y1,...,yn některou klasickou metodou odhadu např* metodou momentů (viz ttl). Při ní klademe eyd - X £ y| j = 1,2,...,s 11 j=1 1 (za předpokladu konečnosti příslušných momentů) a řešíme vzhledem k £* . Řešení označíme £ . Za apriorní hustotu vezmeme q(6,£). Tato metoda má široké použití. Dá se vhodně kombinovat s konju-govanými rozděleními, které poskytují jen funkcionální tvar rozdělení. Za funkcionální tvar vezmeme rozdělení konjugované s r(y)6) a parametry odhadneme podle výše popsané metody. Ve většině rozdělení uvažovaných v 2.2 vede tato kombinace metod k rozumným výsledkům. - 36 - Empirické bayesovské metody se pužívají spíše v úlohách odhadu než při testování hypotéz. V kapitole 4 Jsou uvedeny 2 příklady odhadu parametru, jestliže apriorní hustota byla získána empirickou bayesovskou metodou. Nechí Y1f...,YN jbou nezávislé náhodné veličiny, Yi s rozdělením K(6t»5g)la představují výsledky z minulosti. 8^,..., 8^ jsou nezt- vislé náhodné veličiny. 8- má rozdelení N(u , kde u„ a ff2, >0 ne- *ě 2 2 2 2 známe. Nepodmíněné rozdělení Y^j© NCju^jC ), kde 6" = 5* + <5 q. Meto- dou momentů získáme odhady a a pro a a 6" , a to (2.39/ 1 N -.9 (2.40) Tedy za apriorní rozdělení vezmeme N(u ,on)» kde je-li" e2> cr2 (2.4D 0 je-li 52k pro vš. § c® a vS. de.®. Pokud budeme uvažovat , množina Ä možných rozhodnutí je množina hodnot parametru 8 a A je množina odhadů parametru 6. Měříme-li ztrátu jako čtverec roz dílu parametru 8 a jeho odhadu ťfCX), můžeme psát L^B.ďíX)) = (e-cľ(š)): a tedy pro rizikovou funkci máme R^B,S) = E (8-ď(X,))2|6). Pro úlohu testu hypotézy HQ: 8e®0 proti alternativě H1: 6e ®f = -<5>-®0, ®0 ci je Sd = [d0,d^, kde á± = \e± platil • Obvykle předpokládáme, že při správném rozhodnutí je ztráta nulová a při nesprávném rozhodnutí je ztráta rovna nějaké kladné konstantě a Pak můžeme pro ztrátovou funkci psát: L2(8,d1) = 0 Be®± i = 0,1 (3.2) = a a 飮^ a pro rizikovou funkci máme: R2(8,d*) = a E(Ii(q, takové, že Y * g(X) má hustotu r(y|g°) (£ má hustotu r(x|6)). Označme e° - g(g). Pak je rozumné uvažovat ztrátové funkce invariantní vňŽi ^. tj. takové ztrátové funkce L(6,d), že pro každé g£^ a d&& existuje' d°€Ä takové, že L(g,d) = L(g(8),d°) pre vš. 8e . Označme d° = g(d). Rozhodovací funkci d~(55) nazveme invariantní vůči grupě . jestliže pro vš. XfiRjj a platí (rtgCap) = g( Podrobnější informace o tomto přístupu lze nalézt např. v [3], \2\* 3.2 BAYESOVSKE ROZHODOVACÍ FUNKCE Bayesovaká rozhodovací funkce ď* definovaná (3.5) závisí na volbě ztrátové funkce a volbě rozdělení parametru 8. Volbě rozdělení parametru 6 byla věnována druhá kapitola. Pokud se týče ztrátové funkce, budeme vycházet z předpokladu, že je dána. Nejběžnější ztrátové funkce používané v úlohách odhadu a testování hypotéz jsou uvedeny v následujících dvou kapitolách. Existuje obecná metoda volby ztrátové funkce na základě preferencí (podrobněji viz např. [2], [jj], [9]). Statistický rozhodovací problém formulovaný v předchozím paragrafu lze modifikovat tak, aby byly vzaty v úvahu náklady na realizaci Z. Místo s bayesovskou rizikovou funkci ^(q,<0 (při bayesovském přístupu) pak pracujeme s tzv. totálním rizikem <£(q, 0, bef^. Pak bayesovské rozhodovací funkce odpovídající L1 a L2 jsou shodné, což vzhledem k předpokladu omezenosti ztrátové funkce zdola, vede k tomu, že bez újmy na obecnosti můžeme předpokládat nezápornost ztrátové funkce. Nyní si zformulujeme a dokážeme tvrzení o konkávitě bayesovské-ho rizika ^>*(q) jako funkce rozdělení q parametru 6. Věta 3.2. Pro libovolné hustoty q-j»q2 parametru g vzhledem k F-koneč-né míře X a pro libovolné ©ŕ 6 <0,1> platí je lineární funkcí vzhledem ke q. Z vlastností infima pak plyne #Uq1+(1-»«)q2) > rff/Cq.,) + ( £*( q2>, za předpokladu, že příslušná, bayesovská rizika existují. Důkaz. Z definice bayesovské rizikové funkce máme: ^(*(g) - (3-10) (T(x)^ J « ^ L(g, ■*<*> <£(q, kde aposteriorní hustota T(8|x) je N(fgx+JÍ?é 100.69)23) a apriorní hustota q(8) je N( 100,225)« Hajít bayesovskou rozhodovací funkci znamená najít ^ <5(q,ď*(x)) - 69,23 $ (2TT.325)"1/2 exp^'^^f^ W a -oo = 69,23. Zatímco bayesovské rozhodnutí 8* bez provedení pokusu je ilíX4l\X+I^1 3} ( 3X-6 )} /X +00 5 L(8^3)T(8|X)d8 = íl^Xá.l\.X+IiUXí2H2X..l)+I^i*3\3+I^>3]C3X»6)\/X L(8fd4)r(8|X)d8 = 2X~1 min(3,X). Tedy bayesovské rozhodnutí je následující: je-li X = 2 , pak je rozhodnutí d^ nebo d2, je-li X - 13/3 " " d1 nebo d4, je-li X<.13/3 n " d1f je-li X> 13/3 " " d4. - 47 - Ha závěr tohoto paragrafu si zformulujeme větu pro případ, že ® i $ obsahují právě 2 body. Toto je případ, se kterým se nejčastěji setkáváme při testování jednoduché nulové hypotézy proti jednoduché alternativní hypotéze. Předpokládejme, že ztrátová funkce je definována následovně: L(6i,di) =0, i - 1,2 L(81td2) m av L(§2,d.,) «= a2, kde a±> 0, S> = id-pdg}, ® » i^*^' Dále předpokládejme, že P(6 = 8.,) * $ , P(6 = Q2) = 1 - $ , ^6 (0,1) dáno. Pak podle (3.4) pro bayesovskou rizikovou funkci platí 9($.0 a b> 0 definujme rozhodovací funkci předpisem b r(jl82) o d2 je-li a r(xl8.,)4b r(xl82) - libovolně je-li a r(xlj8p - b r(xlg2). Pak pro libovolnou rozhodovací funkci + b rC3t|e2))dvn(x> « = a + 5 Ii (3.15) > $ I^(x)=d1l (-a ríxl^) + b r O (3.16) Z (3.14-3«16) snadno obdržíme tvrzení věty. Q.E.D. Poznamenejme, že při vedlejší podmínce F(ďt(X)>d1\8-g1) » c* je tvrzení věty shodné s tvrzením Neyman-Pearsonova lemmatu. - 49 - 4. ÚLOHA ODHADU 4.1 ÚVOD Necht £ - má hustotu r(x|§) vzhledem k ff-konečnó míře yn, 6 = (e^...,^) 'e. ® je parametr, Ji / © e í^. Nechí q(g) je apriorní hustota parametru g vzhledem k je shodná s množinou ®. Rozhodovací funkce ď(Z) je pak odhad parametru g a A je množina odhadů parametru g. Nadále budeme používat termín odhad místo rozhodovací funkce. Ztrátová funkce Ke.dtg)) pak vyjadřuje odlišnost odhadu <í*(g) od skutečné hodnoty parametru Q. 4.2 BODOV? ODHAD. JEDNOROZMERNÝ PRÍPAD Typickými ztrátovými funkcemi jsou La>w(8,d) =w(6)|8-dla 8c®, d£Ä , (4.1) I*. v (6,d) « kn(8-d) 6 - d»0, 8e® ,de»r (4.2) K0' 1 u = k^d-8) 8 - d^O, kde w(g) je nezáporné měřitelná funkce definovaná na Q; a,kg,k.| jsou kladné konstanty pevně zvolené. Nejčastěji používáme w(6) s 1, a = 1 nebo a = 2ak0 = k1 * 1. Pro w( 8) a 1, a = kQ = k1 » 1 jsou ztrátové funkce totožné. Dále se budeme zabývat pouze L0 _ a L. . . Pro a » 2, w(8) ■ 1 0* 1 budeme používat pro ztrátovou funkci zkrácené značení L«. - 50 - Označme qi(8) = q(8)w(9)(J q(6)w(e)dX(e))"1 pro ^q(8)w(0)ďX(e) t 0 • ® (4.3) = 0 jinak, r(x|8) q.(e) r r^eix) = -t—--3- pro ) q.,(e) r(x^e)dMe) i o 1 - Jr(x|B)q1(e)d«e) 0 1 Ô C4.4) * O jinak, r^x) = $r(xJG) qi(e)d%(6) jel^. (4.5) Zrejme q1 je hustota (pro $ q(8)w(8)d>(8)j*0) vzhledem k ^ a považuje-me-li ji za apriórni hustotu, pak příslušná aposteriorní hustota je KjOlx); r^x) je marginálni hustota i odpovídající q^(9). Hlavní výsledky o bayesovských odhadech pro ztrátové funkce L9 L. v si zformulujeme ve větě: *0,JC1 Věta 4.1. a) Necht o^$ 82w(8)ir(e|x)ä^(e) < +<* pak pro ztrátovou funkci L0 w definovanou (4*1) je bayesovský odhad $2 w parametru 8 dán vztahem \ ew(8)T(8l5)dX(8) <3> " (4.6) = 0 jinak pro bayesovské riziko w(q) platí w(q) = E^var^ej^)) , (4.7) - 51 - kde E1 označuje střední hodnotu g vzhledem k hustotě (4*5) a var., označuje podmíněný rozptyl 6 vzhledem k hustotě (4.4). b) Nechí 0 ^ ^ i8|r(5|B)q(e)d>(e)^+«-> (4.8) pak pro ztrátovou funkci Iv. v definovanou (4.2) je bayesovský od- » ^0**1 . had ^k1 Paran»ti,u ® (100(k0(k0+k.j) )% kvantil aposteriorního ro dělení T(8|x)a pro bayeeovská riziko - (V*iy l CCfk (j)-8)r(5|e)q(«)dVn(S)d«B) II -».0 + kn \ 5 V ($)H$]8)q(e)dvT1(5)d7v(e). Hj -« K0»*1 n Důsledek 4.2. Je-li ve větě 4.1 a) w(0) s 1, pak bayesovský odhad ú2(x) parametru 8 je (8) > 1 - <* . ®48á^(j)^ ®n\8»6U(x)t Poznámka 4.3. Bayesovský odhad Cq. *S S (e-íj w(x))2T1(5|e)dMe) . E^varfelX)). Odtud plyne, že d0 _(x) je bayesovaký odhad a bayesoveké riziko je dáno (4.7). b) Nechí > ^.k/s). Pak Platí Lu k (e,^^)-^ k (8,o7 . (x)) - k0(íT k (x> 0 - k^-G+ttx))-^ 6-^^(5)) je-li 6-^0» což implikuje (pro jednodušší zápia klademe q(6) « 0 pro 8^<3>) \ (L k (B.Ax))-^ k (8, -00 (e)) + -0« >'k1 ^k/ř) + (k/(x) + k0 k (š> *0' 1 r O* 1 f U I + k-((r(x>-(e) (4.11) a sečteme-li na pravé straně integrály s mezemi (ď£ v (x),225. Podle (4*3) a (4*4) postupně dostaneme, že hustota q-,(8) je N(100,(^ - y)"1) a hustota ^(elx) je *r/225rx+1002(r-225) 100. 225.r x H( 25gr+100(r-2žgr » 100^-2253+225^' Z věty 4«1 plyne, že bayesovský odhad je r* t —.a 225rx+1002(r-225) •"2,1^ = Ž25r+150(r-2Ž5r a bayesovské riziko je I 225.100.r j ^ 100(r-225)+225r J kde w(8) = exp^(8-100)2/2r\. Porovnáme-li tento bayesovský odhad I s odhadem získaným při L2» zjistíme, že při x-é-100 je j ? a při x >100 platí opačná nerovnost. Tedy při « _ pro x <100 I 8 spíše podhodnotíme a pro x>100 spíše nadhodnotíme ve srovnání f s použitím odhadu 0 a požadujeme co nejlepší odhad pro 8 v okolí 0 a 1. Zvolíme-li pak při téže hodnotě (9-4tx.)) je ztráta pro 8 v okolí 0 a 1 mnohem větší než např. při 8 v okolí 1/2. Podle (4.6) je pak bayesovaký odhad dán vzorcem ;/ ' p1 -1 i+n-?x1-2 J e 11 (1-0) 1 1 de = f? *+ixH-3-.>n-4*,-2-- \ e ^ 1 d-e> 1 1 de B(o< + \ xi9 (h + n - \ x± - 1) o< + \ X., - 1 o< + n - 2 není-li 0-c<*ťU aX Xt ■ 0 nebo 0^./3é1 aX x, « n, kde Ix, znamená n i ^ ' i ^ i 1 Je-li 0-*-/l*1 aX x.^ * 0, pak é.1 a X xi - n, pak cT* není definováno vztahem (4*6), ale můžeme ho dodefinovat pomocí limity* Yo e^O-e^de 1, /a>1) -->'<) ľ x-D X U-*fi+n-2)2(^+í3+n-1) BU-1,f3-i; n -Bfrc+ac-fan-ac?- (oc-lKfr-1)_ = £0 vx' B(o<-1.p-1)(<*+/»+n-2) " Uf-Ut<* +/J-2J0* +n+(J-2 J » kde jsme použili faktu, že marginálni hustota r., (x.) náhodného vektoru X je podle C 4-5) rovna *i<*> - *sg:}:ffir1? »~ xi ■ ° *«b°1 n x označuje £ xi (Jde 0 hustotu vzhledem k čítací míře). i=1 Při klasickém přístupu je X " ^ ^- xi ef icientním odhadem. Příklad 4.2. Elektronické součástky jsou zkoušeny za účelem odhadu střední životnosti. Předpokládejme, že doby životnosti jednotlivých součástek představují výběr X-j,... ,XQ z exponenciálního rozdělení s parametrem 1/6. Předchozí měření umožňují předpokládat, že 6 má inverzní gama rozdělení s jÉrametry (/3,o0, <* > 0, {i>Q dané hustotou q(e,o<,^) . (PU))"1/*01 e"*"1 •-o =* 0 6^0. Aposteriorní hustota parametru 8 je ixe|x) - (ru+n))-1(i/^Íxl)^+ne^-n-W[-(^+ii.ixi)/e] e>o = 0 e 5,0, 1 n _1 tj. inverzní gama rozdělení s parametry ((^- X.,o(+n). Při kvadratické ztrátové funkci L„ _ s w ■ 1 dané (4*1) je bayesovský odhad <Í,W - 57 - dán m 1 L *\x) * $ BfC8lx)d8 = ? * * Ď?-. a pro bayesovské riziko platí pro 2, /3>0 o*(q) = EWar(elx)^ = E(^ + I x^2 k + n - D"2 U + n - 2)"1 = f2 kde jsme použili faktu, že marginálni hustota X je (viz (1.7)) rovna - 0, i - 1,.. .,n P(o()/íí(1//i^xi)0<+n 1 a rovna nule jinak. Přiklad 1.2 (pokračování ze str. 8 ). Předpokládejme, že dva fyzikové vyjádři svou představu o sledované fyzikální konstantě 8 následovně. Zkušenější z nich říká, že možné hodnoty 8 mají rozdělení N(900,400). Zatímco druhý z nich (méně zkušený) říká, že možné hodnoty 8 mají rozdělení H(800,6400) (větší rozptyl odráží menší zkušenost). Předpokládejme, že výsledek X « x příslušného pokusu má rozdělení N(6,1600). Pak aposteriorní rozdělení při použití apriorní informace zkušenějšího fyzika je N{x^600t 320) a při použití apriorní informace fyzika méně zkušeného je 1750). Je vidět, že u méně zkušeného fjBika došlo k výraznému snížení rozptylu ve srovnání s fyzikem zkušeným. Při ztrátové funkci L2 dostaneme odhad 8 rovný (x+3600)/5 u zkušeného fyzika a (4«x+800)/5 u méně zkušeného. Tedy odhady jsou různé. Obecně při n pokusech bude aposteriorní rozdělení při použití inřor- - 58 - nace zkušenějšího fyzika ,T/x+3600/n 1600<, a méně zkušeného fyzika kde x je aritmetický průměr výsledků pokusů. Tedy při provedení více pokusů bude vliv apriorní informace ryhle klesat, což je v souhlase s větou 2.1. Vedle dvou uvedených typů odhadů se používá .ještě' bayesovský ■! odhad Sjj maximálně věrohodného typu, který je definován následovně: max rCxte)q(e) = r(x) éL)q( éL.), 0€<3> pokud maximum existuje. Někdy se též mluví o zobecněném maximálně věrohodném odhadu, neboí při q(9) konstantním dostaneme obyčejný maximálně věrohodný odhad. Poznamenejme, že zobecněný maximálně věrohodný odhad nemusí odpovídat žádné ztrátové funkci. Tato metoda se dá použít i ve vícerozměrném případě. Příklad 4.2 (pokračování ze str. 57). Bayesovský maximálně věrohodný A odhad maximalizuje funkci e~*-n-1 exp i- (J+I^/ej pro © > 0, výpočtem dostaeme £ j + \ xi ti t» d. + n - 1 tj. Sjj - r*^ (x). Nyní si uvedeme 2 příklady na odhad parametru, jestliže apriorní rozdělení bylo získáno empirickou bayesovskou metodou, která byla vyložena v § 2.4. - 59 - Príklad 4.3. Necht X^...,]^ jsou nezávislé náhodné veličiny, X± má rozdělení Níe.ffg), kde Íq>0 je známé. Necht y.,,...^ jsou nezávislé náhodné veličiny, které představují výsledky z minulosti, yi mají rozdělení N(8 ,ff2), kde 8 iff^>0 jsou neznámé. Uvažujme úlohu odhadu parametru 8 při ztrátové funkci L2 dané (4.D. Podle (2.39) a (2.41) za odhady 8q a « Ý jinak. Příklad 4.4. Necht X má Poissonovo rozdělení s parametrem Ä. Necht Y1>a..tYH představují výsledky z minulosti a jsou to nezávislé náhodné veličiny, Yi má Poissonovo rozdělení s parametrem *X$ jsou nezávislé náhodné veličiny, ^ má rozdělení gama (<*,/$), > 0, |3>0. Pro nepodmíněnou střední hodnotu a nepodmíněný rozptyl náhodné veličiny Y^ platí EYi = - ^ - 60 - var Y± » E>± + EU^)2 - £ + - £ (*£!■) kde 52 je dáno (2.40).Odhad > při kvadratické ztrátové funkci Lg dané (4.D je pak A A > = je-li &2-Ý> 0. 1 + <* A p — V případě S -Y <0 není tento odhad vhodný. Můžeme však postupovat jiným způsobem. Při ztrátové funkci Lg je obecné vyjádření (při libovolné apriorní hustotě qO) vzhledem k Lebesgueově míře) pro odhad > následující ♦o» \ *r(xj*)q(?0d5k \= ifi_ , (x+1)r(x+1) * r(x) Stačí tedy odhadnout r(x) a r(x+1), např. počet Y± . x r(x) = -=- a dosazením do ^ dostaneme nový odhad který je velmi jednoduchý, ale značně nestabilní při menších N. 4.3 B0D0V7 ODHAD: VÍCEROZMĚRNÝ PŘÍPAD Ve vícerozměrném případě nejčastěji používáme ztrátovou funkci kde A, je symetrická pozitivně semidef initní matice typu k k k a *(q) při ztráto vé funkci i=1 kde £(x) = (d^jíx),... ,^(5))'. Aposteriorní rozdělení parametru 8 je Mrichletovo (o(1+x1,.. .,^+x^). Dále platí » |§=(Q1,...,ek)'j 0^8^ 1, i-1,...,k» L e± = 1}. Vzhledem k (4*16) bude minima dosaženo pro «0(^-1 } Proxi = 0,...,n, (m+o^x a odtud dále obdržíme - 64 - což spolu s (4.17), (4.18) implikuje ,2 f_ .2 », s *0 - 1=1*1 ?(q) = (oc0«)(oí0+1k0 4.4 VŽR0H0DN0STNÍ MNOŽINY Kromě bodového odhadu se při klasickém přístupu k úloze odhadu setkáváme s problémem najít konfidenční množinu pro parametr 6. Přesněji řečeno najít borelovskou množinu D^CX)^®, která s předepsanou pravděpodobností 1-° (4.19) Při bayesovském přístupu konfidenčním množinám odpovídají tzv. 100(1-oQ% věrohodnostní množiny (credible region v angličtině) parametru Q. 100(1-o<)% věrohodnostní množina parametru 0 je definovaná jako libovolná množina C^CXjc® taková, že p( e * coí(%)\ x) = ^ ^(eií) Mo) - 1 - <* ; (4.20) 1-o< nazýváme věrohodnost. Někdy nahrazujeme poslední rovnost nerovností ^. Protože f(8|x) je hustota na ® , můžeme mluvit o pravděpodobnosti, že 6 náleží do G^ÍX). Na rozdíl od klasického přístupu, kdy konfidenční množinu D^ÍX) lze interpretovat jen v termínech pravděpodobnosti pokrytí. Jak uvidíme na příkladech v řadě případů jsou množiny Cet(X) a D^X) totožné. Věrohodnostní množina C^CX) není obvykle předpisem (4*20) jednoznačně určena. Snažíme se najít množinu CJ[(X) takovou, že - 65 - - [fc®; * k^}, (4.2D kde k^ je největší konstanta taková, že ^ T(alX)ďXCe) = 1 - oc (popř. » 1 -<*). (4.22) Najít G^(g) je mnohdy značně obtížné. Poznamenejme, že c£(X,) je věro-hodnostní množina splňující (4.21) a navíc \ d*(9) t£ ^ d>(S) Pro vš' Cw^- (4.23) C£(X) CU(X) Je-li 8 jednorozměrný parametr, hledáme obvykle věrohodnou množiaiu ve tvaru intervalu a mluvíme o 100(1-oQft věrohodnostním intervalu. Nechí X^,...,!^ je náhodný výběr z N(p.,e>2), kde jut a 5"2 > 0 jsou neznámé parametry s apriorním rozdělením normálním-gama 0 parametry (a,r,c,d), a*^, r > 0, c > 0, 2d je přirozené číslo. Tedy podle sir. 22 je marginální apoateriorní rozdělení náhodné veličiny (p.~p.*) (d"r/c*)1/2, kde^*, c* , d* j a ou dány, (2.15), (2.16) resp. (2.1?), je t-rozdělení o 2d* stupnioh volnosti. Z vlastností t-rozdělení plyne, že Interval (u* - t (2d*))(c*(d*r)-1)1/2, jU*+ t (d^Xc^á'r)"1)172), 1-V2 1 1W2 (4.24) kde t1-0^2(d ) je 100(1-0, b> 0. Chceme nalézt 100(1-«0% věrohodnostní interval. Aposteriorní rozdělení 6 je beta, rozdělení s parametry (a+x,b+n-x), kde x je počet vadných výrobků ve výboru. Zkonstruovat nejkratší věrohodnostní interval s předepsanou věrohod-ností je obtížné z důvodů stejných jako 6**~ . Za 100(1-«*)% věrohodnost 1 rá 1 ä/ ní interval lze vzít interval (G~ (^j a+x, b+n-x), G~ (1-*; a+x, b+n-x)), kde C"1(y; a+x, b+n-x) je kvantilová funkce beta rozdělení s parametry (a+x, b+n-x). ^ i Při a . = 1, x = 0 bereme však spíše interval (0,1-oin+ ) místo — 1 -1 (1-(1-rt/2)(b+n) , 1-( 0 = 0 6 é0. Jsou-li X1,...,Xn (aspoň jedno Xi je různé od 0) počty požárů v jednotlivých týdnech, pak aposteriorní rozdělení je gama s parametry n (n, ,2_x-i) (J® 0 limitní aposteriorní rozdělení). Úkolem je zkonstruo-1=1 1 vat 100(1-q> ©-]»••• »©Q jsou neprázdné disjunktní borelovské podmnožiny ©ř LJ ®. = <5), můžeme formulovat jako statistický rozhodovací problém (®,A,R), kde A je množina rozhodovacích funkcí, které nabývají pouze hodnot d.j,...,d^, kde di označuje rozhodnutí, že platí hypotéza H^, i = 1,«..,k« 5.2 ZTRÁTOVÉ FUNKCE POUŽÍVANÉ PRI TESTOVANÍ HYPOTÉZ Uvedeme si některé nejčastěji používané typy ztrátových funkcí pro úlohu testu hypotézy HQ proti H1 (pro úlohu diskriminace se používají obdobné). Typ velice často souvisí s tvarem hypotéz. Obecně volíme ztrátovou funkci L s vlastnostmi L(g,d±) = 0 9 e ©±, i = 0,1 L(6,d±) > 0 8 é®± - 70 - 1 Jsou-li obě hypotézy jednoduché, volíme ztrátovou funkci L<§i»di) = 0 i * 0,1 LÍB^d,). = a1 kde a±> 0, g± = qít i = 0,1. Z věty 3*3 pak plyne, že se rozhodneme pro platnost hypotézy Hq, jestliže a-|$r(xle0) > ao(1-^} r<£l§i>» (5.D pro platnost hypotézy H,, jestliže platí nerovnost opačná a v případě rovnosti se můžeme rozhodnout libovolně. V obecném případě používáme většinou jeden ze dvou následujících typů ztrátových funkcí: L.CS.d,) =0 e & ®. (5.2) = aj e 4 ©í i * o, 1, l^ce.dj,) =o ee0± (5.3) = k. dCe,®^ e^<3>± i = o,i lede dCB,®^) je vzdálenost (obvykle Eukleidova) 8 od množiny ©if n.A :> 0, K^^O, i = 0,1. Zatímco ztrátová funkce L* závisí pouze na xom, zda 6 náleží do ©Q nebo ©1, ztrátová funkce nabývá tím větší hodnoty, čím je skutečná hodnota 6 vzdálenější od hypotézy, pro kterou jsme se rozhodli. Nyní se budeme zabývat vlastnostmi těchto ztrátových funkcí. Pro rizikovou funkci odpovídající L» platí R<(8,cf) = aQ P(d1/§)q(§)d*(g). Pravděpodobnosti P(ít5)=di/§) pro 6e it i = 0,1 obou vlastně pravděpodobnosti chybných rozhodnutí. Pro libovolnou rozhodovací funkci 5^a7 a1 = libovolně pro P( 0e©1/X=x) = a ' . i ~ * a0 1 Čísly aQ,a1 připisujeme hypotézám Hq,H1 váhy, které mohou odrážet závažnost té které hypotézy. Příklad 5.1. Doba čekání na autobus na určité zastávce v určitou denní dobu má rovnoměrné rozdělení (0,6). Chceme testovat hypotézu - 72 - H0: 8éd, kde d je dáno, proti alternativě E^i G>d. Ze situace na jiných tratích plyne, že 8 můžeme považovat za náhodnou veličinu s Paretovým rozdělením (a,x0). Jsou-li zjištěné čekací doby X^...,!^, je aposteriorní rozdělení parametru 8 opět Paretovo s parametry (a+1, ma3c(x0,X1,... ,XJ1) ). Tedy platí d P(8-čd|X=x) = \ (1+a)(max x,)a+1 8""a~2 IÍ 6 > max x, }d8 = (5.11) 5 Oiiin 1 1 OíUn 11 1 - (max Xj/d) Oáritíl X a+1 pro d > max O^i^n = 0 pro d Á max O^i^n ti' P(8>dlX=x) = (max x,/d) Oéiín 1 a+1 pro d > max x.,, 0*i«n 1 (5.12) = 1 pro d d pro 8 > d pro 8 « d kde označuje rozhodnutí, že platí hypotéza H^, i = 0,1; K>0, je bayesovská rozhodovací funkce dU=x) = dQ pro P(8íLdl5=x)>P(6>d|X=x) = libovolně pro P(8^dlx=x) = P(8 >d\x=x). Vzhledem k (5.11) a (5.12) se rozhodneme pro d1, jestliže d <. max nebo 0 max (max x,\d)a+1>1/2. O&i&n - 73 - Máme-li např. d = 15, xQ - 5, a - 3, x,, = 10, x2 = 3i ^3 = 2» = 5, x5 = H, pak (mas x, ld)a+1 = (14h5)4> \ . 0áÍí:5 A Rozhodneme se tedy pro d^. Ztrátová funkce L** daná (5*3) je užívána především,je-li jedna z hypotéz jednoduchá a ® je otevřený k-rozměrný interval (konečný nebo nekonečný). Používáme ji též v případě, že ô je jednorozměrný parametr a méme-li hypotézy h0: 9í Gq, H1: 6 > bqt nebo je-li 6 = - i, 0,,,. c 5 6j ) ' k r opěrný parametr a raáme-li hypotézu např. HQ1: Je-3i 9 jednorozměrný parametr, ©otevřený interval, 8qS® , hc: 9 4 6^, H1 s 6 > e0 a je-li ztrátová funkce L», dána předpisem Lo(8,d0) = 0 s^e0 (5-13) = 8 - 8q 9 > qq L^íe,d.,) - e0 - e 66 e0 = 0 s > e0 pak. baytí.iorekí rozhodovací funkce je rovna Úq, jestliže E(6|5=5) ^ e0 (5.14) a je d.j, jestliže platí nerovnost > . Přesvědčíme se, že tato rozhodovací funkce je bayesovské. Podle (3.10) stačí spočítat pro libovolnou rozhodovací funkci ď podmíněnou střední hodnotu ztrátové funkce: ♦ 00 E(L0(e,80\-«o g \ (E(elX=x)-Q0)r(x)d-vn(2) " 5 (8-60)q(8)dík(8). ^{ECel^xke^ Příklad s.1 (pokračování). Při stratové funkci = 8 - d pro 8 > d L^CS.d.,) =0 pro fl>d = d - 8 pro 8ád je bayesovská rozhodovací funkce rovna dQ, jestliže max(xn,...,x^) E(8|x=x) = -^-— . a ^ d. Pro data uvedená v první části příkladu se i při této volbě ztráto vé funkce rozhodneme pro d^. - 75 - 5-3 TESTY PŘI ft«S>Q) ° O Oba typy ztrátových funkcí uvedená v předchozím paragrafu však mají jednu nevýhodu. Je-li q(6) = 0 pro ak. vš. (vzhledem k >>) 8 e. ®£ kde i b o nebo 1, pak bychom ae nikdy nemohli rozhodnout pro hypotézu H^, neboí nulovost apriorní hustoty implikuje nulovost aposteriorní hustoty. Takováto situaoe nastane napr. je-li ®^ ^ úb^ ® 6 ^]£t r< k, ^ Lebesguova míra a >(©) > 0 (u všech apriorních hustot uvažovaných ve 2. kapitole byla 7i Lebesguova míra). V tomto případě se dá postupovat jedním ze dvou způsobů. Předpokládejme, že M®Q) ■ 0. Místo hypotéz HQ: 6e 0 volíme podle konkrétní situace, např. a = 5« Pak při ztrátové funkci (5.2) s aQ = a1 (vzhledem k (5.10)) se rozhodneme pro Hq, jestliže Je-li např. x = 110, pak se rozhodneme pro H* , při x ■ 90 se rozhodneme pro H*. Při HQ: g = §0 (jednoduchá hypotéza) používáme též jiný postup. Definujeme nové apriorní rozdělení. Bodu 8q přiřadíme apriorní prav- - 76 - děpodobnost q > 0 a borelovským množinám Bc®-\Q^} přiřadíme pravděpodobnost P(§^B) = (1-q) $ q(8)dM§). B Pak aposteriorní rozdělení 8 je q r(x|fin) Ke-gJj-j).-=~2- (5.15) - Ä q r(x|00)+(l-q) J r(x|e)q(§)d*<8) p - <1-^B r(xl§)q(8jdMg) l* * q r(x|§0)+(1-q) ^r(x |8.)q(§)d*(§) Marginální hustota X je rovna r*(x) = r(x|60)q + r(x[8)q(§)d*(§). (5.16) Na ® - \&q[ existují apriorní i aposteriorní hustoty q* a T* vzhledem k *j q*(6) . (1-q)q(8) g*©- feQ\ (5.17) = Cl-q?^pq(fl? §fi®- ÍQQ) (5.18) Obdobně lze postupovat i v obecnějších případech, např. je-li ®0 m * ®0> §oGR1* ®d€ ^k-1* Ten-to postup nemusí být vždy vhodný, jak nyní uvidíme. Lindleyův paradox. Necht X má rozdělení NÍS,*2), 6"2> 0 známé, a testujme hypotézu HQ: 9 = 8Q proti H1: 8 / 8Q. Předpokládejme, že apriorní pravděpodobnost, že 9 = 8q je q£.(0,1) a apriorní hustota SnaRfiepi de (1-q)(2TTb2)"1/2 exp|-(8-a)2(2b2)"1}, b^O, aeRr Z (2.10) a (5.16) obdržíme pro marginální hustotu X r*(x) = » exp^~ 1a(x-8n)2?+ t yq n expí " a—sy-íx-a)2?, Í2^F l 2(r 0 J ^fCffW) i 2(b2+ff2) J icH, (5.19) - 77 - Dále z (5.15) plyne, že aposteriorní rozdělení je P(0«8o|X*x) = eXpl"^7 (x'80)2} Cr#(x))"1 (5.20) ť(e|x) - . ,> expí--(x-a)2l (r#(x))~1 (5-21) f2T(b2T?) I 2(b2+ 1/2. Donadíme-li na levé straně z (5.20), dostaneme po jednoduché úpravě ekvivalentní nerovnost Položme déle pro jednoduchost b2 = 1, a = qqf q = 1/2, ^2 = exp(-25). Pak je poslední nerovnost ekvivalentní nerovnosti přičemž výraz na pravé straně je větší než 5» Docházíme tedy k paradoxnímu závěru. Pro hypotézu Hq se totiž rozhodneme i v případě x-8, '0 zatímco při klasickém přístupu bychom Hq zamítli i na hladině 5,1.10"7. Z toho lze soudit, že buä ztrátová funkce nebo apriorní rozdělení nebyly vhodně zvoleny (např. hodnoty blízké 0Q jsou mnohem pravděpodobnější než hodnoty vzdálenější). Tento paradox publikovaný Lindleyem vyvolal řadu diskusí, z nichž některé byly publikovány, např. v [8]. - 78 - Na závěr paragrafu se zmíníme ještě o jednom typu testů, a to testech podílem aposteriomíoh hustot. Pro test hypotézy HQ: 8<£(3>0 proti hypotéze H1: 8 *í ®0 sestavíme podíl sup 7r(e|x) e«®0 sup t(§Is) (5*22) 06® Tento podíl je vždy < 1. Hodnoty podílu blízké jedné indikují platnost hypotézy HQ, zatímco malé hodnoty indikují platnost hypotézy Tato metoda je doporučována, pokud ^ q(§)d\(g) = 0 nebo je nu-le blízký. Neodpovídá obecně žádné ztrátové funkci. Je analogií testu podílem věrohodností v klasické statistice a používá se též jako v klasické statistice pro test lineárních hypotéz v lineárním modelu. Dosazením (2.30) do (5*22) obdržíme po delším výpočtu obecný tvar testové statistiky, který je ve speciálním případě roven funkci P-statistiky používané v klasické statistice. Další podrobnosti o této metodě a jejím využití při testech v lineárních modelech může čtenář najít napr. v [5], {VI • 5.4 TESTY 0 STREDNÍ HODNOTĚ NORMÁLNÍHO ROZDĚLENI Z látky vyložené v předchozích dvou odstavcích můžeme získat řadu testů o střední hodnotě normálního rozdělení. Uvedeme si některé z nich. A. Nechí X-j,...,:^ je náhodný výběr z normálního rozdělení NÍJi,?2)), 6*q>0 známé a yU. je neznámý parametr. Uvažujme úlohu testovat HQ: pí - jiQ proti R\j s |U / |xQ. Předpo kládě jme, že apriorní rozdělení |X je následující t P(|x = jíq) - q a na R1 - {jLq\ hustotu - 79 - (1-q)(2Tb2)"V2 exp{-(|t-a)2(2b2)"1} , a6H1P b2>0. Pak platí ^■falfrg) q^Tr2)-^2 exp^x^)2^)-1) P(JH^Q|X=x) " (1-q).r(x) kde r(x) je dáno (2.10). Při ztrátové funkci (5.23) Vfi,d0) " 0 f* * ^0 (5.24) ■ ao r * /*o b a 1 ř-f»0. kde aQ>0, a^> 0, se rozhodneme pro dg, jestliže (použili jsme <5»9), (5.23) a (2.10)). Při ztrátové funkci WMo* = "^"V* |" * R1 (5*25) = k2 P - ft) -0 K * ř0» kde k.j> 0, k2>0, se rozhodneme pro dQ, jestliže k1 E^^0)2iž=5) < k2 «|*-PolfrS> tj. Vi-qK^2*^-^)2) <. k2 pty-folí-*). kde (U., a (T2 jsou dány (2.9). Mějme hypotézu H0xjxí,|Ll0 proti B.^:^>\xQ a předpokládejme, že o apriorní rozdělení jx je H(a,b ). Při ztrátové funkci - 80 - L0((Lt,d0) = 0 jxts^ (5.26) se vzhledem k (5*14) a (2.9) rozhodneme pro dQ, jestliže I^b2 +a 6% ^-s-T * ft>- nb* +6^5 1 u B. Necht X1t...,Xn je náhodný výběr z H(jU,5^), kde a fr2> 0 jsou neznámé. Mějme úlohu testovat hQ:u = ju0 proti h1 x / Předpokládej-me, že apriorní rozdělení (|/,fl ) je následujíoíj P(fi « |Uq) = q, podmíněná apriorní hustota C při daném ju = pQ je gama rozdělení (c,d), podmíněná apriorní hustota (|i, 5"~2) při podmínce ji £ jlQ je normální-gama s parametry (a,r,c,d) (hustota je dána (2.18)). Pak pro podmíněnou hustotu r(xjp=ju»0) náhodného vektoru Z při podmínce |H = jU. 0 platí • ^ «r2)d-1 expf-c/^aer2 - -n/2 c* ^2 + a tedy podle (5.15) q rCxIttsiLu) kde r(§) je dáno (2.20). Při ztrátové funkci (5.24), která ne-závisí na 0" > 0 se pak rozhodneme pro dQ, jestliže - 81 - Nyní uvažujme ztrátovou funkci L»#C^,(r"2|d0) = k0cr"2(|d-u.0)2 u & Rv 0 L*. 0 kde kQ> 0, k1> 0. Pro libovolnou rozhodovací funkci /(x) platí BCl^.^VWMfrS) = (l-qJkoEl^-Uo)2!^} je-li - B(Br2tCřio-|r)2+«2(n+r)"1lí^) - kde u* a c* je dáno (2.15) resp. (2.16). Odtud plyne, že se rozhodneme pro dg, jestliže Cl-q)k0(S^ä(^0-fiL*)2+(n+r)-1) < q ^ Pp0 a ztrátová funkci (5.26) pro vš. C >0 se rozhodneme pro dQ, jestližp r a + n % . i, r + n * TO" (stačí dosadit (2.15) do (5.14)). C. Uvažujme 2 nezávislé náhodné výběry X-j,...,^ z N(fi1f6-2) a Y1f... •••»Yn z Nípgjff ), u2, c > 0 neznámé a úlohu testovat hypoté- - 82 - zu Hq: fi^jtg proti H1: f*i>f<-2' Předpokládejme, že apriorní rozdělení ,(t2,e-"2) lze popsat následovně. Podmíněné apriorní rozdělení (f^T.Ug) při daném (f2 je BCCa.,^),*2^ * °-D), marginál- ? 2 ní apriorní rozdělení &~ je gama s parametry (c,d). Pak aposte- rioroi rozdělení """Cfl-j»fa* ^\ parametrů ,jLt2, r"2) 3© násle- dující. Podmíněné aposteriorní rozdělení (p-^tjU-g) při daném 6* je H(a* ,•*)*, ^V^I^íAn rO>, kde n1 2 n r1a1+ I Xi 1 1 i=1 x ř-2 rňa.+ Ť2 Y, r1 + n1 a* . 2 —? Marginální aposteriorní rozdělení 0" je gama s parametry (c*,d*), ÍÍ1 r2 + n2 kde &* ». d+(n,j+n2)/2 a ^ i=1 1 ^ i=1 1 r1+ n1 r2n2(Ý-a2)2 r~ t- n~ 42 i=1 Při ztrátové funkci L(h,|u2'ťr~2'do) s 0 = o platí pro lib. rozhodovací funkci <^(x,y E(L(Ml,u2,6--2? 0 &~2> o f2> o >fi2- 4oo = S S ^>(p2-h) (ťlf 2»«r2>U»ť ^d^diT2 procTC^x)^. - 83 - Fo úpravě zjistíme, že bayesovské rozhodovací funkce bude rovna čLq, jestliže tj. jestliže r1a1 + n^x. ^2a2 + n2^ r1 + n1 4 r2 + n2 * Bayesovská rozhodovací funkce bude rovna d^ jestliže platí nerovnost . i str^8,45 Přiklad 1.1 (pokračováni). Uvažujme úlohu diskriminace mezi hypotézami fi\,: 6 4 90, H2: 90<8<110, YLy. 8>110 (které odpovídají podprůměrné, průměrné a nadprůměrné inteligenci) a předpokládejme, že ztrátová funkce je dána předpisem (d^ označuje rozhodnutí, že platí): L(8,d.,) = 0 8^.90 = 8 - 90 90< b110. L(6,d2) = 90 - 8 6 *90 = 0 90^ 8 <:110 = 8 - 90 8 > 110 L(8,d3) = 2(110-8) 8< 90 = 110-6 90 < 8 <: 110 = 0 8^110. Tedy ztráta závisí na vzdálenosti od hypotetické množiny, jestliže jde o 8 ze •feousední" množiny a na jejím dvojnásobku, jestliže 6 nenáleží ani do hypotetické ani do "sousední" množiny. Přímým výpočtem dostaneme pro lib. rozhodovací funkci 110 +» E(L(e, e|x=115) = 0,520. Odtud plyne, že při ztrátové funkci l*(B,á±) =0 8 e ®± * 1 6 £ ®± i = 1,2,3 přičemž Q = (-«,90>, ®2 = (90,110), ®3 = <110,+~), je bayesovské rozhodnutí opět d^. - 85 - APENDIXj PŘEHLED POUŽITÝCH ROZDELENÍ Niže uvedené hustoty jsou hustoty bud vzhledem k čítací míře (pro diskrétní rozdělení) nebo vzhledem k Lebesguově míře (pro spojitá rozdělení). Binomické rozdělení s parametry (m.p) (m ■ 1,2,...; p «. <0,1>) má hustotu r(x|m,p) = (m) px(1-p)m-x x - 0,1.....m. (A.1) Platí t ., EX ■ mp, var X • mp(l-p), J(p) = pfjlp') i (A.2) při m = 1 mluvíme o alternativním rozdělení. Poissonovo rozdělení s parametrem X (A > 0) má hustotu r(xl>) = e~% Xx (x!)"1, x - 0,1,2,... (A.3) Platí EX - X, var X » X, J(9k) = >"1 (A.4) Nef^a;ivně binomické rozdělení b parametry (a.p) (a> 0. pe<0,1» má hustotu r(x)a,p) « (a+x~1) pa(1-p)x x « 0,1,2,... (A.5) Platí j(p) « _ä- P2(1-P) (A.6) EX = a(1-p)p""1, var X = a(1-p)p~2, Při a » 1 mluvíme o geometrickém\rozdělení. Normální rozdělení a parametry |J a fr2. (ozn. N(u,6"2), f e E^, 0) má hustotu - 86 - r(x|fi,ff2) - <2Tff2r1/2 *xt>[-U-\L)2(2<ŕr'i} x«Rr U.7) Platí EX » ji., var X - 32, J(f* ,6" ) = (^^r2* • 0), p>0) má hustotu r0, (A. 9) * 0 x <.0, 4-00 kde T(p) « ^ tP~1 e~* dt-Platí 0 EX = p a"1, var X ■ p a"2. (A.10) Při p » 1 mluvíme o exponenciálním rozděleni* Při p = n/2 a a « 1/2 mluvíme o ^-rozdělení (centrálním) o n stupních volnosti. Beta rozděleni e parametry (a.p) (a> 0, b > 0) má hustotu r(x|a,b) - (B(a,b))~1 xa~1 O-x)*"1 x e (0,1), (A.11) ■ 0 x £ (0,1), 1 kde B(a,b) « \ xa"1 (1-x)D~1 dx. Platí 0 " EX = a(a+b)~1, var X = ab J(a+b)2(a+b+1)]~1. (A.12) Rovnoměrné rozděleni e parametry (a.b) (a0, b > 0) má hustotu r(x(a,b) = (a/b) (b/x)a+1 x>b (A. 15) = 0 x2 platí EX « ab(a-'1)"1, var X * ab2t(a-1)2(a-2)l (A. 16) Studentovo (t-) rozdělení o n stupních volnosti a parametrem yj Cp «. R1) má hustotu P(S±1) 2 QÝ1 Má-li náhodná veličina X rozdělení Htyi,1), Y rozdělení^2 o n stupních volnosti a jsou-li X a Y nezávislé, pak náhodná veličina T - ^Š- fn má t-rozdělení o n stupních volnosti s parametrem |i. Platí EX «= jit (A. 18) a pro n>2 platí var X a q—g • P-rozdělení s n^ a n„ stupni volnosti má hustotu rxn1(nJ--n, „ 2 (-4 1/2 (1+ix) 2 x 1 12 r(|1) P(§2) n2 n2 x«Rr (A.19) Jsou-li náhodné veličiny X a Y nezávislé a mají-li ^-rozdělení o resp. n2 stupníoh volnosti, má náhodná veličina X/n-p-Y7ňt - 88 - {•-rozdělení a a stupni volnosti. Pro n2> 2 platí n2 EF - 5"*5 (A.20) a pro n2>4 var P » -*—;—s-k . (A.21) 2n|(n1+n2-2) n1(n2-4)(n2-2)2 * Multinomické rozděleni § ^-ramotry (n.ti) (n « 1,2,...j g » (p^,... • •••Pjg)', Pjl& <0,1>, i«1,«««»k|X pA = 1, ki 2) má hustotu r(x|n,p) - x^Jtlj^\ Pi1--.?^ 5 - (x,,...,^)', (A.22) ,..., k, ^ x^ jinak. xí = 0,...,n, i b 1,...,k, i. ■ n 1 i-1 1 Platí EX± ■ upit var I± - ap^O-Pj) i - 1,...,k, (A.23) oovíZ^Xj) - -npjPjj i, j - 1,...tkj i jí 3, (A. 24) 1/p« n j(p i.....w •jfe<5;::|>+n< o -i/jfc.,'- u-25) Dirichletovo rozděleni (mnohorozměrné beta rozdělení) a parametry ^ - (°<«.....0<]E) ' («3 0, i « 1.....k) má hustotu r(cf1+...-H(k) oL-1 tf.-l ^gte* " ru1)...ruk) xi •••xk s-(xi.....»k>' (A-26) x±> 0, i - 1 k, f_x± = 1 1 i»1 x m 0 jinak. Platí ° Kli * ST' var X, « i u 1 , i - 1,...,k, (A.27) 0 *5(*0 + 1) - 89 - cov(X,,X,) - - A*-1^ , d,i » 1.....k| i é á, (A.28) 1 3 ■ío(*0+1) kde o(n u i»1 Marginální rozděleni X± je beta rozdělení s parametry <*±, k-rozměrné v ^normální rozdělení a parametry fi a<4 (ozn. ^(fi,!^)) ({{ f -symetrická pozitivně definitní matice typu k * k) má hustotu p(5l|4.S) » CaTr^Cdet^r172 exp^i^T^X-^l' (A'23) Platí EX = ji , var I = Z . (A.30) k-rozměrné Wishartovo rozdělení (centrální) a n otupni volnosti a parametrickou maticí ž- ( ž - symetrická pozitivně definitní matice typu kx k) má hustotu r(3cin,£) = ^^(dat J)"*/2 (det s)<»-*-1)/2 . (A.31) . exp|- \ tr(£-1x)\ pro vš. ž 'f f11'!"' Ť*) kde Cv1. - 2Bk/2Tk 2 ES-jtó U.35) var T - £. (A.36) Nechí má náhodný vektor % « (Y.,,... ,Yk) ' rozdělení H^Cg.^.), kde X-je regulární, nechí má náhodná veličina Z ^-rozdělení s n stupni volnosti a | a Z jsou nezávislé. Definujme náhodný vektor X -« (X1,..•,Xk)' předpisem X± = ^| >Jn + i « 1.....k. (A.37) Pak náhodný vektor J má k-rozměrné t-rozdôlení s n stupni volnosti a parametry |u » ,... a £. Dvojrozměrné Paretovo rozdělení s parametry (r^r^.a) (r.,0) má hustotu x aCa+DCr^-r-)8^ r(x1tx2J r^rg.a) - -— (ac, ,3^)« R2, (A.34) xT*r1» r21 platí EX1 = fills " a-f ar0-J*i EX, (A. 35) a pro a>2 a(r^>-r1) var X1 - var X2 = (a_1)2(a_2) (A.36) - 92 - LITERATURA Anděl, J.: Matematická statistika, SN TL, Praha 1978. \z\ Berger, J. O.: Statistical decision theory, New York Ino., Springer-Verlag, 1980. [3] Blackwell, D. a GÍshick, M. A.: Teorie her a statistického rozhodování, Praha, Academia 1964* [43 Box, G. E. P. a Tiao, G. C.: Bayesian inference in statistical analysis, Reading, Massachusets, Addison-Wesley, 1973. [5] De Groot, M. H.: Optimal statistical decisions, New York, lác-Graw-Hill Company, 1970 (ruský překlad: Optimalnyje statisticeskije řešenija, Moskva, Mir, 1974). [6] Lindley, D. V.: Introduction to probability and statistics from a Bayesian viewpoint, Part 1. Probability, Part 2. Inference, Cambridge, Cambridge University Press, 1965« [7] Maritz, J. S.: Empirical Bayes methods. London, Methuen and Co, 1970. [e] Shafer, G.: Lindley's paradox. Technical Report No. 125, Department of Statistics, Stanford University, Stanford 1975« [9] Winkler,R. L.: Introduction to Bayesian inference and decision. New York, Holt, Rinehart and Winston, Inc., 1972. Knihovno mat.-fy;, fain*