Bayesovské metody Jan Kracík jan.kracik@vsb.cz Úvod Rozhodování za neurčitosti: • rozhodování: volíme jednu z alespoň dvou možností • neurčitost: nelze přesně určit důsledky rozhodnutí a rozhodování sleduje zadané cíle • snaha minimalizovat neurčitost □ s Úvod Rozhodování za neurčitosti: • rozhodování: volíme jednu z alespoň dvou možností • neurčitost: nelze přesně určit důsledky rozhodnutí a rozhodování sleduje zadané cíle • snaha minimalizovat neurčitost Reprezentace neurčitosti: • pravděpodobnost • fuzzy modely • nepřesné pravděpodobnosti □ s Úvod Bayesovská teorie • normativní teorie rozhodování za neurčitosti • axiomatické základy • racionální v jasně definovaném smyslu □ s Úvod Bayesovská teorie • normativní teorie rozhodování za neurčitosti • axiomatické základy • racionální v jasně definovaném smyslu Základní principy: • neznámé veličiny považovány za náhodné • neurčitost reprezentována pomocí pravděpodobnosti • cíle popsány ztrátovou funkcí • minimalizace střední hodnoty ztrátové funkce □ s Výchozí myšlenka: NEZNÁMÉ = NÁHODNÉ □ t3 Výchozí myšlenka: NEZNÁME = NÁHODNÉ Počátky: • Thomas Bayes • Pierre-Simon Laplace • konec 18. století □ s Úvod Výchozí myšlenka: NEZNÁME = NÁHODNE Počátky: • Thomas Bayes • Pierre-Simon Lapiace • konec 18. století Příklad: hod mincí • deterministický proces • neznáme poč. podmínky, parametry, neumíme dost přesně počítat o dokonalý náhodný pokus • náhoda v běžném smyslu je důsledek nedostatku znalostí, schopností □ s Základní pojmy a vztahy z teorie pravděpodobnosti Bayesovská statistika se opírá o několik základních vztahů z teorie pravděpodobnosti. Náhodné jevy A B, C; P(A) > 0, P{B) > 0, P(C) > 0. • Podmíněná pravděpodobnost: PMIfft- P{AnB) Odtud plyne P(AnB) = P(A\B)P(B). □ S Základní pojmy a vztahy z teorie pravděpodobnosti Bayesovská statistika se opírá o několik základních vztahů z teorie pravděpodobnosti. Náhodné jevy A, B, C; P(A) > 0, P{B) > 0, P(C) > 0. • Podmíněná pravděpodobnost: P(A[B) - P(A n g) P(A\B) - p(e) • Odtud plyne P(/l n 6) = P(A\B)P(B). Řetězové pravidlo: P(AnBnC) = P{A\BnC)P(B\C)P{C) □ t3 Základní pojmy a vztahy z teorie pravděpodobnosti • Nezávislost: A a B jsou nezávislé, právě když P(AnB) = P(A){B). Odtud pro nezávislé jevy plyne P(A\B) = P(A), P{B\A) = P(B). □ S Základní pojmy a vztahy z teorie pravděpodobnosti • Nezávislost: A a B jsou nezávislé, právě když P(AnB) = P(A)(B). Odtud pro nezávislé jevy plyne P{A\B) = P(A), P(B\A) = P(B). • Podmíněná nezávislost: A a B jsou podmíněně nezávislé za podmínky, že nastal jev C, právě když platí P(AnB\C) = P(A\C)P(B\C). Odtud pro podmíněně nezávislé jevy plyne P(A\BnC) - P^n5nC) - P{A\C)P(B\C)P(C) _ Základní pojmy a vztahy z teorie pravděpodobnosti S-i, B2,..., Bn - úplný systém vzájemně disjunktních náhodných jevů. Pak platí: • Věta o úplné pravděpodobnosti: n n P(A) = P(A\B,)P(B,) = E P< 0 • Marginalizace: fx(x) = j fx,Y(x,y)dy. Základní pojmy a vztahy z teorie pravděpodobnosti X, Y, Z - náhodné veličiny se sdruženou hustotou pravděpodobnosti fx>Y,z{x,y,z), ŕX)y)Z(x,y,z) > 0 • Marginalizace: H*) = í fx,Y(x^y)dy- Podmíněná hustota pravděpodobnosti náhodné veličiny X za podmínky Y = y: fx\y(x\y)- . Odtud plyne fx,Y(x>y) = fx\Y(x\y)fY(y)- Základní pojmy a vztahy z teorie pravděpodobnosti Řetězové pravidlo: fx,Y,z(x>y>z) = fx\Y,z(x\y^z)fY\z(y\z)fz(z) Základní pojmy a vztahy z teorie pravděpodobnosti Řetězové pravidlo: fx,Y,z(x>y>z) = fx\Y,z(x\y^z)fY\z(y\z)fz(z) Nezávislost: Náhodné veličiny X a V jsou nezávislé, právě když fx,Y(x>y) = fx(x)fY(y)-Odtud pro nezávislé veličiny plyne fx\v(x\y) = fx(x)- Základní pojmy a vztahy z teorie pravděpodobnosti Náhodné veličiny X a V jsou podmíněně nezávislé za podmínky Z = z, právě když platí fx,Y\z(*,y\z) = fx\z{x\z)fY\Z(y\z). Odtud pro podmíněně nezávislé veličiny plyne fx\Y,z(x\y>z) = fx\z{x\z). □ S Základní pojmy a vztahy z teorie pravděpodobnosti Náhodné veličiny X a Y jsou podmíněně nezávislé za podmínky Z = z, právě když platí fx,Y\z{x,y\z) = fx\z{x\z)fY\z{y\z). Odtud pro podmíněně nezávislé veličiny plyne fx\Y,z(X\y^Z) = fX\z{x\z). • Bayesuv vzorec: , , , , fY\x{y\x)fx(x) fY\x{y\x)fx(x) Tx\Y{x\y) = — My) I fY\x(y\x)fx(x)dx □ t3 Bayesovská rozhodovací úloha Model, apriorní hustota, aposteriorní hustota Neznámé veličiny v úloze jsou považovány za náhodné. • Systém popsaný náhodnými veličinami x, 0 • x ... pozorovatelná veličina, data o 9 ... neznámý parametr • Pravděpodobnostní model f(x\0) • závislost x na neznámém parametru 9 • podmíněná hustota pravděpodobnosti • Apriorní hustota pravděpodobnosti f(9) • informace o parametru 9 dostupné předem • Aposteriorní hustota pravděpodobnosti f{6\x) f{0\x) f(x) f f{x\0)f{0)dO f{x\9)f{9) • celková informace o 9 (apriorní + inf. z dat) Poznámky Model, parametr o Model: • nejen běžné statistické modely o obecně složitý, např. hierarchický • často využívá podmíněných nezávislostí • Veličiny x, 6: • obecně vektorové • složky závislé • veliká dimenze • Parametr 0 může mít jakýkoliv význam: • parametr statistického modelu • nepozorované fyzikální veličiny □ s Poznámky Apriorní hustota • explicitně vyjádřená apriorní informace • charakteristický prvek bayesovských metod • zdroj apriorní informace: • teoretické modely, např. fyzikální • expertní zkušenost • podobné úlohy • omezení • technicky obtížné, není-li vhodná informace k dispozici • neinformativní apriorní hustoty • Nemám-li apriorní informaci, nemám problém! □ s Poznámky Aposteriorní hustota • vyjadřuje celkovou informaci o parametru • zjednodušený zápis f{0\x) oc f{x\6)f{6), oc značí úměrnost až na normlizační člen • normalizační člen určen podmínkou J f(0\x)d0 = 1 • Bayesův vzorec představuje mechanizmus učení. □ s Poznámky Aposteriorní hustota Předpokládejme: • x = (Xi,..., xř) • x-i,..., xt nezávislá pozorování • index (t) ... čas aposteriorní hustota v čase r: f(0\xu...,xT)= f(Xr\0)f(0\xu...,xT^) jf(xT\e)f(e\x,,...,xT_i)de Aposteriorní hustota z předchozího času (r - 1) slouží v čase r jako apriorní. Učení probíhá sekvenčně. Bayesovská rozhodovací úloha Ztrátová funkce Cíle rozhodování popsány ztrátovou funkcí. • množina možných rozhodnutí: A • množina hodnot parametru: 0 Ztrátová funkce je libovolná funkce Rozhodnutí přiřazuje hodnotu ve smyslu ztráty, kterou toto rozhodnutí způsobí v závislosti na hodnotě parametru 9. Příklad: kvadratická ztrátová funkce L(a, 9) = {a-9f. □ s Bayesovská rozhodovací úloha Optimální rozhodnutí Za optimální rozhodnutí aopt pak považujeme rozhodnutí, které minimalizuje střední hodnotu ztrátové funkce vzhledem k aposteriornímu rozdělení, tj. aoPt e Argmin ľ L(a,e)f(e\x)de. (1) aeA J Bayesovská rozhodovací úloha Shrnutí o Pro daný problém specifikujeme • statistický model: f(x\0), • apriorní hustotu pravděpodobnosti: f(0), • množinu rozhodnutí: A, o ztrátovou funkci: L: Ax Q ^R+. Optimální rozhodnutí aopt e A hledáme tak, aby splňovalo podmínku kde f{6\x) f{x\e)f{6) f f{x\0)f{0)dO' □ s Bayesovská rozhodovací úloha • uvedená formulace pro statické úlohy • pro dynamické úlohy složitější, ale princip stejný • výhody bayesovského přístupu: • jednoduchá formulace i pro složité úlohy • explicitně reprezentována apriorní informace • nevýhody bayesovského přístupu: všechny dílčí kroky mohou být technicky obtížné • tvar aposteriorní hustoty • dimenze úlohy • optimalizace rozhodovací strategie • často využívána numerická a suboptimální řešení □ s