M7988 Modely ztrát v neživotním pojištění M7988 Modely ztrát v neživotním pojištění 1/26 Parametrický model a úlohy matematické statistiky Model: Xi,..., Xn je náhodný výběr z rozdělení s distribuční funkcí F(x, 0). Tuto distribuční funkci známe až na neznámý parametr 0 e 0 C Mp. Úlohy matematické statistiky: • Bodový odhad parametru 6. 9 Intervalový odhad parametru 0. • Testy hypotéz o parametru 6. Někdy nás místo samotného parametru 0 zajímá nějaká jeho funkce, tzv. parametrická funkce 7(0), kde 7 : 0 —>► M je reálná funkce. M7988 Modely ztrát v neživotním pojištění Bodové odhady Řekneme, že T : M" —>► M je bodový odhad parametru 9 E Q C M, jestliže 7" je měřitelnou funkcí náhodného výběru Xi,..., Xn. Tedy T = 7"(Xi,..., Xn) je náhodná veličina. Vlastnosti bodových odhadů: • T je nestranný odhad parametru 6, jestliže E7" = 9 pro všechna 9 E 0. • 7" je konzistentní odhad parametru 9, jestliže T = 7"(Xi,..., Xn) —^ # v pravděpodobnosti pro n —>► oo pro všechna 9 E Q. M7988 Modely ztrát v neživotním pojištění Který odhad je nej lepší? • Necht 7~i, 7~2 jsou dva nestranné odhady parametru 9. Řekneme, že 7~i je více eficientní (lepší) než 7"2, jestliže D7~i < D7~2 pro všechna 9 g 0. a Nechť T je nestranný odhad parametru 9. Řekneme, že T je nejlepší nestranný odhad parametru 9, jestliže D7" < D7"* pro všechna 9 g © a pro všechny nestranné odhady 7"*. • Nechť T je odhad parametru 9. Střední čtvercovou (kvadratickou) chybu odhadu definujeme jako MSE(7) =E(T -9)2. • Je-li T je nestranný odhad parametru 9, pak MSE(7") = D7". • Necht 7~i, 7~2 jsou dva odhady parametru 9. Řekneme, že 7~i je více eficientní (lepší) než 7~2, jestliže MSE(7~i) < MSE(7~2) pro všechna 9 g 0. • (Stejnoměrně) nejlepší odhad parametru 9 neexistuje. M7988 Modely ztrát v neživotním pojištění Metoda momentů o Dále předpokládejme, že neznámý parametr 0 je p-rozměrný (0 C W). • Nechť existují obecné momenty \i'k = ii'k{6) = EX^ pro k = 1,..., p. Označme jejich výběrové protějšky M!k = ^Xl/Li^A Pro k — 1,2,.... • Řekneme, že 0 je odhad parametru 0 metodou momentů, jestliže »k(e) = M'k pro/c = l,...,p. • Je-li řešení předchozí soustavy nejednoznačné (rovnice jsou lineárně závislé), přidáme další rovnici pro k = p + 1, pokud ovšem existuje příslušný moment. M7988 Modely ztrát v neživotním pojištění Metoda maximální věrohodnosti Označme sdruženou hustotu náhodného vektoru (Xi,... ,XA7)/ jako n L(9) = Ylf(x,,9). i=l 9 L{6) = /_(0,xi,... ,xn) se nazývá věrohodnostní funkce. • 0 se nazývá maximálně věrohodným odhadem parametru 0, jestliže L(6) > L(0), G 0. • 0 = argmax{/_(0);0£0}. • 1(6) = log L{6) = '°g^(x/5^) se nazývá logaritmická věrohodnostní funkce. • 0 = argmax{/(0);0£0}. M7988 Modely ztrát v neživotním pojištění Vlastnosti maximálně věrohodných odhadů • Za mírných předpokladů (podmínky regularity) jsou maximálně věrohodné odhady asymptoticky nestranné, konzistentní a mají asymptoticky normální rozdělení. • yfň(0 — 0) má asymptoticky rozdělení A/"p(0, J-1(0)). d\ogf(XuO)d\ogf(XuO) d9i 06 j e)-F(cJ-i>9WJ- • 1(0) = log £(0) = E;=i n/ log[F(c;, 0) - F(c,_i, 0)] se nazývá logaritmická věrohodnostní funkce. • 0 = argmax{/(0);0 g 0}. M7988 Modely ztrát v neživotním pojištění 8/26 Maximálně věrohodné odhady pro parametrickou funkci 7 9 Nechť 7 : 0 —>► 0* je prostá parametrická funkce. o Funkci Z(0*) = nľ=i f(*ň7_1(0*)) Pro £ ©* nazveme věrohodnostní funkcí indukovanou parametrickou funkcí 7. • 0 je maximálně věrohodný odhad parametrické funkce 7(0) = 0* jestliže L(0*) > 1(0*) pro všechna 0* g 0*. • Zehnaova věta (princip invariance MLE): Je-li 0 maximálně věrohodný odhad parametru 0, pak 7(0) je maximálně věrohodný odhad parametrické funkce 7(0). M7988 Modely ztrát v neživotním pojištění Delta metoda Theorem Necht {XA7}^1 je posloupnost p-rozměrných náhodných vektorů takových, že ^(Xn — 0) má asymptoticky normální rozdělení J\fp(Q, 51). Dále buď 7 : Mp —>► M měřitelná funkce, která má totální diferenciál v bodě 0. Pak platí: ^(^(Xn) — 7(0)) má asymptoticky normální rozdělení'M'(0, a2), kde a2 = V7;(0)EV7(0), /rete Je gradient funkce 7 v fooc/é 0, M7988 Modely ztrát v neživotním pojištění Aplikace na MLE Víme, že za mírných předpokladů (podmínky regularity) platí: yfň{0 — 0) má asymptoticky rozdělení A/"p(0, J-1(0)). Aplikací delta metody dostaneme, že za mírných předpokladů platí: \fň{p({0) — 7(0)) má asymptoticky rozdělení N(Q,Vi(6)}-1(6)V1(e)). 7(0) «^(7(»), ^V7/(0)J-1(0)V7(0)). Je-li 0 jednorozměrný parametr, pak 7(0) ^ A/" (7(0), ^J^j M7988 Modely ztrát v neživotním pojištění 11 / 26 Metoda minimálního y2 O Rozděl obor hodnot náhodné veličiny X, na k po dvou disjunktních intervalů 61,..., B^. O Označ Yj = X)ľ=i ^ ^/} Pro 7 = 1,..., A: počet pozorování, které padnou do intervalu Bj. Q Spočítej teoretickou pravděpodobnost, že náhodná veličina X; nabude hodnoty z intervalu Bj = pravděpodobnost, že dané pozorování padne do intrvalu By. Pj{0) = P {X; E Bj) = JB f (x, 6). Q Porovnej očekávaný a skutečný (pozorovaný) počet pozorování v jednotlivých intervalech Bj pomocí Pearsonovy x2 statistiky testu dobré shody: O Odhad parametru 0 metodou minimálního x2 minimalizuje y^{6) přes všechny hodnoty 6 E 0, tj. 6 = arg min{x2(#), 6 E 0}. M7988 Modely ztrát v neživotním pojištění Metoda minimálního y2 - poznámky r 9 Intervaly Bj by se měly volit stejně pravděpodobné, tj. p/(0) j = 1,..., k. • Volba počtu tříd k - heuristická pravidla, např. k = 15 (j^ô) nebo /c = 2a?2/5. M7988 Modely ztrát v neživotním pojištění Bayesovské odhady (Bayesovská statistika) o Kombinuje informaci obsaženou v datech (parametrický model) s apriorní informací o neznámém parametru 9 (zkušenosti, domněnky, dřívější pozorování). • Závěry (odhady) vyvozuje až z aposteriorního rozdělení. • Idea: Naše informace o hodnotě neznámého parametru může být vyjádřena pomocí pravděpodobnostního rozdělení, tj. neznámý parametr 9 považujeme za náhodnou veličinu. M7988 Modely ztrát v neživotním pojištění Matematický model • Xi,..., Xn je náhodný výběr z rozdělení s hustotou f (x, 0), kde e g 0. • # je nyní náhodná veličina s hustotou q(9). 9 Označme podmíněnou hustotu náhodného vektoru (Xi,... ,XA7)/ při dané hodnotě parametru 9 jako r(x\9) = nľ=i f(xň^)> kde x = (xi,..., xn) . Theorem (Bayesova věta) Pro podmíněnou hustotu náhodné veličiny 9 při daných hodnotách X = x platí: r(x|fl)c/(fl) 7V(9\X) = \fe^ 0, jinak. ^Mg^, pokud Je r(x\e)q(9)de ŕ 0: M7988 Modely ztrát v neživotním pojištění 15 / 26 Poznámky • q(9) se nazýva apriorní hustota - vyjadřuje informaci o parametru 9 ještě před realizací náhodného výběru X. 7v(9\x) se nazývá aposteriorní hustota - vyjadřuje informaci o parametru 9 až po realizaci náhodného výběru X. • Při Bayesovském přístupu používáme kromě dat (realizace náhodného výběru) ještě informaci o parametru 9 nezávisle na našich datech. • Tato informace může mít objektivní i subjektivní charakter. M7988 Modely ztrát v neživotním pojištění Volby apriorního rozdělení o Pokud máme informace (výsledky) z minulosti • přesná znalost rozdělení • jádrové odhady hustoty • parametrický model • Pokud nemáme informace (výsledky) z minulosti • neinformativní (rovnoměrné) rozdělení • Jeffreysovo apriorní rozdělení q(0) ~ y/\j(0)| • konjugované apriorní rozdělení M7988 Modely ztrát v neživotním pojištění Bodové odhady • Definujme ztrátovou funkci /_(0,0) - ztráta, kterou utrpíme, když odhadneme parametr 0 pomocí odhadu 0. • Dále definujme bayesovské riziko (průměrná aposteriorní ztráta): r(0) = í /-(0,0W(0|x)c/0. 70 • Hledáme odhad, který minimalizuje bayesovské riziko. • Pro kvadratickou ztrátovou funkci /_(#, 9) = (9 — 9)2 je bayesovským odhadem aposteriorní střední hodnota, tj. 9 = E(0|Xi,..., X„). • Pro absolutní ztrátovou funkci L(0, 9) = \9 — 9\ je bayesovským odhadem aposteriorní medián, tj. 9 = med(0|Xi,..., Xn). • Pro 0-1 ztrátovou funkci Z_(0, 9) = I{9 ^ 9} je bayesovským odhadem aposteriorní modus, tj. 9 = arg max7r(0|Xi,..., X„). M7988 Modely ztrát v neživotním pojištění Intervalové odhady Definition 100(1 — a)% věrohodnostní interval pro parametr 9 je takový interval [a, b] = [a(Xi,... ,X„), b(Xi,... ,X„)], pro který P(a<9 c pro všechna 9 E [a, b] a c > 0 je nejmenší číslo takové, že P(tt(9\x) > c) = 1 — a. Theorem Je-li tv(9\x) spojitá a unimodální, pak HPD interval je nejkratší mezi všemi věrohodmostními intervaly. M7988 Modely ztrát v neživotním pojištění 19 / 26 Predikce budoucího pozorování • Nechť se budoucí pozorování Xn+i řídí stejným modelem jako Xi,..., Xn - tedy má hustotu f(x, 6). • Chceme predikovat(předpovídat) jeho budoucí hodnotu. • S pomocí Bayesovy věty můžeme odvodit aposteriorní prediktivní hustotu M7988 Modely ztrát v neživotním pojištění Model selection (výběr modelu) O Je náš model vhodný? Popisuje dobře naše data? O Máme-li více modelů, který z nich je nejlepší? Který máme použít? M7988 Modely ztrát v neživotním pojištění 21 / 26 Grafické metody pro posouzení vhodnosti modelu • jsou založené na porovnání teoretického a empirického rozdělení 9 porovnání teoretické a empirické distribuční funkce (hustoty) v jednom grafu • Q-Q plot • P-P plot M7988 Modely ztrát v neživotním pojištění Kolmogorovův - Smirnovův test • Nulová hypotéza Hq: F = F*, kde F* je známá distribuční funkce, o Definujme empirickou distribuční funkci 1 n Fn(x) = -^ZI{xi M7988 Modely ztrát v neživotním pojištění Modifikace Pearsonova x2 testu dobré shody • Nulová hypotéza Ho: F je distribuční funkce nějakého rozdělení. • Nejprve z dat odhadneme neznámý p-rozměrný parametr 0 a postupujeme stejně jako v předchozím. • Upravená testová statistika má za platnosti nulové hypotézy asymptoticky x2 rozdělení s k — 1 — p stupni volnosti. Volba tříd: • Pj = \ pro j = l,...,/c. • Heuristická pravidla pro počet tříd - k = 2r?2/5, nebo k = 15(a7/100)2/5. M7988 Modely ztrát v neživotním pojištění Výběr modelu z několika kandidátů Princip Occamovy břitvy - vybíráme co nejjednodušší vhodný model. O Judgement-based přístup - založený na subjektivním úsudku analytika • rozhodnutí založené na různých grafech či tabulkách (tail vs. mod fit) • rozhodnutí založené na předchozí zkušenosti (Paretovo rozdělení pro výši příjmů, Benfordovo pro četnost prvních číslic) • model je plně určen situací, kterou má popisovat (házení mincí-alternativní rozdělení) O Score-based přístup - založený na číselných charakteristikách • nejnižší hodnota statistiky nějakého statistického testu • nejvyšší p-hodnota nějakého statistického testu • nejvyšší hodnota věrohodnosti • nejvyšší hodnota nějaké penalizované funkce, např. AIC, BIC M7988 Modely ztrát v neživotním pojištění