M7988 Modely ztrát v neživotním pojištění M7988 Modely ztrát v neživotním pojištění 1/87 Parametrický model a úlohy matematické statistiky Model: Xi,..., Xn je náhodný výběr z rozdělení s distribuční funkcí F(x, 0). Tuto distribuční funkci známe až na neznámý parametr 0 e 0 C Mp. Úlohy matematické statistiky: • Bodový odhad parametru 6. 9 Intervalový odhad parametru 0. • Testy hypotéz o parametru 6. Někdy nás místo samotného parametru 0 zajímá nějaká jeho funkce, tzv. parametrická funkce 7(0), kde 7 : 0 —>► 0* C M je reálná funkce. Dále budeme uvažovat jednorozměrný parametr 9 £ © C M. M7988 Modely ztrát v neživotním pojištění Bodové odhady Řekneme, že T : M" —>► M je bodový odhad parametru 9 E Q C M, jestliže 7" je měřitelnou funkcí náhodného výběru Xi,..., Xn. Tedy T = 7"(Xi,..., Xn) je náhodná veličina. Vlastnosti bodových odhadů: • T je nestranný odhad parametru 6, jestliže E7" = 9 pro všechna 9 E 0. • 7" je asymptoticky nestranný odhad parametru 9, jestliže lim^ooET = 9 pro všechna 9 E Q. • T je konzistentní odhad parametru 0, jestliže 7" = 7"(Xi,..., Xn) 9 y pravděpodobnosti pro n —>► oo pro všechna 9 E Q. M7988 Modely ztrát v neživotním pojištění Který odhad je nej lepší? • Necht 7~i, 7~2 jsou dva nestranné odhady parametru 9. Řekneme, že 7~i je více eficientní (lepší) než 7"2, jestliže D7~i < D7~2 pro všechna 9 G 0. a Nechť T je nestranný odhad parametru 9. Řekneme, že T je nejlepší nestranný odhad parametru 9, jestliže D7" < D7"* pro všechna 9 G © a pro všechny nestranné odhady 7"*. • Nechť T je odhad parametru 9. Střední čtvercovou (kvadratickou) chybu odhadu definujeme jako MSE(7) =E(T -9)2. • Je-li T je nestranný odhad parametru 9, pak MSE(7") = D7". • Necht 7~i, 7~2 jsou dva odhady parametru 9. Řekneme, že 7~i je více eficientní (lepší) než 7~2, jestliže MSE(7~i) < MSE(7~2) pro všechna 9 G 0. • (Stejnoměrně) nejlepší odhad parametru 9 neexistuje. M7988 Modely ztrát v neživotním pojištění Metoda momentů o Dále předpokládejme, že neznámý parametr 0 je p-rozměrný (0 C W). • Nechť existují obecné momenty ji'k = /n'k(0) = EX^ pro k = 1,..., p. Označme jejich výběrové protějšky Mk = ^Xl/Li^A Pro k — 1,2,.... • Řekneme, že 0 je odhad parametru 0 metodou momentů, jestliže »k(e) = M'k pro/c = l,...,p. • Je-li řešení předchozí soustavy nejednoznačné (rovnice jsou lineárně závislé), přidáme další rovnici pro k = p + 1, pokud ovšem existuje příslušný moment. M7988 Modely ztrát v neživotním pojištění Metoda maximální věrohodnosti Označme sdruženou hustotu náhodného vektoru (Xi,... ,XA7)/ jako n L(9) = Ylf(x,,9). i=l o f(x,0) je hustota (pravděpodobnostní hustota, pravděpodobnostní funkce) náhodné veličiny X,. • L{6) = /_(0,xi,... ,xn) se nazývá věrohodnostní funkce. • 0 se nazývá maximálně věrohodným odhadem parametru 0, jestliže L(6) > L(0), G 0. • 0 = argmax{/_(0);0£0}. • 1(6) = log L{6) = X)/Li '°§^(x/'5^) se nazývá logaritmická věrohodnostní funkce. • 0 = argmax{/(0);0£0}. M7988 Modely ztrát v neživotním pojištění Regulární systém hustot Řekneme, že systém hustot {/"(x, 0),0 E 0} je regulární, jestliže O 0 C Rp je otevřená borelovská množina. O Množina M = {xG»: f{x,0) > 0} nezávisí na hodnotě parametru 6. Q Pro všechna x E M existuje konečná parciální derivace f-(x,0)= \ / = l,...,p. O Pro všechna 6 E & b všechna / = 1,..., p platí / ff(x,0)dx = 0. J M O Pro všechna 0 E 0 a pro každou dvojici (/3iy) existuje konečný integrál r f!{x,0)f!{x,0) JiAd)= -f2(J n\-fi{x,0)dx Q Matice J{6) = (-//j(0))f;=i je pozitivně definitní pro všechna M7988 Modely ztrát v neživotním pojištění 7/87 Vlastnosti maximálně věrohodných odhadů • Nechť systém hustot {f(x,0),0 £ 0} je regulární, pak maximálně věrohodný odhad parametru 0 je asymptoticky nestranný, konzistentní a má asymptoticky normální rozdělení. • yfň(0 — 0) má asymptoticky rozdělení A/"p(0, J-1(0)). je Fisherova informační matice o parametru 6 příslušná X\. ' n M7988 Modely ztrát v neživotním pojištění 8/87 Maximálně věrohodné odhady pro parametrickou funkci 7 • Nechť 7 : 0 —>► 0* je parametrická funkce. • Funkci 1(9*) = sup{/_(0); 9 G 0 : 7(0) = 6>*} pro (9* G 0* nazveme věrohodnostní funkcí indukovanou parametrickou funkcí 7. • #* je maximálně věrohodný odhad parametrické funkce 7(0) = 0*, jestliže L(0*) > 1(9*) pro všechna (9* G 0*. • Zehnaova věta (princip invariance MLE): Je-li 0 maximálně věrohodný odhad parametru 0, pak 7(0) je maximálně věrohodný odhad parametrické funkce 7(0). M7988 Modely ztrát v neživotním pojištění Delta metoda Theorem Nechť {XA7}^1 je posloupnost p-rozměrných náhodných vektorů takových, že ^(Xn — 0) má asymptoticky normální rozdělení J\fp(Q, 51). Dále buď 7 : Mp —>► M měřitelná funkce, která má totální diferenciál v bodě 6. Pak platí: ^(^(Xn) — 7(0)) má asymptoticky normální rozdělení'M'(0, a2), kde a2 = V7;(0)EV7(0), kde je gradient funkce 7 v bodě 0 M7988 Modely ztrát v neživotním pojištění Aplikace na MLE Již víme, že je-li systém hustot {/"(x, 0),0 G 0} regulární, pak: yfň{0 — 0) má asymptoticky rozdělení A/"p(0, J_1(0)). Aplikací delta metody dostaneme, že za splnění podmínek regularity platí: y/ň{l(0) ~ 7(0)) má asymptoticky A/"(0, V7 (0)J_1(0)V7(0)). 7(0) «^(7(»), -V7/(0)J-1(0)V7(0)). Je-li 0 jednorozměrný parametr, pak 7(0) ^ J\f (7(0), ^J^j M7988 Modely ztrát v neživotním pojištění 11 / 87 Intervalová data • Nepozorujeme přímo hodnoty náhodného výběru Xi,... ,Xn. • O každém pozorování víme jen to, do kterého intervalu patří. • Obor hodnot náhodného výběru je rozdělen na intervaly (Q), Ql], (ci, C2],..., (C/c-i, C/c]. • Co může být i —00 a Ck může být i 00. • Označme nj počet pozorování, která leží v intervalu (c/_i,C/] 9 n = a?i + ... + rik- M7988 Modely ztrát v neživotním pojištění Empirická distribuční funkce pro intervalová data o Standardně pro hodnoty náhodného výběru Xi,... ,Xn definujme empirickou distribuční funkci 1 n Fn(x) = -^I{xi Ck- .1» M7988 Modely ztrát v neživotním pojištění 13 / 87 Histogram pro intervalová data Histogram je po částech konstantní odhad hustoty původních veličin Xi,..., Xn. fn(x) = F'n(x) pro všechna x 7^ cq, ..., a7, C/_i < X < C/. 'J n q - 9_i V bodech co,..., Q- můžeme definovat libovolně. Hodnota histogramu v intervalu (c/_i,C/] je rovna relativní četnosti pozorování v daném intervalu dělená délkou tohoto intervalu. M7988 Modely ztrát v neživotním pojištění 14 / 87 Empirická kvantilová funkce pro intervalová data Můžeme ji určit jako inverzní funkci k empirické distribuční funkci (ogive), tj. Qn(oi) = F~1{a) pro 0 < a < 1. Nebo opět určit přesné hodnoty v bodech 0, ^, A7l^A?2 ,..., 1: Qn(0) = C0, Qn(aj) = Cj, 4(1) = ck kde aj = n o Mezi těmito body empirickou kvantilovou funkci opět spojitě dodefinujeme, například lomennou čarou. OL i — OL <> OL — Oíj—l ^ , . G?n(ay), Oíj-i < a < aj a j - OLj-i Qn(pLj-l) + a j - aj-! M7988 Modely ztrát v neživotním pojištění 15 / 87 Metoda maximální věrohodnosti pro intervalová data • Nechť každá z nepozorovaných náhodných veličin Xi,... ,Xn má distribuční funkci F(x, 0), kde 0 £ 0 je neznámý parametr. • Pravděpodobnost, že dané pozorování X, leží v intervalu (c/_i,C/] je P(X; G (c;_i, C,]) = F(Cjl 6) - F(Cj-U 9). • Věrohodnostní funkce pro naše data je: m = n-=1 P(Xi G (c,^, c,]) = [F(d, 0) - F(c0,0)]* • [F(c2,0) - F(Cl, 0)]"2 • ... • [F(cfc_i, 0) - F(c,, 0)]"" = nJLiI^^-Fícj-i,^. • 1(6) = log L(0) = E;=i "/ log[F(c;, 0) - F(9_i, 0)] je logaritmická věrohodnostní funkce pro naše data. • 0 = argmax{/(0);0 G 0}. M7988 Modely ztrát v neživotním pojištění Metoda minimálního y2 9 Označme Pj(0) teoretickou pravděpodobnost, že náhodná veličina X, nabude hodnoty z intervalu (q~i, q], tedy PJ(0) = P{X, G (cj^cj}) = F(che) - F{Cj-U0). • Dohromady máme celkem n pozorování. V intervalu (c/_i,c/] by tedy mělo být npj(6) pozorování. • Porovnejme očekávaný a skutečný (pozorovaný) počet pozorování v jednotlivých intervalech (q_i,q] pomocí Pearsonovy x2 statistiky testu dobré shody: *•> - é ("M 9 • Odhad parametru 0 metodou minimálního x2 minimalizuje y^{6) přes všechny hodnoty 6 E 0, tj. 6 = arg min{^2(0^ř 0 _ M7988 Modely ztrát v neživotním pojištění 17 / 87 Metoda minimálního y2 pro klasická data • Obor hodnot náhodné veličiny X, musíme na k po dvou disjunktních intervalů rozdělit sami, stejně tak spočítat rij počet pozorování v intervalu (c/_i, C/]. 9 Na tato umělá intervalová data aplikujeme předchozí postup. • Intervaly (c/_i, cj\ by se měly volit stejně pravděpodobné, tj. Pj(0) = \ proj = l,...,/c. • Volba počtu tříd k - heuristická pravidla, např. k = 15 (j^ô)2^5, nebo k = 2n2/5. M7988 Modely ztrát v neživotním pojištění Bayesovské odhady (Bayesovská statistika) o Kombinuje informaci obsaženou v datech (parametrický model) s apriorní informací o neznámém parametru 0 (zkušenosti, domněnky, dřívější pozorování). • Závěry (odhady) vyvozuje až z aposteriorního rozdělení. • Idea: Naše informace o hodnotě neznámého parametru může být vyjádřena pomocí pravděpodobnostního rozdělení, tj. neznámý parametr 0 považujeme za náhodný vektor. M7988 Modely ztrát v neživotním pojištění Matematický model • Xi,..., Xn je náhodný výběr z rozdělení s hustotou f (x, 0), kde e g 0. • 0 je nyní náhodný vektor s hustotou q(0). • Označme podmíněnou hustotu náhodného vektoru (Xi,... ,XA7)/ při dané hodnotě parametru 6 jako r(x\6) = nľ=i f(xň0)> kde x = (xi,..., xn) . Theorem (Bayesova věta) Pro podmíněnou hustotu náhodného vektoru 0 při daných hodnotách X = x platí: (*|X) = J fQtXXe> pokud h WWW + o. 7ľ 0. jinak. M7988 Modely ztrát v neživotním pojištění 20 / 87 Poznámky • q(6) se nazýva apriorní hustota - vyjadřuje informaci o parametru 0 ještě před realizací náhodného výběru X. 9 7v(0\x) se nazývá aposteriorní hustota - vyjadřuje informaci o parametru 0 až po realizaci náhodného výběru X. • Při Bayesovském přístupu používáme kromě dat (realizace náhodného výběru) ještě informaci o parametru 0 nezávisle na našich datech. • Tato informace může mít objektivní i subjektivní charakter. M7988 Modely ztrát v neživotním pojištění Volba apriorního rozdělení o Pokud máme informace (výsledky) z minulosti • přesná znalost rozdělení • jádrové odhady hustoty • parametrický model • Pokud nemáme informace (výsledky) z minulosti • neinformativní (rovnoměrné) rozdělení q(9) oc 1 • Jeffreysovo apriorní rozdělení q(0) oc y/\J(0)| • konjugované apriorní rozdělení M7988 Modely ztrát v neživotním pojištění Bodové odhady • Definujme ztrátovou funkci L(6,6) - ztráta, kterou utrpíme, když odhadneme parametr 0 pomocí odhadu 0. 9 Dále definujme bayesovské riziko (průměrná aposteriorní ztráta): r(0)= / L(0,d)7r(0\x)d0. 70 • Hledáme odhad, který minimalizuje bayesovské riziko. Nechť dále 9 je jednorozměrný parametr. • Pro kvadratickou ztrátovou funkci /_(#, 9) = {9 — 9)2 je bayesovským odhadem aposteriorní střední hodnota, tj. 9 = E(0|Xi,... ,Xn). • Pro absolutní ztrátovou funkci /_(#, 9) = \9 — 9\ je bayesovským odhadem aposteriorní medián, tj. 9 = med(#|Xi,... ,Xn). • Pro 0-1 ztrátovou funkci /_(#, 9) = I{9 ^ 9} je bayesovským odhadem aposteriorní modus, tj. 9 = arg max7r(#|Xi,..., Xn). M7988 Modely ztrát v neživotním pojištění Intervalové odhady Definition 100(1 — a)% věrohodnostní interval pro parametr 9 je takový interval [a, b] = [a(Xi,... ,X„), b{X1,... ,X„)], pro který P(a<9 c pro všechna 9 E [a, b] a c > 0 je nejmenší číslo takové, že P(tt(9\x) > c) = 1 — a. Theorem Je-li tv(9\x) spojitá a unimodální, pak HPD interval je nejkratší mezi všemi věrohodmostními intervaly. M7988 Modely ztrát v neživotním pojištění 24 / 87 Predikce budoucího pozorování • Nechť se budoucí pozorování Xn+i řídí stejným modelem jako Xi,..., Xn - tedy má hustotu f(x, 6). • Chceme predikovat(předpovídat) jeho budoucí hodnotu. • S pomocí Bayesovy věty můžeme odvodit aposteriorní prediktivní hustotu M7988 Modely ztrát v neživotním pojištění Model selection (výběr modelu) O Je náš model vhodný? Popisuje dobře naše data? O Máme-li více modelů, který z nich je nejlepší? Který máme použít? M7988 Modely ztrát v neživotním pojištění 26 / 87 Grafické metody pro posouzení vhodnosti modelu • Jsou založené na porovnání teoretického (parametrický model) a empirického rozdělení (neparametrický odhad). • Porovnání teoretické distribuční funkce F(x,0) a empirické distribuční funkce Fn(x) v jednom grafu. • Porovnání teoretické a empirické distribuční funkce pomocí funkce D(x) = Fn(x) - F(x,d). 9 Porovnání teoretické hustoty f(x,0) a empirické hustoty (histogram, jádrový odhad) v jednom grafu. • Q-Q plot • P-P plot M7988 Modely ztrát v neživotním pojištění Q-Q plot o Porovnává teoretické a empirické kvantily. Uspořádnané hodnoty náhodného výběru označme *(1) < x{2) < • • • < X(n). • Podle upravené definice X(,-) je p,- = n^~_f2/3-tý výběrový kvantil, kde 0 < P < 1 je korekční faktor. • Q-Q plot je graf F_1(p;, 0), x(/) pro / = 1,..., a7. Je-li náš model správný, pak by se body Q-Q plotu měly náhodně vyskytovat kolem osy prvního kvadrantu. M7988 Modely ztrát v neživotním pojištění 28 / 87 P-P plot • porovnáva hodnoty teoretické a empirické distribuční funkce. a7. P-P plot je graf F(x(/), 0), ^ pro/ = l,.. Je-1i náš model správný, pak by se body P-P plotu měly náhodně vyskytovat kolem osy prvního kvadrantu. M7988 Modely ztrát v neživotním pojištění 29 / 87 Statistické testy 9 Potřebujeme obecnější model: Xi,..., Xn je náhodný výběr z rozdělení s distribuční funkcí F (libovolná). • Formálně testujeme nulovou hypotézu Hq: F = F(x,0) pro nějaké 0 £ 0 proti alternativě, že Hq neplatí. • Testujeme tedy, že námi specifikovaný model je vhodný pro naše data. • Testy založené na porovnání distribučních funkcí (Kolmogorovův -Smirnovův test, Andersonův - von Darlingův test, Cramérův - von Misesův test), testy dobré shody (Pearsonův x2 test) a další. • Pro odvození testů budeme ještě potřebovat pomocnou nulovou hypotézu Hq: F = F(x, 0*), kde 0* je známá hodnota. M7988 Modely ztrát v neživotním pojištění Kolmogorovův - Smirnovův test 9 Nulová hypotéza Hq: F = F(x, 0*), kde 0* je známá hodnota. • Testová statistika Dn = maxxGR{|Fn(x) - F(x,0*)|} = max/=i}...>n{|^ - F(x(/), 0*)\}. • Za platnosti Hq má ^Dn asymptotické rozdělení stejné jako SLJPtG[o,i] 1^(01» ^de B(t) je Brownův most v C(0,1). ■2 2 • To má distribuční funkci 1 — 2 YljZo(~l)y+1e~2-y y , pro y > 0. • A aproximativní kvantilovou funkci yj| log j^^, pro 0 < a < 1. • Test se dá použít jen, když hodnota 0* je známá. Pokud jsou k jejímu odhadu použita data, test nefunguje - je příliš konzervativní. M7988 Modely ztrát v neživotním pojištění Kolmogorovův - Smirnovův test (modifikace) • Uvažujme původní hypotézu Ho: F = F(x, 0) pro nějaké 0 £ 0. • Neznámý parametr 0 nejprve odhadneme z dat. • Testová statistika Dn = maxxGR{|Fn(x) - F(x,0)|} = max/=i5...5A?{|^ - F(x(/), 0)|}. • Rozdělení testové statistiky Dn za platnosti Hq závisí na daném rozdělení, ze kterého data pocházejí (a v některých situacích i na jeho parametrech). • Pro testování normality bylo toto rozdělení odvozeno - Lillieforsův test. • Pro ostatní rozdělení lze použít simulace - odhadnout příslušnou p-hodnotu testu pomocí parametrického bootstrapu. M7988 Modely ztrát v neživotním pojištění Kolmogorovův - Smirnovův test (parametrický bootstrap) O Spočítáme hodnotu testové statistiky Dn pro naše data s odhadnutým parametrem 0, označme ji t. Q Nagenerujeme si nový náhodný výběr o rozsahu n z rozdělení s distribuční funkcí F(x, 0), realizaci označme xj*,..., x*. 0 Odhadneme neznámý parametr 0, označme jej 0. O Pro tuto realizaci spočítáme hodnotu testové statistiky _ Dn = maxxGR{|F;(x) - F(x,0)|} = max/=ij...jll{|^ - F(x(*.}J 0)|}. O Body (2) - (4) několikrát opakujeme. Q p-hodnotu testu poté odhadneme jako relativní četnost případů, kdy Dn > t. M7988 Modely ztrát v neživotním pojištění Cramerův - von Misesův test • Patří do třídy testů s testovou statistikou n — oo F„(x) - F(x, 0) w{F{x, 0))f(x, 0)dx pro nějakou váhovou funkci w. Cramerův - von Misesův test používá váhovou funkci w(y) 0 < y < 1. • Testová statistika se dá zjednodušit do tvaru 1 pro n T 12n+2 i=i L 2/ - 1 ~\ 2 2n • Rozdělení testové statistiky T i pro 0 známé závisí na testovaném rozdělení. • Příslušnou p-hodnotu testu musíme získat pomocí simulací, například pomocí parametrického bootstrapu. □ S ► < 1 ► < > M7988 Modely ztrát v neživotním pojištění 34 / 87 Andersonův - Darlingův test Patří do třídy testů s testovou statistikou n F„(x)-F(x,0) w(F(x,0))f(x,0)dx — oo pro nějakou váhovou funkci w. Andersonův - Darlingův test používá váhovou funkci w(y) pro 0 < y < 1. Testová statistika se dá zjednodušit do tvaru y(i-y) n Á2 = -n-- n i=l ]T(2/- 1) log(F(x(/), 0)) + log(l - Fí^+x./),©)) • Rozdělení testové statistiky A2 i pro 0 známé závisí na testovaném rozdělení. • Příslušnou p-hodnotu testu musíme získat pomocí simulací, například pomocí parametrického bootstrapu. M7988 Modely ztrát v neživotním pojištění 35 / 87 Pearsonův x2 test dobré shody 9 O Začněme opět nejprve s nulovou hypotézou Hq: F = F(x,0*), kde 0* je známá hodnota. Definujme si intervaly (c/_i, C/], j = 1,..., k. Označme rij počet pozorování, které padnou do intervalu (c/_i,C/] pro j = 1,..., /c. Určíme očekávaný počet pozorování (za platnosti Hq), které by měly padnout do intervalu (c/_i,C/]: e; = npj(«*) = nP(X1 e (9-1,9]) = n(F(Cj,0*) ~ F(cj-U0*))- Testová statistika X2 má za platnosti nulové hypotézy Hq asymptoticky x k — 1 stupni volnosti. 2 rozdělení s M7988 Modely ztrát v neživotním pojištění □ 36 / 87 Modifikace Pearsonova x2 testu dobré shody • Vraťme se k původní hypotéze Hq: F = F(x, 0) pro nějaké 0 £ 0 • Nejprve z dat odhadneme neznámý p-rozměrný parametr 0, označme jej 0, a postupujeme stejně jako v předchozím. • Testová statistika X 7=1 -J kde e,- = n(F(chO) - F(q_i,0)). 9 Upravená testová statistika x2 má za platnosti nulové hypotézy Hq asymptoticky x2 rozdělení s k — 1 — p stupni volnosti. Volba tříd: • ej = l pro j = 1,..., /c. • Heuristická pravidla pro počet tříd - k = 2r?2/5, nebo /c = 15(a7/100)2/5. M7988 Modely ztrát v neživotním pojištění 37 / 87 Výběr modelu z několika kandidátů Princip Occamovy břitvy - vybíráme co nejjednodušší vhodný model. O Judgement-based přístup - založený na subjektivním úsudku analytika • rozhodnutí založené na různých grafech či tabulkách (tail vs. mod fit) • rozhodnutí založené na předchozí zkušenosti (Paretovo rozdělení pro výši příjmů, Benfordovo pro četnost prvních číslic) • model je plně určen situací, kterou má popisovat (házení mincí -alternativní rozdělení) O Score-based přístup - založený na číselných charakteristikách • nejnižší hodnota statistiky nějakého statistického testu 9 nejvyšší p-hodnota nějakého statistického testu • nejvyšší hodnota věrohodnosti o nejnižší hodnota nějaké penalizované funkce, např. AIC, BIC: • AIC = -2/(0) + 2p. • BIC = -2/(0) + plogn. M7988 Modely ztrát v neživotním pojištění Teorie extrémních hodnot Cíl: • odhadnout P(X > x) pro x velké. • odhadnout F~ľ(a) pro a blízké 1. o určit výši plnění, kterou nárokuje jen malé procento klientů s nevyšším plněním. 9 určit, jak často budou klienti nárokovat vysoké pojistné plnění. Metody: • Metoda blokových maxim. o Metoda založená na překročení meze (peaks-over-threshold; POT). M7988 Modely ztrát v neživotním pojištění Chovaní maxima náhodného výběru • Nechť Xi,..., Xn je náhodný výběr z rozdělení s distribuční funkcí F(x). Označme Mn = max{Xi,..., Xn} maximum Xi,..., Xn. Počítejme jeho distribuční funkci: Gn(x) = P(Mn oo 0, pokud x < x/r 1, pokud X > X/r kde x/r = sup{x G M : F(x) < 1} je pravý koncový bod nosiče F. Limitní rozdělení Mn je degenerované v bodě x/r, nebo "utíká"do nekonečna. • Budeme hledat posloupnosti konstant \an} a \bn} tak, aby Mn~bn (normovaná maxima) konvergovala k nějakému nedegenerovanému rozdělení. M7988 Modely ztrát v neživotním pojištění 40 / 87 Rozdělení extrémních hodnot O Gumbelovo rozdělení G0(x) = e — e x e R. go(x) = e-(e X+x\ xeR. Q Fréchetovo rozdělení s parametrem tvaru a > 0 — Oi Gi(x) = e_x , x > 0. a _x-« a+1 x > 0. x O Weibullovo (extremální) rozdělení s parametrem tvaru a < 0 G2(x) = e — Oi x < 0. g2(x) = -a(-x) a e a-1 -(-x) — q; x < 0. M7988 Modely ztrát v neživotním pojištění Rozdělení extrémních hodnot s parametry polohy a měřítka • Předchozí tři rozdělení jsou standardizované. • Přidáme parametr polohy /i a parametr měřítka a > 0. . G,>>CT(x) = G,-(^). O Gumbelovo rozdělení _ X— /J, — e cr x e O Fréchetovo rozdělení s parametrem tvaru a > 0 Gi^^íx) = e v - ; , x > /i. Q Weibullovo (extremální) rozdělení s parametrem tvaru a < 0 G^^M = e - O V rr / ■ a. X < ji. Předchozí tři distribuce můžeme zapsat jedním vzorcem. □ S ► < š ► < > M7988 Modely ztrát v neživotním pojištění 42 / 87 Zobecněné rozdělení extrémních hodnot (GEV rozdělení) GEV rozdělení s parametrem 7 G M ve standardizovaném tvaru • Pro 7 = 0 dostaneme Gumbelovo rozdělení. • Pro 7 > 0 dostaneme Fréchetovo rozdělení. • Pro 7 < 0 dostaneme Weibullovo rozdělení. Opět budeme potřebovat přidat parametr polohy n a parametr měřítka a > 0. • GEV rozdělení s parametrem polohy /iGl, parametrem měřítka a > 0 a parametrem tvaru 7 G M G7(x) = e-(1+7X) 1 + 7x > 0. W*) = e-(1+^)" 1 + 7(x - ji) a > 0. M7988 Modely ztrát v neživotním pojištění Modelovaní maxim Theorem (Fisherova - Tippettova věta) Nechi Xi,..., Xn je náhodný výběr z rozdělení s distribuční funkcí F(x). Nechť existují posloupnosti konstant {an} a {bn} tak, že P ^M"~b" < x^j —)► H(x) pro n —)► oo pro nějakou nedegenerovanou distribuční funkci H(x). Pak H(x) je distribuční funkce G EV rozdělení • Předchozí věta říká, že GEV je jediné možné limitní rozdělení maxim. • Maxima náhodného výběru budeme modelovat pomocí GEV rozdělení s parametry /x, cr a 7. M7988 Modely ztrát v neživotním pojištění Aplikace metody blokových maxim • Nechť Xi,..., X/v je náhodný výběr z rozdělení s distribuční funkcí F(x). Pozor, nyní počet pozorování značíme N. 9 Data rozdělíme do m bloků o velikosti n (A/ = m • n). 9 V každém bloku najdeme maximum, maximum v /-tém bloku označme M\ = M\n\ • Dále budeme modelovat veličiny Mi,..., Mm (jsou nezávislé a stejně rozdělené). o Ty budeme modelovat pomocí GEV rozdělení s parametry a 7. • Délka bloku n musí být dostatečně velká, aby "fungovala"aproximace pomocí GEV rozdělení. • Počet bloků m musí být taky dostatečně velký, aby odhady parametrů byly "přesné". M7988 Modely ztrát v neživotním pojištění Metoda maximální věrohodnosti pro GEV rozdělení o Model: Mi,..., Mm je náhodný výběr z GEV rozdělení s parametry a 7. • Logaritmická věrohodnostní funkce je /(7,/i,cr) m loga — (1+i)|log(l+fc,) e 1+ j(M, - /<) 7 /'=1 pro 1 + Ifal > 0,..., 1 + > 0. • Tu maximalizujeme přes všechny hodnoty 7, ijl a a > 0 takové, že x + jiMpd > o,..., 1 + > 0. • Funkce /(7,//,a) není diferencovatelná, proto ji musíme maximalizovat numericky. o Pro 7 > —|, maximálně věrohodný odhad je asymptoticky nestranný, konzistentní a asymptoticky normální. M7988 Modely ztrát v neživotním pojištění 46 / 87 Metoda pravděpodobnostně vážených momentů pro GEV rozdělení Definition Nechť X je náhodná veličina s distribuční funkcí F(x), pak čísla MPir,s = E[X»F(X)r(l - F(X))S] pro p,r,sG» nazveme pravděpodobnostně vážené momenty. • Speciálně položme p = las = 0a označme Pr = Mijrj0 = E[X • F(X)r] pro r = 0,1, 2. • Pro GEV rozdělení je & = 7fi {m - ^ [1 - (r + 1)TT(1 - 7)]} pro 7 < 1, 7 7^ 0. • Jeho odhad je A, = £ Eľ=i H a ^r = 1 Eľ=i (ľ^i MM(')) Pro r = 1,2. • Odhady parametrů metodou pravděpodobnostně vážených momentů získáme jako řešení soustavy (3r = /3r, pro r = 0,1, 2. M7988 Modely ztrát v neživotním pojištění Odhad pravděpodobnosti překročení vysoké hranice P(Mi < x) = P(Xj < x)n = [1 - P(X; > x)]". P(X, > x) = 1 - P{M1 ř(x)]" = 1 - e-K^2^1)"* M7988 Modely ztrát v neživotním pojištění Odhad vysokého kvantilu 9 qa je a-kvantil veličiny X,, jestliže P {X; < qa) = a. l-a = P(Xi >qa) = l- P(M1 < qaý = 1 - [G7,M,CT(<7«)p • qa = G~la{an) = » + °- ((" log(a"))"7 - l) . • Tedy a-kvantil náhodné veličiny X, je roven a"-kvantilu GEV rozdělení. • Pro a blízké 1 můžeme odhadnout M7988 Modely ztrát v neživotním pojištění Odhad doby návratu • Cílem je stanovit průměrnou frekvenci výskytu extrémního jevu, tj. jak často je překračována nějaká vysoká hranice. • Frekventistická definice pravděpodobnosti: je-li P{X; > x) = p, pak X, překročí hranici x v průměru jednou za - časových okamžiků. p 9 Předpokládejme, že máme danou hranici x. • Označme k průměrnou frekvenci, tj. k = - a hledejme jej tak, že p platí P(X/>x) = Í • Tedy P(X,->x) i-[Griíi>(r(x)]Í Tedy odhad doby návratu je k = 1 -e -K1+2Í^)' 7 M7988 Modely ztrát v neživotním pojištění 50 / 87 Odhad úrovně návratu • Cílem je stanovit hranici x, která je překračována v průměru jednou za k časových okamžiků. • Opět začneme s frekventistickou definicí pravděpodobnosti: P{X; >X) = \- • Potom x je (1 — ^)-kvantil X,, tj. • Tedy odhad úrovně návratu je 51 / 87 Odhad doby a úrovně návratu II • V praxi často doba a úroveň návratu chápe časové okamžiky jako počty bloků. • Označme /c* průměrnou frekvenci (v počtech bloků), pak P(M; > x) = ± = 1 - G^a(x). • Tedy odhad doby návratu (v počtech bloků) je /c* = 1 - l_e-(1+^) 7 A odhad úrovně návratu x 1~1 1 - M + — 7 •7 - log 1 - -1 M7988 Modely ztrát v neživotním pojištění 52 / 87 Chovaní excesů náhodného výběru • Nechť Xi,..., xn je náhodný výběr z rozdělení s distribuční funkcí F(x). Zvolme nějakou hranici (práh, threshold) u a definujme = X/ — u pro X/ > u výši jeho překročení (exces) pro pozorování, která tuto hranici překročila. Označme Nu počet pozorávní, která překročila hranici u. • Hledejme distribuční funkci Y^u\ označme ji Fu(x)\ Fu(x) = P{y}u) u) U < x\X; > u) F(u + x)-F(u) 1 - F(u) x > 0. o Hledejme jeho asymptotické rozdělení pro u /*■ Xf • To bude degenerované v bodě 0. vf>-í>„ Budeme hledat posloupnosti konstant {an\ a {£>„} tak, aby (normované excesy) konvergovaly k nějakému nedegenerovanému rozdělení. M7988 Modely ztrát v neživotním pojištění 53 / 87 Rozdělení pro modelování excesů O Exponenciální rozdělení Wq(x) = 1 - e"x, x > 0. í/i/o(x) = e x, x > 0. O Paretovo rozdělení s parametrem tvaru a > 0 l/l/^x) = 1 -x"a, x > 1. wi(x) = x x > 1- a+1 7 — O Beta rozdělení s parametrem tvaru a < 0 W2(x) = 1 - (-x)"a, -1 < x < 0. W2(x) = — a(—x) — a —1 -1 < x < 0. M7988 Modely ztrát v neživotním pojištění 54 / 87 Rozdělení pro modelování excesů s parametry polohy a měřítka • Předchozí tři rozdělení jsou standardizované. • Přidáme parametr polohy 11 a parametr měřítka a > 0. • V(x)=M/;(^). O Exponenciální rozdělení = 1 - e" cr X > fjL. O Paretovo rozdělení s parametrem tvaru a > 0 X — ji a — OL X > II + (7. O Beta rozdělení s parametrem tvaru a < 0 W2)íli£,(x) = 1 - - x — ji a — OL II — (7 < X < ji. Předchozí tři distribuce můžeme zapsat jedním vzorcem. M7988 Modely ztrát v neživotním pojištění 55 / 87 Zobecněné Paretovo rozdělení (GPD rozdělení) o GPD rozdělení s parametrem 7 G M ve standardizovaném tvaru • Pro 7 = 0 dostaneme exponenciální rozdělení (x > 0). • Pro 7 > 0 dostaneme Paretovo rozdělení (x > 0). • Pro 7 < 0 dostaneme beta rozdělení (0 < x < — • Nyní budeme potřebovat přidat pouze parametr měřítka a > 0. • GPD rozdělení s parametrem měřítka a > 0 a parametrem tvaru l/l/7(x) = l-(l + 7x)-Í 7 G M M7988 Modely ztrát v neživotním pojištění Modelovaní excesů Theorem (Balkemova - de Haanova - Pickandsova věta) Necht Xi,..., xn je náhodný výběr z rozdělení s distribuční funkcí F(x). Nechť existují posloupnosti konstant {an} a {bn} tak, že ——- < x J —)► H(x) pro un Xf pro nějakou nedegenerovanou spojitou distribuční funkci H(x). Pak H(x) je distribuční funkce GPD rozdělení. • Předchozí věta říká, že GPD rozdělení je jediné možné limitní rozdělení excesů. • Excesy náhodného výběru budeme modelovat pomocí GPD rozdělení s parametry a a 7. M7988 Modely ztrát v neživotním pojištění Aplikace POT metody • Nechť Xi,..., X/v je náhodný výběr z rozdělení s distribuční funkcí F(x). Pozor, počet pozorování opět značíme N. 9 Zvolíme dostatečně vysokou hranici u. o A definujeme excesy Y-, = X, — u, pokud X, > u, pro / = 1,..., Nu (Nu je počet excesů). • Dále budeme modelovat veličiny Yi,..., Y^u (jsou nezávislé a stejně rozdělené). • Ty budeme modelovat pomocí GPD rozdělení s parametry a a 7. Velikost prahu u musí být dostatečně velká, aby "fungovala"aproximace pomocí GPD rozdělení. • Počet excesů Nu musí být taky dostatečně velký, aby odhady parametrů byly "přesné". M7988 Modely ztrát v neživotním pojištění Metoda maximální věrohodnosti pro GPD rozdělení o Model: Yi,..., y^u je náhodný výběr z GPD rozdělení s parametry a a 7. o Logaritmická věrohodnostní funkce je /(7, a) = - A/Jog a - í 1 + - ) ^ log (l + iyí) V 7/ /=1 a prol + ^yi>0,...,l + ^n/ll>0. • Tu maximalizujeme přes všechny hodnoty 7 a a > 0 takové, že i + 2Vi >o,...,i + ^yWu >o. • Funkce /(7,cr) není diferencovatelná, proto ji musíme maximalizovat numericky. o Pro 7 > —|, maximálně věrohodný odhad je asymptoticky nestranný, konzistentní a asymptoticky normální. M7988 Modely ztrát v neživotním pojištění Metoda pravděpodobnostně vážených momentů pro GPD rozdělení Připomeňme definici pravděpodobnostně vážených momentů: Definition Nechť X je náhodná veličina s distribuční funkcí F(x), pak čísla MPir,s = E[X»F(X)r(l - F(X))S] pro p,r,sG» nazveme pravděpodobnostně vážené momenty. • Speciálně položme p = 1 a r = 0 a označme ols = Mij0jS = E[X • (1 - F(X))5] pro s = 0,1. • Pro GPD rozdělení je as = (s_7+i)(s+1) pro 7 < 1. • Jeho odhad je So = ^ E,=i a a, = ± E^i fff Y(!). • Odhady parametrů metodou pravděpodobnostně vážených momentů získáme jako řešení soustavy as = SSI pro s = 0,1. M7988 Modely ztrát v neživotním pojištění 60 / 87 Odhad pravděpodobnosti překročení vysoké hranice P(X; >x\Xi> u) PjXi > x) P{X > u) pro x > u. P(Xi >x) = P(X; > U)P{X; > x\X; > U) = P{X; > u) [1 - P( Yi < x - u\Xi > u)] = P(Xi>u)[l-Fu{x-u)} = P(X, > u) (1 - W7,CT(x - u)) • Pro x velké můžeme odhadnout *5^)-£(x + ^)-*. □ M7988 Modely ztrát v neživotním pojištění rJ1 Odhad vysokého kvantilu qa je a-kvantil veličiny X/, jestliže P{X; < qa) = a. 1 - a = P(Xi > qa) = P(X, > u) (1 - W^(qa - u)) qa = u+ VY-* I 1 - 1 — a \ a P(Xi>u))=U+7 (^) 7 - 1 Tedy a-kvantil náhodné veličiny X, je roven (1 GPD rozdělení plus u. Pro a blízké 1 můžeme odhadnout 1 — a. P(Xi>u) -kvantilu la. u + W~l I 1 - 7,cr 1 — a \ a u+- P(Xi >u)l 7 N(l - a) - 1 M7988 Modely ztrát v neživotním pojištění 62 / 87 Odhad doby návratu • Cílem je stanovit průměrnou frekvenci výskytu extrémního jevu, tj. jak často je překračována nějaká vysoká hranice. • Frekventistická definice pravděpodobnosti: je-li P(X-, > x) = p, pak X, překročí hranici x v průměru jednou za ^ časových okamžiků. • Předpokládejme, že máme danou hranici x. • Označme k průměrnou frekvenci, tj. k = - a hledejme jej tak, že p platí P(X; > X) = -. Tedy k = 1 + P{Xi > X) P(Xí > U) (1 - W7,CT(x - u)) P(X; > u) Tedy odhad doby návratu je N N 1 + 7Íx-u)\ A/u (1 - l%?(x - ty)) M7988 Modely ztrát v neživotním pojištění 63 / 87 Odhad úrovně návratu • Cílem je stanovit hranici x, která je překračována v průměru jednou za k časových okamžiků. 9 Opět začneme s frekventistickou definicí pravděpodobnosti: P(X, >x) = - Potom x je (1 — ^)-kvantil X,, tj Tedy odhad úrovně návratu je x = u + 1/1/ -i 7,cr 1 - N a u+- 7 N 7 - 1 M7988 Modely ztrát v neživotním pojištění 64 / 87 Volba prahu u Definition Střední hodnotu překročení prahu u za podmínky, že k překročení došl (mean excess) definujeme jako e(u) = E(X; — u\X; > u). o Má-li náhodná veličina X, GPD rozdělení s parametry a a 7, pak EX/ = r2-. ' i—7 o Má-li náhodná veličina X, GPD rozdělení s parametry a a 7, pak náhodná veličina X, — u\X; > u má GPD s parametry a -\- a a o Má-li náhodná veličina X, GPD rozdělení s parametry a a 7, pak e(u) = . • Tedy e(u) je lineární funkcí v u (charakteristická vlastnost GPD rozdělení). M7988 Modely ztrát v neživotním pojištění Volba prahu u II ^ y^Nu y. 9 Pro naše data můžeme spočítat odhad: e(u) = ^ 1, kde Y-, = X; — u pro X, > u, i = 1,..., A/^. • Vykreslíme graf X(,-), e(x(,))] pro / = 1,..., N. o Ten se v praxi nazývá mean excess plot. • Pokud data pochází z GPD rozdělení, pak by graf měl být lineární. • Hranici u určíme jako bod z grafu, odkud křivka vykazuje lineární závislost. M7988 Modely ztrát v neživotním pojištění 66 / 87 Modelovaní dvourozměrných dat • Sdružené rozdělení náhodného vektoru (X, Y)' jednoznačně určuje marginální rozdělení náhodných veličin X a Y. • Opačně to ale neplatí. • Cíl: Popsat, jak vypadají všechna sdružená rozdělení s předem danými marginálními rozděleními. Definition Funkce C : [0,1] x [0,1] —>► [0,1] se nazývá kopula, jestliže O C(í/, 0) = C(0, u) = 0, V u G [0,1]. O C(íí, 1) = C(l, u) = u,Vue [0,1]. O C(i/i, vi) - C(i/i, v2) - C(i/2, vi) + C(u2, v2) > 0, V 0 < uľ < u2 < 1, 0 < vi < v2 < 1. i M7988 Modely ztrát v neživotním pojištění Modelovaní dvourozměrných dat Definition (Alternativní definice kopuly) Funkce C : [0,1] x [0,1] —>► [0,1] se nazývá kopula, jestliže existuje pravděpodobnostní prostor (Q,v4, P) a na něm definovaný náhodný vektor (U, V)' takový, že O l/~ft(0,l). e \z~ft(o,i). O C(u, v) = P((7 < u, V < v) je sdružená distribuční funkce ((7, \/)/ Příklady: O C(i/,v) O C(u,v) q C(u,v) \~\(u, v) = u • v (součinová kopula] U a V jsou nezávislé). M(u, v) = min{ív, v} (horníkopula; V = U). 1/1/(u, v) = max{u + v - 1,0} (dolníkopula; V = 1 - U) M7988 Modely ztrát v neživotním pojištění 68 / 87 Modelovaní dvourozměrných dat Theorem (Fréchetovy - Hóffdingovy meze) Pro každou kopulu C platí: W(u, v) < C{u, v) < H{u, v), Vzv, v G [0,1] Theorem (Sklářova věta) Nechi náhodný vektor (X, Y)f má distribuční funkci F a marginální distribuční funkce F\ a F^. Pak existuje taková kopula C, že F(x,y) = C(Fi(x), F2(y)), Vx,y G R. Je-li F spojitá, pak C je určená jednoznačně. • Předchozí věta nám dává návod, jak modelovat dvourozměrná rozdělení. • Předepíšeme si marginální rozdělení a zvolíme vhodnou kopulu, která popisuje závislost složek (nezávisle na marginálních rozděleních). M7988 Modely ztrát v neživotním pojištění 69 / 87 Vztah kopul a korelačních koeficientů Pearsonův korelační koeficient P = P(X, Y) C(X, Y) v/D(x)D(y) Jeho hodnota závisí na marginálních rozděleních X a Y. Spearmanův korelační koeficient Ps = Ps(X, Y) = p(Fi(X), F2(Y)) = 12 / f C(u, v)dudv - 3 Jo Jo Kendallovo r r = t(X,Y) = P((X1-X2)(Y1-Y2)>0) -p((Xi - X2){Y1 -r2)<0) = 4 í í C{u, v)c(í/, v)c/í/c/v - 1 JO JO kde (Xi, Vi)/ a (X2, V2)/ jsou dvě nezávislé kopie (X,Y)' a c(l/, v) = ^a^a^^ je hustota kopuly C. M7988 Modely ztrát v neživotním pojištění 70 / 87 Příklady kopul O Archimédovské kopuly • Gumbelova kopula • Joeova kopula • Claytonova kopula • Frankova kopula O Eliptické kopuly • Normální (gaussovská) kopula • Studentova t kopula Q Kopuly extrémních hodnot • Gumbelova kopula • Galambosova kopula • Tawnova kopula M7988 Modely ztrát v neživotním pojištění Archimédovské kopuly • Dají se většinou vyjádřit v uzavřeném tvaru • Většinou obsahují jeden parametr. C(u, v) = 4>-\{u) + 4>(v)), kde ► [0, oo] je spojitá, klesající a konvexní funkce s #1) = 0. • Funkce se nazývá generátor. • Pro hodnotu Kendallova r platí: T 1 + 4 1 m du. M7988 Modely ztrát v neživotním pojištění 72 / 87 Součinová (nezávislá) kopula • Je Archimédovská kopula s generátorem c/)(u) = — \ogu. o C(ív, v) = u • v. • Pro hodnotu Kendallova r platí: r = 0. M7988 Modely ztrát v neživotním pojištění 73 / 87 umbelova (Gumbelova - Hougaardova) kopula • Je Archimédovská kopula s generátorem c/)(u) = (— \ogu)( 9 9 > 1 je parametr. C(u, v) = exp {- [(- log u)e + (- log v)0]1} . Pro hodnotu Kendallova r platí: r = 1 — ^. • Pro 9 = 1 je Gumbelova kopula rovna součinové. • Pro 9 —>* oo se Gumbelova kopula blíží horní kopule. □ r3i ► < s M7988 Modely ztrát v neživotním pojištění Joeova kopula • Je Archimédovská kopula s generátorem c/)(u) = — log[l — (1 — uy\. 9 9 > 1 je parametr. o C(u, v) = l-[(l- u)e + (1 - v)0 - (1 - u)e ■ (1 - vf]1 . • Pro 9 = 1 je Joeova kopula rovna součinové. • Pro 9 —>* oo se Joeova kopula blíží horní kopule. M7988 Modely ztrát v neživotním pojištění Claytonova kopula • Je Archimédovská kopula s generátorem * oo se Claytonova kopula blíží horní kopule. □ rS1 M7988 Modely ztrát v neživotním pojištění ■š ► < <š ► Frankova kopula • Je Archimédovská kopula s generátorem o 9 G M. \ {0} je parametr. • Pro 9 —>* —oo se Frankova kopula blíží dolní kopule. • Pro 0 —)► 0 se Frankova kopula blíží součinové kopule. • Pro 9 —>* oo se Frankova kopula blíží horní kopule. M7988 Modely ztrát v neživotním pojištění Normální (gaussovská) kopula 9 Patří mezi eliptické kopuly. o C(u, v) = 4>p(4>-\u),4>-1(v)). • 0_1 je kvantilová funkce standardizovaného normálního rozdělení M(0,1). 9 0p je distribuční funkce dvourozměrného normálního rozdělení A/2(0, Z), kde Z = ^ ^ ^ ^ je jeho varianční matice. 9 p E [—1,1] je parametr. 9 Pro hodnotu Kendallova r platí: r = ^ arcsin p. • Pro p = —1 je normální kopula rovna dolní kopule. • Pro p = 0 je normální kopula rovna součinové kopule. • Pro p = 1 je normální kopula rovna horní kopule. M7988 Modely ztrát v neživotním pojištění 78 / 87 Studentova t kopula • Patří mezi eliptické kopuly. C{u, v) = Ujt-^u)^-1^)). • ŕ"1 je kvantilová funkce t rozdělení s v stupni volnosti. • r^p je distribuční funkce dvourozměrného t rozdělení s v stupni volnosti a varianční maticí Z = • p £ [—1,1] a v £ [1, oo) jsou parametry. 9 Pro hodnotu Kendallova r platí: r = ^ arcsin p. • Pro p = — 1 je Studentova kopula rovna dolní kopule. • Pro p = 0 je Studentova kopula rovna součinové kopule. • Pro p = 1 je Studentova kopula rovna horní kopule. M7988 Modely ztrát v neživotním pojištění Kopuly extrémních hodnot Jsou takové kopuly, pro které platí: C(un, vn) = Cn(u, v), 0 1 je parametr. O Galambosova kopula C(iv, v) = u-v-exp 0 > 0 je parametr. O Tawnova kopula C(u, v) = uľ~a • v1-? • exp [(-a log ii)* + (-/3log v)« 01 ě 0>l,O