Finanční Matematika - 6. přednáška Poznámka k regresi, aposteriorní odhady 29. března 2016 Regrese (zpětný postup) Y = f(X,(3) Regrese (zpětný postup) Y = f(X,(3) V je závislá (měřená) veličina, Regrese (zpětný postup) Y=f(X,P) Y je závislá (měřená) veličina, X X závisí, potenciální proměnné, na kterých Regrese (zpětný postup) Y = f(X,(3) Y je závislá (měřená) veličina, X potenciální proměnné, na kterých X závisí, /3 neznámé parametry. Regrese (zpětný postup) Y = f(X,(3) Y je závislá (měřená) veličina, X potenciální proměnné, na kterých X závisí, /3 neznámé parametry. f je předpokládaná funkcí závislost, (např Poissonova, smíšená Poissonova) Regrese (zpětný postup) Y = f(X,(3) V je závislá (měřená) veličina, X potenciální proměnné, na kterých X závisí, /3 neznámé parametry. ŕ je předpokládaná funkcí závislost, (např Poissonova, smíšená Poissonova) Nejčastější je hledání lineární závislosti, v našem jednoduchém případě hledáme závislost v podobě Poissonovy distribuční funkce. Rovnice pro extrém věrohodnostní funkce: dm 0 = Y/Xij(ki-\i) = 0,j 3 ;'=0 Označme řešení J3, dále A,- = d;e^J=0^jXii, pak n Interval spolehlivosti pro O ^ /v kde 0 Q,o Řekněme, že testy připravenosti a znalostí, na základě kterých jsou studenti přijímáni na univerzitu, mají následující spolehlivost v testování inteligence osob: 99% inteligentních osob má pozitivní výsledek testu, zatímco u neinteligentních uchazečů má 0,5% z nich pozitivní výsledek testu. Chceme zjistit, s jakou pravděpodobností je náhodně vybraný student na univerzitě inteligentní. Řekněme, že testy připravenosti a znalostí, na základě kterých jsou studenti přijímáni na univerzitu, mají následující spolehlivost v testování inteligence osob: 99% inteligentních osob má pozitivní výsledek testu, zatímco u neinteligentních uchazečů má 0,5% z nich pozitivní výsledek testu. Chceme zjistit, s jakou pravděpodobností je náhodně vybraný student na univerzitě inteligentní. Máme tedy jev A „náhodně zvolená osoba je inteligentní" a jev B „osoba prošla testem s pozitivním výsledkem". Dle Bayesova vzorce můžeme opět rovnou spočíst pravděpodobnost, že nastal jev A za předpokladu, že nastal jev B. Musíme jen dodat všeobecnou pravděpodobnost p = p(A), že náhodně zvolený uchazeč o studium je inteligentní. n/Alr^ p-0,99 P(A\B) = p • 0,99+ (l-p)-0,005' V následující tabulce je spočten pro různé hodnoty p vyjádřené v jednotkách promile. V prvním sloupci tedy je výsledek za předpokladu, zeje mezi uchazeči o studium každý druhý inteligentní atd. p 500 100 50 10 1 0,1 P(A\B) 0,99 0,96 0,91 0,67 0,17 0,02 V následující tabulce je spočten pro různé hodnoty p vyjádřené v jednotkách promile. V prvním sloupci tedy je výsledek za předpokladu, zeje mezi uchazeči o studium každý druhý inteligentní atd. p 500 100 50 10 1 0,1 P(A\B) 0,99 0,96 0,91 0,67 0,17 0,02 Pokud tedy je každý druhý uchazeč inteligentní, máme na univerzitě používající náš test 99% inteligentních studentů. Pokud ale naší představě o inteligenci odpovídá jen 1% populace a uchazeči jsou dobrým náhodným vzorkem, pak už máme na univerzitě jen zhruba dvě třetiny inteligentních studentů ... Představme si ale, že obdobné testování provedeme při plošném testování výskytu nějaké nemoci, třeba HIV. Dejme tomu, že máme stejně citlivý test jako výše a prověříme jím o přestávce mezi přednáškami všechny přítomné studenty. V tomto případě bychom měli předpokládat, že parametr p bude obdobný jako u celé populace, tj. řekněme jeden nakažený z 10000 obyvatel, což odpovídá poslednímu sloupci v tabulce. Pak ovšem je výsledek testu katastroficky nespolehlivý. Jen asi u 2 procent pozitivně otestovaných se jedná o skutečně nemocné studenty! Představme si ale, že obdobné testování provedeme při plošném testování výskytu nějaké nemoci, třeba HIV. Dejme tomu, že máme stejně citlivý test jako výše a prověříme jím o přestávce mezi přednáškami všechny přítomné studenty. V tomto případě bychom měli předpokládat, že parametr p bude obdobný jako u celé populace, tj. řekněme jeden nakažený z 10000 obyvatel, což odpovídá poslednímu sloupci v tabulce. Pak ovšem je výsledek testu katastroficky nespolehlivý. Jen asi u 2 procent pozitivně otestovaných se jedná o skutečně nemocné studenty! Všimněme si, že problém je zapříčiněn jakýmkoliv malým výskytem pozitivních výsledků u zdravých osob. I kdybychom zlepšili test tak, že bude na 100% účinný při testu pozitivní osoby, neovlivníme skoro vůbec výsledné pravděpodobnosti v tabulce. Při lékařské diagnostice vzácných chorob je při pozitivním výsledku testu nutné provést další test. Přitom výsledek prvního testu P(A\B) má roli apriorní pravděpodobnosti P {A) při druhém testu. Tento postup umožňuje „kumulovat zkušenost". V obou případech tedy musíme při přípravě testu dbát na to, abychom si zajistili přiměřeně vysoké p. U procesu přijímání studentů na univerzitu to asi bude dobrý marketing univerzity, který zajistí, aby se neinteligentní osoby hlásily v daleko menší míře, než je jejich výskyt v populaci. U testování chorob nejspíš půjde o souběh dalších skutečností a činností (např. testování HIV pozitivitu pouze u rizikových skupin obyvatelstva a podobně). Myslíme si, že mezi pojištěnci je 60% dobrých řidičů, zbytek špatných. Pravděpodobnost, že dobrý řidič havaruje /c-krát se řídí rozdělením Po/(Ag), A,) = P(ů(cnW)=É^^ = -L^p(cn(/»ne;)) 1=0 n ■^^2p(AnBi)P(c\AnBi) i=0 Za pravděpodobnost P(A) můžeme ještě dosadit ze vzorce pro celkovou pravděpodobnost a dostaneme n P(Bí)P(A\Bí)P(C\AC\ Bj) P{C\A) = ^- P(A) (3) f:P(Bi)P(A\Bi)P(C\AnBi) ;'=0 n ZP(Bi)P(A\B;) 1=0 Tato formulka bývá někdy nazývána 2. Bayesův vzorec, obecně platí za předpokladu, že prostor Q je disjunktním sjednocením jevů Ještě si uvědomíme, že podle zadání úlohy jsme alespoň jed hodili mincí a tedy n > 1. Nyní můžeme vypočítat J2 P(B;)P(A\B;) = ]T (fj p'(l - p)»-' • - = ;=o /=0 ^ ' = g(/-l)!(n-/)!P(1-p) = = y p/+i(i _ p)»-/-i ^/'!(n-;-l)r 1 ^ ;=o v ' ^EÍV) p'(i - p)-1-''= = P(P+ (1 -P))"_1 = P, □ ifj1 J2P(Bi)P(A\Bi)P(C\An Bi) = ;=o t (ľ) "'f1 - ">"-' ■ ŕ /=0 v 7 E1 (n ~~ 2)! 1/1 \ w (/-l)!(n-/-l)!P í1 - P» /!(n-2-/)!P (1"P) /=0 v 7 p(i-p)E(n72) p'(i-pr ;=o ^ ' p(l-p), n>l O, n = l, takže po dosazení do druhého Bayesova vzorce dostaň hledanou pravděpodobnost [1 — p, n > 1. □ s1