Zkušenost: Statistická indukce CORE004 Matematika jako součást kultury Zdeněk Pospíšil 707@mail.muni.cz Masarykova univerzita 11. listopadu 2021 Obsah Maximální věrohodnost Využití variability Bayesovská inference Z. Pospíšil ·Indukce ·11. listopadu 2021 2 / 7 Maximální věrohodnost Princip maximální věrohodnosti „Jest zcela nezpochybnitelným faktem, že nemůžeme-li poznat nejpravdivější soudy, musíme se řídit soudy nejpravděpodobnějšími.“ René Descartes, Rozprava o metodě Z. Pospíšil ·Indukce ·11. listopadu 2021 3 / 7 Maximální věrohodnost Princip maximální věrohodnosti Aplikace: Odhad počtu jedinců volně žijící populace Lincolnova-Petersonova metoda, mark-recatch Z. Pospíšil ·Indukce ·11. listopadu 2021 4 / 7 Maximální věrohodnost Princip maximální věrohodnosti Aplikace: Odhad počtu jedinců volně žijící populace Lincolnova-Petersonova metoda, mark-recatch • Odchytíme a označkujeme m jedinců. • Po dostatečném čase, ale ne příliš dlouhém, odchytíme dostatečné množství dalších jedinců a spočítáme počet označených mezi nimi. Z. Pospíšil ·Indukce ·11. listopadu 2021 4 / 7 Maximální věrohodnost Princip maximální věrohodnosti Aplikace: Odhad počtu jedinců volně žijící populace počet nově ulovených jedinců: r počet označených jedinců mezi nimi: k neznámý počet jedinců v populaci: n Z. Pospíšil ·Indukce ·11. listopadu 2021 4 / 7 Maximální věrohodnost Princip maximální věrohodnosti Aplikace: Odhad počtu jedinců volně žijící populace počet nově ulovených jedinců: r počet označených jedinců mezi nimi: k neznámý počet jedinců v populaci: n; určitě je n ≥ max{m, r} Z. Pospíšil ·Indukce ·11. listopadu 2021 4 / 7 Maximální věrohodnost Princip maximální věrohodnosti Aplikace: Odhad počtu jedinců volně žijící populace počet nově ulovených jedinců: r počet označených jedinců mezi nimi: k neznámý počet jedinců v populaci: n; určitě je n ≥ max{m, r} počet možností, jak mezi n jedinci vybrat r: c(n, r) = n r Z. Pospíšil ·Indukce ·11. listopadu 2021 4 / 7 Maximální věrohodnost Princip maximální věrohodnosti Aplikace: Odhad počtu jedinců volně žijící populace počet nově ulovených jedinců: r počet označených jedinců mezi nimi: k neznámý počet jedinců v populaci: n; určitě je n ≥ max{m, r} počet možností, jak mezi n jedinci vybrat r: c(n, r) = n r počet možností, jak z m označených jedinců vybrat k: c(m, k) = m k Z. Pospíšil ·Indukce ·11. listopadu 2021 4 / 7 Maximální věrohodnost Princip maximální věrohodnosti Aplikace: Odhad počtu jedinců volně žijící populace počet nově ulovených jedinců: r počet označených jedinců mezi nimi: k neznámý počet jedinců v populaci: n; určitě je n ≥ max{m, r} počet možností, jak mezi n jedinci vybrat r: c(n, r) = n r počet možností, jak z m označených jedinců vybrat k: c(m, k) = m k počet možností, jak z n − m neoznačených jedinců vybrat r − k: c(n − m, r − k) = n − m r − k Z. Pospíšil ·Indukce ·11. listopadu 2021 4 / 7 Maximální věrohodnost Princip maximální věrohodnosti Aplikace: Odhad počtu jedinců volně žijící populace počet nově ulovených jedinců: r počet označených jedinců mezi nimi: k neznámý počet jedinců v populaci: n; určitě je n ≥ max{m, r} počet možností, jak mezi n jedinci vybrat r: c(n, r) = n r počet možností, jak z m označených jedinců vybrat k: c(m, k) = m k počet možností, jak z n − m neoznačených jedinců vybrat r − k: c(n − m, r − k) = n − m r − k Amrk n ... jev: populace je tvořena n jedinci, mezi nimi je m označených a při druhém odchytu mezi r ulovenými jedinci bylo k označených Z. Pospíšil ·Indukce ·11. listopadu 2021 4 / 7 Maximální věrohodnost Princip maximální věrohodnosti Aplikace: Odhad počtu jedinců volně žijící populace počet nově ulovených jedinců: r počet označených jedinců mezi nimi: k neznámý počet jedinců v populaci: n; určitě je n ≥ max{m, r} počet možností, jak mezi n jedinci vybrat r: c(n, r) = n r počet možností, jak z m označených jedinců vybrat k: c(m, k) = m k počet možností, jak z n − m neoznačených jedinců vybrat r − k: c(n − m, r − k) = n − m r − k Amrk n ... jev: populace je tvořena n jedinci, mezi nimi je m označených a při druhém odchytu mezi r ulovenými jedinci bylo k označených P(Amrk n ) = m k n − m r − k n r Z. Pospíšil ·Indukce ·11. listopadu 2021 4 / 7 Maximální věrohodnost Princip maximální věrohodnosti Aplikace: Odhad počtu jedinců volně žijící populace počet nově ulovených jedinců: r počet označených jedinců mezi nimi: k neznámý počet jedinců v populaci: n; určitě je n ≥ max{m, r} počet možností, jak mezi n jedinci vybrat r: c(n, r) = n r počet možností, jak z m označených jedinců vybrat k: c(m, k) = m k počet možností, jak z n − m neoznačených jedinců vybrat r − k: c(n − m, r − k) = n − m r − k Amrk n ... jev: populace je tvořena n jedinci, mezi nimi je m označených a při druhém odchytu mezi r ulovenými jedinci bylo k označených P(Amrk n ) = m k n − m r − k n r Hledáme takové n, aby při daných m, r, k byla hodnota P(Amrk n ) maximální. Z. Pospíšil ·Indukce ·11. listopadu 2021 4 / 7 Maximální věrohodnost Princip maximální věrohodnosti Aplikace: Odhad počtu jedinců volně žijící populace počet nově ulovených jedinců: r počet označených jedinců mezi nimi: k neznámý počet jedinců v populaci: n; určitě je n ≥ max{m, r} počet možností, jak mezi n jedinci vybrat r: c(n, r) = n r počet možností, jak z m označených jedinců vybrat k: c(m, k) = m k počet možností, jak z n − m neoznačených jedinců vybrat r − k: c(n − m, r − k) = n − m r − k Amrk n ... jev: populace je tvořena n jedinci, mezi nimi je m označených a při druhém odchytu mezi r ulovenými jedinci bylo k označených P(Amrk n ) = m k n − m r − k n r Hledáme takové n, aby při daných m, r, k byla hodnota P(Amrk n ) maximální. Je n ∈ mr k , mr k + 1 . Z. Pospíšil ·Indukce ·11. listopadu 2021 4 / 7 Variabilita Rozložení náhodné veličiny Konkrétní případ: binomické rozdělení (Bernoulliovo) Pravděpodobnost úspěchu v nějakém pokusu je rovna p. Pokus zopakujeme n-krát. Jaká je pravděpodobnost jevu Bk n, že úspěch nastane právě k-krát? Počet možností výběru k pořadových čísel úspěšných pokusů mezi n provedenými: c(n, k) = n k Pravděpodobnost k úspěchů a n − k neúspěchů: pk (1 − p)n−k Celkem: P(Bk n) = n k pk (1 − p)n−k Z. Pospíšil ·Indukce ·11. listopadu 2021 5 / 7 Bayesovská inference Bayesův vzorec A H1 H2 Ω Z. Pospíšil ·Indukce ·11. listopadu 2021 6 / 7 Bayesovská inference Bayesův vzorec A H1 H2 Ω Inverzní pravděpodobnost: P(H|A) = P(H ∩ A) P(A) = P(A ∩ H)P(H) P(H)P(A) = P(H) P(A) P(A|H) Z. Pospíšil ·Indukce ·11. listopadu 2021 6 / 7 Bayesovská inference Bayesův vzorec A H1 H2 Ω Inverzní pravděpodobnost: P(H|A) = P(H ∩ A) P(A) = P(A ∩ H)P(H) P(H)P(A) = P(H) P(A) P(A|H) Celková pravděpodobnost: P(A) = P (A ∩ H1) ∪ (A ∩ H2) = P(A ∩ H1) + P(A ∩ H2) = = P(H1)P(A|H1) + P(H2)P(A|H2) Z. Pospíšil ·Indukce ·11. listopadu 2021 6 / 7 Bayesovská inference Bayesův vzorec A H1 H2 Ω Inverzní pravděpodobnost: P(H|A) = P(H) P(A) P(A|H) Celková pravděpodobnost: P(A) = P(H1)P(A|H1) + P(H2)P(A|H2) Z. Pospíšil ·Indukce ·11. listopadu 2021 6 / 7 Bayesovská inference Bayesův vzorec A H1 H2 Ω Inverzní pravděpodobnost: P(H|A) = P(H) P(A) P(A|H) Celková pravděpodobnost: P(A) = P(H1)P(A|H1) + P(H2)P(A|H2) P(H1|A) = P(H1)P(A|H1) P(H1)P(A|H1) + P(H2)P(A|H2) Z. Pospíšil ·Indukce ·11. listopadu 2021 6 / 7 Bayesovská inference Bayesův vzorec Aplikace: Diagnostické testy Vyšetřovaný objekt buď zjišťovanou charakteristiku (chorobu) má nebo nemá. Test je postup, který dá právě jeden ze dvou možných výsledků: + pozitivní, choroba zjištěna − negativní, choroba nezjištěna Z. Pospíšil ·Indukce ·11. listopadu 2021 7 / 7 Bayesovská inference Bayesův vzorec Aplikace: Diagnostické testy Vyšetřovaný objekt buď zjišťovanou charakteristiku (chorobu) má nebo nemá. Test je postup, který dá právě jeden ze dvou možných výsledků: + pozitivní, choroba zjištěna − negativní, choroba nezjištěna Vlastnosti testu: Senzitivita – podíl pozitivních výsledků testu mezi všemi výsledky při testování osob, které sledovanou charakteristiku (chorobu) mají. Specificita – podíl negativních výsledků testu mezi všemi výsledky při testování osob, které sledovanou charakteristiku (chorobu) nemají. Z. Pospíšil ·Indukce ·11. listopadu 2021 7 / 7 Bayesovská inference Bayesův vzorec Aplikace: Diagnostické testy Vyšetřovaný objekt buď zjišťovanou charakteristiku (chorobu) má nebo nemá. Test je postup, který dá právě jeden ze dvou možných výsledků: + pozitivní, choroba zjištěna − negativní, choroba nezjištěna Vlastnosti testu: Senzitivita – podíl pozitivních výsledků testu mezi všemi výsledky při testování osob, které sledovanou charakteristiku (chorobu) mají. Specificita – podíl negativních výsledků testu mezi všemi výsledky při testování osob, které sledovanou charakteristiku (chorobu) nemají. Předpokládáme, že známe pravděpodobnost výskytu zjišťované charakteristiky. incidence ... počet nových případů choroby za časovou jednotku prevalence ... celkový počet nemocných Z. Pospíšil ·Indukce ·11. listopadu 2021 7 / 7 Bayesovská inference Bayesův vzorec Aplikace: Diagnostické testy Vyšetřovaný objekt buď zjišťovanou charakteristiku (chorobu) má nebo nemá. Test je postup, který dá právě jeden ze dvou možných výsledků: + pozitivní, choroba zjištěna − negativní, choroba nezjištěna Vlastnosti testu: Senzitivita – podíl pozitivních výsledků testu mezi všemi výsledky při testování osob, které sledovanou charakteristiku (chorobu) mají. Specificita – podíl negativních výsledků testu mezi všemi výsledky při testování osob, které sledovanou charakteristiku (chorobu) nemají. Předpokládáme, že známe pravděpodobnost výskytu zjišťované charakteristiky. incidence ... počet nových případů choroby za časovou jednotku prevalence ... celkový počet nemocných Otázka: jaká je pravděpodobnost, že vyšetřovaný objekt příslušnou charakteristiku vykazuje (má chorobu), pokud test dal pozitivní výsledek? P(H|+) =? Z. Pospíšil ·Indukce ·11. listopadu 2021 7 / 7 Bayesovská inference Bayesův vzorec Aplikace: Diagnostické testy Vyšetřovaný objekt buď zjišťovanou charakteristiku (chorobu) má nebo nemá. Test je postup, který dá právě jeden ze dvou možných výsledků: + pozitivní, choroba zjištěna − negativní, choroba nezjištěna Vlastnosti testu: Senzitivita – podíl pozitivních výsledků testu mezi všemi výsledky při testování osob, které sledovanou charakteristiku (chorobu) mají. p = P(+|H) Specificita – podíl negativních výsledků testu mezi všemi výsledky při testování osob, které sledovanou charakteristiku (chorobu) nemají. q = P(−|H ) Předpokládáme, že známe pravděpodobnost výskytu zjišťované charakteristiky r = P(H). incidence ... počet nových případů choroby za časovou jednotku prevalence ... celkový počet nemocných Otázka: jaká je pravděpodobnost, že vyšetřovaný objekt příslušnou charakteristiku vykazuje (má chorobu), pokud test dal pozitivní výsledek? P(H|+) =? Označení jevů: H ... objekt vykazuje charakteristiku (má chorobu) H ... objekt nevykazuje charakteristiku (nemá chorobu) Z. Pospíšil ·Indukce ·11. listopadu 2021 7 / 7 Bayesovská inference Bayesův vzorec Aplikace: Diagnostické testy Vyšetřovaný objekt buď zjišťovanou charakteristiku (chorobu) má nebo nemá. Test je postup, který dá právě jeden ze dvou možných výsledků: + pozitivní, choroba zjištěna − negativní, choroba nezjištěna Vlastnosti testu: Senzitivita – podíl pozitivních výsledků testu mezi všemi výsledky při testování osob, které sledovanou charakteristiku (chorobu) mají. p = P(+|H) Specificita – podíl negativních výsledků testu mezi všemi výsledky při testování osob, které sledovanou charakteristiku (chorobu) nemají. q = P(−|H ) Předpokládáme, že známe pravděpodobnost výskytu zjišťované charakteristiky r = P(H). incidence ... počet nových případů choroby za časovou jednotku prevalence ... celkový počet nemocných Otázka: jaká je pravděpodobnost, že vyšetřovaný objekt příslušnou charakteristiku vykazuje (má chorobu), pokud test dal pozitivní výsledek? P(H|+) =? Označení jevů: H ... objekt vykazuje charakteristiku (má chorobu) H ... objekt nevykazuje charakteristiku (nemá chorobu) Jevy + a −, H a H jsou komplementární: P(H ) = 1 − r, P(+|H ) = 1 − q, P(−|H) = 1 − p Z. Pospíšil ·Indukce ·11. listopadu 2021 7 / 7 Bayesovská inference Bayesův vzorec Aplikace: Diagnostické testy P(H) = r P(+|H) = p P(−|H) = 1 − p P(H ) = 1 − r P(+|H ) = 1 − q P(−|H ) = q Z. Pospíšil ·Indukce ·11. listopadu 2021 7 / 7 Bayesovská inference Bayesův vzorec Aplikace: Diagnostické testy P(H) = r P(+|H) = p P(−|H) = 1 − p P(H ) = 1 − r P(+|H ) = 1 − q P(−|H ) = q Bayesův vzorec: P(H|+) = P(H)P(+|H) P(H)P(+|H) + P(H )P(+|H ) = rp rp + (1 − q)(1 − r) = rp 1 − r − q + rp + rq P(H|−) = P(H)P(−|H) P(H)P(−|H) + P(H )P(−|H ) = r(1 − p) r(1 − p) + (1 − r)q = r(1 − p) r + q − rq − rp Z. Pospíšil ·Indukce ·11. listopadu 2021 7 / 7 Bayesovská inference Bayesův vzorec Aplikace: Diagnostické testy P(H) = r P(+|H) = p P(−|H) = 1 − p P(H ) = 1 − r P(+|H ) = 1 − q P(−|H ) = q Bayesův vzorec: P(H|+) = rp 1 − r − q + rp + rq P(H|−) = r(1 − p) r + q − rq − rp Z. Pospíšil ·Indukce ·11. listopadu 2021 7 / 7 Bayesovská inference Bayesův vzorec Aplikace: Diagnostické testy P(H) = r P(+|H) = p P(−|H) = 1 − p P(H ) = 1 − r P(+|H ) = 1 − q P(−|H ) = q Bayesův vzorec: P(H|+) = rp 1 − r − q + rp + rq P(H|−) = r(1 − p) r + q − rq − rp Příklad: AIDS incidence r = 0, 001 senzitivita p = 0,998 specificita q = 0,99 Z. Pospíšil ·Indukce ·11. listopadu 2021 7 / 7 Bayesovská inference Bayesův vzorec Aplikace: Diagnostické testy P(H) = r P(+|H) = p P(−|H) = 1 − p P(H ) = 1 − r P(+|H ) = 1 − q P(−|H ) = q Bayesův vzorec: P(H|+) = rp 1 − r − q + rp + rq P(H|−) = r(1 − p) r + q − rq − rp Příklad: AIDS incidence r = 0, 001 senzitivita p = 0,998 specificita q = 0,99 P(H|+) = 0,091 Z. Pospíšil ·Indukce ·11. listopadu 2021 7 / 7 Bayesovská inference Bayesův vzorec Aplikace: Diagnostické testy P(H) = r P(+|H) = p P(−|H) = 1 − p P(H ) = 1 − r P(+|H ) = 1 − q P(−|H ) = q Bayesův vzorec: P(H|+) = rp 1 − r − q + rp + rq P(H|−) = r(1 − p) r + q − rq − rp Příklad: AIDS incidence r = 0, 001 senzitivita p = 0,998 specificita q = 0,99 P(H|+) = 0,091 Kumulace zkušenosti: osoby s pozitivním výsledkem otestujeme znovu Z. Pospíšil ·Indukce ·11. listopadu 2021 7 / 7 Bayesovská inference Bayesův vzorec Aplikace: Diagnostické testy P(H) = r P(+|H) = p P(−|H) = 1 − p P(H ) = 1 − r P(+|H ) = 1 − q P(−|H ) = q Bayesův vzorec: P(H|+) = rp 1 − r − q + rp + rq P(H|−) = r(1 − p) r + q − rq − rp Příklad: AIDS incidence r = 0, 001 senzitivita p = 0,998 specificita q = 0,99 P(H|+) = 0,091 Kumulace zkušenosti: osoby s pozitivním výsledkem otestujeme znovu r1 = 0,091 : P(H| + +) = 0,909 Z. Pospíšil ·Indukce ·11. listopadu 2021 7 / 7 Bayesovská inference Bayesův vzorec Aplikace: Diagnostické testy P(H) = r P(+|H) = p P(−|H) = 1 − p P(H ) = 1 − r P(+|H ) = 1 − q P(−|H ) = q Bayesův vzorec: P(H|+) = rp 1 − r − q + rp + rq P(H|−) = r(1 − p) r + q − rq − rp Příklad: AIDS incidence r = 0, 001 senzitivita p = 0,998 specificita q = 0,99 P(H|+) = 0,091 Kumulace zkušenosti: osoby s pozitivním výsledkem otestujeme znovu r1 = 0,091 : P(H| + +) = 0,909 r2 = 0,909 : P(H| + ++) = 0,999, P(H| + +−) = 0,020 Z. Pospíšil ·Indukce ·11. listopadu 2021 7 / 7