Hry, sázky a střední hodnota Michal Bulant Masarykova univerzita Přírodovědecká fakulta Ústav matematiky a statistiky 7. března 2024 http://etc.ch/zfyfMichal Bulant ·Hry, sázky a střední hodnota ·7. března 2024 1 / 48 Obsah přednášky Hry a sázky Hra na začátek/závěr Střední hodnota Očekávaný výnos a doba čekání na úspěch Ruleta a spol. Sportovní sázky Lze vůbec systematicky vyhrávat? Zajímavosti kolem pravděpodobnosti Citlivá a specifická podmíněná pravděpodobnost Simpsonův paradox Michal Bulant ·Hry, sázky a střední hodnota ·7. března 2024 2 / 48 Vliv matematiky na jiné obory Matematika se používá jako základní jazyk a prostředek ve všech přírodních vědách i technických oborech a je i velmi významným podpůrným nástrojem humanitních a společenských věd (ekonomie, jazykověda, právo, sociologie). Některé konkrétní aplikace matematiky v technických oborech jsou velmi hezky ilustrovány na stránkách http://commons.bcit.ca/math/examples/. Na této přednášce se budeme snažit ilustrovat principy matematického myšlení v reálném životě na příkladech, kdy ne vždy je intuitivní přístup rovněž optimální. Michal Bulant ·Hry, sázky a střední hodnota ·7. března 2024 3 / 48 Hry a sázky Hra na začátek/závěr Hra na začátek/závěr Jak přemýšlejí jednotliví hráči v různých hrách si můžete vyzkoušet v následující hře: každý účastník napíše na papírek číslo od 0 do 20 a papírek odevzdá vypočte se aritmetický průměr odpovědí nejvyšší číslo, které nepřevyšuje 2/3 průměru, vyhrává. Jaký bude váš tip? Michal Bulant ·Hry, sázky a střední hodnota ·7. března 2024 5 / 48 Střední hodnota Očekávaný výnos a doba čekání na úspěch Očekávaný výnos Z matematických pojmů budeme používat zejména pojem očekávaný výnos (střední hodnota) náhodné veličiny, který je definován jako součet příslušných výnosů vynásobených pravděpodobností jejich výskytu1 , tj. v případě diskrétní veličiny s konečně mnoha hodnotami E(X) = p1 · v1 + · · · pn · vn. Např. střední hodnota padlého čísla při hodu šestibokou kostkou je 1 6 · 1 + 1 6 · 2 + 1 6 · 3 + 1 6 · 4 + 1 6 · 5 + 1 6 · 6 = 3,5. 1Vážený posluchač tuší, že jsme zde značně neformální, korektní matematická definice střední hodnoty náhodné veličiny by vyžadovala jistou přípravu, my se však v rámci konceptu přednášky budeme snažit formálnostem vyhýbat. Michal Bulant ·Hry, sázky a střední hodnota ·7. března 2024 7 / 48 Střední hodnota Očekávaný výnos a doba čekání na úspěch Předpokládané (očekávané) čekání Ilustrujme pojem střední hodnoty (v tomto případě předpokládaného čekání) na příkladu, který každý z nás zná ze hry Člověče, nezlob se. Příklad Jaká je průměrná doba čekání na to, že při hodech kostkou padne číslo 6? Michal Bulant ·Hry, sázky a střední hodnota ·7. března 2024 8 / 48 Střední hodnota Očekávaný výnos a doba čekání na úspěch Řešení Se znalostí teorie pravděpodobnosti samozřejmě můžeme konstatovat, že jde o klasický příklad diskrétní náhodné veličiny X s tzv. geometrickým rozdělením, určeným pravděpodobnostní funkcí P(X = k) = (1 − p)k−1 · p, kde p je pravděpodobnost úspěchu, tedy v našem případě p = 1 6 . Tato náhodná veličina má základní momenty E(X) = 1 p , D(X) = 1−p p2 . Michal Bulant ·Hry, sázky a střední hodnota ·7. března 2024 9 / 48 Střední hodnota Očekávaný výnos a doba čekání na úspěch Řešení (pokr.) Úloha se tedy dá snadno vyřešit se znalostí teorie pravděpodobnosti, my to ale zvládneme i bez toho. Nechť je pravděpodobnost úspěchu p, jaký je očekávaný počet opakování pokusu, než se úspěch dostaví? Úspěch nastane při 1. pokusu – pravděpodobnost p Úspěch nastane při 2. pokusu – pravděpodobnost (1 − p)p Úspěch nastane při 3. pokusu – pravděpodobnost (1 − p)2 p ... Úspěch nastane při n-tém pokusu – pravděpodobnost (1 − p)n−1 p Celkem je očekávaný počet pokusů roven 1 · p + 2 · (1 − p)p + 3 · (1 − p)2 p + · · · + n · (1 − p)n p + · · · . Jde o součet nekonečné řady, který lze vypočítat s využitím geometrických řada – součet je roven 1/p. ahttp://en.wikipedia.org/wiki/Wheat_and_chessboard_problem Michal Bulant ·Hry, sázky a střední hodnota ·7. března 2024 10 / 48 Střední hodnota Očekávaný výnos a doba čekání na úspěch Kolik bude stát sběr kartiček? Příklad Marek sbírá kartičky hokejistů NHL. Jeho cílem je mít všech 100 kartiček a zajímá ho (tedy asi spíše rodiče, kteří to platí ), kolik krabiček, do kterých jsou kartičky náhodně po jedné umisťovány, v průměru potřebuje, aby získal všech 100 kartiček. Michal Bulant ·Hry, sázky a střední hodnota ·7. března 2024 11 / 48 Střední hodnota Očekávaný výnos a doba čekání na úspěch Řešení První karta je jistě nová, druhá karta bude nová s pravděpodobností 99/100, takže délka očekávaného čekání na druhou kartu je 100/99 krabiček. Podobně třetí karta atd. Na zisk sté kartičky bude v průměru čekat 100/1 krabiček. Celkem je očekávaná doba čekání na všechny kartičky rovna 100 1 100 + 1 99 + · · · + 1 2 + 1 1 ≈ 518,7. Řada v závorce je tzv. harmonická řada, o níž je znám poměrně překvapivý fakt: sčítáme-li čísla 1/n dostatečně dlouho, překročíme libovolně velkou předem zvolenou mez. Součet prvních n členů harmonické řady se dá dobře odhadnout jako ln n + γ, kde γ ≈ 0,57721 je tzv. Eulerova konstanta. V našem případě dá tato aproximace výsledek 100(ln 100 + γ) ≈ 518,2. Michal Bulant ·Hry, sázky a střední hodnota ·7. března 2024 12 / 48 Střední hodnota Očekávaný výnos a doba čekání na úspěch Co říká o divergenci harmonické řady ChatGPT 4.0 ? Příklad Prove the divergence of harmonic series using high school arguments only. Řešení To prove the divergence of the harmonic series using high school arguments, we can use the comparison test, which compares the given series to another series whose behavior is known. Let’s consider the series 1 + 1/2 + 1/3 + 1/4 + ... and compare it to the series 1 + 1/2 + 1/4 + 1/4 + ... where each term in the second series is the value of the previous term divided by 2. We can see that each term in the second series is less than or equal to the corresponding term in the first series. Therefore, the partial sums of the second series are also less than or equal to the partial sums of the first series. Michal Bulant ·Hry, sázky a střední hodnota ·7. března 2024 13 / 48 Střední hodnota Očekávaný výnos a doba čekání na úspěch Řešení (pokračování) The sum of the second series is 1 + 1/2 + 1/4 + 1/4 + ... = 2. This is a finite value, as each term in the series approaches 0 as we continue adding more terms. Since the partial sums of the first series are greater than or equal to the corresponding partial sums of the second series, and the sum of the second series is finite, we can conclude that the sum of the first series is greater than or equal to 2 and therefore must be infinite. Michal Bulant ·Hry, sázky a střední hodnota ·7. března 2024 14 / 48 Střední hodnota Ruleta a spol. Ruleta Podívejme se teď na hazardní hry a sázky. Ruleta je známá hra, kde se sází na čísla 1 až 36 a jejich různé kombinace. Aby měl provozovatel zisk, je dále na hrací ploše číslo 0 (a v americké verzi ještě 00). Michal Bulant ·Hry, sázky a střední hodnota ·7. března 2024 16 / 48 Střední hodnota Ruleta a spol. S pomocí teorie pravděpodobnosti snadno spočítáme očekávaný výnos při sázce 100 Kč na jedno číslo (v takovém případě vyhráváme 35-tinásobek vkladu): −100 36 37 + 35 · 100 1 37 = −2,70Kč, resp. −5,26 Kč v americké variantě. Budeme-li sázet na červenou, je pravděpodobnost výhry 18 37 , tj. očekávaný výnos činí −10019 37 + 1 · 10018 37 = −2,70 Kč. Stejné je to i při všech ostatních variantách sázek. Všimněte si, že výplaty a sázky v ruletě jsou konstruovány tak, že je úplně jedno na co se sází, očekávaný výnos je vždy stejný, totiž − 1 37 vkladu (v americké variantě pak − 2 38 vkladu). Michal Bulant ·Hry, sázky a střední hodnota ·7. března 2024 17 / 48 Střední hodnota Ruleta a spol. Šťastných 10 Šťastných 10 je sázková hra, kterou provozuje Sazka, a.s., a v níž se tipuje 1 až 10 čísel z 80. V losování je taženo 20 čísel. Hra obsahuje mnoho variant výhry při uhodnutí různého počtu čísel a „dokonce“ cenu útěchy při tipování alespoň 6 čísel a neuhodnutí žádného. Vypočtěme si alespoň průměrný výnos z jedné vsazené stokoruny: při sázce na jedno číslo (při uhodnutí dostaneme dvojnásobek vkladu) při sázce na pět čísel (3: 2x; 4: 16x; 5: 200x) při sázce na deset čísel (0: 1x; 5: 3x; 6: 10x; 7: 20x; 8: 500x; 9: 10000x; 10: 200000x) Michal Bulant ·Hry, sázky a střední hodnota ·7. března 2024 18 / 48 Střední hodnota Ruleta a spol. Jaká je pravděpodobnost výhry? Hledanou pravděpodobnost vyjádříme jako podíl počtu úspěšných jevů ku počtu všech možných. Sázíme-li čísel, jaká je pravděpodobnost, že uhodneme h z nich? Všech možných vsazených -tic je 80 , vyhrávajících 2 pak 20 h 60 −h . Pro jednotlivé zkoumané možnosti tak dostáváme průměrné výnosy3 1001 4 − 1003 4 = −50 Kč 100(200 · 6, 4 · 10−4 + 16 · 1, 2 · 10−2 + 2 · 8, 4 · 10−2 − 1) ≈ −51 Kč −50,15 Kč (i s cenou útěchy, jejíž pravděpodobnost je 60 10 / 80 10 ≈ 4,6%) Závěr matematika: chcete-li opravdu hrát hazardní hry, bude pro vaši kapsu lepší, půjdete-li (i do amerického) kasina než do Sazky na „Šťastných 10“. 2Též takto: h · 80− 20−h / 80 20 . 3Podrobněji ve worksheetu na http://www.math.muni.cz/~bulik/ostatni/stastnych10.xls. Michal Bulant ·Hry, sázky a střední hodnota ·7. března 2024 19 / 48 Střední hodnota Ruleta a spol. Jak tedy vyhrát? Letmý pohled na internet nám přitom nabídne hned několik zaručených tipů, jak sázet v různých hrách a neprohrát. Např. v ruletě sázíme na barvu nebo ve hře Šťastných 10 na jedno číslo (dokud nevyhrajeme) vždy dvojnásobek předchozí sázky (strategie známá jako Martingale betting strategy). Viz např. návod již z roku 1882 (František Bačkovský pod pseudonymem Vlastimil Benátský, Jak sázeti do loterie, bychom zcela jistě vyhráli4 ). Návody jsou to v podstatě korektní až na předpoklad, že dotyčný má k dispozici neomezený zdroj peněz na sázky a s tím, že výnos ze sázení je i v takovém případě zanedbatelný vzhledem k množství peněz, které musíme mít k dispozici a je tedy třeba k výdělku odehrát větší množství her. 4http://goo.gl/qLn9S Michal Bulant ·Hry, sázky a střední hodnota ·7. března 2024 20 / 48 Střední hodnota Ruleta a spol. Analýza Martingale strategie Příklad Řekněme, že máte k dispozici 50 000 Kč na sázky začínající na 1 Kč a uplatňujete uvedenou strategii (sázíme přitom na barvu). Nazvěme jedním kolem několik proher zakončených výhrou (příp. sérii proher zakončených bankrotem). Na závěr úspěšného kola vždy vyděláme 1 Kč. Jaká je střední hodnota výhry? Zbankrotujeme, pokud součet sázek 1 + 2 + 22 · · · + 2n−1 = 2n − 1 překročí náš rozpočet, tj. pokud n ≥ 16. Pravděpodobnost bankrotu (16 proher v řadě) je (v evropské verzi rulety) (19/37)16 ≈ 0,002% (tedy mizivá), pravděpodobnost výhry 1 Kč je zbytek do 100 %. Střední hodnota výhry za jedno kolo je pak (19/37)16 · (−50 000) + (1 − (19/37)16 ) · 1 ≈ −0,17. Michal Bulant ·Hry, sázky a střední hodnota ·7. března 2024 21 / 48 Střední hodnota Ruleta a spol. (Psychologické) kouzlo úspěchu těchto her je samozřejmě v tom, že prohra 100 Kč bolí méně než těší výhra 3500 Kč. Internet je plný zpráv těch, kdo touto strategií nějaké ty koruny vyhráli, těch, kteří podstatně větší peníze prohráli je jednak méně a jednak se tím zřejmě nechlubí (a nebo už nemají připojení k Internetu). Příklad Podívejme se na tuto strategii ještě jedním pohledem – jakou máme šanci, že jejím prostřednictvím zdvojnásobíme svůj kapitál dříve než zbankrotujemea ? Ke zdvojnásobení kapitálu je při nastavených podmínkách třeba odehrát 50 000 úspěšných kolb . Už jsme spočítali, že pravděpodobnost bankrotu během jednoho kola je mizivých pb = (19/37)16 ≈ 0,002 %, tedy pravděpodobnost, že v každém z 50 000 kol vyhrajeme 1 Kč, je (1 − pb)50 000 , což je pouhých cca 31 %. Máme tedy výrazně vyšší šanci, že o svůj vklad přijdeme, než že ho zdvojnásobíme (a to i při předpokladu „férovosti“ kasín). aTéž viz simulaci na https://bettingsimulation.com/. bJakkoliv se možná tento počet nezdá reálný, v internetových kasínech je běžně dosažitelný. Michal Bulant ·Hry, sázky a střední hodnota ·7. března 2024 22 / 48 Střední hodnota Sportovní sázky Sportovní sázky Na loňský zápas play-off hokejové extraligy (nikoliv náhodou pojmenované po jedné sázkové kanceláři) mezi Kometou a Vítkovicemi jsou u jedné internetové sázkové společnosti následující kurzy: 2,26 na vítězství Komety; 4,11 na remízu a 2,77 na vítězství Vítkovic. Předpokládáme-li, že kurzy vypsané sázkovou společností odrážejí pravděpodobnost výskytu daného jevu, pak podle vztahu pro očekávaný výnos dostáváme při sázce 100 Kč na každou z variant 226 · 1 2,26 + 411 · 1 4,11 + 277 · 1 2,77 − 300 = 0. Je to tedy skutečně tak, že sázková kancelář s námi čestně hraje hru, v níž vydělává jen díky tomu, že její bookmakeři jsou lepší v tipování výsledku nebo jsme někde udělali chybu v úvaze? Michal Bulant ·Hry, sázky a střední hodnota ·7. března 2024 24 / 48 Střední hodnota Sportovní sázky b) je správně: Chybu jsme udělali v tom, že jsme předpokládali, že kurzy vypsané sázkovou společností odpovídají pravděpodobnostem výskytu daných jevů – protože součet P = 1 2,26 + 1 4,11 + 1 2,77 ≈ 1,047 není roven jedné (žádný jiný jev přitom nastat nemůže a jevy jsou tzv. vylučující se jevy), „reálné“ kurzy pro spravedlivou hru tedy dostaneme, když uvedené kurzy vynásobíme číslem P. Převrácená hodnota P pak zároveň udává, kolik vyhrajeme z každé koruny, rozdíl 1/P − 1 = −0,045 je tedy hledaná očekávaná hodnota výnosu ze sázení. Tedy: čím větší je součet převrácených hodnot vylučujících se kurzů, které zároveň popisují všechny možné jevy, tím větší je nevýhoda na straně sázejícího. Do těchto her by se ale i (sportovně založený) matematik mohl zapojit, pokud je přesvědčen, že jednotlivé pravděpodobnosti jsou stanoveny chybně (tedy, je že chytřejší nebo informovanější než příslušný bookmaker). Michal Bulant ·Hry, sázky a střední hodnota ·7. března 2024 25 / 48 Střední hodnota Lze vůbec systematicky vyhrávat? Jak vydělat díky matematice – případ Cash WinFall Jak už jsme si řekli dříve, vydělat je možné v případě, že je hra nějakým způsobem chybně nastavená – k tomu došlo např. v případě loterie Cash WinFall ve státě Massachusetts, spuštěné na podzim roku 2004 jako náhrada za loterii Mass Millions, která se stala neatraktivní vzhledem k tomu, že za celý rok nikdo nezískal jackpot. Ve hře Cash WinFall bylo taženo 6 čísel z rozmezí 1 až 46 a jackpot se nezvyšoval s každým týdnem, kdy jej nikdo nezískal, ale po překročení hranice 2 milionů dolarů část peněz posílila menší ceny. Tím mělo být dosaženo větší atraktivity, což se loterijní komisi podařilo víc než asi zamýšlela. Michal Bulant ·Hry, sázky a střední hodnota ·7. března 2024 27 / 48 Střední hodnota Lze vůbec systematicky vyhrávat? Herní plán vypadá na začátku takto: při uhádnutí 6 čísel (cca 1:9,3 mil.) se vyhrává jackpot při uhádnutí 5 čísel (1:39 000) je výhra 4 tis. dolarů při uhádnutí 4 čísel (1:800) je výhra 150 dolarů při uhádnutí 3 čísel (1:47) je výhra 5 dolarů při uhádnutí 2 čísel (1:6,8) je výhrou los zdarma (v ceně 2 dolarů) Snadno spočítáme, že při jackpotu v hodnotě 1 mil. dolarů je očekávaná hodnota výhry na jeden (dvoudolarový) los 79,8 centu (tedy menší podíl než v případě „Šťastných 10“). Michal Bulant ·Hry, sázky a střední hodnota ·7. března 2024 28 / 48 Střední hodnota Lze vůbec systematicky vyhrávat? Situace se ale zásadně změní v případě, kdy jackpot „přeteče“ do nižších cen. Tak třeba 7. února 2005 se v jackpotu shromáždily 3 mil. dolarů, které nikdo nevyhrál (nikoliv překvapivě, když hru hrálo pouze cca 470 000 hráčů). Podle schématu hry bylo 600 tis. dolarů určeno pro hráče, kteří uhádli 5 čísel, 1,4 mil. pro ty, kteří uhádli 4 čísla a dalších 600 tis. pro ty, již uhádli 3 čísla. Střední hodnota výhry se tak najednou činí cca 5,53 dolarů na jeden los. Toho si všiml James Harvey, student MIT, který s několika přáteli nejprve koupil tisíc losů a svou investici více než ztrojnásobil. Později v létě roku 2005 už kupovali desítky tisíc sázenek (které všechny údajně ručně vyplňovali). A ví se nejméně o dvou dalších sázkových klubech, kteří využívali téhož principu. Přitom ale ani stát nic netratil – zisk takto organizovaných hráčů plyne z „banku“, do kterého přispěli dřívější nešťastníci. Loterie takto pokračovala až do roku 2012, kdy byla po vyšetřování ukončena. Michal Bulant ·Hry, sázky a střední hodnota ·7. března 2024 29 / 48 Střední hodnota Lze vůbec systematicky vyhrávat? Jak lze obrat protihráče v jednoduché hře Uvažování hráče nad dominancí jejich strategií můžeme ilustrovat na dalším příkladu: Příklad Při hodu mincí (Panna, Orel) opakovaném 3krát, máme 8 možných jevů, každý se stejnou pravděpodobnosti 1 8 : PPP, PPO, POP, POO, OPP, OPO, OOP, OOO. Hru hrají 2 hráči – každý si vybere jednu trojici, pak hážeme mincí tak dlouho, až se jedna z těchto trojic objeví. Dotyčný hráč vyhrává. Kdo si zahraje? Michal Bulant ·Hry, sázky a střední hodnota ·7. března 2024 30 / 48 Střední hodnota Lze vůbec systematicky vyhrávat? Vysvětlení příkladu Lze ukázat, že existuje pro druhého hráče strategie výběru tak, že má vždy pravděpodobnost výhry alespoň 2/3. Pokud 1. hráč vybral trojici, začínající xx, já vyberu yxx Pokud 1. hráč vybral trojici, začínající xy, já vyberu xxy OPP PPO POO OOPPOP OPO PPP OOO Michal Bulant ·Hry, sázky a střední hodnota ·7. března 2024 31 / 48 Střední hodnota Lze vůbec systematicky vyhrávat? Dokončení příkladu Ukážeme, že při výběru POP a PPO je pravděpodobnost prvního výskytu trojice PPO rovna 2/3. Snadno je vidět, že dokud padá orel, šance obou se nemění. Jakmile padne panna, máme v dalším tahu pravděpodobnost 1 2 , že padne znovu panna a stejnou pravděpodobnost, že padne orel. Pak v případě panny s jistotou vyhrává PPO – hážeme tak dlouho než padne orel – celkem pravděpodobnost 1 2 , v případě orla vyhrává POP pouze tehdy, pokud následně padne panna, v opačném případě jsme znovu na začátku – tj. celkem pro POP 1 4 . Celkem tedy ve dvojnásobném počtu případů vyhrává PPO, tj. pravděpodobnost jeho vítězství je 2 3 . Michal Bulant ·Hry, sázky a střední hodnota ·7. března 2024 32 / 48 Střední hodnota Lze vůbec systematicky vyhrávat? Dokončení příkladu, 2. část Podobně snadno zdůvodníme, že pokud 1. hráč vybere např. PPO, my budeme mít s volbou OPP větší pravděpodobnost úspěchu. dokud se v seznamu hodů neobjeví dvojice PP, jistě nemohl nikdo zvítězit uvažme první výskyt dvojice PP: 1. je-li hned na začátku posloupnosti hodů (p = 1 4 ), vyhrává jistě 1. hráč 2. objeví-li se dvojice PP až později, nutně před jejím prvním výskytem musel padnout Orel a vítězíme. Celkem tedy vyhrává OPP s pravděpodobností 3 4 . Michal Bulant ·Hry, sázky a střední hodnota ·7. března 2024 33 / 48 Střední hodnota Lze vůbec systematicky vyhrávat? Tři ruletky Máte k dispozici některou z ruletek s uvedenými čísly a jejich pravděpodobnostmi. Hrají dva hráči, přičemž ten, kdo vylosuje větší číslo, vyhrává. Kterou ruletku si vyberete? Lze snadno odvodit, že ruletka A je lepší než kterákoliv ze zbývajících, ruletka C je naopak nejhorší. V situaci, kdy budou hrát tři hráči se však pořadí ruletek obrátí! Situace nikoliv náhodou připomíná problematiku volebních systémů ... Michal Bulant ·Hry, sázky a střední hodnota ·7. března 2024 34 / 48 Zajímavosti kolem pravděpodobnosti Citlivá a specifická podmíněná pravděpodobnost Testy na Covid-19 a jejich „spolehlivost“ Během pandemie Covid-19 se často v médiích i veřejnosti diskutovala „spolehlivost“ různých testů. Tento termín není příliš korektní, testy se charakterizují prostřednictvím tzv. senzitivity (citlivosti) a specifičnosti. Z matematického pohledu jde o velmi jednoduché pojmy, nejdřív si ale ukažme, jak i celkem jednoduchou věc dokáže úřednický jazyk zamotat: [https://covid.gov.cz] „Senzitivita se měří poměrem pozitivně otestovaných antigenním testem proti všem nakaženým (včetně lidí kteří vyšli z antigenního testu negativně, i když referenční RT-PCR test vyšel pozitivně). To znamená že negativní výsledek z antigenního testování nemusí znamenat, že nejste nakažen s takovou spolehlivostí, jako PCR test. Specificita se měří poměrem negativně otestovaných antigenním testem proti všem nenakaženým (včetně lidí, kteří vyšli z antigenního testu pozitivně, i když referenční RT-PCR test vyšel negativně). Antigenní testy obecně mají vysokou míru specificity. To znamená že člověk, kterému vyšel pozitivně antigenní test je s vysokou mírou pravděpodobnosti nakažen.“ Michal Bulant ·Hry, sázky a střední hodnota ·7. března 2024 36 / 48 Zajímavosti kolem pravděpodobnosti Citlivá a specifická podmíněná pravděpodobnost Senzitivita (citlivost) a specifičnost testu Pozitivní skutečnost Negativní skutečnost Test pozitivní True positive False positive Test negativní False negative True negative Senzitivita Specifičnost Např. u diskutovaného čínského antigenního rychlotestu ze slin (Lepu Medical) uvádí studie 5 (nikoliv ovšem prodejci) u asymptomatických jedinců citlivost cca 45 % a specifičnost 90–98 % (hodnoty pochopitelně nemohou být zcela přesné, protože jsou porovnávány pouze s výsledkem RT-PCR testů, skutečnost není známa). Ag test Pozitivní skutečnost Negativní skutečnost Test pozitivní 45 % 5% Test negativní 55% 95% 5https://www.medrxiv.org/content/10.1101/2021.02.11.21251553v1 Michal Bulant ·Hry, sázky a střední hodnota ·7. března 2024 37 / 48 Zajímavosti kolem pravděpodobnosti Citlivá a specifická podmíněná pravděpodobnost (Zastaralý) triple test a jeho výsledky Triple test je vyšetření krevního séra na hodnoty choriogonadotropinu, estriolu a alfa-fetoproteinu. Provádělo se v druhém trimestru těhotenství a má sloužit k detekci rizik genetických poruch a poruch vývoje nervové trubice. Detekuje poruchy s úspěšností 70 % a naopak 5 % zdravých případů rozpozná jako porušené. Budoucím matkám, u kterých triple test ukáže zvýšené riziko vad plodu, je obvykle doporučeno nějaké další zpřesňující vyšetření, například amniocentéza (odběr plodové vody). Uvádí se, že u těhotné ženy ve věku 20–24 let je pravděpodobnost narození dítěte s Downovým syndromem cca 1:1500, u těhotné ženy ve věku 35–39 let je pravděpodobnost narození dítěte s Downovým syndromem cca 1:200. Prozkoumejme (alespoň z matematického hlediska) význam provádění tohoto testu za uvedených předpokladů, kdy se rodí cca 100 tis. dětí ročně, z toho cca 10 % ženám ve věku 35–39 let a cca 12 % ženám ve věku 20-24 let6 6S výpočty pomůže worksheet na http://www.math.muni.cz/~bulik/ostatni/testy.xlsx. Michal Bulant ·Hry, sázky a střední hodnota ·7. března 2024 38 / 48 Zajímavosti kolem pravděpodobnosti Citlivá a specifická podmíněná pravděpodobnost Senzitivita (citlivost) a specifičnost testu Pozitivní skutečnost Negativní skutečnost Test pozitivní True positive False positive Test negativní False negative True negative Senzitivita Specifičnost Triple test Pozitivní skutečnost Negativní skutečnost Test pozitivní 70 % 5 % Test negativní 30 % 95 % Senzitivita Specifičnost Za dříve uvedených předpokladů snadno vypočteme, že pravděpodobnost (tzv. PPV – positive predictive value), že dítě „starší“ matky bude skutečně postiženo Downovým syndromem, pokud vyšel pozitivní test, je pouhých cca 6,6%. U mladých žen se pak tato pravděpodobnost pohybuje kolem 0,9% a je tedy na zváženou, zda toto plošné testování v dané věkové skupině provádět, pokud navíc uváděné riziko potratu při případné amniocentéze se pohybuje kolem jednoho promile. Michal Bulant ·Hry, sázky a střední hodnota ·7. března 2024 39 / 48 Zajímavosti kolem pravděpodobnosti Citlivá a specifická podmíněná pravděpodobnost Výpočet Uvažujme (hypotetický) vzorek deseti tisíc žen ve věku 35–39 let: Starší ženy Pozitivní skutečnost Negativní skutečnost Test pozitivní 35 497,5 532,5 Test negativní 15 9452,5 9467,5 50 9950 Proto lze pravděpodobnost, že dítě „starší“ matky bude skutečně postiženo Downovým syndromem, pokud vyšel pozitivní test, spočítat jako 35 532,5 ≈ 6,6%. A pro 12 tis. žen ve věku 20–24 let dostaneme: Mladší ženy Pozitivní skutečnost Negativní skutečnost Test pozitivní 5,6 599,6 605,2 Test negativní 2,4 11392,4 11394,8 8 11992 Pravděpodobnost, že dítě „mladší“ matky bude skutečně postiženo Downovým syndromem, pokud vyšel pozitivní test, lze nyní spočítat jako 5,6 605,2 ≈ 0,9%. Michal Bulant ·Hry, sázky a střední hodnota ·7. března 2024 40 / 48 Zajímavosti kolem pravděpodobnosti Citlivá a specifická podmíněná pravděpodobnost Moderní testy V dnešní době je používán kombinovaný screening (integrated screening test 7 ) s hodnotou citlivosti na výrazně vyšší úrovni cca 93 %. Ani to ale, jak ukazuje následující tabulka, není důvod k uspokojení. Uvažujme opět vzorek deseti tisíc žen ve věku 35–39 let: Starší ženy Pozitivní skutečnost Negativní skutečnost Test pozitivní 46,5 497,5 544 Test negativní 3,5 9452,5 9456 50 9950 Proto lze pravděpodobnost, že dítě „starší“ matky bude skutečně postiženo Downovým syndromem, pokud vyšel pozitivní test, spočítat jako 35 532,5 ≈ 8,5%. V posledních letech jsou inzerovány 8 nově vyvinuté testy s deklarovanou citlivostí 99,5 % a specifičností 99,9 %. U těchto testů činí hodnota PPV již zajímavých 83 %. 7Viz např. https://www.nature.com/articles/srep18866 nebo https: //geneticcounseling.info/2013/08/27/prenatal-screening-overview/ 8http://www.downsyndromeprenataltesting.com/ how-accurate-is-the-new-blood-test-for-down-syndrome/ Michal Bulant ·Hry, sázky a střední hodnota ·7. března 2024 41 / 48 Zajímavosti kolem pravděpodobnosti Simpsonův paradox Simpsonův „paradox“ Uveďme některé situace, kdy se lidská intuice dostává do problémů: Statistický (zdánlivý) paradox, který se poměrně často objevuje i na reálných datech. Nejlépe je asi pochopitelný na (skutečných) příkladech: Klinická studie se zabývala porovnáním úspěšnosti dvou způsobů léčby ledvinových kamenů. Studie zkoumala zvlášť úspěšnost na malých kamenech a velkých kamenech. Metoda A Metoda B Malé kameny 93% (81/87) 87% (234/270) Velké kameny 73% (192/263) 69% (55/80) Celkem 78% (273/350) 83% (289/350) Ačkoliv je metoda A lepší jak pro malé, tak velké kameny, celkově se ukazuje jako horší. Je to proto, že v testu byla metoda A výrazně častěji použita pro výrazně hůře dopadající velké kameny. Michal Bulant ·Hry, sázky a střední hodnota ·7. března 2024 43 / 48 Zajímavosti kolem pravděpodobnosti Simpsonův paradox Žaloba na University of California, Berkeley Jeden z nejznámějších příkladů Simpsonova paradoxu pochází z roku 1973, kdy byla UCB zalažována kvůli údajnému evidentnímu znevýhodňování žen v přijímacím řízení, což měla dokládat tabulka: Uchazeči Úspěšnost Muži 8442 44% Ženy 4321 35% Přitom se ukázalo, že jednotlivé katedry spíše mírně zvýhodňovaly ženy: Muži Ženy Katedra Uchazeči Přijatí Uchazečky Přijaté A 825 62% 108 82% B 560 63% 25 68% C 325 37% 593 34% D 417 33% 375 35% E 191 28% 393 24% F 272 6% 341 7% Michal Bulant ·Hry, sázky a střední hodnota ·7. března 2024 44 / 48 Zajímavosti kolem pravděpodobnosti Simpsonův paradox Sportovní příklad Nad tímto jevem se občas z neznalosti podivují i sportovní komentátoři. Objevil se například v této statistice úspěšnosti baseballových odpalů: 1995 1996 1997 Derek Jeter 12/48 .250 183/582 .314 190/654 .291 David Justice 104/411 .253 45/140 .321 163/495 .329 Celkem ale Derek Jeter dosáhl skóre 385/1284, tj. 30% úspěšnosti, kdežto David Justice 312/1046, tj. 29,8%. 9 9Nebylo mu to ale nic platné, každý rok byl Justice prohlášen za lepšího. Michal Bulant ·Hry, sázky a střední hodnota ·7. března 2024 45 / 48 Zajímavosti kolem pravděpodobnosti Simpsonův paradox Podobný efekt mívá např. srovnávání úspěšnosti středních škol při přijímacích zkouškách na vysoké školy (Absolventi třídy A dopadli při přijímačkách na každý obor lépe než absolventi třídy B, protože se ale výrazně víc hlásili na obory s menší úspěšností, celkové procento úspěšnosti třídy A bylo nižší). Vždy je proto třeba pečlivě uvážit, jestli učiněné závěry opravdu odpovídají naměřeným datům nebo jde o jednu z mnoha méně či více „přiohnutých“ statistik a jejich interpretací. Michal Bulant ·Hry, sázky a střední hodnota ·7. března 2024 46 / 48 Zajímavosti kolem pravděpodobnosti Simpsonův paradox Asi zbytečný náznak zdůvodnění 3 17 > 1 10 6 6 > 8 10 9 23 < 9 20 Michal Bulant ·Hry, sázky a střední hodnota ·7. března 2024 47 / 48 Zajímavosti kolem pravděpodobnosti Simpsonův paradox Použitá literatura J. G. Truxal, Probability examples, State University of New York, 1989. J. Ellenberg, Nebojte se matematiky (How Not to Be Wrong), BizBooks, Brno, 2018. Wikipedia, The Free Encyclopedia, www.wikipedia.org. Děkuji za pozornost! Michal Bulant ·Hry, sázky a střední hodnota ·7. března 2024 48 / 48