Matematika IV - 7. přednáška Pravděpodobnost - opakování a zobecnění pojmů ■ Michal Bulant Masarykova univerzita Fakulta informatiky 3. 4. 2013 Pravděpodobnost nebo statistika? Pravděpodobnost Náhodné veličiny ooooo oooooooooooooooooooo ooooooooo Q Pravděpodobnost nebo statistika? Q Pravděpodobnost Ql Náhodné veličiny Pravděpodobnost nebo statistika? Pravděpodobnost Náhodné veličiny ooooo oooooooooooooooooooo ooooooooo Doporučené zdroje • Martin Panák, Jan Slovák, Drsná matematika, e-text. » Karel Zvára, Josef Štěpán, Pravděpodobnost a matematická statistika, Matfyzpress, 4. vydání, 2006, 230 stran, ISBN 80-867-3271-1. • Marie Budíková, Štěpán Mikoláš, Pavel Osecký, Teorie pravděpodobnosti a matematická statistika (sbírka příkladů), Masarykova univerzita, 3. vydání, 2004, 117 stran, ISBN 80-210-3313-4. » Marie Budíková, Statistika, Masarykova univerzita, 2004, distanční studijní opora ESF, http: //www.math.muni.cz/~budikova/esf/Statistika.zip. • Marie Budíková, Tomáš Lerch, Štěpán Mikoláš, Základní statistické metody, Masarykova univerzita, 2005, 170 stran, ISBN 80-210-3886-1. Pravděpodobnost nebo statistika? •oooo Pravděpodobnost oooooooooooooooooooo Náhodné veličiny ooooooooo Motto: 42,35 procenta všech statistik je nesmyslných. Statistika v širším slova smyslu je jakékoliv zpracování číselných dat o nějakém souboru objektů a jejich více či méně přehledná prezentace. Pravděpodobnost nebo statistika? o»ooo Pravděpodobnost oooooooooooooooooooo Náhodné veličiny ooooooooo Podstatou matematické statistiky je pro daná data zjišťovat, jaké vlastnosti mají objekty, které jsou daty popisovány. Zpravidla jde o sběr dat o části souboru objektů, jejich následnou analýzu a konečně o vyslovení důsledků pozorování pro celý soubor. Výsledkem práce matematického statistika je sdělení o velkém souboru objektů na základě studia malé (zpravidla náhodně vybrané) části z nich společně s kvalitativním odhadem věrohodnosti výsledného sdělení. Teorie pravděpodobnosti studuje modely popisující chování abstraktních souborů (pravděpodobnost jevů zjevového pole), statistika studuje skutečné náhodné výběry z nějakého základního souboru a zdůvodňuje výběr teoretického pravděpodobnostního modelu, resp. kvalitativní informace o jeho parametrech. Pravděpodobnost nebo statistika? oo»oo Pravděpodobnost oooooooooooooooooooo Náhodné veličiny ooooooooo Příklad Za soubor objektů vezměme všechny studenty přednášky Matematika III (podzim 2007), jako číselný údaj můžeme uvažovat O průměrné bodové hodnocení studenta u zkoušky, 0 průměrnou známku u zkoušky z tohoto (2,92) a z jiných pevně vybraných předmětů (IB000 - 2,95; IB102 - 2,89) , 0 nejčastější známku (resp. úspěšnou známku) z tohoto předmětu (F - 92 krát, E - 91 krát), nejméně častou známku (B - 15 krát), O průměrný počet bodů dosažených na jednotlivých termínech zkoušky (1. - 16,8; 2. - 8,9; 3. - 8,1; příklad, za nějž bylo uděleno nejvíce (nejméně) procent možných bodů - min. kostra (1B, 82,5%), resp. rekurence (2A, 3,6%) 0 počet pracovních hodin týdně odpracovaných mimo fakultu, O číselná data vypovídající o historii dřívějšího studia a mnoho dalších údajů. Pravděpodobnost nebo statistika? ooo#o Pravděpodobnost oooooooooooooooooooo Náhodné veličiny ooooooooo Zastavme se u prvního údaje. Samotný aritmetický průměr bodů nám mnoho neřekne nejen o kvalitě přednášky a o kvalitě přednášejícího, ale ani o samotném hodnocení. Zajímá nás také hodnota, která bude „uprostřed souboru", tj. počet bodů, pro které je stejně studentů pod ní a nad ní. Obdobně první a poslední čtvrtina, desetina apod. Všem takovým údajům říkáme statistiky posuzované veličiny. V uvedených příkladech se jim říká medián, kvartil, decil apod. Z obecné zkušenosti nebo jako výsledek úvah mimo matematiku víme, že rozumné hodnocení by mělo mít tzv. normální rozdělení (odpovídá tzv. Gaussově křivce). Tento pojem patří do teorie pravděpodobnosti a k jeho zavedení budeme potřebovat poměrně dost matematiky. Porovnáním výsledku třeba i docela malého náhodného výběru studentů s teoretickým modelem můžeme zjistit odhad parametrů takového rozdělení a činit závěry, zda je hodnocení „rozumné". Zároveň lze popsat věrohodnost našich závěrů. Pravděpodobnost nebo statistika? oooo» Pravděpodobnost oooooooooooooooooooo Náhodné veličiny ooooooooo Daleko zajímavější vývody ovšem můžeme činit, když porovnáním statistik pro různé veličiny budeme moci dovozovat informace o souvislostech (korelace, závislost). Pokud např. neexistuje žádná doložitelná souvislost mezi historií předchozího studia a výsledky v dané přednášce, je jedním z možných vysvětlení závěr, že je přednáška (nebo její hodnocení) prostě špatná. Závěr úvodních úvah: • V matematice pracujeme s abstraktním matematickým popisem pravděpodobnosti. • Vývody pro konktrétní soubory dat, pro které je zvolený model relevantní, dává matematická statistika. • To, zda je takový popis adekvátní pro konkrétní výběr dat, je také možné podpořit nebo zavrhnout pomocí metod matematické statistiky. Pravděpodobnost nebo statistika? ooooo Pravděpodobnost •ooooooooooooooooooo Náhodné veličiny ooooooooo Připomeneme (a trochu zobecníme) pojmy a výsledky z prvního semestru. Definice (Náhodné jevy) Budeme pracovat s neprázdnou pevně zvolenou množinou Q všech možných výsledků, kterou nazýváme základní prostor. Prvky uěíI představují jednotlivé možné výsledky. Systém (ne nutně všech) podmnožin A základního prostoru se nazývá jevové pole a jeho prvky se nazývají jevy, jestliže • Q G A, tj. základní prostor, je jevem, • je-li A, B (z A, pak A \ B G A, tj. pro každé dva jevy je jevem i jejich množinový rozdíl, « je-li A; (z A, i d I nejvýše spočetný systém jevů, pak také jejich sjednocení je jevem, tj. U/e//4f- G A. Pravděpodobnost nebo statistika? ooooo Pravděpodobnost o»oooooooooooooooooo Náhodné veličiny ooooooooo Důsledek » Komplement Ac = Q\A jevu A je jevem, který nazýváme opačný jev k jevu A. « Průnik dvou jevů opět jevem, protože pro každé dvě podmnožiny A, B c Q. platí A\(Q\B) = AHB. Takový systém množin A se pak nazývá u-algebra. Jevové poleje tedy systém podmnožin základního prostoru uzavřený na konečné průniky, spočetná sjednocení a množinové rozdíly. Jednotlivé množiny A G A nazýváme náhodné jevy (vzhledem k A). Pravděpodobnost nebo statistika? ooooo Pravděpodobnost OOOOOOOOOOOOOOOOOOOO Náhodné veličiny OOOOOOOOO Terminologie připomíná souvislosti s popisem skutečných jevů a jejich statistickým popisem: • celý základní prostor Q se nazývá jistý jev, prázdná podmnožina 0 £ A se nazývá nemožný jev, • jednoprvkové podmnožiny {lo} £ Q se nazývají elementární jevy, • společné nastoupení jevů A, i 6 /, odpovídá jevu n,-e/A> nastoupení alespoň jednoho z jevů A, i £ /, odpovídá jevu • A, B 6 A jsou neslučitelné jevy, je-li A n B = 0, • jev A má za důsledek jev B, když A c B, » je-li /4 G A, pak se jev ß = Q \ /4 nazývá opačný jev k jevu A píšeme B = Ac. Pravděpodobnost nebo statistika? Pravděpodobnost Náhodné veličiny ooooo ooo»oooooooooooooooo ooooooooo Definice (Kolmogorovova definice pravděpodobnosti) Pravděpodobnostní prostor je jevové pole A podmnožin (konečného) základního prostoru ft, na kterém je definována funkce P:i->ls následujícími vlastnosti: • je nezáporná, tj. P(A) > 0 pro všechny jevy A, • je aditivní, tj. P(U/e//4,') = Yliel pro každý nejvýše spočetný systém po dvou neslučitelných jevů, • pravděpodobnost jistého jevu je 1. Funkci P nazýváme pravděpodobností na jevovém poli (Q, A). Důsledek "* Pro všechny jevy A, B (z A platí « P(0) = 0, 0 < P {A) < 1, « P(AC) = 1 - P (A), • K6 ^ P (A) < P(B), P{B\A) = P(B) - P(A), • P(AUB) = P(A) + P(B) - - P(AHB) Pravděpodobnost nebo statistika? ooooo Pravděpodobnost oooo»ooooooooooooooo Náhodné veličiny ooooooooo Podobná tvrzení platí i pro nekonečné posloupnosti jevů: Tvrzení Pro libovolnou nejvýše spočetnou množinu jevů (A)/^i platí: • Je-li A C A2 C • • •, pak oo P(MA) = lim P(A), ^-^ /—5-00 / = 1 • Je-li A D A 5 • • •, pa/c OO p(PlA-) = lim P(A), • p(u^iA-)i- =i p(A), - - P(A))- Pravděpodobnost nebo statistika? Pravděpodobnost Náhodné veličiny ooooo ooooo#oooooooooooooo ooooooooo Připomeňme si klasickou konečnou pravděpodobnost. Definice Nechť Q je konečný základní prostor a nechť jevové pole A je právě systém všech podmnožin v Q. Klasická pravděpodobnost je pravděpodobnostní prostor (Q.,A, P) s pravděpodobnostní funkcí P : A -> R, _™ = W_ Zjevně takto zadaná funkce skutečně definuje pravděpodobnost, kdy všem elementárním jevům přiřazujeme stejnou pravděpodobnost. Pravděpodobnost nebo statistika? ooooo Pravděpodobnost oooooo^ooooooooooooo Náhodné veličiny ooooooooo Že s klasickou pravděpodobností nevystačíme, ukazují následující příklady: Příklad » Cestou z Kotlářské na Botanickou jsem ztratil zadání písemky. Určete pravděpodobnost jevu lox slovně vyjádřeného: ztracená písemka se nachází nej blíže k zastávce trolejbusu X. • Určete pravděpodobnost, jevu lo^: při opakovaném hodu mincí padne hlava poprvé při k-tém pokusu. V prvním případě je třeba pracovat s nekonečně mnoha stejně pravděpodobnými elementárními jevy: písemku jsem ztratil v bodě (x,y) , ve druhém pak musíme připustit teoretickou možnost, že hlava nepadne nikdy, a prostorem jevů tedy bude N U {oo}. Pravděpodobnost nebo statistika? Pravděpodobnost Náhodné veličiny ooooo ooooooo»oooooooooooo ooooooooo Peterburgský paradox" (Bernoulli, 1738) Typický příklad klasické pravděpodobnosti jsou jevy související s házením mincí. Představme si následující pravidla kasina: Casino rules Návštěvník zaplatí vklad C a poté hází mincí. V banku je na začátku dolar a při každém hodu se bank zdvojnásobí. Padne-li hlava, hráč získá obsah banku. Je-li tedy T počet hodů potřebných k první hlavě, hráč obdrží výhru 2T. Jaká je „fér hodnota" pro vklad Cl_ A co vy? Zaplatili byste za možnost zahrát si tuto hru třeba 20$? Pravděpodobnost nebo statistika? ooooo Pravděpodobnost oooooooo»ooooooooooo Náhodné veličiny ooooooooo Odvození Pravděpodobnost, že padne hlava je u férové mince 1/2, je proto P(T = k) = 2~k. Sečteme-li všechny pravděpodobnosti výsledků vynásobených výhrami 2k, dostaneme očekávanou výhru 1 1 00 i.2 + i.2* + ... = £l = «,. 1 Zdá se proto, že se vyplatí vložit i velký vklad, protože libovolný vklad C se nám „časem" vrátí. Ve skutečnosti simulací hry zjistíme, že nezávisle na počtu pokusů se prakticky všechny výhry budou pohybovat v rozmezí malých hodnot. Důvodem je, že vysoké výhry jsou velice nepravděpodobné a proto je při reálných úvahách nelze brát vážně. Tento paradox je vysvětlován nelinearitou funkce užitečnosti peněz (utility function), případně nezbytností diskontovaní jejich hodnoty. Pravděpodobnost nebo statistika? Pravděpodobnost Náhodné veličiny OOOOO OOOOOOOOO0OOOOOOOOOO ooooooooo Podmíněná pravděpodobnost a nezávislost Motto: Je dokázáno, že slavení narozenin je zdraví prospěšné. Statistika ukazuje, že lidé, kteří oslavili nejvíce narozenin, se dožívají nejvyššího věku. Obvyklé je také klást dotazy s dodatečnou podmínkou. Např. • Jaká je pravděpodobnost, že při hodu dvěma kostkami padly dvě pětky, je-li součet hodnot deset? • Mějme urnu s 10 koulemi. Desetkrát jsem vytáhl kouli, zkontroloval její barvu a vrátil do urny. Jestliže byla vždy bílé barvy, s jakou pravděpodobností jsou všechny koule v urně bílé? • Na dostizích jsou známy pravděpodobnosti vítězství jednotlivých koní. Jak se tyto pravděpodobnosti změní, pokud uprostřed závodu spadne jezdec jednoho z koní ze sedla? Pravděpodobnost nebo statistika? ooooo Pravděpodobnost oooooooooosooooooooo Náhodné veličiny ooooooooo Připomeňme, že formalizovat takové úvahy umíme následovně. Definice Nechť H je jev s nenulovou pravděpodobností v jevovém poli A v pravděpodobnostním prostoru (Q,A,P). Podmíněná pravděpodobnost P(A\H) jevu A (z A vzhledem k jevu H je definována vztahem P(A\H) P{A n H) P(H) ' Přirozená definice nezávislosti je, že hypotéza H a jev A jsou nezávislé tehdy, je-li P (A) = P{A\H). Z výše uvedeného snadno vyplývá symetričtější definice: Definice Říkáme, že jevy A a B jsou nezávislé, jestliže P{AH B) = P(A)P(B). Pravděpodobnost nebo statistika? ooooo Pravděpodobnost ooooooooooo»oooooooo Náhodné veličiny ooooooooo Definice Říkáme, že jevy Ai,A2, .. jsou nezávislé, jestliže pro každou /c-tici A-n, • • • , A-,k z nich platí / k \ k P n^ó)=up(AiJ). \ Příklad V urně jsou 4 lístky označené 000, 110, 101, 011. Uvažujme pro / = 1,2,3 náhodné jevy A; = {náhodně vytažený lístek má na /-tém místě 1}. Snadno se vidí, že P(A1) = P(A2) = P{A3) \, dále, že P{A! n A2) = P{AÍ n A3) = P{A2 n A3) = \ a že P{A\ n A2 n A3) = 0. Jevy A\, A2, A3 jsou tedy po dvou nezávislé, ale nejsou nezávislé. Pravděpodobnost nebo statistika? ooooo Pravděpodobnost oooooooooooo«ooooooo Náhodné veličiny ooooooooo Přepsáním formule pro podmíněnou pravděpodobnost dostáváme P(A n fi) = P{B r\A) = P(A)P(B\A) = P(B)P(A\B). Věta (Bayesovy věty) Pro pravděpodobnost jevů A a B platí 9 P{A\B) = P(A\B) - P(A)P(B\A) Důkaz. První tvrzení je přepsáním předchozí formule, druhé z prvého plyne dosazením P(B) = P(A)P(B\A) + P(AC)P(B\AC). □ Pravděpodobnost nebo statistika? ooooo Pravděpodobnost ooooooooooooo»oooooo itlivost) testu Náhodné veličiny ooooooooo Pozitivní skutečnost Negativní skutečnost Test pozitivní True positive Falše positive Test negativní Falše negative True negative Senzitivita Specifičnost Pravděpodobnost nebo statistika? ooooo Pravděpodobnost oooooooooooooo»ooooo Náhodné veličiny ooooooooo Předpokládejme, že krevní test na HIV pozitivní osoby má 99% správnost v případě osoby skutečně HIV pozitivní (vysoká citilivost -sensitivity). Zároveň předpokládejme, že u HIV negativní osoby dopadne test pozitivně v 0,2% případů (relativně vysoká specifičnost - specificity). Náhodně z populace vybereme osobu a otestujeme pozitivně. S jakou pravděpodobností je skutečně HIV pozitivní, jestliže četnost výskytu HIV v populaci je p promile (tj. p osob z tisíce je skutečně HIV pozitivní). Označme A jev, že je daná osoba HIV pozitivní, a B jev, že daná osoba má pozitivní test. Dle druhé Bayesovy věty je hledaná pravděpodobnost P(A\B) p/1000-99/100 p/1000 • 99/100 + (1000 - p)/1000 • 2/1000 Pravděpodobnost nebo statistika? Pravděpodobnost Náhodné veličiny ooooo ooooooooooooooo»oooo ooooooooo Příklad - preventivní screening, pokr. Jestliže zvolíme za p nějaké konkrétní četnosti, dostaneme příslušné očekávatelné spolehlivosti testu. V následující tabulce je spočten výsledek pro několik p: P 100 10 1 0,1 P(A\B) 0,982 0,8333 0,3313 0,0471 Výsledek asi neodpovídá naší intuici a může se zdát šokující ve vztahu k použití takovýchto testů. Poznámka Sami si můžete podobný výpočet udělat pro tzv. triple test na Downův syndrom, prováděný ve 2. trimestru těhotenství s 70% citlivostí a 5% „false-positive rate" či pro statistiky svého oblíbeného spamfilteru (např. SpamAssassin s někde udávanou citlivostí 99,64% a specifičností 98.23%). Pravděpodobnost nebo statistika? Pravděpodobnost Náhodné veličiny ooooo oooooooooooooooo»ooo ooooooooo Triple test je vyšetření krevního séra na hodnoty choriogonadotropinu, estriolu a alfa-fetoproteinu. Provádí se v druhém trimestru těhotenství a má sloužit k detekci rizik genetických poruch a poruch vývoje nervové trubice. Detekuje poruchy s úspěšností 70% a naopak 5% zdravých případů rozpozná jako porušené. Budoucím matkám, u kterých triple test ukáže zvýšené riziko vad plodu, je obvykle doporučeno nějaké další zpřesňující vyšetření, například amniocentéza (odběr plodové vody). Uvádí se, že u těhotné ženy ve věku 20-24 let je pravděpodobnost narození dítěte s Downovým syndromem cca 1:1500, u těhotné ženy ve věku 35-39 let je pravděpodobnost narození dítěte s Downovým syndromem cca 1:200. Prozkoumejme (alespoň z matematického hlediska) význam provádění tohoto testu za uvedených předpokladů, kdy se rodí cca 100 tis. dětí ročně, z toho cca 10% ženám ve věku 35-39 let a cca 12% ženám ve věku 20-24 let. Pravděpodobnost nebo statistika? ooooo Pravděpodobnost ooooooooooooooooo»oo Náhodné veličiny ooooooooo Soecifičnost a senzitivita (citlivost) testu Pozitivní skutečnost Negativní skutečnost Test pozitivní True positive Falše positive Test negativní Falše negative True negative Senzitivita Specifičnost Triple test Pozitivní skutečnost Negativní skutečnost Test pozitivní 70% 5% Test negativní 30% 95% Senzitivita Specifičnost Za dříve uvedených předpokladů snadno vypočteme, že pravděpodobnost, že dítě „starší" matky bude skutečně postiženo Downovým syndromem, pokud vyšel pozitivní test, je pouhých cca 6,6%. U mladých žen se pak tato pravděpodobnost pohybuje kolem 0,9% a je tedy na zváženou, zda toto plošné testování v dané věkové skupině provádět, pokud navíc uváděné riziko potratu při případné amniocentéze se pohybuje kolem jednoho promile. Pravděpodobnost nebo statistika? ooooo Pravděpodobnost oooooooooooooooooo»o Náhodné veličiny ooooooooo Uvažujme (reálný) vzorek deseti tisíc žen ve věku 35-39 let: Starší ženy Pozitivní skutečnost Negativní skutečnost Test pozitivní 35 497,5 532,5 Test negativní 15 9452,5 9467,5 50 9950 Proto lze pravděpodobnost, že dítě „starší" matky bude skutečně postiženo Downovým syndromem, pokud vyšel pozitivní test, spočítat jako 6,6%. A pro 12 tis. žen ve věku 20-24 let dostaneme: Mladší ženy Pozitivní skutečnost Negativní skutečnost Test pozitivní 5,6 599,6 605,2 Test negativní 2,4 11392,4 11394,8 8 11992 Pravděpodobnost, že dítě „mladší" matky bude skutečně postiženo Pravděpodobnost nebo statistika? ooooo Pravděpodobnost ooooooooooooooooooo* Náhodné veličiny ooooooooo Evidentně prostý výběr náhodné osoby a použití jediného testu, byť velmi citlivého a specifického, nejsou vhodné ani na otestování skutečného stavu populace, ani na preventivní vyšetření jednotlivců, pokud nemáme další podpůrné informace a lepší nástroje. Právě matematická statistika dává nástroje na kvalifikovanější postupy v medicínské i průmyslové diagnostice, ekonomických modelech, vyhodnocování experimentálních dat atd. Pravděpodobnost nebo statistika? ooooo Pravděpodobnost oooooooooooooooooooo Náhodné veličiny •oooooooo Vrafme se k jednoduchému a názornému příkladu statistik kolem výsledků studentů v daném předmětu, který je a není podobný klasické pravděpodobnosti a s ní související statistice při házení kostkou. Na jedné straně jsme připustili pouze konečný počet možných bodových hodnocení (v tomto případě celá čísla od 0 do 30), zároveň ale není patrně vhodné představovat si výsledky jednotlivých studentů jako analogii nezávislého házení kostkou (to by byla skutečně divně vedená přednáška). Místo toho máme na základním prostoru Q všech studentů definovánu funkci bodového ohodnocení X : Q. —> M.. Je to typický příklad náhodné veličiny. U každé náhodné veličiny potřebujeme umět pracovat s vhodnou množinou jevů. Zpravidla požadujeme, abychom mohli pracovat s pravděpodobnostmi příslušnosti hodnoty X do předem zadaného intervalu. Pravděpodobnost nebo statistika? ooooo Pravděpodobnost oooooooooooooooooooo Náhodné veličiny o»ooooooo Přirozenější interpretací výsledku pokusu je totiž často spíše než zjištění, zda náhodný jev nastal či nenastal, nějaká hodnota: • součet bodů na dvou kostkách, • počet bakterií v daném množství roztoku nebo • počet studentů, kteří uspěli u zkoušky nebo kteří získali alespoň 5 bodů z konkrétního příkladu. Od pravděpodobnostního prostoru (Q,A,P) tedy potřebujeme přejít k obdobné dvojici (M, £>) tak, abychom podmnožinám M, ležícím v u-algebře B byli schopni přiřadit pravděpodobnost odvozenou z (Q.,A, P).