Pravděpodobnost nebo statistika? ooooo Pravděpodobnost oooooooooooooc Matematika III - 9. přednáška Pravděpodobnost - opakování a zobecnění pojmů Michal Bulant Masarykova univerzita Fakulta informatiky 13. 11. 2013 Pravděpodobnost nebo statistika? Pravděpodobnost ooooo oooooooooooooc Obsah přednášky Q Pravděpodobnost nebo statistika? Q Pravděpodobnost Pravděpodobnost nebo statistika? ooooo Pravděpodobnost oooooooooooooc • Martin Panák, Jan Slovák, Drsná matematika, e-text. » Karel Zvára, Josef Štěpán, Pravděpodobnost a matematická statistika, Matfyzpress, 4. vydání, 2006, 230 stran, ISBN 80-867-3271-1. • Marie Budíková, Štěpán Mikoláš, Pavel Osecký, Teorie pravděpodobnosti a matematická statistika (sbírka příkladů), Masarykova univerzita, 3. vydání, 2004, 117 stran, ISBN 80-210-3313-4. » Marie Budíková, Statistika, Masarykova univerzita, 2004, distanční studijní opora ESF, http: //www.math.muni.cz/~budikova/esf/Statistika.zip. • Marie Budíková, Tomáš Lerch, Štěpán Mikoláš, Základní statistické metody, Masarykova univerzita, 2005, 170 stran, ISBN 80-210-3886-1. Pravděpodobnost nebo statistika? •oooo Pravděpodobnost oooooooooooooc Motto: 42,35 procenta všech statistik je nesmyslných. Statistika v širším slova smyslu je jakékoliv zpracování číselných dat o nějakém souboru objektů a jejich více či méně přehledná prezentace. Pravděpodobnost nebo statistika? o»ooo Pravděpodobnost oooooooooooooc Podstatou matematické statistiky je pro daná data zjišťovat, jaké vlastnosti mají objekty, které jsou daty popisovány. Zpravidla jde o sběr dat o části souboru objektů, jejich následnou analýzu a konečně o vyslovení důsledků pozorování pro celý soubor. Výsledkem práce matematického statistika je sdělení o velkém souboru objektů na základě studia malé (zpravidla náhodně vybrané) části z nich společně s kvalitativním odhadem věrohodnosti výsledného sdělení. Teorie pravděpodobnosti studuje modely popisující chování abstraktních souborů (pravděpodobnost jevů zjevového pole), statistika studuje skutečné náhodné výběry z nějakého základního souboru a zdůvodňuje výběr teoretického pravděpodobnostního modelu, resp. kvalitativní informace o jeho parametrech. Pravděpodobnost nebo statistika? oo»oo Pravděpodobnost oooooooooooooc Příklad Za soubor objektů vezměme všechny studenty přednášky Matematika III (podzim 2007), jako číselný údaj můžeme uvažovat O průměrné bodové hodnocení studenta u zkoušky, 0 průměrnou známku u zkoušky z tohoto (2,92) a z jiných pevně vybraných předmětů (IB000 - 2,95; IB102 - 2,89) , 0 nejčastější známku (resp. úspěšnou známku) z tohoto předmětu (F - 92 krát, E - 91 krát), nejméně častou známku (B - 15 krát), O průměrný počet bodů dosažených na jednotlivých termínech zkoušky (1. - 16,8; 2. - 8,9; 3. - 8,1; příklad, za nějž bylo uděleno nejvíce (nejméně) procent možných bodů - min. kostra (1B, 82,5%), resp. rekurence (2A, 3,6%) 0 počet pracovních hodin týdně odpracovaných mimo fakultu, O číselná data vypovídající o historii dřívějšího studia a mnoho dalších údajů. Pravděpodobnost nebo statistika? ooo#o Pravděpodobnost OOOOOOOOOOOOOC Zastavme se u prvního údaje. Samotný aritmetický průměr bodů nám mnoho neřekne nejen o kvalitě přednášky a o kvalitě přednášejícího, ale ani o samotném hodnocení. Zajímá nás také hodnota, která bude „uprostřed souboru", tj. počet bodů, pro které je stejně studentů pod ní a nad ní. Obdobně první a poslední čtvrtina, desetina apod. Všem takovým údajům říkáme statistiky posuzované veličiny. V uvedených příkladech se jim říká medián, kvartil, decil apod. Z obecné zkušenosti nebo jako výsledek úvah mimo matematiku víme, že rozumné hodnocení by mělo mít tzv. normální rozdělení (odpovídá tzv. Gaussově křivce). Tento pojem patří do teorie pravděpodobnosti a k jeho zavedení budeme potřebovat poměrně dost matematiky. Porovnáním výsledku třeba i docela malého náhodného výběru studentů s teoretickým modelem můžeme zjistit odhad parametrů takového rozdělení a činit závěry, zda je hodnocení „rozumné". Zároveň lze popsat věrohodnost našich závěrů. Pravděpodobnost nebo statistika? oooo» Pravděpodobnost oooooooooooooc Daleko zajímavější vývody ovšem můžeme činit, když porovnáním statistik pro různé veličiny budeme moci dovozovat informace o souvislostech (korelace, závislost). Pokud např. neexistuje žádná doložitelná souvislost mezi historií předchozího studia a výsledky v dané přednášce, je jedním z možných vysvětlení závěr, že je přednáška (nebo její hodnocení) prostě špatná. Závěr úvodních úvah: • V matematice pracujeme s abstraktním matematickým popisem pravděpodobnosti. • Vývody pro konktrétní soubory dat, pro které je zvolený model relevantní, dává matematická statistika. • To, zda je takový popis adekvátní pro konkrétní výběr dat, je také možné podpořit nebo zavrhnout pomocí metod matematické statistiky. Pravděpodobnost nebo statistika? ooooo Pravděpodobnost •ooooooooooooc Připomeneme (a trochu zobecníme) pojmy a výsledky z prvního semestru. Definice (Náhodné jevy) Budeme pracovat s neprázdnou pevně zvolenou množinou Q všech možných výsledků, kterou nazýváme základní prostor. Prvky uěíI představují jednotlivé možné výsledky, též elementární jevya. Systém (ne nutně všech) podmnožin A základního prostoru se nazývá jevové pole a jeho prvky se nazývají jevy, jestliže • Q G A, tj. základní prostor, je jevem, • je-li A, B (z A, pak A \ B G A, tj. pro každé dva jevy je jevem i jejich množinový rozdíl, « je-li A; (z A, i d I nejvýše spočetný systém jevů, pak také jejich sjednocení je jevem, tj. U/e//4f- G A. aPřesněji: elementárním jevem je {cj}. Pravděpodobnost nebo statistika? ooooo Pravděpodobnost o»oooooooooooc Důsledek » Komplement Ac = Q\A jevu A je jevem, který nazýváme opačný jev k jevu A. « Průnik dvou jevů opět jevem, protože pro každé dvě podmnožiny A, B c Q. platí A\(Q\B) = AHB. Takový systém množin A se pak nazývá u-algebra. Jevové poleje tedy systém podmnožin základního prostoru uzavřený na konečné průniky, spočetná sjednocení a množinové rozdíly. Jednotlivé množiny A G A nazýváme náhodné jevy (vzhledem k A). Pravděpodobnost nebo statistika? ooooo Pravděpodobnost OOOOOOOOOOOOOC Terminologie připomíná souvislosti s popisem skutečných jevů a jejich statistickým popisem: • celý základní prostor Q se nazývá jistý jev, prázdná podmnožina 0 £ A se nazývá nemožný jev, • jednoprvkové podmnožiny {lo} £ Q se nazývají elementární jevy, • společné nastoupení jevů A, i 6 /, odpovídá jevu n,-e/A> nastoupení alespoň jednoho z jevů A, i £ /, odpovídá jevu • A, B 6 A jsou neslučitelné jevy, je-li A n B = 0, • jev /4 má za důsledek jev B, když A c B, » je-li /4 G A, pak se jev B = Q\A nazývá opačný jev k jevu A píšeme ß = Ac. Pravděpodobnost nebo statistika? ooooo Pravděpodobnost OOO0OOOOOOOOOC Definice (Kolmogorovova definice pravděpodobnosti) Pravděpodobnostní prostor je jevové pole A podmnožin (konečného) základního prostoru ft, na kterém je definována funkce P:i->ls následujícími vlastnosti: • je nezáporná, tj. P(A) > 0 pro všechny jevy A, • je aditivní, tj. P(U/e//4,') = Yliel pro každý nejvýše spočetný systém po dvou neslučitelných jevů, • pravděpodobnost jistého jevu je 1. Funkci P nazýváme pravděpodobností na jevovém poli (Q, A). Důsledek "* Pro všechny jevy A, B (z A platí « P(0) = 0, 0 < P {A) < 1, « P(AC) = 1 - P (A), • K6 ^ P (A) < P(B), P{B\A) = P(B) - P(A), • P(AUB) = P(A) + P(B) - - P(AHB) Pravděpodobnost nebo statistika? ooooo Pravděpodobnost oooosooooooooc Podobná tvrzení platí i pro nekonečné posloupnosti jevů: Tvrzení Pro libovolnou nejvýše spočetnou množinu jevů (/4,')/^i platí: • Je-li /4i C A2 C • • •, pak OO p(i)A) = lim p(A), ^-^ /—5-00 • Je-li Aí D A2 5 • • •, psk oo P(PlA-) = lim p(A), • p(u^iA-)i- =i P{A,), - - p(A)). Pravděpodobnost nebo statistika? ooooo Pravděpodobnost ooooo»oooooooc Příklad Náhodný pokus spočívá v hodu kostkou. Jev A znamená, že padne liché číslo, jev B, padne-li prvočíslo. a) Určete základní prostor Q. b) Uveďte všechny možné výsledky příznivé nastoupení jevů A, B. c) Pomocí A, B a operací s jevy vyjádřete: • padne sudé číslo, » padne číslo 2, » padne číslo 2 nebo 3 d) Určete nej menší jevové pole (Q,A), obsahující jevy A i B. Pravděpodobnost nebo statistika? Pravděpodobnost ooooo oooooo»ooooooc Klasická pravděpodobnost Připomeňme si klasickou konečnou pravděpodobnost. Definice Nechť Q je konečný základní prostor a nechť jevové pole A je právě systém všech podmnožin v Q. Klasická pravděpodobnost je pravděpodobnostní prostor (Q.,A, P) s pravděpodobnostní funkcí P : A -> R, _™ = W_ Zjevně takto zadaná funkce skutečně definuje pravděpodobnost, kdy všem elementárním jevům přiřazujeme stejnou pravděpodobnost. Pravděpodobnost nebo statistika? ooooo Pravděpodobnost ooooooo»oooooc Že s klasickou pravděpodobností nevystačíme, ukazují následující příklady: Příklad » Cestou z Kotlářské na Botanickou jsem ztratil zadání písemky. Určete pravděpodobnost jevu lox slovně vyjádřeného: ztracená písemka se nachází nej blíže k zastávce trolejbusu X. • Určete pravděpodobnost, jevu lo^: při opakovaném hodu mincí padne hlava poprvé při k-tém pokusu. V prvním případě je třeba pracovat s nekonečně mnoha stejně pravděpodobnými elementárními jevy: písemku jsem ztratil v bodě (x,y) , ve druhém pak musíme připustit teoretickou možnost, že hlava nepadne nikdy, a prostorem jevů tedy bude N U {oo}. Pravděpodobnost nebo statistika? ooooo Pravděpodobnost oooooooo»ooooc V praktických problémech se často setkáváme s daleko složitějšími modely, kde základní prostor není konečnou množinou. Uvažme rovinu M2 dvojic reálných čísel a v ní podmnožinu Q se známým obsahem vol Q (tedy např. takovou, že Q je Riemannovsky měřitelná)). Náhodné jevy budou reprezentovány podmnožinami A C Q a za jevové pole A bereme nějaký vhodný systém podmnožin, u kterých umíme určit jejich obsah. Nastoupení nebo nenastoupení jevu je dáno výběrem bodu v Q, kterým se trefíme nebo netrefíme do množiny reprezentující jev A. Podobně jako u klasické pravděpodobnosti definujeme pravděpodobnostní funkci P : A ->• R vztahem P(A) vo\A volfi' kde A jsou podmnožiny v rovině, které odpovídají námi vybraným jevům. Pravděpodobnost nebo statistika? ooooo Pravděpodobnost ooooooooo»oooc Příklad Jaká je pravděpodobnost, že dvě náhodně zvolená čísla z intervalu (0,1) budou mít součet menší než 1 a součin větší než 2/9? Příklad (Buffonova úloha) Rovina je rozdělena rovnoběžkami umístěnými rovnoměrně ve vzdálenosti d. Do roviny je náhodně umístěna jehla délky I < d. Jaká je pravděpodobnost, že jehla protne některou rovnoběžku? Pravděpodobnost nebo statistika? Pravděpodobnost ooooo oooooooooo»ooc Podmíněná pravděpodobnost a nezávislost Motto: Je dokázáno, že slavení narozenin je zdraví prospěšné. Statistika ukazuje, že lidé, kteří oslavili nejvíce narozenin, se dožívají nejvyššího věku. Vtip - co je na něm špatně? Statistik procházel bezpečnostní kontrolou na letišti, když byla v jeho kufru nalezena bomba. Vysvětloval: „Podle statistik je pravděpodobnost přítomnosti bomby v letadle 1:1000. Takže šance, že na palubě budou dvě bomby, je 1:1000000. Tím pádem jsem mnohem více v bezpečí ..." Pravděpodobnost nebo statistika? ooooo Pravděpodobnost ooooooooooo»oc Obvyklé je také klást dotazy s dodatečnou podmínkou. Např. • Jaká je pravděpodobnost, že při hodu dvěma kostkami padly dvě pětky, je-li součet hodnot deset? • Mějme urnu s 10 koulemi. Desetkrát jsem vytáhl kouli, zkontroloval její barvu a vrátil do urny. Jestliže byla vždy bílé barvy, s jakou pravděpodobností jsou všechny koule v urně bílé? • Na dostizích jsou známy pravděpodobnosti vítězství jednotlivých koní. Jak se tyto pravděpodobnosti změní, pokud uprostřed závodu spadne jezdec jednoho z koní ze sedla? Pravděpodobnost nebo statistika? ooooo Pravděpodobnost oooooooooooo»c Připomeňme, že formalizovat takové úvahy umíme následovně. Definice Nechť H je jev s nenulovou pravděpodobností v jevovém poli A v pravděpodobnostním prostoru (Q,A,P). Podmíněná pravděpodobnost P(A\H) jevu A (z A vzhledem k jevu H je definována vztahem P(A\H) P {A n H) P(H) ' Přirozená definice nezávislosti je, že hypotéza H a jev A jsou nezávislé tehdy, je-li P (A) = P{A\H). Z výše uvedeného snadno vyplývá symetričtější definice: Definice Říkáme, že jevy A a B jsou nezávislé, jestliže P{AH B) = P(A)P(B). Pravděpodobnost nebo statistika? ooooo Pravděpodobnost OOOOOOOOOOOOOÍ Definice Říkáme, že jevy Ai,A2, .. jsou nezávislé, jestliže pro každou /c-tici A-n, • • • , A-,k z nich platí / k \ k P o*)=up(AiJ). \ Příklad V urně jsou 4 lístky označené 000, 110, 101, 011. Uvažujme pro / = 1,2,3 náhodné jevy A; = {náhodně vytažený lístek má na /-tém místě 1}. Snadno se vidí, že P(A1) = P(A2) = P(A3) \, dále, že P{A! n A2) = P{AÍ n A3) = P{A2 n A3) = \ a že P{A\ n A2 n A3) = 0. Jevy A\, A2, A3 jsou tedy po dvou nezávislé, ale nejsou nezávislé. Pravděpodobnost nebo statistika? Pravděpodobnost ooooo oooooooooooooc Bayesovy věty Přepsáním formule pro podmíněnou pravděpodobnost dostáváme P{A n fi) = P{B r\A) = P(A)P(B\A) = P(B)P(A\B). Věta (Bayesovy věty) Pro pravděpodobnost jevů A a B platí 9 P{A\B) = P(A\B) - P(A)P(B\A) Důkaz. První tvrzení je přepsáním předchozí formule, druhé z prvého plyne dosazením P(B) = P(A)P(B\A) + P(AC)P(B\AC). □