Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost ooooooooooooooooooo Náhodné veličiny oooooooo Matematika IV - 8. přednáška Pravděpodobnost - opakování a zobecnění pojmů Michal Bulant Masarykova univerzita Fakulta informatiky 13. 4. 2011 Pravděpodobnost nebo statistika? Pravděpodobnost Náhodné veličiny ooooo ooooooooooooooooooo oooooooo Obsah přednášky Q Pravděpodobnost nebo statistika? Q Pravděpodobnost Q Náhodné veličiny Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost ooooooooooooooooooo Náhodné veličiny oooooooo Doporučené zdroje • Martin Panák, Jan Slovák, Drsná matematika, e-text. • Karel Zvára, Josef Štěpán, Pravděpodobnost a matematická statistika, Matfyzpress, 4. vydání, 2006, 230 stran, ISBN 80-867-3271-1. • Marie Budíková, Štěpán Mikoláš, Pavel Osecký, Teorie pravděpodobnosti a matematická statistika (sbírka příkladů), Masarykova univerzita, 3. vydání, 2004, 117 stran, ISBN 80-210-3313-4. • Marie Budíková, Štěpán Mikoláš, Pavel Osecký, Popisná statistika, Masarykova univerzita, 3. vydání, 2002, 48 stran, ISBN 80-210-1831-3. • Marie Budíková, Tomáš Lerch, Štěpán Mikoláš, Základní statistické metody, Masarykova univerzita, 2005, 170 stran, ISBN 80-210-3886-1. Pravděpodobnost nebo statistika? Pravděpodobnost Náhodné veličiny ooooo ooooooooooooooooooo oooooooo Plán přednášky Q Pravděpodobnost nebo statistika? r rsvQěpoQODnost Pravděpodobnost nebo statistika? •oooo Pravděpodobnost ooooooooooooooooooo Náhodné veličiny oooooooo Motto: 42,35 procenta všech statistik je nesmyslných. Statistika v širším slova smyslu je jakékoliv zpracování číselných dat o nějakém souboru objektů a jejich více či méně přehledná prezentace. Pravděpodobnost nebo statistika? o«ooo Pravděpodobnost ooooooooooooooooooo Náhodné veličiny oooooooo Podstatou matematické statistiky je pro daná data zjišťovat, jaké vlastnosti mají objekty, které jsou daty popisovány. Zpravidla jde o sběr dat o části souboru objektů, jejich následnou analýzu a konečně o vyslovení důsledků pozorování pro celý soubor. Pravděpodobnost nebo statistika? o«ooo Pravděpodobnost ooooooooooooooooooo Náhodné veličiny oooooooo Podstatou matematické statistiky je pro daná data zjišťovat, jaké vlastnosti mají objekty, které jsou daty popisovány. Zpravidla jde o sběr dat o části souboru objektů, jejich následnou analýzu a konečně o vyslovení důsledků pozorování pro celý soubor. Výsledkem práce matematického statistika je sdělení o velkém souboru objektů na základě studia malé (zpravidla náhodně vybrané) části z nich, společně s kvalitativním odhadem věrohodnosti výsledného sdělení. Pravděpodobnost nebo statistika? o«ooo Pravděpodobnost ooooooooooooooooooo Náhodné veličiny oooooooo Podstatou matematické statistiky je pro daná data zjišťovat, jaké vlastnosti mají objekty, které jsou daty popisovány. Zpravidla jde o sběr dat o části souboru objektů, jejich následnou analýzu a konečně o vyslovení důsledků pozorování pro celý soubor. Výsledkem práce matematického statistika je sdělení o velkém souboru objektů na základě studia malé (zpravidla náhodně vybrané) části z nich, společně s kvalitativním odhadem věrohodnosti výsledného sdělení. Teorie pravděpodobnosti studuje modely popisující chování abstraktních souborů (pravděpodobnost jevů zjevového pole), statistika studuje skutečné náhodné výběry z nějakého základního souboru a zdůvodňuje výběr teoretického pravděpodobnostního modelu, resp. kvalitativní informace o jeho parametrech. Pravděpodobnost nebo statistika? Pravděpodobnost Náhodné veličiny oo«oo ooooooooooooooooooo oooooooo Příklad Za soubor objektů vezměme všechny studenty přednášky Matematika III (podzim 2007), jako číselný údaj můžeme uvažovat O průměrné bodové hodnocení studenta u zkoušky, a mnoho dalších údajů. Pravděpodobnost nebo statistika? oo«oo Pravděpodobnost ooooooooooooooooooo Náhodné veličiny oooooooo Příklad Za soubor objektů vezměme všechny studenty přednášky Matematika III (podzim 2007), jako číselný údaj můžeme uvažovat O průměrné bodové hodnocení studenta u zkoušky, q průměrnou známku u zkoušky z tohoto (2,92 ) a z jiných pevně vybraných předmětů (IB000 - 2,95; IB102 - 2,89) , a mnoho dalších údajů. Pravděpodobnost nebo statistika? oo«oo Pravděpodobnost ooooooooooooooooooo Náhodné veličiny oooooooo Příklad Za soubor objektů vezměme všechny studenty přednášky Matematika III (podzim 2007), jako číselný údaj můžeme uvažovat O průměrné bodové hodnocení studenta u zkoušky, q průměrnou známku u zkoušky z tohoto (2,92 ) a z jiných pevně vybraných předmětů (IB000 - 2,95; IB102 - 2,89) , O nejčastější známku (resp. úspěšnou známku) z tohoto předmětu (F - 92 krát, E - 91 krát), nejméně častou známku (B - 15 krát), a mnoho dalších údajů. Pravděpodobnost nebo statistika? oo«oo Pravděpodobnost ooooooooooooooooooo Náhodné veličiny oooooooo Příklad Za soubor objektů vezměme všechny studenty přednášky Matematika III (podzim 2007), jako číselný údaj můžeme uvažovat O průměrné bodové hodnocení studenta u zkoušky, q průměrnou známku u zkoušky z tohoto (2,92 ) a z jiných pevně vybraných předmětů (IB000 - 2,95; IB102 - 2,89) , O nejčastější známku (resp. úspěšnou známku) z tohoto předmětu (F - 92 krát, E - 91 krát), nejméně častou známku (B - 15 krát), O průměrný počet bodů dosažených na jednotlivých termínech zkoušky (1. - 16,8; 2. - 8,9; 3. - 8,1; příklad, za nějž bylo uděleno nejvíce (nejméně) procent možných bodů - min. kostra (1B, 82,5%), resp. rekurence (2A, 3,6%) a mnoho dalších údajů. Pravděpodobnost nebo statistika? oo«oo Pravděpodobnost ooooooooooooooooooo Náhodné veličiny oooooooo Příklad Za soubor objektů vezměme všechny studenty přednášky Matematika III (podzim 2007), jako číselný údaj můžeme uvažovat O průměrné bodové hodnocení studenta u zkoušky, q průměrnou známku u zkoušky z tohoto (2,92 ) a z jiných pevně vybraných předmětů (IB000 - 2,95; IB102 - 2,89) , O nejčastější známku (resp. úspěšnou známku) z tohoto předmětu (F - 92 krát, E - 91 krát), nejméně častou známku (B - 15 krát), O průměrný počet bodů dosažených na jednotlivých termínech zkoušky (1. - 16,8; 2. - 8,9; 3. - 8,1; příklad, za nějž bylo uděleno nejvíce (nejméně) procent možných bodů - min. kostra (1B, 82,5%), resp. rekurence (2A, 3,6%) O počet pracovních hodin týdně odpracovaných mimo fakultu, a mnoho dalších údajů. Pravděpodobnost nebo statistika? oo«oo Pravděpodobnost ooooooooooooooooooo Náhodné veličiny oooooooo Příklad Za soubor objektů vezměme všechny studenty přednášky Matematika III (podzim 2007), jako číselný údaj můžeme uvažovat O průměrné bodové hodnocení studenta u zkoušky, q průměrnou známku u zkoušky z tohoto (2,92 ) a z jiných pevně vybraných předmětů (IB000 - 2,95; IB102 - 2,89) , O nejčastější známku (resp. úspěšnou známku) z tohoto předmětu (F - 92 krát, E - 91 krát), nejméně častou známku (B - 15 krát), O průměrný počet bodů dosažených na jednotlivých termínech zkoušky (1. - 16,8; 2. - 8,9; 3. - 8,1; příklad, za nějž bylo uděleno nejvíce (nejméně) procent možných bodů - min. kostra (1B, 82,5%), resp. rekurence (2A, 3,6%) O počet pracovních hodin týdně odpracovaných mimo fakultu, O číselná data vypovídající o historii dřívějšího studia a mnoho dalších údajů. Pravděpodobnost nebo statistika? ooo«o Pravděpodobnost ooooooooooooooooooo Náhodné veličiny oooooooo Zastavme se u prvního údaje. Samotný aritmetický průměr bodů nám mnoho neřekne nejen o kvalitě přednášky a o kvalitě přednášejícího, ale ani o samotném hodnocení. Zajímá nás také hodnota, která bude „uprostřed souboru", tj. počet bodů, pro které je stejně studentů pod ní a nad ní. Obdobně první a poslední čtvrtina, desetina apod. Všem takovým údajům říkáme statistiky posuzované veličiny. V uvedených příkladech se jim říká medián, kvartil, decil apod. Pravděpodobnost nebo statistika? ooo«o Pravděpodobnost ooooooooooooooooooo Náhodné veličiny oooooooo Zastavme se u prvního údaje. Samotný aritmetický průměr bodů nám mnoho neřekne nejen o kvalitě přednášky a o kvalitě přednášejícího, ale ani o samotném hodnocení. Zajímá nás také hodnota, která bude „uprostřed souboru", tj. počet bodů, pro které je stejně studentů pod ní a nad ní. Obdobně první a poslední čtvrtina, desetina apod. Všem takovým údajům říkáme statistiky posuzované veličiny. V uvedených příkladech se jim říká medián, kvartil, decil apod. Z obecné zkušenosti nebo jako výsledek úvah mimo matematiku víme, že rozumné hodnocení by mělo mít tzv. normální rozdělení (odpovídá tzv. Gaussově křivce). Tento pojem patří do teorie pravděpodobnosti a k jeho zavedení budeme potřebovat poměrně dost matematiky. Pravděpodobnost nebo statistika? ooo«o Pravděpodobnost ooooooooooooooooooo Náhodné veličiny oooooooo Zastavme se u prvního údaje. Samotný aritmetický průměr bodů nám mnoho neřekne nejen o kvalitě přednášky a o kvalitě přednášejícího, ale ani o samotném hodnocení. Zajímá nás také hodnota, která bude „uprostřed souboru", tj. počet bodů, pro které je stejně studentů pod ní a nad ní. Obdobně první a poslední čtvrtina, desetina apod. Všem takovým údajům říkáme statistiky posuzované veličiny. V uvedených příkladech se jim říká medián, kvartil, decil apod. Z obecné zkušenosti nebo jako výsledek úvah mimo matematiku víme, že rozumné hodnocení by mělo mít tzv. normální rozdělení (odpovídá tzv. Gaussově křivce). Tento pojem patří do teorie pravděpodobnosti a k jeho zavedení budeme potřebovat poměrně dost matematiky. Porovnáním výsledku třeba i docela malého náhodného výběru studentů s teoretickým modelem můžeme zjistit odhad parametrů takového rozdělení a činit závěry, zda je hodnocení „rozumné". Zároveň lze popsat věrohodnost našich závěrů. Pravděpodobnost nebo statistika? oooo» Pravděpodobnost ooooooooooooooooooo Náhodné veličiny oooooooo Daleko zajímavější vývody ovšem můžeme činit, když porovnáním statistik pro různé veličiny budeme moci dovozovat informace o souvislostech. Pokud např. neexistuje žádná doložitelná souvislost mezi historií předchozího studia a výsledky v dané přednášce, je jedním z možných vysvětlení vývod, že je přednáška (nebo její hodnocení) prostě špatná. Pravděpodobnost nebo statistika? oooo» Pravděpodobnost ooooooooooooooooooo Náhodné veličiny oooooooo Daleko zajímavější vývody ovšem můžeme činit, když porovnáním statistik pro různé veličiny budeme moci dovozovat informace o souvislostech. Pokud např. neexistuje žádná doložitelná souvislost mezi historií předchozího studia a výsledky v dané přednášce, je jedním z možných vysvětlení vývod, že je přednáška (nebo její hodnocení) prostě špatná. Závěr úvodních úvah: • V matematice pracujeme s abstraktním matematickým popisem pravděpodobnosti. • Vývody pro konktrétní soubory dat, pro které je zvolený model relevantní, dává matematická statistika. • To, zda je takový popis adekvátní pro konkrétní výběr dat, je také možné podpořit nebo zavrhnout pomocí metod matematické statistiky. Pravděpodobnost nebo statistika? Pravděpodobnost Náhodné veličiny ooooo ooooooooooooooooooo oooooooo Plán přednášky £ Pravděpodobnost Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost •oooooooooooooooooo Náhodné veličiny oooooooo Připomeneme (a trochu zobecníme) pojmy a výsledky z prvního semestru. Definice (Náhodné jevy) Budeme pracovat s neprázdnou pevně zvolenou množinou Q všech možných výsledků, kterou nazýváme základní prostor. Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost •oooooooooooooooooo Náhodné veličiny oooooooo Připomeneme (a trochu zobecníme) pojmy a výsledky z prvního semestru. Definice (Náhodné jevy) Budeme pracovat s neprázdnou pevně zvolenou množinou Q všech možných výsledků, kterou nazýváme základní prostor. Prvky u G Q představují jednotlivé možné výsledky. Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost •oooooooooooooooooo Náhodné veličiny oooooooo Připomeneme (a trochu zobecníme) pojmy a výsledky z prvního semestru. Definice (Náhodné jevy) Budeme pracovat s neprázdnou pevně zvolenou množinou Q všech možných výsledků, kterou nazýváme základní prostor. Prvky u G Q představují jednotlivé možné výsledky. Systém podmnožin A základního prostoru se nazývá jevové pole a jeho prvky se nazývají jevy, jestliže • Q G A, tj. základní prostor, je jevem, • je-li A, B E A, pak A \ B G A, tj. pro každé dva jevy je jevem i jejich množinový rozdíl, • je-li A j G A, i G / nejvýše spočetný systém jevů, pak také jejich sjednocení je jevem, tj. U,-e/>4; S A. Pravděpodobnost nebo statistika? Pravděpodobnost Náhodné veličiny OOOOO o»ooooooooooooooooo oooooooo Důsledek • Komplement Ac = Q \ A jevu A je jevem, který nazýváme opačný jev kjevu A. Pravděpodobnost nebo statistika? Pravděpodobnost Náhodné veličiny OOOOO o»ooooooooooooooooo oooooooo Důsledek • Komplement Ac = Q \ A jevu A je jevem, který nazýváme opačný jev k jevu A. • Průnik dvou jevů opět jevem, protože pro každé dvě podmnožiny A, B C Q platí A\(Q\B) = AnB. Takový systém množin A se pak nazývá cr-algebra. Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost o»ooooooooooooooooo Náhodné veličiny oooooooo Důsledek • Komplement Ac = Q \ A jevu A je jevem, který nazýváme opačný jev k jevu A. • Průnik dvou jevů opět jevem, protože pro každé dvě podmnožiny A, B C Q platí A\(Q\B) = AnB. Takový systém množin A se pak nazývá cr-algebra. Jevové poleje tedy systém podmnožin základního prostoru uzavřený na konečné průniky, spočetná sjednocení a množinové rozdíly. Jednotlivé množiny A G A nazýváme náhodné jevy (vzhledem k .4). Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost oo«oooooooooooooooo Náhodné veličiny oooooooo Terminologie připomíná souvislosti s popisem skutečných jevů a jejich statistickým popisem: • celý základní prostor Q se nazývá jistý jev, prázdná podmnožina 0 G A se nazývá nemožný jev, Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost oo«oooooooooooooooo Náhodné veličiny oooooooo Terminologie připomíná souvislosti s popisem skutečných jevů a jejich statistickým popisem: • celý základní prostor Q se nazývá jistý jev, prázdná podmnožina 0 e A se nazývá nemožný jev, • jednoprvkové podmnožiny {w} G Q se nazývají elementární jevy, Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost oo«oooooooooooooooo Náhodné veličiny oooooooo Terminologie připomíná souvislosti s popisem skutečných jevů a jejich statistickým popisem: • celý základní prostor Q se nazývá jistý jev, prázdná podmnožina 0 e A se nazývá nemožný jev, • jednoprvkové podmnožiny {w} G Q se nazývají elementární jevy, • společné nastoupení jevů A,, i e /, odpovídá jevu n,e/A', nastoupení alespoň jednoho z jevů A,, i e /, odpovídá jevu U/e/A, Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost oo«oooooooooooooooo Náhodné veličiny oooooooo Terminologie připomíná souvislosti s popisem skutečných jevů a jejich statistickým popisem: • celý základní prostor Q se nazývá jistý jev, prázdná podmnožina 0 g A se nazývá nemožný jev, • jednoprvkové podmnožiny {w} g Q se nazývají elementární jevy, • společné nastoupení jevů A,, i g /, odpovídá jevu n,e/4/, nastoupení alespoň jednoho z jevů A,, i e /, odpovídá jevu U/e/A, • A, B g A jsou neslučitelné jevy, je-li A n B = 0, Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost oo«oooooooooooooooo Náhodné veličiny oooooooo Terminologie připomíná souvislosti s popisem skutečných jevů a jejich statistickým popisem: • celý základní prostor Q se nazývá jistý jev, prázdná podmnožina 0 g A se nazývá nemožný jev, • jednoprvkové podmnožiny {w} g Q se nazývají elementární jevy, • společné nastoupení jevů A,, i g /, odpovídá jevu n,e/4/, nastoupení alespoň jednoho z jevů A,, i g /, odpovídá jevu U/e/A, • A, B g A jsou neslučitelné jevy, je-li A n B = 0, • jev 4 má za důsledek jev 6, když A c 6, Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost oo«oooooooooooooooo Náhodné veličiny oooooooo Terminologie připomíná souvislosti s popisem skutečných jevů a jejich statistickým popisem: • celý základní prostor Q se nazývá jistý jev, prázdná podmnožina 0 g A se nazývá nemožný jev, • jednoprvkové podmnožiny {w} g Q se nazývají elementární jevy, • společné nastoupení jevů A,, i g /, odpovídá jevu n,e/4/, nastoupení alespoň jednoho z jevů A,, i g /, odpovídá jevu U/e/A, • A, B g A jsou neslučitelné jevy, je-li A n B = 0, • jev A má za důsledek jev 6, když A c B, • je-li A g A, pak se jev B = Q \ A nazývá opačný jev k jevu A, píšeme B = Ac. Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost ooo«ooooooooooooooo Náhodné veličiny oooooooo Definice (Kolmogorovova definice pravděpodobnosti) Pravděpodobnostní prostor je jevové pole A podmnožin (konečného) základního prostoru Q, na kterém je definována funkce P : A —> R s následujícími vlastnosti: • je nezáporná, tj. P(A) > 0 pro všechny jevy A, • je aditivní, tj. P(U;e/A) = J2í^i ^(A')> Pro každý nejvýše spočetný systém po dvou neslučitelných jevů, • pravděpodobnost jistého jevu je 1. Funkci P nazýváme pravděpodobností na jevovém poli (Q,„4). Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost ooo«ooooooooooooooo Náhodné veličiny oooooooo Definice (Kolmogorovova definice pravděpodobnosti) Pravděpodobnostní prostor je jevové pole A podmnožin (konečného) základního prostoru Q, na kterém je definována funkce P : A —> R s následujícími vlastnosti: • je nezáporná, tj. P(A) > 0 pro všechny jevy A, • je aditivní, tj. P(U;e/A) = S/e/ ^(A')> Pro každý nejvýše spočetný systém po dvou neslučitelných jevů, • pravděpodobnost jistého jevu je 1. Funkci P nazýváme pravděpodobností na jevovém poli (Q, A). Důsledek Pro všechny jevy A, B e A platí 9 P(0) = 0, 0 < P(A) < 1, Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost ooo«ooooooooooooooo Náhodné veličiny oooooooo Definice (Kolmogorovova definice pravděpodobnosti) Pravděpodobnostní prostor je jevové pole A podmnožin (konečného) základního prostoru Q, na kterém je definována funkce P : A —> R s následujícími vlastnosti: • je nezáporná, tj. P(A) > 0 pro všechny jevy A, • je aditivní, tj. P(U;e/A) = J2í^i ^(A')> Pro každý nejvýše spočetný systém po dvou neslučitelných jevů, • pravděpodobnost jistého jevu je 1. Funkci P nazýváme pravděpodobností na jevovém poli (Q,„4). Důsledek Pro všechny jevy A, B e A platí 9 P(0) = 0, 0 < P(A) < 1, • P{AC) = 1 - P{A), 00. o Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost ooo«ooooooooooooooo Náhodné veličiny oooooooo Definice (Kolmogorovova definice pravděpodobnosti) Pravděpodobnostní prostor je jevové pole A podmnožin (konečného) základního prostoru Q, na kterém je definována funkce P : A —> R s následujícími vlastnosti: • je nezáporná, tj. P(A) > 0 pro všechny jevy A, • je aditivní, tj. P(U,e/A) = S/e/ P(A')> Pro každý nejvýše spočetný systém po dvou neslučitelných jevů, • pravděpodobnost jistého jevu je 1. Funkci P nazýváme pravděpodobností na jevovém poli (Q, A). Důsledek Pro všechny jevy A, B e A platí 9 P(0) = 0, 0 < P(A) < 1, • P{AC) = 1 - P{A), • ACB P{A) < P{B), P{B \ A) P{B) - P(A), Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost ooo«ooooooooooooooo Náhodné veličiny oooooooo Definice (Kolmogorovova definice pravděpodobnosti) Pravděpodobnostní prostor je jevové pole A podmnožin (konečného) základního prostoru Q, na kterém je definována funkce P : A —> R s následujícími vlastnosti: • je nezáporná, tj. P(A) > 0 pro všechny jevy A, • je aditivní, tj. P(U,e/A) = J2í^i P(A)> Pro každý nejvýše spočetný systém po dvou neslučitelných jevů, • pravděpodobnost jistého jevu je 1. Funkci P nazýváme pravděpodobností na jevovém poli (Q, A). *-' Důsledek Pro všechny jevy A, B i - - - P(A)). Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost ooooo«ooooooooooooo Náhodné veličiny oooooooo Klasická pravděpodobnost Připomeňme si klasickou konečnou pravděpodobnost. Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost ooooo«ooooooooooooo Náhodné veličiny oooooooo Klasická pravděpodobnost Připomeňme si klasickou konečnou pravděpodobnost. Definice Nechť Q je konečný základní prostor a nechť jevové pole A je právě systém všech podmnožin v Q. Klasická pravděpodobnost je pravděpodobnostní prostor (Q, A, P) s pravděpodobnostní funkcí P : A ->■ M, _™ = W_ Zjevně takto zadaná funkce skutečně definuje pravděpodobnost, kdy všem elementárním jevům přiřazujeme stejnou pravděpodobnost. Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost oooooo»oooooooooooo Náhodné veličiny oooooooo Že s klasickou pravděpodobností nevystačíme, ukazují následující příklady: Příklad • Cestou z Kotlářské na Botanickou jsem ztratil zadání písemky. Určete pravděpodobnost jevu ujx slovně vyjádřeného: ztracená písemka se nachází nejblíže k zastávce trolejbusu X. Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost oooooo»oooooooooooo Náhodné veličiny oooooooo Že s klasickou pravděpodobností nevystačíme, ukazují následující příklady: Příklad o Cestou z Kotlářské na Botanickou jsem ztratil zadání písemky. Určete pravděpodobnost jevu ujx slovně vyjádřeného: ztracená písemka se nachází nejblíže k zastávce trolejbusu X. a Určete pravděpodobnost, jevu uik- při opakovaném hodu mincí padne hlava poprvé při k-tém pokusu. Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost oooooo»oooooooooooo Náhodné veličiny oooooooo Že s klasickou pravděpodobností nevystačíme, ukazují následující příklady: Příklad o Cestou z Kotlářské na Botanickou jsem ztratil zadání písemky. Určete pravděpodobnost jevu ujx slovně vyjádřeného: ztracená písemka se nachází nejblíže k zastávce trolejbusu X. a Určete pravděpodobnost, jevu uik- při opakovaném hodu mincí padne hlava poprvé při k-tém pokusu. Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost oooooo»oooooooooooo Náhodné veličiny oooooooo Že s klasickou pravděpodobností nevystačíme, ukazují následující příklady: Příklad • Cestou z Kotlářské na Botanickou jsem ztratil zadání písemky. Určete pravděpodobnost jevu ujx slovně vyjádřeného: ztracená písemka se nachází nejblíže k zastávce trolejbusu X. • Určete pravděpodobnost, jevu uik- při opakovaném hodu mincí padne hlava poprvé při k-tém pokusu. V prvním případě je třeba pracovat s nekonečně mnoha stejně pravděpodobnými elementárními jevy: písemku jsem ztratil v bodě (x,y) , ve druhém pak musíme připustit teoretickou možnost, že hlava nepadne nikdy, a prostorem jevů tedy bude N U {oo}. Pravděpodobnost nebo statistika? Pravděpodobnost Náhodné veličiny ooooo ooooooo«ooooooooooo oooooooo Peterburgský paradox" (Bernoulli, 1738) Typický příklad klasické pravděpodobnosti jsou jevy související s házením mincí. Představme si následující pravidla kasina: Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost ooooooo«ooooooooooo Peterburgský paradox" (Bernoulli, 1738) Náhodné veličiny oooooooo Typický příklad klasické pravděpodobnosti jsou jevy související s házením mincí. Představme si následující pravidla kasina: Casino rules Návštěvník zaplatí vklad C a poté hází mincí. V banku je na začátku dolar a při každém hodu se bank zdvojnásobí. Padne-li hlava, hráč získá obsah banku. Je-li tedy T počet hodů potřebných k první hlavě, hráč obdrží výhru 2T. Jaká je „fér hodnota" pro vklad Cl Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost ooooooo«ooooooooooo Peterburgský paradox" (Bernoulli, 1738) Náhodné veličiny oooooooo Typický příklad klasické pravděpodobnosti jsou jevy související s házením mincí. Představme si následující pravidla kasina: Casino rules Návštěvník zaplatí vklad C a poté hází mincí. V banku je na začátku dolar a při každém hodu se bank zdvojnásobí. Padne-li hlava, hráč získá obsah banku. Je-li tedy T počet hodů potřebných k první hlavě, hráč obdrží výhru 2T. Jaká je „fér hodnota" pro vklad Cl_ A co vy? Zaplatili byste za možnost zahrát si tuto hru třeba 20$? Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost oooooooo»oooooooooo Náhodné veličiny oooooooo Odvození Pravděpodobnost, že padne hlava je u férové mince 1/2, je proto P{T = k) = 2~k. Sečteme-li všechny pravděpodobnosti výsledků vynásobených výhrami 2k, dostaneme očekávanou výhru 1 1 °° i.2+i.2' + ... = £l = °=. 1 Zdá se proto, že se vyplatí vložit i velký vklad, protože libovolný vklad C se nám „časem" vrátí. Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost oooooooo»oooooooooo Náhodné veličiny oooooooo Pravděpodobnost, že padne hlava je u férové mince 1/2, je proto P{T = k) = 2~k. Sečteme-li všechny pravděpodobnosti výsledků vynásobených výhrami 2k, dostaneme očekávanou výhru Zdá se proto, že se vyplatí vložit i velký vklad, protože libovolný vklad C se nám „časem" vrátí. Ve skutečnosti simulací hry zjistíme, že nezávisle na počtu pokusů se prakticky všechny výhry budou pohybovat v rozmezí malých hodnot. Důvodem je, že vysoké výhry jsou velice nepravděpodobné a proto je při reálných úvahách nelze brát vážně. i Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost oooooooo»oooooooooo Náhodné veličiny oooooooo Pravděpodobnost, že padne hlava je u férové mince 1/2, je proto P{T = k) = 2~k. Sečteme-li všechny pravděpodobnosti výsledků vynásobených výhrami 2k, dostaneme očekávanou výhru Zdá se proto, že se vyplatí vložit i velký vklad, protože libovolný vklad C se nám „časem" vrátí. Ve skutečnosti simulací hry zjistíme, že nezávisle na počtu pokusů se prakticky všechny výhry budou pohybovat v rozmezí malých hodnot. Důvodem je, že vysoké výhry jsou velice nepravděpodobné a proto je při reálných úvahách nelze brát vážně. Tento paradox je vysvětlován nelinearitou funkce užitečnosti peněz (utility function), případně nezbytností diskontovaní jejich hodnoty. i Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost ooooooooo«ooooooooo Náhodné veličiny oooooooo Podmíněná pravděpodobnost a nezávislost Je dokázáno, že slavení narozenin je zdraví prospěšné. Statistika ukazuje, že lidé, kteří oslavili nejvíce narozenin, se dožívají nejvyššího věku. Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost ooooooooo«ooooooooo Náhodné veličiny oooooooo Podmíněná pravděpodobnost a nezávislost Je dokázáno, že slavení narozenin je zdraví prospěšné. Statistika ukazuje, že lidé, kteří oslavili nejvíce narozenin, se dožívají nejvyššího věku. Obvyklé je také klást dotazy s dodatečnou podmínkou. Např. • Jaká je pravděpodobnost, že při hodu dvěma kostkami padly dvě pětky, je-li součet hodnot deset? Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost ooooooooo«ooooooooo Náhodné veličiny oooooooo Podmíněná pravděpodobnost a nezávislost Je dokázáno, že slavení narozenin je zdraví prospěšné. Statistika ukazuje, že lidé, kteří oslavili nejvíce narozenin, se dožívají nejvyššího věku. Obvyklé je také klást dotazy s dodatečnou podmínkou. Např. • Jaká je pravděpodobnost, že při hodu dvěma kostkami padly dvě pětky, je-li součet hodnot deset? • Mějme urnu s 10 koulemi. Desetkrát jsem vytáhl kouli, zkontroloval její barvu a vrátil do urny. Jestliže byla vždy bílé barvy, s jakou pravděpodobností jsou všechny koule v urně bílé? Pravděpodobnost nebo statistika? Pravděpodobnost Náhodné veličiny ooooo ooooooooo«ooooooooo oooooooo Podmíněná pravděpodobnost a nezávislost Je dokázáno, že slavení narozenin je zdraví prospěšné. Statistika ukazuje, že lidé, kteří oslavili nejvíce narozenin, se dožívají nejvyššího věku. Obvyklé je také klást dotazy s dodatečnou podmínkou. Např. • Jaká je pravděpodobnost, že při hodu dvěma kostkami padly dvě pětky, je-li součet hodnot deset? • Mějme urnu s 10 koulemi. Desetkrát jsem vytáhl kouli, zkontroloval její barvu a vrátil do urny. Jestliže byla vždy bílé barvy, s jakou pravděpodobností jsou všechny koule v urně bílé? • Na dostizích jsou známy pravděpodobnosti vítězství jednotlivých koní. Jak se tyto pravděpodobnosti změní, pokud uprostřed závodu spadne jezdec jednoho z koní ze sedla? Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost OOOOOOOOOO0OOOOOOOO Náhodné veličiny oooooooo Připomeňme, že formalizovat takové úvahy umíme následovně. Definice Nechť ŕ/je jev s nenulovou pravděpodobností v jevovém poli A v pravděpodobnostním prostoru (Q,A,P). Podmíněná pravděpodobnost P{A\H) jevu A e A vzhledem k jevu H je definována vztahem P{A\H) P(A n H) Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost OOOOOOOOOO0OOOOOOOO Připomeňme, že formalizovat takové úvahy umíme následovně. Definice Nechť ŕ/je jev s nenulovou pravděpodobností v jevovém poli A v pravděpodobnostním prostoru (Q,A,P). Podmíněná pravděpodobnost P{A\H) jevu A e A vzhledem k jevu H je definována vztahem P{A\H) P(A n H) Přirozená definice nezávislosti je, že hypotéza H a jev A jsou nezávislé tehdy, je-li P (A) = P(A\H). Z výše uvedeného snadno vyplývá symetričtější definice: Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost OOOOOOOOOO0OOOOOOOO Náhodné veličiny oooooooo Připomeňme, že formalizovat takové úvahy umíme následovně. Definice Nechť ŕ/je jev s nenulovou pravděpodobností v jevovém poli A v pravděpodobnostním prostoru (Q,A,P). Podmíněná pravděpodobnost P{A\H) jevu A e A vzhledem k jevu H je definována vztahem P{A\H) P(A n H) Přirozená definice nezávislosti je, že hypotéza H a jev A jsou nezávislé tehdy, je-li P (A) = P(A\H). Z výše uvedeného snadno vyplývá symetričtější definice: Definice Říkáme, že jevy A a B jsou nezávislé, jestliže P(AnB) = P(A)P(B). Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost ooooooooooo«ooooooo Náhodné veličiny oooooooo Definice Říkáme, že jevy A, A, .. jsou nezávislé, jestliže pro každou Ar-tici A'i> • " , A'/, z nich platí / ' k \ k P \ ,7=1 / 7=1 Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost ooooooooooo«ooooooo Náhodné veličiny oooooooo Definice Říkáme, že jevy A\,A2, .. jsou nezávislé, jestliže pro každou Ar-tici A'i> • " , Ajk z nich platí / ' k \ k P \ ,7=1 / 7=1 Příklad V urně jsou 4 lístky označené 000, 110, 101, 011. Uvažujme pro / = 1, 2, 3 náhodné jevy A; = {náhodně vytažený lístek má na /-tém místě 1}. Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost ooooooooooo«ooooooo Náhodné veličiny oooooooo Definice Říkáme, že jevy A, A, .. jsou nezávislé, jestliže pro každou Ar-tici A'i> • " , Ajk z nich platí / ' k \ k P Ha =nw- \ J=l ) 7=1 Příklad V urně jsou 4 lístky označené 000, 110, 101, 011. Uvažujme pro / = 1, 2, 3 náhodné jevy A; = {náhodně vytažený lístek má na /-tém místě 1}. Snadno se vidí, že P(A) = P(A) = P(A) = \, dále, že P{Ai n A) = P{Ai n A) = P(A n A) = \ a že P(A n A n A) = 0. Pravděpodobnost nebo statistika? Pravděpodobnost Náhodné veličiny OOOOO ooooooooooo«ooooooo oooooooo Definice Říkáme, že jevy A, A, .. jsou nezávislé, jestliže pro každou Ar-tici A'i> • " , Ajk z nich platí / ' k \ k P Ha =nw- \ J=l ) 7=1 Příklad V urně jsou 4 lístky označené 000, 110, 101, 011. Uvažujme pro / = 1, 2, 3 náhodné jevy A; = {náhodně vytažený lístek má na /-tém místě 1}. Snadno se vidí, že P(A) = P(A) = P(A3) = \, dále, že P{Ai n A) = P{Ai n A) = P(A n A) = \ a že P{A\ n A n A) = 0. Jevy A, A, A jsou tedy po dvou nezávislé, ale nejsou nezávislé. Pravděpodobnost nebo statistika? Pravděpodobnost Náhodné veličiny OOOOO OOOOOOOOOOOO0OOOOOO oooooooo Bayesovy věty Přepsáním formule pro podmíněnou pravděpodobnost dostáváme P(AnB) = P(BnA) = P{A)P{B\A) = P{B)P{A\B). Věta (Bayesovy věty) Pro pravděpodobnost jevů A a B platí O P{A\B) = q P(A\B)- _P(A)P(B\A)_ Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost OOOOOOOOOOOO0OOOOOO Náhodné veličiny oooooooo Bayesovy věty Přepsáním formule pro podmíněnou pravděpodobnost dostáváme P(AnB) = P(BnA) = P{A)P{B\A) = P{B)P{A\B). Věta (Bayesovy věty) Pro pravděpodobnost jevů A a B platí O P{A\B) = q P(A\B)- _P(A)P(B\A)_ Důkaz. První tvrzení je přepsáním předchozí formule, druhé z prvého plyne dosazením P{B) = P{A)P{B\A) + P{AC)P{B\AC). □ Pravděpodobnost ooooooooooooo«ooooo Pravděpodobnost nebo statistika? OOOOO Specifičnost a senzitivita (citlivost) testu Náhodné veličiny oooooooo Pozitivní skutečnost Negativní skutečnost Test pozitivní True positive Falše positive Test negativní Falše negative True negative Senzitivita Specifičnost Pravděpodobnost nebo statistika? Pravděpodobnost Náhodné veličiny ooooo oooooooooooooo»oooo oooooooo Příklad - preventivní screening Předpokládejme, že krevní test na HIV pozitivní osoby má 99% správnost v případě osoby skutečně HIV pozitivní (vysoká citilivost -sensitivity). Zároveň předpokládejme, že u HIV negativní osoby dopadne test pozitivně v 0,2% případů (relativně vysoká specifičnost - specificity). Pravděpodobnost nebo statistika? Pravděpodobnost Náhodné veličiny ooooo oooooooooooooo»oooo oooooooo Příklad - preventivní screening Předpokládejme, že krevní test na HIV pozitivní osoby má 99% správnost v případě osoby skutečně HIV pozitivní (vysoká citilivost -sensitivity). Zároveň předpokládejme, že u HIV negativní osoby dopadne test pozitivně v 0,2% případů (relativně vysoká specifičnost - spécificity). Náhodně z populace vybereme osobu a otestujeme pozitivně. S jakou pravděpodobností je skutečně HIV pozitivní, jestliže četnost výskytu HIV v populaci je p promile (tj. p osob z tisíce je skutečně HIV pozitivní). Pravděpodobnost nebo statistika? Pravděpodobnost Náhodné veličiny ooooo oooooooooooooo»oooo oooooooo Příklad - preventivní screening Předpokládejme, že krevní test na HIV pozitivní osoby má 99% správnost v případě osoby skutečně HIV pozitivní (vysoká citilivost -sensitivity). Zároveň předpokládejme, že u HIV negativní osoby dopadne test pozitivně v 0,2% případů (relativně vysoká specifičnost - specificity). Náhodně z populace vybereme osobu a otestujeme pozitivně. S jakou pravděpodobností je skutečně HIV pozitivní, jestliže četnost výskytu HIV v populaci je p promile (tj. p osob z tisíce je skutečně HIV pozitivní). Označme A jev, že je daná osoba HIV pozitivní, a B jev, že daná osoba má pozitivní test. Dle druhé Bayesovy věty je hledaná pravděpodobnost P(A\B)- p/1000-99/100 p/1000 • 99/100 + (1000 - p)/1000 • 2/1000 Pravděpodobnost nebo statistika? Pravděpodobnost Náhodné veličiny ooooo ooooooooooooooo«ooo oooooooo Příklad - preventivní screening, pokr. Jestliže zvolíme za p nějaké konkrétní četnosti, dostaneme příslušné očekávatelné spolehlivosti testu. V následující tabulce je spočten výsledek pro několik p: p 100 10 1 0,1 P(A\B) 0,982 0,8333 0,3313 0,0471 Výsledek asi neodpovídá naší intuici a může se zdát šokující ve vztahu k použití takovýchto testů. Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost ooooooooooooooo«ooo Náhodné veličiny oooooooo Příklad - preventivní screening, pokr. Jestliže zvolíme za p nějaké konkrétní četnosti, dostaneme příslušné očekávatelné spolehlivosti testu. V následující tabulce je spočten výsledek pro několik p: p 100 10 1 0,1 P(A\B) 0,982 0,8333 0,3313 0,0471 Výsledek asi neodpovídá naší intuici a může se zdát šokující ve vztahu k použití takovýchto testů. Poznámka Sami si můžete podobný výpočet udělat pro tzv. triple test na Downův syndrom, prováděný ve 2. trimestru těhotenství s 70% citlivostí a 5% „false-positive rate" či pro statistiky svého oblíbeného spamfilteru (např. SpamAssassin s někde udávanou citlivostí 99,64% a specifičností 98.23%). Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost 0000000000000000*00 Náhodné veličiny oooooooo Triple test a jeho výsledky Triple test je vyšetření krevního séra na hodnoty choriogonadotropinu, estriolu a alfa-fetoproteinu. Provádí se v druhém trimestru těhotenství a má sloužit k detekci rizik genetických poruch a poruch vývoje nervové trubice. Detekuje poruchy s úspěšností 70% a naopak 5% zdravých případů rozpozná jako porušené. Budoucím matkám, u kterých triple test ukáže zvýšené riziko vad plodu, je obvykle doporučeno nějaké další zpřesňující vyšetření, například amniocentéza (odběr plodové vody). Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost 0000000000000000*00 Náhodné veličiny oooooooo Triple test a jeho výsledky Triple test je vyšetření krevního séra na hodnoty choriogonadotropinu, estriolu a alfa-fetoproteinu. Provádí se v druhém trimestru těhotenství a má sloužit k detekci rizik genetických poruch a poruch vývoje nervové trubice. Detekuje poruchy s úspěšností 70% a naopak 5% zdravých případů rozpozná jako porušené. Budoucím matkám, u kterých triple test ukáže zvýšené riziko vad plodu, je obvykle doporučeno nějaké další zpřesňující vyšetření, například amniocentéza (odběr plodové vody). Uvádí se, že u těhotné ženy ve věku 20-24 let je pravděpodobnost narození dítěte s Downovým syndromem cca 1:1500, u těhotné ženy ve věku 35-39 let je pravděpodobnost narození dítěte s Downovým syndromem cca 1:200. Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost 0000000000000000*00 Náhodné veličiny oooooooo Triple test a jeho výsledky Triple test je vyšetření krevního séra na hodnoty choriogonadotropinu, estriolu a alfa-fetoproteinu. Provádí se v druhém trimestru těhotenství a má sloužit k detekci rizik genetických poruch a poruch vývoje nervové trubice. Detekuje poruchy s úspěšností 70% a naopak 5% zdravých případů rozpozná jako porušené. Budoucím matkám, u kterých triple test ukáže zvýšené riziko vad plodu, je obvykle doporučeno nějaké další zpřesňující vyšetření, například amniocentéza (odběr plodové vody). Uvádí se, že u těhotné ženy ve věku 20-24 let je pravděpodobnost narození dítěte s Downovým syndromem cca 1:1500, u těhotné ženy ve věku 35-39 let je pravděpodobnost narození dítěte s Downovým syndromem cca 1:200. Prozkoumejme (alespoň z matematického hlediska) význam provádění tohoto testu za uvedených předpokladů, kdy se rodí cca 100 tis. dětí ročně, z toho cca 10% ženám ve věku 35-39 let a cca 12% ženám ve věku 20-24 let. Pravděpodobnost ooooooooooooooooo«o Pravděpodobnost nebo statistika? OOOOO Specifičnost a senzitivita (citlivost) testu Náhodné veličiny oooooooo Triple test Pozitivní skutečnost Negativní skutečnost Test pozitivní 70% 5% Test negativní 30% 95% Senzitivita Specifičnost Pravděpodobnost ooooooooooooooooo«o Pravděpodobnost nebo statistika? OOOOO Specifičnost a senzitivita (citlivost) testu Náhodné veličiny oooooooo Triple test Pozitivní skutečnost Negativní skutečnost Test pozitivní 70% 5% Test negativní 30% 95% Senzitivita Specifičnost Za dříve uvedených předpokladů snadno vypočteme, že pravděpodobnost, že dítě „starší" matky bude skutečně postiženo Downovým syndromem, pokud vyšel pozitivní test, je pouhých cca 6,6%. U mladých žen se pak tato pravděpodobnost pohybuje kolem 0,9% a je tedy na zváženou, zda toto plošné testování v dané věkové skupině provádět, pokud navíc uváděné riziko potratu při případné amniocentéze se rovněž pohybuje kolem jednoho promile. Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost 000000000000000000« Náhodné veličiny oooooooo Evidentně prostý výběr náhodné osoby a použití jediného testu, byť velmi citlivého a specifického, nejsou vhodné ani na otestování skutečného stavu populace, ani na preventivní vyšetření jednotlivců, pokud nemáme další podpůrné informace a lepší nástroje. Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost 000000000000000000« Náhodné veličiny oooooooo Evidentně prostý výběr náhodné osoby a použití jediného testu, byť velmi citlivého a specifického, nejsou vhodné ani na otestování skutečného stavu populace, ani na preventivní vyšetření jednotlivců, pokud nemáme další podpůrné informace a lepší nástroje. Právě matematická statistika dává nástroje na kvalifikovanější postupy v medicínské i průmyslové diagnostice, ekonomických modelech, vyhodnocování experimentálních dat atd. Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost ooooooooooooooooooo Náhodné veličiny oooooooo Plán přednášky O Pravděpodobnost Q Náhodné veličiny Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost ooooooooooooooooooo Náhodné veličiny •ooooooo Vratme se k jednoduchému a názornému příkladu statistik kolem výsledků studentů v daném předmětu, který je a není podobný klasické pravděpodobnosti a s ní související statistice při házení kostkou. Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost ooooooooooooooooooo Náhodné veličiny •ooooooo Vratme se k jednoduchému a názornému příkladu statistik kolem výsledků studentů v daném předmětu, který je a není podobný klasické pravděpodobnosti a s ní související statistice při házení kostkou. Na jedné straně jsme připustili pouze konečný počet možných bodových hodnocení (celá čísla od 0 do 30), zároveň ale není patrně vhodné představovat si výsledky jednotlivých studentů jako analogii nezávislého házení kostkou (to by byla skutečně divně vedená přednáška). Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost ooooooooooooooooooo Náhodné veličiny •ooooooo Vratme se k jednoduchému a názornému příkladu statistik kolem výsledků studentů v daném předmětu, který je a není podobný klasické pravděpodobnosti a s ní související statistice při házení kostkou. Na jedné straně jsme připustili pouze konečný počet možných bodových hodnocení (celá čísla od 0 do 30), zároveň ale není patrně vhodné představovat si výsledky jednotlivých studentů jako analogii nezávislého házení kostkou (to by byla skutečně divně vedená přednáška). Místo toho máme na základním prostoru Q všech studentů definovánu funkci bodového ohodnocení X : Q —> R. Je to typický příklad náhodné veličiny. U každé náhodné veličiny potřebujeme umět pracovat s vhodnou množinou jevů. Zpravidla požadujeme, abychom mohli pracovat s pravděpodobnostmi příslušnosti hodnoty X do předem zadaného intervalu. Pravděpodobnost nebo statistika? Pravděpodobnost Náhodné veličiny OOOOO ooooooooooooooooooo o«oooooo Přirozenější interpretací výsledku pokusu je totiž často spise než zjištění, zda náhodný jev nastal či nenastal, nějaká hodnota: • součet bodů na dvou kostkách, Pravděpodobnost nebo statistika? Pravděpodobnost Náhodné veličiny OOOOO ooooooooooooooooooo o«oooooo Přirozenější interpretací výsledku pokusu je totiž často spise než zjištění, zda náhodný jev nastal či nenastal, nějaká hodnota: • součet bodů na dvou kostkách, • počet bakterií v daném množství roztoku nebo Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost ooooooooooooooooooo Náhodné veličiny o«oooooo Přirozenější interpretací výsledku pokusu je totiž často spise než zjištění, zda náhodný jev nastal či nenastal, nějaká hodnota: • součet bodů na dvou kostkách, • počet bakterií v daném množství roztoku nebo • počet studentů, kteří uspěli u zkoušky nebo kteří získali alespoň 5 bodů z konkrétního příkladu. Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost ooooooooooooooooooo Náhodné veličiny o«oooooo Přirozenější interpretací výsledku pokusu je totiž často spise než zjištění, zda náhodný jev nastal či nenastal, nějaká hodnota: • součet bodů na dvou kostkách, • počet bakterií v daném množství roztoku nebo • počet studentů, kteří uspěli u zkoušky nebo kteří získali alespoň 5 bodů z konkrétního příkladu. Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost ooooooooooooooooooo Náhodné veličiny o«oooooo Přirozenější interpretací výsledku pokusu je totiž často spise než zjištění, zda náhodný jev nastal či nenastal, nějaká hodnota: • součet bodů na dvou kostkách, • počet bakterií v daném množství roztoku nebo • počet studentů, kteří uspěli u zkoušky nebo kteří získali alespoň 5 bodů z konkrétního příkladu. Od pravděpodobnostního prostoru (Q, A, P) tedy potřebujeme přejít k obdobné dvojici (R, £>) tak, abychom podmnožinám R, ležícím v cr-algebře B byli schopni přiřadit pravděpodobnost odvozenou z (Q, A, P). Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost ooooooooooooooooooo Náhodné veličiny oo«ooooo Na prostoru R uvažujme nejmenší jevové pole B obsahující všechny /(-rozměrné intervaly. Množinám v B říkáme borelovské množiny (nebo také měřitelné množiny) na Rfc. Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost ooooooooooooooooooo Náhodné veličiny oo«ooooo Na prostoru R uvažujme nejmenší jevové pole B obsahující všechny /(-rozměrné intervaly. Množinám v B říkáme borelovské množiny (nebo také měřitelné množiny) na Rfc. Speciálně pro k = 1 jde o množiny, které obdržíme z intervalů konečnými průniky a nejvýše spočetnými sjednoceními. Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost ooooooooooooooooooo Náhodné veličiny oo«ooooo Na prostoru R uvažujme nejmenší jevové pole B obsahující všechny /(-rozměrné intervaly. Množinám v B říkáme borelovské množiny (nebo také měřitelné množiny) na Rfc. Speciálně pro k = 1 jde o množiny, které obdržíme z intervalů konečnými průniky a nejvýše spočetnými sjednoceními. Definice Náhodná veličina X na pravděpodobnostním prostoru (Q, A, P) je taková funkce X : Q —> R, že vzor X_1(6) patří do A pro každou Borelovskou množinu B G B na R (tj. X : Q —> R je tzv. borelovsky měřitelná). Množinová funkce PX{B) = P{X~\B)) se nazývá rozdělení pravděpodobnosti náhodné veličiny X. Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost ooooooooooooooooooo Náhodné veličiny oo«ooooo Na prostoru R uvažujme nejmenší jevové pole B obsahující všechny /(-rozměrné intervaly. Množinám v B říkáme borelovské množiny (nebo také měřitelné množiny) na Rfc. Speciálně pro k = 1 jde o množiny, které obdržíme z intervalů konečnými průniky a nejvýše spočetnými sjednoceními. Definice Náhodná veličina X na pravděpodobnostním prostoru (Q, A, P) je taková funkce X : Q —> R, že vzor X_1(B) patří do A pro každou Borelovskou množinu B e B na R (tj. X : Q —> R je tzv. borelovsky měřitelná). Množinová funkce PX{B) = P{X~\B)) se nazývá rozdělení pravděpodobnosti náhodné veličiny X. Náhodný vektor (Xi,... ,Xk) na (Q, A, P) je /c-tice náhodných veličin. Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost ooooooooooooooooooo Náhodné veličiny ooo«oooo Definice náhodné veličiny zajišťuje, že pro všechny —oo < a < b < oo existuje pravděpodobnost P(a < X < b), kde používáme stručné značení projev A = (w G Q; a < X(uj) < b)). Definice Distribuční funkcí (distribution, cumulative density function) náhodné veličiny X je funkce F : R —> R definovaná pro všechny x G R vztahem F(x) = P(X < x). Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost ooooooooooooooooooo Náhodné veličiny ooo«oooo Definice náhodné veličiny zajišťuje, že pro všechny —oo < a < b < oo existuje pravděpodobnost P(a < X < b), kde používáme stručné značení projev A = (w G Q; a < X(uj) < b)). Definice Distribuční funkcí (distribution, cumulative density function) náhodné veličiny X je funkce F : R —> R definovaná pro všechny x G R vztahem F(x) = P(X < x). Distribuční funkcí náhodného vektoru (Xi,..., X^) je funkce F : M.k —> R definovaná pro všechny (xi,... ,Xk) G R'' vztahem F(x) = P(Xi < xi A • • • A Xk < xk). Pravděpodobnost nebo statistika? Pravděpodobnost Náhodné veličiny ooooo ooooooooooooooooooo oooo«ooo Diskrétní náhodné veličiny Předpokládejme, že náhodná veličina X na pravděpodobnostním prostoru (Q, A, P) nabývá jen konečně mnoha hodnot xi,x2, ...,x„g1 Pak existuje tzv. pravděpodobnostní funkce f(x) taková, že f(x) Evidentně £"=i f (x,-) x j) pro x = x j jinak. Pravděpodobnost nebo statistika? Pravděpodobnost Náhodné veličiny ooooo ooooooooooooooooooo oooo«ooo Diskrétní náhodné veličiny Předpokládejme, že náhodná veličina X na pravděpodobnostním prostoru (Q, A, P) nabývá jen konečně mnoha hodnot xi,x2, ...,x„g1 Pak existuje tzv. pravděpodobnostní funkce f(x) taková, že f(x) Xj) pro x = xj jinak. Evidentně Y,"=i f(xi) = 1- Takové náhodné veličině se říká diskrétní Pravděpodobnost nebo statistika? Pravděpodobnost Náhodné veličiny ooooo ooooooooooooooooooo oooo«ooo Diskrétní náhodné veličiny Předpokládejme, že náhodná veličina X na pravděpodobnostním prostoru (Q, A, P) nabývá jen konečně mnoha hodnot xi,x2, ...,x„g1 Pak existuje tzv. pravděpodobnostní funkce f(x) taková, že f(x) Xj) pro x = xj jinak. Evidentně Y,"=i f(xi) = 1- Takové náhodné veličině se říká diskrétní. Každá náhodná veličina definovaná pro klasickou pravděpodobnost je diskrétní. Předpokládejme, že náhodná veličina X na pravděpodobnostním prostoru (Q, A, P) nabývá jen konečně mnoha hodnot xi,x2, ...,x„g1 Pak existuje tzv. pravděpodobnostní funkce f(x) taková, že Evidentně Y,"=i f(xi) = 1- Takové náhodné veličině se říká diskrétní. Každá náhodná veličina definovaná pro klasickou pravděpodobnost je diskrétní. Obdobně lze definici pravděpodobnostní funkce rozšířit na veličiny se spočetně mnoha hodnotami (pracujeme pak navíc s nekonečnými řadami). x,) pro x = X; jinak. Pravděpodobnost nebo statistika? Pravděpodobnost Náhodné veličiny ooooo ooooooooooooooooooo ooooo»oo Spojité náhodné veličiny I když hodnoty náhodné veličiny X nejsou diskrétní, můžeme postupovat podobně s užitím ideí diferenciálního a integrálního počtu. Intuitivně lze uvažovat takto: hustotu f(x) pravděpodobnosti pro X si představíme jako P(x < X < x + dx) = f(x)dx. Pravděpodobnost nebo statistika? Pravděpodobnost Náhodné veličiny ooooo ooooooooooooooooooo ooooo»oo Spojité náhodné veličiny I když hodnoty náhodné veličiny X nejsou diskrétní, můžeme postupovat podobně s užitím ideí diferenciálního a integrálníh počtu. Intuitivně lze uvažovat takto: hustotu f(x) pravděpodobnosti pro X si představíme jako P(x < X < x + dx) = f{x)dx. To znamená, že chceme pro —oo < a < b < oo P{a < X < b) = Pravděpodobnost nebo statistika? Pravděpodobnost Náhodné veličiny ooooo ooooooooooooooooooo ooooo»oo Spojité náhodné veličiny I když hodnoty náhodné veličiny X nejsou diskrétní, můžeme postupovat podobně s užitím ideí diferenciálního a integrálního počtu. Intuitivně lze uvažovat takto: hustotu f(x) pravděpodobnosti pro X si představíme jako P(x < X < x + dx) = f{x)dx. To znamená, že chceme pro — oo < a < b < oo P(a < X < b) = í f{x)dx. (*) Definice Náhodná veličina X, pro kterou existuje její hustota pravděpodobnosti splňující (*), se nazývá spojitá. Pravděpodobnost nebo statistika? OOOOO Vlastnosti distribuční funkce Pravděpodobnost ooooooooooooooooooo Náhodné veličiny oooooo«o Věta Necht X je náhodná veličina, F(x) je její distribuční funkce. O F je neklesající. q F je zprava spojitá, limx^_oo = 0 a limx^oo = 1. O Je-li X diskrétní s hodnotami xi,..., xn, pak je F(x) po částech konstantní, F(x) = j2x xn. q Je-li X spojitá, pak je F(x) diferencovatelná a její derivace se rovná hustotě X, tj. platí F'(x) = f(x). •O ^ O- = □ Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost ooooooooooooooooooo Náhodné veličiny oooooooo Obdobně definujeme distribuční funkce a hustotu a pravděpodobnostní funkci pro spojité a diskrétní náhodné vektory. Hovoříme také o simultánních pravděpodobnostních funkcích a hustotách. Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost ooooooooooooooooooo Obdobně definujeme distribuční funkce a hustotu a pravděpodobnostní funkci pro spojité a diskrétní náhodné vektory. Hovoříme také o simultánních pravděpodobnostních funkcích a hustotách. Pro dvě proměnné (vektor (X, Y) náhodných veličin): P(X = xj A Y = yi) x = xj A y = y; 0 jinak, u diskrétních a pro všechny a, b G R pro spojité: i-a i-b P(-oo < X < b,-oo < Y < b) = Í í f{x, y)dxdy. J—oo J — oo Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost ooooooooooooooooooo Obdobně definujeme distribuční funkce a hustotu a pravděpodobnostní funkci pro spojité a diskrétní náhodné vektory. Hovoříme také o simultánních pravděpodobnostních funkcích a hustotách. Pro dvě proměnné (vektor (X, Y) náhodných veličin): P{X = xj A Y = yi) x = xj A y = y; 0 jinak, u diskrétních a pro všechny a, b G R pro spojité: P(-oo < X < b,-oo < Y < b) = / / f(x, y)dxdy. J—OD J — OO Marginální rozložení pro jednu z proměnných obdržíme tak, že přes ostatní posčítáme nebo zintegrujeme. Pravděpodobnost nebo statistika? OOOOO Pravděpodobnost ooooooooooooooooooo Náhodné veličiny oooooooo Obdobně definujeme distribuční funkce a hustotu a pravděpodobnostní funkci pro spojité a diskrétní náhodné vektory. Hovoříme také o simultánních pravděpodobnostních funkcích a hustotách. Pro dvě proměnné (vektor (X, Y) náhodných veličin): P(X = Xj A Y = y,) x =Xj A y = y, 0 jinak, u diskrétních a pro všechny a, b G R pro spojité: P(-oo < X < b,-oo < Y < b) = / / f(x, y)dxdy. J—OD J — OO Marginální rozložení pro jednu z proměnných obdržíme tak, že přes ostatní posčítáme nebo zintegrujeme. Náhodné veličiny X a Y jsou stochasticky nezávislé, jestliže je jejich simultánní distribuční funkce F{x,y) = G{x)H{y) kde F a G jsou distribuční funkce veličin X a, X*