29.B Pravděpodobnost a statistika Náhodný pokus – pokus, jehož výsledek záleží i při dodržení předem stanovených podmínek na náhodě. Ω={ω1; ω2;….; ωn} … množina všech možných výsledků náhodného pokusu Náhodný jev A je podmnožinou množiny Ω ..... A⊆Ω Klasická (Laplaceova) definice pravděpodobnosti: Nechť náhodný pokus splňuje předpoklady: 1) Všech možných výsledků je konečný počet 2) Všechny výsledky mají stejnou šanci na realizaci 3) Všechny výsledky se navzájem vylučují (tj. žádné dva nemohou nastat současně) 4) Jeden z výsledků jistě nastane. Pak pravděpodobností jevu A se nazývá číslo n m AP =)( , kde n je počet všech možných výsledků (počet prvků Ω) a m je počet výsledků příznivých jevu A (počet prvků A). Některé vlastnosti pravděpodobnosti: 1. a) Jistý jev … A= Ω => ( ) 1== n n AP b) Nemožný jev … A= Ø => ( ) 0 0 == n AP c) Náhodný jev … A⊆ Ω => 0 ≤ P(A) ≤ 1 2. Opačný jev k jevu A je takový jev A‘, který nastává právě tehdy, když nenastal jev A. Tedy: A‘ = Ω – A (přesněji A ∩ A’ = Ø ∧ A ∪ A’ = Ω) Pak )(11)'( AP n m n mn AP −=−= − = 3. Sjednocení jevů A, B je jev A ∪ B, který nastane právě tehdy, když nastane aspoň jeden z jevů A nebo B. a) Platí-li, že se jevy A, B navzájem vylučují (tj. A ∩ B = Ø), pak P(A∪B) = P(A) + P(B) b) Pokud se jevy A, B navzájem nevylučují (tj. A ∩ B ≠ Ø), pak P(A∪B) = P(A) + P(B) – P(A∩B) 4. Průnik jevů A, B je jev A ∩ B, který nastane právě tehdy, když nastane jev A a zároveň jev B. Jestliže A, B jsou nezávislé jevy, pak P(A∩B) = P(A).P(B) Statistická (zobecněná) definice pravděpodobnosti: Pravděpodobnost P(A) jevu A je určena přibližně jeho relativní četností při dostatečně velkém počtu opakování náhodného pokusu. Nechť Ω = {ω1; ω2;….; ωn} je množina všech možných výsledků náhodného pokusu a p1, p2, … ,pn jsou jejich relativní četnosti (tzn. 1 1 =∑= n i ip ). Pak P(A) = ∑= k i ijp 1 , kde ijp značí relativní četnost výsledku ijω ∈ A (k je počet prvků A). Podmíněná pravděpodobnost – pravděpodobnost jevu A podmíněnou jevem B určíme takto: P(A|B) = )( )( BP BAP ∩ Bernoulliho schéma: Nechť při n-násobném opakování náhodného pokusu je stále stejná pravděpodobnost zdaru p a pravděpodobnost nezdaru q (tedy q = 1 – p). Pak pravděpodobnost jevu Ak, že zdar nastane v těchto n pokusech právě k-krát je dána vztahem: ( ) knk k qp k n AP −       = .. Základy statistiky Statistika se zabývá zkoumáním a zpracováním velkého množství dat souvisejících s hromadnými jevy. Základní pojmy • statistický soubor – konečná neprázdná množina objektů, které zkoumáme (např. obyvatelé Brna, obyvatelé ČR, rodinní příslušníci zaměstnanců určité firmy, dopravní nehody v určité oblasti za určité období, výrobky vyrobené v určité firmě za určité období ,…) • statistická jednotka – prvek statistického souboru (např. jeden určitý obyvatel, jeden daný výrobek) • rozsah statistického souboru – počet prvků statistického souboru • statistický znak – společná vlastnost prvků statistického souboru, kterou zjišťujeme (např. věk, národnost, výše měsíčního příjmu, výška postavy, kvalita výrobku (vadný nebo bez vady), …) znak může být - kvantitativní (číselný) – např. počet obyvatel daného věku, výše škody při nehodě, … - kvalitativní (popsán slovy) – např. povolání, druh nemoci, příčina dopravní nehody, … Pozn. 1) kvalitativní znak může mít někdy více možností (např. příčin nehody může být víc) – pak se musí vybrat jedna, která je hlavní (ostatní mohou tvořit kategorii „jiné“) Pozn. 2) nejjednodušší kvalitativní znak je znak alternativní – dán jevem a jeho opakem – např. voják-nevoják, muž-žena, plavec-neplavec, prospěl-neprospěl, … • absolutní četnost hodnoty znaku xi – číslo ni udávající počet prvků daného statistického souboru, které vykazují sledovanou hodnotu xi, neboli udávající, pro kolik prvků souboru nabývá statistický znak určité hodnoty nebo rozmezí hodnot (např. kolik nezaměstnaných osob je evidováno v dané oblasti, kolik osob má měsíční příjem ve vybraném rozmezí, …) • relativní četnost znaku – poměr n ni absolutní četnosti dané hodnoty a rozsahu souboru Pozn. Relativní četnost se nejčastěji uvádí v procentech n ni .100 % Statistické soubory rozdělujeme na - základní (mohou mít pro zkoumání příliš velký rozsah) - výběrové (část základního souboru, na němž se provádí zkoumání) Charakteristiky statistického souboru 1. Charakteristiky polohy hodnot znaku jsou číselné hodnoty, které určitým způsobem charakterizují typickou hodnotu sledovaného znaku Aritmetický průměr – součet všech hodnot zjištěných znaků dělených jejich počtem. ∑= = n i ix n x 1 1 nebo tzv. vážený průměr ∑= = r j jj nx n x 1 1 Modus Mod(x) – hodnota znaku s největší četností. Medián Med(x) – je prostřední hodnota znaku, jsou-li hodnoty uspořádány podle velikosti. 2 1)( += nxxMed , je-li n liché,         += +1 22 2 1 )( nn xxxMed , je-li n sudé. Geometrický průměr n nG xxxx ⋅⋅⋅= .....21 Př. 1: V souboru A byl sledován údaj o počtu dětí v 13 rodinách. Rozsah souboru je n = 13 (liché): počet dětí 0 1 2 3 4 5 6 7 četnost 2 4 3 2 1 1 0 0 Aritmetický průměr ∑= = 13 113 1 i ixx = 923,1 13 25 13 5433222111100 == ++++++++++++ (Vážený průměr ∑= = 8 113 1 j jj nxx = 923,1 13 25 13 7.06.05.14.13.22.31.40.2 == +++++++ ) Modus Mod(x) = 1 (má četnost 4, což je nejvíce) Medián Med(x) = 2 (7. rodina). Př. 2: V souboru B byl sledován údaj o počtu dětí ve 14 rodinách. Rozsah souboru je n = 14 (sudé): počet dětí 0 1 2 3 4 5 6 7 8 četnost 2 5 3 1 1 0 0 1 1 Aritmetický průměr ∑= = 14 114 1 i ixx = 357,2 14 33 14 87432221111100 == +++++++++++++ (Vážený průměr ∑= = 9 114 1 j jj nxx = 357,2 14 33 14 8.17.16.05.04.13.12.31.50.2 == ++++++++ ) Modus Mod(x) = 1 (má četnost 5, což je nejvíce) Medián Med(x) = 1,5 (aritmetický průměr ze 7. a 8.rodiny). 2. Charakteristiky variability Každá charakteristika polohy je číslo, kolem něhož jednotlivé hodnoty znaku kolísají. Charakteristiky variability vyjadřují „velikost“ onoho kolísání. Rozptyl 2 xs se definuje jako průměr druhých mocnin odchylek od aritmetického průměru ( ) ( )∑ ∑= = −=−= n i r j jjix nxx n xx n s 1 1 2*22 11 Směrodatná odchylka 2 xx ss = Variační koeficient vx – podíl směrodatné odchylky a aritmetického průměru – udává se v procentech %100. x s v x x = Koeficient korelace r - souvisí s tím, že se velmi často zkoumá, zda a jak jsou na sobě závislé dva znaky x a y. Koeficient korelace vyjadřuje míru vzájemné závislosti těchto znaků x a y. yx ss k r . = , kde ( )( )∑= −−= n i ii yyxx n k 1 . 1 , ( ) 2 1 1 ∑= −= n i ix xx n s , ( ) 2 1 1 ∑= −= n i iy yy n s Pozn.: Vždy platí: 1≤r . Čím víc se hodnota r blíží k 1, tím považujeme závislost x a y za silnější.