Statistika a pravděpodobnost Irena Budínová, Růžena Blažková 1. Historická poznámka Původ slova „statistika“ pochází z latiny (status – stát) a nejprve představovala nauku o státu. Blíže k dnešnímu pojetí statistky měla tzv. anglická politická aritmetika (zakl. J. Graunt a W. Petty), která se zabývala shromažďováním číselných údajů o ekonomických a demografických jevech. Počátky moderní statistiky jsou kladeny do 19. století a jsou spojovány se jménem Belgičana Adolfa Quételéta, který se zabýval číselně vyjádřitelnými vlastnostmi společnosti. Další význam pro rozvoj statistiky mělo založení anglické statistické školy (aplikace v biologii, zemědělství – F. Galton, K. Pearson, R. A. Fischer). Na vývoji metod matematické statistiky mají od počátku 20. století významný podíl B. Gosset (pseudonym Student), P. Čebyšev, A. Ljapunov, A. Markov, Kolmogorov, Bernstejn, Romanovskij a další. Ve vývoji statistika nastala významná proměna ve 30. letech, kdy vzniká moderní, analytická, induktivní statistika, jejímž základním pojmem je výběr. S použitím matematických metod se stala samostatným vědním oborem. 2. Základní pojmy Statistika je vědní obor, který se zabývá hromadným zkoumáním, pozorováním či šetřením určitých objektů a jevů. Statistika je soubor metod, které nám umožňují činit různá rozhodnutí, založená na pozorování, porovnávání, posuzování a zhodnocení množství informací. Statistické šetření se provádí na statistickém souboru. Statistický soubor je množina – skupina prvků (objektů, osob, událostí aj.), které mají společné vlastnosti. Rozlišujeme statistické soubory základní a výběrové. Základním statistickým souborem může být např. všechno obyvatelstvo světa, všechno vodstvo na Zemi apod. Vymezení základního souboru může někdy přinášet problémy, šetření na celém souboru může být časově náročné nebo i nemožné, proto v praxi používáme soubor výběrový (podmnožina statistického souboru). Tento soubor by měl vypovídat o základním souboru, z kterého byl odvozen (jinak dochází ke zkreslení výsledků). Statistický soubor lze rozdělit na dvě části: Na část, ve které nastává zkoumaný jev a část, ve které zkoumaný jev nenastává. Základním statistickým úkonem je třídění, které provádíme podle jistých kriterií (rozklad množiny na třídy). Respektujeme zásadu úplnosti (každý prvek statistického souboru musí být v některé třídě), a zásadu jednoznačnosti (žádný prvek nesmí být současně ve dvou třídách). Třídění může být dichotomické, trichotomické, obecně multitonické (např. hledání v klíči pro určování rostlin). Prvky statistického souboru se nazývají statistické jednotky. Počet jednotek statistického souboru se nazývá rozsah souboru. Každá statistická jednotka je nositelem určitých vlastností. Ty vlastnosti, které jsou důležité z hlediska účelu provádění určitého statistického zkoumání, se nazývají statistické znaky. Statistické jednotky tedy vyšetřujeme z hlediska určitého znaku nebo několika znaků, které si zvolíme. Statistické znaky dělíme na kvantitativní (číselné) a kvalitativní (slovní). Některé kvantitativní znaky mohou nabývat pouze jednotlivých izolovaných hodnot - diskrétní znaky (např. počet obyvatel obce), nebo nabývají libovolných reálných hodnot z určitého intervalu – spojité znaky (např. hektarové výnosy). V případě, že kvantitativní znak nabývá pouze dvou variant, hovoříme o znaku alternativním (např. muž, žena), nabývá-li více variant, hovoříme o znaku multiplikativním (např. kvalifikace, státní příslušnost). Číslo, které udává, kolikrát se daná hodnota znaku ve statistickém souboru vyskytuje, se nazývá absolutní četnost hodnoty znaku. Součet jednotlivých četností sledovaného znaku je roven rozsahu souboru. n1 + n2 + …+nk = n Poměrná – relativní četnost jevu je poměr absolutní četnosti a rozsahu souboru.  k = n nk (ný) Součet relativních četností je roven jedné. Relativní četnosti lze vyjadřovat také v procentech, pak je jejich součet 100 %. Příklady: Statistický soubor Statistická jednotka Statistický znak Všichni žáci třídy Žák třídy Výška žáka Hmotnost žáka Prospěch v matematice Záliby Všichni žáci školy Žák školy Studium jazyků Zařazení do sportovních aktivit Všechny dopravní prostředky, které projedou kolem určitého stanoviště Jednotlivý dopravní prostředek Druh vozidla Typ vozidla Barva Poznávací značka Všechny hody hrací kostkou Jednotlivý hod Počet ok na jedné stěně Všechna slova na jedné straně knihy Jedno slovo Počet písmen Slovní druh Všechny dopravní nehody v jednom roce v ČR Jedna nehoda Příčiny nehod Hmotná škoda Zranění osob Rozdělení četností znaků vyjadřujeme buď v tabulce nebo graficky pomocí diagramů. Diagram vyjadřuje vzájemný vztah mezi dvěma či více proměnnými veličinami pomocí přehledných grafických symbolů. Rychle a názorně poskytne obrazovou informaci o studovaném jevu. Diagram obrázkový – obrázek vyjadřuje určitý počet prvků, např. obrázek jednoho auta představuje např. 1 000 vyrobených aut. Diagram bodový- četnosti jsou znázorněny pomocí izolovaných bodů. Diagram sloupkový – histogram – používá se v případech, kdy jsou hodnoty znaků sdruženy do intervalů. Tyto intervaly tvoří jednu stranu sloupků (obdélníků), druhou stranu tvoří četnosti. Diagram hůlkový – úsečkový – četnosti znaků jsou znázorněny úsečkami Diagram spojnicový – polygon četností – získá se spojením bodů, jejichž souřadnice tvoří hodnota kvantitativného znaku a odpovídající četnost. Diagram kruhový – různým hodnotám znaků odpovídají kruhové výseče. Jednomu procentu relativní četnosti odpovídá středový úhel 3,6°. Ve sdělovacích prostředcích (televize) se využívá prostorového znázornění statistických údajů (kvádry, válce apod.) Charakteristiky polohy Aritmetický průměr Aritmetický průměr je definován jako podíl součtu hodnot znaku zjištěných u všech jednotek souboru a počtu všech jednotek souboru: 𝑥̅ = 1 𝑛 𝑥 Poznámka: nad všemi průměry se píše vodorovná čárka Vlastnosti aritmetického průměru: 1. Matematické vyjádření aritmetického průměru je jednoduché a snadno použitelné pro odvození dalších vztahů. 2. Výpočet je založen na všech pozorovaných hodnotách. 3. Součet všech odchylek jednotlivých hodnot od aritmetického průměru je vždy roven nule. 4. Aritmetický průměr je ovlivňován krajními hodnotami. Příklad – výpočet průměrné mzdy. Pokud máme 5 pracovníků a jejich mzdy nejsou příliš rozptýleny, aritmetický průměr je seriozní informací: xa = 14000 5 1600015000140000001300012   Jestliže např. jen jeden má výrazně větší mzdu než ostatní, aritmetický průměr nevypovídá seriozně o souboru: xa = 41000 5 16000150000140001300012000   Modus Modus znaku x je hodnota s největší četností, značí se Mod(x) nebo 𝑥. Udává, který výsledek je zastoupen nejvíce, nepodává informace o krajních hodnotách. Praktický význam má např. pro oděvní a obuvnický průmysl (které velikosti se v populaci vyskytují nejvíce). Medián Medián je prostřední hodnota znaku, jsou-li hodnoty uspořádány podle velikosti. Značí se Med(x) nebo 𝑥. Je to nejrychleji zjistitelná střední hodnota má před sebou i za sebou stejný počet hodnot. U lichého počtu hodnot je to prostřední hodnota, u sudého počtu je to aritmetický průměr prostředních dvou. Může nahradit aritm. prům. (pokud rozdělení není normální, pro určení průměrného platu by byl vhodnější; 50. percentil u TSP je medián) Harmonický průměr 𝑥̅ = 𝑛 ∑ 1 𝑥 Harmonického průměru užíváme např. při výpočtu průměrné doby obrábění výrobku, průměrné rychlosti vozidla apod. Příklad: Automobil jede do kopce průměrnou rychlostí 50 h km , s kopce průměrnou rychlostí 120 h km . Délka dráhy do kopce je stejná jako s kopce (označíme ji s). Jaká byla jeho průměrná rychlost na celé dráze? Průměrná rychlost se vypočítá jako podíl celkové dráhy a celkového času. 𝑣 = ⋯ ⋯ 𝑥̅ = 2𝑠 𝑠 50 + 𝑠 120 = 1200 17 = 70,58 Geometrický průměr 𝑥̅ = 𝑥 ∙ 𝑥 ∙ … ∙ 𝑥 Využívá se např. při výpočtu průměrného tempa růstu za jedno období v některých národohospodářských řadách – např. růst počtu obyvatelstva ve městě za určité období. Příklad: Hrubý domácí produkt (HDP) nějaké země měl v následujících pěti letech následující vývoj: +5 %, +4 %, +1 %, -1 %, +2 %. Jaký je průměrný růst HDP? 𝑥̅ = √105 ∙ 104 ∙ 101 ∙ 99 ∙ 102 = 102 Průměrný růst DPH byly 2 %. Aritmetickým průměrem bychom získali 2,2 %, ale přesnější je v tomto případě geometrickým průměr. Vždy platí, že geometrický průměr je menší nebo roven než aritmetický průměr. Příklad: Vypočítejte délku hrany krychle, která má stejný objem jako kvádr o rozměrech a, b, c. 𝑥̅ = √𝑎𝑏𝑐 Vážený průměr 𝑥̅ = 𝑥 𝑣 + ⋯ + 𝑥 𝑣 𝑣 + ⋯ + 𝑣 Používá se např. při řešení slovních úloh o směsích, výpočtu průměrné známky žáka apod. Příklad: Kolikaprocentní líh získáme, jestliže smícháme 5 litrů 70% lihu a 10 litrů 20% lihu? 𝑥̅ = 70 ∙ 5 + 20 ∙ 10 5 + 10 = 36,7 Charakteristiky variability Rozptyl, směrodatná odchylka, variační koeficient – jen na střední škole, na ZŠ ne 3. Základy statistiky na ZŠ Žáci by se na ZŠ měli setkat se statistikou ve formě zpracování dat. Na konkrétních příkladech se učí potřebné pojmy, učí se data zaznamenávat do tabulek a diagramů. Pracují s programem MS Excel a rovněž s Internetem. Příklad: Žáci zaznamenávají domácí mazlíčky všech žáků třídy. Mohou je zapsat do tabulky: Kůň // Kočka ///// Rybičky // Pes /////// Myš // Morče / Želva // Žádný mazlíček /// Data je také možné zaznamenat do diagramu, kde je každá položka znázorněna jedním křížkem. Kůň Kočka Rybičky Pes Myš Morče Želva Žádný mazlíček Žáci jsou schopni z tabulky či diagramu určovat různé charakteristiky souboru: Celkový počet žáků byl 24, absolutní četnost pro položku „pes“ je 7, relativní četnost je = 0,29, přibližně 29 % žáků třídy má psa. Příklad: Ve třídě s 20 žáky byly naměřeny následné tělesné výšky žáků: Výška / cm 132 133 135 136 137 139 140 141 142 Četnost 2 1 2 4 3 4 2 1 1 Určete, co je statistický soubor, statistické jednotky, statistický znak a vytvořte tabulku relativních četností. Řešení: Statistický soubor je množina všech žáků třídy, statistické jednotky jsou žáci, statistický znak je výška žáka. Relativní četnost budeme počítat tak, že vydělíme absolutní četnost dané hodnoty znaku rozsahem souboru. Získáme desetinné číslo a to převedeme na procenta. Např. pro výšku 132 cm je relativní četnost 𝜈 = = = 0,1. Výška / cm 132 133 135 136 137 139 140 141 142 Relativní četnost 0,10 0,05 0,10 0,20 0,15 0,20 0,10 0,05 0,05 Údaje zaznamenáme do histogramu: Druhy diagramů Různé druhy diagramů se hodí na různé druhy dat. V předchozím případě byl použit sloupkový histogram, který je přehledný v případě nespojitých dat. Dobře se na něm dá vyčíst absolutní četnost. Spojnicový diagram se nejlépe hodí na průběžně se měnící data, např.: Příklad: Na následujícím spojnicovém diagramu vidíme vývoj nezaměstnanosti v ČR od ledna 214 do ledna 2015. Nezaměstnanost je uvedena v procentech. Můžeme zjistit, jaká byla nezaměstnanost v daném měsíci. Např. nejvyšší byla nezaměstnanost 8,6 % v lednu a únoru 2014. Nejnižší naopak v říjnu a listopadu 2014. Můžeme také sledovat, jak nezaměstnanost v průběhu roku klesala a opět rostla. 0 0,5 1 1,5 2 2,5 3 3,5 4 132 133 135 136 137 139 140 141 142 Četnost Výška / cm Zdroj: novinky.cz Kruhový diagram dobře slouží, chceme-li opticky porovnat procentuální zastoupení jednotlivých položek. Např. následující kruhový diagram znázorňuje zastoupení známek z písemky z matematiky v jedné třídě: Základy pravděpodobnosti – využití na ZŠ 1. Historická poznámka Úvahy o náhodě spadají do renesance, kdy obchodníci a finančníci chtěli znát míru rizika nebo zisku zamýšlených obchodních transakcí. Také Galileo Galilei se zajímal o míru přesnosti svých, mnohokrát opakovaných pokusů. Hazardní hráči tušili, že do her zasahuje kromě osudu a podvodů také něco zákonitého. Právě hazardní hry měly rozhodující vliv na vývoj nové disciplíny – teorie pravděpodobnosti. Počátky jsou spojeny se jménem Luca Pacioloho (1445 - 1514), o rozvoj teorie pravděpodobnosti se zasloužili Girolamo Cardano (1501 – 1576), Galileo Galilei (1564 – 1642), Blaise Pascal (1623 – 1662), Pierre de Fermat (1601 – 1665), Christiaan Huyghens (1629 – 1695), Jacob Bernoulli (1654 – 1705). Klasickou definici pravděpodobnosti vyslovil Abraham Moivre (1667 – 1754) a zdokonalil Pierre Simon de Laplace (1749 – 1827). Významné objevy přinesli Thomas Bayes (1702 – 1761), Denis Poisson (1781 – 1840), Karl Fridich Gauss (1777 – 1855), Leonhard Euler (1707 – 1783). Významná byla ruská školy představovaná zejména P. L. Čebyševem (1821 – 1894), A. A. Markovem (1856 – 1922) , A. M. Ljapunovem (1857 – 1918), A. N. Kolmogorovem (1903 – 1987), který ve 30. letech 20. století teorii pravděpodobnosti axiomatizoval. Teorie pravděpodobnosti proniká do mnoha dalších vědních oborů – teorie her, teorie informací, kybernetiky, psychologie, sociologie, pojišťovnictví, finančnictví, statistiky, biologie, zemědělství aj. 2. Propedeutika pravděpodobnosti Na základní škole jde zejména o rozvoj pravděpodobnostního myšlení. Při výuce pravděpodobnosti bychom měli respektovat dvoustupňový přístup. V první části uvádět kvalitativní hodnocení – úsudky o pravděpodobnosti některých jevů, např.: 1 2 3 4 5 Nakreslíme na tabuli pravděpodobnostní osu a diskutujeme s dětmi o tom, jak pravděpodobný je daný jev. Nemožné Nepravděpodobné Pravděpodobné Jisté  V únoru bude sněžit.  Prase bude létat.  1. 5. bude zavřená škola.  Autobus nezastaví na zastávce.  Slunce bude svítit o půlnoci.  Při házení šesti kostkami nastane jev: o padnou všechny počty ok, tzv. postupka (malá, P(A)=0,015) o alespoň na dvou kostkách padne stejný počet ok (velká, 1-P(A)=0,985) o nenastane žádný z jevů A, B (0, 1-(P(A)+P(B))=0) o padne součet 7 (velmi malá, ∙ 6 = 1,28 ∙ 10 ). Který z jevů je více či méně pravděpodobný? Který je jistý, který je nemožný? Ve druhé etapě provádět kvantitativní ohodnocení, uvést pravděpodobnost jako číslo. Pravděpodobnost chápeme v klasickém slova smyslu a uvádíme ji jako poměr počtu jevů příznivých ku počtu všech možných jevů, 𝑃(𝐴) = ( ) . 3. Základní pojmy Náhodné pokusy Náhoda je něco, co nemůžeme ovlivnit. Náhoda v běžném životě – náhodou potkáte někoho, koho jste neviděli několik roků, náhodou najdete něco, co jste dlouho hledali, existují řetězce náhod, které utvářejí osudy lidí apod. Pokusy, které provádíme např. ve fyzice nebo chemii vedou při přesném dodržení podmínek vždy k témuž, předem očekávanému výsledku. V praktických činnostech, ve vědě nebo ve výzkumu se však často setkáváme s pokusy, které i při dodržení předepsaných podmínek mohou vést k různým výsledkům, výsledky těchto pokusů se mohou od jednoho provedení pokusu k provedení druhého měnit. Výsledky těchto pokusů závisí nejen na předepsaných podmínkách, ale také na náhodě. Nazýváme je náhodné pokusy. Uvažujme, že u každého náhodného pokusu jsme schopni předem určit všechny jeho možné výsledky, a to tak, že se navzájem vylučují, tj. nastane-li jeden, nenastane druhý a že jeden z nich nastane vždy. Množinu všech takto stanovených výsledků nazýváme množina všech možných výsledků pokusu a značíme ji Ω. Prvky této množiny značíme ω. Např. Při hodu mincí Ω =  l, r , při hodu hrací kostkou Ω =  1, 2, 3, 4, 5, 6 , atd. Podmnožiny množiny všech možných výsledků nazýváme jevy. Označujeme je zpravidla písmeny A, B, C, … V daném pokusu můžeme rozlišit tolik jevů, kolik má množina všech možných výsledků podmnožin. Prázdná množina charakterizuje jev nemožný, množina Ω charakterizuje jev jistý. Pravděpodobnost jevů Pravděpodobnost P(A) jevu A je definována jako součet pravděpodobností příznivých jevu A: P(A) = A p  )( V pokusu, ve kterém jsou všechny jeho možné výsledky stejně pravděpodobné, je pravděpodobnost jevu A rovna podílu P(A) = m Am )( kde m(A) je počet výsledků příznivých jevu A a m je počet všech možných výsledků. Pravděpodobnost jevu nemožného je rovna nule: P(ø) = 0 Pravděpodobnost jevu jistého je rovna jedné: P(Ω) = 1 Pro pravděpodobnost libovolného jevu A platí: 0  P(A)  1. Sčítání pravděpodobností Pravděpodobnost sjednocení dvou navzájem vylučujících se jevů je rovna součtu pravděpodobností těchto jevů: P (A B) = P(A) + P(B), jestliže A B = ø. (Např. pravděpodobnost toho, že na kostce padne 1 nebo 6: + = .) Pravděpodobnost sjednocení jevů, které se navzájem nevylučují, tj. A B  ø, je rovna P (A B) = P(A) + P(B) – P(A B). (Např. pravděpodobnost toho, že z balíčku karet vytáhnu čtyřku nebo srdce: + − = = 0,34. Pravděpodobnost jevu opačného je rovna rozdílu P(A´) = 1 – P(A). (jevy A a A´se navzájem vylučují, proto A  A´= Ω, tedy P(A) + P(A´) = 1) Nezávislost jevů Nezávislostí dvou jevů rozumíme to, že nastání jednoho jevu nemá vliv na nastání nebo nenastání druhého jevu. Matematicky to vyjádříme tak, že pravděpodobnost současného nastání nezávislých jevů je rovna součinu jejich pravděpodobností: P(A B) = P(A) . P(B) Např. pravděpodobnost toho, že na obou kostkách padne sudé číslo: ∙ = . Aktivita pro studenty: Najděte příklady pravděpodobnosti sjednocení jevů (slučitelných i neslučitelných) a pravděpodobnosti nastání dvou nezávislých jevů. Příklady 1. Určete množinu všech možných výsledků, jestliže házíte a) třemi rozlišitelnými mincemi, 𝛺 = {𝑙𝑙𝑙, 𝑙𝑙𝑟, 𝑙𝑟𝑙, … } 8 možností b) dvěma rozlišitelnými hracími kostkami. 𝛺 = {11, 12, 13, … , 16, 21, … } celkem 6.6 možností 2. Jaká je pravděpodobnost, že při hodu hrací kostkou padne číslo menší než 6? 3. Jaká je pravděpodobnost, že při hodu dvěma rozlišitelnými hracími kostkami padne součet ok 7? 4. Jaká je pravděpodobnost že ze součtů, které mohou padnout při hodu dvěma kostkami, hodíme součet, který je dělitelný třemi? (Součty 3, 6, 9, 12: 21, 12; 15, 51, 24, 42, 33; 36, 63, 54, 45; 66 – = ) 5. Je při hodu třemi rozlišitelnými kostkami pravděpodobnější součet 11 nebo 12? 6. Napište na papír libovolné číslo. Jaká je pravděpodobnost, že toto číslo je dělitelné pěti? 7. Jaká je pravděpodobnost, že náhodně vybrané dvojciferné číslo není prvočíslo? 8. Z osudí, ve kterém je 10 kuliček červených a 5 kuliček modrých vybíráme a) jednu modrou kuličku b) dvě modré kuličky (např. 𝑃(𝐵) = ∙ = ) c) jednu červenou nebo modrou kuličku. Vypočítejte pravděpodobnosti těchto jevů. a)P(M) = 3 1 15 5  b) P(B) = 21 2 105 10  c) P(C) = 1 15 15  9. Ze skupiny pěti mužů a tří žen má být vybrána dvojice, ve které jsou: a) jeden muž a jedna žena ( P(A) =       3 8 3.5 = 28 15 ) b) dva chlapci ( P(B) = 14 5 2 8 2 5              ) c) dvě děvčata ( P(C) = 28 3 2 8 2 3              ) Např. a) všech možností, jak vybrat dvě osoby, je = 28, 5 výběrů muže a 3 výběry ženy, 𝑃(𝐴) = ∙ = 10. Máme tři osudí. V prvním jsou 2 žluté, 3 červené a 1 černá kulička, ve druhém jsou 3 žluté a jedna černá kulička, ve třetím 3 červené, 1 modrá, 1 černá kulička. Náhodně vybereme jedno osudí a jednu kuličku. Znázorněte pomocí stromu a vypočítejte pravděpodobnosti, že bude vybrána: a) modrá kulička ( P(M) = 15 1 ) b) černá kulička ( P(Čr) = 180 37 ) c) červená kulička ( P(Čv) = 10 3 ) d) žlutá kulička ( P(Ž) = 180 77 ) (Černá kulička: 1. osudí – , 2. osudí – , 3. osudí – , pravděpodobnost, že vyberu dané osudí – , celkem + + = ) Literatura Bílková, D., Budinský, P., Vohánka, V.: Pravděpodobnost a statistika. Plzeň, A.Čeněk, 2009. Budíková, M., Mikoláš, Š., Osecký, P.: Teorie pravděpodobnosti a matematická statistika. Brno: MU 2001. Calda, E., Dupač, V.: Matematika pro gymnázia. Kombinatorika, pravděpodobnost, statistika. Praha: Prometheus, 1993. Hejný, M. a kol. Teória vyučovania matematiky. Bratislava: SPN, 1990. Kuřina F. a kol.: Matematika a porozumění světu. Praha: Academia, 2009. Kuřina, K., Půlpán, Z.: Podivuhodný svět elementární matematiky. Praha: Academia, 2006. Mareš, M.: Příběhy matematiky. Příbram: Pistorius, Olšanská, 2008. Muller-Fonfara, R.: Mathematik versrahdlich. Bassermann, 1992. Plocki, A.: Pravděpodobnost kolem nás. Ústí nad Labem: UJEP, 2001 Plocki, A., Tlustý, P.: Pravděpodobnost a statistika pro začátečníky a mírně pokročilé. Praha: Prometheus, 2007.