Počet pravděpodobnosti jako základ statistického usuzování K analýze dat přistupujeme z několika hledisek. Dosud jsme probrali explorační a popisnou analýzu dat, jimiž dokážeme přehledně shrnout informace, jež se týkají právě těch objektů, které jsme pozorovali nebo změřili. Jestliže jsme však data získali na základě dobře navrženého výzkumného plánu, můžeme provádět zobecňující úsudky o chování sledovaných proměnných a jejich parametrech v celé uvažované populaci. Metody takového statistického usuzování se opírají o počet pravděpodobnosti. Proto jsou základy počtu pravděpodobnosti tématem této kapitoly. Metody statistického testování a odhadovaní vyžadují data získaná náhodným výběrem nebo metodou znáhodněného experimentu. Statistické usuzování spočívá na kladení otázek typu: „Jak často tato metoda dá správnou odpověď, pokud ji použiji mnohokrát?" Pokud si nemůžeme představit, že proces sběru dat lze opakovat (např. tím, že z populace vybereme jiný výběr), statistické usuzování nemá smysl. Jestliže však využijeme při získání dat náhodu, můžeme použít teorii pravděpodobnosti pro zodpovězení otázky: „Jak často nastane určitý jev, pokud experiment nebo výběr provedeme mnohokrát?" Látka probíraná v této kapitole je klíčová pro porozumění většině postupů, jež uvedeme v dalších částech knihy. Nesmírně důležitý jc pojem náhodné proměnné a rozdělení náhodné proměnné. V závěru této kapitoly se dostaneme k další problematice, která je pro statistickou analýzu rozhodující - k pravděpodobnostnímu chování statistik vypočítaných z dat, a uvedeme základní teoretická pravděpodobnostní rozdělení, jež jsou vhodná pro popis variability statistik. Tato část tvoří základ pro rozvinutí principů teorie statistického usuzování, kterými se budeme zabývat v příští kapitole. Aplikace počtu pravděpodobnosti a příslušné teorie pronikly do čelných vídních oborů i oblastí praktické činnosti. Historici dovozují, žc vývoj počtu pravděpodobnosti neprobíhal nijak jednoduše. Jak Řekové, tak první křesťané neměli důvod se zabývat kvantifikací náhody. Řekové si uvědomovali působení náhody, ale věřili, že není správné matematicky spojovat to, co se stalo, 115 PŘEHLED STATISTICKÝCH METOD a to, co by se melo stát, protože by šlo o překrývání „pozemského plánu" a „nebeského plánu". Navíc u Řeků hrál roli jejich anlieinpiricismus. Znalost se nemohla získat experimentováním, ale pouze logickou cestou. Tylo dva momenty jim bránily zabývat se problémem náhody v souvislosti s predikcí jevů. Pro první křesťany zase něco jako náhoda nemohlo vůbec existoval. Každá událost byla přímým svědectvím božského působení. Nejdříve se prvky teorie pravděpodobnosti uplatňovaly při výpočtech šance na výhru v hazardních hrách. Mezi první, kdo se zabýval pravděpodobnostními problémy, patřil Blaise Pascal (1623-1662). Hazardní hry v době, o níž mluvíme, měly za sebou historii dlouhou nejméně dva lišíce let, protože již Rekové a Římané byli vášnivými hráči. Nejpopulárnějšíhra Pascalovy doby se nazývala „hazard"', jejíž pojmenování pochází z arabského al zkar, což znamená „kostka". Pascal si dal za úkol zodpovědět řadu otázek, které mu položil jeho přítel Antonio Gombard rytíř de Merc. Například - proč je výhodné vsadil na čtyři šestky při čtyřech hodech a proč není výhodné vsadit při dvojnásobném hodu na dvě šestky v 24 pokusech? Vedl o tomto problému korespondenci s jiným významným vědcem té doby Pierre de Fermalem. Nejslarší knihou o pravděpodobnosti bylo dílo holandského matematika Christiana Huy-gense De Ratiociniis in Lado Alece (Výpočty v hrách náhody) z roku 1657. Po padesát let sloužila jako standardní učební text o pravděpodobnosti. Právě jejího autora považují mnozí historici za zakladatele teorie pravděpodobnosti. Pierre Simon Lapiace (1749-1827), autor přehledného pojednání o teorií pravděpodobnosti, prohlásil: „Je obdivuhodné, žc počtu pravděpodobnosti, jenž vznikl při úvahách o hazardních hrách, bylo určeno stát sc nejdůležitčjší složkou lidského vědění." Rozvoj teorie pravděpodobnosti si vyžádal kromě přemýšlení i fyzické úsilí, o čem svědčí pokusy stalislika K. Pearsona. který v roce 1900 hodil 24000krát mincí, aby se přesvědčil, zda relativní četnost jevu. že padne „orel", konverguje k číslu 0,5. Jeho pokus vedl k četnosti „orla" 12012. 4.1 Základní pojmy a výpočty Vysvětlíme stručně pouze základy počtu pravděpodobnosti, které budeme potřebovat v této knize. Musíme si přitom uvědomit, že matematická teorie pravděpodobnosti nemůže objasnit podstatu náhodnosti a pravděpodobnosti. Je pouze vhodným formálním popisem situací, v nichž se náhodnost, resp. nejistota projevuje; umožňuje o nich uvažovat. 4.1.1 Náhodné jevy, pravděpodobnost Náhodnost vede k tomu, že jevy, které nás zajímají, se za daných podmínek mohou nebo nemusí vyskytnout. Například při házení mincí sledujeme jev, že padne „orel". V daném hodu můžeme predikovat jeho výsledek pouze vyjádřením pravděpodobností možností, jež mohou nastat. Pravděpodobnost, že padne „orel", vyjadřujeme číslem, které má určitý význam. Slova pravděpodobný nebo nepravděpodobný, jež se vyskytují v běžné řeči, vyjadřují nejistotu kvalitativně. Vztah tohoto vyjádření k matematickému pojmu pravděpodobnost je dán kontextem. 116 4 POČET PRAVDĚPODOBNOSTI JAKO ZÁKLAD STATISTICKÉHO USUZOVANÍ Určitý fenomén považujeme za náhodný, jestliže jeho výskyt je nejistý, ale zároveň pozorujeme v dlouhé řadě situací určitou pravidelnost v rozdělení jeho výskytu. PŘÍKLAD 4.1 'oužiti teorie pravděpodobnosti pro modelováni jevů Počet pravděpodobnosti lze využít pro modelování nejrůznějších situací. Uvedeme jednoduchý modelový příklad z oblasti sportu, který lze řešit pomocí pravděpodobnostního počtu. Jeden z přístupů k řešení popíšeme na konci tohoto odstavce (s. 122). Jana má ve svém repertoáru dva druhy tenisového podání, tvrdý a měkký servis. Její tvrdý servis je v poli v 50% podání a v 75% pak uhraje míč. Měkký servis Jana nezkazí v 75%, ale míč pak uhraje jenom v 50%. Jakou má Jana zvolit strategii při svém podání, pokud lze předpokládat, že během utkání se tyto charakteristiky nezmění? Má hrát obě podání tvrdě nebo měkce? Nebo má začít tvrdým podáním a po chybě podávat měkce? Je snad pro ni lepší zahrát první podání měkce a druhé podání tvrdě? Jak by se měla rozhodovat, aby v průměru dosahovala nejlepších výsledků, jestliže předpokládáme, že uvedené relativní četnosti jsou platné bez ohledu na průběh utkání? Existuje mnoho různých definic pravděpodobnosti: definice axiomatická; definice pravděpodobnosti jako kvantitativní míry jistoty; klasická definice, jež pojem pravděpodobnosti převádí na pojem stejné možnosti. Uvedeme statistickou definici pravděpodobnosti. Mluvíme o náhodném pokusu, jestliže při pokusu lze dostat různé možné výsledky a přitom: 1. nelze předem určit, který z těchto výsledků získáme; 2. pokus lze libovolně často opakovat, aniž se jednotlivá opakování vzájemně ovlivňují. Množina všech možných výsledků náhodného pokusu tvoří prostor náhodných výsledků (E). Například při hodu mincí tvoří prostor jevů v jednom hodu „panna" a „orel". Vymezená množina výsledků je náhodný jev. Všechny možné náhodné jevy tvoří pole jevů. Jev, jenž se skládá pouze z jednoho výsledku, se nazývá elementární jev. Jev, který nastává, jestliže dostaneme více možných výsledků, se nazývá jev složený. Jev jistý obsahuje všechny možné výsledky náhodného pokusu. Pro pole náhodných jevů lze použít vztahy teorie množin. Symbolem A U B označujeme jev, že nastane jev A nebo nastane jev B nebo že nastanou oba dva. Současný výskyt jevu A a jevu B označujeme symbolem A n B. Případ, že A n S je prázdná množina, znamená vzájemně se vylučující jevy. 117 PŘEHLED STATISTICKÝCH METOD Také říkáme, že tyto jevy jsou disjunktní. Jev doplňkový A (nebo také opačný) k jevu A je jev, který nastane, když nenastane v pokusu jev A. Pravděpodobnost náhodného jevu A je číslo P{A), k němuž se blíží relativní četnost jevu A, jestliže pokus dostatečně často opakujeme. Jestliže jsme provedli n pokusů a v m z nich nastal jev A, pak názorně vyjádřena: m lim - = P(A) Tuto hodnotu pravděpodobnosti považujeme v teorii pravděpodobnosti za danou. Výrok „Pravděpodobnost jevu A je rovna hodnotě p" znamená, že P(A) = p. Pravděpodobnost náhodného jevu je tedy číslo mezi 0 a 1, které popisuje relativní četnost, s jakou se jev vyskytne ve velmi dlouhé řadě opakování situace, kdy tento jev může nastat. Pravděpodobnosti popisují pouze to, co se stane v dlouhé řadě pokusů. Krátké série náhodných jevů, jako házení mincí nebo střelba na koš, často nevypadají náhodně, protože neukazují pravidelnost, jež se ve skutečnosti může prosadit jenom při mnoha opakováních. Pravděpodobnost má tyto základní vlastnosti: 1. Pravděpodobnost jevu, který je jistý, se rovná 1. 2. Pravděpodobnost jevu nemožného je rovna 0. 3. Lze-li náhodný jev rozložit na několik vzájemně se vylučujících (disjunktních) jevů, pak se jeho pravděpodobnost rovná součtu pravděpodobností těchto jevů. Pro výpočet pravděpodobnosti jevu A často používáme pravidlo, které je východiskem definice pravděpodobnosti na základě stejné možnosti: Jestliže náhodný pokus může vést k /-různým elementárním jevům, jež jsou stejně pravděpodobné, pak pravděpodobnost jevu A je P(A) = počet elementárních jevů, které vedou k A PŘIKLAD 4.2 Elementární a složený náhodný jev a jejich pravděpodobnosti Při házení kostkou platí, že prostor náhodných výsledků E je (1; 2; 3; 4; 5; 6). Příkladem elementárního jevu je jev, že padne číslo 5. Počet všech elementárních jevů je 6. Jev A, že padne sudé číslo, je jevem složeným - tvoří jej 3 elementární jevy. Proto je pravděpodobnost padnutí sudého čísla P(A) = 3/6 = 1/2. Relativní četnost tohoto jevu se tedy se vzrůstajícím počtem hodů blíží k číslu 0,5. 4 POČET PRAVDĚPODOBNOSTI JAKO ZÁKLAD STATISTICKÉHO USUZOVÁNÍ Často používáme pravděpodobnosti spojení a průniku jevů A a B nebo pravděpodobnost doplňku jevu. Pravidlo 3 lze napsat obecněji pomocí rovnice P(A US) = P(A) + P(B) - P{A n B). Rozšíření tohoto pravidla na tři jevy má tvar f(AUSuC) = P(A) + P(B) + P(C)-P(AnB)-P(AnC)-P(BnC) + P(AnBr\C). Ze tří základních vlastností pravděpodobnosti plynou již všechny vlastnosti další. Uvedeme ty nej významnější: 1. Pro libovolný jev A platí: 0 < P(A) < L 2. Je-li jev A doplňkový k jevu A, pak P(A) = 1 - P(A). 3. Je-li jev A částí jevu B, pak P(A) < P(B). PŘÍKLAD 4.3 Výpočet pravdepodobnosti různých Jevů Statistické šetření ukázalo u 1000 dotázaných občanů volební preference, které uvádí tabulka 4.1. Jestliže z této skupiny náhodně vybereme jedince, jaká bude pravděpodobnost jevu: a) bude se jednat o ženu, která nepreferuje ODS; b) osoba bude ženského pohlaví nebo chce volit „ostatní". Obě úlohy nejsou složité, ale musíme si promyslet přesně obsah otázky. V první úloze je odpověď dána zlomkem (530 - 220)/1000. Abychom vyřešili druhou otázku, musíme si uvědomit, že se jedná o výpočet pravděpodobnosti sjednocení jevu (žena) u (ostatní). Z toho plyne P((žena) u (ostatní)) = P(žena) + P(ostatní) - P((žena) n (ostatní)) = 530/1000 + 303/1000 - 157/1000 Tab. 4.1 Modelová data - výsledky průzkumu volebních preferencí Preferovaná politická strana Ženy Muži Celkem ČSSD 153 130 283 ODS 220 194 414 Ostatní 157 146 303 Celkem 530 470 1 000 118 119 PŘEHLED STATISTICKÝCH METOD 4 POČET PRAVDĚPODOBNOSTI JAKO ZÁKLAD STATISTICKÉHO USUZOVÁNÍ 4.1.2 Podmíněná pravděpodobnost, Bayesova formule Často závisí pravděpodobnost výskytu určitého jevu na tom, zda nastal či nenastal nějaký jiný jev. Takovým pravděpodobnostem říkáme podmíněné a značíme je P(A\B), což čteme: pravděpodobnost jevu A za předpokladu, že nastal jev B. Pro podmíněné pravděpodobnosti lze dokázat všechna základní pravidla, která jsme uváděli u nepodmíněné pravděpodobnosti, tedy zejména 0 < P(A\B) < 1. Platí dvě ekvivalentní rovnice, pokud P(B) nemá nulovou hodnotu: , , P(A O B) P(A n B) = P(A\B)P(B) nebo P(A\B) = P(B) Rovná-li se podmíněná pravděpodobnost pravděpodobnosti nepodmíněné, tedy když P(A\B) = P(A), říkáme, že jevy A a B jsou statisticky nezávislé. Výskyt jevu B nemá v tomto případě vliv na pravděpodobnost výskytu jevu A v dané situaci. Jsou-li jevy A a. B statisticky nezávislé, pakP(A n B) = P(A) ■ P(B). Platí: Jsou-li jevyA, B statisticky nezávislé, pak jsou statisticky nezávislé i dvojice jevů A, B;A,B;Ä,B. Jestliže jev B nastává vždy s některým jevem Ai,... A,, přičemž A,jsou jevy disjunktní, pak P(B) = Yj P(Ai)r(B\Aj). 1=1 Tento vztah nazýváme vzorec pro úplnou pravděpodobnost. Při pravděpodobnostních úvahách se často používá Bayesova formule. Slouží k vypočítání podmíněné pravděpodobnosti P(A)B) za předpokladu, že známe pravděpodobnosti P(B\A) a P(A). Pomáhá nám např. při výpočtech, které provádíme při hodnocení diagnostických testů binárního typu v medicínské a psychologické diagnostice. Uvedeme její jednoduchou podobu: P(A\B) P(A)P{B\A) P(A)P(B\A) + P(A)P(B\A) V čitateli této formule je pravděpodobnost, že současně nastane jev A a jev B, ve jmenovateli je vzorec pro úplnou pravděpodobnost jevu B. PŘÍKLAD 4.4 Aplikace Bayesova přístupu pro studium vlastností diagnostických testů Významné použití nachází Bayesova formule při hodnocení diagnostických testů, jež mohou nabývat pouze dvou hodnot (pozitivní, negativní). Takové hodnocení se provádí i u uměle di-chotomizovaných kvantitativních testových výsledků (např. normální výsledek, výsledek nad normální mezí testu). Popíšeme stručně tuto situaci. Pacient může, nebo nemusí mít danou chorobu (D+, D-). Provedený diagnostický test může, nebo nemusí tuto chorobu indikovat 120 (f+, T-). Záleží to na jeho specificitě a senzitivitě. Senzitivita diagnostického testu Se je podmíněná pravděpodobnost P(T+\D+) toho, že výsledek testu bude pozitivní, když pacient má chorobu. Specificita diagnostického testu Sp je podmíněná pravděpodobnost P(T-\D-),ie za předpokladu, že pacient nemá danou chorobu, test bude negativní. Predik-tivní hodnota pozitivního testu P+ je podmíněná pravděpodobnost P(D+|7"+), že pacient má chorobu, pokud byl test pozitivní. Prediktivní hodnota negativního testu P- je podmíněná pravděpodobnost P(D-\T-), že pacient nemá danou chorobu, když test byl negativní. Prevalence P{D+) je pravděpodobnost choroby v populaci. Uvedené pravděpodobnosti se odhadují pomocí statistické evidence výsledků v medicínských databázích a zvlášť zaměřeného výzkumu diagnostické věrohodnosti diagnostického testu. Podle výsledků testu se sestavuje čtyřpolní tabulka s četnostmi (tabulka 4.2). Například četnost a je počet výsledků nemocných jedinců, kteří měli pozitivní test. Pro odhad uvedených charakteristik se četnosti z tabulky použijí takto: Se = P{T+\D+) = a/{a + b) Sp = P{T-\D-) = d/(c + d) P+ = P(D+\T+) = a/(a + c) P- = P(D-\T~) = b/{b + d) To však lze provést pouze v případě, že získáváme výsledky pro jedince vybraného zcela náhodným způsobem. Častější je případ, kdy jsou k dispozici předem dané skupiny jedinců s diagnózou nebo bez ní a provedeme u obou skupin posuzovaný test. Odhad senzitivity a specificity je v pořádku, ale odhad pravděpodobností P+ a P- pomocí četností z tabulky je zkreslený. Musíme nejdříve získat informaci o výskytu uvažované nemoci v populaci. Proto zjišťujeme prevalenci P(D+) u různých subpopulací. Podle Bayesovy formule následně spočítáme prediktivní hodnotu pozitivního testu SeP(D+) SeP(D+) + (1 - Sp)(1 - P(D+)) nebo prediktivní hodnotu negativního testu Sp(1 - P(D+)) Sp(1 - P(D+)) + (1 - Se)P(D+)' Ve vzorcích použijeme prevalenci P(D+) podle toho, z které subpopulace jedinec pochází. Tab. 4.2 Čtyřpolní tabulka s četnostmi Skutečná diagnóza Výsledek testu r+ T- D+ a b D- c d 121 PŘEHLED STATISTICKÝCH METOD 4 POČET PRAVDĚPODOBNOSTI JAKO ZÁKLAD STATISTICKÉHO USUZOVÁNÍ 4.1.3 Šance Často používáme výraz, že šance vítězství fotbalového mužstva v daném zápase je 1:4 nebo 2:1. V prvním případě považujeme vítězství našeho klubu za málo pravděpodobné, ve druhém případě se domníváme, že pravděpodobnost vítězství P(V) je dvojnásobně větší než pravděpodobnost prohry P(P). Tedy šance na vítězství mého klubu se rovná f(V)/P(P) = 2:1. Protože vítězství V a prohra P jsou vzájemně se vylučující jevy, můžeme šanci na vítězství zapsat takto: šance na vítězství P(V) i - p