PSY117/454 Statistická analýza dat v psychologii Přednáška 4 Počet pravděpodobnosti Je známo, že když muž použije jeden z okrajových pisoárů, sníží se pravděpodobnost, že bude pomočen o 50%. anonym Pravděpodobnost jevu Pravděpodobnost, že nastane jev A jistý jev: P = 1 nemožný jev: P = 0 jisté a nemožné jevy se vyskytují pouze v teorii 2 pojetí pravděpodobnosti subjektivní jistota, zejm. p-nost jednotlivých událostí četnostní (statistické): z m náhodných pokusů nastal jev A n-krát P (A) = n /m , blíží-li se počet pokusů (populaci) AJ: probability, event, random trial, subjectivist vs. frequentist probability Jevy a náhodné pokusy Jevy hodnoty proměnných ­ např. Petr má IQ = 150 vzorek 15 IQ (lidí) ­ 15 jevů ...a jejich kombinace (složené jevy) náhodné vs. deterministické, 2: neslučitelné(disjunktní), ekvivalentní doplňkový jev (A') Pole jevů množina hodnot, kterých může proměnná/é nabývat proměnná Náhodný pokus situace, kdy z pole jevů může nastat jeden nebo více jevů výběr a změření člověka, hod kostkou nelze určit, který jev nastane & lze opakovat bez vzájemného ovlivňování Náhodným pokusem získáváme z pole jevů jev. AJ: event, sample space, random trial, random vs. deterministic events, mutally exclusive events, equivalent events Počítání s pravděpodobnostmi ,,NEBO" ­ součet jevů - nastane jev A nebo jev B [nebo oba, nejsou-li disjunktní] P (AUB) = P (A) + P (B) ­ P (AB) př. disj. náhodně vybraný člověk má základní vz. nebo je vyučen . ,,A" ­ součin jevů - nastane jev A a zároveň jev B [jsou-li A a B nezávislé] P (AB) = P (A) . P (B) P (AB) = P (A&B) př. náhodně vybraný člověk je psycholožka (pohlaví=žena, povolání=psychologie) Kombinatorika ­ velikost pole jevů permutace n prvků = n! kombinace r prvků z n-prvkové množiny = n! / r!(n-r)! Šance ­ odds - častý způsob vyjádření pravděpodobnosti př. šance Komety na vítězství jsou 1:10 O(A) = P (A) / P (A') Poměr šancí (OR): obvyklý způsob srovnání šancí ve 2 skupinách: OR12=O1/O2 AJ: and, or, addition, multiplication, probability calculus, permutations, combinations, odds, odds ratio Podmíněná pravděpodobnost Pravděpodobnost jevu A, pokud nastal jev B P (A|B) = P (AB) / P (B) Př. Kuřáků je v populaci 30%, tedy P (Kou+) = 0,3. 12% lidí má jak rakovinu, tak návyk na kouření: P (Rak+ Kou+)=0,12 Jsem-li kuřák, jaká je pro mě pravděpodobnost onemocnění rakovinou? Kouří-li člověk (nastalý jev B), je riziko onemocnění rakovinou (P jevu A) P (Rak+ |Kou+) = P (Rak+ Kou+) / P (Kou+) = 0,12/0,3=0,4 AJ: conditional probability, Bayes's theorem Podmíněné p-nosti a teroristé FBI usilovalo možnost neomezených odposlechů. Automatický analyzátor hovorů dokáže s 99% přesností identifikovat po hlase teroristu/teroristku. Jaká je p-nost, že člověk, kterého začne FBI vyšetřovat, je ve skutečnosti nevinný? Je-li člověk identifikován systémem (I+), jaká je p-nost neviny (T-): P(T-|I+)? V populaci terorista 1 z 100000 (3000 z 300000000 v USA), P(T+)=0,00001. 99% z teroristů je identifikováno: P(I+T+)=0,99x0,00001=0,0000099 1% teroristů není identifikováno: P(I-T+)=0,01x0,00001= 0,0000001 Neteroristů je 9999 z 100000 (299997t z 300000t v USA), P(T-)=0,99999. 99% z neteroristů je OK: P(I-T-)=0,99x0,99999=0,9899901 1% neteroristů je identifikováno: P(I+T-)=0,01x0,99999= 0,0099999 P(I+)=0,0100098 , tj. 300294 lidí P(T-|I+) = P(I+T-)/P(I+) = 0,0099999 / 0,0100098 = 0,999 ... 999 z 1000 Savage, Wainer (2008) Bayesův teorém Přepočet mezi P (A|B) a P (B|A) P (A) . P (B|A) P(A|B) = ----------------------------------- P (A) . P (B|A) + P (A') . P (B|A') př. Test na LMD má 15% chybovost: P (T-|L+)=0,15 ; P (T+|L-)=0,15 Prevalence LMD je 5%: P (L+)=0,05 Dítě má pozitivní výsledek testu. Jaká je P, že má LMD? P (L+|T+)=? P (L+|T+) = P (L+).P (T+|L+) / [P (L+).P (T+|L+) + P (L-).P (T+|L-)] = = 0,05 . 0,85 / (0,05 . 0,85 + 0,95 . 0,15) = 0,23 Podmíněné pravděpodobnosti v diagnostické praxi Skutečný stav Výsledek testu CelkemPozitivní T+ Negativní TMá, co hledáme Dg+ Úspěch (a) Neúspěch (b) % Lidí s Dg (a+b) Prevalence Nemá, co hledáme DgNeúspěch (c) Úspěch (d) Lidí bez Dg (c+d) Celkem % T+ testů (a+c) % T-testů (b+d) Senzitivita testu: P(T+|Dg+) Specificita testu: P(T-|Dg-) Prediktivní hodn. T+: P(Dg+|T+) Prediktivní hodn. T-: P(Dg-|T-) Př. Z manuálu Addenbrookského kognitivního testu Význam testu pro záchyt syndromu demence Skóruje-li pacient 88 bodů a méně je senzitivita pro demenci 94 % a specificita 89 %. Zvolíme-li přísnější kritérium (hranici 82 bodů a méně) je senzitivita 84% a specificita 100%. Pravděpodobnostní rozložení náhodné proměnné Je-li proměnná náhodná (tj. její hodnoty lze považovat za výsledek náhodných pokusů)... ...jaká je P výskytu jednotlivých možných hodnot? Vzpomeňme si, že P (A) = n / m , blíží-li se počet pokusů (populaci) Máme-li tedy dost velký, náhodně vybraný vzorek, pak P výskytu jednotlivých hodnot jejich relativní četnost Pravděpodobnostní rozložení = teoretické rozložení rel. četností U diskrétních proměnných uvažujeme o P výskytu jednotlivých hodnot. U spojitých proměnných neuvažujeme o P výskytu jednotlivých hodnot (), ale spíše o p výskytu hodnot v intervalech ­ hustota pravděpodobnosti P-nostní rozložení je popsáno distribuční funkcí F(x) = P (Xx) tj. P výskytu hodnot x Tato P je rovna ,,ploše oblasti pod křivkou hustoty pravděpodobnosti" AJ: random variable, probability distribution, distribution function, probability density Normální rozložení 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 -4 -3 -2 -1 0 1 2 3 4 kumulativní relativní četnosti normálního rozložení - graf distribuční funkce hustota (četnosti) normálního rozložení P v normálním rozložení Důležitá p-nostní rozložení Normální Poissonovo Studentovo t-rozložení Fisherovo F-rozložení 2-rozložení (chí-kvadrát) Binomické Vyjma binomického se všechna uvedená rozložení používají jako přibližné (asymptotické) ideály, jimž by se rozložení našich proměnných (statistik) blížilo, kdybychom měli obrovský a reprezentativní vzorek.