PSY117 2017 Statistická analýza dat v psychologii Přednáška 4 Počet pravděpodobnosti Je známo, že když muž použije jeden z okrajových pisoárů, sníží se pravděpodobnost, že bude pomočen o 50%. anonym oPravděpodobnost je matematickým vyjádřením, modelem nejistoty o oNejistota je subjektivní nedostatek informací nMůžeme hledat chybějící informace nNěkdy to neumíme, nechceme, nemůžeme – a začneme uvažovat pomocí pravděpodobností, tj. použijeme matematický model. Mince vs. pád vlády. Obojí je spojenou s nějakou pravděpodobností, ale způsob usuzování o té pravděpodobnosti se bude člověk od člověka lišit. Alt.: Ublíží si klient, který tím vyhrožuje? Uspěje vybraný uchazeč o zaměstnání? Má člověk, který uspěl v IQ testu skutečně vysoce nadprůměrný intelekt? Pravděpodobnost jevu oPravděpodobnost, že nastane jev A njistý jev: P = 1 nnemožný jev: P = 0 njisté a nemožné jevy se vyskytují pouze v teorii o o o o o o o o o o o o o o o oAJ: probability, event, random trial, P=1: Jaká je pravděpodobnost, že čtverec o straně dlouhé 1m má obsah 1m2? P=0: Platí-li, že každý medvěd je živočich a že Brumík je medvěd, jaká je pravděpodobnost, že Brumík není medvěd? Empirické: Jaká je pravděpodobnost, že náhodný respondent získá v IQ testu výsledek 145? (alespoň 145?). From Applebaum 2008: p.1: …to demonstrate that these two concepts of ‘chance’ and ‘information’ are more closely related than you might think. p.2: Formally, this means that we are regarding ‘chance’ as a relation between individuals and their environment. So long as the outcome of the experience cannot be predicted in advance by the person experiencing it (even if somebody else can), then chance is at work. This means that we are regarding chance as ‘subjective’. p4. probability is a mathematical term which we use to investigate properties of mathematical models of chance phenomema (usually called probabilistic models). So ‘probability’ does not exist out in the real world. 2 pojetí pravděpodobnosti oČetnostní (statistické, frekventistické) nz n náhodných pokusů nastal jev A n(A)-krát nP(A) = n(A)/n , blíží-li se počet pokusů ∞ (populaci) nopakované náhodné jevy vyskytující se z dlouhodobé perspektivy (long run) s určitou relativní četností oSubjektivní jistota (evidential, Bayesian p.) nsubjektivní víra, míra podpořenosti důkazy nopakované i jednotlivé události, nemusí být náhodné o o o o oAJ: subjectivist vs. frequentist probability o Jevy a náhodné pokusy oJevy n≈ hodnoty proměnných – např. Petr má IQ = 150, Petr má dyslexii nvzorek 15 IQ (lidí) – 15 jevů n…a jejich kombinace (složené jevy) nnáhodné vs. deterministické, 2: neslučitelné(disjunktní), ekvivalentní ndoplňkový jev (A’, not A) oPole jevů nmnožina hodnot, kterých může proměnná/é nabývat oNáhodný pokus nsituace, kdy z pole jevů může nastat jeden nebo více jevů. Náhodným pokusem získáváme z pole jevů jev. n≈ výběr a změření člověka, hod kostkou nnelze určit, který jev nastane & lze opakovat bez vzájemného ovlivňování oNáhodná proměnná vzniká opakováním náhodného pokusu. o oAJ: event (outcome), sample space, random trial, random vs. deterministic events, mutally exclusive events, equivalent events Konkrétní data (sloupeček/sloupečky) jsou pak „složený jev“ a můžeme se ptát, jaká je pravděpodobnost, že realizací výzkumu (výzkum je pak náhodným pokusem) získáme právě data, která jsme získali …. maximum likelihood postupy. Důležité je uvědomit si, co je v našem konkrétním případě „jev“. Počítání s pravděpodobnostmi o„NEBO“ – součet jevů - nastane jev A nebo jev B [nebo oba, nejsou-li disjunktní] nP(AUB) = P(A) + P(B) – P(A∩B) opř. disj. náhodně vybraný člověk má základní vz. nebo je vyučen . o„A“ – součin jevů - nastane jev A a zároveň nastane jev B nP(A∩B) = P(A) . P(B) P(A∩B) = P(A&B) opř. náhodně vybraný člověk je psycholožka (pohlaví=žena, povolání=psychologie) oKombinatorika – velikost pole jevů npermutace n prvků nvariace a kombinace r prvků z n-prvkové množiny oŠance – odds - častý způsob vyjádření pravděpodobnosti npř. šance Komety na vítězství jsou 1:10 nO(A) = P(A) / P(A’) = P(A) / (1−P(A)) nPoměr šancí (OR): obvyklý způsob srovnání šancí ve 2 skupinách: OR12=O1/O2 o oAJ: and, or, addition, multiplication, probability calculus, permutations, combinations, odds, odds ratio Demonstrovat u sjednocení Lindu a heuristiku reprezentativnosti. Podmíněná pravděpodobnost oPravděpodobnost jevu A, pokud nastal jev B(=podmínka) o nP(A|B) = P(A∩B) / P(B) nP(A∩B) = P(B) . P(A|B) o oPř. Kuřáků je v populaci 30%, tedy P (Kou+) = 0,3. n6% lidí onemocní za život rakovinou a zároveň byli někdy kuřáci: n P (Rak+ ∩ Kou+)=0,05 nJsem-li kuřák, jaká je pro mě pravděpodobnost onemocnění rakovinou? nKouří-li člověk (nastalý jev B), je riziko onemocnění rakovinou (P jevu A) n P (Rak+ |Kou+) = P (Rak+ ∩ Kou+) / P (Kou+) = 0,06/0,3=0,2 o o oAJ: conditional probability, likelihood, Bayes’s theorem Podmíněné pravděpodobnosti ve čtyřpolní tabulce A B Celkem Jev B nastal B nebo B+ Jev B nenastal B’ nebo B− Jev A nastal A nebo A+ P(A∩B) P(A∩B’) P(A) Jev A nenastal A’ nebo A− P(A’∩B) P(A’∩B’) P(A’) Celkem P(B) P(B’) 1 Tabulka funguje stejně, když místo pravděpodobností obsahuje četnosti či relativní četnosti GERD GIGERENZER Podmíněné p-nosti a teroristé oFBI chtělo možnost neomezených odposlechů. Automatický analyzátor hovorů dokáže s 99% přesností identifikovat po hlase teroristu: P(I+|T+) = P(I-|T-) = 0,99. oJaká je P, že člověk, kterého začne FBI vyšetřovat, je ve skutečnosti nevinný? oJe-li člověk identifikován systémem (I+), jaká je p-nost neviny (T−): P(T−|I+)? oV populaci terorista 1 z 100 000 (3000 z 300 000 000 v USA), P(T+)=0,00001. n99% z teroristů je identifikováno: P(I+∩T+)=0,99x0,00001=0,0000099 n1% teroristů není identifikováno: P(I−∩T+)=0,01x0,00001= 0,0000001 oNeteroristů je 99999 z 100 000 (299 997t z 300 000t v USA), P(T−)=0,99999. n99% z neteroristů je OK: P(I−∩T−)=0,99x0,99999=0,9899901 n1% neteroristů je identifikováno: P(I+∩T−)=0,01x0,99999= 0,0099999 oP(I+) = P(I+∩T+) + P(I+∩T−) = 0,0100098 , tj. 300294 lidí oP(T− |I+) = P(I+∩T−)/P(I+) = 0,0099999 / 0,0100098 = 0,999 ... 999 z 1000 o Savage, Wainer (2008) U teroristy demonstrovat, že P(I+|T+) je 99% - udaná chybovost. Otázka ale zní na P(T-|I+). Detekce teroristů Předpoklady: P(I+|T+)=P(I-|T-)=0,99; P(T+)=0,00001 a N=300M Výsledek identifikace Je terorista? Celkem ANO T+ NE T- I+ 2970 2 999 970 3 002 940 I- 30 296 997 030 296 997 060 Celkem 3000 299 997 000 300M BAYESŮV TEORÉM Přepočet mezi P (A|B) a P (B|A) n n n o o o o §P(A) – apriorní p-nost, prior, prevalence §vyjadřuje P jevu A, když ještě nevíme nic o jevu B §bez další info. je P, že náhodný telefonista je terorista, 0,00001 §P(B|A) – likelihood §vyjadřuje P jevu B, pokud nastal jev A §vyjadřuje P pozitivní identifikace teroristy: 0,99 §P(B) – marginální likelihood §prevalence/pravděpodobnost jevu B bez ohledu na jev A §P zazvonění u naší detekční mašinky P(I+): cca 0,01 §P(A|B) – posteriorní p-nost, posterior §P jevu B se zohledněním znalosti jevu A §Zazní-li signál mašinky, P stoupne na 0,001 § § Příklad s teroristy bayesovsky oPředpoklady: nPrior: P(T+)=0,00001 nLikelihood: P(I+|T+) =0,99 nMarginální likelihood =P(I+)= n = P(T+)P(I+|T+)+P(T-)P(I+|T-)= 0,00001*0,99+0,99999*0,01 = =0,0100098 [víme-li, že P(I-|T-)=0,99, pak P(I+|T-)=1-0,99=0,01] nP(T+|I+)=? o o oP(T+|I+)=(0,00001*0,99)/0,0100098= 9,89e-4 = 0,001 o oPřepočet mezi P (A|B) a P (B|A) oAktualizace pravděpodobnosti události pomocí nové informace oPorovnání P dvou hypotéz – likelihood ratio (LR) o o o oposterior odds prior odds LR BAYESŮV TEORÉM - použití Likelihood ratio je interpretačně a konceptuálně velmi podobné Bayes Factoru (BF), který je navrhován jako náhrada p (statistické signifikance). opř. Test na ADHD má 15% chybovost: P (T-|A+)=0,15 ; P (T+|A-)=0,15 n nPrevalence ADHD je 5%: P (A+)=0,05 nPrior odds: P(A+)/P(A-)=0,05/0,95=0,052 nLR= P (T+|A+)/P (T+|A-)=0,85/0,15=5,67 n nPosterior odds: prior x LR = 0,052 x 5,67 = 0,29:1 nI po testu je cca 3x menší pravděpodobnost, že dítě ADHD má, než že ho nemá n nJaká je P, že má ADHD? P (A+|T+)=? nP (A+|T+) = P (A+).P (T+|A+) / [P (A+).P (T+|A+) + P (A-).P (T+|A-)] = n = 0,05 . 0,85 / (0,05 . 0,85 + 0,95 . 0,15) = 0,23 (0,23 je asi 3x menší než 0,77) o Podmíněné pravděpodobnosti v diagnostické praxi Skutečný stav Výsledek testu Celkem Pozitivní T+ Negativní T− Má, co hledáme Dg+ Úspěch (a) Neúspěch (b) Falešná negativa % Lidí s Dg (a+b) Prevalence Nemá, co hledáme Dg− Neúspěch (c) Falešná pozitiva Úspěch (d) Lidí bez Dg (c+d) Celkem % T+ testů (a+c) % T-testů (b+d) Př. Z manuálu Addenbrookského kognitivního testu Význam testu pro záchyt syndromu demence Skóruje-li pacient 88 bodů a méně, je senzitivita pro demenci 94 % a specificita 89 %. Zvolíme-li přísnější kritérium (hranici 82 bodů a méně), je senzitivita 84% a specificita 100%. AJ: Sensitivity, specificity, positive predictive value (PPV), negative predictive value (NPV), false positives, false negatives Podmíněné šance a další statistiky oMyšlenku „podmíněnosti“ aplikujeme na všechny statistiky, netýká se jen p-ností oVždy jde o hodnotu dané statistiky pro skupinu lidí (populaci) definovanou nějakou podmínkou oPodmíněné šance oPodmíněné průměry, rozptyly… ROC analýza (Receiver Operating Curve) oPočítání specificity a senzitivity pro různá kritéria (cut-off scores) s cílem identifikovat optimální poměr specificity a senzitivity oRučně pracné nSPSS o PRAVDĚPODOBNOSTNÍ ROZLOŽENÍ o Pravděpodobnost různých hodnot proměnné X oJe-li proměnná náhodná (tj. její hodnoty lze považovat za výsledek náhodných pokusů) …jaká je P výskytu jednotlivých hodnot? nVzpomeňme si, že P(A) = n / m , blíží-li se počet pokusů ∞ (populaci) o oMáme-li tedy dost velký, náhodně vybraný vzorek, pak P výskytu jednotlivých hodnot → jejich relativní četnost o oKdybychom z populace(vzorku) náhodně vylosovali jednu hodnotu(jedince), jaká je pravděpodobnost, že bude mít hodnotu X=k? oJak pravděpodobné jsou různé hodnoty? o o o o o o o o Pravděpodobnostní rozložení náhodné proměnné oPravděpodobnostní rozložení = teoretické rozložení rel. četností nU diskrétních proměnných uvažujeme o P výskytu jednotlivých hodnot. o o o o o o U spojitých proměnných neuvažujeme o P výskytu jednotlivých hodnot (∞), ale spíše o p výskytu hodnot v intervalech – hustota pravděpodobnosti Distribuční funkce oP-nostní rozložení je častěji popsáno (kumulativní) distribuční funkcí (CDF) oCDF(k) = P (X≤k) tj. P výskytu hodnot ≤ k oNabývá hodnot od 0 do 1 oNeklesá oP je rovna „ploše oblasti pod křivkou hustoty pravděpodobnosti“ od -∞ do k o„jako“ percentily opř. NORM.S.DIST v Excelu n n n n AJ: random variable, probability distribution, (cumulative) distribution function (CDF), probability density Empirické vs. teoretické distribuční funkce oEmpirická rozložení nzískaná z dat n„hrbolatá“ oTeoretická rozložení npředpokládaná, odvozená z teorie n„hladká“, jednoduchá Důležitá p-nostní rozložení oNormální oPoissonovo oStudentovo t-rozložení oFisherovo F-rozložení oc2-rozložení (chí-kvadrát) oBinomické o oVyjma binomického se všechna uvedená rozložení používají jako přibližné (asymptotické) ideály, jimž by se rozložení našich proměnných (nebo statistik) blížilo, kdybychom měli obrovský a reprezentativní vzorek. o Standardizované normální rozložení N(0; 1) oJaká je pravděpodobnost, že má náhodný člověk ukazováček dlouhý 5 až 6cm? oPředpokládáme, že rozložení délek ukazováčků je normální s M=7cm a SD=1cm. o o Kvantily standardního normálního rozložení N(0;1) alias oblasti pod křivkou normálního rozložení normalcurveLQ •upraveno dle Glass, Hopkins, s. 88 o