PSY117 2019 Statistická analýza dat v psychologii Přednáška 4 Počet pravděpodobnosti Je známo, že když muž použije jeden z okrajových pisoárů, sníží se pravděpodobnost, že bude pomočen o 50%. anonym oPravděpodobnost je matematickým vyjádřením, modelem nejistoty o oNejistota je subjektivní nedostatek informací nMůžeme hledat chybějící informace nČasto to neumíme, nechceme, nemůžeme – a začneme uvažovat pomocí pravděpodobností, tj. použijeme matematický model. Mince vs. pád vlády. Obojí je spojenou s nějakou pravděpodobností, ale způsob usuzování o té pravděpodobnosti se bude člověk od člověka lišit. Alt.: Ublíží si klient, který tím vyhrožuje? Uspěje vybraný uchazeč o zaměstnání? Má člověk, který uspěl v IQ testu skutečně vysoce nadprůměrný intelekt? Pravděpodobnost jevu oPravděpodobnost, že nastane jev A njistý jev: P = 1 nnemožný jev: P = 0 njisté a nemožné jevy se vyskytují pouze v teorii o o o o o o o o o o o o o o o oAJ: probability, event, random trial, P=1: Jaká je pravděpodobnost, že čtverec o straně dlouhé 1m má obsah 1m2? P=0: Platí-li, že každý medvěd je živočich a že Brumík je medvěd, jaká je pravděpodobnost, že Brumík není medvěd? Empirické: Jaká je pravděpodobnost, že náhodný respondent získá v IQ testu výsledek 145? (alespoň 145?). From Applebaum 2008: p.1: …to demonstrate that these two concepts of ‘chance’ and ‘information’ are more closely related than you might think. p.2: Formally, this means that we are regarding ‘chance’ as a relation between individuals and their environment. So long as the outcome of the experience cannot be predicted in advance by the person experiencing it (even if somebody else can), then chance is at work. This means that we are regarding chance as ‘subjective’. p4. probability is a mathematical term which we use to investigate properties of mathematical models of chance phenomema (usually called probabilistic models). So ‘probability’ does not exist out in the real world. 2 pojetí pravděpodobnosti oČetnostní (statistické, frekventistické) nz n náhodných pokusů nastal jev A n(A)-krát nP(A) = n(A)/n , blíží-li se počet pokusů ∞ (populaci) nopakované náhodné jevy vyskytující se z dlouhodobé perspektivy (long run) s určitou relativní četností oAnalytické nz n možných výsledků pokusu je n(A) výsledků A: P(A) = n(A)/n oSubjektivní jistota (evidential, Bayesian p.) nsubjektivní víra, míra podpořenosti důkazy nopakované i jednotlivé události, nemusí být náhodné o o o o oAJ: subjectivist vs. frequentist probability o Jevy a náhodné pokusy oJevy n≈ hodnoty proměnných – např. Petr má IQ = 150, Petr má dyslexii nvzorek 15 IQ (lidí) – 15 jevů n…a jejich kombinace (složené jevy) nnáhodné vs. deterministické, 2: neslučitelné(disjunktní), ekvivalentní ndoplňkový jev (A’, not A) oPole jevů nmnožina hodnot, kterých může proměnná/é nabývat oNáhodný pokus nsituace, kdy z pole jevů může nastat jeden nebo více jevů. Náhodným pokusem získáváme z pole jevů jev. n≈ výběr a změření člověka, hod kostkou nnelze určit, který jev nastane & lze opakovat bez vzájemného ovlivňování oNáhodná proměnná vzniká opakováním náhodného pokusu. o oAJ: event (outcome), sample space, random trial, random vs. deterministic events, mutally exclusive events, equivalent events Konkrétní data (sloupeček/sloupečky) jsou pak „složený jev“ a můžeme se ptát, jaká je pravděpodobnost, že realizací výzkumu (výzkum je pak náhodným pokusem) získáme právě data, která jsme získali …. maximum likelihood postupy. Důležité je uvědomit si, co je v našem konkrétním případě „jev“. Počítání s pravděpodobnostmi o„NEBO“ – součet jevů - nastane jev A nebo jev B [nebo oba, nejsou-li disjunktní] nP(AUB) = P(A) + P(B) – P(A∩B) opř. disj. náhodně vybraný člověk má základní vz. nebo je vyučen . o„A“ – součin jevů - nastane jev A a zároveň nastane jev B nP(A∩B) = P(A) . P(B) P(A∩B) = P(A&B) opř. náhodně vybraný člověk je psycholožka (pohlaví=žena, povolání=psychologie) oKombinatorika – obv. pro určení velikosti pole jevů npermutace n prvků nvariace a kombinace r prvků z n-prvkové množiny oŠance – odds - častý způsob vyjádření pravděpodobnosti npř. šance Komety na vítězství jsou 1:10 nO(A) = P(A) / P(A’) = P(A) / (1−P(A)) nPoměr šancí (OR): obvyklý způsob srovnání šancí ve 2 skupinách: OR12=O1/O2 o oAJ: and, or, addition, multiplication, probability calculus, permutations, combinations, odds, odds ratio Demonstrovat u sjednocení Lindu a heuristiku reprezentativnosti. Podmíněná pravděpodobnost oPravděpodobnost jevu A, pokud nastal jev B(=podmínka) o nP(A|B) = P(A∩B) / P(B) nP(A∩B) = P(B) . P(A|B) o oPř. Kuřáků je v populaci 30%, tedy P(Kou+) = 0,3. n6% lidí onemocní za život rakovinou a zároveň byli někdy kuřáci: n P(Rak+ ∩ Kou+)=0,06 nJsem-li kuřák, jaká je pro mě pravděpodobnost onemocnění rakovinou? nKouří-li člověk (nastalý jev B), je riziko onemocnění rakovinou (P jevu A) n P (Rak+ |Kou+) = P (Rak+ ∩ Kou+) / P (Kou+) = 0,06/0,3=0,2 o o oAJ: conditional probability, likelihood, Bayes’s theorem, probability of A given B svislá čára Podmíněné pravděpodobnosti ve čtyřpolní tabulce Celkem Jev B nastal B (nebo B+) Jev B nenastal B’ (nebo B-) Jev A nastal A (nebo A+) P(A∩B) P(A∩B’) P(A) Jev A nenastal A’ (nebo A-) P(A’∩B) P(A’∩B’) P(A’) Celkem P(B) P(B’) 1 Tabulka funguje stejně, když místo pravděpodobností obsahuje četnosti či relativní četnosti GERD GIGERENZER P(B|A) P(A|B) oFBI chtělo možnost neomezených odposlechů. Automatický analyzátor hovorů dokáže s 99% přesností identifikovat po hlase teroristu: P(I+|T+) = P(I-|T-) = 0,99. oJe-li v USA 3000 T+, jaká je P, že člověk, kterého začne FBI vyšetřovat (kvůli I+), je ve skutečnosti nevinný? o oP(T−|I+)=? oT+ 3000 z 300 000 000, P(T+)=100/10M. nP(I+)= 99/100 P(I+∩T+)=0,99x0,00001= 99/10M nP(I-)= 1/100 P(I−∩T+)=0,01x0,00001= 1/10M oT- je 299 997 000/300M, P(T−)=9 999 900/10M. nP(I+)= 1/100 P(I+∩T−)=0,01x0,99999= 99 999/10M nP(I-)= 99/100 P(I−∩T−)=0,99x0,99999= 9 899 901/10M oP(I+) = P(I+∩T+) + P(I+∩T−) = 100 098/10M ….. 300 294 lidí v USA oP(T− |I+) = P(I+∩T−)/P(I+) = 99 999 / 100 098 = 0,999 Savage, Wainer (2008) U teroristy demonstrovat, že P(I+|T+) je 99% - udaná chybovost. Otázka ale zní na P(T-|I+). Detekce teroristů Předpoklady: P(I+|T+)=P(I-|T-)=0,99; P(T+)=0,00001 a N=300M Výsledek identifikace Je terorista? Celkem ANO T+ NE T- I+ 2970 2 999 970 3 002 940 I- 30 296 997 030 296 997 060 Celkem 3000 299 997 000 300M BAYESŮV TEORÉM Přepočet mezi P (A|B) a P (B|A) n n n o o o o §P(A) – apriorní p-nost, prior, prevalence §vyjadřuje P jevu A, když ještě nevíme nic o jevu B §bez další info. je P, že náhodný telefonista je terorista, je 0,00001 §P(B|A) – likelihood §vyjadřuje P jevu B, pokud nastal jev A §vyjadřuje P pozitivní identifikace teroristy: 0,99 §P(B) – marginální likelihood §prevalence/pravděpodobnost jevu B bez ohledu na jev A §P zazvonění u naší detekční mašinky P(I+): cca 0,01 §P(A|B) – posteriorní p-nost, posterior §P jevu A se zohledněním znalosti jevu B §Zazní-li signál mašinky, P stoupne na 0,001 § § P(A∩B) + P(A‘∩B) Příklad s teroristy bayesovsky oPředpoklady: nPrior: P(T+)=0,00001 nLikelihood: P(I+|T+) =0,99 nMarginální likelihood =P(I+)= n = P(T+)P(I+|T+)+P(T-)P(I+|T-)= 0,00001*0,99+0,99999*0,01 = =0,0100098 [víme-li, že P(I-|T-)=0,99, pak P(I+|T-)=1-0,99=0,01] nP(T+|I+)=? o o oP(T+|I+)=(0,00001*0,99)/0,0100098= 9,89e-4 = 0,001 a tedy P(T-|I+)=0,999 oMůžeme samozřejmě počítat přímo P(T-|I+) oPřepočet mezi P(A|B) a P(B|A) oAktualizace pravděpodobnosti události pomocí nové informace oPorovnání P dvou hypotéz – likelihood ratio (LR) o o o oposterior odds prior odds LR BAYESŮV TEORÉM - použití Likelihood ratio je interpretačně a konceptuálně velmi podobné Bayes Factoru (BF), který je navrhován jako náhrada p (statistické signifikance). oH1: T+, H2: T- oLR: P(I+|T+)/P(I+|T-)=0,99/0,01=99 nZazvonění mašinky znamená 99násobný nárůst šance, že telefonista je T+ oPrior O: 3000/299 997 000 = 1,00001.10-5:1 oPosterior O: 1,00001.10-5x 99 = 0,0009900099 o o oposterior odds prior odds LR LR detekční mašinky Likelihood ratio je interpretačně a konceptuálně velmi podobné Bayes Factoru (BF), který je navrhován jako náhrada p (statistické signifikance). Z BSS zpět do psychologie opř. Test na ADHD má 15% chybovost: P (T-|A+)=0,15 ; P (T+|A-)=0,15 n nPrevalence ADHD je 5%: P (A+)=0,05 nPrior odds: P(A+) / P(A-)=0,05/0,95=0,052 nLR= P(T+|A+) / P(T+|A-)=0,85/0,15=5,67 n nPosterior odds: prior x LR = 0,052 x 5,67 = 0,29:1 nI po testu je cca 3x menší pravděpodobnost, že dítě ADHD má, než že ho nemá n nJaká je P, že má ADHD? P (A+|T+)=? nP (A+|T+) = P (A+).P (T+|A+) / [P (A+).P (T+|A+) + P (A-).P (T+|A-)] = n = 0,05 . 0,85 / (0,05 . 0,85 + 0,95 . 0,15) = 0,23 (0,23 je asi 3x menší než 0,77) o Podmíněné pravděpodobnosti v diagnostické praxi Skutečný stav Výsledek testu Celkem Pozitivní T+ Negativní T− Má, co hledáme Dg+ Úspěch (a) Neúspěch (b) Falešná negativa % Lidí s Dg (a+b) Prevalence Nemá, co hledáme Dg− Neúspěch (c) Falešná pozitiva Úspěch (d) Lidí bez Dg (c+d) Celkem % T+ testů (a+c) % T-testů (b+d) Př. Z manuálu Addenbrookského kognitivního testu Význam testu pro záchyt syndromu demence Skóruje-li pacient 88 bodů a méně, je senzitivita pro demenci 94 % a specificita 89 %. Zvolíme-li přísnější kritérium (hranici 82 bodů a méně), je senzitivita 84% a specificita 100%. AJ: Sensitivity, specificity, positive predictive value (PPV), negative predictive value (NPV), false positives, false negatives Podmíněné šance a další statistiky oMyšlenku „podmíněnosti“ aplikujeme na všechny statistiky, netýká se jen p-ností oVždy jde o hodnotu dané statistiky pro skupinu lidí (populaci) definovanou nějakou podmínkou oPodmíněné šance oPodmíněné průměry, rozptyly… oNotace pomocí svislé čáry zůstává ROC analýza (Receiver Operating Curve) oPočítání specificity a senzitivity pro různá kritéria (cut-off scores) s cílem identifikovat optimální poměr specificity a senzitivity oRučně pracné nSPSS o PRAVDĚPODOBNOSTNÍ ROZLOŽENÍ o Pravděpodobnost různých hodnot proměnné X oJe-li proměnná náhodná (tj. její hodnoty lze považovat za výsledek náhodných pokusů) …jaká je P výskytu jednotlivých hodnot? nVzpomeňme si, že P(A) = n / m , blíží-li se počet pokusů ∞ (populaci) o oMáme-li tedy dost velký, náhodně vybraný vzorek, pak P výskytu jednotlivých hodnot → jejich relativní četnost o oKdybychom z populace(vzorku) náhodně vylosovali jednu hodnotu(jedince), jaká je pravděpodobnost, že bude mít hodnotu X=k? oJak pravděpodobné jsou různé hodnoty? o o o o o o o o Pravděpodobnostní rozložení náhodné proměnné oPravděpodobnostní rozložení = teoretické rozložení rel. četností nU diskrétních proměnných uvažujeme o P výskytu jednotlivých hodnot. o o o o o o U spojitých proměnných neuvažujeme o P výskytu jednotlivých hodnot, ale spíše o p výskytu hodnot v intervalech – hustota pravděpodobnosti Distribuční funkce (CDF) oP-nostní rozložení je častěji popsáno (kumulativní) distribuční funkcí (CDF) oCDF(k) = P (X≤k) tj. P výskytu hodnot ≤ k oNabývá hodnot od 0 do 1 oNeklesá oP je rovna „ploše oblasti pod křivkou hustoty pravděpodobnosti“ od -∞ do k o„jako“percentily opř. NORM.S.DIST v Excelu n n n n AJ: random variable, probability distribution, (cumulative) distribution function (CDF), probability density Empirické vs. teoretické distribuční funkce oEmpirická rozložení nzískaná z dat n„hrbolatá“ oTeoretická rozložení npředpokládaná, odvozená z teorie nspojitá (př. N) i diskrétní (př. B) Důležitá teoretická p-nostní rozložení oNormální nStudentovo t-rozložení nFisherovo F-rozložení nc2-rozložení (chí-kvadrát) oBinomické oPoissonovo o Standardizované normální rozložení N(0; 1) oJaká je pravděpodobnost, že má náhodný člověk ukazováček dlouhý 5 až 6cm? oPředpokládáme, že rozložení délek ukazováčků je normální s M=7cm a SD=1cm. o o Kvantily standardního normálního rozložení N(0;1) alias oblasti pod křivkou normálního rozložení normalcurveLQ upraveno dle Glass, Hopkins, s. 88 Shrnutí oPravděpodobnost jako relativní četnost oPodmíněná pravděpodobnost a její diagnostická užití oPravděpodobnostní rozložení o oK čemu P? nUvažování o věcech nejistých nStojí v základech statistiky (pro nás neviditelně) n„Podmíněnost“ je základem pro uvažování o vztazích mezi proměnnými nJe základem pro usuzování ze vzorku na populaci n o ŘEŠENÉ ÚLOHY NA PODMÍNĚNÉ PRAVDĚPODOBNOSTI VE ČTYŘPOLNÍ TABULCE o I když se podmíněné pravděpodobnosti týkají všech možných jevů, proměnných všech úrovní, je dobré se s nimi naučit počítat na dichotomiích – tedy jevech, které buď nastanou, nebo nenastanou, a podmínkách, které platí nebo neplatí. Řadu složitěji vypadajících úloh lze zjednodušit do tohoto formátu. Tyto úlohy dobře a užitečně popisuje čtyřpolní tabulka četností/pravděpodobností, s jejíž pomocí lze úlohy a podmíněné pravděpodobnosti řešit snáze a s menším rizikem přehlédnutí. Celkem Jev B nastal B (nebo B+) Jev B nenastal B’ (nebo B-) Jev A nastal A (nebo A+) P(A∩B) P(A∩B’) P(A) Jev A nenastal A’ (nebo A-) P(A’∩B) P(A’∩B’) P(A’) Celkem P(B) P(B’) 1 Tabulka funguje stejně, když místo pravděpodobností obsahuje četnosti či relativní četnosti GERD GIGERENZER P(B|A) P(A|B) 1. Prevalence impulzivního sebepoškozování se u pacientů s poruchami příjmu potravy vyskytuje u 30%. Častější je u bulimie, kde se vyskytuje až v 60% případů. Je-li bulimiků mezi pacienty s poruchami příjmu potravy 40%, jaká je pravděpodobnost IS u anorektiků? Celkem Anorexie (A) Bulimie (B) Impulzivní sebepoškozování přítomno (IS+) P(IS+ ∩ A)=? P(IS+∩ B)=? P(IS+)=0,3 Impulzivní sebepoškozování nepřítomno (IS-) Celkem P(A)=? P(B)=0,4 Na motivy https://www.psychiatriepropraxi.cz/pdfs/psy/2014/02/02.pdf P(IS+|B) = 0,6 Pravděpodobnostní řešení: P(IS+|A) = P(IS+ ∩ A) / P(A), ale ani jedno z toho neznáme P(A) = 1- P(B) = 1- 0,4 = 0,6 P(IS+ ∩ A) = P (IS+) – P(IS+ ∩ B) a P(IS+ ∩ B) =P(B) P(IS+|B), takže P(IS+ ∩ A) = P (IS+) – P(B) P(IS+|B) = 0,3 – 0,4.0,6 = 0,3-0,24 = 0,06 P(IS+|A) = 0,06/0,6 = 0,1 Pravděpodobnost toho, že se pacient s anorexií sebepoškozuje, je 10%. P(IS+|A) = ? 1. Prevalence impulzivního sebepoškozování se u pacientů s poruchami příjmu potravy vyskytuje u 30%. Častější je u bulimie, kde se vyskytuje až v 60% případů. Je-li bulimiků mezi pacienty s poruchami příjmu potravy 40%, jaká je pravděpodobnost IS u anorektiků? Celkem Anorexie (A) Bulimie (B) Impulzivní sebepoškozování přítomno (IS+) 6 24 30 Impulzivní sebepoškozování nepřítomno (IS-) Celkem 60 40 100 Na motivy https://www.psychiatriepropraxi.cz/pdfs/psy/2014/02/02.pdf P(IS+|B) = 0,6 Četnostní řešení – arbitrárně si zvolím N=100, aby se mi dobře počítalo: Ze 100 pacientů se 30 poškozuje (prevalence). Ze 100 pacientů je 40 bulimiků, a tedy 60 anorektiků. Z 60% z těch 40 bulimiků se poškozuje – 40.0,6= 24. Z těch 30, co se poškozují, je 24 bulimiků. Zbývajících 6 jsou tedy anorektici. Z těch 60 anorektiků se poškozuje 6, tedy 10%. Navíc můžeme snadno doplnit zbývající dvě volná pole tabulky a stanovit libovolnou pravděpodobnost. P(IS+|A) = ? 2. Prevalence impulzivního sebepoškozování se u pacientů s poruchami příjmu potravy vyskytuje u 30%. Častější je u bulimie, kde se vyskytuje až v 60% případů. Je-li bulimiků mezi pacienty s poruchami příjmu potravy 40%, jaká je pravděpodobnost, že sebepoškozující se pacient má bulimii? Celkem Anorexie (A) Bulimie (B) Impulzivní sebepoškozování přítomno (IS+) P(IS+ ∩ A)=? P(IS+∩ B)=? P(IS+)=0,3 Impulzivní sebepoškozování nepřítomno (IS-) Celkem P(A)=? P(B)=0,4 Na motivy https://www.psychiatriepropraxi.cz/pdfs/psy/2014/02/02.pdf P(IS+|B)=0,6 Pravděpodobnostní řešení: P(B|IS+) = P(IS+ ∩ B) / P(IS+) P(IS+ ∩ B) =P(B) P(IS+|B = 0,4.0,6 = 0,24 P(B|IS+) = 0,24/ 0,3 = 0,8 Pravděpodobnost toho, že sebepoškozující se pacient má bulimii, je 80%. P(B|IS+) = ? 2. Prevalence impulzivního sebepoškozování se u pacientů s poruchami příjmu potravy vyskytuje u 30%. Častější je u bulimie, kde se vyskytuje až v 60% případů. Je-li bulimiků mezi pacienty s poruchami příjmu potravy 40%, jaká je pravděpodobnost, že sebepoškozující se pacient má bulimii? Celkem Anorexie (A) Bulimie (B) Impulzivní sebepoškozování přítomno (IS+) P(IS+ ∩ A)=? P(IS+∩ B)=? P(IS+)=0,3 Impulzivní sebepoškozování nepřítomno (IS-) Celkem P(A)=? P(B)=0,4 Na motivy https://www.psychiatriepropraxi.cz/pdfs/psy/2014/02/02.pdf P(IS+|B)=0,6 Pravděpodobnostní řešení pomocí Bayesova teorému: P(B|IS+) = P(B) P(IS+|B) / P(IS+) = 0,4.0,6/0,3 = 0,24/0,3= 0,8 Pravděpodobnost toho, že sebepoškozující se pacient má bulimii, je 80%. P(B|IS+) = ? 2. Prevalence impulzivního sebepoškozování se u pacientů s poruchami příjmu potravy vyskytuje u 30%. Častější je u bulimie, kde se vyskytuje až v 60% případů. Je-li bulimiků mezi pacienty s poruchami příjmu potravy 40%, jaká je pravděpodobnost, že sebepoškozující se pacient má bulimii? Celkem Anorexie (A) Bulimie (B) Impulzivní sebepoškozování přítomno (IS+) 24 30 Impulzivní sebepoškozování nepřítomno (IS-) Celkem 40 100 Na motivy https://www.psychiatriepropraxi.cz/pdfs/psy/2014/02/02.pdf P(IS+|B)=0,6 Četnostní řešení – arbitrárně si zvolím N=100, aby se mi dobře počítalo: Kolik z těch, kdo se sebepoškozují, jsou bulimici? Sebepoškozuje se 30 ze 100. Kolik z nich je bulimiků? Celkem je bulimiků 40 ze 100. Z nich 60% se poškozuje, tedy 0,6.40 = 24. Ze 100 pacientů je tedy 24 lidí, kteří jsou zároveň bulimiky a poškozují se. Celkem je sebepoškozujících 30 a 24 z nich jsou bulimici – 24/30 = 0,8 … 80% sebepoškozujících jsou bulimici. P(B|IS+) = ?