PSY117 2018
Statistická analýza dat v psychologii
Přednáška 4
Počet pravděpodobnosti
Je známo, že když muž použije jeden z okrajových pisoárů, sníží se pravděpodobnost, že bude pomočen
o 50%.
anonym

oPravděpodobnost je matematickým vyjádřením, modelem nejistoty
o
oNejistota je subjektivní nedostatek informací
nMůžeme hledat chybějící informace
nNěkdy to neumíme, nechceme, nemůžeme – a začneme uvažovat pomocí pravděpodobností, tj. použijeme
matematický model.

Mince vs. pád vlády. Obojí je spojenou s nějakou pravděpodobností, ale způsob usuzování o té
pravděpodobnosti se bude člověk od člověka lišit.
Alt.: Ublíží si klient, který tím vyhrožuje? Uspěje vybraný uchazeč o zaměstnání? Má člověk, který
uspěl v IQ testu skutečně vysoce nadprůměrný intelekt?

Pravděpodobnost jevu
oPravděpodobnost, že nastane jev A
njistý jev: P = 1
nnemožný jev: P = 0
njisté a nemožné jevy se vyskytují pouze v teorii
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oAJ: probability, event, random trial,

P=1: Jaká je pravděpodobnost, že čtverec o straně dlouhé 1m má obsah 1m2?
P=0: Platí-li, že každý medvěd je živočich a že Brumík je medvěd, jaká je pravděpodobnost, že
Brumík není medvěd?
Empirické: Jaká je pravděpodobnost, že náhodný respondent získá v IQ testu výsledek 145? (alespoň
145?).
From Applebaum 2008:
p.1: …to demonstrate that these two concepts of ‘chance’ and ‘information’ are more closely related
than you might think.
p.2: Formally, this means that we are regarding ‘chance’ as a relation between individuals and
their environment. So long as the
outcome of the experience cannot be predicted in advance by the person experiencing it (even if
somebody else can), then chance is at work. This means that we are regarding chance as
‘subjective’.
p4. probability is a mathematical term which we use to investigate properties of mathematical
models of chance phenomema (usually
called probabilistic models). So ‘probability’ does not exist out in the real world.

2 pojetí pravděpodobnosti
oČetnostní (statistické, frekventistické)
nz n náhodných pokusů nastal jev A n(A)-krát
nP(A) = n(A)/n   , blíží-li se počet pokusů ∞ (populaci)
nopakované náhodné jevy vyskytující se z dlouhodobé perspektivy (long run) s určitou relativní
četností
oAnalytické
nz n možných výsledků pokusu je n(A) výsledků A:  P(A) = n(A)/n
oSubjektivní jistota (evidential, Bayesian p.)
nsubjektivní víra, míra podpořenosti důkazy
nopakované i jednotlivé události, nemusí být náhodné
o
o
o
o
oAJ: subjectivist vs. frequentist probability
o

Jevy a náhodné pokusy
oJevy
n≈ hodnoty proměnných – např. Petr má IQ = 150, Petr má dyslexii
nvzorek 15 IQ (lidí) – 15 jevů
n…a jejich kombinace (složené jevy)
nnáhodné vs. deterministické, 2: neslučitelné(disjunktní), ekvivalentní
ndoplňkový jev (A’, not A)
oPole jevů
nmnožina hodnot, kterých může proměnná/é nabývat
oNáhodný pokus
nsituace, kdy z pole jevů může nastat jeden nebo více jevů. Náhodným pokusem získáváme z pole jevů
jev.
n≈ výběr a změření člověka, hod kostkou
nnelze určit, který jev nastane & lze opakovat bez vzájemného ovlivňování
oNáhodná proměnná vzniká opakováním náhodného pokusu.
o
oAJ: event (outcome), sample space, random trial, random vs. deterministic events, mutally
exclusive events, equivalent events

Konkrétní data (sloupeček/sloupečky) jsou pak „složený jev“ a můžeme se ptát, jaká je
pravděpodobnost, že realizací výzkumu (výzkum je pak náhodným pokusem) získáme právě data, která
jsme získali …. maximum likelihood postupy.
Důležité je uvědomit si, co je v našem konkrétním případě „jev“.

Počítání s pravděpodobnostmi
o„NEBO“ – součet jevů - nastane jev A nebo jev B [nebo oba, nejsou-li disjunktní]
nP(AUB) = P(A) + P(B) – P(A∩B)
opř. disj. náhodně vybraný člověk má základní vz. nebo je vyučen .
o„A“ – součin jevů - nastane jev A a zároveň nastane jev B
nP(A∩B) = P(A) . P(B)                 P(A∩B) = P(A&B)
opř. náhodně vybraný člověk je psycholožka (pohlaví=žena, povolání=psychologie)
oKombinatorika – obv. pro určení velikosti pole jevů
npermutace n prvků
nvariace a kombinace r prvků z n-prvkové množiny
oŠance – odds - častý způsob vyjádření pravděpodobnosti
npř. šance Komety na vítězství jsou 1:10
nO(A) = P(A) / P(A’) = P(A) / (1−P(A))
nPoměr šancí (OR): obvyklý způsob srovnání šancí ve 2 skupinách: OR12=O1/O2
o
oAJ: and, or, addition, multiplication, probability calculus, permutations, combinations, odds,
odds ratio

Demonstrovat u sjednocení Lindu a heuristiku reprezentativnosti.

Podmíněná pravděpodobnost
oPravděpodobnost jevu A, pokud nastal jev B(=podmínka)
o
nP(A|B) = P(A∩B) / P(B)
nP(A∩B) = P(B) . P(A|B)
o
oPř. Kuřáků je v populaci 30%, tedy P(Kou+) = 0,3.
n6% lidí onemocní za život rakovinou a zároveň byli někdy kuřáci:
n P(Rak+ ∩ Kou+)=0,06
nJsem-li kuřák, jaká je pro mě pravděpodobnost onemocnění rakovinou?
nKouří-li člověk (nastalý jev B), je riziko onemocnění rakovinou (P jevu A)
n P (Rak+ |Kou+) = P (Rak+ ∩ Kou+) / P (Kou+) = 0,06/0,3=0,2
o
o
oAJ: conditional probability, likelihood, Bayes’s theorem
svislá čára

Podmíněné pravděpodobnosti
ve čtyřpolní tabulce
Celkem
Jev B nastal
B
(nebo B+)
Jev B nenastal
B’
(nebo B-)
Jev A nastal
A
(nebo A+)
P(A∩B)
P(A∩B’)
P(A)
Jev A nenastal
A’
(nebo A-)
P(A’∩B)
P(A’∩B’)
P(A’)
Celkem
P(B)
P(B’)
1
Tabulka funguje stejně, když místo pravděpodobností obsahuje četnosti či relativní četnosti   GERD
GIGERENZER
P(B|A)
P(A|B)

oFBI chtělo možnost neomezených odposlechů. Automatický analyzátor hovorů dokáže s 99% přesností
identifikovat po hlase teroristu: P(I+|T+) = P(I-|T-) = 0,99.
oJe-li v USA 3000 T+, jaká je P, že člověk, kterého začne FBI vyšetřovat (kvůli I+), je ve
skutečnosti nevinný?
o
oP(T−|I+)=?
oT+ 3000 z 300 000 000, P(T+)=100/10M.
nP(I+)= 99/100 P(I+∩T+)=0,99x0,00001= 99/10M
nP(I-)=  1/100 P(I−∩T+)=0,01x0,00001=   1/10M
oT-  je 299 997 000/300M, P(T−)=9 999 900/10M.
nP(I+)=  1/100 P(I+∩T−)=0,01x0,99999=       99 999/10M
nP(I-)= 99/100 P(I−∩T−)=0,99x0,99999=  9 899 901/10M
oP(I+) = P(I+∩T+) + P(I+∩T−) = 100 098/10M ….. 300 294 lidí v USA
oP(T− |I+) = P(I+∩T−)/P(I+) = 99 999 / 100 098 = 0,999
Savage, Wainer (2008)

U teroristy demonstrovat, že P(I+|T+) je 99% - udaná chybovost. Otázka ale zní na P(T-|I+).

Detekce teroristů
Předpoklady: P(I+|T+)=P(I-|T-)=0,99;   P(T+)=0,00001   a   N=300M
Výsledek identifikace
Je terorista?
Celkem
ANO
T+
NE
T-
I+
2970
2 999 970
3 002 940
I-
30
296 997 030
296 997 060
Celkem
3000
299 997 000
300M

BAYESŮV TEORÉM
Přepočet mezi P (A|B) a P (B|A)
n
n
n
o
o
o
o
§P(A) – apriorní p-nost, prior, prevalence
§vyjadřuje P jevu A, když ještě nevíme nic o jevu B
§bez další info. je P, že náhodný telefonista je terorista, je 0,00001
§P(B|A) – likelihood
§vyjadřuje P jevu B, pokud nastal jev A
§vyjadřuje P pozitivní identifikace teroristy: 0,99
§P(B) – marginální likelihood
§prevalence/pravděpodobnost jevu B bez ohledu na jev A
§P zazvonění u naší detekční mašinky P(I+): cca 0,01
§P(A|B) – posteriorní p-nost, posterior
§P jevu A se zohledněním znalosti jevu B
§Zazní-li signál mašinky, P stoupne na 0,001
§
§
P(A∩B) + P(A‘∩B)

Příklad s teroristy bayesovsky
oPředpoklady:
nPrior: P(T+)=0,00001
nLikelihood: P(I+|T+) =0,99
nMarginální likelihood =P(I+)=
n = P(T+)P(I+|T+)+P(T-)P(I+|T-)= 0,00001*0,99+0,99999*0,01 = =0,0100098  [víme-li, že
P(I-|T-)=0,99, pak P(I+|T-)=1-0,99=0,01]
nP(T+|I+)=?
o
o
oP(T+|I+)=(0,00001*0,99)/0,0100098= 9,89e-4 = 0,001 a tedy P(T-|I+)=0,999
oMůžeme samozřejmě počítat přímo P(T-|I+)

oPřepočet mezi P(A|B) a P(B|A)
oAktualizace pravděpodobnosti události pomocí nové informace
oPorovnání P dvou hypotéz – likelihood ratio (LR)
o
o
o
oposterior odds     prior odds   LR
BAYESŮV TEORÉM - použití
Likelihood ratio je interpretačně a konceptuálně velmi podobné Bayes Factoru (BF), který je
navrhován jako náhrada p (statistické signifikance).

oH1: T+, H2: T-
oLR: P(I+|T+)/P(I+|T-)=0,99/0,01=99
nZazvonění mašinky znamená 99násobný nárůst šance, že telefonista je T+
oPrior O: 3000/299 997 000 = 1,00001.10-5:1
oPosterior O: 1,00001.10-5x 99 = 0,0009900099
o
o
oposterior odds     prior odds   LR
LR detekční mašinky
Likelihood ratio je interpretačně a konceptuálně velmi podobné Bayes Factoru (BF), který je
navrhován jako náhrada p (statistické signifikance).

Z BSS zpět do psychologie
opř. Test na ADHD má 15% chybovost: P (T-|A+)=0,15 ; P (T+|A-)=0,15
n
nPrevalence ADHD je 5%: P (A+)=0,05
nPrior odds: P(A+)/P(A-)=0,05/0,95=0,052
nLR= P (T+|A+)/P (T+|A-)=0,85/0,15=5,67
n
nPosterior odds: prior x LR = 0,052 x 5,67 = 0,29:1
nI po testu je cca 3x menší pravděpodobnost, že dítě ADHD má, než že ho nemá
n
nJaká je P, že má ADHD?  P (A+|T+)=?
nP (A+|T+) = P (A+).P (T+|A+) / [P (A+).P (T+|A+) + P (A-).P (T+|A-)] =
n = 0,05 . 0,85 / (0,05 . 0,85 + 0,95 . 0,15) = 0,23 (0,23 je asi 3x menší než 0,77)
o

Podmíněné pravděpodobnosti
v diagnostické praxi
Skutečný stav
Výsledek testu
Celkem
Pozitivní T+
Negativní T−
Má, co hledáme Dg+
Úspěch (a)
Neúspěch (b)
Falešná negativa
% Lidí s Dg (a+b)
 Prevalence
Nemá, co hledáme Dg−
Neúspěch (c)
Falešná pozitiva
Úspěch (d)
Lidí bez Dg (c+d)
Celkem
 % T+ testů (a+c)
% T-testů (b+d)
Př. Z manuálu Addenbrookského kognitivního testu
Význam testu pro záchyt syndromu demence
Skóruje-li pacient 88 bodů a méně, je senzitivita pro demenci 94 % a specificita 89 %.
Zvolíme-li přísnější kritérium (hranici 82 bodů a méně), je senzitivita 84% a specificita 100%.
AJ: Sensitivity, specificity, positive predictive value (PPV), negative predictive value (NPV),
false positives, false negatives

Podmíněné šance a další statistiky
oMyšlenku „podmíněnosti“ aplikujeme na všechny statistiky, netýká se jen p-ností oVždy jde o
hodnotu dané statistiky pro skupinu lidí (populaci) definovanou nějakou podmínkou
oPodmíněné šance
oPodmíněné průměry, rozptyly…
oNotace pomocí svislé čáry zůstává

ROC analýza (Receiver Operating Curve)
oPočítání specificity a senzitivity pro různá kritéria (cut-off scores) s cílem identifikovat
optimální poměr specificity a senzitivity
oRučně pracné
nSPSS
o

PRAVDĚPODOBNOSTNÍ ROZLOŽENÍ
o


Pravděpodobnost různých hodnot proměnné X
oJe-li proměnná náhodná (tj. její hodnoty lze považovat za výsledek náhodných pokusů) …jaká je P
výskytu jednotlivých hodnot?
nVzpomeňme si, že  P(A) = n / m   , blíží-li se počet pokusů ∞ (populaci)
o
oMáme-li tedy dost velký, náhodně vybraný vzorek, pak P výskytu jednotlivých hodnot → jejich
relativní četnost
o
oKdybychom z populace(vzorku) náhodně vylosovali jednu hodnotu(jedince), jaká je pravděpodobnost,
že bude mít hodnotu X=k?
oJak pravděpodobné jsou různé hodnoty?
o
o
o
o
o
o
o
o

Pravděpodobnostní rozložení náhodné proměnné
oPravděpodobnostní rozložení = teoretické rozložení rel. četností
nU diskrétních proměnných uvažujeme o P  výskytu jednotlivých hodnot.
o
o
o
o
o
o

U spojitých proměnných neuvažujeme o P výskytu jednotlivých hodnot, ale spíše o p výskytu hodnot v
intervalech – hustota pravděpodobnosti


Distribuční funkce (CDF)
oP-nostní rozložení je častěji popsáno (kumulativní) distribuční funkcí (CDF)
oCDF(k) =  P (X≤k)  tj. P  výskytu hodnot ≤ k
oNabývá hodnot od 0 do 1
oNeklesá
oP  je rovna „ploše oblasti pod křivkou hustoty pravděpodobnosti“ od -∞ do k
o„jako“percentily
opř. NORM.S.DIST v Excelu
n
n
n
n
AJ: random variable, probability distribution, (cumulative) distribution function (CDF),
probability density

Empirické vs. teoretické distribuční funkce
oEmpirická rozložení
nzískaná z dat
n„hrbolatá“
oTeoretická rozložení
npředpokládaná, odvozená z teorie
nspojitá (př. N) i diskrétní (př. B)

Důležitá teoretická p-nostní rozložení
oNormální
nStudentovo t-rozložení
nFisherovo F-rozložení
nc2-rozložení (chí-kvadrát)
oBinomické
oPoissonovo
o

Standardizované normální rozložení N(0; 1)


oJaká je pravděpodobnost, že má náhodný člověk ukazováček dlouhý 5 až 6cm?
oPředpokládáme, že rozložení délek ukazováčků je normální s M=7cm a SD=1cm.
o
o

Kvantily standardního normálního rozložení N(0;1)
alias oblasti pod křivkou normálního rozložení
normalcurveLQ
•upraveno dle Glass, Hopkins, s. 88

Shrnutí
oPravděpodobnost jako relativní četnost
oPodmíněná pravděpodobnost a její diagnostická užití
oPravděpodobnostní rozložení
o
oK čemu P?
nUvažování o věcech nejistých
nStojí v základech statistiky (pro nás neviditelně)
n„Podmíněnost“ je základem pro uvažování o vztazích mezi proměnnými
nJe základem pro usuzování ze vzorku na populaci
n
o