PSY117
Statistická analýza dat v psychologii
Přednáška 8 2016
Statistické usuzování, odhady
Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky.
Alfred North Whitehead

Barevná srdíčka kolegyně Michalčákové
oJaký je podíl bílých a barevných srdíček v balení?
o
o
o
o
o
o
o
oSimulace binomického rozložení

Výběr – od deskripce k indukci
deskr_infer
oDeskripce dat, odhad parametrů
oUsuzování = inference = indukce
o
oPočítá se s náhodným výběrem
ntj. výběr jedince splňuje podmínky náhodného pokusu
nnení-li výběr v pravém slova smyslu náhodný, uvažujeme, v čem se p-dobně liší od náhodného
n
n
AJ: statistical description, inference, population, sample, data, statistics, inference,
parameters, random sample (sampling)

Statistiky a parametry
oNa vzorku (datech) počítáme statistiky
oHodnotě statistiky v celé populaci říkáme parametr.
nPro parametry používáme odpovídající písmena řecké abecedy
onapř. průměr: statistika m, parametr m (mí)
odalší: s – s (sigma), r  – r (ró), d – d (delta - rozdíl)
oStatistiky jsou odhady parametrů
ntj. jsou vždy zatíženy chybou – výběrovou chybou
nchyby náhodné  – umíme spočítat, známe-li výběrové rozložení
nchyby systematické  – nevhodné statistiky, špatné měření, špatný způsob výběru vzorku
(metodologie)
oJak dobré jsou tyto odhady?
o
oAJ: estimates, sampling error. random error, systematic error, sampling distribution

Výběrové rozložení a sm. chyba
oSpočítáme-li tutéž statistiku na mnoha nezávislých náhodných vzorcích
nzískáme mnoho různých odhadů parametru
ntyto odhady mají nějaké rozložení - výběrové rozložení (statistiky)
n
ohttp://onlinestatbook.com/stat_sim/sampling_dist/index.html
o
oVýběrové rozložení statistik obvykle můžeme popsat
nprůměrem – ten se u dobrých statistik blíží hodnotě parametru
nsměrodatnou odchylkou – říkáme jí  směrodatná chyba ((odhadu) parametru) nebo také střední chyba a
obecněji i výběrová chyba
nČím je velikost vzorku/ů větší, tím je směrodatná chyba menší
n
oAJ: sampling distribution, standard error (of the mean)

Výběrové rozložení (odhadu) průměru
oOdhad průměru má přibližně normální rozložení,
njehož průměr je m  se směrodatnou chybou ……………......
nPlatí to i tehdy, když rozložení proměnné není normální.
o a to „díky“ centrálnímu limitnímu teorému
nJenomže my obvykle neznáme s…
oNeznáme-li s, musíme použít s
nprůměr zůstává m, směrodatná chyba je nyní ………………….
nvýběrové rozložení není normální, jde o
n Studentovo t -rozložení
ojako normální s těžšími konci (t je pro t-rozložení totéž, co z pro normální rozložení)
omá různé tvary pro různá n : stupně volnosti – n (ný)
nzde n = N−1; čím vyšší N, tím se t-rozložení blíží normálnímu
o
oAJ: central limit theorem, Student’s t-distribution, degrees of freedom (d.f.)

Studentovo t -rozložení
t_dist


Výběrová rozložení dalších statistik
oNyní je tedy třeba ke každé popisné statistice znát ještě další vlastnost – její teoretické
výběrové rozložení
nrelativní četnost – přibližně normální - Hendl 162
nrozptyl – po transformaci c2-rozložení (chí kvadrát) - Hendl 159
nPearsonova r  – po Fisherově transformaci normální – Hendl 252
oTeoretická výběrová rozložení různých statistik jsou různá
nStatistika je obvykle transformována do podoby, která má jedno z běžných teoretických rozložení:
normální, chí-kvadrát rozložení (Pearsonovo), t-rozložení (Studentovo), F-rozložení (Fisherovo,
Snedecorovo)
nNetřeba je znát z hlavy, programy je používají za vás, ale stojí za to vědět, že existují přehledy
– např. Receptář Oseckých nebo Sheskin ISBN 1584884401
nPro interpretační potřeby si obvykle vystačíme s představou výběrového rozložení průměru
nPozor, centrální limitní teorém se týká pouze výběrového rozložení průměru!
o
oAJ: chi-square distribution, F-distribution
o

Estimační kvality statistik I
oKvality statistiky jako prostředku odhadu „skutečné“ hodnoty v populaci
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oAJ: statistics as estimators,
estimation
                                                 upraveno dle Glass, Hopkins

Estimační kvality statistik II
oNezkreslenost
ntj. že systematicky nenad(pod)hodnocuje
nnapř. s podhodnocuje
oKonzistence
ns velikostí vzorku roste přesnost odhadu
oRelativní účinnost
njak rychle roste přesnost s velikostí vzorku
nzde vítězí M nad Md a strhává s sebou i další momentové statistiky
ojejich výhodou je i snadné počítání s nimi
o
oAlternativně Kvalita bodového odhadu viz Hendl 175
o
oAJ: unbiasedness, consistency, relative efficiency

Bodové vs. intervalové odhady
oParametr se můžeme snažit odhadnout…
nbodovým odhadem – tj. odhadujeme přímo hodnotu parametru, např. průměr.
nintervalovým odhadem – tj. odhadnutím intervalu, který parametr s určitou p-ností zahrnuje
ovýsledkem intervalového odhadu je interval spolehlivosti
ointerval spolehlivosti tvoříme z bodového odhadu a znalosti jeho výběrového rozložení, tj.
(bod±odchylka)
ointervalový odhad lepší - více informací
oté p-nosti se v tomto kontextu říká hladina spolehlivosti (1-a)
ntypicky se používá 95% a 99% hladina spolehlivosti
npak říkáme, že hledaný parametr je s 95% p-ností v intervalu spolehlivosti
o
oZkuste si sami: http://onlinestatbook.com/stat_sim/conf_interval/index.html
o
oAJ: point estimate, interval estimate, confidence interval (CI), level of confidence, consistency,
unbiasedness, relative efficiency, resistence
a je p-nost chyby a proto je hladina spolehlivosti 1-a, tj. 95% spolehlivost znamená 5% chybovost:
(1-0,05)

Příklad konstrukce intervalu spolehlivosti pro průměr 1
oNa vzorku dětí (N=100) s různobarevnýma očima jsme spočítali průměrné IQ 130, přičemž víme, že s
=15.
nbodový odhad průměrného IQ v populaci dětí s různobarevnýma očima (tj. parametru, m) je 130
nintervalový odhad
oZnáme-li s,  výběrové rozložení průměru má normální rozložení…
o…se středem v m. m neznáme, a tak použijeme bodový odhad m = 130
o… se směrodatnou chybou odhadu průměru sm = s /√N  = 15/ √100 = 1,5.
oZvolíme-li hladinu spolehlivosti 1-a = 95%,
opak v tabulkách/Excelu zjistíme, že 95% normálního rozl. je mezi hodnotami  z= −1,96 a 1,96 ,tj.
1-a/2z = 0,975z = 1,96  , Excel:  =NORMSINV(0,975)
ointerval spolehlivosti:  (m − 1,96sm; m + 1,96sm) = (127,1 ; 132,9),
otj. s 95% pravděpodobností 127,1 £ m £ 132,9
o
o
o
o


Příklad konstrukce intervalu spolehlivosti pro průměr 2
oNa vzorku dětí (N=100) s různobarevnýma očima jsme spočítali průměrné IQ 130 a s =15.
nbodový odhad průměrného IQ v populaci dětí s různobarevnýma očima (tj. parametru, m) je 130
nintervalový odhad
ostřed intervalu spolehlivosti bude na bodovém odhadu, tj. m = 130
ovíme, že výběrové rozložení průměru má t–rozložení se stupni volnosti            n = N−1 = 99
ozvolíme-li hladinu spolehlivosti 1-a =95%,
opak v tabulkách (Excelu) zjistíme, že 95% t-rozložení je mezi hodnotami          t=-1,98 a 1,98
(tj. 1-a/2t (n)= 0,975t (99) = 1,98 excel: TINV(0,05;99))
osměrodatná chyba odhadu průměru sm = s /√n  = 15/ √ 100 = 1,5
ointerval spolehlivosti:  (m - 1,98sm; m + 1,98sm) = (127,0 ; 133,0),
otj. s 95% pravděpodobností 127,0 £ m £ 133,0
o
o
o
o
pozor na tento rozdíl: ve středu intervalu je m, někde v intervalu je v 95% případů m

Interpretace intervalu spolehlivosti
o… je prostá, avšak zrádná
o95% interval spolehlivosti znamená, že sestrojujeme-li tento interval dle výše uvedených
instrukcí, v 95% případů sestrojení intervalu tento interval zahrnuje odhadovaný parametr, tj. v
95% případů je závěr, že m  je mezi čísly a a b, správný.
oV tomto smyslu to také znamená, že máme subjektivní 95% jistotu, že parametr je v námi určeném
intervalu.
oV konkrétním případě, kdy jsme spočetli konkrétní interval spolehlivosti (127 £ m £ 133), to
neznamená, že v 95% případech je m v intervalu od 127 do 133.
nTo proto, že m je konstanta; při opakovaných výzkumech se nemění. Díky omylnému výběru v každém
výzkumu vychází poněkud jiný interval sestrojený podle jiného výběrového průměru. Jinými slovy,
trefujeme se obručí na kolík a ne kolíkem do obruče.
oO čem tohle slovíčkaření je? O rozdílu mezi četnostním a subjektivním (Bayesovským) pojetím
pravděpodobnosti.

…Výběrové rozložení mediánu
oSimulace:  www.stat.tamu.edu/~jhardin/applets/signed/SampDist2.html
oV případě normálního rozložení je taky normální a směrodatná chyba je cca 1,25 směrodatné chyby
průměru
oPořadový způsob nabízí Campbell a Gardner1
nPřibližný interval (pro N>100) se stanovuje opravdu pořadovým způsobem, tj. počítáme pořadí, které
určuje horní a dolní mez intervalu
nPro 95% interval spolehlivosti pak je r pořadí určující horní mez a s  pořadí určující dolní mez
n
n
oBootstrap
nObecná metoda, nejen pro mediány, téměř bez předpokladů (neparametrická)
nAlgoritmus:
o1. Proveďte výběr s navracením ze svého výběru (o velikosti N)
o2. Spočítejte medián a uložte
o3. Opakujte kroky 1 a 2 tisíckrát
n95% interval je ohraničen 25. a 975. nejvyšším spočítaným mediánem.
o
1Campbell, M.J., Gardner, M.J. (2000). Medians and their differences. In Altman et al., Statistics
with confidence (36 – 44). BMJ Books.

Výběrové rozložení mediánu je v případě normálního rozložení taky normální a výběrová chyba je cca
1,253 výběrové chyby průměru.
Dobrá simulace je na www.stat.tamu.edu/~jhardin/applets/signed/SampDist2.html (s varováním).
Na konfidenční interval se jde podle Altmana et al.(2000). Statistics with confidence. s. 36 jinak,
taky pořadově.
Tohle je

…Výběrové rozložení relativní četnosti p
oPro dostatečně velkou populaci (np>10; n(1−p)>10)…
o…je přibližně normální s průměrem p a směrodatnou chybou
o(1−a)% interval spolehlivosti má tedy podobu:
n

…Výběrové rozložení rozptylu s2
oRozložení poměru (s2/s2)(n-1) má podobu chí-kvadrát rozložení s n = n-1 stupni volnosti
o
o
o(1−a)% interval spolehlivosti pro s2 má tedy podobu:
o
o
o
o
oV Excelu =CHISQ.INV(1-a;df)=c21-a(df)    [=CHIINV(a;df)]
o

…Výběrové rozložení Pearsonovy korelace r
oVýběrové rozložení korelace neznáme.
oZnáme výběrové rozložení korelace po Fisherově transformaci:  Z = 0,5 ln((1+r)/(1-r)) = arctgh(r)
= FISHER(r)
oVýběrové rozložení Z je přibližně normální s průměrem Z a směrodatnou chybou sZ=1/√(n-3)
o(1−a)% CI pro Z:
oNutno transformovat zpět do metriky korelačního koeficientu: r=(e2Z−1)/(e2Z+1)=FISHERINV(Z)

Shrnutí
oNa vzorcích počítáme statistiky, které jsou odhadem populačních parametrů.
oK posouzení přesnosti takového odhadu musíme znát výběrové rozložení statistiky, kterou k odhadu
používáme, zejména jeho variabilitu – směrodatnou chybu.
oSměrodatná chyba klesá především s velikostí vzorku a s variabilitou jevu v populaci.
oPřesnost odhadu parametru sdělujeme prostřednictvím intervalu spolehlivosti.