PSY117/454
Statistická analýza dat v psychologii
Přednáška 8
Statistické usuzování, odhady
Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky.
Alfred North Whitehead
Barevná srdíčka kolegyně Michalčákové
 Jaký je podíl bílých a barevných srdíček v balení?
 Simulace binomického rozložení
 Histogram
Výběr ­ od deskripce k indukci
 Deskripce dat, odhad
parametrů
 Usuzování = inference =
indukce
 Počítá se s náhodným
výběrem
 tj. výběr jedince splňuje
podmínky náhodného
pokusu
 není-li výběr v pravém slova
smyslu náhodný, uvažujeme,
v čem se p-dobně liší od
náhodného
AJ: statistical description, inference, population, sample, data, statistics, inference, parameters, random sample (sampling)
Statistiky a parametry
 Na vzorku (datech) počítáme statistiky
 Hodnotě statistiky v celé populaci říkáme parametr.
 Pro parametry používáme odpovídající písmena řecké abecedy
 např. průměr: statistika m, parametr  (mí)
 další: s ­ s (sigma), r ­ r (ró), d ­ d (delta - rozdíl)
 Statistiky jsou odhady parametrů
 tj. jsou vždy zatíženy chybou ­ výběrovou chybou
 chyby náhodné ­ umíme spočítat, známe-li výběrové rozložení
 chyby systematické ­ nevhodné statistiky, špatné měření, špatný
způsob výběru vzorku (metodologie)
Jak dobré jsou tyto odhady?
AJ: estimates, sampling error. random error, systematic error, sampling distribution
Estimační kvality statistik I
Kvality statistiky jako prostředku odhadu ,,skutečné" hodnoty v populaci
AJ: statistics as estimators, estimation upraveno dle Glass, Hopkins
Estimační kvality statistik II
 Nezkreslenost
 tj. že systematicky nenad(pod)hodnocuje
 např. s podhodnocuje
 Konzistence
 s velikostí vzorku roste přesnost odhadu
 Relativní účinnost
 jak rychle roste přesnost s velikostí vzorku
 zde vítězí M nad Md a strhává s sebou i další momentové
statistiky
 jejich výhodou je i snadné počítání s nimi
AJ: unbiasedness, consistency, relative efficiency
Výběrové rozložení a sm. chyba
 Spočítáme-li tutéž statistiku na mnoha nezávislých
náhodných vzorcích
 získáme mnoho různých odhadů parametru
 tyto odhady mají nějaké rozložení - výběrové rozložení
http://onlinestatbook.com/stat_sim/sampling_dist/index.html
 Výběrové rozložení obvykle můžeme popsat
 průměrem ­ ten se u dobrých statistik blíží hodnotě parametru
 směrodatnou odchylkou ­ říkáme jí směrodatná chyba ((odhadu)
parametru) nebo také střední chyba a obecněji i výběrová chyba
 Čím je velikost vzorku/ů větší, tím je směrodatná chyba menší
AJ: sampling distribution, standard error (of the mean)
Výběrové rozložení (odhadu) průměru
Odhad průměru má přibližně normální rozložení,
 jehož průměr je  se směrodatnou chybou .....................
 Platí to i tehdy, když rozložení proměnné není normální.
 a to ,,díky" centrálnímu limitnímu teorému
 Jenomže my obvykle neznáme s...
Neznáme-li s, musíme použít s
 průměr zůstává , směrodatná chyba je nyní ......................
 výběrové rozložení není normální, jde o
Studentovo t -rozložení
 jako normální s těžšími konci (t je pro t-rozložení totéž, co z pro normální rozložení)
 má různé tvary pro různá n : stupně volnosti ­ n (ný)
 zde n = N-1; čím vyšší N, tím se t-rozložení blíží normálnímu
AJ: central limit theorem, Student's t-distribution, degrees of freedom (d.f.)
N
x
s
s 
N
s
sx 
Studentovo t -rozložení
Výběrové rozložení dalších statistik
Nyní je tedy třeba ke každé popisné statistice znát ještě další vlastnost ­ její
teoretické výběrové rozložení
 relativní četnost ­ přibližně normální - Hendl 156
 rozptyl ­ po transformaci 2-rozložení (chí kvadrát) - Hendl 159
 Pearsonova r ­ po Fisherově transformaci normální ­ Hendl 252
Teoretická výběrová rozložení různých statistik jsou různá
 Statistika je obvykle transformována do podoby, která má jedno z běžných
teoretických rozložení: normální, chí-kvadrát rozložení (Pearsonovo), trozložení
(Studentovo), F-rozložení (Fisherovo, Snedecorovo)
 Netřeba je znát z hlavy, programy je používají za vás, ale stojí za to vědět, že
existují přehledy ­ např. Receptář Oseckých nebo Sheskin ISBN 1584884401
 Pro interpretační potřeby si obvykle vystačíme s představou výběrového
rozložení průměru
 Pozor, centrální limitní teorém se týká pouze výběrového rozložení průměru!
AJ: chi-square distribution, F-distribution
Bodové vs. intervalové odhady
Parametr se můžeme snažit odhadnout...
 bodovým odhadem ­ tj. odhadujeme přímo hodnotu
parametru, např. průměr. Kvalita bodového odhadu viz Hendl 169.
 intervalovým odhadem ­ tj. odhadnutím intervalu, který
parametr s určitou p-ností zahrnuje
 výsledkem intervalového odhadu je interval spolehlivosti
 interval spolehlivosti tvoříme z bodového odhadu a znalosti jeho
výběrového rozložení, tj. (bododchylka)
 intervalový odhad lepší - více informací
 té p-nosti se v tomto kontextu říká hladina spolehlivosti (1-a)
 typicky se používá 95% a 99% hladina spolehlivosti
 pak říkáme, že hledaný parametr je s 95% p-ností v intervalu spolehlivosti
Zkuste si sami: http://onlinestatbook.com/stat_sim/conf_interval/index.html
AJ: point estimate, interval estimate, confidence interval (CI), level of confidence, consistency, unbiasedness, relative efficiency, resistence
X
zXCI saa 2/1)1(  
a je p-nost chyby a
proto je hladina
spolehlivosti 1-a, tj.
95% spolehlivost
znamená 5%
chybovost: (1-0,05)
Příklad konstrukce intervalu spolehlivosti
pro průměr 1
Na vzorku dětí (N=100) s různobarevnýma očima jsme spočítali průměrné
IQ 130, přičemž víme, že s =15.
 bodový odhad průměrného IQ v populaci dětí s různobarevnýma očima (tj.
parametru, ) je 130
 intervalový odhad
 Známe-li s, výběrové rozložení průměru má normální rozložení...
 ...se středem v .  neznáme, a tak použijeme bodový odhad m = 130
 ... se směrodatnou chybou odhadu průměru sm = s /N = 15/ 100 = 1,5.
 Zvolíme-li hladinu spolehlivosti 1-a = 95%,
 pak v tabulkách/Excelu zjistíme, že 95% normálního rozl. je mezi hodnotami
z= -1,96 a 1,96 ,tj. 1-a/2z = 0,975z = 1,96 , Excel: =NORMSINV(0,975)
 interval spolehlivosti: (m - 1,96sm; m + 1,96sm) = (127,1 ; 132,9),
 tj. s 95% pravděpodobností 127,1    132,9
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
90 100 110 120 130 140 150 160 170
IQ
průměr IQ
Příklad konstrukce intervalu spolehlivosti
pro průměr 2
Na vzorku dětí (N=100) s různobarevnýma očima jsme spočítali
průměrné IQ 130 a s =15.
 bodový odhad průměrného IQ v populaci dětí s různobarevnýma
očima (tj. parametru, ) je 130
 intervalový odhad
 střed intervalu spolehlivosti bude na bodovém odhadu, tj. m = 130
 víme, že výběrové rozložení průměru má t­rozložení se stupni volnosti
n = N-1 = 99
 zvolíme-li hladinu spolehlivosti 1-a =95%,
 pak v tabulkách (Excelu) zjistíme, že 95% t-rozložení je mezi hodnotami
t=-1,98 a 1,98 (tj. 1-a/2t (n)= 0,975t (99) = 1,98 excel: TINV(0,05;99))
 směrodatná chyba odhadu průměru sm = s /n = 15/  100 = 1,5
 interval spolehlivosti: (m - 1,98sm; m + 1,98sm) = (127,0 ; 133,0),
 tj. s 95% pravděpodobností 127,0    133,0 pozor na tento rozdíl: ve
středu intervalu je m, někde v
intervalu je v 95% případů 
Interpretace intervalu spolehlivosti
 ... je prostá, avšak zrádná
 95% interval spolehlivosti znamená, že sestrojujeme-li tento interval dle výše
uvedených instrukcí, v 95% případů sestrojení intervalu tento interval
zahrnuje odhadovaný parametr, tj. v 95% případů je závěr, že  je mezi čísly a a
b, správný.
 V tomto smyslu to také znamená, že máme subjektivní 95% jistotu, že parametr je
v námi určeném intervalu.
 V konkrétním případě, kdy jsme spočetli konkrétní interval spolehlivosti (127   
133), to neznamená, že v 95% případech je  v intervalu od 127 do 133.
 To proto, že  je konstanta; při opakovaných výzkumech se nemění. Díky omylnému výběru v každém
výzkumu vychází poněkud jiný interval sestrojený podle jiného výběrového průměru. Jinými slovy,
trefujeme se obručí na kolík a ne kolíkem do obruče.
 O čem tohle slovíčkaření je? O rozdílu mezi četnostním a subjektivním
(Bayesovským) pojetím pravděpodobnosti.
Shrnutí
 Na vzorcích počítáme statistiky, které jsou
odhadem populačních parametrů.
 K posouzení přesnosti takového odhadu musíme
znát výběrové rozložení statistiky, kterou k
odhadu používáme, zejména jeho variabilitu směrodatnou
chybu.
 Směrodatná chyba klesá především s velikostí
vzorku.
 Přesnost odhadu parametru sdělujeme
prostřednictvím intervalu spolehlivosti.