(c) Stanislav Ježek, Jan Širůček PSY117 2019 Statistická analýza dat v psychologii Přednáška 1 ÚVOD, ČETNOSTI A ROZLOŽENÍ ČETNOSTÍ Je snadné lhát s pomocí statistiky. Je těžké říkat pravdu bez ní. Andrejs Dunkels; wikiquote Vyučující (c) Stanislav Ježek, Jan Širůček (c) Stanislav Ježek, Jan Širůček Kostra PSY117 – Statistická analýza dat oPochopení základních statistických pojmů a myšlenek – statistická gramotnost oPoužití základních statistických postupů oAktivní i pasivní komunikace statistických zjištění o o o o1 seminární práce (10b) o3 průběžné písemky (3x10b) oZávěrečný test (50b) Obtížnost statistiky (c) Stanislav Ježek, Jan Širůček Rok Zapsáno A B C D E F - 2018 102 7 19 18 13 10 15 17 2017 99 6 18 24 17 11 13 7 2016 86 2 15 17 15 12 13 7 2015 78 7 10 19 18 7 6 9 2014 73 4 6 20 13 11 10 8 2013 98 6 18 16 15 9 16 14 2012 84 8 25 8 12 4 16 9 2011 76 9 11 12 11 4 12 15 2010 81 8 17 12 13 8 11 9 Obtížnost statistiky (c) Stanislav Ježek, Jan Širůček (c) Stanislav Ježek, Jan Širůček Obtížnost statistiky oStatistika je obtížná … i pro přírodovědně orientované o oMatematické dovednosti kamenem úrazu nejsou, většinou je máte (rs=0,13) oStatistika koreluje s ostatními Áčky – společným jmenovatelem je snaha a obecné předpoklady. 101 102 103 104 105 106 107 108 112 113 118 rs 0,36 0,53 0,52 0,59 0,51 0,53 0,56 0,49 0,42 0,33 0,36 (c) Stanislav Ježek, Jan Širůček Jak se učit statistiku oS. = lehká matematika, těžké myšlení o…jako cizí jazyk npo malých kouscích, pravidelně npozor na slovíčka nprakticky: tužka-papír-kalkulačka + počítač (Excel, SPSS, jamovi, R...) oNemáme dobrou učebnici v češtině nHendl – i ve čtvrtém vydání žádná cvičení, obtížně stravitelný text nzbývá angličtina: Howell; Howitt&Cramer; Glass&Hopkins, Field nweb: wiki, statsoft.com, Coursera, Khan Academy…. o…sám i společně ndiskuzní fórum FB: http://goo.gl/Mt95eT nposkytovna: sdílení materiálů nMU Math and Stats Support Centre http://mathstat.econ.muni.cz/ (c) Stanislav Ježek, Jan Širůček Co je to vlastně statistika? oPopis získaných dat o jevech, které se vyskytují ve větších množstvích nPopis proměnných: jaké podoby jevu, jak časté? n Popis souvislostí mezi proměnnými/jevy – závislé a nezávislé proměnné o oStatistické usuzování ze vzorku na populaci nPravděpodobnostní usuzování nKonfrontace očekávání (modelů) se získanými daty nTestování hypotéz o AJ: description, data, variable, statistical inference, population, dependebta variable, independent variable Statistika je aplikovanou matematikou a logikou a jako taková je do značné míry nezávislá na filozofii poznávání. Statistika je nástroj k popisu dat o jevech. Tento nástroj může použít kdokoli, badatelé zastávající různé epistemologie, různé psychologické směry i různé metodologie. Tento nástroj lze použít dobře i špatně. To je odpovědnost uživatele. Data? Jaká data? oO charakteristikách účastníků výzkumu. oO výkonech žáků ve škole oO vybraném vzorku lidí, s nimiž budeme srovnávat své klienty oO jednom klientovi a jeho změnách v čase oO sobě, svém životě, nebo praxi o oZáznamy, pozorování, testování, vzpomínky... oZáměrně vytvářená data pro výzkum (c) Stanislav Ježek, Jan Širůček K čemu data? o (c) Stanislav Ježek, Jan Širůček DATA OTÁZKA Známky. Počet spotřebovaných termínů. Čas strávený učením. Hrdost při zvládnutí… Jak náročná je PSY117? Výkony (známky, body…) + IQ, známky ze SŠ, seberegulace Využití zdrojů Vynaložené úsilí Jak zvládnout PSY117? K čemu data? o (c) Stanislav Ježek, Jan Širůček OTÁZKA DATA Kladení (si) otázek je základní prvkem smysluplnosti dat. Data nesou (omylnou) informaci o jevech, o kterých si klademe otázky. Analýzou dat se snažíme zpracovat informaci obsaženou v datech tak, abychom získali podklad pro odpověď na svou otázku. (c) Stanislav Ježek, Jan Širůček K čemu je statistika jako taková? oFormalizované zpracování zkušenosti, když npočet zkušeností, výskytů jevu přesáhne 7±2 (automat) nhledané je malé (mikroskop) nzáludnosti naší kognice představují problém (zvl. paměť) oMotivuje vytváření záznamů o zkušenosti (a.k.a. dat, analýz) o„Objektivní“ (=v komunitě srozumitelný) popis výskytu jevů oHledání společného, typického, normálního i jedinečného, odlišného oHledání vztahů, souvislostí mezi jevy oTrénuje myšlení nkritické myšlení, modely vzniku jevů nmyšlení o variabilitě jevů (≈rozdílech mezi lidmi) nuvědomění si všudypřítomnosti chyby měření (vnímání) npravděpodobnostní myšlení Objektivní není totéž, co pravdivý. (c) Stanislav Ježek, Jan Širůček K čemu je statistika psychologům? 1.V běžném životě – statistická gramotnost (literacy) o 2.Ve výzkumu ohledání pravidelností + identifikace jedinců, kteří se těmto pravidelnostem vzdalují 3.V aplikovaných disciplínách a praxi oformalizovaná reflexe praxe - zjišťování efektů, výsledků – co se mi osvědčuje a co ne? 4.Při diagnostice, poznávání lidí odiagnostické metody mají statistické základy – chyba měření ostatistické pojetí normality a odchylky od ní opravděpodobnost správného určení diagnózy Malá mapa semestru oJaké hodnoty(podoby jevu) se vyskytují a jak často? nJe v tom nějaká pravidelnost? oExistuje souvislost mezi výskytem jednoho jevu a výskytem nějakého jiného? nDokážeme z existence jednoho jevu usuzovat na ten druhý? oJak velké zkreslení asi vzniklo tím, že máme data jen o zlomku všech výskytů zkoumaného jevu? (c) Stanislav Ježek, Jan Širůček (c) Stanislav Ježek, Jan Širůček 0 2 2 2 4 11 3 10 10 5 3 1 3 4 3 2 4 3 0 1 4 1 4 2 5 24 3 0 0 0 2 6 5 5 1 4 7 4 4 2 2 2 3 3 4 7 4 2 5 14 0 10 1 10 15 Co vidíte? Čísla. (c) Stanislav Ježek, Jan Širůček Data, proměnné oData vznikají (standardizovaným) záznamem jevů oData se člení do proměnných oProměnné reprezentují jednotlivé znaky, charakteristiky, atributy, vlastnosti zkoumaných jevů či objektů, popř. jejich kombinace nProměnné vznikají kódováním hrubých dat nZ jedněch dat můžeme udělat více proměnných oProměnné nabývají různých hodnot, pokud ne, jsou to konstanty o o oAJ: data, measurement, variable, coding, value, constant Příklad inteligenčního testu – hrubé skóry se přepočítávají na jiné skóry usnadňující interpretaci, ale také na hrubší kategorie. To vše z jednoho výkonu. (c) Stanislav Ježek, Jan Širůček Vznik dat - měření oStandardizovaný postup, procedura oProcedura, kt. dává číslům smysl oTato procedura je vždy zatížena chybou oY = T + E nNaměřená hodnota = skutečná hodnota + chyba o o o oAJ: measurement, procedure, measurement error, observed(measured) value(score), true score Procedura někdy jednoduchá jindy složitá Zde je propojení statistiky s metodologií. (c) Stanislav Ježek, Jan Širůček 0 2 2 2 4 11 3 10 10 5 3 1 3 4 3 2 4 3 0 1 4 1 4 2 5 24 3 0 0 0 2 6 5 5 1 4 7 4 4 2 2 2 3 3 4 7 4 2 5 14 0 10 1 10 15 Odpovědi 54 lidí na otázku: Přibližně kolik hodin týdně strávíte sportováním? Co vidíte? Data. Hrubá data. (c) Stanislav Ježek, Jan Širůček Chyby měření o(ne)přesnost nMěříme-li vícekrát tentýž objekt, střední hodnota všech měření odpovídá skutečné hodnotě. n≈ náhodná chyba n≈ ≈ přibližně odpovídá pojmu reliabilita o(ne)správnost nMěříme-li vícekrát tentýž objekt, střední hodnota je systematicky vyšší nebo nižší než je skutečná hodnota n≈ systematická chyba n oTyto chyby se mohou kombinovat o o o o oAJ: accuracy, bias, random error, systematic error, reliability Procedura někdy jednoduchá jindy složitá (c) Stanislav Ježek, Jan Širůček Co ta čísla-kódy-hodnoty znamenají? Úrovně měření (typy měřítka, škály) Úroveň Operace Příklady 1 Nominální = pohlaví, tramvaj, preference 2 Ordinální (pořadová) = ≠ > < známky, souhlasení 3 Intervalová = ≠ > < + − oC, IQ, „dobré“ psychotesty 4 Poměrová = ≠ > < + − × ÷ K, váha, počty, frekvence 1+2: kategorické, 3+4: metrické, kardinální; Howell: categorical(qualitative) data vs. measurement (quantitative) data Více viz extrakt z Urbánek, Denglerová, Širůček v ISu AJ: level of measurement, nominal, ordinal, interval, ratio (c) Stanislav Ježek, Jan Širůček Typy proměnných podle počtu možných hodnot oSpojité proměnné nNekonečně mnoho hodnot – reálná čísla oDiskrétní proměnné n[Nekonečně] mnoho hodnot, jen některá (typicky celá) čísla – často se k nim chováme jako ke spojitým nNemnoho hodnot ojen 2 možné hodnoty: dichotomické (alternativní) o„pár“ možných hodnot: polytomické o o o o o oAJ: discrete, continuous, dichotomous, alternative, polytomous Usuzování na úroveň měření v praxi oÚroveň měření je ideál. oU skutečné proměnné argumentovaně předpokládáme úroveň měření, považujeme ji za N/O/I/P oRozlišujeme měřenou charakteristiku a škálu, pomocí které byla změřena nČasto je v psychologii charakteristika uvažována jako intervalová spojitá proměnná, kterou měříme diskrétní nebo dokonce polytomickou škálou npř. postoj oČasto hledáme argumenty, abychom mohli škálu považovat za I/P – jednodušší statistiky, více informace, (-) riziko zkreslení. nFlexibilní, argumentující, opatrný přístup – žádné dogma. nVíce detailů v psychometrice n (c) Stanislav Ježek, Jan Širůček (c) Stanislav Ježek, Jan Širůček http://www.gclan.net/wp-content/uploads/2013/10/painmeter.png Shrnutí oPři hledání odpovědí na otázky a řešení problémů je užitečné využít data – psychologie jako empirická věda oI při reflexi vlastních zkušeností je užitečné nespoléhat jen na paměť oKaždá statistika má smysl jen jako podklad pro odpověď na určitou otázku – ne sama o sobě – a v kontextu této otázky má smysl ji i komunikovat oTyto principy jsou užitečné stejně občanovi jako psychologovi i jako výzkumníkovi v psychologii oData tvoříme (my nebo někdo jiný) a tomu, co potřebujeme vědět, odpovídají vždy nedokonale oTvoříme různé typy dat, pro které máme různé statistiky – kategorie vs. škály (c) Stanislav Ježek, Jan Širůček Máme data o o o o„účetnictví“ může začít (c) Stanislav Ježek, Jan Širůček (c) Stanislav Ježek, Jan Širůček Jaké hodnoty máme v datech? oJaké hodnoty proměnné/ých se v datech vyskytují? – třídění, kódování oJaké různé odpovědi jsme získali na tu kterou otázku dotazníku? oJaké různé počty sledovaných chování se při pozorování vyskytly? oKolik kterých hodnot máme? – četnosti nJe některých víc, jiných míň? nZdá se být v četnostech jednotlivých hodnot nějaký řád? Kolik je v Brně intelektově nadaných lidí? 2% z 3000000. Psychologické intermezzo oKolikrát jste v uplynulém měsíci jedli maso? o oStrategie odpovídání nPočítání ovybavit a spočítat ovybavit po podoblastech a spočítat ovybavení části a extrapolace nPřímé vybavení počtu událostí, je-li uložen nVybavení frekvence výskytu – obecné, kotva + úprava nObecné odhady – prostý odhad, kontextuálně dovozený odhad nTourangeau, Rips, Rasinski: Psychology of survey response. OUP, 2000. o (c) Stanislav Ježek, Jan Širůček Na naši paměť bychom moc spoléhat neměli. (c) Stanislav Ježek, Jan Širůček Tabulka četností (frekvencí) hodnota/ interval (absolutní) četnost kumulativní četnost relativní četn. (%) kumulativní rel. č. Minimum / interval1 Hodnota2 / interval2 … Maximum / posl. interv. N 100 Celkem N 100 Široký šikmo nahoru L: „počet“ v Tab 3.2, hustota (jde o hustotu pravděpodobnosti), obr. 3.5 – ne frekvence, ale procenta AJ: (absolute) frequencies, relative frequencies, percent, cumulative, value, interval (class), total, N=sample size V Excelu funkce ČETNOSTI. Zadává se zrádně: vybrat buňky, které mají obsahovat absolutní četnosti; napsat funkci a !!ukončit Ctrl+Shift+Enter. U nominálních dat nemají kumulativní četnosti pochopitelně smysl. (c) Stanislav Ježek, Jan Širůček Tabulka četností - poznámky „Ruční“ tvorba tabulky četností 1.Seřazení hodnot (od nejmenší do největší) 2.Rozhodnutí o rozdělení na intervaly (I, P) 3.Spočítání abs. četností hodnot/intervalů 4.Spočítání relativních četností 5.Spočítání kumulativních četností 6.Spočítání kumulativních relativních četností 7. (c) Stanislav Ježek, Jan Širůček (c) Stanislav Ježek, Jan Širůček Poklikáním se tabulka otevře jako editovatelný objekt v Excelu. Též Datíčka.xls, list „četnosti“. (c) Stanislav Ježek, Jan Širůček Grafické podoby tabulky četností oKategorické proměnné nsloupcový graf (diagram) nkoláčový diagram – zřídkakdy, neukazuje rozložení oMetrické proměnné nHistogram – jako sloupcový, ale šíře sloupců reprezentuje šíři intervalů nstem-and-leaf – rozdělení hodnot do intervalů o o o o o o o o o o oAJ: bar chart, histogram, pie chart, frequency distribution, stem-and-leaf plot Procedura někdy jednoduchá jindy složitá (c) Stanislav Ježek, Jan Širůček Sloupcový diagram (c) Stanislav Ježek, Jan Širůček Sloupcový diagram s tříděním ? (c) Stanislav Ježek, Jan Širůček (c) Stanislav Ježek, Jan Širůček Histogram Histogram s širšími intervaly (c) Stanislav Ježek, Jan Širůček Histogram s relativními četnostmi (%) o (c) Stanislav Ježek, Jan Širůček (c) Stanislav Ježek, Jan Širůček (c) Stanislav Ježek, Jan Širůček Kumulativní frekvenční polygon (empirická kumulativní distribuční funkce) (c) Stanislav Ježek, Jan Širůček Číslicový histogram „stonek a list“ oPřibližně kolik hodin týdně strávíte sportováním? - >> Stem-and-Leaf Plot o o Frequency Stem & Leaf o o 9,00 0 . 001111111 o 16,00 0 . 2222222223333333 o 22,00 0 . 4444445555555555555555 o 4,00 0 . 6777 o 8,00 0 . 88888889 o 7,00 1 . 0000000 o ,00 1 . o ,00 1 . o 1,00 1 . 6 o 4,00 Extremes (>=21) o o Stem width: 10 o Each leaf: 1 case(s) Kernel density plot (c) Stanislav Ježek, Jan Širůček „Férové“ zobrazení dat oKaždý graf (i tabulka) musí být natolik přehledně popsán (nadpis + popisky uvnitř), aby byl srozumitelný i bez čtení textu o oRozličné rady, např. Good, Hardin nPopisky dat by neměly stínit datové body nRozsah škál by měl být volen smysluplně, aby byla plocha užitečně využita („nulové“ body na škálách). nNumerické osy naznačují spojité proměnné, u kategorií volme raději textové popisky. nNepropojujme datové body, jde-li o diskrétní škály, pokud nemá interpolace smysl, nebo pokud nemáme v úmyslu srovnání profilů oDalší nHans Rosling na TEDu: http://www.ted.com/talks/hans_rosling_shows_the_best_stats_you_ve_ever_seen.html nNathan Yau: Visualise this… http://www.amazon.com/o/ASIN/0470944889?tag=adapas02-20 n n (c) Stanislav Ježek, Jan Širůček (c) Stanislav Ježek, Jan Širůček (c) Stanislav Ježek, Jan Širůček Shrnutí oData mají typicky podobu proměnných, které nesou informaci o různých aspektech jevu, který nás zajímá. oPrvní informací (statistikou), která nás zajímá, je četnost výskytu jednotlivých hodnot (resp. hodnot uvnitř jednotlivých intervalů) oČetnosti popisujeme (=komunikujeme je) ntabulkou četností ngraficky – histogram, sloupcový diagram n(pomocí percentilů) o (c) Stanislav Ježek, Jan Širůček (c) Stanislav Ježek, Jan Širůček Rozložení rozdělení, distribuce četností oMěřené jevy jsou nějak rozděleny do kategorií (intervalů) a tyto kategorie jsou různě „populární“ – četné. oČetnosti u reálných ordinálních a vyšších proměnných obvykle nebývají distribuovány nahodile – jejich rozdělení zobrazené histogramem má popsatelný tvar. o o o o oRozdělení četností je tedy to, kolik relativně (či absolutně) máme kterých hodnot měřené proměnné. nTypicky lze přibližně popsat slovy, např.: vyskytlo se hodně středních hodnot a relativně málo extrémních hodnot. nToto rozložení jevů na měřené škále je nejlépe vidět na grafech. nObvykle nějaké konkrétní rozložení očekáváme. o (c) Stanislav Ježek, Jan Širůček Tvar rozložení četností oNormální oUniformní oPočet vrcholů nUnimodální, bimodální, multimodální oZešikmení nZešikmené zprava (pozitivně) Zešikmené zleva (negativně) oStrmost nLeptokurtické, platykurtické AJ: frequency distribution, normal, uniform(rectangular), unimodal, bimodal, positively/negatively skewed, lepto(platy)kurtic, floor/ceiling effect Parametrický popis rozložení oRozložení je úplně popsáno (určeno) četnostmi jednotlivých hodnot, popř. intervalů. oJe tedy popsáno množstvím statistik (četností), přesněji k-1 četnostmi, pokud proměnná nabývá k hodnot (či k intervalů). oLze rozložení popsat efektivněji, méně statistikami (parametry)? oVšechny hodnoty jsou stejně četné (1 číslo) nfk=k/N kde k je konstanta ….. UNIFORMNÍ rozložení oČetnosti jsou výsledkem procesu, který se dá připodobnit k opakovanému házení korunou, kdy nás zajímá počet „hlav“ npk=pk(1-p)n-k(n!/(n!-k!)) kde n = počet hodů, k= počet hlav p=pravděpodobnost „hlavy“ nBINOMICKÉ rozložení pro diskrétní proměnné oNormální rozložení o n (c) Stanislav Ježek, Jan Širůček (c) Stanislav Ježek, Jan Širůček Normální (Gaussovo) rozložení o o o o o o o o ohttp://en.wikipedia.org/wiki/Image:Standard_deviation_diagram.png o o„Normální“ ve smyslu „velmi běžné“ oTam, kde se setkává mnoho nezávislých vlivů. oNe vždy, nesouvisí s „kvalitou“ dat. o oAJ: normal distribution, bell curve Procedura někdy jednoduchá jindy složitá (c) Stanislav Ježek, Jan Širůček Poissonovo rozložení o o o o o o o o o o o o oRozložení četnosti výskytu řídkých událostí (ta lambda v grafu = průměrná frekvence za jednotku času) oDěje-li se událost v průměru častěji, než 10x za časovou jednotku, která nás zajímá, je jeho dobrou aproximací normální rozložení. o oAJ: Poisson distribution Poisson_distribution_PMF Rozložení oZnámky ze statistiky oVýška studentů psychologie oDepresivita oPostoje k interrupcím oSpokojenost se studiem oPohlaví na psychologii oPočet návštěv u lékaře o (c) Stanislav Ježek, Jan Širůček (c) Stanislav Ježek, Jan Širůček Shrnutí oPrvní informací (statistikou), která nás zajímá je četnost výskytu jednotlivých hodnot (resp. hodnot uvnitř jednotlivých intervalů) oKonfiguraci četností nazýváme rozložení (rozdělení). oRozložení popisujeme (=komunikujeme je) ntabulkou četností ngraficky – histogram, sloupcový diagram n(pomocí percentilů) oO typu, tvaru rozložení hodnot proměnné uvažujeme většinou graficky – histogram, sloupcový diagram. oNejčastěji diskutovaným rozložením je tzv. normální rozložení.