(c) Stanislav Ježek, Jan Širůček PSY117 2016 Statistická analýza dat v psychologii Přednáška 1 ÚVOD, ČETNOSTI A ROZLOŽENÍ ČETNOSTÍ Je snadné lhát s pomocí statistiky. Je těžké říkat pravdu bez ní. Andrejs Dunkels; wikiquote (c) Stanislav Ježek, Jan Širůček Kostra PSY117 – Statistická analýza dat oPochopení základních statistických pojmů oPoužití základních statistických postupů oAktivní i pasivní komunikace statistických zjištění o o o o2 seminární práce (20b) o3 průběžné písemky (3x10b) oZávěrečný test (50b) Obtížnost statistiky Kód Zapsáno A B C D E F - 2015 78 7 10 19 18 7 6 9 2014 73 4 6 20 13 11 10 8 2013 98 6 18 16 15 9 16 14 2012 84 8 25 8 12 4 16 9 2011 76 9 11 12 11 4 12 15 2010 81 8 17 12 13 8 11 9 (c) Stanislav Ježek, Jan Širůček Obtížnost statistiky o (c) Stanislav Ježek, Jan Širůček (c) Stanislav Ježek, Jan Širůček Obtížnost statistiky oStatistika je obtížná … i pro přírodovědně orientované o oMatematické dovednosti kamenem úrazu nejsou, většinou je máte (rs=0,13) oStatistika koreluje s ostatními Áčky – společným jmenovatelem je snaha a obecné předpoklady. 101 102 103 104 105 106 107 108 112 113 118 rs 0,36 0,53 0,52 0,59 0,51 0,53 0,56 0,49 0,42 0,33 0,36 (c) Stanislav Ježek, Jan Širůček Jak se učit statistiku oS. = lehká matematika, těžké myšlení o…jako cizí jazyk npo malých kouscích, pravidelně npozor na slovíčka nprakticky: tužka-papír-kalkulačka + počítač (Excel, SPSS, Statistica...) oNeexistuje dobrá učebnice v češtině nHendl – i ve čtvrtém vydání žádná cvičení, obtížně stravitelný text nzbývá angličtina: např. Howell; Howitt&Cramer; Glass&Hopkins, Field nweb: wiki, statsoft.com o…sám i společně ndiskuzní fórum FB: http://goo.gl/Mt95eT nposkytovna: sdílení materiálů (c) Stanislav Ježek, Jan Širůček Co je to vlastně statistika? oPopis získaných dat o jevech, které se vyskytují ve větších množstvích nPopis proměnných: jaké podoby jevu, jak časté? n Popis vztahů mezi proměnnými/jevy n o oStatistické usuzování ze vzorku na populaci nPravděpodobnostní usuzování nKonfrontace očekávání (modelů) se získanými daty nTestování hypotéz o AJ: description, data, variable, statistical inference, population Statistika je aplikovanou matematikou a logikou a jako taková je do značné míry nezávislá na filozofii poznávání. Statistika je nástroj k popisu dat o jevech. Tento nástroj může použít kdokoli, badatelé zastávající různé epistemologie, různé psychologické směry i různé metodologie. Tento nástroj lze použít dobře i špatně. To je odpovědnost uživatele. (c) Stanislav Ježek, Jan Širůček K čemu je statistika jako taková? oFormalizované zpracování zkušenosti, když npočet zkušeností, výskytů jevu přesáhne 7±2 (automat) nhledané je malé (mikroskop) nzáludnosti naší kognice představují problém (zvl. paměť) oMotivuje vytváření záznamů o zkušenosti (a.k.a. dat) o„Objektivní“ (=v komunitě srozumitelný) popis výskytu jevů oHledání společného, typického, normálního i jedinečného oHledání vztahů, souvislostí mezi jevy oTrénuje myšlení nkritické myšlení, modely vzniku jevů nmyšlení o variabilitě jevů (≈rozdílech mezi lidmi) nuvědomění si všudypřítomnosti chyby měření (vnímání) npravděpodobnostní myšlení Objektivní není totéž, co pravdivý. (c) Stanislav Ježek, Jan Širůček K čemu je statistika psychologům? 1.V běžném životě – statistická gramotnost (literacy) o 2.Ve výzkumu ohledání pravidelností + identifikace jedinců, kteří se těmto pravidelnostem vzdalují 3.V aplikovaných disciplínách a praxi oformalizovaná reflexe praxe - zjišťování efektů, výsledků – co se mi osvědčuje a co ne? 4.Při diagnostice, poznávání lidí odiagnostické metody mají statistické základy ostatistické pojetí normality a odchylky od ní opravděpodobnost správného určení diagnózy Malá mapa semestru oJaké hodnoty(podoby jevu) se vyskytují a jak často? nJe v tom nějaká pravidelnost? oExistuje souvislost mezi výskytem jednoho jevu a výskytem nějakého jiného? nDokážeme z existence jednoho jevu usuzovat na ten druhý? oJak velké zkreslení asi vzniklo tím, že máme data jen o zlomku všech výskytů zkoumaného jevu? (c) Stanislav Ježek, Jan Širůček (c) Stanislav Ježek, Jan Širůček 12,08 1 2 2 15 11 5 1 12,58 1 1 1 24 13 4 1 11,92 1 2 2 7 13 6 2 12,33 1 2 2 10 17 4 2 12,08 1 1 1 7 13 6 1 11,92 1 2 2 10 11 4 1 12,67 1 2 1 16 11 3 1 12,08 1 2 2 7 1 6 1 12,25 1 1 1 24 11 4 1 12,67 1 1 2 6 1 6 1 12,08 1 2 2 7 10 4 2 12,67 1 1 2 10 17 6 1 Co vidíte? Čísla. (c) Stanislav Ježek, Jan Širůček Data, proměnné oData vznikají měřením(záznamem) jevů oData mají obvykle podobu proměnných nProměnné vznikají(jsou) kódováním dat nZ jedněch dat můžeme udělat více proměnných oProměnné reprezentují znaky, charakteristiky, atributy, vlastnosti zkoumaných jevů či objektů, popř. jejich kombinace oProměnné nabývají různých hodnot, pokud ne, jsou to konstanty o o oAJ: data, measurement, variable, coding, value, constant Příklad inteligenčního testu – hrubé skóry se přepočítávají na jiné skóry usnadňující interpretaci, ale také na hrubší kategorie. To vše z jednoho výkonu. (c) Stanislav Ježek, Jan Širůček Data, proměnné oData vznikají měřením(záznamem) jevů oProměnné tvoříme z dat nProměnné vznikají kódováním dat nZ jedněch dat můžeme udělat více proměnných oProměnné reprezentují znaky, charakteristiky, atributy, vlastnosti zkoumaných jevů či objektů, popř. jejich kombinace oProměnné nabývají různých hodnot, pokud ne, jsou to konstanty o o oAJ: data, measurement, variable, coding, value, constant Měření: Standardizovaný postup, procedura Procedura, kt. dává číslům smysl Tato procedura je vždy zatížena chybou Někdy je měření prostý záznam Příklad inteligenčního testu – hrubé skóry se přepočítávají na jiné skóry usnadňující interpretaci, ale také na hrubší kategorie. To vše z jednoho výkonu. (c) Stanislav Ježek, Jan Širůček Data, proměnné oData vznikají měřením(záznamem) jevů oData mají obvykle podobu proměnných nProměnné vznikají(jsou) kódováním dat nZ jedněch dat můžeme udělat více proměnných oProměnné reprezentují znaky, charakteristiky, atributy, vlastnosti zkoumaných jevů či objektů, popř. jejich kombinace oProměnné nabývají různých hodnot, pokud ne, jsou to konstanty o o oAJ: data, measurement, variable, coding, value, constant Příklad inteligenčního testu – hrubé skóry se přepočítávají na jiné skóry usnadňující interpretaci, ale také na hrubší kategorie. To vše z jednoho výkonu. (c) Stanislav Ježek, Jan Širůček Vznik dat - měření oStandardizovaný postup, procedura oProcedura, kt. dává číslům smysl oTato procedura je vždy zatížena chybou oY = T + E nNaměřená hodnota = skutečná hodnota + chyba o o o oAJ: measurement, procedure, measurement error, observed(measured) value(score), true score Procedura někdy jednoduchá jindy složitá Zde je propojení statistiky s metodologií. (c) Stanislav Ježek, Jan Širůček věk národnost mat cj pr_oblib pr_neobl ocek_vzd stav_r 12,08 1 2 2 15 11 5 1 12,58 1 1 1 24 13 4 1 11,92 1 2 2 7 13 6 2 12,33 1 2 2 10 17 4 2 12,08 1 1 1 7 13 6 1 11,92 1 2 2 10 11 4 1 12,67 1 2 1 16 11 3 1 12,08 1 2 2 7 1 6 1 12,25 1 1 1 24 11 4 1 12,67 1 1 2 6 1 6 1 12,08 1 2 2 7 10 4 2 12,67 1 1 2 10 17 6 1 Co vidíte? Čísla. (c) Stanislav Ježek, Jan Širůček Chyby měření o(ne)přesnost nMěříme-li vícekrát tentýž objekt, střední hodnota všech měření odpovídá skutečné hodnotě. n≈ náhodná chyba n≈ ≈ přibližně odpovídá pojmu reliabilita o(ne)správnost nMěříme-li vícekrát tentýž objekt, střední hodnota je systematicky vyšší nebo nižší než je skutečná hodnota n≈ systematická chyba n oTyto chyby se mohou kombinovat o o o o oAJ: accuracy, bias, random error, systematic error, reliability Procedura někdy jednoduchá jindy složitá (c) Stanislav Ježek, Jan Širůček Co ta čísla-kódy znamenají? Úrovně měření (typy měřítka, škály) Úroveň Operace Příklady 1 Nominální = pohlaví, tramvaj, preference 2 Ordinální (pořadová) = ≠ > < známky, souhlasení 3 Intervalová = ≠ > < + − oC, IQ, „dobré“ psychotesty 4 Poměrová = ≠ > < + − × ÷ K, váha, počty, frekvence 1+2: kategorické, 3+4: metrické, kardinální; Howitt&Cramer: nominal category data (1) vs score data (2-4) Více viz extrakt z Urbánek, Denglerová, Širůček v ISu AJ: level of measurement, nominal, ordinal, interval, ratio (c) Stanislav Ježek, Jan Širůček Typy proměnných podle počtu možných hodnot oSpojité proměnné nNekonečně mnoho hodnot – reálná čísla oDiskrétní proměnné n[Nekonečně] mnoho hodnot, jen některá (typicky celá) čísla – často se k nim chováme jako ke spojitým nNemnoho hodnot ojen 2 možné hodnoty: dichotomické (alternativní) o„pár“ možných hodnot: polytomické o o o o o oAJ: discrete, continuous, dichotomous, alternative, polytomous Zacházení s proměnnými podle jejich typu oReálné proměnné na ideální typy často přesně nepasují oRozlišujeme měřenou charakteristiku a škálu, pomocí které byla změřena nČasto je v psychologii charakteristika uvažována jako intervalová spojitá proměnná, kterou měříme diskrétní polytomickou škálou nPř. Postoj oHledáme argumenty pro to, abychom mohli škálu považovat za intervalovou – jednodušší statistiky, více informace, riziko zkreslení. nFlexibilní, argumentující, opatrný přístup – žádné dogma. (c) Stanislav Ježek, Jan Širůček (c) Stanislav Ježek, Jan Širůček http://www.gclan.net/wp-content/uploads/2013/10/painmeter.png Shrnutí oPři hledání odpovědí na otázky a řešení problémů je užitečné využít data – psychologie jako empirická věda oI při reflexi vlastních zkušeností je užitečné nespoléhat jen na paměť oKaždá statistika má smysl jen jako podklad pro odpověď na určitou otázku – ne sama o sobě – a v kontextu této otázky má smysl ji i komunikovat oTyto principy jsou užitečné stejně občanovi jako psychologovi i jako výzkumníkovi v psychologii oData tvoříme (my nebo někdo jiný) a tomu, co potřebujeme vědět, odpovídají vždy nedokonale oTvoříme různé typy dat, pro které máme různé statistiky – kategorie vs. škály (c) Stanislav Ježek, Jan Širůček Máme data o o o o„účetnictví“ může začít (c) Stanislav Ježek, Jan Širůček (c) Stanislav Ježek, Jan Širůček Jaké hodnoty máme v datech? oJaké hodnoty proměnné/ých se v datech vyskytují? – třídění, kódování oJaké různé odpovědi jsme získali na tu kterou otázku dotazníku? oJaké různé počty sledovaných chování se při pozorování vyskytly? oKolik kterých hodnot máme? – četnosti nJe některých víc, jiných míň? nZdá se být v četnostech jednotlivých hodnot nějaký řád? Kolik je v Brně intelektově nadaných lidí? 2% z 3000000. Psychologické intermezzo oKolikrát jste v uplynulém měsíci jedli maso? o oStrategie odpovídání nPočítání ovybavit a spočítat ovybavit po podoblastech a spočítat ovybavení části a extrapolace nPřímé vybavení počtu událostí, je-li uložen nVybavení frekvence výskytu – obecné, kotva + úprava nObecné odhady – prostý odhad, kontextuálně dovozený odhad nTourangeau, Rips, Rasinski: Psychology of survey response. OUP, 2000. o (c) Stanislav Ježek, Jan Širůček Na naši paměť bychom moc spoléhat neměli. (c) Stanislav Ježek, Jan Širůček Tabulka četností (frekvencí) hodnota/ interval (absolutní) četnost kumulativní četnost relativní četn. (%) kumulativní rel. č. Minimum / interval1 Hodnota2 / interval2 … Maximum / posl. interv. N 100 Celkem N 100 Široký šikmo nahoru L: „počet“ v Tab 3.2, hustota (jde o hustotu pravděpodobnosti), obr. 3.5 – ne frekvence, ale procenta AJ: (absolute) frequencies, relative frequencies, percent, cumulative, value, interval (class), total, N=sample size V Excelu funkce ČETNOSTI. Zadává se zrádně: vybrat buňky, které mají obsahovat absolutní četnosti; napsat funkci a !!ukončit Ctrl+Shift+Enter. U nominálních dat nemají kumulativní četnosti pochopitelně smysl. (c) Stanislav Ježek, Jan Širůček Tabulka četností - poznámky oOd nejmenší hodnoty po nejvyšší ov 1. a 2. sl. obvykle zahrnuty chybějící hodnoty nPak se rozlišuje mezi platnými hodnotami a chybějícími hodnotami ohodnoty – kategorické proměnné, málo hodnot u metrické ointervaly(třídy) – metrické proměnné nvolba šířky intervalu (stojí za to vyzkoušet více) oaby byl jejich počet přibližně N/10, <15, nebo 1+log2N (Sturgisovo pravidlo) ostejná šířka všech intervalů oTabulka četností zobrazuje téměř všechna data nPoužitím intervalů již data mírně redukujeme oMinimální podoba tabulky četností: absolutní a relativní četnosti, součtový poslední řádek o o oAJ: minimum, maximum, valid values, valid percent, interval (bin, class), interval size Též Datíčka.xls, list „četnosti“. (c) Stanislav Ježek, Jan Širůček Grafické podoby tabulky četností oKategorické proměnné nsloupcový graf (diagram) nkoláčový diagram – zřídkakdy, neukazuje rozložení oMetrické proměnné nHistogram – jako sloupcový, ale šíře sloupců reprezentuje šíři intervalů nstem-and-leaf – rozdělení hodnot do intervalů o o o o o o o o o o oAJ: bar chart, histogram, pie chart, frequency distribution, stem-and-leaf plot Procedura někdy jednoduchá jindy složitá (c) Stanislav Ježek, Jan Širůček Sloupcový diagram (c) Stanislav Ježek, Jan Širůček Sloupcový diagram s tříděním ? (c) Stanislav Ježek, Jan Širůček (c) Stanislav Ježek, Jan Širůček (c) Stanislav Ježek, Jan Širůček (c) Stanislav Ježek, Jan Širůček (c) Stanislav Ježek, Jan Širůček Kumulativní histogram (c) Stanislav Ježek, Jan Širůček Číslicový histogram „stonek a list“ o Frequency Stem & Leaf 32,00 0 . 00000000000000000000000000000000 18,00 1 . 000000000000000000 14,00 2 . 00000000000000 7,00 3 . 0000000 2,00 4 . 00 4,00 5 . 0000 1,00 6 . 0 1,00 7 . 0 10,00 Extremes (>=8,0) Stem width: 1 Each leaf: 1 case(s) „Férové“ zobrazení dat oKaždý graf (i tabulka) musí být natolik přehledně popsán (nadpis + popisky uvnitř), aby byl srozumitelný i bez čtení textu o oRozličné rady, např. Good, Hardin nPopisky dat by neměly stínit datové body nRozsah škál by měl být volen smysluplně, aby byla plocha užitečně využita („nulové“ body na škálách). nNumerické osy naznačují spojité proměnné, u kategorií volme raději textové popisky. nNepropojujme datové body, jde-li o diskrétní škály, pokud nemá interpolace smysl, nebo pokud nemáme v úmyslu srovnání profilů oDalší nHans Rosling na TEDu: http://www.ted.com/talks/hans_rosling_shows_the_best_stats_you_ve_ever_seen.html nNathan Yau: Visualise this… http://www.amazon.com/o/ASIN/0470944889?tag=adapas02-20 nHowitt & Cramer s. 21 n n (c) Stanislav Ježek, Jan Širůček (c) Stanislav Ježek, Jan Širůček (c) Stanislav Ježek, Jan Širůček Rozložení rozdělení, distribuce četností oMěřené jevy jsou nějak rozděleny do kategorií (intervalů) a tyto kategorie jsou různě „populární“ – četné. oČetnosti u reálných ordinálních a vyšších proměnných obvykle nebývají distribuovány nahodile – jejich rozdělení zobrazené histogramem má popsatelný tvar. o o o o oRozdělení četností je tedy to, kolik relativně (či absolutně) máme kterých hodnot měřené proměnné. nTypicky lze přibližně popsat slovy, např.: vyskytlo se hodně středních hodnot a relativně málo extrémních hodnot. nToto rozložení jevů na měřené škále je nejlépe vidět na grafech. nObvykle nějaké konkrétní rozložení očekáváme. o (c) Stanislav Ježek, Jan Širůček Tvar rozložení četností oNormální oUniformní oPočet vrcholů nUnimodální, bimodální, multimodální oZešikmení nZešikmené zprava (pozitivně), efekt podlahy nZešikmené zleva (negativně), efekt stropu oStrmost nLeptokurtické, platykurtické AJ: frequency distribution, normal, rectangular, unimodal, bimodal, positively/negatively skewed, lepto(platy)kurtic, floor/ceiling effect (c) Stanislav Ježek, Jan Širůček Normální (Gaussovo) rozložení o o o o o o o o ohttp://en.wikipedia.org/wiki/Image:Standard_deviation_diagram.png o o„Normální“ ve smyslu „velmi běžné“ oTam, kde se setkává mnoho nezávislých vlivů. oNe vždy, nesouvisí s „kvalitou“ dat. o oAJ: normal distribution, bell curve Procedura někdy jednoduchá jindy složitá (c) Stanislav Ježek, Jan Širůček Poissonovo rozložení o o o o o o o o o o o o oRozložení četnosti výskytu řídkých událostí (ta lambda v grafu = průměrná frekvence za jednotku času) oDěje-li se událost v průměru častěji, než 10x za časovou jednotku, která nás zajímá, je jeho dobrou aproximací normální rozložení. o oAJ: Poisson distribution Poisson_distribution_PMF Rozložení oZnámky ze statistiky oVýška studentů psychologie oDepresivita oPostoje k interrupcím oSpokojenost se studiem oPohlaví na psychologii oPočet návštěv u lékaře o (c) Stanislav Ježek, Jan Širůček (c) Stanislav Ježek, Jan Širůček Shrnutí oPrvní informací (statistikou), která nás zajímá je četnost výskytu jednotlivých hodnot (resp. hodnot uvnitř jednotlivých intervalů) oKonfiguraci četností nazýváme rozložení (rozdělení). oRozložení popisujeme (=komunikujeme je) ntabulkou četností ngraficky – histogram, sloupcový diagram n(pomocí percentilů) oO typu, tvaru rozložení hodnot proměnné uvažujeme většinou graficky – histogram, sloupcový diagram. oNejčastěji diskutovaným rozložením je tzv. normální rozložení.