Popisná statistika o grafy o z-skóry o pravděpodobnost (jako příprava pro úvod do induktivní statistiky) Grafy o pouze základní typy o pro kategoriální data - sloupcový diagram, výsečový graf o pro intervalová data – histogram, frekvenční polygon, krabicový diagram, stromkový diagram o grafy je možno znázornit v kategorizované formě – pro jednotlivé kategorie další proměnné (např. pro muže a ženy) o grafy pro vztah dvou a více proměnných budou probrány později Výsečový graf o koláčový diagram, pie chart – užívá se více v populárních publikacích než v odborných Výsečový graf o každá výseč by měla být označena % a uveden celkový počet případů o ideální pro 3-7 kategorií o výhody: srozumitelný o nevýhody: jen pro kategoriální data; neukazuje přesné údaje (pokud nejsou vyznačeny); srovnání více skupin osob problematické Sloupcový diagram o bar chart Sloupcový diagram o pro kategoriální data, může být orientován horizontálně či vertikálně o jednotlivé sloupce odděleny mezerou o výhody: srozumitelný, je možno v jednom grafu porovnat četnosti pro více skupin osob Histogram o často užívaný o podobný sloupcovému diagramu, ale je pro intervalová data o jednotlivé sloupce reprezentují nikoliv jednotlivé kategorie, ale intervaly hodnot (sloupce jsou bez mezer) o tvar histogramu závisí také na šířce intervalů Histogram o výhody: umožňuje detekovat odlehlá pozorování, srovnání s normálním rozdělením o nevýhody: nezjistíte přesné hodnoty jednotlivých případů, obvykle se nezobrazují data pro více skupin případů Histogram Grafy o frekvenční polygon – konstruován podobně jako histogram, jen místo sloupců jsou tečky spojené čarou Stromkový diagram o stem-and-leaf plot; stonek a list – podobný histogramu (naležato), ale obsahuje informace o každém případu o konstrukce diagramu – hodnoty jsou rozděleny např. na desítky (stonek) a jednotky (list) o např. hodnota 85 = 8x10 + 5x1 o pokud je hodnot pro některé desítky více, rozdělí se na další stonky Stromkový diagram Stromkový diagram Stromkový diagram o výhody: ukazuje údaje pro každý případ; je možné snadno identifikovat minimum, maximum, shluky případů, odlehlá pozorování; můžeme porovnat dvě skupiny případů zobrazením dvou přilehlých diagramů o nevýhody: nevypadá zajímavě; vhodnější spíše pro menší datové soubory (N<100) Krabicový diagram o boxplot, vousatá krabička o poskytuje bohaté zobrazení důležitých aspektů rozdělení hodnot o délka krabice odpovídá interkvartilové odchylce; uvnitř krabice je vyznačen medián o v některých variantách grafu jde např. o směrodatnou odchylku a průměr o „vousy“ je ohraničeno rozmezí hodnot Krabicový diagram Odlehlá pozorování o zvlášť jsou u boxplotu vyznačena tzv. odlehlá pozorování (outliers – obvykle hodnoty vzdálené více než 1.5 mezikvartilové odchylky od hodnoty kvartilů) a extrémní pozorování (obvykle více než 3x mezikvartilové odchylky) o odlehlá pozorování mohou zkreslit výsledky některých statistik a statistických testů Odlehlá pozorování o je proto důležité je v datech hledat; pokud je najdeme, musíme se rozhodnout, zda se jedná o ojedinělý výskyt (který by se v jiném vzorku nevyskytl) nebo výsledek chyby měření; nebo zda je tak reprezentována určitá část populace o pokud jde o ojedinělý výskyt, je možno je z další analýzy vyloučit o jinak je nutno se rozhodnout mezi dvěma možnostmi: buď je vyloučit s vědomím, že výsledky budou jejich nepřítomností zkresleny, nebo použít neparametrický test (vhodnější přístup) Krabicový diagram o výhody: užitečný pro detekci odlehlých pozorování, šikmosti rozdělení; vhodný pro porovnání více skupin případů o nevýhody: složitější Grafy – obecná doporučení o každý graf by měl mít stručný a výstižný název o obě osy grafu by měly být označeny názvy proměnných a jednotkami měření (závislá proměnná je obvykle na svislé ose) o počátek os by měl být v nule – pokud není, je třeba to vyznačit o velikost grafu a rozsah os by měl být takový, aby většina dat zabírala celý graf Z-skóry o umožňují najít a popsat pozici každé hodnoty v rámci rozdělení hodnot o a také srovnávání hodnot pocházejících z měření na rozdílných stupnicích o hrubé skóry jsou převedeny na standardizovanou stupnici (jednotkou je směrodatná odchylka) Z-skóry - příklad o např. skóry ze dvou testů – biologie a psychologie o student získal 26 bodů z biologie a 620 z psychologie. Ve kterém předmětu byl lepší? Z-skóry - příklad Z-skóry o přímé porovnání není snadné – skóry z obou testů mají rozdílné průměry i směrodatné odchylky o z skór =odchylka skóru od průměru vzhledem k velikosti směrodatné odchylky o z = odch. od průměru/směr. odch. Z-skóry - příklad o skór z biologie: (26-18)/6 = 1,33 o skór psychologie: (620-500)/100=1,2 o v biologii byl student lepší – 1,33 směrodatné odchylky nad průměrem Z-skóry o z-skór přesně udává pozici každé hodnoty vzhledem k ostatním hodnotám o znaménko (+ nebo -) ukazuje, zda je hodnota nad nebo pod průměrem rozdělení o hodnota z-skóru upřesňuje, kolik směrodatných odchylek byla hodnota od průměru vzdálena Z-skóry o průměr rozdělení z-skórů je vždy 0 o směrodatná odchylka je 1 Z-skóry vzorec pro výpočet z-skóru hodnoty X o u populace: z = (X – μ) /σ o u vzorku: z = (X - m) / s Z-skóry o podobně můžeme i z-skór převést na hrubý skór, známe-li průměr a směrodatnou odchylku Z-skóry o např. u stupnice IQ o m = 100, s = 15 o pro osobu se z=-3 (3 směrodatné odchylky pod průměrem) bude IQ ? Z-skóry o např. u stupnice IQ m = 100, s = 15 o pro osobu se z=-3 (3 směrodatné odchylky pod průměrem) bude IQ X = Z . s + m X = -3 . 15 + 100 X = 55 Rozdělení z-skórů o tvar rozdělení z-skórů je stejný jako tvar původního rozdělení hrubých skórů o průměr je 0, směrodatná odchylka 1 o transformace změní jen označení hodnot na ose X Pravděpodobnost o postupy induktivní statistiky vycházejí z teorie pravděpodobnosti o pravděpodobnost, že nastane určitý výsledek, definujeme jako podíl počet pokusů, kdy nastal jev A P (A) = celkový počet jevů Pravděpodobnost - příklady o jaká je pravděpodobnost, že si z balíčku 52 karet vytáhneme určitou kartu (např. pikovou dámu) ? Pravděpodobnost - příklady o jaká je pravděpodobnost, že si z balíčku 52 karet vytáhneme určitou kartu (např. pikovou dámu) ? P (piková dáma) = f/N = 1/52 = 0,019= 1,9% Pravděpodobnost - příklady o jaká je pravděpodobnost, že při hodu kostkou padne trojka nebo šestka ? Pravděpodobnost - příklady o jaká je pravděpodobnost, že při hodu kostkou padne trojka nebo šestka ? P (3 n. 6) = f/N = 2/6 = 0,333= 33,3% Pravděpodobnost o pravděpodobnost bývá uváděna nejčastěji jako podíl (0,33), zlomek (1/3) nebo procento (33,3%) o pravděpodobnost určitého jevu nebo třídy jevů můžeme odhadnout z rozdělení hodnot (četností) Pravděpodobnost - příklady o představme si, že máme krabici se 40 očíslovanými žetony s čísly 1 – 5 o v tabulce jsou uvedeny absolutní i relativní četnosti jednotlivých čísel žetonů Pravděpodobnost Pravděpodobnost Pravděpodobnost - příklady o vaším úkolem je vytáhnout 1 žeton o jaká je pravděpodobnost, že vytáhnete žeton s číslem 3? Pravděpodobnost Pravděpodobnost o vaším úkolem je vytáhnout 1 žeton o jaká je pravděpodobnost, že vytáhnete žeton s číslem 3? o p (3) = f/N = 16/40 =0,40 nebo 2/5 či 40% Pravděpodobnost o Jaká je pravděpodobnost, že vytáhnete žeton s číslem vyšším než 2? Pravděpodobnost Pravděpodobnost o Jaká je pravděpodobnost, že vytáhnete žeton s číslem vyšším než 2? p(X > 2) = ? 0,05 + 0,25 + 0,40 = 0,70 Pravděpodobnost o Jaká je pravděpodobnost, že vytáhnete žeton s číslem nižším než 5? Pravděpodobnost Pravděpodobnost o Jaká je pravděpodobnost, že vytáhnete žeton s číslem nižším než 5? p(X < 5) = ? 0,10 + 0,20 + 0,40 + 0,25 = 0,95 Pravděpodobnost o Jaká je pravděpodobnost, že vytáhnete žeton s číslem nižším než 4 a vyšším než 1? Pravděpodobnost Pravděpodobnost o Jaká je pravděpodobnost, že vytáhnete žeton s číslem nižším než 4 a vyšším než 1? p(4 > X > 1) = ? 0,20 + 0,40 = 0,60 Pravděpodobnost o pravděpodobnost odpovídá hustotě oblasti pod křivkou pro daný interval Kontrolní otázky o základní typy grafů, výhody/nevýhody o odlehlá pozorování o výpočet a interpretace z-skóru Doplňující literatura o Wainer, H., & Velleman, PF (2001). Statistical graphics: Mapping the pathways of science. Annual Review of Psychology, 52, 305-335.