Popisná /deskriptivní/ statistika o úvod o rozdělení hodnot o míry polohy o míry variability o grafy Úvod o užívá se k popisu základních vlastností dat o poskytuje jednoduché shrnutí hodnot proměnných ve výběrovém souboru o předchází induktivní statistiku (která odvozuje zjištění ze vzorku na populaci) Úvod o techniky deskriptivní statistiky pomáhají redukovat větší množství dat do zvládnutelné podoby o touto redukcí např. údajů o rychlosti čtení u 200 žáků na jeden ukazatel, např. na hodnotu průměru samozřejmě část informací ztratíme Úvod o pro každou proměnnou obvykle popisujeme 3 charakteristiky o rozdělení hodnot (i graficky), středovou hodnotu a míru rozptýlení hodnot kolem tohoto středu Rozdělení hodnot o rozdělení (distribuce) hodnot - souhrn četností jednotlivých kategorií nebo intervalů hodnot proměnné o jednou z možností, jak zobrazit rozložení hodnot proměnné je tabulka četností -- seznam kategorií proměnné a u nich počet osob, které do každé kategorie spadají Rozdělení hodnot příklad tabulky četností Rozdělení hodnot o vždy je třeba uvést celkový počet osob (N) o relativní četnosti mohou být uvedeny buď jako procenta (8%) nebo podíly (0.08) o může jít rovněž o poměr (ratio) dvou kategorií (např. poměr dívek a chlapců s ADHD 1:4 (nebo 0,25)) Rozdělení hodnot o jako míra (rate) se označuje počet výskytů nějakého jevu dělený počtem možných výskytů v nějakém čase o např. míra úmrtnosti = počet mrtvých za rok / počet obyvatel x 1000 o získáme hrubou míru úmrtnosti na 1000 obyvatel Rozdělení hodnot o stejná data je možno zobrazit i graficky (v příkladu sloupcový diagram -- barchart) Rozdělení hodnot o pokud proměnná nabývá mnoha hodnot, je vhodnější je sloučit do kategorií (intervalů) o počet intervalů by měl být přiměřený počtu hodnot o někdy se používá tzv. Sturgesovo pravidlo k = 1 + 3,3 log10(n) o podle něj by pro 200 hodnot byl vhodný počet intervalů 9 Rozdělení hodnot Míry polohy o míry polohy (středu, centrální tendence) jsou výsledkem snahy najít typickou hodnotu pro daný znak o nejčastěji používané modus, medián, aritmetický průměr, méně často harmonický a geometrický průměr Míry polohy o modus -- nejčastěji se vyskytující hodnota (např. u příkladu s temperamentem to byl cholerik) o jediná použitelná charakteristika polohy pro nominální data; u pořadových a kardinálních jsou většinou více typickými charakteristikami medián nebo průměr Míry polohy o pokud je v rozdělení více modů, jde o rozdělení vícevrcholové (obvykle bimodální) -- může odhalit nehomogenitu výběru o např. rozdělení hodnot tělesné výšky může mít dva mody -- pro muže a pro ženy Míry polohy o modus není užitečnou statistikou pro zobecňování ze vzorku na populaci -- dá se očekávat, že různé vzorky z téže populace budou mít různé mody Míry polohy o medián - prostřední hodnota v řadě hodnot uspořádaných podle velikosti (50% percentil) o je jen pro data, která je možno podle velikosti uspořádat, tj. pořadová a kardinální o dělí soubor na dvě poloviny (pro sudý počet hodnot je medián průměrem dvou prostředních pozorování) Míry polohy o používá se především, pokud chceme eliminovat vliv extrémních hodnot o příklad -- průměrný plat 20 tisíc může u 10 osob znamenat, že 9 z nich má 10 tisíc a jeden 110 tisíc; použijeme-li medián -- 10 tisíc, získáme více typickou hodnotu o můžeme ho vyčíst z tabulky četností, pokud jsou uvedeny kumulativní četnosti Míry polohy o aritmetický průměr -- součet všech hodnot znaku dělený jejich počtem o jen pro proměnné, u nichž je možno hodnoty smysluplně dělit (kardinální) o vzorec: m = SX/N (pro populaci) o nebo m = Sx/N (pro výběr) Míry polohy o průměr zahrnuje každou hodnotu znaku -- což je jak výhoda, tak nevýhoda (citlivý na extrémní hodnoty) o to je možno vyřešit použitím tzv. useknutého průměru (trimmed mean), který se počítá tak, že se vynechá určité % hodnot z obou stran rozdělení, např. 5% nejnižších a 5% nejvyšších Míry polohy o průměr špatně reprezentuje nehomogenní skupiny o příklad -- 30 osob v parku, průměrný věk 12.5 roku, průměrná výška 130 cm: nemusí jít o školní děti, ale o 15 matek se 4-letými dětmi Míry polohy o porovnáním hodnoty průměru a mediánu získáme představu o šikmosti rozdělení hodnot o pokud je průměr větší než medián -- kladně (doprava) zešikmeno o průměr menší než medián -- záporně (doleva) zešikmeno o průměr = medián -- symetrické rozdělení Míry polohy Míry polohy o pro znaky s normálním rozdělením hodnot je průměr nejúčinnější charakteristikou (tj. nejvíce stabilní pro různé výběrové soubory) -- dá se nejlépe použít pro odhad parametru populace z charakteristik výběru o je nejčastěji užívanou mírou polohy Míry polohy o kromě aritmetického průměru se v psychologii někdy používá i harmonický průměr -- pro znaky měřené jako podíly, např. rychlost v km/h, podíly osob atd.) o vzorec [n] m[h] = ( n / aa (1/ x[i] )) ^i=1 Míry polohy o kterou statistiku uvádět? o průměr -- pokud může být spočítán a pokud není rozdělení příliš šikmé o modus -- pokud je rozdělení multimodální (neexistuje jediná typická hodnota) o medián -- pokud je rozdělení šikmé a unimodální Míry polohy o příklad -- spočítejte modus, medián a aritmetický průměr následujícího rozdělení hodnot 18 5 128 2 14 87 50 87 70 Míry variability o míry variability popisují kolísání v rozdělení hodnot o užívá se rozpětí, mezikvartilové rozpětí, rozptyl, směrodatná odchylka, variační koeficient Míry variability o rozpětí (variační šíře, variační rozpětí) -- rozdíl mezi nejvyšší a nejnižší hodnotou o značně ovlivněno extrémními hodnotami, není dobrým odhadem parametru populace Míry variability o mezikvartilové rozpětí (interkvartilová odchylka) -- rozdíl mezi hodnotou horního kvartilu a dolního kvartilu o kvartily -- dělí soubor na 4 stejné části; horní kvartil odděluje 25% nejvyšších hodnot, dolní 25% nejnižších Míry variability o mezikvartilové rozpětí udává rozpětí pro středních 50% hodnot (=délka obdélníku v krabicovém diagramu) o není (podobně jako medián) citlivé na extrémní hodnoty Míry variability o rozptyl (střední kvadratická odchylka průměru) - ukazuje, jak jsou hodnoty rozptýleny kolem průměru o v populaci [n ] s^2 = (1/(N)) aa (x[i] - m)^2 ^i = 1 o výběr [n ] s^2 = (1/(n-1)) aa (x[i] - m)^2 ^i = 1 Míry variability o více než rozptyl se používá jeho odmocnina -- směrodatná odchylka průměru o oba ukazatele slouží jako vhodné doplnění průměru -- získáme představu o jeho věrohodnosti, tj. jak dobře reprezentuje všechny hodnoty Míry variability o příklad -- porovnejte variabilitu u těchto dvou rozložení hodnot (jde o počet správně vyřešených úloh v didaktickém testu u výběru osob ze dvou tříd ZŠ) o 4 5 4 3 5 5 3 4 3 b) 8 2 12 1 4 3 5 0 1 Míry variability o řešení příkladu o m[a] = 4, s[a] = 0.87 o m[b] = 4, s[b] = 3.87 o u prvního rozdělení je průměr lepší reprezentací hodnot; u druhého jsou hodnoty kolem průměru hodně rozptýleny Míry variability o variační koeficient -- pro porovnání míry variability u různých souborů o pokud se u různých souborů měřené hodnoty výrazně liší svou úrovní anebo jsou dokonce v různých jednotkách, nelze podle rozptylu či standardní odchylky porovnávat přímo, který ze souborů má větší variabilitu - je třeba srovnávat relativní variabilitu Míry variability o jde o podíl směrodatné odchylky a průměru o většinou se udává v procentech o c = ( s / m ) .100% Míry variability o příklad -- porovnejte variabilitu průměrného platu v ČR (v korunách) a v GB (v librách) (jde o fiktivní údaje) o m[GB]=1000 liber, s[GB=]600 o m[CZ]=10 000 Kč, s[CZ=] 3000 Míry variability o řešení příkladu -- větší variabilita je v britských platech (60%) než v českých (30%) Grafy o pouze základní typy o pro kategoriální data - sloupcový diagram, výsečový graf o pro intervalová data -- histogram, frekvenční polygon, krabicový diagram, stromkový diagram o grafy je možno znázornit v kategorizované formě -- pro jednotlivé kategorie další proměnné (např. pro muže a ženy) o grafy pro vztah dvou a více proměnných budou probrány později Výsečový graf o koláčový diagram, pie chart -- užívá se více v populárních publikacích než v odborných Výsečový graf o každá výseč by měla být označena % a uveden celkový počet případů o ideální pro 3-7 kategorií o výhody: srozumitelný o nevýhody: jen pro kategoriální data; neukazuje přesné údaje (pokud nejsou vyznačeny); srovnání více skupin osob problematické Sloupcový diagram o bar chart Sloupcový diagram o pro kategoriální data, může být orientován horizontálně či vertikálně o jednotlivé sloupce odděleny mezerou o výhody: srozumitelný, je možno v jednom grafu porovnat četnosti pro více skupin osob Histogram o často užívaný o podobný sloupcovému diagramu, ale je pro intervalová data o jednotlivé sloupce reprezentují nikoliv jednotlivé kategorie, ale intervaly hodnot (sloupce jsou bez mezer) o tvar histogramu závisí také na šířce intervalů Histogram o výhody: umožňuje detekovat odlehlá pozorování, srovnání s normálním rozdělením o nevýhody: nezjistíte přesné hodnoty jednotlivých případů, obvykle se nezobrazují data pro více skupin případů Histogram Grafy o frekvenční polygon -- konstruován podobně jako histogram, jen místo sloupců jsou tečky spojené čarou Stromkový diagram o stem-and-leaf plot; stonek a list -- podobný histogramu (naležato), ale obsahuje informace o každém případu o konstrukce diagramu -- hodnoty jsou rozděleny např. na desítky (stonek) a jednotky (list) o např. hodnota 85 = 8x10 + 5x1 o pokud je hodnot pro některé desítky více, rozdělí se na další listy Stromkový diagram Stromkový diagram Stromkový diagram o výhody: ukazuje údaje pro každý případ; je možné snadno identifikovat minimum, maximum, shluky případů, odlehlá pozorování; můžeme porovnat dvě skupiny případů zobrazením dvou přilehlých diagramů; o nevýhody: nevypadá zajímavě; vhodnější spíše pro menší datové soubory (N<100); Krabicový diagram o boxplot, vousatá krabička o poskytuje bohaté zobrazení důležitých aspektů rozdělení hodnot o délka krabice odpovídá interkvartilové odchylce; uvnitř krabice je vyznačen medián o v některých variantách grafu jde např. o směrodatnou odchylku a průměr o "vousy" je ohraničeno rozmezí hodnot Krabicový diagram Odlehlá pozorování o zvlášť jsou u boxplotu vyznačena tzv. odlehlá pozorování (outliers -- obvykle hodnoty vzdálené více než 1.5 délky krabice od jejího okraje) a extrémní pozorování (obvykle více než 3x délky krabice) o odlehlá pozorování mohou zkreslit výsledky některých statistik a statistických testů Odlehlá pozorování o je proto důležité je v datech hledat; pokud je najdeme, musíme se rozhodnout, zda se jedná o ojedinělý výskyt (který by se v jiném vzorku nevyskytl) nebo výsledek chyby měření; nebo zda je tak reprezentována určitá část populace o pokud jde o ojedinělý výskyt, je možno je z další analýzy vyloučit o jinak je nutno se rozhodnout mezi dvěma možnostmi: buď je vyloučit s vědomím, že výsledky budou jejich nepřítomností zkresleny, nebo použít neparametrický test (vhodnější přístup) Krabicový diagram o výhody: užitečný pro detekci odlehlých pozorování, šikmosti rozdělení; vhodný pro porovnání více skupin případů o nevýhody: složitější Grafy -- obecná doporučení o každý graf by měl mít stručný a výstižný název o obě osy grafu by měly být označeny názvy proměnných a jednotkami měření (závislá proměnná je obvykle na svislé ose) o počátek os by měl být v nule -- pokud není, je třeba to vyznačit o velikost grafu a rozsah os by měl být takový, aby většina dat zabírala celý graf Kontrolní otázky o rozdíly mezi absolutními a relativními četnostmi, poměrem a mírou o 3 základní míry polohy (+ u jakých dat použijeme průměr, modus či medián) o základní míry variability, výpočet rozptylu o základní typy grafů, výhody/nevýhody o odlehlá pozorování Doplňující literatura o Wainer, H., & Velleman, PF (2001). Statistical graphics: Mapping the pathways of science. Annual Review of Psychology, 52, 305-335.