Popisná /deskriptivní/ statistika oúvod orozdělení hodnot omíry centrální tendence omíry variability ografy o o o Úvod oužívá se k popisu základních vlastností dat oposkytuje jednoduché shrnutí hodnot proměnných ve výběrovém souboru opředchází induktivní statistiku (která odvozuje zjištění ze vzorku na populaci) o Úvod otechniky deskriptivní statistiky pomáhají redukovat větší množství dat do zvládnutelné podoby otouto redukcí např. údajů o rychlosti čtení u 200 žáků na jeden ukazatel, např. na hodnotu průměru, samozřejmě část informací ztratíme Úvod opro každou proměnnou obvykle popisujeme 3 charakteristiky orozdělení hodnot (i graficky), středovou hodnotu a míru rozptýlení hodnot kolem tohoto středu Rozdělení hodnot orozdělení (distribuce) hodnot - souhrn četností jednotlivých kategorií nebo intervalů hodnot proměnné okromě grafů je základní možností, jak zobrazit rozložení hodnot proměnné tabulka četností – seznam kategorií proměnné a u nich počet osob, které do každé kategorie spadají Rozdělení hodnot o opříklad otabulky očetností počet osob % Sangvinik 118 28 Flegmatik 86 20 Melancholik 89 21 Cholerik 130 31 celkem 423 100 Rozdělení hodnot ovždy je třeba uvést celkový počet osob (N) orelativní četnosti mohou být uvedeny buď jako procenta (8%) nebo podíly (0.08) omůže jít rovněž o poměr (ratio) dvou kategorií (např. poměr dívek a chlapců s ADHD 1:4 (nebo 0,25)) o Rozdělení hodnot ojako míra (rate) se označuje počet výskytů nějakého jevu dělený počtem možných výskytů v nějakém čase onapř. míra úmrtnosti = počet mrtvých za rok / počet obyvatel, to celé x 1000 ozískáme hrubou míru úmrtnosti na 1000 obyvatel o Rozdělení hodnot ostejná data je možno zobrazit i graficky (v příkladu sloupcový diagram – barchart) Rozdělení hodnot opokud proměnná nabývá mnoha hodnot, je vhodnější je sloučit do kategorií (intervalů) opočet intervalů by měl být přiměřený počtu hodnot oněkdy se používá tzv. Sturgesovo pravidlo k = 1 + 3,3 log10(n) opodle něj by pro 200 hodnot byl vhodný počet intervalů 9 Rozdělení hodnot IQ počet % kumul.% méně než 86 11 10 10 86 – 100 36 34 44 101 – 115 34 32 76 116 - 130 20 19 95 131 a více 5 5 100 celkem 106 100 Míry centrální tendence omíry centrální tendence (středu, polohy) jsou výsledkem snahy najít typickou hodnotu pro daný znak onejčastěji používané modus, medián, aritmetický průměr, méně často harmonický a geometrický průměr Míry centrální tendence omodus – nejčastěji se vyskytující hodnota (např. u příkladu s temperamentem to byl cholerik) ojediná použitelná charakteristika polohy pro nominální data; u pořadových a kardinálních (intervalových nebo poměrových) jsou většinou více typickými charakteristikami medián nebo průměr o Míry centrální tendence opokud je v rozdělení více modů, jde o rozdělení vícevrcholové (obvykle bimodální) – může odhalit nehomogenitu výběru onapř. rozdělení hodnot tělesné výšky může mít dva mody – pro muže a pro ženy o Míry centrální tendence omodus není užitečnou statistikou pro zobecňování ze vzorku na populaci – dá se očekávat, že různé vzorky z téže populace budou mít různé mody o Míry centrální tendence omedián - prostřední hodnota v řadě hodnot uspořádaných podle velikosti (50. percentil) oje jen pro data, která je možno podle velikosti uspořádat, tj. pořadová a kardinální odělí soubor na dvě poloviny (pro sudý počet hodnot je medián průměrem dvou prostředních pozorování) Míry centrální tendence opoužívá se především, pokud chceme eliminovat vliv extrémních hodnot opříklad – průměrný plat 20 tisíc může u 10 osob znamenat, že 9 z nich má 10 tisíc a jedna 110 tisíc; použijeme-li medián – 10 tisíc, získáme více typickou hodnotu omůžeme ho vyčíst z tabulky četností, pokud jsou uvedeny kumulativní četnosti Míry centrální tendence oaritmetický průměr – součet všech hodnot znaku dělený jejich počtem olze použít u kardinálních proměnných ovzorec: m = SX/N (pro populaci) onebo m = Sx/n (pro výběr) Míry centrální tendence oprůměr zahrnuje každou hodnotu znaku – což je jak výhoda, tak nevýhoda (citlivý na extrémní hodnoty) oto je možno vyřešit použitím tzv. useknutého průměru (trimmed mean), který se počítá tak, že se vynechá určité % hodnot z obou stran rozdělení, např. 5% nejnižších a 5% nejvyšších o o Míry centrální tendence oprůměr špatně reprezentuje nehomogenní skupiny opříklad – 30 osob v parku, průměrný věk 12.5 roku, průměrná výška 130 cm: nemusí jít o školní děti, ale o 15 matek se 4-letými dětmi o o Míry centrální tendence oporovnáním hodnoty průměru a mediánu získáme představu o šikmosti rozdělení hodnot opokud je průměr větší než medián – kladně (doprava) zešikmeno oprůměr menší než medián – záporně (doleva) zešikmeno oprůměr = medián – symetrické rozdělení Míry centrální tendence skew1 skew2 skew3 o Míry centrální tendence opro znaky s normálním rozdělením hodnot je průměr nejúčinnější charakteristikou (tj. nejvíce stabilní pro různé výběrové soubory) – dá se nejlépe použít pro odhad parametru populace z charakteristik výběru oje nejčastěji užívanou mírou centrální tendence Míry centrální tendence okromě aritmetického průměru se v psychologii někdy používá i harmonický průměr – pro znaky měřené jako podíly, např. rychlost v km/h, podíly osob atd. o Míry centrální tendence okterou statistiku uvádět v případě, že se můžete rozhodnout? oprůměr – pokud může být spočítán a pokud není rozdělení příliš šikmé omodus – pokud je rozdělení multimodální (neexistuje jediná typická hodnota) omedián – pokud je rozdělení šikmé a unimodální Míry centrální tendence opříklad – spočítejte modus, medián a aritmetický průměr následujícího rozdělení hodnot o o 18 5 128 2 14 87 50 87 70 Příklad - řešení omodus = 87 (2x) omedián = o 2 5 14 18 50 70 87 87 128 oprůměr = 461/9 = 51,22 o Míry variability omíry variability popisují kolísání v rozdělení hodnot oužívá se rozpětí, mezikvartilové rozpětí, rozptyl, směrodatná odchylka, variační koeficient Míry variability orozpětí (variační šíře, variační rozpětí) – rozdíl mezi nejvyšší a nejnižší hodnotou označně ovlivněno extrémními hodnotami, není dobrým odhadem parametru populace Míry variability omezikvartilové rozpětí (interkvartilová odchylka) – rozdíl mezi hodnotou horního kvartilu a dolního kvartilu okvartily – dělí soubor na 4 stejné části; horní kvartil odděluje 25% nejvyšších hodnot (75. percentil), dolní 25% nejnižších (25. percentil) o Míry variability omezikvartilové rozpětí udává rozpětí pro středních 50% hodnot (=délka obdélníku v krabicovém diagramu) onení (podobně jako medián) citlivé na extrémní hodnoty Míry variability orozptyl (střední kvadratická odchylka průměru) - ukazuje, jak jsou hodnoty rozptýleny kolem průměru ov populaci o o ove výběru o Míry variability ovíce než rozptyl se používá jeho odmocnina – směrodatná odchylka průměru ooba ukazatele slouží jako vhodné doplnění průměru – získáme představu o jeho věrohodnosti, tj. jak dobře reprezentuje všechny hodnoty Míry variability opříklad – porovnejte variabilitu u těchto dvou rozložení hodnot (jde o počet správně vyřešených úloh v didaktickém testu u výběru osob ze dvou tříd ZŠ) o a)4 5 4 3 5 5 3 4 3 o ob) 8 2 12 1 4 3 5 0 1 Míry variability ořešení příkladu oma = 4, sa = 0.87 omb = 4, sb = 3.87 ou prvního rozdělení je průměr lepší reprezentací hodnot; u druhého jsou hodnoty kolem průměru hodně rozptýleny o Míry variability ovariační koeficient – pro porovnání míry variability u různých souborů opokud se u různých souborů měřené hodnoty výrazně liší svou úrovní anebo jsou dokonce v různých jednotkách, nelze podle rozptylu či standardní odchylky porovnávat přímo, který ze souborů má větší variabilitu - je třeba srovnávat relativní variabilitu Míry variability ojde o podíl směrodatné odchylky a průměru ovětšinou se udává v procentech oc = ( s / m ) . 100 % Míry variability opříklad – porovnejte variabilitu průměrného platu v ČR (v korunách) a v GB (v librách) (jde o fiktivní údaje) omGB=1000 liber, sGB=600 omCZ=10 000 Kč, sCZ=3000 Míry variability ořešení příkladu – větší variabilita je v britských platech (60%) než v českých (30%) Grafy opouze základní typy opro kategoriální data - sloupcový diagram, výsečový graf opro intervalová data – histogram, frekvenční polygon, krabicový diagram, stromkový diagram ografy je možno znázornit v kategorizované formě – pro jednotlivé kategorie další proměnné (např. pro muže a ženy) ografy pro vztah dvou a více proměnných budou probrány později Výsečový graf okoláčový diagram, pie chart – užívá se více v populárních publikacích než v odborných Výsečový graf okaždá výseč by měla být označena % a uveden celkový počet případů oideální pro 3-7 kategorií ovýhody: srozumitelný onevýhody: jen pro kategoriální data; neukazuje přesné údaje (pokud nejsou vyznačeny); srovnání více skupin osob problematické Sloupcový diagram obar chart o Sloupcový diagram opro kategoriální data, může být orientován horizontálně či vertikálně ojednotlivé sloupce odděleny mezerou ovýhody: srozumitelný, je možno v jednom grafu porovnat četnosti pro více skupin osob o Histogram očasto užívaný opodobný sloupcovému diagramu, ale je pro intervalová data ojednotlivé sloupce reprezentují nikoliv jednotlivé kategorie, ale intervaly hodnot (sloupce jsou bez mezer) otvar histogramu závisí také na šířce intervalů Histogram ovýhody: umožňuje detekovat odlehlá pozorování, srovnání s normálním rozdělením onevýhody: nezjistíte přesné hodnoty jednotlivých případů, obvykle se nezobrazují data pro více skupin případů o Histogram Grafy ofrekvenční polygon – konstruován podobně jako histogram, jen místo sloupců jsou tečky spojené čarou o freq_poly2 Stromkový diagram ostem-and-leaf plot; stonek a list – podobný histogramu (naležato), ale obsahuje informace o každém případu okonstrukce diagramu – hodnoty jsou rozděleny např. na desítky (stonek) a jednotky (list) onapř. hodnota 85 = 8x10 + 5x1 opokud je hodnot pro některé desítky více, rozdělí se na další stonky Stromkový diagram Frequency Stem & Leaf 3,00 1 . 468 7,00 2 . 0225588 9,00 3 . 011234449 10,00 4 . 3455567799 3,00 5 . 344 7,00 6 . 0111389 4,00 7 . 1234 2,00 8 . 34 1,00 9 . 1 Stem width: 10,00 Each leaf: 1 case(s) Stromkový diagram o Frequency Stem & Leaf ,00 3 . 6,00 3 . 667777 8,00 3 . 88889999 9,00 4 . 000001111 5,00 4 . 22333 5,00 4 . 44455 3,00 4 . 667 1,00 4 . 9 1,00 Extremes (>=55) Stem width: 10 Each leaf: 1 case(s) Stromkový diagram ovýhody: ukazuje údaje pro každý případ; je možné snadno identifikovat minimum, maximum, shluky případů, odlehlá pozorování; můžeme porovnat dvě skupiny případů zobrazením dvou přilehlých diagramů onevýhody: nevypadá zajímavě; vhodnější spíše pro menší datové soubory (N<100) o o Krabicový diagram oboxplot, vousatá krabička oposkytuje bohaté zobrazení důležitých aspektů rozdělení hodnot odélka krabice odpovídá interkvartilové odchylce; uvnitř krabice je vyznačen medián ov některých variantách grafu jde např. o směrodatnou odchylku a průměr o„vousy“ je ohraničeno rozmezí hodnot Krabicový diagram Kontrolní otázky orozdíly mezi absolutními a relativními četnostmi, poměrem a mírou o3 základní míry centrální tendence o (+ u jakých dat použijeme průměr, modus či medián) ozákladní míry variability, výpočet rozptylu ozákladní typy grafů, výhody/nevýhody oodlehlá pozorování o