Stationery anabnr2 ‹#› 1 nNěkdy chceme více než prezentovat data v tabulkách nebo grafech nChceme např. najít typickou hodnotu a v jaké míře se data od této typické hodnoty odchylují nPoužití: nk základnímu popisu distribuce proměnné nfundamentální k pochopení složitějších analýz Kapitola 3: Centrální tendence a variabilita Stationery anabnr2 ‹#› 2 Míry centrální tendence nTypický klient, typická mzda nPři analýze dat typické = hledání hodnoty (čísla), která reprezentuje distribuci hodnot proměnné n3 nástroje: průměr (mean), medián (median), modus (mode) n…mají 2 vlastnosti: nSumarizují data npř. Průměrně jsme v minulém roce denně 16.4 klientových zakázek) nPoskytují společný referenční bod k porovnání dvou skupin dat nPř. Průměrná nástupní mzda absolventa BcSW je 2223 $, průměrná nástupní mzda MgrSW je 3112 $ n Stationery anabnr2 ‹#› 3 modus nNejčetněji se vyskytující hodnota nPř. Věk klienta (N=15) n28, 31, 38, 39, 42, 42, 42, 42, 43, 47, 51, 54, 55, 56, 60 nBimodální distribuce – histogram dva vrcholy nPř. Počet let praxe v sociální práci (N=22) n0, 0, 0, 0, 0, 1, 2, 2, 3, 4, 5, 5, 6, 7, 7, 7, 7, 7, 8, 9, 11, 14 nNejméně předpokladů – použitelný pro každý typ proměnné nNepoužívá se často – nejčastější hodnota není vždy nejtypičtější hodnota Stationery anabnr2 ‹#› 4 medián nJsou-li data nejméně ordinální nHodnota která dělí případy na dvě půlky nPř. Počet navštívených terapeutických sezení (n=21) n2,2,2,3,3,4,5,5,7,8,9,10,11,11,14,14,15,16,18,20,41 nPř. Počet navštívených terapeutických sezení (n=24) n1,1,1,1,1,2,2,3,3,3,4,5,6,6,7,8,11,11,13,14,15,17,20 nKlient, který navštívil sezení 41* = extrémní klient nMedián neovlivněn extrémy - extrémní hodnoty se vyruší npř. Bez ohledu zda byl na sezení 41*, 100*, nebo 1000*, medián tuto hodnotu vnímá jako nejvyšší a vyruší ji – medián se nemění n n Stationery anabnr2 ‹#› 5 Medián 2 Skóre experimentální skupiny (X) (N=300) Skóre Rel.četnost Kum.rel. četnost 50-59 0 0 60-69 10 10 70-79 40 50 80-89 30 80 90-100 20 100 Skóre kontrolní skupiny (C) (N=200) Skóre Rel.četnost Kum.rel. četnost 50-59 5 5 60-69 15 20 70-79 40 60 80-89 35 95 90-100 5 100 nMáme-li intervaly pak: nVzorec využívající absolutní četnosti: nMe = lrl + i * ((0.5N – cf) / f v intervalu ) nKde LRL= spodní hranice intervalu pod intervalem obsahujícím medián, i=šířka intervalu, N=celkový počet případů, Cf = kumulativní frekvence pod spodním hranicí, f= frekvence n nVzorec využívající relativní četnosti: nMe = lrl + i * ((50 – rcf) / rf v intervalu ) nKde rcf = relativní kumulativní frekvence pod spodním hranicí, rf= relativní frekvence nPř. Medián (C) = 69.5 + (30/40)*10 = 77 nMedián (X) = 69.5 + (40/40)*10=79.5 n Stationery anabnr2 ‹#› 6 Aritmetický průměr n= součet všech hodnot dělený počtem hodnot (Xprům= Σ Xi / N) n nInterval/poměrová pr., nedává smysl pro nominální (vyjma dichotomické, př. Muž=1, žena=0) n nCitlivý na extrémy, vhodný pro symetrickou distribuci a velké N n nPř. Počet navštívených terapeutických sezení (n=21) n2,2,2,3,3,4,5,5,7,8,9,10,11,11,14,14,15,16,18,20,41 nXprům = (3*2 + 2*3 + 4 + 2*5 + 7 + 8 + 9 + 10 + 2*11 + 2*14 + 15 + 16+18+20+41) / 21 = 220 / 21 = 10,476 nPř. Zkreslenost průměru extrémem: nPokud namísto 41 hodnota 20, pak xprům = (220 – (41-20)) / 21 = 9,476 n10,476 – 9,476 = 1 ! Pouze díky jednomu extrémnímu případu n n n Stationery anabnr2 ‹#› 7 Ořezaný průměr n= průměr osekaný o horních a dolních 5% případů – vypořádání se s extrémy nPočítá se jen s hodnotami uvnitř 5 – 95% percentilu Stationery anabnr2 ‹#› 8 n Stationery anabnr2 ‹#› 9 Vážený průměr nNěkdy všechny hodnoty nemají stejnou váhu a je třeba je zvážit nPř. Pracuji-li na poloviční úvazek, musím svůj výkon vynásobit 2* aby byl porovnatelný s člověkem pracujícím na plný úvazek Stationery anabnr2 ‹#› 10 Měření rozptýlenosti nDistribuce mají stejné průměry ale vypadají jinak - centrální tendence nestačí – je třeba změřit rozptýlenost n= jak jsou hodnoty rozptýleny od průměru Soubor: Srovnání standardní deviations.svg Stationery anabnr2 ‹#› 11 Variační rozpětí (range) n= x max – x min + 1 nPř. Věk (x max=35, x min=30) nR = 35 – 30 + 1 = 6 (existuje šest potenciálních hodnota věk může nabýt) nCitlivý na extrémy Stationery anabnr2 ‹#› 12 Mezikvartilní rozpětí (interquartile range / difference) nŘeší problém extrémů n= 75th percentil – 25th percentil File:Boxplot vs PDF.png Stationery anabnr2 ‹#› 13 Průměrná odchylka nDm = Σ |Da| / N n= součet absolutních odchylek (odchýlení každé hodnoty od průměru) dělený počtem případů nPř. Dm = (2 + 1 + 0 + 1 + 2) / 5 = 1.2 Hodnota Průměr odchylka 1 3 -2 2 3 -1 3 3 0 4 3 1 5 3 2 Stationery anabnr2 ‹#› 14 Rozptyl (variance) nVar = součet čtverců individuálních absolutních odchylek od průměru dělený počtem případů n nVar = (Xi – X prům)2 / N n nPř. ((-2)2 + (-1)2 + (0)2 + (1)2 + (2)2) / 5 = 2 Stationery anabnr2 ‹#› 15 Směrodatná odchylka (standard deviation) nσ= √var Stationery anabnr2 ‹#› 16 Př. Příklady distribucí se stejným průměrem ale různou variabilitou graph A + B table agency A table agency B Stationery anabnr2 ‹#› 17 Krabicový diagram nUmožňuje identifikovat distribuci proměnné nShora: nExtrémní hodnoty nNad horním kvartilem nHorní kvartil (75 percentil) nMedián nDolní kvartil (25 percentil) nHodnoty pod dolním kvartilem nExtrémní hodnoty 458074b4803