Stationery anabnr2 1 nNěkdy chceme více než prezentovat data v tabulkách nebo grafech nChceme např. najít typickou hodnotu a v jaké míře se data od této typické hodnoty odchylují nPoužití: nk základnímu popisu distribuce proměnné nfundamentální k pochopení složitějších analýz Kapitola 3: Centrální tendence a variabilita Stationery anabnr2 2 Míry centrální tendence nTypický klient, typická mzda nPři analýze dat typické = hledání hodnoty (čísla), která reprezentuje distribuci hodnot proměnné n3 nástroje: průměr (mean), medián (median), modus (mode) n…mají 2 vlastnosti: nSumarizují data npř. Průměrně jsme v minulém roce denně 16.4 klientových zakázek) nPoskytují společný referenční bod k porovnání dvou skupin dat nPř. Průměrná nástupní mzda absolventa BcSW je 2223 $, průměrná nástupní mzda MgrSW je 3112 $ n Stationery anabnr2 3 modus nNejčetněji se vyskytující hodnota nPř. Věk klienta (N=15) n28, 31, 38, 39, 42, 42, 42, 42, 43, 47, 51, 54, 55, 56, 60 nBimodální distribuce – histogram dva vrcholy nPř. Počet let praxe v sociální práci (N=22) n0, 0, 0, 0, 0, 1, 2, 2, 3, 4, 5, 5, 6, 7, 7, 7, 7, 7, 8, 9, 11, 14 nNejméně předpokladů – použitelný pro každý typ proměnné nNepoužívá se často – nejčastější hodnota není vždy nejtypičtější hodnota Stationery anabnr2 percentil nKolik procent případů se nachází pod konkrétním percentilem nUžitečné percentily: decily, kvartily, 1st kvartil, 3rd kvartil 4 Stationery anabnr2 5 medián n=50th percentil nJsou-li data nejméně ordinální nHodnota která dělí případy na dvě půlky nPř. Počet navštívených terapeutických sezení (n=21) n2,2,2,3,3,4,5,5,7,8,9,10,11,11,14,14,15,16,18,20,41 nPř. Počet navštívených terapeutických sezení (n=24) n1,1,1,1,1,2,2,3,3,3,4,5,6,6,7,8,11,11,13,14,15,17,20 nKlient, který navštívil sezení 41* = extrémní klient nMedián neovlivněn extrémy - extrémní hodnoty se vyruší npř. Bez ohledu zda byl na sezení 41*, 100*, nebo 1000*, medián tuto hodnotu vnímá jako nejvyšší a vyruší ji – medián se nemění n n Stationery anabnr2 6 Medián 2 Skóre experimentální skupiny (X) (N=300) Skóre Rel.četnost Kum.rel. četnost 50-59 0 0 60-69 10 10 70-79 40 50 80-89 30 80 90-100 20 100 Skóre kontrolní skupiny (C) (N=200) Skóre Rel.četnost Kum.rel. četnost 50-59 5 5 60-69 15 20 70-79 40 60 80-89 35 95 90-100 5 100 nMáme-li intervaly pak: nVzorec využívající absolutní četnosti: nMe = lrl + i * ((0.5N – cf) / f v intervalu ) nKde LRL= spodní hranice intervalu pod intervalem obsahujícím medián, i=šířka intervalu, N=celkový počet případů, Cf = kumulativní frekvence pod spodním hranicí, f= frekvence n nVzorec využívající relativní četnosti: nMe = lrl + i * ((50 – rcf) / rf v intervalu ) nKde rcf = relativní kumulativní frekvence pod spodním hranicí, rf= relativní frekvence nPř. Medián (C) = 69.5 + (30/40)*10 = 77 nMedián (X) = 69.5 + (40/40)*10=79.5 n Stationery anabnr2 7 Aritmetický průměr n= součet všech hodnot dělený počtem hodnot (Xprům= Σ Xi / N) n nInterval/poměrová pr., nedává smysl pro nominální (vyjma dichotomické, př. Muž=1, žena=0) n nCitlivý na extrémy, vhodný pro symetrickou distribuci a velké N n nPř. Počet navštívených terapeutických sezení (n=21) n2,2,2,3,3,4,5,5,7,8,9,10,11,11,14,14,15,16,18,20,41 nXprům = (3*2 + 2*3 + 4 + 2*5 + 7 + 8 + 9 + 10 + 2*11 + 2*14 + 15 + 16+18+20+41) / 21 = 220 / 21 = 10,476 nPř. Zkreslenost průměru extrémem: nPokud namísto 41 hodnota 20, pak xprům = (220 – (41-20)) / 21 = 9,476 n10,476 – 9,476 = 1 ! Pouze díky jednomu extrémnímu případu n n n Stationery anabnr2 8 Ořezaný průměr n= průměr osekaný o horních a dolních 5% případů – vypořádání se s extrémy nPočítá se jen s hodnotami uvnitř 5 – 95% percentilu Stationery anabnr2 9 n Stationery anabnr2 10 Vážený průměr nNěkdy všechny hodnoty nemají stejnou váhu a je třeba je zvážit nPř. Pracuji-li na poloviční úvazek, musím svůj výkon vynásobit 2* aby byl porovnatelný s člověkem pracujícím na plný úvazek Stationery anabnr2 11 Měření rozptýlenosti nDistribuce mají stejné průměry ale vypadají jinak - centrální tendence nestačí – je třeba změřit rozptýlenost n= jak jsou hodnoty rozptýleny od průměru Soubor: Srovnání standardní deviations.svg Stationery anabnr2 12 Variační rozpětí (range) n= x max – x min + 1 nPř. Věk (x max=35, x min=30) nR = 35 – 30 + 1 = 6 (existuje šest potenciálních hodnota věk může nabýt) nCitlivý na extrémy Stationery anabnr2 13 Mezikvartilní rozpětí (interquartile range / difference) nŘeší problém extrémů n= 75th percentil – 25th percentil File:Boxplot vs PDF.png Stationery anabnr2 14 Průměrná odchylka nDm = Σ |Da| / N n= součet absolutních odchylek (odchýlení každé hodnoty od průměru) dělený počtem případů nPř. Dm = (2 + 1 + 0 + 1 + 2) / 5 = 1.2 Hodnota Průměr odchylka 1 3 -2 2 3 -1 3 3 0 4 3 1 5 3 2 Stationery anabnr2 15 Rozptyl (variance) nVar = součet čtverců individuálních absolutních odchylek od průměru dělený počtem případů n nVar = (Xi – X prům)2 / N n nPř. ((-2)2 + (-1)2 + (0)2 + (1)2 + (2)2) / 5 = 2 Stationery anabnr2 16 Směrodatná odchylka (standard deviation) nσ= √var Stationery anabnr2 17 Př. Příklady distribucí se stejným průměrem ale různou variabilitou graph A + B table agency A table agency B Stationery anabnr2 18 Krabicový diagram nUmožňuje identifikovat distribuci proměnné nShora: nExtrémní hodnoty nNad horním kvartilem nHorní kvartil (75 percentil) nMedián nDolní kvartil (25 percentil) nHodnoty pod dolním kvartilem nExtrémní hodnoty 458074b4803 Stationery anabnr2 19 Z skóre - základ n= z-skor pro hodnotu x náhodné proměnné představuje jak daleko (kolik směrodatných odchylek) od průměru se hodnota x nachází n= rozdíl mezi individuální hodnotou (Xi) a průměrnou hodnotou (X prům) relativně k rozptylu distribuce (s) nZ = (Xi – X prům) / s nProto Z = 0 = průměr (μ) nA také 1 z = 1 SD, 2 z = 2 SD atd. nDůkaz: z = (X – X prům) / s = (110-100)/10=s / s = 1 n(120-100)/10=20/10=2 atd. n nstandardizací původních hodnot distribuce vzniká Standardizované normální rozložení Z~N(0, 1) Stationery anabnr2 20 nÚčel č.1: Zjištění relativní pozice individua k populaci n nPř. Výsledky IQ testu jsou aproximovány (blíží se) normálním rozložením o průměru μ = 100 a σ=16. Bob skóroval 125. Jak „chytrý“ je Bob vzhledem k ostatním? nZ = (X – μ) / σ = (125-100) / 16 = 1.56 nBob skóroval 1.56 standardní odchylky nad průměrem nJaká část populace skórovala více (nebo méně)? Viz tabulka n Z skóre - výklad Stationery anabnr2 21 nÚčel č.2: Porovnání relativních pozic dvou individuí z rozdílných vzorků (populací?) n nPř. Dvě kamarádky Rita a Miriam se účastnili jiných skupin kurzu praxe sociální práce, v ½ semestru složili zkoušku, Rita získala 21, Miriam 85 bodů, kdo byl lepší? nSrovnat maximální počet bodů v obou testech nRita 21 z 25 = 84 %, Miriam 85 ze 100 = 85 %, je Miriam lepší? Co když je Miriaminých 85 % nejhorší výsledek ve skupině zatímco Ritiných 85 % nejlepší výsledek? n nebo srovnat jednotlivé výsledky s výsledky ostatních studentů pomocí z-skóru Stationery anabnr2 22 nPř. Deborah pracuje jako sociální pracovnice ve studentském zdravotním centru a vede kurzy pro léčbu chronické úzkosti. Uvolnilo se jí místo ve skupině. Do skupiny se přijímá na základě testu „Škála úzkosti A“ (μ =70, σ =10) . Pouze studenti kteří dosáhnou min. 80 bodů na škále A mohou být přijati. Deborah se podívala do seznamu potenciálních klientů a zjistila že nejvyššího skóre 78 dosáhla Gina. Deborah však právě dostala doporučení o novém studentovi který trpí úzkostí a potřebuje pokračovat v léčbě. Doporučení také obsahovalo že student Tom dosáhl 66 bodů na jiné škále „Škále B“ (μ =50, σ =12). n nCo může Deborah udělat aby srovnala oba uchazeče a vybrala potřebnějšího? nA) Nechat Toma otestovat „Škálou A“ nB) Zná-li průměr a směrodatnou odchylku obou škal, může porovnat Z-skóry. Stationery anabnr2 23 nŘešení: nZ Gina = (78 – 70) / 10 = 0.8 nTabulka Z 0.8 = 28.81 + 50 = 78.81 = 79th percentil nZ Tom = (66 – 50) / 12 = 1.33 nTabulka Z 1.33 = 40.82 + 50 = 90.82 = 91st percentil nTom byl vybrán jako potřebnější na základě relativně vyšší úrovně úzkosti n 4_11 Stationery anabnr2 24 nÚčel č. 3: Odvození syrového skóre z percentilu (z-skóru) nSociální pracovnice Lauren chce vytvořit skupinu pro léčbu studentů s vysokou úrovní úzkosti, na základě výsledků z testů na „Škále B“(μ =50, σ =12), přičemž chce přijmout jen horních 10 procent nejvážnějších případů. nŘešení: nLauren musí najít mezní bod (cut-off point) pro syrové skóre, který by nejlépe odpovídal 90th percentilu. Studenti nad toto skóre budou přijati, ostatní ne. nX = μ + z* σ nPostup: najít z-skor pro kumulativní pravděpodobnost 90 – 50 = 40 nJaké Z odpovídá hodnotě 40?: Z = 1.28 n1.28 (Z-skóre)= (x – 50) / 12 n (12*1.28) + 50 = x n 65.36 = x nOdpověď: Pro vstup do skupiny je třeba získat 66 bodů. n