Proč se zabývat statistikou? Předmět „Statistika“ je součástí osnov všech lékařských fakult. Vede k tomu několik důvodů: V praxi odborní zdravotničtí pracovníci často potřebují získat informace ze shromážděných dat. Měli by tedy být schopni vybrat pro zpracování dat adekvátní statistické metody, použít je ve vhodném statistickém programovém systému a získané výsledky správně interpretovat. Pokud se zdravotnický pracovník zabývá studiem odborné literatury, rovněž se neobejde bez znalosti statistických pojmů, aby byl schopen text pochopit a kriticky zhodnotit. Při publikování článků v biomedicínských časopisech je používání statistických metod pravidlem. Čtyři etapy statistického zkoumání 1) plánování statistického šetření (důležité je stanovení cíle statistického šetření, výběr vhodných statistických metod, ověření předpokladů jejich použitelnosti, stanovení rozsahu výběrového souboru) 2) sběr dat (orientace na vhodné objekty a jejich podstatné vlastnosti, realizace měření či příprava dotazníků, proškolení týmu, který bude data sbírat) 3) průzkum získaných dat (kontrola dat z hlediska formálního, logického i početního, roztřídění dat, tvorba tabulek, konstrukce grafů, práce s chybějícími a odlehlými hodnotami, výpočet číselných charakteristik dat) 4) analýza dat (získání bodových a intervalových odhadů důležitých parametrů dat, testování statistických hypotéz). Jednotlivé etapy na sebe navazují a vzájemně se ovlivňují. Opomeneme-li některé podstatné okolnosti při plánování statistického šetření nebo se dopustíme hrubých chyb při sběru dat, pak ani sebesložitější analýza nemůže poskytnout věrohodné výsledky! Při průzkumu a analýze dat se využívají různé statistické programové systémy. Umožňují každému uživateli získat velmi snadno i výsledky náročných statistických analýz. Samozřejmě však neupozorní, že je prováděna analýzy, která pro daná konkrétní data nemá smysl. Proto je důležité, aby uživatel rozuměl principům metod, znal a ověřoval jejich předpoklady. Na základě statistického zkoumání lze získat adekvátní představu o věcném problému, který uživatel řeší. Statistika – různé definice Statistikou rozumíme soubor číselných údajů o hromadných jevech. Statistikou rozumíme činnost, která spočívá ve sběru dat a jejich analýze. Statistikou rozumíme vědeckou disciplínu, která se zabývá získáváním informací z numerických údajů – dat. (My se budeme zabývat statistikou v tomto pojetí). Rozdělení statistiky Základem matematické statistiky je počet pravděpodobnosti, který se zabývá studiem zákonitostí v náhodných pokusech. Matematickými prostředky modeluje situace, v nichž hraje roli náhoda. Pod pojmem náhoda rozumíme působení faktorů, které se živelně mění při různých provedeních téhož pokusu a nepodléhají naší kontrole. STATISTIKA Popisná statistika Sumarizuje informace obsažené ve velkém množství dat. Používá tabulky, grafy, funkcionální a číselné charakteristiky. Matematická statistika Analyzuje a interpretuje data za účelem získání předpovědi a zlepšení rozhodování. Řídí se principem statistické indukce. Popisná statistika Popisná statistika je disciplína, která popisuje a sumarizuje informace obsažené ve velkém množství dat pomocí tabulek, grafů, funkcionálních a číselných charakteristik. Činí tak pomocí základních matematických operací. Cílem popisné statistiky je zpřehlednit informace „ukryté´” v datových souborech. Popisná statistika je velmi důležitá minimálně ze dvou důvodů: - v praxi se často používá (všichni znají takové pojmy, jako je průměr, směrodatná odchylka, tabulka rozložení četností, výsečový graf apod.) - motivuje pojmy, se kterými pak pracuje počet pravděpodobnosti (např. relativní četnost motivuje pravděpodobnost, hustota četnosti motivuje hustotu pravděpodobnosti, průměr motivuje střední hodnotu apod.) Dobré pochopení pojmů popisné statistiky tedy velmi usnadní studium počtu pravděpodobnosti. Základní, výběrový a datový soubor Základním souborem (population) rozumíme libovolnou neprázdnou množinu E. Prvky množiny E značíme ε a nazýváme je objekty (units). Libovolnou neprázdnou podmnožinu {ε1, ..., εn} základního souboru E nazýváme výběrový soubor rozsahu n (sample size n). Je-li množina G ⊆ E, pak symbolem N(G) rozumíme absolutní četnost (absolute frequency) množiny G ve výběrovém souboru, tj. počet těch objektů množiny G, které patří do výběrového souboru. Relativní četnost (absolute frequency) množiny G ve výběrovém souboru zavedeme vztahem n )G(N )G(p = . Ilustrace Způsoby získání výběrového souboru 1. Prostý náhodný výběr (simple random sample) – objekty výběrového souboru získáme losováním z objektů základního souboru. 2. Systematický náhodný výběr (systematic random sample) – objekty výběrového souboru získáme pomocí pořadových čísel nebo podle nějaké vlastnosti, která nesouvisí se sledovanou vlastností (např. podle data narození, podle počátečního písmena příjmení apod. Nevýhoda – při nevhodné volbě výběrového kritéria může dojít k nežádoucí selekci. 3. Stratifikovaný náhodný výběr (stratified random sample) – základní soubor rozdělíme do několika skupin a dále z každé této skupiny vybíráme metodou prostého nebo systematického náhodného výběru. 4. Párový výběr (random pair) – užívá se zejména v klinické praxi. K osobám s určitou vlastností (např. s určitou nemocí) se vyberou osoby, které tuto nemoc nemají, ale s původními osobami se shodují ve všech vlastnostech, které by mohly ovlivnit výsledek výzkumu, např. věk, pohlaví, zaměstnání apod. Příklad: Základním souborem E je množina všech ekonomicky zaměřených studentů 1. ročníku českých vysokých škol. Množina G1 je tvořena těmi studenty, kteří uspěli v prvním zkušebním termínu z matematiky a množina G2 obsahuje ty studenty, kteří uspěli v prvním zkušebním termínu z angličtiny. Ze základního souboru bylo náhodně vybráno 20 studentů, kteří tvoří výběrový soubor {ε1, ..., ε20}. Z těchto 20 studentů 12 uspělo v matematice, 15 v angličtině a 11 v obou předmětech. Zapište absolutní a relativní četnosti úspěšných matematiků, angličtinářů a oboustranně úspěšných studentů. Řešení: 55,0 20 11 )GG(p ,75,0 20 15 )G(p ,6,0 20 12 )G(p ,20n,11)GG(N,15)G(N,12)G(N 21 2 1 2121 ==∩ == == ==∩== Vidíme, že úspěšných matematiků je 60%, angličtinářů 75% a oboustranně úspěšných studentů jen 55%. Vlastnosti relativní četnosti: Relativní četnost má následujících 12 vlastností, které jsou obdobné vlastnostem procent. • p(∅) = 0 • p(G) ≥ 0 (nezápornost) • p(G) ≤ 1 • p(G1 ∪ G2) + p(G1 ∩ G2) = p(G1) + p(G2) • 1 + p(G1 ∩ G2) ≥ p(G1) + p(G2) • p(G1 ∪ G2) + 0 ≤ p(G1) + p(G2) (subaditivita) • G1 ∩ G2 = ∅ ⇒ p(G1 ∪ G2) = p(G1) + p(G2) (aditivita) • p(G2 \ G1) = p(G2) – p(G1 ∩ G2) • G1 ⊆ G2 ⇒ p(G2 \ G1) = p(G2) – p(G1) (subtraktivita) • G1 ⊆ G2 ⇒ p(G1) ≤ p(G2) (monotonie) • p(Έ) = 1 (normovanost) • p(G) + p(G ) = 1 (komplementarita) Pojem podmíněné relativní četnosti (conditional relative frequency): Pokud se v daném základním souboru zajímáme o dvě podmnožiny, můžeme zavést pojem podmíněné relativní četnosti jedné podmnožiny v daném výběrovém souboru za předpokladu, že objekt pochází z druhé podmnožiny. Nechť E je základní soubor, G1, G2 jeho podmnožiny, {ε1, ..., εn} výběrový soubor. Definujeme: podmíněnou relativní četnost množiny G1 ve výběrovém souboru za předpokladu G2: ( ) ( ) ( ) ( ) ( )2 21 2 21 21 Gp GGp GN GGN G/Gp ∩ = ∩ = , podmíněnou relativní četnost G2 ve výběrovém souboru za předpokladu G1: ( ) ( ) ( ) ( ) ( )1 21 1 21 12 Gp GGp GN GGN G/Gp ∩ = ∩ = . Příklad: Pro údaje z příkladu o studentech vypočtěte podmíněnou relativní četnost úspěšných matematiků mezi úspěšnými angličtináři a podmíněnou relativní četnost úspěšných angličtinářů mezi úspěšnými matematiky. (Připomínáme, že z 20 studentů 12 uspělo v matematice, 15 v angličtině a 11 v obou předmětech.) Řešení: ,20n,11)GG(N,15)G(N,12)G(N 2121 ==∩== p(G1/G2) = ( ) ( )2 21 GN GGN ∩ = 15 11 = 0,73 (tzn., že 73% těch studentů, kteří byli úspěšní v angličtině, uspělo i v matematice) p(G2/G1) = ( ) ( )1 21 GN GGN ∩ = 12 11 = 0,92 (tzn., že 92% těch studentů, kteří byli úspěšní v matematice, uspělo i v angličtině) Pojem četnostní nezávislosti dvou množin (independence of two sets): O četnostní nezávislosti dvou množin v daném výběrovém souboru hovoříme tehdy, když informace o původu objektu z jedné množiny nijak nemění šance, s nimiž soudíme na jeho původ i z druhé množiny. Řekneme že množiny G1, G2 jsou četnostně nezávislé v daném výběrovém souboru, jestliže ( ) ( ) ( )2121 GpGpGGp =∩ . (V praxi jen zřídka dojde k tomu, že uvedený vztah platí přesně. Většinou je jen naznačena určitá tendence četnostní nezávislosti.) Příklad: Pro údaje z příkladu o studentech zjistěte, zda úspěchy v matematice a angličtině jsou v daném výběrovém souboru četnostně nezávislé. (připomínáme, že oboustranně úspěšných studentů bylo 55 %, úspěšných matematiků 60 % a úspěšných angličtinářů 45 %.) Řešení: p(G1 ∩ G2) = 0,55, p(G1)p(G2) = 0,6×0,75 = 0,45, tedy skutečná relativní četnost oboustranně úspěšných studentů je větší než by odpovídalo četnostní nezávislosti množin G1, G2 v daném výběrovém souboru. Znamená to, že úspěch v matematice se zpravidla sdružuje s úspěchem v angličtině a naopak. Pojem skalárního a vektorového znaku (scalar and vector variable): Vlastnosti objektů vyjadřujeme číselně pomocí znaků. Nechť E je základní soubor. Funkce X: E → R, Y: E → R, ..., Z: E → R, které každému objektu přiřazují číslo, se nazývají (skalární) znaky. Uspořádaná p-tice (X, Y, ..., Z) se nazývá vektorový znak. Ilustrace Označení: Nechť je dán výběrový soubor {ε1, ..., εn} ⊆ E. Hodnoty znaků X, Y, ..., Z pro i-tý objekt označíme xi = X(εi), yi = Y(εi), ..., zi = Z(εi), i = 1, ..., n. Pojem datového souboru (data set): Matice             nnn 222 111 zyx zyx zyx L LLLL L L typu n × p se nazývá datový soubor. Její řádky odpovídají jednotlivým objektům, sloupce znakům. Libovolný sloupec této matice nazýváme jednorozměrným datovým souborem (one-dimensional data set). Jestliže uspořádáme hodnoty některého znaku (např. znaku X) v jednorozměrném datovém souboru vzestupně podle velikosti, dostaneme uspořádaný datový soubor (orderly data set)           )n( )1( x x M , kde x(1) ≤ x(2) ≤ ... ≤ x(n). Vektor           ]r[ ]1[ x x M , kde x[1] < ... < x[r] jsou navzájem různé hodnoty znaku X, se nazývá vektor variant (vector of variants) . Příklad: Pro studenty z výběrového souboru uvedeného výše byly zjišťovány hodnoty těchto znaků: X – známka z matematiky v 1. zkušebním termínu, Y – známka z angličtiny v 1. zkušebním termínu, Z – pohlaví studenta (0 … žena, 1 … muž). Byl získán datový soubor: Utvořte jednorozměrný neuspořádaný a uspořádaný datový soubor pro známky z matematiky a vektor variant pro známky z matematiky. Řešení: Pojem jevu (event): Nechť {ε1, ..., εn} je výběrový soubor, X, Y, ..., Z jsou znaky, B, B1, Bp jsou číselné množiny. Zápis {X ∈B} znamená jev „znak X nabyl hodnoty z množiny B“ . Zápis {X ∈B1 ∧ Y ∈B2 ∧ ... ∧ Z ∈Bp} znamená jev „znak X nabyl hodnoty z množiny B1 a současně znak Y nabyl hodnoty z množiny B2 atd. až znak Z nabyl hodnoty z množiny Bp“. Symbol N(X ∈B) značí absolutní četnost jevu {X ∈B} ve výběrovém souboru, tj. počet těch objektů ve výběrovém souboru, pro něž xi ∈B. Symbol p(X ∈ B) znamená relativní četnost jevu {X ∈ B} ve výběrovém souboru, tj. p(X ∈ B) = n )BX(N ∈ . Analogicky N(X ∈ B1 ∧ Y ∈ B2 ∧ ... ∧ Z ∈ Bp) resp. p(X ∈ B1 ∧ Y ∈ B2 ∧ ... ∧ Z ∈ Bp) znamená absolutní resp. relativní četnost jevu {X ∈ B1 ∧ Y ∈ B2 ∧ ... ∧ Z ∈ Bp} ve výběrovém souboru. Příklad: Pro datový soubor s údaji o známkách a pohlaví studentů najděte relativní četnost: - matematických jedničkářů - úspěšných matematiků - oboustranně neúspěšných studentů. Datový soubor má tvar: Řešení: Ad a) ( ) 35,0 20 7 1Xp === Ad b) ( ) 6,0 20 12 3Xp ==≤ Ad c) ( ) 2,0 20 4 4Y4Xp ===∧= Zjistili jsme, že jedničku z matematiky má 35 % studentů, zkoušku z matematiky úspěšně složilo 60 % studentů a oboustranně neúspěšných bylo 20 % studentů. Jednorozměrné bodové rozložení četností Jestliže počet variant znaku X v jednorozměrném datovém souboru není příliš velký, pak přiřazujeme četnosti jednotlivým variantám a hovoříme o bodovém rozložení četností. Nechť je dán jednorozměrný datový soubor           n 1 x x M , v němž znak X nabývá r variant. Pro j = 1, ..., r definujeme: nj = N(X = x[j]) – absolutní četnost varianty x[j] ve výběrovém souboru pj = n n j − relativní četnost varianty x[j] ve výběrovém souboru Nj = N(X ≤ x[j]) = n1 + ... + nj – absolutní kumulativní četnost prvních j variant ve výběrovém souboru Fj = n N j = p1 + ... + pj – relativní kumulativní četnost prvních j variant ve výběrovém souboru Tabulka typu x[j] nj pj Nj Fj x[1] n1 p1 N1 F1 M M M M M x[r] nr pr Nr Fr se nazývá variační řada (nebo též tabulka rozložení četností – frequency table). Příklad: Máme jednorozměrný datový soubor, který obsahuje údaje o známkách z matematiky (znak X) u 20 studentů.                                         1 4 4 1 4 2 4 2 4 4 1 1 3 3 4 1 1 4 1 2 Sestavte tabulku rozložení četností. Řešení: x[j] nj pj Nj Fj 1 7 7/20=0,35 7 7/20=0,35 2 3 3/20=0,15 10 10/20=0,50 3 2 2/20=0,10 12 12/20=0,60 4 8 8/20=0,40 20 20/20=1,00 ∑ 20 1,00 - - Četnostní funkce Pomocí relativních četností zavedeme četnostní funkci (frequency function). Funkce p(x) =    == jinak0 r...,1,j,xxprop [j]j se nazývá četnostní funkce. (Hodnota četnostní funkce v každé variantě znaku X je rovna relativní četnosti této varianty a jinde je nulová.) Četnostní funkce je nezáporná (∀x ∈ R: p(x) ≥0) a normovaná (součet všech jejích hodnot je 1, tj. ∑ ∞ ∞=-x p(x)= 1). Empirická distribuční funkce Pomocí kumulativních relativních četností zavedeme empirickou distribuční funkci (empirical distribution function). Funkce ( )      ≥ =<≤ < = + [r] 1][j[j]j [1] xxpro1 1-r...,1,j,xxxproF xxpro0 xF se nazývá empirická distribuční funkce. (Vysvětlení: Funkce F(x) je nulová až do první varianty x[1] znaku X. Tam má skok na hodnotu F1 = p1. Na hodnotě F1 setrvá až do druhé varianty x[2], kde skočí na hodnotu F2, tedy skok má velikost p2. Tak se pokračuje dál, až v poslední variantě x[r] skočí na 1 a tam už setrvá.) Empirická distribuční funkce je neklesající (∀x1, x2 ∈ R, x1 < x2: F(x1) ≤ F(x2)), zprava spojitá (∀x0 ∈ R libovolné, ale pevně dané: +→ 0xxlim F(x) = F(x0)) a normovaná ( −∞→x lim F(x) = 0, ∞→x lim F(x) = 1). Příklad: Pro známky z matematiky nakreslete graf četnostní funkce a empirické distribuční funkce. Řešení: Variační řada x[j] nj pj Nj Fj 1 7 7/20=0,35 7 7/20=0,35 2 3 3/20=0,15 10 10/20=0,50 3 2 2/20=0,10 12 12/20=0,60 4 8 8/20=0,40 20 20/20=1,00 ∑ 20 1,00 - - Vzorce ( )    == = jinak0 r...,1,j,xxprop xp [j]j ( )      ≥ =<≤ < = + [r] 1][j[j]j [1] xxpro1 1-r...,1,j,xxxproF xxpro0 xF Grafy Vztah mezi četnostní funkcí a empirickou distribuční funkcí ( ) ( )∑ ≤ =∈∀ xt tpxF:Rx Grafické znázornění bodového rozložení četností Tečkový diagram (dot diagram): na číselné ose vyznačíme jednotlivé varianty znaku X a nad každou variantu nakreslíme tolik teček, jaká je její absolutní četnost. Polygon četnosti (frequency polygon): je lomená čára spojující body, jejichž x-ová souřadnice je varianta znaku X a y-ová souřadnice je absolutní či relativní četnost této varianty. Sloupkový diagram (bar chart): je soustava na sebe nenavazujících obdélníků, kde střed základny je varianta znaku X a výška je absolutní či relativní četnost této varianty. Výsečový graf (pie chart): je kruh rozdělený na výseče, jejichž vnější obvod odpovídá absolutním četnostem variant znaku X. Příklad: Pro jednorozměrný datový soubor známek z matematiky sestrojte tečkový diagram, polygon četností, sloupkový diagram a výsečový graf. Řešení: Tečkový diagram Polygon četností Sloupkový diagram Výsečový graf Dvourozměrné bodové rozložení četností Nechť je dán dvourozměrný datový soubor           nn 11 yx yx KK , kde znak X má r variant a znak Y má s variant. Pak definujeme: njk = N(X = x[j] ∧ Y = y[k]) – simultánní absolutní četnost dvojice (x[j], y[k]) ve výběrovém souboru pjk = n njk – simultánní relativní četnost dvojice (x[j], y[k]) ve výběrovém souboru nj. = N(X = x[j]) = nj1 + ... + njs – marginální absolutní četnost varianty x[j] pj. = n nj. = pj1 + ... + pjs – marginální relativní četnost varianty x[j] n.k = N(Y = y[k]) = n1k + ... + nrk – marginální absolutní četnost varianty y[k] p.k = n n.k = p1k + ... + prk – marginální relativní četnost varianty y[k] Simultánní četností zapisujeme do kontingenční tabulky (contingency table). Kontingenční tabulka simultánních absolutních četností má tvar: y x njk y[1] ... y[s] nj. x[1] n11 ... n1s n1. M ... ... ... ... x[r] nr1 ... nrs nr. n.k n.1 ... n.s n Příklad: Máme datový soubor, který obsahuje údaje o známkách z matematiky (znak X), z angličtiny (znak Y) a pohlaví studenta (znak Z, 0 – žena, 1 – muž) u 20 studentů: Vytvořte kontingenční tabulku simultánních absolutních a relativních četností pro známky z matematiky a angličtiny. Řešení: Kontingenční tabulka simultánních absolutních četností Kontingenční tabulka simultánních relativních četností Simultánní a marginální četnostní funkce Pomocí simultánních relativních četností zavedeme simultánní četnostní funkci: Funkce p(x, y) = ( )    ==== = jinak0 s,1,kr,,1,j,yy,xxprop y,xp [k][j]jk KK se nazývá simultánní četnostní funkce. Pomocí marginálních relativních četností zavedeme marginální četnostní funkce pro znaky X a Y. Odlišíme je indexem takto: ( )    == = jinak0 r,1,j,xxprop xp [j]j. 1 K , ( )    == = jinak0 s,1,k,yyprop yp [k].k 2 K . Mezi simultánní četnostní funkcí a marginálními četnostními funkcemi platí vztahy: ( ) ∑ ∞ −∞= = y 1 y)p(x,xp , ( ) ∑ ∞ −∞= = x 2 y)p(x,yp . Příklad: Sestrojte graf simultánní četnostní funkce pro známky z matematiky a angličtiny. Řešení: Vyjdeme z kontingenční tabulky simultánních relativních četností. Četnostní nezávislost znaků v daném výběrovém souboru Řekneme, že znaky X, Y jsou v daném výběrovém souboru četnostně nezávislé, právě když pro všechna j = 1, ..., r a všechna k = 1, ..., s platí multiplikativní vztah: pjk = pj. p.k neboli pro ( ) ( ) ( ) ( )ypxpy,xp:Ry,x 21 2 =∈∀ . Příklad: Ověřte, zda v našem datovém souboru jsou známky z matematiky a angličtiny četnostně nezávislé. Řešení: Vyjdeme z kontingenční tabulky simultánních relativních četností: Známky z matematiky a angličtiny nejsou četnostně nezávislé, protože už pro j = 1, k = 1 je multiplikativní vztah porušen: p11 = 0,20, p1. = 0,35, p.1 = 0,20, tudíž 0,20 ≠ 0,35.0,20 Řádkově a sloupcově podmíněné relativní četnosti ( ) .k jk kj n n p = - sloupcově podmíněná relativní četnost varianty x[j] za předpokladu y[k] ( ) j. jk kj n n p = - řádkově podmíněná relativní četnost varianty y[k] za předpokladu x[j]. Podmíněné relativní četnosti zapisujeme do kontingenční tabulky. Často je vyjadřujeme v procentech. Příklad: Pro datový soubor známek z matematiky a angličtiny sestavte kontingenční tabulku sloupcově a poté řádkově podmíněných relativních četností. Řešení: Nejprve vypočítáme sloupcově podmíněné relativní četnosti. Použijeme kontingenční tabulku simultánních absolutních četností. Interpretujeme např. třetí sloupec: z těch studentů, kteří měli trojku z angličtiny, mělo 2/7 = 29% jedničku z matematiky, 1/7 = 14% dvojku z matematiky, 1/7 = 14% trojku z matematiky a 3/7 = 43% čtyřku z matematiky. Nyní vypočítáme řádkově podmíněné relativní četnosti. Opět použijeme kontingenční tabulku simultánních absolutních četností. Interpretujeme např. první řádek: z těch studentů, kteří měli jedničku z matematiky, mělo 4/7 = 57% jedničku z angličtiny, 1/7 = 14% dvojku z angličtiny a 2/7 = 29% trojku z angličtiny. Dvourozměrný tečkový diagram (scatter plot) Dvourozměrné rozložení četností lze znázornit pomocí dvourozměrného tečkového diagramu. Na vodorovnou osu vyneseme varianty znaku X, na svislou varianty znaku Y a do příslušných průsečíků nakreslíme tolik teček, jaká je absolutní četnost dané dvojice. V našem příkladě se studenty dostaneme tento diagram: Dvourozměrný tečkový diagram svědčí o nepříliš výrazné tendenci k podobné klasifikaci v obou předmětech. Zcela odlišný vzhled však mají diagramy pro muže a pro ženy: Pro muže Pro ženy