Základní, výběrový a datový soubor Základním souborem rozumíme libovolnou neprázdnou množinu E. Prvky množiny E značíme s a nazýváme je objekty. Libovolnou neprázdnou podmnožinu (s1; sn} základního souboru E nazýváme výběrový soubor rozsahu n. Je-li množina GcE, pak symbolem N(G) rozumíme absolutní četnost množiny G ve výběrovém souboru, tj. počet těch objektů množiny G, které patří do výběrového souboru. Relativní četnost množiny G ve výběrovém souboru zavedeme vztahem množina G Příklad: Základním souborem E je množina všech ekonomicky zaměřených studentů 1. ročníku českých vysokých škol. Množina G1 je tvořena těmi studenty, kteří uspěli v prvním zkušebním termínu z matematiky a množina G2 obsahuje ty studenty, kteří uspěli v prvním zkušebním termínu z angličtiny. Ze základního souboru bylo náhodně vybráno 20 studentů, kteří tvoří výběrový soubor (s1, s20}. Z těchto 20 studentů 12 uspělo v matematice, 15 v angličtině a 11 v obou předmětech. Zapište absolutní a relativní četnosti úspěšných matematiků, angličtinářů a oboustranně úspěšných studentů. v Řešení: N(G!)= 2,N(G2)= 5,N(G!n 2) = l,n= :0,p(G1)=^= i,6,p(G2)=^ = »,75, P(Gin 2) = ±= 155 Vidíme, že úspěšných matematiků je 60%, angličtinářů 75% a oboustranně úspěšných studentů jen 55%. Vlastnosti relativní četnosti: Relativní četnost má následujících 12 vlastností, které jsou obdobné vlastnostem procent. . p(0) = O • p(G) > 0 (nezápornost) . p(G)p(G1) + p(G2) . p(Gi u G2) + 0 < p(Gi) + p(G2) (subaditivita) . Gi n G2 = 0 => p(Gi u G2) = p(Gi) + p(G2) (aditivita) . p(G2\G1) = p(G2)-p(G1nG2) . Gi c G2 ^ p(G2 \ Gi) = p(G2) - p(Gi) (subtraktivita) . Gi c G2 ^> p(Gi) < p(G2) (monotonie) . p('E) = 1 (normovanost) . p(G) + p( G) = 1 (komplementarita) Pojem podmíněné relativní četnosti: Pokud se v daném základním souboru zajímáme o dvě podmnožiny, můžeme zavést pojem podmíněné relativní četnosti jedné podmnožiny v daném výběrovém souboru za předpokladu, že objekt pochází z druhé podmnožiny. Nechť E je základní soubor, G1, G2 jeho podmnožiny, (s1, sn} výběrový soubor. Definujeme podmíněnou relativní četnost množiny G1 ve výběrovém souboru za předpokladu G2: p(Gi/G2) = N°'^;2:= P-%^4-: a podmíněnou relativní četnost G2 ve výběrovém souboru za předpokladu Gi: p(G2/G0 = m^\°= P-%4-:. Příklad: Pro údaje z příkladu o studentech vypočtěte podmíněnou relativní četnost úspěšných matematiků mezi úspěšnými angličtináři a podmíněnou relativní četnost úspěšných angličtinářů mezi úspěšnými matematiky. (Připomínáme, že z 20 studentů 12 uspělo v matematice, 15 v angličtině a 11 v obou předmětech.) v Řešení: NCGJ = 2,N(G2) = .5,1^ n ř2) = l,n = 20, p(Gi/G2) = NOlj?^= - = 0,73 (tzn., že 73% těch studentů, kteří byli úspěšní v angličtině, uspělo i v matematice) p(G2/G0 = N<\?^2-=-= 0,92 (tzn., že 92% těch studentů, kteří byli úspěšní v matematice, uspělo i v angličtině) Pojem četnostní nezávislosti dvou množin: O četnostní nezávislosti dvou množin v daném výběrovém souboru hovoříme tehdy, když informace o původu objektu z jedné množiny nijak nemění šance, s nimiž soudíme na jeho původ i z druhé množiny. V příkladě se studenty by množiny úspěšných matematiků a úspěšných angličtinářů byly četnostně nezávislé, pokud podíl úspěšných matematiků mezi úspěšnými angličtináři by byl stejný jako podíl úspěšných matematiků mezi všemi zkoušenými studenty a stejně tak podíl úspěšných angličtinářů mezi úspěšnými matematiky by byl stejný jako podíl úspěšných angličtinářů mezi všemi zkoušenými studenty, tj. n Oj n r 2 ^ nOj^ n Oj n ř2 ^ nQ2^ n02^ n n 00 n Po snadné úpravě dostaneme multiplikativní vztah -=---, tj. PVj n r2^= )ÍJjJIÍJ^ n n n Řekneme tedy, že množiny Gi, G2 jsou četnostně nezávislé v daném výběrovém souboru, jestliže pOi^ ř2"= )0i j302ľ-(V praxi jen zřídka dojde k tomu, že uvedený vztah platí přesně. Většinou je jen naznačena určitá tendence četnostní nezávislosti.) Příklad: Pro údaje z příkladu o studentech zjistěte, zda úspěchy v matematice a angličtině jsou v daném výběrovém souboru četnostně nezávislé. (Připomínáme, že oboustranně úspěšných studentů bylo 55%, úspěšných matematiků 60% a úspěšných angličtinářů 75%.) v Řešení: p(Gi n G2) = 0,55, p(Gi)p(G2) = 0,6x0,75 = 0,45, tedy skutečná relativní četnost oboustranně úspěšných studentů je větší než by odpovídalo četnostní nezávislosti množin Gi, G2 v daném výběrovém souboru. Znamená to, že úspěch v matematice se zpravidla sdružuje s úspěchem v angličtině a naopak. Pojem skalárního a vektorového znaku: Vlastnosti objektů vyjadřujeme číselně pomocí znaků. Nechť E je základní soubor. Funkce X: E — R, Y: E — R, Z: E — R, které každému objektu přiřazují číslo, se nazývají (skalární) znaky. Uspořádaná p-tice (X, Y, Z) se nazývá vektorový znak. M) 0) GO a normovaná ( J]p(x) =1). x=-» Pomocí kumulativních relativních četností zavedeme empirickou distribuční funkci. Í0 pro x < xm Funkce F(x) = ^Fjproxmx[r] distribuční funkce. Empirická distribuční funkce je neklesající (vx1; x2 e R, xi < x2: F(xi) < F(x2)), zprava spojitá (vx0 e R libovolné, ale pevně dané: iimx^Xo F(x) = F(xo)) a normovaná (iimx_, ,F(x) = 0, iimx^ F(x) =1). Platí VxeR:F«>I>C t x, [r] Grafy Vztah mezi četnostní funkcí a empirickou distribuční funkcí VxeR:F^= >"p f_ t n = 20 [ Kontingenční tabulka simultánních relativních četností \ 2 3 4 Pj- X 1 0,20 0,05 0,10 O;0Ú 0,3-5 2 0,00 n,L(] otos 0,00 0,13 3 0,00 0,0(1 (}.{)& 0,0o 0,10 4 0,00 0,05 ÍÍ.15 0,20 0,40 (1,20 0,20 0,3-5 0,25 lr0Q Pojem simultánní a marginální četnostní funkce Pomocí simultánních relativních četností zavedeme simultánní četnostní funkci: Funkce ^ rpjkprox = xm,y = y[k]J = l,...,r,k = l,...,s ^0 jinak se nazývá simultánní četnostní funkce. Pomocí marginálních relativních četností zavedeme marginální četnostní funkce pro znaky X a Y. Odlišíme je indexem takto: ^ Ipj prox=xmJ = l,...,r Pi*.-= , [0 jinak ~ fpk pro y = yM, k = 1, • s [0 jinak Mezi simultánní četnostní funkcí a marginálními četnostními funkcemi platí vztahy: GO CO y= -co x= -co Příklad: Sestrojte graf simultánní četnostní funkce pro známky z matematiky a angličtiny. Řešení: Vyjdeme z kontingenční tabulky simultánních relativních četností. i 2 3 4 X 1 0,20 0,05 0,10 O.00 0,3-5 2 0,00 n, lq otos 0,00 0,13 3 0,00 0,0(1 (}.{)& 0,0o o,io 4 0,00 0,05 0,20 0,40 0,20 0,20 0,35 0,-25 L,Í)0 Pojem četnostní nezávislosti znaků v daném výběrovém souboru Řekneme, že znaky X, Y jsou v daném výběrovém souboru četnostně nezávislé, právě když pro všechna j = 1, r a všechna k = 1, s platí multiplikativní vztah: Pjk = Pj. P.k neboli pro v(x, y) e R2: p(x, y) = pi(x) p2(y). Příklad: Ověřte, zda v našem datovém souboru jsou známky z matematiky a angličtiny četnostně nezávislé. v Řešení: Vyjdeme z kontingenční tabulky relativních četností. \ v. 2 3 4 Pj- 1 W 1 0,20 0,10 0,00 0,3-5 , 2 0,00 iuo 0+05 0S00 0,15 3 0,00 0,00 0.05 030o 0,10 4 0,00 0,03 (Klíi 0,20 0,40 P-k (],20 0,20 0,35 0,25 1,00 Známky z matematiky a angličtiny nejsou četnostně nezávislé, protože už pro j = 1, k = 1 je multiplikativní vztah porušen: p11 = 0,20, pL = 0,35, = 0,20, tudíž 0,20 í 0,35.0,20 Pojem řádkově a sloupcově podmíněných relativních četností Sloupcově podmíněná relativní četnost varianty za předpokladu yM: pj(k) - Řádkově podmíněná relativní četnost varianty yM za předpokladu x^: pa)k — Příklad: Pro datový soubor známek z matematiky a angličtiny sestavte kontingenční tabulku sloupcově a poté řádkově podmíněných relativních četností. v Řešení: Nejprve se budeme zabývat sloupcově podmíněnými relativními četnostmi. Použijeme vzorec pJ