Popisná statistika Popisná statistika je disciplína, která popisuje a sumarizuje informace obsažené ve velkém množství dat pomocí tabulek, grafů, funkcionálních a číselných charakteristik. Činí tak pomocí základních matematických operací. Cílem popisné statistiky je zpřehlednit informace „ukryté´” v datových souborech. Popisná statistika je velmi důležitá minimálně ze dvou důvodů: - v praxi se často používá (všichni znají takové pojmy, jako je průměr, směrodatná ochylka, tabulka rozložení četností, výsečový graf apod.) - motivuje pojmy, se kterými pak pracuje počet pravděpodobnosti (např. relativní četnost motivuje pravděpodobnost, hustota četnosti motivuje hustotu pravděpodobnosti, průměr motivuje střední hodnotu apod.) Dobré pochopení pojmů popisné statistiky tedy velmi usnadní studium počtu pravděpodobnosti. Základní, výběrový a datový soubor Základním souborem rozumíme libovolnou neprázdnou množinu E. Prvky množiny E značíme ε a nazýváme je objekty. Libovolnou neprázdnou podmnožinu {ε1, ..., εn} základního souboru E nazýváme výběrový soubor rozsahu n. Je-li množina G ⊆ E, pak symbolem N(G) rozumíme absolutní četnost množiny G ve výběrovém souboru, tj. počet těch objektů množiny G, které patří do výběrového souboru. Relativní četnost množiny G ve výběrovém souboru zavedeme vztahem n )G(N )G(p = . Ilustrace Příklad: Základním souborem E je množina všech ekonomicky zaměřených studentů 1. ročníku českých vysokých škol. Množina G1 je tvořena těmi studenty, kteří uspěli v prvním zkušebním termínu z matematiky a množina G2 obsahuje ty studenty, kteří uspěli v prvním zkušebním termínu z angličtiny. Ze základního souboru bylo náhodně vybráno 20 studentů, kteří tvoří výběrový soubor {ε1, ..., ε20}. Z těchto 20 studentů 12 uspělo v matematice, 15 v angličtině a 11 v obou předmětech. Zapište absolutní a relativní četnosti úspěšných matematiků, angličtinářů a oboustranně úspěšných studentů. Řešení: 55,0 20 11 )GG(p ,75,0 20 15 )G(p ,6,0 20 12 )G(p ,20n,11)GG(N,15)G(N,12)G(N 21 2 1 2121 ==∩ == == ==∩== Vidíme, že úspěšných matematiků je 60%, angličtinářů 75% a oboustranně úspěšných studentů jen 55%. Vlastnosti relativní četnosti: Relativní četnost má následujících 12 vlastností, které jsou obdobné vlastnostem procent. • p(∅) = 0 • p(G) ≥ 0 (nezápornost) • p(G) ≤ 1 • p(G1 ∪ G2) + p(G1 ∩ G2) = p(G1) + p(G2) • 1 + p(G1 ∩ G2) ≥ p(G1) + p(G2) • p(G1 ∪ G2) + 0 ≤ p(G1) + p(G2) (subaditivita) • G1 ∩ G2 = ∅ ⇒ p(G1 ∪ G2) = p(G1) + p(G2) (aditivita) • p(G2 \ G1) = p(G2) – p(G1 ∩ G2) • G1 ⊆ G2 ⇒ p(G2 \ G1) = p(G2) – p(G1) (subtraktivita) • G1 ⊆ G2 ⇒ p(G1) ≤ p(G2) (monotonie) • p(Έ) = 1 (normovanost) • p(G) + p(G ) = 1 (komplementarita) Pojem podmíněné relativní četnosti: Pokud se v daném základním souboru zajímáme o dvě podmnožiny, můžeme zavést pojem podmíněné relativní četnosti jedné podmnožiny v daném výběrovém souboru za předpokladu, že objekt pochází z druhé podmnožiny. Nechť E je základní soubor, G1, G2 jeho podmnožiny, {ε1, ..., εn} výběrový soubor. Definujeme: podmíněnou relativní četnost množiny G1 ve výběrovém souboru za předpokladu G2: p(G1/G2) = ( ) ( ) ( ) ( )2 21 2 21 Gp GGp GN GGN ∩ = ∩ , podmíněnou relativní četnost G2 ve výběrovém souboru za předpokladu G1: p(G2/G1) = ( ) ( ) ( ) ( )1 21 1 21 Gp GGp GN GGN ∩ = ∩ . Příklad: Pro údaje z příkladu o studentech vypočtěte podmíněnou relativní četnost úspěšných matematiků mezi úspěšnými angličtináři a podmíněnou relativní četnost úspěšných angličtinářů mezi úspěšnými matematiky. (Připomínáme, že z 20 studentů 12 uspělo v matematice, 15 v angličtině a 11 v obou předmětech.) Řešení: ,20n,11)GG(N,15)G(N,12)G(N 2121 ==∩== p(G1/G2) = ( ) ( )2 21 GN GGN ∩ = 15 11 = 0,73 (tzn., že 73% těch studentů, kteří byli úspěšní v angličtině, uspělo i v matematice) p(G2/G1) = ( ) ( )1 21 GN GGN ∩ = 12 11 = 0,92 (tzn., že 92% těch studentů, kteří byli úspěšní v matematice, uspělo i v angličtině) Pojem četnostní nezávislosti dvou množin: O četnostní nezávislosti dvou množin v daném výběrovém souboru hovoříme tehdy, když informace o původu objektu z jedné množiny nijak nemění šance, s nimiž soudíme na jeho původ i z druhé množiny. V příkladě se studenty by množiny úspěšných matematiků a úspěšných angličtinářů byly četnostně nezávislé, pokud podíl úspěšných matematiků mezi úspěšnými angličtináři by byl stejný jako podíl úspěšných matematiků mezi všemi zkoušenými studenty a stejně tak podíl úspěšných angličtinářů mezi úspěšnými matematiky by byl stejný jako podíl úspěšných angličtinářů mezi všemi zkoušenými studenty, tj. ( ) ( ) ( ) ( ) ( ) ( ) n GN GN GGN n GN GN GGN 2 1 211 2 21 = ∩ ∧= ∩ . Po snadné úpravě dostaneme multiplikativní vztah ( ) ( ) ( ) n GN n GN n GGN 2121 ⋅= ∩ , tj. ( ) ( ) ( )2121 GpGpGGp =∩ Řekneme tedy, že množiny G1, G2 jsou četnostně nezávislé v daném výběrovém souboru, jestliže ( ) ( ) ( )2121 GpGpGGp =∩ . (V praxi jen zřídka dojde k tomu, že uvedený vztah platí přesně. Většinou je jen naznačena určitá tendence četnostní nezá- vislosti.) Příklad: Pro údaje z příkladu o studentech zjistěte, zda úspěchy v matematice a angličtině jsou v daném výběrovém souboru četnostně nezávislé. Řešení: p(G1 ∩ G2) = 0,55, p(G1)p(G2) = 0,6×0,75 = 0,45, tedy skutečná relativní četnost oboustranně úspěšných studentů je větší než by odpovídalo četnostní nezávislosti množin G1, G2 v daném výběrovém souboru. Znamená to, že úspěch v matematice se zpravidla sdružuje s úspěchem v angličtině a naopak. Pojem skalárního a vektorového znaku: Vlastnosti objektů vyjadřujeme číselně pomocí znaků. Nechť E je základní soubor. Funkce X: E → R, Y: E → R, ..., Z: E → R, které každému objektu přiřazují číslo, se nazývají (skalární) znaky. Uspořádaná p-tice (X, Y, ..., Z) se nazývá vektorový znak. Ilustrace Označení: Nechť je dán výběrový soubor {ε1, ..., εn} ⊆ E. Hodnoty znaků X, Y, ..., Z pro i-tý objekt označíme xi = X(εi), yi = Y(εi), ..., zi = Z(εi), i = 1, ..., n. Pojem datového souboru: Matice               nnn 222 111 zyx zyx zyx L LLLL L L typu n × p se nazývá datový soubor. Její řádky odpovídají jednotlivým objektům, sloupce znakům. Libovolný sloupec této matice nazýváme jednorozměrným datovým souborem. Jestliže uspořádáme hodnoty některého znaku (např. znaku X) v jednorozměrném datovém souboru vzestupně podle velikosti, dostaneme uspořádaný datový soubor           )n( )1( x x M , kde x(1) ≤ x(2) ≤ ... ≤ x(n). Vektor           ]r[ ]1[ x x M , kde x[1] < ... < x[r] jsou navzájem různé hodnoty znaku X, se nazývá vektor variant. Příklad: Pro studenty z výše uvedeného výběrového souboru byly zjišťovány hodnoty znaků X – známka z matematiky v 1. zkušebním termínu, Y – známka z angličtiny v 1. zkušebním termínu, Z – pohlaví studenta (0 – žena, 1 – muž). Byl získán datový soubor Utvořte jednorozměrný uspořádaný i neuspořádaný datový soubor pro známky z matematiky a vektor variant pro známky z matematiky Řešení: Pojem jevu: Nechť {ε1, ..., εn} je výběrový soubor, X, Y, ..., Z jsou znaky, B, B1, …, Bp jsou číselné množiny. Zápis {X ∈B} znamená jev „znak X nabyl hodnoty z množiny B“ . Zápis {X ∈B1 ∧ Y ∈B2 ∧ ... ∧ Z ∈Bp} znamená jev „znak X nabyl hodnoty z množiny B1 a současně znak Y nabyl hodnoty z množiny B2 atd. až znak Z nabyl hodnoty z množiny Bp“. Symbol N(X ∈B) značí absolutní četnost jevu {X ∈B} ve výběrovém souboru, tj. počet těch objektů ve výběrovém souboru, pro něž xi ∈B. Symbol p(X ∈ B) znamená relativní četnost jevu {X ∈ B} ve výběrovém souboru, tj. p(X ∈ B) = n )BX(N ∈ . Analogicky N(X ∈ B1 ∧ Y ∈ B2 ∧ ... ∧ Z ∈ Bp) resp. p(X ∈ B1 ∧ Y ∈ B2 ∧ ... ∧ Z ∈ Bp) znamená absolutní resp. relativní četnost jevu {X ∈ B1 ∧ Y ∈ B2 ∧ ... ∧ Z ∈ Bp} ve výběrovém souboru. Příklad: Pro datový soubor s údaji o známkách najděte relativní četnost a) matematických jedničkářů, b) úspěšných matematiků, c) oboustranně neúspěšných studentů. Datový soubor má tvar Řešení: ad a) ( ) 35,0 20 7 1Xp === ad b) ( ) 6,0 20 12 3Xp ==≤ ad c) ( ) 2,0 20 4 4Y4Xp ===∧= Zjistili jsme, že jedničku z matematiky mělo 35 % studentů, Zkoušku z matematiky úspěšně složilo 60 % studentů a oboustranně neúspěšných bylo 20 % studentů. Jednorozměrné bodové rozložení četností Jestliže počet variant znaku X v jednorozměrném datovém souboru není příliš velký, pak přiřazujeme četnosti jednotlivým variantám a hovoříme o bodovém rozložení četností. Nechť je dán jednorozměrný datový soubor           n 1 x x M , v němž znak X nabývá r variant. Pro j = 1, ..., r definujeme: nj = N(X = x[j]) – absolutní četnost varianty x[j] ve výběrovém souboru pj = n n j − relativní četnost varianty x[j] ve výběrovém souboru Nj = N(X ≤ x[j]) = n1 + ... + nj – absolutní kumulativní četnost prvních j variant ve výběrovém souboru Fj = n Nj = p1 + ... + pj – relativní kumulativní četnost prvních j variant ve výběrovém souboru Tabulka typu x[j] nj pj Nj Fj x[1] n1 p1 N1 F1 M M M M M x[r] nr pr Nr Fr se nazývá variační řada (nebo též tabulka rozložení četností). Příklad: Máme jednorozměrný datový soubor, který obsahuje údaje o známkách z matematiky (znak X) u 20 studentů.                                         1 4 4 1 4 2 4 2 4 4 1 1 3 3 4 1 1 4 1 2 Sestavte tabulku rozložení četností. Řešení: x[j] nj pj Nj Fj 1 7 7/20=0,35 7 7/20=0,35 2 3 3/20=0,15 10 10/20=0,50 3 2 2/20=0,10 12 12/20=0,60 4 8 8/20=0,40 20 20/20=1,00 ∑ 20 1,00 - - Četnostní funkce, empirická distribuční funkce Pomocí relativních četností zavedeme četnostní funkci. Funkce p(x) =    == jinak0 r...,1,j,xxprop [j]j se nazývá četnostní funkce. Četnostní funkce je nezáporná (∀x ∈ R: p(x) ≥0) a normovaná ( ∑ ∞ ∞=-x p(x)= 1). Pomocí kumulativních relativních četností zavedeme empirickou distribuční funkci. Funkce F(x) =     ≥ =<≤ < + [r] 1][j[j]j [1] xxpro1 1-r...,1,j,xxxproF xxpro0 se nazývá empirická distribuční funkce. Empirická distribuční funkce je neklesající (∀ x1, x2 ∈ R, x1 < x2: F(x1) ≤ F(x2)), zprava spojitá (∀ x0 ∈ R libovolné, ale pevně dané: +→ 0xxlim F(x) = F(x0)) a normovaná ( −∞→xlim F(x) = 0, ∞→xlim F(x) = 1). Příklad: Pro známky z matematiky nakreslete graf četnostní funkce a empirické distribuční funkce. Řešení: Variační řada x[j] nj pj Nj Fj 1 7 7/20=0,35 7 7/20=0,35 2 3 3/20=0,15 10 10/20=0,50 3 2 2/20=0,10 12 12/20=0,60 4 8 8/20=0,40 20 20/20=1,00 ∑ 20 1,00 - - Vzorce ( )    == = jinak0 r...,1,j,xxprop xp [j]j ( )      ≥ =<≤ < = + [r] 1][j[j]j [1] xxpro1 1-r...,1,j,xxxproF xxpro0 xF Grafy Vztah mezi četnostní funkcí a empirickou distribuční funkcí ( ) ( )∑≤ =∈∀ xt tpxF:Rx Grafické znázornění bodového rozložení četností Tečkový diagram: na číselné ose vyznačíme jednotlivé varianty znaku X a nad každou variantu nakreslíme tolik teček, jaká je její absolutní četnost. Polygon četnosti: je lomená čára spojující body, jejichž x-ová souřadnice je varianta znaku X a y-ová souřadnice je absolutní či relativní četnost této varianty. Sloupkový diagram: je soustava na sebe nenavazujících obdélníků, kde střed základny je varianta znaku X a výška je absolutní či relativní četnost této varianty. Výsečový graf: je kruh rozdělený na výseče, jejichž vnější obvod odpovídá absolutním četnostem variant znaku X. Příklad: Pro jednorozměrný datový soubor známek z matematiky sestrojte tečkový diagram, polygon četností, sloupkový diagram a výsečový graf. Řešení: Tečkový diagram Polygon četností Sloupkový diagram Výsečový graf Dvourozměrné bodové rozložení četností Nechť je dán dvourozměrný datový soubor         nn 11 yx yx KK , kde znak X má r variant a znak Y má s variant. Pak definujeme: njk = N(X = x[j] ∧ Y = y[k]) – simultánní absolutní četnost dvojice (x[j], y[k]) ve výběrovém souboru pjk = n njk – simultánní relativní četnost dvojice (x[j], y[k]) ve výběrovém souboru nj. = N(X = x[j]) = nj1 + ... + njs – marginální absolutní četnost varianty x[j] pj. = n nj. = pj1 + ... + pjs – marginální relativní četnost varianty x[j] n.k = N(Y = y[k]) = n1k + ... + nrk – marginální absolutní četnost varianty y[k] p.k = n n.k = p1k + ... + prk – marginální relativní četnost varianty y[k] Simultánní četností zapisujeme do kontingenční tabulky. Kontingenční tabulka simultánních absolutních četností má tvar: y x njk y[1] ... y[s] nj. x[1] n11 ... n1s n1. M ... ... ... ... x[r] nr1 ... nrs nr. n.k n.1 ... n.s n Příklad: Máme datový soubor, který obsahuje údaje o známkách z matematiky (znak X), z angličtiny (znak Y) a pohlaví studenta (znak Z, 0 – žena, 1 – muž) u 20 studentů: Vytvořte kontingenční tabulku simultánních absolutních a relativních četností pro známky z matematiky a angličtiny. Řešení: Kontingenční tabulka simultánních absolutních četností Kontingenční tabulka simultánních relativních četností Simultánní a marginální četnostní funkce Pomocí simultánních relativních četností zavedeme simultánní četnostní funkci: Funkce p(x, y) =    ==== jinak0 s,1,kr,,1,j,yy,xxprop [k][j]jk KK se nazývá simultánní četnostní funkce. Pomocí marginálních relativních četností zavedeme marginální četnostní funkce pro znaky X a Y. Odlišíme je indexem takto: p1(x) =    == jinak0 r,1,j,xxprop [j]j. K , p2(y) =    == jinak0 s,1,k,yyprop [k].k K . Mezi simultánní četnostní funkcí a marginálními četnostními funkcemi platí vztahy: p1(x) = ∑ ∞ −∞=y y)p(x, , p2(y) = ∑ ∞ −∞=x y)p(x, . Příklad: Sestrojte graf simultánní četnostní funkce pro známky z matematiky a angličtiny. Řešení: Vyjdeme z kontingenční tabulky simultánních relativních četností. Četnostní nezávislost znaků v daném výběrovém souboru Řekneme, že znaky X, Y jsou v daném výběrovém souboru četnostně nezávislé, právě když pro všechna j = 1, ..., r a všechna k = 1, ..., s platí multiplikativní vztah: pjk = pj. p.k neboli pro ∀ (x, y) ∈ R2 : p(x, y) = p1(x) p2(y). Příklad: Ověřte, zda v našem datovém souboru jsou známky z matematiky a angličtiny četnostně nezávislé. Řešení: Vyjdeme z kontingenční tabulky simultánních relativních četností: Známky z matematiky a angličtiny nejsou četnostně nezávislé, protože už pro j = 1, k = 1 je multiplikativní vztah porušen: p11 = 0,20, p1. = 0,35, p.1 = 0,20, tudíž 0,20 ≠ 0,35.0,20 Řádkově a sloupcově podmíněné relativní četnosti pj(k) = .k jk n n - sloupcově podmíněná relativní četnost varianty x[j] za předpokladu y[k] p(j)k = j. jk n n - řádkově podmíněná relativní četnost varianty y[k] za předpokladu x[j]. Podmíněné relativní četnosti zapisujeme do kontingenční tabulky. Často je vyjadřujeme v procentech. Příklad: Pro datový soubor známek z matematiky a angličtiny sestavte kontingenční tabulku sloupcově a poté řádkově podmíněných relativních četností. Řešení: Nejprve vypočítáme sloupcově podmíněné relativní četnosti. Použijeme kontingenční tabulku simultánních absolutních četností. Interpretujeme např. třetí sloupec: z těch studentů, kteří měli trojku z angličtiny, mělo 2/7 = 29% jedničku z matematiky, 1/7 = 14% dvojku z matematiky, 1/7 = 14% trojku z matematiky a 3/7 = 43% čtyřku z matematiky. Nyní vypočítáme řádkově podmíněné relativní četnosti. Opět použijeme kontingenční tabulku simultánních absolutních četností. Interpretujeme např. první řádek: z těch studentů, kteří měli jedničku z matematiky, mělo 4/7 = 57% jedničku z angličtiny, 1/7 = 14% dvojku z angličtiny a 2/7 = 29% trojku z angličtiny. Dvourozměrný tečkový diagram Dvourozměrné rozložení četností lze znázornit pomocí dvourozměrného tečkového diagramu. Na vodorovnou osu vyneseme varianty znaku X, na svislou varianty znaku Y a do příslušných průsečíků nakreslíme tolik teček, jaká je absolutní četnost dané dvojice. V našem příkladě se studenty dostaneme tento diagram: Dvourozměrný tečkový diagram svědčí o nepříliš výrazné tendenci k podobné klasifikaci v obou předmětech. Zcela odlišný vzhled však mají diagramy pro muže a pro ženy: Pro muže Pro ženy Intervalové rozložení četností Nechť je dán jednorozměrný datový soubor. Jestliže počet variant znaku X je blízký rozsahu souboru, pak přiřazujeme nikoliv jednotlivým variantám, ale celým intervalům hodnot. Hovoříme pak o intervalovém rozložení četnosti. Číselnou osu rozložíme na intervaly typu ( 1u,∞− , ( 21 u,u , ..., ( 1rr u,u + , ( )∞+ ,u 1r tak, aby okrajové intervaly neobsahovaly žádnou pozorovanou hodnotu znaku X. Užíváme označení: ( 1jj u,u + – j-tý třídicí interval znaku X, j = 1, ..., r. dj = uj+1 – uj – délka j-tého třídicího intervalu znaku X, x[j] = 2 uu 1jj ++ – střed j-tého třídicího intervalu znaku X Třídicí intervaly volíme nejčastěji stejně dlouhé. Jejich počet určíme např. pomocí Sturgesova pravidla: r = 1 + 3,3 log10n, kde n je rozsah souboru. Hodnoty znaku X roztřídíme do r třídicích intervalů. Pro j = 1, ..., r definujeme: nj = N(uj < X ≤ uj+1) – absolutní četnost j-tého třídicího intervalu ve výběrovém souboru pj = n nj – relativní četnost j-tého třídicího intervalu ve výběrovém souboru fj = j j d p – četnostní hustota j-tého třídicího intervalu ve výběrovém souboru Nj = N(X ≤ uj+1) = n1 + ... + nj – absolutní kumulativní četnost prvních j třídicích intervalů ve výběrovém souboru Fj = n Nj = p1 + ... + pj – relativní kumulativní četnost prvních j třídicích intervalů ve výběrovém souboru. Tabulka typu se nazývá tabulka rozložení četností. Příklad: Do laboratoře bylo dodáno 60 vzorků a byly zjištěny a hodnoty znaku X – mez plasticity (v kp/cm2 ) a Y – mez pevnosti (v kp/cm2 ). Datový soubor má tvar: a) Pro znak X stanovte optimální počet třídicích intervalů dle Sturgesova pravidla. b) Sestavte tabulku rozložení četností. Řešení: ad a) Rozsah souboru je 60. Podle Sturgesova pravidla je optimální počet třídicích intervalů r = 7. Budeme tedy volit 7 intervalů stejné délky tak, aby v nich byly obsaženy všechny pozorované hodnoty znaku X, z nichž nejmenší je 33, největší 160; volba u1 = 30, ..., u8 = 170 splňuje požadavky. ad b) ( 1jj u,u + dj x[j] nj pj Nj Fj fj ( 5030, 20 40 8 31,060/8 = 8 31,060/8 = 600,0)2060/(8 =⋅ ( 7050, 20 60 4 60,060/4 = 12 2,060/12 = 300,0)2060/(4 =⋅ ( 9070, 20 80 13 621,060/13 = 25 641,060/25 = 0183,0)2060/(13 =⋅ ( 11090, 20 100 15 25,060/15 = 40 6,060/40 = 0125,0)2060/(15 =⋅ ( 130110, 20 120 9 15,060/9 = 49 681,060/49 = 0075,0)2060/(9 =⋅ ( 150130, 20 140 7 611,060/7 = 56 39,060/56 = 00583,0)2060/(7 =⋅ ( 170150, 20 160 4 60,060/4 = 60 160/60 = 300,0)2060/(4 =⋅ Součty 60 1 Histogram, hustota četnosti, intervalová empirická distribuční funkce Intervalové rozložení četností graficky znázorňujeme pomocí histogramu. Je to graf skládající se z r obdélníků, sestrojených nad třídicími intervaly, přičemž obsah j-tého obdélníku je roven relativní četnosti pj j-tého třídicího intervalu, j = 1, ..., r. Histogram je shora omezen schodovitou čarou, která je grafem funkce zvané hustota četnosti: ( )    =≤< = + jinak0 r,1,j,uxuprof xf 1jjj L Pomocí hustoty četnosti zavedeme intervalovou empirickou distribuční funkci: ( ) ∫∞ = x f(t)dtxF . Hustota četnosti je nezáporná ( 0f(x):Rx ≥∈∀ ) a normovaná ( ∫ ∞ ∞− =1f(x)dx ). Intervalová empirická distribuční funkce je neklesající, spojitá a normovaná ( −∞→xlim F(x) = 0, ∞→xlim F(x) = 1). Příklad: Pro mez plasticity oceli nakreslete histogram a pod histogram graf intervalové empirické distribuční funkce. Řešení: Vyjdeme z tabulky rozložení četností. ( 1jj u,u + dj x[j] nj pj Nj Fj fj ( 5030, 20 40 8 31,060/8 = 8 31,060/8 = 600,0)2060/(8 =⋅ ( 7050, 20 60 4 60,060/4 = 12 2,060/12 = 300,0)2060/(4 =⋅ ( 9070, 20 80 13 621,060/13 = 25 641,060/25 = 0183,0)2060/(13 =⋅ ( 11090, 20 100 15 25,060/15 = 40 6,060/40 = 0125,0)2060/(15 =⋅ ( 130110, 20 120 9 15,060/9 = 49 681,060/49 = 0075,0)2060/(9 =⋅ ( 150130, 20 140 7 611,060/7 = 56 39,060/56 = 00583,0)2060/(7 =⋅ ( 170150, 20 160 4 60,060/4 = 60 160/60 = 300,0)2060/(4 =⋅ Součty 60 1 Dvourozměrné intervalové rozložení četností Dále se budeme věnovat dvourozměrnému intervalovému rozložení četností, tj. budeme pracovat s dvourozměrným datovým souborem. Zavedeme podobné pojmy jako u dvourozměrného bodového rozložení četností Nechť je dán dvourozměrný datový soubor         nn 11 yx yx KK , kde hodnoty znaku X roztřídíme do r třídicích intervalů ( 1jj u,u + , j = 1, ..., r s délkami d1, ..., dr a hodnoty znaku Y roztřídíme do s třídicích intervalů ( 1kk v,v + , k = 1, ..., s s délkami h1, ..., hs. Obdélník ( 1jj u,u + × ( 1kk v,v + se nazývá (j,k)-tý dvourozměrný třídicí interval. Simultánní a marginální četnosti njk = N(uj < X ≤ uj+1 ∧ vk < Y ≤ vk+1) – simultánní absolutní četnost (j, k)-tého třídicího intervalu. pjk = n njk – simultánní relativní četnost(j, k)-tého třídicího intervalu. nj. = nj1 + ... + njs – marginální absolutní četnost j-tého třídicího intervalu pro znak X. pj. = n nj. – marginální relativní četnost j-tého třídicího intervalu pro znak X. n.k = n1k + ... + nrk – marginální absolutní četnost k-tého třídicího intervalu pro znak Y. p.k = n n.k – marginální relativní četnost k-tého třídicího intervalu pro znak Y. fjk = kj jk hd p – simultánní četnostní hustota v (j, k)-tém třídicím intervalu. fj. = j j. d p – marginální četnostní hustota v j-tém třídicím intervalu pro znak X. f.k = k .k h p – marginální četnostní hustota v k-tém třídicím intervalu pro znak Y. Kteroukoliv ze simultánních četností zapisujeme do kontingenční tabulky. Uveďme kontingenční tabulku simultánních absolutních četností: Příklad: Pro datový soubor obsahující údaje o mezi plasticity (znak X) a mezi pevnosti (znak Y) oceli a) stanovte dle Sturgesova pravidla optimální počet třídicích intervalů pro znak Y b) sestavte kontingenční tabulku simultánních absolutních četností. Řešení: ad a) Rozsah datového souboru je 60. Podle Sturgesova pravidla je tedy optimální počet třídicích intervalů s = 7. Nejmenší hodnota je 52 a největší 189. Volíme v1 = 50, v2 = 70, ..., v8 = 190. ad b) Stereogram Dvourozměrné intervalové rozložení četností graficky znázorňujeme pomocí stereogramu. Je to graf skládající se z r x s kvádrů, sestrojených nad dvourozměrnými třídicími intervaly, přičemž objem (j, k)-tého kvádru je roven relativní četnosti pjk (j, k)-tého třídicího intervalu, j = 1, ..., r, k = 1, …, s. Výška kvádru tedy vyjadřuje simultánní četnostní hustotu. V našem příkladě s mezí plasticity a mezí pevnosti oceli bude mít stereogram tvar: Simultánní a marginální hustota četnosti Pomocí simultánních četnostních hustot zavedeme simultánní hustotu četnosti: Funkce f(x, y) =    ==≤<≤< ++ jinak0 s,1,kr,,1,j,vyv,uxuprof 1kk1jjjk LL se nazývá simultánní hustota četnosti. Jejím grafem je schodovitá plocha shora omezující stereogram. Hustoty četnosti pro znaky X a Y odlišíme indexem takto: f1(x) =    =≤< + jinak0 r,1,j,uxuprof 1jjj. L , f2(y) =    =≤< + jinak0 s,1,k,vyvprof 1kk.k L . Mezi simultánní hustotou četnosti a marginálními hustotami četnosti platí vztahy: f1(x) = ∫ ∞ ∞− y)dyf(x, , f2(y) = ∫ ∞ ∞− y)dxf(x, . Četnostní nezávislost znaků v daném výběrovém souboru při intervalovém rozložení četností Pomocí simultánních a marginálních četnostních zavedeme pojem četnostní nezávislosti znaků v daném výběrovém souboru při intervalovém rozložení četností: Řekneme, že znaky X, Y jsou v daném výběrovém souboru četnostně nezávislé při intervalovém rozložení četností, jestliže pro všechna j = 1, ..., r a všechna k = 1, ..., s platí multiplikativní vztah: fjk = fj. f.k neboli pro 2 Ry)(x, ∈∀ : f(x, y) = f1(x) f2(y). Příklad: Zjistěte, zda mez pevnosti a mez plasticity jsou četnostně nezávislé. Řešení: Vyjdeme z kontingenční tabulky simultánních absolutních četností. Vidíme, že už pro j = 1, k = 1 je multiplikativní vztah porušen: 000208,0 202060 5 f11 = ⋅⋅ = , 006667,0 2060 8 f .1 = ⋅ = , 004167,0 2060 5 f 1. = ⋅ = , tudíž 0,000208 ≠ 0,006667.0,004167 = 0,000028 a mez pevnosti a mez plasticity nejsou četnostně nezávislé.