IB112 Základy matematiky Základy popisné statistiky Jan Strejček Popisná statistika ■ Popisuje a sumarizuje informace obsažené ve velkém množství dat pomocí tabulek, grafů a číselných charakteristik. ■ Cílem je zpřehlednit informace skryté v datech. ■ Některé pojmy popisné statistiky motivují pojmy pravděpodobnosti: ■ relativní četnost motivuje pravděpodobnost, ■ aritmetický průměr motivuje střední hodnotu atd. IB112 Základy matematiky: Základy popisné statistiky 2/49 Obsah ■ Základní pojmy m základní soubor a výběr ■ znak ■ datový soubor ■ Jednorozměrný datový soubor ■ variační obor, rozpětí ■ bodové rozložení četností ■ intervalové rozložení četností ■ Číselné charakteristiky znaků ■ průměr, modus, medián, kvartily, krabicový graf ■ rozptyl, směrodatná odchylka ■ Dvourozměrný datový soubor korelace IB112 Základy matematiky: Základy popisné statistiky 3/49 Základní pojmy IB112 Základy matematiky: Základy popisné statistiky 4/49 Základní soubor, výběr a rozsah Definice Základní soubor je neprázdná konečná množina E. Prvky množiny E nazýváme objekty. Libovolnou neprázdnou podmnožinu množiny E nazýváme výběr. Počet prvků výběru nazýváme rozsah výběru. m Základní soubor se někdy nazývá populace. ■ Základní soubory bývají pro bližší zkoumání příliš početné (např. všichni občané ČR). Proto se detailně zkumá pouze menší skupina objektů nazývaná výběr. ■ Výběr se často získá náhodným postupem. Např. při marketingovém průzkumu se náhodně vyberou telefonní čísla, na která se zavolá. IB112 Základy matematiky: Základy popisné statistiky 5/49 Znak ■ Vlastnosti objektů vyjadřujeme číselně pomocí tzv. znaků. ■ 1 vlastnost = 1 znak Definice (Znak) Znakem objektu rozumíme funkci X : E R. m Objekty mohou mít více znaků. ■ Například u lidí můžeme zkoumat znaky jako výška, hmostnost, věk, IQ,... ■ Hodnoty znaků pro prvky výběru můžeme reprezentovat datovým souborem. IB112 Základy matematiky: Základy popisné statistiky 6/49 Datový soubor (k-rozměrným) datovým souborem s rozsahem n rozumíme matici Řádky matice odpovídají objektům výběru, sloupce jednotlivým znakům. m Je-li matice jednosloupcová, hovoříme o jednorozměrném datovém souboru. Je-li matice dvousloupcová, hovoříme o dvourozměrném datovém souboru. ■ Hodnoty, kterých znak nabývá, se také nazývají varianty nebo úrovně. *12 x21 x22 V*/71 *n2 IB112 Základy matematiky: Základy popisné statistiky 7/49 Příklad datových souborů Vlevo je trojrozměrný datový soubor s rozsahem 12 popisující výšku a váhu objektů a jejich známku z matematiky. Vpravo pak je jednorozměrný datový soubor popisující pouze výšku objektů. /161\ 188 170 174 182 152 193 177 174 188 167 V173/ /161 51 1\ 188 82 3 170 70 2 174 59 4 182 95 2 152 44 3 193 102 4 177 73 2 174 63 1 188 74 3 167 61 2 \173 63 2/ IB112 Základy matematiky: Základy popisné statistiky 8/49 Jednorozměrný datový soubor IB112 Základy matematiky: Základy popisné statistiky 9/49 Uspořádananý datový soubor Definice Jestliže uspořádáme hodnoty jednorozměrného datového souboru do neklesající posloupnosti, získáme jednorozměrný uspořádaný datový soubor obvykle značený /xd)\ X(2) vw kdex0) < x(2) < ... < x(n). Interval (x^,x^) pak nazveme variační obor. Délka variačního oboru x^ - x^ se nazývá rozpětí datového souboru. IB112 Základy matematiky: Základy popisné statistiky 10/49 Vektor variant Definice Nechť je dán jednorozměrný datový soubor. Vektor variant je rostoucí posoupnost všech variant vyskytujících se v souboru, obvykle značená /x[i]\ X[2] /CC/eX[-|] < X[2] < . . . < X[r]. IB112 Základy matematiky: Základy popisné statistiky 11/49 Příklad Z uvedeného datového souboru vytvořte uspořádaný datový soubor, určete variační obor, rozpětí datového souboru a vektor variant. /161\ 188 170 174 182 152 193 177 174 188 167 \173/ IB112 Základy matematiky: Základy popisné statistiky 12/49 Příklad Z uvedeného datového souboru vytvořte uspořádaný datový soubor, určete variační obor, rozpětí datového souboru a vektor variant. /161> /152\ 188 161 170 167 174 170 182 173 152 174 193 174 177 177 174 182 188 188 167 188 V73) uspořádaný datový soubor IB112 Základy matematiky: Základy popisné statistiky 13/49 Z uvedeného datového souboru vytvořte uspořádaný datový soubor, určete variační obor, rozpětí datového souboru a vektor variant. /161> /152\ 188 161 170 167 174 170 182 173 152 174 193 174 177 177 174 182 188 188 167 188 V73) <— uspořádaný datový soubor ■ Variační obor je (152,193). ■ Rozpětí je 41. IB112 Základy matematiky: Základy popisné statistiky 14/49 Příklad Z uvedeného datového souboru vytvořte uspořádaný datový soubor, určete variační obor, rozpětí datového souboru a vektor variant. /161> /152\ 188 161 170 167 174 170 182 173 152 174 193 174 177 177 174 182 188 188 167 188 V73) - uspořádaný datový soubor Variační obor je (152,193). Rozpětí je 41. vektor variant —; /152\ 161 167 170 173 174 177 182 188 V193/ IB112 Základy matematiky: Základy popisné statistiky 15/49 Bodové rozložení četností Jestliže je počet variant v jednorozměrném datovém souboru malý, přiřazujeme četnosti jednotlivým variantám. Hovoříme o bodovém rozložení četností. Definice Nechť je dán jednorozměrný datový soubor v kterém znak X nabývá r variant. Pak pro každé j e {1 n w ., r} definujeme ry - absolutní četnost j-té varianty jako počet výskytů v datovém souboru, p j = % - relativní četnost j-té varianty . + nj absolutní kumulativní četnost prvních j variant, Fj = p-i + ... + py■ - relativní kumulativní četnost prvních j variant. IB112 Základy matematiky: Základy popisné statistiky 16/49 Tabulka rozložení četností Definice (Tabulka rozložení četností) Nechť je dán jednorozměrný datový soubor s r variantami. Tabulka rozložení četností nebo též variační řada je tabulka následujícího tvaru: x\i\ Pj Nj Fj Pí A/1 F^ X[2j n2 P2 N2 F2 X\r] nr Pr Nr Fr ■ První dva sloupce tabulky tvoří tzv. četnostní tabulku, kterou lze použít ke stručnějšímu zadání jednorozměrného datového souboru. IB112 Základy matematiky: Základy popisné statistiky 17/49 Příklad Je dán jednorozměrný datový soubor s rozsahem 12 obsahující známky z matematiky. Sestavte tabulku rozložení četností. /1 \ Četnostní tabulka zadávající stejný soubor: xí/l nj 1 2 2 5 3 3 4 2 2 1 3 2 W IB112 Základy matematiky: Základy popisné statistiky 18/49 Příklad Je dán jednorozměrný datový soubor s rozsahem 12 obsahující známky z matematiky. Sestavte tabulku rozložení četností. /1\ 3 2 4 2 3 4 2 1 3 2 V) Četnostní tabulka zadávající stejný soubor: xí/l nj 1 2 2 5 3 3 4 2 Řešení: xí/l Py ty Fj 1 2 i! 2 2 1? 2 5 b 1? 7 T 12 3 3 3 1? 10 to 12 4 2 12 12 ^ -1 12 ' IB112 Základy matematiky: Základy popisné statistiky 19/49 Grafická znázornění jednorozměrného bodového rozdělení četností ■ Polygon četností neboli spojnicový graf\e lomená čára spojující body se souřadnicemi (x^, /iy) pro všechna j. x\i\ nj 1 2 2 5 3 3 4 2 IB112 Základy matematiky: Základy popisné statistiky 20/49 Grafická znázornění jednorozměrného bodového rozdělení četností Sloupcový diagram je soustava na sebe nenavazujících obdélníků posazených na x-ovou osu, jejichž svislá osa je na nějaké variantě x^ a výška odpovídá absolutní četnosti rij. x\i\ nj 1 2 2 5 3 3 4 2 IB112 Základy matematiky: Základy popisné statistiky 21/49 Grafická znázornění jednorozměrného bodového rozdělení četností ■ Výsečový graf\e kruh rozdělený na výseče tak, že poměr obvodu výseče pro variantu k obvodu kruhu je roven relativní četnosti py. IB112 Základy matematiky: Základy popisné statistiky 22/49 Grafická znázornění jednorozměrného bodového rozdělení četností Polygon četností a sloupcový diagram se používají i pro znázornění absolutních kumulativních četností. V některých případech může být takový graf názornější. Příklad: Sloupcový diagram zobrazující bodové rozdělení četností našeho souboru s výškami jedinců příliš informací nepřináší. IB112 Základy matematiky: Základy popisné statistiky Grafická znázornění jednorozměrného bodového rozdělení četností ■ Polygon četností a sloupcový diagram se používají i pro znázornění absolutních kumulativních četností. ■ V některých případech může být takový graf názornější. Příklad: Polygon absolutních kumulativních četností je v tomto případě přínosnější. IB112 Základy matematiky: Základy popisné statistiky 24/49 Roztříděný datový soubor Jestliže je počet variant v jednorozměrném datovém souboru blízký rozsahu souboru, pak variační obor pokryjeme systémem disjunktních intervalů. Hodnoty znaku pak nahradíme příslušností do intervalu. Hovoříme o roztříděném datovém souboru. ■ Číselnou osu rozdělíme na intervaly (-OO, UA), (íVi, U2), (íV2, U3),..., (Ur, Ur+A), (t/,+1, 00) tak, aby krajní intervaly neobsahovaly žádnou pozorovanou hodnotu (s těmito intervaly dále nepracujeme). (Uj, ívy+i) nazveme y-tý třídící interval, kde y e {1,..., r}. m dj = ívy+1 - Uj je délkay'-tého intervalu. ■ X[/j = ui+2i+i je střed y'-tého intervalu. ■ Počet tříd volíme podle Sturgesova pravidla r = 1 + 3,3 • log10 n (je to pouze doporučení, pro n < 500 často volíme vyšší r) m Intervaly obvykle volíme tak, aby měly stejnou délku. IB112 Základy matematiky: Základy popisné statistiky 25/49 Intervalové rozložení četností Hodnoty z jednorozměrného datového souboru pak rozdělíme do r zvolených intervalů. Intervalové rozložení četností pak definujeme podobně jako bodové rozložení četností. Definice Nechť je dán jednorozměrný datový soubor a r třídících intervalů. Pak pro každé y e {1,..., r} definujeme n j - absolutní četnost j-tého třídícího intevalu počet prvků datového souboru padajících do intevalu (Uj, tv/+i), Pj = % - relativní četnost j-tého třídícího intervalu, f j = q - četnostn í hustota j-tého třídícího intervalu, Nj = /i-, + ... + n j■ - absolutní kumulativní četnost prvních j třídících intervalů, F j = p-i + ... + p j■ - relativní kumulativní četnost prvních j třídících intervalů. IB112 Základy matematiky: Základy popisné statistiky 26/49 Tabulka rozložení četností Definice (Tabulka rozložení četností) Nechť je dán jednorozměrný datový soubor s r variantami. Tabulka rozložení četností je tabulka následujícího tvaru: (Wy,Wy+l> dj nJ Pj fj Nj Fj ("1, u2) Pí A/1 F^ {u2, u3) n2 P2 h N2 F2 (Ur,Ur+1> dr nr Pr fr Nr Fr m První a třetí sloupec tabulky tvoří tzv. četnostní tabulku, která popisuje roztříděný datový soubor. IB112 Základy matematiky: Základy popisné statistiky 27/49 Příklad Je dán uspořádaný datový soubor popisující výšku osob. Četností tabulkou zapište roztříděný datový soubor (počet tříd určete Sturgesovým pravidlem) a sestavte tabulku rozložení četností. /152\ 161 167 170 173 174 174 177 182 188 188 V193/ IB112 Základy matematiky: Základy popisné statistiky 28/49 Příklad Je dán uspořádaný datový soubor popisující výšku osob. Četností tabulkou zapište roztříděný datový soubor (počet tříd určete Sturgesovým pravidlem) a sestavte tabulku rozložení četností. /152\ 161 167 170 173 174 174 177 182 188 188 V193/ Řešení: ■ Rozsah je n = 12. Počet tříd tedy bude r = 5. IB112 Základy matematiky: Základy popisné statistiky 29/49 Příklad Je dán uspořádaný datový soubor popisující výšku osob. Četností tabulkou zapište roztříděný datový soubor (počet tříd určete Sturgesovým pravidlem) a sestavte tabulku rozložení četností. /152\ 161 167 170 173 174 174 177 182 188 188 V193/ Řešení: ■ Rozsah je n = 12. Počet tříd tedy bude r = 5. ■ Volíme stejnou délku tříd ds = 10. Zvolíme tedy třídy (150,160), (160,170), (170,180), (180,190), (190,200). ■ Četnostní tabulka vypadá následovně: ("y, Wy+1> nj (150,160) 1 (160,170) 3 (170,180) 4 (180,190) 3 (190,200) 1 IB112 Základy matematiky: Základy popisné statistiky 30/49 Příklad Z četnostní tabulky už snadno spočítáme tabulku rozložení četností: (Wy,Wy+l> nJ (150,160) 1 (160,170) 3 (170,180) 4 (180,190) 3 (190,200) 1 IB112 Základy matematiky: Základy popisné statistiky 31/49 Z četnostní tabulky už snadno spočítáme tabulku rozložení četností: (Wy,Wy+l> nJ (150,160) 1 (160,170) 3 (170,180) 4 (180,190) 3 (190,200) 1 (Wy,Wy+i> dj nJ Py fj ty ^y (150,160) 10 1 1 1? 1 1 1 (160,170) 10 3 3 1? i|ň 4 4 t P (170,180) 10 4 4 1? 1|Ô 8 8 ]? (180,190) 10 3 3 12 12Ô 11 ti 12 (190,200) 10 1 1 12 1 120 12 12 12 IB112 Základy matematiky: Základy popisné statistiky 32/49 Grafická znázornění jednorozměrného intervalového rozdělení četností ■ Používáme podobné grafy jako u bodového rozdělení četností. ■ V případě polygonu četností místo konkrétních hodnot použijeme středy intervalů. Místo sloupcového grafu používáme histogram, což je v vlastně totéž, akorát bez mezer mezi sloupci (šířka sloupce odpovídá délce intervalu). ■ Lze použít i výsečový graf. ■ Polygon četností a histogram lze použít i pro znázornění absolutních kumulativních četností. IB112 Základy matematiky: Základy popisné statistiky 33/49 Příklad Histogram pro roztříděný datový soubor z předchozího příkladu. 6,-,-,-,-,-,-,-1 (Uy,Uy+l> nj (150,160) 1 (160,170) 3 (170,180) 4 (180,190) 3 (190,200) 1 IB112 Základy matematiky: Základy popisné statistiky 34/49 Číselné charakteristiky znaků IB112 Základy matematiky: Základy popisné statistiky 35/49 Charakteristiky polohy Všechny charakteristiky definujeme pro neroztříděné datové soubory. Varianty pro roztříděné soubory lze dohledat. Aritmetický průměr n £* Aritmetický průměr je citlivý na extrémně odchýlené hodnoty. 1 n m n /=1 Modus ■ Je to hodnota, která se v datovém souboru vyskytuje nejčastěji Není určeno jednoznačně (více hodnot může mít maximální absolutní četnost). IB112 Základy matematiky: Základy popisné statistiky 36/49 Charakteristiky polohy n-kvantil, medián, horní a dolní kvartil ■ Nechť a g (0,1). a-kvantil je číslo xa, které rozděluje uspořádaný datový soubor na dolní úsek obsahující podíl a ze všech dat a na horní úsek obsahující podíl 1 - a ze všech dat. Xic\ + Xtc i -n ■ Pokud n ■ a je celé číslo c, pak xa = -LJ—^—'-. ■ Pokud /i • a není celé, vezmeme nejbližší větší celé číslo c a m Medián je x0)5, tedy rozděluje soubor na horní a dolní polovinu. Oproti aritmetickému průměru není citlivý na extrémně odchýlené hodnoty. ■ Dolní kvartil je x0j25, tedy rozděluje soubor na dolní čtvrtinu a horní tři čtvrtiny. ■ Horní kvartil je x0j75, tedy rozděluje soubor na dolní tři čtvrtiny a horní čtvrtinu. IB112 Základy matematiky: Základy popisné statistiky 37/49 Krabicový graf (boxplot) Grafické znázornění pěti charakteristik polohy: ■ největší hodnota ■ horní kvartil ■ medián ■ dolní kvartil s ~ ~~ ■ nejmenší hodnota g_ IB112 Základy matematiky: Základy popisné statistiky 38/49 Charakteristiky variability Rozptyl ■ Čím větší rozptyl, tím větší proměnlivost souboru. ■ Průměrná kvadratická odchylka od aritmetického průměru. 1 n ■ s2 = - ^(x,- - mf /=1 Směrodatná odchylka ■ Čím větší směrodatná odchylka, tím větší proměnlivost souboru. ■ s = Vš2" IB112 Základy matematiky: Základy popisné statistiky 39/49 Příklad Je dán uspořádaný datový soubor popisující výšku osob. Spočítejte zmíněné číselné charakteristiky a nakreslete krabicový graf. /152\ 161 167 170 173 174 174 177 182 188 188 V193/ IB112 Základy matematiky: Základy popisné statistiky 40/49 Příklad Je dán uspořádaný datový soubor popisující výšku osob. Spočítejte zmíněné číselné charakteristiky a nakreslete krabicový graf. /152\ Řešení: J ^ ■ Aritmetický průměr je m = ^ = 174,9166. 17q ■ Modus může být 188 nebo 174. 173 ■ Medián je x0,5 = ^p^l = -| 74. 174 ■ Dolní kvartil je x0 25 = x-®^ = 168,5. 174 ! 77 ■ Horní kvartil je x0i75 = X(9)^X(10) = 185. 182 ■ Rozptyl s2 je přibližně 127,9. 188 H Směrodatná odchylka je s je přibližně 11,3. 188 V193/ IB112 Základy matematiky: Základy popisné statistiky 41/49 Příklad Je dán uspořádaný datový soubor popisující výšku osob. Spočítejte zmíněné číselné charakteristiky a nakreslete krabicový graf. /152\ 161 167 170 173 174 174 177 182 188 188 V193/ IB112 Základy matematiky: Základy popisné statistiky 42/49 Příklad Je dán uspořádaný datový soubor popisující výšku osob. Spočítejte zmíněné číselné charakteristiky a nakreslete krabicový graf. /102\ Řešení: Aritmetický průměr je m = = 170,75 161 167 17q ■ Modus muze být 188 nebo 174. 173 ■ Medián je x0,5 = ^p^l = -| 74. 174 ■ Dolní kvartil je x0 25 = x-®^ = 168,5. 174 ! 77 ■ Horní kvartil je x0i75 = X(9)^X(10) = 185. 182 ■ Rozptyl s2 je přibližně 509,9. 188 H Směrodatná odchylka je s je přibližně 22,6. 188 V193/ IB112 Základy matematiky: Základy popisné statistiky 43/49 Příklad Je dán uspořádaný datový soubor popisující výšku osob. Spočítejte zmíněné číselné charakteristiky a nakreslete krabicový graf. /102\ 161 167 170 173 174 174 177 182 188 188 V193/ IB112 Základy matematiky: Základy popisné statistiky 44/49 Dvourozměrný datový soubor IB112 Základy matematiky: Základy popisné statistiky 45/49 Dvojrozměrný datový soubor ■ Připomeňme, že dvourozměrný datový soubor je matice tvaru /*1 /A x2 y2 \xn Yn) ■ Pro dvourozměrný soubor můžeme definovat analogické pojmy k většině pojmů zavedených pro jednorozměrný prostor, namátkou: ■ roztříděný dvourozměrný datový soubor ■ středy tříd, absolutní (kumulativní) četnost, relativní (kumulativní) četnost ■ četnostní tabulky, ... ■ Ke grafickému znázornění dvourozměrných datových souborů lze použít rozptylový graf (neroztříděný soubor), případně stereogram (dvourozměrný histogram, pro roztříděné soubory). IB112 Základy matematiky: Základy popisné statistiky 46/49 Koeficient korelace ■ Zajímavá číselná charakteristika dvourozměrného souboru. ■ Udává míru lineární závoslosti znaků X a Y. ■ Předpokládáme, že s(x), s(y) jsou nenulové směrodatné odchylky znaků X a Y a mx, my jejich aritmetické průměry. ■ Pak koeficient korelace je s(x)s(y) ■ Vždy platí -1 < r < 1, přičemž r nabývá krajních hodnot, pokud jsou znaky zcela lineárně závislé, tj. pokud y = ax, + b. Je-li r = 1, tak body (x(, y() leží na rostoucí přímce, pro r = -1 leží na klesající přímce. Hodnoty r blízké 0 vyjadřují, že závislost X, Y není lineární, případně jsou X, Y nezávislé. IB112 Základy matematiky: Základy popisné statistiky 47/49 Příklad Uvažme dvojrozměrný datový soubor výšek a hmotností. Rozptylový graf vypadá následovně. /161 51 \ 188 82 170 70 174 59 182 95 152 44 193 102 177 73 174 63 188 74 167 61 \173 63 / o 0 o - o 0 o - _ oo • 0 - o - o 150 155 160 165 170 175 100 165 190 195 Vyska Koeficient korelace je 0,8784. IB112 Základy matematiky: Základy popisné statistiky 48/49 Příklad Uvažme dvojrozměrný datový soubor výšek a známek z matematiky. Rozptylový graf vypadá následovně. /161 1^ 5r 188 3 4.5 - 170 2 4 - 174 4 >, 3.5 -E 3 - 182 2 E 2.5 - 152 3 1 z~ 193 4 l 15- 177 2 0.5 - 174 1 0 -150 188 3 167 2 \\73 2) - o o - O o - - 0 0 o o 0 - - o o - Koeficient korelace je 0,4049. IB112 Základy matematiky: Základy popisné statistiky 49/49