IB112 Základy matematiky Základy popisné statistiky Jan Strejček Popisná statistika ■ Popisuje a sumarizuje informace obsažené ve velkém množství dat pomocí tabulek, grafů a číselných charakteristik. ■ Cílem je zpřehlednit informace skryté v datech. ■ Některé pojmy popisné statistiky motivují pojmy pravděpodobnosti: ■ relativní četnost motivuje pravděpodobnost, ■ aritmetický průměr motivuje střední hodnotu atd. IB112 Základy matematiky: Základy popisné statistiky 2/49 Obsah ■ Základní pojmy m základní soubor a výběr ■ znak ■ datový soubor ■ Jednorozměrný datový soubor ■ variační obor, rozpětí ■ bodové rozložení četností ■ intervalové rozložení četností ■ Číselné charakteristiky znaků ■ průměr, modus, medián, kvartily, krabicový graf ■ rozptyl, směrodatná odchylka ■ Dvourozměrný datový soubor ■ korelace IB112 Základy matematiky: Základy popisné statistiky 3/49 Základní pojmy IB112 Základy matematiky: Základy popisné statistiky Základní soubor, výběr a rozsah Definice Základní soubor je neprázdná konečná množina E. Prvky množiny E nazýváme objekty. Libovolnou neprázdnou podmnožinu množiny E nazýváme výběr. Počet prvků výběru nazýváme rozsah výběru. ■ Základní soubor se někdy nazývá populace. ■ Základní soubory bývají pro bližší zkoumání příliš početné (např. všichni občané ČR). Proto se detailně zkumá pouze menší skupina objektů nazývaná výběr. ■ Výběr se často získá náhodným postupem. Např. při marketingovém průzkumu se náhodně vyberou telefonní čísla, na která se zavolá. IB112 Základy matematiky: Základy popisné statistiky 5/49 Znak ■ Vlastnosti objektů vyjadřujeme číselně pomocí tzv. znaků. ■ 1 vlastnost = 1 znak Definice (Znak) Znakem objektu rozumíme funkci X : E -> R. m Objekty mohou mít více znaků. ■ Například u lidí můžeme zkoumat znaky jako výška, hmostnost, věk, IQ,... ■ Hodnoty znaků pro prvky výběru můžeme reprezentovat datovým souborem. IB112 Základy matematiky: Základy popisné statistiky 6/49 Datový soubor Definice (k-rozměrným) datovým souborem s rozsahem n rozumíme matici /Xn x12 ... X1/A X21 X22 ... X2k ■ ■ ■ ■ ■ ■ ■ ■ ■ \^n1 xn2 • • • xnk) Řádky matice odpovídají objektům výběru, sloupce jednotlivým znakům. ■ Je-li matice jednosloupcová, hovoříme o jednorozměrném datovém souboru. Je-li matice dvousloupcová, hovoříme o dvourozměrném datovém souboru. ■ Hodnoty, kterých znak nabývá, se také nazývají varianty nebo úrovně. IB112 Základy matematiky: Základy popisné statistiky 7/49 Příklad datových souborů Vlevo je trojrozměrný datový soubor s rozsahem 12 popisující výšku a váhu objektů a jejich známku z matematiky. Vpravo pak je jednorozměrný datový soubor popisující pouze výšku objektů. /161 51 /161\ 188 82 3 188 170 70 2 170 174 59 4 174 182 95 2 182 152 44 3 152 193 102 4 193 177 73 2 177 174 63 1 174 188 74 3 188 167 61 2 167 \173 63 2) IB112 Základy matematiky: Základy popisné statistiky 8/49 Jednorozměrný datový soubor IB112 Základy matematiky: Základy popisné statistiky 9/49 Uspořádananý datový soubor Definice Jestliže uspořádáme hodnoty jednorozměrného datového souboru do neklesající posloupnosti, získáme jednorozměrný uspořádaný datový soubor obvykle značený X(2) . , kdex^) < X(2) < ... < x(n). ■ ■ Interval (x(1), X(n)) pak nazveme variační obor. Délka variačního oboru x(n) - x(1) se nazývá rozpětí datového souboru. IB112 Základy matematiky: Základy popisné statistiky 10/49 Vektor variant Definice Nechť je dán jednorozměrný datový soubor. Vektor variant je rostoucí posoupnost všech variant vyskytujících se v souboru, obvykle značená íxiA m m m \x[r]J , kde X[i] < X[2] < ... < x[r] IB112 Základy matematiky: Základy popisné statistiky 11/49 Příklad Z uvedeného datového souboru vytvořte uspořádaný datový soubor, určete variační obor, rozpětí datového souboru a vektor variant. /161\ 188 170 174 182 152 193 177 174 188 167 V173/ IB112 Základy matematiky: Základy popisné statistiky 12/49 Z uvedeného datového souboru vytvořte uspořádaný datový soubor, určete variační obor, rozpětí datového souboru a vektor variant. /161\ /152\ 188 161 170 167 174 170 182 173 152 174 193 174 177 177 174 182 188 188 167 188 \\73) <— uspořádaný datový soubor IB112 Základy matematiky: Základy popisné statistiky 13/49 Z uvedeného datového souboru vytvořte uspořádaný datový soubor, určete variační obor, rozpětí datového souboru a vektor variant. /161\ /152\ 188 161 170 167 174 170 182 173 152 174 193 174 177 177 174 182 188 188 167 188 \\73) <— uspořádaný datový soubor ■ Variační obor je (152,193). ■ Rozpětí je 41. IB112 Základy matematiky: Základy popisné statistiky 14/49 Příklad Z uvedeného datového souboru vytvořte uspořádaný datový soubor, určete variační obor, rozpětí datového souboru a vektor variant. /161\ /152\ 188 161 170 167 174 170 182 173 152 174 193 174 177 177 174 182 188 188 167 188 \\73) W - uspořádaný datový soubor Variační obor je (152,193). Rozpětí je 41. vektor variant — /152\ 161 167 170 173 174 177 182 188 M 93/ IB112 Základy matematiky: Základy popisné statistiky 15/49 Bodové rozložení četností Jestliže je počet variant v jednorozměrném datovém souboru malý: přiřazujeme četnosti jednotlivým variantám. Hovoříme o bodovém rozložení četností Definice Nechť je dán jednorozmerný datový soubor ■ ■ , v kterém znak X nabývá r variant. Pak pro každé je {1,..., r} definujeme n j - absolutní četnost j-té varianty jako počet výskytů v datovém souboru, Pj = ^ - relativní četnost j-té varianty N j = n-i + ... + n j - absolutní kumulativní četnost prvních j variant, F j = p-, + ... + p j - relativní kumulativní četnost prvních j variant. IB112 Základy matematiky: Základy popisné statistiky 16/49 Tabulka rozložení četností Definice (Tabulka rozložení četností) Nechť je dán jednorozměrný datový soubor s r variantami. Tabulka rozložení četností nebo též variační řada je tabulka následujícího tvaru: x\Jl nJ Pi Nj *[1] Pí A/i F^ *[2] n2 P2 N2 F2 ■ ■ ■ m m m m m m m m m m m m X[r] nr Pr Nr Fr m První dva sloupce tabulky tvoří tzv. četnostní tabulku, kterou lze použít ke stručnějšímu zadání jednorozměrného datového souboru. IB112 Základy matematiky: Základy popisné statistiky 17/49 Je dán jednorozměrný datový soubor s rozsahem 12 obsahující známky z matematiky. Sestavte tabulku rozložení četností. 3 2 4 2 3 4 2 1 3 2 Četnostní tabulka zadávající stejný soubor *[/] 1 2 2 5 3 3 4 2 IB112 Základy matematiky: Základy popisné statistiky Je dán jednorozměrný datový soubor s rozsahem 12 obsahující známky z matematiky. Sestavte tabulku rozložení četností. 3 2 4 2 3 4 2 1 3 2 Četnostní tabulka zadávající stejný soubor *[/] 1 2 2 5 3 3 4 2 Řešení *[/] Py A/y >7 1 2 2 12 2 2 12 2 5 5 12 7 / 12 3 3 3 12 10 10 12 4 2 2 12 12 12 - 1 12 ' IB112 Základy matematiky: Základy popisné statistiky Grafická znázornění jednorozměrného bodového rozdělení četností ■ Polygon četností neboli spojnicový graf je lomená čára spojující body se souřadnicemi (x^, nj) pro všechna j. IB112 Základy matematiky: Základy popisné statistiky 20/49 Grafická znázornění jednorozměrného bodového rozdělení četností Sloupcový diagram je soustava na sebe nenavazujících obdélníků posazených na x-ovou osu, jejichž svislá osa je na nějaké variantě a výška odpovídá absolutní četnosti ny. x\j] ni 1 2 2 5 3 3 4 2 IB112 Základy matematiky: Základy popisné statistiky 21/49 Grafická znázornění jednorozměrného bodového rozdělení četností ■ Výsečový graf'\e kruh rozdělený na výseče tak, že poměr obvodu výseče pro variantu k obvodu kruhu je roven relativní četnosti py-. IB112 Základy matematiky: Základy popisné statistiky 22/49 Grafická znázornění jednorozměrného bodového rozdělení četností Polygon četností a sloupcový diagram se používají i pro znázornění absolutních kumulativních četností. V některých případech může být takový graf názornější. Příklad: Sloupcový diagram zobrazující bodové rozdělení četností našeho souboru s výškami jedinců příliš informací nepřináší. -i-1-1-n-1-1-1-r I_I I ll I_| 161 167 170 17E74 177 182 188 193 IB112 Základy matematiky: Základy popisné statistiky 23/49 Grafická znázornění jednorozměrného bodového rozdělení četností ■ Polygon četností a sloupcový diagram se používají i pro znázornění absolutních kumulativních četností. ■ V některých případech může být takový graf názornější. Příklad: Polygon absolutních kumulativních četností je v tomto případě přínosnější. z - IB112 Základy matematiky: Základy popisné statistiky 24/49 Roztříděný datový soubor Jestliže je počet variant v jednorozměrném datovém souboru blízký rozsahu souboru, pak variační obor pokryjeme systémem disjunktních intervalů. Hodnoty znaku pak nahradíme příslušností do intervalu. Hovoříme o roztříděném datovém souboru. ■ Číselnou osu rozdělíme na intervaly (-OO, U1 ), , u2), (i/2, u3),..., (i/r, ), (i/r+1, oo) tak, aby krajní intervaly neobsahovaly žádnou pozorovanou hodnotu (s těmito intervaly dále nepracujeme). ■ (i/y, i/y+1} nazveme y-tý třídící interval, kde je {1,..., r}. ■ dy = L/y+i - i/y je dé//cay-tého intervalu. ■ x[/'] = ay+27+1 Je středj-\ého intervalu. ■ Počet tříd volíme podle Sturgesova pravidla r = 1 + 3,3 • log10 n (je to pouze doporučení, pro n < 500 často volíme vyšší r) ■ Intervaly obvykle volíme tak, aby měly stejnou délku. IB112 Základy matematiky: Základy popisné statistiky 25/49 Intervalové rozložení četností Hodnoty z jednorozměrného datového souboru pak rozdělíme do r zvolených intervalů. Intervalové rozložení četností pak definujeme podobně jako bodové rozložení četností. Definice Nechť je dán jednorozměrný datový soubor a r třídících intervalů. Pak pro každé je {1,..., r} definujeme n j - absolutní četnost j-tého třídícího intevalu počet prvků datového souboru padajících do intevalu (i/y, i/y+1), Pj = ^ - relativní četnost j-tého třídícího intervalu, f I = q - četnostní hustota j-tého třídícího intervalu, Nj = n-i + ... + n j - absolutní kumulativní četnost prvních j třídících intervalů, F j = p-| + ... + py - relativní kumulativní četnost prvních j třídících intervalů. IB112 Základy matematiky: Základy popisné statistiky 26/49 Tabulka rozložení četností Definice (Tabulka rozložení četností) Nechť je dán jednorozměrný datový soubor s r variantami. Tabulka rozložení četností je tabulka následujícího tvaru: (Wy.Wy+i) nJ Pi fj Nj d^ "i P^ Wi F^ (u2, u3) dz n2 P2 h N2 F2 m m m m m m m m m m m m m m m m m m m m m dr nr Pr fr Nr Fr ■ První a třetí sloupec tabulky tvoří tzv. četnostní tabulku, která popisuje roztříděný datový soubor. IB112 Základy matematiky: Základy popisné statistiky 27/49 Příklad Je dán uspořádaný datový soubor popisující výšku osob. Cetnostní tabulkou zapište roztříděný datový soubor (počet tříd určete Sturgesovým pravidlem) a sestavte tabulku rozložení četností. /152\ 161 167 170 173 174 174 177 182 188 188 V193/ IB112 Základy matematiky: Základy popisné statistiky 28/49 Příklad Je dán uspořádaný datový soubor popisující výšku osob. Četnostní tabulkou zapište roztříděný datový soubor (počet tříd určete Sturgesovým pravidlem) a sestavte tabulku rozložení četností. /152\ 161 167 170 173 174 174 177 182 188 188 V193/ Řešení: Rozsah je n = 12. Počet tříd tedy bude r = 5, IB112 Základy matematiky: Základy popisné statistiky 29/49 Příklad Je dán uspořádaný datový soubor popisující výšku osob. Četnostní tabulkou zapište roztříděný datový soubor (počet tříd určete Sturgesovým pravidlem) a sestavte tabulku rozložení četností. /152\ 161 167 170 173 174 174 177 182 188 188 V193/ Řešení: ■ Rozsah je n = 12. Počet tříd tedy bude r = 5. ■ Volíme stejnou délku tříd ořy = 10. Zvolíme tedy třídy (150,160}, (160,170}, (170,180}, (180,190}, (190,200 ■ Četnostní tabulka vypadá následovně: (ty"y+i) ni (150,160) 1 (160,170) 3 (170,180) 4 (180,190) 3 (190,200) 1 IB112 Základy matematiky: Základy popisné statistiky 30/49 Příklad Z četnostní tabulky už snadno spočítáme tabulku rozložení četností: ni (150,160) 1 (160,170) 3 (170,180) 4 (180,190) 3 (190,200) 1 IB112 Základy matematiky: Základy popisné statistiky 31/49 Z četnostní tabulky už snadno spočítáme tabulku rozložení četností: ni (150,160) 1 (160,170) 3 (170,180) 4 (180,190) 3 (190,200) 1 (ty"y+i> dj Pj h Nj Fj (150,160) 10 1 1 12 1 120 1 1 12 (160,170) 10 3 3 12 3 120 4 4 12 (170,180) 10 4 4 12 4 120 8 8 12 (180,190) 10 3 3 12 3 120 11 11 12 (190,200) 10 1 1 12 1 120 12 12 12 IB112 Základy matematiky: Základy popisné statistiky 32/49 Grafická znázornění jednorozměrného intervalového rozdělení četností ■ Používáme podobné grafy jako u bodového rozdělení četností. ■ V případě polygonu četností místo konkrétních hodnot použijeme středy intervalů. ■ Místo sloupcového grafu používáme histogram, což je v vlastně totéž, akorát bez mezer mezi sloupci (šířka sloupce odpovídá délce intervalu). ■ Lze použít i výsečový graf. ■ Polygon četností a histogram lze použít i pro znázornění absolutních kumulativních četností. IB112 Základy matematiky: Základy popisné statistiky 33/49 Příklad Histogram pro roztříděný datový soubor z předchozího příkladu. 6 i-1-1-1-1-1-1-r ni (150,160) 1 (160,170) 3 (170,180) 4 (180,190) 3 (190,200) 1 150 160 170 180 190 Z00 IB112 Základy matematiky: Základy popisné statistiky 34/49 Číselné charakteristiky znaků IB112 Základy matematiky: Základy popisné statistiky 35/49 Charakteristiky polohy Všechny charakteristiky definujeme pro neroztříděné datové soubory. Varianty pro roztříděné soubory lze dohledat. Aritmetický průměr ■ Aritmetický průměr je citlivý na extrémně odchýlené hodnoty. Modus ■ Je to hodnota, která se v datovém souboru vyskytuje nejčastěji. ■ Není určeno jednoznačně (více hodnot může mít maximální absolutní četnost). /=1 IB112 Základy matematiky: Základy popisné statistiky 36/49 Charakteristiky polohy n-kvantil, medián, horní a dolní kvartil ■ Nechť a g (0,1). o-kvantil je číslo xa, které rozděluje uspořádaný datový soubor na dolní úsek obsahující podíl a ze všech dat a na horní úsek obsahující podíl 1 - a ze všech dat. ■ Pokud n • a je celé číslo c, pak xa = X(c) +^x(c+1) _ ■ Pokud n • a není celé, vezmeme nejbližší větší celé číslo c a ■ Medián je x0?5, tedy rozděluje soubor na horní a dolní polovinu. Oproti aritmetickému průměru není citlivý na extrémně odchýlené hodnoty. ■ Dolní kvartil\e x0,25, tedy rozděluje soubor na dolní čtvrtinu a horní tři čtvrtiny. ■ Horní kvartil\e x0?75, tedy rozděluje soubor na dolní tři čtvrtiny a horní čtvrtinu. IB112 Základy matematiky: Základy popisné statistiky 37/49 Krabicový graf (boxplot) Grafické znázornění pěti charakteristik polohy: ■ největší hodnota ■ horní kvartil ■ medián ■ dolní kvartil 8 - — ■ nejmenší hodnota o _ OJ IB112 Základy matematiky: Základy popisné statistiky 38/49 Charakteristiky variability Rozptyl ■ Čím větší rozptyl, tím větší proměnlivost souboru. ■ Průměrná kvadratická odchylka od aritmetického průměru. 1 n ■ s2 = - Y^Xi ~ m? /=1 Směrodatná odchylka ■ Čím větší směrodatná odchylka, tím větší proměnlivost souboru. ■ s = Všč IB112 Základy matematiky: Základy popisné statistiky 39/49 Příklad Je dán uspořádaný datový soubor popisující výšku osob. Spočítejte zmíněné číselné charakteristiky a nakreslete krabicový graf. /152\ 161 167 170 173 174 174 177 182 188 188 V193/ IB112 Základy matematiky: Základy popisné statistiky 40/49 Příklad Je dán uspořádaný datový soubor popisující výšku osob. Spočítejte zmíněné číselné charakteristiky a nakreslete krabicový graf. /152\ 161 167 170 173 174 174 177 182 188 188 V193/ Řešení: ■ Aritmetický průměr je m = = 174,9166. ■ Modus může být 188 nebo 174. ■ Medián je x0,5 = x-^p^ = 174. ■ Dolní kvartil je x0,25 = = 168,5. ■ Horní kvartil je x0,75 = X(9)^X(10) = 185. ■ Rozptyl s2 je přibližně 127,9. ■ Směrodatná odchylka je s je přibližně 11,3. IB112 Základy matematiky: Základy popisné statistiky 41/49 Příklad Je dán uspořádaný datový soubor popisující výšku osob. Spočítejte zmíněné číselné charakteristiky a nakreslete krabicový graf. /152\ 161 167 170 173 174 174 177 182 188 188 V193/ o C7> O 00 O 1^ O CD IB112 Základy matematiky: Základy popisné statistiky 42/49 Příklad Je dán uspořádaný datový soubor popisující výšku osob. Spočítejte zmíněné číselné charakteristiky a nakreslete krabicový graf. /102\ 161 167 170 173 174 174 177 182 188 188 V193/ Řešení: ■ Aritmetický průměr je m = = 170,75. ■ Modus může být 188 nebo 174. ■ Medián je x0,5 = x-^p^ = 174. ■ Dolní kvartil je x0,25 = = 168,5. ■ Horní kvartil je x0,75 = X(9)^X(10) = 185. ■ Rozptyl s2 je přibližně 509,9. ■ Směrodatná odchylka je s je přibližně 22,6 IB112 Základy matematiky: Základy popisné statistiky 43/49 Příklad Je dán uspořádaný datový soubor popisující výšku osob. Spočítejte zmíněné číselné charakteristiky a nakreslete krabicový graf. /102\ 161 167 170 173 174 174 177 182 188 188 V193/ o 00 o CD O o oj o o IB112 Základy matematiky: Základy popisné statistiky 44/49 Dvourozměrný datový soubor IB112 Základy matematiky: Základy popisné statistiky 45/49 Dvojrozměrný datový soubor ■ Připomeňme, že dvourozměrný datový soubor je matice tvaru x2 y2 9 ■ ■ ■ ■ ■ ■ \*n YnJ ■ Pro dvourozměrný soubor můžeme definovat analogické pojmy k většině pojmů zavedených pro jednorozměrný prostor, namátkou: ■ roztříděný dvourozměrný datový soubor ■ středy tříd, absolutní (kumulativní) četnost, relativní (kumulativní) četnost ■ četnostní tabulky, ... ■ Ke grafickému znázornění dvourozměrných datových souborů lze použít rozptylový graf (neroztříděný soubor), případně stereogram (dvourozměrný histogram, pro roztříděné soubory). IB112 Základy matematiky: Základy popisné statistiky 46/49 Koeficient korelace ■ Zajímavá číselná charakteristika dvourozměrného souboru. ■ Udává míru lineární závoslosti znaků X aY. ■ Předpokládáme, že s(x), s(y) jsou nenulové směrodatné odchylky znaků X a V a mx, my jejich aritmetické průměry. ■ Pak koeficient korelace je r= ^Eľ=i(x/-mx)(y/-my) s(x)s(y) ■ Vždy platí -1 < r < 1, přičemž r nabývá krajních hodnot, pokud jsou znaky zcela lineárně závislé, tj. pokud y, = ax, + b. Je-li r = 1, tak body (x/,y) leží na rostoucí přímce, pro r = -1 leží na klesající přímce. Hodnoty r blízké 0 vyjadřují, že závislost X, Y není lineární, případně jsou X, Y nezávislé. IB112 Základy matematiky: Základy popisné statistiky 47/49 Příklad Uvažme dvojrozměrný datový soubor výšek a hmotností. Rozptylový graf vypadá následovně. /161 51 \ 188 82 170 70 174 59 182 95 152 44 193 102 177 73 174 63 188 74 167 61 \173 63 / 110 100 150 155 160 165 170 175 Vyska 180 185 190 Koeficient korelace je 0,8784. 195 IB112 Základy matematiky: Základy popisné statistiky 48/49 Příklad Uvažme dvojrozměrný datový soubor výšek a známek z matematiky. Rozptylový graf vypadá následovně. /161 188 170 174 182 152 193 177 174 188 167 \173 A 3 2 4 2 3 4 2 1 3 2 2/ 5 4.5 4 OJ 1c E 2.5 N (C 1 0.5 0 I I I I I o I I I o - o o - - o o o o o - I 0 1 o I I I I I I 150 155 160 165 170 175 Vyska 180 185 190 195 200 Koeficient korelace je 0,4049. IB112 Základy matematiky: Základy popisné statistiky 49/49