IB112 Základy matematiky Základy popisné statistiky Jan Strejček Popisná statistika ■ Popisuje a sumarizuje informace obsažené ve velkém množství dat pomocí tabulek, grafU a Číselných charakteristik. ■ Cílem je zpřehlednit informace skryté v datech. ■ Nekteré pojmy popisné statistiky motivují pojmy pravdepodobnosti: ■ relativní cetnost motivuje pravdepodobnost, ■ aritmetický priůmeér motivuje střední hodnotu atd. IB112 Základy matematiky: Základy popisné statistiky 2/49 Obsah ■ Základní pojmy m základní soubor a výběr ■ znak ■ datový soubor ■ Jednorozměrný datový soubor ■ variační obor, rozpětí ■ bodové rozložení četností ■ intervalové rozložení četností ■ číselné charakteristiky znakU ■ průměr, modus, mědián, kvartily, kvartilový graf ■ rozptyl, směrodatná odchylka ■ Dvourozměrný datový soubor ■ korělačě IB112 Základy matěmatiky: Základy popisné statistiky 3/49 Základní pojmy IB112 Základy matematiky: Základy popisné statistiky 4/49 Základní soubor, výběr a rozsah Definice Základní soubor je neprázdná konečná množina E. Prvky množiny E nazýváme objekty. Libovolnou neprázdnou podmnožinu množiny E nazýváme výber. Počet prvku výberu nazýváme rozsah výberu. ■ Základní soubor se někdy nazývá populace. ■ Základní soubory bývají pro bližší zkoumání příliš poCetné (napr. všichni obCané ČR). Proto se detailně zkumá pouze menší skupina objektu nazývaná výber. ■ Výber se Casto získá náhodným postupem. Napr. pri marketingovém pruzkumu se náhodne vyberou telefonní Císla, na která se zavolá. IB112 Základy matematiky: Základy popisné statistiky 5/49 Znak ■ Vlastnosti objektů vyjadřujeme číselne pomočí tzv. znaku. ■ 1 vlastnost = 1 znak Definice (Znak) Znakem objektu rozumíme funkci X : E — R. ■ Objekty mohou mít více znaků. ■ Například u lidí můžeme zkoumat znaky jako výška, hmostnost, vek, IQ,... ■ Hodnoty znaků pro prvky výberu můžeme reprezentovat datovým souborem. IB112 Základy matematiky: Základy popisné statistiky 6/49 Datový soubor Definice (k-rozměrným) datovým souborem s rozsahem n rozumíme matici x12 • • • x1k^ *21 X22 ... X2k \xn1 xn2 ^ ^ ^ xnkJ Řádky matice odpovídají objektUm výběru, sloupce jednotlivým znakUm. ■ Je-li matice jednosloupcová, hovoríme o jednorozmerném datovém souboru. Je-li matice dvousloupcová, hovoríme o dvourozmerném datovém souboru. ■ Hodnoty, kterých znak nabývá, se také nazývají varianty nebo úrovne. IB112 Základy matematiky: Základy popisné statistiky 7/49 Příklad datových souborů Vlevo je trojrozměrný datový soubor s rozsahem 12 popisující výšku a váhu objektů a jejich známku z matematiky. Vpravo pak je jednorozměrný datový soubor popisující pouze výšku objektu. /161\ 188 170 174 182 152 193 177 174 188 167 173 161 51 1 188 82 3 170 70 2 174 59 4 182 95 2 152 44 3 193 102 4 177 73 2 174 63 1 188 74 3 167 61 2 173 63 2 IB112 Základy matematiky: Základy popisné statistiky 8/49 Jednorozmerný datový soubor IB112 Základy matematiky: Základy popisné statistiky 9/49 Uspořádananý datový soubor Definice Jestliže uspořádáme hodnoty jednorozměrného datového souboru do neklesající posloupnosti, získáme jednorozmerný uspořádaný datový soubor obvykle znaCený Interval (X(1), x^n)} pak nazveme variaCníobor. Délka variaCního oboru X(n) - X(1) se nazývá rozpetí datového souboru. IB112 Základy matematiky: Základy popisné statistiky 10/49 Vektor variant Definice Nechť je dán jednorozmerný datový soubor. Vektor variant je rostoucí posoupnost všech variant vyskytujících se v souboru, obvykle znatcená IB112 Základy matematiky: Základy popisné statistiky 11/49 Príklad Z uvedeného datového souboru vytvořte uspořádaný datový soubor, určete variační obor, rozpetí datového souboru a vektor variant. /161\ 188 170 174 182 152 193 177 174 188 167 173 IB112 Základy matematiky: Základy popisné statistiky 12/49 Příklad Z uvedeného datového souboru vytvořte uspořádaný datový soubor, určete variační obor, rozpětí datového souboru a vektor variant. /161^ 152 188 161 170 167 174 170 182 173 152 174 193 174 177 177 174 182 188 188 167 188 173 193 <— usporádaný datový soubor IB112 Základy matematiky: Základy popisné statistiky 13/49 Príklad Z uvěděného datového souboru vytvortě usporádaný datový soubor, určětě variační obor, rozpětí datového souboru a věktor variant. /161^ 152 188 161 170 167 174 170 182 173 152 174 193 174 177 177 174 182 188 188 167 188 173 193 <— uspořádaný datový soubor ■ Variační obor jě (152,193). ■ Rozpětí jě 41. IB112 Základy matěmatiky: Základy popisné statistiky 14/49 Príklad Z uvedeného datového souboru vytvorte usporádaný datový soubor, určete variační obor, rozpetí datového souboru a vektor variant. /161^ 152 188 161 170 167 174 170 182 173 152 174 193 174 177 177 174 182 188 188 167 188 173 193 <— usporádaný datový soubor ■ Variační obor je (152,193). ■ Rozpetí je 41. vektor variant 152 161 167 170 173 174 177 182 188 193 IB112 Základy matematiky: Základy popisné statistiky 15/49 Bodové rozložení Četností Jestliže je počet variant v jednorozmerném datovém souboru malý, prirazujeme četnosti jednotlivým variantám. Hovoríme o bodovém rozložení četností. Definice Nechť je dán jednorozmerný datový soubor \xnJ v kterém znak X nabývá r variant. Pak pro každé j e {1,..., r} definujeme nj - absolutní Četnost j-té varianty jako poCet výskytu Xj v datovém souboru, Pj = -n - relativní četnost j-té varianty, Nj = n1 + ... + n - absolutní kumulativní Četnost prvních j variant, Fj = p1 + ... + pj - relativní kumulativní Četnost prvních j variant. IB112 Základy matematiky: Základy popisné statistiky 16/49 Tabulka rozložení Četností Definice (Tabulka rozložení Četností) Nechť je dán jednorozmerný datový soubor s r variantami. Tabulka rozložení Četností nebo též variaCní rada je tabulka následujícího tvaru: n pj Nj Fj n1 p1 N1 F1 X\2] n2 p2 N2 F2 x\r ] nr pr Nr Fr ■ První dva sloupce tabulky tvorí tzv. Cetnostní tabulku, kterou lze použít ke stručnejšímu zadání jednorozmerného datového souboru. IB112 Základy matematiky: Základy popisné statistiky 17/49 Příklad Je dán jednorozmerný datový soubor s rozsahem 12 obsahující známky z matematiky. Sestavte tabulku rozložení četností. /1 \ Četnostní tabulka zadávající stejný soubor: x\j] nj 1 2 2 5 3 3 4 2 2 1 3 2 2 IB112 Základy matematiky: Základy popisné statistiky 18/49 Príklad Je dán jednorozmerný datový soubor s rozsahem 12 obsahující známky z matematiky. Sestavte tabulku rozložení četností. 1 3 2 4 2 3 4 2 1 3 2 2 Cetnostní tabulka zadávající stejný soubor: x\j] ni 1 2 2 5 3 3 4 2 Rešení: x\i ] ni pi Ni Fi 1 2 2 12 2 2 12 2 5 5 12 7 7 12 3 3 3 12 10 10 12 4 2 2 12 12 12 — 1 IB112 Základy matematiky: Základy popisné statistiky 19/49 Grafická znázornení jednorozmerného bodového rozdelení cetností ■ Polygon Četností neboli spojnicový graf je lomená cára spojující body se souřadnicemi (x\j], n) pro všechna j. x\j ] nj 1 2 2 5 3 3 4 2 IB112 Základy matematiky: Základy popisné statistiky 20/49 Grafičká znázornění jědnorozměrného bodového rozdělění čětností Sloupcový diagram jě soustava na sěbě něnavazujíčíčh obdélníku posazěnýčh na x-ovou osu, jějičhž svislá osa jě na nějaké variantě Xj a výška odpovídá absolutní čětnosti n. x\j ] nj 1 2 2 5 3 3 4 2 IB112 Základy matěmatiky: Základy popisné statistiky 21/49 Grafická znázornení jednorozmerného bodového rozdelení Četností ■ VýseCový graf je kruh rozdelený na výseče tak, že pomer obvodu výseče pro variantu Xj k obvodu kruhu je roven relativní četnosti pj. x\j ] nj 1 2 2 5 3 3 4 2 IB112 Základy matematiky: Základy popisné statistiky 22/49 Grafičká znázornení jednorozmerného bodového rozdelení četností ■ Polygon četností a sloupčový diagram se používají i pro znázornení absolutníčh kumulativníčh četností. ■ V nekterýčh případečh může být takový graf názornejší. Příklad: Sloupčový diagram zobrazujíčí bodové rozdelení četností našeho souboru s výškami jedinčů příliš informačí nepřináší. IB112 Základy matematiky: Základy popisné statistiky 23/49 Grafická znázornení jednorozmerného bodového rozdelení cetností ■ Polygon četností a sloupcový diagram se používají i pro znázornění absolutních kumulativních Cetností. ■ V některých případech muže být takový graf názornější. Příklad: Polygon absolutních kumulativních cetností je v tomto případe prřínosneřjší. IB112 Základy matematiky: Základy popisné statistiky 24/49 Roztrídený datový soubor Jestliže je počet variant v jednorozmerném datovém souboru blízký rozsahu souboru, pak variační obor pokryjeme systémem disjunktních intervalu. Hodnoty znaku pak nahradíme príslušností do intervalu. Hovoříme o roztříděném datovém souboru. ■ (Číselnou osu rozdelíme na intervaly (-00, U1), (U1, U2>, (U2, U3), . . . , (Ur, Ur+1), (Ur+1, 00) tak, aby krajní intervaly neobsahovaly žádnou pozorovanou hodnotu (s temito intervaly dále nepračujeme). ■ (Uj, Uj+1) nazveme j-tý třídící interval, kde j e {1,..., r}. ■ dj = Uj+1 - Uj je délka j-tého intervalu. ■ x\j] = U +2Uj+1 je střed j-tého intervalu. ■ Počet tríd volíme podle StUrgesova pravidla r = 1 + 3,3 • log10 n (je to pouze doporučení, pro n < 500 často volíme vyšší r) ■ Intervaly obvykle volíme tak, aby mely stejnou délku. IB112 Základy matematiky: Základy popisné statistiky 25/49 Intěrvalové rozložění čětností Hodnoty z jědnorozměrného datového souboru pak rozdělímě do r zvolěnýčh intěrvalu. Intervalové rozložení Četnosti pak děfinujěmě podobně jako bodové rozložění čětností. Děfiničě Nechť je dán jednorozmerný datový soubor a r třídících intervalu. Pak pro každé j e {1,..., r} definujeme nj - absolutní cetnost j-tého tčídícího intevalu potcet prvku datového souboru padajících do intevalu (u, uj+1), pj = nn - relativní cetnost j-tého tčídícího intervalu, fj = dj- cetnostni hustota j-tého tridiciho intervalu, Nj = n1 +... + nj - absolutní kumulativní cetnost prvních j tčídících intervaluu, Fj = p1 + ... + pj - relativní kumulativní cetnost prvních j tcídících intervaluu. IB112 Základy matěmatiky: Základy popisné statistiky 26/49 Tabulka rozložení četností Definice (Tabulka rozložení četností) Nechť je dán jednorozmerný datový soubor s r variantami. Tabulka rozložení Četností je tabulka následujícího tvaru: (uj, uj+1) dj n pj fj Nj Fj (u1, u2) d1 n1 p1 f1 N1 F1 (u2, u3) d2 n2 p2 f2 N2 F2 (ur, ur+1) dr nr pr fr Nr Fr ■ První a třetí sloupec tabulky tvoří tzv. četnostní tabulku, která popisuje roztříděný datový soubor. IB112 Základy matematiky: Základy popisné statistiky 27/49 Príklad Je dán uspořádaný datový soubor popisující výšku osob. (Četností tabulkou zapište roztřrídeřný datový soubor (pocřet třríd urcřete Sturgesovým pravidlem) a sestavte tabulku rozložení cetností. /152\ 161 167 170 173 174 174 177 182 188 188 V193/ IB112 Základy matematiky: Základy popisné statistiky 28/49 Príklad Je dán uspořádaný datový soubor popisující výšku osob. (Četností tabulkou zapište roztrídený datový soubor (počet tríd určete Sturgesovým pravidlem) a sestavte tabulku rozložení četností. 152 161 167 170 173 174 174 177 182 188 188 193 Rešení: ■ Rozsah je n — 12. Počet tříd tedy bude r — 5. IB112 Základy matematiky: Základy popisné statistiky 29/49 Příklad Je dán uspořádaný datový soubor popisující výšku osob. (Četností tabulkou zapište roztříděný datový soubor (poCet tříd urCete Sturgesovým pravidlem) a sestavte tabulku rozložení Četností. /152\ 161 167 170 173 174 174 177 182 188 188 V193/ Řešení: ■ Rozsah je n = 12. PoCet tříd tedy bude r = 5. ■ Volíme stejnou délku tríd dj = 10. Zvolíme tedy třídy (150,160), (160,170), (170,180), (180,190), (190,200). ■ Četnostní tabulka vypadá následovne: nj (150,160) 1 (160,170) 3 (170,180) 4 (180,190) 3 (190,200) 1 IB112 Základy matematiky: Základy popisné statistiky 30/49 Příklad Z Cetnostní tabulky už snadno spočítáme tabulku rozložení Četností: (uj, Uj+1) nj (150,160) 1 (160,170) 3 (170,180) 4 (180,190) 3 (190,200) 1 IB112 Základy matematiky: Základy popisné statistiky 31/49 Príklad Z četnostní tabulky už snadno spočítáme tabulku rozložení četností: (uj, Uj+1) nj (150,160) 1 (160,170) 3 (170,180) 4 (180,190) 3 (190,200) 1 dj nj Pj j Nj Fj (150,160) 10 1 1 12 1 120 1 1 12 (160,170) 10 3 3 12 3 120 4 4 12 (170,180) 10 4 4 12 4 120 8 8 12 (180,190) 10 3 3 12 3 120 11 11 12 (190,200) 10 1 1 12 1 120 12 12 12 IB112 Základy matematiky: Základy popisné statistiky 32/49 Grafická znázornení jednorozmerného intervalového rozdelení cetností ■ Používáme podobné grafy jako u bodového rozdelení cetností. ■ V případe polygonu cetností místo konkrétních hodnot použijeme stredy intervalu. ■ Místo sloupcového grafu používáme histogram, což je v vlastne totéž, akorát bez mezer mezi sloupci (šírka sloupce odpovídá délce intervalu). ■ Lze použít i výsecový graf. ■ Polygon cetností a histogram lze použít i pro znázornení absolutních kumulativních cetností. IB112 Základy matematiky: Základy popisné statistiky 33/49 Příklad Histogram přo roztříděný datový souboř z předchozího příkladu. nj (150,160) 1 (160,170) 3 (170,180) 4 (180,190) 3 (190,200) 1 IB112 Základy matematiky: Základy popisné statistiky 34/49 (Číselné charakteristiky znaků IB112 Základy matematiky: Základy popisné statistiky 35/49 Charakteristiky polohy Všechny charakteristiky definujeme pro neroztrídené datové soubory. Varianty pro roztrídené soubory lze dohledat. Aritmetický prUmer 1 n ■ m = - xi i=1 ■ Aritmetický prumer je citlivý na extrémne odchýlené hodnoty. Modus ■ Je to hodnota, která se v datovém souboru vyskytuje nejcasteji. ■ Není urceno jednoznacne (více hodnot muže mít maximální absolutní cetnost). IB112 Základy matematiky: Základy popisné statistiky 36/49 Charakteristiky polohy a-kvantil, medián, horní a dolní kvartil ■ Nechť a e (0,1). a-kvantil je císlo xa, které rozdeluje usporádaný datový soubor na dolní úsek obsahující podíl a ze všech dat a na horní úsek obsahující podíl 1 - a ze všech dat. ■ Pokud n • a je celé císlo c, pak xa = X{-cC + *(c+1. ■ Pokud n • a není celé, vezmeme nejbližší vetší celé císlo c a xa = X(c). m Medián je x05, tedy rozdeluje soubor na horní a dolní polovinu. Oproti aritmetickému prumeru není citlivý na extrémne odchýlené hodnoty. ■ Dolní kvartil je x025, tedy rozdeluje soubor na dolní ctvrtinu a horní trři cřtvrtiny. ■ Horní kvartil je x0 75, tedy rozdeluje soubor na dolní tři ctvrtiny a horní cřtvrtinu. IB112 Základy matematiky: Základy popisné statistiky 37/49 Kvartilový graf (boxplot) Grafičké znázornení peti čharakteristik polohy: ■ nejvetší hodnota ■ horní kvartil ■ medián ■ dolní kvartil s — ■ nejmenší hodnota s IB112 Základy matematiky: Základy popisné statistiky 38/49 Charakteristiky variability Rozptyl ■ Čím vetší rozptyl, tím vetší promenlivost souboru. ■ Pnjmerná kvadratická odchylka od aritmetického pnjmeru. 1 ■ s2 = (X; - m)2 i=1 Směrodatná odchylka ■ Čím vetší smerodatná odchylka, tím vetší promenlivost souboru. ■ s = v/š2 n IB112 Základy matematiky: Základy popisné statistiky 39/49 Príklad Je dán uspořrádaný datový soubor popisujíčí výšku osob. Spočřítejte zmíneřné čříselné čharakteristiky a nakreslete kvartilový graf. 152 161 167 170 173 174 174 177 182 188 188 193 IB112 Základy matematiky: Základy popisné statistiky 40/49 Příklad Je dán uspořádaný datový soubor popisující výšku osob. Spočítejte zmíněné číselné charakteristiky a nakreslete kvartilový graf. /152\ 161 167 170 173 174 174 177 182 188 188 V193/ Řešení: Aritmetický průmer je m = 2°29 = 174,9166. Modus muže být 188 nebo 174. Medián je xo,5 = ^^J571 = 174. Dolní kvartil je x0;25 = xJV+^- = 168,5. Horní kvartil je xo,75 = *(9)~2*(10) = 185. Rozptyl s2 je příbližne 127,9. Smerodatná odchylka je s je približne 11,3. IB112 Základy matematiky: Základy popisné statistiky 41/49 Príklad Je dán usporádaný datový soubor popisujíčí výšku osob. Spočítejte zmínené číselné čharakteristiky a nakreslete kvartilový graf. 152 161 167 170 173 174 174 177 182 188 188 V193/ IB112 Základy matematiky: Základy popisné statistiky 42/49 Příklad Je dán uspořádaný datový soubor popisující výšku osob. Spočítejte zmíněné číselné charakteristiky a nakreslete kvartilový graf. 102 161 167 170 173 174 174 177 182 188 188 V193/ Řešení: Aritmetický prumer je m = 2049 = 170,75. Modus muže být 188 nebo 174. Medián je x0,5 = ^^J571 = 174. Dolní kvartil je x0;25 = xJV+^- = 168,5. Horní kvartil je x0,75 = *(9)~2*(10) = 185. Rozptyl s2 je příbližne 509,9. Smerodatná odchylka je s je približne 22,6. IB112 Základy matematiky: Základy popisné statistiky 43/49 Príklad Je dán uspořrádaný datový soubor popisujíčí výšku osob. Spočřítejte zmíneřné čříselné čharakteristiky a nakreslete kvartilový graf. 102 161 167 170 173 174 174 177 182 188 188 193 IB112 Základy matematiky: Základy popisné statistiky 44/49 Dvourozměrný datový soubor IB112 Základy matematiky: Základy popisné statistiky 45/49 Dvojrozměrný datový soubor ■ Připoměnmě, žě dvourozměrný datový soubor jě maticě tvaru ■ Pro dvourozměrný soubor mUžěmě definovat analogické pojmy k většině pojmu zavěděných pro jědnorozměrný prostor, namátkou: ■ roztříděný dvourozměrný datový soubor ■ strědy tříd, absolutní (kumulativní) Cětnost, rělativní (kumulativní) Cětnost ■ Cětnostní tabulky, ... ■ Kě grafickému znázornění dvourozměrných datových souboru lzě použít rozptylový graf (něroztríděný soubor), případně stereogram (dvourozměrný histogram, pro roztříděné soubory). \Xn Ynj IB112 Základy matěmatiky: Základy popisné statistiky 46/49 Koeficient korelace ■ Zajímavá císelná charakteristika dvourozmerného souboru. ■ Udává míru lineární závoslosti znaku X a Y. ■ Předpokládáme, že s(x), s(y) jsou nenulové smerodatné odchylky znaku X a Y a mx, my jejich aritmetické prumery. ■ Pak koeficient korelace je = n En=1(x>- mx ){yi - my) ' / \ / \ • ■ Vždy platí -1 < x < 1, pricemž r nabývá krajních hodnot, pokud je jsou znaky zcela lineárneř závislé, tj. pokud yi = axi + b. Je-li r = 1, tak body (xi, yi) leží na rostoucí prímce, pro r = 1 leží na klesající prímce. Hodnoty r blízké 0 vyjadrují, že závislost X, Y není lineární, prípadne jsou X, Y nezávislé. IB112 Základy matematiky: Základy popisné statistiky 47/49 Príklad Uvažme dvojrozmerný datový soubor výšek a hmotností. Rozptylový graf vypadá následovne. /161 51 188 82 170 70 174 59 182 95 152 44 193 102 177 73 174 63 188 74 167 61 173 63 Koeficient korelace je 0,8784. IB112 Základy matematiky: Základy popisné statistiky 48/49 Příklad Uvažme dvojrozmerný datový soubor výšek a známek z matematiky. Rozptylový graf vypadá následovne. 161 188 170 174 182 152 193 177 174 1 188 3 167 2 173 2 1 3 2 4 2 3 4 2 o o - o 0 o o o o o o o 150 155 160 165 Koeficient korelace je 0,4049. IB112 Základy matematiky: Základy popisné statistiky 49/49