Základy popisné statistiky V této kapitole se seznámíme se základy popisné statistiky, představíme si základní pojmy a budeme si je ilustrovat na praktických příkladech. Kapitola je psána formou volného textu, přesnou matematickou formulaci je možno nalézt např. v [1]. Zadání následujícího příkladu bude sloužit ilustraci představených pojmů a budeme se na něj v dalším odkazovat. Ilustrační příklad. V chemické laboratoři byl zjišťován obsah alkoholu ve 30 různých vzorcích vín dodaných různými producenty vína. Výsledky obsahu alkoholu v procentech byly následující 13,20; 13,16; 14,37; 13,24; 14,20; 14,12; 13,75; 14,75; 14,38; 13,63; 12,93; 13,71; 12,85; 13,50; 13,05; 14,39; 14,06; 14,83; 13,86; 14,10; 14,30; 13,83; 14,19; 13,64; 14,06; 13,39; 13,30; 13,87; 14,02; 13,73. Co je to statistika? Statistika je věda o získávání, zpracování a interpretaci informace obsažené v empirických pozorováních skutečného světa (např. v naměřených datech, průzkumech...) Jinak lze říci, že statistika je věda o zkoumání reality na základě napozorovaných dat. Statistiku dělíme na popisnou a induktivní. Popisná neboli deskriptivní statistika se zabývá popisem konkrétních dat, kdy několika čísly a obrázky stručně vystihneme to důležité. Závěry můžeme vyvozovat pouze o daných 1 datech, nelze je zobecňovat. Induktivní neboli konfirmatorní statistika umožňuje na základě dat odpovídat na obecné otázky o populaci a získané závěry lze zobecnit. Statistika má aplikace v přírodních vědách v biologii, chemii, fyzice, meteorologii, medicíně, genetice, farmakologii atd. Uplatňuje se také v ekonomii v makro a mikroekonomii, v bankovnictví a pojišťovnictví. Dále v technických vědách jako je telekomunikace, doprava, počítače, strojírenství, kontrola jakosti, řízení a organizace výroby a dalších. V neposlední řadě také ve společenských vědách, především v sociologii, behaviorálních vědách, archeologii, lingvistice, antropologii... Statistika v chemii. Experiment je důležitým nástrojem výzkumu. V průběhu výzkumu bývají tvořeny složité fyzikálně-chemické modely a experiment slouží k jejich ověření. Statistické zpracování výsledků je pak součástí prakticky veškerého výzkumu. Statistické úlohy bývají nejčastěji ve formě plánování experimentu, detekci systematických chyb a tvorbě kalibračních přímek. Statistika se uplatňuje také v analytické chemii, optimalizaci a kontrole kvality v průmyslových výrobách. Dále bývají statisticky porovnány různé laboratoře, přístroje či podmínky. V dalším textu se budeme zabývat pouze pojmy z popisné statistiky. Co je popisná statistika. Z experimentálních měření získáváme data a ta chceme stručně a výstižně popsat. K tomuto účelu slouží popisná statistika. Popis konkrétního datového souboru je nedílnou součástí každé analýzy. Data. Data jsou výsledkem pozorování nebo měření, které provádíme na nezávislých subjektech. Měříme nebo zjišťujeme hodnoty znaku, veličin, vlastností, například koncentrace určité látky, hmotnost, teplota, zabarvení, atd. Na jednom subjektu můžeme měřit více znaků. Výsledky zapisujeme do datové tabulky. Pozorování na jednotlivých subjektech jsou většinou v řádcích, jednotlivé měřené veličiny ve sloupcích. Statistickou analýzu provádíme většinou pomocí specializovaných statistických softwarů, pro příklad uveďme programy R, Statistica, SPSS, SAS atd. 2 Příkladem datového souboru jsou naměřené hodnoty obsahu alkoholu ve vzorcích vína z našeho lustračního příkladu. Měřítka znaků. Měřítka můžeme dělit více způsoby. Prvním dělením je • nominální - jejich hodnoty jsou pouze označením různých kategorií (pohlaví, politický názor, barva, odrůda, ...), • ordinální - jsou to uspořádané nominální hodnoty (vzdělání, spokojenost v práci (stupnice 1 až 5), stupeň bolesti, ...), • intervalové - u nich lze uvažovat jejich rozdíly, ale nelze se ptát „kolikrát" (rok narození, teplota ve stupních Celsia, ...), • poměrové - většina veličin, které měříme (hmotnost, koncentrace, velikost, čas, ...). Jiné dělení měřítek může být na • kvalitativní neboli kategoriální faktory - existuje jen několik možných hodnot (kategorií) a zajímají nás četnosti jednotlivých hodnot, přičemž uvažovat charakteristiky jako průměr nemá smysl, • kvantitativní neboli spojité - jejich hodnoty jsou čísla, zajímají nás charakteristiky polohy (průměr), variability atd. Kvalitativní veličiny Míry polohy Průměr. Při výpočtu průměru x pozorujeme hodnoty x1}... ,xn. Průměr vypočteme jako Někdy také bývá užitečné určit maximum a minimum zadaných hodnot. na i=l 3 Varianční řada. Při tvorbě variační řady postupujeme tak, že původní hodnoty uspořádáme podle velikosti. Varianční řada je neklesající posloupnost vytvořená z naměřených hodnot, přičemž X\ je minimum, xn je maximum. Je důležité uvědomit si rozdíl mezi x\ a x^iy Medián. Medián x dělí data na dvě poloviny tak, že polovina je menší (nebo rovna) než x a polovina vetší (nebo rovna) než x. Medián je tedy prostřední hodnota. Výpočet mediánu provádíme podle následujícího vzorce Kvantily. Kvantily neboli percentily můžeme charakterizovat následujícím způsobem. • a — 100 % kvantil je hodnota taková, že a — 100 % hodnot v datech je menší nebo rovno a zbytek je vetší nebo rovno. Například 50 % kvantil je medián. • Dolní kvartil Qi = 25 % kvantil, je hodnota taková, že čtvrtina hodnot je menších (nebo rovných) a tři čtvrtiny jsou vetší (nebo stejné). • Horní kvartil Q% = 75 % kvantil, je hodnota taková že tři čtvrtiny hodnot jsou menší (nebo rovné) a čtvrtina je vetší (nebo stejná). Úlohy z praxe, které využívají kvantilů mohou být například • jaký obsah vápníku v krevním séru se považuje za nízký, tedy takový, jehož výskyt je u maximálně 5% zdravých lidí, • růstové křivky u dětí, jimiž zjišťujeme, zda není dítě extrémně malé nebo extrémně velké. Příklad 1. V Motivačním příkladu určete pro hodnoty obsahu alkoholu průměr, variační řadu hodnot, minimum, maximum a medián. (2) 4 Řešení. Připomeňme, že hodnoty byly X\ = 13,20; x2 ~- = 13,16; x3 = 14, 37; x4 = 13 ,24; x5 = U, 20; x6 = 14,39; X-j - = 14,06; x8 = 14,83; xg = 13 , 86; xw = 14 ,10; Xll = 14,12; X12 = 13,75; Xl3 = 14, 75; X14 = 14,38; x15 = 13,63; x16 = 14,30; x17 = 13,83; X1S = 14,19; x19 = 13, 64; x20 = 14,06; X21 = 12,93; X22 = 13,71; X23 = 12, 85; X24 = 13, 50; X25 = 13,05; %26 = 13,39; X27 = 13,30 X28 = 13, 87; X29 = 14, 02; x30 = 13,73. • Průměr x vypočteme podle vztahu (1) jako ^30 ^ ž = 30 x* = ^(13' 20 + ... + 13, 73) = 13, 814. • Varianční řada je tvaru 12,85; 12,93; 13,05; 13,16; 13,20; 13,24; 13,30; 13,39; 13,50; 13,63; 13,64; 13,71; 13,73; 13,75; 13,83; 13,86; 13,87; 14,02; 14,06; 14,06; 14,10; 14,12; 14,19; 14,20; 14,30; 14,37; 14,38; 14,39; 14,75; 14,83. • Minimum je hodnota 12,85, maximum pak 14,83. • Medián najdeme podle části vzorce pro n sudé, tedy x = ^(15) + x{16)) = ^(13, 83 + 13, 86) = 13, 845. Míry variabily. Míry variability měří rozptýlení neboli variabilitu či nestejnost. Rozptyl. Rozptyl můžeme charakterizovat jako průměrný čtverec vzdálenosti od průměru. Spočteme jej podle vzorce s2 = ~~\ Ž (Xi ~ = ( Ž ^ ~ nž<2 ) • (3) i=l \i=l / Rozměrem je druhá mocnina původních jednotek. 5 Směrodatná odchylka Směrodatná odchylka je charakterizována jako odmocnina z rozptylu. Spočteme ji podle vzorce s = V s2 1 " (4) Směrodatná odchylka má stejný fyzikální rozměr jako původní data. Existuje řada dalších popisných charakteristik (šikmost, špičatost, specializované popisné statistiky ...). Ve statistické indukci slouží popisné statistiky jako odhady neznámých parametrů. Příklad 2. V Ilustračním příkladu spočtěte pro zadaná data směrodatnou odchylku a rozptyl. Řešení. Využijeme výsledků vypočtených v Příkladu 1. Dostáváme 30 A = 5732, 319 a x2 = 190, 817. í=i Odtud s2 = 4:(5732, 31930 • 190, 817) = 0, 269. 29 Směrodatnou odchylku potom vypočteme jako s = ^0,269 = 0,519. Grafické nástroje popisné statistiky. Zmíníme se zde o dvou grafických nástrojích popisné statistiky a to o histogramu a krabicovém diagramu neboli boxplotu. Histogram. Histogram dává nahlédnout, jak jsou jednotlivé hodnoty znaku v našich datech rozloženy, tedy které hodnoty se objevují často a které ojediněle. Histogram vytvoříme tak, že interval I = [a; b] , jenž pokrývá celé rozmezí dat, rozdělíme na K navazujících stejně velkých podintervalů Ak, kde k = 1,..., K a všechny budou délky h = ^j^. S výjimkou prvního je bereme je například zprava uzavřené. Označíme rik počet pozorování, které padly do Ak- Histogram je pak grafické znázornění intervalových četností rtKi neboli každému Ak odpovídá obdélník, jehož výška je rovna %. 6 Krabicový diagram. Krabicový diagram nemá úplně závaznou definici. Obvykle je v něm zakreslen výběrový medián a kvartily. Krabice je tvořena tak, že horní a dolní okraj určují výběrové kvartily Qi a Q3, uprostřed se nachází čára určující výběrový medián. „Vousy" ukazují rozmezí dat od kvar-tilu k minimu či maximu, není-li odlehlé. Odlehlé pozorování je takové, které je dál než \{Q% — Qi) od bližšího kvartilu. Příklad 3. Pro hodnoty obsahu alkoholu z Motivačního příkladu nakreslete histogram. Řešení. Postupujeme tak, že zvolíme a = 12,5, b = 15, K = 5 —> h = 0, 5. k interval Ak četnost rik 1 [12, 5,13] 2 2 [13, 13,5] 7 3 [13,5, 14] 8 4 [14, 14,5] 11 5 [14,5, 15] 2 Histogram vína 12 l 12,5-13 13-13,5 13,5-14 14-14,5 14,5-15 Obsah alkoholu 7 Literatura [1] BUDÍKOVÁ, Marie, MIKOLÁŠ Štěpán , LERCH Tomáš : Základní statistické metody., Vydání první. Brno: Masarykova univerzita, 2005. ISBN 80-210-3886. [2] BUDÍKOVÁ Marie : Studijní materiály předmětu PřF:MAS01 [online], [cit. 2014-01-09]. Dostupné z: https://is.muni.cz/auth/el/ 1431/podzim2014/MAS01/um/50490616/ [3] HUDECOVÁ Šárka: Matematická statistika [online], [cit. 2014-01-09]. Dostupné z: http://www.karlin.mff.cuni.cz/~hudecova/ education/download/chem_predn/popisna_tisk.pdf 8