Deskriptivní statistika o7. seminář C:\WINWORD\CLIPART\CROWD.WMF STATISTIKA – úvod (1) oNezbytné charakteristiky vědeckého výzkumu: opřesnost osprávnost ospolehlivost -Uplatňování matem. modelů, testování hypotéz, srovnání s kontrolní o skupinou. o→ umožnila až aplikace metod (po II. svět. válce) MATEMATICÉ STATISTIKY o o STATISTIKA – úvod (2) oTěžiště statistických metod spočívá v oracionálním přístupu k řešení problému oplánování výzkumu osprávné interpretaci a objektivizaci závěrů o opoč. 20.stol. → náplň STATISTIKY: hodnocení ø veličin + obohaceno o studium jejich variability o Øvypracována řada MATEMATICKÝCH MODELŮ Øzákladem STAT: TEORIE PRAVDĚPODOBNOSTI ØPřechod od pouhé registrace k analytickému myšlení o o STATISTIKA – úvod (3) oVěda, která se zabývá studiem hromadných jevů. ověda, jejímž předmětem studia jsou výsledky HROMADNÉHO POZOROVÁNÍ → jejich sběr, analýza + využití pro rozhodování a předpovědi o Hromadné jevy – výsledky neomezeně opakovaných pokusů nebo výsledky pozorování na na velkých souborech - např. narození, úmrtí, onemocnění,… oHromadné jevy, které nelze před provedením pokusu nebo pozorování zcela přesně předvídat → HROMADNÉ NÁHODNÉ JEVY oPozn.: NÁHODY nelze vyloučit, ale lze je studovat exaktními metodami o Role STATISTIKY v medicíně ovyužití na úrovni: Øpopulační – úroveň a vývoj zdrav.situace; zvažuje zdrav.stav lidí, determinanty zdraví + možnost jejich ovlivnění Øindividuální – stanovení správné diagnózy (mnoho kvalitat.+kvantitat.údajů) + odhad prognózy léčby o Statistika oje důležitým nástrojem při šetřeních zdravotního stavu populace a jeho determinant ovychází z ní moderní epidemiologické metody oStatistika – věda, jež se zabývá výsledky hromadných pozorování, jejich sběrem, analýzou a využitím pro rozhodování a předpovědi. oData - zjištěné (naměřené) vlastnosti statistických jednotek (jednotky stat. šetření) o vlastnosti stat. j., jež ji vymezují – znaky určující o vlastnosti stat. j, jež jsou sledovány – znaky zkoumané (variabilita) o - hodnoty jednotlivých sledovaných vlastností se vyznačují variabilitou oVariabilita dat – důsledkem působení velkého počtu drobných náhodných vlivů oNáhoda – přirozený jev, který lze zkoumat exaktními metodami teorie pravděpodobnosti o - neodpovídá-li variabilita dat variabilitě, kterou způsobuje náhoda, pak to lze statistickými metodami určit Statistická úvaha oAplikace statistických metod se úzce váže na záměry a úvahy vědeckého pracovníka: deduktivní úvaha o induktivní úvaha oDeduktivní úvaha: od obecných zkušeností k jednotlivým (konkrétní) oInduktivní úvaha: od jednotlivých zkušeností k obecným. o o Statistické šetření oVyčerpávající vs. výběrové šetření -od 30. let 20. století rozvoj teorie pravděpodobnosti a induktivní statistiky oZákladní a výběrový soubor -ZS: souhrn prvků (osob, případů nemoci, pokusů), jejichž vlastnosti chceme poznat -VS: vybraná část ZS, kterou budeme skutečně zkoumat (měření, dotazníky, testy) oNáhodný výběr o- každý prvek ZS má na začátku výběru stejnou pravděpodobnost, že bude vybrán do VS oUsuzujeme-li induktivně z vlastností stat. jednotek VS na vlastnosti všech stat. jednotek, hovoříme o stat. indukci oObjektivizujeme induktivní závěry pomocí teorie pravděpodobnosti. Náhodný výběr - typy výběrů opodmínka reprezentativnosti o 1.Prostý náhodný výběr – losováním nebo pomocí tabulek náhod. č. 2.Náhodný výběr mechanický (systematický) – např. počáteční písmeno příjmení 3.Náhodný výběr oblastní (stratifikovaný) – rozdělení do oblastí, strat a dále výběr z každého vzorku prost. náhod. výběrem nebo systemat. v. 4.Párový výběr (mačování) – např. k osobám s jistou vlastností a nemocí osoby se stejnou vlastností a bez nemoci oPozn.: reprezentativnost může být porušena i při sběru dat, např. Øneúplné chybějící údaje Ønevhodně zvolené otázky Ønejednoznačnost odpovědi atd. o Statistické šetření oEtapy statistického šetření 1.Plán šetření 2.Sběr dat 3.Popis a technické zpracování 4.Rozbory a závěry o oJ. W. Goethe: „Kdo splete první knoflík, ten se už pořádně nezapne“ o Výběrový soubor oDeskriptivní statistika (popis souboru) o 1.Třídění o cíl: uspořádat +zpřehlednit velký soubor dat 2.Prezentace dat o tabulky +grafy o cíl: znázornit rozložení četností sledovaných znaků 3.Statistické charakteristiky o cíl: charakterizovat sledované znaky pomocí výstižných ukazatelů Způsob třídění závisí na typu veličiny oKVALITATIVNÍ – nelze měřit číselně, lze pouze klasifikovat do různých kategorií (pohlaví, věk, …) 1.Nominální – lze vyjádřit pouze slovně, nelze seřadit o a) alternativní – existují pouze 2 varianty (kuřák x nekuřák, muž x žena, …) o b) množné – existují > 2 varianty (diagnózy, barva vlasů, …) 2.Ordinální – lze je seřadit dle kritérií (ZŠ – SŠ – VŠ, silný – slabý kuřák – nekuřák) oKVANTITATIVNÍ – lze vyjádřit pouze číselně polohou na číselné ose 1.Diskrétní – vyjádřeny celými čísly (počet cigaret, počet onemocnění) 2.Spojité – desetinná čísla (výška, hmotnost, …) o v praxi lze spojité znaky převést na diskrétní o o Třídění veličin oStatistickým tříděním rozumíme rozdělení statistického souboru do skupin opodle předem určených třídících znaků. o oTřídění kvalitativních veličin -kategorie jsou předem dány -jde o výčet všech hodnot, kterých může veličina nabývat (barva očí – modrá, hnědá, zelená, …) oTřídění kvantitativních veličin -kategorie (třídy) vytváříme teprve na základě předem získaných dat -Dochází k redukci dat ve prospěch přehlednosti o oPozn. Znaky sloužící za podklad třídění musí vyjadřovat podstatu zkoumaného jevu a musí být voleny podle cíle prováděného výzkumu. Třídění oa) Třídění jednostupňové – rozdělení souboru podle kuřáckých návyků ob) Třídění dvoustupňové – rozdělení souboru podle kuřáckých návyků a vzdělání oc) Třídění třístupňové – rozdělení souboru podle kuřáckých návyků, vzdělání a pohlaví c oa o o o o ob o CELKEM Nekuřák 389 Slabý kuřák 274 Silný kuřák 261 CELKEM 924 ZŠ SŠ VŠ CELKEM Nekuřák 269 74 46 389 Slabý kuřák 213 44 17 274 Silný kuřák 197 50 14 261 CELKEM 679 168 77 924 MUŽI ZŠ SŠ VŠ CELKEM Nekuřák 130 39 27 196 Slabý kuřák 110 24 8 142 Silný kuřák 140 32 8 180 CELKEM 380 95 43 518 ŽENY ZŠ SŠ VŠ CELKEM Nekuřák 139 35 19 193 Slabý kuřák 103 20 9 132 Silný kuřák 57 18 6 81 CELKEM 299 73 34 406 Vytváření intervalů 1.Rozpětí –od největší naměřené hodnoty odečteme nejmenší o 6,59 – 3,08 = 3,51 2.Stanovení počtu intervalů – závisí na mnoha faktorech (velikost souboru, podrobnost,…) (5-20) 3.Délka intervalu – rozpětí/ počet intervalů (např. 10) o 3,51/10 = 0,351 délka 1 intervalu o pravidlo: a) okrouhlé číslo o b) ne víc deset. míst než měřená veličina o zaokrouhlit na 0,40 4.Hranice intervalu – počátek – od nejmenšího čísla 3,08 tj. 3,00 o o 1. interval 3,00 – 3,39 nebo <3,00 – 3,4) o 2. interval 3,40 – 3,79 <3,4 – 3,8) Tabulka: Vitální kapacita plic –prezentace dat o Obrázek2.jpg Prezentace dat tabulky + grafy oČetnost – kolik z naměřených hodnot spadá do jednotlivých intervalů oKumulativní četnost – součet všech předchozích intervalů o 15 mužů (6 +9) má VC < 3,8 oRelativní četnost - % z celkového počtu měření o četnost 6 ……. 3% z 200 oKumulativní četnost – obdoba kumulativní četnosti v % o oGrafy – tvar rozložení Kvalitativní veličiny oSloupcový graf (sloupce oddělené mezerou) o o o oVýsečový graf (struktura) o o o oKartogram (regionální srovnání) php-bar-graph-3d-multi.gif O6210063.gif graf57.jpg kart_1_72.gif vsv_3d.jpg obr16.gif Kvantitativní veličiny oSloupcový graf (plošné grafy) o o oPro rozložení znaku v několika souborech: oHistogram (pouze obrysy sloupců) o (spojnicové grafy) o o oPolygon (středy sloupců se spojí křivkou) o (spojnicové grafy) img217.jpg Kopie (2) - img217.jpg Kopie - img217.jpg Grafy znázorňující frekvenci rozložení veličiny o o o o o o o o oosa X : naměřené hodnoty sledování veličiny oosa Y : četnost (abs. nebo v %) intervalů o oTvar rozložení četností: -Symetrické x asymetrické -Jednovrcholové x vícevrcholové -Podoba s teoretickými modely rozložení četností img217.jpg Kopie (2) - img217.jpg Kopie - img217.jpg Statistické charakteristiky oVýběrové charakteristiky – charakteristiky náhodných veličin ve V.S. (mění se výběr od výběru). oParametry – charakteristiky náhodných veličin v Z.S. (neměnné konstanty). Statistické charakteristiky oa) relativní ukazatele – viz RS b)ukazatele polohy (střední hodnoty) – aritmetický průměr o - medián o - modus o - kvantil, percentil c)ukazatele variability – variační šíře (rozpětí) o - rozptyl o – směrodatná odchylka o – variační koeficient o oVolba ukazatele: 1.Tvar rozložení (sym. X asym.) 2.Typ sledovaného znaku o nominální: modus o ordinální: modus, medián, percentil o intervalové: medián, modus, percentil, aritmetický průměr o Ukazatele polohy (střední hodnoty) -kde se hodnota nachází nad osou X o oAritmetický průměr (m) – součet pozorovaných hodnot dělený počtem sledovaných jednotek oMedián (me) – hodnota, která je právě uprostřed všech pozorování, která jsou seřazena podle velikosti (u sudého počtu – průměr ze dvou prostředních hodnot ) oModus (mo) – hodnota s nejvyšší četností (nejčastější) oKvantil (obecný název), percentil – pořadový ukazatel, medián je 50 percentil o o aritmetický průměr nemá smysl počítat u asymetrických rozložení (náchylný k extrémním hodnotám) Symetrické rozložení hodnot img221.jpg Asymetrické rozložení hodnot img220.jpg Př.: distribuce mezd zaměstnanců 2006 oObr. Obrázek3.jpg Zrádnost aritmetického průměru oStará historka popisuje loutkové divadlo, které si dělalo marketing profilu svých diváků. Použili aritmetického průměru a dospěli k závěru, že jejich představení jsou nejatraktivnější pro generaci třicátníků. o Ve skutečnosti navštěvovali divadlo dědečkové a babičky s vnoučaty. Normální rozdělení – (GAUSSOVO) oJe nejdůležitější spojité rozdělení. Náhodná veličina má normální rozdělení tehdy, je-li vytvářena nahromaděním velkého počtu nepatrných nezávislých příčin nahodilé povahy. Např. tělesnou výšku lze považovat za norm. náhodnou veličinu – působí na ni řada podnětů nepříliš na sobě závislých. 400px-Standard_deviation_diagram_svg.png Normální rozdělení – (GAUSSOVO) img213.jpg Výstižný popis dat oProč nestačí střední hodnoty k výstižnému popisu dat? o oPř. počet onemocnění u pěti kojenců v 1. roce života 1.skupina: 3,4,5,6,7 m = 5 2.skupina: 0, 4, 5, 6,10 m = 5 o obě skupiny mají stejný aritmetický průměr, ale liší se kolísáním hodnot – variabilitou o oSpolu se střední hodnotou by se měl uvádět ukazatel variability Ukazatele variability - absolutní oVariační šíře (rozpětí): nejjednodušší míra variability o R = Xmax. – Xmin. Pro N menší a rovno 10 oRozptyl : průměr čtverců odchylek hodnot jednotlivých pozorování od aritmetického průměru o oS² o o oSměrodatná odchylka: odmocněný rozptyl o oS o -ukazatel variability udávaný ve stejných jednotkách jako sledovaný znak -vypovídá o tom, o kolik se většina hodnot sledovaného znaku odchyluje od průměru img207.jpg img218.jpg Ukazatele variability -relativní oVariační koeficient - relativní ukazatel variability o o o o o - udává, jaký podíl tvoří směrodatná odchylka z průměru o - veličina bez rozměru udávaná v % o - užití: srovnat variabilitu 2 a více souborů, jejichž průměry se značně liší nebo variabilitu znaků uváděných v různých jednotkách. img216.jpg Využití variačního koeficientu 1)Je-li v. k. >50%, pak je soubor natolik nesourodý, že nemá smysl charakterizovat ho aritmetickým průměrem. 2)Slouží ke srovnání variability 2 souborů, jejichž průměry se značně liší. o Př.: VC u mužů a žen o M: m= 4,80 l s = 0,66 v. k. = 13,8% o Ž: m = 3,90 l s = 0,42 v. k. = 10,8% 3)Slouží ke srovnání variability znaků uváděných v různých jednotkách. o Př.: VC, tělesná výška, hmotnost u mužů o VC: m = 4,80 l s = 0,66 v. k. = 13,8% o Výška: m = 178 cm s = 4 v. k. =2,2% o Hmotnost: m = 82 kg s = 6 v. k. = 7,3% Využití variačního koeficientu o oNapř.1. skupina 18ti letých dívek – prům. výška 162 cm, směr. odch. je 5,2 cm o 2. skupina 6ti letých dívek – prům. výška je 113 cm, směr. odch. je 4,6 cm o o Využití variačního koeficientu o18. V. K. = 5,2/162 * 100 = 3,21 % o6. V. K. = 4,6/113 * 100 = 4,07 % o Výpočet percentilu oPx = percentil ox = pořadí hledaného percentilu oa = dolní hranice intervalu, v němž je percentil obsažen oh = délka intervalu onx = absolutní četnost intervalu, v němž je percentil obsažen on = celkový rozsah souboru ork = relativní kumulativní četnost předcházejícího intervalu ( v %) img219.jpg Percentilové růstové grafy oAuxologie – obor, který se komplexně zabývá růstem a vývojem člověka. o - umožňují pediatrům a rodičům,aby podle návodu připojeného ke grafům průběžně hodnotili všechna základní růstová data dítěte od narození až do jeho osmnácti let (tělesná výška, tělesná hmotnost, obvod hlavy, obvod paže, …) -Zároveň je grafy seznamují s variabilitou těchto základních antropometrických rozměrů pro každou věkovou skupinu chlapců a dívek současné české populace -Zcela snadno tak lze zjistit, kolik např. měří nejmenší děti (3. -10. percentil), jak vysoké jsou největší děti (90. – 97. percentil) a kolik měří dítě zcela průměrné (50. percentil). Referenční hodnoty jsou z roku 1991. Děkuji za pozornost C:\WINWORD\CLIPART\CROWD.WMF