Statistika v sociálním lékařství o7. seminář C:\WINWORD\CLIPART\CROWD.WMF STATISTIKA – definice ověda studující hromadné jevy ojev – výsledek pokusu n. pozorování ověda, jejímž předmětem jsou výsledky HROMADNÝCH POZOROVÁNÍ → jejich sběr, analýza + využití pro rozhodování a předpovědi oHromadné jevy, kt.nelze před provedením pokusu n.pozorování zcela přesně předvídat → HROMADNÉ NÁHODNÉ JEVY o oPozn.: NÁHODY nelze vyloučit, ale lze je studovat exaktními metodami teorie pravděpodobnosti o STATISTIKA oTěžiště stat.metod spočívá v o oracionálním přístupu k řešení problému oplánování výzkumu osprávné interpretaci a objektivizaci závěrů o o Myšlení musí předcházet počítání !!! o o Základem statistiky je teorie pravděpodobnosti. o Role STATISTIKY v medicíně ovyužití na úrovni: Øpopulační – úroveň a vývoj zdrav.situace;, odhad a hodnocení přínosu zdravotnických programů, důležitý nástroj při šetřeních zdrav.stavu populace a jeho determinant Øindividuální – stanovení správné diagnózy (mnoho kvalitat.+kvantitat.údajů) + odhad prognózy Ømedicínský výzkum – ze stat. vychází moderní epidemiologické metody (příprava, realizace, interpretace i využití výsledků) o o Role STATISTIKY v medicíně o Medicína má pravděpodobnostní povahu → lidé jsou odlišní, podkladem medicínských rozhodnutí jsou biologické variabilní znaky – proto výsledky nelze předpovědět, vždy provázeny nejistotou (variabilita dat je důsledkem působení velkého počtu drobných náhodných vlivů) oStatistické metody – studium a měření variability a zvládat nejistotu- odhad míry nejistoty pomocí teorie pravděpodobnosti a tak závěry( tj. induktivní úsudky) objektivizovat oProto je výuka statistiky obsahem osnov všech lékařských fakult !!! Výuka statistiky na LF oVšude v Evropě, pregraduálně i postgraduálně (omezený časový prostor, stručná skripta) oÚvod do statistického myšlení, rozvoj logického a kritického myšlení, nejen vlastní technická stránka zpracování výsledků oMyšlení musí předcházet počítání! oPřínos pro všechny budoucí lékaře (nejen vědecké pracovníky) – schopnost pochopit a využít poznatky odborné literatury, jejich kritické zhodnocení, schopnost odlišit mezi domněnkou a validní, věrohodnou informací Pohled do minulosti…. oA. Bradford Hill – Principles of Medical Statistics (1937) – učebnice statistiky pro celé generace britských lékařů, základna komunikace mezi lékaři a statistiky oProblém: technická a numerická stránka výpočtu. Jak to vypočítat? oA současnost …výpočetní technika → co vypočítat a jak získané výsledky interpretovat? o - pozitiva: rychle a spolehlivě lze zpracovat objemné soubory dat, náročnější metody o - negativa: neinformovaný uživatel→ nesmysly o Cesta statistiky do medicínského výzkumu byla plná ppřekážek a nesnází Základní statistické pojmy o Od 30. let 20. století rozvoj teorie pravděpodobnosti a induktivní statistiky oZákladní a výběrový soubor -ZS: souhrn prvků (osob, případů nemoci, pokusů), jejichž vlastnosti chceme poznat – konečný n. nekonečný rozsah -VS: vybraná část ZS, kterou budeme skutečně zkoumat (měření, dotazníky, testy) oVyčerpávají (úplné) vs. výběrové (neúplné) šetření -Vyčerpávající – sledujeme všechny prvky ZS (př.sčítání lidu,PN..) -Výběrové – vyšetříme pouze vybranou část ZS tzv. výběr o Výběr a ZS spojuje tzv. statistická indukce – zobecnění výsledků z výběru na celý ZS (usuzujeme-li induktivně z vlastností stat. jednotek VS na vlastnosti všech stat. jednotek ZS) oObjektivizujeme induktivní závěry pomocí teorie pravděpodobnosti.(odhad míry nejistoty) Náhodný výběr - typy výběrů (náhodnost výběru je podmínkou správnosti statistické indukce). opodmínka reprezentativnosti (správnost induktivních závěrů závisí na tom, jak dobře reprezentuje výběr celý základní soubor) oZa náhodný považujeme výběr získaný postupem, který zaručuje, že každý prvek ZS má na začátku výběru stejnou pravděpodobnost, že bude vybrán. 1.Prostý náhodný výběr – losováním nebo pomocí tabulek 2.Náhodný výběr mechanický (systematický) – např. počáteční písmeno příjmení 3.Náhodný výběr oblastní (stratifikovaný) – rozdělení do oblastí, strat 4.Párový výběr (mačování) – např. k osobám s jistou vlastností (nemocí) osoby se stejnou vlastností a bez nemoci oPozn.: reprezentativnost může být porušena i při sběru dat, např. Øneúplné chybějící údaje Ønevhodně zvolené otázky Ønejednoznačnost odpovědi atd. o Statistické šetření oEtapy statistického šetření 1.Plán šetření ( předurčuje všechny ostatní etapy a použitelnost výsledků v praxi) 2.Sběr dat 3.Popis a technické zpracování (deskriptivní statistika) 4.Rozbor, závěry a interpretace (induktivní statistika) oJ. W. Goethe: „Kdo splete první knoflík, ten se už pořádně nezapne“ o Co nás čeká…. o Deskriptivní statistika – popis a technické zpracování dat ( třídění, tabulky a grafy, statistické ukazatele) o Induktivní statistika 1. Odhady parametrů ZS z výběrových charakteristik 2. Testování statistických hypotéz 3. Hodnocení závislostí – kvantitativních a kvalitativních veličin Popis statistického souboru (deskriptivní statistika) o Základní metody deskriptivní statistiky (popis souboru): oVýznam DS není v pouhém popisu, ale je to nezbytné východisko k usuzování z výběru na základní soubor (tj. indukci). 1.Třídění o cíl: uspořádat + zpřehlednit velký soubor dat 2.Prezentace dat o tabulky + grafy o cíl: znázornit rozložení četností sledovaných znaků 3.Statistické charakteristiky (ukazatele) o cíl: charakterizovat sledované znaky pomocí výstižných ukazatelů Deskriptivní statistika - typy veličin ( způsob popisu i třídění závisí na typu veličin) oKVALITATIVNÍ (kategoriální) – slovní určení, nelze měřit číselně, lze pouze klasifikovat do různých kategorií (pohlaví, věk, …) 1.Nominální – lze vyjádřit pouze slovně, nelze seřadit o a) alternativní – existují pouze 2 varianty (kuřák x nekuřák, muž x žena, …) o b) množné – existují > 2 varianty (diagnózy, barva vlasů, …) 2.Ordinální – lze je seřadit dle nějaké míry (ZŠ – SŠ – VŠ, silný – slabý kuřák – nekuřák) oKVANTITATIVNÍ – lze vyjádřit pouze číselně (jejich obměny charakterizovány polohou na číselné ose) 1.Diskrétní (nespojité)– nabývají oddělených hodnot,vyjádřeny celými čísly (počet cigaret, počet onemocnění) 2.Spojité – jejich hodnoty na sebe plynule navazují, desetinná čísla (výška, hmotnost, …) o v praxi lze spojité znaky převést na diskrétní o o Statistické třídění oRozdělení souboru dat do skupin (tříd, kategorií, intervalů) podle předem určených třídících znaků → základem třídění je vymezení skupin oPodle počtu třídících znaků o - tř. jednostupňové ( → jednoduchá tabulka) o - tř. vícestupňové (kombinační) (→ kombinační tabulka) oProduktem třídění je tabulka rozdělení (rozložení) četností o Statistické třídění o oKvalitativní veličiny – třídy vytvořeny již před sběrem dat o např.: pohlaví: muž, žena o vzdělání: ZŠ, SŠ,VŠ o kuřák: ano, ne o Statistické třídění o Kvantitativní veličiny o a) diskrétní (malý počet obměn) viz kvalit. veličiny - př. počet dětí v rodině, počet vykouřených cigaret o o b) spojité – nejjednodušší je seřazení hodnot dle velikosti (↑přehlednost, chyby) o - při větším počtu obměn: redukce dat (shrnutí do tříd, některé hodnoty spojujeme) – př. měření TK → mizí rozdíl mezi sp. a dis. veličinami, ztráta informací(citlivě!), ale usnadnění prezentace o oTříděním zjišťujeme zastoupení jednotlivých tříd (četnosti) – absolutní, relativní, kumulativní Třídění oa) Třídění jednostupňové – rozdělení souboru podle kuřáckých návyků ob) Třídění dvoustupňové – rozdělení souboru podle kuřáckých návyků a vzdělání oc) Třídění třístupňové – rozdělení souboru podle kuřáckých návyků, vzdělání a pohlaví c oa o o o o ob o CELKEM Nekuřák 389 Slabý kuřák 274 Silný kuřák 261 CELKEM 924 ZŠ SŠ VŠ CELKEM Nekuřák 269 74 46 389 Slabý kuřák 213 44 17 274 Silný kuřák 197 50 14 261 CELKEM 679 168 77 924 MUŽI ZŠ SŠ VŠ CELKEM Nekuřák 130 39 27 196 Slabý kuřák 110 24 8 142 Silný kuřák 140 32 8 180 CELKEM 380 95 43 518 ŽENY ZŠ SŠ VŠ CELKEM Nekuřák 139 35 19 193 Slabý kuřák 103 20 9 132 Silný kuřák 57 18 6 81 CELKEM 299 73 34 406 Statistické třídění oObecná pravidla oZvolené intervaly musí pokrývat celou škálu naměřených hodnot oStředy intervalů – okrouhlá čísla oHorní hranice předcházejícího intervalu musí být < než dolní hranice intervalu následujícího oPočet intervalů - obvykle 10 - 15 Statistické třídění – postup oVariační šíře /R/ = xmax - xmin oR se vydělí požadovaným počtem intervalů, zaokrouhlení → délka intervalu (stejně dlouhé, ale i nestejné délky) oStředy intervalů (okrouhlá čísla) oHranice intervalů – dolní hranice 1.intervalu je menší než xmin , horní hr. posledního intervalu je větší než xmax oTřídní /intervalová/ četnost – zastoupení o jednotlivých tříd (četnosti) – absol., relat., kumulativní Jak zvolit intervaly? 1. Počet intervalů (tříd) 2. Délka intervalů 3. Hranice intervalů 4. oV úvahu se bere: o počet dat (velikost souboru) o přesnost měření o výzkumný cíl Statistické třídění o o Tříděním zjišťujeme zastoupení jednotlivých tříd (četnosti) o oAbsolutní četnost – kolik z naměřených hodnot spadá do jednotlivých intervalů oKumulativní četnost – součet všech předchozích intervalů o 15 mužů (6 +9) má VC < 3,8 oRelativní četnost - % z celkového počtu měření o četnost 6 ……. 3% z 200 oKumulativní četnost – obdoba kumulativní četnosti v % o oGrafy – tvar rozložení Příklad: Navrhněte třídění VKP pro 200 zdravých mužů ve věku 40 – 50 let 1.Variační šíře (rozpětí) –od největší naměřené hodnoty odečteme nejmenší o 6,59 – 3,08 = 3,51 2.Stanovení počtu intervalů – závisí na mnoha faktorech (velikost souboru, podrobnost,…) 3.Délka intervalu – rozpětí/ počet intervalů o 3,51/10 = 0,351 délka 1 intervalu o pravidlo: a) okrouhlé číslo o b) ne víc deset. míst než měřená veličina o zaokrouhlit na 0,40 4.Hranice intervalu – počátek – od nejmenšího čísla 3,08 tj. 3,00 o ( otevřené v.s. uzavřené intervaly) o 1. interval 3,00 – 3,39 nebo <3,00 – 3,4) o 2. interval 3,40 – 3,79 <3,4 – 3,8) Tabulka: Vitální kapacita plic o Obrázek2.jpg Obrázek1.jpg Deskriptivní statistika – tabulky a grafy oTABULKY – výsledky třídění zapisujeme do tabulek rozdělení četností( vodorovné řádky- legenda, svislé sloupce- hlavička). Zásady – skr. str. 10 oGRAFY – jaké je rozložení sledované veličiny? (symetrické x asymetrické, jednovrcholové x vícevrcholové, U n. J rozložení..) o - výběr vhodného ukazatele pro popis souboru Stupnici grafu volíme tak, aby celá plocha grafu byla rovnoměrně zaplněna. Grafy - kvalitativní veličiny oSloupcový graf (sloupce oddělené mezerou) o o o oVýsečový graf (struktura) o o o oKartogram (regionální srovnání) php-bar-graph-3d-multi.gif O6210063.gif graf57.jpg kpie.gif kart_1_72.gif vsv_3d.jpg Grafy oBodový graf - východisko studia závislosti kvantitativních veličin – informace o typu, směru a síle závislosti oK prezentaci výsledků statistického třídění (kvant.veličin) se obvykle používají – o - sloupcový graf o - histogram o - polygon četnosti o(tj. grafy znázorňující rozdělení četností –skr. str.10-11)) Kvantitativní veličiny oSloupcový graf (plošný graf) o o oHistogram (pouze obrysy sloupců) o (spojnicový g.) o o oPolygon četností (středy sloupců se spojí křivkou) o (spojnicový g.) Snímek 001.jpg Snímek 005.jpg Snímek 003.jpg Grafy znázorňující frekvenci rozložení veličiny o o o o o o o o oosa X : naměřené hodnoty sledování veličiny oosa Y : četnost (abs. nebo v %) intervalů o oTvar rozložení četností: -Symetrické x asymetrické -Jednovrcholové x vícevrcholové -Podoba s teoretickými modely rozložení četností Snímek 001.jpg Snímek 005.jpg Snímek 003.jpg Statistické charakteristiky (ukazatele) oKvalitativní veličiny - relativní ukazatele – viz RS oKvantitativní veličiny o 1/ ukazatele polohy (střední hodnoty) - aritmetický průměr o - medián o - modus o - kvantil, percentil o o 2/ukazatele variability - rozpětí o - rozptyl – směrodatná odchylka – variační koeficient o - kvantily, percentily (nejméně dva) o (šikmost, špičatost) o oVolba ukazatele: 1.Tvar (typ)rozložení (symetrické X asymetrické) 2.Typ sledovaného znaku o o Statistické charakteristiky o Ukazatelé polohy i variability charakterizují rozdělení NV jak ve výběru (výběrové charakteristiky), tak v celém základním souboru( parametry). oVýběrové charakteristiky – náhodné veličiny, jejichž hodnotu počítáme z dat výběrového souboru. Jejich hodnota se mění náhodně výběr od výběru. oParametry základního souboru- pro daný ZS pevná čísla(neměnné konstanty), jejichž hodnotu neznáme Ukazatele polohy (střední hodnoty) o o Většina hodnot, kterých mohou NV nabývat , se kupí kolem nějakého pevného bodu, zpravidla kolem středu rozdělení četností. Tento bod charakterizuje polohu souboru na číselné ose a ukazatele vystihující tuto vlastnost se nazývají ukazatele polohy (střední hodnoty) . Ukazatele polohy (střední hodnoty) oAritmetický průměr(m) – součet pozorovaných hodnot dělený počtem sledovaných jednotek oMedián(me) – hodnota prostředního člena souboru, kt. je uspořádán podle velikosti (u sudého počtu – průměr ze dvou prostředních hodnot ), dělí soubor dat uspořádaný dle velikosti na dvě stejné části . Pořadová charakteristika oModus (mo) – hodnota nejčastější, pro daný soubor nejvíce typická, leží v modálním intervalu, lze i grafickou metodou oKvantily (obecný název)- pořadové charakteristiky, dělící soubor dat na části o stanovené velikosti( tj. kvanta).Percentily( kvanta uvedená v %), Percentil Px – x pořadí percentilu, percentily dělí soubor uspořádaný dle velikosti na části obsahující 1% celk. počtu stat. jednotek.Decily o Medián = 5.decil a 50. percentil o aritmetický průměr nemá smysl počítat u asymetrických rozložení (náchylný k extrémním hodnotám) Rozložení hodnot oSymetrické/asymetrické rozložení hodnot Obrázek4.jpg Obrázek5.jpg Př.: distribuce mezd zaměstnanců 2006 oObr. Obrázek3.jpg Ukazatele variability oDalší typická vlastnost NH je jejich měnlivost( tj. variabilita)- hodnoty NV kolísají v určitém rozmezí kolem o středních hodnot. o Ukazatelé kvantifikující míru tohoto o kolísání ( rozptýlení) se nazývají ukazatelé variability. oNejběžněji užívané ukazatele variability: 1.Variační šíře(rozpětí) 2.Rozptyl 3.Směrodatná odchylka 4.Variační koeficient Ukazatele variability oProč nestačí ukazatele střední hodnoty o k výstižnému popisu souboru dat? o oPř.: Počet onemocnění u 2 skupin pěti kojenců v 1. roce života 1.skupina: 3, 4, 5, 6, 7 m=5 2.skupina: 0, 4, 5, 6, 10 m=5 o obě skupiny mají stejný aritmetický průměr, ale liší se kolísáním hodnot – VARIABILITOU o oSpolu se střední hodnotou by se měl uvádět ukazatel variability oPrůměr: rozpětí, rozptyl, směrodatná odchylka,variační koeficient oModus, medián: percentily Ukazatele variability oVariční rozpětí (šíře): R = Xmax. – Xmin. Pro N menší a rovno 10 oRozptyl : průměr čtverců odchylek jednotlivých pozorování od aritmetického průměru o oS² o o o oSměrodatná odchylka: odmocnina z rozptylu o o oS o o- ukazatel variability udávaný ve stejných jednotkách jako měřená veličina -vypovídá o tom, o kolik se většina hodnot sledovaného znaku odchyluje od průměru Obrázek6.jpg Obrázek7.jpg Ukazatele variability oVariační koeficient - relativní ukazatel variability , bezrozměrná veličina o o o o o - podíl směrodatné odchylky a průměru o oVyužití v.k. 1/ srovnání variability dvou či více souborů se značně odlišnými průměry o 2/ srovnání variability znaků uváděných v různých měrných jednotkách Obrázek8.jpg Směrodatná odchylka (standardní odchylka) ovýznamná v induktivní statistice, jako výběrová charakteristika je východiskem pro odhad směr.odch. ZS oCennou vlastností sm.odch.je její schopnost vymezit hranice, ve kterých se nachází určité množství stat. jednotek → cca platí (za předpokladu normálního rozdělení výběrového souboru), že Směrodatná odchylka o v intervalu m ± s leží 68 % údajů o o v intervalu m ± 2s leží 95 % údajů o o v intervalu m ± 3s leží 99,7% údajů o oLze určit interval pro libovolně zvolený násobek směrodatné odchylky. Ukazatele variability pro asymetrická rozložení četností o- Variabilitu vyjadřujeme pomocí dvou kvantilů – percentilů, decilů, Kvantily – pořadové ukazatele, které dělí soubor uspořádaný dle velikosti na části o stanovené velikosti (kvanta). o Ve zdravotnické statistice – percentily (kvanta v procentech) -Variabilita = určení intervalu, ve kterém se pohybuje 80% (P10 – P90 ), případně 50% (P25 - P75 ) pozorování.). oPostup: 1.Určíme hodnotu pozorování, které představuje 10. percentil = dolní hranice intervalu 2.Určíme hodnotu pozorování, které představuje 90. percentil = horní hranice intervalu Obrázek9.jpg Percentilové růstové grafy oAuxologie – obor, který se komplexně zabývá růstem a vývojem člověka. o- umožňují pediatrům a rodičům,aby podle návodu připojeného ke grafům průběžně hodnotili všechna základní růstová data dítěte od narození až do jeho osmnácti let (tělesná výška, tělesná hmotnost, obvod hlavy, obvod paže, …) -Zároveň je grafy seznamují s variabilitou těchto základních antropometrických rozměrů pro každou věkovou skupinu chlapců a dívek současné české populace -Zcela snadno tak lze zjistit, kolik např. měří nejmenší děti (3. -10. percentil), jak vysoké jsou největší děti (90. – 97. percentil) a kolik měří dítě zcela průměrné (50. percentil). Auxo – řecky rostu Jaké charakteristiky použít? /dle typu rozložení/ oSymetrická rozložení o - průměr o - směrodatná odchylka oAsymetrická rozdělení o - modus, medián, 2 percentily o (např. P10 P25 me P75 P90) o Transformace(např. logaritmická) – převede nesymetr. rozdělení na symetr., pak lze použít m a s Úkol: o Máme soubor 200 hodnot VCP, které jsme naměřili ve výběru 200 mužů (40-50 let)… o n = 200, m = 4,824, s = 0,668 o Stanovte (pomocí směr.odchylky a průměru) hranice - tj. intervaly, ve kterých se nachází o 68 %, 95% a téměř 100 % naměřených hodnot VCP. (na 2 desetinná místa) Které percentily odpovídají jednonásobku a dvojnásobku směrodatné odchylky ? (tj.intervaly m±s a m±2s vyjádřete pomocí percentilů.) Úkol: