Epi Info - jeho popis a praktický význam Petr Kachlík Brno, 2020 Co je Epi Info • zdarma získatelný a pro nekomerční účely použitelný softwarový balík typu „public domain“ (https://www.cdc.gov/epiinfo/support/downloads. html) • je určený především pro odborníky i další zájemce v oblasti veřejného zdravotnictví • Epi Info je obchodní značkou (TM) CDC (Centers for Disease Control and Prevention), Atlanta, Georgia, USA • software, dokumentace a výukové materiály jsou ale veřejným vlastnictvím a lze je bez omezení kopírovat, distribuovat a překládat Z čeho se Epi Info skládá a co umí • sběr, záznam, zpracování a prezentace dat • modulární systém • spolupráce s databázemi, tabulkovými procesory a webovými prohlížeči • program výživy a antropometrie • příprava formulářů, kontrola dat na vstupu, jejich ochrana, komprese a kódování • výuková cvičení Z čeho se Epi Info skládá a co umí • 5 základních modulů: Make View (tvorba dotazníků), Enter (vkládání dat), Analysis (statistická analýza), Epi Map (prezentace údajů v geografických souvislostech), Epi Report (generování výstupů) • v současnosti je třeba k instalaci alespoň Win XP SP3, kolem 300 MB volného místa na HDD, alespoň 128 MB RAM, takt CPU minimálně 300 MHz • starší verze běžely pod MS-DOS, Win 9x, NT, 2k…, v. 6 byla lokalizovaná do Cz vč. helpu Epi Info Museum 1 • 1976: minipočítače se začínají prosazovat ve veřejném zdravotnictví v US, epidemiologie prasečí chřipky (sw SOCRATES, lg. FORTRAN) • 1978-84: Epidemiologic Analysis System (EAS), lg. BASIC, Georgia • 1978-84: sdružení epidemiologů, sestavení počítačové pracovní skupiny • 1984: počátek systémového vývoje epidemiologického sw EPI-AID pro terénní praxi a výzkum Epi Info Museum 1 Epi Info Museum 2 • 1986: Epi Info verze 1, běželo pod DOSem • distribuován 27stránkový manuál k programu a 5 1/4palcová (!) disketa • Programs for Automatic File Definition, Data Entry and Tabulation = Epi Info • sw zvládal sestavování dotazníků, sběr a analýzu dat, stal se rychle populárním Epi Info Museum 2 Epi Info Museum 3 • 1987: Epi Info verze 2 • vázaný 112stránkový manuál, menu, modulární struktura • tvorba dotazníku (EPED), práce s daty (ENTER, ANALYSIS), epi kalkulátor (STATCALC), grafika histogramy (EPICURVE), práce se soubory (MERGE, IMPORT, CONVERT), základní statistické výstupy • 1988: Epi Info verze 3 • 150stránkový manuál, vylepšená statistika a grafické výstupy Epi Info Museum 3 Epi Info Museum 4 • 1988: Epi Info verze 4, mnoho nových funkcí, ale též řada chyb, spolupráce CDC a WHO • vytvořen základ pro verzi 5 Epi Info Museum 5 • 1990: Epi Info verze 5 • 384stránkový manuál, kódování proměnných, regresní funkce, inovace grafiky, generátor zpráv, nutriční antropometrie • první mezinárodní distribuce, dovolovala evropský formát data a národní abecedy • zdrojové kódy byly přeloženy do francouzštiny, španělštiny, čínštiny, arabštiny a ruštiny • 1992: Epi Map verze 1 a 2, ovládané myší Epi Info Museum 5 Epi Info Museum 6 • 1992: Epi Info verze 6 • 600stránkový manuál, vylepšená statistika, grafika, rozsáhlejší příklady, programovatelné menu, generování epidemiologických hlášení • verzi 6 užívala i WHO a lokálně výzkumníci mnoha zemí světa, položen základ Win verze • 1993: konference Microcomputers and the Future of Epidemiology, Atlanta • 1994: Epi Info distribuováno již on-line, hotline, manuály v řadě jazyků včetně češtiny (!) Epi Info Museum 6 • 1996: diskusní skupina na netu, další překlady sw a manuálu (celkem do 14 jazyků) • 1997: ověřování sw a zpětná vazba od uživatelů, 150 000 kopií ve 117 zemích, 1 207 citací, 52 síťových zdrojů Epi Info nabízelo ke stažení • 1998: příprava kompatibility s „y2k“, a to i zpětně (starší datové soubory) – v. 6.04b, c • 2001: v 6.04d - rekompilace programu po úpravě zdrojového kódu v lg. TURBO PASCAL, řešila přechod na moderní CPU architekturu PC, typická distribuce na 3 FDD 3,5 palce, 1,44 MB Epi Info Museum 6 Epi Info Museum 6 Epi Info Museum 7 • 1998: vznik týmu pro vývoj Epi Info 2000 • 1999: vydána beta verze Epi Info 2000 pro Win 95, 98 a NT, výstup ANALYSIS ve formátu html • snadnější tvorba formulářů s dotazníky, manipulace s databázemi, statistikou, vylepšené grafické prezentace • zpětná vazba, sdílení dat po internetu Epi Info Museum 7 Epi Info: současnost a budoucnost • 2000-2016: nové verze 3.5.x pro OS Windows vč. XP a 7, později W8-10 • v současnosti aktuální Epi Info verze 7.2 (2020) • vázne lokalizace do Cz, u EI 3.5.x existuje však Sk verze • rychlé a účinné sdílení informací • k dispozici portable versions (mobily, tablety, notebooky), web a cloud version • snadný přístup k odborným zdrojům přeloženým do hlavních světových jazyků Epi Info: současnost a budoucnost • vývoj metod pro přístup a analýzu dat pocházejících z klinických zdrojů s výstupy do veřejného zdravotnictví • komunikace s domácnostmi (uživateli, respondenty) pomocí adresných služeb (videokonference, IT) • zadávání dat z terénu pomocí hlasového vstupu • adaptace sw pro nové operační systémy • ... Epi Info 3.5.1 Seznámení s programovým balíkem Epi Info: úvodní obrazovka • základní přehled a rychlá nabídka podprogramů • pro verzi 3.5.1 existuje oficiální částečná lokalizace do slovenštiny, čeština bohužel chybí • položky Zadat data, Náhled, Analýza dat, Výstup, Mapy, Hlášení, Web • z menu Výživa navíc přístup k nutriční epidemiologii Epi Info: práce s daty • data lze: načítat, importovat, propojit, ukládat, exportovat, slučovat, editovat • proměnné lze: definovat, zobrazit, přiřadit, překódovat • lze vybrat data dle různých požadavků na jejich třídění • základní statistika: seznam proměnných, tabulky absolutních a relativních četností, testování (ANOVA, x2), grafy, kartogramy Epi Info: práce s daty 2 • pokročilá statistika: regresní analýza, analýza přežití,… • výstupy: nastavení záhlaví, typu výstupu, tisku a ukládání souborů • uživatelské programy a příkazy, makra • interakce s uživatelem a nastavení prostředí (jazyk, pracovní adresář, typ a verze databáze…) Epi Info: práce s daty 3 • porovnávání dat: výpis odlišných záznamů a odlišných proměnných včetně konkrétního rozdílu • EpiLock: zaheslování a dekódování dat, archivace • EpiInfo Help: standardní nápověda včetně rejstříku, vyhledávání klíčových slov a slovníku výrazů Epi Info: pomocné programy • StatCalc: čtyř- a vícepolní tabulky po test dobré shody (x2 test) • výpočet velikosti vzorku Epi Info: StatCalc Epi Info: StatCalc Epi Info: StatCalc Epi Info: StatCalc Epi Info: co je co (typy dat) • data nominální: kvalitativní či kategoriální, neexistuje u nich velikost (např. pohlaví, rodinný stav, krevní skupina, DNA sekvence), dichotomická (alternativní): jen možnosti ANO/NE, diskrétní • data ordinální: lze je uspořádat a určit, která hodnota je „vyšší“a která „nižší“, nelze ale posoudit vzdálenost jednotlivých hodnot či kategorií (např. nejvyšší dosažené vzdělání), diskrétní • data intervalová: lze je třídit a určovat i vzdálenosti mezi hodnotami (např. teplota tělesa), nezahrnují však vzájemný poměr hodnot, spojitá • data poměrová: mimo jiné jsou vymezeny i poměry jednotlivých hodnot (obvykle základní fyzikální veličiny, u nichž je jasně definovaná nula), spojitá • spojitá data lze převádět na diskrétní pomocí vytvoření kategorií Epi Info: co je co (poloha) • aritmetický průměr: součet členů souboru dělený jejich počtem, nevýhodou jsou extrémy (např. průměrné známky, platy) • vážený průměr: absolutní četnosti vyjádříme jako relativní, jako podíly z celkového počtu; součet relativních četností (vah) v souboru je roven 1 • geometrický průměr: všechny hodnoty (n) se vzájemně vynásobí, ze součinu se vypočte n-tá odmocnina; užívá se zejména v ekonomii • medián: přesný střed hodnot seřazených podle velikosti • modus: hodnota s nejvyšší třídní četností Epi Info: co je co (variabilita) • zjišťuje se, jak se vzájemně liší jednotlivé prvky statistického souboru • variační rozpětí: rozdíl mezi maximem a minimem; je citlivé na extrémy • mezikvartilové rozpětí: rozdíl mezi horním (0,75) a dolním (0,25) kvartilem; není citlivé na extrémy • rozptyl: disperse hodnot souboru kolem střední hodnoty základního souboru • směrodatná odchylka: druhá odmocnina z rozptylu, má stejné jednotky jako sledovaná veličina • variační koeficient (%): používá se při hodnocení znaků majících odlišné jednotky nebo lišících se mírou polohy, jde o relativní variabilitu vztaženou k průměru Epi Info: StatCalc, co je co (prevalence) • udává podíl obyvatel, kteří mají (nebo měli) určitý znak v dané lokalitě v daném časovém období • v medicíně jde typicky o stav, chorobu nebo rizikový faktor (deprese, kouření,…) • zjišťujeme ji v prevalenčních (průřezových) studiích • intervalová prevalence: v celém průběhu sledovaného období • bodová prevalence: vztažená k určitému datu Epi Info: StatCalc, co je co (incidence) • poměr nově vzniklých onemocnění (v určitém časovém rozmezí) k celkovém počtu osob ve sledované skupině • kumulativní incidence: poměr počtu osob, které onemocní ve sledovaném období, k celkovému počtu osob zahrnutých do studie • udává se přepočtena na určitý počet osob a délku sledování, v úvahu je brána pouze populace riziková pro příslušné onemocnění; nabývá hodnot od 0 do 1 • incidence rate: rychlost, s jakou se ve sledované populaci vyskytují dané zdravotní jevy; uvádí se jako počet případů za jednotku osobočasu (např. 0,20 případů na osoborok znamená, že se daný jev vyskytne u 1 osoby v průměru jednou za 5 let); nabývá hodnot od 0 do nekonečna Epi Info: StatCalc, co je co (RR) • relativní riziko (RR): ukazatel vystihující vztah mezi expozicí rizikovému faktoru a zdravotním následkem • RR=1: daný faktor NEMÁ na vznik onemocnění vliv • RR>1: expozice je RIZIKOVÝM faktorem • RR<1: expozice je PROTEKTIVNÍM faktorem • RR je vyjádřeno poměrem incidencí v exponovaném a neexponovaném souboru Epi Info: StatCalc, co je co (AR) • absolutní riziko (AR): pozorovaná nebo vypočítaná pravděpodobnost výskytu daného onemocnění ve studované populaci Epi Info: StatCalc, co je co (CI) • interval spolehlivosti, konfidenční interval (CI): intervalový odhad k získání představy o relativní četnosti a průměru základního souboru • šířkou CI lze posuzovat náhodnou výběrovou chybu; čím užší CI, tím více se blíží hodnotám základního souboru • hodnoty konfidenční hladiny rovny 0,9; 0,95; 0,99; 0,995 • pro 95% CI odpovídá hodnota 1,96 a pro 99% CI 2,58 • hodnota 95% nebo 99% znamená, že průměr leží uvnitř tohoto intervalu s pravděpodobností 95 % nebo 99 % • CI pokrývá hodnotu známého průměru s danou spolehlivostí • 99% CI znamená, že se ve 100 náhodných výběrech objeví daná charakteristika právě 99krát Epi Info: StatCalc, co je co (ODDS) • poměr šancí, ODDS ratio, OR: používá se u studie případů a kontrol, kde nelze aplikovat relativní riziko, poněvadž není k dispozici kumulativní incidence, ale můžeme kvantifikovat pravděpodobnost expozice případů a kontrol • OR=a*d/b*c (políčka čtyřpolní tabulky) • a=pozitivní výskyt sledované události v experimentální skupině, b=pozitivní výskyt sledované události v kontrolní skupině, c=negativní výskyt sledované události v experimentální skupině, d=negativní výskyt sledované události v kontrolní skupině • OR=1: ŽÁDNÝ korelát mezi rizikovým faktorem a onemocněním • OR>1: pozitivní souvislost, RIZIKOVÝ faktor • OR<1: PROTEKTIVNÍ faktor Epi Info: StatCalc, co je co (kontingenční tabulka) • užívá se k vizualizaci vztahu dvou statistických znaků a testování vztahů mezi nimi • v řádcích tabulky jsou hodnoty prvního znaku, ve sloupcích hodnoty druhého znaku • nezávislost: znaky se navzájem neovlivňují v tom, jakých konkrétních hodnot nabývají • homogenita: očekávané četnosti v políčcích každého řádku jsou ve vzájemném poměru bez ohledu na konkrétní volbu řádku • ověřuje test dobré shody (x2 test) Epi Info: StatCalc, co je co (x2 test) • nulová hypotéza: rozložení znaků se navzájem neovlivňuje • alternativní hypotéza: rozložení znaků se vzájemně ovlivňuje • v políčkách čtyřpolní tabulky četnosti větší než 5, jinak x2 není korektní, použijeme např. Fisher exact test • chyba prvního druha (alfa): zamítáme nulovou hypotézu, když platí (hladina významnosti) • chyba druhého druhu (beta): přijímáme nulovou hypotéz, když neplatí • při testování si předem zvolíme úroveň chyby (alfa), tj. hladinu významnosti (v medicíně obvykle 0,1 %, 1 % a 5 %) Epi Info: co je co (korelace) • vzájemný vztah mezi dvěma procesy či veličinami • na základě korelace ještě nelze rozhodnout, co je příčinou a co následkem (korelace neimplikuje kauzalitu) • určuje lineární vztah mezi znaky, její míru vyjadřuje korelační koeficient, který nabývá hodnot od -1 do +1 • -1: nepřímá závislost, +1: přímá závislost, 0: nezávislost, ale pozor: i při koeficientu 0 může existovat závislost, jen ji nelze popsat lineární fcí ! Epi Info: co je co (regrese) • metody, které umožňují odhadovat hodnotu veličiny závisle proměnné (vysvětlované či cílové proměnné, regresanda) na základě znalosti jiných veličin (vysvětlujících či nezávislých proměnných, regresorů či kovariát) – např. odhad počasí přes den na základě znalosti jeho předpovědi a momentálního stavu ráno • je-li závisle proměnná skalár nebo vektor (např. délka dožití v letech), jde o tzv. lineární regresi x nelineární regrese-neuronové sítě • je-li závisle proměnná diskrétní, jde o tzv. diskriminační analýzu (kategorie, třídy bez možnosti určit střední hodnotu) – např. předpověď koupě typu nápoje na základě věku a pohlaví zákazníka