Biostatistika iarkovsky@iba.muni.cz Přednáška 1 Organizační informace - výukové materiály • Tato prezentace v IS.MUNI + prezentace a příklady ovládání SW Statistica + další souhrnné podklady • www.matematickabiologie.cz/res/file/ucebnice/pavlik-biostatistika.pdf • portál.matematickabiologie.cz/index.php?pg=aplikovana-analvza-klinickych-a-biologickych-dat-biostatistika-pro-matematickou-biologii • Tabulky statistických rozdělení • Libovolná základní učebnice statistiky - např. • https://www.amazon.com/Biostatistical-Analvsis-5th-Jerrold- Zar/dp/0131008463/ref=sr 1 l?ie=UTF8&qid=1505890489&sr=8-l&kevwords=zar+biostatistical+analysis • https://www.amazon.com/Medical-Statistics-Glance-Aviva- Petrie/dp/140518051X/ref=sr 1 sc l?s=books&ie=UTF8&qid=1505890508&sr=l-l-spell&keywords=avive+petria • https://www.amazon.com/Statistics-Veterinarv-Animal-Science- Petrie/dp/0470670754/ref=sr 1 sc 3?s=books&ie=UTF8&qid=1505890522&sr=l-3-spell&kevwords=avive+petria MU čjJb^*i ^vít* -S^^^tr MM (nrt fí^fi í IUII Institut biostatistiky a analýz, PřF a LF MU iba \v>>>' st;i/ Organizační informace - software • Software • Univerzitní licence na inet.muni.cz (stejný login a passwd jako do is.muni.cz) • Statistica - www, statsoft. co m, www.statsoft.cz • SPSS - www.ibm.com/analytics/us/en/technology/spss/ • R - www.r-project.org, www.rstudio.com • Stata - www.stata.com j^tst^ -s*í,BRS\. ■ *M$ -^IfP ^IMI ^ lnstitut biostatistiky a analýz, PřF a LF MU 'OsO* ^iby ^sz&f Statistika ve vědecké praxi Pozice statistické analýzy ve vědě a klinické praxi Význam statistických výstupů l m m ía Anotace • Statistická analýza biologických dat je jedním z nástrojů, s jejichž pomocí se snažíme zjistit odpovědi na naše otázky týkající se pochopení živé přírody. • Jako každý nástroj je i statistickou analýzu nezbytné na jedné straně korektně využívat a na druhou stranu nepřeceňovat její možnosti. • Klíčovým faktem při statistické analýze dat je nahlížení na realitu prostřednictvím vzorku a přijmutí toho, že výsledky naší analýzy jsou jen tak dobré, jak dobrý je náš vzorek. • Reprezentativnost, nezávislost a náhodnost vzorku spolu s jeho velikostí jsou důležité faktory ovlivňující věrohodnost našich závěrů. j^TsT^ ^Í,BRS\. ' *M$ -^IfP ^IMI ^ lnstitut biostatistiky a analýz, PřF a LF MU 'OsO* ^iby ^sz&f Life is beautiful with data analysis ä ^r^. ■ ;?XfX* •' § 1; ^ 1M1 ^ lnstitut biostatistiky a analyz, PrF a LF MU 'QuO* ^£by r~y9iz*f Data jsou základ vědecké práce Data! Data! Data! I can't make bricks without clay! Sir Arthur Conan Doyle rat Základem pro naši práci jsou data Získáváme je z různých zdrojů A musíme s nimy neustále pracovat DIKW pyramid ^^^^ KNOWLEDGE INFORMATION DATA - täb #ŕ Ä iba W Co znamená pro biologa/lékaře statistická analýza dat? • Matematická statistika je vědecká disciplína na pomezí popisné statistiky a aplikované matematiky. Zabývá se teoretickým rozborem a návrhem metod získávání s analýzy empirických dat obsahujících prvek nahodilosti, tedy teorií plánování experimentů, výběrů, statistických odhadů, testování hypotéz a statistických modelů. • Statistika je věda a postup jak rozvíjet lidské znalosti použitím empirických dat. Je založena na matematické statistice, která je větví aplikované matematiky. • Biostatistika = aplikace statistické analýzy dat v biologickém a klinickém výzkumu • Nástroj pro uchopení dat našeho výzkumu • Nezbytné chápat principy a limitace • Není nutná detailní matematická znalost • Easy to understand, hard to master MU čjjb^*i ^vít* -S^^^tr MM (nrt fí^fi í IUII Institut biostatistiky a analýz, PřF a LF MU 'Qsís ^iby ^sz&f Výzkum, realita, statistika Výzkum je naším způsobem porozumění realitě Ale jak přesné a pravdivé je naše porozumění? • Statistika je jedním z nástrojů umožňujícím popis a komunikaci výsledků výzkumu. • Ale je to pouze nástroj, co je skutečně důležité jsou data. s\ v. j^TsT^ ^Í,BRS\. ' *M$ -^IfP ^IMI ^ lnstitut biostatistiky a analýz, PřF a LF MU 'OsO* ^iby ^sz&f Realita a data Klíčovou otázkou výzkumu a následně statistické analýzy je jak dobře naše data popisují realitu Bez kvalitních dat není kvalitní statistiky ani kvalitního výzkumu. Každá chyba učiněná v úvodní fázi výzkumu se v dalších fázích znásobí a zřejmě ji již nebude možné eliminovat ■ŕ*Ä\ /ÍmK A j IUI I Institut biostatistiky a analýz, PřF a LF MU iba W ' W Variabilita jako základní pojem ve statistice • Naše realita je variabilní a statistika je vědou zabývající se variabilitou • Korektní analýza variabilita a její pochopení přináší užitečné informace o naší realitě • V případě deterministického světa by statistická analýza nebyla potřebná Spolehlivost a přesnost měření • Kvalita dat je klíčová pro jakékoliv statistické hodnocení • Bez spolehlivých a přesných dat není možné získat spolehlivé a přesné výsledky statistického hodnocení • Ve statistické analýze dat musíme zohlednit jak střed měření, tak variabilitu a zamyslet se nad přesností popisu reality tm m iiíři iba |U| I Institut biostatistiky a analýz, PřF a LF MU Nespolehlivý, nepřesný Spolehlivý, nepřesný Variabilita a střední hodnota • Norma = 5 gramů soli na 1 kg rýže Nezamícháte Og soli / 1 kg rýže #J - Zamícháte 1 i lOg soli / 1 kg rýže 5g soli / 1 kg rýže m 5g soli / 1 kg rýže m Průměr: 5g soli / 1 kg rýže Vše OK !!! 4 Průměr není vše, je nezbytné zohlednit variabilitu J Průměr: 5g soli / 1 kg rýže Vše OK !!! Institut biostatistiky a analýz, PřF a LF MU Nárůst šumu s detailem Častý požadavek na stále detailnejšia detailnější výstupy vede k nesmyslným a zavádějícím výsledkům. Např. proočkovanost nad 100% obyvatel - zní podezřele, aleje důsledkem nedostatečné přesnosti demografických dat na úrovni malých obcí. Paretovo pravidlo v praxi V reálu sbíraná data obsahují vždy nějaký šum Projeví se zejména při velmi detailním pohledu Odstranění veškerého šumu je velmi časově náročné a v praxi v podstatě neproveditelné z pohledu %/KtporrW +>Hoř iWporfW dostupných kapacit Je třeba si být vědom nedokonalostí dat v detailech. íl m m (Qi iba w w Interpretujeme výsledky správně? Simpson paradox Simpson paradox Typický problém chybné interpretace dat, velmi snadno vzniká pokud nedošlo k pochopení podstaty dat. Je realita skutečně realita? Survivor bias Různé úrovně variability Variabilita opakovaných měření Variabilita dat v populaci Variabilita v modelech Práce s variabilitou v analýze dat • V analýze dat existují tři hlavní přístupy k práci s variabilitou Popisná analýza: popis variability Statistika - definice WWW.WIKIPEDIA.ORG: Statistika je matematickou vědou zabývající se shromážděním, analýzou, interpretací, vysvětlením a prezentací dat. Může být aplikována v širokém spektru vědeckých disciplín od přírodních až po sociální vědy. Statistika je využívána i jako podklad pro rozhodování, kdy nicméně může být záměrně i nevědomky zneužita. Statistika využívá matematické modely reality k zobecnění výsledků experimentů a vzorkování. Statistika funguje korektně pouze pokud jsou splněny předpoklady jejích metod a modelů. j^TsT^ ^Í,BRS\. ' *-^IfP ^(MJ ^ lnstitut biostatistiky a analýz, PřF a LF MU 'Qsís ^iby ^sz&f Nesprávná aplikace modelu -> zkreslené závěry Různé popisné statistiky a testy jsou spjaty s různými modelovými rozděleními Pro správnou interpretaci je třeba ověřit shodu reálných dat s modelem Některé statistiky je možné vždy spočítat, ale jejich interpretace je v případě nedodržení předpokladů pouze omezená Skutečné rozložení dat Průměrný plat 26 985 Kč/měsíc Proložený model normálního rozdělení. Jakákoliv metoda pracující s modelem normálního rozdělení pracuje s daty jako kdyby jejich reálné rozložení odpovídalo červené křivce. 5000 10000 15000 20000 25000 30000 35000 40000 45000 50000 55000 Měsíční plat (Kč) tm m iiíři |U| I Institut biostatistiky a analýz, PřF a LF MU Co může statistika říci o naší realitě? Statistika není schopna činit závěry o jevech neobsazených v našem vzorku. Statistika je nasazena v procesu získání informací z vzorkovaných dat a je podporou v získání naší znalosti a pochopení problému. Statistika není náhradou naší inteligence !!! Co musíme vědět před zahájením studie nebo experimentu? • Cílová populace • Skupina objektů (pacientů, lokalit atd.) na něž je studie zaměřena • Primární hypotézy • Hlavní otázka položená ve studii - odhad velikosti vzorku a design studie je vypracován vzhledem k primární hypotéze (v řadě případů nelze v reálném výzkumu formální power analýzu vypracovat, nicméně zamyšlení nad velikostí vzorku je nezbytné vždy) • Sekundární hypotézy • Vedlejší otázky, na něž by studie měla odpovědět • Výběr adekvátní metodiky • Hypotézy jsou zodpovězeny prostřednictvím konkrétních proměnných (endpointů) - jejich typ (binární, kategoriální, spojité proměnné, biodiverzita, přežití, mortalita atd.) určuje výber způsobu statistického zpracování MU čjJb^*i ^vít* -S^^^tr M_ ŕVIV*! fř^řsl ! Institut biostatistiky a analýz, PřF a LF MU iba w w Cílová populace • Cílová populace - klíčový pojem statistického zpracování • Skupina objektů o nichž se chceme něco dozvědět (např. lokality v daném povodí, laboratorní organismy v daných podmínkách, pacienti s danou diagnózou, všichni lidé nad 60 let, měření hemoglobinu v dané laboratoři) • Musí být definována ještě před zahájením sběru dat • Na cílové populaci probíhá vzorkování dat, které musí cílovou populaci dobře (reprezentativně) charakterizovat Cílová populace Klíčové faktory Design experimentu a vzorkovací plán Vzorkování a analýza dat il m m (Qi iba w w Institut biostatistiky a analýz, PřF a LF MU Statistika a zobecnění výsledků Neznámá cílová populace Vzorek Analýza Díky zobecnění výsledků známe vlastnosti cílové populace Cílem analýzy není pouhý popis a analýza vzorku, ale zobecnění výsledků ze vzorku na jeho cílovou populaci Pokud vzorek nereprezentuje cílovou populaci, vede zobecnění k chybným závěrům ť*rjeSí*' jr^r^ -s*í,BRS\. ryly*! fř^jŘS íliil I Institut biostatistiky a analýz, PřF a LF MU iba -m/ w ^mJ Vzorkování a jeho význam ve statistice Statistika hovoří o realitě prostřednictvím vzorku!!! Statistické předpoklady korektního vzorkování • Representativnost: struktura vzorku musí maximálně reflektovat realitu ^ ^ ^ • Nezávislost: několikanásobné vzorkování téhož objektu nepřináší ze statistického hlediska žádnou novou informaci Náhodnost: zajišťuje náhodný vliv zavádějících faktorů iba I Institut biostatistiky a analýz, PřF a LF MU Velikost vzorku a spolehlivost statistických výstupů • Existuje skutečné rozložení a skutečná střední hodnota měřené proměnné • Z jednoho měření nezjistíme nic ????? • Vzorek určité velikosti poskytuje odhad reálné hodnoty s definovanou spolehlivostí Odhad popisné statistiky • Vzorkování všech existujících objektů poskytne skutečnou hodnotu dané popisné statistiky, nicméně tento přístup je ve většině případech nereálný. j^TsT^ ^Í,BRS\. ' *-^IfP ^(MJ ^ lnstitut biostatistiky a analýz, PřF a LF MU 'OsO* ^iby ^sz&f Různá velikost vzorku - různé úkoly analýzy dat • Náročnost analýzy dat stoupá i s jejich objemem • I u největších dat stále platí, že klíčová je schopnost data prodat = smysluplně interpretovat a prezentovat Přístup biostatistiky • Schopnost: vidět data - komunikovat - interpretovat Experimentální design: nezbytná výbava biologa cílová populace •4............... W I ^ \||/ výběr dle optimálního plánu i reprezentativní vzorek n jedinců (faktor F) měření znaku OO00OOO0O0 4...........................................................» variabilita hodnot ve výběrovém souboru VÝSLEDKY Q. OJ l_ >- en >LU M mmm o-oSii^ v«««.«ř ^»a«* iba I Institut biostatistiky a analýz, PřF a LF MU Účel analýzy: Popisný Reprezentativnost Spolehlivost Přesnost oO ... analyzovaný znak cílové populace (X) ... jiný významný faktor charakterizující cílovou populaci (F) Experimentální design: nezbytná výbava biologa cílová populace <............... v\ / Í7 výběr subjektů pro vstup do hodnocení / studie -Y- RANDOMIZACE nebo existující faktor J rameno A rameno B měření znaku X OooOO 0O0O0 <.........................................*- <....................................... variabilita hodnot X variabilita hodnot X v rameni A v rameni B VÝSLEDKY p*rjZj!\ -S?Í,BRS\, OlyO - gJ^ ^IMI ^ lnstitut biostatistiky a analýz, PřF a LF MU 'Qsís ^iby ^sz&f co x < — 01 o II _ T3 SZ M OJ O M i- QJ CL SZ O 01 TO l/l > O O C í£ "S s l —- > >LU M Účel analýzy: Srovnávací (2 skupiny) Reprezentativnost Srovnatelnost Spolehlivost Přesnost oO ... analyzovaný znak cílové populace (X) ... jiný významný faktor charakterizující cílovou populaci (F) Obecné schéma využití statistické analýzy Experimentálni design Vzorkovaní Uložení a management dat Vizualizace dat Popisná analýza Testování hypotéz Modelování Jak velký vzorek je nezbytný pro statisticky relevantní výsledky? Klíčová stratifikační kritéria cílové populace. Vzorkovací plán zabezpečující náhodnost a reprezentativnost vzorku. Uložení dat ve vhodné formě a jejich vyčištění předcházející vlastní analýze je klíčovým krokem statistické analýzy. Grafická inspekce dat je nezbytným krokem analýzy vzhledem ke schopnosti lidského mozku primárně akceptovat obrazová data. Poskytne vhled do dat, představu o jejich rozložení, vazbách proměnných apod. Popisná analýza umožňuje vyhodnotit srovnáním s existující literaturou realističnost naměřených rozsahů dat. Testování vazeb mezi různými proměnnými s cílem navzájem vysvětlit jejich variabilitu a tím přispět k pochopení řešeného problému. Možným vyvrcholením analýzy je využití získaných znalostí a pochopení problému k vytvoření prediktivních modelů. j^Tst^ -s*í,BRS\. ■ *-^IfP ^(MJ ^ lnstitut biostatistiky a analýz, PřF a LF MU iba st;i/ Stochastické modelování: predikce neurčitých jevů • Prospektivně - modelově - postihuje chování jevů při respektování variability Pravděpodobnostní vztahy Anamnéza x Výsledek vyšetření pacienta Karcinom Benigní léie Benigní riziková Zdravá Pozitivní anamnéza 2,22 34,44 0,00 63,33 100% Negativní anamnéza 1,06 28,23 0,96 69,75 100% p < 0.05 Markovovy řetězce Pfii-iih P(III-IV) ' V' ,,,í l P(l-ll) P(IV-I) Vícerozměrná diskriminace Znak X1 GK» o ; OB O cft> • Znak X2 Logistické modely Znak X Funkční vztahy znaků Znak Y Znak Y Znak X Znak X Chování systému v čase Znak (y) Cas (t) MM (nrt fí^fi í IUII Institut biostatistiky a analýz, PřF a LF MU '^v' NtíS^ ^"^S^ Stochastické modelování: predikce neurčitých jevů OsaX Parametr nebo kombinace parametrů Data konkrétních objektů k přímému hodnocení m% ä ä -" IUI 1 Institut biostatistiky a analýz, PřF a LF MU iba W ' W Stochastické modelování: predikce neurčitých jevů • Schopnost: vytvářet prakticky využitelné nástroje