Biostatistika iarkovsky@iba.muni.cz iba >-m> $4$ w Přednáška 1 M—Z m\ M\ «iuř-t IBA 4gf Organizační informace - kódy předmětů • E5540 Biostatistika - základní kurz (tato přednáška) • E5540c Biostatistika - cvičení (nepovinný - samostatné cvičení na PC) • ASTAp Biostatistika - přednáška (tato přednáška) • ASTAc Biostatistika - cvičení (povinný - samostatné cvičení na PC) • BMBS051 Biostatistika-základní kurz (tato přednáška) • EMBSOlllp Biostatistika-přednáška • EMBSOlllc Biostatistika - cvičení (povinný - samostatné cvičení na PC) • BLBS051p + BLBS051c - Biostatistika (sloučené, tato přednáška) M_ľVfV%í =Vi /lilii |nstiti iba %A$y yop *j | Institut biostatistiky a analýz, PřF a LF MU Organizační informace - software • Software • Univerzitní licence na inet.muni.cz (stejný login a passwd jako do is.muni.cz) • Statistica - www.statsoft.com, www.statsoft.cz • SPSS - www.ibm.com/analytics/us/en/technology/spss/ • R - www.r-project.org, www.rstudio.com • Stata - www.stata.com Ä, ä o. iba ~^>j I Institut biostatistiky a analýz, PřF a LF MU Organizační informace - uzavření předmětu • BÍ5040 B i ostat i štika - základní kurz • ASTAp Biostatistika - přednáška • BMBS051 Biostatistika-základní kurz • EMBSOlllp Biostatistika-přednáška • Písemná zkouška (2 hodiny, povoleny materiály + nutná kalkulačka a tabulky statistických rozdělení, praktické řešení příkladů + teoretické otázky, klíčové je nalezení a popsání správného postupu, numerická správnost řešení nutná „pouze" pro dosažení plného počtu bodů) • BLBS051p + BLBS051c - Biostatistika (sloučené) • Zjednodušená písemná zkouška (výběr z možných odpovědí, materiály povoleny) ä, ä o. iba 5j m | Institut biostatistiky a analýz, PřF a LF MU Realita a data Klíčovou otázkou výzkumu a následně statistické analýzy je jak dobře naše data popisují realitu Bez kvalitních dat není kvalitní statistiky ani kvalitního výzkumu. Každá chyba učiněná v úvodní fázi výzkumu se v dalších fázích znásobí a zřejmě ji již nebude možné eliminovat ä, ä o. I Institut biostatistiky a analýz, PřF a LF MU Variabilita jako základní pojem ve statistice • Naše realita je variabilní a statistika je vědou zabývající se variabilitou • Korektní analýza variabilita a její pochopení přináší užitečné informace o naší realitě • V případě deterministického světa by statistická analýza nebyla potřebná Spolehlivost a přesnost měření • Kvalita dat je klíčová pro jakékoliv statistické hodnocení • Bez spolehlivých a přesných dat není možné získat spolehlivé a přesné výsledky statistického hodnocení • Ve statistické analýze dat musíme zohlednit jak střed měření, tak variabilitu a zamyslet se nad přesností popisu reality IBi i 4J# \SBKf *, iba m o a A Testování hypotéz: vysvětlení variability A Stochastické modelování: predikce chování systému IMI í lnstitut biostatistiky a analýz, PřF a LF MU Statistika - definice WWW.WIKIPEDIA.ORG: Statistika je matematickou vědou zabývající se shromážděním, analýzou, interpretací, vysvětlením a prezentací dat. Může být aplikována v širokém spektru vědeckých disciplín od přírodních až po sociální vědy. Statistika je využívána i jako podklad pro rozhodování, kdy nicméně může být záměrně i nevědomky zneužita. g ta Statistika využívá matematické modely reality k zobecnění výsledků experimentů a vzorkování. Statistika funguje korektně pouze pokud jsou splněny předpoklady jejích metod a modelů. ^ fM\ A- iba 5 zkreslené závěry Různé popisné statistiky a testy jsou spjaty s různými modelovými rozděleními Pro správnou interpretaci je třeba ověřit shodu reálných dat s modelem Některé statistiky je možné vždy spočítat, ale jejich interpretace je v případě nedodržení předpokladů pouze omezená Skutečné rozložení dat Průměrný plat 26 985 Kč/měsíc Proložený model normálního rozdělení. Jakákoliv metoda pracující s modelem normálního rozdělení pracuje s daty jako kdyby jejich reálné rozložení odpovídalo červené křivce. 5000 10000 15000 20000 25000 30000 35000 40000 45000 50000 55000 Měsíční plat (Kč) IBi i 4J# \SBKf *^ I Institut biostatistiky a analýz, PřF a LF MU Statistika a zobecnění výsledků Neznámá cílová populace Vzorek Analýza Díky zobecnění výsledků známe vlastnosti cílové populace Cílem analýzy není pouhý popis a analýza vzorku, ale zobecnění výsledků ze vzorku na jeho cílovou populaci Pokud vzorek nereprezentuje cílovou populaci, vede zobecnění k chybným závěrům ä. ä o IBA I Institut biostatistiky a analýz, PřF a LF MU Vzorkování a jeho význam ve statistice Statistika hovoří o realitě prostřednictvím vzorku!!! Statistické předpoklady korektního vzorkování • Representativnost: struktura vzorku musí maximálně reflektovat realitu ^ • Nezávislost: několikanásobné vzorkování téhož objektu nepřináší ze statistického hlediska žádnou novou informaci v Náhodnost: zajišťuje náhodný vliv zavádějících faktorů ^jm?*, ^vx** ^ÍSS1\. fJ^V%j (i^jřfi s IU| I Institut biostatistiky a analýz, PřF a LF MU Velikost vzorku a spolehlivost statistických výstupů • Existuje skutečné rozložení a skutečná střední hodnota měřené proměnné • Z jednoho měření nezjistíme nic ^ ????? • Vzorek určité velikosti poskytuje odhad reálné hodnoty s definovanou spolehlivostí Odhad popisné statistiky • Vzorkování všech existujících objektů poskytne skutečnou hodnotu dané popisné statistiky, nicméně tento přístup je ve většině případech nereálný. ä, ä o. IIJj \ Institut biostatistiky a analýz. PiF a LF MU Různá velikost vzorku - různé úkoly analýzy dat • Náročnost analýzy dat stoupá i s jejich objemem • I u největších dat stále platí, že klíčová je schopnost data prodat = smysluplně interpretovat a prezentovat Přístup biostatistiky • Schopnost: vidět data - komunikovat - interpretovat - prodávat Experimentální design: nezbytná výbava biologa cílová populace f I m výběr dle optimálního plánu reprezentativní vzorek n jedinců (faktor F) ♦ měření znaku OO00OOO0O0 variabilita hodnot * ve výběrovém souboru VÝSLEDKY "u "Ä\ •"">"'""- «C2& «• #j rm m >■ CC >LU >(Z) I Institut biostatistiky a analýz, PřF a LF MU Účel analýzy: Popisný Reprezentativnost Spolehlivost Přesnost oO ... analyzovaný znak cílové populace (X) ... jiný významný faktor charakterizující cílovou populaci (F) Experimentální design: nezbytná výbava biologa cílová populace <............... v\ / Í7 výběr subjektů pro vstup do hodnocení / studie -Y- RANDOMIZACE nebo existující faktor J rameno A rameno B měření znaku X •••• ♦ 0O0O0 .......................................*- 4....................................... variabilita hodnot X variabilita hodnot X ♦ OooOO v rameni A v rameni B VÝSLEDKY IBA *" ss$# ^/ JMI I Institut biostatistiky a analýz, PřF a LF MU CO x < — c t! 01 o II _ T3 SZ M 01 O M aj CL SZ O 01 > O O S= M "S o i —- > >LU M Účel analýzy: Srovnávací (2 skupiny) Reprezentativnost Srovnatelnost Spolehlivost Přesnost oO ... analyzovaný znak cílové populace (X) ... jiný významný faktor charakterizující cílovou populaci (F) Obecné schéma využití statistické analýzy Experimentálni design Vzorkování Uložení a management dat Vizualizace dat Popisná analýza Testování hypotéz Modelování Jak velký vzorek je nezbytný pro statisticky relevantní výsledky? Klíčová stratifikační kritéria cílové populace. Vzorkovací plán zabezpečující náhodnost a reprezentativnost vzorku. Uložení dat ve vhodné formě a jejich vyčištění předcházející vlastní analýze je klíčovým krokem statistické analýzy. Grafická inspekce dat je nezbytným krokem analýzy vzhledem ke schopnosti lidského mozku primárně akceptovat obrazová data. Poskytne vhled do dat, představu o jejich rozložení, vazbách proměnných apod. Popisná analýza umožňuje vyhodnotit srovnáním s existující literaturou realističnost naměřených rozsahů dat. Testování vazeb mezi různými proměnnými s cílem navzájem vysvětlit jejich variabilitu a tím přispět k pochopení řešeného problému. Možným vyvrcholením analýzy je využití získaných znalostí a pochopení problému k vytvoření prediktivních modelů. Ä, ä o. iba ~^>j I Institut biostatistiky a analýz, PřF a LF MU Stochastické modelování: predikce neurčitých jevů • Prospektivně - modelově - postihuje chování jevů při respektování variability Pravděpodobnostní vztahy Anamnéza x Výsledek vyšetření pacienta Karcinom Benigní léie Benigní riziková Zdravá Pozitivní anamnéza 2,22 34,44 0,00 63,33 100% Negativní anamnéza 1,06 28,23 0,96 69,75 100% p < 0.05 Markovovy řetězce P(m-i P(III-IV) P(l-ll) ■ P(IV-I) Logistické modely Vícerozměrná diskriminace Znak X1 i SK» O Znak X2 Znak X Funkční vztahy znaků Znak Y Znak Y o ^^^^^^^^^^^ Znak X Znak X Chování systému v čase Znak (y) Cas (t) M_ ľVfV%t H ,/'-.Í ílUli Diostatistiky a analýz, PřF a LF MU iba %ASy %w yop *-m> $4$ w Anotace • Ve statistické analýze biologických a klinických dat musíme vždy nad prováděným výzkumem a jeho výsledky přemýšlet v kontextu 5 klíčových principů biostatistiky. • Zkreslení - skutečně vidíme to co si myslíme, že vidíme? • Reprezentativnost-vypovídá naše analýza o skupině objektů, která nás zajímá? • Srovnatelnost - co ve skutečnosti v analýze srovnáváme? • Spolehlivost-jak spolehlivé jsou naše výsledky, dají se zopakovat? • Významnost-jak moc je pravděpodobné, že pozorujeme výsledky pouhé náhody? • Zanedbání těchto principů může vést k chybné interpretaci výsledků. ä, ä o. iba 5j | Institut biostatistiky a analýz, PřF a LF MU Klíčové principy - reprezentativnost • Pojem cílová populace - skupina subjektů, o které chceme zjistit nějakou informaci. • Pojem experimentální vzorek - podskupina cílové populace, kterou „máme k dispozici". • Musí odpovídat svými charakteristikami cílové populaci. • Chceme totiž zobecnit výsledky na celou cílovou populaci. • Souvislost s náhodným výběrem. ä, ä o. iba 5j I Institut biostatistiky a analýz, PřF a LF MU Klíčové principy-významnost • Analytické výsledky studie nemusí odpovídat realitě a skutečnosti. Statistická významnost jednoduše nemusí znamenat příčinný vztah! • Statistická významnost pouze indikuje, že pozorovaný rozdíl není náhodný (ve smyslu stanovené hypotézy). • Stejně důležitá je i praktická významnost, tedy významnost z hlediska lékaře nebo biologa. • Statistickou významnost lze ovlivnit velikostí vzorku. ä, ä o. iba 5 _^ u ■4—' ■4—' +-> CO ANO NE ANO OK, praktická i statistická významnost jsou ve shodě. Významný výsledek je statistický artefakt, prakticky nevyužitelný. NE Výsledek může být pouhá náhoda, neprůkazný výsledek. OK, praktická i statistická významnost jsou ve shodě. Statisticky nevýznamný výsledek neznamená, že pozorovaný rozdíl ve skutečnosti neexistuje! Může to být způsobeno nedostatečnou informací v pozorovaných datech! ä, ä o. iba 5j m I Institut biostatistiky a analýz, PřF a LF MU Zásady pro ukládání dat • Správné a přehledné uložení dat je základem jejich pozdější analýzy • Je vhodné rozmyslet si předem jak budou data ukládána • Pro počítačové zpracování dat je nezbytné ukládat data v tabulární formě • Nejvhodnějším způsobem je uložení dat ve formě databázové tabulky • Každý sloupec obsahuje pouze jediný typ dat, identifikovaný hlavičkou sloupce • Každý řádek obsahuje minimální jednotku dat (např. pacient, jedna návštěva pacienta apod.) • Je nepřípustné kombinovat v jednom sloupci číselné a textové hodnoty • Komentáře jsou uloženy v samostatných sloupcích • U textových dat nezbytné kontrolovat překlepy v názvech kategorií • Specifickým typem dat jsou dátumy u nichž je nezbytné kontrolovat, zda jsou datumy uloženy v korektním formátu • Takto uspořádaná data je v tabulkových nebo databázových programech možné převést na libovolnou výstupní tabulku • Pro základní uložení a čištění dat menšího rozsahu je možné využít aplikací MS Office M_ ľVfV%í H ,/'-.Í ílUli Diostatistiky a analýz, PřF a LF MU iba %A$y %w yop *u r*5S\ /ís>K . - í-*VY; ř IUII Institut biostatistiky a analýz, PřF a LF MU ^S*^ VZ*^ •'We* Slavné grafy: Eradikace lepry v Norsku • 1856 - národní registr lepry v Norsku založen v Bergenu -> analýza získaných dat -> opatření k eradikaci lepry v Norsku______ Co nesmí chybět na grafu • Každý graf musí být jednoznačně popsán - self explained • Graf, který nic neříká, nemá smysl kreslit!!! Nadpis grafu Věková struktura pacientů při zahájení hospitalizace Sloupcové a čárové grafy • Jednoduchá tvorba, vizualizace absolutních hodnot nebo procent Ä, ä -ä. iba ^ ^ ^ Jt | Institut biostatistiky a analýz, PřF a LF MU Koláčové a páskové grafy • Jednoduchá tvorba, vizualizace procent 0% 25% 50% 75% 100% 3.3%.6%6% -ľ M_ ľVfV%í = Vi /Ilji I Institi iba %A$y yop ^nJSI** •'we* Skládané grafy • Kumulativní zobrazení více informací ä, ä o. /BA 5^ 20 30 40 I Institut biostatistiky a analýz, PřF a LF MU 50 x1 3 10 20 x2 1 2 3 10 20 x2 x1 0 5 10 15 20 25 x2 x1 J x2 Maticový graf • Rozšíření xy grafů ve statistických SW • Současná vizualizace rozložení hodnot (diagonála) a vzájemných vztahů většího počtu spojitých proměnných • Různé varianty • Sada proměnných každý s každým • Dvě sady proměnných proti sobě • Doplnění o výpočet korelačních koeficientů • Základní nástroj vizualizace před vícerozměrnou analýzou ocB f.&i \°° . ľ 1 h . - ť Jsi- l ulit % » y • h H • \ g$ VÍ?** f g o OD c :°° "w,,^ <í«a«* | Institut biostatistiky a analýz, PřF a LF MU Histogram • Graf sumarizující rozložení hodnot spojitých proměnných, úzce spjat s teorií statistických rozdělení • V klasické formě podobný (ale nikoliv totožný) se sloupcovým grafem • V praxi se pod názvem histogram často skrývá sloupcový graf (přípustné pokud nevede k dezinterpretaci dat) • Jeden ze základních grafů pro posouzení rozložení dat 39% Histogram: vliv kategorizace dat • Počtem zvolených intervalů v histogramu rozhodujeme o tom, jak bude vypadat. Při malém počtu můžeme přehlédnout důležité prvky v datech, při velkém zase může být informace roztříštěna. "i M. 3 intervaly "i M. 5 intervalů 20 16 12 8 4 0 8.0 4.0 4.5 2.5 1.0 1-3 4-6 7-10 1-2 3-4 5-6 7-8 9-10 "i M. 10 intervalů 20 16 -12 - 8 - 6 6 4 - 2 0 1 1 1234567891 I t Ä, ä o. iba ~^>j I Institut biostatistiky a analýz, PřF a LF MU Histogram: vliv kategorizace dat • Výběr počtu kategorií-důležitý pro interpretaci • Ruční nebo automatický výběr - různé algoritmy (závisí na velikosti vzorku a variabilitě dat) Histogram z vyska Histogram z vyska Krabicový graf- box and whisker plot: co to je? • V analýze dat oblíbený typ grafu umožňující jednoduché srovnání více skupin objektů a hodnocení rozložení dat • Nejběžnější pro popis spojitých dat, ale využitelný pro libovolné typy dat, které lze popsat střední hodnotou a variabilitou (procenta, regresní koeficienty, odds ratia, risk ratia, hazard ratia atd.) • Obrovské množství variant 401 1001 100 2 3 4 5 6 _I_I_I_I_I 20 I "X" T I 50' 50 i—■-1 Ä, ä o. IBA ~^>j I Institut biostatistiky a analýz, PřF a LF MU Krabicový graf- box and whisker plot: příklad jedné možné varianty Maximum = 100% kvantil Horní kvartil = 75% kvantil Medián = 50% kvantil Dolní kvartil = 25% kvantil Minimum = 0% kvantil Jednotlivé body grafů mohou obsahovat libovolné popisné statistiky-průměry, směrodatné odchylky, intervaly spolehlivosti, odds ratia, hazard ratia atd. Počet datových bodů v grafu může být od tří do např. devíti. Box and whisker plot a jeho různé varianty I • Je nezbytné číst popisky • Různé varianty grafu mohou mít zcela jinou interpretaci IBA VAäy M# \SBKf *65-75 125 145 17.6 17.5 >75 61 47 13.1 18.5 ISS stage lor II 318 314 15.7 21.4 (stratification factor) III 44 46 10.1 18.4 Cytogenetic Standard-risk 216 199 15.6 20.6 risk High-risk 62 75 9.7 21.4 Number of prior therapies 1 2 3 217 111 34 224 97 39 15.9 14.1 10.2 20.6 17.5 NE - Proteasome Exposed 253 250 13.6 18.4 inhibitor Naive 109 110 15.7 NE Prior IMiD therapy Exposed Naive 204 158 193 167 17.5 13.6 NE 20.6 Refractoryto last Yes 55 59 NE NE prior therapy No 307 301 14.1 20.6 Relapsed or refractory Relapsed 280 276 15.6 18.7 Refractory Ref& rel 40 42 42 41 13.0 13.1 NE NE "T 0.742 0.683 0.833 0.868 0.746 0.717 0.640 0.543 0.832 0.749 0.366 0.739 0.749 0.744 0.700 0712 0.742 0.769 0.784 0.506 "T 0.500 1.000 2.000 Favors IRd <--> Favors placebo-Rd Moreau P et al. ASH 2015, oral presentation Abstract #727 Box and whisker graf a jeho různé varianty IV: Bagplot • Bagplot = „bivariate boxplot" (tzn. „dvourozměrný krabicový graf) ä, ä -ä. IBA ^ sge?j M I Institut biostatistiky a analýz, PřF a LF MU Invenční využití jednoduchých grafů: Korálkový graf • Lze vytvořit z XY grafu v MS Office • Velké množství informace na malé ploše 100 200 I Medián Evropy # Medián ČR + Lokality Koncentrace 300 400 500 600 700 800 900 1 000 >i/i > "(U to "D OJ O OJ H-h- H-H-+- + + H—h 1 ►m+H-h -hh+::--h+ +- +++> + -U-+-H-h + + ++ + M_ ľVfV%t fi ,/'-.Í ílUli Diostatistiky a analýz, PřF a LF MU iba %ASy yop *^ | Institut biostatistiky a analýz, PřF a LF MU Excel - grafy v buňkách Pro zpřehlednění excelových tabulek je možné využít grafické prvky v jeho buňkách Několik typů grafů umožňujících vizualizovat v jedné buňce datové řady Základní možnosti editace os a vzhledu IBA IS * lil.-1. ■ iV IV IÉ yi lil. ■ ■ ■ li a ^ H B JI Rovnit íí Symbt >ručené rafy Kunti n g en čni' 3D Spojnicový Sloupcový Vzestupy/ Průřez Časová Hypertextový Textové Záhlaví' n graf " Map " poklesy osa odkaz pole a zápatí' Grafy r; Prohlídky Minigrafy Filtry Odkazy Text Symbo 10 M 11 12 15 ic -8 12 12 19 13 17 13 Formátováni' Grafy Celkové součty Tabulky Minigrafy Spojnicový ]ih7 Sloupcový Vzestupy/poklesy Minigrafy jsou malé grafy umístěné v samostatných buňkách, I Institut biostatistiky a analýz, PřF a LF MU W Heatmapa • Druh 3D grafu - osy tvoří dvě proměnné, barva třetí proměnnou • Lze vytvořit v excelu pomocí podmíněného formátování • Často ve vícerozměrné analýze pro vizualizaci asociačních matic Výskyt indikátorového organismu v závislosti na dvou proměnných Hloubka v cm vs. Koncentrace polutantu <60 60-69 70-74 75-79 80-84 85-89 90-94 95-99 100-109 110-119 120+ <= 30 29.8% 29.2% 27.9% 23.0% 20.5% 19.9% 20.6% 22.1% 22.1% 22.9% 23.3% 31-35 29.4% 28.2% 26.5% 22.0% 20.0% 19.5% 20.4% 21.6% 21.8% 22.6% 23.1% 36-39 18.5% 16.3% 15.8% 13.2% 12.9% 14.1% 15.3% 18.2% 20.4% 23.9% 28.4% 1 40-44 14.6% 14.3% 12.9% 12.0% 14.3% 20.2% 24.5% 22.2% 21.3% 20.2% 25.0% 45-49 12.6% 11.7% 13.0% 15.0% 17.9% 21.4% 22.5% 19.6% 20.3% 21.1% 30.0% 50+ 12.2% 11.4% 13.6% 17.5% 22.0% 25.6% 25.9% 20.4% 19.9% 20.3% 31.3% Ä, ä o. IBA ~^>j m I Institut biostatistiky a analýz, PřF a LF MU Pavouci / paprskové grafy • Vhodné pro srovnání profilů objektů nebo skupin objektů pomocí více proměnných • Různá grafická forma Polární graf • Obdoba čárového, sloupcového nebo plošného grafu s osou X vynesenou na kružnici • Vhodný pro cyklická data (cirkadiánní rytmy, sezonalita, směrová statistika pohybu V ■ V ■ I O \ živočichu) BUNKY2 £3 BUNKY1 EE ENZYM2 Grafické tabule • Více grafů tvořících grafickou tabuli • Možné skládat z různých grafů jednoho nebo více typů • Prezentace velkého množství dat na malém prostoru ä. ä o IBA | Institut biostatistiky a analýz, PřF a LF MU n"-lŕľ-l n**-i -"iit n-ľ-li n«-" ľ r -^ň—=ŤS-^-ríE——■-=5" C33-C34 n4 3: :-n i-a s^iů ii-is n-a si-s. » "n^Ti n«l -mi: n-f>L n--'3V ■-i *-iů n-ij iů-aů ±1-45 se* --il n-lV r^l2 n-* n»V --^ i-t b-iů íi-iä n-a ■-a ff-iů n-t* imů ři-aa lít —i-1-1-1-1— í-i a-ia n -i3 n-a ii-» - n4' -.- n-ľfj ■n- --dl ■ -. n-ia n-ľĽ E 1 71-«- "T> -rn - ■ - 3; =•= -n- iH- ft-iů 1 .. . . .■ an- ■-S 1 ; ■ ■. 1Ů-3Ů ±1-45 ■ 1 i •■: 1 11 -13 iů-sů 1 ■-■ ■ - -r - -■-li --i n-: n-F w- — zs n--í ■-. -i -> ■r- T - as ■. - m I ■H-■Q - ZE X ZE I I W-TH_ 31 3- I i ■ 1 - ■ i .. . i 1 . .■ 1 1 ■ ■ 1 - 1 ■ ■' i i 1 i ■ 1 - ■ 1 11-13 i IB-iB 1 . .■ i K 3D grafy • Mnoho typů Chernoffovy tváře (ikonové grafy) • Jednotlivé proměnné jsou zobrazeny jako rysy tváře • Patří mezi tzv. ikonové grafy • hodnoty znaků znázorněny jako geometrické útvary či symboly • každému objektu (subjektu) odpovídá jeden obrazec složený z těchto geometrických útvarů či symbolů • umožní vizuálně porovnat, které objekty (subjekty) jsou si podobné m #2 #3 #4 #5 SE- #7 #8 #9 #10 ■1 #11 #12 #13 #14 #11 #12 #13 #14 #1 s; s11 #16 #17 #13 #19 #20 L^ft ~.z \v.:\-\ vek c e l_c hole sterol váha #16 #17 #18 #19 #20 C uckv.iií.: vek c e l_c hole sterol váha i. S_t."■: #2 #7 #12 #17 #3 #8 #13 #18 #4 #& #14 #19 #11 #12 #13 #14 #15 U #20 #16 #17 #18 #19 C uckv.ibí.: c e l_c hole sterol váha i. s_t." < :: ■? : ? < — face/w = vek — ear/lev = cel_cholesterol -halfface/h = vaha — upface/ecc = sys_tlak — loface/ecc = dia tlak M_ ľVfV%t fi ,/'-.Í ílUli Diostatistiky a analýz, PřF a LF MU iba %ASy yop ^nJSI** •'we* Mapy jsou také grafy • Samostatná kapitola vizualizace dat • Obarvení regionů v mapě dle výsledků analýzy nebo přímo vkládání grafů do map (sloupcové, koláčové atd.) • ArcGIS - další z SW dostupných na inet.muni.cz Slavné mapy: John Snow- cholera v Londýně • 1854 Broad Street cholera outbreak • Počty případů vyneseny jako černé sloupce dle bydliště obětí • Identifikace zdroje nákazy-kontaminovaná studně • Jeden z prvních příkladů prostorové analýzy dat a epidemiologického mapování ä. ä o IBA I Institut biostatistiky a analýz, PřF a LF MU Nesprávné použití grafů: rozsah os („nevíme jak nakresliť') The soaraway Post — the daily paper New Yorkers trust 1.900.000 1.800.000 1.700.000 1.600.000 1.500.000 800.000 700.000 600.000 500.000 no X r NE1 \ \ \ 1.555.009 1 • 1 An jam 054, ON. 7X2.000 CZf.000 (* J M Uttum !- 1-1-1 2.000.000 í 1.000.000 BE O The Post struggles to catch up NEWS POST ! JL 1 ■ «77 1VTI i»r» IMO IM1 1977 1978 1979 1980 1981 IBA Institut biostatistiky a analýz, PřF a LF MU Nesprávné použití grafů: standardizace os („nevíme co kreslíme") Přednáška 3 M—Z m\ M\ «iuř-t IBA 4gf Informace a rozdělení dat Jak vznikají informace Rozdělení dat Anotace • Základním principem statistiky je pravděpodobnost výskytu nějaké události. • Prostřednictvím vzorkování se snažíme odhadnout skutečnou pravděpodobnost událostí. • Klíčovou otázkou je velikost vzorku, čím větší vzorek, tím větší šance na projevení se skutečné pravděpodobnosti výskytu jevu. ^ fM\ IBA 5 o o. 3 4 5 6 7 8 9 10 25 50 oj 100 O 250 500 1000 JMI o.i 0.2 Relativní četnost ~ Pravděpodobnost jevu (výskyt mužů v cílové populaci) 0.3 0.4 0.5 0.6 0.7 0.8 0.9 co Ido 0.67 0.40 0.50 0.50 0.43 0.13 0.33 0.90 0.52 0.58 I 0.51 0.50 0.53 0.50 0.50 Z praktického hlediska je pravděpodobnost idealizovaná relativní četnost IBi i 4J# \SBKf * g 0.20 -Q O -a 0.15 o Q_ "5 0.10 0.05 0.00 Výška sloupce = pravděpodobnost výskytu dané kategorie Suma sloupců = 1 (100% všech možností) 0.10 0.10 0.10 0.10 0.10 0.10 0.10 0.10 0.10 0.10 3 4 5 6 7 8 Zjištěné unikátní hodnoty na kostce 10 r'*jíN1*' jŕ'tsT*' -s^8*5^ f{fyfr s IU| I Institut biostatistiky a analýz, PřF a LF MU Pravděpodobnost výskytu jevu - rozložení spojitých dat • existuje pravděpodobnost výskytu jevů (nedeterministické závěry) • „vše je možné": pouze jev s pravděpodobností 0 nikdy nenastane prumer w o .Q O T3 O Q_ > CO Q. ro o w ^ X , W1Ľ...... nmmm mmmmi mmmmmi mmmmmm. mmmmmmmi mmmmMmmmm. Plocha = pravděpodobnost výskytu Suma plochy = 1 (100% všech možností) IBA Výška postavy I Institut biostatistiky a analýz, PřF a LF MU Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Grafický popis dat ior% ^JäS^* Anotace • Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod • Od binárních přes kategoriální, ordinální až po spojitá data roste míra informace v nich obsažené. • Základním přístupem k popisné analýze dat je tvorba frekvenčních tabulek a jejich grafických reprezentací - histogramů. ä, ä o. IBA 5 smysluplnost? (koncentrace polutantu x nadmořská výška, krevní tlak, glykémie x počet srdcí, počet domů) ... více či méně dokonalým -> kvalita? (variabilita = informace + chyba) M_ ľVfV%í fP^éfiS iliil I Institut biostatistiky a analýz, PřF a LF MU iba %A$y %w yop * /> /> /> /> /> £\ £\ r\ £\ Počet úlovků (absolutní četnost) jjfc N=7 Podíl úspěšných lovů (relativní četnost) nebo nejčetnější kategorie (modus) ^ ^ Q N = 7 (70%) Ä. Ä O IBA Jsou binární data dostatečná za všech okolností? I Institut biostatistiky a analýz, PřF a LF MU Kategoriální data - co jsme chytili? • Více informací získáme z dat kategoriálních Hodnotíme několik možných stavů: Jak můžeme popsat: Celkový počet lovů (báze hodnocení) Počet různých kategorií úlovků (absolutní četnost) Podíl úspěšných lovů různých kategorií úlovků (relativní četnost) nebo nejčetnější kategorie (modus) Jsou kategoriální data dostatečná za všech okolností? IBA I Institut biostatistiky a analýz, PřF a LF MU N = 1 (10%) N = 2 (20%) 000 N = 3 (30%) 0 N = 4 (40%) Jsou kategorie seřaditelné? < < < < 7 I Seřaditelné kategorie = ordinální data Ordinální data je možné popsat stejně jako data kategoriální + u seřiditelných dat je možné počítat i medián Jsou kategoriální data dostatečná za všech okolností? IBA Institut biostatistiky a analýz, PřF a LF MU Pozor na medián u ordinálních dat • Je medián vždy vhodným ukazatelem středu ordinálních dat? Pozor na medián u ordinálních dat JĚĚĚÍ Vs. I í I Medián je shodný ! §§§ Medián je shodný, nicméně interpretace dat je odlišná Možnost a formální správnost výpočtu statistiky neznamená, že jde o vhodnou metodu M_ ľVfV%t H ,/'-.Í ílUli Diostatistiky a analýz, PřF a LF MU iba %A$y yop ^nJSI** •'we* Kvantitativní data-jaký je objem kořisti ? • Informačně nejhodnotnější jsou data kvantitativní • Pro popis je nezbytné posoudit jejich rozložení • Průměr • Medián • Směrodatná odchylka • Minimum, maximum • Percentily • Atd. Typy dat: shrnutí • Kvalitativní proměnná (kategoriální) - lze ji řadit do kategorií, ale nelze ji kvantifikovat, resp. nemá smysl přiřadit jednotlivým kategoriím číselné vyjádření. • Příklady: pohlaví, HIV status, užívání drog, barva vlasů • Kvantitativní proměnná (numerická) - můžeme jí přiřadit číselnou hodnotu. Rozlišujeme dva typy kvantitativních proměnných: • Spojité: může nabývat jakýchkoliv hodnot v určitém rozmezí. • Příklady: výška, váha, vzdálenost, čas, teplota. • Diskrétní: může nabývat pouze spočetně mnoha hodnot. • Příklady: počet krevních buněk, počet hospitalizací, počet krvácivých epizod za rok, počet dětí v rodině. ä, ä o. IBA 5^ I Institut biostatistiky a analýz, PřF a LF MU Odvozená data: pozor na odvozené indexy • X: Průměrný počet výrobků v prodejně • Y: Odhad prostoru průměrně nabízeného k vystavení výrobku • Popsáno průměrem a rozsahem min-max • X: 1,2 : (1,15-1,24) -► + /-3,8% • Y: 1,8 : (1,75- 1,84) -► +7-2,5% X {1,15 1,24\ •y = 0<667:(l84-l75j -* +/-6'2% • Nová veličina má jinou šířku rozpětí než ty, ze kterých je odvozená ä, ä o. IBA iß \gg/ m I Institut biostatistiky a analýz, PřF a LF MU Vznik informací: opakovaná měření informují rozložením hodnot Y: frekvence y Diskrétní data Spojitá data MEM f^V%i (řlff^ í IU| I Institut biostatistiky a analýz, PřF a LF MU 'Vü^' '^iii^' ^sír Frekvenční sumarizace - základní nástroj popisu dat: kvalitativní data Cílem sumarizace je zjednodušení dat do přehledné formy N = 100 pacientů s hemofílií Hodnocenou proměnnou je počet krvácivých epizod za měsíc Nejjednodušší sumarizací je frekvenční tabulka File Edit View Data Transform laya m ^ 1: epizody 1 1 2 0 3 1 4 2 S 2 6 1 7 1 8 3 9 2 10 1 11 3 12 1 13 2 14 2 15 2 16 0 17 0 18 3 19 1 20 1 21 1 22 0 23 1 24 2 25 1 26 3 27 1 28 2 29 1 30 2 31 0 32 1 33 1 34 2 epizody Frequency Percent Valid Percent Cumulative Percent Valid 0 22 22,0 22,0 22,0 1 27 27,0 27,0 49,0 2 29 29,0 29,0 78,0 3 22 22,0 22,0 100,0 Total 100 100,0 100,0 Tabulka ukazuje unikátní hodnoty v datech Frequency = počet hodnot v kategorii (absolutní četnost) Percent = procentuální zastoupení kategorie (relativní četnost) Valid percent = procentuální zastoupení kategorie (bez započtení chybějících hodnot) Cumulative percent = kumulativní procentuální zastoupení kategorií až po danou kategorii (kumu ativní relativní četnost; má smysl pouze pro ordiná ní data, obdobně existuje i kumulativní absolutní četnost) /Ä .<>■ - íř Wú ř IUI I Institut biostatistiky a analýz, PřF a LF MU ^uJK** VZ*^ •'We* 7703 Frekvenční sumarizace - základní nástroj popisu dat: kvantitativní data Cílem sumarizace je zjednodušení dat do přehledné formy N = 100 pacientů s Hodnocenou proměnnou je koncentrace látky v krvi Nejjednodušší sumarizací je opět frekvenční tabulka Další možností je výpočet zástupných sumárních statistik (průměr, medián aj.) ift. *Untitled3 [DataSetZ] - IBM SPSS Statistics Data Editor File Edit View Data Transform Analyze Direct Market Koncentrace intervaly .syg boj ^^ #Lé '/ Koncentrace J Koncentrace int 26,8 20,1 -40,0 2 SO 0 40,1 - 60.0 3 25,6 20,1 - 4O.0 4 31 3 20 1 -40 0 5 47,8 40,1 - 60.0 6 73,6 501-800 7 58 1 40.1 60.0 S 63,1 40 1 - 60 0 9 33 0 20.1 -40.0 10 26,5 20.1 - 40.0 11 32,1 20.1 40.0 12 41 8 40.1 - 60.0 13 60 9 50 1 - 80 0 14 00 4 80,1 - 100,0 15 32,0 20,1 40.0 16 61,1 60 1 - 80 0 17 33,6 20.1 -40.0 18 99,7 80,1 - 100.0 19 55,2 40.1 - 60.0 20 00 5 80 1 - 100 0 21 27,2 20 1 -40 0 22 79,9 50 1 - 80 0 23 45 3 40.1 - 60.0 24 58,2 40.1 - 60.0 25 28 8 20 1 -40 0 26 69,3 50 1 - 80 0 27 27,3 20.1 - 40.0 28 05 1 80 1 - 100 0 29 30 6 20 1 -40 0 30 31,5 20.1 - 40.0 31 28,7 20.1 - 40.0 Frequency Percent Valid Percent Cumulative Percent Valid 20,1 - 40,0 33 33,0 33,0 33,0 40,1 - 60,0 30 30,0 30,0 63,0 t 60,1 - 80,0 17 17,0 17,0 80,0 80,1 - 100,0 20 20,0 20,0 100,0 Total 100 100,0 100,0 Tabulka ukazuje unikátní hodnoty v datech Na rozdíl od kvalitativních dat je nezbytné pro smysluplnost výstupu stanovit v datech intervaly (o stejné nebo různé šířce) Frequency = počet hodnot v kategorii (absolutní četnost) Percent = procentuální zastoupení kategorie (relativní četnost) ValidjDercent = procentuální zastoupení kategorie (bez započtení chybějících hodnot) Cumulative percent = kumulativní procentuální zastoupení kategorií až po danou kategorii (kumulativní relativní četnost; obdobně existuje i kumulativní absolutní četnost) 49b I Institut biostatistiky a analýz, PřF a LF MU Vizualizace frekvenční tabulky kvantitativních dat • Základním nástrojem vizualizace spojitých dat založeným na frekvenční tabulce je histogram • Na rozdíl od sloupcového grafu představuje vizualizovanou hodnotu plocha sloupce, nikoliv jeho výška Histogram O 20,1-40,0 40,1-60,0 60,1-80,0 80,1-100,0 Intervaly IBA VaSv %W *Úarj *j I Institut biostatistiky a analýz, PřF a LF MU Histogram: vliv kategorizace dat • Výběr počtu kategorií-důležitý pro interpretaci • Ruční nebo automatický výběr - různé algoritmy (závisí na velikosti vzorku a variabilitě dat) Histogram z vyska Histogram z vyska Histogram: nástroj posouzení rozložení dat • Histogram reálných dat má vazbu na modelové rozdělení Proč je důležité vědět co je to skutečný histogram I Většina lidí uvažuje vizuálně - vizualizace dat je tak nesmírně důležitá pro první vjem a interpretaci dat Díky odlišné vizuální interpretaci histogramu a sloupcového grafu v případě použití různě širokých intervalů může být za některé situace použití sloupcového grafu zavádějící • V praxi se nicméně často používá namísto „pravého" histogramu sloupcový graf (i výrobci statistických SW) • V případě stejné šířky intervalů interpretační problém nevzniká (pn ruzne sirce intervalu vypínají SW některé volby = nastavení pro pokročilé uživatele) ä, ä o. IBA 5^ | Institut biostatistiky a analýz, PřF a LF MU XL Velikost člověka relevantní k velikosti oblečení Normální rozdělení a jeho distribuční funkce K modelovým rozdělením existují jejich distribuční funkce Pro danou hodnotu rozdělení uvádějí plochu (=pravděpodobnost) pod křivkou do dané hodnoty Základní nástroj v řadě statistických výpočtů Kvantil modelového rozdělení: hodnota jíž odpovídá daná plocha pod křivkou rozdělení (např. 95% kvantil je hodnota proměnné pod níž leží 95% všech hodnot) ä. ä o IBA Normální rozdělení Distribuční funkce normálního rozdělení I Institut biostatistiky a analýz, PřF a LF MU -1 0 1 Hodnota proměnné Příklad: optimalizace skladových zásob oblečení Řešení příkladu odvodíme ze znalosti rozdělení velikosti lidí v cílové populaci a jeho distribuční funkce Přibližné podíly různých velikostí oblečení: • S: 2.5% • M: 13.4% • L: 68.2% • XL: 13.4% • XXL: 2.5% ■2xSD -lxSD lxSD STATISTICIAN XXL XL 2xSD 2.5 % plochy 13.4 % plochy 68.2 % plochy 13.4 % plochy 2.5 % plochy Ä. ä O IBA Velikost člověka relevantní k velikosti oblečení I Institut biostatistiky a analýz, PřF a LF MU Přednáška 4 M—Z m\ M\ «iuř-t IBA 4gf Modelová rozložení Normální rozložení jako statistický model Aplikace modelových rozložení Přehled modelových rozložení Anotace • Klasickým postupem statistické analýzy je na základě vzorku cílové populace identifikovat typ a charakteristiky modelového rozložení dat, využít jeho matematického modelu k popisu reality a získané výsledky zobecnit na hodnocenou cílovou populaci. • Využití tohoto přístupu je možné pouze v případě shody reálných dat s modelovým rozložením, v opačném případě hrozí získání zavádějících výsledků. • Nejklasičtějším modelovým rozložením, od něhož je odvozena celá řada statistických analýz je tzv. normální rozložení, známé též jako Gaussova křivka. ä, ä o. IBA 5-m> ^ o >M 3 O) >u o CL Průměr vs. medián Nemáme-li symetrická data, je výsledek výpočtu průměru i mediánu rozdílný. Není to OK. Výpočet průměru je v tuto chvíli nevhodný! • Příklad 1: známkování ve škole • Student A: 1,1, 1,1, 2,1, 1, 1,1,1, 1,1,1, 5 Průměr = 1,35 Medián = 1,00 • Student B: 1,1, 1, 1, 2, 1, 1,1, 1,1, 1, 1,1, 2 Průměr = 1,13 Medián = 1,00 • Příklad 2: plat v ČR „*mmm ***Z*>^ | Institut biostatistiky a analýz, PřF a LF MU Skutečné rozložení dat Průměrný plat 26 985 Kč/měsíc Proložený model normálního rozdělení. Jakákoliv metoda pracující s modelem normálního rozdělení pracuje s daty jako kdyby jejich reálné rozložení odpovídalo červené křivce. 5000 10000 15000 20000 25000 30000 35000 40000 45000 50000 55000 Měsíční plat (Kč) Popis „těžiště" - míry polohy • Mějme pozorované hodnoty: xvx2,...,xn • Seřaďme je podle velikosti: <*(2) <...<*(n) • Minimum a maximum - nejmenší a největší pozorovaná hodnota nám dávají obraz o tom, kde se na ose x pohybujeme. • Průměr-charakterizuje hodnotu, kolem které kolísají ostatní pozorované hodnoty. Je to fyzikální obraz těžiště stejně hmotných bodů ose x. X n í=i • Medián - je to prostřední pozorovaná hodnota. Dělí pozorované hodnoty na dvě půlky, půlka hodnot je menší a půlka hodnot je větší než medián. Institut biostatistiky a analýz, PřF a LF MU Pojem kvantil • Laicky lze kvantil definovat jako číslo na reálné ose, které rozděluje pozorovaná data na dvě části: p% kvantil rozděluje data na p % hodnot a (100-p) % hodnot. • Máme soubor 20 osob, u nichž měříme výšku. Chceme zjistit 80% kvantil souboru pozorovaných dat. n = 20 Průměr těchto dvou = 80% kvantil 16 / 20 = 80 % hodnot 4 / 20 = 20 % hodnot r 110 cm 140 cm 170 cm 200 cm 230 cm Výška v cm Institut biostatistiky a analýz, PřF a LF MU Výpočet charakteristik normálního rozdělení: rozptyl a směrodatná odchylka a2-rozptyl rozdělení (cílová populace) s2- rozptyl rozložení vzorkovaných dat (odhad rozptylu cílové populace) N=5 Objekt Hodnota ^^^| x2 3 4 x4 7 X5 2 2 ľf=1fe-x)2 14,8 sz =-~-:-= —— = 3,7 Směrodatná odchylka (s, SD=standard deviation) = druhá odmocnina z rozptylu (snazší interpretovatelnost) N-l nebo N ? Dělení N-l je výpočet rozptylu vzorku, dělení N je pro celou populaci (výjimečně) -<ŠP W 1 I Institut biostatistiky a analýz, PřF a LF MU Popis „rozsahu" - míry variability • Nejjednodušší charakteristikou variability pozorovaných dat je rozsah hodnot (rozpětí) = maximum - minimum. Je snadno ovlivnitelný netypickými (odlehlými) hodnotami. • Kvantilové rozpětí je definováno p% kvantilem a (100-p)% kvantilem a je méně ovlivněno odlehlými hodnotami. Speciálním případem je kvartilové rozpětí, které pokrývá 50% pozorovaných hodnot. • Rozptyl - průměrný čtverec odchylky od průměru. Velmi ovlivnitelný odlehlými hodnotami. s?=^il>'-x)2=^il? X n f n \ 2 _ _2 \i=l • Směrodatná odchylka - odmocnina z rozptylu. Výhodou směrodatné odchylky je, že má stejné jednotky jako pozorovaná data. • Koeficient variance - podíl směrodatné odchylky ku průměru (u normálního rozložení by se 95% hodnot mělo vejít do průměr ±3 SD), pokud je SD větší než 1/3 průměru jsou teoreticky pravděpodobné záporné hodnoty v rozložení - ukazatel problémů s normalitou dat ä, ä o. IBA 5j I Institut biostatistiky a analýz, PřF a LF MU Normální rozdělení: vliv odlehlé hodnoty na popisné statistiky • Cílem je určit průměrnou hladinu cholesterolu vybrané populace mužů (hodnoty v mmol/l) ro ■*-> ro T3 ^ro > -m Q. 6.3 7.6 6.3 9.1 4.2 5.8 5.65 6.3 8.6 6 6.2 6.7 4.6 6.25 6.3 4.04 6.3 9.1 6.3 5.2 6.4 5.75 J > Průměrná hodnota 6,32 Směrodatná odchylka 1,34 Průměrná hodnota Směrodatná odchylka Která charakteristika se zvýší výrazněji? Průměr nebo směrodatná odchylka? < f 6.3 7.6 6.3 9.1 4.2 5.8 5.65 6.3 8.6 6 6.2 6.7 4.6 6.25 6.3 4.04 6.3 9.1 6.3 5.2 64 5.75 co ~a —í < Q. OJ r-h OJ •; llil 1 Institut biostatistiky a analýz, PřF a LF MU 'BA W W # Normální rozdělení: vliv odlehlé hodnoty na popisné statistiky • Cílem je určit průměrnou hladinu cholesterolu vybrané populace mužů (hodnoty v mmol/l) ro ■*-> ro T3 ^ro > -m i— Cl co 6.3 7.6 6.3 9.1 4.2 5.8 5.65 6.3 8.6 6 6.2 6.7 4.6 6.25 6.3 4.04 6.3 9.1 6.3 5.2 6.4 5.75 J Průměrná hodnota 6,32 Směrodatná odchylka 1,34 Průměrná hodnota 8,94 Směrodatná odchylka 12,37 r 6.3 7.6 6.3 9.1 4.2 5.8 5.65 6.3 8.6 6 6.2 6.7 4.6 6.25 6.3 4.04 6.3 9.1 6.3 5.2 64 v 5.75 rD co ~a —\ OJ- < OJ- Q. OJ r-h OJ Ä, ä -Ä. IBA ^ ^ ^ Jt | Institut biostatistiky a analýz, PřF a LF MU Identifikace odlehlých hodnot • Na menších souborech stačí vizualizace. • Na větších datových souborech nelze bez vizualizace a popisných statistik. • Grafická identifikace: pomocí histogramu a box plotu. • Identifikace pomocí popisných statistik: srovnání mediánu a průměru. M_ľVfV%í =Vi /lilii |nstiti iba %ASy yop ^nJSI** •'we* Identifikace odlehlých hodnot - příklad Histogram ro ■*-> ro T3 ^ro c > ^u Histogram P-P plot 65 75 85 95 105 115 125 135 65 75 85 95 105 115 125 135 -200 400 1000 1600 Hodnota proměnné 2200 -200 400 1000 1600 Hodnota proměnné 2200 c c £ o Q. ro O C xs o -d) c c £ o Q. ro O c xs o 135 125 115 105 95 85 75 700 600 500 400 300 200 100 0 IBA I Institut biostatistiky a analýz, PřF a LF MU Krabicový graf medián 25-75 percentil 5-95 percentil Rozdíl mezi N-P, Q-Q, P-P grafem Normální p-graf Graf Q.Q 0 01 0,05 0,10 0.2S 0.S0 0,76 0,90 0.9S 0,93 ??? -1,0 -0,8 -0,6 -0,4 -0,2 0.0 0.2 0.4 0.6 0.6 1.0 1,2 1.4 1.6 Pozorovaný kvantil Graf P-P • Pouze výměna os • Znázorněn pozorovaný a teoretický kvantil • Vykresleno kumulativní rozdělení PAMATUJ: Pocházejí-li data z normálního rozložení, pak body budou ležet okolo přímky 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 Teoretické kunu ativní rozclšler' IBA | Institut biostatistiky a analýz, PřF a LF MU Ukazatele tvaru rozložení • Skewness - ukazatel „šikmosti" rozložení, asymetrie rozložení • Kurtosis - ukazatel „špičatosti/plochosti" rozložení skewness>0 skewness<0 Jak se projeví asymetrie dat v diagnostických grafech? Rozložení s kladnou šikmostí Normální rozložení Rozložení se zápornou šikmostí Histogram Histogram Histogram pni „ - -i i— i _H — N n l-r-^ „ P plot ■ r N P plo t Ti- „ _r-r-rn 1 NP plo t řn í .III I > kř ca \ / / Ko n k; 3\ IV II 1 tr' \/ /' v \<. i > Krabicový diagram ■ Krabice )vý diagram „ Krabicový diagram -- \/ýívtoi/é materiály: Výpočetní statistika, RNDr. Marie Budíková, Dr., 2011 M_ íVfV%l í^^jňh iliil I Institut biostatistiky a analýz, PřF a LF MU iba %A$y yop ^uJK** •'we* Standardní normální rozdělení • Speciální případ normálního rozdělení s N(n=0, o2=l) - standardizovaná forma využívaná: • ve statistických výpočtech • pro srovnání extrémnosti / průměrnosti hodnot u proměnných s různými rozsahy nebo jednotkami • Jednoduchá interpretace-základní hodnoty vhodné zapamatovat JÍ 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 - fí=0, O2=0.2,- /j = 0, Ú2=1.0,- = 0, o2=5.0r- fi = -2, a2=o.5, — — - - - - - - - , 1 , , 1 , , 1 , , 1 , , 1 , , 1 , , 1 , , 1 , , 1 , , 1 , Density of Norm(0,1) o co o cg o o o IBA Ä Ä o X I Institut biostatistiky a analýz, PřF a LF MU Přepočet na standardní normální rozdělení • Tzv. Z skóre - kromě statistických výpočtů využíváno např. v diagnostických skóre (osteoporóza) nebo pro srovnávání extrémnosti / průměrnosti proměnných s různými rozsahy nebo jednotkami (např. měření polutantů) • Využití při výpočtu standardizovaných charakteristik (např. kovariance -> korelační koeficient) • Ve vícerozměrné analýze používáno pro dosažení stejné váhy různých proměnných ve výpočtu • Tabelovaná forma -> využití ve výpočtech Objekt Hodnota Standardizovaná hodnota (z) ^^^^ 0.42 X2 3 -0.62 4 x4 7 1.46 2 -1.14 průměr s 1,92 1 G ä, ä o. IBA iß \gg/ m I Institut biostatistiky a analýz, PřF a LF MU Pravidlo 3 sigma • V rozmezí [i ± 3a by se mělo vyskytovat 99,7 % všech hodnot • Vhodné znát pro orientační posouzení rozsahu dat • U proměnných, které nemohou být záporné využití pro orientační posouzení normality IBA . o . o j O . i O o J o Ä. ä o 0.1% 2]1% I -37'3 n 77r\A n niA n 7 7A4 n 17QA n mu n ?«R7 Plocha pod křivkou standardního normálního rozdělení mezi průměrem a hledaným z Zde pro z=0.46 to je 0.1772 (mezi průměrem a z=0.46 leží 17.7% rozdělení) ***Z*>^ I Institut biostatistiky a analýz, PřF a LF MU 48 Využití statistických modelů 1. Máme nějaký znak v populaci, který chceme pro účely analýz nahradit statistickým modelem (de facto to děláme při každém výpočtu průměru, který považujeme za ukazatel středu) 2. Ověříme předpoklad, že je znak rozložen podle daného modelu = Platí vybraný model? Např. vizuální posouzení normality nebo její testování. 3. Spočítáme charakteristiky modelu (průměr a směrodatná odchylka v případě normálního rozdělení) 4. Převedeme na standardní formu modelu (standardní normální rozdělení v případě normálního rozdělení) 5. Využijeme známé vlastnosti rozdělení pro odpověď na položené otázky (distribuční funkce, její hodnoty ve statistických tabulkách) ä, ä o. IBA 5 66) = 1 -P(x < 66) = 1 -P(x-Jn- < 66 60) = 1 -F(0,6) = 0,27425 s 10 Aplikace modelu normálního rozdělení • Kolik kostí mělo zřejmě délku větší než 66 cm ? p{x >66}*n = 0,27425 * 2000 = 548 • Jaký podíl kostí ležel svou délkou v rozsahu x od 60 cm do 66 cm ? P(60" m Rozložení Parametry Stručný popis Beta Parametry distribuční funkce: a - parametr tvaru (3 - parametr rozsahu hodnot Pravděpodobnostní funkce pro proměnnou omezenou rozsahem do intervalu [0; 1]. Je matematicky komplikovanější, ale velmi flexibilní při popisu změn hodnot proměnné v ohraničeném intervalu. Studentovo Stupně volnosti - uvažuje velikost vzorku Průměr Rozptyl Simuluje normální rozložení pro menší vzorky čísel. Pro větší soubory (n > 100) se limitně blíží k normálnímu rozložení. Pearsonovo Stupně volnosti - uvažuje velikost vzorku Slouží především k porovnání četností jevů ve dvou a více kategoriích. Používá se k modelování rozložení odhadu rozptylu normálně rozložených dat. Fisher-Snedecorovo Dvojí stupně volnosti -uvažuje velikost dvou vzorků Používá se k testování hodnot průměrů - F test pro porovnání dvou výběrových rozptylů; F test, ANOVA atd. Lognormální rozdělení • Asymetricky rozložená data - velmi častá v biologii (ale i jinde, např. platy) • Spolu s normálním rozdělením nejčastější model • S rozdělením je spjat geometrický průměr jako ukazatel středu Density of Lnorm(1, 1) o o LO o o fM\ IBA 5^ í * u Průměr Medián, geometrický průměr | Institut biostatistiky a analýz, PřF a LF MU Průměr (logaritmovaných dat) Geometrický průměr Y = Ln [X] Medián Průměr x EXP (Y) = Geometrický průměr X Medián = Průměr _ n v í=i n Y ± Standardní chyba | Institut biostatistiky a analýz, PřF a LF MU Stupně volnosti • Nezávislé jednotky informace • Spjaty s počtem objektů, popřípadě skupin v datech • Klesají s výpočtem každé souhrnné statistiky (=odečítáme od celkového počtu vzniklé závislé statistiky) M_ /VfV%í = Vi /Ilji | Institi iba %A$y yop ^S*^ •^ | Institut biostatistiky a analýz, PřF a LF MU Rozložení dat v populaci (neznámé) 1Y \y R02 :ložení odh; adů *\ prů měrů ze 1C 0 \ vzo rků 20 40 60 80 100 95% Populace: průměr = 60, směrodatná odchylka = 10 Vzorky (N = 100): průměr = 59.9, směrodatná odchylka odhadů průměru= 0.93 ??? 120 Interval spolehlivosti odhadu • Jak jej spočítat? • Empiricky: 2,5% a 97,5% kvantil • Dle modelového rozdělení: • Odhady průměrů mají normální rozdělení • Středních 95% hodnot ohraničuje průměr ± l,96*směrodatná odchylka • Poznámka: popsaný způsob výpočtu intervalu spolehlivosti se používá pouze v počítačových simulacích, ne při reálném vzorkování (zde z výukových důvodů) fffis ä Ä. fBi i 4J# \SBKf *...,Xn Výběrový průměr X 0 R R IBA W 'd * Institut biostatistiky a analýz, PřF a LF MU SDaSE • Směrodatná odchylka (SD) není směrodatná chyba popisné statistiky (SE)! • Směrodatná odchylka (SD) je odrazem variability náhodné veličiny ve sledované populaci. • Směrodatná chyba (SE) je odrazem přesnosti popisné statistiky jako odhadu střední hodnoty náhodné veličiny. • Pozor na rozdíl mezi SD a SE v článcích a knihách - tabulkách a grafech! • Na čem závisí velikost SE (a tedy i šířka intervalu spolehlivosti?) Ä, ä o. IBA ~^>j | Institut biostatistiky a analýz, PřF a LF MU SDaSE • Směrodatná odchylka (SD) není směrodatná chyba popisné statistiky (SE)! • Směrodatná odchylka (SD) je odrazem variability náhodné veličiny ve sledované populaci. • Směrodatná chyba (SE) je odrazem přesnosti popisné statistiky jako odhadu střední hodnoty náhodné veličiny. • Pozor na rozdíl mezi SD a SE v článcích a knihách - tabulkách a grafech! • Na čem závisí velikost SE (a tedy i šířka intervalu spolehlivosti?) • Na velikosti vzorku • Variabilitě (směrodatné odchylce) hodnocené proměnné v populaci • SD populace je daná realitou, ale velikost vzorku je v našich rukou = změnou velikosti vzorku můžeme měnit šíři intervalu spolehlivosti !!!! M_ ľVfV%í fP^éfiS iliil I Institut biostatistiky a analýz, PřF a LF MU iba %A$y MHM *j m I Institut biostatistiky a analýz, PřF a LF MU Příklad - interval spolehlivosti při různých velikostech vzorku • Provádíme vzorkování populace živočichů a chceme odhadnout průměrnou hodnotu sledované proměnné - zkoušíme různé velikosti vzorku • Průměrná délka v populaci = 60, směrodatná odchylka = 10 (tyto hodnoty ve skutečnosti neznáme) n = 10 n = 100 n = 1000 Obecný vzorec výpočtu intervalu spolehlivosti • Interval spolehlivosti lze spočítat pro odhad jakékoliv popisné statistiky (průměr, směrodatná odchylka, procento, korelační koeficient, regresní koeficient, odds ratio atd.) • Pro danou popisnou statistiku musíme znát odpovídající modelové rozdělení jejího odhadu • Obecná rovnice pro výpočet hranic intervalu spolehlivosti (v některých případech může být složitější - asymetrické intervaly spolehlivosti, různá rovnice pro dolní a horní hranici): Bodový odhad ± kvantil modelového rozdělení * střední chyba odhadu í Např. průměr vzorku V případě průměru a 95% intervalu spolehlivosti to je 2.5% a 97.5% kvantil normálního rozdělení = ± 1.96 V případě průměru je vypočtena jako: 5 VAŽ IBA W 'd * Institut biostatistiky a analýz, PřF a LF MU Výpočet odhadu průměru Bodový odhad průměru daného vzorku x • Střední chyba odhadu průměru • Interval spolehlivosti - _ tv=N-l J_ < < - , tv=N-l S X — Li a i ,— S fí S X t ^\-ajr 2 VÄž ... ~ _|_ +v=N-l_ 1 /2 VÄŽ /i: X + t"_a^Sx t - Studentovo rozdělení (používáno namísto normálního při malé velikosti vzorku) v - stupně volnosti, zde počítány jako N-l Co je ? t^ay, v=N-l 2 Kvantil modelového rozdělení, a znamená zastoupení případů, které do intervalu nechceme zahrnout, zde pro 95% interval spolehlivosti je a = 5%, hledáme tedy 97.5% kvantil studentova rozdělení M_ ľVfV%t fi ,/'-.Í ílUli Diostatistiky a analýz, PřF a LF MU iba %ASy yop * Zl-a/2 - ri-°'05/2 — r0,975_Z'ZbZ 95% interval spolehlivosti - výpočet N-l J_ V2 VN fi\x± t^ZÜr1 -j= = 61,5 + 2,262 * 3,207=61,5 +7,256 95% interval spolehlivosti - výsledek 61,5 (54,2 - 68,7) t table with right tail probabilities l(p.df) df\p 0.40 0.25 0.10 0.05 0.02 5 0.01 0.005 I- 0.0005 [ 1 0.260955 0.701722 1.383029 1.B33113 2.26216 2.82144 3.24984 1 ' 4.78Ü9 Při opakovaném vzorkování o N=10 bude odhad průměru s pravděpodobností 0,95 ležet v rozsahu (54,2 - 68,7) M_ ľVfV%t H /IUI I Diostatistiky a analýz, PřF a LF MU iba %ASy yop ^nJUI** •'we* Odhad průměru a jeho intervalu spolehlivosti - příklad 2 • Provádíme vzorkování populace živočichů a chceme odhadnout průměrnou hodnotu sledované proměnné • Vzorek: N = 100, průměr (bodový odhad) 61,5, směrodatná odchylka 10,1 • Jaký je 95% interval spolehlivosti? • Střední chyba odhadu s% — 10,1 = 1,014 Važ VToo • Kvantil modelového rozdělení pro oc=0,05 (1-0,95) tv=N-l _ ^ = 100-1 _ t99 _1 oan h-a/2 — z1-o,os^ — c0)975-i,yt>u 95% interval spolehlivosti - výpočet N-l J_ V2 VAŽ" fi\x± t^ZÜr1 -j= = 61,5 + 1,960 * 1,014=61,5 +1,988 95% interval spolehlivosti - výsledek 61,5 (59,5 - 63,5) t table with right tail probabilities l(p.df) df\p 0.40 0.25 0.10 0.05 0.02 5 0.01 0.005 0.0005 íl n n 1 i n 1 inf 0.253347 0.674490 1.281552 1.644854 1.95996 2.32635 2.57583 3.2905 Při opakovaném vzorkování o N=100 bude odhad průměru s pravděpodobností 0,95 ležet v rozsahu (59,5 - 63,5) M_ ľVfV%t H /IUI I Diostatistiky a analýz, PřF a LF MU iba %A$y yop ^nJUI** •'we* Interval spolehlivosti pro odhad rozptylu Příklad asymetrického intervalu spolehlivosti; modelovým rozdělením je Pearsonovo (chi-kvadrát rozdělení) Pro rozptyl (JV - l)s: ,v=N-l < az < (JV - l)s' ,v=N-l X a/2 x l-a/2 Pro směrodatnou odchylku (N - l)s'< >v=N-l 'a/2 < O < (N - l)s: >v=N-l l-a/2 • Pro střední chybu odhadu průměru (N - l)s: >v=N-l — 'a/2 < - < VAŽ (N - l)s: v=N-l NX\-a/2 Density of Chisq(4, 0) Ä, ä o. IBA ~^>j I Institut biostatistiky a analýz, PřF a LF MU Koncept intervalu spolehlivosti a jeho interpretace: shrnutí • Při výpočtu odhadu popisné statistiky nás zajímá nejenom její vlastní hodnota (bodový odhad) ale také její rozsah spolehlivosti • Interval spolehlivosti lze spočítat pro jakoukoliv statistiku (průměr, směrodatná odchylka, korelace, procentuální zastoupení apod.) • Interval spolehlivosti poskytuje vodítko jak „spolehlivé" jsou naše výsledky a s jakou pravděpodobností jich je možné opakovaně dosáhnout • 95% interval spolehlivosti je rozsah hodnot do nějž se při opakování studie trefíme s 95% pravděpodobností • Tvrzení, že v rozsahu 95% intervalu spolehlivosti leží s 95% pravděpodobností skutečný průměr populace není pravdivé, skutečný průměr populace neznáme !!! Průměr (odhadovaný parametr) • Interval spolehlivosti závisí na: • Velikosti vzorku • Variabilitě dat • Požadované spolehlivosti Rozložení odhadu pro N=10 Rozložení odhadu pro N=100 IBA W 'd * Institut biostatistiky a analýz, PřF a LF MU Poznámka k intervalu spolehlivosti • Interval spolehlivosti počítá pouze s variabilitou danou náhodným výběrem, nepočítá se zdroji systematického zkreslení. • Příklady: • Měření koncentrace polutantu nebo krevního tlaku může být systematicky zkresleno starým měřidlem („technical bias"). • Měření koncentrace polutantu může být systematicky zkresleno výběrem pouze čistých nebo pouze kontaminovaných lokalit („selection bias") • Měření krevního tlaku může být systematicky zkresleno tím, že se do studie přihlásí pouze určitá skupina osob („selection bias") Ä, ä o. IBA ~^>j I Institut biostatistiky a analýz, PřF a LF MU Základy testování hypotéz Princip statistického testování hypotéz Testová statistika a statistická významnost Chyby statistického testování Anotace • Testování hypotéz je po popisné statistice druhým hlavním směrem statistických analýz. Při testování pokládáme hypotézy, které se snažíme s určitou pravděpodobností potvrdit nebo vyvrátit. • Tzv. nulovou hypotézu lze nejlépe popsat jako situaci, kdy předpokládáme vliv náhody (rozdíl mezi skupinami je pouhá náhoda, vztah dvou proměnných je pouhá náhoda apod.), alternativní hypotéza předpokládá vliv nenáhodného faktoru. • Výsledkem statistického testu je v zásadě pravděpodobnost nakolik je hodnocený jev náhodný nebo ne, při překročení určité hranice (nejčastěji méně než 5% pravděpodobnost, že jev je pouhá náhoda) deklarujeme, že pravděpodobnost náhody je pro nás dostatečně nízká abychom jev prohlásili za nenáhodný • Statistická významnost je ovlivnitelná velikostí vzorku a tak je pouze indicií k prohlášení např. rozdílu dvou skupin pacientů za skutečně významný. V ideální situaci je nezbytné aby rozdíl byl významný nejenom statisticky (=nenáhodný), ale i prakticky (=nejde pouze o artefakt velikosti vzorku). Ä, ä o. IBA ~^>j | Institut biostatistiky a analýz, PřF a LF MU Statistické testování neznamená průkaz kauzality !!!! • Výsledek statistického testování neznamená kauzální prokázání nebo neprokázání vztahu, jde pouze o indicii k našemu rozhodování. ä, ä o. IBA 5=> Měření parametru Stanovení hypotézy • Nulová hypotéza („null hypothesis") - tvrzení o neznámých vlastnostech rozdělení pravděpodobnosti sledované náhodné veličiny (znaku, vlastnosti) týkající se cílové populace. • Nulová hypotéza má tvar: H0:9 = 90 • Nulová hypotéza obecně říká, že rozdíl není, popřípadě, že rozdíl je tak malý, že jej můžeme považovat za náhodný -> základní otázkou testování tak je „jak definovat co je pro nás „dostatečně" náhodné?" • Alternativní hypotéza - tvrzení o neznámých vlastnostech rozdělení pravděpodobnosti sledované náhodné veličiny, které popírá platnost nulové hypotézy. Vymezuje, jaká situace nastává, když nulová hypotéza neplatí. • Alternativní hypotéza má tvar: Hx\6 ±0{ H,\6Ql o IBA W 'd * Institut biostatistiky a analýz, PřF a LF MU Příklady hypotézy • Liší se lokality poblíž lidských sídel od lokalit v chráněných rezervacích co do míry znečistení? Míra znečištění na lokalitách poblíž sídel: 0X HQ\6l = 62 Míra znečištění na lokalitách v rezervacích: e2 Hl\0l^62 • Je efekt snížení systolického tlaku novým antihypertenzivem stejný u hypertoniků, kteří kouří, jako u hypertoniků, kteří nekouří? Střední hodnota efektu u kuřáků: #i #0 =#2 Střední hodnota efektu u nekuřáků: 92 Hl:Gl je stanovena obvykle jako opak toho, co chceme experimentem prokázat. • Nulová hypotéza je postavena tak, abychom ji mohli pomocí pozorovaných hodnot vyvrátit. • Pro zamítnutí platnosti nulové hypotézy nám totiž stačí najít jeden příklad, kdy nulová hypotéza neplatí-tím příkladem má být náš náhodný výběr (naše pozorovaná data). • Zamítnout nulovou hypotézu je jednodušší než nulovou hypotézu potvrdit. ä, ä o. IBA 5j I Institut biostatistiky a analýz, PřF a LF MU Postup statistického testování • Formulujeme nulovou hypotézu H0 (sledovaný efekt je nulový) • Formulujeme alternativní hypotézu HA(sledovaný efekt je různý mezi skupinami) Alternativní hypotéza u parametrických testů může být oboustranná nebo jednostranná. • Hypotéza musí být stanovena tak abychom mohli vybrat a spočítat tzv. testovou statistiku (např. hypotéza o průměrech bude pravděpodobně řešena pomocí t-testu, jehož testová statistika má t rozdělení) • Hodnotu testové statistiky vypočítáme na základě pozorovaných hodnot • Vypočtenou testovou statistiku porovnáme s jejím rozdělením (= rozdělení náhodných rozdílů), posoudíme náhodnost rozdílu a vyslovíme závěr o zamítnutí / nezamítnutí H0 ä, ä o. IBA 5j | Institut biostatistiky a analýz, PřF a LF MU Na čem závisí hodnota testové statistiky? Máme dvě skupiny hodnot, každá je popsána svojí velikostí, průměrem a směrodatnou odchylkou ovlivňuje významnost rozdílu jejich průměrů? Rozdíl = 10,6 - co N = 100 Průměr = 59,4 SD = 9,4 0 20 40 0 80 íoo i: N = 100 Průměr = 70,0 SD = 10,5 • Na velikosti vzorku (větší vzorek = větší významnost) a směrodatné odchylce (větší variabilita významnost) - ovlivňují spolehlivost s jakou odhadujeme srovnávané průměry • Na velikosti rozdílu mezi srovnávanými průměry (větší rozdíl = větší významnost) = menši ä. ä o IBA | Institut biostatistiky a analýz, PřF a LF MU Testová statistika • Testová statistika kombinuje velikost rozdílu s dalšími charakteristikami dat (velikost vzorku, variabilita atd.), jde vlastně o rozdíl vážený dalšími charakteristikami • Hodnota testové statistiky je ve vazbě na významnost rozdílu • Pro finální rozhodnutí o významnosti rozdílu je nezbytné testovou statistiku porovnat s jejím rozdělením náhodných rozdílů (= jaké by bylo rozdělení této statistiky, kdyby byl rozdíl náhodný) Rozdíl = 10,6 N = 100 Průměr = 59,4 SD = 9,4 0 20 40 0 80 K )0 i; N = 100 Průměr = 70,0 SD = 10,5 IBA I Institut biostatistiky a analýz, PřF a LF MU Dva způsoby získání rozdělení testové statistiky • Testová statistika představuje rozdělení náhodných rozdílů, lze ji získat dvěma způsoby • Aproximací na modelové rozdělení • „standardní" postup, výhodou je snadný výpočet, citlivé na nedodržení předpokladů o rozložení dat • Různé testy mají své rozdělení náhodných rozdílů popsány různými mdolovými rozděleními (např. t-test pomocí t-rozdělení, test dobré shody pomoci Pearsonova (chi-kvadrát rozdělení) • Permutační metody • Rozdělení náhodných rozdílů je získáno pomocí počítačové simulace buďvšech možných nebo zadaného počtu náhodných situací • Vhodné pro malé velikosti vzorku nebo situace, kdy není možná aproximace na modelová rozdělení • Náročné na výpočetní výkon (v současnosti stále menší problém) • Výukově názorné M_ľVfV%í =Vi /lilii |nstiti IBA M' W Způsoby testování • Testování HO proti HA na hladině významnosti a můžeme provést třemi různými způsoby: 1. Kritický obor (označení W) neboli obor zamítnutí HO, 2. Interval spolehlivosti, 3. P-hodnota. Příklad: permutačnítestování Hodnotíme velikost dvou druhů žab, od každého druhu jsme vzorkovali 100 jedinců. Příklad: permutačnítestování Hodnotíme velikost dvou druhů žab, od každého druhu jsme vzorkovali 100 jedinců. N=100 N=100 N=100 Náhodné promíchání N=100 o-o-o- M O Cd Jaký je nejpravděpodobnější rozdíl mezi skupinami po náhodném promíchání? M_ ľVfV%t = Vi /Ilji I Institi iba %A$y yop ^nJSI** •'we* Příklad: permutačnítestování Hodnotíme velikost dvou druhů žab, od každého druhu jsme vzorkovali 100 jedinců. Výsledky při různém počtu permutací • Se zvyšujícím počtem permutací pozorujeme vytváření rozdělení náhodných rozdílů N = 10 N = 100 N = 1000 Náhodné rozdíly vs. pozorovaný rozdí Náhodné rozdíly _ \ľ% J*IUI | Institut biostatistiky a analýz, PřF a LF MU 'BA ví£^' '^iii/ Rozložení náhodných rozdílů a jeho využití pro testování • Stanovíme si kritický obor testové statistiky = s jakou pravděpodobností náhodného vzniku pozorovaného rozdílu jsme schopni se smířit při zamítnutí nulové hypotézy (tedy prohlášení, že rozdíl nepovažujeme za náhodný) • Nejběžněji se používá kritický obor testové statistiky vedoucí k pravděpodobnosti náhodného rozdílu 0.05 nebo 0.01 (tzv. hladina statistické významnosti, nejde o přírodní zákon, pouze o domluvu) • Náš skutečný rozdíl porovnáme s rozložením náhodných rozdílů a stanoveným kritickým oborem této statistiky • Pokud skutečný rozdíl leží v kritickém oboru, říkáme, že na dané hladině významnosti zamítáme nulovou hypotézu • Pro danou hodnotu testové statistiky jsme schopni určit i přesnou pravděpodobnost s jakou existují náhodné rozdíly větší než je náš pozorovaný rozdíl = pravděpodobnost, že námi pozorovaný rozdíl je pouhá náhoda ä, ä o. IBA 5\/ t-i-1-1-r -4 -2 0 2 4 -> <-> <- Padne-li testová Padne-li testová Padne-li testová statistika sem statistika sem statistika sem - zamítáme H0 - nezamítáme H0 - zamítáme H0 Rozdělení náhodných rozdílů: - Bud' příslušné modelové rozdělení - Nebo výsledek simulace Zamítnutí nulové hypotézy: • Naše testová statistika spadá do kritického oboru • Odvozená přesná hodnota p je menší než s kritickým oborem spjaté p ä, ä o. IBA I Institut biostatistiky a analýz, PřF a LF MU Testování pomocí intervalů spolehlivosti NEW TREATMENT BETTER Superior i-H-1 Noninferior ■—m— Inconclusive -H— NEW TREATMENT WORSE- Noriinferior H-' Noninferior?" i-H-1 Inconclusive -Q- Inconclusive?"1" i-H o Inferior i-Gl-1 A Treatment Difference for Adverse Outcome {New Treatment Minus Reference Treatment) • Principem testování pomocí intervalů spolehlivosti je výpočet intervalu spolehlivosti pro daný rozdíl nebo míru vztahu proměnných a porovnání s referenční hodnotou (např. 0 v případě rozdílu). • Pokud interval neobsahuje tuto referenční hodnotu, jde o ekvivalent prokázání statistické významnosti rozdílu na dané hladině významnosti (95% interval spolehlivosti je ekvivalentní hladině významnosti 0.05) Source: Piaggio G, Elbourne DR, Altman DG, Pocock SJ, Evans SJ; CONSORT Group. Reporting of noninferiority and equivalence randomized trials: an extension of the CONSORT statement. JAMA. 2006 Mar 8;295(10):1152-60. Statistics and Informatics Services Group, Department of Reproductive Health and Research, World Health Organization, Geneva. IBi i 4J# \SBKf ^nJUI** •'we* IUI I Institut biostatistiky a analýz, PřF a LF MU Možné chyby při testování hypotéz s1XS>* síFäs «f.™^ s\mt\ ff% j IUI f institut biostatistiky a analýz, PřF a LF MU IBA ^ Co se při rozhodování může stát • Vzhledem k nulové hypotéz máme čtyři možnosti výsledku rozhodovacího procesu: Rozhodnutí Skutečnost H0 platí H0 neplatí H0 nezamítneme správné přijetí platné nulové hypotézy chyba II. druhu H0 zamítneme chyba 1. druhu správné zamítnutí neplatné nulové hypotézy • Při rozhodování se můžeme mýlit, můžeme se dopustit dvou chybných úsudků. ä, ä o. IBA 5 předem stanovíme maximální hranici pro a (hladina významnosti testu, „level of significance") a za této podmínky minimalizujeme p. ä, ä o. IBA 5 princip výpočtu velikosti experimentálního vzorku před provedením studie • Optimalizovat sílu testu a velikost vzorku předem není triviální, můžeme narazit na spoustu problémů - biologické limity, etické limity, finanční limity. ä, ä o. IBA 5 sníží se síla testu. ä, ä o. IBA 5