MU CENTRUM BIOSTATISTIKY A ANALÝZ CBA Lékařská a Přírodovědecká fakulta, Masarykova univerzita ŕ http://www.cba.muni.cz O http://www.cba.muni.cz/vyuka BioStatistika na Přf a LF MU - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Centrum biostatistiky a analýz »Pracoviště specializované na analýzu biologických dat »Výuka analýzy biologických dat - řada kurzů Ladislav Dušek - dusek@cba.muni.cz Jiří Jarkovský -jarkovsky@cba.muni.cz VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Kurz biostatistiky Sada přednášek pokrývajících základní oblasti analýzy biologických dat, zejména z praktického hlediska: - Způsoby ukládání dat, typy dat a jejich statistický popis - Hypotézy o datech a jejich testování - Vztahy proměnných a jejich statistické hodnocení - Predikce a příčinné vztahy proměnných - Grafické zobrazení dat a výsledků analýz - Příklady aplikace na reálných datech - Přehled základních statistických SW - Složitější metody statistické analýzy - přehled metod Cyklus přednášek ukončen zkouškou - Písemná zkouška - příklady - Zaměřeno na postup řešení, číselný výsledek méně významný VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ CfiA VYUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ CfiA BIOSTA TISTIKA - BIOMETRIKA Věda zabývající se hodnocením biologických dat = záznamů o biologických systémech a jejich chování Malá data Velká data Obrovská data H Umění prodat y Umění pochopit Umění uchopit VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ CfiA DATA - ukázka uspořádání datového souboru Parametry (znaky) Pacient Človek aLeu aTy% aSe% al\leu% al_y% aTy aSe aNeu al_y aHtc aCLsk aCLNeus aCLOZ aCLNeuO cell. 106/ % % % % cell. 106/ cell. 106/ cell. 106/ cell. 106/ % mV.s.103 mV.s.103 mV.s.103 mV.s.103 3 1 4 33 72 32 4 2 7,6 8 58 66 24 0,6 4,4 5,0 1,8 33 95 19 48 10 8 3 4 3 52 55 40 0,1 2,1 2,2 1,6 22 77 35 33 15 11 4 6,1 5 59 64 35 0,3 3,6 3,9 2,1 33 103 26 49 13 12 5 6,9 3 85 88 9 0,2 5,9 6,1 0,6 37 81 13 45 7 14 6 5,9 15 55 70 19 0,9 3,3 4,1 1,1 32 137 33 61 15 16 7 8 18 75 93 7 1,4 6,0 7,4 0,6 34 151 20 59 8 20 8 9,6 3 72 75 23 0,3 6,9 7,2 2,2 40 77 11 38 5 21 9 6 10 67 77 19 0,6 4,0 4,6 1,1 32 120 26 52 11 22 10 3,3 4 55 59 39 0,1 1,8 2,0 1,3 28 81 42 24 12 37 11 3,8 10 60 70 30 0,4 2,3 2,7 1,1 32 111 42 29 11 38 12 6,4 2 76 78 17 0,1 4,9 5,0 1,1 25 366 73 115 23 39 13 6,8 1 57 58 39 0,1 3,9 3,9 2,7 20 234 59 71 18 49 14 8,5 7 67 74 26 0,6 5,7 6,3 2,2 30 156 25 108 17 51 15 9,3 7 57 64 35 0,7 5,3 6,0 3,3 35 129 21 23 4 52 16 2,2 10 56 66 34 0,2 1,2 1,5 0,7 33 46 30 12 8 55 17 9,9 3 78 81 10 0,3 7,7 8,0 0,1 30 189 24 140 18 56 18 5 2 80 82 13 0,1 4,0 4,1 0,7 26 101 25 54 13 6 1 8,8 11 72 83 12 1,0 6,3 7,3 1,1 44 268 36,6 145 19,9 9 2 9,2 2 66 68 28 0,2 6,1 6,3 2,6 42 168 26,9 76 12,2 13 3 10,0 7 83 90 8 0,7 8,3 9,0 0,8 54 181 20,1 81 9 15 4 9,6 1 75 76 23 0,1 7,2 7,3 2,2 45 343 47 124 16,9 17 5 6,0 45 40 21 19 6 7,2 2 78 80 18 0,1 5,6 5,8 1,3 44 103 17,8 63 10,9 24 7 8,2 1 72 73 25 0,1 5,9 6,0 2,1 41 209 34,9 57 9,6 26 8 10,3 1 85 86 3 0,1 8,8 8,9 0,3 41 364 41,1 112 12,6 29 9 5,0 1 74 75 21 0,1 3,7 3,8 1,1 39 83 22,1 32 8,5 30 10 11,9 1 51 52 47 0,1 6,1 6,2 5,6 33 83 13,4 52 8,4 31 11 7,2 3 53 56 29 0,2 3,8 4,0 2,1 28 109 27,1 63 15,5 32 12 10,8 36 50 76 8 3,9 5,4 9,3 0,9 27 146 15,7 106 11,4 33 13 11,8 22 54 76 16 2,6 6,4 9,0 1,9 45 246 27,4 63 7 34 14 17,0 1 82 83 16 0,2 13,9 14,1 2,7 34 440 31,2 119 8,4 40 15 10,0 8 72 80 4 0,8 7,2 8,0 0,4 37 176 22,0 52 6,5 VYUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ CfiA BIOSTATISTIKA - BIOMETRIKA Pacient Človek aLeu aTy% aSe% aNeu% aLy% aTy aLy aHtc aCLsk aCLNeus aCLOZ aCLNeuO Data 1.0 0.8 0.6 0.4 0.2 0.0 I_________I 1,600 I I 1,800 I I 2,000 en 2,200 CZI 2,400 ĽZI 2,600 i i 2,800 i i 3,000 i i 3,200 i i 3,400 i i above CZI CZI CZI 0J000 ~f 1500 ■- 3,000 _ . 4500 I 3500 - 6,000 I 75OO J 3000 I 9,000 IO5OO 2500 12,000 13500 2000 above 0 Dávka pros tinu (mg) 100 200 300 400 Schopnost: vidět data - komunikovat - interpretovat - prodávat VYUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ CfiA BIOSTA TISTIKA - BIOMETRIKA Věda zabývající se variabilitou ümibJJJhi üüiiküViirivJn ;íjj /\/\y LU Data 2,1 2,8 3,2 1,2 5,2 2,9 chyba l o A 165 cm 140 cm 182 cm 163 cm rozptyl znaku, přirozená variabilita Variabilita ve skladbě logických společenstev DRUH 1 15 DRUH 2 30 DRUH 3 40 DRUH 4 14 ♦ biodiverzita VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ CfiA Pojem VARIABILITA má mnoho významu .... a ty určují přístup k jejímu hodnocení Maskování a minimalizace vlivu a Rešpektovania odhadování vlivu Přímé využití k predikcím chování systému VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Variabilita = základ „biologického principu neurčitosti u -\- existuje pravděpodobnost výskytu jevů (nedeterministické závěry) <{> „vše je možné": pouze jev s pravděpodobností 0 nikdy nenastane <{> pravděpodobnost lze zkoumat retrospektivně i prospektivně pravděpodobnost výskytu Á n Ľ-U-U 1 n 4 n 4 cp(x)4 x počet chlapců v rodině s X dětmi plocha = pravděpodobnost výskytu výška postavy VYUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ CfiA X3 13 BIOSTA TISTIKA - BIOME TRIKA Věda přinášející novou kvalitu Popisná analýza dat („exploratorní" analýzy) Data mining („investigativní" analýzy) YD YD YD Srovnávací analýzy, testy hypotéz YD Experimentální plány („experimental design") YD QA/QC Stochastické modelování, hodnocení prognóz Vícerozměrné analýzy, „pattern recognition" YD Analýza biodiverzity (species community associations,....) YD Analýza časových řad, analýzy trendů Analýza biomedicínských dat VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ CfiA Experimentální design: nezbytná výbava biologa Účel analýzy: Popisný cílová populace \w/ výběr dle optimálního plánu I reprezentativní vzorek n jedinců (faktor F) * měření znaku OOooOOOoOo väriäbiiita hodnot ve výběrovém souboru VÝSLEDKY .................... o > 0 o Q. -•—■" O > '■*—» (0 -•—» (U N (U s_ Q. (U a: >LU > < N Reprezentativnost Spolehlivost Přesnost 4) oO •O ... analyzovaný znak cílové populace (X) ... jiný významný faktor charakterizující cílovou populaci (F) VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ CfiA Experimentální design: nezbytná výbava biologa Účel analýzy: Srovnávací (2 ramena) cílová populace <.................. \ W// výběr subjektů pro vstup do hodnocení / studie V. J ----------------Y---------------- RANDOMIZACE vzájemně srovnatelné vzorky (faktor F) rameno A rameno B * měření znaku X OooOO ........................................► <......................................... variabilita hodnot X variabilita hodnot X oOoOo v rameni A v rameni B VÝSLEDKY < i ° 2 > -I—» s- CO "° c N m i— N - (D •f-> s_ 00 Q_ O 0 C i- Q. - O c .C O 00 (0 (0 00 £ ° O c ^ "05 il •gm < N -© oOO ... analyzovaný znak cílové populace (X) •• ... jiný významný faktor charakterizující cílovou populaci (F) Srovnatelnost Přesnost VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ CfiA Stochastické modelování: predikce neurčitých jevů ^ Prospektivně - modelově - postihuje chování jevů při respektování variability Pravděpodobnostní vztahy Anamnéza x Výsledek vyšetření pacienta Karcinom Benigní leze Benigní riziková Zdravá Pozitivní anamnéza 2,22 34,44 0,00 63,33 100% Negativní anamnéza 1,06 28,23 0,96 69,75 100% p < 0.05 Markovovy řetězce P(ii-iii) Stav II Stav III P(III-IV) Stav IV P(i-ii) Stav I P(IV-I) Vícerozměrná diskriminace Znak Xi -,o8 ° o oe o ďh' o o6 cQs O£o e«» o Znak X2 Logistické modely ZnakX Funkční vztahy znaků Znak Y Znak Y ZnakX ZnakX Chování systému v čase Znak (y) Cas (t) VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ CfiA Stochastické modelování: predikce neurčitých jevů O 10 20 30 40 50 60 70 80 OsaX Parametr nebo kombinace parametrů Data konkrétních pacientů (subjektů) k přímému hodnocení VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ CfiA Pravděpodobnostní prediktivní modely Maligní lymfomy: Pravděpodobnost časného reiapsu Stádium I -II Stádium III - IV % Grade O Grade 2 1 0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Index Mitosis / (Apoptosis + 0.5) Schopnost: vytvářet prakticky využitelné nástroje VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Vícerozměrné vnímání skutečnosti - nová kvalita analýzy dat n skupina 1 oo ° skupina 2 X2 í X2 H—► J + J Vícerozměrný ü yssístn Klasická jednorozměr analýza í—► skup. 1 skup. 2 skup. 1 skup. 2 VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ CfiA Biologové analýzou dat proti variabilitě nebojují ! INFORMACE VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ CBA Běžná sumarizace dat „likviduje" individualitu jedince ® ^ x o o o t A A A A A _0_. . 5ř Prumer ± SE \f \f F BEZNA STATISTICKÁ SUMARIZACE s Zpřehlednění dat s Neodlišípůvodní měření VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ CBA Vícerozměrné hodnocení & D i i i i i i i i ... s ohledem na individualitu ! Xj_ x2 • ••• • •- ••• •• • • • • •• •• • • •*• • •« • ••• • • :?. • •• •• • VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ CBA Vícerozměrné hodnocení- nová kvalita Pouze kombinované parametry mají odpovídající informační sílu BBB BBrBBB A"b_BBb">, Xi příklad: X1 = VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ CfiA Vícerozměrné hodnocení vychází z jednoduchých principů příklad: vícerozměrná vzdálenost měření mezi dvěma objekty (body) \22 ^21 D — ^22 ™ ^21 "" ^2 x, VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ CfiA Vícerozměrné modelování je strategickou disciplínou VYUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ 2. Data a jejich prezentace -základ statistické analýzy - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Zásady pro ukládání dat Správné a přehledné uložení dat je základem jejich pozdější analýzy Je vhodné rozmyslet si předem jak budou data ukládána Pro počítačové zpracování dat je nezbytné ukládat data v tabulární formě Nejvhodnějším způsobem je uložení dat ve formě databázové tabulky - Každý sloupec obsahuje pouze jediný typ dat, identifikovaný hlavičkou sloupce (např. rozepsané taxonomické zařazení, abundance, místo a vlastnosti odběru atd.) Taxon Abundance Lokalita etc. N 1 Takto uspořádaná data je v tabulkových nebo databázových programech možné převést na libovolnou výstupní tabulku VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Grafická prezentace dat- umění komunikace 1. Výskyt kategorií (1, 2, 3,) Koláčový (výsečový) graf Sloupcový graf H Řada2 Sloupcový graf H Řada2 >o O Q. O .O < 40 20 % 100 50 2. Vývoj hodnot (v čase) Y vs. X (t) 40% 30% D3 Spojnicový graf _ Rada Bodový graf -Rada 30 15 1 2 3 10 20 X 30 1 0 5 10 15 20 25 X Plošný graf ■ Řada2 10 20 X VYUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ CfiA Grafická prezentace dat - umění komunikace 3. Vztahy mezi proměnnými - korelace X1 Bodový - korelační diagram Bodový - korelační diagram >•• .rf 4P X1 1 2 3 10 20 X2 ■■■■■Im 0 5 10 15 20 25 X2 X1 1 2 3 10 20 X2 Rada2 f' Ž _> 3 o% *8 3) C o . o£ D0 0 ° 0 m oo ° o Re IlJjk 3 °0 X2 °S„5J(6„c * °8 „ crf^lft llllllm -'CD $0 3o «o „;«»»?»„ t 0) ° n C .lilii ; »n* iL VYUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ CfiA Grafická prezentace dat - umění komunikace 4. Kvantitativní hodnoty parametru(ů) -X-v rámci kategorií A, B, C Krabicový graf Sloupcový graf X 40 20' Rada2 X 100 50 Řada2 II (I n V. v v. v' v ^ VYUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ CfiA Grafická prezentace dat - uměni komunikace 7. Vztahy mezi proměnnými - interakce dvou parametrů, reakční plochy 18 f 16 14 12 10 8 6 k 2 0 y- VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ CfiA Grafická prezentace dat - umění komunikace 8. Grafické zviditelnění má nekonečně mnoho možností ooooooooo; ooooooooooooooooooooo BUNKY2 BUNKY1 ENZYM2 ÜÜÜÜÜÜÜÜÜ OOOOOOOOOOOOOOOOOOOOO BUNKY2 BUNKY1 ENZYM2 30 25 20 15 10 5 • . • -^ • >y^ • • ly0^"^ '■ • i/n • *^^ • 10 15 20 25 30 35 40 45 50 0 4 ENZYM 1 Caserase8Case7 Case%se2@ase2?Se25 ] BUNKY2 ] BUNKY1 ] ENZYM2 Case £pase ^^e 7 Case 20 \^ Case 21 Case ^ase 23ase 2^T BUNKY2 BUNKY1 ENZYM2 Stacked Plot (DISKRIM.STA 7v*30c) 900 800 700 ] 600 500 400 300 200 100 0 1 BUNKY1 333333 TI ENZYM2 VYUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ CfiA Nesprávné užití grafu -problém rozsahu číselné osy The soaraway Post — the daily paper New Yorkers trust < 1JI1J0Ô l«il IMS 2,000,000 O I— 1,000.000 o The Post struggles to catch up i NEWS POST I 1 1977 1978 1979 1980 1981 VYUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Nesprávne užití grafů - grafické zastírání trendu ** "M* -* VYUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ CfiA Nesprávne užití grafů -problém standardizace hodnot o «J 1 ■o g I 1330 1940 1950 1960 1970 1950 VÝUKA: Biostatistika - základní kurz ■o o ■o O c T3 O l. -flj C O k. X m c j u o 60 ' 50 — 40 30 * 20 — l i yv^*# 10 ■ 0 L 1 1 I 1 1111 1 1 1 ' 1 1 LA 1 t 1 1 1 1 1 ! 1 1 1930 1940 1950 1960 1970 1980 CENTRUM BIOSTATISTIKY A ANALÝZ CfiA Grafy zaměřené na vícerozměrné soubory dokáží zviditelnit i veliké soubory dat 6 a 10 12 13 14 15 15 17 IQ VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ CfiA 3. JAK vznikají informace - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Primárním důvodem analýzy dat je získání nezkreslené a přehledné INFORMACE Ukázka uspořádaného datového souboru dslo stálím vek tnan1_3 tnan1_4 | tran1_5 tnan1_6 albjtsct Iďvvstip stemm typ rryel 1 3 33 104.36 23.2 4 104.3 57.77 33 6.02 0.4 IcP 2 3 33 184.88 7.84 \ 105.5 13.82 26 4.01 30 IcP 3 1 34 123.41 9.8 73.3 13.05 32 3.73 45.2 igG 4 2 43 5217 6.66 i 18.03 17.19 42 4.67 40.8 igG 5 1 45 8.22 22 8.22 32 8.25 2 BJ 6 3 45 403.03 115.31 29.7 7.17 38.8 igA 7 2 49 4.5 1225 34 4.99 6.4 igG 8 2 50 33.13 9.61 33.13 35 3.99 _L4 lc£ 9 3 52 257.06 120 Primární data ■» 10 2 53 78.33 11.3 . 11 3 53 61.43 4.67 BJ 12 3 53 135.8 6.7 135.8 59.3 38 26 IcP 13 3 54 129.16 13.3 3 926 38.24 32 4.18 20 igG 14 3 54 66.89 6.74 \ 33.58 17.3 38 8.44 7.2 BJ 15 3 54 8286 4.32 ! 18.9 16.4 37 3.6 50 BJ 16 3 55 71.37 6.34 \ 23.91 5.34 43 8.75 27 BJ 17 3 60 14.6 0.9 14.6 11.88 44 5.35 7.5 igG 18 3 61 94.07 5.62 ! 94.07 1.51 33 4.29 6.4 BJ 19 3 62 86.84 7.52 ( 3213 261 29 4.55 34 igA Sumarizace v jedné skupině („one-sample") ve dvou skupinách („two-sample") ve více skupinách („multiple sample") VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ CfiA JAK vznikají informace ? - základní pojmy Skutečnost Pozorovatel m Náhoda (vybere jednu z možností pokusu) Jev podmnožina všech možných výsledků pokusu/děje, o které lze říct, zda nastala nebo ne Rozliší, co nastalo a) podle možností b) podle toho, jak potřebuje Jevové pole třída všech jevů, které jsme se rozhodli nebo jsme schopni sledovat Skutečnost + Jevové pole = Měřitelný prostor Experimentální jednotka - objekt, na kterém se provádí šetření Populace - soubor experimentálních jednotek Znak - vlastnost sledovaná na objektu Sledovaná veličina - číselná hodnota vyjadřující výsledek náhodného experimentu Znak se stává náhodnou veličinou, pokud se jeho hodnota zjišťuje vylosováním objektu ze základního souboru Výběr - výběrová populace - cílová populace Náhodný výběr Reprezentativnost VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ CfiA JAK vznikají informace ? .Classical approach1 n °3- 0.2 -0.1 - Empirický postup • • n = 10 • • 0 12 3 4 5 6 n n = 50 0.3 -i 0.2 ■ i t i» 0.1 - • • • • 0 12 3 4 5 6 možné jevy: čísla 1-6 n °-3- 0.2 ■ 0.1 - n = oo 0 12 3 4 5 6 n - počet hodů (opakování) U složitých stochastických systémů se pravda získá až po odvedení značného množství experimentální práce: musíme dát systému šanci se projevit VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ CfiA JAK vznikají informace ? Empirický postup • • f n = 10 f n = 50 n 0.3 -i < ' • n 0.3 -i 0.2 - i i 0.2 ■ (i < 0.1 -0 - < ------•- < i 0.1 ■ 0 - • • • • 0 12 3 4 5 6 n °-3- 0.2 ■ 0.1 ■ 0 12 3 4 5 6 n = oo 0 12 3 4 5 6 možné jevy: čísla 1-6 n - počet hodů (opakování) Při realizaci náhodného experimentu roste se zvyšujícím se počtem opakování pravdivá znalost systému (výsledky se stávají stabilnější) .... diskutabilní je ale ovšem míra zobecnění konkrétního experimentu VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ CfiA Pravděpodobnost Empirický zákon velkých čísel Při opětovné nezávislé realizaci téhož náhodného experimentu se podíl výskytů sledovaného jevu mezi všemi dosud provedenými realizacemi zpravidla ustaluje kolem konstanty. je libovolná reálná funkce definovaná na jevovém poli A, která každému jevu A přiřadí nezáporné reálné číslo P(A) z intervalu 0 -1. A d \ Z praktického hlediska je P " / pravděpodobnost D ^y idealizovaná relativní četnost P(A) \------------------------------H 0 r..................................................................................1.....................................................................................................: P (A) = 1 .................................jev jistý P (A) = 0.................................jev nemožný P (A n B) = P (A). P (B)............. nezávislé jevy P (A n B) = P (A). P (B/A) ...........závislé jevy P (A/B) = P (A n B) / P (B)..........podmíněná pravděpodobnost VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ gjj 4. Základní typy dat - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Jak vznikají informace ? - různé typy dat znamenají různou informaci Data poměrová Kolikrát ? | Data intervalová O kolik ? Data ordinální Data nominální Kategoriální otázky íhťíii Rovné se ? Otázky „Ano/Ne" Podíl hodnot vetsi/mensi než specifikovaná hodnota ? Procenta ) odvozené hodnoty Samotná znalost typu dat ale na dosažení informace nestačí VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ CfiA Jak vznikají informace ? - různé typy dat znamenají různou informaci Statistika středu Data poměrová PRUMER Data intervalová Data ordinální MEDIAN Data nominální MODUS Spojit data Y = f X VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ JAK vznikají informace ? - opakovaná měření informují rozložením hodnot Y: frekvence - absolutní / relativní -X A B c D iv v CO se naměřilo *♦- X: měřený znak Diskrétní data Spojitá data VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ D Příklad I: Příklad II Odvozená data Pozor na odvozené indexy ZnakX: Hmotnost Znak Y: Plocha 0 X: Průměrný počet výrobků v prodejně Y: Odhad prostoru průměrně nabízeného k vystavení výrobku průměr ; (min - max) X: 1,2 : (1,15-1,24) + / - 3,8 % Y: 1,8 : (1,75-1,84) + / - 2,5 % (115 1 24 \ + / - 6,2 % Nová veličina má jinou šířku rozpětí než ty, ze kterých je odvozená VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ CfiA Jak vznikají informace ? - frekvenční tabulka jako základní nástroj popisu DISKRÉTNÍ DATA rimární data o O O x— II Q. "O O .N Q. (D O 0 0 1 2 1 1 3 1 1 2 Frekvenční sumarizace N: 100 dětí (hemofiliků) x: znak: počet krvácivých epizod za měsíc x n(x) P(x) N(x) F(x) 0 20 0,2 20 0,2 1 10 0,1 30 0,3 2 30 0,3 60 0,6 3 40 0,4 100 1,0 n = 100 n(x) - absolutní četnost x p(x) - relativní četnost; p(x) = n (x) / n N(x) - kumulativní četnost hodnot nepřevyšujících x; N(x) = 2 n(t) t Intervalová hustota četnosti F(x) > Intervalová relativní kumulativní četnost VYUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Histogram = standardní nástroj zviditelnění spojitých dat ► DataX: 14,1; 8,4; 12,1; 18,2; 20,4;............ n Setřídění dat podle velikosti Kategorizace hodnot X - vytvoření intervalů ► Frekvenční tabulka Histogram ■i Absolute frequency histogram" fix) = -21Ü-Tlx' d(l) "Relative frequency histogram" r/„v _ nm / n TW d(l) VYUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Spojitá data - postup frekvenčních analýz Aktivita enzymu (X) • I. Utřídit podle velikosti • II. Rozdělit do intervalů o rozumné šířce • III. Vyhodnotit počty hodnot v jednotlivých intervalech - absolutní četnosti • IV. Vyhodnotit podíly (relativní četnosti) hodnot v jednotlivých intervalech • V. Grafické znázornění - histogram f(x) ------1 __________________________________________________ Aktivita 'ocet intervalů X: dán daty a hodnotitelem Šířka intervalů: pokud možno stejná VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ CfiA Počet zvolených tříd a velikost souboru určují kvalitu výstupu 5 4 3 2 1 O k= 10 tříd 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 8 7 6 5 4 3 2 1 0 k = 5 tříd 12 3 4 5 5 4 3 2 1 0 1,0 k = 20 tříd 2,0 3,0 4,0 5,0 VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Histogram vyjadřuje tvar výběrového rozložení f(x) lili f(x) JZL f(x) r-T f(x) f(x) VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Příklad: věk účastníků vážných dopravních nehod CD O C CD > d) >a> > u o O Q. CD O c CD CD 350 300 250 200 150 100 50 35 30 25 20 15 10 5 0 0 Správný histogram ? td 10 20 30 40 50 60 70 Věk (roky) 80 1- Správný histogram ? Věk 10 20 30 40 50 60 70 80 Věk (roky) f 0-4 28 5-9 46 10-15 58 16-19 20 20-24 114 25-59 316 >60 103 VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ CfiA v r Pojem ROZLOŽENI - příklad spojitých dat A Rozložení \ Distribuční funkce J Je - li dána distribuční funkce, je dáno rozložení VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Výběrové rozložení hodnot lze modelově popsat a definovat tak pravděpodobnost výskytu X f(x) I h f(x) f(x) VÝUKA: Biostatistika - základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ Distribuční funkce jako užitečný nástroj pro práci s rozložením Plocha = relativní četnost oo fq>(x) d(x) = 1 P(X