Přednáška III. Data, jejich popis a vizualizace Náhodný výběr, cílová a výběrová populace * Typy dat - Vizualizace různých typů dat * Popisné statistiky Opakování - podmíněná pravděpodobnost Jak můžu vyjádřit podmíněnou pravděpodobnost jevu A za nastoupení jevu B? A co platí v případě nezávislosti těchto dvou jevů? Tomáš Pavlík Biostatistika Opakování-význam podmíněné pravděpodobnosti * Princip podmíněné pravděpodobnosti je v biostatistice velmi častý - máme systém hypotéz (nejčastěji dvou) o vlastnostech cílové populace a pozorovaná data. '' Na jejich základě pak rozhodujeme o platnosti stanovených hypotéz. ' ■ Uveďte příklad. Tomáš Pavlík idL. | IIJj | Biostatistika Opakování - diagnostické testy Co vyjadřují následující charakteristiky? Se n zi t i vita Specificita Prediktivní hodnota pozitivního testu Prediktivní hodnota negativního testu Tomáš Pavlík JjjL fj^j Biostatistika 1. Jak vznikají data? Jak vznikají data? ■^Záznamem skutečnosti... Tomáš Pavlík Biostatistika Jak vznikají data? ■^Záznamem skutečnosti... ... kterou chceme dále studovat -> smysluplnost? ... více či méně dokonalým -> kvalita? Tomáš Pavlík Biostatistika Jak vznikají data? ■^Záznamem skutečnosti... ... kterou chceme dále studovat -> smysluplnost? (krevní tlak, glykémie x počet srdcí, počet domů) ... více či méně dokonalým -> kvalita? (variabilita = informace + chyba) Tomáš Pavlík Biostatistika Cílová populace, výběrová populace ■*Cílová populace-skupina subjektů, o které chceme zjistit nějakou informaci. Odpovídá základnímu prostoru O. Experimentální vzorek neboli výběrová populace - podskupina cílové populace, kterou pozorujeme, měříme a analyzujeme. Jakékoliv výsledky chceme zobecnit na celou cílovou populaci. Výběrová populace musí svými charakteristikami odpovídat cílové populaci (reprezentativnost). Toho můžeme docílit náhodným, ale i záměrným výběrem. Tomáš Pavlík Popis cílové populace - popis pozorované variability Cílová populace ■4............... Náhodný výběr dle optimálního plánu Reprezentativní vzorek n subjektů Měření charakteristiky OO00OOO0O0 4........................................................... Hodnocení variability hodnot ve výběrovém souboru l VÝSLEDKY ............................... Tomáš Pavlík o i— > M 'E u O) -Q O M 4) IBA mu m Reprezentativnost Spolehlivost Přesnost Biostatistika 2. Typy dat a jejich vizualizace Typy dat Kvalitativní proměnná (kategoriální) - lze ji řadit do kategorií, ale nelze ji kvantifikovat, resp. nemá smysl přiřadit jednotlivým kategoriím číselné vyjádření. * Příklady: pohlaví, HIV status, užívání drog, barva vlasů ,; Kvantitativní proměnná (numerická) - můžeme jí přiřadit číselnou hodnotu. Rozlišujeme dva typy kvantitativních proměnných: ' Spojité: může nabývat jakýchkoliv hodnot v určitém rozmezí. Příklady: výška, váha, vzdálenost, čas, teplota. * Diskrétní: může nabývat pouze spočetně mnoha hodnot. Příklady: počet krevních buněk, počet hospitalizací, počet krvácivých epizod za rok, počet dětí v rodině. Tomáš Pavlík Biostatistika Typy dat - příklady Kvalitativní data lze dělit dále - Binární data - pouze dvě kategorie typu ano / ne. ■* Nominální data - více kategorií, které nelze vzájemně seřadit. Nemá smysl ptát se na relaci větší/menší. ' Ordinální data - více kategorií, které lze vzájemně seřadit. Má smysl ptát se na relaci větší/menší. Tomáš Pavlík Biostatistika Kvalitativní data - příklady Binární data diabetes (ano/ne) pohlaví (muž/žena) stav (ženatý/svobodný) Nominální data ■* krevní skupiny (A/B/AB/0) stát EU (Belgie/.../Česká republika/.../Velká Británie) stav (ženatý/svobodný/rozvedený/vdovec) Ordinální data stupeň bolesti (mírná/střední/velká/nesnesitelná) spotřeba cigaret (nekuřák/ex-kuřák/občasný kuřák/pravidelný kuřák) i- stadium maligního onemocnění (l/ll/lll/IV) Tomáš Pavlík Biostatistika Kvantitativní data '; Kvantitativní data poskytují větší informaci než data kvalitativní. ,; Spojitá data poskytují větší informaci než data diskrétní. iA Větší informace znamená, že nám stačí méně pozorování na detekci určitého rozdílu (pokud ten rozdíl samozřejmě existuje). ' Kvůli interpretaci je někdy výhodné kvantitativní data agregovat do kategorií (např. věk) - tímto krokem však ztrácíme část informace. Zpětně nejsme schopni data rekonstruovat. Spojitá data L Kategoriální data Diskrétní data Kategoriální data Tomáš Pavlík Biostatistika Typy dat dle škály hodnot Data Otázky Příklady Poměrová Kolikrát ? Glykémie, váha Intervalová O kolik ? Teplota ve °C Ordinální Větší, menší ? PS, kouření Nominální Rovná se ? Pohlaví, KS mu ^"""í-. Tomáš Pavlík * IMII Biostatistika /BA Další typy dat - odvozená data ,; Pořadí (rank) - místo absolutních hodnot známe někdy pouze jejich pořadí. Jedná se sice o ztrátu určitého množství informace, nicméně i pořadí lze v biostatistice využít. ■* Procento (percentage) - sledujeme-li např. zlepšení v určitém parametru, je výhodné sledovat procentuální zlepšení. Př: ejekční frakce levé srdeční komory. Podíl (ratio) - mnoho indexů je odvozeno jako podíl dvou měřených veličin. Př: BMI. ■* Míra pravděpodobnosti (rate) - týká se výskytu různých onemocnění, kdy počet nových pacientů v daném čase (studii) je vztažen na celkový počet zaznamenaných osobo-roků. Př: výskyt nádorového onemocnění u pacientů ve studii. ■* Skóre (score) - jedná se o uměle vytvořené hodnoty charakterizující určitý stav, který nelze jednoduše měřit jako číselné hodnoty. Př: indexy kvality života. Vizuální škála (visual scale) - pacienti často hodnotí svoje obtíže na škále, která má formu úsečky o délce např. 10 cm. Př: hodnocení kvality života. Tomáš Pavlík Biostatistika Další typy dat - odvozená data 71112322 SUT.MYŠLENKY 10. Suicldálnl myšlenky Život nestojí za to žit, myšlenky o vitanosti přirozené smrti, myšlenky na sebevraždu, příprava sebevraždy.Fakticky provedené suicidálnl pokusy neberte při skórováni v úvahu __________________________;jvr_____________________________________________ 0 - má zájem na životě a nebo jej bere tak jak je 1 - potěšeni ze života je oproti obvyklému stavu zdrávi poněkud sniženo 2 - otráveny Životem, občasné úvahy o suicidiu 3 - připouští, že nebýt by bylo momentálně príjemnejší než být, o suicidiu jako řešeni situace však neuvažuje 4 - raději by nežil, úvahy o suicidiu častě, suicidium by bylo možným řešením situace, plány na suicidium však dosud nejsou konkrétni a promyšlené 5 - představa o způsobu suicidia je již konkrétni, konáni však k tomu za- tím nesměřovalo 6 - konkrétni plány na suicidium, kdyby byla možnost* Aktivní příprava suicidia h war» Tomáš Pavlík bbm C jyji Biostatistika IBA Absolutní vs. relativní četnost ■* Vyjádření výsledků v relativní formě (procento) má často příjemnou interpretaci, ale může být zavádějící. '; Relativní vyjádření účinnosti by mělo být vždy doprovázeno absolutním vyjádřením účinnosti. * Příklad: Srovnání účinnosti léčiva ve smyslu prevence CMP u kardiaků. Studie 1: Výskyt CMP ve skupině A je 12 %, ve skupině B je 20 %. Relativní změna v účinnosti = 40 %; absolutní změna = 8 %. Studie 2: výskyt CMP ve skupině A je 0,9 %, ve skupině B je 1,5 %. Relativní změna v účinnosti = 40 %; absolutní změna = 0,6 %. * Výsledkem je rozdílný přínos léčby při stejné relativní účinnosti. Tomáš Pavlík Biostatistika Další typy dat - cenzorovaná data ,; Cenzorovaná data charakterizují experimenty, kde sledujeme čas do výskytu předem definované události. ■* V průběhu sledování událost nemusí nastat u všech subjektů. Subjekty však nelze vinit z toho, že jsme u nich nebyli schopni danou událost pozorovat a už vůbec je nelze z hodnocení vyloučit, čase sledování takového subjektu pak mluvíme jako o cenzorovaném. "*Toto označení indikuje, že sledování bylo ukončeno dříve, než u subjektu došlo k definované události. Nevíme tedy, kdy a jestli vůbec daná událost u subjektu nastala, víme pouze, že nenastala před ukončením sledování. Tomáš Pavlík Biostatistika Další typy dat - cenzorovaná data Ztracen ze sledování -> Úmrtí ■> Úmrtí --------_> Nepozorované časy úmrtí Ukončení studie 0 Tomáš Pavlík Biostatistika 3. Vizualizace a popis různých typů dat Reálná data A B C D E F G H K L M N 0 P ID uniq INICIÁLY Věk LEKAR SEX NHL_STUP DG_1 DATUM_DG I PI LDH B2M KS RT OD RT_DO STAV ZEMŘEL 1 MZ 59 Pytlík F DLCL DLCL 28.04.99 0 5.7 1.5 I KR 4 JS 64 Pytlík F DLCL DLCL 03.11.99 1 13.3 NA II ZTR 6 VK 66 Pytlík F difusní velkobunéčný B-lymfom DLCL 19.01.00 2 11.1 Z5 III EX 31.01.01 7 BK 41 Pytlík F difusní lymfom z velkých bb DLCL 27.04.00 0 8.3 23 I 12.09.00 13.10.00 KR S ZV 74 Pytlík M centroblastický B-lymfom DLCL 13.11.00 3 12.6 2.6 III KR 11 DH 75 Pytlík M DLCL DLCL 15.03.01 0 7.1 3.0 II 25.06.01 18.07.01 KR 12 JS 60 Jankovská M DLCL DLCL 19.04.01 0 5.6 OJ2 I KR 13 PF 26 Pytlík F DLCL, bude 2. Čtení DLCL 29.08.01 20 17.9 1.9 II EX 07.09.02 14 JK 47 Jankovská F B-velkobunéčný DLCL 17.10.01 0 8.6 2.1 III xx.04.02 KR 15 JJ 67 Jankovská M DLBCL DLCL 07.02.02 0 8.4 5.6 I KR 16 HJ 73 Jankovská F DLCL DLCL 15.02.02 0 6J5 1.4 " 27.05.02 14.05.02 KR 17 W 51 Jankovská Ž FCUDLCL DLCL 20.02.02 0 8.3 1.3 EX 18.05.02 22 FŔ 69 Jankovská M DLCL DLCL 07.06.02 0 67 NA i 22.08.03 20.09.03 PR 23 OH 72 Jankovská M difusní velkobunéčný B lymfom DLCL 25.10.02 1 8.2 23 m KR 24 JK 30 Jankovská M DLBCL DLCL 31.01.03 1 13.8 1.8 n plánovaná KR 25 EH 72 Jankovská F DLBCL DLCL 06.08.03 9.2 1.7 m KR 26 MM 50 Jankovská F DLBCL DLCL 05.09.03 1 7.3 1.7 m KR 32 MS 75 Kubáčková F DLCL DLCL 03.03.99 1 8.8 1.5 i 20.07.99 16.08.99 KR 33 RS 31 Kubáčková M DLCL DLCL 17.08.00 1 8.8 ZO i 27.02.01 26.03.01 KR 34 JS 60 Kubáčková M DLCL Motol 2.7 m KR 35 ZB 56 Kubáčková M DLCL DLCL 19.02.01 1 9.8 2A n KR 36 JN 37 Kubáčková M DLCL DLCL 13.03.01 1 16.1 20 i 24.10.01 21.11.01 KR 37 AS 58 Kubáčková F difúzni B-lymfom, H G DLCL 15.06.01 0 5.7 32 li 26.11.01 21.12.01 KR 39 M H 56 Kubáčková F DLCL 1 11.4 ZO i EX 08.01.05 40 KÉ 83 Hra botová F difusní velkobunéčný B lymfom DLCL 01.07.02 2 32.0 6.0 i 28.01.03 10.02.03 EX 27.6.2003 41 LČ 53 Hra botová M DLCL Motol 0 52 1.9 i 21.1.2003 20.2.2003 KR 48 M F 52 Kubáčková DLBCL DLCL 07.02.03 0 5.9 Z3 i PR 49 M Č 31 Kubáčková F DLBCL DLCL 3 10.5 1.25 IV KR 50 VP Papajík M DLBCL DLCL 28.04.99 1 8.4 Z2 n KR 15.11.02 51 AP Papajík M DLBCL DLCL 05.05.99 2 23,3 4.1 IV EX 14.05.00 i-i- — \ ZZI zz .„ Tomáš Pavlík Biostatistika Proč je popis a vizualizace dat třeba? Chceme zpřehlednit pozorovaná data - ve vhodných grafech. * Chceme zachytit případné odlehlé a extrémní body nebo nečekané, nelogické hodnoty. ■* Chceme popsat naměřené hodnoty. - Chceme vypočítat vhodné sumární statistiky, které budou pozorovaná data dále zastupovat při prezentaci, srovnáních apod. Chceme pozorovanou informaci „uložit" v zástupných statistikách, použití všech pozorovaných dat je nepraktické až nemožné. Tomáš Pavlík Biostatistika Jaké jsou výstupy popisné analýzy? - Obecně neformální, jde o shrnutí pozorovaného a ne o formální testování. -Vztahují se pouze na pozorovaná data (respektive na experimentální vzorek). Mohou sloužit jako podklad pro stanovení hypotéz. Tomáš Pavlík Biostatistika Co chceme u dat popsat? i-; Kvalitativní data - četnosti (absolutní i relativní) jednotlivých kategorií. iA Kvantitativní data - těžiště a rozsah pozorovaných hodnot. Popis „těžiště" - míry polohy ,; Mějme pozorované hodnoty: x19x29...9xn * Seřaďme je podle velikosti: x(l) ^x(2) <...u O Q_ Systolický tlak u mužů 100 120 140 160 Tlak (mmHg) 180 200 Tomáš Pavlík IBA Prumer = 149,9 mmHg i ^ Medián = 150,0 mmHg Biostatistika Průměr vs. medián Nemáme-li symetrická data, je výsledek výpočtu průměru i mediánu rozdílný Není to OK. Výpočet průměru je v tuto chvíli nevhodný! Příklad 1: známkování ve škole * Student A: 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 5 Průměr = 1,35 Medián = 1,00 • Student B: 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 2 Průměr =1,13 Medián = 1,00 Příklad 2: plat v ČR v roce 2003 Tomáš Pavlík Medián: 12 400 Průměr: 18 697 Kč Medián BÄ 1WJ Průměr Biostatistika Pojem kvantil '; Ve statistice je kvantil definován pomocí kvantilové funkce, což je inverzní funkce k distribuční funkci - budeme se jí věnovat příště. * Laicky lze kvantil definovat jako číslo na reálné ose, které rozděluje pozorovaná data na dvě části: p% kvantil rozděluje data na p % hodnot a (100-p) % hodnot. xp/ioo ~ x(k) Pro ip/100 neceločíselné, pak k = np/100 Xp/ioo = \ (X(k) X(k+i)) pro np/100 celočíselné, pak/: = np/100; Tomáš Pavlík Biostatistika Kvantil - příklad Máme soubor 20 osob, u nichž měříme výšku. Chceme zjistit 80% kvantil souboru pozorovaných dat. n = 20 Průměr těchto dvou = 80% kvantil 16/20 = 80% hodnot 4 / 20 = 20 % hodnot ,--ps~^—n 110 cm 140 cm 170 cm 200 cm 230 cm Výška v cm ■> R Tomáš Pavlík Biostatistika Významné kvantily Minimum = 0% kvantil Dolní kvartil = 25% kvantil Medián = 50% kvantil Horní kvartil = 75% kvantil Maximum = 100% kvantil Medián je významná charakteristika vypovídající o „těžišti" pozorovaných hodnot. Není to ale jenom popisná charakteristika, na mediánu (a kvantilech obecně) je založeno mnoho neparametrických statistických metod. Tomáš Pavlík Biostatistika Popis „rozsahu" - míry variability Nejjednodušší charakteristikou variability pozorovaných dat je rozsah hodnot (rozpětí) = maximum - minimum. Je snadno ovlivnitelný netypickými (odlehlými) hodnotami. Kvantilové rozpětí je definováno p% kvantilem a (100-p)% kvantilem a je méně ovlivněno odlehlými hodnotami. Speciálním případem je kvartilové rozpětí, které pokrývá 50 % pozorovaných hodnot. * Výběrový rozptyl - průměrný čtverec odchylky od průměru. Velmi ovlivnitelný odlehlými hodnotami. ŕ N '; Výběrová směrodatná odchylka - odmocnina z rozptylu. Výhodou směrodatné odchylky je, že má stejné jednotky jako pozorovaná data. Tomáš Pavlík 1MB Biostatistika Popis „rozsahu" - míry variability Příklad čtverců odchylek od průměru pro n = 3. Rozptyl je možno značně ovlivnit odlehlými pozorováními. 0,269 x1 T 0,547 0,638 0,733 x Tomáš Pavlík IBA x- Biostatistika X, 4. Kvalitativní data Vizualizace a popis nominálních dat Vizualizace sloupcovým / koláčovým grafem - absolutní i relativní četnost. Sumarizace procentuálním výskytem kategorií v tzv. frekvenční tabulce. * Smysluplná agregace kategorií zjednodušuje interpretaci i validitu výsledků. K popisu může sloužit i tzv. modus - nejčetnější pozorovaná hodnota. Frekvenční tabulka Sloupcový graf Koláčový graf Proměnná n % ^ Kategorie 1 Kategorie 2 Kategorie 3 Kategorie 4 Celkem Vizualizace a popis ordinálních dat Vizualizace sloupcovým / koláčovým grafem - absolutní i relativní četnost. Sumarizace procentuálním výskytem kategorií v tzv frekvenční tabulce. * Smysluplná agregace kategorií zjednodušuje interpretaci i validitu výsledků. K popisu může sloužit i tzv. modus, případně medián (pouze dává-li to smysl). Frekvenční tabulka Sloupcový graf Koláčový graf Proměnná n % ^ Kategorie 1 Kategorie 2 Kategorie 3 Kategorie 4 Celkem Co je na tom obrázku zavádějící? ] Appendicectomy ] Inspection only Unchanged (1) Improved (2) Pain scare Pain 1ree (3) A significantly higher proportion of patients in the appendicectomy group than in the inspection-only group had an improvement in pain (14 of 18 versus seven of 22; P = 0-005). The relative risk was 2-4 (95 per cent c.i. 1-3 to 4-0), indicating that patients who had an appendicec- Fig. 2 Distribution of pain scores in patients whose appendix was removed during laparoscopy and those in whom it was left in situ Tomáš Pavlík IB A Biostatistika Co je na tom obrázku zavádějící? ] Appendicectomy ] Inspection only Unchanged (1) Improved (2) Pain scare Pain 1ree (3) Fig. 2 Distribution of pain scores in patients whose appendix was removed during laparoscopy and those in whom it was left in situ A significantly higher proportion of patients in the appendicectomy group than in the inspection-only group had an improvement in pain (14 of 18 versus seven of 22; P = 0-005). The relative risk was 2-4 (95 per cent c.i. 1-3 to 4-0), indicating that patients who had an appendicec- Ve chvíli, kdy obě skupiny mají různý počet pacientů, je srovnání absolutních čísel nekorektní. Tomáš Pavlík Biostatistika Frekvenční tabulka pro kvantitativní data Primární data Frekvenční tabulka 1,21 1,48 1,56 0,31 1,21 1,33 0,33 0,21 1,32 1,11 n = 100 c/| - šířka intervalu ■ A7j - absolutní četnost v daném intervalu n./n- relativní četnost v daném intervalu /-tý interval n Jn % <0 - 0,4) 0,4 20 0,2 20 <0,4-0,8) 0,4 10 0,1 10 <0,8-l,2) 0,4 40 0,4 40 <1,2-1,4) 0,2 20 0,2 20 <1,4-1,6) 0,2 10 0,1 10 Celkem 1,6 100 1 100 Tomáš Pavlík Biostatistika Histogram Histogram je grafický nástroj pro vizualizaci kvantitativních dat (poměrových, intervalových, spojitých i diskrétních). ; Každá oblast histogramu odráží absolutní nebo relativní četnost na jednotku sledované proměnné na ose x. * Histogram není sloupcový graf! Histogram pro relativní četnost: * Histogram pro absolutní četnost: Tomáš Pavlík Biostatistika Sumarizace kvantitativních dat histogramem ■ Pozorovaná data: 1,21; 1,48; 1,56; 0,31; 1,21; 1,33; 0,33; 0,21; 1,32......n ,; Setřídění dat podle velikosti 1 Vytvoření intervalů na ose x ,; Výpočet relativních nebo absolutních četností f(i) •^Vykreslení histogramu mu Tomáš Pavlík JUL- | IUI | Biostatistika I BA 'v*J!í/ Histogram - příklad Histogram - příklad * Jaký obsah má plocha histogramu pro relativní četnost? - A proč? Histogram pro relativní četnost n 1.00 1.00 0,4 0,8 1,2 1,4 1,6 Tomáš Pavlík mu IBA (Ml. Biostatistika Histogram - příklad Histogram pro relativní četnost * Jaký obsah má plocha histogramu pro relativní četnost? - A proč? Histogram lze použít pro odhad hustoty pravděpodobnosti. Je to tedy grafická vizualizace rozložení pravděpodobnosti kvantitativních (zejména spojitých) dat. n 1.00 1.00 0,4 0,8 1,2 1,4 1,6 Tomáš Pavlík IBA ML Biostatistika Který histogram je správný a proč? Chceme pomocí histogramu vykreslit počty zraněných při automobilových haváriích na předměstí Londýna v roce 1985. Data máme zadána jako počty v daných věkových kategoriích. 30 - 20 10 - o -i 10 20 Age (years) 30 40 Age (years) —r- 50 BO —f 70 Tomáš Pavlík Biostatistika Histogram ve skutečnosti A Histogram je ve skutečnosti zřídka vyjadřován pomocí výrazů: n I n n m=m=£ a, a, Daleko častěji se jedná o prosté absolutní nebo relativní počty pozorování v daném intervalu (výhodné kvůli snadné čitelnosti a interpretaci): f(i) = niln f(í) = ni Důležité však je, aby intervaly měly stejnou šířku, aby výsledky byly srovnatelné! Tomáš Pavlík Biostatistika Počet intervalů určuje kvalitu výstupu Počtem zvolených intervalů v histogramu rozhodujeme o tom, jak bude vypadat. Při malém počtu můžeme přehlédnout důležité prvky v datech, při velkém zase může být informace roztříštěná. rv/d 3 intervaly rii/d, 20 n 16 -12 - 8 - 4 5 intervalů o 8.0 4.0 4.5 2.5 1.0 rii/d, 20 n 16 -12 - 10 intervalů 8 - 6 6 4 - 2 1 1 =F=I 1-3 4-6 7-10 =1 0 1-2 3-4 5-67-89- 10 1234567891 JUL. ll^Jj Biostatistika Krabicový graf - box plot <- Maximum = 100% kvantil <- Horní kvartil = 75% kvantil <- Medián = 50% kvantil <- Dolní kvartil = 25% kvantil <- Minimum = 0% kvantil Tomáš Pavlík Biostatistika Co je extrémní (odlehlá) hodnota? * Jednoduše řečeno se jedná o netypické pozorování, které nezapadá do pravděpodobnostního chování souboru dat. * Definujeme ji jako hodnotu, která leží několikanásobek (3, 5, 7) směrodatné odchylky, respektive kvartilového rozpětí, od průměru, respektive mediánu. - Definice je ale vágní, závisí na naší znalosti dané problematiky, které hodnoty jsou či nejsou možné! Tomáš Pavlík Biostatistika Vliv odlehlé hodnoty na popisné statistiky Cílem je určit průměrnou hladinu cholesterolu vybrané populace mužů (hodnoty v mmol/l) 03 ■M 03 "O *03 C > *03 i— Q. 6.3 7.6 6.3 9.1 4.2 5.8 5.65 6.3 8.6 6 6.2 6.7 4.6 6.25 6.3 4.04 6.3 9.1 6.3 5.2 6.4 5.75 > Průměrná hodnota 6,32 Směrodatná odchylka 1,34 Průměrná hodnota ? Směrodatná odchylka Která charakteristika se zvýší výrazněji? Průměr nebo směrodatná odchylka? J ^ BHS/j. Tomáš Pavlík IBA Biostatistika r < 6.3 7.6 6.3 9.1 4.2 5.8 5.65 6.3 8.6 fD i/i 6 TD —i 6.2 áv 6.7 QJ> 4.6 Q_ 6.25 OJ r+ 6.3 OJ 4.04 6.3 9.1 6.3 5.2 64 5.75 Vliv odlehlé hodnoty na popisné statistiky Cílem je určit průměrnou hladinu cholesterolu vybrané populace mužů (hodnoty v mmol/l) 03 ■M 03 "O *03 C > *03 i— Q. 6.3 7.6 6.3 9.1 4.2 5.8 5.65 6.3 8.6 6 6.2 6.7 4.6 6.25 6.3 4.04 6.3 9.1 6.3 5.2 6.4 5.75 r > Průměrná hodnota 6,32 Směrodatná odchylka 1,34 Průměrná hodnota 8,94 Směrodatná odchylka 12,37 < J 6.3 7.6 6.3 9.1 4.2 5.8 5.65 6.3 8.6 6 6.2 6.7 4.6 6.25 6.3 4.04 6.3 9.1 6.3 5.2 64 5.75 fD m -a —í < QJ> Q_ OJ r+ OJ Tomáš Pavlík IBA Biostatistika Identifikace odlehlých hodnot ■ Na menších souborech stačí vizualizace. ' Na větších datových souborech nelze bez vizualizace a popisných statistik. - Grafická identifikace: pomocí histogramu a box plotu. * Identifikace pomocí popisných statistik: srovnání mediánu a průměru. Tomáš Pavlík Biostatistika Identifikace odlehlých hodnot - příklad Histogram Histogram 03 ■M 03 "O *03 c > *03 i— Q. 6.3 7.6 6.3 9.1 4.2 5.8 5.65 6.3 8.6 6 6.2 6.7 4.6 6.25 6.3 4.04 6.3 9.1 6.3 5.2 6.4 5.75 d 10 20 30 10 50 60 70 Box plot Box plot 6.3 7.6 6.3 9.1 4.2 5.8 5.65 6.3 8.6 6 6.2 6.7 4.6 6.25 6.3 4.04 6.3 9.1 6.3 5.2 64 5.75 fD m -a —í < £D> Q_ OJ r+ OJ Tomáš Pavlík /BA W imi: Biostatistika Identifikace odlehlých hodnot - příklad Cílem je určit průměrnou hladinu cholesterolu vybrané populace mužů (hodnoty v mmol/l) 6.3 7.6 6.3 9.1 4.2 5.8 5.65 6.3 8.6 6 6.2 6.7 4.6 6.25 6.3 4.04 6.3 9.1 6.3 5.2 6.4 5.75 r > Medián 6,30 Průměrná hodnota 6,32 Směrodatná odchylka 1,34 Medián 6,30 Průměrná hodnota 8,94 Směrodatná odchylka 12,37 J Tomáš Pavlík IBA Biostatistika 6.3 7.6 6.3 9.1 4.2 5.8 5.65 6.3 8.6 6 6.2 6.7 4.6 6.25 6.3 4.04 6.3 9.1 6.3 5.2 64 5.75 Reklama na příští týden Středem zájmu statistiky a biostatistiky je tzv. náhodná veličina. Poděkování... Rozvoj studijního oboru „Matematická biologie'' PřF MU Brno je finančně podporován prostředky projektu ESF č. CZ.1.07/2.2.00/07.0318 „Víceoborová inovace studia Matematické biologie" a státním rozpočtem České republiky 18f k BH pnSt t^í čími ^^^^k I soclalnL ^^^^^^^ MINISTERSTVO ŠKOLSTVÍ. OP Vzdělávání ^^HipřV? ■ fondvCR EVROPSKÁ UNIE mládeže a tělovýchovy pro konkurenceschopnost 4ííA p*" INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ Tomáš Pavlík Biostatistika