logo-IBA logomuni Přednáška III. Data, jejich popis a vizualizace * Náhodný výběr, cílová a výběrová populace * Typy dat * Vizualizace různých typů dat * Popisné statistiky esf-komplet-barva.jpg logo-IBA logomuni 1. Jak vznikají data? logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Jak vznikají data? * Záznamem skutečnosti… * … kterou chceme dále studovat → smysluplnost? … více či méně dokonalým → kvalita? logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Jak vznikají data? * Záznamem skutečnosti… * … kterou chceme dále studovat → smysluplnost? (krevní tlak, glykémie × počet srdcí, počet domů) … více či méně dokonalým → kvalita? (variabilita = informace + chyba) logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Cílová populace, výběrová populace * Cílová populace – skupina subjektů, o které chceme zjistit nějakou informaci. Odpovídá základnímu prostoru Ω. * Experimentální vzorek neboli výběrová populace – podskupina cílové populace, kterou pozorujeme, měříme a analyzujeme. Jakékoliv výsledky chceme zobecnit na celou cílovou populaci. Výběrová populace musí svými charakteristikami odpovídat cílové populaci (reprezentativnost). Toho můžeme docílit náhodným, ale i záměrným výběrem. 600px-Icon-Warning-Red.svg.png logo-IBA logomuni 2. Typy dat a jejich vizualizace logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Typy dat * Kvalitativní proměnná (kategoriální) – lze ji řadit do kategorií, ale nelze ji kvantifikovat, resp. nemá smysl přiřadit jednotlivým kategoriím číselné vyjádření. * Příklady: pohlaví, HIV status, užívání drog, barva vlasů * * Kvantitativní proměnná (numerická) – můžeme jí přiřadit číselnou hodnotu. Rozlišujeme dva typy kvantitativních proměnných: * Spojité: může nabývat jakýchkoliv hodnot v určitém rozmezí. Příklady: výška, váha, vzdálenost, čas, teplota. * Diskrétní: může nabývat pouze spočetně mnoha hodnot. Příklady: počet krevních buněk, počet hospitalizací, počet krvácivých epizod za rok, počet dětí v rodině. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Typy dat – příklady Kvalitativní proměnná Kvantitativní proměnná logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Kvalitativní data lze dělit dále * Binární data – pouze dvě kategorie typu ano / ne. * * Nominální data – více kategorií, které nelze vzájemně seřadit. Nemá smysl ptát se na relaci větší/menší. * * Ordinální data – více kategorií, které lze vzájemně seřadit. Má smysl ptát se na relaci větší/menší. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Kvalitativní data – příklady * Binární data * diabetes (ano/ne) * pohlaví (muž/žena) * stav (ženatý/svobodný) * Nominální data * krevní skupiny (A/B/AB/0) * stát EU (Belgie/…/Česká republika/…/Velká Británie) * stav (ženatý/svobodný/rozvedený/vdovec) * Ordinální data * stupeň bolesti (mírná/střední/velká/nesnesitelná) * spotřeba cigaret (nekuřák/ex-kuřák/občasný kuřák/pravidelný kuřák) * stadium maligního onemocnění (I/II/III/IV) logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Kvantitativní data * Kvantitativní data poskytují větší informaci než data kvalitativní. * Spojitá data poskytují větší informaci než data diskrétní. * Větší informace znamená, že nám stačí méně pozorování na detekci určitého rozdílu (pokud ten rozdíl samozřejmě existuje). * * Kvůli interpretaci je někdy výhodné kvantitativní data agregovat do kategorií (např. věk) – tímto krokem však ztrácíme část informace. Zpětně nejsme schopni data rekonstruovat. Diskrétní data Spojitá data Kategoriální data Kategoriální data logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Kolikrát ? O kolik ? Větší, menší ? Rovná se ? Typy dat dle škály hodnot Poměrová Intervalová Ordinální Nominální Data Otázky Příklady Glykémie, váha Teplota ve °C PS, kouření Pohlaví, KS logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Další typy dat – odvozená data * Pořadí (rank) – místo absolutních hodnot známe někdy pouze jejich pořadí. Jedná se sice o ztrátu určitého množství informace, nicméně i pořadí lze v biostatistice využít. * Procento (percentage) – sledujeme-li např. zlepšení v určitém parametru, je výhodné sledovat procentuální zlepšení. Př.: ejekční frakce levé srdeční komory. * Podíl (ratio) – mnoho indexů je odvozeno jako podíl dvou měřených veličin. Př.: BMI. * Míra pravděpodobnosti (rate) – týká se výskytu různých onemocnění, kdy počet nových pacientů v daném čase (studii) je vztažen na celkový počet zaznamenaných osobo-roků. Př.: výskyt nádorového onemocnění u pacientů ve studii. * Skóre (score) – jedná se o uměle vytvořené hodnoty charakterizující určitý stav, který nelze jednoduše měřit jako číselné hodnoty. Př.: indexy kvality života. * Vizuální škála (visual scale) – pacienti často hodnotí svoje obtíže na škále, která má formu úsečky o délce např. 10 cm. Př.: hodnocení kvality života. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Další typy dat – odvozená data logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Absolutní vs. relativní četnost * Vyjádření výsledků v relativní formě (procento) má často příjemnou interpretaci, ale může být zavádějící. * Relativní vyjádření účinnosti by mělo být vždy doprovázeno absolutním vyjádřením účinnosti. * * Příklad: Srovnání účinnosti léčiva ve smyslu prevence CMP u kardiaků. Studie 1: Výskyt CMP ve skupině A je 12 %, ve skupině B je 20 %. Relativní změna v účinnosti = 40 %; absolutní změna = 8 %. Studie 2: výskyt CMP ve skupině A je 0,9 %, ve skupině B je 1,5 %. Relativní změna v účinnosti = 40 %; absolutní změna = 0,6 %. * Výsledkem je rozdílný přínos léčby při stejné relativní účinnosti. * logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Další typy dat – cenzorovaná data * Cenzorovaná data charakterizují experimenty, kde sledujeme čas do výskytu předem definované události. * V průběhu sledování událost nemusí nastat u všech subjektů. Subjekty však nelze vinit z toho, že jsme u nich nebyli schopni danou událost pozorovat a už vůbec je nelze z hodnocení vyloučit. * O čase sledování takového subjektu pak mluvíme jako o cenzorovaném. * Toto označení indikuje, že sledování bylo ukončeno dříve, než u subjektu došlo k definované události. Nevíme tedy, kdy a jestli vůbec daná událost u subjektu nastala, víme pouze, že nenastala před ukončením sledování. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Další typy dat – cenzorovaná data Úmrtí Úmrtí Ukončení studie Ztracen ze sledování Nepozorované časy úmrtí 0 t t1 t2 t3 t4 c3 c4 logo-IBA logomuni 3. Vizualizace a popis různých typů dat logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Reálná data logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Proč je popis a vizualizace dat třeba? * Chceme zpřehlednit pozorovaná data – ve vhodných grafech. * * Chceme zachytit případné odlehlé a extrémní body nebo nečekané, nelogické hodnoty. * * Chceme popsat naměřené hodnoty. * * Chceme vypočítat vhodné sumární statistiky, které budou pozorovaná data dále zastupovat při prezentaci, srovnáních apod. Chceme pozorovanou informaci „uložit“ v zástupných statistikách, použití všech pozorovaných dat je nepraktické až nemožné. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Jaké jsou výstupy popisné analýzy? * Obecně neformální, jde o shrnutí pozorovaného a ne o formální testování. * * Vztahují se pouze na pozorovaná data (respektive na experimentální vzorek). * * Mohou sloužit jako podklad pro stanovení hypotéz. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Co chceme u dat popsat? * Kvalitativní data – četnosti (absolutní i relativní) jednotlivých kategorií. * Kvantitativní data – těžiště a rozsah pozorovaných hodnot. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Popis „těžiště“ – míry polohy * Mějme pozorované hodnoty: * Seřaďme je podle velikosti: * * Minimum a maximum – nejmenší a největší pozorovaná hodnota nám dávají obraz o tom, kde se na ose x pohybujeme. * Průměr – charakterizuje hodnotu, kolem které kolísají ostatní pozorované hodnoty. Je to fyzikální obraz těžiště stejně hmotných bodů ose x. * Medián – je to prostřední pozorovaná hodnota. Dělí pozorované hodnoty na dvě půlky, půlka hodnot je menší a půlka hodnot je větší než medián. * pro n liché pro n sudé logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Výpočet mediánu * Příklad 1: N = 8 (n + 1) / 2 pozice je „mezi“ 4. a 5. prvkem po seřazení – uděláme průměr Data = 6 1 7 4 3 2 7 8 Seřazená data = 1 2 3 4 6 7 7 8 Medián = (4 + 6) / 2 = 5 * * Příklad 2: N = 9 (n + 1) / 2 pozice znamená 5. pozice po seřazení Data = 3,0 4,2 1,1 2,5 2,2 3,8 5,6 2,7 1,7 Seřazená data = 1,1 1,7 2,2 2,5 2,7 3,0 3,8 4,2 5,6 Medián = 2,7 logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Průměr vs. medián • – * Máme-li symetrická data, je výsledek výpočtu průměru i mediánu podobný. * Vše je OK. hist_prum_med.jpeg Systolický tlak u mužů Tlak (mmHg) Průměr = 149,9 mmHg Medián = 150,0 mmHg logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Průměr vs. medián * Nemáme-li symetrická data, je výsledek výpočtu průměru i mediánu rozdílný. * Není to OK. Výpočet průměru je v tuto chvíli nevhodný! * * Příklad 1: známkování ve škole * Student A: 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 5 Průměr = 1,35 Medián = 1,00 * Student B: 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 2 Průměr = 1,13 Medián = 1,00 * * Příklad 2: plat v ČR v roce 2003 * Medián x Průměr Medián: 12 400 Průměr: 18 697 Kč logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Pojem kvantil * Ve statistice je kvantil definován pomocí kvantilové funkce, což je inverzní funkce k distribuční funkci – budeme se jí věnovat příště. * * Laicky lze kvantil definovat jako číslo na reálné ose, které rozděluje pozorovaná data na dvě části: p% kvantil rozděluje data na p % hodnot a (100-p) % hodnot. 600px-Icon-Warning-Red.svg.png pro np/100 celočíselné, pak k = np/100; pro np/100 neceločíselné, pak k = logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Kvantil - příklad * Máme soubor 20 osob, u nichž měříme výšku. Chceme zjistit 80% kvantil souboru pozorovaných dat. R Výška v cm 170 cm 200 cm 230 cm 110 cm 140 cm Průměr těchto dvou 4 / 20 = 20 % hodnot n = 20 16 / 20 = 80 % hodnot = 80% kvantil logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Významné kvantily * Minimum = 0% kvantil * Dolní kvartil = 25% kvantil * Medián = 50% kvantil * Horní kvartil = 75% kvantil * Maximum = 100% kvantil * * Medián je významná charakteristika vypovídající o „těžišti“ pozorovaných hodnot. Není to ale jenom popisná charakteristika, na mediánu (a kvantilech obecně) je založeno mnoho neparametrických statistických metod. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Popis „rozsahu“ – míry variability * Nejjednodušší charakteristikou variability pozorovaných dat je rozsah hodnot (rozpětí) = maximum – minimum. Je snadno ovlivnitelný netypickými (odlehlými) hodnotami. * Kvantilové rozpětí je definováno p% kvantilem a (100-p)% kvantilem a je méně ovlivněno odlehlými hodnotami. Speciálním případem je kvartilové rozpětí, které pokrývá 50 % pozorovaných hodnot. * Výběrový rozptyl – průměrný čtverec odchylky od průměru. Velmi ovlivnitelný odlehlými hodnotami. * * * Výběrová směrodatná odchylka – odmocnina z rozptylu. Výhodou směrodatné odchylky je, že má stejné jednotky jako pozorovaná data. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Popis „rozsahu“ – míry variability * Příklad čtverců odchylek od průměru pro n = 3. * Rozptyl je možno značně ovlivnit odlehlými pozorováními. 0,269 0,547 0,638 0,733 x1 x x2 x3 logo-IBA logomuni 4. Kvalitativní data logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Vizualizace a popis nominálních dat Proměnná n % Kategorie 1 10 5.0 Kategorie 2 40 20.0 Kategorie 3 130 65.0 Kategorie 4 20 10.0 Celkem 200 100.0 N * Vizualizace sloupcovým / koláčovým grafem – absolutní i relativní četnost. * Sumarizace procentuálním výskytem kategorií v tzv. frekvenční tabulce. * Smysluplná agregace kategorií zjednodušuje interpretaci i validitu výsledků. * K popisu může sloužit i tzv. modus – nejčetnější pozorovaná hodnota. * Frekvenční tabulka Sloupcový graf Koláčový graf logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Vizualizace a popis ordinálních dat Proměnná n % Kategorie 1 10 5.0 Kategorie 2 40 20.0 Kategorie 3 130 65.0 Kategorie 4 20 10.0 Celkem 200 100.0 N Frekvenční tabulka Sloupcový graf Koláčový graf * Vizualizace sloupcovým / koláčovým grafem – absolutní i relativní četnost. * Sumarizace procentuálním výskytem kategorií v tzv. frekvenční tabulce. * Smysluplná agregace kategorií zjednodušuje interpretaci i validitu výsledků. * K popisu může sloužit i tzv. modus, případně medián (pouze dává-li to smysl). * logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Co je na tom obrázku zavádějící? logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Co je na tom obrázku zavádějící? * Ve chvíli, kdy obě skupiny mají různý počet pacientů, je srovnání absolutních čísel nekorektní. logo-IBA logomuni 5. Kvantitativní data logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Frekvenční tabulka pro kvantitativní data 1,21 1,48 1,56 0,31 1,21 1,33 0,33 0,21 1,32 1,11 . . . . n = 100 i-tý interval di ni ni / n % <0 – 0,4) 0,4 20 0,2 20 <0,4 – 0,8) 0,4 10 0,1 10 <0,8 – 1,2) 0,4 40 0,4 40 <1,2 – 1,4) 0,2 20 0,2 20 <1,4 – 1,6) 0,2 10 0,1 10 Celkem 1,6 100 1 100 Primární data Frekvenční tabulka * di – šířka intervalu * ni – absolutní četnost v daném intervalu * ni / n – relativní četnost v daném intervalu logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Histogram * Histogram je grafický nástroj pro vizualizaci kvantitativních dat (poměrových, intervalových, spojitých i diskrétních). * Každá oblast histogramu odráží absolutní nebo relativní četnost na jednotku sledované proměnné na ose x. * Histogram není sloupcový graf! * * * Histogram pro relativní četnost: * * Histogram pro absolutní četnost: logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Sumarizace kvantitativních dat histogramem * Pozorovaná data: 1,21; 1,48; 1,56; 0,31; 1,21; 1,33; 0,33; 0,21; 1,32 … … n * Setřídění dat podle velikosti * Vytvoření intervalů na ose x * Výpočet relativních nebo absolutních četností f(i) * Vykreslení histogramu logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Histogram – příklad n 0 0,4 0,8 1,2 1,4 1,6 n 0 0,4 0,8 1,2 1,4 1,6 Histogram pro relativní četnost Histogram pro absolutní četnost logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Histogram – příklad n 0 0,4 0,8 1,2 1,4 1,6 Histogram pro relativní četnost * Jaký obsah má plocha histogramu pro relativní četnost? * * * * A proč? logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Histogram – příklad n 0 0,4 0,8 1,2 1,4 1,6 Histogram pro relativní četnost * Jaký obsah má plocha histogramu pro relativní četnost? * * * * A proč? * Histogram lze použít pro odhad hustoty pravděpodobnosti. Je to tedy grafická vizualizace rozložení pravděpodobnosti kvantitativních (zejména spojitých) dat. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Který histogram je správný a proč? histogram.jpg histogram.jpg * Chceme pomocí histogramu vykreslit počty zraněných při automobilových haváriích na předměstí Londýna v roce 1985. Data máme zadána jako počty v daných věkových kategoriích. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Histogram ve skutečnosti * Histogram je ve skutečnosti zřídka vyjadřován pomocí výrazů: * * * * Daleko častěji se jedná o prosté absolutní nebo relativní počty pozorování v daném intervalu (výhodné kvůli snadné čitelnosti a interpretaci): * * * * Důležité však je, aby intervaly měly stejnou šířku, aby výsledky byly srovnatelné! logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika 3 intervaly 5 intervalů Počet intervalů určuje kvalitu výstupu 10 intervalů * Počtem zvolených intervalů v histogramu rozhodujeme o tom, jak bude vypadat. Při malém počtu můžeme přehlédnout důležité prvky v datech, při velkém zase může být informace roztříštěná. ni /di ni /di ni /di logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Krabicový graf – box plot Minimum = 0% kvantil Maximum = 100% kvantil Horní kvartil = 75% kvantil Medián = 50% kvantil Dolní kvartil = 25% kvantil logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Co je extrémní (odlehlá) hodnota? * Jednoduše řečeno se jedná o netypické pozorování, které nezapadá do pravděpodobnostního chování souboru dat. * * Definujeme ji jako hodnotu, která leží několikanásobek (3, 5, 7) směrodatné odchylky , respektive kvartilového rozpětí, od průměru, respektive mediánu. * * Definice je ale vágní, závisí na naší znalosti dané problematiky, které hodnoty jsou či nejsou možné! logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Vliv odlehlé hodnoty na popisné statistiky 6.3 7.6 6.3 9.1 4.2 5.8 5.65 6.3 8.6 6 6.2 6.7 4.6 6.25 6.3 4.04 6.3 9.1 6.3 5.2 6.4 5.75 Cílem je určit průměrnou hladinu cholesterolu vybrané populace mužů (hodnoty v mmol/l) 6.3 7.6 6.3 9.1 4.2 5.8 5.65 6.3 8.6 6 6.2 6.7 4.6 6.25 6.3 4.04 6.3 9.1 6.3 5.2 64 5.75 Průměrná hodnota Směrodatná odchylka 6,32 1,34 Průměrná hodnota Směrodatná odchylka ? ? Která charakteristika se zvýší výrazněji? Průměr nebo směrodatná odchylka? logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Vliv odlehlé hodnoty na popisné statistiky 6.3 7.6 6.3 9.1 4.2 5.8 5.65 6.3 8.6 6 6.2 6.7 4.6 6.25 6.3 4.04 6.3 9.1 6.3 5.2 6.4 5.75 Cílem je určit průměrnou hladinu cholesterolu vybrané populace mužů (hodnoty v mmol/l) 6.3 7.6 6.3 9.1 4.2 5.8 5.65 6.3 8.6 6 6.2 6.7 4.6 6.25 6.3 4.04 6.3 9.1 6.3 5.2 64 5.75 Průměrná hodnota Směrodatná odchylka 6,32 1,34 Průměrná hodnota Směrodatná odchylka 8,94 12,37 logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Identifikace odlehlých hodnot * Na menších souborech stačí vizualizace. * Na větších datových souborech nelze bez vizualizace a popisných statistik. * * Grafická identifikace: pomocí histogramu a box plotu. * Identifikace pomocí popisných statistik: srovnání mediánu a průměru. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Identifikace odlehlých hodnot – příklad 6.3 7.6 6.3 9.1 4.2 5.8 5.65 6.3 8.6 6 6.2 6.7 4.6 6.25 6.3 4.04 6.3 9.1 6.3 5.2 6.4 5.75 6.3 7.6 6.3 9.1 4.2 5.8 5.65 6.3 8.6 6 6.2 6.7 4.6 6.25 6.3 4.04 6.3 9.1 6.3 5.2 64 5.75 hist_outlier.jpeg hist_ok.jpeg boxplot_ok.jpeg boxplot_outlier.jpeg Histogram Histogram Box plot Box plot logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Identifikace odlehlých hodnot – příklad 6.3 7.6 6.3 9.1 4.2 5.8 5.65 6.3 8.6 6 6.2 6.7 4.6 6.25 6.3 4.04 6.3 9.1 6.3 5.2 6.4 5.75 Cílem je určit průměrnou hladinu cholesterolu vybrané populace mužů (hodnoty v mmol/l) 6.3 7.6 6.3 9.1 4.2 5.8 5.65 6.3 8.6 6 6.2 6.7 4.6 6.25 6.3 4.04 6.3 9.1 6.3 5.2 64 5.75 Průměrná hodnota Směrodatná odchylka 6,32 1,34 Průměrná hodnota Směrodatná odchylka 8,94 12,37 Medián 6,30 Medián 6,30 logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Reklama na příští týden… Středem zájmu statistiky a biostatistiky je tzv. náhodná veličina. ω1 R 0 R 0 x 1 P(A) Náhodná veličina X Pravděpodobnost P 600px-Icon-Warning-Red.svg.png