INSTITUT BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita logo_mu-web IBA výuka 2008/2009 logo-IBA-transparent Analýza dat na PC I. Popisná analýza v programu Statistica INSTITUT BIOSTATISTIKY A ANALÝZ VÝUKA Analýza dat na PC I. logo-IBA-transparent Základní popisná statistika Popisná statistika Frekvenční tabulky, analýza kontingenčních tabulek INSTITUT BIOSTATISTIKY A ANALÝZ VÝUKA Analýza dat na PC I. logo-IBA-transparent Typy proměnných uKvalitativní/kategorická u binární - ano/ne u nominální - A,B,C … několik kategorií u ordinální - 1<2<3 …několik kategorií a můžeme se ptát, která je větší uKvantitativní unespojitá – čísla, která však nemohou nabývat všech hodnot (např. počet porodů) uspojitá – teoreticky jsou možné všechny hodnoty (např. krevní tlak) u INSTITUT BIOSTATISTIKY A ANALÝZ VÝUKA Analýza dat na PC I. logo-IBA-transparent Řada dat a její vlastnosti INSTITUT BIOSTATISTIKY A ANALÝZ VÝUKA Analýza dat na PC I. logo-IBA-transparent Frekvenční rozložení Kategorie Četnost B 5 C 8 D 1 Kvalitativní data Tabulka s četností jednotlivých kategorií. Kvantitativní data Četnost hodnot rozložení v jednotlivých intervalech. INSTITUT BIOSTATISTIKY A ANALÝZ VÝUKA Analýza dat na PC I. logo-IBA-transparent Parametry rozložení uSoubor dat (řada čísel) můžeme charakterizovat parametry jeho rozložení uHlavní skupiny těchto parametrů můžeme charakterizovat jako ukazatele: uStředu (medián, průměr, geometrický průměr) uŠířky rozložení (rozsah hodnot, rozptyl, směrodatná odchylka) uTvaru rozložení (skewness, kurtosis) uKvantily rozložení – kolik % řady dat leží nad a pod kvantilem u INSTITUT BIOSTATISTIKY A ANALÝZ VÝUKA Analýza dat na PC I. logo-IBA-transparent Populace a vzorek uPopulace představuje veškeré možné objekty vzorkování, např. veškeré obyvatelstvo ČR při sledování na úrovni ČR, z populace získáme reálné parametry rozložení uZ populace je prováděno vzorkování za účelem získání reprezentativního vzorku (sample) populace, toto vzorkování by mělo být náhodné, důležitá je také velikost vzorku, ze vzorku získáme odhady parametrů rozložení INSTITUT BIOSTATISTIKY A ANALÝZ VÝUKA Analýza dat na PC I. logo-IBA-transparent Ukazatele středu rozložení I uPrůměr – vhodný ukazatel středu u normálního/symetrického rozložení, kde xi jsou jednotlivé hodnoty a n jejich počet u u u uMedián – jde vlastně o 50% kvantil, tj. polovina hodnot leží nad a polovina pod mediánem u uV případě symetrického rozložení jsou jejich hodnoty v podstatě shodné INSTITUT BIOSTATISTIKY A ANALÝZ VÝUKA Analýza dat na PC I. logo-IBA-transparent Ukazatele středu rozložení II. uGeometrický průměr – antilogaritmus průměru logaritmovaných dat, je vhodný pro doleva asymetrická data (lognormální rozložení), která jsou v biologii velmi častá, jeho hodnota v podstatě odpovídá mediánu uTakto asymetrická data je možné převést logaritmickou transformací na normální rozložení log Medián, geometrický průměr Průměr Průměr (logaritmovaných dat) INSTITUT BIOSTATISTIKY A ANALÝZ VÝUKA Analýza dat na PC I. logo-IBA-transparent Ukazatele šířky rozložení uRozptyl je ukazatelem šířky rozložení získaný na základě odchylky jednotlivých hodnot od průměru. u uObdobně jako u průměru je jeho vypovídací schopnost nejvyšší v případě symetrického/normálního rozložení u uSměrodatná odchylka je druhá odmocnina z rozptylu u uKoeficient variance - podíl SD ku průměru (u normálního rozložení by se 95% hodnot mělo vejít do průměr ±3 SD), pokud je SD větší než 1/3 průměru jsou teoreticky pravděpodobné záporné hodnoty v rozložení – ukazatel problémů s normalitou dat INSTITUT BIOSTATISTIKY A ANALÝZ VÝUKA Analýza dat na PC I. logo-IBA-transparent Ukazatele tvaru rozložení uSkewness – ukazatel „šikmosti“ rozložení, asymetrie rozložení uKurtosis – ukazatel „špičatosti/plochosti“ rozložení INSTITUT BIOSTATISTIKY A ANALÝZ VÝUKA Analýza dat na PC I. logo-IBA-transparent Další parametry rozložení uPočet hodnot – důležitý ukazatel, znamená jak moc lze na data spoléhat uStřední chyba odhadu průměru - je založena na směrodatné odchylce rozložení a počtu hodnot, vlastně jde o směrodatnou odchylku rozložení průměru. Říká jak přesný je náš výpočet průměru. Čím větší počet hodnot rozložení, tím je náš odhad skutečného průměru přesnější. uSuma hodnot uModus – nejčastější hodnota, vhodný např. při kategoriálních datech uMinimum, maximum uRozsah hodnot uHarmonický průměr - převrácená hodnota průměru převrácených hodnot (vždy platí harmonický průměr < geometrický průměr < aritmetický průměr) INSTITUT BIOSTATISTIKY A ANALÝZ VÝUKA Analýza dat na PC I. logo-IBA-transparent Distribuční funkce uDefinice kvantilu dle distribuční funkce - Kvantil rozložení (X0,95) je číslo, jehož hodnota distribuční funkce je rovna pravděpodobnosti, pro kterou je kvantil definován (F(x) … distribuční funkce), tj. pokud vezmeme nějaký bod rozložení a porovnáme jej s tímto bodem (kvantilem), máme 95% pravděpodobnost, že bude menší než hodnota kvantilu (X0,95). uPomocí distribuční funkce můžeme určit jaký podíl hodnot rozložení je menší než daná hodnota – využití při statistických testech u INSTITUT BIOSTATISTIKY A ANALÝZ VÝUKA Analýza dat na PC I. logo-IBA-transparent Základní popisná statistika Základní výstup Zpracování chybějících hodnot Tabulka četností hodnot Box and whisker plot (následuje nastavení zobrazených parametrů) Histogram Výběr proměnných Výběr dat INSTITUT BIOSTATISTIKY A ANALÝZ VÝUKA Analýza dat na PC I. logo-IBA-transparent Popisné grafy I. Histogram a graf četnosti uTyto grafy se používají k zobrazení podílu výskytu hodnot v určitém intervalu proměnné. Oba grafy se liší způsobem zobrazení poměrů, zatímco sloupcový graf četností vynáší jako výšku sloupce přímo počet hodnot, u histogramu je důležitá plocha sloupce (počet hodnot zde odpovídá ploše a ne výšce sloupce), která vyjadřuje podíl objektů v daném intervalu, výška sloupce histogramu se získá jako podíl plochy (tj. počtu objektů) a šířky intervalu. V případě stejných šířek intervalů vypadají oba typy grafů stejně, liší se v případě nestejných intervalů (sloupce histogramu jsou u širších intervalů nižší – plocha sloupce odpovídá počtu objektů). uSloupce tedy odráží četnost objektů v daném intervalu, kterou vyjadřují buď svou výškou nebo plochou. Histogramy mohou existovat v několika formách 1) histogram relativních a absolutních četností a 2) histogram normální a kumulativní. INSTITUT BIOSTATISTIKY A ANALÝZ VÝUKA Analýza dat na PC I. logo-IBA-transparent Tvorba grafů uJako součást analýzy uLišta grafů uSamostatné menu grafů uGraphs of block and input data INSTITUT BIOSTATISTIKY A ANALÝZ VÝUKA Analýza dat na PC I. logo-IBA-transparent Tvorba histogramu/grafu četnosti Galerie všech grafů Výběr dat Vážení dat Možnosti nastavení Proložení normálního rozložení Způsob zobrazení více proměnných Nastavení intervalů grafu: • Na základě celých čísel v datech • Počet intervalů • Podle kódů INSTITUT BIOSTATISTIKY A ANALÝZ VÝUKA Analýza dat na PC I. logo-IBA-transparent Pokročilá tvorba histogramu/grafu četnosti Způsob zobrazení více proměnných Způsob zobrazení Zobrazení hodnot na ose Y Testy normality a popisná statistika Proložení různých rozložení Kategorizace • celá čísla v datech • počet kategorií • hranice • kódy • výběr dat Kategorizace grafu INSTITUT BIOSTATISTIKY A ANALÝZ VÝUKA Analýza dat na PC I. logo-IBA-transparent Nastavení společná různým typům grafů I Popisky grafu Překreslení existujícího grafu Transformace os Zobrazení popisek dat INSTITUT BIOSTATISTIKY A ANALÝZ VÝUKA Analýza dat na PC I. logo-IBA-transparent Nastavení společná různým typům grafů II Normální (karteziánský) nebo polární systém Pozice os Zobrazení regresní funkce, nastavení polynomu pro proložení, základ logaritmu Zobrazit postup výpočtu Výběr z dat Přidání upraveného grafu do menu INSTITUT BIOSTATISTIKY A ANALÝZ VÝUKA Analýza dat na PC I. logo-IBA-transparent Ne - Histogram INSTITUT BIOSTATISTIKY A ANALÝZ VÝUKA Analýza dat na PC I. logo-IBA-transparent Box & whisker plot uTyp grafu vynášející několik význačných bodů rozložení, např. medián, kvartily a rozsah hodnot uPoskytuje grafický přehled popisných statistik uRychlé srovnání několika souborů dat uUmožňuje orientačně posoudit normalitu dat INSTITUT BIOSTATISTIKY A ANALÝZ VÝUKA Analýza dat na PC I. logo-IBA-transparent Box and whisker plot Způsob zobrazení box and whisker plotu Kategorizace hodnot do jednotlivých grafů Datová a kategorizační proměnná Preview grafu Ukazatel středu INSTITUT BIOSTATISTIKY A ANALÝZ VÝUKA Analýza dat na PC I. logo-IBA-transparent Box & whisker plot II Kategorizace hodnot do jednotlivých grafů Proložení křivky Datová a kategorizační proměnná Typ grafu Které statistiky budou zobrazeny Středová hodnota Spojení středů Statistické testy INSTITUT BIOSTATISTIKY A ANALÝZ VÝUKA Analýza dat na PC I. logo-IBA-transparent Detailní popisná statistika Vybrání všech statistik Zrušení výběru statistik Uložení nastavení Tvar rozložení (šířka, asymetrie atd.) Ukazatele středu rozložení a počet hodnot Percentily, rozsahy INSTITUT BIOSTATISTIKY A ANALÝZ VÝUKA Analýza dat na PC I. logo-IBA-transparent Normalita dat Kategorizovaný histogram Frekvenční tabulky Histogram Steam and leaf plot 3D histogram Srovnání rozložení Nastavení histogramu Testy normality INSTITUT BIOSTATISTIKY A ANALÝZ VÝUKA Analýza dat na PC I. logo-IBA-transparent Popisné grafy Grafy vynášející proti sobě různým způsobem proměnné Grafy normality INSTITUT BIOSTATISTIKY A ANALÝZ VÝUKA Analýza dat na PC I. logo-IBA-transparent Kategorizované grafy uKategorizované grafy proměnné jsou rozloženy na skupiny dané kategorizační proměnnou (např. proměnná obsahující výšku postavy může být rozdělena podle pohlaví jinou proměnnou obsahující informaci o pohlaví jednotlivých osob (řádků první proměnné) u INSTITUT BIOSTATISTIKY A ANALÝZ VÝUKA Analýza dat na PC I. logo-IBA-transparent Nastavení popisné statistiky Obecná nastavení Nastavení zobrazení box & whisker plotu