Přednáška 3 Informace a rozdělení dat Jak vznikají informace Rozdělení dat Institut biostatistiky a analýz, PřF a LF MU Anotace • Základním principem statistiky je pravděpodobnost výskytu nějaké události. • Prostřednictvím vzorkování se snažíme odhadnout skutečnou pravděpodobnost událostí. • Klíčovou otázkou je velikost vzorku, čím větší vzorek, tím větší šance na projevení se skutečné pravděpodobnosti výskytu jevu. Institut biostatistiky a analýz, PřF a LF MU Vznik informací: pojmy I Jev - podmnožina všech možných výsledků pokusu/děje, o které lze říct, zda nastala nebo ne Skutečnost Jevové pole - třída všech jevů, které jsme se rozhodli nebo jsme schopni sledovat Pozorovatel Skutečnost + Jevové pole = Měřitelný prostor Institut biostatistiky a analýz, PřF a LF MU Vznik informací: pojmy II • Experimentální jednotka - objekt, na kterém se provádí šetření • Populace - soubor experimentálních jednotek (objekt) • Znak - vlastnost sledovaná na objektu • Náhodná veličina - číselná hodnota vyjadřující výsledek náhodného experimentu • Znak se stává sledovanou náhodnou veličinou, pokud se jeho hodnota zjišťuje vylosováním (vzorkováním) objektu ze základního souboru (populace) Institut biostatistiky a analýz, PřF a LF MU Vznik informací: vzorkování Statistika hovoří o realitě prostřednictvím výběru z cílové populace Statistické předpoklady korektního vzorkování je nutné dodržet Náhodný výběr z cílové populace Representativnost: struktura vzorku musí maximálně reflektovat realitu Nezávislost: několikanásobné vzorkování téhož objektu nepřináší ze statistického hlediska žádnou novou informaci Cílová populace Institut biostatistiky a analýz, PřF a LF MU Příklad vzorkování • Na základě vzorkování chceme zjistit vlastnosti nějakého jevu • Naší cílovou populací budou hody kostkou s neznámými vlastnostmi • Chceme zjistit vlastnosti neznámé použité kostky Institut biostatistiky a analýz, PřF a LF MU Příklad vzorkování: N=3 0.33 0.33 0.33 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 3 5 6 Pravděpodobnostvýskytu Zjištěné unikátní hodnoty ? Institut biostatistiky a analýz, PřF a LF MU Příklad vzorkování: N=6 0.33 0.33 0.17 0.17 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 1 2 4 6 Pravděpodobnostvýskytu Zjištěné unikátní hodnoty ? Institut biostatistiky a analýz, PřF a LF MU Příklad vzorkování: N=20 0.25 0.10 0.10 0.05 0.15 0.05 0.25 0.05 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 1 2 4 5 6 7 8 9 Pravděpodobnostvýskytu Zjištěné unikátní hodnoty ? Institut biostatistiky a analýz, PřF a LF MU Příklad vzorkování: N=60 0.10 0.08 0.10 0.20 0.10 0.10 0.10 0.07 0.05 0.10 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 1 2 3 4 5 6 7 8 9 10 Pravděpodobnostvýskytu Zjištěné unikátní hodnoty ? Institut biostatistiky a analýz, PřF a LF MU Příklad vzorkování: N=600 0.10 0.09 0.09 0.11 0.09 0.11 0.11 0.11 0.10 0.10 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 1 2 3 4 5 6 7 8 9 10 Pravděpodobnostvýskytu Zjištěné unikátní hodnoty ? Institut biostatistiky a analýz, PřF a LF MU Příklad vzorkování: N=6 000 0.10 0.10 0.11 0.11 0.09 0.09 0.10 0.10 0.10 0.10 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 1 2 3 4 5 6 7 8 9 10 Pravděpodobnostvýskytu Zjištěné unikátní hodnoty ? Institut biostatistiky a analýz, PřF a LF MU Příklad vzorkování: N=60 000 0.10 0.10 0.10 0.10 0.10 0.10 0.10 0.10 0.10 0.10 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 1 2 3 4 5 6 7 8 9 10 Pravděpodobnostvýskytu Zjištěné unikátní hodnoty ? Institut biostatistiky a analýz, PřF a LF MU Příklad vzorkování: závěr • Sledovaný jev má pravděpodobně tvar desetistěnné kostky • U složitých stochastických systémů se pravda získá až po odvedení značného množství experimentální práce: musíme dát systému šanci se projevit • Při realizaci náhodného experimentu roste se zvyšujícím se počtem opakování pravdivá znalost systému (výsledky se stávají stabilnější a spolehlivější) • Diskutabilní je ovšem míra zobecnění konkrétního experimentu (spolehlivost a stabilita výsledků není totéž co nezkreslený výsledek) ? Institut biostatistiky a analýz, PřF a LF MU Empirický zákon velkých čísel • Při opětovné nezávislé realizaci téhož náhodného experimentu se podíl výskytů sledovaného jevu mezi všemi dosud provedenými realizacemi zpravidla ustaluje kolem konstanty. • Pravděpodobnost je libovolná reálná funkce definovaná na jevovém poli A (např. hody kostkou), která každému jevu A (např. strany kostky) přiřadí nezáporné reálné číslo P(A) z intervalu 0 - 1. • Z praktického hlediska je pravděpodobnost idealizovaná relativní četnost • P (A) = 1 ……………………………..… jev jistý • P (A) = 0 ……………………………….. jev nemožný • P (A  B) = P (A) . P (B)………….. nezávislé jevy • P (A  B) = P (A) . P (B/A) …..… závislé jevy • P (A / B) = P (A  B) / P (B) ……. podmíněná pravděpodobnost 0 0.1 0.2 0.3 0.4 1 2 3 4 5 6 7 8 9 10 0 0.1 0.2 0.3 0.4 1 2 3 4 5 6 7 8 9 10 N = 3 N = ∞ Institut biostatistiky a analýz, PřF a LF MU Empirický zákon velkých čísel: příklad • Hodnotíme výskyt mužů v dané sledované populaci (jev „výskyt muže“) • Skutečná pravděpodobnost sledovaného jevu je p=0.5 (tu ale ve skutečnosti neznáme) • Snažíme se na základě opakovaného vzorkování (experimentu) tuto pravděpodobnost zjistit 1.00 1.00 0.67 0.50 0.40 0.50 0.43 0.13 0.33 0.90 0.52 0.58 0.51 0.50 0.53 0.50 0.50 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 2 3 4 5 6 7 8 9 10 25 50 100 250 500 1000 ∞ Relativní četnost ~ Pravděpodobnost jevu (výskyt mužů v cílové populaci) Početopakováníexperimentu P=0.5 Z praktického hlediska je pravděpodobnost idealizovaná relativní četnost Institut biostatistiky a analýz, PřF a LF MU Pravděpodobnost výskytu jevu – rozložení kategoriálních dat • existuje pravděpodobnost výskytu jevů (nedeterministické závěry) • „vše je možné“: pouze jev s pravděpodobností 0 nikdy nenastane 0.10 0.10 0.10 0.10 0.10 0.10 0.10 0.10 0.10 0.10 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 1 2 3 4 5 6 7 8 9 10 Pravděpodobnostvýskytu Zjištěné unikátní hodnoty na kostce Výška sloupce = pravděpodobnost výskytu dané kategorie Suma sloupců = 1 (100% všech možností) Institut biostatistiky a analýz, PřF a LF MU Pravděpodobnost výskytu jevu – rozložení spojitých dat • existuje pravděpodobnost výskytu jevů (nedeterministické závěry) • „vše je možné“: pouze jev s pravděpodobností 0 nikdy nenastane průměr Výška postavy Hustotapravděpodobnosti Plocha = pravděpodobnost výskytu Suma plochy = 1 (100% všech možností) Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Grafický popis dat Institut biostatistiky a analýz, PřF a LF MU Anotace • Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod • Od binárních přes kategoriální, ordinální až po spojitá data roste míra informace v nich obsažené. • Základním přístupem k popisné analýze dat je tvorba frekvenčních tabulek a jejich grafických reprezentací – histogramů. Institut biostatistiky a analýz, PřF a LF MU Jak vznikají data? • Záznamem skutečnosti… Institut biostatistiky a analýz, PřF a LF MU Jak vznikají data? • Záznamem skutečnosti… … kterou chceme dále studovat → smysluplnost? (koncentrace polutantu x nadmořská výška, krevní tlak, glykémie × počet srdcí, počet domů) … více či méně dokonalým → kvalita? (variabilita = informace + chyba) Institut biostatistiky a analýz, PřF a LF MU Jak vznikají informace - různé typy dat znamenají různou informaci Kolikrát ? Podíl hodnot větší/menší než specifikovaná hodnota ? O kolik ? Větší, menší ? Rovná se ? Procenta odvozené hodnoty Data poměrová Data intervalová Data ordinální Data nominální Data binární Spojitá data Diskrétní data Kategoriální otázky Otázky „Ano/Ne“ Samotná znalost typu dat ale na dosažení informace nestačí …………. Institut biostatistiky a analýz, PřF a LF MU Typy dat a jejich informační hodnota • Statistika je užitečná v každé době ☺ • I v době ledové …… • Šaman sedí před jeskyní a přemýšlí: • Zima se blíží a je třeba udělat zásoby na zimu • Ale musím vymyslet jak správně popsat co jsme vlastně ulovili za zásoby • Nebo pomřeme hlady …… Institut biostatistiky a analýz, PřF a LF MU Cílová populace • Vzorkujeme 3 kategorie sledované proměnné kořist Veverka Jelen Mamut Kořist Institut biostatistiky a analýz, PřF a LF MU Binární data – chytili jsme něco? • Informačně nejméně obsáhlá jsou data binární Hodnotíme dva možné stavy: Přinesl x nepřinesl kořist Jak můžeme popsat: ? Institut biostatistiky a analýz, PřF a LF MU Binární data – chytili jsme něco? • Informačně nejméně obsáhlá jsou data binární Hodnotíme dva možné stavy: Přinesl x nepřinesl kořist Jak můžeme popsat: Celkový počet lovů (báze hodnocení) Počet úlovků (absolutní četnost) Podíl úspěšných lovů (relativní četnost) nebo nejčetnější kategorie (modus) N=7 N=10 N = 7 (70%) Jsou binární data dostatečná za všech okolností? Institut biostatistiky a analýz, PřF a LF MU Kategoriální data – co jsme chytili? • Více informací získáme z dat kategoriálních Hodnotíme několik možných stavů: Jak můžeme popsat: Celkový počet lovů (báze hodnocení) Počet různých kategorií úlovků (absolutní četnost) Podíl úspěšných lovů různých kategorií úlovků (relativní četnost) nebo nejčetnější kategorie (modus) N = 4 (40%) N = 1 (10%) N = 2 (20%) N = 3 (30%) Jsou kategoriální data dostatečná za všech okolností? Institut biostatistiky a analýz, PřF a LF MU Jsou kategorie seřaditelné? • Seřaditelné kategorie = ordinální data • Ordinální data je možné popsat stejně jako data kategoriální + u seřiditelných dat je možné počítat i medián ?< < < !< < < Jsou kategoriální data dostatečná za všech okolností? Institut biostatistiky a analýz, PřF a LF MU Pozor na medián u ordinálních dat • Je medián vždy vhodným ukazatelem středu ordinálních dat? Medián? Medián? Vs. Institut biostatistiky a analýz, PřF a LF MU Pozor na medián u ordinálních dat • Medián je shodný, nicméně interpretace dat je odlišná • Možnost a formální správnost výpočtu statistiky neznamená, že jde o vhodnou metodu. Medián je shodný !Vs. Institut biostatistiky a analýz, PřF a LF MU Kvantitativní data – jaký je objem kořisti ? • Informačně nejhodnotnější jsou data kvantitativní • Pro popis je nezbytné posoudit jejich rozložení • Průměr • Medián • Směrodatná odchylka • Minimum, maximum • Percentily • Atd. = = = Institut biostatistiky a analýz, PřF a LF MU Typy dat: shrnutí • Kvalitativní proměnná (kategoriální) – lze ji řadit do kategorií, ale nelze ji kvantifikovat, resp. nemá smysl přiřadit jednotlivým kategoriím číselné vyjádření. • Příklady: pohlaví, HIV status, užívání drog, barva vlasů • Kvantitativní proměnná (numerická) – můžeme jí přiřadit číselnou hodnotu. Rozlišujeme dva typy kvantitativních proměnných: • Spojité: může nabývat jakýchkoliv hodnot v určitém rozmezí. • Příklady: výška, váha, vzdálenost, čas, teplota. • Diskrétní: může nabývat pouze spočetně mnoha hodnot. • Příklady: počet krevních buněk, počet hospitalizací, počet krvácivých epizod za rok, počet dětí v rodině. Institut biostatistiky a analýz, PřF a LF MU Kvalitativní data lze dělit dále • Binární data – pouze dvě kategorie typu ano / ne. • Nominální data – více kategorií, které nelze vzájemně seřadit. • Nemá smysl ptát se na relaci větší/menší. • Ordinální data – více kategorií, které lze vzájemně seřadit. • Má smysl ptát se na relaci větší/menší. Institut biostatistiky a analýz, PřF a LF MU Kvalitativní data – příklady • Binární data • diabetes (ano/ne) • pohlaví (muž/žena) • Nominální data • krevní skupiny (A/B/AB/0) • stát EU (Belgie/…/Česká republika/…/Velká Británie) • Ordinální data • stupeň bolesti (mírná/střední/velká/nesnesitelná) • spotřeba cigaret (nekuřák/ex-kuřák/občasný kuřák/pravidelný kuřák) • stadium maligního onemocnění (I/II/III/IV) Institut biostatistiky a analýz, PřF a LF MU Jak vznikají informace – popis různých typů dat • Kvantitativní data - četnost hodnot rozložení v jednotlivých intervalech. • Kvalitativní data - tabulka s četností jednotlivých kategorií. PRŮMĚR MEDIÁN MODUS Absolutní a relativní četnosti Data poměrová Data intervalová Data ordinální Data nominální Data binární Spojitá data Diskrétní data Statistika středu Kategorie Četnost B 5 C 8 D 1 Institut biostatistiky a analýz, PřF a LF MU Řada dat a její vlastnosti • V analýze je často možné zvolit několik možných cest popisu dat • Kritériem výběru není pouze formální matematická správnost, ale také smysluplnost a informační hodnota použité popisné statistiky v dané situaci Institut biostatistiky a analýz, PřF a LF MU Odvozená data: pozor na odvozené indexy • X: Průměrný počet výrobků v prodejně • Y: Odhad prostoru průměrně nabízeného k vystavení výrobku • Popsáno průměrem a rozsahem min-max • X: 1,2 : (1,15 - 1,24) • Y: 1,8 : (1,75 - 1,84) • • Nová veličina má jinou šířku rozpětí než ty, ze kterých je odvozená + / - 3,8 % + / - 2,5 % + / - 6,2 % 𝑋 𝑌 = 0,667 ∶ 1,15 1,84 − 1,24 1,75 Institut biostatistiky a analýz, PřF a LF MU Vznik informací: opakovaná měření informují rozložením hodnot KOLIK se naměřilo CO se naměřilo Diskrétní data Spojitá data A B C D E y x I II III IV V y x X: měřený znak Y: frekvence absolutní / relativní Institut biostatistiky a analýz, PřF a LF MU Frekvenční sumarizace - základní nástroj popisu dat: kvalitativní data • Cílem sumarizace je zjednodušení dat do přehledné formy • N = 100 pacientů s hemofilií • Hodnocenou proměnnou je počet krvácivých epizod za měsíc • Nejjednodušší sumarizací je frekvenční tabulka • Tabulka ukazuje unikátní hodnoty v datech • Frequency = počet hodnot v kategorii (absolutní četnost) • Percent = procentuální zastoupení kategorie (relativní četnost) • Valid percent = procentuální zastoupení kategorie (bez započtení chybějících hodnot) • Cumulative percent = kumulativní procentuální zastoupení kategorií až po danou kategorii (kumulativní relativní četnost; má smysl pouze pro ordinální data, obdobně existuje i kumulativní absolutní četnost) Institut biostatistiky a analýz, PřF a LF MU Vizualizace frekvenční tabulky kvalitativních dat • Libovolné grafy umožňující vizualizaci počtů a procent (koláčový, páskový, sloupcový, čárový) 0 % 5 % 10 % 15 % 20 % 25 % 30 % 0 1–4 5–9 10–14 15–19 20–24 25–29 30–34 35–39 40–44 45–49 50–54 55–59 60–64 65–69 70–74 75–79 80–84 85–89 90–94 95+ 0 5 000 10 000 15 000 20 000 25 000 30 000 50.6 % 8.7 % 23.0 % 17.6 % 89.5 % 59.3 % 52.4 % 49.7 % 44.4 % 42.5 % 38.8 % 38.8 % 36.1 % 32.7 % 26.9 % 26.0 % 25.4 % 25.4 % 19.7 % 3.3 % 13.8 % 2.8 % 6.6 % 10.2 % 18.4 % 21.9 % 26.5 % 9.6 % 26.8 % 19.8 % 41.3 % 32.7 % 28.4 % 40.7 % 4.6 % 24.9 % 43.6 % 39.9 % 42.2 % 36.6 % 37.1 % 32.3 % 52.6 % 36.3 % 51.1 % 30.6 % 36.8 % 42.0 % 36.9 % 2.6 % 2.0 % 1.2 % 3.8 % 3.1 % 2.5 % 2.1 % 2.4 % 1.7 % 4.2 % 2.1 % 2.2 % 5.1 % 4.2 % 2.7 % 0% 25% 50% 75% 100% 89.5 % 59.3 % 26.0 % 38.9 % 42.5 % 38.8 % 19.7 % 32.7 % 25.4 % 49.7 % 52.4 % 44.4 % 25.4 % 26.9 % 36.1 % 3.3 % 13.8 % 41.3 % 26.5 % 18.4 % 21.9 % 40.7 % 26.8 % 32.7 % 6.6 % 2.8 % 10.2 % 28.4 % 19.8 % 9.6 % 0 % 25 % 50 % 75 % 100 % 0 5000 10000 15000 20000 25000 30000 35000 40000 Institut biostatistiky a analýz, PřF a LF MU Frekvenční sumarizace - základní nástroj popisu dat: kvantitativní data • Cílem sumarizace je zjednodušení dat do přehledné formy • N = 100 pacientů s • Hodnocenou proměnnou je koncentrace látky v krvi • Nejjednodušší sumarizací je opět frekvenční tabulka • Další možností je výpočet zástupných sumárních statistik (průměr, medián aj.) • Tabulka ukazuje unikátní hodnoty v datech • Na rozdíl od kvalitativních dat je nezbytné pro smysluplnost výstupu stanovit v datech intervaly (o stejné nebo různé šířce) • Frequency = počet hodnot v kategorii (absolutní četnost) • Percent = procentuální zastoupení kategorie (relativní četnost) • Valid percent = procentuální zastoupení kategorie (bez započtení chybějících hodnot) • Cumulative percent = kumulativní procentuální zastoupení kategorií až po danou kategorii (kumulativní relativní četnost; obdobně existuje i kumulativní absolutní četnost) Institut biostatistiky a analýz, PřF a LF MU Vizualizace frekvenční tabulky kvantitativních dat • Základním nástrojem vizualizace spojitých dat založeným na frekvenční tabulce je histogram • Na rozdíl od sloupcového grafu představuje vizualizovanou hodnotu plocha sloupce, nikoliv jeho výška 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 20,1 - 40,0 40,1 - 60,0 60,1 - 80,0 80,1 - 100,0 0.0 5.0 10.0 15.0 20.0 25.0 30.0 35.0 20,1 - 40,0 40,1 - 60,0 60,1 - 80,0 80,1 - 100,0 IntervalyIntervaly Hustota Pacienti(%) Sloupcový grafHistogram Institut biostatistiky a analýz, PřF a LF MU Histogram: vliv kategorizace dat • Počtem zvolených intervalů v histogramu rozhodujeme o tom, jak bude vypadat. Při malém počtu můžeme přehlédnout důležité prvky v datech, při velkém zase může být informace roztříštěná. 3 intervaly 5 intervalů 2 6 6 3 7 3 2 1 1 9 0 4 8 12 16 20 1 2 3 4 5 6 7 8 9 1 4.0 4.5 8.0 2.5 1.0 0 4 8 12 16 20 1 - 2 3 - 4 5 - 6 7 - 8 9 - 10 7.0 9.5 3.5 0 4 8 12 16 20 1 - 3 4 - 6 7 - 10 10 intervalů ni /di ni /di ni /di Institut biostatistiky a analýz, PřF a LF MU Histogram: vliv kategorizace dat • Výběr počtu kategorií – důležitý pro interpretaci • Ruční nebo automatický výběr – různé algoritmy (závisí na velikosti vzorku a variabilitě dat) Institut biostatistiky a analýz, PřF a LF MU Histogram: nástroj posouzení rozložení dat • Histogram reálných dat má vazbu na modelové rozdělení ? 145 150 155 160 165 170 175 180 185 190 195 200 205 210 215 220 0 20 40 60 80 100 120 140 160 180 200 5000 10000 15000 20000 25000 30000 35000 40000 45000 50000 55000 Institut biostatistiky a analýz, PřF a LF MU Proč je důležité vědět co je to skutečný histogram I • Většina lidí uvažuje vizuálně – vizualizace dat je tak nesmírně důležitá pro první vjem a interpretaci dat • Díky odlišné vizuální interpretaci histogramu a sloupcového grafu v případě použití různě širokých intervalů může být za některé situace použití sloupcového grafu zavádějící • V praxi se nicméně často používá namísto „pravého“ histogramu sloupcový graf (i výrobci statistických SW) • V případě stejné šířky intervalů interpretační problém nevzniká (při různé šířce intervalu vypínají SW některé volby = nastavení pro pokročilé uživatele) Institut biostatistiky a analýz, PřF a LF MU Histogram a sloupcový graf 0 2 4 6 8 10 12 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 0 0.4 0.8 1.2 1.6 2 2.4 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 0 5 10 15 20 25 30 35 40 45 50 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 0 0.5 1 1.5 2 2.5 3 3.5 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 Věk (roky) Věk (roky) %vintervalu%vintervalu %vintervalu/šířkaintervalu%vintervalu/šířkaintervalu HistogramSloupcový graf Shodná vizuální interpretace při stejné šířce intervalů. Odlišná vizuální interpretace při různé šířce intervalů. Institut biostatistiky a analýz, PřF a LF MU Příklad: věk účastníků vážných dopravních nehod • Analyzován byl věk účastníků vážných dopravních nehod v jedné londýnské čtvrti • Liší se interpretace dat vizualizovaných pomocí sloupcového grafu a histogramu? • Která interpretace Vám přijde smysluplnější a proč? 0 5 10 15 20 25 30 35 40 45 50 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 0 0.5 1 1.5 2 2.5 3 3.5 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 Věk (roky) %vintervalu %vintervalu/šířkaintervalu Věk (roky) Věk N % 0 - 4 28 4,1% 5 - 9 46 6,7% 10-15 58 8,5% 16 - 19 20 2,9% 20 - 24 114 16,6% 25 - 59 316 46,1% > 60 103 15,0% Institut biostatistiky a analýz, PřF a LF MU Proč je důležité vědět co je to skutečný histogram II • Statistické analýzy jsou postaveny na modelových rozděleních, které používáme ve výpočtech jako zástup naměřených dat (pokud reálná data odpovídají svým rozložením modelu, můžeme model využít ve výpočtech místo něj) • Modely popisují rozdělení hustoty pravděpodobnosti výskytu dané hodnoty = pravděpodobnost výskytu hodnot je dána plochou grafu • Rozložení = reálná data • Rozdělení = model Plocha = pravděpodobnost výskytu Suma plochy = 1 (100% všech možností) Institut biostatistiky a analýz, PřF a LF MU Příklad: optimalizace skladových zásob oblečení • Představte si, že vlastníte obchod s oblečením a chcete optimalizovat skladové zásoby různých velikostí oblečení = potřebujete zjistit kolik % lidí v populaci potřebuje jaké oblečení • Jaké je rozdělení lidí v populaci co do velikosti? • Rovnoměrné, normální, lognormální ??? S M L XL XXL Institut biostatistiky a analýz, PřF a LF MU Příklad: optimalizace skladových zásob oblečení • Dá se předpokládat, že velikost lidí je rozložena normálně • Pokud jsme schopni stanovit rozsahy hodnot pro různé velikosti oblečení, můžeme podíly skladových zásob odečíst z křivky normálního rozdělení • Integrovat? • Lze jednodušeji? S M L XL XXL Velikost člověka relevantní k velikosti oblečení Institut biostatistiky a analýz, PřF a LF MU Normální rozdělení a jeho distribuční funkce • K modelovým rozdělením existují jejich distribuční funkce • Pro danou hodnotu rozdělení uvádějí plochu (=pravděpodobnost) pod křivkou do dané hodnoty • Základní nástroj v řadě statistických výpočtů • Kvantil modelového rozdělení: hodnota jíž odpovídá daná plocha pod křivkou rozdělení (např. 95% kvantil je hodnota proměnné pod níž leží 95% všech hodnot) 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 -4 -3 -2 -1 0 1 2 3 4 0.0 0.1 0.1 0.2 0.2 0.3 0.3 0.4 0.4 0.5 -4 -3 -2 -1 0 1 2 3 4 HustotapravděpodobnostiPlochapodkřivkou(pravděpodobnost) Normální rozdělení Distribuční funkce normálního rozdělení Hodnota proměnné Institut biostatistiky a analýz, PřF a LF MU Příklad: optimalizace skladových zásob oblečení • Řešení příkladu odvodíme ze znalosti rozdělení velikosti lidí v cílové populaci a jeho distribuční funkce • Přibližné podíly různých velikostí oblečení: • S: 2.5% • M: 13.4% • L: 68.2% • XL: 13.4% • XXL: 2.5% S M L XL XXL Velikost člověka relevantní k velikosti oblečení -1 x SD 1 x SD 2 x SD-2 x SD 68.2 % plochy2.5 % plochy 2.5 % plochy13.4 % plochy 13.4 % plochy