Literatura Numerické řešení ODR Parciální diferenciální rovnice Co je statistika? Popisná statistika Drsná matematika III – 7. týden Závěrečné poznámky k diferenciálním rovnicím; přehled popisné statistiky Jan Slovák Masarykova univerzita Fakulta informatiky 2. – 6. 11. 2015 Literatura Numerické řešení ODR Parciální diferenciální rovnice Co je statistika? Popisná statistika Obsah přednášky 1 Literatura 2 Numerické řešení ODR Eulerova metoda 3 Parciální diferenciální rovnice 4 Co je statistika? 5 Popisná statistika Míry polohy statistických znaků Míry variability statistických znaků Literatura Numerické řešení ODR Parciální diferenciální rovnice Co je statistika? Popisná statistika Kde je dobré číst? J. Slovák, M. Panák, M. Bulant, Matematika drsně a svižně, Muni Press, Brno 2013, v+773 s., elektronická edice www.math.muni.cz/Matematika_drsne_svizne Riley, K.F., Hobson, M.P., Bence, S.J. Mathematical Methods for Physics and Engineering, second edition, Cambridge University Press, Cambridge 2004, ISBN 0 521 89067 5, xxiii + 1232 pp. Karel Zvára, Josef Štěpán, Pravděpodobnost a matematická pravděpodobnost statistika, Matfyzpress, 2006, 230pp. Literatura Numerické řešení ODR Parciální diferenciální rovnice Co je statistika? Popisná statistika V praxi se setkáváme s postupy, jak přibližně spočíst řešení rovnice, se kterou pracujeme (protože exaktní řešení jsou vzácná). Už jsme podobné úvahy dělali všude tam, kde jsme se zabývali aproximacemi (tj. zejména lze doporučit porovnání s dřivějšími úvahami o splajnech, Taylorových polynomech a Fourierových řadách). S trochou odvahy můžeme také považovat diferenční a diferenciální rovnice za vzájemné aproximace. V jednom směru nahrazujeme diference diferenciály (např. u ekonomických nebo populačních modelů), ve druhém pak naopak. Zastavíme se na chvilku u nahrazování derivací diferencemi. Nejdříve si však připomeneme obvyklé značení pro zápis odhadů chyb. Literatura Numerické řešení ODR Parciální diferenciální rovnice Co je statistika? Popisná statistika Definition Pro funkci f (x) v proměnné x řekneme, že je v okolí hromadného bodu x0 svého definičního oboru řádu velikosti O(ϕ(x)) pro nějakou funkci ϕ(x), jestliže existuje okolí U bodu x0 a konstanta C taková, že |f (x)| ≤ C · |ϕ(x)| pro všechny x ∈ U. Limitní bod x0 bývá často i nevlastní hodnota ±∞. Literatura Numerické řešení ODR Parciální diferenciální rovnice Co je statistika? Popisná statistika Nejobvyklejší příklady jsou O(xp) pro polynomiální řád velikosti a to v nule nebo v nekonečnu, O(ln x) pro logaritmický řád velikosti v nekonečnu atd. Všimněme si, že logaritmický řád velikosti nezávisí na volbě základu. Dobrým příkladem je aproximace funkce jejím Taylorovým polynomem řádu k v bodě x0. Taylorova věta pro funkce jedné proměnné říká, že chyba této aproximace je O(hk+1), kde h je přírůstek argumentu x − x0 = h. Podobné úvahy jsme dělali i u Fourierových řad. Literatura Numerické řešení ODR Parciální diferenciální rovnice Co je statistika? Popisná statistika V případě obyčejných diferenciálních rovnic je nejjednodušším schématem aproximace tzv. Eulerovými polygony. Budeme ji prezentovat pro jednu obyčejnou rovnici s jednou nezávislou a jednou závislou veličinou. Úplně stejně ale funguje pro systémy rovnic, když skalární veličiny a jejich derivace v čase t nahradíme vektory závislé na času a jejich derivacemi. Uvažujme tedy opět rovnici (pro jednoduchost a bez újmy na obecnosti prvního řádu) y (t) = f (t, y(t)). Literatura Numerické řešení ODR Parciální diferenciální rovnice Co je statistika? Popisná statistika Označme si diskrétní přírůstek času h, tj. tn = t0 + nh, a yn = y(tn). Z Taylorovy věty (se zbytkem druhého řádu) a naší rovnice vyplývá, že yn+1 = yn + y (tn)h + O(h2 ) = yn + f (tn, yn)h + O(h2 ). Jestliže tedy od t0 do tn uděláme n takových kroků o přírůstek h, bude očekávaný odhad celkové chyby vyplývající z lokálních nepřesností naší lineární aproximace nejvýše hO(h2), tj. chyba bude v řádu velikosti O(h). Ve skutečnosti vstupují při výpočtu do hry ještě zaokrouhlovací chyby. Při numerickém řešení Eulerovou metodou postupujeme tak, že za přibližné řešení považujeme po částech lineární polygon definovaný výše. Literatura Numerické řešení ODR Parciální diferenciální rovnice Co je statistika? Popisná statistika U ODR pracujeme s vektorovými rovnicemi F(x, ˙x, ¨x, ... x , . . . ) = 0, kde tečky nad vektorem proěmnných x ∈ Rn označují (násobné) derivace podle dodatečné proměnné t, a cílem je najít křivku x(t) vyhovující po dosazení rovnici. Proměnná t v F nevystupuje pouze proto, že ji vždy umíme schovat do vektorové proměnné x jako souřadnici x0 = t (s přidanou rovnicí ˙x0 = 1). Velmi často místo toho potkáme ale např. rovnice F((u, ux , uy , uxx , uxy , uyy , . . . ) = 0, kde u je neznámá funkce dvou proměnných x a y a indexy naznačují parciální derivace. Už v tomto nejjednodušším případě ale nejsou k dispozici obecné věty o jednoznačnosti a existenci řešení v obdobě k obyčejným diferenciálním rovnicím. Stejně jako u obyčejných rovnic přitom můžeme také uvažovat vektorové formulace a libovolné počty proměnných (jak pro F tak pro u). Literatura Numerické řešení ODR Parciální diferenciální rovnice Co je statistika? Popisná statistika V praxi se nejvíce objevují rovnice prvního a druhého řádu, tj. případy, kdy v definiční rovnici nevystupují parciální derivace řádů vyšších. Jde o velice složitou tématiku, která vyžaduje silné matematické nástroje. Nejjednoduší zajímavý případ je s jednou skalární funkci f (x, y) ve tvaru a(u, x, y)ux + b(u, x, y) = 0, kde a a b jsou známé funkce tří proměnných, u je hledané řešení. Zpravidla takový problém řešíme na nějaké oblasti D ⊂ R2 s hranicí ∂D (která bude v tomto případě krivkou). Literatura Numerické řešení ODR Parciální diferenciální rovnice Co je statistika? Popisná statistika Přirozený nápad je snažit se najít nějaké řešení podél jednotlivých křivek z vhodné soustavy, které nám vyplní celou oblast D. Díky nulovosti pravé strany se přímo podbízí hleda křivky, na nichž bude řešení u konstantní. Pokud zároveň nebudou tyto křivky tečné k hranici ∂D, budeme umět minimálně na nějakém okolí rozšířit hraniční hodnotu u0 konstantně podél takové křivky. Derivací u(c(t)) podle t 0 = d dt u(c(t)) = ux (c(t)) ˙x(t) + uy (c(t)) ˙y(t), což nám dává systém rovnic pro hledané křivky ˙x = a(u, x(t), y(t)), ˙y = b(u, x(t), y(t)). Ten má pro dostatečně diferencovatelné funkce a, b a každou počáteční podmínku x(0), y(0) právě jedno řešení. Literatura Numerické řešení ODR Parciální diferenciální rovnice Co je statistika? Popisná statistika Zkonstruovaným křivkám se říká charakteristiky parciální diferenciální rovnice prvního řádu, příslušné soustavě obyčejných diferenciálních rovnic pak charakteristické rovnice. Tím jsme v tomto případě problém vyřešili, protože když už jednou máme řešení charakteristických rovnic, nutně musí být řešení podél nich konstantní a řešení tak skutečně (lokálně) obdržíme. V okamžiku, kdy přidáme pravou stranu rovnice funkci f (x, y) a píšeme z = u(x, y), dává stejný postup dodatečnou podmínku ˙x = a(u, x(t), y(t)), ˙y = b(u, x(t), y(t)), ˙z = f (x(t), y(t)) a řešení z(t) = u(x(t), y(t)) podél každé charakteristiky c(t) = (x(t), y(t)). Skutečně, z naší konstrukce je zaručeno jak ˙z = f , tak ˙z = ux ˙x + uy ˙y a proto je naše rovnice podél charakteristik splněna. To ale obecně neznamená, že takto zkonstruované u je skutečně řešením původního problému. To musíme ověřit zkouškou. Literatura Numerické řešení ODR Parciální diferenciální rovnice Co je statistika? Popisná statistika Zkusme si úplně jednoduchý příklad s rovnicí yux − xuy = 0 a s počáteční podmínkou u(x, 0) = x. Příslušné charakteristické rovnice jsou ˙x = y, ˙y = −x. Řešení s počáteční podmínkou x(0) = R, y(0) = 0 je tvaru x(t) = R sin t, y(t) = R cos t, u(t) = R. Takto je dobře definovaná funkce u(x, y) (v polárních souřadnicích) jen lokálně. Jednak to zjevně není diferencovatelná funkce v počátku souřadnic, také ale podél charakteristiky dojdeme z (R, 0) do bodu (−R, 0) a naše u již nebude splňovat počáteční podmínky. Literatura Numerické řešení ODR Parciální diferenciální rovnice Co je statistika? Popisná statistika Stejné postupy můžeme (se stejnými potížemi) použít při vyšším počtu proměnných a také s vektorovými hodnotami. Jestliže budeme psát u pro gradient vektorové funkce u : Rn → Rk a zvolíme libovolnou matici A funkcí aij (u, x) s n sloupci a řádky, pak můžeme uvažovat homogenní rovnici A(u, x) · u = F(u, x). Pro případ matice A s jediným řádkem dostáváme obecnou obdobu předchozího příkladu. Nejblíže chování obyčejných diferenciálních rovnic budeme v případdě, kdy je matice A invertibilní. Pak ji můžeme převést na pravou stranu a dostaneme systém rovnic tvaru u = G(u, x). Literatura Numerické řešení ODR Parciální diferenciální rovnice Co je statistika? Popisná statistika V souřadnicích můžeme totéž psát jako up i = ∂up ∂xi (u, x) = Fp i (u, x). S počtením počtu podmínek a neznámých zjistíme, že pokud řešení existuje, bude lokálně zadáno počáteční podmínkou v jednom bodě (tj. velmi podobné chování jako v případě obyčejných diferenciálních rovnic). Vcelku přímočará geometrická analýza tohoto problému (tzv. Frobeniova věta) ukazuje, že evidentní nutná podmínka kompatibility ∂2up ∂xi ∂xj = ∂Fp i ∂xj = ∂Fp j ∂xi je zároveň podmínkou dostatečnou. Literatura Numerické řešení ODR Parciální diferenciální rovnice Co je statistika? Popisná statistika Statistika v širším slova smyslu = jakékoliv zpracování číselných dat o nějakém souboru objektů a jejich (více či méně přehledná) prezentace. Podstatou matematické statistiky je pro daná data zjišťovat: vlastnosti objektů věrohodnost odvozených výsledků. Zpravidla jde o data (cíleně nebo náhodně vybrané) části souboru objektů, jejich následnou analýzu a konečně o vyslovení důsledků pozorování pro celý soubor. Teorie pravděpodobnosti studuje modely popisující chování abstraktních souborů prostřednictvím pravděpodobnosti jevů z jevového pole, matematická statistika studuje skutečné náhodné výběry z nějakého základního souboru a zdůvodňuje výběr teoretického pravděpodobnostního modelu a kvalitativní informace o jeho parametrech. Literatura Numerické řešení ODR Parciální diferenciální rovnice Co je statistika? Popisná statistika Example Za soubor objektů vezměme všechny studenty této přednášky, jako číselný údaj můžeme uvažovat 1 „průměrný počet bodů“ dosažený při hodnocení tohoto předmětu v poslední písemce, 2 průměrnou známku dosaženou u zkoušky z tohoto a z jiných pevně vybraných předmětů, 3 číslená data vypovídající o historii dřívějšího studia, 4 počet pracovních hodin týdně odpracovaných mimo fakultu. Samotný aritmetický průměr bodů nám mnoho neřekne ani o kvalitě přednášky ani o kvalitě přednášejícího ani o samotném hodnocení. Zajímá nás např. hodnota, která bude „uprostřed souboru“, tj. počet bodů, pro které je stejně studentů pod ní a nad ní. Obdobně první a poslední čtvrtina, desetina apod. Všem takovým údajům říkáme statistiky posuzované veličiny. V uvedených příkladech se jim říká medián, kvartil, decil apod. Literatura Numerické řešení ODR Parciální diferenciální rovnice Co je statistika? Popisná statistika Z obecné zkušenosti nebo jako výsledek úvah mimo matematiku víme, jakou „strukturu“ by měla mít sledovaná data. Např. víme, že rozumné hodnocení studentů by mělo mít tzv. normální rozdělení. Tento pojem patří do teorie pravděpodobnosti. Pokud je naše představa oprávněná, pak porovnáním výsledku třeba i docela malého náhodného výběru studentů s teoretickým modelem můžeme zjistit odhad parametrů takového rozdělení a činit závěry, zda je hodnocení „skutečně rozumné“. Zároveň budeme umět popsat věrohodnost našich závěrů. Literatura Numerické řešení ODR Parciální diferenciální rovnice Co je statistika? Popisná statistika Daleko zajímavější vývody ovšem můžeme činit, když porovnáním statistik pro různé veličiny budeme moci dovozovat informace o souvislostech. Pokud např. neexistuje žádná doložitelná souvislost mezi historií předchozího studia a výsledky v dané přednášce, je jedním z možných vysvětlení vývod, že je přednáška prostě špatná. Závěr úvodních úvah: V matematice pracujeme s abstraktním matematickým popisem pravděpodobnosti. Vývody pro konktrétní soubory dat, pro které je zvolený model relevantní dává matematická statistika. Názor, zda je takový popis adekvátní pro konkrétní výběr dat, je také možné podpořit nebo zavrhnout pomocí metod matematické statistiky. Literatura Numerické řešení ODR Parciální diferenciální rovnice Co je statistika? Popisná statistika Popisná statistika není matematická disciplína ... Jde o dlouho řadu zvyklostí/postupů, jak zpracovávat a prezentovat data, a názvů pro jednotlivé typy sestav dat. Zpravidla pracujeme se statistickým souborem, který je sestaven ze statistických jednotek. Na statistických jednotkách se pak měří (zjišťují) jednotlivé statistické znaky. Např. souborem mohou být všichni studenti MU, každý zvlášť je pak statistickou jednotkou. O těchto jednotkách pak můžeme schraňovat mnoho znaků – např. všechny číselné hodnoty zjistitelné z ISu, jakou mají nejraději barvu, co snědli večer před poslední písemkou, atd. Základním objektem pro zkoumání jednotlivých znaků je pak soubor hodnot. Zpravidla jej máme ve formě uspořádaných hodnot. Uspořádání je buď dáno přirozeně (když jsou hodnotami např. reálná čísla) nebo je můžeme zavést pro určitost (třeba když budeme sledovat barvy, tak je můžeme vyjdřovat v RGB standardu a řadit podle tohoto příznaku). Literatura Numerické řešení ODR Parciální diferenciální rovnice Co je statistika? Popisná statistika Statistický popis chce srozumitelně a přehledně sdělit něco o celém souboru. Musíme proto umět jednotlivé hodnoty nějak porovnovávat a poměřovat. Potřebujeme tedy nějaké měřítko. Podle toho jakého charakteru jsou hodnoty, hovoříme o měřítku: nominálním (mezi hodnotami není žádný vztah, jde pouze o četnosti možných hodnot, např. politická strana v ČR nebo učitelé MU při zkoumání obliby); ordinální (totéž jako předchozí, ale s přidaným uspořádáním, např. počet hvězdiček u hotelu v bedekrech); intervalové (jde o číselné hodnoty, ale jde o porovnání velikostí, nikoliv absolutní hodnotu, např. u měření teplot je poloha nuly dohodnuta, ale není podstatná); poměrové (máme pevně stanovené měřítko a nulu, např. většina fyzikálních veličin). Literatura Numerické řešení ODR Parciální diferenciální rovnice Co je statistika? Popisná statistika V dalším budeme pracovat se souborem hodnot x1, x2, . . . , xn (které vznikly měřením na n statistických jednotkách) a uspořádáme je do uspořádaného souboru hodnot x(1), x(2), . . . , x(n). Číslo n nazýváme rozsah souboru. Nejjednodušší je u rozsáhlých souborů znaků, které ale připouští jen málo hodnot uvádět pouze četnosti. Např. při průzkumu preferencí politických stran nebo u prezentace kvality hotelové sítě uvádíme u každé možné hodnoty počet jejích výskytů. Literatura Numerické řešení ODR Parciální diferenciální rovnice Co je statistika? Popisná statistika Pokud je i možných hodnot více (nebo dokonce připouštíme kontinuální reálné hodnoty), dělíme často možný rozsah hodnot na vhodný počet intervalů a o statistickém znaku uvádíme četnost hodnot v daných intervalech. Intervalům se často říká třídy a počtu znaku ve třídě pak třídní četnost. Používáme také kumulativní třídní četnosti, které vznikají prostým součtem třídních četností s hodnotami nejvýše jako má daná třída. Nejčastěji pak uvažujeme střed ai dané třídy za hodnotu, která ji reprezentuje a hodnota ai ni , kde ni je četnost výskytu této třídy představuje celkový příspěvek této třídy. Velmi často také místo četností zobrazujeme relativní četnosti ai /n, resp. relativní kumulativní četnosti. Literatura Numerické řešení ODR Parciální diferenciální rovnice Co je statistika? Popisná statistika Graf, který na jedné ose vynáší intervaly jednotlivých tříd a nad nimi obdélníky s výškou rovnou četnosti se nazývá histogram. Obdobně se znázorňuje kumulativní četnost. Na obrázku jsou histogramy souborů o rozsahu n = 500, které vznikly náhodným generováním dat s rozdělením normálním, χ2 a studentovým Literatura Numerické řešení ODR Parciální diferenciální rovnice Co je statistika? Popisná statistika Míry polohy statistických znaků Chceme-li velikost hodnot, kolem kterých se jednotlivá pozorování znaků shromažďují používáme většinou následující: Definition Nechť (x1, . . . , xn) je soubor hodnot měřeného znaku. Průměr (nebo také výběrový průměr) je dán ¯x = 1 n n i=1 xi = 1 n m j=1 nj aj ; Geometrický průměr je dán ¯xG = n √ x1x2 · · · xn a má smysl pouze u kladných hodnot znaků. Literatura Numerické řešení ODR Parciální diferenciální rovnice Co je statistika? Popisná statistika Definition (pokračování ...) Harmonický průměr je dán ¯xH = 1 n n i=1 1 xi −1 a je také definován jen pro kladné hodnoty znaků. Výběrový průměr je jediný invariantní vůči afinním transormacím, tj. pro libovolné skaláry a, b platí (a + b · x) = a + b · ¯x. Ostatní průměry jsou proto nevhodné pro intervalová měřítka. Logaritmus geometrického průměru je obyčejný průměr logaritmů znaků. Je obzvlášť vhodný pro znaky, které se kumulují multiplikativně, např. úrokové míry. Je-li totiž úroková míra v jednotlivých časových jednotkách xi %, bude za celé období výsledek takový, jakoby byla konstatní úroková míra ¯x%. Platí ¯xH ≤ ¯xG ≤ ¯x. Literatura Numerické řešení ODR Parciální diferenciální rovnice Co je statistika? Popisná statistika Medián, kvartil, decil, percentil, ... Jiný způsob vyjádření míry, jakou hodnotu nabývají znaky je najít pro číslo α mezi nulou a jedničkou takovou hodnotu xα, aby 100α% hodnot znaku bylo nejvýše xα a zbylé byly alespoň xα. Pokud takový znak není určen jednoznačně, volíme zpravidla průměr mezi dvěmi možnými hodnotami. Nejobvyklejší jsou: medián (často také výběrový medián) definovaný vztahem ˜x = x( n+1 2 ) pro liché n a ˜x = 1 2 (x(n/2)+x(n/2+1)); dolní a horní kvartil Q1 = x0,25 a Q3 = x0,75; p-tý kvantil (též výběrový kvantil nebo percentil) xp, kde 0 < p < 1 (zpravidla zadaný na dvě desetinná místa). Lze se setkat také s hodnotou modus, která udává hodnotu znaku s největší četností. Literatura Numerické řešení ODR Parciální diferenciální rovnice Co je statistika? Popisná statistika Míry variability statistických znaků Rozumným požadavkem na jakoukoliv míru variability je její invariance vůči konstantním posunutím. Definition Rozptyl souboru znaků x je definován vztahem s2 x = 1 n n i=1 (xi − ¯xi )2 = 1 n m j=1 nj (aj − ¯x)2 případně v jmenovateli zlomku používáme (n − 1). Směrodatná odchylka je dána jako odmocnina z výběrového rozptylu. Rozpětí výběru je R = x(n) − x(1), kvartilové rozpětí je Q = Q3 − Q1. Literatura Numerické řešení ODR Parciální diferenciální rovnice Co je statistika? Popisná statistika Rozptyl je „zprůměrovaný kvadrát“ standardní euklidovské vzdálenosti vektoru výběrových hodnot od jejich střední hodnoty. Díky této definici se chová velice přirozeně a budeme se s ním často potkávat. Používá se také tzv. průměrná odchylka dx = 1 n n i=1 |xi − ˜x|. Všimněme si, že tady jde o skutečný průměr vzdáleností hodnot znaků, ovšem od mediánu! Následující věta říká, proč zrovna tyto míry volíme: Theorem Funkce S(t) = (1/n) n i=1(xi − t)2 nabývá svého minima pro t = ¯x, tj. pro výběrový průměr. Funkce D(t) = (1/n) n i=1 |xi − t| nabývá svého minima pro t = ˜x, tj. pro medián. Literatura Numerické řešení ODR Parciální diferenciální rovnice Co je statistika? Popisná statistika Diagramy Pro rychlé vstřebávání složitěji strukturovaných informací je člověk skvěle vybaven zrakově. Proto se pro zobrazení statistiky jednotlivých znaků nebo jejich korelací používá mnoho standardizovaných nástrojů. Jedním z nich jsou tzv. krabicové diagramy. Střední linka je medián, kraje boxu jsou kvartily, "packy"ukazují 1,5 kvartilového rozsahu, ne však víc než kraje rozsahu výběru, případné hodnoty mimo jsou přímo naznačeny body. Literatura Numerické řešení ODR Parciální diferenciální rovnice Co je statistika? Popisná statistika Běžné zobrazovací nástroje nám umožnějí dobře vidět případné závislosti dvou výběrů zjištěných znaků. Např. na obrázku jsou za souřadnice voleny hodnoty ze dvou nezávislých výběrů z normálních rozdělení se střední hodnotou 1 a rozptylem 1. Literatura Numerické řešení ODR Parciální diferenciální rovnice Co je statistika? Popisná statistika Entropie Variabilitu chceme postihnout i u nominálních typů znaků. K dispozici máme jen třídní četnosti a můžeme tedy relativní četnost i-té třídy, pi = ni n , vnímat jako pravděpodobnost, že náhodně vybraný prvek bude v této třídě. Podbízí se pro datový soubor x definovat HX = n i=1 pi F(pi ), kde F je zatím neznámá funkce. Je-li pk = 1a ostaní pj = 0, pak je variabilita je nulová. chceme proto F(1) = 0. Literatura Numerické řešení ODR Parciální diferenciální rovnice Co je statistika? Popisná statistika Celkem přirozeně chceme pro soubor znaků Z tvořený dvojicemi znaků ze souborů X a Y (např. můžeme na statistických jednotkách-osobách sledovat barvu očí a barvu vlasů), aby variabilita znaků z byla součtem variabilit jednotlivých znaků, tj. požadujeme HZ = HX + HY . Známe relativní třídní četnosti pi pro znaky v souboru X a qj pro znaky souboru Y . Relativní třídní četnosti pro Z jsou rij = ni mj nm = pi qj a požadujeme tedy rovnost i,j pi qj F(pi qj ) = i pi F(pi ) + j qj F(qj ). Literatura Numerické řešení ODR Parciální diferenciální rovnice Co je statistika? Popisná statistika Díky tomu, že pi a qj jsou relativní četnosti a tedy dávají v součtu 1, můžeme pravou stranu rovnosti přepsat jako j qj i pi F(pi ) + i pi j qj F(qj ) . i,j pi qj F(pi qj ) = i,j pi qj F(pi ) + F(qj ) . Tomuto požadavku vyhovuje jakýkoliv konstantní násobek logaritmu při kterémkoliv pevně zvoleném základu a > 1 (a lze ukázat, že jiná spojitá řešení F neexistují). Literatura Numerické řešení ODR Parciální diferenciální rovnice Co je statistika? Popisná statistika Poněvadž je pi ≤ 1, je jistě ln pi ≤ 0. My však chceme variabilitu nezápornou, zvolíme proto za funkci F logaritmickou funkci s násobkem −1. Taková volba také automaticky splňuje náš požadavek F(1) = 0. Definition (Entropie) Míru variability znaků v nominálním měřítku vyjadřujeme pomocí entropie. Je dána vztahem HX = − k i=1 ni n ln ni n , kde k je počet tříd ve výběru. Kromě přirozeného logaritmu se často také setkáváme (např. teorii informace) se stejným vztahem ale s logaritmem při základu 2. Literatura Numerické řešení ODR Parciální diferenciální rovnice Co je statistika? Popisná statistika Často se také místo HX pracuje s veličinou eHX = i p−pi i , případně totéž s jiným zvoleným základem pro logaritmus. Pro výběr X s k stejně velkými třídními četnostmi je eHX = (1 k )− 1 k k = k, nezávisle na velikosti výběru.