logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Rozdělení pravděpodobnosti
Normální rozdělení jako statistický model
Přehled a aplikace modelových rozdělení
Popisné statistiky
8. Modelová rozdělení pravděpodobnosti, popisné statistiky

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Anotace
—Klasickým postupem statistické analýzy je na základě vzorku cílové populace identifikovat typ a
charakteristiky modelového rozdělení dat, využít jeho matematického modelu k popisu reality a
získané výsledky zobecnit na hodnocenou cílovou populaci.
—Využití tohoto přístupu je možné pouze v případě shody reálných dat s modelovým rozdělením, v
opačném případě hrozí získání zavádějících výsledků (neparametrické statistiky).
—Nejklasičtějším modelovým rozdělením, od něhož je odvozena celá řada statistických analýz je tzv.
normální rozdělení, známé též jako Gaussova křivka.

logo-IBA histnorm.jpg norm.jpg
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Rozdělení (rozložení, distribuce) pravděpodobnosti (dat)
—Funkce přiřazující intervalu hodnot náhodné veličiny pravděpodobnost (obecně), resp. přiřazující
hodnotě náhodné veličiny určitou hustotu pravděpodobnosti (derivace pravděpodobnosti podle náhodné
veličiny).
—V případě diskrétní náhodné veličiny lze ztotožnit intervaly s konkrétními hodnotami a tvrdit, že
rozdělení pravděpodobnosti přiřazuje jednotlivým hodnotám přímo pravděpodobnost.

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Rozdělení (rozdělení, distribuce) pravděpodobnosti (dat)
—Rozdělení pravděpodobnosti pro spojité a diskrétní náhodné veličiny se liší (páry podobných
rozdělení).
—Každá náhodná veličina má určité rozdělení, které může a nemusí být známé (plyne z definice
náhodné veličiny).
—Rozdělení je určeno charakteristickými parametry. Jejich typ a počet se liší na základě komplexity
rozdělení:
¡průměr,
¡rozptyl,
¡špičatost,
¡šikmost aj.
—Při analýze určujeme výběrové parametry, které nejsou totožné s reálnými parametry rozdělení.

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Rozdělení hodnot jako model:
Normální rozdělení
N (m,s)
j(x)
m
N (0,1)
Tmavý šikmo nahoru
j(z)
0
Tabelovaná
podoba
Standardizovaná forma
x
z
z =
x - m
s

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Parametry charakterizující normální rozdělení a jejich význam
j(x)
x
medián
průměr
m ~ x
průměr - ukazatel středu
s2 ~ s2
rozptyl
xi
x
a)
b)
m
s ~ s
směrodatná odchylka
Pravidlo ± 3s
koeficient variance
  c)
  d)
E (x) ~ x ~ m
D (x) ~ s2 ~ s2
prumer+-3sd.jpg

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Rozptyl není univerzálním ukazatelem variability
¢
¢
xi           x          xi
s2 =
Ţ   neúměrně zvýší s2
S(xi – x)2
n - 1
x
—Rozptyl a směrodatná odchylka jsou citlivé na odlehlé hodnoty (jiné než normální rozdělení).

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Normální rozdělení jako model
I. Použitelnost modelu
A) X: spojitý znak - hmotnost jedince (myši)
1,2; 1,4; 1,6; 1,8; 2,0; 2,4;  3,8
n = 7 opakování
medián = 1,8
rozptyl (s2) =
Je předpoklad normálního rozdělení oprávněný ?
Jaký předpokládáte možný rozsah hodnot tohoto znaku ?
?
?
sm. odchylka (s) =
průměr =

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Normální rozdělení jako model
I. Použitelnost modelu
B) X: spojitý znak - hmotnost jedince (myši)
1,2; 1,4;  1,6;  1,8;  2,0;  2,2; 2,4; 3,8; 8,9
n = 9 opakování
průměr =
sm. odchylka (s) =
Jak hodnotíte model u těchto dat ?
medián = 2,0
rozptyl (s2) =

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Normální rozdělení jako model
Předpoklad: Znak x je rozložen podle daného modelu
Znak x je naměřen o n hodnotách
 s modelovými parametry:  x a s
Znak x je převeden na formu
 odpovídající tabulkovému standardu:
Využije se tabelované (modelové) distribuční funkce
 pro testy o rozdělení hodnot x
Platnost modelu ?
? ü
1
2
3
4

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Normální rozdělení jako model - příklad
Tabulky distribuční funkce
• Data z průzkumu jsou publikována jako:
Kosti prehistorického zvířete:
n = 2000
průměrná délka = 60 cm
sm. odchylka (s) = 10 cm
Předpokládáme, že je oprávněný model normálního rozdělení
ü
Jaký podíl kostí ležel svou délkou v rozsahu x od 60 cm do 66 cm ?
Kolik kostí mělo zřejmě délku větší než 66 cm ?
Jaká je pravděpodobnost, že by velikost dané kosti překročila velikost 66 cm: P (x > 66) ?
a platí, že
tedy
22,6% kostí leží v rozsahu 60-66cm

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
rozdělení
Parametry
Stručný popis
Normální
Průměr (m)
Rozptyl (s2)
Symetrická funkce popisující intervalovou hustotu četnosti; nejpravděpodobnější jsou průměrné
hodnoty znaku v populaci.
Log-normální
Medián
Geometrický průměr
Rozptyl (s2)
Funkce intervalové hustoty četnosti, která po logaritmické transformaci nabude tvaru normálního
rozdělení.
 Weibullovo
a - parametr tvaru
b - parametr rozsahu hodnot
Změnou parametru a lze modelovat distribuci doby přežití, např. stresovaného organismu. rozdělení
využívané i jako model k odhadu LC50 nebo EC50 u testů toxicity.
Rovnoměrné
Medián
Geometrický průměr
Rozptyl (s2)
Funkce intervalové hustoty četnosti, která po logaritmické transformaci nabude tvaru normálního
rozdělení.
Triangulární
f(x) = [b - ABS (x - a)] / b2
a - b < x < a + b
Pravděpodobnostní funkce pro typ rozdělení, kdy jsou střední hodnoty výrazně pravděpodobnější než
hodnoty okrajové.
Gama (Exponenciální)
Parametry distribuční funkce:
a - parametr tvaru
b - parametr rozsahu hodnot
Umožňuje flexibilně modelování distribučních funkcí nejrůznějších tvarů. Např. c2 rozdělení je
rozdělení typu Gama. Gama rozdělení
s a = 1 je známo jako exponenciální rozdělení.
Stručný přehled modelových rozdělení I.

logo-IBA
Stručný přehled modelových rozdělení I.
Normální
Lognormální
Weibullovo
Rovnoměrné
Triangulární
Gama

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Stručný přehled modelových rozdělení II.
rozdělení
Parametry
Stručný popis
Beta
Parametry distribuční funkce:
a - parametr tvaru
b - parametr rozsahu hodnot
Pravděpodobnostní funkce pro proměnnou omezenou rozsahem do intervalu [0; 1]. Je matematicky
komplikovanější, ale velmi flexibilní při popisu změn hodnot proměnné
v ohraničeném intervalu.
Studentovo
Stupně volnosti - uvažuje velikost vzorku
Průměr
Rozptyl
Simuluje normální rozdělení pro menší vzorky čísel. Pro větší soubory (n > 100) se limitně blíží k
normálnímu rozdělení.
Pearsonovo
Stupně volnosti - uvažuje velikost vzorku
Slouží především k porovnání četností jevů ve dvou a více kategoriích.
Používá se k modelování rozdělení odhadu rozptylu normálně rozložených dat.
Fisher-Snedecorovo
Dvojí stupně volnosti - uvažuje velikost dvou vzorků
Používá se k testování hodnot průměrů - F test pro porovnání dvou výběrových rozptylů; F test,
ANOVA atd.
Stručný přehled modelových rozdělení II.

logo-IBA
Stručný přehled modelových rozdělení II.
Beta
Pearsonovo
Fisher-Snedecorovo
Studentovo

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Stručný přehled modelových rozdělení II.
rozdělení
Parametry
Stručný popis
Binomické
Průměr (m)
Rozptyl (s2)
Diskrétní obdoba normálního rozdělení - symetrická funkce popisující intervalovou četnost výskytu
jevu v nezávislých pokusech; nejpravděpodobnější jsou průměrné hodnoty znaku.
Poissonovo
Lambda
Rozdělení řídkých (málo pravděpodobných) jevů. Pro n > 30 se používá k aproximaci binomického
rozdělení (jednoduchá matematická forma funkce).
Geometrické
Lambda
Diskrétní podoba exponenciálního rozdělení. Udává počet opakování experimentu do prvního úspěchu
při konstantní pravděpodobnosti úspěchu.
Bernoulliho
Pravděpodobnost jevu p
Binární rozdělení pravděpodobnosti, kdy jev nastane s pravděpodobností p a nenastane s
pravděpodobností 1-p.
Stručný přehled modelových rozdělení III.

logo-IBA
Stručný přehled modelových rozdělení III.
Binomické
Geometrické
Bernoulliho
Poissonovo

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Log-normální rozdělení jako častý model reálných znaků
j (x)
Medián
x
Průměr
U asymetrických rozdělení je medián velmi vhodným alternativním ukazatelem středu
Průměr - těžiště osy x
Medián - frekvenční střed
x

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Log-normální rozdělení lze jednoduše transformovat
f(x)
Medián
x
Průměr
f(x)
Medián
ln (x)
Průměr
=
Y = Ln [X]
•
`Y ± Standardní chyba
EXP (Y) = Geometrický průměr X

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Ukazatele tvaru rozdělení
Koeficienty šikmosti a špičatosti
—Skewness – koeficient šikmosti rozdělení, míra asymetrie rozdělení
kladná hodnota znamená odlehlé body vpravo, záporná vlevo od střední hodnoty.
—Kurtosis – koeficient špičatosti rozdělení,
—
—
kladná hodnota znamená větší hustotu pravděpodobnosti blíže střední hodnotě rozdělení.
\gamma_1 = \frac{\mu_3}{\sigma^3} =
\frac{\operatorname{E}[X-\operatorname{E}(X)]^3}{(\operatorname{var}\,X)^{3/2}} \gamma_2 =
\frac{\mu_4}{\sigma^4} - 3 =
\frac{\operatorname{E}[X-\operatorname{E}(X)]^4}{\left(\operatorname{var}\,X\right)^2} - 3

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Základní typy transformací vedou k normalitě rozdělení nebo k homogenitě rozptylu
Logaritmická transformace

Logaritmická transformace je velmi vhodná pro data s odlehlými hodnotami na horní hranici rozsahu.
Při porovnání průměrů u více souborů dat je pro tuto transformaci indikující situace, kdy se s
rostoucím průměrem mění proporcionálně i směrodatná odchylka, a tedy jednotlivé proměnné mají
stejný koeficient variance, ačkoli mají různý průměr.
Za takovéto situace přináší logaritmická transformace nejen zeslabení asymetrie původního
rozdělení, ale také vyšší homogenitu rozptylu proměnných. Pro transformaci se nejčastěji používá
přirozený logaritmus a pokud jsou v původním souboru dat nulové hodnoty, je vhodné použít operaci Y
= ln (X+1).
Je-li průměr logaritmovaných dat (tedy průměrný logaritmus) zpětně transformován do původních
hodnot, výsledkem není aritmetický, ale geometrický průměr původních dat.
ü
Transformace dat - legitimní úprava rozdělení

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek

  Transformace je vhodná pro proměnné mající Poissonovo rozdělení, tedy proměnné vyjadřující
celkový počet nastání určitého jevu (spíše vzácného) v n nezávisle opakovaných pokusech. Obecněji
lze tento typ transformace doporučit v případě normalizace dat typu počtu jedinců (buněk, apod.).
Jde o transformaci:
                              nebo                               nebo
   Transformace s přičtenou hodnotou 1 jsou efektivní, pokud X nabývá velmi malých nebo nulových
hodnot. Situace indikující vhodnost odmocninové transformace je také proporcionalita výběrového
rozptylu a průměru, tedy obecně jestliže s2x = k (výběrový průměr).
Odmocninová transformace
ü
Transformace dat - legitimní úprava rozdělení
Základní typy transformací vedou k normalitě rozdělení nebo k homogenitě rozptylu

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
   Tzv. úhlová transformace - velmi vhodná pro data typu podílů výskytu určitého jevu (znaku) mezi
n hodnocenými jedinci - tedy pro data mající binomické rozdělení. Pokud se určitý znak vyskytuje
r-krát mezi n možnostmi (jedinci, opakováními), pak lze vyjádřit relativní četnost jeho výskytu
jako p = r/n s variabilitou p.(1-p)/n. Arcsin transformace odstraní ze souborů dat podíly blízké 0
nebo 1, a tak efektivně sníží variabilitu odhadů středu. Transformace však není schopná odstranit
variabilitu vyvolanou rozdílným počtem opakování v jednotlivých variantách - v takovém případě lze
doporučit provedení vážených transformací dat. Velmi častou formou této transformace je:
   - tedy transformace podílů do hodnot, jejichž sinus je roven druhé odmocnině původních hodnot.
Pokud celkový počet jedinců (opakování), mezi kterými je výskyt znaku monitorován, je n < 50, pak
lze doporučit velmi efektivní empirická opatření pro transformaci podílů blízkých 0 nebo 1. Pro
tento případ lze nahrazovat nulové podíly hodnotou 1/4n a 100 % podíly hodnotou (n-1/4)/n. Pokud se
mezi hodnotami vyskytuje větší množství krajních hodnot (menší než 0,2 a větší než 0,8), lze
doporučit transformaci:
Arcsin transformace
Transformace dat - legitimní úprava rozdělení

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Popisná statistika
—Popisná analýza dat je po vizualizaci dat dalším krokem v procesu statistického hodnocení.
Poskytuje představu  o rozsazích hodnocených dat a umožňuje vyhodnotit, srovnáním s literárními
údaji nebo dosavadní zkušeností, jejich realističnost.
—Již při výběru vhodné popisné statistiky se uplatňuje znalost rozdělení dat. Některé popisné
statistiky, odvozené od modelových rozdělení, je možné využít pouze v případě, že data mají dané
modelové rozdělení. Typickým příkladem je průměr a směrodatná odchylka, jejichž předpokladem je
přítomnost symetrického, resp. normálního rozdělení.

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Testy normality
—Testy normality pracují s nulovou hypotézou, že není rozdíl mezi zpracovávaným rozložením a
normálním rozložením. Vždy je ovšem dobré prohlédnout si i histogram, protože některé odchylky od
normality, např. bimodalitu některé testy neodhalí.
Test dobré shody
V testu dobré shody jsou data rozdělena do kategorií (obdobně jako při tvorbě histogramu), tyto
intervaly jsou normalizovány (převedeny na normální rozložení) a podle obecných vzorců normálního
rozložení jsou k nim dopočítány očekávané hodnoty v intervalech, pokud by rozložení bylo normální.
Pozorované normalizované četnosti jsou poté srovnány s očekávanými četnostmi pomocí c2 testu dobré
shody. Test dává dobré výsledky, ale je náročný na n, tedy množství dat, aby bylo možné vytvořit
dostatečný počet tříd hodnot.

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Testy normality
Kolgomorovův-Smirnovův  test
Tento test je často používán, dokáže dobře najít odlehlé hodnoty, ale počítá spíše se symetrií
hodnot než přímo s normalitou. Jde o neparametrický test pro srovnání rozdílu dvou rozložení. Je
založen na zjištění rozdílu mezi reálným kumulativním rozložením (vzorek) a teoretickým
kumulativním rozložením. Měl by být počítán pouze v případě, že známe průměr a směrodatnou odchylku
hypotetického rozložení, pokud tyto hodnoty neznáme, měla by být použita jeho modifikace –
Lilieforsův test.
kolmosmir.jpg
Shapiro-Wilkův test
Jde o neparametrický test použitelný i při velmi malých n (10) s dobrou sílou testu, zvláště ve
srovnání s alternativními typy testů, je zaměřen na testování symetrie.

logo-IBA logomuni
P-hodnota
—Významnost hypotézy hodnotíme dle získané tzv.  p-hodnoty, která vyjadřuje pravděpodobnost, s
jakou číselné realizace výběru podporují H0, je-li pravdivá.
—P-hodnotu porovnáme s α (hladina významnosti, stanovujeme ji na 0,05, tzn., že připouštíme 5 %
chybu testu, tedy, že zamítneme H0, ačkoliv ve skutečnosti platí).
—P-hodnotu získáme při testování hypotéz ve statistickém softwaru.
—
—Je-li p-hodnota  ≤ α, pak  H0 zamítáme na hladině významnosti α a přijímáme HA
—Je-li p-hodnota > α, pak H0 nezamítáme na hladině významnosti α
—
—P-hodnota vyjadřuje pravděpodobnost za platnosti H0, s níž bychom získali stejnou nebo extrémnější
hodnotu testové statistiky.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
M. Cvanová