Masarykova univerzita v Brně Ekonomicko-správní fakulta
Statistika
distanční studijní opora Marie Budíkova
Brno 2004
Socrates
Grundtvig
Tento projekt byl realizován za finanční podpory Evropské unie v rámci programu SOCRATES — Grundtvig.
Za obsah produktu odpovídá válučné autor, produkt nereprezentuje názory Evropské komise a Evropská komise neodpovídá za použití informací, jez jsou obsahem produktu.
This project was realized with financial support of European Union in terms of program SOCRATES — Grundtvig.
Author is exclusively responsible for content of product, product does not represent opinions of European Union and European Commission is not responsible for any uses of informations, which are content of product
Statistika
Vydala Masarykova univerzita v Brne Ekonomicko-správní fakulta
Vydá n í pilotn í verze Brno, 2004
RNDr. Marie Bud íková , Dr.
Publikace neprošla jazykovou úpravou
Identifikace modulu
Znak
■ KMSTAT
Nazev
■ Statistika
Garant/autor
■ RNDr. Marie Budíková, Dr.
Statistika jako metoda analýzy dat patrí k vedním disciplínám, v nichž by mel být vzdeian každý ekonom. Její role v ekonomii je zcela nezastupitelna, nebot' moderní rízení je založeno na nepretržitem vyhodnocovýní informací o hospodírství jako celku i jeho subsystemech, a tyto informace poskytuje a nísledne zpracovava príve statistika.
Primerena znalost zakladních statistickych pojmu je pro ekonoma dulezita take proto, ze mu pournlm porozumet odborne ekonomicke literature, jejízz nektere casti statistiku v hojne míre vyuzívají.
Vyznam statistiky v poslední dobe neustale roste, coz uzce souvisí s rozvojem vypocetní techniky, ktera je pouzívína jak pri sberu a prenosu dat, tak pri jejich zpracovaní a uklí-dím informací.
Dovednosti a znalosti získané po studiu textu
Predmet „Statistika" vís nm predevsím naucit zpracovívat data, kterí se tíkají ekonomi ckích jevu, tj. data trídit, numericky vyhodnocovat a interpretovat. Velke mnozství príkladu, které jsou soucastí ucebního textu, vam pomuze pri formulovaní vlastních íloh a víberu spravne metody. Nauďte se rovnez vyuzívat vypocetní techniku pri résení ekonomickych problemu.
Časový plán
Časová náročnost
■ prezenční část 22%
■ samostudium 78%
celkový studijní čas
■ 14 tádnu
Harmonogram
■ prednaSky 24 hodin
■ samostudium a prace s počítačem 85 hodin
3
doporučená literatura:
[1] Anděl J.: Matematická statistika. SNTL/Alfa Praha 1978.
[2] Arltová M., Bílková D., Jarošová E., Pourová Z.: Sbírka
přákladů ze statistiky (Statistika A). VŠE Praha 1996. [3] Budíková M., Mikoláš ě., Ošecký P.: Popisná statistika. MU Brno
2001.
[4] Budíková M., Mikoláš ě., Ošecká P.: Teorie pravděpodobnosti a
matematicka statistika. Sbírka príkladu. MU Brno 2001. [5] HebÁk P., KahounovÁ J.: Pocet pravdepodobnosti v prákladech.
SNTL Praha 1978.
[6] Karpíšek Z.: Pravdepodobnostná metody. VUT Brno 2000.
[7] Karpíšek Z., Drdla M.: Statistické metody. VUT Brno 1999.
[8] NovoviěOVÁ J.: Pravdřpodobnost a matematická .statistika. (ČVUT
Praha 2002.
[9] Stuchlý J.: Statistika I. Cvičená ze statistickájch metod pro managery.
VSŠE Praha 1999.
Vybavení
■ PC
■ CD-ROM
Navod prace se studijními texty
Text je rozvržen do 13 kapitol a 2 príloh. 1. az 4. kapitola se zabývají popisnou statistikou. Popisna statistika je disciplína, ktera pomočí ruznáčh tabulek, grafu, funkčionalníčh a číselnáčh charakteristik sumarizuje informace obsaŠzeníe ve velkíem mnoŠzstvíí dat. PouŠzíívaí jen zíakladníí matematičkíe operače a lze ji snadno počhopit. Její dulezitost spočíví jednak v tom, ze se v praxi velmi Ščasto pouŠzívía a jednak motivuje pojmý, kteríe jsou potŠreba v poŠčtu pravdŠepodobnosti.
5. aŠz 10. kapitola vías sezníamí s poŠčtem pravdŠepodobnosti, kteríý se zabíývía studiem zíakonitostí v níahodnýíčh pokusečh. Matematičkíými prostŠredký modeluje situače, v ničhŠz hraje roli níahoda. Pod pojmem níahoda rozumíme působení faktoru, které se zivelne mení pri ruznýčh provedeníčh téhoz pokusu a nepodlíehají naŠsí kontrole.
11. az 13. kapitola obsahují zakladní poznatky o matematičke statističe. Ma-tematičkaí statistika je vŠeda, ktería analýzuje a interpretuje data pŠredevŠsím za učelem získíní predpovedi a zlepsení rozhodovíní v ruzníčh oblastečh lidske Ščinnosti. PŠri tom se Šrídí prinčipem statističkíe indukče: na zíakladŠe znalostí o níahodníem výíbŠeru z urŠčitíeho rozloŠzení pravdŠepodobností se snaŠzí odvodit vlastnosti tohoto rozloŠzení pravdŠepodobností.
PŠríloha A je tvoŠrena výbraníými statističkíými tabulkami, konkríetnŠe obsahuje hodnotý distribuŠční funkče standardizovaníeho normíalního rozloŠzení, kvantilý
4
standardizovaného normálního rozložení, Pearsonova rozložení x2(n), Studentova rozložení t(n) a Fisherova-Snedecorova rozložení F(ni,n2). Príloha B pak obsahuje informace o programovem systemu STATISTICA a podrobne nívody na jeho pouzití.
V Úvodu 1. az 13. kapitoly je vzdy vymezen cíl kapitoly a je uvedena casova zatez, ktera je potrební ke zvladnutí príslušne kapitoly. Kapitoly jsou uzav-reny stručným shrnutím probrane lítky a kontrolními otazkami a íkoly. Ty ukoly, jejichz resení je nutne ci alespoň vhodne provadet pomocí systemu STATISTICA, jsou oznaceny (S). Vísledky ukolu muzete porovnat s vísled-ky, k nimz dospela autorka ucebního textu.
1. az 13. kapitola jsou usporadany v logickem sledu. Do prílohy A budete nahlízet podle potreby a príloha B vam poslouzí rovnez prubezne.
5
Obsah
Obsah
1. Základní, výběrový a datový soubor...............................................13
2. Bodově a intervalově rozložení četností...........................................21
3. Číselně charakteristiky znakU......................................................39
4. Regresní prímka....................................................................49
5. Jev a jeho pravdepodobnost.......................................................57
6. Stochastický nezavisle jevý a podmínena pravdepodobnost.....................65
7. Nahodna veličina a její distribuční funkce.........................................71
8. Výbrana rozložení diskretních a spojitých nahodných velicin.....................85
9. (Číselne charakteristiký nahodných velicin........................................97
10. Zakon velkých císel a centrální limitní veta.......................................111
11. Zakladní pojmý matematicke statistiký...........................................117
12. Bodove a intervalove odhadý parametru a parametrických funkcí...............123
13. Úvod do testovaní hýpotez a testý o parametrech normalního rozlození........137
Príloha A - Statisticke tabulký.........................................................147
Príloha B - Zakladní informace o programu STATISTIČA 6............................163
8
Úvod
Úvod
Proč se zabývat statistikou?
Statistika je metoda analýzy dat, která nachází široké uplatnění v cele řadě ekonomických, technických, prírodovedných a humanitních disciplín. Její význam v poslední dobe neustale roste, coz ýzce souvisí s rozvojem výpocetní techniky, ktera je pouzívana jak pri sberu a prenosu dat, tak pri jejich zpracovaní a ukladíní informací.
Role statistiky v ekonomii je zcela nezastupitelna, nebot' moderní rízení je založeno na nepretržitem vyhodnocovaní informací o hospodarství jako celku i jeho subsystemech, a tyto informace poskytuje a nasledne zpracovava prave statistika.
Primerena znalost zakladních statistickích pojmu je pro ekonoma dulezita take proto, ze mu pomaha porozumet odborne ekonomicke literature, jejízz nektere (časti statistiku v hojne míre vyuzívají.
Aplikovat statistiku znamení shromazd'ovat data o studovanych jevech a zpracovávat je, tj. trídit, numericky vyhodnocovat a interpretovat. Statistika se tak pro ekonoma ocita v tesnem sousedství informatiky a vípocetní techniky a je pripravena resit ekonomicke problemy pomocí kvantitativní analyízy dat.
10
Způsob studia
Způsob studia
Co lze očekávat od tohoto textu?
V předmětu „Statistika" se budeme zabývat třemi oblastmi statistiky, a to popisnou statistikou, počtem pravdepodobnosti a matematickou statistikou.
Popisná statistika je disciplína, ktera pomocí řuznych tabulek, grafu, funkcionýlních a číselných charakteristik sumarizuje informace obsazene ve velkem množství dat. Používý jen zakladní matematicke operace a lze ji snadno pochopit. Její dulezitost spocíva jednak v tom, ze se v praxi velmi casto pouzíva a jednak motivuje pojmy, ktere jsou potreba v poctu pravdepodobnosti.
PoCet pravděpodobnosti se zabyva studiem zakonitostí v nahodních pokusech. Matematickými prostredky modeluje situace, v nichz hraje roli nahoda. Pod pojmem nahoda rozumíme pusobení faktoru, ktere se zivelne mení pri ruzních provedeních tehoz pokusu a nepodlehají nasí kontrole.
Matematická statistika je veda, ktera analyzuje a interpretuje data predevsím za ucelem získaní predpovedi a zlepsení rozhodovaní v raznych oblastech lidske cinnosti. Pri tom se rídí principem statisticke indukce: na zaíklad e znalostíí o níahodníem víyb eru z ur citíeho rozlo zeníí pravd epodobnostíí se snazí odvodit vlastnosti tohoto rozlození pravdepodobností.
K uspesnemu zvlídnutí predmetu „Statistika" je zapotrebí ovlídat kombinatoriku, zíaklady diferenciíalníího a integraílníího po ctu jedníe a dvou prom ennyích a zníat zaíklady príace s osobníím po cííta cem.
Velmi uí cinnyím prost redkem pro re seníí statistickyích uíloh je programovyí system STATISTICA, jehoz instalacní CD je soucastí studijních materiam. Informace o tomto systemu a podrobne navody na jeho pouzití jsou uvedeny v príloze B studijních materiálu. Príklady ci íkoly, jejichz resení je nutne ci alespon vhodníe provaíd et pomocíí systíemu STATISTICA, jsou ozna ceny (S).
P rííloha A obsahuje vybraníe statistickíe tabulky, konkríetn e hodnoty dis-tribu cníí funkce standardizovaníeho normaílníího rozlo zeníí, kvantily standar-dizovaneho normílního rozlození, Pearsonova rozlození x2(n), Studentova rozlození t(n) a Fisherova-Snedecorova rozlození F(n\,n2). Vsechny tyto tabelovane hodnoty (a samozrejme mnohe dalsí) lze získat pomocí systemu STATISTICA.
12
I
1
Základní, výběrový a datový soubor
1. Základní, výběrový a datový soubor
I
Cíl kapitoly
Po prostudování teto kapitoly budete umet:
■ vymezit základní soubor a jeho objekty
■ stanovit váberovy soubor
■ spočítat absolutní a relativní četnosti množin ve váberovem souboru a znát vlastnosti relativní četnosti a podmínene relativní četnosti
■ overit četnostní nezívislost dvou množin ve víberovem souboru vytvo rit datovíy soubor
■ usporídat jednorozmerný datovy soubor a stanovit vektor variant vypo číítat absolutníí a relativníí četnost jevu ve víyb erovíem souboru
(Časová zátěž
Pro zvlídnutí teto kapitoly budete potrebovat 4-5 hodin studia.
Nejprve se seznamíme s definičí zakladního a vyberoveho souboru a pojmem absolutní a relativní četnosti mnoziny v danem vyberovem souboru. Uvedeme príklad, s jehoz razními variantami se budeme setkavat ve vsečh kapitolíčh venovaníčh popisne statističe. Rovnez shrneme vlastnosti relativní četnosti.
1.1. Definice
Zakladním souborem rozumíme libovolnou neprízdnou mnozinu E. Její prvky značíme e a nazyvame je objekty. Libovolnou neprízdnou podmnozinu
{e\,... ,en} základního souboru E nazýváme výběrový soubor rozsahu n. Je-li G C E, pak symbolem N(G) rozumíme absolutní četnost mnoZiný G ve vyberovem souboru, tj. počet tech objektU mnoZiný G, ktere patrí do výběrového souboru. Relativní (četnost mnoZiný G ve vyberovem souboru zavedeme vztahem
n
1.2. Příklad
Zakladním souborem E je mnozina vsečh ekonomičky zamerenyčh studentu 1. ročníku českíčh vysokíčh skol. Mnozina G1 je tvorena temi studenty, kterí
uspeli v prvním zkusebním termínu z matematiky a mnozina G2 obsahuje ty studenty, kterí uspeli v prvním zkusebním termínu z angličtiny. Ze zakladního souboru bylo nahodne vybrano 20 studentu, kterí tvorí víberoví soubor (ei,... , e20}. Z tedito 20 studentu 11 uspelo v matematiče, 15 v angličtine a 11 v obou predmetečh. Zapiste absolutní a relativní četnosti uspesnyčh matematiku, angličtiníru a oboustranne uspesníčh studentu.
RResení:
N(Gi) = 12, N(G2) = 15, N(Gi n G2) = 11, n = 20
p(Gi) = ^ = 0,6, p(G2) = 0,75, p(Gi n G2) = ^ = 0,55
14
Vidíme, že úspěšných matematiků je 60%, angličtinářů 75% a oboustranně úspěšných studentů jen 55%.
1.3. Věta
Relativní četnost ma nýsledůjících 12 vlastností, ktere jsou obdobne vlastnostem přocent.
■ p(0) = O
■ p(G) > 0
■ p(G1UG2)+p(G1r\G2)=p(G1)+p(G2) m l+p(GlnG2)>p(Gl)+p(G2)
■ p(G1UG2)
• p(Gl) < p(G2) m P(E) = 1 _
■ p{G)+p{G) = 1
■ P(G) < 1
Pokud se v danem žýkladním souborů žajímýme o dve podmnožiny, můžeme žavest pojem podmínene relativní četnosti jedne podmnožiny v danem vý-berovem souborů ža předpokladů, že objekt pochaží ž druhe podmnožiny. V nýsledujícím príkladu výpocteme podmínene relativní cetnosti ůspesných matematiků meži ůspesnými anglictinari a naopak.
1.4. Definice
Necht' E je žýkladní soubor, G\, G2 jeho podmnožiny, {e\,..., en] výberový soubor. Definujeme podmíněnou relativní četnost množiny Gi ve víberovem
souborů ža predpokladu G2:
!n lri ,_N(G1nG2) _P(G1nG2)
P{GllG2) N(G2) p{G2) a podmíněnou relativní četnost G2 ve víberovem souborů ža predpokladu G1:
ín .„ , iV(GinG2) _P(G1nG2)
1.5. Příklad
Pro ůdaje ž príkladu 1.2 výpoctete podmínenou relativní cetnost ůspeSných matematiků meži uspesními anglictinari a podmínenou relativní cetnost ů-
spesných anglictinarů meži ůspeSnými matematiký. IŘěšění:
p(G\\G2) = y| = 0,73 (tzn., že 73% těch studentů, kteří byli úspěšní v an-glictine, uspelo i v matematice)
15
1. Základní, výběrový a datový soubor
I
p(G2|Gi)
11
12
0,92 (tzn., ze 92% tech studentů, kteří byli úspěšní v ma-
tematice, uspelo i v angličtine)
Nyní se naučíme, jak oveřovat četnostní nezúvislost dvou množin v danem vúbeřovem souboru. Znamena to, že informace o puvodu objektu z jedne množiny nijak nemení sance, s nimiž soudíme na jeho puvod i z dřuhe množiny. Oveříme, zda uspech v matematice a anglictine jsou v danem vy-beřovem soubořu cetnostne nezavisle.
1.6. Definice
Řekneme, že množiny G1,G2 jsou cetnostne nezávislé v danem vybeřovem soubořu, jestli ze
p(Gi n G2)= p(Gi) • p(G2).
(V přaxi jen zřídka dojde k tomu, že uvedení vztah platí přesne. Vetsinou je jen nazna cena uř citía tendence cetnostníí nezíavislosti.)
1.7. Příklad
Přo udaje z příkladu 1.2 zjistete, zda uspechy v matematice a anglictine jsou v daníem vyíb eřovíem soubořu cetnostn e nezíavislíe.
Řešení:
p(G1 n G2) = 0,55, p(G1) • p(G2) = 0,6 • 0,75 = 0,45,
tedy skutecní řelativní cetnost oboustřanne úspeSnúch studentu je vetsí než by odpovídalo cetnostní nezavislosti množin G1, G2 v danem víbeřovem sou-bořu.
Nyníí ka zdyí objekt zíakladníího soubořu ohodnotííme jedníím nebo vííce cíísly pomocí funkce, kteří se nazyví znak. Císla, kteří se vztahují pouze k objektum vyíb eřovíeho soubořu sestavííme do matice zvaníe datovyí souboř. Vystv etlííme si, co to je uspořadany datovy souboř a vektoř vařiant. Uvedene pojmy ob-jasnííme na p řííkladu.
1.8. Definice
Necht' E je zakladní souboř. Potom funkce X : E — R, Y : E — R, ..., Z : E — R, kteře každemu objektu přiřazují císlo, se nazývají (skalární) znaky. Uspořadana p-tice (X, Y,..., Z) se nazyva vektořovy znak.
1.9. Definice
Necht' je dan vybeřoví souboř ..., en} C E. Hodnoty znaku X, Y,..., Z přo i-tí objekt oznacíme Xj = X(e), y = Y(e), ..., z = Z(e), i = 1,..., n. Matice
X1 V1
X2 y2
Z1
Z2
16
typu n x p se nazyva datoví soubor. Její radky odpovídají jednotlivym ob-jektum, sloupce znakum.
Libovolny sloupec teto matice nazývýme jednorozměrným datovým souborem. Jestlize ušporadýme hodnoty nektereho znaku (napr. znaku X) v jed-norozmernem datovem souboru vzestupne podle velikosti, dostaneme uspořádaný datový soubor
rx(i)
I
kde x(1) < x (2) < • • • < x (n). Vektor
X (n)
X[1]
x[n]
kde x[1] < • • • < x[r] jsou navzíjem ruzne hodnoty znaku X, se nazyva vektor variant.
1.10. Příklad
Pro studenty z víberoveho souboru u vedeneho v príkladu 1.2 byly zjist'ovany hodnoty znaku X - znamka z matematiky v prvním zkusebním termínu, Y - znamka z anglictiny v prvním zkusebním termínu, Z - pohlaví studenta (0 ... zena, 1... muz). Byl získan datoví soubor
3 1
4 0
4 4 1
3
3 1 1
4
440
440
441 130
Utvorte jednorozmerní usporadaní i ^^porada^ datovy soubor pro znam-ky z matematiky a vektory variant pro znamky z matematiky.
17
1. Základní, výběrový a datový soubor
V závěrečné partii této kapitoly se seznámíme s pojmem jevu a jeho absolutní a relativní četnosti. V nasledujíčím príkladu vypočítame konkretní absolutní a relativní četnosti nekolika jevu.
1.11. Definice
Nečht' {či, ..., £„} je výberový soubor, X, Y,..., Z jsou znaky, B, B1,..., Bp jsou číselne množiny. Zapis {X G B} znamena jev „znak X nabyl hodnoty z množiny B" a zapis {X G Bi A Y G B2 A ...Z G Bp} znamená jev „znak X nabyl hodnoty z množiny B1 a současně znak Y nabyl hodnoty z mnoZiny B2 atd. az znak Z nabyl hodnoty z množiny Bp". Symbol N (X G B) značí absolutní četnost jevu X G B ve víberovem souboru, tj. počet tečh objektu ve víberovem souboru, pro nez x G B. Symbol p(X G B) znamená relativní četnost jevu {X G B} ve vyberovem souboru, tj.
v(x e B) = mi*.
n
Analogičky N (X G B1 A Y G B2 A • • • A Z G Bp) resp. p(X G B1 A Y G B2 A • • • A Z G Bp) znamení absolutní resp. relativní četnost jevu {X G B1 A Y G B2 A • • • A Z G Bp} ve víberovem souboru.
1.12. Příklad
Pro datovy soubor z príkladu 1.10 najdete relativní četnost
a) matematičkíčh jedničkaru,
b) uspesnyčh matematiku,
18
c) oboustranne neuspesnych studentu. Řešení:
ad a) p{X = 1) = ^ = 0,35; ad b) p{X < 3) adc) p(X = 4Aľ = 4) = |r = 0,20.
12 _ 20
0,60;
Shrnutí kapitoly
Predmetem statistickeho zajmu není jednotliví objekt, níbrz soubor objektu, tzv. zíkladní soubor. Zpravidla není mozne vysetrovat vsechny objekty, ale jenom urcití pocet objektu, ktere tvorí vyberoví soubor. Ty prvky zakladního souboru, ktere vykazují urcitou spolecnou vlastnost, tvorí mnozinu. Statistik zkouma absolutní a relativní cetnost mnoziny v danem vyberovem souboru. Zajímají-li nas ve víberovem souboru dve mnoziny, muzeme zkoumat vyskyty objektu z jedne mnoziny mezi objekty pochízejícími z druhe mnoziny. Tím dospívame k pojmu podmínene relativní cetnosti. Rovnez lze overovat cetnostní nezavislost techto dvou mnozin v danem víberovem souboru. Cetnostní nezavislost vlastne znamena, ze informace o puvodu objektu z jedne mnoziny nijak nemení sance, s nimiz soudíme na jeho puvod z druhe mnoziny. Kazdemu objektu zakladního souboru lze pomocí funkce zvane znak priradit císlo (nebo i více císel). Pokud hodnoty znaku pro objekty daneho vyberoveho souboru ušporýdame do matice, dostavame datovy soubor. Libovolní sloupec teto matice tvorí jednorozmerny datovy soubor, kterí muzeme usporadat podle velikosti a vytvorit tak usporadany datoví soubor nebo z nej získat vektor variant. Jevem rozumíme skutecnost, ze znak nabyl hodnoty z nejake císelne mnoziny. Muzeme zkoumat absolutní a relativní cetnost jevu v danem vyberovem souboru.
Kontrolní otazky a Úkoly
1 Uved'te príklad zakladního souboru z ekonomicke praxe.
2 Necht' jsou neslucitelne, p(G1) = 0,27, p(G1 U G2) = 0,75. Vypoctete p(G2).
3 Necht' G1 C G2, p(G1) = 0,33, p(G2 - G1) = 0,15. Vypoctete p(G2).
4 Necht' p(G1 - G2) = 0,36, p(G1 n G2) = 0,12. Vypoctete p(G2).
5 Je dan dvourozmerny datoví soubor
'2 1'
20 10
42
Znak X znamena pocet clenu domacnosti a znak Y pocet detí do 15 let v tíeto domíacnosti.
I
19
1. Zakladní, výberový a datový soubor
I
a) Utvorte usporadane datove soubory pro znaky X a Y.
b) Najdete vektory variant znaku X a Y.
c) Vypoctete relativní cetnost tríclennych domacností.
d) Vypoctete relativní cetnost nejvíse tríclennych domacností.
e) Vypoctete relativní cetnost bezdetních domacností.
f) Vypoctete relativní cetnost dvouclennych bezdetnych domacností.
g) Vypoctete podmínenou relativní cetnost dvoudenních domacnos-tíí, kteríe jsou bezd etníe.
20
2
Bodově a intěrvalově rozložění čětností
2. Bodove a intervalové rozloZení četností
I
Cíl kapitoly
Po prostudovaní teto kapitoly budete umet:
■ konstruovat diagramy znazomující rozlození cetností
■ vytvaret tabulky cetností
■ sestrojit grafy cetnostní funkce, empiricke distribucní funkce, hustoty cetnosti a empiricke intervalove distribucní funkce
Casova zatez
Pro zvlídnutí teto kapitoly budete potrebovat 7-8 hodin studia.
Nejprve se seznamíme s bo dovím rozlozením cetností a ukazeme si, jak pomocí ruzních diagramu graficky znazornit bodove rozlození cetností. Pro datoví soubor znamek z matematiky a anglictiny pak vytvoríme nekolik typu diagramu.
2.1. Definice
Necht' je dan jednorozměrný datový soubor. Jestliže počet variant znaku X není príliS velký, pak přiřazujeme Cetnosti jednotlivým variantam a hovoříme o bodovém rozložení četností
2.2. Definice
Existuje nekolik zpusobu, jak graficky znazornit bodove rozlození cetností.
Tečkový diagram: na císelne ose vyznacíme jednotlive varianty znaku X a nad kazdou variantu nakreslíme tolik tecek, jakí je její absolutní cetnost.
Polygon (četnosti: je lomena cara spojující body, jejichz x-oví souradnice je varianta znaku X a y-ova souradnice je absolutní cetnost teto varianty.
Sloupkový diagram: je soustava na sebe nenavazujících obdelníku, kde stred zakladny je varianta znaku X a vyska je absolutní cetnost teto varianty.
Výsečový graf: je kruh rozdelení na vysece, jejichz vnejsí obvod odpovídí absolutním cetnostem variant znaku X.
Dvourozměrný tečkový diagram: na vodorovnou osu vyneseme varianty znaku X, na svislou varianty znaku Y a do príslusnych prasecíku nakreslíme tolik tecek, jakí je absolutní cetnost dane dvojice.
2.3. Príklad
Pro datovy soubor z príkladu 1.10 sestrojte
a) jednorozmerne teckove diagramy pro znak X a znak Y,
b) polygony cetností pro znak X a znak Y,
c) sloupkovíe diagramy pro znak X a znak Y,
d) vísecove diagramy pro znak X a znak Y,
e) dvourozmerní teckovy diagram pro vektoroví znak (X, Y),
22
Řešení:
ad a)
Známka z matematiky
Známka z angličtiny
I
2 3
2 3
ad b)
Polygon četnosti pro znamky z matematiky Polygon četnosti pro známky z angličtiny
ad c)
Sloupkový diagram znamek z matematiky Sloupkový diagram znamek z angličtiny
12 3 4
ad d)
Vysečovy diagram znamek z matematiky
Vásečová diagram znamek z angličtiny
1
4
1
4
1
2
3
4
1
2
3
4
1
2
3
4
1
4
2
2
3
23
2. Bodové a intervalové rozložení četností
I
Ze vsech techto diagramů je videt odlisní prístup žkousejících ke studentům. Matematik nesetrí jednickami, ale místo trojký radeji rovnou dava ctýrku. Naproti tomu anglictinar považuje trojku ža týpickou studentskou žnímku.
ad e)
Y
12 3 4 X
Dvourožmerný teckoví diagram svedcí o neprílis výražne tendenci k podobne klasifikaci v obou predmetech. Můžete si žkusit nakreslit dvoůrožmerne teckove diagramý žvlast' pro muže a žvlíst' pro žený. Zjistíte, že u žen je tendence k podobním žnamkam daleko silnejsí než u mužů.
Bodove rožložení cetností lže žnažornit nejenom grafický, ale tež tabulkou žvanou variacní rada, kterí obsahuje absolutní a relativní cetnosti jednot-livích variant žnaku v danem víberovem souborů a tež absolutní a relativní kumulativní cetnosti. Pomocí relativních cetností se žavadí cetnostní funkce, pomocí relativních kumulativních cetností empiricka distribucní funkce (je pro ni týpicke, že ma schodovitý průbeh). Týto pojmý objasníme na príkladu žnamek ž matematiký a uvedeme rovnež vlastnosti obou výse žmínených funkcí.
2.4. Definice
Necht' je dan jednorožmerní datový soubor, v nemž žnak X nabýví r variant. Pro j = 1,..., r definujeme:
absolutní cetnost varianty xjj ve víberovem souborů
nj = N (X = x[j]) relativní četnost varianty xj] ve výberovem souborů
n
absolutní kumulativní četnost prvních j variant ve výběrovém souboru Nj = N(X < xy]) = ni +-----+ nj
relativní kumulativní Cetnost prvních j variant ve výběrovém souboru
Nj
4
3
2
1
24
Tabulka typu
x\j] rij Pi N3 F3
ni Pi Ni
X[r] nr Pr Nr Fr
se nazyva variační rada. Funkče
p(x) =
0 jinak
se nazyva četnostní funkce. Funkče
I
0 pro x <
F (x) = { Fj pro x[j ] < x < x[i+1], j = 1,..., r - 1
1 pro x > x[r]
se nazyví empirička distribuční funkce.
2.5. Příklad
Pro datoví soubor z príkladu 1.10 sestavte variační radu pro znak X. Nakreslete grafy četnostní funkče a empiričke distribuční funkče.
Řešení:
x\j] Pi N3 F3
1 7 0,35 7 0,35
2 3 0,15 10 0,50
3 2 0,10 12 0,60
4 8 0,40 20 1,00
- 20 1,00 - -
p(t)
0,4 0,2 0,0
1 2 I 3 4 t
x
F (t)
1,0
0,8 0,6
0,4 0,2
0,0
F (x) = £ p(t)
t — OC
Nyní se budeme zabávat dvourozmerných datovím souborem. Zavedeme simultánní absolutní a relativní cetnosti pro dvojice variant znaku X a Y a ukážeme souvislost mezi simultánními a marginálními cetnostmi. Budeme definovat podmínene relativní cetnosti. Vysvetlíme si, jak se uvedene cetnosti zapisují do kontingencních tabulek. Pomocí simultánních relativních cetností zavedeme simultínní cetnostní funkci, seznámíme se s jejími vlastnostmi a ukázeme vztah mezi simultánní cetnostní funkcí a marginálními cetnostními funkcemi. Zavedeme pojem cetnostní nezávislosti znaku v danem výberovem souboru. Se vsemi uvedeními pojmy se naucíme pracovat v príkladu se známkami z matematiky a anglictiny.
2.7. Definice
Necht' je dán dvourozmerní datovy soubor
xi yi
kde znak X má r variant a znak Y má s variant. Pak definujeme: simultánní absolutní četnost dvojice (xj],y[k]) ve vyberovem souboru
njk = N(X = x[j] A Y = y[fc]),
simultánní relativní Četnost dvojice (xj],y[k]) ve víberovem souboru
njk
n
marginální absolutní Četnost varianty xjj
nj. = N (X = x [j ]) = nj i +-----+ njS,
marginaílníí relativníí cetnost varianty x[j]
n
V ji + • • • + Vjs;
X
26
marginalní absolutní četnost varianty y[k]
n.k = N (Y = y[fc]) = nik +-----+ nrfc,
marginalní relativní četnost varianty y[k]
p.k
n
Pik +-----+ Prk,
I
sloupcove podmínena relativní četnost varianty x j] ža predpokladu y[k]
njk
pj(k)
n.k
radkov e podmín ena relativní četnost varianty y[k] ža predpokladu x [j]
njk
P(j)k
nj.
Kteroukoliv ze simultánních četností ci podmíněných relativních četností zapisujeme do kontingenCní tabulky. Kontingencní tabulka simultánních absolutních cetností mý tvar:
y Vis] rij.
X
xm nu nu ni.
X[r] nrl nr.
n.k n.i n.s n
Funkce
I
pjk pro x = x[j], y = ^ j = 1,..., r, k = 1,... s 0 jinak
se nažýva simultínní četnostní funkce. Cetnostní funkce pro žnaký X a Y odlisíme indexem takto:
Pi(x)
p2(y)
pj. pro x = x[j], j = 1,...,r 0 jinak
0 jinak
Řekneme, že žnaký X, Y jsou v danem výberovem souborů cetnostne ne-žavisle, prave kdýž pro vsechna j = 1,..., r a vsechna k = 1,..., s platí multiplikativní vžtah: pjk = • pk neboli
V(x, y) G E2 : p(x, y) = pi(x) ^ p2(y).
27
2. Bodove a intervalová rozloZzení Četností
I
2.8. Veta
Mezi simultíanníí cetnostníí funkcíí a marginíalníími cetnostníími funkcemi platíí vztahy:
pi(x) = p(x>y)
y=-oc
OC
p2(y) = p(x,y)-
2.9. Příklad
Pro datovy soubor z príkladu 1.10
a) sestavte kontingencní tabulky simultanních absolutních a relativních cetností,
b) nakreslete graf simultanní cetnostní funkce p(x,y),
c) sestavte kontingencní tabulky sloupcove a rídkove podmínenych relativních cetností,
d) kolik procent tech studentu, kterí meli jednicku z anglictiny, melo dvojku z matematiky,
e) kolik procent tech studentu, kterí meli jednicku z matematiky melo dvojku z anglictiny,
f) zjistete, zda znaky X, Y jsou v danem vyberovem souboru cetnostne nezíavislíe.
Řešení:
ad a)
y 1 2 3 4 rij.
X rijk
1 4 1 2 0 7
2 0 2 1 0 3
3 0 0 1 1 2
4 0 1 3 4 8
4 4 7 5 n = 20
y i 2 3 4 Pj.
X
1 0,20 0,05 0,10 0,00 0,35
2 0,00 0,10 0,05 0,00 0,15
3 0,00 0,00 0,05 0,05 0,10
4 0,00 0,05 0,15 0,20 0,40
P.k 0,20 0,20 0,35 0,25 1,00
28
ad b)
'a
0, 200,15 0,100, 05 0, 00
4
I
2 x
4
1
ad c)
v 1 2 3 4
X P j (k)
1 1,00 0,25 0,29 0,00
2 0,00 0,50 0,14 0,00
3 0,00 0,00 0,14 0,20
4 0,00 0,25 0,43 0,80
E 1,00 1,00 1,00 1,00
y i 2 3 4 E
x
1 0,57 0,14 0,29 0,00 1,00
2 0,00 0,67 0,33 0,00 1,00
3 0,00 0,00 0,50 0,50 1,00
4 0,00 0,12 0,38 0,50 1,00
ad d) Tento udaj najdeme ve druhem rídku prvního sloupce tabulky sloup-cove podmíneních relativních cetností: 0%.
ad e) Tento udaj najdeme v prvním rídku druheho sloupce tabulky radkove podmíneních relativních cetností: 14%.
ad f) Kdyby v danem víberovem souboru byly oba znaky cetnostne nezavisle, platil by pro vsechna j = 1, 2, 3, 4 a vsechna k = 1, 2, 3, 4 multiplikativní vztah: pjk = pj. coz splneno není. Tedy znímky z matematiky a anglictiny nejsou cetnostne nezývisle.
V nekterích datovych souborech je pocet variant znaku prílis veliky a pouzití bodoveho rozlození cetností by vedlo k neprehlednym a roztrírstením vísled-
29
2. Bodové a intervalové rozložení četností
I
kům. V takových situacích používáme intervalové rozložení četností. Definujeme třídicí interval a jeho absolutní a relativní četnost, absolutní a relativní kumulativní cetnost. Nove zavadíme cetnostní hustotu trídícího intervalu. Uvedene cetnosti zapisujeme do tabulky rozložení cetností. Pocet trídících intervalu stanovujeme napr. podle Sturgesova pravidla. Intervalove rozlození cetností pozijeme v príkladu s datovým souborem obsahujícím udaje o mezích plasticity a pevnosti 60 vzorku oceli.
2.10. Definice
Necht' je dan jednorozmerní datoví soubor. Jestlize pocet variant znaku X je blízkí rozsahu souboru, pak prirazujeme cetnosti nikoliv jednotlivým vari-antím, ale celým intervalum hodnot. Hovoríme pak o intervalovém rozložení četnosti.
2.11. Definice
Číselnou osu rozlozíme na intervaly týpu (—oo,«i), (mi,m2), • • •, (ur, ur+i). (ur+i, oo) tak, abý okrajove intervalý neobsahovalý zídnou pozorovanou hodnotu znaku X. Uzívame oznacení:
j-tý trídičí interval znaku X, j = 1,..., r:
(uj ,uj+i):
delka j -teho trídičího intervalu znaku X:
st red j-tíeho t ríídičíího intervalu znaku X:
1
x\j] = ^m + Uj+i)-
Trídicí intervalý volíme nejcasteji stejne dlouhe. Jejich pocet urcíme napr. pomocí Sturgesova pravidla: r ~ 1 + 3,3 • log n, kde n je pocet variant znaku
X.
2.12. Definice
Necht' je dan jednorozmerný datový soubor rozsahu n. Hodnotý znaku X roztrídíme do r trídících intervalu. Pro j = 1,..., r definujeme:
absolutní četnost j -teho trídičího intervalu ve výberovem souboru
n j = N (u j < X < Uj+i).
relativní četnost j-teho t rídičího intervalu ve výberovem souboru
nj
Pj = —i n
30
četnostní hustota j -tého třídicího intervalu ve výběrovém souboru
Pl d j
absolutní kumulativní Četnost prvních j třídicích intervalů, ve výběrovém souboru
Nj = N (X < uj+l) = n1 +-----+ nj,
relativní kumulativní Četnost prvních j třídicích intervalu ve výběrovém souboru.
I
n
Pi +-----+ pj.
Tabulka týpu
(Uj,Uj+1) dj Pi fi N3 F3
(ui,u2) d\ ni Pi h Fi
(ur,ur+i) dr nr Pr fr Nr Fr
E n 1
se nazývý tabulka rozložení četností.
2.13. Příklad
Z fiktivního základního souboru všech vzorku oceli odpovídajících „všem myslitelným tavbím" býlo do laboratore dodano 60 vzorku a zjistený a hodnoty znaku X - mez plasticitý a Y - mez pevnosti. Datoví soubor mí tvar:
154 178'
133 164
58 75
145 161
94 107
113 141
86 97
121 127
119 138
112 125 85 41 96 45 99
97 72 113 89 109
51 95
101 114
160 169
87 101
88 83
139 98
106 111 92 104 85 103 112 118
98 102
103 108
99 119
104 128
107 118
98 140 97 115 105 101
71
39
33 78
73 77
47 68
93 69
122 147
52 117
147 137 125 149
76
85 61 85
137 142
44 92
66 42
68 116
141 157
155 189
136 155
82 81
136 163
72 79
81 61
113 123
42 85
133 147
153 179
85 91
a) Pro znak X stanovte optimalní pocet trídicích intervalu dle Sturgesova pravidla.
b) Sestavte tabulku rozlození cetností.
31
2. Bodove a intervalová rozlomení Četností
Řešení:
ad a) Znak X nm 50 variant, tedý podle Sturgesova pravidla je optimalní počet trídičíčh intervalu r = 7. Budeme tedý volit 7 intervalu stejne delký tak, abý v ničh býlý obsaŠzený vŠsečhný pozorovaníe hodnotý znaku X, z ničhŠz nejmensí je 33, nejvetsí 160; volba u1 = 30, ..., u8 = 170 splnuje pozadavký.
ad b)
dj xtí] Pj Nj F3 fi
(30,50) 20 40 8 0,1333 8 0,1333 0,0066
(50,70) 20 60 4 0,0667 12 0,2000 0,0333
(70,90) 20 80 13 0,2166 25 0,4167 0,0108
(90,110) 20 100 15 0,2500 40 0,6667 0,0125
(110,130) 20 120 9 0,1500 49 0,8167 0,0075
(130,150) 20 140 7 0,1167 56 0,9333 0,0058
(150,170) 20 160 4 0,0667 60 1,0000 0,0033
Součet 60 1,0000
Ke grafičkemu znazornení intervaloveho rozlození četností slouzí histogram. S jeho pomočíí lze dobŠre výsvŠetlit, čo znamenaí hustota Ščetnosti, čoŠz je funkče zavedena pomočí četnostníčh hustot jednotlivíčh trídičíčh intervalu. S hustotou četnosti uzče souvisí intervalova empirička distribuční funkče (je vsude spojitía, protoŠze je funkčí horní meze integraílu z hustotý Ščetnosti). Pro uídaje o mezi platičitý očeli výtvoŠríme histogram a graf intervalovíe empiričkíe dis-tribuŠční funkče. Sezníamíme se rovnŠeŠz s vlastnostmi obou výíŠse zmínŠeníýčh funkčí.
2.14. Definice
Intervalove rozlození četností grafičký znazornujeme grafičký pomočí histogramu. Je to graf skladajíčí se z r obdelníku, sestrojeníčh nad trídičími intervalý, pričemz obsah j-teho obdelníku je roven relativní četnosti pj j -teho trídičího intervalu, j = 1,..., r. Histogram je shora omezen sčhodovitou Ščarou, kteraí je grafem funkče zvaníe hustota Ščetnosti:
f (x)
fj pro uj < x < uj+l, j = 1,...,r 0 jinak
Pomočí funkče hustotý Ščetnosti zavedeme intervalovou empiričkou distribuŠční funkči:
F (x)
f (t) dt.
2.15. Příklad
Pro datovýí soubor z pŠríkladu 2.13 nakreslete histogram pro znak X a pod histogram nakreslete graf intervalovíe empiričkíe distribuŠční funkče.
32
Resení:
f (t)
x
2.16. Veta r
ké
Hustota cetnosti je nezaporní (Vx G R : f (x) > 0) a normovaní (J f (x) dx).
Intervalova empirickí distribucní ( lim F (x) = 0, lim F (x) = 1).
Intervalova empirickí distribucní funkce je neklesající, spojití a normovana
x—>—oc
x—>oc
V nísledujícím tematu se budeme venovat dvourozmernemu intervalovemu rozlození cetnosti, tj. budeme pracovat s dvourozmernym datovím souborem. Zavedeme podobne pojmy jako u dvourozmerneho bodoveho rozlození cetnosti a jejich pochopení si overíme na príklade s datovym souborem ob-sahujíícíím uídaje o mezi plasticity a mezi pevnosti oceli.
2.17. Definice
Necht' je dín dvourozmerny datoví soubor
xi yi
xn yn
33
2. Bodové a intervalové rozložení četností
I
kde hodnoty znaku X roztrídíme do r tří dicích intervalu (u j j =
1,..., r s delkami di,..., dr a hodnoty znaku Y roztrídíme do s trídicích intervalu (vk, vk+i), k = 1,..., s s delkami hi,..., hs. Pak definujeme:
simultánní absolutní Četnost (j, k) -teho t řídicího intervalu: njk = N (uj < X < Uj+i A Vk < Y < Vk+i),
simultínní relativní Četnost (j, k)-teho trídicího intervalu:
njk
Vjk
n
marginalní absolutní Četnost j -teho trídicího intervalu pro znak X:
nj. = n j i + • • • + njs,
marginaílníí relativníí cetnost j-tíeho t ríídicíího intervalu pro znak X:
nj.
Vj.
n
marginaílníí absolutníí cetnost k-tíeho t ríídicíího intervalu pro znak Y:
n.k = nik +-----+ nrk,
marginíalníí relativníí cetnost k-tíeho t ríídicíího intervalu pro znak Y:
n.k
V.k
n
simultaínníí cetnostníí hustota v (j, k)-tíem t ríídicíím intervalu:
Vjk
fjk
djhk
marginíalníí cetnostníí hustota v j-tíem t ríídicíím intervalu pro znak X:
Vj.
fj.
dj
marginíalníí cetnostníí hustota v k-tíem t ríídicíím intervalu pro znak Y:
V.k
f.k
hk
Kteroukoliv ze simultánních cetností zapisujeme do kontingencní tabulky. Uved'me kontingencní tabulku simultánních absolutních cetností:
(Vk,Vk+l) (vi,v2) (vs,vs+i) rij.
(Ui,U2) nn nu ni.
(ur,ur+i) nrl nr.
n.k n.i n.s n
34
fi(x)
f2 (y)
Funkce
( ) í fjk pro u, x2), tj. jejich usporadaní vyjadruje vetsí nebo mensí intenzitu zkoumane vlastnosti. Napr. skolní klasifikace vyjadruje mensí nebo vetsí znalosti zkousenych (jednickír je lepsí nez dvojkar), ale intervaly mezi znamkami nemají obsahove interpretace (netvrdíme, ze rozdíl ve znalostech mezi jednickarem a dvojkarem je stejny jako mezi trojkarem a ctyrkarem. Podobní charakter mají ruzní bodovaní ve sportovních, umeleckych a jiních soutezích.
(1) Intervalové znaky pripoustejí obsahovou interpretaci krome relace rovnosti a ^poradam tez u operace rozdílu x1 — x2 (poprípade souctu x1 + x2), tj. stejny interval mezi jednou dvojicí hodnot a jinou dvojicí hodnot vyjadruje
40
i stejný roždíl v extenžite žkoumane vlastnosti. Napr. teplota merena ve stupních Celsia predstavuje intervaloví žnak. Nameríme-li ve ctýrech dnech polední teplotý 0, 2, 4, 6, žnamena to, že každým dnem stoupla teplota o 2 stupne Celsia. Býlo bý vsak chýbou interpretovat týto ídaje tvržením, že že druheho na tretí den vžrostla teplota dvakrat, kdežto že tretího na ctvrtí použe jedenapůlkrat.
(p) Pomerove znaky umožnují obsahovou interpretaci krome relace rovnosti a usporadaní a operace roždílu jeste u operace podílu xi/x2 (poprípade soůcinu xi • x2), tj. stejný pomer meži jednou dvojicí hodnot a druhou dvojicí hodnot žnamena i stejný podíl v extenžite žkoumane vlastnosti. Napr. ma-li jedna osoba hmotnost 150 kg a druha 75 kg, ma smýsl prohlísit, že první je dvakrat hmotnejsí než druha.
Zvlastní postavení mají:
(a) Alternativní znaky, ktere nabývají jen dvou hodnot, napr. 0,1, což žnamena absenci a preženci nejakeho jevu. Napríklad 0 bude žnamenat neuspech, 1 ůspech pri reňení urcite ílohý. Alternativní žnaký mohou být žtotožnený s kterýmkoliv ž předchýžejících týpů.
I
3.3. Definice
Pro nominalní žnaký používame jako charakteristiku polohý modus. U bo-doveho rožložení cetností je to nejcetnejsí varianta žnaku, u intervaloveho
stred nejcetnejsího trídicího intervalu.
3.4. Definice
Pro ordinalní žnaký používame jako charakteristiku polohý a-kvantil. Jeli a G (0,1), pak a-kvantil xa je císlo, ktere roždeluje ůspořadaný datoví
soubor na dolní ísek, obsahující aspoň podíl a vsech dat a na horní ůsek obsahující aspon podíl 1 — a vsech dat. Pro výpocet a-kvantilu slouží algoritmus:
Ícelé číslo c =/- xn = x(c) x(c+l) 2 necele císlo == žaokrouhlíme nahoru na nejbližsí cele císlo c == == xa x(c)
Pro speciílne žvolena a užívíme nažvů: xo,so - mediín, xo,25 - dolní kvartil, xo,75 - horní kvartil, x0)i,... ,x0;g - decily, x0;0i,... ,x0;gg - percentily. Jako charakteristika variabilitý slouží kvartiloví odchylka:
q = x0,75 — x0,25-
3.5. Příklad
Pro datový soubor znamek z matematiky (viz pnklad 1.10) vypoctete median, oba kvartily a kvartilovou odchylku.
41
3. Číselne charakteristiky znaků
I
Resení:
a na c
0,25 5 5 (i+i) 2 1
0,50 10 10 (2+3) 2 2,5
0,75 15 15 (4+4) 2 4
q=4-1=3
3.6. Definice
Pro intervalove a pomerove znaky slouzí jako charakteristika polohy aritmetický průměr
1
m =
n
E
i=i
(lze ho interpretovat jako teziste jednorozmerneho teckoveho digramu). Charakteristikou variability je rozptyl
s2
1
n
i=i
či směrodatná odchylka s = Vš2. Pomocí průměru zavedeme centrovanou hodnotu xi — m (podle znamenka pozname, zda i—ta hodnota je podprUmerný či nadprUmerna a pomocí smerodatne odchýlký zavedeme standardizovanou Xi — m
hodnotu
(vyjadruje o kolik smerodatních odchylek se i-tí hodnota
odchýlila od prumeru).
3.7. Veta
Rozptyl je nuloví, príve kdyz xi = x2 =
3.8. Príklad
Vypoctete prumer a rozptyl
a) centrovaníych hodnot,
b) standardizovanyích hodnot.
Resení:
ad a) Pramer centrovanych hodnot:
1
n
y^(xj - m)
m
i=i
Rozptyl centrovanyích hodnot:
1
n
xn.
n • m = 0.
n
i=i
((x, - m) - 0)2 = s2.
n
1
n
42
ad b) Průměr standardizovaných hodnot:
1 ^-a (xí — m) n ^ s
Rozptyl standardizovaných hodnot:
= -•0 = 0. s
1
n
i=1
m
■)'
f!
s2
1.
3.9. Poznámka
V předešlém příkladě jsme vypočítali, ze průměr centrovaných hodnot je 0. Této skutečnosti lze vyůzít k vysvetlení rozptylů: chceme získat číslo, ktere by charakterizovalo variabilitu jednotlivých hodnot kolem průmerů. Průmer centrovaních hodnot nelze poůzít (vyjde 0), proto místo centrovanych hodnot
vězměmě
jejich kvadráty. Tím dospějeme ke vzorci pro rozptyl: s2 = - ^(
i=l
m)2. Rozptyl však vychází v kvadrátech jednotek, v nichž byl měřen znak X. proto raději používáme směrodatnou odchylku s. DefiniCní tvar vzorce pro rozptyl není príliš vhodny pro vypocty, v praxi še používa vypocetní tvar vzorce pro rozptyl:
I
s2 = — } (xí — m)2 = — } (x2 — 2mxi + m2) = — > n n n
=l =l =l
xi
n
— • 2m • > Xi H— > m2 = — > n n n
i=l i=l i=l
i=l
x
m2.
x
2m2 +
1
n
n
m2
n
n
1
3.10. Definice
Pro poměrově znaky poůžívýniě jako charakteristiku variability koeficient
s
variace —. Je to bezrozměrné číslo, které se často vyjadřuje v procen-m
těch. Umoznůjě porovnat variabilitu několika znaků. Jsoů-li vSěchny hodnoty poměrověho znaků kladně, pak jako charaktěristiků polohy lzě ůzít geometrický průměr ^Jx\ ■ ... ■ xn.
3.11. Příklad
Vypoctětě koěficiěnt variacě mězě plasticity a mězě pěvnosti ocěli pro datový soůbor z príkladů 2.13.
Řešení:
s1 32,441 s2 32,515
— = —-= 0,338, — = —-= 0,284.
m1 95,88 ' ' m2 114,40
Zjistili jsmě, zě koěficiěnt variacě mězě plasticity jě 33,8%, zatímco mězě pěvnosti jěn 28,4%.
43
3. Číselné charakteristiky znaků
Nyní se budeme zabývat číselnými charakteristikami dvourozměrného datového souboru se znaky intervaloveho či pomeroveho typu. Spole čnou variabilitu t e chto dvou znaku kolem jejich prameru meríme pomocí kovariance. Jako míra t esnosti lineární zavislosti dvou znaku slouzí koeficient korelace. Je velmi dulez ite porozumet vlastnostem koeficientu korelace, proto si pozorne prohlednete obrazky ilustrující jeho váznam. Pro prakticke procvi cení nám poslouzí príklad na císelne charakteristiky mezí plasticity a pevnosti.
3.12. Definice
Pro dvourozm ernyá datovyá soubor
kde znaky X, Y jsou intervaloveho ci pomeroveho typu, pouzívame jako charakteristiku spolecne variability znaku X, Y kolem jejich pramení kovarianci
1 n
Si2 = - y^ixi - mi)(yi - m2).
3.13. Poznámka
Kovariance je prumerem soucimů centrovanych hodnot. Pokud se nadprumer-ne (podprumerne) hodnoty znaku X sdruzují s nadprumernámi (podprumer-
nymi) hodnotami znaku Y, budou souciny centrovanách hodnot xi — m1 a Ví — m2 vesmes kladne a jejich prumer (tj. kovariance) rovnez. Znamena to, ze mezi znaky X, Y existuje urcitá stupen príme linearní zavislosti. Pokud se nadprumerne (podprumerne) hodnoty znaku X sdruzují s podprumernámi (nadprumernámi) hodnotami znaku Y, budou souciny centrovanách hodnot vesmes zaporne a jejich prumer rovnez. Znamena to, ze mezi znaky X a Y existuje ur citáy stupen nep ráímáe lineáarnáí záavislosti. Je-li kovariance nulováa, pak rekneme, ze znaky X, Y jsou nekorelovanáe a znamenáa to, ze mezi nimi neexistuje záadnáa lineáarnáí záavislost.
Pro vápo cet kovariance pouzíváme vzorec:
1 n
si2 = - V" Xiiji - mim2. n
í=i
3.14. Definice
Jsou-li smerodatne odchylky si, s2 nenulove, pak definujeme koeficient korelace znaku X, Y vzorcem
1
ri2
Xi — mi Ví — m2
n si
i=i
s2
44
3.15. Veta
Pro koeficient korelace platí —1 < ri2 < 1a rovnosti je dosazeno prave kdýz mezi hodnotami x1'...' xn a y1'...' yn existuje uplní linearní zívislost, tj. existují konstantý a, b tak, ze y» = a + bx^, i = 1'...' n, pricemz znamenko + platí pro b > 0, znamenko — pro b < 0. (Uvedena nerovnost se nazíva Cauchýova - Schwarzova - Buňakovskeho nerovnost.)
3.16. Poznámka
Koeficient korelace se pocíta podle vzorce r 12
S12
s1s2
Pňredstavu o víýznamu
hodnot koeficientu korelace podívají nasledující dvourozmerne teckove dia-gramý.
I
1'00
0'76
0'00
r
r
r
r = —0'37 r = —1'00
3.17. Příklad
Pro datoví soubor z príkladu 2.13 výpoctete
a) aritmeticke prumerý znaku X, Y,
b) rozptýlý a smerodatne odchýlký znaku X, Y,
c) kovarianci a koeficient korelace znaku X, Y. Řešení:
ad a) m1 = 95'9' m2 = 114'4.
ad b) s1 = 1052'40' s2 = 1057'21' S1 = 32'4' S2 = 32'5. ad c) s12 = 985'76' r12 = 0'936.
Koeficient korelace svedcí o tom, ze mezi obema znaký existuje velmi silna pňrímaí lineíarní zaívislost - ňcím výňsňsí je mez plasticitý, tím je výňsňsí mez pevnosti a cím je nizsí mez plasticitý, tím je nizsí mez pevnosti.
Pňri výípoňctu ňcíselnýích charakteristik se v ňradňe situací uplatní vňeta shrnující nektere jejich vlastnosti. Pro lepsí pochopení uvedených vlastností slouzí nasledující príklad.
45
3. Číselné charakteristiky znaků
I
3.18. Veta
Uveďme některé vlastnosti číselných charakteristik.
a) Necht' mi je aritmetický průmer a s f rozptyl znaku X. Pak znak Y = a + bX ma aritmetický průmer m2 = a + bmf a rozptyl s2 = b2sf.
b) Necht' m1, m2 jsou aritmeticke průmerý, sf, s2 rozptýlý a s12 kovariance znaků X, Y. Pak znak U = X+Y ma aritmetický průmer m3 = mf +m2 a rozptýl s3 = s2 + s2 + 2s12.
c) Necht' s12 je kovariance znaků X, Y a mf, m2 jsoů aritmeticke průmerý znaků X, Y. Pak znaký U = a + bX, V = c + d Y mají kovarianci s34 = bds12.
3.19. Příklad
a) Znak X ma aritmetický průmer 2 a rozptýl 3. Najdete aritmetický průmer a rozptýl znaků Y = — 1 + 3X.
b) Znaký X a Y mají aritmeticke průmerý 3 a 2, rozptýlý 2 a 3, kovarianci 1,5. Výpoctete aritmetický průmer a rozptýl znaků Z = 5X — 4Y.
c) Soůcet rozptýlů dvoů znaků je 120, soůcin 1000 a rozptýl jejich soůctů je 100. Výpoctete koeficient korelace techto znaků.
Řešení:
ad a) m2 = — 1 + 3ím = —1 + 3 • 2 = 5, sj; = 32 • s2 = 9 • 3 = 27.
adb) m3 = 5m1—4m2 = 5-3—4-2 = 7, s3 = 52-s2+(—4)2^s2+2^5^(—4)^s12 = 25 • 2 + 16 • 9 — 40 • 1,5 = 134.
ad c) s2 + s2 = 150, s1 • s2 = 1000, s2+2 = 100 = s1 + s2 + 2s12 s12 =
'1+2
-SJ-S2 _ 100-120 _
— 10, r12
S1-S2
+2 -10
—0,316.
Pokůd nemame k dispozici původní datový soůbor, ale jenom variacní radů nebo tabůlků rozlození cetností (resp. kontingencní tabůlků), můz eme výpo-cítat tzv. vaz ene císelne charakteristiký. Pro datový soůbor obsahůjící ýdaje o mezi plasticitý a mezi pevnosti oceli je zajímave porovnat původní císelne charakteristiký a vazene císelne charakteristiký.
3.20. Definice
a) Vazene císelne charakteristiký ů bodoveho rozlození cetností: Vážený aritmeticky průměr
m
1
n
i=1
Važený rozptyl
§2 = -^2nÁx\j]-m)2-
i=1
VaZena kovariance
s12
n
Yl Yl nJfc — m1)(y[k]— m2).
j=1 k=1
_ «12 _
1
46
b) Vážené číselné charakteristiky u intervalového rozložení četnosti: Vzorce jsou formálne shodne s predeSlími. Je vSak zapotřebí uvest, že výpočty jsou presne jen tehdy, souhlasí-li prumery v jednotlivých tradicích intervalech se stredy techto intervalu, resp. vykompenzují-li se vzajemne chyby vznikle v důsledku odchylek stredu intervalu od prumeru v techto intervalech. Oba tyto prípady jsou vsak vzacne a vetsinou se dopustíme urcite chyby.
3.21. Příklad
Pro intervalove rozlození cetností uvedene v príkladu 2.13 spoctete vízene
císelne charakteristiky a porovnejte je s císelnymi charakteristikami uve-denymi v príkladu 3.17.
Řešení:
I
bodové rozložení intervalové rozložení
mi 95,88 96,67
m2 114,40 113,67
s\ 1052,40 1148,89
4 1057,21 1019,89
Sl 32,441 33,895
S2 32,515 31,936
Sl2 985,76 998,89
r i2 0,939 0,923
Shrnutí kapitoly
Podle stupně kvantifikace znaky třídíme na nominální, ordinální, intervalové, poměrové a alternativní. Jako charakteristika polohy nominainích znaku slouZí modus. Charakteristikou polohy ořdinainích znaku je kterýkoliv a—kvantil, casto se pouZívý median, dolní a horní kvartil, decily, per-centily. Rozdíl horního a dolního kvartilu je kvartiloví odchylka, kterou pouZívíme jako charakteristiku variability. U intervalovích znaku slouží jako charakteristika polohy aritmetickí prUmer a jako charakteristika variability rozptyl ci smerodatna odchylka. Odecteme-li od libovolne hodnoty průmer, dostaneme centrovanou hodnotu, a podelíme-li centrovanou hodnotu smerodatnou odchylkou, získíme standardizovanou hodnotu. Pro pomerove znaky pouzívame koeficient variace. Maj í-li kladne hodnoty, pak jejich polohu charakterizujeme geometrickím prumerem.
Mame-li dvourozmerny datoví soubor, pak jako charakteristiku spolecne variability zavedeme kovarianci a jako míru tesnosti lineírní zavislosti koeficient korelace. Podle Cauchy — Schwarzovy — Buňakovskeho nerovnosti nabyví koeficient korelace hodnot mezi —1 a 1.
47
3. Číselné charakteristiky znaků
Je-li k dispozici variační řada u bodového rozložení četností nebo tabulka rozložení četností u intervaloveho rozložení četností (resp. kontingenční tabulka), můžeme vypočítat vazene číselne čharakteristiky: vážený aritmetický průměr, vážený rozptyl a váženou kovarianci.
I
Kontrolní otazky a ůkoly
1 Udejte príklad nominalního, ordinálního, intervaloveho, pomeroveho a alternativního znaku.
2 Jake čharakteristiky polohy a variability uziVame pro uvedene typy znaku?
3 Kdy se shodují číselne čharakteristiky s vazenymi číselnámi čharakte-ristikami?
4 Jaky váznam ma koefičient korelače?
5 V akčiove společnosti je pramenia mzda 13 500 Kč. Pritom 30% pra-čovníku s nejnizsí mzdou ma prumerne 9 000 Kč. Na začatku roku dostal kazdy z tečhto pračovníku pridano 500 Kč. O kolik % vzrostla pramenia mzda v čele akčiove společnosti?
6 (S) Pri statističkem setrení pojistenču byly získany tyto váse pojistek v Kč:
výše pojistky 390 410 430 450 470 490 510 530 550 570
abs. četnost 7 10 14 22 25 12 3 3 2 2
Určete aritmetičkí prumer, median, modus, rozptyl, smerodatnou od-čhylku a koefičient variače víse pojistky.
V datovem souboru, z nehoz byl vypočten prumer 110 a rozptyl 800, byly zjisteny 2 čhyby: místo 85 mí bít 95 a místo 120 ma byt 150. Ostatníčh 18 udaju je spravnýčh. Opravte prumer a rozptyl. Vazeny aritmetičky prumer činil 1500 a vazeny rozptyl 90000. Varianty X[j] byly transformovany vztahem:
h
j = 1,..., r. Po této transformaci byl vážený aritmetický průměr 5 a vážený rozptyl 9. UrCete konstanty a a h. 9 (S) Pro dvoůrožinerný datový soůbor
2 4 4 5 6 8 10 10 10 10
1 2 3 4 4 4 5 5 5 6
vypočtete koefičient korelače. 10 Rozptyl součtu hodnot dvou znaku je 350, rozptyl rozdílu je 700. Vypočtete koefičient korelače, víte-li, ze oba znaky mají stejne rozptyly.
7
8
a
48
4. Regresní přímka
Cíl kapitoly
Po prostudování teto kapitoly budete umet:
■ stanovit odhady parametrU regresní prímky a znát jejich význam
■ posoudit kvalitu proloZení regresní prímky dvourozmerným tečkovým diagramem
■ vypočítat regresní odhady zavisle promenneho znaku
■ stanovit odhady parametru druhe regresní prímky
■ znat vztahy mezi parametry první a druhe regresní prímky.
Casova zatěž
Pro zvlídnutí teto kapitoly budete potrebovat 3-4 hodiny studia.
Budeme se zabívat specialním prípadem, kdy hodnoty znaku Y zavisejí na hodnotach znaku X priblizne linearne. Ukízeme si, jak tuto zavislost popsat regresní prímkou, jak odhadnout její parametry metodou nejmensích čtvercu na zíklade znalosti dvourozmerneho datoveho souboru a jak posoudit kvalitu regresní prímky pomocí indexu determinace. Vysvetlíme si vyznam regresních parametru a v príkladu se budeme zabívat regresní prímkou meze pevnosti na mez plasticity.
4.1. Motivace
Cílem regresní analízy je vystizení zívislosti hodnot znaku Y na hodnotach znaku X. Pri tom je nutne vyresit dva problemy: jakí typ funkce pouzít k vystizení dane zavislosti a jak stanovit konkrétní parametry zvoleneho typu funkce? Typ funkce urcíme bud' logickím rozborem zkoumane zavislosti nebo se snazíme ho odhadnout pomocí dvourozmerneho teckoveho diagramu. Zde se omezíme na linearní zavislost y = fl0 + flix. Odhady b0 a bi neznamych parametru fl0, fli získame na zaklade dvourozmerneho datoveho souboru
metodou nejmensích čtverců. Požadujeme, aby průměr součtu čtverců odchylek skutečných a odhadnutých hodnot byl minimální, tj. aby výraž
- y2(Vi -Po- PiXí)2
i=l
nabýval svého minima vzhledem k /30 a (3\. Tento výraz je minimální, jsou-li jeho první derivace podle f30 a fli nulove. Stačí tyto derivace spočítat, poloZit je rovny 0 a réSit system dvou rovnic o dvou neznýmych, tzv. system normalních rovnic.
50
4.2. Definice
Nechť je dan dvourozměrný datový soubor
a prímka y = //0 + A x. Výraz
q(Po, A) = - y^iVi -Po- PiXif
i=1
se nazývý rozptyl hodnot znaku Y kolem prímký y = //0 + A x. Prímka V = A) + Ax, jejíz parametry minimalizují rozptyl q(/0,/1) v celem dvou-rozmernem prostoru, se nazíva regresní přímka znaku Y na znak X. Regresní odhad i-te hodnoty znaku Y značíme yi = b0 + b1xi, i = 1,..., n. Kvadrat koeficientu korelace znaku X, Y se nazýví index determinace a značí se ID2. (Index determinace udava, jakou cast variability hodnot znaku Y vystihuje regresní prímka. Nabíva hodnot z intervalu (0,1). Čím je blizší 1, tím lepe vystihuje regresní prímka zavislost Y na X.)
I
4.3. Veta
Necht' y = b0 + b1x je regresní prímka znaku Y na znak X. Pak pouzitím metodý nejmensích ctvercu dostaneme:
b1
£l2
bo = m2
£12 si
Ul1,
tedy y = m,2 + ^f(x-mi). Přitom úsek 60 regresní přímky udává velikost jejíího posunutíí na svislíe ose (tj. udíavía, jakíý je regresníí odhad hodnotý znaku Y, nabíva-li znak X hodnotý 0) a smernice b1 udíví, o kolik jednotek se zmení hodnota znaku Y, zmení-li se hodnota znaku X o jednotku. Jestlize je b1 > 0, dochazí s rustem X k rastu Y a hovoríme o príme zavislosti hodnot znaku Y na hodnotích znaku X. Je-li b1 < 0, dochazí s rustem X k poklesu Y a hovoríme o nepríme zavislosti hodnot znaku Y na hodnotach znaku X.
4.4. Příklad
Pro datoví soubor z príkladu 2.13
a) urcete regresní prímku meze pevnosti na mez plasticity
b) Zakreslete regresní prímku do dvourozmerneho teckoveho diagramu.
c) Jak se zmení mez pevnosti, vzroste-li mez plasticitý o jednotku?
d) Najdete regresní odhad meze pevnosti pro mez plasticitý = 60.
e) Výpoctete index determinace a interpretujte ho.
Řešení:
ad a) Na zíklade vísledku príkladu 3.17 dostavame: b1 bo = TO2 - b1TO1 = 114,4 - 0,937 • 95,9 = 24,5; y = 24,5 + 0,937x.
£12
985,76 , 1052,4'
n
51
4. Regresní přímka
ad b)
I
m O
>
19017015013011090 70 50
• •
•
• < |_
• |_
* •S'
30
50
70
90 110
mez plasticity
130
150
170
Povšimněte si, ze koeficient korelace znaků X, Y vypočtený v příkladě 3.17 činil 0,936. Tato hodnota je blízka 1, coZ svedčí o silne příme lineární závislosti mezi znaky X a Y. Tečky v dvoůrozmernem tečkovem diagramů nejsoů přílis rozptáleny kolem regresní prímky.
ad č) Mez pevnosti vzroste o 0,937kpčm-2.
ad d) = 24,5 + 0,937 • 60 = 80,72.
ad e) ID2 = r22 = 0,9362 = 0,876. Znamena to, ze 87,6% variability hodnot meze pevnosti je vysvetleno regresní prímkoů.
2
4.5. Dennice
Regresní přímkou znaku X na znak Y nazveme tů prímků x parametry minimalizují rozptyl
bo + hy, jejíž
1
n
n
E
i=i
(xí - po- Piyí)2
v čele rovine. Nazáva se tez druhá regresní přímka. Regresní prímka znaků Y na znak X a regresní prímka znaků X na znak Y se nazyvají sdruření regresní prímky.
4.6. Veta
Rovnice regresní přímky znaku X na znak Y má tvar x = m\ + ^r(y — m2). Sdrůzene regresní prímky se protínají v bode (mi,m2). Pro regresní
parametry b1, b1 platí: b1 b1 můzeme psat ve tvarů
12-
Rovniče sdrůzenyčh regresníčh prímek
y = m2 + ri2 — {x si
mi);
1 s2
m2-\---[x
ri2 si
mi), (je-li ri2 = 0).
52
Regresní přímky svírají tím menší úhel, čím méně se od sebe liší r 12 a Regresní přímky splynou, je-li r22 = 1. K tomu dojde právě tehdy, existuje-li mezi X á Y Úplná lineární závislost. VSechny body (xj, y/j), i = 1,..., n leží ná jedne přímce, tedy ze ználosti xi můžeme přesne vypocítát /ji, i = 1,..., n. Jsou-li znáky X, Y nekorelováne, pák májí sdruzene regresní přímky rovnice /j = m2, x = m\ á jsou ná sebe kolme. Oznácíme-li a uhel, který svírájí sdruzene regresní prímky, pák plátí:
■ cos a = 0, práve kdyz mezi X á Y neexistuje zídná lineírní zívislost, cos a = 1, príáv e kdy z mezi X á Y existuje uíplníá p ríímíá lineíárníí zíávislost,
■ cos a = —1, práve kdyz mezi X á Y existuje uplná neprímá lineární
zíávislost.
4.7. Příklad
Pro dátoví soubor z príkládu 2.13
á) Určete regresní prímku meze plásticity ná mez pevnosti.
b) Zákreslete regresní prímku do dvourozmerneho teckoveho diágrámu.
RResení:
ád á) S vyuzitím vísledku príkládu 3.17 dostáváme: — s12 985,76
b0 = m1- &iTO2 = 95,9 - 0,932 • 114,4 = -10,7,
tedy
x = —10,7 + 0,932//. ád b) Uvedomte si, ze soucin smernic sdruzených regresních prímek je
0,937 • 0,932 = 0,87,
53
4. Regresní přímka
což je index derminace naboli kvadrát indexu korelace.
I
'o
m
170150130110
50-
30-
•
• • ____' ._____.
• • •
•
• • ___• • • k < u
• u
< »
50
70
90
110 130 mez pevnosti
150
170
190
Shrnutí kapitoly
Pokud vzhled dvourozměrného tečkového diagramu svědčí o existenci určitého stupně lineární závislosti znaku Y na znaku X, muZeme diagramem proloZit regresní přímku znaku Y na znak X. (Pozor - nelze se spokojit pouze s výpočtem korelačního koeficientu, je nutne grafičke posouzení závislosti.) Její parametry (tj. posunutí a smerniči) odhadujeme metodou nejmenSích čtvercU. Kvalitu prolození posuzujeme pomočí indexu determinace - čím je tento index blizsí 1, tím je regresní pnínka výstiznejsí a čím je blizsí 0, tím je regresní prímka nevhodnejsí pro výstizení zavislosti Y na X. Dosadíme-li danou hodnotu znaku X do rovniče regresní prímký, získíme regresn í odhad pnrííslunsníe hodnotý znaku Y.
Ma-li smýsl zkoumat tez opační smer zívislosti, tj. X na Y, hledame druhou regresní prímku. 1. a 2. regresní prímka se označují jako sdružene regresní prímky.
Kontrolní otazky a Úkoly
1 V čem spočíví prinčip metodý nejmensíčh čtverču?
2 Uved'te príklad dvourozmerneho datoveho souboru z ekonomičke praxe vhodnýí pro pounzitíí regresníí pnríímký.
3 Co výjadruje index determinače a jak se počítí?
4 Jakíý je vztah mezi smnerničemi sdrunzeníýčh regresnííčh pnríímek
5 Jsou-li sdruzene regresní prímký kolme, čo lze ríčt o značíčh X a Y?
6 Rozhodnete, zda prímký y =13 — 2x, x = 8 — y mohou bít sdruzenými regresními pnrímkami.
7 Je dana rovniče regresní prímký y = 87 + 0,3(x — 25) a koefičient korelače r12 = 0,77. Najdete rovniči sdruzene regresní prímký.
S
54
8 (S) U osmi níhodne výbraních studentu býlý zjist'ovaný jejich mate-maticke a verbalní schopnosti. Vísledký matematickeho testu udava znak X, vísledký verbalního Y.
X 80 50 36 58 72 60 56 68
Y 65 60 35 39 48 44 48 61
a)
b)
c)
d)
Výpoctete koeficient korelace a interpretujte ho. Najdete rovnice sdruzených regresních prímek. Zlepsí-li se výsledek v matematickem testu o 10 bodu, o kolik bodu se zlepsí výsledek ve verbalním testu?
Zlepsí-li se výsledek ve verbalním testu o 10 bodu, o kolik bodu se zlepňsí víýsledek v matematickíem testu? Jak se zmení usek a smernice regresní prímký, kdýz kazdou hodnotu zavisle promenneho znaku zvetsíme o 10%? 10 Zavislost mezi vnejsí teplotou a teplotou ve skladisti je popsana regresní prímkou y = 8 + 0'6x. Pri jake vnejsí teplote klesne teplota ve skladisti pod bod mrazu?
9
55
4. Regresní přímka
56
5. Jev a jeho pravděpodobnost
Číl kapitoly
Po prostudovaní teto kapitoly budete umet
■ rozlisit nahodní a determinističkí pokus stanovit zíakladníí prostor
■ popsat vztahy mezi jevy pomočí mnozinovíčh operačí
■ vypočítat pravdepodobnost jevu a znat vlastnosti pravdepodobnosti
časova zatez
Na prostudovaní teto kapitoly budete potrebovat asi 6 hodin.
I
Nejprve se sezníamííme s pojmem pokusu, a to determinističkíeho a níahodníeho pokusu. Nadale se budeme zabívat níhodnymi pokusy. Mnozinu mozníčh vísledku pokusu povazujeme za zakladní prostor. Na zíkladním prostoru vybudujeme jevove pole jako system podmnozin, kterí je uzavrení vzhledem k mnozinovym operačím. Zakladní prostor spolu s jevovím polem tvorí tzv. meritelny prostor. Libovolna podmnozina mozníčh výsledku níhodneho pokusu, ktera patrí do jevoveho pole, je jev. Naučíme se vyjadrovat vztahy mezi jevy pomočí mnozinovyčh operačí a uvedeme vlastnosti tečhto operačí.
5.1. Definice
Pokusem rozumíme jednorazove uskutečnení konstantne vymezeneho souboru definičníčh podmínek. Predpokladame, ze pokus muzeme mnohonasob-ne nezavisle opakovat za dodrzení definičníčh podmínek (ostatní podmínky se mohou menit, proto ruzna opakovíní pokusu mohou vest k ruznym vy-sledkum). Dale predpokladame, ze opakovaním pokusu vznika opet pokus.
Deterministickým pokusem nazívame takoví pokus, jehoz kazde opakovaní vede k jedinemu moznemu vísledku. (Napr. zahrívíní vody na 100 °C pri atmosfíeričkíem tlaku 1015 hPa vede k varu vody.)
Náhodným pokusem nazyvame takoví pokus, jehoz kazde opakovíní vede k príve jednomu z víče moznyčh vísledku, ktere jsou vzíjemne neslučitelne. (Napr. hod kostkou vede k prave jednomu ze sesti moznyčh vysledku.)
5.2. Definice
Neprázdnou mnozinu mozníčh vísledku nahodneho pokusu značíme Q a nazyvíme ji základni prostor. Mozne vysledky značíme uj\,u2,---. Na zíkladním prostoru Q vytvoríme jevove pole A jako system podmnozin, ktery s kazdími dvema mnozinami obsahuje i jejičh rozdíl, obsahuje čelí zakladní prostor a obsahuje-li kazdou ze spočetne posloupnosti mnozin, obsahuje i jejičh spočetne sjednočení (znamení to, ze system A je uzavrení vzhledem k mnozinovím operačím). Jestlize A G A, pak rekneme, ze A je jev. Dvojiče (Q, A) se nazyví měřitelný prostor. Q se nazíví jistý jev, 0 nemoZný jev.
58
5.3. Poznámka
Vztahý mezi jevý výjad růjeme pomocýí mno zinovýých inklůzýí a operace s jevý popisůjeme pomocí mnozinových operací.
a) A C B znamený, ze jev A ma za důsledek jev B.
b) A U B znamena nastoůpení aspon jednoho z jevů A, B.
c) A n B znamena spolecne nastoůpení jevů A, B.
d) A — B znamená nastoupení jevu A za nenastoupení jevu B.
e) A = Q — A znamená jev opačný k jevu A.
f) A n B = 0 znamena, ze jevý A, B jsoů neslůcitelne.
g) u G A znamena, ze mozný výsledek w je príznivý nastoůpení jevů A.
5.4. Veta
Uved'me n ekterýe vlastnosti, kterýe majýí operace s jevý:
a) Pro sjednocení a průnik jevů platí komůtativní zakon, který pro dva jevý A, B mýa tvar:
A U B = B U A, A n B = B n A.
b) Pro sjednocení a průnik trí jevů A, B, C platí zakon asociativní:
A u (B u C) = (A u B) u C, A n (B n C) = (A n B) n C,
a zaýkon distribůtivnýí:
A n (B u C) = (A n B) u (A n C), A u (B n C) = (A u B) n (A u C).
c) Pro sjednocení a průnik jevů opacných platí de Morganový zakoný, ktere pro dva jevý A, B zapíseme takto:
A U B = A n B, A n B = A U B.
5.5. Příklad
Nahodný pokůs spocíva v hodů kostkoů. Jev A znamena, ze padne sůde císlo a jev B znamena, ze padne císlo vetsí nez 4.
a) Urcete zýkladní prostor ŕŕ.
b) Výpiste mozne výsledký priznive nastoůpem jevů A, B.
c) Pomoc! operacý s jevý výjýdrete nasledůjící jevý: padne liche cýslo; nepadne cýslo 1 ani 3, padne cýslo 6; padne cýslo 2 nebo 4.
Řešení:
ad a) Q = ..., cu6), kde mozný výsledek uui znamena, ze padne císlo i, i = U..^ 6.
ad b) A = {w2, W4, wg), B = {w5, wg).
ad c) A = {ui, UJ3, W5}; A U B = {1J2, u^, U5, ujq}; AC\B = {ujq}\ A —B =
{W2, W4)
I
Na meritelnem prostorů zavedeme pravdepodobnost jako fůnkci, ktera spl-nůje ůrcite axiomý a kazdemů jevů prirazůje císlo mezi 0 a 1. Meritelný prostor spolů s pravdepodobností tvorí pravdepodobnostní prostor. Seznamíme
59
5. Jev a jeho pravděpodobnost
se s vlastnostmi pravdepodobnosti a uvidíme, ze téměř všechny jsou obdobné vlastnostem relativní Četnosti jak jsme je poznali v první kapitole. Zavedeme specialní případ pravdepodobnosti - klasickou pravdepodobnost a vypočítame nekolik príkladU.
5.6. Definice
Necht' (Q, A) je meritelný prostor. Pravděpodobnosti rozumíme reálnou množinovou funkci P : A — R, která splnuje následující tri axiomy: každemu jevu prirazuje nezáporne císlo, jistemu jevu prirazuje císlo 1, sjednocení neslucitelných jevu prirazuje soucet pravdepodobností techto jevu. Trojice (Q, A, P) se nazýva pravděpodobnostní prostor.
I
(Axiomy pravdepodobnosti jsou zvoleny tak, aby pravdepodobnost byla „zi-dealizovaným" protejskem relativní cetnosti zavedene v definici 1.1. Znamena to, ze pro velkí pocet opakovaní pokusu, v nemz sledujeme nastoupení jevu A, se relativní cetnost jevu A blízí pravdepodobnosti jevu A. Tento poznatek je znam jako empirický zákon velkých čísel. Zdílo by se prirozene definovat pravdepodobnost jako limitu relativní cetnosti pro n — oo. Tento postup by vsak nebyl korektní, protoze pocet pokusu n je vzdy konecny a nelze se tedy presvedcit o existenci uvedene limity.)
5.7. Věta
Nechť (Q, A, P) je pravděpodobnostní prostor. Pak pro libovolné jevy A, Ai, A2, • • • G A platí následujících 14 vlastností:
P1: P(0) = 0
P2: P(A) > 0 (nezapornost - axiom) P3: P(Ai U A2) + P(Ai n A2) = P(Ai) + P(A2) P4: 1 + P(Ai n A2) > P(Ai) + P(A2) P5: P(Ai U A2) < P(Ai) + P(A2) P6: Ai n A2 = 0 == P(Ai U A2) =
) = P(A2) - P(Ai n A2)
P(A2 - Ai) = P(A2) - P(A2) P9: Ai C A2 == P(A2) < P(A2) (monotonie) P10: P(Q) = 1 (normovanost - axiom) Pil: P(A) + P(A) = 1 (komplementarita)
P12: P(A) < 1
A
(subaditivita) P (Ai) + P (A2)
(aditivita)
P7: P(A2 - Ai) P8: A1 C A2 ==
(subtraktivita)
P13: Ai n Aj = 0 pro i = j == P (Ai U A2 U ...) (spocetna aditivita - axiom)
P14:
P (Ai) + P (A2) +
(n \ n
i=1 / i=1
n i n
n 2 n i n
P (Ai) ^ E P (Ai n Aj)+
í=i j=í+i
+Y. Y, Y, P (Ai nAj nAfc)+(-i)n-1P (Ai n A2 n---nAn)
i=1 j=i+i k=j+i
60
Pro neslučitelné jevy A\,..., An dostáváme
P
(n \ n
i=1 / i=1
P (Ai).
(Vlastnosti P1,..., P12 odpovídají vlastnostem relativní četnosti z véty 1.3, vlastnost P14 je známá jáko vetá o sčítání pravdepodobností.)
5.8. Definice
Nechť Q je konečný základní prostor a necht' všechny možné výsledky mají stejnou šanci nastat. Klasická pravdepodobnost je funkce, ktera jevu A pri-m(A)
rázuje číslo P (A)
m(Q)
kde m(A) je počet moznýčh výsledků příznivých
nastoupení jevu A a m(Q) je pocet vsech možných výsledkU. 5.9. Příklad
Vypočítejte pravděpodobnosti jevů A, B, A, A U B, A n B, A — B z příkladu 5.5.
Řešení:
m(Q) = 6, P (A U B)
P(A)
_ 4 _ 2 6 ~~ 3'
3 _ 1
6 ~~ 2'
P (A n B)
P(B)
2 _ 1
6 ~ 3'
P (A - B)
P(A)
3 _ 1
6 — 2'
_ 2 _ 1 6 — 3'
I
5.10. Příklad
V dodávče 100 kusů várobků nemá pozádováný průmer 10 kusů, pozádovánou delku 20 kusů á součásne nemá pozádováný průmer i delku 5 kusů. Jáká je právdepodobnost, ze náhodne výbráná várobek z teto dodávký má pozádováný průmer i delku?
Řešení:
Jev A spočívá v tom, ze várobek má pozádováný průmer á jev B v tom, ze výrobek má pozádovánou delku. Počítáme
P (A C\B) = P{A U B) = 1 - P (A U B) --
= 1 - [P (Ä) + P (B) - P (Ä nš)] = i
(
10 20
+
5
100 100 100
0,75.
1
6
5.11. Příklad
Mezi N výrobký je M zmetků. Náhodne bez vráčení výbereme n výrobků. Jáká je právdepodobnost, ze výbereme práve k zmetků?
Řešení:
Zákládní prostor Q je tvoren vsemi neusporádánými n-tičemi výtvorenými z N prvků. Tedý m(Q) = (^). Jev a4 spočívá v tom, ze výbereme práve k zmetků z M zmetků (tý lze výbrát způsobý) á váber doplníme n — k
61
5. Jev a jěho pravděpodobnost
kvalitními výrobky vybranými z N — M kvalitních výrobků (tento výběr lze způsoby). Podle kombinatorického pravidla soůCinů dostava-
prověst me
n—k
m(A)
UJU — k )
tedy P (A)
m(A)
f)(
nk
N
I
Shrnutí kapitoly
Deterministický pokus vede pri kaZdem opakovaní k jedinemů moZnemů výsledků, zatímco náhodný pokus vede pri kaZdem opakovýní prýve k jed-nomů z více moznych výsledků. Mnozina mozných výsledků nahodneho po-kůsů tvon základní prostor. System podmnozin základního prostorů, ktery je ůzavreny vzhledem k mnozinovým operacmi, se nazýva jevove pole. Zakladný prostor spolů s jevovým polem označujeme jako meritelný prostor. Podmnozina, ktera patrí do jevoveho pole, je jev. Cely zakladní prostor je jevem jistým, prazdna mnozina jevem nemoZným.
Šanci jevů na ůskůtecnení vyjadrůjeme pomocí pravdepodobnosti, coz je fůnkce, ktera kazdemů jevů prirazůje císlo mezi 0 a 1 a splnůje ůrcite axiomy, ktere stanovil růský matematik A. N. Kolmogorov tak, aby pravdepodobnost byla „zidealizovanym" protejskem relativný cetnosti. Pri mnohonýsobnem nezýavislýem opakovýanýí týehoŠz nýahodnýeho pokůsů totiŠz platýí empirický zá kon velkých Čísel: relativní cetnost jevů se ůstalůje kolem nejake konstanty, kte-roů povazůjeme za pravdepodobnost tohoto jevů. Meritelny prostor spolů s pravdepodobností tvorí pravdepodobnostní prostor. V praxi se nej-casteji poůzívý klasická pravdepodobnost zavedena jako podíl poctů tech výsledků, ktere jsoů príznive nastoůpení daneho jevů, a poctů vsech mozných výsledků.
Kontrolní otazky a Úkoly
1 Uved'te príklad deterministickeho pokůsů a nahodneho pokůsů.
2 Nahodny pokůs spodVa v hodů dvema kostkami. Urcete zakladný prostor.
3 Pro zkoůsků provozný spolehlivosti ůrciteho zarýzený je predepsan tento postůp: zaŠrýzený je ůvedeno v Šcinnost pŠetkrýat pŠri maximaýlným zatýŠzený. Jakmile pri nekterem z techto peti pokůsů zarýzený selze, nesplnilo podmýnky zkoůsky. Oznacme Aj jev: „pri i-tem pokůsů zarýzený selhalo" pro i = 1,... , 5. Pomocý jevů Aj vyjýdrete jevy:
a) ZaŠrýzený neproŠslo ůýspŠeŠsnŠe zkoůŠskoů.
b) Prvný tri pokůsy byly ůspesne, ve 4. a 5. pokůsů zarýzený selhalo.
c) 1. a 5. pokůs byly ůýspŠeŠsnýe, ale zkoůŠska byla neůýspŠeŠsnýa.
4 Formůlůjte emiprický zakon velkých ďsel.
5 Uved'te pŠrýíklad sitůace, v nýíŠz nelze poůŠzýít klasickoů pravdŠepodobnost.
6 Z karetní hry o 32 kartach vybereme nahodne bez vracení 4 karty. Jaka je pravdepodobnost, ze aspoň jedna z nich je eso?
62
7 Dva hraci hazejí strídave mincí. Výhrava ten, komu padne drív líc. Stanovte pravdepodobnost výhrý 1. hríce a pravdepodobnost výhrý 2. hrace.
8 chevalier de Mere pozoroval, ze pri hazení tremi kostkami padí soucet 11 casteji nez soucet 12, i kdýz podle jeho nízoru (nespravneho) mají oba souctý stejnou pravdepodobnost. Stanovte pravdepodobnost obou jevu.
9 Student se ke zkousce pripravil na 15 otazek z 20 zadaních. Pri zkousce si výbere nahodne dve otízký. Jaka je pravdepodobnost, ze aspon na jednu zní odpoved'?
10 Mezi nasledujícími tvrzeními výberte ta, kterí jsou pravdiví:
a) p (a n b) < p (b),
b) p (a u b) < p (b),
c) p (a U b) < p (a) + p (b),
d) p (a) < 0.
I
63
5. Jev a jěho pravděpodobnost
64
Stochasticky nezávislé jevy a podmíněná pravděpodobnost
6. Stochasticky nezávislé jevy a podmínéna pravděpodobnost
Číl kapitoly
Po prostůdovaní teto kapitolý bůdete ůmet
■ overit stochastickoů nezývislost posloůpnosti jevů
■ resit príkladý výůzívající stochastickoů nezavislost jevů
■ pocftat podmmenoů pravdepodobnost
■ poůzft vetů o nýsobený pravdepodobnostý vzorec pro ůplnoů pravdepodobnost a Baýesův vzorec
I
časova zatez
Pro zvlýdnůtf teto kapitolý bůdete potrebovat asi 6 hodin stůdia.
Z predesle kapitolý vfme, ze pravdepodobnost je „zidealizovaným" protejskem relativný cetnosti. Lze tedý ocekavat, ze stochastický nezývisle jevý zavedeme podobne jako cetnostne nezavisle mnoziný: pomocí můltiplikativního vztahů. Uvedeme vlastnosti stochastický nezavislých jevů a s jejich pomocí odvodíme dve důlezita rozlozený pravdepodobnosti - geometricke a binomicke, ktera majý, jak ůvidmie pozdeji, caste výůzitý v praxi.
6.1. Definice
Necht' (Q, A, P) je pravdepodobnostní prostor. Jevý A1, A2 G A jsoů stochasticky nezávisle, jestlize P(A1 n A2) = P(A1)P(A2). (Tento vztah znamena, ze informace o nastoůpenýí jednoho jevů neovlivnýí sance, s nimi z o cekaývaýme na-stoůpení drůheho jevů. Stochasticka nezývislost jevů A1, A2 je motivovýna cetnostní nezavislostí mnozin G1, G2 ve výberovem soůborů - viz definice 1.6.) Jevý A1,..., An G A jsoů stochasticky nezavisle, jestlize platí sýstem můltiplikativních vztahů:
V1 < i < j < n : P(Ai n Aj) = P(Ai)P(Aj),
V1 < i < j < k < n : P (Ai n Aj n Ak) = P (Ai)P (Aj )P (Afc).
P(A1 n •••n A„) = P(A1) ...P(A„).
Jevý A1, A2, • • • G A jsoů stochasticky nezávisle, jestlize pro vsechna prirozena n jsoů stochastický nezavisle jevý A1,..., An G A.
(Upozornení: pri overovaní stochasticke nezavislosti jevů můsíme prozkoůmat platnost vsech můltiplikativných vztahů.)
6.2. Věta
a) Nemožný jev je stochasticky nezávislý s každým jevem.
b) Jistý jev je stochasticky nezávislý s každým jevem.
c) Stochasticka nezavislost se neporusí, jestliže nekteré (nebo i vsechny) jevy nahradíme jevy opačnými.
d) Neslucitelne jevy nemohou být stochasticky nezavisle (pokud nemají vsechny nulovou pravdepodobnost).
66
6.3. Příklad
Nezavisle opakujeme tíz níhodní pokus. Nečht' jev Aj znamení uspečh v item pokusu, pričemz P (Aj) = v, i =1, 2,... Vypočítejte pravdepodobnost, ze
a) prvnímu uspečhu predčhazí z neuspečhu, z = 0,1, 2,...,
b) v prvníčh n pokusečh nastane prave y uspečhu, y = 0,1,..., n.
Řešení:
ad a) p(ä[ n-nín az+1) = p(a[)... p(a~z)p(az+1) = (1 (geometričke rozlození pravdepodobností)
ad b)
P((Ain- • -nAynAy+ln- • -nAra)u- • -u^n- • •nA,-!/nAl_s+in- • -nAn))
= pía,) ... p(Ay)p(Ä^r1)... p(än) + ■■■ +
+ p(a1)... p{an_y)p{an_y+l)... p{an)
vy(1 - v)n-y + • • • + (1 - v)n-yvy
ny
vy (1 - v)n-y
(binomičke rozlození pravdepodobností)
Nyní zavedeme podmínenou pravdepodobnost na zaklade analogie s podmí-nenou relativní četností. Shrneme vlastnosti podmínene pravdepodobnosti a naučíme se pouzívat vzoreč pro vypočet íplne pravdepodobnosti a Bayesuv vzoreč.
I
6.4. Definice
Nečht' (Q, A, P) je pravdepodobnostní prostor a dale H G A jev s nenulovou pravdepodobností. Podmíněnou pravdepodobností za podmínky H rozumíme funkči P(.|H) : A —► R danou vzorčem:
A G A : P(A|H)
P (A n
P(H)
H)
.
(Vysvetlení: Opakovane nezívisle provídíme tíz níhodny pokus a sledujeme nastoupení jevu A v tečh pokusečh, v ničhz nastoupil jev H. Podmínenou relativní četnost A za podmínky H jsme v definiči 1.4 zavedli vztahem
• Tato podmíněná relativní četnost se s rostoucím počtem pokusu ustaluje kolem konstanty P(A|H), kterou povazujeme za podmínenou pravdepodobnost jevu A za podmínky H.)
p(A|H)
6.5. Veta T
Pro podmínénou pravdépodobnost platí: N^sjl
a) P (A n a2) = P (a^p (a2|a!) pro p (ai) = 0. \Z_
b) p(ai n a2) = p(a2)p(ai|a2) pro p(a2) = 0.
c) p(a:na2n- • -na„) = p(Ai)p(A2|Ai)p(As|Aina2)... p(ara|ain- • -n
ara_i) pro p(ain- • -nara_i) = 0. (Véta o násobení pravdepodobností)
67
6. Stochasticky nezávisle jevy a podmíněna pravděpodobnost
d) Jevy A1, A2 jsoů stočhastičky nezívisle, príve kdyz P(A1|A2) = P nebo P(A2) = 0 a príve kdyz P(A2|A1) = P(A2) nebo P= 0.
6.6. Příklad
Ze skůpiny 100 vyrobků, ktera obsahůje 10 zmetků, vybereme níhodne bez vračení 3 vírobky. Vypočtete pravdepodobnost jevů, ze první dva vyrobky bůdoů kvalitní a tretí bůde zmetek. Řešení:
Jev Ai znamena, ze i-tí vybraní vírobek je kvalitní, i = 1, 2, 3. Počítíme P(A, ni2n5) = P(A1)P(A2\A1)P(Ä3\A1 n A2) = ^ • § • f = 0,083.
I
6.7. Veta
Nečht' (Q, A, P) je pravdepodobnostní prostor, H1,..., Hn G A takove jevy,
n
ze P> 0, U Hi = Q, Hi n Hj = 0 pro i = j (ríkame, ze jevy H1,..., Hn
í=1
tvorí ůplní system hypotez).
a) Pro libovolní jev A G A platí vzoreč ůplne pravdepodobnosti:
n
P(A) = P(Hi)P(A| Hi).
i=1
b) Pro libovolnoů hypotezů Hk, k = 1,..., n a jev A G A s nenůlovoů pravdepodobností platí Bayesův vzoreč:
P(Hk\A) — .
(P(Hk |A) se nazíva aposteriorní pravděpodobnost hypotezy Hk, P(Hk) je apriorní pravdepodobnost.)
6.8. Příklad
Je znamo, ze 90% vírobků odpovída standardů. Byla vypračovína zjed-nodůsena kontrolní zkoůska, ktera ů standardního vírobků da kladny vy-sledek s pravdepodobností 0,95, zatímčo ů vyrobků nestandardního s pravdepodobností 0,2. Jakí je pravdepodobnost, ze
a) zkoůska ů níhodne vybraneho vyrobků dopadla kladne,
b) vírobek, ů nehoz zkoůska dopadla kladne, je standardní?
Řešení:
Jev A znamena, ze zkoůska ů níhodne vybraneho vírobků dopadla kladne, jev H1 znamena, ze vyrobek je standardní, jev H2 znamení, ze vírobek není standardní, P(H1) = 0,9, P(H2) = 0,1, P(A|H1) = 0,95, P(A|H2) = 0,2.
ad a) P (A) = P (H^P (A|H1)+P (H2)P (A|H2) = 0,9^0,95+0,1^0,2 = 0,875 adb) P(HM) = P{Hí^l) = °-f§^ = ^-
68
Shrnutí kapitoly
Stochasticky nezávislé jevy jsou protipólem deterministický zavislích jevu: informace o nastoupení jednoho jevu nijak nemení s ance, s nimi z o cekí-vame nastoupení druheho jevu. Formalne zavadíme stochastickou nezavislost jevu pomocí multiplikativních vztahu na zaklade analogie s cetnostní nezí-vislostí mnozin. Pomocí stochastický nezavislých jevu lze odvodit geometrické a binomicke rozloZená pravdepodobností. Obe tato rozlození se casto pouzívají v praxi.
Podmínena relativní cetnost motivuje zavedení podmnínene pravdepodobnosti - zkoumame pravdepodobnost nastoupení nejakeho jevu za pod-míínký, ze nastal jinýí jev. Podmíín enía pravd epodobnost se výskýtuje v n eko-lika dulez itích vzorcích, ktere umoz nují re sit radu p ríkladu. Jedna se o vetu o násobení pravdepodobností, vzorec pro vypocet Úplne pravdepodobnosti a Bayesúv vzorec.
Kontrolní otazky a Úkoly
1 Uved'te príklad stochastický nezavislích jevu
2 Necht' P (A) = p, P (B) = q. Pomocí císel p, q výjadrete pravdepodobnost nastoupení aspon jednoho z jevu A, B, jsou-li týto jevý
a) stochastický nezíavislíe,
b) neslu citelníe.
3 Co lze ríci o jevech A, B, ktere nejsou nemozne a platí pro ne:
I
P (A U B)
[1 - P (A)][1 - P (B)]?
1
4 Je pravdepodobnej sí výhrat se stejne silním souperem t ri partie ze ctýr nebo p et z osmi, kdý z nerozhodnýí výísledek je výlou cen a víýsledký jsou nezíavislíe?
5 První delník výrobí denne 60 vírobku, z toho 10% zmetku. Druhý delník výrobí denne 40 výrobku, z toho 5% zmetku. Jakí je pravdepo-dobnost, ze níahodn e výbraníý výírobek z denníí produkce je zmetek a pochíazíí od prvníího d elnííka?
6 Ze sesti vajec jsou dve praskla. Nahodne výbereme dve vejce. Jaka je pravd epodobnost, ze budou
a) ob e prasklía,
b) príav e jedno prasklíe,
c) ob e dobría?
7 Doplňte chybějící člen x v rovnici P (B) = P(B\A)P(A) + xP(A).
8 Pro jake jevý A, B, B = 0 platí P (A|B) = P (A)?
9 Co lze ríci o jevech Ai,..., An s nenulovými pravdepodobnostmi, ktere jsou neslu citelníe a jejich sjednoceníím je celýí zíakladníí prostor?
10 Poji s t'ovací spole cnost rozli s uje p ri poji s t'ovaní t ri skupiný r idicu - A, B a C. Pravdepodobnost toho, z e r idi c pat rící do skupiný A bude mít behem roku nehodu, je 0,03, zatímco u r idi c e skupiný B je to 0,06 a u
69
6. Stochasticky nezávislé jevy a podmíněná pravděpodobnost
ridice skupiný C 0,1. Podle dlouhodobích zíznamu spolecnosti je 70% pojistných smluv uzavreno s ridici skupiný A, 20% s ridi c i skupiný B a 10% s ridi ci skupiný C. Jestli ze do slo k nehode ridi ce poji st eneho u tíeto spole cnosti, jakía je pravd epodobnost, ze pat ril do skupiný C?
11 U jisteho druhu elektrickeho spot rebi ce se s pravdepodobností 0,01 výskýtuje vírobní vada. U spotrebice s touto vírobní vadou dochazí v zarucní lhute k poruse s pravdepodobností 0,5. Vírobký, ktere tuto vadu nemají, se v zarucní lhute porouchají s pravdepodobností 0,01. Jakía je pravd epodobnost, ze
a) u nahodne výbraneho výrobku nastane v zarucní lhut e porucha,
b) výrobek, který se v zírucní lhut e porouchí, bude mít dotýcnou víýrobníí vadu?
I
70
I
ľ
Nahodna veliCina a její distribuční funkce
7. Nahodna veličina a její distribuční funkce
Cíl kapitoly
Po prostudovaní teto kapitolý budete umet:
nčííselnne popsat výísledký níahodníeho pokusu pomočíí naíhodnýíčh velinčina a nahodnýčh vektoru, ■ najít distribuční funkči nahodne veličiný či nahodneho vektoru,
rozlinsit diskríetníí a spojitíe níahodníe velinčiný a níahodníe vektorý a najíít
jejičh funkčioníalníí čharakteristiký,
ovnenrit stočhastičkou nezíavislost níahodnýíčh velinčin.
(časová zatez
Na prostudovíaníí tíeto kapitolý budete potnrebovat asi 8 hodin studia.
Naunčííme se, jak popisovat víýsledký níahodníeho pokusu pomočíí níahodníe velinčiný, tj. zobrazeníí, kteríe monzníemu výísledku pnrinradíí nčííslo nči nnekolik nčíísel. Existuje zretelní analogie mezi znakem, který zname z 1. kapitolý, a nahod-nou velinčinou. V nnekterýíčh situačííčh potnrebujeme níahodnou velinčinu transformovat. Získame slozenou funkči zvanou transformovaní nahodní veličina.
Statistika často zajíma pravdepodobnost jevu, ze hodnota nahodne veličiný nep resíahne n ejakou mez. Pomočíí tíeto pravd epodobnosti zavedeme distribu ční funkči, ktera je „zidealizovaným" protejskem empiričke distribuční funkče, s níí z jsme se setkali ve 2. kapitole. Sezníamííme se s vlastnostmi distribu čníí funkče a výresíme nekolik príkladu.
7.1. Definice
Libovolní funkče X : Q — R, kterí kazdemu moznemu výsledku u G Q prirazuje realne číslo X (u), se nazýva náhodná veličina a číslo X (u) je (číselná realizace náhodne veličiny X příslušná moznemu výsledku u. Usporídana posloupnost nahodníčh veličin (X1,..., Xn) se nazýva náhodná vektor a značí se X. Je-li g : R — R (resp. ... , gm) : Rn — Rm) funkče, pak slozena funkče Y = g(X) (resp. Y = (Yi,..., Ym) = (gi(xi,... ,xra),... ,gm(xi,... ,xra))) se nazýva tránsformováná náhodná veliciná (resp. tránsformováná náhodný vektor).
Výsvetlení: Níhodna veličina i nahodný vektor popisují výsledký níhodneho pokusu pomočíí reíalnýíčh nčíísel. Musíí pnritom splnnovat podmíínku tzv. mnenritel-nosti, kterou se zde nebudeme zabýívat. Níahodnaí velinčina v pončtu pravdne-podobnosti a znak v popisne statističe - viz definiče 1.8 - jsou siče pojmý blíízkíe, nikoli vnsak totonzníe. Znak lze povanzovat za naíhodnou velinčinu, pokud jeho hodnotu zjinst'ujeme na objektu, kteríý býl výbrían ze zaíkladníího souboru níahodnne.
Upozornení: V dalsím textu se omezíme na dvourozmerne nahodne vektorý. Poznatký lze jednoduse zobečnit i na n-rozmerne níhodne vektorý.
7.2. Ožnacení
Nečht' B C R. Jev {u G Q; X (u) G B} zkračene zapisujeme {X G B} a čteme: nahodna veličina X se realizovala v mnozine B.
■
72
7.3. Definice
Pravd epodobnostnýí chovýanýí nýahodnýe veli ciný X (resp. nýahodnýeho vektorů X = (X1,X2)) popisůjeme distribuční funkcí $ : R — R, ktera je dana vztahem: Vx G R : $(x) = P (X < x) (resp. simultánní distribuční funkcí $ : R2 — R, který je definovýna vztahem: V(x1 ,x2) G R2 : $(x1 ,x2) =
P(X1 < x1,X2 < x2)).
Výsvetlení: Distribůcní fůnkce $(x) je zidealizovaným protejskem empiricke distribůcní fůnkce F (x) zavedene v definici 2.4 ci 2.14: Vx G R : F (x) =
N. S rostoucím rozsahem výběrového souboru se budou hodnoty P(x) ůstalovat kolem hodnot $(x).
7.4. Příklad
Najd ete distribů cnýí fůnkci nýahodnýe veli ciný X, kterýa ůdýavaý, jakýe cýíslo padlo pri hodů kostkoů a nakreslete graf teto distribůcní fůnkce.
Řešení:
Nahodný velicina X můze nabývat hodnot 1, 2, 3, 4, 5, 6. Císelnoů osů tedý rozdelíme na 7 intervalů.
x G (—to, 1) : $(x) = P(X < x) = 0
x G (1,2) : $(x) = P (X < x) = -
6
x G (2, 3) : $(x) = P(X < x) = \ + \ = \
6 6 6
x G (3, 4) : $(x) = P(X< x) = 1 + 1 + 1 = 1
6 6 6 6
x G (4,5) : $(x) = P(X < x) = \+ \+ \+ \ = ~a
6 6 6 6 6
x G (5, 6) : $(x) = P(X — 00 X—>00
■ Va, 6 G E, a < 6 platí: P(a 00,X2—>oo
, x2) = lim ,x2) = 0,
lim
xi—>—oc
V(xi,x2) G R2,hi > 0,h2 > 0 : P(xi < Xi < x i + hi
A X2
< X2 < x2 +
h-2) = $(xi + hi,X2 + h2)-$(xi + hi,X2)-$(xi,X2 + h2) + $(xi,X2) (tato vlastnost vyjadruje pravdepodobnost, ze níhodní vektor se realizuje v obdelníku (x1,x1 + h1) x (x2,x2 + h2)),
lim $(xi,X2) = $i(xi), lim $(xi,X2) = $2(X2), kde $i(xi), $2(x2)
X2 —0 X1 —0
jsou distribucní funkce nahodnych velicin X1, X2. Nazyvají se mar-
ginalní distribucní funkce. 7.6. Příklad
Nahodny vektor (X1,X2) ma distribucní funkci
$(xi,X2)
1
V2
arctg xi +
I) (arctS
- -„l.j-___ c
x2 +
Vypoctete pravdepodobnost, ze níhodní vektor (X1,X2) se bude realizovat v jednotkovem ctverci (0,1) x (0,1). Najdete obe marginalní distribucní funkce $1(x1), $2(x2).
Řešení:
Podle 4. vlastnosti v vety 7.5(b), kde x1 dostaívíame
0, x2 = 0, hi = 1, h2
P(0 < Xi < 1 A 0 < X2 < 1) = $(1,1) - $(1, 0) - $(0,1) + $(0, 0)
1 /n n
V2 V4 + 2
$i(xi) $2(x2)
lim —
X2—00 n2
lim \
X1—00 n2
4 + 2
1 /n n
V2 V4 + 2
0+
1 / n
arctg xi +
arctg xi +
4 + 2
1 / n
|) (arctg |) (arctg
x2 +
x2 +
1 n 1 n
0+
1
16'
arctg xi +
arctg x2 +
0
74
Nynýí se bůdeme zabýyvat dvňema speciaýlnýími typy nýahodnýych veliňcin, a to diskrétními a spojitymi nýhodnymi velicinami. Diskrétní nahodna velicina nabýyvýa nejvyýňse spoňcetnňe mnoha izolovanyých hodnot, zatýmco spojitýa veliňcina nabýyvaý vňsech hodnot z nňejakýeho intervalů. Pravdňepodobnostný chovýaný dis-krýetný (resp. spojitýe) nýahodnýe veliňciny popýňseme pomocý pravdňepodobnost-ný fůnkce (resp. pomocý hůstoty pravdňepodobnosti). Uvidýme, ňze vlastnosti pravdňepodobnostný fůnkce jsoů podobnýe jako vlastnosti ňcetnostný fůnkce a vlastnosti hůstoty pravdňepodobnosti jsoů analogickýe vlastnostem hůstoty ňcetnosti.
7.7. Definice
a) Skalýrný pfípad: Nýhodný velicina X se nazyva diskrétní, jestlize jej! distribůcný fůnkci lze vyjadrit pomoci' nezaporne fůnkce n(x) v soůctovem tvarů:
Vx G R : $(x) = Y n (x). Fůnkce n (x) se nazyva pravděpodobnostní funkce diskrétní náhodné veličiny
X.
b) Vektorový pn'pad: Nahodny vektor (Xi,X2) se nazyva diskrétní, jest-liňze jeho simůltýanný distribůňcný fůnkci lze vyjaýdňrit pomocý nezýapornýe fůnkce n(x1,x2) v soůctovem tvarů:
V(xi,X2)R2 : $(xi,X2) = Y Y n(*i,*2).
Í1 0 (nezapornost),
oo
■ n (x) = 1 (normovanost),
x=—oc
75
7. Náhodná veličina a její distribuční funkce
G R
I
Vx VB C R :
vr(x) = P (X = z).
P{X G B) = E vr(x).
b) Vektorový případ: Je-li 7r(xi, z2) simultánní pravděpodobnostní funkce diskrétního náhodněho vektoru (X1,X2), pak platí:
■ V(z1 , x2) G R2 : n(z1,z2) > 0 (nezípornost),
oo oo
■ E E 7r(x1,x2) = 1 (normovanost).
£l= — 00 X2 = — 0C
■ V(xi, x2) G R2 : 7v(xi, x2) = P{Xi = xi A X2 = x2),
m \/B C R2 : P((XUX2) EB)= E n(xi,x2),
(xi,x2)eB
oo
■ E tt(xi,x2) = 7Ti(xi), E tt(xi,x2) = 7r2(x2), přičemž 7Ti(xi),
x2=—o xl=—o
n2(x2) jsou marginílní pravdepodobnostní funkce nahodných veličin
X1, X2.
7.9. Příklad
Pravdepodobnost poruchy každe ze trí nezavisle pracujících vírobních linek je 0,5. Nahodní velicina X udava pocet výrobních linek, ktere mají poruchu. Najdete pravdepodobnostní funkci nahodne veliciný X.
Řešení:
Nahodna velicina X nabýva hodnot 0,1, 2, 3. n(0) = P (X = 0) = 0,53 = 0,125,
= P(X = 1) = 3 • 0,53 = 0,375,
n(2) = P(X = 2) = 3 • 0,53 = 0,375,
n(3) n(x)
P (X = 3) 0 jinak.
0,53
0,125,
7.10. Příklad
Je dan systém složený ze dvou bloků. Pravděpodobnost, že i-tý blok správně funguje, je z^, i = 1, 2, a pravdepodobnost, že správne fungují oba bloky, je v12. Necht' náhodna veličina Xj je ukazatel fungovaní i-teho bloku, tj.
1 , pokud i-týy blok funguje, 0, pokud i-tý blok nefunguje,
{
i
1, 2.
Najdete simultánní pravdepodobnostní funkci n(x1,x2) náhodneho vektoru (X1,X2) a obe marginalní pravdepodobnostní funkce n1 (x1) a n2(x2).
Řešení:
Hodnoty pravdepodobnostních funkcí zapíseme do kontingenční tabulky.
x% x2 VTl(Xi)
0 1
X\ 0 1 — 1/1 — U2 + V\2 V2 ~ V\2 1-Pl
1 V\ ~ V\2
vr2(x2) 1 — V2 V2 1
76
7r(0, 0) = P(X1 = 0 A X2 = 0) = 1 - P(X1 = 1 V X2 = 1) =
1 - (Vl + V2 - V12) = 1 - Vi - V2 + Vi2,
n(0,1) = P(Xi = 0 A X2 = 1) = P(X2 = 1) - P(Xi = 1 A X2 = 1) =
= V2 - Vi2,
0) = P (Xi = 1 A X2 = 0) = P (Xi = 1) - P (Xi = 1 A X2 = 1) =
= Vi - Vi2,
1) = P (Xi = 1 A X2 = 1) = Vi2, , x2) = 0 jinak.
7.11. Definice
a) Skalární případ: Nahodna veličina X se nazývá spojitá, jestliže její distribuční funkci lze výjadřit pomocí nezaporne funkce <^(x) v integrainím tvaru :
Vx G R : $(x)
Funkce <^(x) se nazýva hustota pravděpodobnosti spojité náhodné veličiny X.
b) Vektoroví prípad: Nahodní vektor (Xi,X2) se nazýva spojité, jestlize jeho simultanní distribucní funkci je mozne výjadrit pomocí nezaporne funkce ^(xi,x2) v integrílním tvaru:
X1 X2
V(xi,X2) G R2 : $(xi,X2)
J J ^(íi,Í2) dŕidÍ2.
I
Funkce ^(xi,x2) se nazýva simultánní hustota pravdepodobnosti spojitého náhodného vektoru (Xi,X2).
Výsvetlení: Hustota pravdepodobnosti <^(x) je zidealizovaným protejskem hustotý cetnosti f (x) zavedene v definici 2.14. S rostoucím rozsahem víbero-veho souboru a klesající sirkou trídicích intervalu se hodnotý hustotý cetnosti ustalují kolem hodnot hustotý pravdepodobnosti. Spojita nahodna velicina nabýví vsech hodnot z nejakeho intervalu. Její distribucní funkce je vsude spojita.
Simultanní hustota pravdepodobnosti je zidealizovaním protejskem simultanní hustotý cetnosti zavedene v definici 2.17. S rostoucím rozsahem vý-beroveho souboru a klesající plochou dvourozmerných trídicích intervalu se hodnotý simultanní hustotý pravdepodobnosti a ustalují kolem hodnot simultanní hustotý cetnosti.
7.12. Veta
a) Skalarní prípad: Je-li <^(x) hustota pravdepodobnosti spojite níhodne veliciný X, pak platí:
77
7. Náhodná veličina a její distribuční funkce
I
Vx G R : <^(x) > 0 (nezapornost)
oc
/ <^(x) dx =1 (normovanost)
Vx G R : P (X = x) = VB C R : P (X G B)
0
j t/?(x) dx
■ ip(x) = ve všech bodech spojitosti funkce 0 (nezípornost)
oo oc
■ J J ^(x1,x2) dx1dx2 = 1 (normovanost)
V(xi,x2) G R2 : P((X1 = x1) A(XÍ2
B G R2 : P((X1,X2) G B)= //
(xi,x2)eB
x2)) = 0
^(x1, x2) dx1dx2
■ J ^(x1,x2) dx2 = ^1(x1)^ ?(x1,x2) dx1 = <£2(x2), pričemz ^1(x1).
— oo —oc
^2(x2) jsou marginalní hustoty pravdepodobnosti nahodnyčh veličin X1 , X2.
7.13. Příklad
Na automatičke linče se plní líhve mlekem. Kazdí lahev ma obsahovat presne 1000 ml mleka, ale v dusledku pusobení nahodnyčh vlivu mnozství mleka kolísa v intervalu (980 ml, 1020 ml). Kazde mnozství mleka v tomto intervalu povazujeme za stejne mozne. Nahodna veličina X udava mnozství mleka v nahodne vybrane lahvi. Najdete její hustotu pravdepodobnosti <^(x) a distribuční funkči $(x).
!
k pro x G (980,1020), 0 jinak.
1020
Z normovanosti hustoty plyne: 1 = f kdx = 40fc, tedy k = ^. Pro dis-
980
tribuční funkci platí:
0
$(x)
pro x < 980,
x"980 pro 980 < x < 1020,
980
1
40
pro x > 1020.
7.14. Příklad
Spojity nahodní vektor (X1,X2) ma simultínní hustotu pravdepodobnosti
¥>(x!,x2)
1
n2(1+ x2)(1+ x2)2'
78
Najdete obe marginalní distribůční fůnkče <^2(x2).
Řešení:
oo oc
1
n2(1+ x1)
[arčtg X2 ]
1
n2(1 + x1) V2
p dX2
1 + x2
n(1 + x1)
Analogičky dostavame
x2)"
V popisníe statističe, konkríetn e ve 2. kapitole, jsme se setkali s četnostníí nezavislostí znaků v danem vyberovem soůborů. V počtů pravdepodobnosti mía tento pojem svoů analogii ve stočhastičkíe nezaívislosti níahodnyíčh veli čin. Spočítame nekolik príkladů, v ničhz se vyskytůjí stočhastičky nezívisle veličiny, a ůkazeme si, ze transformovaním se stočhastička nezavislost níhodníčh veličin neporůsí.
7.15. Definice
a) Obečny prípad: Řekneme, ze nahodne veličiny X1,... , Xn s margi-nalními distribůčními fůnkčemi ... , $n(xn) a simůltanní distribůční
fůnkčí ... , xn) jsoů stochasticky nezavisle, jestlize pro V(x1,... , xn) G
b) Diskretní prípad: Řekneme, ze diskretní nahodne veličiny X1,... ,Xn s marginílními pravdepodobnostními fůnkčemi n1 ..., nn(xn) a simůltanní pravdepodobnostní fůnkčí n(x1,...,xn) jsoů stočhastičky nezívisle. jestlize pro V(x1,... , xn) G Rn : ,... , xn) = )nn(xn).
č) Spojití prípad: Řekneme, ze spojite nahodne veličiny X1,... , Xn s marginílními hůstotami pravdepodobnosti ^1 ..., <^n (xn) a simůltínní pravdepodobnostní fůnkčí ,... , xn) jsoů stočhastičky nezívisle, jestlize pro V(x1,... , Xn) G Rn : ^(x1,..., Xn) = ^1(^1)^n(xn) s prípadnoů víjimkoů
na mnozine bodů neovlivňůjíčíčh integrači.
Řekneme, ze posloůpnost (Xn}°o=1 je posloůpností stočhastičky nezavislíčh nahodnyčh veličin, jestlize pro vsečhna prirozena n jsoů stočhastičky neza-vislíe naíhodníe veli činy X1 , . . . , Xn.
Vysvetlení: Jsoů-li nahodne veličiny X1,... ,Xn stočhastičky nezívisle, pak to znamenaí, ze informače o realizači jedníe níahodníe veli činy nijak neovlivníí sanče, s nimi z o čekíavíame realizače ostatnííčh níahodníyčh veli čin. Stočhas-tičkía nezíavislost níahodnyíčh veli čin je zidealizovaníym prot ej skem četnostníí nezavislosti znaků v danem vyberovem soůborů — viz definiče 2.7 a 2.17.
I
1
1
79
7. Náhodná veličina a její distribuční funkce
I
7.16. Příklad
Na výrobcích měříme delku s přesností ±0,5 mm a šířku s přesností ±0,2 mm. Nahodna veličina X1 udava chýbu při meření delký a náhodná veličina X2 udíva chýbu při meření sířký. Předpokladame, ze simultanní hustota pravdepodobnosti p(xi,x2) je uvnitř mezí chýb konstantní, tj.
pOi,£2)
{
k přo - 0,5 < x1 < 0,5; -0,2 < x2 < 0,2, 0 jinak.
Určete konstantu k, najděte marginální hustoty pravděpodobnosti pi(xi), p2(x2), simultánní distribuční funkči $(x1,x2), obě marginální distribuční funkče $2(x2), vypočítejte pravděpodobnost P((—0,1 < X1 < 0,1) A
(—0,1 < X2 < 0,1)) a zjistete, zda níhodne veličiny X1, X2 jsou stočhastičky nezavisie.
Rešení:
Z normovanosti simultínní hustoty pravdepodobnosti plyne:
0,5 0,2
1= j j kdx1dx2 = = k • 1 • 0,4 == k = 2,5.
-0,5 -0,2
Mařginílní hustotý přavdepodobnosti pomocí vetý 7.12 (b):
0,2
p1(x1) = j 2,5dx2 = 2,5[x2]-02 = 1 přo — 0,5 < x1 < 0,5, 0,2
p1(x1) = 0 jinak.
Podobne
0 5
^ = I 2,5 dX1 = 2'5N-0,5 =2,5 přo — 0,2 0,5 a x2 > 0,2. Z definice 7.11 (skalařní případ) dostaneme:
X1
$1(^1)
0,5
0,5
1 dt1 = [t1 ]X10 5 = X1 + 0,5
80
pro —0,5 < x\ < 0,5, $i(xi) = 1 pro x\ > 0,5, $i(xi) = 0 pro x\ < —0,5. Dále
-0,2
1 dt2 = [t
X2 2J- 0,2
2,5(x2 + 0,2)
pro —0,2 < x2 < 0,2, $2(x2) = 1 pro x2 > 0,2, $2(x2) = 0 pro x2 < —0,2. Stochastickou nezávislost náhodných veličin X1,X2 overíme pomocí definice 7.15 (c): V(x1,x2) G R2 : ^(x1,x2) = ^1(x1)^2(x2), tedy nýhodne veliciny X1,X2 jsou stochasticky nezávisle.
7.17. Příklad
Diskrétní náhodný vektor (X1, X2) mý simultýnní právdepodobnostní funkci n(x1,x2) dánou hodnotámi: n(—1, 2) = n(—1, 3) = n(0, 3) = 0) = 1) = 0, n(—1,0) = n(0,1) = 2) = 2c, n(—1,1) = n(0,0) = n(0, 2) = 3) = c. Urcete konstántu c, hodnotu simultýnní distribucní funkce $(0, 2), obe márginální právdepodobnostní funkce n1(x1), n2(x2) á hodnotu márginální distribucní funkce Zjistete, zdá náhodne veliciny
X1 , X2 jsou stochásticky nezíávislíe.
Řešení:
Hodnoty simultánní právdepodobnostní funkce n(x1, x2) usporídíme do kon-tingencní tábulky, kterou jeste doplníme o sloupec s hodnotámi n1 (x1) á rádek s hodnotámi n2(x2). Tyto hodnoty získíme pomocí vety 7.8 (vektorový prípád).
x2 VTl(Xi)
0 1 2 3
-1 2c c 0 0 3c
X\ 0 c 2c c 0 4c
1 0 0 2c c 3c
7T2(X2) 3c 3c 3c c 1
Z normovánosti právdepodobnostní funkce diskrétního náhodneho vektoru (viz vetá 7.8, vektoroví prípád) dostáváme 10c = 1, tedy c = 0,1. Z definice diskrétního náhodneho vektoru (definice 7.7, vektorovy prípád) plyne
$(0, 2) = n(—1, 0) + n(—1,1) + n(—1, 2) + n(—1, 3) + n(0, 0) +
+ n(0,1) + n(0, 2) = 0,2 + 0,1 + 0 + 0,1 + 0,2 + 0,1 = 0,6.
Z definice diskrétní náhodne veliciny (definice 7.7, skálírní prípád) plyne
$1(1) = 7n(—1) + 7n(0) + n (1) = 0,3 + 0,4 + 0,3 = 1.
Pokud by náhodné veličiny Xi,X2 byly stochasticky nezávislé, musel by pro všechna V(x1 ,x2) G R2 platit multiplikativní vztah: ,x2) = n1(x1)n2(x2) (viz definice 7.15 (b)). Avšak jiZ pro x1 = —1,
x2 = 0 dostáíváíme
dy,
vztáh splnen není á náhodne veliciny X1 ,X2 nejsou stochásticky nezívisle.
n(—1,0) = 0,2, n1 (—1) = 0,3, n2(0) = 0,3. Vidíme tedy, ze multiplikátivní
^rzfnVi Qnl
x 2
81
7. Nahodna veliCina a její distribuCní funkce
I
7.18. Veta
Jsoů-li nýhodne veliciný X1,...,Xn stochastický nezavisle, pak jsoů stochastický nezavisle take transformovane nýhodne veliciný Y1 = g1(X1),... ,
Shrnutí kapitoly
Nahodna velicina se zavadí jako zobrazení, ktere kazdemů výsledků nahod-neho pokůsů prirazůje cýslo (pak se jedna o skaiarní nahodnou veličinu) nebo více císel (v tomto prípade jde o nahodný vektor). Nahodnoů velicinů lze pomocý libovolne fůnkce transformovat a zýskat tak transformovanou nahodnou veličinu. Pravdepodobnostný chovým nahodne veliciný popisůje distribuční funkce, jejý;z zavedený je motivovano empirickoů distribůcm fůnkcý znamoů z popisne statistiký. Vlastnosti techto dvoů fůnkcý jsoů ana-logicke.
Praktický význam majý dva specialný drůhý nahodných velicin. Diskretní nahodní velicina můze nabývat poůze spocetne mnoha hodnot a jejý pravdepodobnostný chovaný je popsýno pravdepodobnostní funkcí, coz je „zi-dealizovaný" protejsek cetnostný fůnkce. Diskr etn í n íhodný vektor je tvoren diskretnými nahodnými velicinami. Zabývali jsme se nahodnými vek-torý se dvema slozkami. V soůvislosti s diskretným nýhodným vektorem zavadýme simultínn í pravdepodobnostn í funkci. Margin íln í pravde-podobnostn í funkce se vztahůjý k jednotlivým slozkým nýhodneho vektorů.
Spojit a n ahodn í velicina nabýva vsech hodnot z nejakeho intervalů. Jejý pravdepodobnostný chovaný je popsano hustotou pravdepodobnosti, coz je „zidealizovaný" protejsek hůstotý cetnosti. Spojitý n ahodný vektor je tvoren spojitými nahodnými velicinami. Jeho pravdepodobnostný chovaný je popsano simult ann í hustotou pravdepodobnosti. Margin aln í hustoty pravdepodobnosti se vztahůjý k jednotlivým slozkam nýhodneho vektorů.
Pomocý můltiplikativnýho vztahů, v nemz výstůpůjý simůltanný a marginalný distribůcný fůnkce (resp. pravdepodobnostný fůnkce v diskretným pHpade resp. hůstotý pravdepodobnosti ve spojitem pHpade), zavedeme pojem sto-chasticke nezavislosti nahodných velicin.
Kontrolní otazky a Úkoly
1 Uved'te pfíklad nahodne veliciný a nahodneho vektorů z ekonomicke praxe.
2 Najdete distribůcný fůnkci nahodne veliciný, který ůdava pocet lýců pri hodů tremi mince-mi a nakreslete jejý graf.
3 Rozhodnete, ktere z ůvedených nahodných velicin jsoů diskretný a ktere jsoů spojite:
a) pocet clenů domacnosti
b) vek cloveka v letech
c) nýahodn e výbranýe reýalnýe cýíslo
d) pocet zakazníků ve fronte
82
e) cena vyírobku
f) pocet zmetku z celkove denní produkce
g) delka urciteho predmetu
h) zivotnost televizoru v letech
4 Ktere funkcionalní charakteristiky popisují pravdepodobnostní chovaní diskretní nahodne veliciny a ktere diskretního níhodneho vektoru?
5 Ktere funkcionalní charakteristiky popisují pravdepodobnostní chovaní spojite nahodne veliciny a ktere spojiteho nahodneho vektoru?
6 Je-li X diskretní nahodní velicina s pravdepodobnostní funkcí n (x), muze byt n (x) > 1?
7 Je-li X spojita nahodna velicina s hustotou pravdepodobnosti ?(x), muze byt <^(x) > 1?
8 Nahodna velicina udaví prumerní pocet ok pri hodu dvema kostkami. Nakreslete graf její pravdepodobnostní funkce.
9 Diskretní nahodny vektor (X1,X2) ma simultínní pravdepodobnostní funkci n(x1,x2) danou hodnotami:
n(0, 0) = n(0, 2) = 1) = n(2, 0) = n(2, 2) = 0, n(0,1) = 2)= n(2,1) = 0,25.
Jsou níhodne veliciny X1, X2 stochasticky nezívisle? 10 Necht' spojití vektor (X1, X2) ma simultínní hustotu pravdepodobnosti
24x2ix2(1 - xi) pro 0 < xi < 1, 0 < x2 < 1, ^(xi ,x2) = \0 jinak. ■
Dokazte, ze nahodne veliciny X1, X2 jsou stochasticky nezavisle.
83
7. Nahodna veličina a její distribuční funkce
84
I
Vybrana rozIoZení diskrétních a spojitých nahodnych veliccin
8. Vybraná rozložení diskrétních a spojitých náhodných veličin
Cíl kapitoly
Po prostudování teto kapitoly budete umet:
■ rozlisovat dulezité typy diskrétních a spojitých rozložení
■ využívat vlastností techto rozložení pri yýpoCtu pravdepodobností různých jevU
■ hledat v tabulkach hodnot distribucní funkce standardizovaneho nor-malního rozlození
(Časová zátéž
Na prostudovaní teto kapitoly budete potrebovat asi 5 hodin studia.
Nyní se seznamíme s préhledem dulezitych pravdepodobnostních funkcí a hustot pravdepodobnosti. Uvedeme nejenom analyticke vyjadrení techto funkcí, ale tez grafy. Vysvetlíme rovnez, vjakych situacích se lze s uvedenými rozlozeními pravdepodobnosti setkat. Zvlastním pozornost budeme venovat normalnímu rozlození, které hraje velkou roli v cele rade praktickích aplikací poctu pravdepodobnosti a, jak uvidíme pozdeji, i v matematicke statistice.
I
8.1. Označení
Zname-li distribucní funkci $(x) nahodne veliciny X (resp. pravdepodobnost-ní funkci n(x) v diskrétním prípade resp. hustotu pravdepodobnosti <^(x) ve spojitém prípade), pak rekneme, ze zname rozlození pravdepodobností (zkrícene rozlození) nahodne veliciny X. Toto rozlození zavisí na nejakem parametru v, coz nejcasteji bíva reílne císlo nebo reílní vektor. Zípis X ~ L(v) cteme: nahodna velicina X ma rozlození L s parametrem v.
8.2. Definice
Nejprve se sezníamííme s vybraníymi rozlo zeníími diskríetníích níahodníych veli-cin.
a) Degenerované rozložení: X ~ Dg (i)
Tato níhodna velicina nabyva pouze konstantní hodnotu
n(x)
{
1 pro x = [i. 0 jinak.
-1
0.5 1 1.5
Pravdepodobnostní funkce Dg(1).
2
1
0
0
2
86
b) Alternativní rozložení: X ~ A{y)
Náhodná veličina X udává počet úspěchů v jednom pokusu, přičemž pravděpodobnost ůspechu je v.
1 — v pro x = 0, = ^ v pro x =1, 0 jinak.
0.5-
-0.5-
-1
Pravdepodobnostní funkce A(0,75).
c) Binomické rozložení: X ~ Bi(n, v)
Náhodná veličina X udává počet áspechu v posloupnosti n nežávislách opakovaných pokusu, pričemž pravdepodobnost áspechu je v každem pokusu v.
n(x)
0.6-
!
x
vx(1 — v)n x pro x jinak.
0.40.20
0.2
1
0,1,...,n
I
Pravdepodobnostná funkce Bi(5; 0,5).
(Odvožená - viž pr. 6.3 (b).) Alternativm rozložená je speciálnám prápa-dem binomickeho rozložená pro n =1. Jsou-li Xi,... , Xn stochastický nezávisle náhodne veličiny, Xj ~ A(v), i = 1,..., n, pak
X
J]Xj ~ Bi(n,v).
i=1
1
0
0
1
2
0
II
0
1
6
87
8. Vybraná rozložení diskrétních a spojitých náhodných veličin
d) Geometrické rozložené: X ~ Ge(v)
Nahodní velicina X udava pocet neuspedrů v posloupnosti opako-vaních nezavislých pokusu predchízejících prvnímu uspechu, pricemz pravdepodobnost íspechu je v kazdem pokusu v.
n(x)
{
(1
0
v)xv pro x = 0,1,... jinak.
0.30.20.10-0.1-
-1
11
I
Pravdepodobnostní funkce Ge(0,25). (Odvození - viz pr. 6.3 (a).)
e) Hypergeometričke rozložené: X ~ Hg(N, M, n)
V souboru N prvku je M prvku oznaceno. Nahodne výbereme n prvku bez vracení. Nahodna velicina X udava pocet výbraných oznaceních prvku.
n(x)
{
(M) (N-M) V x ) V. n — x )
(?)
0
0.50.40.30.20.1
pro x = max{0, M jinak.
N + n},... min{M, n},
0 0.1
1
Pravdepodobnostní funkce Hg(10, 7, 5).
f) Rovnomerne diskrétné rozložené: X ~ Rd(G)
Necht' G je konecna mnozina o n prvcích. Nahodna velicina X nabýva se stejnou pravdepodobností kazde hodnotý z mnoziný G.
n(x)
!
- pro x G G. 0 jinak.
88
1
0
1
6
(Typičkím príkladem je nahodna veličina ůdavajíčí počet ok pri hodů kostkoů.)
0.18 0.14 0.1 0.060.02-0.02
10
Pravdepodobnostní fůnkče 2,..., 10}).
g) Poissonovo rozložení: X ~ Po(A)
Níahodnaí veliňčina X ůdíavaí poňčet ůdíalostí, kteríe nastanoů v jednot-kovíem ňčasovíem intervalů, pňriňčemňz ůdíalosti nastaívají níahodnňe, jednot-live a vzíjemne nezavisle. Parametr A > 0 je strední počet tečhto ůdíalostí.
^e"A pro x = 0,1,.... 0 jinak.
n (x)
!
0.22
0.180.140.1
0.060.020.02
• • • •
I
I I I I I I I
0 2 4 6 8 10 12 14 16
Pravdepodobnostní fůnkče Po(5).
0
8.3. Príklad
V rodine je 10 detí. Za predpokladů, ze čhlapči i dívky se rodí s pravdepo-dobnostíí 0,5 a pohlavíí se formůje nezíavisle na sobňe, ůrňčete pravdňepodobnost, ze v teto rodine jsoů nejmene 3 a nejvíse 8 čhlapčů.
RRešení:
X - počet čhlapčů v teto rodine, X ~ Bi(10; 0,5),
™»»-t(í)(i)'('-S)*" -
957
0,935.
89
8. Vybraná rozložení diskrétních a spojitých náhodných veličin
8.4. Příklad
Jaká je pravděpodobnost, ze při hře „Člověče, nezlob se!" nasadíme nejpozději při třetím hodu?
Řešení:
X - počet neúspěchů před první šestkou, X ~ Ge(|),
P(X < 2) = EÍ1- ^)1 = 0'4213-
8.5. Příklad
Při provozu balicího automatu vznikají během směny náhodné poruchy, které se řídí rozloZenám Po(2). Jaka je pravděpodobnost, Ze během směny dojde
aspon k jedně poruse? Řešení:
X - poCet poruch během směny, X ~ Po(2),
P{X > 1) = 1 - P(X < 1) = 1 - P(X = 0) = 1 - — e"2 = 0,8647.
I
8.6. Definice
Nyní uvedeme vybraně typy spojitých rozloZení.
a) Rovnoměrné spojité rozložení: X ~ Rs(a, b)
Nahodná velicina X nabává se stejnou pravděpodobností kazdě hodnoty z intervalu (a,b).
!
i
b—a
0
pro x G (a, b), jinak.
0.4-
0.3 H 0.2 0.1 0
-0.1
-2
1
0
b) Exponenciálne, rozložené: X ~ Ex (A)
3
Hustota Rs(-1, 2).
A)
Náhodna velicina X udáva dobu cekaní na príchod nějakě udalosti,
90
která se může dostavit každým okamžikem se stejnou šancí bez ohledu na dosud pročekanou dobu. Přitom j vyjadřuje střední dobu čekání.
I
Ae Ax pro x > 0, 0 jinak.
2.2 1.81.41
0.6 0.2 -0.2
1
Hustota Ex(2). c) Normálni rozloženi: X ~ N(ß, a2)
Tato nahodna veliCina vznika napr. tak, že ke konstante ß se priCíta velké množství nezavislých náhodných vlivU mírne kolísajících kolem 0. Promenlivost techto vlivU je výjídrena konstantou a > 0.
1
e z*'2
Pro (i = 0, a2 = 1 se jedná o standardizovane normální rozložení, píšeme U ~ N(0,1). Hustota pravdepodobnosti ma v tomto prípade tvar
1
v7^
e 2 .
Distribumí funkce standardizovaneho normalního rozložení
I
$(u)
77
2n
:e 2 dt
je tabelovana pro u > 0, pro u < 0 se pouzíva prepoctový vzorec $(-«) = 1 - $(«). Má-li X ~ N(ß, a2), pak [/ = ^ ~ X(0,1).
0.5 0.4
0.3-1
0.2 0.1 0
32
7
1
Hustota N(0,1)
1
0.8 0.6-1 0.4 0.2 0
1
-3 -2 -10 1 2 Distribucní funkce N(0,1)
91
0
1
6
u
0
3
3
8. Vybraná rozložení diskrétních a spojitých náhodných veličin
I
0.60.5 H 0.4 0.3 0.2 H 0.1
0
21
1
0.8
0.6 0.4 0.2 0
21
Hůstota N(1; 0,5) Distribůcm fůnkce N(1; 0,5)
(Normalný rozlozem hraje ůstredm roli v poctů pravdepodobnosti i ma-tematicke statistice. Jeho vyznam spoďvý jednak v tom, ze normalnmi rozlozením se rídí pravdepodobnostní chovaní mnoha nýhodných velicin a jednak v tom, ze za ůrcitých podmmek konvergůje k normýlmniů rozlození soůcet nezavislých nahodných velicin s tymz rozlozením.) d) Dvourozměrné normálne rozložení:
(X2)~*(©-Cl T))
Nahodny vektor J vznika ve dvoůrozmerných sitůacích podobne jako skalarný nýhodný velicina v bode (e).
1
e 2
kde
q(x1,x2)
1 - p2
/x1 - pA2 x1
£í1 x2 — P2
+
0"1
0"2
^2 -
Pro p1 = 0, p2 = 0, a2 = 1, a| = 1, p = 0 se jedna o standardizovane dvoůrozmerne normalný rozlozený.
Vrstevnice a graf hůstoty standardizovaneho dvoůrozmerneho noriiml-ního rozlození:
r
4
T
2
4 2 0
■ —2
4
24
92
0
1
4
0
1
4
1
Vrstevnice a graf hustoty dvourozměrného normálního rozložení s parametry ni = 0, n2 = 0, a2 = 1, er| = 1, p = —0,75
Následující tri rozložení - Pearsonovo, Studentovo a Fisherovo-Snedeco-rovo - jsou odvozena ze standardizovaneho normalního rozložení. Mají velky význam predevsím v matematicke statistice pri konstrukci intervalu spolehlivosti a testovaní hypotez. Vyjadrení hustot techto rozlození neuvídíme, je prílis slozite - viz napr. [3].)
e) Pearsonovo rozloženi chi-kvadrát s n stupni volnosti: X ~ x2(n)
Nechť Xi,...,Xra jsou sťochasťicky nezávisle náhodné veliCiny, Xj ~ N(0,1), i = 1,..., n. Pak náhodná veliCina X = X2 + • • • + ~ x2(n).
0.25
0.2 H 0.15
0.1 0.05 H
0
I
Husťoťa x2 (3).
f) Studentovo rozloženi s n stupni volnosti: X ~ t(n)
Nechť' X1, X2 jsou sťochasťicky nezávisle nahodne veliCiny a nechť' dále X1 ~ N(0,1), X2 ~ x2(n). Pak nahodná velicina
X
X2 n
t(n).
93
0
8
8. Vybraná rozložení diskrétních a spojitých náhodných veličin
I
0.6
0.4 H
0.2 H
-0.2
-3
T
-2
T
-1
Hustota í(3).
g) Fisherovo-Snedecorovo rozložení s n\ a n2 stupni volnosti:
X ~ F (n, n2)
Necht' Xi,...,Xn jsou stochasticky nezávisle náhodne veličiny, Xj ~ X2 (n), i = 1, 2. Pak náhodná veličina
X
ni X2 n2
F(n , n2).
0.8
0.6 H
0.4 0.2 0 0.2
1
Hustota F(5, 8).
8.7. Příklad
Na automaticke lince se plní lahve mlekem. Působením nahodnách vlivu množství mleka kolísa v intervalu (980 ml, 1020 ml). Kazde množství mleka v tomto intervalu považujeme za stejne možne. Jaka je pravdepodobnost, že v náhodne vybrane láhvi bude aspon 1000 ml mleka?
Řešení:
X - množství mleka v náhodne vybrane láhvi, X ~ Rs(980,1020),
{
^ pro x G (980,1020), 0 jinak.
1020
P(X > 1000) = j
40
40'
020 000
0,5.
000
0
0
1
3
0
1
6
1
1
94
8.8. Příklad
Doba (v minutách) potřebná k obsloužení zákazníka v prodejně potravin je náhodná veličina, která se řídí rozložením Ex(^). Jaká je pravděpodobnost, že doba potřebna k obsloužení náhodne vybraneho zákazníka v teto prodejne bude v rozmezí od 3 do 6 minut?
Řešení:
X - doba potřebná k obsloužení náhodně vybraného zákazníka, X ~ Ex(^).
[i
e 3 pro x > 0, 0 jinak.
6
P(3 < X < 6) = / \e~% d
3
f \e~% dx = \{-$) [e_t]g = -e-2 + e"1 = 0,233. 33
8.9. Příklad
Výsledky u prijímacích zkoušek na jistou VS jsou normílne rozlozeny s parametry // = 550 bodu, a = 100 bodu. S jakou pravdepodobností bude mít níhodne vybraní uchazeč aspon 600 bodu?
Řešení:
X - vísledek nahodne vybraneho uchazece, X ~ N(550,1002),
P (X > 600) = 1 - P (X < 600) + P (X = 600) = 1 - P (X < 600)
1 - P
X
a
H 600
a
1 - p (u <
1 - $(0,5) =
600
- 550\
m )
100
1 - 0,69146 = 0,31.
8.10. Příklad
Necht' Xi,X2,X3,X4 jsou stochasticky nezívisle níhodne veliciny, Xj N(0,1), i = 1, 2, 3, 4. Jake rozlození mí transformovaní nahodní velicina
X
xVš
VW+xf+x.
?
I
Řešení:
X ~ t(3), protoze Xi ~ N(0,1) a X22 + X2 + X42 ~ x2(3).
Shrnutí kapitoly
Degeneřovane rozložení popisuje pravdepodobnostní chovaní konstanty, coz je nepochybne patologickí prípad. Zajímavejsí je alternativní, geo-metřicke a zvlaste binomicke rozložení. Vsechna tato rozlození souvisejí
95
8. Vybraná rozložení diskrétních a spojitých náhodných veličin
s pocty úspěchů ci neúspěchů v posloupnosti opakovaných nezávislých pokusů. Hypergeometrické rozložení se vyskytuje v situacích, kdy provádíme výběr bez vracení ze souboru, ktery obsahuje oznacene prvky. Rovnomerne rozložení na dane mnozine je charakteristicke tím, ze nahodný velicina, ktera se jím rídý nabyvý kazde hodnoty z teto množiny se stejnou pravdepodobností. Podle Poissonova rozložení se chova napr. nahodný velicina udavající pocet udalostí, ktere nastanou v jednotkovem case.
Za spojitych rozlození je nejjednodussí rovnomerne spojit e rozložen í.
Jeho hustota je na danem intervalu konstantní a jinde nulova. Nahodna velicina s exponenci aln ím rozlozen ím udava dobu cekaní na príchod neja-ke udalosti, pricemz toto cekíní probíha „bez pameti". Vubec nejdulezitejsím rozlozením je normáln í rozlozen í, ktere vznika napr. tak, ze k nejake konstante se pricíta velke mnozství nezavislych nahodních vlivu mírne kolísajících kolem nuly. Tím se z konstanty stane nahodní velicina. Grafem normalní hustoty pravdepodobnosti je znama Gaussova krivka. Pomocí stan-dardizovaneho rozlození lze zavest dalsí tri typy specialních rozlození, a to Pearsonovo, Studentovo a Fisherovo-Snedecorovo. Nachazejí uplatnení predevsím v matematicke statistice.
I
Kontrolní otázky a úkoly
1 (S) Pomocí systému STATISTICA nakreslete grafy hustot a distribučních funkcí uvedených spojitých rozložení. Sledujte vliv parametrU na tvar hustot a distribucních funkcí. Navod: viz príloha B.
2 (S) Pojist'ovna zjistila, že 12% pojistních udílostí je zpusobeno vlou-paním. Jaka je pravdepodobnost, ze mezi 30 nahodne vybranými pojistnými udalostmi bude zpusobeno vloupaním nejvyse 6?
3 Doba (v hodinach), kterí uplyne mezi dvema nalehavými príjmy v jiste nemocnici, se rídí rozlozením Ex(0,5). Jaka je pravdepodobnost, ze uplyne více nez 5 hodin bez nalehaveho príjmu?
4 Jaka je pravdepodobnost, ze níhodní velicina X ~ N(20,16) nabude hodnotu mensi nez 12 nebo vetsí nez 28?
5 Necht' X ~ Rs(a,b), pricemz
$(x)
0 pro x < a pro a < x < b
1 pro x > b
Urcete a, b.
Necht' X\, X? jsou stochasticky nezavisle nahodne veliciny takove, ze Xi ~ N(0,1), i = 1, 2. Jake rozlození mí transformovana níhodní veli cina
X
= xr
6
96
Číselné charakteristiky náhodných veliCin
I
9. (Číselné charakteristiky náhodných veličin
Cíl kapitoly
Po prostudovaná těto kapitoly budete umět:
■ spocátat kvantily spojitych nahodnych velicin
■ hledat kvantily některách spojitách nahodnách velicin ve statistickych tabulkáach
■ urcit stredná hodnotu a rozptyl nahodně veliciny
■ spoďtat kovarianci a koeficient korelace dvou nahodnách velicin
■ vyuzávat vlastnosti' cáselnych charakteristik nahodnych velicin pri kon-krětních vypoctech
Casova zatez
Na prostudovaná těto kapitoly budete potrebovat asi 10 hodin studia.
9.1. Motivace
V 7. kapitole jsme se seznamili s funkcionalnámi charakteristikami náhodnych velicin (napr. distribucná funkce, pravděpodobnostná funkce, hustota pravděpodobnosti), kterě plně popisujá pravděpodobnostná chovaná nahodně veliciny. Čáseme charakteristiky vystihujá pouze některě rysy tohoto chovaná, napr. popisují polohu realizací nahodně veliciny na císelně ose ci jejich proměnlivost (variabilitu). Jsou jednodussí nez císelně charakteristiky, ale nesou jen caste cnou informaci.
I
9.2. Definice
Necht' X je spojita nahodna veličina aspon ordinalního charakteru (viz definici 3.2) s distribuční funkcí $(x) a necht' a G (0,1). Číslo Ka(X), ktere splnuje podmínku
Ka(X)
J
^(x) dx,
se nazyvá a-kvantil náhodně veliciny X. Kvantil K°;5°(X) se nazyva median, K°;25(X) dolní kvartil, K°;75(X) horní kvartil, K°;i°(X),..., K°;9°(X) jsou decily, (X),..., K°)99 (X) jsou percentily. Kterykoliv a-kvantil je charakteristikou polohy císelnách realizací nahodně veliciny na císelně ose. Jako charakteristika variability slouzí kvartilová odchylka q = K°;75(X)—K°;25 (X).
(Lze samozrejme definovat i kvantily diskrětních nahodnych velicin, ale zde se zabyváme jenom kvantily spojitych nahodnách velicin, kterě se v praxi nejcastěji pouzávajĹ)
98
Význam a-kvantilu spojité náhodné veličiny ilustruje následující obrázek.
Ka(X)
9.3. Označení
X ~ N(0, 1) K«(X)= Ua, X
X ~ t(n) ^ K«(X)= ía(n), X
X2 (n) =► K«(X ) = Xa(n);
F(ni,n2) K«(X) = Fa(ni,n2). Tyto kvantily najdeme ve statistických tabulkách. PouZíváme vztahy:
ua u1—a;
ta(n) = -ti—a(n);
1
Fa(ni,n2)
Fi—a(n2,ni)"
9.4. Příklad
a) Necht' U ~ N(0,1). Najdete mediýn a horní a dolní kvartil.
b) Urcete x2)Q25(25).
c) Urcete to,99(30) a to,o5(24).
_ d) Urcete Fo,975(5, 20) a Fo,o5(2,10). Řešení:
ad a) Mo>5o = 0, mo>25 = —0,67449, mo>75 = 0,67449
adb) xo',o25(25) =13,12
ad c) to,99(30) = 2,4573, ro,o5(24) = —1,7109
ad d) Fo,975(5, 20) = 3,2891, Fo,o5(2,10) = 0,05156
9.5. Veta
Necht' X je spojití náhodná velicina, Y = g(X) transformovaná náhodná velicina, a G (0,1).
a) Je-li g vsude rostoucí funkce, pak Ka(Y) = g(Ka(X)).
b) Je-li g vsude klesající funkce, pak Ka(Y) = g(Ki—a(X)).
9.6. Příklad
Necht' U ~ N(0,1). Najdete devátí decil transformovane náhodne veliciny
Y = 3 + 2U.
Řešení:
Funkce y = 3 + 2u je vsude rostoucí funkce, tedy Ko>9o(Y) 3 + 2 • 1,28155 = 5,5631.
I
3 + 2uo,9o
99
9. Číselné charakteristiky náhodných veličin
Nyní budeme věnovat pozornost číselným charakteristikám polohy a variability náhodné veličiny intervaloveho či pomeroveho charakteru. Jak uvidíme, teoretickým protejSkem aritmetickeho prumeru m je strední hodnota E(X) a empirickeho rozptylu s2 teoretický rozptyl D (X). Empiricky rozptyl s2 jsme zavedli jako aritmetický prumer kvadrátu centrovaných hodnot. Není tedy prekvapive, ze teoretický rozptyl D (X) je strední hodnotou kvadrátů centrovaných hodnot. Naucíme se pocítat strední hodnotu a rozptyl transformovaných nahodnych velicin a nahodnych vektoru. Uvedeme strední hodnoty a rozptyly vybraných typu diskretmch a spojitých rozloženi', který jsme poznali v 8. kapitole.
9.7. Definice
Necht' X je nahodna veliCina aspoň intervaloveho charakteru (viz definici 3.2). Její střední hodnotou nazývame Císlo E (X), které je v diskrétním prípade žavedeno vžtahem
oc
ÍE= — OC
a ve spojitém prípade vztahem
oc
ľ
E (X) = J x<^(x) dx
I
za predpokladu, ze prípadna nekoneCna suma Ci integrál vpravo absolútne konverguje. Není-li tato podmínka splnena, pak rekneme, ze strední hodnota neexistuje. Transformovaní níhodní veliCina X — E(X) se nazýva centrovaná náhodná veličina.
(Strední hodnota je Císlo, které Charakterizuje polohu realizaCí nahodne veli-Ciný na Císelne ose s prihlednutím k jejiCh pravdepodobnostem. V diskrétním prípade predstavuje strední hodnota teziste soustavy hmotnýCh bodu, jejidiz hmotnost je popsana pravdepodobnostní funkCí n (x) a ve spojitem prípade je stňrední hodnota tňeňziňstňem hmotníe pňrímký, na níňz je rozprostňrení hmotý popsano hustotou pravdepodobnosti ?(x). Strední hodnota je teoretiCkým protejskem vazeneho aritmetiCkeho prumeru z definiCe 3.20.)
9.8. Příklad
Níahodnía veliňCina X udíavía poňCet ok pňri hodu kostkou. VýpoňCtňete jejíí stňredníí hodnotu.
Řešení:
n (x)
I
I pro x = 1, 2,..., 6 0 jinak,
6 1 7
E (X) = V xtt(x) = -(1 + 2 + 3 + 4 + 5 + 6) = - = 3,5.
x=1
100
9.9. Věta
a) Skalární případ:
• Necht' X je diskrétní náhodná veličina s pravděpodobnostní funkcí n(x) a Y = g(X) je transformovana nahodna veličina. Pak
pokud suma vpravo absolútne konverguje. • Necht' X je spojita nahodna veličina s hustotou pravdepodobnosti y?(x) a Y = g(X) je transformovana nahodna veličina. Pak
E (Y)
oc
ľ
J
g(x)t/?(x) dx.
pokud integral vpravo absolutne konverguje. b) Vektorový prípad:
• Necht' (Xi,X2) je diskretní náhodná vektor se simultánní pravde-podobnostní funkcí n(x1;x2) a Y = g(X1;X2) je transformovaná nahodna velicina. Pak
do oc
E (Y) = Y Y g(x1.x2)n(x1 .x2);
xi =—oc X2=—oc
pokud suma vpravo absolutne konverguje.
Necht' (X1. X2) je spojitáý náahodnýá vektor se simultáannáí hustotou pravdepodobnosti ^(x1 ,x2) a Y = g(X1;X2) je transformovaná nahodna velicina. Pak
E(Y)
oo oc
//
g(x1; x2)^(x1; x2) dx1dx2.
pokud integrál vpravo absolutně konverguje. 9.10. Příklad
Necht' X ~ £x(A), Y = e-YX, kde 7 > 0 je konstanta. Vypočtěte E(Y).
Řěšění:
{
Ae Ax pro x > 0. 0 jinak.
oc
ľ
E(Y)=
e YXAe Ax dx
A
A + 7
I
9.11. Děfinicě
Rozptylem nahodne veliciný X, která ma strední hodnotu E(X), rozumíme císlo D(X) = E([X — E(X)]2), pokud strední hodnota vpravo existuje. Císlo
101
9. Číselné charakteristiky náhodných veličin
\JD(X) se nazývá směrodatná odchylka. Transformovaná náhodná veličina se nazývá standardizovaná náhodná veličina.
Z vety 9.9 (a) plyne, ze v diskrétním případě je rozptyl dán vzorcem
I
D(X) ^^[x - E (X )]2n(x)
x=—oc
a ve spojitem případe vzorcem
oc
D(X) = j [x - E (X )]2^(x) dx
x=—o
(pokud suma ci integral vpravo absolútne konvergují).
(Rozptyl je číslo, ktere charakterizuje promenlivost realizací náhodne veličiny kolem její strední hodnoty s prihlednutím k jejich pravdepodobnostem. Je teoretickím protejskem vázeneho rozptylu zavedeneho v definici 3.20.)
9.12. Příklad
Nahodná velicina X udavá pocet ok pri hodu kostkou. Vypoctete její rozptyl.
Řešení:
n (x)
D(X)
!
pro x = 1, 2,..., 6, jinak,
6
H
x=l
(x - 3,5)2
1
35 12
E(X) = 3,5 (viz pr. 9.8),
2,92.
9.13. Veta
Uved'me strední hodnoty a rozptyly vybranách typu diskretních a spojitách rozlo zeníí.
a) X ~ Dg(ii) E (X) = ^, D (X) = 0,
b) X ~ A(v) E (X) = v, D (X) = v(1 - v),
c) X ~ Bi(n, v) E(X) = nv, D (X) = nv(1 - v),
l-v
D(X)
l-v
d) X ~ Ge{v) E{X)
e) X~Hg{N,M,n) E(X) = f a, D(X) = ^(1
f) X ~ Rd(G) E{X) = ^, D{X) =
g) X ~ Po(A) E(X) = A, D (X) = A2,
h) X ~ Rs(a,b) E (X) = ^, D(X) = ^=§^
M \ N—n N > N-l ■
i) X ~ Ex(X) E(X) = {, D (X)
A2 :
102
0
6
j) X ~ N (n, a2) E(X) = n, D(X) = a2, k) X ~ x2(n) E (X) = n, D (X) = 2n,
l) X ~ t(n) =/- E(X) = 0 pro n > 2, pro n =1 E (X) neexistuje, D(X) = pro n > 3, pro n = 1, 2 -D(X) neexistuje,
m) X ~ F(m,n2) B(X) = ^ pro n2 > 3, pro n2 = 1,2 E(X)
neexistuje, D (X) = ^ľľ^^'-i) Pro 712 - 5> Pro ™2 = 1, 2, 3, 4 D (X) neexistuje.
Venujme se nyní dvema nahodnym velicinam. Budou nís zajímat charakteristiky jejich spolecne variability a síly tesnosti linearního vztahu mezi nimi.
Jako motivace pro zavedení techto charakteristik nam poslouzí empiricka ko-variance si2 a empiricky koeficient korelace ri2. Empiricka kovariance si2 byla definovana jako aritmetickí prumer soucinu centrovaných hodnot a empiricky koeficient korelace ri2 jako aritmetickí prumer soucinu standar-dizovanych hodnot. Lze tedy ocekavat, ze teoreticka kovariance C(Xi,X2) bude strední hodnotou soucinu centrovaních hodnot a teoretickí rozptyl R(X1,X2) bude strední hodnotou soucinu standardizovaných velicin.
Podrobne se seznamíme s radou vlastností vsech víse uvedenych císelních charakteristik a vyuzijeme jich pri resení nekolika príkladu.
Pokud nezníame rozlo zeníí pravd epodobnosti níahodníe veli ciny, ale jenom jejíí strední hodnotu a rozptyl, pak muzeme pomocí tzv. Cebysevovy nerovnosti aspon odhadnout pravd epodobnost, ze tato níahodnaí veli cina se od svíe st red-ní hodnoty odchílí o více nez t-nísobek sve smerodatne odchylky.
V zaveru kapitoly se soustredíme na vlastnosti strední hodnoty a rozptylu níahodníe veli ciny s normíalníím rozlo zeníím.
9.14. Definice
Kovariancí nahodnych velicin X1,X2, ktere mají strední hodnoty E(X1), E(X2), rozumííme cííslo
C (Xi,X2) = E ([Xi — E(Xi)][X2 — E (X2)])
(pokud strední hodnoty vpravo existují). Z vety 9.9 (b) plyne, ze v diskrétním p ríípad e je kovariance díana vzorcem
00 oc
C(Xi,X2)= [xi — E(Xi)][x2 — E(X2)]n(xi,^2)
Xl = — 00 X2 =—oc
a ve spojitíem p ríípad e vzorcem
00 oc
C(Xi ,X2)^^ J [Xi — E(Xi)][x2 — E(X2)]^(Xi,X2) dxidx2 —o —o
(pokud dvojnía suma ci dvojníy integraíl vpravo absolutn e konvergujíí).
I
103
9. Číselné charakteristiky náhodných veličin
(Kovariance je číslo, které charakterizuje proměnlivost realizací náhodných veličin X^X2 kolem jejich stredních hodnot s prihlednutím k jejich prav-depodobnostem. Je-li kovariance kladna (záporna), pak to svedcá o existenci jisteho stupne príme (neprime) linearní závislosti mezi realizacemi nahodných velicin Xi,X2. Je-li kovariance nulová, pak ríkáme, ze nahodne veliciný Xi, X2 jsou nekorelovane a znamená to, ze mezi jejich realizacemi nená zádný linearní vztah. Pozor - z nekorelovanosti nevyplýva stochasticka nezávislost, zatáímco ze stochastickáe nezáavislosti plýne nekorelovanost. Kovariance je teoretickým protejskem vázene kovariance z definice 3.20.)
9.15. Příklad
Diskretní nahodná vektor (X1, X2) ma simultanní pravdepodobnostní funkci s hodnotami: n(0,-1) = c, n(0, 0) = n(0,1) = -1) = n(2,-1) = 0, 0) = n(0,1) = n(2,1) = 2c, n(2, 0) = 3c, n(x1,x2) = 0 jinak. Urcete konstantu c a výpoctete C(X1,X2).
Řešení:
Hodnotý simultanní pravdepodobnostní funkce a obou marginalních pravde-podobnostních funkcí usporadáme do kontingencní tabulký.
x2 vri(xi)
-1 0 1
0 c 0 0 c
X\ 1 0 2c 2c 4c
2 0 3c 2c 5c
7T2(X2) c 5c 4c 1
Z normovanosti pravděpodobnostní funkce diskrétního náhodného vektoru (viz věta 7.8, vektorový prípad) dostáváme 10c = 1, tedy c = 0,1.
I
E(Xi) = xini(xi) = 0 • 0,1 + 1 • 0,4 + 2 • 0,5 = 1,4
xi=0 i
E(X2) = Y. X2n2(x2) = -1 • 0,1 + 0 • 0,5 + 1 • 0,4 = 0,3
X2 =— i
2i
C(Xi,X2) = Y Yl [xi - E(Xi)][x2 - E(X2)]n(xi,X2) =
xi=0 X2=— i
= (0 - 1,4) • (-1 - 0,3) • 0,1 + • • • + (2 - 1,4) • (1 - 0,3) • 0,2 = 0,18.
2
9.16. Definice
Koeficientem korelace nahodných velicin Xi, X2 rozumáme cáslo
R{X1,X2) = { V. VD(xi) ^d(x2)
0 jinak.
104
(Koeficient korelace je číslo, které charakterizuje těsnost lineární závislosti realizací náhodnách veličin X2. Cím blizsí je 1, tím tesnejsí je prímá lineárni zavislost, cím blizsí je -1, tím tesnejsí je nepríma lineárni zavislost.)
9.17. Veta
Necht b, bi, b2 jsou realna císla, X, Xi,..., X„, Yi,..., Ym jsou
nahodne veliciny definovane na temz pravdepodobnostním prostoru. V na-sledujících vzorcích vzdy z existence císelných charakteristik na prave strane vyplýva existence vírazu na leve strane.
Vlastnosti strední hodnoty
a) E (a) = a,
b) E (a + bX) = a + bE(X),
c) E(X - E(X))
0,
d) E (£X) = £ E(Xi),
\i=i / i=i
e) Jsou-li nahodne veliciny Xi.. , Xn stochasticky nezívisle, pak platí
nn
E Xi = E(Xi).
i=i i=i Vlastnosti kovariance
a) C(ai,X2) = C(Xi,a2) = C(ai, = 0,
b) C (ai + bi Xi, a2 + b2X2) = bi (Xi, X2),
c) C (X, X) = D (X),
d) C(Xi,X2) = C(X2,Xi),
e) C (Xi,X2) = E (Xi X2) - E (Xi)E (X2),
(n m \
f) c EXí,ey- ^EC(Xi,Yj).
Vlastnosti rozptylu
a) D(a) = 0,
b) D(a + bX) = b2 D (X),
c) D (X) = E (X2) - [E (X )]2,
I
(Ž Xi)
n n_i n
d) Dl^Xi) = E D(Xi) + 2 Y, E C (Xi, X j) (Jsou-li níhodne veli-
i=i i=i j=i+i
ciny Xi,... , Xn nekorelovane, pak D
nn
Xi =
i= i=
D(Xi).)
Vlastnosti koeicientu korelace
a) R(ai,X2) = R(Xi,a2) = R(ai,a2) = 0,
b) R(ai + bi Xi, a2 + b2X2) = sgn(bib2 )R(Xi, X2),
c) R(X, X) = 1 pro D (X) = 0, R(X, X) = 0 jinak,
d) R(Xi,X2) = R(X2,Xi)
nm
105
9. Číselné charakteristiky náhodných veličin
e) R(X 1,X2)
E
C(XltX2)
g^y) pro v^XT) v^X^ > 0;
0 jinak,
f) |R(X1,X2)| < 1a rovnost nastane tehdy a jen tehdy, kdyz mezi veličinami Xi,X2 existuje s pravdepodobností 1 úplná lineárni zavislost, tj. existují konstanty a1,a2 tak, že P(X2 = a1 + a2X1) = 1. (Uvedená nerovnost se nazáva Cauchyova-Schwarzova-Bunakovskeho nerovnost.)
9.18. Příklad
Vypočtete koeficient korelace nahodních veličin X1,X2 z príkladu 9.15.
Řešení:
V príkladu 9.15 byla vypočtena kovariance C(X1,X2) vypočítat smerodatne odchylky veličin X1 ,X2.
0,18. Stačí tedy
D(X1)= - E(X1)]2n1
xi=0
= (0 - 1,4)2 • 0,1 + (1 - 1,4)2 • 0,4 + (2 - 1,4)2 • 0,5 = 0,44 2
D(X2) = J][x2 - E(X2)]2n1 (x2) =
X2=0
(-1 - 0,3)2 • 0,1 + (0 - 0,3)2 • 0,5 + (1 - 0,3)2 • 0,4 = 0,41
R(X1,X2)
C (X1 ,X2)
0,18
0,42.
I
9.19. Příklad
Náhodná veličina X má strední hodnotu // a rozptyl a2. Vypočtete strední hodnotu a rozptyl centrovane náhodne veličiny Y = X - // a stredná hodnotu a rozptyl standardizovane nahodne veličiny U
X-ji
Řešení:
E(Y) E(U)
E(X
D (X
E
D
(^) (^)
E (X) - E(^) D (X ) = a2,
1
// - 0 = 0,
= -E{X a
= - • 0 a
0,
1
V2
D (X - 0)
1
V2
a2 = 1.
9.20. Příklad
Nahodne veličiny X, Y jsou nahodne chyby, které vznikajá na vstupnám zarázená Majá stredná hodnoty E(X) = -2, E (Y) = 4 a rozptyly D (X) = 4,
106
D(Y) = 9. Koeficient korelace těchto chyb je R(X,Y) = —0,5. Chyba na výstupu zařízení souvisí s chybami na vstupu funkční závislostí Z = 3X2 — 2XY + Y2 — 3. Najdete střední hodnotu chyby na výstupu.
Řešení:
E (Z) = E(3X2 — 2XY + Y2 — 3) = 3E(X2) — 2E(XY) + E (Y2) — E(3) =
= 3 {D(X) + [E(X )]2} — 2 [C (X, Y) + E(X )E(Y)] + D (Y) + [E(Y )]2 — 3 = = 3[D(X) + [E(X)]2] - 2[R(X, Y)y/D(X)y/D(Y) + E(X)E(Y)] + D(Y)+ + [E(Y)]2 — 3 = 3(4 + 4) — 2[—0,5 • 2 • 3 + (—2) • 4] + 9 + 16 — 3 =
= 24 + 22 + 25 — 3 = 68.
9.21. Veta
Necht' nýhodný velicina X mý střední hodnotu // a rozptyl a2. Pak platí Cebysevova nerovnost
Ve > 0 : P(|X — ^ > e) <
<ŕ_
e2'
Oznaďme-li e = ta, pak pro
Vt > 0 : P(|X — ^| > ta) <
t2
(Vyznam Cebysevovy nerovnosti spocíva v tom, ze pokud nezname rozlození nýhodne veliciny, ale zname její strední hodnotu a rozptyl, pak muzeme odhadnout pravdepodobnost, s jakou se od sve strední hodnoty odchýlí o více nez t-nasobek sve smerodatne odchylky.)
✓ / / / / / / \ \ n 1 ~ -i
\ E(X) — VD(X) | 1 > E(X) + VD(X)
I
1
9.22. Príklad
Necht' E (X) = D (X) = a2.
a) Odhadnete P(|X — // > 3a).
b) Jestlize X ~ N(//, a2), vypoctete P(|X — ^| > 3a). Řešení:
ad a) P{\X - n\ > 3a) < ^ = | = 0,T.
(Tento vísledek je znam jako pravidlo 3a a ríkí, ze nejvíse 11,1% realizací
107
9. (Číselné charakteristiky náhodných veličin
níhodne veliCiný lezí vne intervalu — 3a, / + 3a).)
= i—p
-3 < ^ < 3j
adb) P{\X-fi\ > 3a) = l-P(-3a < X-/i < 3a) = 1 — $(3) + $(—3) = 2[1 — $(3)] = 2(1 — 0,99865) = 0,0027. (Ma-li níhodna veliCina normalní rozdelení, pak pouze 0,27% realizaCí lezí vne intervalu — 3a,/ + 3a).)
9.23. Věta
a) Jestliže X ~ N(u, a2), pak E(X) = D(X) = a2.
b) Jestliže X ~ N(u, a2) a Y = a + 6X, pak Y ~ N(a + 6^, 62a2).
c) Jestliže Xi,..., Xn jsou stochasticky nežavisie náhodne veličiny a necht
n
Xi ~ N(ui,a2), i = Y
Y ~ N
YjXí, pak
i=1
i=1 i=1 /
I
9.24. Příklad
Necht' X1, X2 jsou stochasticky nezávisle nahodne veliciny, Xi ~ N(0, l), i = l, 2. Zjistete, jake rozložení má transformovana náhodna velicina
Y = 3 + X1 — 2X2, urcete jeho parametry a najdete dolní kvartil nahodne veliciny Y.
Rěšění:
Y ~ N(E(Y),D(Y)), prlcemž
E(Y)
E (3 + Xi — 2X2) = 3 + E (Xi) — 2E(X2) = D(3 + Xi — 2X2) = D(Xi) + (—2)2D(X2)
3 + 0 — 2 • 0 = 3, = 1 + 4 • 1 = 5,
tedy Y ~ X(3,5). Nyní vypočítáme dolní kvartil. Využijeme toho, že U = ^ ~ N(0,1), tedy K0^{Y) = 3 + ^0,25 = 3-^-0,67449 = 1,4918.
Shrnutí kapitoly
Pri zavadení CíselnýCh Charakteristik nahodnýCh veliCin nís motivují Císelne Charakteristiký znaku, jak jsme je poznali ve 3. kapitole.
Jako Charakteristika polohý CííselnýíCh realizaCíí spojitíe níahodníe veli Ciný aspon ordinalního týpu slouzí a-kvantil a jeho spetialní prípadý: median, dolní a horní kvartil. Variabilitu Charakterizujeme kvartilovou odchylkou. Vý-
poCet kvantilu není prílis jednoduCha zalezitost, proto jsou kvantilý nekolika týpu rozlození tabelovaný nebo je lze získat pomotí" speCialního statistiCkeho software.
Pro níahodníe veliňCiný intervalovíeho a pomňerovíeho týpu pouňzíívíame jako Charakteristiku polohý střední hodnotu - teoretiCkí protejsek aritmetiCkeho prumeru. PomoCí strední hodnotý pak definujeme dalsí Císelne Charaketris-tiký: rozptyl a jeho druhou odmoCninu - smerodatnou odchylku, kova-řianci a koeficient korelace.
108
Resená konkrétních príkladu velmi usnadnují vzorce, ktere popisují vlastnosti číselných charakteristik.
Kontrolní otázky a úkoly
i
5
6
Pomocí statistickách tabulek vypoctete nasledující kvantily: «0,95, «o,10;
Xo,975
(10)
, Xo,025
(9), to,9o(8), to,05(6), Fo,975(5, 7), Fo,055(8 , 6).
2 Necht' X ~ N(-1, 4). Najdete Ko,o25(X).
3 Necht' X1,X2 jsou stochasticky nezávisle nahodne veliciny takove, ze Xi ~ N(2, 4), X2 ~ N(-1, 9). Vypoctete 99% kvantil transformovane nahodne veliciny Y = 2X1 - 3X2 + 5.
4 V zasilce 15 výrobku je 5 nekvalitních. Náhodná velicina X udáva pocet nekvalitních várobku mezi ctyrmi nahodne vybranámi vyrobky. Vypoctete její strední hodnotu a rozptyl, jestlize vyber byl proveden a) s vracením, b) bez vracení. (Navod: v bode (a) má X binomicke rozlození, v bode (b) hypergeometricke.)
Sledovaná zeleznicní trasa vykazuje velke nerovnosti, takze zatízení jed-notlive vozove nápravy nahodne kolísá, teoreticky spojitym zpusobem. Prakticky jsou známy jen castecne informace, takze uvazujeme o diskrétní nahodne velicine X (nahodne zatízení v tunach) s pravdepo-dobnostní funkcí n(x) = 0,15 pro x = 6, n (x) = 0,65 pro x = 30, n (x) = 0,2 pro x = 70, n (x) = 0 jinak. Pri kalkulaci nakladu se ekonom zajímá o strední opotrebení náprav dane vzorcem Y = 1,15X2. Vypoctete strední hodnotu opotrebení.
Pocet ruznych druhu zbozí, ktere zákazník nakoupí pri jedne navsteve obchodu, je nahodna velicina X. Dlouhodobám sledovaním bylo zjis-teno, ze X nabyva hodnot 0,1, 2, 3, 4 s pravdepodobnostmi 0,25, 0,55,
0,11, 0,07 a 0,02.
a) Najdete distribucní funkci náhodne veliciny X a nakreslete její graf.
b) Vypoctete strední hodnotu nahodne veliciny X.
c) Vypoctete rozptyl nahodne veliciny X. Strelec strílí 3x nezavisle na sobe do terce. Pri kazdem vystrelu se trefí s pravděpodobností |. Za zásah získá 2 body, jinak ztratí 2 body. Vypoctete strední hodnotu a rozptyl poctu získanách bodu.
Uvazme rodinu se tremi detmi. Predpokladame, ze pravdepodobnost narození chlapce i dívky je stejna. Náhodná velicina X udava pocet dívek v teto rodine (ma binomicke rozlození) , transformovana náhodna velicina Y = - 100X2 + 300X + 500 udavá rocní náklady (v dolarech) na osacení detí. Vypoctete strední hodnotu nahodne veliciny Y.
Nahodna velicina X udava príjem manzela (v tisících dolaru) a nahodna velicina Y udava príjem manzelky (v tisících dolaru). Je známa si-multanní pravdepodobnostní funkce n(x,y) diskretního nahodneho vektoru (X, Y): n(10,10) = 0,2, n(10, 20) = 0,04, n(10, 30) = 0,01, n(10,40) = 0, n(20,10) = 0,1, n(20,20) = 0,36, n(20,30) = 0,09, n(20,40) = 0, n(30,10) = 0, n(30,20) = 0,05, n(30,30) = 0,1,
7
109
9. Číselné charakteristiky náhodných veličin
n(30, 40) = 0, n(40,10) = 0, n(40, 20) = 0, n(40, 30) = 0, n(40, 40) = 0,05, n(x,y) = 0 jinak.
a) Výpoctete korelacní koeficient náhodných velicin X, Y.
b) Výpo ct ete st rednáí hodnotu a sm erodatnou odchýlku náahodnáe veli-ciný Z = 0,1X + 0,2Y, ktera výjadruje príspevek obou manželu na duchod. (Nahodna veli cina Z výjadruje, že príspevek na duchod ciní 10% manželova platu a 20% manželcina platu.)
10 Náhodne veli ciný X1 ,X2 mají kovarianci 12. Výpo ct ete kovarianci náhodných veli cin Y1 = —8 + 11X1, Y2 = 6 — 4X2.
11 Náahodnáa veli cina X udáaváa výá sku v metrech a náahodnáa veli cina Y udáva hmotnost v gramech. Jak se zmení kovariance a koeficient korelace, jestli ž e vý s ku výjadríme v cm a hmotnost v kg?
12 Nahodna veli cina X ma st rední hodnotu p a smerodatnou odchýlku a. Kolik procent realižací teto nahodne veli ciný se bude nachažet v intervalu (p — 2a, p + 2a)?
13 Použ ijte Cebý s evovu nerovnost k odhadu pravde podobnosti, ž e p ri 600 hodech kostkou padne sestka aspon 75x a nejvýse 125x.
I
110
10
Zákon velkých čísel a centrální limitní veta
I
10. Zákon velkých čísel a centrální limitní veta
Cíl kapitoly
Po prostudovaní teto kapitoly budete umet:
■ odhadnout pravdepodobnost, s níz se nahodna velicina realizuje v urcite vzdílenosti od sve strední hodnoty
■ odhadnout pravdepodobnost uspechu v posloupnosti opakovanych ne-zavislích pokusu relativní cetností tohoto uspechu
■ aproximovat distribucní funkci binomickeho rozlození distribucní funkcí standardizovaneho normalního rozlození
(Časová zátež
Na prostudovaní teto kapitoly budete potrebovat asi 5 hodin studia.
V 5. kapitole, konkretne v definici 5.6, jsme se seznamili s empirickym zako-nem velkích císel, kterí tvrdil, ze pri mnohonasobnem nezívislem opakovaní tehoz níhodneho pokusu se relativní cetnost jevu blízzí pravdepodobnosti tohoto jevu. Jak uvidíme, je empirickí zakon velkích císel specialním prípadem obecnejsího zakona velkych císel. Tento dusledek uvedeme jako Bernoulliovu vetu.
I
10.1. Motivace
Zakon velkích císel vyjadruje skutecnost, ze s rostoucím poctem nezávislych opakovíaníí níahodníeho pokusu se empirickíe charakteristiky, kteríe popisujíí vísledky techto pokusu, blízí teoretickym charakteristikím, napr. relativní cetnost uspechu se blízí pravdepodobnosti íspechu, cetnostní funkce se blízí pravdepodobnostní funkci, hustota cetnosti se blízzí hustote pravdepodobnosti apod.
Centralní limitní veta tvrdí, ze za jistích podmínek ma soucet nezývislych nahodních velicin s tymz rozlozením priblizne normalní rozlození. Normílní rozlození je tedy rozlozením limitním, k nemuz se blízí vsechna rozlození, proto hraje velmi dulezitou roli v poctu pravdepodobnosti a matematicke statistice.
10.2. Veta
Necht' {Xra}°0=i je posloupnost stochasticky nezavislych nahodních velicin, ktere mají strední hodnoty n a rozptyly a2. Pak pro posloupnost aritme-
n
tických průměrů {- E Xi\°ll platí:
Ve > 0 : P
1n n
n
< e > 1
ne2
neboli
Ve > 0 : lim P
n
1n n
n
> e = 0.
112
(Uvedená veta se nazává zákon velkách císel nebo tez Cebýsevova veta. Její tvrzení ríká, ze posloupnost aritmetickách prumeru konverguje podle pravdepodobnosti ke strední hodnote Tedý pri dostatecne velkem poctu pokusu lze strední hodnotu odhadnout prumerem vásledku jednotlivých pokusu.)
10.3. Důsledek
Necht' náhodná velicina Yn udavá pocet uspechu v posloupnosti n opakovaných nezavislých pokusu, pricemz v kazdem pokusu nastava uspech s pravdepodobností v. (Podle definice 8.2 (c) Yn ~ Bi(n, v)). Pak pro posloupnost relativních četností { — }™=1 platí:
Ve > 0 : P
Y
ů
)
< e > 1
ů(1 - ů)
ne2
neboli
Ve > 0 : lim P
n
Y
n
n
ů
>e
>1
0.
4ne2
(Tento dusledek Cebýsevový vetý se nazáva Bernoulliova veta. Výjadruje skute cnost, ze posloupnost relativnáích cetnostáí konverguje podle pravd epo-dobnosti k pravd epodobnosti uásp echu v. Tedý p ri dostate cn e velkáem po ctu pokusu lze pravdepodobnost áspechu odhadnout relativní cetností uspechu.)
10.4. Příklad
P ri výástupnáí kontrole býlo zji st eno, ze mezi 3000 kontrolovanáými výárobký je 12 zmetku. Jaka je pravdepodobnost, ze relativní cetnost váskýtu zmetku se od pravdepodobnosti váskýtu zmetku nelisí o více nez 0, 01?
Řešení:
Y3000 - pocet zmetku mezi kontrolovanými várobký, Y3000 ~ Bi(3000,v),
áavaáme:
v ř« g^p. Podle Bernoulliovy věty dostává
e>0:P
Y
ů
< e > 1
ů(1 - ů)
>1
1
ne2
4ne2
V našem případě e = 0,01, n = 3000, v ř« tedy
P
Y
3000
3000
ů
< 0,01 > 1
)
12 2988 3000 3000
3000 • 0,0001
0,872.
I
Jiz nekolikrat jsme se zmínili o tom, ze normální rozlození je vubec nejdule-zitejsí týp rozlození. Centrální limitní veta nám dá odpoved' na otazku, proc tomu tak je.
P ri praktickách vápo ctech se c asto pouz ívá dusledek centralní limitní vetý, a to Moivreova-Laplaceova veta, ktera za urcitých podmínek umoz ní nahradit slo zitáý výápo cet distribu cnáí funkce binomickáeho rozlo zenáí jednoduchýám
1
113
10. Zákon velkých čísel a centrální limitní věta
hledáním v tabulkách hodnot distribuční funkce standardizovaného normálního rozložení. Pokud vSak máme k dispozici statistický software, dáme přednost presnemu vápočtu pred aproximativním.
10.5. Veta
Necht' {Xra}^c=1 je posloupnost stochastický nezávislách nahodnách veličin, ktere majá vsechný totež rozloZená se stredm hodnotou // a rozptylem a2. Pak pro posloupnost standardizovanách souctu
Un
EX,
i=1
n
1, 2,...
platí: Vx G R : lim P(Un < x) = $(x), kde $(x) je distribucní funkce rozlození N(0,1).
(Lindebergova-Levyova centralní limitní veta ríka, ze pro dostatecne velkí n (praktickz stací n > 30) lze rozlození souctu stochasticky nezavislych a stejne rozlozenych níhodních velicin aproximovat normílním rozlozením N(nf, na2).)
I
10.6. Důsledek
Necht' (Yn}°O=1 je posloupnost stochasticky nezavislích níhodnych velicin, Yn ~ Bi(n, v), n = 1, 2,... Pak platí:
Vy G R : lim P(Yn < y) = lim P
(
Yn-rvd
<
y — ra9
n /1
^nů{l - ů) ^nů{l - ů)
)■
(y — nů \ y/nů(l-ů))
kde $(x) je distribucní funkce rozlození N(0,1).
(Moivreova-Laplaceova veta tvrdí, ze za urcitých podmínek lze binomicke rozlozená aproximovat standardizovanám normalnám rozlozenám. Aproximace se považuje za vyhovující, když jsou splněny podmínky ^j-j- < v < nv(l - v) > 9.)
n+1
10.7. Příklad
V urcite skupine zamestnancu je 10% s príjmem, kterí prekracuje celostatní prumer. Kolik zamestnancu z teto skupiny je treba vybrat, aby s pravdepodobností aspon 0,95 bylo mezi nimi 8% az 12% zamestnancu s nadprumernym
príjmem? Řešení:
X - pocet zamestnancu s nadprumerním príjmem, Yn
Bi(n;0,1), E(X)
114
0,1n, D (X) = 0,09n,
X
0,95 < P ( 0,08 < — < 0,12 ) = P(0,08n °>975
tedy ^ > ^0,975 = 1,96 =>• > 29,4 ^ n> 865. Pro splnění podmínek je zapotrebí vybrat aspon 865 zamestnanců.
Shrnutí kapitoly
V teto kapitole jsme ukazali, ze jiz dríve vysloveny empiricky zíkon velkích císel je specialním prípadem obecnejsího zakona velkých čísel, ktery popisuje pravdepodobnostní chovaní posloupností aritmetickych prumeru stochasticky nezavislych nahodních velicin s touz strední hodnotou a rozptylem. Dusledek tohoto zakona (zvaneho tez CebySevova veta) jsme uvedli jako Bernoulliovu vetu.
Seznímili jsme se tez s Lindebergovou-Levyovou centrýlní vetou, ktera tvrdí, ze za urcitích podmínek lze rozlození souctu nahodních velicin s ja-kymkoliv rozlozením aproximovat normalním rozlozením. Toto tvrzení tedy vysvetluje dulezitost normílního rozlození. Historicky starsí nez tato veta je její dusledek uvídení jako Moivreova-Laplaceova veta, ktera umoznuje aproximovat binomicke rozlození normalním rozlozením.
Kontrolní otazky a Úkoly
1 Pravdepodobnost, ze vírobek ma 1. jakost, je v = 0,9. Kolik vírobku je treba zkontrolovat, aby s pravdepodobností aspoň 0,99 bylo zaruceno, ze rozdíl relativní cetnosti poctu vírobku 1. jakosti a pravdepodobnosti v = 0,9 byl v absolutní hodnote mensí nez 0,03? K vypoctu pouzijte jak Bernoulliovu vetu, tak Moivreovu-Laplaceovu vetu a vysledky porovnejte.
2 Pravdepodobnost narození chlapce je 0,515. Jaka je pravdepodobnost, ňze mezi 10 000 novorozenci bude
a) více devcat nez chlapcu,
b) chlapcu od 5 000 do 5 300,
c) relativní cetnost chlapcu v mezích od 0,515 do 0,517?
3 Pravdepodobnost zasahu terce jedním vystrelem je 0,4. Kolikrat je tňreba vystňrelit, aby absolutní hodnota odchylky relativní ňcetnosti zaísa-hni od uvedene pravdepodobnosti byla mensí nez 0,02 s pravdepodobností asponň 0,95?
I
115
10. Zakon velkých císel a centralní limitní veta
116
11!
Základní pojmy matematické statistiky
I
11. Zakladní pojmy matematicko statistiky
Číl kapitoly
Po prostudovaní teto kapitolý budete umet:
■ definovat nahodne váberý ž jednorožmerneho i vícerožmerneho rožlo-žení pravdepodobností
■ stanovit duležite statistiký pro nahodný váber ž jednorožmerneho a dvourožmerneho rožložení pravdepodobností
■ popsat vlastnosti techto statistik
■ výužát vlastnostá statistik odvoženách ž nahodneho výberu ž normalná-ho rožložená pri vápoctu konkretnách pravdepodobnosti'
Časova zatež
Pro žvládnutá teto kapitolý budete potrebovat asi 7 hodin studia.
Nejprve žavedeme pojem nahodneho výberu a výsvetláme jeho souvislost s datováni souborem. Musáme si vsak uvedomit nasledujká skutecnost: datový soubor obsahuje konstantná hodnotý žnaku, žatámco složkami nahodneho váberu jsou náhodne veliciný spojene s nejakám náhodným pokusem.
I
11.1. Děfinicě
a) Necht' X1 , ...,Xn jsou stochastický nežavisle nahodne veliciný, ktere majá vsechný stejne rožložená L(v). Řekneme, že X1,..., Xn je náhodný vyber rozsahu n ž rožložená L(v). (Cáselne realižace x1;..., xn nahodneho váberu X1;..., Xn usporadane do sloupcoveho vektoru predstavují datový soubor žavedená v popisne statistice v definici 1.9)
b) Necht' (X1; Y1),..., (Xn, Yn) jsou stochastický nežávisle dvourožmerne nahodne vektorý, ktere mají vsechný stejne dvourožmerne rožložení L2 (v). Řekneme, že (X1 ,Y1),..., (Xn ,Yn) je dvourozměrný náhodný) vyber rozsahu n ž dvourožmerneho rožložení L2(v). (Číselne realižace (x1, y/1),..., (xn, yn) nahodneho výberu (X1, Y1),..., (Xn, Yn) usporá-dane do matice týpu 2 x n predstavují dvourožmerný datová soubor žavedenýá v popisnáe statistice.)
(Analogický lže definovat p-rožmerný nahodná váber rožsahu n ž p-rožmer-neho rožložení Lp(v).)
V matematicke statistice velmi casto pracujeme s transformacemi nahodneho váberu. Temto transformovaným nahodným velicinam ríkame statistiký. Zavedeme nekolik duležitách statistik a upožorníme na jejich souvislost s cí-selnými charakteristikami žnaku, ktere jsme požnali ve 3. kapitole v popisne statistice.
Protože statistiký jsou nahodnámi velicinami, lže pocítat jejich strední hodnotu a rožptýl. Ukažeme, jak se chovaj á týto cáselne charakteristiký nekterách statistik.
118
11.2. Definice
Libovolná funkce T = T(Xi,... , Xn) náhodného výběru Xi,... ,Xn (resp. T = T(Xi,Yi,..., Xn, Yn) náhodného výběru (Xi,Yi),..., (Xn, Yn)) se nazývá (výběrová) statistika.
Statistika
se nazýva výběrový průměr,
i n
M= - Ví;
i=1
i n
s2 = ^rUx< - M>2
i=1
výběrový rozptyl,
s = ^fš2
výběrová směrodatná odchýlka,
n
Sn = ——r V(X - MJiYi - M2)
n — ^—'
ni
i=l
výběrová kovariance (přitom M\ = ^ Y Xi, M2 = \ Y Yí) a
n i=l n i=l
1 V- Xj-Mi Yj-M2 ^rn r. o / n Ä12 = <( ^»=1^--Pr0lbl'^2^U;
0 jinak, se nazývá výběrový koeficient korelace.
(Číselne realizace m, s2, s, s12, r12 statistik M, S2, S, S12, R12 odpovídají číselnám charakteristikami znaků v popisne statistice zavedeným definicích 3.6, 3.10 a 3.12, ale ů rozptylů, smerodatne odchýlký, kovariance a koeficientů korelace je multiplikativní konstanta ^-j-, nikoli ^, jak tomu bylo v popisné statistice.)
11.3. Věta
a) Necht' X1,..., Xn je nahodná výber z rozlození se strední hodnotou (i a rozptylem a2. Pak E(M) = /i, D(M) = ^, E(S2) = a2, ať jsou hodnotý parametrů ^, a2 jakekoli.
b) Necht' (X1, Y1),... , (Xn,Yn) je níhodný víber z dvoůrozmerneho rozlození s kovariancí a12 a koeficientem korelace p. Pak E(S12) = a12, at' je hodnota parametrů a12 jakíkoli, avsak E(R12) je rovno p poůze priblizne (shoda je výhovůjící pro n > 30), at' je hodnota parametrů p jakakoli.
Nýní se bůdeme zabívat nahodným vaberem z normalního rozlození. Zavedeme nekolik statistik vzniklích transformací víberoveho průmerů a výbero-veho rozptýlů (jsoů to tzv. pivotove statistiký) a ůkazeme, jakým způsobem
I
119
11. Základní pojmy matematické statistiky
se tyto statistiky řídí. V příští kapitole využijeme těchto pivotovych statistik při konstrukci intervalu spolehlivosti pro parametry normálních rozložení. V teto kapitole nam uvedene vlastnosti poslouží pri vypoctu rUžnách pravdepodobností.
11.4. Věta
Nechť Xi,..., Xn je náhodný výběr z rozložení N(//, a2). Pak platí a) Výběrový průměr M a výběrový rozptyl S2 jsou stochastický nezávisle.
b) M ~N(fji,?L), tedy U
M-a
N(0,1). (Statistika U slouží ke kon-
strukci intervalu spolehlivosti pro když a2 žname.)
c) K = (n — 1)S2a2 ~ x2(n — 1). (Statistika K slouží ke konstrukci intervalu spolehlivosti pro a2, když // nežname.)
n
= (Xi-a)2
d) 1-1 2- ~ x2(n)- (Tato statistika, která nemá speciální označení,
slouží ke konstrukci intervalu spolehlivosti pro a2, když // žname.)
e) T = ~ t(n — 1). (Statistika T slouží ke konstrukci intervalu spo-
s
lehlivosti pro když a2 nežname.)
11.5. Příklad
Hmotnost jedne porce kívy považujeme ža nahodnou velicinu s normalním rožložením X ~ N(7g, 0,25 g2). Jaka je pravdepodobnost, že k príprave 28 porcí kavy postací dva 100 g balícky?
Resení:
Xi,..., X28 je níhodny víber ž N(7, 0,25). Pocítame
P
I _0v5_ — OJ^ I V y/28 y/28 J
P M <
200
~28
P (U < 1,51) = $(1,51) = 0,9345.
I
S pravdepodobností 93,45% mužeme predpokladat, že k príprave 28 porcí kívy postací dva 100 g balícky.
11.6. Příklad
Odberatel provede kontrolu stejnorodosti dodavky výrobku tak, že žmerí sledovaní rožmer u 25 nahodne vybranych vyrobku. Dodavku prijme, jestliže víberova smerodatna odchylka se bude realižovat hodnotou mensí nebo rovnou 0,2 mm. Je žnamo, že sledovany rožmer vírobku ma normalní rožložení N(50 mm, 0,2632 mm2). Jaka je pravdepodobnost prijetí dodavky?
120
Řešení:
Xi,..., X25 je náhodný výběr z N(50, 0,2632). Počítáme
P (S < 0,2) = P (S2 < 0,04) = P <
(n-l)S2 (n_
o2
1)0,04\ ?2 )
P K <
24-0,04 0,2632
o2
P (K < 13,879),
tedý číslo 13,879 je a-kvántil Pearsonova rozložení x2(24). V tabulkách kvan-tilú Pearsonová rozložení nájdeme, že a = 0,05. S pravdepodobností pouhých 5% lze očekývát, že odberátel prijme dodávku.
Prejdeme nýní ke dvemá nezávislým náhodným výberum z normálního ro-zlození. I v teto situáci nás zájímá rozlození pivotovýčh státistik vzniklých tránsformáčý výberových průmerů á výberových rozptylu.
11.7. Veta
Necht' Xii,... , Xnii je nýhodný výber z rozlozený Noj2) á Xi2,..., Xni2 je ná nem nezávislý náhodný výber rozlozený N(^2,o^^, pricemz ni > 2 á n2 > 2. Oznácme Mi, M2 výberove prumerý á S2, S| výberove rozptýlý. Pák plátý:
á) Státistiký Mi — M2 (rozdfl výberových prumeru) á
(n
S2 =
l)Sf + (n2 - 1)S22 ni + n2 — 2
(vázený prumer výberových rozptýlu) jsou stochástický nezývisle.
b) Mi — M2 ~ N
a1 i °"2
™2' ni ni
) , tedý
U
(M1-M2)-(m-H2)
N(0,1).
(Státistiká U slouzý ke konstrukci interválu spolehlivosti pro rozdfl stredných hodnot ^i — kdýz rozptýlý oj2, o2 známe.)
c) Jestliže o\ = o\ = a2, pak K = (rai+"2~2)g* ~ x2(ni+n2-2). (Statistika K slouzý ke konstrukci interválu spolehlivosti pro spolecný rozptýl o2, kdýz stredný hodnotý ^i — ^2 neznáme.)
d) Jestliže o\ = o\ = a2, pak T = (Mi-MO-Q^) _ ^ + ri2_2).
V ni ni
e) F
F(ni — 1,n2 — 1). (Státistiká F slouzý ke konstrukci inter-
ní
o (ji
valu spolehlivosti pro podii rozptylu když stredný hodnoty a2
(2
neznáýme.) 11.8. Príklad
Necht' jsou dáný dvá nezávisle náhodne výberý, prvný pochází' z rozlozem N(2; 1,5) á mý rozsáh 10, druhý pochýzí z rozlozem N(3, 4) á má rozsáh 5. Jáký je právdepodobnost, ze výberový prumer 1. výberu bude mensý nez výberový prumer 2. výberu?
I
121
11. Základní pojmy matematické statistiky
Řešení:
P (Mi < M2) = P (Mi - M2 < 0)
P
(Mi - M2)
P U <
y ni n
-2 + 3
10 5
(^1 ~ ^2) o_
MÍ 1 Mi
Til T12
P (U < 1,05) = $(1,05) = 0,85314.
S pravděpodobností 85,3% je výběrový průměr 1. výběru menší nez výběrový průměr 2. výběru.
Shrnutí kapitoly
Ustrědním pojměm matěmatickě statistiky jě pojěm náhodného výberu, a to jědnorozměrněho i vícěrozměrněho. Transformací jědnoho něbo vícě nahodných výběrů vznika nahodna věliCina zvana (výberová) štátištiká. K nějdůlězitějsím statistikam patrí výberový prUmér, výberový rozptyl, výberová šmérodátná odchýlka, výberová kovariánce, výberový koeficient koreláce.
Jělikoz statistika jě nahodný věliCina, ma smýsl poCítat jějí strědní hodnotu a rozptyl. Ukazali jsmě si vláštnošti strední hodnotý a rozptýlu výberoveho prUmeru a štrední hodnotý výberoveho rozptýlu, vý-berove kováriánce a výberoveho koeficientu koreláce.
Zabývali jsmě sě rovněz rozloZením výberových štátištik pro náhodne výberý z normálních rozlození, tzv. pivotových statistik. Jak uvidímě v dalsých kapitolých, lzě pomoci' těchto pivotových statistik konstruovat in-těrvalý spolěhlivosti pro paramětrý normýlmch rozlozěný a těstovat hýpotězý o těchto rozlozěných.
I
Kontrolní otazky a Úkoly
1 Kdý lzě posloupnost nahodných velicin Xi,..., Xn povazovat za nahodný výběr?
2 Uvěd'tě nejdůleZitejší statistiký odvozěně z nýhodněho výběru, ktěrý pochazý a) z jědnorozměrněho rozlozěný, b) z dvourozměrněho rozlozěný.
3 Jaký je vztah mezi výběrovým rozptýleni a rozptýleni v popisně statis-ticě?
4 Necht' Xi,... ,Xi0 je nahodný výběr z N(100,100). Jakě rozlození ma výběrový průměr?
5 Predpokladame. ze velký rocník na výsokě skole mý výsledký ze statistiký normalně rozlozěný kolem strední hodnotý 72 bodů se směrodatnou odchýlkou 9 bodů. Výpoctěte pravděpodobnost, ze
a) nahodně výbraný student bude mít výsledek nad 80 bodů
b) průměr výsledků nýhodně výbraných 10 studentů bude nad 80 bodů.
6 Necht' Xi,... ,X20 je nahodný výběr z N(^,a2). Najděte císla ki, k2
tak, aby platilo P(4 < h) = 0,05 a P(^ > k2) = 0,05.
122
12!
Bodové a intervalové odhady parametrů a parametrických funkcí
I
12. Bodové a intervalové odhady parametrů a parametrických funkcí
Cíl kapitoly
Po prostudovaní teto kapitoly budete umet:
■ posoudit nestrannost a asymptotickou nestrannost bodovích odhadu parametricke funkce a pomocí rozptylu ohodnotit jejich kvalitu sestrojit intervaly spolehlivosti pro parametry jednoho a dvou normíal-níích rozloňzeníí
stanovit rozsah níahodníeho vyíbňeru tak, aby ňsííňrka intervalu spolehlivosti nepňresíahla daníe ňcííslo
Casova zatez
Pro zvlíadnutíí tíeto kapitoly budete potňrebovat asi 8 hodin studia.
Jak jsme poznali v pňredeňslíe kapitole, níahodnyí víybňer je posloupnost stochasticky nezíavislyích níahodnyích veliňcin se stejníym rozloňzeníím. Kaňzdíe rozloňzeníí zívisí na nejakem parametru nebo i více parametrech. Napr. alternativní rozlození zívisí na parametru v, exponencialní rozlození na parametru A. normalní rozlození na parametrech // a a2 apod. Tyto parametry nezname, zníme jenom nahodny víber. Ukazeme si, jak lze na zaklade znalosti nahod-níeho víybňeru odhadnout nezníamíy parametr ňci jeho funkci, tzv. parametrickou funkci.
Je-li odhadem statistika, hovoňríme o bodovíem odhadu parametrickíe funkce. Existují ruzne typy bodovych odhadu, nas budou zajímat odhady nestranne, asymptoticky nestranníe a konzistentní.
Je-li odhadem interval, jehoňz meze jsou statistiky a kteryí s dostateňcnňe velkou pravdňepodobností pokríyvía nezníamou hodnotu parametrickíe funkce, jednía se o interval spolehlivosti.
12.1. Motivace
Vychazíme z nahodneho víberu Xi,..., Xn z rozlození L(v), ktere zívisí na parametru v. Mnoňzinu vňsech pňrípustníych hodnot tohoto parametru oznaňcíme S. Parametr v nezname a chceme ho odhadnout pomocí daneho nahodneho víberu (prípadne chceme odhadnout nejakou parametrickou funkci h(v)).
Bodovym odhadem parametricke funkce h(v) budeme rozumet statistiku Tn = T(X1,... ,Xn), ktera nabíví hodnot blízkych h(v), at' je hodnota parametru v jakakoliv. Existují ruzne metody, jak konstruovat bodove odhady (napr. metoda momentu ci metoda maximílní verohodnosti, ale temi se zde zabyvat nebudeme) a take ruzne typy bodovych odhadu. Omezíme se na odhady nestranníe a asymptoticky nestranníe.
Intervalovym odhadem parametricke funkce h(v) rozumíme interval (D, H), jehoz meze jsou statistiky D = D(X1,... , Xn), H = H(X1,..., Xn) a ktery s dostatecne velkou pravdepodobností pobýva h(v), at' je hodnota parametru v jakakoliv. Zameríme se na intervalove odhady parametru a parametrickych funkcí normíalního rozloňzení.
124
Bodový odhad parametrické funkce by měl mít určité vhodné vlastnosti. Takovou vlastností mUze byt pro jeden odhad nestrannost a pro posloupnost odhadU asymptoticka nestrannost či konzistence. Kvalitu nestranneho bodoveho odhadu lze posoudit pomocí rozptylu tohoto odhadu: čím mensí rozptyl, tím kvalitnejsí odhad.
12.2. Definice
Necht' Xi,... ,Xn je nahodný vyber z rozložení L(v), h(v) je parametrický funkce, T, Tl, T2, .. .jsou statistiky.
a) Řekneme, ze statistika T je nestranným odhadem parametricke funkce h(v), jestlize V) G S : E (T) = h(v).
(Vyznam nestrannosti spocíva v tom, ze odhad T nesmí parametrickou funkci h(v) systematicky nadhodnocovat ani podhodnocovat. Není-li tato podmínka splnena, jde o vychylený odhad.)
b) Jsou-li Tl, T2 nestranne odhady teze parametricke funkce h(v), pak rekneme, ze Tl je lepsí odhad nez T2, jestlize Vt? G S : D(Tl) < D(T2).
c) Posloupnost se nazýva posloupnost asymptoticky nestranných odhadu parametricke funkce h(v), jestlize Vt? G S : lim E(Tn) = h(v).
n—>oo
(Výyznam asymptotickýe nestrannosti spo cýívaý v tom, ze s rostoucýím rozsahem výyb eru klesýa vychýylenýí odhadu. Je z rejmýe, ze z nestrannosti okam zit e vyplyývýa asymptotickýa nestrannost.)
c) Posloupnost se nazýva posloupnost konzistentních odhadu parametricke funkce h(v), jestlize Vi) G S, Ve > 0 : lim P(|Tn - h(v)| > e) = 0.
n—oo
(Výyznam konzistence spo cýívýa v tom, ze s rostoucýím rozsahem výyb eru klesa pravdepodobnost, ze se odhad bude realizovat „daleko" od sku-tecne hodnoty parametricke funkce. Lze ukýzat, ze z asymptoticke nestrannosti vyplyvý konzistence, pokud posloupnost rozptylu konverguje k 0.)
12.3. Příklad
Nezavisle opakovana merení urcite konstanty (i jsou charakterizovana ný-hodným výberem Xl,...,Xn z rozlození se strední hodnotou E(Xj) = (i
n
a rozptylem D(Xi) = a2, i = 1,... ,n. Uvažme statistiky M = - X» a
L
2
i=1
a) Dokazte, ze M a L jsou nestranne odhady strední hodnoty
b) Zjistete, ktery z techto dvou odhadu je lepsí.
Resení:
ad a)
e{m) = e l - Vi,] = -Y t
\ n / n n n
i=i i=i i=i
E(L)
n
(^4^) = \E{Xl+Xn) = \\EiX,) +E(Xn)} i
2 ) 2
I
125
12. Bodove a intervalová odhady parametrů a parametrických funkcí
ad b)
D(M) = D
n
n
i=1 i=1
1 2 a2
—na = — a2 n
d(l) = d (^^) = \d(X, +Xn) = -^{XA + d(Xn)]
_a2 + a2 _a2 4 2
Vidíme tedý, že M je lepsí odhad než L pro n > 3. 12.4. Poznámka
Ve vete 11.3, tvržená (a), býlo uvedeno, že E (S*2) = a2, tedý váberový rožptýl S2 je nestranným odhadem rožptýlu a2. (Odtud je take videt, že ve vzorci pro výběrový rozptyl musí být konstanta ^-j-, nikoli ^, aby platilo E(S2) = a2.) Váberova smerodatna odchýlka S vsak není nestranným odhadem smerodatne odchýlký a. Pak bý totiž platilo E (S) = a, ovsem E (S2) = a2, tedý D(S) = E(S2) - [E(S)]2 = a2 - a2 = 0, což je možne jen tak, že S bý býla konstanta.
Nýní budeme definovat interval spolehlivosti pro parametrickou funkci, a to jak oboustrannýá, tak levostrannáý ci pravostrannýá. Uvedeme doporu cenáý postup pri konstrukci intervalu spolehlivosti a ukažeme si, jaký vliv na sírku intervalu spolehlivosti máa rižiko a rožsah váýb eru.
12.5. Definice
Necht' X1,... ,Xn je nahodná váber ž rožložení L(v), h(v) je parametricka funkce, a G (0,1), D = D(X1;... ,Xn), H = H(X1;... ,Xn) jsou statistiký.
a) Interval (D,H) se nažývá 100(1 — a)% (oboustranný) interval spolehlivosti pro parametrickou funkci h(v), jestliže:
Vtf G S : P (D < h(v) < H) > 1 — a.
b) Interval (D, to) se nažývá 100(1—a)% levostranná interval spolehlivosti pro parametrickou funkci h(v), jestliže:
V? G S : P (D < h(v)) > 1 — a.
I
c) Interval (—to, H) se nažývá 100(1 — a)% pravostranná interval spolehlivosti pro parametrickou funkci h(v), jestliže:
V? G S : P(h(v) < H) > 1 — a.
d) Číslo a se nažýva rižiko (žpravidla a = 0,05, mene casto 0,1 ci 0,01), cáíslo 1 — a se nažáývaá spolehlivost.
126
12.6. Poznámka
Doporůcení postůp pri konstrůkci intervalů spolehlivosti:
a)
b)
c)
Výjdeme ze statistiký V, ktera je nestranním bodovým odhadem pa-rametricke fůnkce h(v).
Najdeme tzv. pivotovoů statistiků W, ktera vznikne transformací statistiký V, je monotónní fůnkcí h(v) a pritom její rozlození je zname a na h(v) nezavisí. (Pri konstrůkci intervalů spolehlivosti pro parametrý jednoho a dvoů normalních rozlození poůzívame jako pivotove statistiký statistiký M, K, T, F z vet 11.4 a 11.7.)
Pomocí znameho rozlození pivotove statistiký W najdeme kvantilý wa/2, w1-a/2, takze platí:
VŮ G S : P (wa/2 i
a.
d) Nerovnost wa/2 < W < w1-a/2 prevedeme ekvivalentními ůpravami na nerovnost D < h(v) < H.
e) Statistiký D, H nahradíme jejich císelními realizacemi d, h a získame tak 100(1 — a)% empirickí interval spolehlivosti, o nemz prohlasíme, ze pokrýva h(v) s pravdepodobností aspoň 1 — a. (Tvrzení, ze (d, h) pokrýví h(v) s pravdepodobností aspon 1 — a je treba chapat takto: jestlize mnohonasobne nezavisle získame realizace x1,... ,xn nahodne-ho výberů X1. ,Xn z rozlození L (v) a pomocí kazde teto realizace sestrojíme 100(1 — a)% empirický interval spolehlivosti pro h(v), pak podíl poctů tech intervalů, které pokrívají h(v) k poctů vsech sestrojených intervalů bůde priblizne 1 — a.)
12.7. Věta
Necht' (d, h) je 100(1 —a)% empirickí interval spolehlivosti pro h(v) zkonstrů-ovaný pomocí císelních realizací x1,... ,xn nahodneho víberů X1,... ,Xn z rozlození L(v).
a) Pňri konstantníím riziků klesaí ňsííňrka h — d s rostoůcíím rozsahem níahod-níeho výíbňerů.
b) Pňri konstantníím rozsahů níahodníeho výíbňerů klesaí ňsííňrka h— d s rostoůcíím rizikem.
Nadale se bůdeme zabývat konstrůkcí intervalů spolehlivosti pro parametrý normíalníích rozloňzeníí. Vňzdý pro jednů konkríetníí sitůaci podrobnňe odvodííme meze intervalů spolehlivosti a pro ostatní sitůace jen ůvedeme prehled vzorců. Tňem z vías, kteňríí majíí hlůbňsíí zíajem o statistiků, lze doporůňcit, abýste se po-kůsili ůvedeníe vzorce odvodit a s výůňzitíím vlastnostíí pňrííslůňsníých pivotovýích statistik, jak býlý ůvedený ve vetach 11.4 a 11.7.
12.8. Příklad
Necht' X1,... ,Xn je nahodný víber z rozlození N(fi,a2), pricemz n > 2 a parametrý ^, a2 nezname. Sestrojte 100(1 — a)% interval spolehlivosti pro strední hodnotů (i a to
a) oboůstrannýí,
I
127
12. Bodové a intervalové odhady parametrů a parametrických funkcí
b) levostranný,
c) pravostranný.
M = ^£X, W
i=l
ta/2 (n - 1)
T = ^ ~ t{n - 1) (viz věta 11.4,
y/ň
-íl-a/2 (n - 1), Wi_a/2 = *l-a/2 (n - 1)
Řešení:
= V
tvrzení (e)), Wa/2 ad a)
V? G S : 1 - a < P (-ti_a/2(n - 1) < T < tx_a/2 (n - 1))
M - //
B I -*l-a/2(w - 1) < -š- < *l-a/2(ra ~ 1)
= P M
M--—ti_a/2(n
V V™
1) < u < m +
)=
-^ŕi_a/2(n - 1) V™ /
ad b)
Vtf G S : 1 - a < P (T < ti_a(n - 1))
P
(
M - u
06 °<2011
1,92 2,20
m
1,8331 = 1,94
1,94 < u s pravdepodobností aspoň 0,95.
adc)/i = m+ -7=ŕi-«(™ - 1) = 2,06 + ^1,8 u < 2,18 s pravdepodobností aspon 0,95.
2,18
n
128
12.9. Věta
Přehled vzorců pro meze 100(1 — a)% empirických intervalů spolehlivosti pro parametry jednoho normálního rozloZení. Necht' Xí}... ,Xn je nýhodný výber z rozloZení N(n, a2), pricemZ n > 2.
a) Interval spolehlivosti pro n,, kdyZ a2 známe Oboustranný: (d,h) = (m - -^Ui_a/2,m + ^tti_a/2)
Levostranný: (d, oo) = (m — -^U\-a, ooj
Pravostranný: (—oo,h) = (^—oo,m+ ^tíi_aj
b) Interval spolehlivosti pro n, kdyZ a2 neznáme
c)
d)
/n
ti-a/2(n - l),m+ -^ti_a/2{n - l)j
/n
ti-a(n — 1), OC
Oboustranný: (d, h) = Levostranný: (d, oo) = Pravostranný: (—oo,h) = ^—oo,m+ -^ti-a(n — l)j Interval spolehlivosti pro a2, kdyz n neznáme
Oboustranný: (d, h) Levostranný: (d, oo)
(n-l)s2
i™"1)' X2a/2(n-l)
(n-l)s2 \ Í/2("-l) J
(n-l)s2
Pravostranný: (—oo,h) = ( — oo, ^
Interval spolehlivosti pro a2, kdyZz n znáame
n n
Oboustranný: (d, fc) = | ^—^» nfew
Levostrannýý: (d, o ) = Pravostrannýý: (—o , h)
i=l_
Xl_aW
oc
o,
,E (xi-M)2\ X2(") I
12.10. Příklad
Necht' Xi,..., Xn je nahodný výber z rozlození N (n, 0,04). Jaký můsí být mi-nimalní rozsah výberů, abý sírka 95% intervalů spolehlivosti pro n nepresahla císlo 0,16?
Rěšění:
Podle 12.9 (a) dostíavíame:
0,16 > h — d = m +
a
~]=Ul-a/2
n
aa
nn 4 • 0,04 • 1,962
a
4a2ui a/2
^ 1—a/2
0,162
24,01 n > 25.
I
129
12. Bodové a intervalové odhady parametrů a parametrických funkcí
12.11. Příklad
Jsou dány dva nezávislé náhodné výběry o rozsazích ni > 2, n2 > 2, první pochází z rozloZení N(^i,a2), druhy z rozloZení N(/í2, 2, n2 > 2, první pochází z rozloZení N(// i,a2), druhý z rozloZení N(/j2, 2 a n2 > 2.
a) Interval spolehlivosti pro ^1 — /j2; kdyZ a2, of známe
Oboustranny: (d, h) = | m1 — m2
^ + ^M1_a/2 , 7771
m2
ri2 ^1—ot/2
Levostranní: (d, oo) = ( m1 — m2
I
y n
h--Ui_a, oc
ni n2 1 a'
)
)
I
d
131
12. Bodové a intervalové odhady parametrů a parametrických funkcí
Pravostranný: (-00, h) = ^-oo,TOi - to2 - + ^í-o^j
b) Interval spolehlivosti pro (i1 — n2, kdyZ af, af neznáme, ale vime, Ze jsou shodné
Oboustranný: (nii - m2 - s*^J^ + ^1-0/2(^1 + ^2 - 2).
mi - m2 + + ^íi_a/2(ni + n2 - 2)
Levostranný: (d, 00) = (mi - m2 - s*-^/^ + ^íi-«/2(^i + n2 - 2), oc Pravostranný:
(-00, h) = (-00, mi-m2 + s*yJ^ + Mi_a/2{ni + n2 - 2) j
c) Interval spolehlivosti pro společní) neznámý rozptyl a2 Oboustranný: (<*,/>) = (^^3),^^)
Levostranný: (d, 00) = (^gg^,oo) Pravostranný: (-00, fr) = (-00, gg^gf)
2
d) Interval spolehlivosti pro podíl rozptylů Oboustranný: (d, h)
( ?2__3_ 1
1 ^i-a/2(™l-!»ra2-1) ' Fa/2(n1-l,n2-l) J
Levostranný: (d, 00) = ^1_a(rai^1>ra2_1), 00 j Pravostranný: (-00, h) = ^-00, j
12.14. Poznámka
Není-li v bode (b) vety 12.13 splněn predpoklad o shodě rozptylU, lze sestrojit aspon pribliZný 100(1 — a)% interval spolehlivosti pro (i1 — //2. V tomto prípade ma statistika T pribliZne rozloZení t(v), kde pocet stupňů volnosti
v =
"1 i "2
ni ' n2
ni — 1
+
n2 — 1
I
Není-li v cele Číslo, pouZijeme v tabulkých kvantilU Studentova rozloZení lineýrní interpolaci.
Predpoklad o shode rozptylu lze overit tak, Ze sestrojíme 100(1 —a)% interval
2
spolehlivosti pro íj. Pokud tento interval bude obsahovat 1, lze s pravděpodobností 1 — a povaZovat rozptyly za shodne.
132
12.15. Veta
Necht' ŕX
(t)
je níahodnyí víybňer z rozloňzení
pricemz n > 2. Oznacíme // = ^1 — //2 a zavedeme rozdíloví nahodny víber Zi = X1 — Y1,..., Z„ = X„ — Yra. Necht'
M
1
n
S2
1
i=1
n1
£(Z — M)2.
i=1
Pak statistika T = ~ í(n — 1), tudíž meze 100(1 — a)% intervalu spolehlivosti pro fi jsou M ± ^í1_a/2(n — 1).
12.16. Príklad
Bylo vybrano sest novích automobilu teze znacky a po urcite dobe bylo zjiňstňeno, o kolik mm se sjely jejich pravíe a levíe pňredníí pneumatiky.
číslo automobilu 1 2 3 4 5 6
pravá pneumatika se sjela 0: 1,8 1,0 2,2 0,9 1,5 1,6
levá pneumatika se sjela 0: 1,5 1,1 2,0 1,1 1,4 1,4
Za pňredpokladu, ňze namňeňreníe dvojice hodnot pňredstavujíí ňcííselníe realizace níahodníeho víybňeru rozsahu 6 z dvourozmňerníeho normíalníího rozloňzeníí
*2
sestrojte 95% empirickí interval spolehlivosti pro rozdíl stredních hodnot ReSení:
z1 = 0,3, z2 = —0,1, z3 = 0,2, z4 = —0,2, z5 = 0,1, z6 = 0,2, m = 0,0833, s = 0,1941, a = 0,05.
d = m--i=ti-a/2{n
n
1) = 0,0833
0,1941
6
0,0833
t0,975(5) =
0,1941
6
2,5706 = —0,12
, . . . ;
s , 0,1941
h = m + —=ti_a/2i:n - l) = 0,0833 + "'""^0,975(5) n
0,1941
0,0833 + ' ^ 2,5706 = 0,29.
I
—0,12 mm < ^1 — //2 < 0,29 mm s pravdepodobností aspon 0,95.
133
12. Bodove a intervalová odhady parametrů a parametrických funkcí
Shrnutí kapitoly
Na žaklade žnalosti náhodneho výberu aproximujeme nežnamou hodnotu
parametru ci parametricke funkce bodovám odhadem parametricke funkce. Zpravidla požadujeme, abý tento odhad mel jiste žadoucí vlastnosti. K tem pat ráí nestrannost, resp. asýmptotickaá nestrannost ci konžistence, pokud pracujeme s posloupností bodových odhadu teže parametricke funkce.
Bodove odhadý vsak mají jednu žnacnou neváhodu - nevíme, s jakou pravdepodobností odhadují hodnotu nežname parametricke funkce. Tuto nevýhodu odtranují intervalove odhadý parametricke funkce: jsou to intervalý, jejichž meže jsou statistiký a ktere s predem danou dostatecne velkou pravdepodobností pokrývají hodnotu nežname parametricke funkce. Pokud do vžorcu pro meže 100(1 — a)% intervalu spolehlivosti pro danou parametrickou funkci dosadíme císelne realižace nahodneho váberu, dostaneme 100(1 — a)% empi-rickáý interval spolehlivosti.
V praxi se nejcasteji používají intervalý spolehlivosti pro parametrý normál-nách rožložená Proto jsme si uvedlý predhled vžorcu pro meže 100(1 — a)% empirickách intervalu spolehlivosti pro parametrý jednoho a dvou normalních rožložená.
Kontrolní otazky a ůkoly
1 Definujte nestranný odhad a asýmptotický nestranná odhad parametricke funkce. V cem spocíva výžnam nestrannosti a asýmptoticke nestrannosti?
2 (S) Prírustký cen akcií na burže v New Yorku u 10 náhodne výbranách spolecnostá dosahlý techto hodnot: 10, 16, 5, 10, 12, 8, 4, 6, 5, 4. Najdete nestranne bodove odhadý stredm hodnotý a rožptýlu prárustku cen akciá.
3 Necht' X1;..., Xn je nahodná výber ž rožložená Rs(0, b), kde b > 0 je
neznámý parametr. Jsou definovány statistiky 7\ = Xx + \X2 + |X3 + |X4 a T2 = \{X\ + X2 + X3 + X4). Ukažte, že 7\, T2 jsou nestranné odhadý parametru b a urcete, která odhad je lepsá.
4 Definujte 100(1 — a)% interval spolehlivosti pro parametrickou funkci, a to jak oboustrannýá, tak jednostrannáe intervalý spolehlivosti.
5 Jaký vliv na sárku intervalu spolehlivosti ma žvásená rižika pri kon-stantnáím rožsahu váýb eru?
6 Jaký vliv na sírku intervalu spolehlivosti má žvetsení rožsahu výberu p ri konstantnáím rižiku?
7 Hloubka more se merí prístrojem, jehož sýstematická chýba je nulova a naáhodnáe chýbý m e renáí majáí normáalnáí rožlo ženáí se sm erodatnou odchýlkou a = 1 m. Kolik m e renáí je nutno prováest, abý se hloubka mo re stanovila s chýbou nejváse ±0,25 m pri rižiku 0,05?
8 U jisteho mericího žarížení ma bát posoužena jeho presnost. Proto na n em býla nežáavisle žm e rena dáelka táeho ž výárobku. Výásledký m e renáí v cm
134
býlý: 15,15; 15,20; 15,04; 15,14; 15,22. Predpokladame, ze týto výsledký jsoů císelne realizace nýhodneho výberů rozsahů 5 z rozlození N (n, a2). Sestrojte 95% empirický interval spolehlivosti pro rozptýl a2.
9 Sponzor televizních poradů pro deti chce vedet, kolik casů strýví deti sledovaním televize, protoze na techto informacích zývisí týpý a poctý programů. Nahodným výberem 100 detí se zjistilo, ze sledovaní televize venůjí týdne průmerne 27,5 h se smerodatnoů odchýlkoů 8 h. Za predpokladů, ze pocet hodin stravený za týden sledovaním televize se rídí normalním rozlozením, sestrojte 95% empirický interval spolehlivosti pro strední hodnotů poctů hodin strývených týdne sledovaním televize.
10 (S) Na jiste velke americke ůniverzite býlo v r. 1969 nahodne výbrano 5 profesorů a nezývisle na tom 5 profesorek a býl zjisten jejich rocní príjem (v tisících dolarů). Muzi: 16, 19, 12, 11, 22, zený: 9, 12, 8, 10, 16. Predpokladíme, ze ůvedene ýdaje tvorí realizace dvoů nezavislých nahodných výberů z rozlození Na2) a N(n2,a2).
a) Sestrojte 95% empirický interval spolehlivosti pro podíl rozptýlů príjmů můzů a zen.
b) Pokůd bůde ůvedeníý interval spolehlivosti obsahovat 1, sestrojte 95% empirický interval spolehlivosti pro rozdíl stredních hodnot príjmů můzů a zen. V opacnem prípade sestrojte aspon priblizný interval spolehlivosti.
11 (S) Pet můzů se rozhodlo, ze bůdoů hůbnoůt. Zjistili svoů hmotnost pred zahajením dietý a po ůkoncení dietý.
Číslo osoby 1 2 3 4 5
Hmotnost před dietou 84 77,5 91,5 84,5 97,5
Hmotnost po dietě 78,5 73,5 88,5 80 97
Za predpokladů, ze ůvedene ůdaje jsoů císelne realizace nahodneho výberů rozsahů 5 z dvoůrozmerneho normýlního rozlození
N2
n , a 2 a 2 n2 , a 2 a22
sestrojte 95% empirický interval spolehlivosti pro stredních hodnotů íůbýtků hmotnosti.
I
135
12. Bodové a intervalové odhady parametrů a parametrických funkcí
13
Úvod do testovaní hypotéz a testy o parametrech normálního rozloZení
I
13. Úvod do testování hypotéz a testy o parametrech normálního rozložení
Cíl kapitola
Po prostůdovíaníí tíeto kapitolý bůdete ůmňet:
formůlovat nůlovoů a alternativníí hýpotíezů
stanovit testovíe kritíeriům a kritickíý obor pro test nůlovíe hýpotíezý proti oboůstranníe alternativňe i proti jednostranníým alternativíam
■ posoůdit sílů testů pomocí grafů silofůnkce
■ provadet testý hýpotez o parametrech normalního rozlození tremi různými způsobý
Casova zatez
Pro zvlídnůtí teto kapitolý bůdete potrebovat asi 8 hodin stůdia.
V tíeto kapitole se bůdeme zabýívat problíemem, jak pomocí statistiký vzniklíe transformací daníeho naíhodníeho výíbňerů rozhodnoůt, zda naňse domnňenka o parametrů rozloňzení, z nňehoňz níahodnýí víýbňer pochaízí, je spríavnía. Napňríklad zname průmernoů hmotnost aůtomatický baleních potravinarskích vírobků ůrciteho drůhů zjistenoů pred a po serízení balícího aůtomatů. S pravdepodobností 95% mame prokazat, ze strední hodnota hmotnosti balícků se seňrízením aůtomatů zmňenila. Statistickíe postůpý, kteríe ňreňsí podobníe problíe-mý, se nazíývají testý hýpotíez.
Nejprve objasníme pojmý nůlovía hýpotíeza a alternativní hýpotíeza a výsvňet-líme, kdý dojde k chýbe 1. drůhů ci 2. drůhů.
13.1. Motivace
Testovaní hýpotez patrí k nejdůlezitejsím metodam matematicke statistiký. Na zíakladňe znalosti naíhodníeho víýbňerů ůmoňzní s pňredem danoů pravdňepo-dobností ovňeňrovat domnňenký o parametrech rozloňzení, z nňehoňz daníý níahodníý výíbňer pochíazí.
13.2. Definice
Necht' X1,... ,Xn je níhodný výber z rozlození L(v), kde parametr í) G S nezname. Necht' h(v) je parametricka fůnkce a c daní realní konstanta. Tvrzení H0 : h(v) = c se nazýví nulový hýpoteza, tvrzení H1 : h(v) = c se nazýva oboustranna alternativní hýpoteza, tvrzení H1 : h(v) < c se nazýví levostranna alternativný hýpoteza, tvrzení H1 : h(v) > c se nazýví pra-vostranna alternativní hýpoteza. Testovaním H0 proti H1 rozůmíme rozhodovací postůp zalozený na nahodnem víberů X1,... , Xn, s jehoz pomocí zamítneme ňci nezamítneme platnost nůlovíe hýpotíezý.
I
13.3. Poznáamka
Volba alternativní hýpotíezý není libovolnía, ale výplýívía z konkríetní sitůace. Napr. pri soůcasne technologii je pravdepodobnost výrobení zmetků v = 0,01.
a) Po rekonstrůkci výírobní linký býla obnovena víýroba, pňriňcemňz technologie zůstala stejna. Čhceme overit, zda se zmenila kvalita výrobků. Testůjeme H0 : v = 0,01 proti H1 : v = 0,01.
138
b) Byly provedeny zmeny v technologii vyroby s cílem zvísit kvalitu.
V tomto prípade tedy testujeme H0 : v = 0,01 proti H1 : v < 0,01.
c) Byly provedeny zmeny v technologii víroby s cílem sníZit naklady.
V teto situaci testujeme H0 : v = 0,01 proti H1 : v > 0,01.
13.4. Definice
Pri testovaní H0 proti H1 se muZeme dopustit jedne ze dvou chyb: chyba
1. druhu spocíva v tom, Ze H0 zamítneme, ac ve skutecnosti platí a chyba
2. druhu spo cíívaí v tom, ze H0 nezamíítneme, a c ve skute cnosti neplatíí. Situaci p rehledn e zníazornuje tabulka:
skutečnost rozhodnutí
Ho nezamítáme Ho zamítáme
H0 platí správné rozhodnutí chyba 1. druhu
H0 neplatí chyba 2. druhu správné rozhodnutí
Pravdepodobnost chyby 1. druhu se znací a a nazyva se hladina víznamnosti (vetsinou byva a = 0,05, mene casto 0,1 ci 0,01). Pravdepodobnost chyby 2. druhu se znací /(. Císlo 1 — /( se nazyva síla testu a vyjadruje pravdepodobnost, s jakou test vypoví, Ze H0 neplatí. Pri danem rozsahu víberu vede sniZovíní a ke rastu 3 a obracene.
Nyní si ukíZeme tri zpusoby, jimiZ lze provest test nulove hypotezy proti alternativní hypoteze. Klasickí zpusob spocíví v nalezení kritickeho oboru. Testovíní pomocí intervalu spolehlivosti navazuje na poznatky získane ve 12. kapitole. Moderní zpusob zaloZenyí na p-hodnote je vhodny predevsím tehdy, mame-li k dispozici statistickí software. Vsechny tri zpusoby pouZijeme pri resení konkretnho príkladu.
13.5. Poznámka
Testovaní H0 proti H1 na hladine víznamnosti a je moZno provídet tremi raznymi zpusoby:
a) pomocíí kritickíeho oboru
b) pomocíí intervalu spolehlivosti
c) pomocíí p-hodnoty.
ad a) Najdeme statistiku T0 = T0(X1,... ,Xn), kterou nazveme testovím kriteriem. MnoZina hodnot, jichZ muZe testove kriterium nabyt, se rozpadí na dva neslucitelne obory: obor nezamítnutí nulove hypotezy (znací se V) a obor zamítnutí nulove hypotezy (znací se W a nazíva se teZ kritický obor). Tyto dva obory jsou oddeleny krytickími hodnotami (pro danou hladinu víyznamnosti a je lze najíít ve statistickíych tabulkíach).
JestliZe císelna realizace t0 testoveho kryteria T0 padne do kritickeho oboru W, pak nulovou hypotezu zamítame na hladine vyznamnosti a a znamena to skutecne vyvracení testovane hypotezy. JestliZe t0 padne do oboru nezamítnutí V, pak jde o pouhe mlcení, ktere platnost nulove hypotezy jenom pripoustí.
I
139
13. Úvod do testovaní hypotez a testy o parametrech normálního rozloZení
Pravdňepodobnosti chyb 1. a 2. druhu nyní zapíňseme takto:
P(t0 G W|H0 platí) = a, P(t0 G V|H1 platí) =
Stanoveníí kritickíeho oboru pro danou hladinu vyíznamnosti a: Oznacme ŕmin (resp. tmax) nejmensí (resp. nejvetsí) hodnotu testoveho kriteria. Kritickyí obor v pňríípadňe oboustranníe alternativy mía tvar
W = (ímin,K«/2(T)) U (K1_«/2(T),tmax),
kde Ka/2(T) a K1-a/2(T) jsou kvantily rozlození, jímz se rídí testove kriterium T0, je-li testovaí hypotíeza pravdivaí. Kritickyí obor v pňrípadňe levostranníe alternativy mía tvar:
W =(ímin,K«/2(T)),
v pňrípadňe pravdostranníe alternativy mía kritickíy obor tvar
W = (K1_a/2(T ),tmax).
ad b) Sestrojíme 100(1 — a)% empirickyí interval spolehlivosti pro parametrickou funkci h(v). Pokryje-li tento interval hodnotu c, pak H0 nezamítíme na hladinňe vyíznamnosti a, v opaňcníem pňrípadňe H0 zamítaíme na hladinňe vyíznamnosti a.
Pro test H0 proti oboustranníe alternativňe sestrojíme oboustrannyí interval spolehlivosti. Pro test H0 proti levostranníe alternativňe sestrojíme pravo-strannyí interval spolehlivosti. Pro test H0 proti pravostranníe alternativňe sestrojíme levostrannyí interval spolehlivosti.
ad c) p-hodnota udava nejnizsí moznou hladinu vyznamnosti pro zamítnutí nulove hypotezy. Je-li p-hodnota < a, pak H0 zamítíme na hladine víznam-nosti a, je-li p-hodnota > a, pak H0 nezamítame na hladine víznamnosti a.
Zpusob vypoctu p-hodnoty:
Pro oboustrannou alternativu: p = 2min{P(T0 < t0),P(T0 > t0)}. Pro levostrannou alternativu: p = P(T0 < t0), pro pravostrannou alternativu: p = P(T0 > Í0).
p-hodnota vyjadňruje pravdňepodobnost, s jakou ňcíselníe realizace nahodneho víberu X1,... ,Xn podporují H0, je-li pravdiva. Statisticke pro-gramove systemy poskytují ve svych vystupech p-hodnotu. Její vypocet vy-ňzaduje znalost distribuňcní funkce rozloňzení, kteryím se ňrídí testovíe kritíerium T0, je-li H0 pravdivaí.
Vzhledem k tomu, ňze v bňeňznyích statistickyích tabulkíach jsou uvedeny pouze hodnoty distribuňcní funkce standardizovaníeho normíalního rozloňzení, bez po-uzití specialního software jsme schopni vypocítat p-hodnotu pouze pro test hypotíezy o stňrední hodnotňe normíalního rozloňzení pňri zníamíem rozptylu.
140
Ilustrace významu p-hodnoty pro test nulové hypotéza proti oboustranné, levostranné a pravostranné alternativé:
-p-hodnota -
p-hodnota
p-hodnota
t
-to
t
to
t
to
t
to
(Zvonovita krivka réprézéntujé hustotu rozloZéní, ktérým sé rídí téstové kritérium, jé-li nulova hypotéza pravdiva.)
13.6. Poznámka
Provadímé-li tést nulové hypotézy proti altérnativní hypotézé pomocí kritického oboru, doporuCujé sé dodrzét naslédující postup:
1. Stanovímé nulovou hypotézu a altérnativní hypotézu. Pritom jé vhodné zvolit jako altérnativní hypotézu tén predpoklad, jéhoz prijétí znaména zavazné opatréní a mélo by k nému dojít jén s malym rizikém omylu.
2. Zvolímé hladinu vyznamnosti a. Zpravidla volímé a = 0,05, méné Casto 0,1 nébo 0,01.
3. Najdémé vhodné téstové kritérium a na zakladé zjisténych dat vypoCí-tíamé jého réalizaci.
4. Stanovímé kritický obor.
5. Jéstlizé réalizacé téstového kritéria padla do kritického oboru, nulovou hypotézu zamítamé na hladiné víznamnosti a. V opacném prípadé nulovou hypotézu nézamítamé na hladiné vyznamnosti a.
13.7. Příklad
10 x nézavislé na sobé byla zméréna jista konstanta Vyslédky méréní byly: 2; 1,8; 2,1; 2,4; 1,9; 2,1; 2; 1,8; 2,3; 2,2. Tyto víslédky povazujémé za císélné réalizacé nahodného vybéru X\,..., Xw z rozlozéní N(//, 0,04). Néjakí téorié tvrdí, zé // = 1,95. Proti nulové hypotézé H0 : // = 1,95 postavímé oboustrannou altérnativu H1 : // = 1,95. Na hladiné víznamnosti 0,05 téstujté H0 proti H1.
Řešení:
m =
10
(2 + • • • + 2,2) = 2,06, a2 = 0,04, n =10, a = 0,05, c = 1,95
a) Tést provédémé pomocí kritickíého oboru.
Pro ulohy o strední hodnoté normalního rozlozéní pri znamém rozptylu používáme pivotovou statistiku U = ~ N(0,1) (viz věta 11.4 (a)). Testové
kritérium tédy budé T0
M-c
a
V"'
a budé mít rozlozéní N(0,1), pokud jé H0
pravdiva. Vypoďtamé réalizaci téstového kritéria: t0 novímé kritickyí obor:
W :
2,06-1,95
0,2
1,74. Sta-
^min, Ka/2(T )) U (Ki_a/2(T),tmax) = (-^,«a/2) U («i_a/2, 0o) (-00, -Mi_a/2) U (Ul-a/2, 0o) = (-00, -«0,975) U («0,975, 0o) =
(-00,-1,96) U (1,96, 00)
I
141
0
0
0
1
13. Úvod do testování hypotéz a testy o parametrech normálního rozložení
Protože 1,74 g W, Ho nezamítáme na hladině významnosti 0,05.
b) Test provedeme pomocí intervalu spolehlivosti.
Meze 100(1 — a)% intervalu spolehlivosti pro strední hodnotu /j pri znamem
rozptylu a2 jsou (viz věta 12.9 (a)): (d, h)= (m- -^Ui_a/2,m + -^tti_a/2) •
V našem případě d = 2,06 - ^=«0,975 = 2,06 - ^§1,96 = 1,936, h = 2,184. Protoze 1,95 g (1,936; 2,184), H0 nezamítame na hladine významnosti 0,05.
c) Test provedeme pomocí p-hodnoty.
Protoze proti nulove hypoteze stavíme oboustrannou alternativu, pouzijeme vzorec
p = 2min{P (To < to), P (To > to)} = 2min{P (To < 1,74), P (To > 1,74)} =
= 2 min{$(1,74), 1 — $(1,74)} = 2 min{0,95907,1 — 0,95907} = 0,08186
Jelikoz 0,08186 > 0,05, Ho nezamítame na hladine víznamnosti 0,05.
Nadíle se budeme zabívat tastovaním hypotez o parametrech normalního rozlození. Ukazeme si ruzne typy testu a naučíme se je provadet pomocí kritickíeho oboru.
I
13.8. Definice
a)
b)
c)
d)
e)
a2 zname. Necht' j = c se nazyva
Necht' X1,...,Xn je nahodny víber N (j, a2), kde n > 2 a c je konstanta. Test Ho : j = c proti H1 : z-test.
Necht' X1,..., Xn je nahodní vyber N (j, a2), kde a2 nezname. Necht n > 2 a c je konstanta. Test Ho : j = c proti H1 : j = c se nazyva jednovýberový t-test.
Necht' X11,..., Xni1 je nahodní vyber z rozlození Na2) a X12,..., Xn22 je na nem nezavisly nahodní víber rozlození N(j2,a2), pricemz n1 > 2 a n2 > 2 a a2 nezname. Necht' c je konstanta. Test Ho : j1 — j2 = c proti H1 : /j1 — j2 = c se nazyva dvouvýberový t-test.
( X ) je nahodny víber z rozlození
(í) --{Z)
N2
((vÄ fa1 a12^
Aa12 a2JJ
pricemz n > 2 a zídní parametr nezníme. Necht' c je konstanta. Test Ho : j1 — j2 = c proti H1 : j1 — j2 = c se nazyva párový t-test.
Necht' X11,..., Xni1 je nahodní vyber z rozlození Na2) a X12,..., Xn22 je na nem nezavisly nahodní vyber rozlození N(j2,a2), pricemz
22
íii > 2 a ií2 > 2. Test H0 : ^| = 1 proti FL\ : ^| 7^ 1 se nazývá F-test.
Necht' X1,... ,Xn je nahodny vyber N (j, a2), kde j nezname. Necht' n > 2 a c je konstanta. Test Ho : a2 = c proti H1 : a2 = c se nazyví test o rozptylu.
142
13.9. Veta
Navodý na provedená výse popsanách sesti týpu testu pomocá kritickeho oboru.
a) Provedení z-testu
Hýpotežu H0 : p = c proti H1 : p = c (resp. H1 : p < c resp. H1 : p > c)
žamítame na hladine vážnamnosti a, jestliže
< Ui_a resp. ^ > Mi_a).
y/ň
> U1-a/2 (resp.
b) Provedená jednováberoveho t-testu
Hýpotežu H0 : p = c proti H1 : p = c (resp. H1 : p < c resp. H1 : p > c)
žamátáme na hladine vážnamnosti a, jestliže
(resp. ^Vr < t\-a{n - 1) resp. >
y/ň
1)).
> *1-a/2 (n — 1)
c) Provedená dvouváberoveho t-testu
Hýpotežu H0 : p1 — p2 = c proti H1 : p1 — p2 = c (resp. H1 : p1 — p2 < c resp. H1 : p1 — p2 > c) žamátame na hladine vážnamnosti a, jestliže
m1 — m2 — c
j_
,1 n
> t1-a/2 (n + n — 2)
(resp.
m\—TO2— c V n1 n2
f < íi-a(ni + n2-2) resp.
m\— TO2-V n1 n2
r > íi-a(ni + n2-2)).
Od náhodneho výberu
ž dvourožmerneho normálná-
d) Provedená pároveho t-testu
ho rožložená prejdeme k roždálovemu náhodnemu výberu Z1 = X1 — Y[,..., Zn = Xn — Yn. Ožnacáme p = p1 — p2. Pak jde o test hýpotežý H0 : p = c proti H1 : p = c a uloha je prevedna na jednováberový t-test.
e) Provedená F-testu
2 2 2
Hypotézu H0 : ^ = 1 proti Hi : ^ / 1 (resp. Hi : < 1 resp.
CT2 a2 °2
2
iÍ! : ^ > 1) žamátáme na hladině významnosti a, jestliže
s
\ < Fa/2(ni + n2-2) nebo -| > Fi_a/2{rii + n2 - 2)
(resp. ^ < Fa(ni + n2 - 2) resp. % > + n2-2)).
f) Provedená testu o rožptýlu
Hýpotežu H0 : a2 = c proti H1 : a2 = c (resp. H1 : a2 < c resp. H1 : a2 > c) žamátáme na hladine vážnamnosti a, jestliže
(n — 1)s2
< Xa/2(n — 1)
nebo
(n — 1)s2
> x2-a/2 (n — 1)
(resp. {n 1}'2 < xl(n - 1) resp. ÍILJlf! > x\_a(n - 1)).
I
c
c
143
13. Úvod do testovaní hypotez a testy o parametrech normalního rozlození
I
13.10. Příklad
Je-li ů aůtomatickeho obríbecího stroje rozptýl delký obrabeních soůcístek vetsí nez 380 ^m2, je treba stroj znova nastavit. Nahodne jsme výbrali 15 soůcastek a zmerili jejich delků. Víberoví rozptýl zjistených 15-ti delek cinil 680 ^m2. Za predpokladů, ze delký se rídí normílním rozlozením testůjte na hladin e výíznamnosti 0,05 hýpotíezů, ze stroj je t reba znova nastavit.
Rěšění:
Xi,... ,Xi5 je nahodní výber z rozlození N(fj,,a2), pricemz s2 = 680(im2. Testůjeme H0 : a2 = 380 (im2 proti pravostranne alternative, kterí mí tvar Hi : a2 > 380 ^m2, na hladine víznamnosti 0,05.
Podle bodů (f) v etý 13.9 dostíavíame: realizace testovíeho kritíeria
(n - 1)s2 14 • 680
380
25,05.
Pritom x2-«(n - 1) = x0)95(14) = 23,685. Protoze 25,05 > 23,685, H0 zamíítíame na hladin e výíznamnosti 0,05. Zji st enía data nías tedý opravnůjíí k tomů, abýcho stroj znovů se ríídili (s rizikem 5%, ze bůdeme províad et zbýte cnoů príaci).
Shrnutí kapitoly
Tvrzeníí o parametrech rozlo zeníí, z n eho z pochíazíí danýí naíhodnýí výíb er, nazývame nulovou hypot ězou. Proti nůlove hýpoteze stavíme altěřnativn í hypot ě zu, ktera ríkí, co platí, kdýz neplatí nůloví hýpoteza. Pri testovaní nůlove hýpotezý proti alternativní hýpoteze se můzeme dopůstit bůd' chyby
1. druhu (nůlovoů hýpotezů zamítneme, ac ve skůtecnosti platí) nebo chyby
2. druhu (nůlovoů hýpotezů nezamítneme, ac ve skůtecnosti neplatí). Prav-depodobnost chýbý 1. drůhů se znací a a nazýva se hladina významnosti těštu.
Klasický prístůp k testovaní hypotez spocíva v nalezení vhodneho těstově ho křit ě řia. Mnozina hodnot, jichz můze testove kriteriům nabýt, se rozpada na obor nězamítnut í nulově hypot ězy a na kriticky obor. Týto dva
neslůcitelne oborý jsoů oddelený kritickymi hodnotami. Pokůd se testove kritíeriům realizůje v kritickíem oborů, nůlovoů hýpotíezů zamítíame na hladine významnosti a a prijímíme alternativní hýpotezů. V opacnem prípade nůlovoů hýpotezů nezamítame na hladine víznamnosti a. Tím jsme ovsem neprokazali její pravdivost, můzeme poůze ríci, ze nase data nejsoů natolik průkazna, abýchom mohli nůlovoů hýpotezů zamítnoůt.
Test nůlove hýpotezý proti alternativní hýpoteze lze tez provest pomocí intervalů spolehlivosti a s výůzitím metod popsaních ve 12. kapitole.
Mame-li k dispozici statistický software, můzeme výpocítat p-hodnotu jako nejmensí moznoů hladinů víznamnosti pro zamítnůtí nůlove hýpotezý.
V praxi se nejcasteji setkavame s těšty hypot ěz o paramětrěch nor-máln ího rozlozěn í. K temto testům patrí napríklad z-test, jednovýberoví, parový ci dvoůvýberoví t-test apod.
c
144
Kontrolní otazky a úkoly
Vysvětlete pojem „nulová hypotéza" a „alternativní hypotéza".
2 V cem spočíva testovaní nulove hypotezy proti alternativní hypoteze?
3 Kdy se dopustíme chyby 1. druhu (2. druhu)?
4 Co rozumíme testovým kriteriem a kritickým oborem?
6 Jake znáte testy o parametrech normalního rozlození?
7 Podle údajů na obalu čokolady by její cista hmotnost mela byt 125 g. Vyrobce dostal nekolik stízností od kupujících, ve kterych tvrdili, ze hmotnost cokolad je nizsí nez deklarovanych 125 g. Z tohoto duvodu oddelení kontroly nahodne vybralo 50 cokolíd a zjistilo, ze jejich pru-merna hmotnost je 122 g a smerodatna odchylka 8,6 g. Za predpokladu, ze hmotnost cokolad se rídí normílním rozlozením, muzeme na hladine vyznamnosti 0,01 povazovat stíznosti kupujících za opravnene?
8 (S) V restauraci „U bíleho konícka" merili ve 20 prípadech cas obsluhy zakazníka. Vysledky v minutach: 6, 8, 11, 4, 7, 6, 10, 6, 9, 8, 5, 12, 13, 10, 9, 8, 7, 11, 10, 5. V restauraci „Zlaty lev" bylo dane pozorovíní uskutecneno v 15 prípadech s temito vysledky: 9, 11, 10, 7, 6, 4, 8, 13, 5, 15, 8, 5, 6, 8, 7. Na hladine víznamnosti 0,05 testujte hypotezu, ze strední hodnoty doby obsluhy jsou v obou restauracích stejne.
9 (S) Na 10 automobilech stejneho typu se testovaly dva druhy benzínu lisící se oktanovym císlem. U kazdeho automobilu se pri prumerne rychlosti 90 km/h meril dojezd (tj. dríha, kterou ujede na dane mnozství benzínu) pri pouzití kazdeho z obou druhu benzínu. Vísledky:
CcLl_lticL 1 2 3 4 5 6 7 8 9 10
benzín A 17,5 20,0 18,9 17,9 16,4 18,9 17,2 17,5 18,5 18,2
benzín B 17,8 20,8 19,5 18,3 16,6 19,5 17,5 17,9 19,1 18,6
Za predpokladu, ze dojezd se rídí normalním rozlozením, testujte na hladine víznamnosti 0,05 hypotezu, ze rozdíl stredních hodnot dojezdu pri dvou druzích benzínu se nelisí.
10 Pevnost vlakna bavlnene príze lze pokladat za nahodnou velicinu s rozlozením N(/i,<72). Je-li a2 > 0,36kg2, vznikají potíze pri tkaní. Pri zkousce 11 nahodne vybranych vlaken byly zjisteny hodnoty jejich pevnosti a vypocten empirickí rozptyl s2 = 0,92 kg2. Na hladine víznamnosti 0,05 je treba zjistit, zda je príze vyhovující.
11 Normalne rozlozena nahodne veliciny predstavují vísledek merení teze konstanty dvema ruznymi metodami a jejich nezname smerodatne odchylky <7i, a2 charakterizují nespolehlivost techto metod zpusobenou nahodnymi chybami. Pri realizaci dvou nezavislích níhodních víberu rozsahu n1 = 25, n2 = 31 jsme získali empiricke smerodatne odchylky s1 = 0,523, s2 = 0,363. Je mozno na hladine víznamnosti 0,05 povazovat obe metody za stejne spolehlive?
I
5
Popiste tri zpusoby testovaní hypotez.
145
13. Úvod do testování hypotéz a testy o parametrech normálního rozložení
Príloha A - Statisticke tabulky
Príloha A - Statisticke tabulky
Distribuční funkce standardizovaného normálního rozložení
u $(w) u $(w) u $(w) u $(w)
0,00 0,50000 0,50 0,69146 1,00 0,84134 1,50 0,93319
0,01 0,50399 0,51 0,69497 1,01 0,84375 1,51 0,93448
0,02 0,50798 0,52 0,69847 1,02 0,84614 1,52 0,93574
0,03 0,51197 0,53 0,70194 1,03 0,84850 1,53 0,93699
0,04 0,51595 0,54 0,70540 1,04 0,85083 1,54 0,93822
0,05 0,51994 0,55 0,70884 1,05 0,85314 1,55 0,93943
0,06 0,52392 0,56 0,71226 1,06 0,85543 1,56 0,94062
0,07 0,52790 0,57 0,71566 1,07 0,85769 1,57 0,94179
0,08 0,53188 0,58 0,71904 1,08 0,85993 1,58 0,94295
0,09 0,53586 0,59 0,72240 1,09 0,86214 1,59 0,94408
0,10 0,53983 0,60 0,72575 1,10 0,86433 1,60 0,94520
0,11 0,54380 0,61 0,72907 1,11 0,86650 1,61 0,94630
0,12 0,54776 0,62 0,73237 1,12 0,86864 1,62 0,94738
0,13 0,55172 0,63 0,73565 1,13 0,87076 1,63 0,94845
0,14 0,55567 0,64 0,73891 1,14 0,87286 1,64 0,94950
0,15 0,55962 0,65 0,74215 1,15 0,87493 1,65 0,95053
0,16 0,56356 0,66 0,74537 1,16 0,87698 1,66 0,95154
0,17 0,56749 0,67 0,74857 1,17 0,87900 1,67 0,95254
0,18 0,57142 0,68 0,75175 1,18 0,88100 1,68 0,95352
0,19 0,57535 0,69 0,75490 1,19 0,88298 1,69 0,95449
0,20 0,57926 0,70 0,75804 1,20 0,88493 1,70 0,95543
0,21 0,58317 0,71 0,76115 1,21 0,88686 1,71 0,95637
0,22 0,58706 0,72 0,76424 1,22 0,88877 1,72 0,95728
0,23 0,59095 0,73 0,76730 1,23 0,89065 1,73 0,95818
0,24 0,59483 0,74 0,77035 1,24 0,89251 1,74 0,95907
0,25 0,59871 0,75 0,77337 1,25 0,89435 1,75 0,95994
0,26 0,60257 0,76 0,77637 1,26 0,89617 1,76 0,96080
0,27 0,60642 0,77 0,77935 1,27 0,89796 1,77 0,96164
0,28 0,61026 0,78 0,78230 1,28 0,89973 1,78 0,96246
0,29 0,61409 0,79 0,78524 1,29 0,90147 1,79 0,96327
0,30 0,61791 0,80 0,78814 1,30 0,90320 1,80 0,96407
0,31 0,62172 0,81 0,79103 1,31 0,90490 1,81 0,96485
0,32 0,62552 0,82 0,79389 1,32 0,90658 1,82 0,96562
0,33 0,62930 0,83 0,79673 1,33 0,90824 1,83 0,96638
0,34 0,63307 0,84 0,79955 1,34 0,90988 1,84 0,96712
0,35 0,63683 0,85 0,80234 1,35 0,91149 1,85 0,96784
0,36 0,64058 0,86 0,80511 1,36 0,91309 1,86 0,96856
0,37 0,64431 0,87 0,80785 1,37 0,91466 1,87 0,96926
0,38 0,64803 0,88 0,81057 1,38 0,91621 1,88 0,96995
0,39 0,65173 0,89 0,81327 1,39 0,91774 1,89 0,97062
0,40 0,65542 0,90 0,81594 1,40 0,91924 1,90 0,97128
0,41 0,65910 0,91 0,81859 1,41 0,92073 1,91 0,97193
0,42 0,66276 0,92 0,82121 1,42 0,92220 1,92 0,97257
0,43 0,66640 0,93 0,82381 1,43 0,92364 1,93 0,97320
0,44 0,67003 0,94 0,82639 1,44 0,92507 1,94 0,97381
0,45 0,67364 0,95 0,82894 1,45 0,92647 1,95 0,97441
0,46 0,67724 0,96 0,83147 1,46 0,92785 1,96 0,97500
0,47 0,68082 0,97 0,83398 1,47 0,92922 1,97 0,97558
0,48 0,68439 0,98 0,83646 1,48 0,93056 1,98 0,97615
0,49 0,68793 0,99 0,83891 1,49 0,93189 1,99 0,97670
$(-«) = 1 - $(«)
148
Distribuční funkce standardizovaneho normalního rozložení
u $(w) u $(w) u $(w) u $(w)
2,00 0,97725 2,50 0,99379 3,00 0,99865 3,50 0,99977
2,01 0,97778 2,51 0,99396 3,01 0,99869 3,51 0,99978
2,02 0,97831 2,52 0,99413 3,02 0,99874 3,52 0,99978
2,03 0,97882 2,53 0,99430 3,03 0,99878 3,53 0,99979
2,04 0,97932 2,54 0,99446 3,04 0,99882 3,54 0,99980
2,05 0,97982 2,55 0,99461 3,05 0,99886 3,55 0,99981
2,06 0,98030 2,56 0,99477 3,06 0,99889 3,56 0,99981
2,07 0,98077 2,57 0,99492 3,07 0,99893 3,57 0,99982
2,08 0,98124 2,58 0,99506 3,08 0,99897 3,58 0,99983
2,09 0,98169 2,59 0,99520 3,09 0,99900 3,59 0,99983
2,10 0,98214 2,60 0,99534 3,10 0,99903 3,60 0,99984
2,11 0,98257 2,61 0,99547 3,11 0,99906 3,61 0,99985
2,12 0,98300 2,62 0,99560 3,12 0,99910 3,62 0,99985
2,13 0,98341 2,63 0,99573 3,13 0,99913 3,63 0,99986
2,14 0,98382 2,64 0,99585 3,14 0,99916 3,64 0,99986
2,15 0,98422 2,65 0,99598 3,15 0,99918 3,65 0,99987
2,16 0,98461 2,66 0,99609 3,16 0,99921 3,66 0,99987
2,17 0,98500 2,67 0,99621 3,17 0,99924 3,67 0,99988
2,18 0,98537 2,68 0,99632 3,18 0,99926 3,68 0,99988
2,19 0,98574 2,69 0,99643 3,19 0,99929 3,69 0,99989
2,20 0,98610 2,70 0,99653 3,20 0,99931 3,70 0,99989
2,21 0,98645 2,71 0,99664 3,21 0,99934 3,71 0,99990
2,22 0,98679 2,72 0,99674 3,22 0,99936 3,72 0,99990
2,23 0,98713 2,73 0,99683 3,23 0,99938 3,73 0,99990
2,24 0,98745 2,74 0,99693 3,24 0,99940 3,74 0,99991
2,25 0,98778 2,75 0,99702 3,25 0,99942 3,75 0,99991
2,26 0,98809 2,76 0,99711 3,26 0,99944 3,76 0,99992
2,27 0,98840 2,77 0,99720 3,27 0,99946 3,77 0,99992
2,28 0,98870 2,78 0,99728 3,28 0,99948 3,78 0,99992
2,29 0,98899 2,79 0,99736 3,29 0,99950 3,79 0,99992
2,30 0,98928 2,80 0,99744 3,30 0,99952 3,80 0,99993
2,31 0,98956 2,81 0,99752 3,31 0,99953 3,81 0,99993
2,32 0,98983 2,82 0,99760 3,32 0,99955 3,82 0,99993
2,33 0,99010 2,83 0,99767 3,33 0,99957 3,83 0,99994
2,34 0,99036 2,84 0,99774 3,34 0,99958 3,84 0,99994
2,35 0,99061 2,85 0,99781 3,35 0,99960 3,85 0,99994
2,36 0,99086 2,86 0,99788 3,36 0,99961 3,86 0,99994
2,37 0,99111 2,87 0,99795 3,37 0,99962 3,87 0,99995
2,38 0,99134 2,88 0,99801 3,38 0,99964 3,88 0,99995
2,39 0,99158 2,89 0,99807 3,39 0,99965 3,89 0,99995
2,40 0,99180 2,90 0,99813 3,40 0,99966 3,90 0,99995
2,41 0,99202 2,91 0,99819 3,41 0,99968 3,91 0,99995
2,42 0,99224 2,92 0,99825 3,42 0,99969 3,92 0,99996
2,43 0,99245 2,93 0,99831 3,43 0,99970 3,93 0,99996
2,44 0,99266 2,94 0,99836 3,44 0,99971 3,94 0,99996
2,45 0,99286 2,95 0,99841 3,45 0,99972 3,95 0,99996
2,46 0,99305 2,96 0,99846 3,46 0,99973 3,96 0,99996
2,47 0,99324 2,97 0,99851 3,47 0,99974 3,97 0,99996
2,48 0,99343 2,98 0,99856 3,48 0,99975 3,98 0,99997
2,49 0,99361 2,99 0,99861 3,49 0,99976 3,99 0,99997
149
Příloha A - Statistické tabulky
Kvantily standardizovaného normálního rozložení
a a a a
0,500 0,00000 0,850 1,03643 0,930 1,47579 0,965 1,81191
0,510 0,02507 0,860 1,08032 0,931 1,48328 0,966 1,82501
0,520 0,05015 0,870 1,12639 0,932 1,49085 0,967 1,83842
0,530 0,07527 0,880 1,17499 0,933 1,49851 0,968 1,85218
0,540 0,10043 0,890 1,22653 0,934 1,50626 0,969 1,86630
0,550 0,12566 0,900 1,28155 0,935 1,51410 0,970 1,88079
0,560 0,15097 0,901 1,28727 0,936 1,52204 0,971 1,89570
0,570 0,17637 0,902 1,29303 0,937 1,53007 0,972 1,91104
0,580 0,20189 0,903 1,29884 0,938 1,53820 0,973 1,92684
0,590 0,22754 0,904 1,30469 0,939 1,54643 0,974 1,94313
0,600 0,25335 0,905 1,31058 0,940 1,55477 0,975 1,95996
0,610 0,27932 0,906 1,31652 0,941 1,56322 0,976 1,97737
0,620 0,30548 0,907 1,32251 0,942 1,57179 0,977 1,99539
0,630 0,33185 0,908 1,32854 0,943 1,58047 0,978 2,01409
0,640 0,35846 0,909 1,33462 0,944 1,58927 0,979 2,03352
0,650 0,38532 0,910 1,34076 0,945 1,59819 0,980 2,05375
0,660 0,41246 0,911 1,34694 0,946 1,60725 0,981 2,07485
0,670 0,43991 0,912 1,35317 0,947 1,61644 0,982 2,09693
0,680 0,46770 0,913 1,35946 0,948 1,62576 0,983 2,12007
0,690 0,49585 0,914 1,36581 0,949 1,63523 0,984 2,14441
0,700 0,52440 0,915 1,37220 0,950 1,64485 0,985 2,17009
0,710 0,55338 0,916 1,37866 0,951 1,65463 0,986 2,19729
0,720 0,58284 0,917 1,38517 0,952 1,66456 0,987 2,22621
0,730 0,61281 0,918 1,39174 0,953 1,67466 0,988 2,25713
0,740 0,64335 0,919 1,39838 0,954 1,68494 0,989 2,29037
0,750 0,67449 0,920 1,40507 0,955 1,69540 0,990 2,32635
0,760 0,70630 0,921 1,41183 0,956 1,70604 0,991 2,36562
0,770 0,73885 0,922 1,41865 0,957 1,71689 0,992 2,40892
0,780 0,77219 0,923 1,42554 0,958 1,72793 0,993 2,45726
0,790 0,80642 0,924 1,43250 0,959 1,73920 0,994 2,51214
0,800 0,84162 0,925 1,43953 0,960 1,75069 0,995 2,57583
0,810 0,87790 0,926 1,44663 0,961 1,76241 0,996 2,65207
0,820 0,91537 0,927 1,45381 0,962 1,77438 0,997 2,74778
0,830 0,95417 0,928 1,46106 0,963 1,78661 0,998 2,87816
0,840 0,99446 0,929 1,46838 0,964 1,79912 0,999 3,09023
150
Kvantily Pearsonova rozložení
n 0,001 0,005 a 0,010 0,025 0,050
0,001 0,005 0,010 0,025 0,050
1 0,000 0,000 0,000 0,001 0,004
2 0,002 0,010 0,020 0,051 0,103
3 0,024 0,072 0,115 0,216 0,352
4 0,091 0,207 0,297 0,484 0,711
5 0,210 0,412 0,554 0,831 1,145
6 0,381 0,676 0,872 1,237 1,635
7 0,598 0,989 1,239 1,690 2,167
8 0,857 1,344 1,646 2,180 2,733
9 1,152 1,735 2,088 2,700 3,325
10 1,479 2,156 2,558 3,247 3,940
11 1,834 2,603 3,053 3,816 4,575
12 2,214 3,074 3,571 4,404 5,226
13 2,617 3,565 4,107 5,009 5,892
14 3,041 4,075 4,660 5,629 6,571
15 3,483 4,601 5,229 6,262 7,261
16 3,942 5,142 5,812 6,908 7,962
17 4,416 5,697 6,408 7,564 8,672
18 4,905 6,265 7,015 8,231 9,390
19 5,407 6,844 7,633 8,907 10,117
20 5,921 7,434 8,260 9,591 10,851
21 6,447 8,034 8,897 10,283 11,591
22 6,983 8,643 9,542 10,982 12,338
23 7,529 9,260 10,196 11,689 13,091
24 8,085 9,886 10,856 12,401 13,848
25 8,649 10,520 11,524 13,120 14,611
26 9,222 11,160 12,198 13,844 15,379
27 9,803 11,808 12,879 14,573 16,151
28 10,391 12,461 13,565 15,308 16,928
29 10,986 13,121 14,256 16,047 17,708
30 11,588 13,787 14,953 16,791 18,493
35 14,688 17,192 18,509 20,569 22,465
40 17,916 20,707 22,164 24,433 26,509
45 21,251 24,311 25,901 28,366 30,612
50 24,674 27,991 29,707 32,357 34,764
55 28,173 31,735 33,570 36,398 38,958
60 31,738 35,534 37,485 40,482 43,188
65 35,362 39,383 41,444 44,603 47,450
70 39,036 43,275 45,442 48,758 51,739
75 42,757 47,206 49,475 52,942 56,054
80 46,520 51,172 53,540 57,153 60,391
85 50,320 55,170 57,634 61,389 64,749
90 54,155 59,196 61,754 65,647 69,126
95 58,022 63,250 65,898 69,925 73,520
100 61,918 67,328 70,065 74,222 77,929
151
Príloha A - Statistické tabulky
Kvantily Pearsonova rozloZení
n 0,950 0,975 a 0,990 0,995 0,999
1 3,841 5,024 6,635 7,879 10,828
2 5,991 7,378 9,210 10,597 13,816
3 7,815 9,348 11,345 12,838 16,266
4 9,488 11,143 13,277 14,860 18,467
5 11,070 12,833 15,086 16,750 20,515
6 12,592 14,449 16,812 18,548 22,458
7 14,067 16,013 18,475 20,278 24,322
8 15,507 17,535 20,090 21,955 26,124
9 16,919 19,023 21,666 23,589 27,877
10 18,307 20,483 23,209 25,188 29,588
11 19,675 21,920 24,725 26,757 31,264
12 21,026 23,337 26,217 28,300 32,909
13 22,362 24,736 27,688 29,819 34,528
14 23,685 26,119 29,141 31,319 36,123
15 24,996 27,488 30,578 32,801 37,697
16 26,296 28,845 32,000 34,267 39,252
17 27,587 30,191 33,409 35,718 40,790
18 28,869 31,526 34,805 37,156 42,312
19 30,144 32,852 36,191 38,582 43,820
20 31,410 34,170 37,566 39,997 45,315
21 32,671 35,479 38,932 41,401 46,797
22 33,924 36,781 40,289 42,796 48,268
23 35,172 38,076 41,638 44,181 49,728
24 36,415 39,364 42,980 45,559 51,179
25 37,652 40,646 44,314 46,928 52,620
26 38,885 41,923 45,642 48,290 54,052
27 40,113 43,195 46,963 49,645 55,476
28 41,337 44,461 48,278 50,993 56,892
29 42,557 45,722 49,588 52,336 58,301
30 43,773 46,979 50,892 53,672 59,703
35 49,802 53,203 57,342 60,275 66,619
40 55,758 59,342 63,691 66,766 73,402
45 61,656 65,410 69,957 73,166 80,077
50 67,505 71,420 76,154 79,490 86,661
55 73,311 77,380 82,292 85,749 93,168
60 79,082 83,298 88,379 91,952 99,607
65 84,821 89,177 94,422 98,105 105,988
70 90,531 95,023 100,425 104,215 112,317
75 96,217 100,839 106,393 110,286 118,599
80 101,879 106,629 112,329 116,321 124,839
85 107,522 112,393 118,236 122,325 131,041
90 113,145 118,136 124,116 128,299 137,208
95 118,752 123,858 129,973 134,247 143,344
100 124,342 129,561 135,807 140,169 149,449
152
Kvantily Studentova rozložení
n 0,900 0,950 0,975 a 0,990 0,995 0,999
1 3,0777 6,3138 12,7062 31,8205 63,6567 318,3088
2 1,8856 2,9200 4,3027 6,9646 9,9248 22,3271
3 1,6377 2,3534 3,1824 4,5407 5,8409 10,2145
4 1,5332 2,1318 2,7764 3,7469 4,6041 7,1732
5 1,4759 2,0150 2,5706 3,3649 4,0321 5,8934
6 1,4398 1,9432 2,4469 3,1427 3,7074 5,2076
7 1,4149 1,8946 2,3646 2,9980 3,4995 4,7853
8 1,3968 1,8595 2,3060 2,8965 3,3554 4,5008
9 1,3830 1,8331 2,2622 2,8214 3,2498 4,2968
10 1,3722 1,8125 2,2281 2,7638 3,1693 4,1437
11 1,3634 1,7959 2,2010 2,7181 3,1058 4,0247
12 1,3562 1,7823 2,1788 2,6810 3,0545 3,9296
13 1,3502 1,7709 2,1604 2,6503 3,0123 3,8520
14 1,3450 1,7613 2,1448 2,6245 2,9768 3,7874
15 1,3406 1,7531 2,1314 2,6025 2,9467 3,7328
16 1,3368 1,7459 2,1199 2,5835 2,9208 3,6862
17 1,3334 1,7396 2,1098 2,5669 2,8982 3,6458
18 1,3304 1,7341 2,1009 2,5524 2,8784 3,6105
19 1,3277 1,7291 2,0930 2,5395 2,8609 3,5794
20 1,3253 1,7247 2,0860 2,5280 2,8453 3,5518
21 1,3232 1,7207 2,0796 2,5176 2,8314 3,5272
22 1,3212 1,7171 2,0739 2,5083 2,8188 3,5050
23 1,3195 1,7139 2,0687 2,4999 2,8073 3,4850
24 1,3178 1,7109 2,0639 2,4922 2,7969 3,4668
25 1,3163 1,7081 2,0595 2,4851 2,7874 3,4502
26 1,3150 1,7056 2,0555 2,4786 2,7787 3,4350
27 1,3137 1,7033 2,0518 2,4727 2,7707 3,4210
28 1,3125 1,7011 2,0484 2,4671 2,7633 3,4082
29 1,3114 1,6991 2,0452 2,4620 2,7564 3,3962
30 1,3104 1,6973 2,0423 2,4573 2,7500 3,3852
oo 1,2816 1,6449 1,9600 2,3263 2,5758 3,0000
153
Příloha A - Statistické tabulky
Kvantily Fischerova-Snedecorova rozložení pro a = 0,95
ri2 1 2 3 ni 4 5 6 7
1 161,4500 199,5000 215,7074 224,5832 230,1619 233,9860 236,7684
2 18,5128 19,0000 19,1643 19,2468 19,2964 19,3295 19,3532
3 10,1280 9,5521 9,2766 9,1172 9,0135 8,9406 8,8867
4 7,7086 6,9443 6,5914 6,3882 6,2561 6,1631 6,0942
5 6,6079 5,7861 5,4095 5,1922 5,0503 4,9503 4,8759
6 5,9874 5,1433 4,7571 4,5337 4,3874 4,2839 4,2067
7 5,5914 4,7374 4,3468 4,1203 3,9715 3,8660 3,7870
8 5,3177 4,4590 4,0662 3,8379 3,6875 3,5806 3,5005
9 5,1174 4,2565 3,8625 3,6331 3,4817 3,3738 3,2927
10 4,9646 4,1028 3,7083 3,4780 3,3258 3,2172 3,1355
11 4,8443 3,9823 3,5874 3,3567 3,2039 3,0946 3,0123
12 4,7472 3,8853 3,4903 3,2592 3,1059 2,9961 2,9134
13 4,6672 3,8056 3,4105 3,1791 3,0254 2,9153 2,8321
14 4,6001 3,7389 3,3439 3,1122 2,9582 2,8477 2,7642
15 4,5431 3,6823 3,2874 3,0556 2,9013 2,7905 2,7066
16 4,4940 3,6337 3,2389 3,0069 2,8524 2,7413 2,6572
17 4,4513 3,5915 3,1968 2,9647 2,8100 2,6987 2,6143
18 4,4139 3,5546 3,1599 2,9277 2,7729 2,6613 2,5767
19 4,3807 3,5219 3,1274 2,8951 2,7401 2,6283 2,5435
20 4,3512 3,4928 3,0984 2,8661 2,7109 2,5990 2,5140
21 4,3248 3,4668 3,0725 2,8401 2,6848 2,5727 2,4876
22 4,3009 3,4434 3,0491 2,8167 2,6613 2,5491 2,4638
23 4,2793 3,4221 3,0280 2,7955 2,6400 2,5277 2,4422
24 4,2597 3,4028 3,0088 2,7763 2,6207 2,5082 2,4226
25 4,2417 3,3852 2,9912 2,7587 2,6030 2,4904 2,4047
26 4,2252 3,3690 2,9752 2,7426 2,5868 2,4741 2,3883
27 4,2100 3,3541 2,9604 2,7278 2,5719 2,4591 2,3732
28 4,1960 3,3404 2,9467 2,7141 2,5581 2,4453 2,3593
29 4,1830 3,3277 2,9340 2,7014 2,5454 2,4324 2,3463
30 4,1709 3,3158 2,9223 2,6896 2,5336 2,4205 2,3343
40 4,0847 3,2317 2,8387 2,6060 2,4495 2,3359 2,2490
60 4,0012 3,1504 2,7581 2,5252 2,3683 2,2541 2,1665
80 3,9604 3,1108 2,7188 2,4859 2,3287 2,2142 2,1263
120 3,9201 3,0718 2,6802 2,4472 2,2899 2,1750 2,0868
oo 3,8415 2,9957 2,6049 2,3719 2,2141 2,0986 2,0096
154
Kvantily Fischerova-Snedecorova rozložení pro a = 0,95
ri2 8 9 10 ni 11 12 13 14
1 238,8827 240,5433 241,8818 242,9835 243,9060 244,6899 245,3640
2 19,3710 19,3848 19,3959 19,4050 19,4125 19,4189 19,4244
3 8,8452 8,8123 8,7855 8,7633 8,7446 8,7287 8,7149
4 6,0410 5,9988 5,9644 5,9358 5,9117 5,8911 5,8733
5 4,8183 4,7725 4,7351 4,7040 4,6777 4,6552 4,6358
6 4,1468 4,0990 4,0600 4,0274 3,9999 3,9764 3,9559
7 3,7257 3,6767 3,6365 3,6030 3,5747 3,5503 3,5292
8 3,4381 3,3881 3,3472 3,3130 3,2839 3,2590 3,2374
9 3,2296 3,1789 3,1373 3,1025 3,0729 3,0475 3,0255
10 3,0717 3,0204 2,9782 2,9430 2,9130 2,8872 2,8647
11 2,9480 2,8962 2,8536 2,8179 2,7876 2,7614 2,7386
12 2,8486 2,7964 2,7534 2,7173 2,6866 2,6602 2,6371
13 2,7669 2,7144 2,6710 2,6347 2,6037 2,5769 2,5536
14 2,6987 2,6458 2,6022 2,5655 2,5342 2,5073 2,4837
15 2,6408 2,5876 2,5437 2,5068 2,4753 2,4481 2,4244
16 2,5911 2,5377 2,4935 2,4564 2,4247 2,3973 2,3733
17 2,5480 2,4943 2,4499 2,4126 2,3807 2,3531 2,3290
18 2,5102 2,4563 2,4117 2,3742 2,3421 2,3143 2,2900
19 2,4768 2,4227 2,3779 2,3402 2,3080 2,2800 2,2556
20 2,4471 2,3928 2,3479 2,3100 2,2776 2,2495 2,2250
21 2,4205 2,3660 2,3210 2,2829 2,2504 2,2222 2,1975
22 2,3965 2,3419 2,2967 2,2585 2,2258 2,1975 2,1727
23 2,3748 2,3201 2,2747 2,2364 2,2036 2,1752 2,1502
24 2,3551 2,3002 2,2547 2,2163 2,1834 2,1548 2,1298
25 2,3371 2,2821 2,2365 2,1979 2,1649 2,1362 2,1111
26 2,3205 2,2655 2,2197 2,1811 2,1479 2,1192 2,0939
27 2,3053 2,2501 2,2043 2,1655 2,1323 2,1035 2,0781
28 2,2913 2,2360 2,1900 2,1512 2,1179 2,0889 2,0635
29 2,2783 2,2229 2,1768 2,1379 2,1045 2,0755 2,0500
30 2,2662 2,2107 2,1646 2,1256 2,0921 2,0630 2,0374
40 2,1802 2,1240 2,0772 2,0376 2,0035 1,9738 1,9476
60 2,0970 2,0401 1,9926 1,9522 1,9174 1,8870 1,8602
80 2,0564 1,9991 1,9512 1,9105 1,8753 1,8445 1,8174
120 2,0164 1,9588 1,9105 1,8693 1,8337 1,8026 1,7750
oo 1,9384 1,8799 1,8307 1,7886 1,7522 1,7202 1,6918
155
Příloha A - Statistické tabulky
Kvantily Fischerova-Snedecorova rozložení pro a = 0,95
ri2 15 16 17 ni 18 19 20 25
1 245,9499 246,4639 246,9184 247,3232 247,6861 248,0131 249,2601
2 19,4291 19,4333 19,4370 19,4402 19,4431 19,4458 19,4558
3 8,7029 8,6923 8,6829 8,6745 8,6670 8,6602 8,6341
4 5,8578 5,8441 5,8320 5,8211 5,8114 5,8025 5,7687
5 4,6188 4,6038 4,5904 4,5785 4,5678 4,5581 4,5209
6 3,9381 3,9223 3,9083 3,8957 3,8844 3,8742 3,8348
7 3,5107 3,4944 3,4799 3,4669 3,4551 3,4445 3,4036
8 3,2184 3,2016 3,1867 3,1733 3,1613 3,1503 3,1081
9 3,0061 2,9890 2,9737 2,9600 2,9477 2,9365 2,8932
10 2,8450 2,8276 2,8120 2,7980 2,7854 2,7740 2,7298
11 2,7186 2,7009 2,6851 2,6709 2,6581 2,6464 2,6014
12 2,6169 2,5989 2,5828 2,5684 2,5554 2,5436 2,4977
13 2,5331 2,5149 2,4987 2,4841 2,4709 2,4589 2,4123
14 2,4630 2,4446 2,4282 2,4134 2,4000 2,3879 2,3407
15 2,4034 2,3849 2,3683 2,3533 2,3398 2,3275 2,2797
16 2,3522 2,3335 2,3167 2,3016 2,2880 2,2756 2,2272
17 2,3077 2,2888 2,2719 2,2567 2,2429 2,2304 2,1815
18 2,2686 2,2496 2,2325 2,2172 2,2033 2,1906 2,1413
19 2,2341 2,2149 2,1977 2,1823 2,1683 2,1555 2,1057
20 2,2033 2,1840 2,1667 2,1511 2,1370 2,1242 2,0739
21 2,1757 2,1563 2,1389 2,1232 2,1090 2,0960 2,0454
22 2,1508 2,1313 2,1138 2,0980 2,0837 2,0707 2,0196
23 2,1282 2,1086 2,0910 2,0751 2,0608 2,0476 1,9963
24 2,1077 2,0880 2,0703 2,0543 2,0399 2,0267 1,9750
25 2,0889 2,0691 2,0513 2,0353 2,0207 2,0075 1,9554
26 2,0716 2,0518 2,0339 2,0178 2,0032 1,9898 1,9375
27 2,0558 2,0358 2,0179 2,0017 1,9870 1,9736 1,9210
28 2,0411 2,0210 2,0030 1,9868 1,9720 1,9586 1,9057
29 2,0275 2,0073 1,9893 1,9730 1,9581 1,9446 1,8915
30 2,0148 1,9946 1,9765 1,9601 1,9452 1,9317 1,8782
40 1,9245 1,9037 1,8851 1,8682 1,8529 1,8389 1,7835
60 1,8364 1,8151 1,7959 1,7784 1,7625 1,7480 1,6902
80 1,7932 1,7716 1,7520 1,7342 1,7180 1,7032 1,6440
120 1,7505 1,7285 1,7085 1,6904 1,6739 1,6587 1,5980
oo 1,6640 1,6435 1,6228 1,6038 1,5865 1,5705 1,5061
156
Kvantily Fischerova-Snedecorova rozložení pro a = 0,95
ri2 30 40 ni 60 80 120 oo
1 250,0952 251,1432 252,1957 252,7237 253,2529 254,3100
2 19,4624 19,4707 19,4791 19,4832 19,4874 19,4960
3 8,6166 8,5944 8,5720 8,5607 8,5494 8,5264
4 5,7459 5,7170 5,6877 5,6730 5,6581 5,6281
5 4,4957 4,4638 4,4314 4,4150 4,3985 4,3650
6 3,8082 3,7743 3,7398 3,7223 3,7047 3,6689
7 3,3758 3,3404 3,3043 3,2860 3,2674 3,2298
8 3,0794 3,0428 3,0053 2,9862 2,9669 2,9276
9 2,8637 2,8259 2,7872 2,7675 2,7475 2,7067
10 2,6996 2,6609 2,6211 2,6008 2,5801 2,5379
11 2,5705 2,5309 2,4901 2,4692 2,4480 2,4045
12 2,4663 2,4259 2,3842 2,3628 2,3410 2,2962
13 2,3803 2,3392 2,2966 2,2747 2,2524 2,2064
14 2,3082 2,2664 2,2229 2,2006 2,1778 2,1307
15 2,2468 2,2043 2,1601 2,1373 2,1141 2,0658
16 2,1938 2,1507 2,1058 2,0826 2,0589 2,0096
17 2,1477 2,1040 2,0584 2,0348 2,0107 1,9604
18 2,1071 2,0629 2,0166 1,9927 1,9681 1,9168
19 2,0712 2,0264 1,9795 1,9552 1,9302 1,8780
20 2,0391 1,9938 1,9464 1,9217 1,8963 1,8432
21 2,0102 1,9645 1,9165 1,8915 1,8657 1,8117
22 1,9842 1,9380 1,8894 1,8641 1,8380 1,7831
23 1,9605 1,9139 1,8648 1,8392 1,8128 1,7570
24 1,9390 1,8920 1,8424 1,8164 1,7896 1,7330
25 1,9192 1,8718 1,8217 1,7955 1,7684 1,7110
26 1,9010 1,8533 1,8027 1,7762 1,7488 1,6906
27 1,8842 1,8361 1,7851 1,7584 1,7306 1,6717
28 1,8687 1,8203 1,7689 1,7418 1,7138 1,6541
29 1,8543 1,8055 1,7537 1,7264 1,6981 1,6376
30 1,8409 1,7918 1,7396 1,7121 1,6835 1,6223
40 1,7444 1,6928 1,6373 1,6077 1,5766 1,5089
60 1,6491 1,5943 1,5343 1,5019 1,4673 1,3893
80 1,6017 1,5449 1,4821 1,4477 1,4107 1,3247
120 1,5543 1,4952 1,4290 1,3922 1,3519 1,2539
oo 1,4591 1,3940 1,3180 1,2735 1,2214 1,0000
157
Příloha A - Statistické tabulky
Kvantily Fischerova-Snedecorova rozložení pro a = 0,975
ri2 1 2 3 ni 4 5 6 7
1 647,7890 799,5000 864,1630 899,5833 921,8479 937,1111 948,2169
2 38,5063 39,0000 39,1655 39,2484 39,2982 39,3315 39,3552
3 17,4434 16,0441 15,4392 15,1010 14,8848 14,7347 14,6244
4 12,2179 10,6491 9,9792 9,6045 9,3645 9,1973 9,0741
5 10,0070 8,4336 7,7636 7,3879 7,1464 6,9777 6,8531
6 8,8131 7,2599 6,5988 6,2272 5,9876 5,8198 5,6955
7 8,0727 6,5415 5,8898 5,5226 5,2852 5,1186 4,9949
8 7,5709 6,0595 5,4160 5,0526 4,8173 4,6517 4,5286
9 7,2093 5,7147 5,0781 4,7181 4,4844 4,3197 4,1970
10 6,9367 5,4564 4,8256 4,4683 4,2361 4,0721 3,9498
11 6,7241 5,2559 4,6300 4,2751 4,0440 3,8807 3,7586
12 6,5538 5,0959 4,4742 4,1212 3,8911 3,7283 3,6065
13 6,4143 4,9653 4,3472 3,9959 3,7667 3,6043 3,4827
14 6,2979 4,8567 4,2417 3,8919 3,6634 3,5014 3,3799
15 6,1995 4,7650 4,1528 3,8043 3,5764 3,4147 3,2934
16 6,1151 4,6867 4,0768 3,7294 3,5021 3,3406 3,2194
17 6,0420 4,6189 4,0112 3,6648 3,4379 3,2767 3,1556
18 5,9781 4,5597 3,9539 3,6083 3,3820 3,2209 3,0999
19 5,9216 4,5075 3,9034 3,5587 3,3327 3,1718 3,0509
20 5,8715 4,4613 3,8587 3,5147 3,2891 3,1283 3,0074
21 5,8266 4,4199 3,8188 3,4754 3,2501 3,0895 2,9686
22 5,7863 4,3828 3,7829 3,4401 3,2151 3,0546 2,9338
23 5,7498 4,3492 3,7505 3,4083 3,1835 3,0232 2,9023
24 5,7166 4,3187 3,7211 3,3794 3,1548 2,9946 2,8738
25 5,6864 4,2909 3,6943 3,3530 3,1287 2,9685 2,8478
26 5,6586 4,2655 3,6697 3,3289 3,1048 2,9447 2,8240
27 5,6331 4,2421 3,6472 3,3067 3,0828 2,9228 2,8021
28 5,6096 4,2205 3,6264 3,2863 3,0626 2,9027 2,7820
29 5,5878 4,2006 3,6072 3,2674 3,0438 2,8840 2,7633
30 5,5675 4,1821 3,5894 3,2499 3,0265 2,8667 2,7460
40 5,4239 4,0510 3,4633 3,1261 2,9037 2,7444 2,6238
60 5,2856 3,9253 3,3425 3,0077 2,7863 2,6274 2,5068
80 5,2184 3,8643 3,2841 2,9504 2,7295 2,5708 2,4502
120 5,1523 3,8046 3,2269 2,8943 2,6740 2,5154 2,3948
oo 5,0239 3,6889 3,1161 2,7858 2,5665 2,4082 2,2875
158
Kvantily Fischerova-Snedecorova rozložení pro a = 0,975
ri2 8 9 10 ni 11 12 13 14
1 956,6562 963,2846 968,6274 973,0252 976,7080 979,8368 982,5278
2 39,3730 39,3869 39,3980 39,4071 39,4146 39,4210 39,4265
3 14,5399 14,4731 14,4189 14,3742 14,3366 14,3045 14,2768
4 8,9796 8,9047 8,8439 8,7935 8,7512 8,7150 8,6838
5 6,7572 6,6811 6,6192 6,5678 6,5245 6,4876 6,4556
6 5,5996 5,5234 5,4613 5,4098 5,3662 5,3290 5,2968
7 4,8993 4,8232 4,7611 4,7095 4,6658 4,6285 4,5961
8 4,4333 4,3572 4,2951 4,2434 4,1997 4,1622 4,1297
9 4,1020 4,0260 3,9639 3,9121 3,8682 3,8306 3,7980
10 3,8549 3,7790 3,7168 3,6649 3,6209 3,5832 3,5504
11 3,6638 3,5879 3,5257 3,4737 3,4296 3,3917 3,3588
12 3,5118 3,4358 3,3736 3,3215 3,2773 3,2393 3,2062
13 3,3880 3,3120 3,2497 3,1975 3,1532 3,1150 3,0819
14 3,2853 3,2093 3,1469 3,0946 3,0502 3,0119 2,9786
15 3,1987 3,1227 3,0602 3,0078 2,9633 2,9249 2,8915
16 3,1248 3,0488 2,9862 2,9337 2,8890 2,8506 2,8170
17 3,0610 2,9849 2,9222 2,8696 2,8249 2,7863 2,7526
18 3,0053 2,9291 2,8664 2,8137 2,7689 2,7302 2,6964
19 2,9563 2,8801 2,8172 2,7645 2,7196 2,6808 2,6469
20 2,9128 2,8365 2,7737 2,7209 2,6758 2,6369 2,6030
21 2,8740 2,7977 2,7348 2,6819 2,6368 2,5978 2,5638
22 2,8392 2,7628 2,6998 2,6469 2,6017 2,5626 2,5285
23 2,8077 2,7313 2,6682 2,6152 2,5699 2,5308 2,4966
24 2,7791 2,7027 2,6396 2,5865 2,5411 2,5019 2,4677
25 2,7531 2,6766 2,6135 2,5603 2,5149 2,4756 2,4413
26 2,7293 2,6528 2,5896 2,5363 2,4908 2,4515 2,4171
27 2,7074 2,6309 2,5676 2,5143 2,4688 2,4293 2,3949
28 2,6872 2,6106 2,5473 2,4940 2,4484 2,4089 2,3743
29 2,6686 2,5919 2,5286 2,4752 2,4295 2,3900 2,3554
30 2,6513 2,5746 2,5112 2,4577 2,4120 2,3724 2,3378
40 2,5289 2,4519 2,3882 2,3343 2,2882 2,2481 2,2130
60 2,4117 2,3344 2,2702 2,2159 2,1692 2,1286 2,0929
80 2,3549 2,2775 2,2130 2,1584 2,1115 2,0706 2,0346
120 2,2994 2,2217 2,1570 2,1021 2,0548 2,0136 1,9773
oo 2,1918 2,1136 2,0483 1,9927 1,9447 1,9027 1,8656
159
Příloha A - Statistické tabulky
Kvantily Fischerova-Snedecorova rozložení pro a = 0,975
ri2 15 16 17 ni 18 19 20 25
1 984,8668 986,9187 988,7331 990,3490 991,7973 993,1028 998,0808
2 39,4313 39,4354 39,4391 39,4424 39,4453 39,4479 39,4579
3 14,2527 14,2315 14,2127 14,1960 14,1810 14,1674 14,1155
4 8,6565 8,6326 8,6113 8,5924 8,5753 8,5599 8,5010
5 6,4277 6,4032 6,3814 6,3619 6,3444 6,3286 6,2679
6 5,2687 5,2439 5,2218 5,2021 5,1844 5,1684 5,1069
7 4,5678 4,5428 4,5206 4,5008 4,4829 4,4667 4,4045
8 4,1012 4,0761 4,0538 4,0338 4,0158 3,9995 3,9367
9 3,7694 3,7441 3,7216 3,7015 3,6833 3,6669 3,6035
10 3,5217 3,4963 3,4737 3,4534 3,4351 3,4185 3,3546
11 3,3299 3,3044 3,2816 3,2612 3,2428 3,2261 3,1616
12 3,1772 3,1515 3,1286 3,1081 3,0896 3,0728 3,0077
13 3,0527 3,0269 3,0039 2,9832 2,9646 2,9477 2,8821
14 2,9493 2,9234 2,9003 2,8795 2,8607 2,8437 2,7777
15 2,8621 2,8360 2,8128 2,7919 2,7730 2,7559 2,6894
16 2,7875 2,7614 2,7380 2,7170 2,6980 2,6808 2,6138
17 2,7230 2,6968 2,6733 2,6522 2,6331 2,6158 2,5484
18 2,6667 2,6404 2,6168 2,5956 2,5764 2,5590 2,4912
19 2,6171 2,5907 2,5670 2,5457 2,5265 2,5089 2,4408
20 2,5731 2,5465 2,5228 2,5014 2,4821 2,4645 2,3959
21 2,5338 2,5071 2,4833 2,4618 2,4424 2,4247 2,3558
22 2,4984 2,4717 2,4478 2,4262 2,4067 2,3890 2,3198
23 2,4665 2,4396 2,4157 2,3940 2,3745 2,3567 2,2871
24 2,4374 2,4105 2,3865 2,3648 2,3452 2,3273 2,2574
25 2,4110 2,3840 2,3599 2,3381 2,3184 2,3005 2,2303
26 2,3867 2,3597 2,3355 2,3137 2,2939 2,2759 2,2054
27 2,3644 2,3373 2,3131 2,2912 2,2713 2,2533 2,1826
28 2,3438 2,3167 2,2924 2,2704 2,2505 2,2324 2,1615
29 2,3248 2,2976 2,2732 2,2512 2,2313 2,2131 2,1419
30 2,3072 2,2799 2,2554 2,2334 2,2134 2,1952 2,1237
40 2,1819 2,1542 2,1293 2,1068 2,0864 2,0677 1,9943
60 2,0613 2,0330 2,0076 1,9846 1,9636 1,9445 1,8687
80 2,0026 1,9741 1,9483 1,9250 1,9037 1,8843 1,8071
120 1,9450 1,9161 1,8900 1,8663 1,8447 1,8249 1,7462
oo 1,8326 1,8028 1,7759 1,7515 1,7291 1,7085 1,6259
160
Kvantily Fischerova-Snedecorova rozložení pro a = 0,975
ri2 30 40 ni 60 80 120 oo
1 1001,4140 1005,5980 1009,8000 1011,9080 1014,0200 1018,3000
2 39,4646 39,4729 39,4812 39,4854 39,4896 39,4980
3 14,0805 14,0365 13,9921 13,9697 13,9473 13,9020
4 8,4613 8,4111 8,3604 8,3349 8,3092 8,2573
5 6,2269 6,1750 6,1225 6,0960 6,0693 6,0153
6 5,0652 5,0125 4,9589 4,9318 4,9044 4,8491
7 4,3624 4,3089 4,2544 4,2268 4,1989 4,1423
8 3,8940 3,8398 3,7844 3,7563 3,7279 3,6702
9 3,5604 3,5055 3,4493 3,4207 3,3918 3,3329
10 3,3110 3,2554 3,1984 3,1694 3,1399 3,0798
11 3,1176 3,0613 3,0035 2,9740 2,9441 2,8828
12 2,9633 2,9063 2,8478 2,8178 2,7874 2,7249
13 2,8372 2,7797 2,7204 2,6900 2,6590 2,5955
14 2,7324 2,6742 2,6142 2,5833 2,5519 2,4872
15 2,6437 2,5850 2,5242 2,4930 2,4611 2,3953
16 2,5678 2,5085 2,4471 2,4154 2,3831 2,3163
17 2,5020 2,4422 2,3801 2,3481 2,3153 2,2474
18 2,4445 2,3842 2,3214 2,2890 2,2558 2,1869
19 2,3937 2,3329 2,2696 2,2368 2,2032 2,1333
20 2,3486 2,2873 2,2234 2,1902 2,1562 2,0853
21 2,3082 2,2465 2,1819 2,1485 2,1141 2,0422
22 2,2718 2,2097 2,1446 2,1108 2,0760 2,0032
23 2,2389 2,1763 2,1107 2,0766 2,0415 1,9677
24 2,2090 2,1460 2,0799 2,0454 2,0099 1,9353
25 2,1816 2,1183 2,0516 2,0169 1,9811 1,9055
26 2,1565 2,0928 2,0257 1,9907 1,9545 1,8781
27 2,1334 2,0693 2,0018 1,9665 1,9299 1,8527
28 2,1121 2,0477 1,9797 1,9441 1,9072 1,8291
29 2,0923 2,0276 1,9591 1,9232 1,8861 1,8072
30 2,0739 2,0089 1,9400 1,9039 1,8664 1,7867
40 1,9429 1,8752 1,8028 1,7644 1,7242 1,6371
60 1,8152 1,7440 1,6668 1,6252 1,5810 1,4821
80 1,7523 1,6790 1,5987 1,5549 1,5079 1,3997
120 1,6899 1,6141 1,5299 1,4834 1,4327 1,3104
oo 1,5660 1,4835 1,3883 1,3329 1,2684 1,0000
161
Príloha A - Statistické tabulky
162
Příloha B - Zakladní informace o programu
STATISTICA G
Příloha B - Základní informace o programu STATISTICA 6
Systém mí modulární stavbu. V multilicenci pro Masarykovu univerzitu jsou k dispozici moduly: Basic Statistics/Tables, Multiple Regression, ANOVA, Nonpara-metrics, Distribution Fitting, Advanced Linear / Nonlinear Models, Multivariate Explorartory Techniques, Industrial Statistics & Six Sigma.
Velká mnoZství informací o systemu STATISTICA lze najít na webove strance spolecnosti StatSoft, která je jejím distributorem v Ceske republice (internetova adresa je www.statsoft.cz). Z teto strínky vede rovneZ odkaz na elektronickou ucebnici statistiky.
STATISTICA 6 ma nekolik typu oken:
■ spreadsheet (datove okno, ma príponu sta, jeho obsah vsak lze exportovat i v jiních formatech). Do datoveho okna lze nacítat datove soubory nejruznejsích typu (napr. z tabulkovích procesoru, databazove soubory, ASCII soubory).
■ workbook (ma príponu stw). Do workbooku uklídají vístupy, tj. tabulky a grafy. Sklída se ze dvou oken, v levem okne je znízornena stromova struktura vístupu, v pravem jsou samotne vístupy. V levem okne se lze pohybovat mysí nebo kurzorem, mazat, presouvat, editovat apod. Vístupy mohou slouzit jako vstupy pro dalsí analízy a grafy.
■ report (ma príponu str, lze ho ulozit i ve formatu rtf, txt ci htm). Pokud pozadujeme, aby se vístupy ukladaly nejen do workbooku, ale i do reportu, postupujeme takto: Tools - Options - Output Manager - zaskrtneme Also send to Report Window - OK. Report se podobne jako workbook sklada ze dvou oken. Do reportu muzeme vkladat vlastní text, vysvetlující komentare, pozníamky apod. Tabulky a grafy lze v reportu i workbooku díale upravovat.
■ okno grafů (prípona stg, lze ho ulozit i jako bmp, jpg, png a wmf). Získí se tak, ze ve workbooku klikneme pravím tlacítkem na graf a vybereme Clone Graph.
■ programovací okno (prípona svb). Slouzí pro zapis programu v jazyku STATISTICA Visual Basic. Mezi jednotlivími typy oken se prepíname pomocí polozky Window v hlavním menu.
164
B.1. Bodové zpracování četností
1. Zapište do datového okna programu STATISTICA datový soubor, který bude obsahovat znýmky z matematiky, angličtiny a ýdaje o pohlaví dvaceti studentu (viz príklad 1.10).
Navod: File - New - Number of variables 3, Number of cases 20, OK.
2. Znaky nazvete X, Y, Z, vytvorte jim nývestí (X - znamka z matematiky, Y
- znamka z angličtiny, Z - pohlaví studenta) a popiste, co znamenají jed-notlive varianty (u znaku X a Y: 1 - výborne, 2 - velmi dobre, 3 - dobre, 4 - neprospel, u znaku Z: 0 - zena, 1 - muz). Soubor ulozte pod nýzvem znamky.sta.
Nývod: Kurzor nastavíme na Var1 - 2x klikneme mysí - Name X - Long Name znamka z matematiky, Text label - 1 výborně, 2 velmi dobre, 3 dobre, 4 neprospel, OK. U promenne Y lze text label okopírovat z promenne X -v Text Labels Editor zvolíme Copy from variable X.
Prepínaní mezi císelnými hodnotami a jejich textovým popisem se deje pomocí tlačítka s obrázkem stítku.
3. U znaku X a Y vypoctete absolutní cetnosti, relativní cetnosti a relativní kumulativní cetnosti. Nývod: Statistics - Basic Statistics/Tables - Frequency tables - OK - Variables X, Y, OK - Summary. Vsechny tri tabulky se ulozí do workbooku a listovat v nich muzeme pomocí stromove struktury v levem okne.
4. Vytvorte sloupkoví diagram absolutních cetností znaku X a Y.
Navod: Graphs - Histograms - Variables X, Y - OK - vypneme Normal fit
- Advanced - zaskrtneme Breaks between Columns, OK.
Vytvorte výseCový diagram absolutních cetností znaku X a Y.
Navod: Graphs - 2D Graphs - Pie Charts - Variables X, Y - OK - Advanced
- Pie legend Text and Percent (nebo Text and Value) - OK.
Vytvorte polygon absolutních cetností znaku X a Y.
Navod: ve workbooku vstoupíme do tabulky rozlození cetností promenne X. Pomocí Edit - Delete - Cases vymazeme radek oznacený Missing. Nastavíme se kurzorem na Count - Graphs - Graphs of Block Data - Line Plot:Entire Columns. Vykreslí se polygon cetností.
5. Vytvorte graf empiricke distribucní funkce znaku X.
Navod: Pri tvorbe histogramu zadame v Advanced volbu Showing Type Cumulative, Y axis % - 2 x klikneme mysí na pozadí grafu - otevre se okno All Options - vybereme Plot: Bars - Type Rectangles. V tomto grafu jsou vsak svisle cary az k vodorovne ose. Lze pouzít i jiný typ grafu: vytvoríme nový datový soubor, který bude mít dve promenne a prípadu o dva víc nez je pocet variant znaku X. Do 1. promenne zapíseme do 1. radku hodnotu o 1 mensí nez je 1. varianta znaku X, pak varianty znaku X a nakonec hodnotu o 1 vetsí nez je poslední varianta znaku X. Do 2. promenne zapíseme 0, pak relativní kumulativní cetnosti znaku X (v procentech) a nakonec 100. Graphs - Scatterplots -Variables V1, V2 - OK - vypneme Linear fit - OK -2x klikneme na pozadí grafu - Plot:General - vypneme Markers, zaskrtneme Line - Line Type: Step - OK.
165
Příloha B - Základní informace o programu STATISTICA 6
Vytvořte graf četnostní funkce znaku X.
Návod: Při tvorbe histogramu zadáme v Advanced Y axis % - 2x klikneme mysí na pozadí grafu - vybereme Plot General - zaškrtneme Markers -vybereme Plot:Bars - Type Lines.
6. Z datoveho souboru vyberte pouze zeny (pouze muze) a ukol 3 proveďte pro zeny (pro muze). Navod: Statistics - Basic Statistics/Tables - Frequency tables - OK - Variables X, Y, OK - Select Cases - zaskrtneme Selection Conditions - Include cases - zaskrtneme Specific, selected by Z = 0, OK.
7. Nadale pracujte s celym datovým souborem. Vytvorte kontingencní tabulku absolutních cetností znaku X a Y a graf simultanní cetností funkce. Navod: Statistics - Basic Statistics/Tables - Tables and banners - OK -Select cases - All - OK - Specify tables - List 1 X, List 2 Y, OK, Summary. Vytvorení grafu simultanní cetnostní funkce: Navrat do Crosstabulation Tables Result - 3D histograms - vybereme Axis Scaling - Mode Manual - Minimum 0 (a totez provedeme pro Axis Y) - dale vybereme Graph Layout - Type - Spikes - OK. Graf lze natacet pomocí Point of View.
Vytvorte kontingencní tabulku sloupcove a radkove podmínenych relativních cetností znaku X a Y.
Navod: Navrat do Crosstabulation Tables Result - Options - zaskrtneme ve sloupci Compute tables volbu Percentages of column counts (resp. Percentages of row counts).
166
B.2. Intervalové zpracování četností
1. Zapište do datového okna programu STATISTICA datový soubor, který bude obsahovat ýdaje o mezi plasticity oceli a mezi pevnosti (viz príklad 2.13). Promenným X a Y vytvorte nývestí „mez plasticity" a „mez pevnosti". Soubor pak ulozte pod nazvem ocel.sta.
Navod: viz 1. cvicem, bod 1.
2. Pro X a Y pouzijeme intervalove zpracovaný cetnostý. Pro aplikaci Sturger-sova pravidla potrebujeme znat pocet variant promenne X a Y.
Navod: Zjistený absolutných cetnostý - viz 1. cvicený bod 3. Zjistený poctu variant: ve workbooku se nastavmie kurzorem na sloupec Count - 2 x klikneme mysý - vybereme Values/Stats - ve výstupný tabulce se objevý mj. N. Pocet variant je N—1. (X ma 50 variant, Y ma 52 variant, v obou pffpadech volume 7 tn'diďch intervalu.) Dale musmie zjistit minimum a maximum, abychom vhodne stanovili trýdicý intervaly.
Navod: Statistics - Basic Statistics/Tables - Descriptive statistics - Variables X, Y - zaskrtneme Minimum & maximum - Summary. (Pro X je minimum 33 a maximum 160, tedy vhodný volba tn'diďch intervalu je (30, 50), 50, 70),. .., (150,170) - viz pnklad 2.13, pro Y je minimum 52 a maximum 189, tedy tň'diď intervaly zvoh'me (50, 70), 70, 90, ... 170,190) - viz poklad 2.19.)
3. Vytvorte histogram pro X a pro Y.
Nývod: Graphs - Histograms - Variables X - vypneme Normal fit - Advanced - zaskrtneme Boundaries - Specify Boundaries - 50 70 90 110 130 150 170 OK - Y Axis %. 2 x klikneme na pozadý grafu a ve volbe All Options muzeme menit räzne vlastnosti grafu.
Upozornený: STATISTICA v histogramu znýzorňuje relativný cetnost výskou obdelnýku, nikoliv jeho plochou, coz nený v souladu s definiď 2.14.
4. Proveďte zakódovúm hodnot promenných X a Y do pnslusných tn'diďch intervalu.
Navod: Insert - Add Variables - 2 - After Y - OK - prejmenujeme je na RX a RY. Nastavmie se kurzorem na RX - Data - Recode - vyplnŕme podnrinky pro vsech 7 kategoriý (Pozor - podnrinky se musý psýt ve tvaru X>30 and X<=50 atd.). Pak klepneme na OK. Analogicky pro Y.
5. Vytvorte graf intervalove empiricke distribucný funkce pro X.
Nývod: Vytvonme Frequency table pro RX. Pred 1. pň'pad vlozrme radek, kde do Category napýíseme 0 a do Cumulative Count take 0. Nastavnme se kurzorem na Cumulative Percent - Graphs - Graphs of Block Data - Custom Graph from Block by Column - Line Plots (Variables) - OK. 2 x klikneme na pozadý grafu - Plot: General - vypneme Markers - Axis: Scaling - Mode Manual - Minimum 1, Maximum 9 - Axis: Custom Units - Position 1, Text 30 atd az Position 9, Text 190 - OK.
6. Sestavte kontingencm tabulky absolutných cetnostý (relativných cetnostý sloupcove a radkove podmmených relativných cetnostý dvourozmerných trudících intervalu pro (X,Y).
Navod: Viz ukol c. 6 ve cvicení 1, kde budeme pracovat s pramennými RX
a RY.
167
Příloha B - Základní informace o programu STATISTICA 6
B.3. VýpoCet Číselných charakteristik jednorozmerného a dvourozmerneho souboru, regresní přímka
1. Načtěte soubor znamky.sta. Pro známky z matematiky a angličtiny vypočtěte medián, dolní a horní kvartil a kvartilovou odchylku. Výsledky porovnejte s príkladem 3.5.
Navod: Stastistics - Basic Statistics/Tables - Descriptive Statistics - OK -Variables X, Y, OK - zaskrtneme Median, Lower & upper quartiles, Quartile range - Summary.
2. Nactete soubor ocel.sta. Pro mez plasticity a mez pevnosti vypoctete aritme-ticke prumery, směrodatne odchylky a rozptyly. Výsledky porovnejte s príkladem 3.17.
Níavod: Níavod: Stastistics - Basic Statistics/Tables - Descriptive Statistics
- OK - Variables X, Y, OK - zaěskrtneme Mean, Standard Deviation, Variance - Summary.
Vysvetlení: Rozptyl a smerodatný odchylka vyjdou ve STATISTICE jinak nez v príklad 3.17, protoze STATISTICA ve vzorci pro vípocet rozptylu nepouzíví 1/n, ale 1/(n — 1) - bude objasneno pozdeji v matematicke statistice.
3. Nakreslete dvourozměernyí teěckovyí diagram pro (X,Y).
Navod: Graphs - Scatterplots - Variables X,Y - OK - vypneme Linear fit
- OK.
4. Vypoctete kovarianci a koeficient korelace meze plasticity a meze pevnosti. Vyísledky porovnejte s pěríkladem 3.17.
Naívod: Statistics - Multiple Regression - Variables Independent X, Dependent Y - OK - OK - Residuals/assumption-prediction - Descriptive statistics - Covariances. Pro získaní korelacního koeficientu zvolíme Correlation místo Covariances.
Vysvěetlení: Kovariance vyjde ve STATISTICE jinak neěz v pěríkladu 3.17, protoze ve STATISTICE se ve vzorci pro vípocet kovariance nepouzíva ale 1/(n — 1) - bude objasneno pozdeji.
5. Urcete koeficienty regresní prímky meze pevnosti na mez plasticity a stanovte index determinace. Urcete regresní odhad meze pevnosti, je-li mez plasticity 110. Nakreslete regresní prímku do dvourozmerneho teckoveho diagramu.
Níavod: V tabulce Multiple Regression zvolíme Variables Independent X, Dependent Y - OK - Summary:Regression results. Ve vyístupní tabulce najdeme koeficient b0 ve sloupci B na rídku oznacenem Intercept, koeficient b\ ve sloupci B na radku oznacenem X, index determinace pod oznacením R2. Pro vípocet predikovane hodnoty zvolíme Residuals/assumption/prediction Predict dependent variable X:110 - OK. Ve vístupní tabulce je hledana hodnota oznaěcena jako Predictd.
Nakreslení regresní pěrímky: Níavrat do Multiple Regression - Residuals / assumption / prediction - Perform residuals analysis - Scatterplots - Bivariate correlation - X, Y - OK. Jiní zpusob: Do dvourozmerneho teckoveho diagramu nakreslíme regresní pěrímku tak, ěze v tabulce 2D Scatterplots zvolíme Fit Linear, OK.
168
B.4. VypoCty pravděpodobností s využitím distribuCní funkce binomickěho rozložení
Označme X náhodnou veličinu. Její distribuční funkci zavedeme vztahem $(x) = P(X < x). Pokud náhodná veličina X nabývá pouze konečne nebo spočetne mnoha hodnot, lze pomočí $(x) vyjadrit nasledujíčí pravdepodobnosti:
a) P (X = x) = P (X < x) - P (X < x - 1) = $(x) - $(x - 1);
b) P (x > x) = 1 - P (X < x) = 1 - P (X < x - 1) = 1 - $(x - 1); č) P(xi < X < x2) = P(xi - 1 < X < x2) = $(x2) - $(xi - 1).
STATISTICA poskytuje hodnoty distribučníčh funkčí mnoha rozlození. Omezíme se na binomické rozložení (funkče IBinom(x, p, n), kde x ... počet íspečhu, p ... pravdepodobnost íspečhu v jednom pokusu, n ... čelkoví počet pokusu).
Vzorový príklad na binomické rozložení: Pojistovna zjistila, ze 12% po-jistníčh udalostí je zpusobeno vloupaním. Jaka je pravdepodobnost, ze mezi 30 níhodne vybraními pojistními udalostmi bude zpusobeno vloupaním a) nejvíse 6, b) aspoň 6, č) prave 6, d) od dvou do peti?
Řešení:
X ... počet pojistníčh udalostí zpusobeníčh vloupaním , n = 30, p = 0,12.
ad a) P (X < 6) = $(6) = 0,9393,
ad b) P (x > 6) = 1 - P (X < 5) = 1 - $(5) = 0,1431,
ad č) P (X = 6) = $(6) - $(5) = 0,0825,
ad d) P(2 < X < 5) = $(5) - $(1) = 0,7469.
Postup ve STATISTICE: Otevreme noví datoví soubor se čtyrmi promenními a o jednom prípadu.
Řešení:
Do Long Name 1. promenne napíseme =IBinom(6;0,12;30).
Do Long Name 2. promenne napíseme =1-IBinom(5;0,12;30).
Do Long Name 3. promenne napíseme =IBinom(6;0,12;30)-IBinom(5;0,12;30).
Do Long Name 4. promňenníe napíňseme =IBinom(5;0,12;30)-IBinom(1;0,12;30).
(Do Lange Name promňenníe vstoupíme tak, ňze v datovíem oknňe 2x klikneme mýňsí
na níazev promňenníe.)
Kreslení grafu distribucní funkce a pravdepodobnostní funkce bino-mickeho rozlození
Vzoroví príklad: Nakreslete graf distribuční funkče a pravdepodobnostní funkče níhodne veličiný X ~ Bi(12; 0,3).
Postup ve STATISTICE: Výtvoňríme novýí datovýí soubor o 3 promňennýíčh a 13 pňrípadečh. První promňennou nazveme X a uloňzíme do ní hodnotý 0, 1,. . . , 12 (do Long Name napíňseme =v0-1). Druhou promňennou nazveme DF a uloňzíme do ní hodnotý distribuční funkče (do Long Name napíseme príkaz =IBinom(x;0,3;12)). Tňretí promňennou nazveme PF a uloňzíme do ní hodnotý pravdňepodobnostní funkče (do Long Name napíňseme pňríkaz =Binom(x;0,3;12)).
Graf distribucní funkce: Graphs - Sčatterplots - Variables X, DF - OK - vý-pneme Linear fit - OK - 2 x klikneme na pozadí grafu - Plot: General - zaskrtneme Line - Line Týpe: Step - OK.
169
Příloha B - Základní informace o programu STATISTICA 6
Graf pravděpodobnostní funkce: Graphs - Scatterplots - Variables X, PF -OK - vypneme Linear fit - OK.
Podle tohoto navodu nakreslete grafy distribučních a pravdepodobnostních funkcí binomickeho rozložení pro ruzna n a p, napr. n = 5, p = 0,5 (resp. 0,75) apod. Sledujte vliv parametru na vzhled grafu.
170
B.5. Grafy hustot a distribučních funkcí, výpočet kvan-tilů
STATISTICA umí kreslit grafy hustot a distribučních funkcí mnoha spojitých rozložení a počítat kvantily techto rozložení. Slouží k tomu Probability Calculator v menu Statistics. Zameríme se na rozložení uvedena definici 8.6.
1. Rovnoměrné spojité rozloženi Rs (0,1)
Statistics - Probability Calculator - Distributions - Beta - shape 1 - napíse-me 1, shape 2 - napíseme 1. STATISTICA vykreslí graf hustoty a distribucní funkce. Hodnotu a-kvantilu zjistíme tak, že do okenka oznaceneho p napíseme dane a a po kliknutí na Compute se v okenku Beta objeví hodnota tohoto kvantilu.
2. Exponenciélné rozložené Ex (A)
Ve volbe Distributions vybereme Exponential a do okenka lambda napíseme patricnou hodnotu. Hodnotu a-kvantilu zjistíme tak, že do okenka oznaceneho p napíseme dane a a po kliknutí na Compute se v okenku exp objeví hodnota tohoto kvantilu.
3. Normélné rozložené N (p, a2)
Ve volbe Distributions vybereme Z (Normal), do okenka mean napíseme hodnotu p a do okenka st. dev. napíseme hodnotu a. Hodnotu a-kvantilu zjistíme tak, že do okenka oznaceneho p napíseme dane a a po kliknutí na Compute se v okenku X objeví hodnota tohoto kvantilu.
4. Pearsonovo rozloženi ché-kvadrat s n stupni volnosti x2(n)
Ve volbe Distributions vybereme Chi 2 a do okenka df napíseme patricní pocet stupňu volnosti. Hodnotu a-kvantilu zjistíme tak, že do okenka oznaceneho p napíseme dane a a po kliknutí na Compute se v okenku Chi 2 ob jeví hodnota tohoto kvantilu.
5. Studentovo rozložené s n stupni volnosti t(n) Ve volbe Distributions vybereme t (Student) a do okenka df napíseme patricní pocet stupňu volnosti. Hodnotu a-kvantilu zjistíme tak, že do okenka oznaceneho p napíseme dane a a po kliknutí na Compute se v okíenku t objeví hodnota tohoto kvantilu.
6. Fisherovo-Snedecorovo rozložené s n\ a n2 stupni volnosti F(n\,n2)
Ve volbe Distributions vybereme F (Fisher) a do okenek df1 a df2 napíseme pocet stupňu volnosti citatele a jmenovatele. Hodnotu a-kvantilu zjistíme tak, že do okenka oznaceneho p napíseme dane a a po kliknutí na Compute se v okíenku F objeví hodnota tohoto kvantilu.
171
Příloha B - Základní informace o programu STATISTICA 6
B.6. Intervaly spolehlivosti pro parametry normálního rozložení
1. Interval spolehlivosti pro střední hodnotu, když neznáme rozptyl: pro tuto situaci umí STATISTICA vypočítat meze intervalu spolehlivosti sama.
Príklad: Pri kontrole peti balíčku cukru o deklarovane hmotnosti 1000 g byly zjisteny tyto odchylky: —3, 2, —2, 0, 1. Odchylky považujeme za realizace náhodneho výberu rozsahu 5 z rozlození N (/x, a2). Sestrojte 90% interval spolehlivosti pro
Navod: Vytvoríme noví datoví soubor o jedne promenne a peti prípadech. Zapíseme do nej uvedene odchylky. Statistics - Basic Statistics/Tables -Descriptive statistics - OK - Advanced - Variables vl, OK, zaskrtnete Conf. limits for mean - Interval 90%, Summary.
2. Ve vsech ostatních prípadech postupujeme podle vzorcu uvedeních ve vetích 12.9 a 12.13. Uved'me postup pro situaci, kdy hledame interval spolehlivosti pro rozdíl stredních hodnot dvou nezavislích normílne rozlozeních nahodních víberu, kdyz nezníme rozptyly, ale víme, ze jsou shodne.
Príklad: Na jiste velke americke univerzite bylo v r. 1969 nahodne vybrano 5 profesorek a nezavisle na tom 5 profesoru a byl zjisten jejich rocní príjem v tisících dolaru. Zeny: 9 12 8 10 16, muzi: 16 19 12 11 22. Predpokladíme, ze uvedene hodnoty jsou realizace dvou nežávislých nahodních víberu, první z rozlození N(/1,a2), druhí z rozlození N(/t2,a2). Sestrojte 95% interval spolehlivosti pro rozdíl stredních hodnot.
Nívod: Vytvoríme noví datoví soubor o ctyrech proměnních (Plat, Sex, HorniMez, DolniMez) a 10 prípadech. Do promenne Plat napíseme príjmy zen, pak príjmy muzu. Do promenne Sex napíseme 5 x jednicku a 5 x dvojku (1=zena, 2=muz). Pomocí Descriptive statistics zjistíme prumery a rozptyly platu zen a muzu. (Víber zen ci muzu: viz cvicení 1, íkol 5.). Vísledky: m1 = 11, s2 = 10, n1 = 5, m2 = 16, s2, = 21,5, n2 = 5. Do Long Name proměenníe DolniMez napííěseme vzorec pro dolníí mez (viz veěta 12.13
(b)):
=11-16-sqrt((4*10+4*21,5)/8)*sqrt(1/5+1/5)*VStudent(0,975;8) Do promenne DolniMez se 10 x ulozí hodnota —10,79. Do Long Name pro-měenníe HorniMez napííěseme vzorec pro horníí mez (viz věeta 12.13 (b)):
=11-16+sqrt((4*10+4*21,5)/8)*sqrt(1/5+1/5)*VStudent(0,975;8) Do proměenníe HorniMez se 10x uloězíí hodnota 0,79. Znamenaí to, ěze s pravdepodobností aspoň 0,95 lezí rozdíl stredních hodnot platu zen a muzu v intervalu (—10,79; 0,79). Tento vísledek vsak nema praktickí víznam, protoze rozsahy obou víberu byly prílis male.
Príklad: Vyreste pomocí STATISTIKY príklad 12.16.
Navod: Vytvoríme noví datoví soubor o trech promenních (Leva, Prava, Rozdil) a ěsesti pěrípadech. Do prvních dvou proměennyích zapíěseme zjiěstěeníe hodnoty. Do LongName proměenníe Rozdil napíěseme =Leva - Prava a nyní postupujeme stejněe jako v uíkolu 1.
172
B.7. Zení
Testovaní hypotez o parametrech normálního rozlo-
Jednovýběrový ť-test
Příklad: Při kontrole balicího automatu, který má plnit cukrem balíčky o hmotnosti 1000 g, byly při přesném převážení peti balíčkU zjisteny tyto odchylky (v gramech) od požadovane hodnoty: 3, —2, 2, 0, 1. Na hladine významnosti 0,05 testujte hypotezu, že automat nema systematickou odchylku od požadovane hodnoty. Nívod pro provedení ť-testu: Vytvorte soubor o jedne promenne X a peti prípadech. Do X zapište namierene hodnoty. V menu Basic Statistics/Tables vyberte volbu t-test, single sample, OK, Variables X, zaskrtnete Test all means agains 0, Summary. Ve vyístupní tabulce najdete hodnotu testovíeho kritíeria a p-hodnotu. Pokud p-hodnota nabude hodnoty < a, pak se nulovou hypotezu zamíta na hladine víznamnosti a.
Dvouvýberový ť-test
Příklad: Na jiste velke americke univerzite bylo v r. 1969 níhodne vybrano 5 profesoru a nezíviste na tom 5 profesorek a byl zjisten jejich rocní príjem v tisících dolaru.
Ženy: 9 12 8 10 16
Muži: 16 19 12 11 22
Na hladině významnosti 0,05 testujte hypotézu, že střední hodnota příjmu žen je stejná jako střední hodnota příjmu mužU.
Návod: Vytvořte souboř o dvou přomenných (Plat a Sex) a 10 případech. Do přomenne Plat napiste příjmy žen a mužu a do přomenne Sex dejte 5 x jedničku a 5x dvojku. V menu Basic Statistics/Tables vybeřte volbu t-test, independent, by gřoups, OK, Variables - Grouping Sex, Dependent Plat, OK, Summařy T-tests. Ve vístupní tabulce se nejprve podívejte na p-hodnotu pro test homogenity řožptylu. Je-li vetsí než žvolena hladinu vížnamnosti, žjistete hodnotu testoveho kriteria a p-hodnotu přo test shody středních hodnot. V opacnem případe žaskřtnete v Options volbu t-test with sepařate variance estimates.
Párová t-test
Příklad: Na hladine víznamnosti 0,05 rozhodnete, zda se u osobního vozu urcite znacky pri spravnem serízení geometrie vozu sjízdejí obe prední pneumatiky stejne rychle. Bylo vybrano sest novích vozu a po urcite dobe bylo zjisteno, o kolik mm
se sjely jejich leve a prave prední pneumatiky.
číslo automobilu 1 2 3 4 5 6
pravá pneumatika 1,8 1,0 2,2 0,9 1,5 1,6
levá pneumatika 1,5 1,1 2,0 1,1 1,4 1,4
Návod: Vytvorte soubor o dvou promenních (Leva a Prava) a sesti prípadech. V menu Basic Statistics/Tables vyberte volbu t-test, dependent samples, OK, Variables Leva, Prava - Summary.
173
Príloha B - Zakladní informace o programu STATISTICA B
174
zaver
Závěr
Učební text, který jste právě dočetli, byl určen k prvnímu seznámení s matematickou disciplinou nazývanou statistika. Autorským zámerem bylo ukázat vám, ze statistika ve sve popisne forme dokýze pomoci nekolika výstižných charakteristik zprehlednit informace obsazene ve velkých datových souborech, zatímco ve sve induktivní forme zalozene na poctu pravdepodobnosti slouzí predevsím jako nástroj rozhodování v situacích ovlivnených náhodou, kdy na základe znalosti nýhodneho vyberu z urciteho rozlození pravdepodobnosti usuzuje na vlastnosti tohoto rozlození.
V soucasnosti je statistika velice rozvinutý a dulezitá veda, která se neustále doplnuje a rozsiruje o nove poznatky. Z tohoto duvodu muze být tento ucební text jen znacne omezenym uvodem, ktery vsak mý dostatecnou oporu v obecnych statistických principech. V seznamu literatury samozrejme najdete knihy, ktere vám poslouzí pri prohlubování a rozsirovýní vasich statistických znalosti, bez nichz se dnes neobejde zádny absolvent ekonomicky zamerene vysoke skoly. Od ekonoma se totiz ocekává, ze bude rozhodovat nejenom na základe svých zkusenosti, ale predevsím na základe matematickych a statistických analyz. Proto musí být schopen sám provest jednodussí analýzy a u tech slozitejsích najít spolecnou rec se statistiky, aby jim mohl zadávat ýkoly a správne interpretovat výsledky techto analýz.
Jak jste jiz zjistili, pouziti statistickeho programoveho systemu STATlSTICA osvobozuje uzivatele od namáhavých ukomí, jako je vyhledávání v datech, jejich trídení, sumarizace a graficke znázornení. Dbejte vsak na to, aby data byla do pocítace vkládána peclive a vzdy byla podrobená kontrole. Napr. je uzitecne pro kazdou promennou vypocítat minimum, maximum, medián, kvartilovou odchylku, vykreslit sloupkovy diagram, dvourozmerný teckový diagram apod. Pri zpracování dat rozhodne pouzívejte jen ty metody, kterým dobre rozumíte a jejichz výsledky umíte interpretovat. System STATlSTICA obsahuje velke mnozství metod, jejichz neadekvýtní aplikace muze vest k zavýdejícím ci dokonce chybnym záverum.
Po uspesnem zvládnuti predmetu „Statistika" se pred vými otevírají znacne moznosti, jak efektivne získávat informace obsazene v datech a vyuzívat je ve sve kazdodenní práci.