Obsah 0. Motivační příklad. 3 1. Tabulkové a grafické zpracování datových souborů. 37 2. Funkcionální a číselné charakteristiky znaků. 85 3. Statistický software, základy práce v SAS. 148 4. Popisná statistika v MS Excel a SAS. 237 5. Regresní analýza v MS Excelu a SAS. 345 6. Úvod do teorie pravděpodobnosti. 414 7. Náhodné veličiny. 465 8. Diskrétní a spojité náhodné veličiny, vybraná rozložení NV. 486 9. Stochasticky nezávislé náhodné veličiny, generování realizací N V. 546 10. Číselné charakteristiky N V. 581 11. Slabý zákon velkých čísel a centrální limitní věta, úvod do testování 623 hypotéz. 12. Testování hypotéz v MS Excel a SAS. 652 13. Statistické tabulky. 700 Motivační příklad Statistika - motivační problém • Vedení SŠ v Horní dolní chce potvrdit/vyvrátit hypotézu (předpoklad), že průměrné skóre studentů z testu matematických a verbálních schopností (SAT) je rovno 1200. Mimo to chce porozumět tomu, jakých výsledků v tomto testu studenti dosahují. rmm- / JO jMBT f .Alt. Tomy I í Variable Type and Level of Measurement • Before analyzing, identify the variable type (continuous or categorical) and level of measurement (nominal or ordinal). Continuous versus Categorical Variables Variable: Temperature of Beverage (teplota napoje) Variable: Gender (pohlaví) Levels of Measurement: Nomina 7 Levels of Measurement: Ordina Overview of Statistical Models ^^^^ Type of ^^^Predictors Type of ^^^^ Response ^^^^ Categorical Continuous Continuous and Categorical Continuous Analysis of Variance (ANOVA) Ordinary Least Squares (OLS) Regression Analysis of Covariance (ANCOVA) Categorical Contingency Table Analysis or Logistic Regression Logistic Regression Logistic Regression Pro různé typy proměnných je třeba použít různé statistické metody Populations and Samples Population - the entire collection of individual members of a group of interest. Sample - a subset of a population drawn to enable inferences to the population. S Assumption- The sample that is drawn is representative of the population. Parameters and Statistics • Statistics are used to approximate population parameters. _ Population Parameters Sample Mean X Variance 2 s2 Standard Deviation a s Distributions • When you examine the distribution of values for the variable SATScore, you can determine the following • the range of possible data values • the frequency of data values • whether the data values accumulate in the middle of the distribution or at one end Central Tendency - Mean, Median, and Mode n Mean=3 the sum of all the values in the data ;et divided by the number of values 2> i=l n Median=1.5 the middle value (also known as the 50th percentile) Mode=l the most common or frequent data value 13 Percentiles 98 95 92 75th Percentile=91 90 85 81 50th Percentile=80 79 70 63 25th Percentile=59 55 47 42 third quartile Quartiles divide your data into quarters. first quartile The Spread of a Distribution: Dispersion Measure Definition Range the difference between the maximum and minimum data values Interquartile Range the difference between the 25th and 75th percentiles Variance a measure of dispersion of the data around the mean Standard Deviation a measure of dispersion expressed in the same units of measurement as your data (the square root of the variance) SATscore descriptive statistics Basic Statistical Measures Location Variability Mean 1190.625 Std Deviation 147.05845 Median 1170.000 Variance 21626 Mode 1050.000 Range 710.00000 Interquartile Range 195.00000 Selected Descriptive Statistics for SAT Scores Analysis Variable : SAT Score N Mean Median Std Dev Minimum Maximum Lower Quartile Upper Quartile Quartile Range 80 1190 63 1170.00 147.06 890.00 1600.00 1085.00 1280.00 195.00 Quantiles (Definition 5) Quantile Estimate 100% Max 1GÜ0 33% 1600 35% 1505 30% 1375 15% Q3 1280 50% Median 1170 25% Q1 1085 W% 1020 5% 995 1% 890 0% Min 890 16 Graphical Displays of Distributions • You can produce three types of plots for examining the distribution of your data values: • histograms • normal probability plots • box plots 17 Picturing Distributions: Histogram LU u LU Q. Each bar in the histogram represents a group of values (a bin). The height of the bar represents the frequency or percent of values in the bin. SAS determines the width and number of bins automatically or you can specify them. Data Distributions Normal Left Skewed Right Skewed High Kurtosis Low Kurtosis Ml Skewness ... sikmost Kurtosis ... spicatost Skewness= -2.6317 Kurtosis= 8.6080 n Skewness= 2.6404 Kurtosis= 9.0451 A A Left Skewed Distribution A Right Skewed Distribution Skewness= 0.0333 Kurtosis= -1.9289 A Platykurtotic Distribution Skewness= 0.3428 Kurtosis= 6.5557 A Leptokurtotic Distribution Normal Probability Plots Normal Left Skewed Right Skewed Plots outliers > 1.5 IQR from the box largest point <= 1.5 IQR from the box _ the 75th percentile _ the 50th percentile (median) _ the 25th percentile _ smallest point <= 1.5 IQR from the box The mean is denoted by a O. SATscore distribution Moments N 80 Sum Weights 30 Mean 1190.625 Sum Observations 95250 Std Deviation 147.058447 Variance 21626.1867 Skewness 0.64202018 Kurtosis 0.42409987 Uncorrected SS 115115500 Corrected SS 1708468.75 Coeff Variation 12.3513656 Std Error Mean 16.4416342 40 30 20 10 Descriptive Statistics Using PROC UNIVARIATE Distribution of SATScore Skewness 0.64202 Kurtosis 0.4241 —r 700 300 900 1000 1100 1200 1 300 1400 1500 1 600 1700 1800 SATScore Curves Normal(Mu=1190.6 Sigrna=147.06) Kernel(c=0.79) 22 SATscore distribution Descriptive Statistics Using PROC UNIVARIATE Fitted Normal Distribution for SAT Score Parameters for Normal Distribution Parameter Symbol Estimate Mean Mu 1190.625 Std Dev Sigma 147.0584 Goodness-of-Fit Tests for Normal Distribution Test Statistic p Value Kolmogorov-Smirnov D 0.08382224 Pr> D >0.150 Cramer-von Mis es W-Sq 0.09964577 Pr > W-Sq 0.114 Anderson-Darling A-Sq 0.70124822 Pr > A-Sq 0.0G8 - 1600 1400 < «5 1200 Descriptive Statistics Using PROC UNIVARIATE Probability Plot for SATScore 1600 cn 1200 < 1000 BOO Skewness 0.64202 Kurtosis 0.4241 0.1 25 50 75 Normal Percentiles 90 95 iiii.ii Normal Line Mu=1190.6, Sigma=147.06 Box-and-Whisker Plots of SAT Scores 23 Testování hypotéz - Judicial Analogy Collect Evidence Decision Rule Coin Example If you have a fair coin and flip it 100 times, is it possible for it to land on heads 100 times? O Yes O No 25 Poll - Correct Answer If you have a fair coin and flip it 100 times, is it possible for it to land on heads 100 times? ©Yes O No > Coin Analogy Hypothesis Significance Level Je třeba připustit, že s nějakou, byť malou, pravděpodobností se může stát něco nečekaného - co povede k zamítnutí hypotézy (férová mince) přestože hypotéza platí. Collect Evidence Decision Rule 26 Types of Errors • You used a decision rule to make a decision, but was the decision correct? DECISION^^^^^ H0 Is True H0 Is False Fail to Reject Null Correct Type II Error Reject Null Type 1 Error Correct 27 Coin Experiment - Effect Size Influence • Flip a coin 100 times and decide whether it is fair. 55 Heads 45 Tails />value=.3682 40 Heads 60 Tails />value=.0569 o 37 Heads 0 63 Tails />value=.0120 15 Heads 85 Tails y0-value<.OOOl Čím vyšší p-hodnota, tím více máme důvod se domnívat, že je naše hypotéza správná. Coin Experiment - Sample Size Influence • Flip a coin and get 40% heads and decide whether it is fair. 4 Heads 6 Tails /?-value=.7539 16 Heads 24 Tails />value=.2682 o 40 Heads 60 Tails /?-value=.0569 160 Heads 240 Tails y0-value<.OOOl Q Statistical Hypothesis Test Ho: equality Hi: difference Set Hypothesis Collect Data set a Significance Level p-value > Ct p-value < Ot Decision Rule In general, you do one of the following: reject the null hypothesis if p-valuea. Proc Testing Whether the Mean of SAT Scores = 1200 Variable: SATScore Moments N 80 Sum Weights 80 Mean 1190.625 Sum Observations 95250 Std Deviation 147.058447 Variance 21626.1867 Skewness 0.64202018 Kurtosis 0.42409987 Uncorrected SS 115115500 Corrected SS 1708468.75 CoefT Variation 12.3513656 Std Error Mean 16.4416342 Basic Statistical Measures Location Variability Mean 1190.625 Std Deviation 147.05845 Median 1170.000 Variance 21626 Mode 1050.000 Range 710.00000 Interquartile Range 195.00000 Tests for Location: Mu0=1200 Test Statistic p Value Student's t t -0.5702 Pr>IU 0.5702 Sign M -5 Pr >= |M| 0 3019 Signed Rank S -207 Pr >=|S| D.2866 p-hodnota j e vetší než 0.05, tudíž bych hypotézu nezamítal. 31 IT EST for SATs co re Testing Whether the Mean of SAT Scores = 1200 Using PROC TTEST Variable: SAT Score N Mean Std Dev Std Err Minimum Maximum 80 1190.6 147.1 16.4416 890.0 1600.0 Mean 95% CLMean Std Dev 95% C L Std Dev 1190.6 1157.9 1223.4 147.1 127.3 174.2 DF t Value Pr>IU 79 -0.57 "0.57021 p-hodnota j e vetší než 0.05, tudíž bych hypotézu nezamítal. 3D- 2D- (D (D CL 10 0 800 Distribution of SATScore With 95% Confidence Interval for Mean 1000 O 1200 1400 SATScore □ 95% Confidence Null Value 1300 1800 32 Confidence Intervals 95% Confidence -(-1-1-)- |Ll IT • A 95% confidence interval represents a range of values within which you are 95% certain that the true population mean exists. • One interpretation is that if 100 different samples were drawn from the same population and 100 intervals were calculated, approximately 95 of them would contain the population mean. Confidence Interval Plots Mean of SATScore With 95% Confidence Interval 1 3 O Mean Null Value 1 1 0 '-1-1- 1 1160 1130 1200 1220 SATScore Mean 95% CL Mean 1190.6 1157.9 1223.4 34 Multiple Choice Poll • A 95% confidence interval for SAT scores is (1157.90, 1223.35). From this, what can you conclude, at alpha=o.05? a. The true average SAT score is significantly different from 1200. b. The true average SAT score is not significantly different from 1200. c. The true average SAT score is less than 1200. d. None of the above - You cannot determine statistical significance from confidence intervals. 35 Multiple Choice Poll - Correct Answer • A 95% confidence interval for SAT scores is (1157.90, 1223.35). From this, what can you conclude, at alpha=o.o5? a. The true average SAT score is significantly different from 1200. true average SAT score is not significantly different from 1200. c. The true average SAT score is less than 1200. d. None of the above - You cannot determine statistical significance from confidence intervals. 1. Tabulkové a grafické zpracování datových souborů Popisná statistika Popisná statistika je disciplína, která popisuje a sumarizuje informace obsažené ve velkém množství dat pomocí tabulek, grafů, funkcionálních a číselných charakteristik. Činí tak pomocí základních matematických operací. Cílem popisné statistiky je zpřehlednit informace „ukryté'" v datových souborech. Popisná statistika je velmi důležitá minimálně ze dvou důvodů: - v praxi se často používá (všichni znají takové pojmy jako je průměr, směrodatná odchylka, tabulka rozložení četností, výsečový graf apod.) - motivuje pojmy, se kterými pak pracuje počet pravděpodobnosti (např. relativní četnost motivuje pravděpodobnost, hustota četnosti motivuje hustotu pravděpodobnosti, průměr motivuje střední hodnotu apod.) Dobré pochopení pojmů popisné statistiky tedy velmi usnadní studium počtu pravděpodobnosti. Základní, výběrový a datový soubor Základním souborem rozumíme libovolnou neprázdnou množinu E. Prvky množiny E značíme s a nazýváme je objekty . Libovolnou neprázdnou podmnožinu {s19...9£n} základního souboru E nazýváme výběrový soubor rozsahu n. Je -li množina G c E, pak symbolem N(G) rozumíme absolutní četnost množiny G ve výběrovém souboru, tj. počet těch objektů množiny G, které patří do výběrového souboru. Relativní četnost množiny G ve výběrovém souboru zavedeme vztahem p(G)-*S). n Příklad Příklad: Základním souborem E je množina všech ekonomicky zaměřených studentů 1. ročníku českých vysokých škol. Množina Gi je tvořena těmi studenty, kteří uspěli v prvním zkušebním termínu z matematiky a množina G2 obsahuje ty studenty, kteří uspěli v prvním zkušebním termínu z angličtiny. Ze základního souboru bylo náhodně vybráno 20 studentů, kteří tvoří výběrový soubor {si,e2o}. Z těchto 20 studentů 12 uspělo v matematice, 15 v angličtině a 11 v obou předmětech. Zapište absolutní a relativní četnosti úspěšných matematiků, angličtinám a oboustranně úspěšných studentů. Řešení: N(G!) = 12,N(G2) = 15.NCG! nG2) = ll,n = 20^) = ^ = 0,6,p(G2) = ^- = 0,75, p(G, nG2) = —= 0,55 1 2 20 Vidíme, že úspěšných matematiků je 60%, angličtinám 75% a oboustranně úspěšných studentů jen 55%. Relativní četnost Vlastnosti relativní četnosti: Relativní četnost má následujících 12 vlastností, které jsou obdobné vlastnostem procent. . p(0) = O • p(G) > 0 (nezápornost) . p(G)p(G1) + p(G2) . p(GiuG2) + 0 p(GiuG2) = p(Gi) + p(G2) (aditivita) . p(G2 \ Gi) = p(G2) - p(Gi n G2) . Gi c G2 => p(G2 \ Gi) = p(G2) - p(Gi) (subtraktivita) . Gi c G2 => p(Gi) < p(G2) (monotonie) . p(E) = 1 (normovanost) . p(G) + p(G) = 1 (komplementarita) Podmíněná relativní četnost Pokud se v daném základním souboru zajímáme o dvě podmnožiny, můžeme zavést pojem podmíněné relativní četnosti jedné podmnožiny v daném výběrovém souboru za předpokladu, že objekt pochází z druhé množiny. Nechť E je základní soubor, Gx , G2 jeho podmnožiny, {s19...9sn} výběrový soubor. Definujeme podmíněnou relativní četnost množiny Gľ ve výběrovém souboru za předpokladu G2 : p(Gi/G2)= N(G1nG2)_p(G1nG2) a n(g2) p(g2) Podmíněnou relativní četnost G2 ve výběrovém souboru za předpokladu G, : p(G2/Gl)= Nfcno^to) n(g,) p(g,) Příklad Příklad: Pro údaje z příkladu o studentech vypočtěte podmíněnou relativní četnost úspěšných matematiků mezi úspěšnými angličtinári a podmíněnou relativní četnost úspěšných angličtinám mezi úspěšnými matematiky. (Připomínáme, že z 20 studentů 12 uspělo v matematice, 15 v angličtině a 11 v obou předmětech.) Řešení: N(GX) = 12, N(G2) = 15, N(GX o G2) = 11, n = 20, p(Gi/G2) = N(Gi °^2)_ li _ o,73 (tzn., že 73% těch studentů, kteří by- ťv 7 n(g2) 15 v j li úspěšní v angličtině, uspělo i v matematice) p(G2/Gi) = N(Gin^) = ii= Q 92 (tzn., že 92% těch studentů, kteří byli ť n(Gx) 12 v j úspěšní v matematice, uspělo i v angličtině) v Cetnostní nezávislost Pojem cetnostní nezávislosti dvou množin: O cetnostní nezávislosti dvou množin v daném výběrovém souboru hovoříme tehdy, když informace o původu objektu z jedné množiny nijak nemění šance, s nimiž soudíme na jeho původ i z druhé množiny. V příkladě se studenty by množiny úspěšných matematiků a úspěšných angličtinám byly četnostně nezávislé, pokud podíl úspěšných matematiků mezi úspěšnými angličtinári by byl stejný jako podíl úspěšných matematiků mezi všemi zkoušenými studenty a stejně tak podíl úspěšných angličtinám mezi úspěšnými matematiky by byl stejný jako podíl úspěšných angličtinám mezi všemi zkoušenými studenty, tj. n(Gt oG2) _ n(Gt) a n(q oG2) _ n(G2) n(G2) n Nfa) n Po snadné úpravě dostaneme multiplikativní vztah NÍ^=N^.Nfe) ^ ^ } n n n Řekneme tedy, že množiny Gi, G2 jsou četnostně nezávislé v daném výběrovém souboru, jestliže p(gx r>G2)=p(gx)p(g2). (V praxi jen zřídka dojde k tomu, že uvedený vztah platí přesně. Většinou je jen naznačena určitá tendence cetnostní nezávislosti.) Příklad Příklad: Pro údaje z příkladu o studentech zjistěte, zda úspěchy v matematice a angličtině jsou v daném výběrovém souboru ěetnostně nezávislé. (Připomínáme, že oboustranně úspěšných studentů bylo 55%, úspěšných matematiků 60% a úspěšných angličtinám 75%.) v Řešení: p(Gi n G2) = 0,55, p(Gi)p(G2) = 0,6x0,75 = 0,45, tedy skutečná relativní četnost oboustranně úspěšných studentů je větší než by odpovídalo četnostní nezávislosti množin Gi, G2 v daném výběrovém souboru. Znamená to, že úspěch v matematice se zpravidla sdružuje s úspěchem v angličtině a naopak. Skalární a vektorový znak Pojem skalárního a vektorového znaku: Vlastnosti objektů vyjadřujeme číselně pomocí znaků. Nechť E je základní soubor. Funkce X: E —> R, Y: E —> R,Z: E —> R, které každému objektu přiřazují číslo, se nazývají (skalární) znaky. Uspořádaná p-tice (X, Y, Z) se nazývá vektorový znak. Označení: Nechť je dán výběrový soubor {81?8n} c E. Hodnoty znaků X, Y, Z pro i-tý objekt označíme Xj = X(sj), yi = Y(sj), Zj = Z(Sj), i = 1, n. Datový soubor Pojem datového souboru: typu n x p se nazývá datový soubor. Její řádky • z ^ Matice x2 y2 • vxn yn • odpovídají jednotlivým objektům, sloupce znakům. Libovolný sloupec této matice nazýváme jednorozměrným datovým souborem. Jestliže uspořádáme hodnoty některého znaku (např. znaku X) v jednorozměrném datovém souboru vzestupně podle velikosti, dostaneme uspořádaný datový soubor x(d vx(n); kde x(1) y t Kontingenční tabulka simultánních absolutních četností má tvar: y yti] •• y[S] nJ. X njk X[l] nn .. nis ni. Xľrl nrl .. n.k n.i n.s n Příklad Příklad: Máme datový soubor, který obsahuje údaje o známkách z matematiky (znak X), z angličtiny (znak Y) a pohlaví studenta (znak Z, 0 - žena, 1 - muž) u 20 studentů: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 x 2 1 4 1 1 4 3 3 1 1 4 4 2 4 2 4 1 4 4 1 Y 2 3 3 1 2 4 3 4 1 1 2 4 2 3 3 4 1 3 4 3 Z 0 1 1 0 1 1 1 0 0 0 1 0 0 1 1 0 0 1 1 0 Vytvořte kontingenční tabulku simultánních absolutních a relativních četností pro známky z matematiky a angličtiny. Řešení: Kontingenční tabulka simultánních absolutních četností Kontingenční tabulka simultánních relativních četností 12 3 4 L í 1 4 12 0 0 2 10 0 0 í 1 ; 0 1 3 4 7 1 i Í fi.jr 1 i 4 0 7 5 1 n = 20 j ! v l 2 3 4 Pj | X 1 0,20 0,05 0,10 0,00 0,3-5 3 0,00 o, m otos 0,00 0,15 3 0,00 0,00 0.05 0,05 o,io 4 0,00 0,05 0,15 0,20 0,40 0,20 0,20 0,35 0,25 Řádkově a sloupcově podmíněné relativní četnosti Sloupcově podmíněná relativní četnost varianty x m za předpokladu y [k] Pj(k) ~ Řádkově podmíněná relativní četnost varianty y[k] za předpokladu nj- Příklad Příklad: Pro datový soubor známek z matematiky a angličtiny sestavte kontingenční tabulku sloupcově a poté řádkově podmíněných relativních četností. v Řešení: Nejprve se budeme zabývat sloupcově podmíněnými relativními četnostmi. Použijeme vzorec pj(k) = njk n Vyjdeme z kontingenční tabulky simultánních absolutních četností. v U 2 3 4 "■i- íc njk ! L i 1 2 0 7 2 a :? l D i 3 0 w- L 1 2 \ 4 la 1 j ■i ? I y i 2 3 4 pm 1 1,00 0,25 0,29 0,00 2 0:00 0,14 0,00 0,00 0,00 0,14 0,20 4 oroo 0,25 0,43 0,80 Ľ 1,00 1,00 1,00 1,00 Interpretujeme např. třetí sloupec: z těch studentů, kteří měli trojku z angličtiny, mělo 2/7 = 29% jedničku z matematiky, 1/7 = 14% dvojku z matematiky, 1/7 = 14% trojku z matematiky a 3/7 = 43% čtyřku z matematiky. Příklad Dále se budeme zabývat řádkově podmíněnými relativními četnostmi. Použijeme vzorec pi})k = Opět nám poslouží kontingenční tabulka absolutních četností. v l 2 3 4 ! l 4 1 2 0 7 2 (i :í 1 0 1 :i 0 0 L 1 u 1 J & : vi.fr ■1 ■1 ? v i 2 3 4 E x 1 0,57 0,14 0,2& 0,00 1,00 2 0,00 0,67 0,00 1,00 3 0,00 o,oo 0,50 0,50 1,00 4 0;00 0,12 0,38 0,50 1,00 Interpretujeme např. první řádek: z těch studentů, kteří měli jedničku z matematiky, mělo 4/7 = 57% jedničku z angličtiny, 1/7 = 14% dvojku z angličtiny a 2/7 = 29% trojku z angličtiny. Dvourozměrný tečkový diagram Dvourozměrné rozložení četností lze znázornit pomocí dvourozměrného tečkovéhodiagramu . Na vodorovnou osu vyneseme varianty znaku X, na svislou varianty znaku Y a do příslušných průsečíků nakreslíme tolik v teček, jaká je absolutní četnost dané dvojice. V našem příkladě se studenty dostaneme tento diagram: Dvourozměrný tečkový diagram svědčí o nepříliš výrazné tendenci k podobné klasifikaci v obou předmětech. Zcela odlišný vzhled má diagram pro muže a pro ženy: Pro muže Pro ženy y y 4- 4- • 3- • • 3 • 2 - • • 2- 1 - 1 - 1 2 3 4 * 1 2 3 4 2; Další možnosti grafického znázorněn Label the Subgroups In a Horizontal Bar Chart Country (52,187 $48,502 148,543 (80,000 Actual Sales Default Graph of Sales Totals Zanada Central E .M-in Product Category &SB00I I I Sandal I Wimpn'q Casual 1 Men's Casual 3 Slipper 1 Women's Dress J Mens Dress ] Sport Shoe Age 16-24 Average Miles Driven Annually Women Men Další možnosti grafického znázorněn i Types of Vehicles Produced Worldwide (Details) i Annotate standard error bars TEST . Cold Gases Heat Humidity Pressure xmys H A 25 5C mean SUM Relative Average Chart PlusMnus 1 l-.t3iii:l3ľ:l Deviation A Min and Max duli'i 10i 10-20-30-in-- i i 4 5 6 7 _Department_ FREQUENCY of Typs Type I I Hwhrirl I I SI IV I ISpHan I I R^rta I ITrrn-k I Warinn Changes in Energy Production:19S5 to 1995 year=199E Site Sales By Dept (Details] SUM of Sales by Site 'Mt- I I AtLnTui I I Fmi h Cust Satisfaction IT Dashboard October, 2006 Uptime 100 0% 85 0% ~< 70.0% 0 0% L IT Cost 60,000 40,000 Ä^W.-KS Risk 17.0 _ Training Hours Availability 100 0 . Ontime Projects 120 9.0 Další možnosti grafického znázornění Market Analysis of Selected Automobiles 1 Economical and Spt Sporty ^-v Mlilll Mi Ai ill ii Inteflra ^^7 5% rty Expensive and Sporty ita .0% Inflame 3" Toyota Cressida __ __ __ __ ________t£Qft Economical /~\ -—. FonslTBuhis Hai^dacivic JO0% 10.0% <*q^<> /^~\10.0% Plymouth Volager ^^00% Economical and Practical Prac Expensive Expensive and tica! Practicat Bubble size and labels represent the market share, in percent, of autos in this survey. Histogram with Normal Density Curve ^™ Est. density ™ ■ Spec, density * \ \ \ \ t \ \ t \ / J / / t % \ \ ^ \ \ 10 20 30 40 50 60 Est i km = 23,^7*470588 Est *MCm = 9äBM8WK Spec Mean = 3G Spec StdöeY=10 Dow Jones Yearly Highs and Lows 1955 1960 1955 1970 I Source: 1997 World Almanac 1975 19BC SURFACECOLORGRADIENT=TEMPERATURE Length 6 £ t Individual Net Worth As a Function of Original Worth 63 Intervalové rozložení četností Nechť je dán jednorozměrný datový soubor. Jestliže počet variant znaku X je blízký rozsahu souboru, pak četnosti přiřazujeme nikoliv jednotlivým variantám, ale celým intervalům hodnot. Hovoříme pak o intervalovém rozložení četnosti. Číselnou osu rozložíme na intervaly typu (-00,Ul), (ul5u2), (ur,ur+1), (ur+1,oo) tak, aby okrajové intervaly neobsahovaly žádnou pozorovanou hodnotu znaku X. Užíváme označení: (uj,uj+1) - j-tý třídicí interval znaku X, j = 1, r. dj = Uj+i - Uj - délka j-tého třídicího intervalu znaku X x[j] = Uj +Uj+1 ~ střed j-tého třídicího intervalu znaku X ,_i_, 1-r » -1-1-—1- Intervalové rozložení četností -stanovení počtu tříd Třídicí intervaly volíme nejčastěji stejně dlouhé. Jejich počet určíme např. pomocí Sturgesova pravidla: r = 1 + 3,3 log n, kde n je rozsah souboru. □ počet tříd (r): ■ do 100 prvků...............6 až 9 tříd ■ do 500 prvků...............10 až 15 tříd ■ nad 500 prvků..............Sturgesovo pravidlo f ä 1 + 393 log fl log...dekadický logaritmus!!! 65 Sestavení tabulky rozložení četností Hodnoty znaku X roztřídíme do r třídicích intervalů. Pro j = 1, r definujeme: nj = N(uj < X < Uj+i) - absolutní četnost j-tého třídicího intervalu ve výběrovém souboru Pi = — - relativní četnost j-tého třídicího intervalu ve výběrovém souboru n f; = ^ - četnostní hustota j-tého třídicího intervalu ve výběrovém souboru Nj = N(X < Uj+i) = ni + ... + nj - absolutní kumulativní četnost prvních j třídicích intervalů ve výběrovém souboru F; = = px + ... + p. — relativní kumulativní četnost prvních j třídicích intervalů ve n výběrovém souboru. Tabulka typu \ýi % pj f j fj dl Til Pl A JVl ^1 d y 7i r pr fT A'r FT Součet n í se nazývá tabulka rozložení četností. Příklad Příklad: Do laboratoře bylo dodáno 60 vzorků a byly zjištěny hodnoty znaku X - 2 2 mez plasticity (v kp/cm ) a Y - mez pevnosti (v kp/cm ). Datový soubor má tvar: X Y X Y X Y 154 178 83 98 73 76 133 164 106 111 77 86 58 75 92 104 47 61 145 161 85 103 68 85 94 107 112 118 137 142 113 141 98 102 44 68 86 97 103 108 92 116 121 127 99 119 141 157 119 138 104 128 155 189 112 125 107 118 136 155 85 97 98 140 82 81 41 72 97 115 136 163 96 113 105 101 72 79 45 89 71 93 66 81 99 109 39 69 42 61 51 95 122 147 113 123 101 114 33 52 42 85 160 169 78 117 133 147 87 101 114 137 153 179 88 139 125 149 85 91 a) Pro znak X stanovte optimálni počet třídicích intervalů dle Sturgersova pravidla. b) Sestavte tabulku rozložení četností. Příklad Řešení: ad a) Rozsah souboru je 60. Podle Sturgersova pravidla je optimální počet třídicích intervalů r = 7. Budeme tedy volit 7 intervalů stejné délky tak, aby v nich byly obsaženy všechny pozorované hodnoty znaku X, z nichž nejmenší je 33, největší 160; volba ui = 30,u8 = 170 splňuje požadavky. ad b) (uj»Vi) XU'] nJ Pj Nj (30,50) 20 40 8 8/60 = 0,13 8 8/60 = 0,13 8/(60-20) = 0,006 (50,70) 20 60 4 4/60 = 0,06 12 12/60 = 0,2 4/(60-20) = 0,003 (70,90) 20 80 13 13/60 = 0,216 25 25/60 = 0,416 13/(60-20) = 0,01083 (90,110) 20 100 15 15/60 = 0,25 40 40/60 = 0,6 15/(60-20) = 0,0125 (ll0,130) 20 120 9 9/60 = 0,15 49 49/60 = 0,816 9/(60-20) = 0,0075 (l30,150) 20 140 7 7/60 = 0,116 56 56/60 = 0,93 7/(60-20) = 0,00583 (l50,170) 20 160 4 4/60 = 0,06 60 60/60 = 1 4/(60-20) = 0,003 Součty 60 1 Dvourozměrné intervalové rozložení četností Dále se budeme věnovat dvourozměrnému intervalovému rozložení četností, tj. budeme pracovat s dvourozměrným datovým souborem. Zavedeme podobné pojmy jako u dvourozměrného bodového rozložení četností Nechť je dán dvourozměrný datový soubor kde hodnoty znaku X roztřídíme do r třídicích intervalů ( Uj,uj+1), j = 1,r s délkami d i ,d r a hodnoty znaku Y roztřídíme do s třídicích intervalů (vk, vk+1), k = 1,s s délkami h h h s. Obdélník (u j? u x (vk, vk+1) se nazývá (j,k) - tý dvourozměrný třídicí interval. di (x\j]>y[k\) Uj + i 69 Simultánní a marginální četnosti rijk = N(u j < X < u j+i a vk < Y < v k+i) - simultánní absolutní četnost (j, k) -tého třídicího intervalu. Pjk = — - simultánní relativní četnost (j, k) -tého třídicího intervalu. rij = nji + ... + n jS - marginální absolutní četnost j -tého třídicího intervalu pro znak X . pi = ^ - marginální relativní četnost j - tého třídicího intervalu pro znak X. n n k = n lk + ... + n rk - marginální absolutní četnost k -tého třídicího intervalu pro znak Y. p k = ^ - marginální relativní četnost k -tého třídicího intervalu pro znak Y. n fit = --simultánní četnostní hustota v (i, k) -tém třídicím intervalu . J fj. = ^- - marginální četnostní hustota v j-tém třídicím intervalu pro znak X. f k = — - marginální četnostní hustota v k - tém třídicím intervalu pro znak Y. hk Kteroukoliv ze simultánních četností zapisujeme do kontingenční tabulky. Kontingenční tabulka simultánních absolutních četností: (vki vk + 1) (V1,W2> • (ui,u2) • nu «ia n-i. • (ur,ur+l) nrs nr. 71.1 n.a n Příklad Příklad: Pro datový soubor obsahující údaje o mezi plasticity (znak X) a mezi pevnosti (znak Y) oceli a) stanovte dle Sturgersova pravidla optimální počet třídicích intervalů pro znak Y b) sestavte kontingenční tabulku simultánních absolutních četností. Řešení: ad a) Rozsah datového souboru je 60. Podle Sturgersova pravidla je tedy optimální počet třídicích intervalů 7. Nejmenší hodnota je 52 a největší 189. Volíme vi = 50, v2 = 70,v8= 190. ad b) f SO, Ti i) (70,90} (FW, 110} (HO, 130) (130,150) (lbO,170} [170, 190} i n f. {30, 50) 5 0 0 0 0 0 {50, 70) 0 3 L 0 0 0 (70,90) 0 4 7 1 1 íl 0 (90,110} ■:i (J 1 i - 1 íl 0 15 (110,130} 0 li II 4 5 tl 0 M (130,150} 0 0 0 0 :: 0 7 (150,170} 0 D 0 0 0 1 3 4 5 10 14 1Á 9 fi 3 n = 60 Stereogram Dvourozměrné intervalové rozložení četností graficky znázorňujeme pomocí stereogramu. Je to graf skládající se z r * s kvádrů, sestrojených nad dvourozměrnými třídicími intervaly, přičemž objem (j, k) - tého kvádruje roven relativní četnosti p (j, k) -tého třídicího intervalu, j = 1,r, k = 1, ..., s. Výška kvádru tedy vyjadřuje simultánní četnostní hustotu. V našem příkladě s mezí plasticky a mezí pevnosti oceli bude mít stereogram tvar: SAS - stručné seznámení 2 základní SAS rozhraní: • SAS windowing environment SAS Enterprise Guide (GUI) SAS Enterprise Guide File Edit View Tasks Program Tools Help |S'Si' ^ I i ^ ll H ?< I | Process Flow - 'roject Tree x Process Flow □ S^g Process Flow $"f^l customer "|| Club Members Query Non Club Members Query nonclub TP List Data ► Run » I | Export » Schedule ■* Zoom ■* 1Project Log | 0 Properties Club Members Q.. Lisi clubmembe... Non Club Members Q.. nonclub List Data 1—1 " H3 SAS Report -List Da... 73 SAS - stručné seznámení SAS File Edit View Tools Run Solutions Window Help j -y i_- □ zs u m a 1*1 1 iS ig 1 * X © ♦ SAS Explorer window - data czobec; set czdata.czobec; hustüta=obyvatel/ [plücha+ ] run; /* nastaveni grafických parametru a voláni procedury GHAP V goptions reset=all cdIoľs-(grayŕ□ grayeü graydO graycü graybO grayaü gray90 graySO gray70 gi:ay60 graySO giray'lO gray30 gi:ay20 graylO) f title= 1 atrial1 ctext=black; ~ proč gmap data-caobec map=czdata. czotjec_itiap; id idobec; choro obyvatel; 74 stručné seznámen • Pomocí klikání a přetahování myší je budován procesní tok. □SK Process Flow SAS Output File Edit View Code Data Describe Graph Analyze OLAP Add-In Tools Window Help S-ät-H^|ä*£[aCaX|»)<*|<\.!n|Ktigl5lQÄSst!|^ EGD.fault ► ■ . I WORK.MPW6175 ' . I » ^| g | . J^g Process Flow Project | iL [^WÜRK.IMFWEI 75 [read-only] | ^] HTML - Histograms ^ HTML PieChart | The Raw to Know- Zastoupeni krajů Olomoucky kraj Hlavní mesto Praha ! Create Code | Create Data using Data Gric ^ Create Note Create Query using Aclive Dala _' Create Empty Query n Create Empty Pro Add llems to Piojecl 2 Open From My Computei W Open From SAS Server/Bindei 0 Open IIILAP Cube l^i Open Exchange 13 Open OLEDE ^ Open ODBC If? Bon Plot V Bubble Plot 0 Contour Plot Create Map Feature Table I* Donut Chart ^ Line Plot V Map Graph O Pie Chart ■fr. Radar Charl :. Scatter Plot Surface Plot Time Series r' ARIMA Modeling and Forecasting — Regression Analysis with Autoregri a1" Basic Forecasting Regression Analysis ol Panel Data £§j Prepare Time Series Data Multivariate__ b£ Canonical Correlation Cluster Analysis Discrirriinant Analysis \a Factor Analysis ->C Princioal Comoonents 75 SAS Enterprise Guide (EG) Interface • EG automaticky generuje kód, který možné dále editovat BonusReport * rift] Program y Save •» l> Run t ■ Stop Select Server Export » Send To ? '"IE) Properties EJ data work.comp; set orion.sales; Bonus=500; Compensation=sum (Salary,Bonus); BonusMonth=month(Hire_Date); drop Gender Salary Job_Title Country Birth_Date; format Bonus Compensation doliar8. Hire_Date date9.; label Employee_ID="Employee ID" First_Name="First Name" Last_Name="Last Name" BonusMonth="Month of Bonus" Hire_Date="Hire Date"; run; - proc print data=work.comp label; title 'Bonus report for 2009'; run; 76 SAS Help •Use the SAS Enterprise Guide Help facility or SAS OnlineDoc for additional direction on SAS Enterprise Guide or the SAS programming language. Go to support.sas.com and select Product Documentation O Base SAS. B? SAS Enterprise Guide Help Hide Back Print Contents Index Search Favorites - _jj About SAS Enterprise Guide || Where do I start? ^ Tutorial and training for SAS Entei| _J Additional resources §] Accessibility and compatibility feati _J Keyboard shortcuts § What are 'tasks' and 'projects'? ^ Can I still write SAS programs? © CJ What's New 0 C~J Using SAS Enterprise Guide © C3 Working with Projects + £^ Working with Data + Q] Building Queries + £^ Filtering and Sorting Data El Q] Working with Programs + _| Working with Stored Processes + _| Working with Prompts © £^ Working with Results + Q] Exporting and Sending Files + _| Publishing Data and Results + Q] Customizing SAS Enterprise Guide + Working with Enterprise Guide Explore + C~J Running SAS Tasks SIDE Base SAS - Windows Internet Explorer provided by SAS SAS® Enterprise Guide Help SAS Enterprise Guide is a powerful Microsoft Windows client application that pr mechanism to exploit the power of SAS and publish dynamic results throughoui Select the topics below to get started. ► Where do I start? ► Tutorial and training for SAS Enterprise Guide ► What are tasks and projects? ► Can I still write SAS programs? ► What tasks are available in SAS Enterprise Guide 4.2? ► What's new in SAS Enterprise Guide 4.2 ijF^ř T J S httP://support,sas,CQm/documentation/onlinedoc/base/inde%,html Base 5AS v |**|| X i Google 0d® EE ' \^ Page - Tools - §sas THE POWER TO KNOW. Search support.aas.com support.sas.com knowledgebase support learning center community KNOWLEDGE BASE / PRODUCT DOCUMENTATION Print 1 e-mail | Baakmarl KNOWLEDGE BASE ■ System Reguirements ■ Install Center • Pro-duct Documentation *WhafsNew ia SAS * SAS 9.2 « SAS 9.1 * SAS S.2 • Papers " Samples a SAS Notes ■ Focus Areas Base SAS Base SAS 9.2 [Base SAS 9.2] [Base SAS 9.1.3] [Base SAS 9.1] • What's New in SAS 9_2 PDF (130MB) | HTML | Purchase book Most Used Documentation • Base SAS 9.2 Procedures Guide PDF (581MB) | HTML • Base SAS 9.2 Procedures Guide: Statistical Procedures PDF (484MB) | HTML • SAS 9_2 Language Reference: Concepts PDF (716MB) | HTML • SAS 9_2 Language Reference: Dictionary PDF (744MB) | HTML MORE ABOUT THIS PRODUCT * Product Description * Bookstore * USTraining * Worldwide Training * Base SAS Focus Area FEEDBACK * Send a Comment Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. * SAS používají např.: PPF HOME H CREDIT J j GE Money ČESKÁ REPUBLIKA Raiffeisen BANK fcUniCredit Bank Kooperativa «Tcpp Vienna Insurance Group Vienna insurance group CESKÁ POJIŠŤOVNA dire- b poj ištovna PART OF THE R5AGROUP T ■ -Mobüe E SKUPINA ČEZ mycroftmind Více na http://www.sas.com/offices/europe/czech/reference/ SAS na webu Michal Kulich: Malý manuál uživatele SASu http://wwwJ<:arlin.mffxunixz/~lmlich/sas/SASMain.html Phil Spector: An Introduction to the SAS System http://www.stat.berkeley.edu/classes/sioo/sas.pdf Patric McLeod : Introduction to SAS 9 http://www.unt.edu/rss/class/sasi/ http://en.wikipedia.org/wiki/SAS_%28software%29 Sof ware SAS Aktuálně k dispozici: • SAS 9.3 TS1M2, Rev. 93o_i2W4i for • Microsoft® Windows® Workstation & Server 32-bit • Microsoft® Windows® Server & Workstation for X64 • Linux® for X64 • SAS EAS • Credit Scoring for SAS Enterprise Miner • SAS Enterprise Guide • SAS Enterprise Miner Personal Client • SAS Enterprise Miner Server, including the products: • SAS Enterprise Guide • SAS Forecast Server • SAS Metadata Server • SAS Text Analytics for Czech • SAS Text Miner Server • JMP Pro (Microsoft® Windows® for X64, JMP 10.0.1 TS1M2, Rev. 930_i2W4i) Sof ware SAS •SAS EAS: Education Analytical Suite = Base SAS®, SAS/ACCESS® rozhraní (pro všechny databáze), SAS/AF®, SAS/ASSIST®, SAS® Bridge for ESRI, SAS/CONNECT®, SAS/EIS®, SAS® Enterprise Guide®, SAS/ETS®, SAS/FSP®, SAS/GRAPH®, SAS/IML®, SAS/INSIGHT®, SAS/Integration Technologies®, SAS/LAB®, SAS/OR®, SAS/QC®, SAS/SECURE®, SAS/SHARE®, SAS/STAT® nstalační soubory, licenční podmínky • Instalační soubory SASu (v.9.3) jsou k dispozici všem studentům a učitelům MU na adrese https://inet.muni.cz/app/soft/licence • Před vlastním zobrazením stránky s inst. soubory je nutné odsouhlasit licenční podmínky. • Plný instalační depot 23 GB! inet muni.cz Apli tace je určená pře "egisl "aci softwaru a podle z-.-olere <.s;ego-ie s aktuálností :o z-, následně zadat počet licencí (počat počítaču licencí. Pokud je dostupný soubor s určitou instala Nabídka softwaru šlsdné zis <.ar" : "'5:..:.. ' ';;íe:,v ' ';> í :s íim informacím (pop r prístup k samotněni u softwaru) Přihlášeny uživatel si "■" .'.že "e; "ě: "ěz : ros:..: "y sof;/, a "e íní určité kategorie se zobrazí tabulka dcitupreho iořtAaru. Po kliknutí na 'Medium' je v některých případech nutné pří první náVĚtěvě odsouhlasit licenční ujednání a a kterých b-ude sort-,', a "e p "ovczc-.-arl :c potv ■zení již budou nabídnuty ves ce "e dostupne infc "mace ce ten -oretnímu soft-,', a "u Zde je nic É re nadále mé nit počet ve "zí,. tak p "o jeho stažení r a dis <. slači jer d i trcut od ca z '5 ta hro li ľ apo c "a í oval dle irst ti 0) co a normovaná ( X po) = !)• X=-co Pomocí kumulativních relativních četností zavedeme empirickou distribuční funkci . Funkce F(x) = distribuční funkce. 0 pro x < xJX] Fj pro xU] x [r] Empirická distribuční funkce je neklesající ( Vx1( x2 e R, x 1 < x2: F(x i) < F(x2)), zprava spojitá ( v x0 e R libovolné, ale pevně dané: iimx^Xo+ F(x) = F(x0)) a normovaná ( lim x_>^0 F(x) = 0, íim^ F(x) =1). Platí VxeR:F(x)=Xp(t). tx[r] P(X): F(X): Vztah mezi četnostní funkcí a empirickou distribuční funkcí VxeR:F(x)=Jp(t) tk = 1> [0 jinak Mezi simultánní četnostní funkcí a marginálními četnostními funkcemi platí vztahy: QO QO Pi(x)= Ep(x,y), p2(y)= Sp(x, y). y——QO x ——QO 89 Příklad Příklad: Sestrojte graf simultánní četnostní funkce pro známky z matematiky a angličtiny. v Řešení: Vyjdeme z kontingenční tabulky simultánních relativních četností. 1 v 1 2 3 4 Pj- X 1 Vjk 1 0,20 0,05 0,10 0,00 0,3-5 2 0,00 0,10 0,05 0,00 0,15 3 0,00 Q,00 0.05 0,05 0,10 4 0,00 0,05 0řlo 0,20 Q,-in i a ,20 0,20 0,35 0,25 L,00 Četností nezávislost znaků v daném výběrovém souboru ■v Řekneme, že znaky X, Y jsou v daném výběrovém souboru četnostně nezávislé , právě když pro všechna j = 1,r a všechna k = 1,s platí multiplikativní vztah: Pjk = Pj. P.k neboli pro v (x, y) e R2: p(x, y) = p i(x) p 2(y). Příklad: Ověřte, zda v našem datovém souboru jsou známky z matematiky a angličtiny četnostně nezávislé. v Řešení: Vyjdeme z kontingenční tabulky relativních četností. v 1 2 3 4 i 0,20 0,05 0,10 0,00 0,3-5 2 0,00 oao otos 0,00 0,15 3 0,00 0,00 (}.{)& 0,05 o,m 4 0,00 0,05 0,15 0,20 0,^0 P-K 0,20 0,20 0,35 0,25 : i|0D Známky z matematiky a angličtiny nejsou četnostně nezávislé, protože už pro j = 1, k = 1 je multiplikativní vztah porušen: pn = 0,20, p i. = 0,35, p .i = 0,20, tudíž 0,20 * 0,35.0,20 Histogram, hustota četnosti, intervalová empirická distribuční funkce Intervalové rozložení četností graficky znázorňujeme pomocí histogramu. Je to graf skládající se z r obdélníků, sestrojených nad třídicími intervaly, přičemž obsah j-tého obdélníku je roven relativní četnosti pj j-tého třídicího intervalu, j = 1, r. Histogram je shora omezen schodovitou čarou, která je grafem funkce zvané hustota četnosti: [fj proUj o) a normovaná (j"f(x)dx =i). Intervalová —00 empirická distribuční funkce je neklesající, spojitá a normovaná (iimx^_ooF(x) = O, lim_F(x)= 1). Příklad Příklad: Pro mez plasticity oceli nakreslete histogram a pod histogram graf intervalové empirické distribuční funkce. Řešení: Vyjdeme z tabulky rozložení četností. (uřuJ+l) dj x[j] nJ Pj Nj Fj fj (30,50) 20 40 8 8/60 = 0,13 8 8/60 = 0,13 8/(60-20) = 0,006 (50,70) 20 60 4 4/60 = 0,06 12 12/60 = 0,2 4/(60-20) = 0,003 (70,90) 20 80 13 13/60 = 0,216 25 25/60 = 0,416 13/(60-20) = 0,01083 (90,110) 20 100 15 15/60 = 0,25 40 40/60 =0,6 15/(60-20) = 0,0125 (110,130) 20 120 9 9/60 =0,15 49 49/60 = 0,816 9/(60-20) = 0,0075 (l30,150) 20 140 7 7/60 = 0,116 56 56/60 = 0,9 3 7/(60-20) = 0,00583 (l 50,170) 20 160 4 4/60 = 0,06 60 60/60 = 1 4/(60-20) = 0,003 Součty 60 1 Příklad (uj,uJ+i) dj X[j] nj Pj Nj Fj fj (30,50} 20 40 8 8/60 = 0,13 8 8/60 = 0,13 8/(60-20) =0,006 (50,70> 20 60 4 4/60 = 0,06 12 12/60 = 0,2 4/(60-20) =0,003 (70,90> 20 80 13 13/60 = 0,216 25 25/60 = 0,416 13/(60-20) = 0,01083 (?0,110> 20 100 15 15/60 = 0,25 40 40/60 = 0,6 15/(60-20) =0,0125 (lO,130> 20 120 9 9/60 = 0,15 49 49/60 = 0,816 9/(60-20) =0,0075 Í30,150> 20 140 7 7/60 = 0,116 56 56/60 = 0,93 7/(60-20) =0,00583 Í50,170> 20 160 4 4/60 = 0,06 60 60/60 = 1 4/(60-20) =0,003 Součty 60 1 F(x) = J f(t) dt oo no iso iso 170 iso 9io Simultánní a marginální hustota četnosti Pomocí simultánních četnostních hustot zavedeme simultánní hustotu četnosti: T7 i \ íf,k Prou, •*« (30, 50) :■: 0 o 0 0 0 (50, 70) 0 3 1 u 0 0 (70,1)0) íl 4 7 i 1 (1 0 13 (UO,110) ■:i 'i 1 ■:i 0 15 (110,130) (i i" li 4 (i 0 s (130, 150} 0 0 0 0 2 .-j 0 7 (150,170) 0 U 0 (1 0 i 3 4 5 10 14 13 y 6 3 íl - 60 f,, =---= 0,000208, f, = —^— = 0,006667, f, = —^— = 0,004167, tudíž 60-20-20 60-20 60-20 0,000208 í 0,006667.0,004167 = 0,000028 96 Číselné charakteristiky znaků Doposud jsme se zabývali funkcionálními charakteristikami znaků, jako jsou: - empirická distribuční funkce F(x), - simultánní četnostní funkce p(x,y), - marginální četnostní funkce pi(x), p2(y), - simultánní hustota četnosti f(x,y), - marginální hustoty četnosti fi(x), f2(y), které nesou úplnou informaci o rozložení četností. Nyní zavedeme číselné charakteristiky, které nás informují o některých rysech tohoto rozložení četností: - o poloze (úrovni) hodnot znaku, - o jejich variabilitě (rozptýlení), - o těsnosti závislosti dvou znaků - a pod. Pro různé typy znaků se používají různé číselné charakteristiky, proto se nejdřív seznámíme s jednotlivými typy znaků. Typy znaků Nominální znak: připouští obsahovou interpretaci pouze u relace rovnosti =. O dvou variantách nominálního znaku lze pouze konstatovat, že jsou buď stejné nebo různé. Čísla, která přiřadíme jednotlivým variantám znaku, nereprezentují skutečnou hodnotu použitých čísel, ale jsou pouhým označením variant znaku. Příklady nominálních znaků: lékařská diagnóza, typ profese, barva očí, rodinný stav, národnost, ... Ordinální znak: připouští obsahovou interpretaci nejen u relace rovnosti =, ale též u relace uspořádání <. Můžeme tedy konstatovat, že varianta je větší (dokonalejší, silnější, vhodnější) než varianta x[k]. Příklad ordinálního znaku: školní klasifikace vyjadřuje menší nebo větší znalosti zkoušených žáků - jedničkář je lepší než dvojkař, ale intervaly mezi známkami nemají obsahovou interpretaci. Nelze tvrdit, že rozdíl ve znalostech mezi jedničkářem a dvojkařem je stejný jako mezi trojkařem a čtyřkařem. Další příklady: Různá bodování ve sportovních a uměleckých soutěžích, posuzování různých rysů sociálního chování, posuzování stavu pacientů, hodnocení postojů respondentů k různým otázkám, ... 98 Typy znaků Intervalový znak: kromě relací rovnosti = a uspořádání < umožňuje obsahovou interpretaci také u operace rozdílu -, tj. stejný interval mezi jednou dvojicí hodnot a jinou dvojicí hodnot vyjadřuje i stejný rozdíl v extenzitě zkoumané vlastnosti. Příklad intervalového znaku: teplota měřená ve stupních Celsia. Např. naměříme-li ve čtyřech po sobě jdoucích dnech polední teploty 0, 2, 4, 6 °C, znamená to, že každým dnem stouply teploty o 2 °C. Nelze však říci, že z druhého na třetí den vzrostla teplota dvojnásobně, kdežto ze třetího na čtvrtý den pouze jeden a půl krát. Další příklady: kalendářní systémy, směr větru, inteligenční kvocient, ... Společný znak intervalových znaků: nula byla stanovena uměle, pouhou konvencí. Poměrový znak: kromě relací rovnosti = a uspořádání < umožňuje obsahovou interpretaci také u operací rozdílu - a podílu /, tj. stejný poměr mezi jednou dvojicí hodnot a jinou dvojicí hodnot vyjadřuje i stejný podíl v extenzitě zkoumané vlastnosti. Příklad poměrového znaku: délka předmětu měřená v cm. Má-li jeden předmět délku 8 cm a druhý 16 cm, má smysl prohlásit, že druhý předmět je dvakrát delší než první předmět. Další příklady: počet dětí v rodině, výška kapesného v Kč, hmotnost osoby, ... Společný znak poměrových znaků: Poměrový znak má přirozený počátek, ke kterému jsou vztahovány všechny další hodnoty znaku. Mimo uvedenou klasifikaci stojí alternativní znaky, které nabývají jen dvou hodnot, např. 0,1, což znamená absenci a prezenci nějakého jevu. Například 0 bude znamenat neúspěch, 1 úspěch při řešení určité úlohy. Alternativní znaky mohou být ztotožněny s kterýmkoliv z předcházejících typů. Číselné charakteristiky nominálních znaků Charakteristika polohy: modus - nejčetnější varianta resp. střed nejčetnějšího třídicího intervalu. Příklad na stanovení modu 20 náhodně vybraných osob mělo odpovědět na otázku, který z pěti výrobků (označíme je A, B, C, D, E) preferují. Výsledky máme v tabulce: Výrobek A B C D E Četnost odpovědí 3 5 3 6 3 Stanovte modus. v Rešení: Modus = D Označení: x 0.00 10.00 20.00 30.00 40.00 50.00 60.00 Cramérův koeficient Charakteristika těsnosti závislosti dvou nominálních znaků: Cramérův koeficient kontingence. Carl Harald Cramér (1893 - 1985): Švédský matematik Cramérův koeficient Nechť znak X nabývá variant x ^ ,x [r] a znak Y nabývá variant y nj,y[s] . Máme dvourozměrný datový soubor ŕx1 y ^ Zjistíme absolutní četnosti n jk dvojice variant (X[j],y [k]), j = l, ...,r, k=l, ...,sa uspořádáme je do kontingenční tabulky: y y[ii - yts] nJ. X x[l] X[r] nll ••• nls ni. n k n j ... n.s n Vypočteme tzv. teoretické četnosti nin.k n a s jejich pomocí pak statistiku K 11 r\ k=i n ■ njn.k \2 Jk njnk Cramérův koeficient: v = K n(m-l) kde m = min{r,s}. Tento v koeficient nabývá hodnot mezi 0 a 1. Cím blíže je 1, tím je těsnější závislost mezi X a Y, čím blíže je 0, tím je tato závislost volnější. Cramérův koeficient Význam hodnot Cramérova koeficientu: mezi 0 až 0,1 ... zanedbatelná závislost, mezi 0,1 až 0,3 ... slabá závislost, mezi 0,3 až 0,7 ... střední závislost, mezi 0,7 až 1 ... silná závislost. Příklad Příklad na výpočet Cramérova koeficientu: 686 náhodně vybraných osob bylo dotázáno, zda vlastní auto (znak X, varianty 1 - ano, 2 - ne) a zda jsou ochotny používat MHD (znak Y, varianty 1 - ano, 2 - ne). Výsledky průzkumu jsou uvedeny v kontingenční tabulce Vypočtěte a interpretujte Cramérův koeficient. X Y ano ne ano 56 312 368 ne 283 35 318 n k 339 347 686 Řešení: Nejprve vypočteme teoretické četnosti: 368-347 1C, 1ylco = 186,1458, = 160,8542 — -*^9 =181,8542,^ = n 686 n ^9 =157,1458,^- = niAi _ n2.n.i _ 686 318-347 n 686 n 686 Nyní dosadíme do vzorce pro výpočet statistiky K: (56-181,8542)P , (312 -186,1458 f , (283-157,1458 J , (35-160,8542> K 181,8542 186,1485 157,1458 Nakonec vypočteme Cramérův koeficient: 160,8542 371,456 V [371,456 686 -1 0,7358 Hodnota Cramérova koeficientu svědčí o tom, že mezi znaky X a Y existuje silná závislost. Číselné charakteristiky ordinálních znaků Q1 Q2 Q3 Median Charakteristika polohy: a-kvantil. Je-li a e(o;i), pak a-kvantil xa je číslo, které rozděluje uspořádaný datový soubor na dolní úsek, obsahující aspoň podíl a všech dat a na horní úsek obsahující aspoň podíl 1 - a všech dat. Pro výpočet a-kvantilu slouží algoritmus: fl(y= I celé číslo C => Xa = x(c) + x(c+l) mecelé číslo => zaokrouhlíme nahoru na nejbližší celé číslo c => xa = x(c) Pro speciálně zvolená a užíváme názvů: x0,5o - medián, x0,25 - dolní kvartil, x0j5 -horní kvartil, x0si, x0,9 - decily, x0,oi, x0,99 - percentily. Charakteristika variability: kvartilová odchylka: q = x0J5 - x0,25- C 11 C I2 C I3 25% 25% 25% 25% Interquartile Range = Q3 - Q1 Příklad Příklad na výpočet kvantilů: U 50 žáků 7. ročníku jedné základní školy byly na pololetním vysvědčení zjištěny známky z matematiky: _ známka 1 2 3 4 5 četnost známky 9 15 20 4 2 Určete medián, 1. a 9. decil a kvartilovou odchylku. Řešení: Pro snadnější výpočet tabulku doplníme ještě o absolutní kumulativní četnosti: známka 1 2 3 4 5 9 15 20 4 2 9 24 44 48 50 Rozsah souboru n = 50 a na c 0,50 50.0,5=25 25 X(:5)+X(:6) 3+3 „ 2 2 0,10 50.0,1 = 5 5 X(5) + X{6) _ 1 + 1 _i 2 2 0,90 50.0,9 = 45 45 X(45) + X(46) 4 + 4 ^ 2 2 0,25 50.0,25 = 12,5 13 xmt = 2 0,75 50.0,75 = 37,5 38 X(38) = 3 Kvartilová odchylka: q = 3 -2=1. Interpretace např. Dolního kvartilu: V souboru žáků je aspoň čtvrtina takových, kteří mají z matematiky jedničku nebo dvojku (neboli v souboru 50 žáků jsou aspoň tři čtvrtiny takových, kteří mají z matematiky dvojku či horší známku). Příklad 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1 4 4 5 6 8 8 12 12 13 14 14 14 18 19 *0,25 nj nj ^ x0,25 I si? 0,75 1 1 1 0,07 0,07 4 2 3 0,13 0,20 5 1 4 0,07 0,27' 6 1 5 0,07 0,33 8 2 7 0,13 0,47 12 2 9 0,13 0,6& 13 1 10 0,07 0,67 14 3^ 13- 0 20 o.arí 1 m 18 1 14 0,07 0,93 X — 19 1 15 0,07 1,00 Součet 15 X 1,00 X = 5 = 14 ^ = Xq.vs — ^.25 =14 — 5 = 9 X0 25 je tedy hodnota, u které Fj poprvé překročí 0,25. !!! Pokud ale Fj=a pro nějaké xtj]> ^=(3íji+x[j+n)/2_ i=> x0,=(4+5)/2=4,5 107 Modus a kvantily pro intervalově tříděná data n — n X=d +-21---h m /-n ^nm ~~ nm-l ~~ nm+l dm je dolní mez modálni třídy, nm'nm-i'nm+i je četnost modálni, předcházející a následující třídy, je sirka tndy P -F _ xp = dp +-— • h Pp dp je dolní mez třídy obsahující příslušný P-kvantil, Pp je relativní četnost této třídy, Fp_x je kumulativní relativní četnost předcházející třídy, je sirka tndy 108 Příklad Určete modus a medián. Xi Ni méně než 15> 22 (15;20> 34 (20;25> 72 (25;30> 102 (30;35> 127 více než 35 135 Příklad Xi méně než 15> 22 (15;20> 34 (20-25> 72 (25k> 102 (30Í> 127 více ne^5 135 £=20 + = 23,82 2-38-12-30 0,5-0,25 0,28 = 24,46 11 Spearmanův koeficient Charakteristika těsnosti závislosti dvou ordinálních znaků: Spearmanův koeficient pořadové korelace Charles Edward Spearman (1863 - 1945): Britský psycholog a statistik Nejprve je nutné vysvětlit pojem pořadí čísla v posloupnosti čísel. Nechť Xi, ..., xn je posloupnost reálných čísel. a) Jsou-li čísla navzájem různá, pak pořadím Rj čísla Xj rozumíme počet těch čísel x1? ..., xn, která jsou menší nebo rovna číslu Xj. b) Vyskytuj í-li se mezi danými čísly skupinky stejných čísel, pak každé takové skupince přiřadíme průměrné pořadí. Příklad Příklad na stanovení pořadí a) Jsou dána čísla 9, 4, 5, 7, 3, 1. b) Jsou dána čísla 6, 7, 7, 9, 6, 10, 8, 6, 6, 9. Stanovte pořadí těchto čísel. Řešení ad a) usp. čísla 1 3 4 5 7 9 pořadí 1 2 3 4 5 6 ad b) usp. čísla 6 6 6 6 7 7 8 9 9 10 pořadí 1 2 3 4 5 6 7 8 9 10 prům. pořadí 2,5 2,5 2,5 2,5 5,5 5,5 7 8,5 8,5 10 Spearmanův koeficient Vzorec pro výpočet Spearmanova koeficientu: Předpokládejme, že máme dvourozměrný datový soubor hodnoty x i a Q i pořadí hodnoty y i? i = 1,... Spearmanův koeficient pořadové korelace: r \ xi Y] Označíme R i pořadí Vlastnosti Spearmanova koeficientu pořadové korelace: Koeficient nabývá hodnot mezi -1 a 1. Címjebližší 1, tím je silnější přímá pořadová závislost mezi znaky X a Y, čím je bližší -1, tím je silnější nepřímá pořadová závislost mezi znaky X a Y. Je-li r s = 1 resp. r s = -1, pak dvojice (x i? y J leží na nějaké vzestupné resp. klesající funkci. Hodnoty rs se nezmění, když provedeme vzestupnou transformaci původních dat. Hodnoty rs se vynásobí -1, když provedeme sestupnou transformaci původních dat. Koeficient je symetrický. Koeficient je rezistentní vůči odlehlým hodnotám. 113 Spearmanův koeficient Význam absolutní hodnoty Spearmanova koeficientu: mezi 0 až 0,1 ... zanedbatelná pořadová závislost, mezi 0,1 a ž 0,3 ... slabá pořadová závislost, mezi 0,3 až 0,7 ... střední pořadová závislost, mezi 0,7 až 1 ... silná pořadová závislost. Ilustrace významu Spearmanova koeficientu pořadové korelace rs = 0,82 rs = 0,69 vO Q. O O O- rs = 0,99 10 12 O 10 12 rs = 0,5 O 8 10 12 rs = -l O o, 'o. 1b 18 20 oo 0 2 0 2 10 12 Příklad Příklad na výpočet Spearmanova koeficientu pořadové korelace: Je dán dvourozměrný datový soubor '2,5 13,4N 3,4 15,2 1,3 11,8 5,8 13,1 v3,6 14,5, Vypočtěte Spearmanův koeficient pořadové korelace. v Řešení: Xi 2,5 3,4 1,3 5,8 3,6 Yi 13,4 15,2 11,8 13,1 14,5 Ri 2 3 1 5 4 Qi 3 5 1 2 4 (Rí-Qí)2 1 4 0 9 0 rs=l~r|-ny(Ri-Qi)2=l—5_(l + 4 + 0 + 9 + 0) = l-—= 0,3 s n(n2-l)trV 1 lJ 5-24V 7 5-24 Znamená to, že mezi znaky X a Y existuje slabá přímá pořadová závislost. Číselné charakteristiky intervalových znaků Charakteristika polohy: aritmetický průměr je součet hodnot dělený jejich počtemí m = -Vxi JPomocí průměru zavedeme i-tou centrovanou hodnotu Xi - m (podle znaménka poznáme, zda i-tá hodnota je podprůměrná či nadprůměrná). Znázornění rozložení četností dvou datových souborů, které se liší aritmetickým průměrem Rozdělení s různými polohami 500 v Často se aritmetický průměr označuje : x 1 n 5 10 15 hodnota znaku 20 117 Příklad Příklad: Pro datový soubor obsahující údaje o mezi plasticity (znak X) a mezi pevnosti oceli (znak Y) vypočtěte aritmetické průměry znaků X, Y. X Y X Y X Y 154 178 83 98 73 76 133 164 106 111 77 86 58 75 92 104 47 61 145 161 85 103 68 85 94 107 112 118 137 142 113 141 98 102 44 68 86 97 103 108 92 116 121 127 99 119 141 157 119 138 104 128 155 189 112 125 107 118 136 155 85 97 98 140 82 81 41 72 97 115 136 163 96 113 105 101 72 79 45 89 71 93 66 81 99 109 39 69 42 61 51 95 122 147 113 123 101 114 33 52 42 85 160 169 78 117 133 147 87 101 114 137 153 179 88 139 125 149 85 91 v Řešení: 154 + 133 + ... + 85 nen 178 + 164 + ... + 91 11AA m, =-= 95,9, m9 =-= 114,4 1 60 2 60 Aritmetický průměr Vlastnosti aritmetického průměru - Aritmetický průměr si lze představit jako těžiště dat - součet podprůměrných hodnot je stejný jako součet nadprůměrných hodnot - oba součty jsou v rovnováze. 1 n 1 n 1 n 1 - Průměr centrovaných hodnot je nulový, protože - Y(x; -m) = -Vxi —Ym=m---n-m = 0 = 0. n i=1 n i=1 n i=1 n n - Výraz ^á(xi -a)2 (tzv. kvadratická odchylka) nabývá svého minima pro a = m. Uvedený výraz charakterizuje i=l celkovou chybu, které se dopustíme, když datový soubor nahradíme jedinou hodnotou a. Tato chyba je tedy nejmenší, když datový soubor nahradíme aritmetickým průměrem, přičemž za míru chyby považujeme kvadratickou odchylku. - Aritmetický průměr je silně ovlivněn extrémními hodnotami. - Aritmetický průměr je vhodné použít, pokud je rozložení dat přibližně symetrické. 119 Rozptyl, směrodatná odchylka Charakteristika variability: rozptyl je průměrná kvadratická odchylka hodnot od jejich aritmetického průměru s2 = - Y (xj - m)2. Kladná odmocnina z rozptylu se nazývá směrodatná odchylka s = Vs2. Pomocí směrodatné odchylky n tt x — m zavedeme i-tou standardizovanou hodnotu —1- (vyjadřuje, o kolik směrodatných odchylek se i-tá hodnota odchýlila od průměru). fl 11 Výpočetní tvar vzorce pro rozptyl: s2 = -Yx.' ln i=i ; - m Znázornění rozložení četností dvou datových souborů, které se liší rozptylem: Rozdělení s různými variabilitami 500 5 10 15 hodnota znaku 20 25 120 Příklad Příklad: Pro datový soubor obsahující údaje o mezi plasticity (znak X) a mezi pevnosti oceli (znak Y) vypočtěte rozptyly a směrodatné odchylky znaků X, Y. Přitom již víme, že nii = 95,5 a m2 = 114,4. Řešení: X Y X Y X Y 154 178 83 98 73 76 133 164 106 111 77 86 58 75 92 104 47 61 145 161 85 103 68 85 94 107 112 118 137 142 113 141 98 102 44 68 86 97 103 108 92 116 121 127 99 119 141 157 119 138 104 128 155 189 112 125 107 118 136 155 85 97 98 140 82 81 41 72 97 115 136 163 96 113 105 101 72 79 45 89 71 93 66 81 99 109 39 69 42 61 51 95 122 147 113 123 101 114 33 52 42 85 160 169 78 117 133 147 87 101 114 137 153 179 88 139 125 149 85 91 s,2 =-Vxi2 -m,2 =— (l542 +1332 +... + 852)-95,52 =1052,40,s, = Jl052,40 = 32,4 ntŕ 60V ' s22 = ~Yjyi2 -m22 =— (l782 +1642 +... + 912)-114,42 =1057,21,Sl = ^1057,21 = 32,5 121 Rozptyl, směrodatná odchylka - vlastnosti Vlastnosti rozptylu a směrodatné odchylky: - Směrodatná odchylka je nulová pouze tehdy, když jsou všechny hodnoty stejné, jinak je kladná. 1 n 1 n Rozptyl centrovaných hodnot je roven původnímu rozptylu, neboť - V [(x; -m)-o]2 = - Y (x; - m)2 = s n i=i n i=1 1 11 íx — m ^ 1 1 11 sz Rozptyl standardizovaných hodnot jel, protože - Y —1--0 = ^ • - Y(xí -m)2 = — = 1 n i=1 ^ s J s n i=1 s Rozptyl či směrodatná odchylka jsou stejně jako průměr silně ovlivněny extrémními hodnotami. Rozptyl či směrodatná odchylka se nehodí jako charakteristiky variability, je-li rozložení dat nesymetrické. 122 v Šikmosť Charakteristika nesymetrie dat: šikmost a 3 = ^-^--- Je-li rozložení dat symetrické kolem aritmetického průměru, pak a3 = 0. Má-li rozložení dat prodloužený pravý konec, jde o kladně zešikmené rozložení a3 > 0. Má-li rozložení dat prodloužený levý konec, jde o záporně zešikmené rozložení a3 < 0. Znázornění rozložení četností dvou datových souborů, které se liší aritmetickým průměrem a šikmostí Rozdělení s různými polohami a šikmostmi 500 5 10 15 20 hodnota znaku 25 a o < 0: Pravostranná asymetrie a = 0: Symetrie a, > 0: Levostranná asymetrie v Spičatost Charakteristika koncentrace dat kolem průměru — (Xi " : spičatost a 4 = ——-- 3 Je-li rozložení dat normální (Gaussovo), pak a 4 = 0. Je-li rozložení dat strmé, pak a 4 > 0. Je-li rozložení dat ploché, pak a < 0. Znázornění rozložení četností dvou datových souborů, které se liší špičatostí Rozdělení s různými špičatostmi 250 -200 - g 150 i C cS 100 50 0 7 12 17 hodnota znaku 22 a4 < 0 : Podnormální spičatost cc = 0 : Normální spičatost CCA > 0 : Nadnormální spičatost Kovariance Charakteristika společné variability dvou intervalových znaků: kovariance Předpokládejme, že máme dvourozměrný datový soubor . Označme m1? m2 průměry znaků X, Y a s,, s2 Xn Yn. směrodatné odchylky znaků X, Y. Zavedeme kovarianci jako charakteristiku společné variability znaků X, Y kolem jejich průměrů 1 n si2 = -E(xi -miXy; -m2)- Kovariance je průměrem součinů centrovaných hodnot. Pokud se nadprůměrné (podprůměrné) hodnoty znaku X sdružují s nadprůměrnými (podprůměrnými) hodnotami znaku Y, budou součiny centrovaných hodnot xi - mi a yi - m2 vesměs kladné a jejich průměr (tj. kovariance) rovněž. Znamená to, že mezi znaky X, Y existuje určitý stupeň přímé lineární závislosti. Říkáme, že znaky X, Y jsou kladně korelované. Pokud se nadprůměrné (podprůměrné) hodnoty znaku X sdružují s podprůměrnými (nadprůměrnými) hodnotami znaku Y, budou součiny centrovaných hodnot vesměs záporné a jejich průměr rovněž. Znamená to, že mezi znaky X a Y existuje určitý stupeň nepřímé lineární závislosti. Říkáme, že znaky X, Y jsou záporně korelované. Je-li kovariance nulová, pak řekneme, že znaky X, Y jsou nekorelované a znamená to, že mezi nimi neexistuje žádná lineární závislost. Pro výpočet kovariance používáme vzorec: 125 Kovariance Znázornění významu kovariance — 5,5 S12 — -5,5 S12 — 0 2 4 6 8 10 12 14 16 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 126 Příklad Příklad: Pro datový soubor obsahující údaje o mezi plasticity (znak X) a mezi pevnosti oceli (znak Y) vypočtěte kovarianci znaků X, Y. Přitom již víme, že mi = 95,5, m2 = 114,4, si =32,4, s2 = 32,5 X Y X Y X Y 154 178 83 98 73 76 133 164 106 111 77 86 58 75 92 104 47 61 145 161 85 103 68 85 94 107 112 118 137 142 113 141 98 102 44 68 86 97 103 108 92 116 121 127 99 119 141 157 119 138 104 128 155 189 112 125 107 118 136 155 85 97 98 140 82 81 41 72 97 115 136 163 96 113 105 101 72 79 45 89 71 93 66 81 99 109 39 69 42 61 51 95 122 147 113 123 101 114 33 52 42 85 160 169 78 117 133 147 87 101 114 137 153 179 88 139 125 149 85 91 V Řešení: si2 =-Žx1y1 -m^ = — (154-178+ 133-164+ ... + 85-91)-95,5-114,4 = 985,76 n 60 Pearsonův koeficient korelace Charakteristika těsnosti závislosti dvou intervalových znaků: Pearsonův koeficient korelace Jsou-li směrodatné ode ri2 1 ~mi Yi ~m2 n i=1 Sj s2 íylky Si, s2 nenulové, pak definujeme Pearsonův koeficient korelace znaků X, Y vzorcem: Je to průměr součinů standardizovaných hodnot. Počítá se podle vzorce - s'2 SjS2 Příklad: Pro datový soubor obsahující údaje o mezi plasticity (znak X) a mezi pevnosti oceli (znak Y) vypočtěte koeficient korelace znaků X, Y. Přitom již víme, že mi = 95,5, m2 = 114,4, si =32,4, s2 = 32,5, Si2 = 985,76. v Řešení: _ s12 _ 985,76 0,936 SjS2 32,4.32,5 Koeficient korelace svědčí o tom, že mezi oběma znaky existuje velmi silná přímá lineární závislost - čím je vyšší mez plasticity, tímje vyšší mez pevnosti a čím je nižší mez plasticity, tímje nižší mez pevnosti. Vlastnosti Pearsonova koeficientu korelace: Pro koeficient korelace platí -1 < r12 < 1 a rovnosti je dosaženo právě když mezi hodnotami xi? xn a yi, yn existuje úplná lineární závislost, tj. existují konstanty a, b tak, že yi = a + bxÍ5 i = 1, n, přičemž znaménko + platí pro b > 0, znaménko - pro b < 0. (Uvedená nerovnost se nazývá Cauchyova - Schwarzova - Buňakovského nerovnost.) Tedy čím je r12 bližší 1, tímje silnější přímá lineární závislost mezi znaky X a Y, čím je bližší -1, tímje silnější nepřímá lineární závislost mezi X a Y. Je-li r12 = 1 resp. r12 = -1, pak dvojice (xi? y0 leží na nějaké rostoucí resp. klesající přímce. Hodnoty r12 se nezmění, když u x-ových a y-ových hodnot současně provedeme vzestupnou resp. sestupnou lineární transformaci. Hodnoty ri2 se vynásobí -1, když u x-ových hodnot provedeme vzestupnou (resp. sestupnou) a u y-ových hodnot sestupnou (resp. vzestupnou) lineární transformaci. Koeficient je symetrický, tj. r12 = r2i. Početní pravidla pro číselné charakteristiky Početní pravidla pro číselné charakteristiky Nechť mi je aritmetický průměr a s i rozptyl znaku X. Pak znak Y = a + bX má: aritmetický průměr m2 = a + bm, , rozptyl 2 2 Nechť m! , m 2 jsou aritmetické průměry, s i , s 2 rozptyly a s 12 kovariance znaků X, Y. Pak znak U = X + Y má aritmetický průměr m3 = m, + m2 , rozptyl 2 2 2 Nechť s 12 je ko variance znaků X, Y a m: , m 2 jsou aritmetické průměry znaků X, Y. Pak znaky U = a + bX, V = c + dY mají kovarianci 129 Příklad Příklad: a) Znak X má aritmetický průměr 2 a rozptyl 3. Najděte aritmetický průměr a rozptyl znaku Y = -1 + 3X. b) Znaky X a Y mají aritmetické průměry 3 a 2, rozptyly 2 a 3, kovarianci 1,5. Vypočtěte aritmetický průměr a rozptyl znaku Z = 5X - 4Y. c) Součet rozptylů dvou znaků je 120, součin 1000 a rozptyl jejich součtů je 100. Vypočtěte koeficient korelace těchto znaků. v Řešení: ad a) m2 = -1 + 3m: = -1 + 3 x 2 = 5, s22 = 32 x Sl2 = 9 x 3 = 27. ad b) m3 = 5m: - 4m2 = 5 x 3 - 4 x 2 = 7, s32 = 52 x Sl2 + (-4)2 x §22 + 2 x 5 x (-4) x Sl2 = 25 x 2 + 16 x 3 - 40 x 1,5 = 38. ad c) si2 + s22= 120, Si2 x s22 = 1000, s1+22= 100 = s:2 + s22 + 2s12 => s12= ^(s1+22- sx2- s22 )=^(l00-120) = -10 ri2= = -=12= = -0,3162. Sj x s2 VlOOO 130 Vážené číselné charakteristiky Pokud nemáme k dispozici původní datový soubor, ale jenom tabulku rozložení četností (resp. kontingenční tabulku), můžeme vypočítat tzv. vážené číselné charakteristiky. i r Vážený aritmetický průměr: m = — Xnjxu] n j=i Vážený rozptyl: s2 = —Xnj(xu] _m)2 = ~Žnjxu]2 _m2 n j=i n j=i Vážená kovariance: s12 = -ÉSnjk(x[j] -miXym -m2)=-ÉÉnJkx[i]ym -mim2 n j=l k=l n j=l k=l 131 Příklad h2 =^-(2 -9 + 22ll +32 -7)-| 52 27 116 2704 _ 428 27 729 729 , si =0,766 a2 adb) S12 27 11 + 22-7 + 32 "9)-í — 7 l 27 120 2704 = 536 27 729 729 , s2 = 0,857 1 ^9 ^9 — (l-l-5 + 1-2-1 + 1-3-3+ 2-1-4 +2-2-3+ 2-3-4 + 3-1-2 + 3-2-3+ 3-3-2)---- 27 27 27 102 2704 2754 -2704 50 27 729 50 729 l12 Í428 536 V 729 729 729 0,10439 729 = 0,0685871 Příklad na výpočet vážených číselných charakteristik Z dvourozměrné ho datového souboru rozsahu 27, v němž znak X má varianty 1, 2, 3 a znak Y má rovněž varianty 1, 2, 3, byly určeny simultánní absolutní četnosti: n n = 5, n i2 = 1, n i3 = 3, n2i = 4, n22 = 3, n23 = 4, n3i = 2, n32 = 3, n33 = 2. a) Vypočtěte průměry a směrodatné odchylky znaků X a Y. b) Vypočtěte a interpretujte koeficient korelace znaků X a Y. Řešení: Kontingenční tabulka simultánních absolutních četností: ad a) m, = — (l • 9 + 2 -11 + 3 -l)= — = 1,926 , m9 = —(l-11 + 2-7 + 3-9)= — = 1,926 27 27 27 27 X y nJ. i 2 3 1 5 1 3 9 2 4 3 4 11 3 2 3 2 7 n.k 11 7 9 27 Mezi znaky X a Y existuje velmi slabá přímá lineární závislost. Koeficient variace, geometrický průměr číslo, které se často vyjadřuje v procentech. Umožňuje porovnat variabilitu několika znaků. Jsou-li všechny hodnoty poměrového znaku kladné, pak jako charakteristiku polohy lze užít geometrický průměr ^xr...-xQ . Příklad: Pro datový soubor obsahující údaje o mezi plasticity (znak X) a mezi pevnosti oceli (znak Y) vypočtěte koeficienty variace znaků X, Y. Přitom již víme, že ni! = 95,5, m2 = 114,4, Si =32,4, s2 = 32,5 v Řešení: 32,4 = 0,339,cv2 = s2 _ 32,5 = 0,284 m 95,5 m2 114,4 133 Výpočty zavedením pomocné proměnné x -a > pomocná proměnná =^> v = —- h > konstanty: • a —> střed třídy s nejvyšší četností • h —> šířka třídy 134 Výpočty zavedením pomocné proměnné V S 2 v x — a h s h 2 2 > x = vh + a > s 2 x u2 2 h sv Příklad Xi «i <30 - 40) 10 <40 - 50) 31 <50 - 60) 27 <60 - 70) 19 <70 - 80) 13 Celkem 100 Vypočítejte: aritmetický průměr, rozptyl, směrodatnou odchylku variační koeficient zavedením pomocné proměnné Příklad Příklad Xi Vi WH 35 10 -1 -10 45 31 0 0 55 27 1 27 65 19 2 38 75 13 3 39 Součet 100 X 94 v = 0,94 x = vh + a = = 0,94-10 + 45 = 54,4 Příklad v,- 35 10 -1 10 45 31 0 0 55 27 1 27 65 19 2 76 75 13 3 117 Součet 100 X 230 sv2 =- VOfrO-v2 =2,3-0,8836 = 1,4164 =^> s2 = h2 • s2 = 102 • 1,4164 = 141,64 Příklad sx=VšF = Vl41,64=ll,9 sx = h -s* =10-VW164 =11,9 s 119 cvx = ^ = — = 0,2188 x x 55,4 h-sv 10-1,19 cvv =-— =-= 0,2188 v-h + a 0,94-10 + 45 Společný rozptyl 2 -2,2 -2 , S ......vnitroskupinová variabilita (s#) o ^ ......meziskupinová variabilita (s,) :) Značení ze skript „Popisná statistika" Společný rozptyl > vnitroskupinová variabilita i k -2 1 2 s =~Z^si n i=l > meziskupinová variabilita 1 * s2- =~YJ{xi-xf -n n i=i Příklad Dl: 104 108 D2: 93 65 Vypočítejte: • dílčí průměry, • společný průměr, • dílčí rozptyly, • společný rozptyl. Příklad 1 "! nj i=i = ^-(104 + 108 + 79 + 155) = 111,5 x2 = ^--(93 + 65 + 76 + 111) = 86^25 x = - • (111,5 • 4 + 86,25 • 4) = 98,875 8 = Příklad síi=-2](xi1"^ľ = n íT = 7,52 +3,52 +32,52+43,52 =1$J[ 2f. 4 * _ 6,752 +21,252 +10,252 +24,752 4 Příklad š2 = - • (754,25 • 4 + 303,69 • 4) = 528,97 8 — 1 k =-E(^-^)2'ni = n í=i (111,5 - 98,875)2 • 4) + (86,25 - 98,875)2 • 4 8 Příklad 2 -2,2 S = S + S- = = 528,97 + 159,39 = 688,36 Pro kontrolu ještě spočteme rozptyl přímo: s2 = - V x2 - x2 = - • 83717 - 98,875 = 10464,63-9776,27 = 688,36 3. Statistický software, základy práce v SAS Tailli Hwair. ..^..in ijji.i 148 9^85 Software AcaStat GAUSS ADaMSoft GAUSS Analvse-it GenStat ASReml Auquri BioStat BriqhtStat Dataplot EasvReq Epi Info EViews Excel Golden Helix qretl JMP MacAnova Mathematica Matlab MedCalc modelQED Minitab MRDCL NCSS QpenEpi Origin Ox programming language OxMetrics Origin Partek Primer PSPP R R Commandern] RATS RKWardRI SalStat SAS SOCR Stata Statgraphics STATISTICA Statlt StatPlus SPIus SPSS StatsDirect Statistix SYSTAT The Unscrambler UNISTAT VisualStat Winpepi WinSPC XLStat XploRe 149 Some Available Proprietary • Excel . SPSS . MINITAB . Matlab • Statistica . SAS Statistical Packages Free Software • LibreOffice Calc . PSPP • Epilnfo . R • ... What is Used? (Academia) 1995 2000 2005 2010 Year Use of data analysis software in academic publications as measured by hits on Google Scholar. What is Used? (Survey) R-SAS- IBM SPSS Statistics-" IBM SPSS Modeler-Weka-MATLAB-STATISTICA- d5 _J z; o TD TD O O ~ SAS Enterprise Mineral Microsoft SQLServer- c Rapid Miner- E KNIME- Q Mathematica -Oracle Data Mining -KXEN- 1 1 ) 10 I 20 3 i 0 40 Percent of Respondents Using Software is Used? (Job Market) SAS - SPSS - Minitab R- ro O CO ™ Stata -m ro CO JMP Statistica - Systat BMDP - i i i i i i i 0 2000 4000 6000 8000 10000 12000 Number of Jobs on Indeed com 153 icrosoft Excel l Sales Data - Microsoft Excel _ n x Insert Page Layout Formulas Data Review View e Ml PivotTable Table i id & » r * W- o Column Line Bar Area XY Other * (Scatter) * Charts' M *f *t Picture IGX Shapes Graphic IB Hyperlink 4 Text Header WordArt Signature Object Symbol Box & Footer * Line" HIS M 12 13 Total Sales by Store Store R Soles R Store 1 S 313,765 Store 2 s 107,160 Store 3 $ 351751 Store 4 s 131,047 Store 5 $ 252,136 Store 6 s 167/62 Store 7 $ 210,073 Store 8 s 308,092 Store 9 s 97/192 Store 10 $ 393,484 Store 11 $ 396,891 Store 12 s 151,168 Store 1 3 s 251,390 Store 14 s 392,776 Store 15 $ 259,654 Store 16 s 225,184 Store 17 s 335,785., M 4 ► M i Si jmniarv , Total Sales by Region Region West South Midwest East Total Sales Oi Os Qs 1,718,258 534,389 1,009,268 900/131 4,162,346, Total Sales by Category Category Sales Automotive Gardening Electronics Jewelry Sporting Houseware Books Games 86,285 1- 52,048 83,026 93,035 1 50,016 I 19,149 42,247 fc_ 18/120 TOTAL SALES BY CATEGORY I Automotive ■Gardening n Electronics I Jewelry ■ Sporting ■ Housewares - Books ~ Games Microsoft Excel COST • Individual License for Microsoft Office Professional $350 • Microsoft Office University Student License: $99 • Volume Discounts available for large organizations and universities • Free Starter Version available on some new PCs PRO • Nearly ubiquitous and is often pre-installed on new computers • User friendly • Very good for basic descriptive statistics, charts and plots CON • Costs money • Not sufficient for anything beyound the most basic statistical analysis 155 Minitab >v(INITAB WI1NFSS ANALYSIS.MP J Ele E« 0*a C* Stat fraph Editor loots iflndow tHP BE® a *»«|or. m q ? : uijc ■ 7000 ■ 700t - 8000 soot ■ »000 400« - 10000 IfiilOC 11000 ■ ::oot - 12000 ■ k 12000 6.0 No. Staff B a a Evaluation Pitfitability C8 No. Staff B 0 1 2 3 4 5 6 ~7|" 8 9 6640 6536 5770 6540 6540 6480 6600 6620 6490 6540 7 7 7 7 7 7 6 7 7 7 C9 No. Engineeis C11 C12 Checking .Ouantity Testiag .Quantity 4l 3 3 4» 3' 111 _3| 3 3 3 3 3 "~8| 3 C13 C14 C15 Engineei_Utilizatioii SeiviceSigm.iRating SeiviceLevelPercen 77 394 77 157 76 887 77 283 77.394 77.394 77 394 96 484 77 676 77 699 0 232 0163 0 132 0 232 0.232 0.232 0.232 0 232 0 232 0232 1025« 9 09 8.57 10.251 10.251 10.251 10.251 10251 1025« 10 251 v > [welcome to Mhilab, press Fl for help. 1213 156 Minitab COST • $1,395.00 per single user license CON • Costs Money • Not suitable for very complicated statistical computation and analysis • Not often used in academic research PRO • Easy to learn and use • Often taught in schools in introductory statistics courses • Widely used in engineering for process improvement 157 Matlab □ Matlab^ www.mathworks.com, www.humusoft.cz ■ I 1 i-iii •Jt=L Ur»*U«|i.|l'l ■ ■ i AM MI«» fia««»*-f |*9t i_ i-, 2i ■— r-.— ■! ■ LLU1 Vi 411 u Iii ml- n 4 R "• - J — - m iWfl 1 ■ ■■■■ — h 1 rflll nM 4i-rV-4 i^Vn UM ■ L n PH UW ■ 158 Matlab -Inlxi File Edit Text Go Cell Tools Debug Parallel Desktop Window Help □ t3|»%ia*)fr|»cg'gi| Shortcuts £ How to Add What's New I j D:\Jarda\5eminare\2G09\Priprava\Pr 7% Variable Editor - Z O í" X M 1 * ^ ■ -fäTHJ "|n zl * x |Qz<4lx4ldoubfe> 1 2 3 1 Qŕroc 1 Qinr 4 1 ž- 2 1.9025 I .^>U^Li I .□ IUL 1.8050 1.7125 ,r 3 1.8100 1.7125 1.6200 1 K^^nl 1 c^-ic 1.Ü 5 1.6400 I .D^DU. I .OJZ_ 1.5425] 1.4500 íl 6 1.5625 1.4650 1.3725 1.3000 1.2325 _v. 3 1.4225 1.3250 ~\ 9 1.3600 1.2625 1.1700 1.C 10 1.3025 1.2050 1.1125 u 11 1 1ŕT7fi 1 riRnn Workspace '*- C •i a *i y p X Command History , | fVv] - jstackilBase Value <41x41 doubled <41 «41 double: <41 k41 double: <1x41 double> |wn [Max | Current Directory . *i « Príprava ► Prezentace i Q j Name Ü Graf.fig [*3 Obrazek.jpg Ü Skript.m [B Data.mat Q Model.mdl Matlab ■»■ I * ! I Date Modified 20.10.08 9:37 20.10.08 9:55 20.10.08 9:37 20.10.08 10:35 20.10.08 9:36 mm Smallest elements in array ■■ Min(A) returns the smallest elements along different dimensions of an array If A is a vector, mm (A) returns the smallest element ir If A is a matrix, Min (A) treats the columns of A as vectors, returning a row vector containing the minimum element from each column. If A Is a multidimensional array, min operates along the first nonsingleton dimension. 0 Editor - DA Jarda\Seminare\2009\Priprava\Prezentace\Matlab\S a a i k ť [tt I %í %í I o. Graf ÍTinkce Z=XA2+YA2 % skript vypočíta hodnoty funkce Z % a vykresli grafy x—1 sO.05:1; [X, Y] =meshgi:idjj Z-X. "2+Y. "2 i meshgriä(x,Y) surf (X, Y, Z) ; meshgrid[x) colortoar; me3hgrid(x,y,z) hold. on; More Help... contour(X,Y,Z); H Figures paaa|i>|\ o ®r*j"*ž -|aI " ffl[m b s □ Command Window x=-l:0.05:l; [X,Y]=meshgrid(x Z=X."2+Y.A2; Ii iö Mathematics I Ö Data Analysis I _i Basic Operations £l Descriptive Statistics fa eorrcoef Correlation coefficients A COV Covanance matrix ^ max Largest elements in array fa mean Average or mean value o j5r median Median value of array fa min Smallest elements in array A mode Most frequent values in ... _fx std_ Standard deviation * All products /, http://www.humusoftxz/produkty/matlab/matlab/ vstupy reseni výstupy 159 SPSS 'stroke_survival.sav [DataSet2] - IBM SPSS Statistics Data Editor File Edit View Data Transform Analyze □ irect Marketing Graphs Utilities Add-ons Window Help 10 11 12 13 14 15 16 17 13 19 20 21 patid 9735702127 4852351830 3434994256 6053971728 9370757269 3537185320 0275365329 3906583332 4785366661 9589919145 4598012219 3629441662 5307816588 5357069859 5132742071 2660586207 5408312498 9069087682 8173197592 8808732689 5666440246 li- Data View Variable View Linear.. 23 7S 79 82 23 29 82 79 82 82 79 79 79 82 29 29 79 29 □ 79F99W 822229 822229 Reoorts Descriptive Statistics Tables Compare Means General Linear Model Generalized Linear Models Mixed Models Correlate Regression Log linear Neural Networks Classify Dimension Reduction Scale Nonparametric Tests Forecasting! Su rvrval Multiple Response Missing Value Analysis... Multiple Imputation Complex Samples Quality Control ROC Curve... ~5U 83 67 ti lU*Í Visible: 42 Df 42 Variables gender active obesity diabetes bp 54 Female Yes 74 74 Male 2A. Female _Mala Yes Yes □ ITi N El Ria Automatic Linear Modeling.. Linear... ^ Curve Estimation... Partial Least Squares... Binary Logistic... Multinomial Logistic... Ordinal... Pro bit... Nonlinear... Weight Estimation... 2-Stage Least Squares. Optimal Scaling (CATREG).. "5F-64 Male 75 + 65-74 Female Male Female No Yes Yes r-Jo Yes Yes No No Yes r-Jo No No No Yes No r-Jo Yes Yes Yes No No No r-Jo Yes No No Yes No No No Yes No No No Hypotension Hypertension Hypertension Normal Hypertension Normal Normal No No r-Jo Normal Normal Hypertension Normal Normal No Yes No No No No No No Hypotension Normal Normal Hypertension Hypertension Hypertension Normal Hypotension Normal | IBM SPSS Statistics Processor is ready 160 Software -SPSS : www.spss.cz &\u\m\H\^\ I t|r*| mm Irl "All .1 1fi-.il iN-?nnn ""I 17-JUN~öc" ____e__" **" 25-sep-2000 ~ 25-5EP-2DDD ~ 25-E EP-2DM — aB-BEP-angg **** 1G-DEC- GM - 1E-DEC- 999 1R ÜFC, fm **" 16-DEC- 993 ■*■* IB-dec- ggg ~ 25-EEP-2Dan "" 2G-GCP-20ÜÜ - 26-5 EP-2DM 25-GEr-2ÜÜÜ ~* 25-SEP-2QQÜ ~" :s-sep~öö" ~ I7-NQV-I00D **" 27-NOV-2000 ~ Z7-NQV-2DDD ~ 27-NOV-2DM ~ 27-NQV-2aaa ™ 16-JUN-2ÜQÜ ~" 16-JUN~öc" ~" 16-JUN-2000 2G-GEr-200C ™ 25 SFP 20QC ~ i5-5ep-i00c" **" 25 übH ^UUU ~ is-dec-iggg a*|H|ä|a| «l E3-I I niti&i • Previev7~| [_] [_^J[_»J[' Collapse All || 9? Expand All - Peer group-1: 20 records found 2 records from a roup profile roup-3: 23 ri estimated total of 20 re B-Peer gi + (J? Peer gr fi'-ü? Peergi é--£Í3 Peergr 0-^3 Peergr roup-5: 30 rE Summary Settings OK II Cancel diff (generated) An o m a ly Ta b I e claimdiff (generated) Apply Reset d£ile O Edit ÖG I ■ .........- 9 73411 8.000 4 108645.000 9 925974.000' 5 786081.000 7 56220.900 3 337891.000 OK Streams | Outputs | Models r.....@ Streaml H-_woe_«x I.....íiía bayes_eliurn_r H-_ 1elco_criurn :.....EÜ3 fraud ^RISP-DM (unsaved projed) f & Business Understanding Data Understanding f.....& Data Preparation (.....& Modeling I.....& Evaluation [.....& Deployment ________ I HI Sewer; Local Server I |l79MB/3Q2MB- Bayesian Network M e d i a n_state_i n c Type 9 Predictors # Target Importance • n.f • Ll.t O 0,4 O0,2 Oo.c 162 SPSS • Více o IBM SPSS Modeler 13 (dříve Clementine): http://www.spss.cz/ibmspss_modeler.htm • (neúplný) seznam zákazníků: http://www.spss.cz/zakaznici.htm • Akademický program: http://www.spss.com/academic/ SPSS COST • From $1000 to $12000 per license depending on license type. CON • Very expensive • Not adequate for modeling and cutting edge statistical analysis PRO • Easy to learn and use • More powerful then Minitab • One of the most widely used statistical packages in academia and industry • Has a command line interface in addition to menu driven user intefrace • One of the most powerful statistical package that is also easy to use. 164 Software -Statistica Statistica Více o Statistica Data Miner: http://www.statistica.cz/pr0dukty/5-dataminingove-nastroje/2i-statistica-data-miner/detail/ • (neúplný) seznam zákazníků: http://www.statsoft.com/customers/ • Akademický program: http://www.statsoft.com/academic/ • Petra Beranová - stručný manuál k ovládání programu STATISTICA: http://www.statsoft.cz/download/soubory/STATISTICA_manual.pdf SAS File Edit View Go Tools solutions window H&fc 3' n b* a i á % GfH, i ís © ái I * * « o a, ^ -og - (Untitled) 23flß 2309 2310 23101 £31 I 231 2 2313 2314 2315 Í3I5! 2316 2317 231 a 2319 ?u?o 2321 23ZZ 2323 2324 33Í4! 2325 i\ Editor - Untitledl * goal ions resefdl I ; ooptlons hsizc'5 in vslza~4 in ; □dx htnl f i le-"f Igi4_shart.htnl " nagLitl*? nagfaabnte op I p □opt I cwvs no ■ mngrpr I n t; title "200B Tear to Date Meekly Report"; proc tabu lots dato-yrZQOS noscps ; var vol new high law cIdic; table date -,T, (hlah-'Ueekly Hlah' lou='Weekly Lew' uolrKW-'volurael. 100,000)' 1 * neari'11 * f"eoni»a15, / rls»15; class data; run; title; proc gchort doto-work-sector*; pie Sector / suBver■Percentage descending detai1 - Issuer value-none other"5 other label■'Comb Ined' riDbedding legend h tm I -h tn 1 vor name-'figure run; quit; ads htnl class; fi Results Viewer - rile;//C;\SAgtemp\fig4_shur t. ht r r il 2009 Year to Date Weekly Report Weekly Hiijh Weekly Low Weekly Clot* Volume (100.488) 8-UAN88 13,365 12,739 12J600 10,789 11JAN08 12,931 12.5J2 12.6TJ6 15096 18JANÍ8 12,795 12,022 12.099 20J082 25JAN08 12.487 11,635 12.207 18 246 Hoptions reset-a11; ^options haize»5 In vaize-l tn ; cd» html £ile-"fig*_3hort.htrcl" noptit 1c nog-footnote- optio poprLens no imagepr1nt; title *200S Year to Date Weekly Report";_ i-iprae tAluJLate data"yř2008 rioseps ŕ var volnev nigh low close; Mušie dace (nig*-'weekly High' low ■ mean-' ■ ■ I-commalS. / rts-13; class date; run;_ Weekly Low' el title; Bp roc gtitAEt dsts'wotlt.setcoti; pie Sector / sumvar"Percentage descending detail*Issuer de value-none oxhet-S otheirlabe 1" 1 Contained1 Sector caCvrtsum«rDistre&onary rz=j Energy ■■■Health Care i=i Informatian Technology ■■■i Combined i consumer staples iFinancials i Industrials i Matena la □ Output-(Unffite.., □ Log-(Untitled) lEdltcr- Untitled.. SJ Explorer Si Results Vi ewe,,, 167 Softwa re - SAS • <>SaS : www.sas.com 1 •'I - □ & y m e. ?)2j í x©^ z\ 0 Okresy Středních Čech ^-1 Blata czobec; liustota=obyvatel/ (plocha+1) ; goptions Ľeset=all colors=(gcayiO gcaye.0 graydO gcaycO gcaylr.0 gcayaO gray90 graySO grayVO gray60 gray50 gray40 gray30 gray20 graylü) le='ariaľ ctext=blac]í; choro °Tatf;.. -......... fíl Results §J EHplce, f B Output - (Untitled) j b Log-(Untitled) H@mapy.sas ^| GRAPH1 WORK.GS... | ® Results Viewer - SA... _J ^Documents and 5ettingS\rezac |Ln 1, Col 1 168 SAS • Společnost SAS Institute • Vznik 1976 v univerzitním prostředí • Dnes :největší soukromá softwarová společnost na světě (více než 11.000 zaměstnanců) • přes 45.000 instalací • cca 9 milionů uživatelů ve 118 zemích • v USA okolo 1.000 akademických zákazníků (SAS používá většina vyšších a vysokých škol a výzkumných pracovišť) 169 Soutěž o nejlepší studentskou práci • lze přihlásit bakalářskou, diplomovou, dizertační, semestrální nebo ročníkovou práci využívající SAS. • i. místo - letenky dle vlastního výběru v hodnotě 15.000 Kč. ORUM 20120rlandoFlorida April 22-25,2012 Ročník 2010: • 1. místo - Účast na SAS Global Fórum v Las Vegas. Výherce měl hrazenou letenku, ubytování a účastnický poplatek. http://www.sas.com/offices/europe/czech/academic/soutez.ht Kri:p://www. sas.com/offices/europe/czech/academic/poster.ht ml 170 SAS Podpora studentů ■ Možnost rozšíření licence na domácí instalace pro studenty ■ SAS Fellowship Program -software zdarma pro diplomku či dizertaci ■ Zadávání a vedení diplomových prací ■ Sdílení informací, zkušeností či příkladů v uživatelských skupinách ■ Interaktivní moduly nebo programovací prostředí • Statistická analýza • Matice • Časové řady • Operační výzkum • Kontrola kvality 171 SAS Statistická analýza: Popisná statistika Analýza kontingenčních (frekvenčních) tabulek Regresní, korelační, kovarianční analýza Logistická regrese Analýza rozptylu Testování hypotéz Diskriminační analýza Shluková analýza Analýza přežití □ - -Q^ SAS • Analýza časových řad: • Regresní modely • Modely se sezónními faktory • Autoregresní modely • ARIMA _ t.....ú 0.—»«**»riMu.»..r« t~ ÉLECT" >; 173 SAS • Více o SASu: http://www.sas.com/offices/europe/czech/ • (neúplný) seznam komerčních společností využívající SAS: http://www.sas.com/offices/europe/czech/reference/list.html • o akademickém programu: http://www.sas.com/offices/europe/czech/academie/index.html • o konferenci SAS fórum: http://www.sas.com/reg/offer/cz/20io_sas_forum_20io http://www.sas.com/reg/offer/cz/2011_sasforum 174 SAS COST • Complicated pricing model • $8,500 first year license fee CON • Very very expensive • Not user friendly • Steap learning curve • Relatively poor graphics capabilities PRO • Widely accepted as the leader in statistical analysis and modeling • Widely used in the industry and academia • Very flexible and very powerful. 175 LibreOffice Calc sample.ods - LibreOffice Calc File Edit View Insert Format Tools Data Window Help ABC Liberation Sans 10 T1 ^ ^ O Move/Copy Sheet H Z V z * Al 10 11 13 14 16 17 18 19 20 21 22 23 24 25 Proceeds of Year 2009 April 5 June 6 July 7 August 12 Januc Proceeds of Year 2009 Shop A Shop B May September October IMover"1, 4,124,812 5,122,091 4,581,838 5,838,183 3,840,183 4,081,328 3,586,028 i nm pin 4,814,943 6,912,487 5,681,201 5,812,048 6,083,091 4,058,103 5,018,301 A 7tn 1 Q/l Shop C 401,843 506,858 702,849 900,248 604,831 /no i li Decei Febru Marcr is Total 8,000,000 7,000,000 6,000,000 5,000,000 4,000,000 3,000,000 2,000,000 1,000,000 0 Action ■ <£) |Move Copy Location — To document sample (current document) Insert before Y2009 Y2010 Y2011 move to end position Name w a i I Shop A ShopB Shop C Sheet 1 / 3 I Default I STD I LS I I Sum=0 I© is- "-»I © 1120% 176 LibreOffice Calc LibreOffice is a free and open source office suite, developed by The Document Foundation. It is descended from OpenOffice.org, from which it was forked in 2010 • OpenOffice vs LibreOffice • Star —> Sun —> Oracle —> Apache, Document Foundation • OpenOffice http://www.openoffice.org/download • LibreOffice http://www.libreoffice.org/download/ 177 LibreOffice Calc PRO • Very similar to Microsoft Excel in functionality and look and feel (earlier versions) • User friendly • Very good for basic descriptive statistics, charts and plots • Inter-operable with Microsoft Office COST • Free CON • Not sufficient for anything beyound the most basic statistical analysis 178 Epilnfo Epi Info 7 - Analysis [°] File View Tools Command Explorer Help Fl-ff=» Data I.....1=3 Read ■j3 S] Relate i=| Write (Export) Merge Delete Rle/Table Delete Records Undelete Records Variables 1=] Define 1=] DefineGroup ^ Undefine 1=] Assign i=] Recode i=] Display EJ S£? Select/If ^ Select ^ Cancel Select If ^ Sort ^1 Cancel Sort Fl fr^r Statistics K) List S] Frequencies \=i Tables l=] Means i=] Summarize _J Graph Advanced Statistics i=] Linear Regression Logistic Regression ^ Kaplan-Meier Survival i=] Cox Proportional Hazards i=] Complex Sample Frequencies i=] Complex Sample Tables i=] Complex Sample Means QutputEpiHome.html La;t ^ History . . ., Open_Bookmark Print Program Editor File Edit Font _5 New Pgm J j t Language | Analysis | Plug-Ins Background Image Background Image displayed in Epi Info? Menu Browse. Use Default Default Formats Default Database Format for new projects: Microsoft Access 2002-2003 (.mdb) Default Data Format for Analysis READ Command: Mapping and Geocoding Service Key: AuaSsBkFc EZMx5lsdBVkerz3frbo U1 CwzvOyzX_vgSnzsnbqV7xlQ4WTR Ul N19_Q Note: The default Map Service Key should only be used for demo purposes. For optimal performance with mapping and geocoding. please replace the default Key with one retrieved from Microsoft's Bing service: httpi/Jwww. bi nq ma ps porta I .com/ Working Directory: C:\Temp\ Restore Defaults OK Cancel Apply Help i J Ready en-US 7.0.9.7 2/19/2012 CAPS NUM INS 179 Epilnfo Epi Info is public domain statistical software for epidemiology developed by Centers for Disease Control and Prevention (CDC) Epi Info has been in existence for over 20 years and is currently available for Microsoft Windows. The program allows for electronic survey creation, data entry, and analysis. Within the analysis module, analytic routines include t-tests, ANOVA, nonparametric statistics, cross tabulations and stratification with estimates of odds ratios, risk ratios, and risk differences, logistic regression (conditional and unconditional), survival analysis (Kaplan Meier and Cox proportional hazard), and analysis of complex survey data. The software is in the public domain, free, and can be downloaded from http://www.cdc.gov/epiinfo. Limited support is available 180 Epilnfo PRO • Consists of multiple modules to accomplish various tasks beyond just statistical analysis. • ability to rapidly develop a questionnaire • customize the data entry process • quickly enter data into that questionnaire • analyze the data COST • Free CON • Not a dedicated statistical package • Not as powerful as commercial alternative for performing advanced analysis and modeling 181 PSPP File Edit View Data Transform Utilities Windows Help Open Save ^^^^ i i^i^ Goto Case Variables Find Insert Case Insert Variable Split eights Select Cases Labels Name Type Width Decimals Label Values Missing Columns Align 0 protestr protře at protestv p rot vc at disscont formaoo ident age gender edu profess workstat form900 opendata comments inetgov inetecon inetciv inetexp inetpriv Numeric String Numeric String Numeric String Numeric Numeric Numeric Numeric Numeric Numeric Numeric String Numeric String Numeric Numeric Numeric Numeric Numeric 255 255 255 In the last half-year: Did you tak {0,"No"}_ 99 Right Can VOL i nlaaca c In the I Can yoi How oft In which What pi How ol Please What is What is m Value Labels Value: Value Label: |< = 15 years ■afa Add Remove 0 = "<= 15 years" 1 = "16-20 2 = "21-25 3 = "26-30 years" years" years" <9qk X Cancel ©Help juui [ji uieaaiui i! Are you currently Would you agree with that the ir {0,"No"}_ Please feel free to comment on Governments or Governmental Economic Actors Civil Society (ie. non-governmer None Expert Groups (ie, the World Wie None Private Users {O/'not in paid * 99 None None None None None None None None None None None None None 34 Left Right Left Right Left Right Right Right Right Right Right Right Left Right Left Right Right Right Right Right Data View Variable View Filter off Weights off No Split 182 PSPP COST • Free PRO • Aims as a free SPSS alternative with an interface that closely resembles SPSS • User friendly • Good enough for basic statistical analysis CON • Lacks many advanced statistical tests and features that are present in SPSS • Last version released in 2010 • Not very well known nor widely used 183 R leischBgaladrieli~/uork/tnp R> n <- 5 R> 9 <- gl x <- rnorm> R> boxplot(split(x,g), col="lavender", notch=TRUE) R> title(main="Notched Boxplots", xlab="Group", font.main=4, font.lab=l) R> R> ctl <- c(4.17,5.58,5.18,6.11,4.50,4.61,5.17,4.53,5.33,5.14) R> trt <- c<4.81,4.17,4.41,3.59,5.87,3.83,6.03,4.88,4.32,4.68) R> group <- 9l(2,10,20,labels=c("Ctl","Trt">> R> weight <- c(ctl,trt) R> anova(lm.D9 <- lm(ueight~group)) Analysis of Variance Table Response: weight group Residual 184 R R provides a wide variety of statistical and graphical techniques, including linear and nonlinear modeling, classical statistical tests, time-series analysis, classification, clustering, and others. R is easily extensible through functions and extensions, and the R community is noted for its active contributions in terms of packages. There are some important differences, but much code written for S runs unaltered. Many of R's standard functions are written in R itself, which makes it easy for users to follow the algorithmic choices made. R is highly extensible through the use of user-submitted packages for specific functions or specific areas of study. Due to its S heritage, R has stronger object-oriented programming facilities than most statistical computing languages. Extending R is also eased by its permissive lexical scoping rules. [10] According to Rexer's Annual Data Miner Survey in 2010, R has become the data mining tool used by more data miners (43%) than any other. [11] Another strength of R is static graphics, which can produce publication-quality graphs, including mathematical symbols. Dynamic and interactive graphics are available through additional packages.[12] 185 R PRO • Widely used and accepted in industry and academia • Very powerful and flexible • Very large user base • Lots of books and manuals • Several User Interface Shells available COST • Free / Open Source CON • Not user friendly • Requires steep learning curve 186 SAS Programs • A SAS program is a sequence of steps that the user submits for execution. Raw Data DATA steps are typically used to create SAS data sets. PROC steps are typically used to process SAS data sets (that is, generate reports and graphs, edit data, and sort data). Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 187 SAS Programs data work.clubmembers work.nonclub; set orion.customer; if Customer_Type_ID = 3010 then output work.nonclub; else output work.clubmembers; run; proc print data=work.nonclub; title "Non Club Members"; var Country Gender Customer_Name; run; Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. Step Boundaries SAS steps begin with either of the following: ■ DATA statement ■ PROC statement SAS detects the end of a step when it encounters one of the following: ■ a RUN statement (for most steps) ■ a QUIT statement (for some procedures) ■ the beginning of another step (DATA statement or PROC statement) Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. Step Boundaries data work.clubmembers work.nonclub; st orion.customer; if Customer Type ID = 3010 then output work.nonclub; else output work.clubmembers; > run; T proc print data=work.clubmembers; __ proc print data=work.nonclub; itle "Non Club Members"; var Country Gender Customer Name; run; Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. Submitting a SAS Program • When you execute a SAS program, the results generated by SAS are divided into two major parts: SAS log contains information about the processing of the SAS program, including any warning and error messages. SAS output contains reports generated by SAS procedures and DATA steps. The Workspace includes tabs containing both the log and output, while the Process Flow, by default, displays icons only for the output. Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. SAS Log PROC PRINT Output 18 data work.clubmembers work.nonelub; 19 set or ion.customer; 20 if Customer Type ID = 3010 2 1 then output work.nonelub; 22 else output work.clubmembers; 23 run; NOTE There were 77 observations read from the data set ORION.CUSTOMER. NOTE The data set WORK.CLUBMEMBERS has 69 observations and 12 variables. NOTE The data set WORK.NONCLUB has 8 observations and 12 variables. NOTE DATA statement used (Total process time): real time 0.06 seconds cpu time 0.00 seconds 24 25 proc print data=work.nonclub noobs; 2 6 title "Non Club Members"; 27 var Country Gender Customer Name; 28 run; NOTE There were 8 observations read from the data set WORK.NONCLUB. NOTE PROCEDURE PRINT used (Total process time): real time 0.09 seconds cpu time 0.00 seconds Enterprise Guide» The Fbfwer if) Krunv- Non Club Members Obs Country Gender Customer_Name 1 DE M Ulrich. Heyde 2 US M Tulio Devereaux 3 US F Robyn Klem 4 us F Cynthia Mccluney 5 AU F Candy Kinsey G US M Phenix Hill 7 IL M Avinoara 3weig 8 CA F Lauren Marx Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 192 SAS Terminology • SAS documentation and text in the SAS windowing environment use the following terms interchangeably: Variable Observation SAS Table Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. SAS Syntax Rules SAS statements have these characteristics: ■ usually begin with an identifying keyword ■ always end with a semicolon data work.clubmembers work.nonclub; set orion.customer; if Customer_Type_ID = 3010 then output work.nonclub; else output work.clubmembers; run ;| proc print data=work.nonclub; title "Non Club Members"; var Country Gender Customer_Name; run; Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 194 SAS Syntax Rules SAS statements are free-format. ■ One or more blanks or special characters can be used to separate words. ■ Statements can begin and end in any column. ■ A single statement can span multiple lines. ■ Several statements can be on the same line. Unconventional Spacing data work.clubmembers work.nonclub; set orion.customer; if Customer_Type_ID = 3010 then output work, nonclub; else output work. clubmembers;run; proc print data=work.nonclub; run; Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. SAS Syntax Rules One or more blanks or special characters can be used to separate words. Unconventional Spacing data work.clubmembers work.nonclub; set orion.customer; i fjCu s tome r_Type_I D = 3010 then output work.nonclub; else output work.clubmembers;run; proc print data=work.nonclub;l run; Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. SAS Syntax Rules ■ Statements can begin and end in any column. ■ ■ Unconventional Spacing data work.clubmembers work.nonclub; set orion.customer! if Customer_Type_ID = 3010 then output work, nonclub; else output work. clubmembers;run; proc print data=work.nonclub; run; Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. SAS Syntax Rules ■ A single statement can span multiple lines. ■ Unconventional Spacing data work.clubmembers work.nonclub; set orion.customer; if Customer_Type_ID = 3010 then output work, nonclub; else output work. clubmembers;run; proc print data=work.nonclub; run; Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. SAS Syntax Rules ■ Several statements can be on the same line. Unconventional Spacing data work.clubmembers work.nonclub; set orion.customer; if Customer_Type_ID = 3010 then output work, nonclub; else output work. clubmembers;run; proc print data=work.nonclub; run; Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. SAS Comments SAS comments consist of text that SAS ignores during processing. You can use comments anywhere in a SAS program to ■ document the purpose of the program ■ explain segments of the program ■ mark SAS code as non-executing text. Two methods of commenting are shown below: Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 200 SAS Comments: Examples /* Split data based on membership */ data work.clubmembers work.nonclub; set orion.customer; if Customer_Type_ID = 3010 then output work.nonclub; else output work.clubmembers; run ; proc print data=work.nonclub; title "Non Club Members"; *var Country Gender Customer_Name; run; Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 201 Syntax Errors •Syntax errors occur when program statements do not conform to the rules of the SAS language. •Examples of syntax errors: • misspelled keywords • unmatched quotation marks • missing semicolons • invalid options •When SAS encounters a syntax error, SAS prints a warning or an error message to the log. ERROR 22-322: Syntax error, expecting one of the following: a name, a quoted string, (, /, ;, _DATA_, _LAST_, NULL . Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 202 How Do You Include Data in a Project? 15 SAS Enterprise Guide Edit View Tasks Program Tools Help |~j H[g New ► J~ Process Flow Q Open Close Project Ctrl+5 5ave Project 5ave Project As... yl Save Ctrl+Shift+S Project Ctrl+O Data... Program... Selecting File o Open o Data adds a shortcut to a SAS data source in the project. z SAS Enterprise Guide File Edit View Tasks Program Tools Help / T | Project Tree T x Processřlow ^ □ S^c Process Flow Jul order item > Ruf * ■ Stop Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. How Do You Include Data in a Program? •One possibility is to include the full path and filename each time that a SAS data set is referenced. data 11 s : \workshop\cust_age . sas7bdat" ; set 11 s : \workshop\customer. sas7bdat" ; /^Calculate each customer's age*/ Age=int (yrdif (Birth_Date, today () ,11 actual11) ) ; run; proc print data="s:\workshop\cust_age.sas7bdat"; var Cus tomerJlameGenaerC^ Age; title "Customer Listing"; run ; ep02d03.sas Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 204 SAS Libraries You can think of a SAS library as a drawer in a filing cabinet and a SAS data set as one of the file folders in the drawer. Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 205 Assigning a Libref •Regardless of which host operating system you use, you identify SAS libraries by assigning a library reference name (libref) to each library. | j bref •This libref can serve as a shortcut in SAS programs in place of the full path or filename. Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. SAS Libraries When a SAS session starts, SAS automatically creates one temporary and at least one permanent SAS library that you can access. • work - temporary library (contents are deleted when SAS closes) •sasuser - permanent library (contents are permanently saved) Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 207 SAS Libraries ► You can also create and access your own permanent libraries. Orion — permanent library Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 208 Assigning a Libref •You can use the LIBNAME statement to assign a libref to a SAS library. The LIBNAME statement is a global statement. •General form of the LIBNAME statement: LIBNAME libref'SAS-data-librar)/ ; i •The rules for naming a libref are as follows: • must be 8 or fewer characters • must begin with a letter or underscore • remaining characters are letters, numbers, or underscores Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 209 Two-Level SAS Filenames Every SAS file has a two-level name: libref. filename The data set orion.sales is a SAS file in the orion library. • The first name (libref) refers to the library. The second name (filename) refers to the file in the library. Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. How Do You Include Data in a Program? • využijeme knihovny (libraries) libname orion 11 s : \workshop" • r data work.cust age; set orion.customer; /^Calculate each customer1s age*/ Age=int(yrdif(Birth Date ,today(),"actual")); run ; proc print data=work.cust a ge; var Customer Name Gender Country Age; title "Customer Listing" • r run; Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. Temporary SAS Filename The default libref is work if the libref is omitted, cust age work.cust age libname or ion 11 s : \workshop" ; data work.cust_age; set orion.customer; /^Calculate each customer's age*/ Age=int (yrdif (Birth_Date, today () , " actual11) ) ; run ; proc print data=cust_age; var Customer_Name Gender Country Age; title "Customer Listing"; run; Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. Import dat .sas7bdat ExampleDB SAS Data Sel 87 KB Základních pět možností importu dat: 1. Import v SAS EG 2. Import wizard 3. Proč import 4. Data step 5. Proč SQL 213 Import Wizard • The Import Wizard is a point-and-click graphical interface that enables you to create a SAS data set from several types of external files including the following: • dBASE files (*.DBF) • Excel spreadsheets (*.XLS) • Microsoft Access tables (.MDB) • delimited files (*.*) • comma-separated values (*.CSV) Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 214 mport Wizard "SAS 1 Edit View Tools Run Solutions Window Help Q New Program Ctrl+N E^Open Program... Ctrl+O Close Append,,, fiOpen Obiect... y Save Ctrl+S 5ave As.., gsave As Object,., ^^tmport Data... 1 ^Export Data... Page 5etyp... Print 5etup... [ft Print Preview ^ Print.., Ctrl+P ^r Import Wizard - Select import type SAS Import Wizard Import DLM data What type of data do you wish to import? W Standard data source Select a data source from the list below. Delimited File ( I- User-defined formats Define a special file format using the External File Interface (EFI) facility. Help Cancel Next > Finish 215 mport Wizard E> Import Wizard - Select Library and member SAS Irnport/Export Facility SAS Destination Choose the SAS destination: Library: WORK Member: nnoje_tabulka| Help Cancel E> Import Wizard - Create SAS Statements EH® < Bad SAS Import Wizard Select file The Import Wizard can create a file containing PROC IMPORT statements that can be used in SAS programs to import this data again. If you want these statements to be generated, enter the filename where they should be saved: import_dat |~~ Replace file if it exists. Browse.. Help Cancel < Back Newt > Finish 216 PROC IMPORT PROC IMPORT OUT= WORK.sales DATAFILE = "S:\Workshop\sales.xls" DBMS=EXCEL REPLACE; RANGE="Australia$"; GETNAMES=YES; MIXED=NO; SCANTEXT=YES; USEDATE=YES; SCANTIME=YES; RUN; Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 217 PROC IMPORT GETNAMES=YES | NO • determines whether SAS will use the first row of data in a Microsoft Excel worksheet or range as column names. YES specifies to use the first row of data in an Excel worksheet or range as column names. NO specifies not to use the first row of data in an Excel worksheet or range as column names. SAS generates and uses the variable names Fi, F2, F3, and so on. • The default is YES. Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. PROC IMPORT MIXED=YES I NO • specifies whether to import data with both character and numeric values and convert all data to character. YES specifies that all data values will be converted to character. NO specifies that numeric data will be missing when a character type is assigned. Character data will be missing when a numeric data type is assigned. • The default is NO. Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 219 PROC IMPORT SCANTEXT=YES | NO specifies whether to read the entire data column and use the length of the longest string found as the SAS column width. YES scans the entire data column and uses the longest string value to determine the SAS column width. NO does not scan the column and defaults to a width of 255. • The default is YES. Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 220 PROC IMPORT SCANTIME=YES | NO specifies whether to scan all row values in a date/time column and automatically determine the TIME data type if only time values exist. YES specifies that a column with only time values be assigned the TIME8. format. NO specifies that a column with only time values be assigned the DATE9. format. • The default is NO. Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 221 PROC IMPORT USE DATE =YES | NO • specifies whether to use the DATE9. format for date/time values in Excel workbooks. YES specifies that date/time values be assigned the DATE9. format. NO specifies that date/time values be assigned the DATETIME16. format. • The default is YES. Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. Proc import vs. Data step PROC IMPORT OUT= WORK.MDATA1 DATAFILE-"G:\dukumenty\diplomka-data.txtM DBMS-CSV REPLACE; GETNAMES=YES; DATAROW=2; RUN; data work.mdata2; length BIRTHPLACE $ 25 AGE $ 25 EDUCATION $ 25 infile ,G:\dukumenty\diplomka-data.csv, delimiter = ';' DSD lrecl=3276 firstobs=2 ; input BIRTHPLACE AGE EDUCATION run; 223 Import z SQL databáze libname my_data 'C:\Scoring\SASdataV; proc sql; connect to odbc as mssql (complete="DRIVER=SQL Server; SERVER=sqlserv;Trusted_connection=Yes "); create view my_data.wset_of_segments as select * from connection to mssql (select * from dbl.rezac.segmenty); disconnect from mssql; quit; proc sql; create table my_data.set_segments as select from my_data.wset_of_segments quit; Formats (Informats) An informat is an instruction that SAS uses to read data values. A format is an instruction that SAS uses to write data values. SAS (in)formats have the following form: Indicates a character informat <$> (In) format- í—/— (In)format name / Total width of the field to read Number of decimal places Required delimiter Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 225 Formats (Informats) InFormats by Category: Category Character Column Binary Date and Time ISO 8601 Numeric Description instructs SAS to read character data values into character variables, instructs SAS to read data stored in column-binary or multipunched form into character and numeric variables. instructs SAS to read date values into variables that represent dates, times, and datetimes. instructs SAS to read date, time, and datetime values that are written in the ISO 8601 standard into either numeric or character variables. instructs SAS to read numeric data values into numeric variables. http://support.sas.com/documentation/cdl/en/lrdict/64316/HTML/defaul t/viewer.htm#aooi239776.htm 226 Formats (Informats) Formats by Category: Category Description Character instructs SAS to write character data values from character variables. Date and Time instructs SAS to write data values from variables that represent dates, times, and datetimes. ISO 8601 instructs SAS to write date, time, and datetime values using the ISO 8601 standard. Numeric instructs SAS to write numeric data values from numeric variables. http://support.sas.com/documentation/cdl/en/lrdict/64316/HTML/defaul t/viewer.htm#aooi263753.htm 227 Selected Informats 8. or 8.0 reads eight columns of numeric data. Raw Data Value Informat SAS Data Value 8.0 8.0 8.2 reads eight columns of numeric data and may insert a decimal point in the value, Raw Data Value Informat SAS Data Value 8.2 8.2 Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 228 Selected Informats $8. reads eight columns of character data and removes leading blanks. Raw Data Value Informat SAS Data Value J A M E S $8. J A M E S $CHAR8. reads eight columns of character data and preserves leading blanks. Raw Data Value Informat SAS Data Value J A M E S $CHAR8. J A M E S Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 229 Selected Informats COMMA7. reads seven columns of numeric data and removes selected nonnumeric characters such as dollar signs and commas. Raw Data Value Informat SAS Data Value COMMA7.0 MMDDYY8. reads dates of the form 10/29/01. Raw Data Value Informat SAS Data Value 1 0 / 2 9 / 0 1 MMDDYY8. Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 230 Datumové formáty Date values that are stored as SAS dates are special numeric values. A SAS date value is interpreted as the number of days between January 1, i960, and a specific date. 01JAN1959 01JAN1960 informat -365 01JAN1961 t 366 format 01/01/1959 — 01/01/1960 01/01/1961 Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 231 Datumové formáty > SAS uses date informats to read and convert dates to SAS date values. Examples: Raw Data Converted Value Informat Value 10/29/2001 MMDDYY10 . 15277 10/29/01 MMDDYY8. 15277 29OCT2001 DATE 9. 15277 29/10/2001 DDMMYY10. 15277 Number of days between 01 JAN 1960 and 29OCT2001 Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 232 Optimalizace práce s daty v SAS • Pro (velmi) velké datové soubory je vhodné použití komprese a indexování SASovských tabulek. Více na: http://www2.sas.com/proceedings/sugi27/po23-27.pdf http://www2.sas.com/proceedings/sugi28/003-28.pdf http://support.sas.com/documentation/cdl/en/lrdict/64316/HTML/defau lt/viewer.htm#aooi28876o.htm http://support.sas.com/documentation/cdl/en/lrdict/64316/HTML/defau lt/viewer.htm#aoooi3ii38.htm Příklad: data libi.tab2 (compress=binary index=(vari vao)); set libi.tabi; • • • run; 233 ODS - The Output Delivery System •The Output Delivery System (ODS) enables you to produce output in a variety of formats, including HTML, RTF, PDF, and the default SAS listing. I _ PROG2Review.sas * 1 1 libname orion Ts:\workshopT; data work.qtrlsalesrep; proc sort data=¥ork.qtrlsalesrep; proc format; options nodate pageno=l; ods html file='salesrep.htmlT style=sasweb; i proc print data=¥ork.qtrlsalesrep label noobs; ods html close; •The ODS statements above create an HTML file, salesrep.html, using the output produced by the PROC PRINT step. Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. The PRINT Procedure •The PRINT procedure prints the observations in a SAS data set and uses all or some of the variables. fSl PROG2Review.sas * ods html file='salesrep.htmlT style=sasweb; Bproc print data=¥ork.qtrlsalesrep label noobs; #var Last_Name First_Name BonusMonth Bonus; titlel 'Quarter 1 Orion Sales Reps'; title2 'Males Only'; footnote 'Cor :idential'; format Bonus | doliar8.; where Gender='M'; by Country; run; ods html close; •The PRINT procedure above includes TITLE and FOOTNOTE statements, which are global statements and do not need to be enclosed in a DATA or PROC step. Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 235 Program Output Partial PROC PRINT Output (SAS Output window) Quarter 1 Orion Sales Reps Males Only Country=AU First Month of Last Name Name Bonus Bonus Wills Matsuoka 1 $300 Surawski Marinus 1 $300 Shannan Sian 1 $300 Scordia Randal 2 $300 Pretorius Tadashi 3 $300 Nowd Fadi 1 $300 Magrath Brett 1 $300 Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. Partial PROC PRINT Output (HTML format) Quarter 1 Orion Sales Reps Males Only Country^AU Last Name First Name Month Bonus of Bonus Surawski Shannan Scordia Marinus Sian Pretorius Randal Tadashi Nowd Fadi Magrath Brett $300 $300 $300 $300 $300 $300 4. Popisná statistika v MS Excel a SAS - ■ a n osut to ja Jt-» *> •) M «4 M-ji Customer Gender F M N PctN RowPctN ColPctN N PctN RowPctN ColPctN Customer Country AU 3 3.90 37.50 10.00 5 6.49 62.50 10.64 CA 8 10.39 53.33 26.67 7 9 09 46 67 14.89 DE 3 3.90 30.00 10.00 7 9 09 70 00 14.89 ■ 5 6.49 100.00 10.64 TR 7 9 09 100 00 14.89 US 13 16 88 46 43 43 33 15 1B 48 53 57 31 91 ZA 3 3 90 7500 1000 1 1 30 25 00 2 13 16-24 25-34 35-44 45-54 55-64 iľ5-u|; b j u s a m M -rív. niUítz, w - - ^ - A -1 Average Miles Driven Annually Women Men 1D.71Í The FREQ Procedure • The FREQ procedure can do the following: • produce one-way to n-way frequency and crosstabulation (contingency) tables • compute chi-square tests for one-way to n-way tables and measures of association and agreement for contingency tables • automatically display the output in a report and save the output in a SAS data set • General form of the FREQ procedure: PROC FREQ DATA=SAS-data-set ; TABLES variable(s) ] RUN; A FREQ procedure with no TABLES statement generates one-way frequency tables for all data set variables. Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 238 The TABLES Statement A one-way frequency table produces frequencies, cumulative frequencies, percentages, and cumulative percentages. proc freq data=orion.sales; tables Gender Country; run ; The FREQ Procedure Cumulative Cumulative Gender Frequency Percent Frequency Percent F 68 41.21 68 41.21 M 97 58.79 165 100.00 one-way frequency tables Cumulative Cumulative Country Frequency Percent Frequency Percent AU 63 38.18 63 38.18 US 102 61.82 165 100.00 Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 239 The TABLES Statement An n-way frequency table produces cell frequencies, cell percentages, cell percentages of row frequencies, and cell percentages of column frequencies, plus total frequency and percent. proc run ; data=orion.sales; s Gender*Country; V-w-A-„-/ rows columns two-way frequency table The FREQ Procedure Table of Gender by Country Gender Country Frequency Percent Row Pet Col Pet AU US Total F 27 16.36 39.71 42.86 41 24.85 60.29 40.20 68 41 .21 M 36 21 .82 37.11 57.14 61 36.97 62.89 59.80 97 58.79 Total 63 38.18 102 61.82 165 100.00 Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 240 Additional SAS Statements 'Additional statements can be added to enhance the report. 1 AUf fUSf 'Australia1 'United proc format; value $ctryfmt States 1; run ; options nodate pageno=l; ods html file=fpll2d01.html1; proc freq data=orion.sales; tables Gender*Country; where Job_Title contains fRepf; format Country $ctryfmt.; title 'Sales Rep Frequency Report1 run ; ods html close; Safes Rep Frequency Report The FREQ Procedure Frequency Percent Row Pet Col Pet Table of Gender by Country Gender Country Total Australia United States I 27 40 67 16.98 25.16 42.14 40.30 59.70 44.26 40.82 M 34 58 92 21.38 36.48 57.86 36.96 63.04 55.74 59.18 Total 61 38.36 98 61.64 159 100.00 Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 241 Options to Suppress Display of Statistics •Options can be placed in the TABLES statement after a forward slash to suppress the display of the default statistics. Option Description NOCUM suppresses the display of cumulative frequency and cumulative percentage. NOPERCENT suppresses the display of percentage, cumulative percentage, and total percentage. NOFREQ suppresses the display of the cell frequency and total frequency. NOROW suppresses the display of the row percentage. NOCOL suppresses the display of the column percentage. Option LIST displays n-way tables in list format. CROSSLIST displays n-way tables in column format. FORMAT= formats the frequencies in n-way tables. Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 242 LIST and CROSSLIST Options Gender Country Frequency Percent Cumulative Frequency Cumulative Percent F F Australia United States Australia United States 27 41 36 61 16.36 24.85 21.82 36.97 27 68 104 165 16.36 41.21 63.03 100.00 M M tables Gender*Country / list; Table of Gender by Country Row Column Gender Country Frequency Percent Percent Percent F Australia 27 16.36 39.71 42.86 United States 41 24.85 60.29 40.20 Total 68 41.21 100.00 M Australia 36 21.82 37.11 57.14 United States 61 36.97 62.89 59.80 Total 97 58.79 100.00 tables Gender*Country / crosslist; Total Australia 63 38.18 100.00 United States 102 61 .82 100.00 Total 165 100.00 Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 243 PROC FREQ Statement Options •Options can also be placed in the PROC FREQ statement. Option Description 1 NLEVELS displays a table that provides the number of levels for each variable named in the TABLES statement. PAGE displays only one table per page. COMPRESS begins the display of the next one-way frequency table on the same page as the preceding one-way table if there is enough space to begin the table. proc freq data=orion.sales nlevels; tables Gender Country Employee_ID; run; The FREQ Procedure Number of Variable Levels Variable Levels Gender 2 Country 2 Employee_ID 165 Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 244 Output Data Sets •PROC FREQ produces output data sets using two different methods. • The TABLES statement with an OUT= option is used to create a data set with frequencies and percentages. TABLES variables 10\JT=SAS-data-set ; I • The OUTPUT statement with an OUT= option is used to create a data set with specified statistics such as the chi-square statistic._ OUTPUT OVT=SAS-data-set ; Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 245 The MEANS Procedure ► The MEANS procedure provides data summarization tools to compute descriptive statistics for variables across all observations and within groups of observations. General form of the MEANS procedure: PROC MEANS DATA= SAS-data-set ; VAR analysis-variable(s); CLASS classification-variable{s); RUN; By default, the MEANS procedure reports the number of nonmissing observations, the mean, the standard deviation, the minimum value, and the maximum value of all numeric variables. proc means data=orion.sales; run; The MEANS Procedure Variable Maximum Mean Std Dev Minimum EmployeelD 121145.00 Salary 243190.00 Birth_Date 10490.00 Hire_Date 17167.00 165 165 165 165 120713.90 31160.12 3622.58 12054.28 450.0866939 20082.67 5456.29 4619.94 120102.00 22710.00 -5842.00 5114.00 Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 246 The VAR Statement The VAR statement identifies the analysis variables and their order in the results. proc means data=orion.sa] Les ; var Salary; run ; The MEANS Procedure Analysis Variable : Salary N Mean Std Dev Minimum Maximum 165 31160.12 20082.67 22710.00 243190.00 Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 247 The CLASS Statement The CLASS statement identifies variables whose values define subgroups for the analysis. proc means data=orion.s var Salary;_ class Gender Country; run ; ales ; The MEANS Procedure Analysis Variable : Salary Gender Country N Obs Mean Std Dev Minimum Maximum M AU US AU US 27 41 36 61 27 41 36 61 27702.41 29460.98 32001.39 33336.15 1728.23 8847.03 16592.45 29592.69 25185.00 25390.00 25745.00 22710.00 30890.00 83505.00 108255.00 243190.00 Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 248 The CLASS Statement classification variables i M proc means data=orion.sales; var Salary; class Gender Country; run; J The MEANS Procedure Analysis Variable : Salary Gender Country N Obs analysis variable N Mean Std Dev Minimum Maximum AU US AU US 27 41 36 61 2 41 36 61 27702.41 1728.23 25185.00 30890.00 29460.98 32001.31 P0 statistics for analysis variable 30 33336.15 29592.69 22710.00 243190.00 The CLASS statement adds the N Obs column, which is the number of observations for each unique combination of the class variables. Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 249 PROC MEANS Statistics •The statistics to compute and the order to display them can be specified in the PROC MEANS statement. The MEANS Procedure Analysis Variable : Salary N Country Obs Sum Mean Range proc means data=orion.sales sum mean range; var Salary; class Country; run; • další dostupné statistiky: AU 63 1900015.00 30158.97 83070.00 US 102 3241405.00 31778.48 220480.00 | Descriptive Statistic Keywords | CLM MEAN KURTOSIS CSS MIN RANGE CV MODE SKEWNESS LCLM N STDDEV MAX NMISS STDERR SUM SUMWGT UCLM USS VAR QuantileStatistic Keywords MEDIÁNI P50 P1 P5 P10 Q1|P25 Q3 I P75 P90 P95 P99 QRANGE Hypothesis Testing Keywords PROBT T 250 PROC MEANS Statement Options • Options can also be placed in the PROC MEANS Option Description specifies the number of decimal places to use in printing the statistics. specifies the field width to use in displaying the statistics. suppresses reporting the total number of observations for each unique combination of the class variables. proc means data=orion.sales maxdec=0; Analysis Variable : Salary N Country Obs N Mean Std Dev Minimum Maximum AU 63 63 30159 12699 25185 108255 US 102 102 31778 23556 22710 243190 proc means data=orion.sales maxdec=l; Analysis Variable : Salary N Country Obs N Mean Std Dev Minimum Maximum AU 63 63 30159.0 12699.1 25185.0 108255.0 US 102 102 31778.5 23555.8 22710.0 243190.0 ?S1 Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. MAXDEC= FW= NONOBS Output Data Sets •PROC MEANS produces output data sets using the following method: OUTPUT OUT=SAS-data-set ; •The output data set contains the following variables: • BY variables • class variables • the automatic variables _TYPE_ and _FREQ_ • the variables requested in the OUTPUT statement Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. OUTPUT Statement OUT= Option _ * proc means data=orion. sales sura, mean range; var Salary; class Gender Country; output out=work.means1; run; proc print data=work.means1; run; 1 The statistics in the PROC statement impact only the MEANS report, not the data set. Obs 1 2 3 4 5 6 Gender Country AU _TYPE_ 0 0 0 0 0 1 _FREQ 165 165 165 165 165 63 7 default statistics 8 9 MU I 0<5 10 AU 1 63 11 US 1 102 12 US 1 102 13 US 1 102 14 US 1 102 15 US 1 102 16 F 2 68 17 F 2 68 18 F 2 68 19 F 2 68 20 F 2 68 _STAT_ Salary N 165.00 MIN 22710.00 MAX 243190.00 MEAN 31160.12 STD 20082.67 N 63.00 MIN 25185.00 MAX 108255.00 MEAN 30158.97 .^.STD 12699.14 N 102.00 MIN 22710.00 MAX 243190.00 MEAN 31778.48 STD 23555.84 N 68.00 MIN 25185.00 MAX 83505.00 MEAN 28762.72 STD 6974.15 Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. OUTPUT Statement OUT= Option •The OUTPUT statement can also do the following: • specify the statistics for the output data set • select and name variables proc means data=orion.sales noprint; var Salary; class Gender Country; output out=work.means2 min=minSalary max=maxSalary sum=sumSalary mean=aveSalary; run ; proc print data=work.means2;run; •The NOPRINT option suppresses the display of all output. min max sum ave Obs Gender Country _TYPE_ _FREQ_ Salary Salary Salary Salary 1 0 165 22710 243190 5141420 31160.12 2 AU 1 63 25185 108255 1900015 30158.97 3 US 1 102 22710 243190 3241405 31778.48 4 F 2 68 25185 83505 1955865 28762.72 5 M 2 97 22710 243190 3185555 32840.77 6 F AU 3 27 25185 30890 747965 27702.41 7 F US 3 41 25390 83505 1207900 29460.98 8 M AU 3 36 25745 108255 1152050 32001.39 9 M US 3 61 22710 243190 2033505 33336.15 Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. OUTPUT Statement OUT= Option •_TYPE_ is a numeric variable that shows which combination of class variables produced the summary statistics in that observation. Obs Gender Country _TYPE_ 1 2 3 4 5 6 7 8 9 F M F F M M AU US AU US AU US 0 1 1 2 2 3 3 3 3 27 mm sum ave overall summary summary by country only 2431UU 32414UÖ 31//Ö.4Ö summary by Gender only 25185 30890 747965 27702.41 Summary by Country and Gender 61 22710 243190 2033505 33336.15 Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 255 OUTPUT Statement OUT= Option min max sum ave Obs Gender Country _TYPE_ _FREQ_ Salary Salary Salary Salary 1 0 165 22710 243190 5141420 31160.12 2 AU 1 63 25185 108255 1900015 30158.97 3 US 1 102 22710 243190 3241405 31778.48 4 F 2 68 25185 83505 1955865 28762.72 5 M 2 97 22710 243190 3185555 32840.77 6 F AU 3 27 25185 30890 747965 27702.41 7 F US 3 41 25390 83505 1207900 29460.98 8 M AU 3 36 25745 108255 1152050 32001.39 9 M US 3 61 22710 243190 2033505 33336.15 _TYPE_ Type of Summary _FREQ_ 0 overall summary 165 mm summary by Country only 63 AU + 102 AU = 165 2 summary by Gender only 68 F + 97 M = 165 Summary by Country and Gender 27 F AU + 41 F US + 36 M AU + 61 M US = 165 Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. OUTPUT Statement OUT= Option Options can be added to the PROC MEANS statement to control the output data set. Option Description nway specifies that the output data set contain only statistics for the observations with the highest _type_ value. DESCENDTYPES orders the output data set by descending _type_ value. CHARTYPE specifies that the _type_ variable in the output data set is a character representation of the binary value of _type_. without options min max sum ave Obs Gender Country r TYPE_ > _FREQ_ Salary Salary Salary Salary 1 0 165 22710 243190 5141420 31160.12 2 AU 1 63 25185 108255 1900015 30158.97 3 US 1 102 22710 243190 3241405 31778.48 4 F 2 68 25185 83505 1955865 28762.72 5 M 2 97 22710 243190 3185555 32840.77 6 F AU 3 27 25185 30890 747965 27702.41 7 F US 3 41 25390 83505 1207900 29460.98 8 M AU 3 36 25745 108255 1152050 32001.39 9 M US 3 > 61 22710 243190 2033505 33336.15 Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 257 OUTPUT Statement OUT= Option with NWAY Obs Gender Country r TYPE_ > _FREQ_ min Salary max Salary sum Salary ave Salary 1 F AU 3 27 25185 30890 747965 27702.41 2 F US 3 41 25390 83505 1207900 29460.98 3 M AU 3 36 25745 108255 1152050 32001.39 4 M US 3 > 61 22710 243190 2033505 33336.15 _ with CHARTYPE _ with DESCENDTYPES mln max sum ave Obs Gender Country r_TYPE_ ^ _FREQ_ Salary Salary Salary Salary 1 F AU 3 27 25185 30890 747965 27702.41 2 F US 3 41 25390 83505 1207900 29460.98 3 M AU 3 36 25745 108255 1152050 32001.39 4 M US 3 61 22710 243190 2033505 33336.15 5 F 2 68 25185 83505 1955865 28762.72 6 M 2 97 22710 243190 3185555 32840.77 7 AU 1 63 25185 108255 1900015 30158.97 8 US 1 102 22710 243190 3241405 31778.48 9 1 o J 165 22710 243190 5141420 31160.12 Obs Gender Country _TYPE_ 1 2 3 4 5 6 7 8 9 F M F F M M AU US AU US AU US min max sum ave _TYPE_ ^ _FREQ_ Salary Salary Salary Salary 00 165 22710 243190 5141420 31160.12 01 63 25185 108255 1900015 30158.97 01 102 22710 243190 3241405 31778.48 10 68 25185 83505 1955865 28762.72 10 97 22710 243190 3185555 32840.77 11 27 25185 30890 747965 27702.41 11 41 25390 83505 1207900 29460.98 11 36 25745 108255 1152050 32001.39 11 J 61 22710 243190 2033505 33336.15 Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 258 The SUMMARY Procedure •The SUMMARY procedure provides data summarization tools to compute descriptive statistics for variables across all observations and within groups of observations. General form of the SUMMARY procedure: PROC SUMMARY DATA=SAS-data-set ; VAR analysis-variable{s); CLASS classification-variable{s); RUN; Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 259 The SUMMARY Procedure •The SUMMARY procedure uses the same syntax as the MEANS procedure. The only differences to the two procedures are the following: PROC MEANS PROC SUMMARY The PRINT option is set by default, The NOPRINT option is set by default, which displays output. which displays no output. Omitting the VAR statement analyzes all the numeric variables. Omitting the VAR statement produces a simple count of observations. Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. The TABULATE Procedure •The TABULATE procedure displays descriptive statistics in tabular format. General form of the TABULATE procedure: PROC TABULATE DAJA=SAS-data-set ; CLASS classification-variable(s); VAR analysis-variable(s); TABLE page-expression, row-expression, column-expression ; RUN; Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 261 Dimensional Tables •The TABULATE procedure produces one-, two-, or three-dimensional tables. column dimension three-dimensional Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 262 The TABLE Statement The TABLE statement describes the structure of the table. table page expression ' row expression column expression ' dimension expressions Commas separate the dimension expressions. Every variable that is part of a dimension expression must be specified as a classification variable (CLASS statement) or an analysis variable (VAR statement). table page row column expression , expression ' expression ; Příklady: table Country; table Gender , Country; table Job Title , Gender , Country; Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 263 The CLASS Statement •The CLASS statement identifies variables to be used as classification, or grouping, variables. •General form of the CLASS statement: CLASS classification-variable(s); • N, the number of nonmissing values, is the default statistic for classification variables. • Examples of classification variables: Job_Title, Gender, and Country Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. The VAR Statement •The VAR statement identifies the numeric variables for which statistics are calculated. •General form of the VAR statement: l-:-1 VAR analysis-variable(s); • SUM is the default statistic for analysis variables. • Examples of analysis variables: Salary and Bonus Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 265 One/two-Dimensional Table proc tabulate data=orion.sales; class Country; table Country; run ; proc tabulate data=orion.sales; class Gender Country; table Gender, Country; run; Country AU US N N 63.00 102.00 Coyotry AU US N N Gender F 27-00 41 „00 m 36 = 00 61 =00 Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 266 Three-Dimensional Table proc tabulate data=orion.sales; class Job_Title Gender Country; table Job_Titie, Gender, Country; run; Job_Title Sales Rep. I Gender M Country AU US Job_Title Sales Rep. II Country AU US N N Gender 10.00 14.00 F M 8.00 14.00 Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 267 Dimension Expression •Elements that can be used in a dimension expression: • classification variables • analysis variables • the universal class variable ALL • keywords for statistics •Operators that can be used in a dimension expression: • blank, which concatenates table information • asterisk *, which crosses table information • parentheses (), which group elements Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. Dimension Expression proc tabulate dc ita=orion.sales; class Gender Country; var Salary; table Gender all, Country*Salary; run ; Country AU US Salary Salary Sum Sum Gender 747965.00 1207900.00 F M 1152050.00 2033505.00 All 1900015.00 3241405.00 Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. PROC TABULATE Statistics Descriptive Statistic Keywords CSS CV LCLM MAX MEAN MIN MODE N NMISS KURTOSIS RANGE SKEWNESS STDDEV STDERR SUM SUMWGT UCLM USS VAR PCTN REPPCTN PAGEPCTN ROWPCTN COLPCTN PCTSUM REPPCTSUM PAGEPCTSUM ROWPCTSUM COLPCTSUM Quantile Statistic Keywords MEDIAN | P50 P1 P5 P10 Q1 | P25 Q3 | P75 P90 P95 P99 ORANGE Hypothesis Testing Keywords PROBT T Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 270 PROC TABULATE Statistics proc tabulate data=orion.sales; class Gender Country; var Salar^^^^^^ table Gender all, Country*Salary*(min max); run; Country AU US Salary Salary Min Max Min Max Gender 25185.00 30890.00 25390.00 83505.00 F M 25745.00 108255.00 22710.00 243190.00 All 25185.00 108255.00 22710.00 243190.00 Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. Additional SAS Statements 'Additional statements can be added to enhance the proc format; value $ctryfmt fAUf fUSf run ; fAustralia f fUnited States1 options nodate pageno=l; ods html file=fpll2d08.html1; proc tabulate data=orion.sales; class Gender Country; var Salary; table Gender all, Country*Salary*(min max) ; where Job_Title contains fRepf; label Salary=fAnnual Salary1; format Country $ctryfmt.; title fSales Rep Tabular Report1; run; ods html close; i SAS Instit trier 1HL. UJA. Sales Rep Tabular Report Country Australia United States Annual Salary Annual Salary Min Max Min Max Gender F 25185.00 30890.00 25390.00 32985.00 M 25745.00 36605.00 22710.00 35990.00 All 25185.00 36605.00 22710.00 35990.00 272 Output Data Sets •PROC TABULATE produces output data sets using the following method: PROC TABULATE DATA= SAS-data-set OUT= SAS-data-set ; •The output data set contains the following variables: • BY variables • class variables • the automatic variables _T YPE_, _PAGE_, and _TABLE_ calculated statistics Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 273 PROC Statement OUT= Option proc tabulate data=orion.sales out=work.tabulate; where Job_Title contains fRepf; class Job_Title Gender Country; table Country; table Gender, Country; table Job_Title, Gender, Country; run ; proc print data=work.tabulate; run; Obs Job_Title Gender Country _TYPE_ _PAGE_ _TABLE_ N 1 AU 001 1 61 2 US 001 1 1 98 3 F AU 011 1 2 27 4 F US 011 1 2 40 5 AU 011 1 2 34 6 US 011 1 2 58 7 Sales Rep. ] F AU 111 1 3 8 8 Sales Rep. ] F US 111 1 3 13 9 Sales Rep. ] AU 111 1 3 13 10 Sales Rep. ] US 111 1 3 29 11 Sales Rep. ] [I F AU 111 2 3 10 12 Sales Rep. ] [I F US 111 2 3 14 13 Sales Rep. ] [I AU 111 2 3 8 14 Sales Rep. ] [I US 111 2 3 14 15 Sales Rep. ] [II F AU 111 3 3 7 16 Sales Rep. ] [II F US 111 3 3 8 17 Sales Rep. ] [II M AU 111 3 3 10 18 Sales Rep. ] [II M US 111 3 3 9 Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 274 PROC Statement OUT= Option •_TYPE_ is a character variable that shows which combination of class variables produced the summary statistics in that observation. Partial PROC PRINT Onrniit Obs Job_Title Gender Country _TYPE_ _PAGE_ _TABLE_ N 1 AU 001 1 1 61 2 US 001 1 1 98 3 F AU 011 ^1 1 2 27 4 F US 011 L 5 M AU 011 p 6 M US 011 J ■ 0 for Job_Title, 1 for Gender, and 1 for Country Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. PROC Statement OUT= Option •_PAGE_ is a numeric variable that shows the logical page number that contains that observation. •Partial PROC PRINT Output Obs Job_Title Gender Country _TYPE__PAGE_ _TABLE_ N 7 Sales Rep. I AU 111 1 8 Sales Rep. I US 111 1 9 Sales Rep. I AU 111 1 10 Sales Rep. I US 111 1 11 Sales Rep. II AU 111 I 2 12 Sales Rep. II US 111 2 13 Sales Rep. II AU 111 2 14 Sales Rep. II US 111 2 15 Sales Rep. III AU 111 3 16 Sales Rep. III US 111 I 3 17 Sales Rep. III M AU 111 3 18 Sales Rep. III M US 111 3 Page 1 for Sales Rep. I -29- Page 2 for Sales Rep. II T4 I I Page 3 for Sales Rep. Ill —g- 276 Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. PROC Statement OUT= Option •_TABLE_ is a numeric variable that shows the number of the TABLE statement that contains that observation. •Partial PROC PRINT Output Obs Job_Title Gender Country _TYPE_ _PAGE_ _TABLE_ N 1 2 3 4 5 6 7 Sales Rep. 8 Sales Rep. 9 Sales Rep. 10 Sales Rep. 1 for first TABLE statement AU 011 2 for second TABLE statement i i i i M F US AU 011 111 3 for third TABLE statement M us 111 61 98 27 40 34 58 8 13 13 29 2 Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. Vice o PROC TABULATE: • In the SUGI 28 proceedings: • "The Simplicity and Power of the TABULATE Procedure", by Dan Brims http://www2.sas.com/proceedings/sugi28/197-28.pdf • Online (from the SUGI 27 proceedings): • "Anyone Can Learn PROC TABULATE" by Lauren Haworth, http://www2.sas.com/proceedings/sugi27/po60-27.pdf The UNIVARIATE Procedure •The UNIVARIATE procedure produces summary reports that display descriptive statistics. •General form of the UNIVARIATE procedure: PROC UNIVARIATE DATA= SAS-data-set; VAR variable(s); RUN; •The VAR statement specifies the analysis variables and their order in the results. Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 279 The UNIVARIATE Procedure The following PROC UNIVARIATE step shows default descriptive statistics for Salary. proc univariate dc ita=orion.nonsa] Les; var Salary; run; •Without the VAR statement, SAS will analyze all numeric variables. Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 280 The UNIVARIATE Procedure •The UNIVARIATE procedure can produce the following sections of output: • Moments • Basic Statistical Measures • Tests for Locations • Quantiles • Extreme Observations • Missing Values Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. What Is SAS/GRAPH Software? •SAS/GRAPH software is a component of SAS software that enables you to create the following types of graphs: • bar, block, and pie charts • two-dimensional scatter plots and line plots • three-dimensional scatter and surface plots • contour plots • maps • text slides custom graphs Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 282 Základní typy grafů Bar Charts (GCHART Procedure) Pie Charts (GCHART Procedure) Frequency of Job Title, Broken Down by Gender SalesRep.l Sales Rep. II Sadies Rep. Ill Sales Rep. Employee Job Title Employee Gender I I F I I M Frequency Distribution of Job Titles 3-D Pie Chart Scatter and Line Plots (GPLOT Procedure) #Bar Charts with Line Plot Overlay (GBARLINE Procedure) Plot of Budget by Month for 2006 and 2007 5 6 7 Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. Costs and Personnel for Western Regions Total Cost # of Employees t Cheyenne Portland Roc kf ord Three-Dimensional Surface and Scatter Plots, Maps • Procedury G3D, G3GRID, SGRENDER ...více na support.sas.com Maps (GMAP Procedure) Population in Europe □ 28,117 - 1,329,697 I 4,205,747- 7,252,331 I 10,419,049 - 43,064,16 Zl 1,966,81 4- 4,147,901 Zl 7,725,965- 1 0,21 9,603 ■ 46,480,703- 82,689,21 0 Number of ZIP Codes per State The 5-digit ZIP Code (Frequency) 1 - 273 I I 278- 484 488 - 731 I I 732- 1 631 1066-2656 GMPSTATj SURFACECOLORGRADIENT=TEMPERATURE Length 6 •Multiple graphs on a page (GREPLAY Procedure) Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. h30 i 284 Producing Bar and Pie Charts with the GCHART Procedure •General form of the PROC GCHART statement: PROC GCHART DATA=SAS-data-set: •Use one of these statements to specify the chart type: HBAR chart-variable . . . ; HBAR3D chart-variable. . . \ VBAR chart-variable. . . ; VBAR3D chart-variable. . . \ PIE chart-variable . . . \ PIE3D chart-variable . . . \ Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 285 Vertical/horizontal Bar Chart Produce a vertical/horizontal bar chart that displays the number of employees in each department. proc gchart proc gchart data=univ.employees; data=univ.employees; vbar dept; hbar dept; run ; run; FREQUENCY GO administration Engineering Sales Sales Management Dept Dept Admi n i strati on Eng i neer i ng Sa 1 es Sales Management CUM FREQ. FREQ ] PCT. 8 10.96 CUM. PCT. 10. 96 56 11 4.11 15.07 67 76.71 91.78 73 8.22 100.00 i i i i I i i i i I i i i i I i i i i I i i i i I i i i i I 0 10 20 30 40 50 60 FREQUENCY Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. dept is the chart variable 286 Pie Chart • Produce a pie chart that displays the number of employees in each department._ proc gchart data=univ.employees; pie dept; run; dept is the chart variable FREQUENCY of Dept Administration Sales Management Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 287 Character/Numeric Chart Variable • If the chart variable is character, then a bar or slice is created for each unique variable value. • For numeric chart variables, the variables are assumed to be continuous unless otherwise specified. • The GCHART procedure creates the equivalent of a histogram from the data. • Intervals are automatically calculated and identified by midpoints. • One bar or slice is constructed for each midpoint. Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 288 Numeric Chart Variable Produce a vertical bar chart on the numeric variable Year sOn Job. proc gchart data=univ.employees; vbar YearsOnJob; run; Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. FREQUENCY 20 10 YearsOnJob ÍS the chart variable 5 10 15 20 25 YearsOnJob MIDPOINT 30 289 The DISCRETE Option To override the default behavior for numeric chart variables, use the DISCRETE option in the HBAR, VBAR, or PIE statement. The DISCRETE option produces a bar or slice for each unique numeric variable value; the values are no longer treated as intervals. proc gchart data=univ.employees; vbar YearsOnJob / discrete; run ; YearsOnJob is the chart variable, but the DISCRETE option modifies how SAS displays the values. FREQUENCY 0 1 2 3 4 5 6 7 8 9 10 11 12 1314 15 16 182021 22 24 25 26 27 2829 30 31 YearsOnJob Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 290 Summary Statistic By default, the statistic that determines the length or height of each bar or size of pie slice is a frequency count (N). proc gchart vbar dept / =univ.employees; sumvar=salary run; FREQUENCY GO 1 Admi n istrat i on Eng i neering Sales Management Dept 0 Salary MEAN 110000 100000 : 30000 80000 70000 E0000 50000 40000: 30000 20000 10000 Adnin istration Engineering Sales Dept Sales Management Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. Analysis Variable • To override the default frequency count, you can use the following HBAR, VBAR, or PIE statement options: SUMVAR= identifies the analysis variable to use for the sum or mean calculation. TYPE= specifies that the height or length of the bar or size of the slice represents a mean or sum of the analysis-variable values. • If an analysis variable is • specified, the default value of TYPE is SUM • not specified, the default value of TYPE is FREQ. Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. Bar Chart Using Formats Produce a bar chart that displays the average salary of employees in each department. proc gchart data=univ.employees; vbar dept / sumvar=Salary type=mean; format Salary dollar8.; run; Relationship of Salary and Bonus Salary MEAN $110,000 $100,000 WO,000 WO,000 $70,000 $60,000 $50,000 $40,000 $30,000 $20,000 $10,000 $0 Administration Engineering Sílí E Sales Management Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. Dept 293 Další možnosti proc gchart Na adrese http://support.sasxom/sassamples/graphgallery/PROC_GCHART.html lze nalézt galerii možných typů grafů (včetně kódů!). Label the Subgroups in a Horizontal Bar Chart (52,187 (48,502 (48,543 (80,000 Actual Sales Country Subgroups for Each Midpoint Total 100% i 40% 60% L midpnt I Category I call ^^lcat2 Default Graph of Sales Totals ,ii id , Central E .1-1 Product Category a Boot 1 Sandal 1 Women's Casual i i Men's Casual Slipper I I Women's Dress □ Men's Dress J Sport Shoe Outline Bar Chart Cylinder Shape 1998 1999 2000 2001 YEAR Aue 16-24 i: -ľ- ' i| Average Miles Driven Annually Women Men Revenue and Expenditures, 1997198-200142 45H 4ÜC 3EC □ 30C J 2SC I 20C 15C 10C I Expenditure 294 Další možnosti proč gchart A ještě několik typů... Annotate standard error bars TEST _ Cold Gases Heal Humidity Pressure xjays 25 5C mean SUM i I-1 FlusMnu-;- I its n d 3 id Deviation I lin zmyí Relative Average Chart duli'i ID -j 10-20 '-3D-in-- 1 1 2 3 4 5 6 7 _Department_ Types of Vehicles Produced Worldwide (Details) FREQUENCY ofType / / Front / / 41.82% / \ \ All /lullt / \ Jr"" 8.88% I vSA-OT^t--aii \ V Rear / \ \ 12.85%/All \ \ £.54 \ \ X. /X.>_Front ÍRear\\ y\ y 3 27% *.41 %\ \X \/ I ^ \V 2.80% L—-- VX_All Type l=l Hybrid LZ^ SUV [=] Sed ~y y 2.80% n I I Sports I ITnirk I I Warjnn Ju 6 72 f Rejected Parts Apr May Mar 64 _ _---" .~. — --. 61 / y\ \ 1 X \ Fetl / / \ \ 1 / -\ \m ^^Mr£^^^ Jan ^5 □ H W/ / Dec < r / 60 ——-~ Nov :t 7 Changes in Energy Production:"!985 to 1995 fear=199E Site Sales By Dept (Details] SUM of Sales by Site i:iť7 I I AtLiiiLi I I Fmi h Cust Satisfaction IT Dashboard October, 2006 Uptime 100 0% 85 0% ~< 70.0% 0 0% L IT Cost 60,000 40,000 Ä^W.-KS Risk 17.0 _ Training Hours Availability 100 0 . Ontime Projects 120 9.0 295 Producing Plots with the GPLOT Procedure •You can use the GPLOT procedure to plot one variable against another within a set of coordinate axes. •General form of a PROC GPLOT step: PROC GPLOT DATA=SAS-data-set; PLOT vertical-variable*horizontal-variable \ RUN; QUIT; Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 296 The GPLOT Procedure Produce a plot of salary versus bonus for each employee. proc gplot data=univ.employees; plot Salary*Bonus; title ^Relationship of Salary and Bonus'; run; Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. Relationship of Salary and Bonus i11111111111111111111111111 1000 2000 3000 4000 5000 G000 7000 8000 Bonus 9000 297 SYMBOL Statement • You can use the SYMBOL statement to do the following: • define plotting symbols • draw lines through the data points • specify the color of the plotting symbols and lines • General form of the SYMBOL statement: SYMBOL/7 options; The value of n can range from 1 to 255. • If n is omitted, the default is 1. Symbol statement is global and additive: global After being defined, the statements remain in effect until changed or until the end of the SAS session. additive Specifying the value of one option does not affect the values of other options. Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. SYMBOL Statement Options • You can specify the plotting symbol you want with the VALUE: option in the SYMBOL statement: Selected symbol values are shown below: PLUS (default) DIAMOND STAR TRIANGLE SQUARE NONE (no plotting symbol) You can use the 1= option in the SYMBOL statement to draw lines between the data points. Selected interpolation values: JOIN joins the points with straight lines. SPLINE joins the points with a smooth line. NEEDLE draws vertical lines from the points to the horizontal axes. R overlays a simple linear regression line on the plot. Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 299 SYMBOL Statement Options • Use a star as the plotting symbol and superimpose a regression line on the plot. plot Salary*Bonus/ symbol value=star i=r; run / Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. Relationship of Salary and Bonus Sa 1 ary 200000 190000 180000 170000 160000 150000 140000 130000 120000 110000 100000 90000 80000 70000 60000 50000 40000 30000 20000 i—i—i—r~ 4000 5000 6000 7000 8000 9000 Bonus 300 Additional SYMBOL Statement Options • You can enhance the appearance of the plots with the following selected options: W\DTH=width W=width specifies the thickness of the line. COLOR=co/or C=color specifies the color of the line and plot symbols. plot Salary*Bonus; symbol c=green w=3; run; Relationship of Salary and Bonus Sa 1 ary 200000 190000 180000 170000 160000 150000 140000 130000 120000 110000 100000 90000 80000 70000 60000 50000 40000 30000 20000 ^—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—r 0 1000 2000 3000 n—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—f 4000 5000 6000 7000 8000 9000 Bonus Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 301 Canceling SYMBOL Statements • You can cancel a SYMBOL statement by submitting a null SYMBOL statement. symboll; To cancel all SYMBOL statements, submit the following statement: goptions reset=symbol; Zrušení všech předchozích voleb (návrat k defaultnímu nastavaní) goptions reset=global; Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 302 Controlling the Axis Appearance • You can modify the appearance of the axes that PROC GPLOT produces with the following: • PLOT statement options • the LABEL statement • the FORMAT statement • You can use PLOT statement options to control the scaling and color of the axes, and the color of the axis text. • Selected PLOT statement options for axis control: HAXIS=va/ues scales the horizontal axis. VAXIS=va/ues scales the vertical axis. CAXIS=co/or specifies the color of both axes. CTEXT=co/or specifies the color of the text on both axes. Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 303 PLOT Statement Options, Label statement plot Salary*Bonus / vaxis=0 to 200000 by 50000 haxis=0 to 10000 by 2000 ctext=blue; run; Relationship of Salary and Bonus nnnua 1 Sa 1 aruN v__ 200000,; ' it: 150000: 100000: 50000: o - i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i 0 2000 4000 6000 8000 10000 f 2002 Bonus} Sa 1 ary Relationship of Salary and Bonus 200000 - * 150000 : 100000 ■ 50000 : 0 : 1 i i i i i i i i i 1 i i i i i i i i i 1 i i i i i i i i i 1 i i i i i i i i i 1 i i i i i i i i i 1 0 2000 4000 G000 8000 10000 Bonus plot Salary*Bonus / vaxis=0 to 200000 by 50000 haxis=0 to 10000 by 2000 ctext=blue; label Salary=I Annual Salary' Bonus=' 2002 Bonus'; run ; Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 304 Gplot options - další možnosti Plot < Y Variable>* /; • Options for plotting • Plot options •Legend= or nolegend: specifies figure legend options •Overlay: allows overlay of more than one Y variable •Skipmiss: breaks the plotting line where Y values are missing •Appearance option •Axis: Specifies axis label and value options •Symbol: Specified symbol options •href, vref: Draws vertical or horizontal reference lines on plot •frame/fr or noframe/nofr: specifies whether or not to frame the plot •caxis/ca, cframe/cfr, chref/ch, cvref/cv, ctext/c: specifies colors used for axis, frame, text or reference lines. 305 Gplot options - další možnosti pr&c gpiot data=twovar; Very basic plot, below we get at! of the plot yi*x; default options. Not very exciting. Definitely run; not publication quality. Gplot options - další možnosti •AXIS<1..99> ; •Label Option; •Angle/a=degrees (0-359) •Color/c=text color •Font/f=font •Height/h=text height (default=l) •Justify=(left/center/right) •Label ="text string" •Order Option; •Order=(a to b by c): major tick marks will show up at intervals based on c. •Example order=(0 to 3 by 1); •Value Option; •value=C" """"): applies text label to each major tick. •Example Value=( "Start" "Middle" "End") • axisl label=(a=90 c=black f="arial" h=1.2 "time" a=90 c=black f="arial" h=1.0 "hours"); Gplot options - další možnosti Resets previous-„goptims re3et=global ; options Horizontal axis (X Variable) Vertical axis (Y Variable) Call Axis statements ' -axisl Label= (f=tarial/bc■, h=l,9 "Dose" justify=c Farial/bo1 h=1.3 "mg/24 His" ); >axis2 label=(a=90 f='aiial/bo' h=l,9 "Plasma Level"] proc gplot data=twovar; plot yl*x / haxi5=axisl vaxis=axis2; run; t NOTE: you can also place the AXIS statements within the gplot proc axisl label=(f='arial/bo' h=1.9 "Dose" justify=c f^aiial/bo' li=1.3 "mg/24 His") order=(0 to 2 by 0.5) -* value=[f='ariaľ h=1.3 "O.0" "0.5" "1.0" "1.5" "2.0")/ Added VALUE option to Axis statement axis2 label=(a=9Q f='arial/bo' h=1.9 "Plasma Level') □rder=(0 to 3 by 1) -- value=(a=90 f='arial' h=1.3 "0.0" "1.0" "2.0" "3.0"); proe gplot data=twovar; plot yl*x / haxis=axisl 7axis=axis2; run; > _l re £ an The LABEL options helped make the axis labels meaningful, but the axis tick marks remain crowded ..........................■ 11 ■ ■ ..... 1111 ........ D.D n.1 U.2 fl.J aj D.5 D.STTľl &.7 O.l D.9 l.fl 1.1 1.2 I.J 1.5 i I i i i I i i i I i i i ľ 1.S 1.7 1.6 1.5 Dose mgi'21 Hrs Dose m a/2i Hrs 308 Další možnosti proč gplot Na adrese http://support.sasxom/sassamples/graphgallery/PROC_GPLOT.html lze nalézt galerii možných typů grafů (včetně kódů!). Na adrese http://ebookbrowse.com/sas-gplot-slides-1-26-2011-ppt-d138883835 lze najít další návody a ukázky včetně kódů. Market Analysis of Selected Automobiles Economical and Sporty Sporty Anil it Intetira loi^dacjvi Hai\dB Cjvic 10.0% Economical and Practica! or^Ta^us Expensive and Sporty InňnítíMriD 7.5% Toyota Cressida __________t£Q3t____ Expensive 0% 10 10.0% Plymouth Vo+ager 20.0% Practical Expensive and Practical Bubble size and labels represent the market share, in percent, of autos in this survey. Dow Jones Yearly Highs and Lows 1955 1960 1 see I Source: 1997 World Almanac Changing the width of the boxes in a Box Plot Histogram with Normal Density Curve I ' CO í C SO i Ml Í C 70 í IH i C 50 II N í C 30 í 120 í 0.10 Í C 00 pz I I I " f» 0.0E ij.ce 00; 0.01 0.0c 1996 1937 1998 139S YEAR Individual Net Worth As a Function of Original Worth ^™ Est. density ™ ■ Spec density * t f \ X \ V \ % \ * / 4 / f f t t * V \ 1 \ * \ ľrrT^.r.rr.^ 20 30 40 E0 Spec Mean = 30 Spec Stddew= 10 100,000, Jan. 2009 Year 309 The SGPLOT Procedure • General form of the SGPLOT procedure: PROC SGPLOT } DOT category-variable } HBAR category-variable < /option(s) >; HBOX response-variable ; HISTOGRAM response-variable < /option(sP) NEEDLE X= variable Y= numeric-variable ) REG X= numeric-variable Y= numeric-variable } SCATTER X= variable\= variable ) VBAR category-variable < /option(s)>; VBOX response-variable ; RUN; _ 310 Proc Sgplot Power Generation (GWh) 1,980,000 - ™ 1,960,000 1,900,000 - 2013.179 757,971 / -750,000 1,97SjS20// 1,973.737^---- / -725,000 en 708,979 / O 891J0OS / / -700,000 'S :_ /X / -675,000 h—■ Z //i,9aa,ia(i\ / >639,129 6i9,«S -650,000 ' 1,903,956. 2001 2002 2003 2004 2005 Year -Nituril Gas] Coal Height Normal Kernel title "Fever Generation ■!GWh.) "; prcc agplct data=aaahelp.electriciwhere= (year >= 2001 and cuatcjner="^eaidential") ) ; xaxia type=diacrete; aerie a Jt=year y=ccal / datalabel," aerie a Jt=year y=naturalgaa / datalabel ySaitia,- title prcc agplct data=aaahelp.claaa; hiatcgram. height,- denaity height," denaity height / type=liernel; run,- 311 Proc Sgplot Stock Trend Jan Jul Jan Jul Jan Jul Jan Jul Jan Jul Jan Jul Jsn 2000 2001 2002 2003 2004 2005 200E Fit and Confidence Band from Precompiled Data _ — - Predicted Fit □ 95% CLI □ 95% CLM Height Cholesterol Distribution 300 400 Cholesterol proc sgplot data=sashelp.stocks (where=(date >= "01jan2000"d and stock = "IBM")); title "Stock Trend"; series x=date y=close; series x=date y=low; series x=date y=high; run; proc sgplot data=sashelp.classfit; title "Fit and Confidence Band from Precomputed Data"; band x=height lower=lower upper=upper/ legendlabel="95% CLI" name="band1"; band x=height lower=lowermean upper=uppermean / fillattrs=GraphConfidence2 legendlabel="95% CLM" name="band2"; scatter x=height y=weight; series x=height y=predict / lineattrs=GraphPrediction legendlabel="Predicted Fit" name="series"; keylegend "series" "bandl" "band2" / location=inside position=bottomright; run; proc sgplot data=sashelp.heart; title "Cholesterol Distribution"; histogram cholesterol; density cholesterol; density cholesterol / type=kernel; keylegend / location=inside position=topright; run; Stock Volume vs. Close -511 S = "01jan2000"d and date <= "01jan2001"d and stock = "IBM")); title "Stock Volume vs. Close" vbar date / response=volume; vline date / response=close y2axis; run; 312 Proc Sgpanel Cholesterol Levels for Age > GO Feniale Male 350 - 0 300 -250 - 0 0 ü Ü 0 0 J 0 □ Q □ " D o 200 - o 100 125 150 175 200 225 100 125 150 175 200 225 Weight □ 95* Confidence Limits - Loess Distribution of Cholesterol Levels Normal Overweight Underweight |— <>—i^m o Female cd—O—Lao o o Male ~i i i i i i i i r 100 300 500 100 300 500 100 300 500 Cholesterol titlel "Chcleatercl Levels fcr Age > 60", proc agpanel data=aaahelp.heart■ where=\AgeAtStart > 60) ) ; panelby aeit / novarnainfi; lceaa Jt=weight y=chcleaterol / elm," run; titlel," titlel "Diatr ibuticn cf Chcleatercl Level a"; pice agpanel data=aaahelp.heait; panelby veight_3tatua aex / laycut=lattice ncvarname; hbex chcleatercl," run; titlel; Další viz : http://support.sasxom/documentation/cdl/en/grstatproc/652 35/HTML/default/viewer.htm#poomgdlxbiJ4V3nozewfb9cpfxu i.htm 313 Excel Basics Excel spreadsheets organize information (text and numbers) by rows and columns: This is a row. Rows are represented by numbers along the side of the sheet. * a; Microsott Excel ■ OX Home Insert Page Layout Formulas Data Review View Acrobat Paste Clipboard r' Calibri »]| % A 12 Alignment Number Styles Cells a- Font r» Editing Al 11 Row 1 ■••1 Boon Row 1 Ready lis EI t!H 100% 1- This is a column. Columns are represented by letters across the top of the sheet. fx, Mien ■ _ n X w A B 1 Column A 2 3 4 5 6 7 8 9 10 11 12 13 14 15 =ii a .U 100% ..: 314 Excel Basics A cell is the intersection between a column and a row. Each cell is named for the column letter and row number that intersect to make it. tx, Microsoft Excel _ n -- -> X B2 -< Bookl A B C . i 2 jcell B2 1 1 3 "' _J I 4 ! 5 6 im Si w 100% ■ • • • 9 9 315 Data Entry There are two ways to enter information into a cell: 1. Type directly into the cell. Click on a cell, and type in the data (numbers or text) and press Enter. 2. Type into the formula bar. Click on a cell, and then click in the formula bar (the space next to the r~ ). Now type the data into the bar and press Enter. a, 4 a *> - -■ 5 Microsoft Excel _ H X Hom£ Insert Page 1 Forrru Data Revie\ View Acrob V< - * —1 ^ Paste . y Clipbo... fij 1 A 'I = Font Alignment Number ' i a m Styles Cells ' I ' I - á Editir Al ▼ q* X ✓ jt 533.42 1 ^Bookl A 533.42I B C 1 0 E 1 1 3 4 1 5 Ch, Home Insert Page I » Microsoft Excel _ H X Formi Data Revie\ View i Acrob I ® A m Z„ A % a!IIMi , Paste Font Alignment Number Styles Cells Editir Clipbo... 5 Al 1 I 6|]Bookl A B 1 533.42 f 2 3 4 1 5 Edit 316 Data Entry 1. Open Excel (Start -» All Programs -» MS Office -» Excel). 2. Enter the following information into your spreadsheet: 3} Boolcl - Microsoft Excel Home Insert Page Layout Formulas Data Review View Acrobat - n x - a x Calibri jn : = = — 3-- Number Styles j*3 Insert ? —1 <^ Paste B ~I - ' | $ - % » 1 1* Delete - jj±j -|| im ^ ♦.0 .00 .00 -»-.0 jjp Format ~ Clipboard ^ Font r* Alignment Number ^ Cells Editing B12 B H 2 4 5 6 7 8 10 11 12 13 14 Instructor 1 Instructor 2 mean 3.1 2.7 3.2 2.9 2.8 3.0 3.3 2.8 3.0 3.2 2.5 3.9 4.0 2.4 2.7 2.8 4.0 2.6 3.1 3.0 M 4 ► »I ( Sheetl, Sheet2 , Sheet3 /X3 Ready i 100% \-i 317 Formulas and Functions • Formulas are equations that perform calculations in your spreadsheet. Formulas always begin with an equals sign (=). When you enter an equals sign into a cell, you are basically telling Excel to "calculate this." • Functions are Excel-defined formulas. They take data you select and enter, perform calculations on them, and return value(s). 318 More on Functions • All functions have a common format - the equals sign followed by the function name followed by the input in parentheses. • The input for a function can be either: • A set of numbers (e.g., "=AVERAGE(2, 3, 4, 5)") • This tells Excel to calculate the average of these numbers. • A reference to cell(s) (e.g., "=AVERAGE(Bi:Bi8) or "=AVERAGE (Bi, B2, B3, B4, B5, B6, B7, B8)" • This tells Excel to calculate the average of the data that appear in all the cells from Bi to B8. • You can either type these cell references in by hand or by clicking and dragging with your mouse to select the cells. 319 Functions for Descriptive Statistics Below are several functions you will need to learn for this class. Try them out with the practice data set. =AVERAGE(first cell:last cell): calculates the mean =MEDIAN (first celhlast cell): calculates the median =MODE(first celhlast cell): calculates the mode =VARP(first celhlast cell): calculates the variance =STDEVP(first celhlast cell): calculates the standard deviation • You may directly write the functions for these statistics into cells or the formula bar, OR • You may use the function wizard ( A in the toolbar) Measures of Central Tendency in Excel Average (Mean) Write the formula into a cell ... A B c E 1 23I 2 11 34 2 _________jji____________ l__________.1, l_________J.? 3 ___________5!____________ L__________8 4 it ______________ I-------------j h 13 =AVERAGE(B2:E5) = =AVERAGE(A1:A4;B2;C1:C2;E1:E4) A colon (:) stands between the upper left corner and the lower right corner of an array Empty cells don't effect on the value of mean The reference to an array is made by painting the array The semicolon (;) connects separate arrays 321 Measures of Central Tendency in Excel Or, use the wizard: Insert function... Select Category: Statistics Function: Average A B C D 1 23I 2 11 34 2 _________111____________ L__________.I, l_________I?. 3 5| L__________8. 4 it ______________ -------------- h 13 Function Arguments -AVERAGE Number 1 Nunnber2 Nunnber3 Number4 Numbers A1:A4 \ :]= {23;11;5;7> BI \ H C1:C2 °\ D1:D4 ^ j= {34;12;8;13> = 11.81818182 Returns the average (arithmetic mean) of its arguments, which can be numbers or narneSj arrays, or references that contain numbers. Number 1: numberljnumber2j... are 1 to 30 numeric arguments for which you want the average. Formula result = Help on this function 11.81818182 OK Cancel Activate the command line in the box and paint an array in Excel sheet 322 Measures of Central Tendency in Excel • Mode =MODE(B2:B5;D2:E4) • Median =MEDIAN(B2:B5;D2:E4) • QliartileS =QUARTILE((B2:B5;D2:E4);1) 1., 2. or 3. quartile (the 2. = Median) Percentiles =PERCENTILE((B2:B5;D2:E4);u.35)) 323 Measures of Dispersio • Average deviation • Variance Standard Deviation Skewness in Excel =AVEDEV(B2:B5;D2:E4) =VAR(B2:B5;D2:E4) =STDEV(B2:B5;D2:E4) =SKEW(B2:B5;D2:E4) Classification (Grouping) of Data In classification we arrange a large sample of data into classes 26.6 22.9 25.8 23.1 23.8 20.9 25.2 26.9 22.6 27.9 28 23.7 23.9 20.5 25.7 27.1 24.7 17.8 23.9 22.8 22 23.6 27.5 30.6 21.6 19 22.7 26.9 25.5 27.6 27.5 22.1 26.7 27.5 28.3 31.1 32.1 28.8 21.8 23.3 There are some rules usually followed when arranging classes • The classes should be of equal size (if possible) • All data values from the original table need to be included in one and only in one class • The number of classes should be between 5 and 15. class frequency < 19 2 19 - 21.5 3 21.5 - 24 15 24 - 26.5 5 26.5 - 29 13 > 29 3 325 Classification in Excel class upper limits (bins) < 19 19 - 21.5! 21.5 - 24 24 - 26.5; 26.5 - 29 >29 19j 2. ! 21.5! 2 24 j 15 ; 26.5; 5 L 29] 13 "": 3 The frequencies indicate the number of observations in the data array that are more than the upper limit in the previous row but less than or equal to the upper limit in this row Activate the (whole) frequency column and write the formula =FREQUENCY(data;bins) into the first cell. Remark! This is an array formula, which means that we have to accept the formula by pressing: shift + Ctrl + enter 326 a :unctions for Descriptive Statistics Your Excel spreadsheet should now look like this: Bookl - Microsoft Excel Home Insert Page Lay I Formula Data , Review View Acrobat _ n x _ a x Paste Clipboard Calibri li " L B Z U a A A- A 5 Font Alignment Number Styles Cells Editing D17 "71 1 A B C D E F G D Instructor 1 Instructor 2 2 3.1 2.5 3 2.7 3.9 4 3.2 4.0 5 2.9 2.4 6 2.S 2.7 7 3.0 2.8 S 3.3 4.0 9 2.S 2.6 10 3.0 3.1 11 3.2 3.0 12 mean 3.0 3.1 13 median 3.0 2.9 14 mode 3.2 4.0 15 var 0.04 0.3* 16 stdev 0.19 0.60 17 1 1 1 Ready ]gg [fj nj]| 100% (71 (+j 327 Calculating Pearson's r • Correlations are described using the Pearson Product-Moment correlation statistic, or rvalue. • In Excel, there are many functions that can calculate a correlation statistic, however, we will only use =PEARSON in this class. Let's say we want to determine if there is a relationship between number of hours spent per week studying for Statistics and GPA (score) earned in the class at the end of the quarter. To do so, we can calculate Pearson's r for our two variables. 328 Enter the following data into Excel: \ ä *9 ~ C* - Ö ' Bookl - Microsoft Excel _ H X Home Insert Page Layout Formulas Data Review View Acrobat ©—OX i Eta Paste ^ Clipboard Calibri -111 *] = SB = General Styles m Cells z • a- iS' Editing = = = -.I raj 1 $ ' % t J EB ' <3» - A * 3 *.0 .00 .00 -*.o Font 'S Alignment Number CIO - ji A B 1 c D E F 1 Student StudyHrs GPA 2 1 42 3 .3 .9 3 2 23 2 4 3 31 3.2 5 4 35 3.2 6 5 16 1.9 7 6 26 2.4 8 7 39 3.7 2.5 9 8 19 10 1 11 _ 12 13 H 4 ► M I Sheetl Sheet2 Sheet. _W1 Ready jljfflli 121 o .+, i StudyHrs = average number of hours spent per week studying for 209 GPA = grade-point average earned in 209 at the end of the quarter 329 Step 1: Select the cell where you want your r value to appear (you might want to label it). Step 2: Click on the function wizard ^button. Step 3: Search for and select PEARSON. Ad*) •v. ay ,— —». Bookl - Microsoft Excel _ H X Insert Function Paste _ J Clipboard r* E5 El A I B I C 1 Student StudyHrs GPA 2 3 4 5 8 9 10 11 1 2 3 4 5 6 7 S 42 23 31 35 16 26 39 19 3.3 2.9 3.2 3.2 1.9 2.4 3.7 2.5 Select a function: iPEARSON INTERCEPT SLOPE STEYX StudyHrs and GPA: L_Z__! PE ARSON(array 1 ,array2) Returns the Pearson product moment correlation coefficient, r, Help on this function OK Ready Sheetl „ Sheet2 „ Sheet3 Calibri •B = % [Ajl Lb Search for a function: j B I u •IIa* a" Alignment Number Styles Ce Ipearson Go :..:..: ▼ Font Or select a category: [Recommended d GJ 330 Step 4: For Arrayi, select all the values under StudyHrs. For Array2, select ah the values under GPA. 3. f Bookl - Microsoft Excel _ n X Home Insert Page Layout Formulas Data Review View Acrobat — 01 x -—I 4» Paste Clipboard Calibri - 11 B 1 u iM A* Font B2 B 8 10 11 -i 1 Student StudyHrs GPA 1 42 23 31 35 16 26 39 19 3.3 2.9 3.2 3.2 1.9 2.4 3.7 2.5 % Alignment Number Styles Function Arguments Cells PEARSON [Arrayj^|B2:B9 Array2 = {42;23;31;35;16;26j39;19> 5ä = array Returns the Pearson product moment correlation coefficient, r. Arrayi is a set of independent values. Formula result = Help on this function OK Cancel H < > H 1 Sheetl ^Sheet2 Sheet3 / tJ Average: 28.875 Count: 8 Sum: 231 ffl [□] HI 100% Step 5: That's it! Once you have your r value, don't forget to round to 2 decimal places. Bookl - Microsoft Excel Home Insert Page Layout Formulas Data Review View Acrobat _ a x _ a x Clipboard Calibri - 111 ~U — = = SP LmMMH B Z H -|| A* A' s s s ♦ 1 = ~ - A - ♦ .0 .00 .00 -fr.Ol Styles Cells Font 13 Alignment _J3J Number Editing fl A B C D E F G H « Student StudyHrs GPA 2 1 42 3.3 3 2 23 2.9 4 3 31 3.2 StudyHrs and GPA: 5 4 35 3.2 1 0.88 6 5 16 1.9 7 6 26 2.4 8 7 39 3.7 nr 8 19 2.5 10 Ready j 100% - Knowledge check: What does the rvalue of 0.88 tell you about the strength and direction of the correlation between StudyHrs and GPA? 332 Scatterplots • A scatterplot is an excellent way to visually display the relationship (correlation) between two variables. • Each point on the scatterplot represents an individual's data on the two variables. • We will now create a scatterplot for StudyHrs and GPA. 333 Step i: Select both columns of variables you wish to plot (StudyHrs and GPA). Step 2: Click on the tab labeled 'Insert', and then select 'Scatter' in the 'Charts' menu. Home C Insert —1-i 0^ bal Microsoft Excel Page Layout Formulas Data LÜ -1 IÍ1 P&fLine' _ H X PivotTable Table Tables Picture Illustrations Column Piek^ I:-V Scatter Bar' ^Other Charts Charts Review View Acrobat FD Text Box _] Header & Footer «4 WordArt - Links_JI_Text Hyperlink it' Bl StudyHrs Bookl A B C P i 1 H i A 1 1 V 1 Student StudyHrs GPA 2 1 42 3.3 3 2 23 2.9 4 3 31 3.2 5 4 35 3.2 6 5 16 1.9 7 6 26 2.4 8 7 39 3.7 9 8 19 2.5 10 11 12 13 Ready Average: 15.88125 Count: 18 Sum: 254.1 JSED BU 334 Step 3: Select the first plot in the drop-down menu. Home Insert Page Layout Microsoft Excel Formulas Data Review —i-j a la pöcLine * Area * PivotTable Table Tables Mi: Picture _. Column Illustrations Pie - |£v Scatter » Bar - Cha Bl Study Bookl_ B A 1 Student 2 B 8 10 11 12 13 StudyHrs GPA 42 3.3 23 2.9 31 3.2 35 3.2 16 1.9 26 2.4 39 3.7 19 2.5 Ready Average: 15.88125 Count: 18 Sum: 254.1 View Acrobat EU Text Box 2 Header & Footer ^ Word Art - £2 Text H 335 Step 4: Remove the legend by clicking on it and pressing Delete. Microsoft Excel Chart Tools _ a x Review View Acrobat Design Layout Format efl Bookl B 1 2 3 4 5 jq ~7H 9 10 Til 12 13 14 15 : 16 -L- GPA 4 3.5 3 2.5 2 13 1 0.5 0 ♦ ♦ -♦— ♦-♦ 10 —1— 20 —1— 30 40 —1 50 H ♦ GPA Average: 15.88125 Count: 18 Sum: 254.1 ffl-EQ llj) 100% Step 5: Add axis titles by selecting the 'Layout' tab and clicking on Axis Titles.' For the horizontal title, you want it below the x-axis. For the vertical title, you want the 'Rotated Title' option. Home Insert Chart Area Page Layout Formulas Microsoft Excel Data Review View Chart Tools I General i $ - °/ m hi*: Alignment JT Number »-.0 .0 .00 Acrobat [Al Styles Design Layout _ n x Format '@! ^Insert • 3** Delet Format ■ Cells Sort & Find & Filter- Select- Editing J5 X V /<3tudy Hours and GPA ^ Bookl B H 1 2 3 4 5 6 7 81 9 10 11 12 13 14 15 9-9 GPA <*>-ö 2 4 33 3 23 2 15 1 0.5 0 ♦ ♦ -*- +-* 10 —I— 20 —I— 30 —I— 40 —I 50 Study Hours Your scatterplot is now finished! Microsoft Excel Chart Tools _ B X Home Insert Page Layoi Formulas Data Review View Acrobat Design Layout Format Calibri (Body) - 10 - 1 s % A 12 Z $7- Paste 1 B I U '|fiV a' 1 ^ Number Styles Cells Clipboard r* Font Hi Alignment Editing Chart 3 Bookl B I H 8 10 11 12 13 14 15 Study Hours and GPA 2 a 4 33 3 2.5 2 1.5 1 03 0 -*- *-*- ♦ ♦ 10 20 30 Study Hours 40 —I 50 Ready Ijtaia bq[ Remember: Each point in the scatterplot represents an individuals data. Knowledge check: Identify Student 8 in the scatterplot. 340 Describing Correlations and Scatterplots • Scatterplots and correlations are described: • As positive or negative. • As weak, moderate, or strong. • Using the r value. • Sentence 1: There is a strong, positive correlation (r = 0.88) between the number of hours studied and GPA. • Then you want to describe the general relationship between the two variables: • Sentence 2: More hours of studying for Statistics was associated with a higher GPA earned in the class at the end of the quarter. • NOTE: We cannot say "More studying led to a higher GPA" - this implies causation, which cannot be determined using correlational research. 341 Pivot Tables (kontingeční tabulky) Step 1: First of all, please make sure to select the data range for which you want to make the pivot table. Step 2: Insert the Pivot Table by going to the Inserttab and then clicking the Pivot Table icon. 55178 0.0999 55179 D.C999 s 5S186 0.C999 I-- SS187 0.0999 -- 55188 0.0999 z SS189 0.0999 — 55226 0.0999 z 55227 0.0999 = 5S228 0.0999 s 55229 0.0999 z SS246 0.0999 = 55247 0.0999 z 55248 0.0999 — 55249 0.0999 s 55286 0.0999 z SS287 0.0999 r 5S288 0.0999 552S9 0.0999 = d Al JJ Picture Clip Art S Pane ES Domú Vložení Rozložení Ťľí -m- 4 Kontingenční'Tabulka Obrázek Klipart T tabulka » Kontingenčni tabulka Ilustra* B£] Kontingenční flraf 342 Pivot Tables (kontingeční tabulky) Step 3: Select the target cells where you want to place the pivot table. For starters, select the New Worksheet option. Step 4: The new worksheet will open and you will be able to see the pivot table that you just created, you can now generate the report from this table and can perform various operations on this table for better visualization and presentation of data. Just for example I calculated the sum of all of the selected cells. 55178 0.0999 sssssssssss 55179 C.0999 *********** 551S6 0.0999 n nooQ *********** 9916/ S5188 0.0999 *********** 55189 0.0999 5522« 0.0999 . .oaa&fi. i sssszzszssp B3 (? U \ Total _1 A B C 1 DESTINATION COOE 355 2 3 Sum of RATES (US$) Total 4 Total 0.078 —-1 343 Pivot Tables (kontingeční tabulky) Dlte poler které chcete přidat do ítziiy: 2] Employee ID □ First Name □ Last Name 3Gender □ Salary □ Job Title □ Country □ Birth Date □ Hire Date Přetáhnout pole mezi následujícími oblastmi: ~Ý Filtr sestavy Popisky sloupců Z Hodnoty Gender Popisky řádků Z Hodnoty Počet Početl PočetZ _ _ _ _ Job Title Sales Manager Sales Rep. I Sales Rep. II Sales Rep. Ill Sales Rep. IV Celkow součet Data Gender j| Počet 13 27 36 Početl M 0,00% 100,00? 38,10% 61,30% 55,56% 44,44% 41,18% 58,82% 40,00% 60,00% 42,86°/ 57,14? Počet2 0,00? 23,63% 37,04% 25,33% 7,41 % 5,56? 36,11? 22,22°/ 27,78°/ 8,33% 100,00% 100,00°/ Celkem Počet 63 Celkem Početl 100,00°/ 100,00°/ 100,00°/ 100,00°/ 100,00% 100,00°/ Celkem Počet2 3,1 7? 33,33? 28,57? 26,38? 7,34% 100,00? Nastavení polí hodnot I 9 l-^-l) Název zdroje: Employee ID Vlastní název: Početl Souhrn Zobrazit hodnoty jako Zobrazit hodnoty jako Wz řádku Normální Rozdíl mezi %z a/a rozdílu mezi Mezisoučet v Kliknutím ]iä=^žvolené pole v části „Hodnoty" lze vyvolat „Nastavení polí hodnot" kde v „Zobrazit hodnoty jako" lze vybrat např. „%řádku" (v tabulce označeno jako Početí) ...tím získáme řádkově podmíněné relativní četnosti. Pro sloupcově podmíněné volíme %sloupce. 344 5. Regresní analýza v MS Excel a SAS Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 345 Regresní analýza Cíl regresní analýzy: vystižení závislosti hodnot znaku Y na hodnotách znaku X. Při tom je nutné vyřešit dva problémy: > jaký typ funkce použít k vystižení dané závislosti > jak stanovit konkrétní parametry zvoleného typu funkce? Typ funkce určíme buď logickým rozborem zkoumané závislosti nebo se snažíme ho odhadnout pomocí dvourozměrného tečkového diagramu. Průběh závislosti —i-1-1-1-1- 5 10 15 20 25 30 přímka y = /?0+Ax parabola y = 0o+01x+02x2 346 Simple Linear Regression Mode Y = ß0 + ßiXi + s 03 q-tu a: Unknown Relationship Y = ß0+ß1X A Y-Y Residual Regression Best Fit Line Predictor (X) Assumptions: • The mean of the Ys is accurately modeled by a linear function of the Xs. • The random error term, 8, is assumed to have a normal distribution with a mean of zero. • The random error term, 8, is assumed to have a constant variance, a2. • The errors are independent. Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. ** i í —=• * * f^**'^ *\ i * i ( J<* * * jC^ — * xv*&jř i * *Jí^^ř * * Unknown Relationship Y = p0+p1X * * Predictor (X) 347 Violation of Model Assumptions • Normality - does not affect the parameter estimates, but it affects the test results. • Constant Variance - does not affect the parameter estimates, but the standard errors are compromised. • Independent observations - does not affect the parameter estimates, but the standard errors are compromised. • Linear in the parameters - indicates a misspecified model, and therefore the results are not meaningful. 348 Regresní přímka Zde se omezíme na lineární závislost y =Po+ P ix. Odhady b 0 a b i neznámých regresních parametrů p0, P i získáme na základě datového souboru yi J metodou nejmenších čtverců. Požadujeme, aby výraz —^(yi — P0 — J3lXi)2 nabýval svého minima vzhledem k P 0 a P i. Tento výraz je minimální, i=l jsou -li jeho první derivace podle P 0 a P i nulové. Stačí tyto derivace spočítat, položit je rovny 0 a řešit systém dvou rovnic o dvou neznámých, tzv. systém normálních rovnic. Nechť je dán dvourozměrný datový soubor x y n ■> n J a přímka y = Po + P ix. Výraz q( Po, Pi) = —^(yi - P0 - PjX^2 se nazývá rozptyl hodnot znaku Y kolem přímky y= p0 + Pix, i=l přímka y = b0 + b i x, jejíž parametry minimalizují rozptyl q( p0, P i) v celém dvourozměrném prostoru, se nazývá regresní přímka znaku Y na znak X , ý i = b o + biXi, i = 1, n ... regresní odhad i-té hodnoty znaku Y, r122 = ID2... index determinace (Index determinace udává, jakou část variability hodnot znaku Y vystihuje regresní přímka. Nabývá hodnot z intervalu (o, l). Čím je bližší 1, tím lépe vystihuje regresní přímka závislost Y na X.) Index determinace se definuje složitěji, pouze v případě přímky platí uvedený vztah. 349 Odvození odhadů regresních parametrů Systém normálních rovnic získáme derivováním výrazu 1 ^ q((30,(31) = -X(y1-P0-PiX1)2 parciálně podle p0 a p,: n i=i 5q(Po1Pi)_2^r Y-rt-n _nZjvyi Po PixiA V~u Systém normálních rovnic: %^=4(y,-3.-M,X-x1)=oí=P> ap\ n tí v Řešením tohoto systému získáme odhady n n n n n n n i=l i=l i=l i=l í n \ -A i=l i=l i=l nZx1 - SX i=l ví=i y n ŕ n nZx12_ Zx. i=l V i=l y = m2+%(x-m1) Po jednoduchých úpravách dospějeme ke tvaru bx = -y, kde s12 je kovariance znaků X, Ya s, je rozptyl znaku X. Dále si dostáváme b0 = m2 - , tedy regresní přímku můžeme vyjádřit ve tvaru y = m2 + -^f-(x - m1). si Úsek b0 regresní přímky udává, jaký je regresní odhad hodnoty znaku Y, nabývá-li znak X hodnoty 0. Směrnice t>i udává, o kolik jednotek se změní hodnota znaku Y, změní-li se hodnota znaku X o jednotku. Je-li bi > 0, dochází s růstem X k růstu Y a hovoříme o přímé závislosti hodnot znaku Y na hodnotách znaku X. Je-li bi < 0, dochází s růstem X k poklesu Y a hovoříme o nepřímé závislosti hodnot znaku Y na hodnotách znaku X. 350 Příklad Příklad: Pro datový soubor obsahující údaje o mezi plasticity (znak X) a mezi pevnosti oceli (znak Y) a) Určete regresní přímku meze pevnosti na mez plasticity. b) Zakreslete regresní přímku do dvourozměrného tečkového diagramu. c) Jak se změní mez pevnosti, vzroste-li mez plasticity o jednotku? d) Najděte regresní odhad meze pevnosti pro mez plasticity = 60. e) Vypočtěte index determinace a interpretujte ho. Přitom již víme, že ni| = 95,5, m2 = 114,4, si =32,4, s2 = 32,5, si2 = 985,76, r12 = 0,936 . Řešení: ad a) bi = = = 0,937, b0 = m2 - b^ = 114,4 - 0,937 . 95,9 = 24,5, y = 24,5 + 0,937x. s, 1052,4 ad b) 30 50 70 90 110 130 150 170 mez plasticity ad c) Mez pevnosti vzroste o 0,937 kpcnť - viz parametr bi vypočtený v bodě (a) ad d) ý = 24,5 + 0,937 x 60 = 80,72. ad e) ID2 = r122 = 0,9362 = 0,876. Znamená to, že 87,6% variability hodnot meze pevnosti je vysvětleno regresní přímkou. 351 Příklad Yi x*yi x;2 100 120 12 000 10 000 90 105 9 450 8 100 86 95 8 170 7 396 94 100 9 400 8 836 120 135 16 200 14 400 135 140 18 900 18 225 79 102 8 058 6 241 62 98 6 076 3 844 110 125 13 750 12 100 125 134 16 750 15 625 1 001^ .118 754 104 767 1154 = 10-b0+1001-b1 iz) 118754 = 1001-1^+104767-b, n y = 44,41 + 0,709 -x Bodový graf 150 140 130 ■- 120 S 110 100 90 80 50 70 90 110 Loňský rok 130 150 352 Příklad Index determinace lze vyjádřit ve tvaru: y, y, Ví2 yľ 100 120 115 14 400 13 301 90 105 108 11 025 11 715 86 95 105 9 025 11 109 94 100 111 10 000 12 337 120 135 130 18 225 16 773 135 140 140 19 600 19 642 79 102 100 10 404 10 088 62 98 88 9 604 7 811 110 125 122 15 625 14 987 125 134 133 17 956 17 704 1 001 1 154 1 154 135 864 135 468 ID = £ý,2-f(£yJ ID = 135468- — -1154 10 135864- — -1154 10 Maticové vyjádření MNC b X X y b = (xT-x)~X-XT-y b = b o x = 1 xx • • • • • • y= • • • 1 X _ n _ sloupcový vektor 2 neznámých parametrů regresní funkce, matice rozměru n x 2 5 tvořená konstantou 1 a hodnotami znaku sloupcový vektor n hodnot znaku Y 354 Příklad Nalezněte koeficienty regresní přímky: y = 120 1 100 105 1 90 95 1 86 100 1 94 135 1 120 X = 140 1 135 102 1 79 98 1 62 125 1 110 134 1 125 ~ 1 1 1 1 XT = 100 90 86 94 1 1 1 355 Příklad XT-y = 1154 118754 A = XT X = 10 1001 1001 104767 2,2941 -0,0219 -0,0219 0,0002 y b=Ai g= 44,414 0,709 Sdružené regresní přímky V některých situacích má smysl zkoumat nejenom závislost znaku Y na znaku X, ale též závislost X na Y. V takovém případě hledáme druhou regresní přímku a souhrnně hovoříme o sdružených regresních přímkách. Regresní přímkou znaku X na znak Y nazveme tu přímku x =b0 +bly Jejíž parametry minimalizují rozptyl q( po, pt) = n _ _ X (xi ~ Po ~ PiYi)2 v celé rovině. Nazývá se též druhá regresní přímka . Regresní přímka znaku Y na znak X a regresní přímka i=l znaku X na znak Y se nazývají sdružené regresní přímky . Rovnice regresní přímky znaku X na znak Y má tvar: x = m1+-^-(y-m2) 357 Vlastnosti sdružených regresních přímek Sdružené regresní přímky se protínají v bodě (m1,m2). Pro regresní parametry bl,bl platí: =r122. Rovnice sdružených regresních přímek můžeme psát ve tvaru y= m2+r12^-(x-m1),y = m2+ —^(x-m^ (je-li r12 f 0). Sl ri2 Sl Regresní přímky svírají tím menší úhel, čím méně se od sebe liší X\2 a —. Regresní přímky splynou, je-li ri2 = 1. Ktomu dojde právě tehdy, existuje-li mezi X a Y úplná lineární závislost. Všechny body (xí, y0, i = 1,n leží na jedné přímce, tedy ze znalosti Xi můžeme přesně vypočítat yi9 i = 1,n. Jsou-li znaky X, Y nekorelované, pak mají sdružené regresní přímky rovnice y = m2, x = mi a jsou na sebe kolmé. Označíme-li a úhel, který svírají sdružené regresní přímky, pak platí: cos a = 0, právě když mezi X a Y neexistuje žádná lineární závislost, cos a = 1, právě když mezi X a Y existuje úplná přímá lineární závislost, cos a = -1, právě když mezi X a Y existuje úplná nepřímá lineární závislost. TH2 - - Příklad Příklad: Pro datový soubor obsahující údaje o mezi plasticity (znak X) a mezi pevnosti oceli (znak Y): a) Určete regresní přímku meze plasticity na mez pevnosti. b) Zakreslete tuto druhou regresní přímku do dvourozměrného tečkového diagramu. Přitom již víme, že m 1 = 95,5, m 2 = 114,4, s i =32,4, s 2 = 32,5, s 12 = 985,76, r 12 = 0,936 . v Řešení: ad a) bí adb) ,9 - 0,932 x 114,4 = -10,7 , tedy x = -10,7 + 0,932y. mez plasticity 359 Příklad Poptávka po vepřovém mase 154 164 123 181 193 105 143 167 158 62 Poptávka po hovězím mase 103 116 98 175 165 90 103 140 113 49 • Sestrojte sdružené regresní přímky. • Vypočtěte koeficient korelace. Příklad Xj Yi xi*Yi Xi2 Yi2 154 103 15 862 23 716 10 609 164 116 19 024 26 896 13 456 123 98 12 054 15 129 9 604 181 175 31 675 32 761 30 625 193 165 31 845 37 249 27 225 105 90 9 450 11 025 8 100 143 103 14 729 20 449 10 609 167 140 23 380 27 889 19 600 158 113 17 854 24 964 12 769 o 0/14 45tf 1 15?,G78 91^ t 223 922! 144 998 = MlZá = 0,868 1367,2 - = J187J_ = 1228.76 ml =-Vl450>145 m2 = —(TÍ52> 115,2 10v )-145 =1367,2 115,22 =1228,76 -145-115.2 = 1187.1 K =115.2 -0.868 145 = -10.66 o bn =145-0.966-115.2 = 33.72 o 361 Příklad y =-10,66 + 0,86$^ Sdružené regresní přímky 45 65 85 105 125 145 Vepřové maso 165 185 205 362 Příklad Příklad r12 178911 -10-145-115,2 V[223922 -10 • 1452] [l44998 -10-115,22 1187,1 r,0 =-= 0,916 36,976-35,054 r12 = -^0,868.0,966 = 0,916 = 0,916 364 Příklad 154 103 164 116 123 98 52 175 193 165 105 90 143 103 167 140 158 113 191 49 • Sestrojte sdružené regresní přímky. • Vypočtěte koeficient korelace. • Porovnejte výsledky s výsledky předchozího příkladu. Příklad Xj Yi xí*Yí Xi2 Yi2 154 103 15 862 23 716 10 609 164 116 19 024 26 896 13 456 123 98 12 054 15 129 9 604 52 175 9 100 2 704 30 625 193 165 31 845 37 249 27 225 105 90 9 450 11 025 8 100 143 103 14 729 20 449 10 609 167 140 23 380 27 889 19 600 158 113 17 854 24 964 12 769 191 49 9 359 36 481 2 401 1 450 1 152 162 657 226 502 144 998 průměry 145,0 115,2 rozptyly 1625,2 1228,76 směrodatné odchylky 40,3138 35,0537 r = -V0,270- 0,357 = -0,310 y = 154,31- 0,270 -x x = 186,09-0,357 -y Sdružené regresní přímky E n 95 -v- \ ° ---\ ° * < o o 45 65 85 105 125 145 165 185 205 Vepřové maso 366 Příklad Rozhodněte zda následující dvojice přímek mohou být sdruženými regresními přímkami: A) y = 13 - 2x B) y = 13 - 2x C) y = 13 - 2x x = 2,5 x = 0,4y x = 8 —3/ £>) j; = 13 - 2x £) y = 13 - 2x F) y = 13 - 2x x = 6,5 — 0,5>> x = —2 — 0,4j; x = — 0,5>> Příklad A)y = \3-2x B)y = \3-2x C)y = 13-2x x = 2,5 x = 0,4y x = 8 — y D)y = \3-2x E)y = \3-2x F)y = \3-2x x = 6,5 — 0,5j x = —2 — 0,4^ x = —0,5^ 1. i b, mají stejná znaménka 2. je-li jeden roven nule, pak je 0-vý i druhý 3. re [-1,1] ,tj. V*ie[0,l] 4. pror= 1 (r = -l) platí b=- — ° K A) NE(2) D) ANO B) NE(1) E) ANO C) NE(3) F) NE(4) Přehled procedur SASu pro regresi • SAS/STAT: CATM OD, GAM, GENMOD, GLIMMIX, GLM, LIFEREG, LOESS, LOGISTIC, MIXED, NLIN, NLMIXED, ORTHOREG, PHREG, PLS, PROBIT, REG, ROBUSTREG, RSREG, SURVEYLOGISTIC, SURVEYPHREG, SURVEYREG, TRANSREG. „klasická" • SAS/ETS: lineární regrese AUTOREG, COUNTREG, MODEL, PANEL, PDLREG, SYSLIN. The CORR Procedure • S regresní analýzou souvisí analýza korelační. • Když pro nic jiného, tak alespoň v souvislosti s explorační analýzou je vhodné prozkoumat data pomoví procedury CORR. •General form of the CORR procedure: PROC CORR DAJA=SAS-data-set \ VAR variables; WITH variables; ID variables; RUN; Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 370 The CORR Procedure • Scatter plots and scatter plot matrices are available through ODS Graphics. • ID statement enables you to specify additional variables to identify observations in scatter plots and scatter plot matrices. • Selected options: • PLOTS <(ONLY)> <= plot-request> • PLOTS <(ONLY)> <= (plot-request < plot-request >) > • ALL • MATRIX <( matrix-options )> • SCATTER <( scatter-options )> • HIST | HISTOGRAM • NVAR=ALL | n • ELLIPSE=PREDICTION I CONFIDENCE I NO Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 371 PROC CORR -příklad výstupu Cor iq fat to ns and Statte r Pfots wňň Ox y g 9 it Cons um p t ton Tfte C Oft ft Procedure 1 Wik V3 ústie s: 0 *ygen_C onsum ption 7 Variables: RunTime £ge P erform ante Weight R un_P ulse Rest_Pulse Maximum_Pulse Simple Statistics Variable N Mean Std Dev Sum Minimum Maximum Oxygen_ Consumption 31 47.37581 1469 37.39000 60.06000 RunTime 31 10.58613 1.38741 32 E .17000 8.17000 14.03000 Age 31 47.67742 5.26236 1478 38.00000 57.00000 Weight 31 77.44452 8.32857 2401 59.08000 91.63000 Run_ Pulse 31 169.64516 10.25199 5259 146.00000 186.00000 Rest_Pulse 31 53.45161 7.61944 1657 40.00000 70.00000 Maximum_Pulse 31 173.77419 9.16410 5387 155.00000 192.00000 Performance 31 56.64516 18.32584 1756 20.00000 94.00000 Pearson Correlation Coefficients, ? |r| under HO: Rho=0 RunTime Age Weight Run_Pulse Rest_Pulse Maximum_Pulse Performance RunTime 1.00000 0 13523 0 14351 6 31365 0 45038 0 22510 -6.82049 0 2326 0.4412 0.6858 6.6116 0.2213 <.0061 Age 0.19523 1 06000 -0 24050 -6 31607 -0.15087 -0 41430 -6.71257 0 2326 6.1925 0 6832 6.4178 0.6203 <0061 Weight 0 14351 -0 24050 1 00006 6.18152 0.04397 0.24938 6.68974 0 4412 0.1925 0 3284 6.8143 0.1761 0 5312 Run_Pulse 0 31365 -6 31507 0 18152 1.06006 0.35246 0 32375 -6.62943 0.0858 0 6832 6 3284 6 6518 i.6001 0.8751 Rest Pulse 0 45038 -6 15087 0 04337 0.3S246 1.00000 0 30512 -6.22560 0.0110 0.4178 6.8143 0 0518 0.6951 0.2224 Maximum Pulse 0 22610 -6 41430 0 24338 0.9297S 0 30512 1.06006 6.69062 0.2213 0 6203 6.1761 i.0001 0.0951 0 5361 Performance -0 82043 -0.71257 0 08374 -6 02343 -0.22560 0.09002 1.60060 < 0001 i.0001 6.6312 0.8751 0.2224 0.6301 Corrv/atforis and Scatter Pfote with Oxygen Cons umption The CORR Procedure Scatter Plot Observations 31 Correlation -0 ÍG2 Scatter Plot Matrix Weight Run_PLilse Rest.PuIss Maximum_... Perfbriiiancs if TU ■ ">:- \. -f, ' , íflm ' ''<■''•".' .SN A •ŕ: •71"}; nr 1 //' * .' • , ,,- '■■c': ..j.: • n Ir, •• -Ĺ .' !%.^ •:ý,. '■Mi- rT +1 Multiple Linear Regression with Two Variables •Consider the two-variable model Y=p0 + p1X1 + p2X2 + 8 where Y X, and X2 is the dependent variable. are the independent or predictor variables. is the error term. are unknown parameters. No relationship: A relationship: Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. The Multiple Linear Regression Model •In general, you model the dependent variable Y as a linear function of k independent variables, (the Xs) as Y = pG + + ... + pkXk + s Model Hypothesis test: Null Hypothesis: • The regression model does not fit the data better than the baseline model. • P1=P2 = - = Pk = ° •Alternative Hypothesis: • The regression model does fit the data better than the baseline model. • Not all PiS equal zero. Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 374 Analytical Analysis vs. Prediction Analytical Analysis: • The focus is on understanding the relationship between the dependent variable and the independent variables. • Consequently, the statistical significance of the coefficients is important as well as the magnitudes and signs of the coefficients. Y=A+Ax1+...+Axk Prediction: • The terms in the model, the values of their coefficients, and their statistical significance are of secondary importance. • The focus is on producing a model that is the best at predicting future values of Y as a function of the Xs. The predicted value of Y isgivenbyY=A+Ax1+...+Axk Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 375 Model Selection Options •The SELECTION= option in the MODEL statement of PROC REG supports these model selection techniques: •All-possible regressions ranked using • RSQUARE, ADJRSQ or CP •Stepwise selection methods • STEPWISE, FORWARD, or BACKWARD SELECTION=NONE is the default. Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 376 Model Selection Statistics Coefficient of determination (R2) Adjusted coefficient of determination (adjusted R2) • Mallows' Cp statistic Akaikes information criteria (AIC) Schwarzs Bayesiancriteria (SBC) SSR = 2(y -y? > ; MODEL dependent(s)=regressor(s) ; RUN; Popis + jednoduchý příklad: http://support.sasxom/documentation/cdl/en/statug/63033/H TM L/defau lt/viewer. htm #statug_reg_sect003. htm Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. Influential Observations versus Outliers Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 381 Studentized Residual •Studentized residuals (SR) are obtained by dividing the residuals by their standard errors. •Suggested cutoffs are as follows: • | SR| > 2 for data sets with a relatively small number of observations • | SR| > 3 for data sets with a relatively large number of observations Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 382 Cook's D Statistic •Cook's D statistic is a measure of the simultaneous change in the parameter estimates when an observation is deleted from the analysis. •A suggested cutoff is d > where n is the sample size. n •If the above condition is true, then the observation might have an adverse effect on the analysis. Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 383 DFFITS •DFFITSi measures the impact that the ith observation has on the predicted value. Y-Y DFFITS = 1 s(X) Y{ is the zth predicted value. Ý. is the Ith predicted value when the zth observation is (l) deleted. s(X) is the standard error of the zth predicted value. Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. jut Identifying Influential Observations - DFBETAs b — b DFBETA.m = —-}-^- J(1) oHbp measures the change in each parameter estimate when an observation is deleted from the model. • b; is the parameter estimate for the ;th independent variable • bj(t) is the parameter estimate for the ;th independent variable with the zth observation deleted from the analysis • &(b.) is the standard error of the ;th parameter estimate when all observations are included in the analysis Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 385 Identifying Influential Observations The Covariance Ratio COVRATIO, = ^(xx)-1 measures the change in the precision of the parameter estimates when an observation is deleted from the model. Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. 386 Identifying Influential Observations Summary of Suggested Cutoffs Influential Statistics Cutoff Values RSTUDENT Residuals |RSTUDENT| > 2 LEVERAGE LEVERAGE > 2P n Cook's D CooksD > -n DFFITS |DFFITS| > 2^ DFBETAS |DFBETAS| > \-Vn COVRATIO COVRATIO < l 3p or COVRATIO > 1+3p n n Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. Lineární regrese - PROČ REG PROČ REG ; MODEL dependents= ; BY variables ; FREQ variable ; ID variables ; VAR variables ; WEIGHT variable ; ADD variables ; DELETE variables ; MTEST ; OUTPUT < keyword=names> <...keyword=names> ; PAINT condition | ALLOBS> | < STATUS | UNDO> ; RESTRICT equation,...equation ; REWEIGHT condition | ALLOBS> | < STATUS | UNDO> ; PLOT <=symbol> <...yvariable*xvariable> <=symbol> ; PRINT ; REFIT; RESTRICT equation, ...,equation ; REWEIGHT condition | ALLOBS> | < STATUS | UNDO> ; TEST equation^,...,equation> ; Vice na: http://support.sasxom/documentatio^ Reprodukováno se svolením společnosti SAS Institute Inc., Cary, NC, USA. The SGPLOT Procedure •General form of the SGPLOT procedure: PROC SGPLOT < option(s)>) DOT category-variable ; HBAR category-variable < /option(s) >; HBOX response-variable ) HISTOGRAM response-variable < /option(s)>) NEEDLE X= variables- numeric-variable ) REG X= numeric-variable Y= numeric-variable ; SCATTERX= variables- variable ) VBAR category-variable < /option(s)>) VBOX response-variable ) RUN; 1.03 Quiz •Suppose the regression model that you fit is y=3+5x •How do you interpret the slope for x, which is 1.03 Quiz - Correct Answer •Suppose the regression model that you fit is y=3+5x How do you interpret the slope for x, which is 5? •For every l-unit increase in x, the predicted value for y increases by 5. 391 Regression Using Excel • Tools / Data Analysis / Regression I Microsoft Excel - 13data.Hls File Edit View Insert Format Tools Data Window Help Acrobat a ^ I * B I U Chart 1 1G 11 12 j3_ U_ 15 A B House Price 245 312 279 30S 199 219 405 324 319 255 Square Feet 14ÖÖ1 1600 1700 1875 1100 1550 2350 2450 1425 1700 £ - £ fl £4 £1 * 100% $ % + .0 .00 .00 +.0 Regression -Input— Input V Range: Input X Range: |$A$1:$A$11 |$B$1:$B$11 31 31 RJLalbelsj Confidence Level: Constant is Zero 95 % [-Output options— C Output Range: (* New Worksheet Ply: C New Workbook rResiduals — "31 I Residuals Standardized Residuals |~~ Residual Plots W Line Fit Plots |-Norrnal Probability — I Normal Probability Plots ^ % 1 tl^J ] OK Cancel Help E Excel Output Regression Statistics Multiple R R Square Adjusted R Square Standard Error Observations 0.76211 0.58082 0.52842 41.33032 10 The regression equation is: ANOVA df MS F Significance F Regression 1 /l 8934.9348 18934.9348 11.0848 0.01039 Residual 8 / 13665.5652 1708.1957 Total 9 / 32600.5000 Coefficients/ Standard Error tStat P-value Lower 95% Upper 95% ( Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386 ^Square Feet 0.10977v 0.03297 3.32938 0.01039 0.03374 0.18580 393 Graphical Presentation House price model: scatter plot and regression line Intercept = 98.248 450 _ 400 o 350 o ° 300 ? 250 ■z 200 a. a, 150 § 100. x 5i 50/-- 0 0 + + + Slope = 0.10977 500 1000 1500 2000 Square Feet + 2500 3000 houseprice = 98.24833 + 0.10977 (squarefeet) 394 Interpretation of the Intercept, b0 houseprice =198.248331+ 0.10977 (squarefeet) bG is the estimated average value of Y when the value of X is zero (if x = o is in the range of observed x values) Here, no houses had o square feet, so b0 = I98.248331 just indicates that, for houses within the range of sizes observed, $98,248.33 is the portion of the house price not explained by square feet 395 Interpretation of the Slope Coefficient, b± houseprice = 98.24833 -H 0.10977l(squarefeet) bx measures the estimated change in the average value of Y as a result of a one-unit change in X • Here, bx = .10977 tells us that the average value of a house increases by .io977($iooo) = $109.77, on average, for each additional one square foot of size 396 Explained and Unexplained Variation Total variation is made up of two parts: Total sum of Sum of Squares Sum of Squares Squares Error Regression sst = X(y - y)2 sse = £(y - y)2 ssr = 2(9 - y)2 where: y y- y Average value of the dependent variable Observed values of the dependent variable Estimated value of y for the given x value 397 Explained and Unexplained Variation (continued) SST = total sum of squares • Measures the variation of the y{ values around their mean y SSE = error sum of squares • Variation attributable to factors other than the relationship between x and y SSR = regression sum of squares • Explained variation attributable to the relationship between x andy 398 Explained and Unexplained Variation (continued) .....Ch SSTj=I(Yi-Y)X SSE = I(Yi-Yi)3 Coefficient of Determination, R2 • The coefficient of determination is the portion of the total variation in the dependent variable that is explained by variation in the independent variable • The coefficient of determination is also called R-squared and is denoted as R2 where 0 < R2 < 1 400 Coefficient of Determination, R2 (continued) Coefficient of determination r2 _ SSR _ sumof squaresexplainedby regression SST total sumof squares Note: In the single independent variable case, the coefficient of determination is where: R2 = Coefficient of determination r = Simple correlation coefficient 401 Examples of Approximate R2 Values y R2 = 1 y R2 = 1 Perfect linear relationship between x and y: 100% of the variation in y is explained by variation in x Examples of Approximate R2 Values X 0 < R2 < 1 Weaker linear relationship between x and y: Some but not all of the variation in y is explained by variation in x 403 Examples of Approximate R2 Valu r2 = 0 No linear relationship between x and y: _ The value of Y does not rz = o x depend on x. (None of the variation in y is explained by variation in x) Excel Output Regression Statistics Multiple p n,7R9ii ßSquare 0.58082 Adjusted R Square 0.52842 Standard Error 41.33032 Observations 10 SSR 18934.9348 SST ~ 32600.5000 = 0.58082 58.08% of the variation in house prices is explained by variation in square feet df SS MS F F 18934.9348 11.0848 0.01039 1708.1957 Regression -1-► 18934.9348 Residual 8 13665.5652 Total -9-► 32600.5000 Coefficient Upper s Standard Error tStat P-value Lower 95% 95% Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386 Square Feet 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580 Standard Error of Estimate The standard deviation of the variation of observations around the regression line is estimated by 1 SSE 'n-k-1 Where SSE = Sum of squares error n = Sample size k = number of independent variables in the model 406 The Standard Deviation of the Regression Slope • The standard error of the regression slope coefficient (bj) is estimated by c — where: Sh = Estimate of the standard error of the least squares slope /SSE s = .-- = Sample standard error of the estimate Vn-2 Excel Output Regression Statistics Multiple R R Square Adjusted R Square Standard Error 0.76211 0.58082 0.52842 s. = 41.33032 41.33032 Observations 10 sbi =0.03297 ANOVA df SS Significance MS F F Regression 1 18934.9348 Residual 8 13665.5652 Total 9 32600.5000 18934.9348 11.0848 0.01039 1708.1957 Coefficient s Standard Error Upper tStat P-value Lower 95% 95% Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386 Square Feet 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580 Comparing Standard Errors Variation of observed y values from the regression line smalls. Variation in the slope of regression lines from different possible samples smallsl 409 Residual Analysis • Purposes • Examine for linearity assumption • Examine for constant variance for all levels of x • Evaluate normal distribution assumption • Graphical Analysis of Residuals • Can plot residuals vs. x • Can create histogram of residuals to check for normality Residual Analysis for Linearity Residual Analysis for Constant Variance 412 Excel Output RESIDUAL OUTPUT Predicted House Price Residuals 1 251.92316 -6.923162 2 273.87671 38.12329 3 284.85348 -5.853484 4 304.06284 3.937162 5 218.99284 -19.99284 6 268.38832 -49.38832 7 356.20251 48.79749 8 367.17929 -43.17929 9 254.6674 64.33264 10 284.85348 -29.85348 (0 3 "O "55 House Price Model Residual Plot 80 j 60 -- 40 -- 20 -- 0 -- -20 Ö -40 -- -60 -- 10 9§ ■H- 2000 —I 3000 Square Feet 413 6. Úvod do teorie pravděpodobnosti Počet pravděpodobnosti -úvod Počet pravděpodobnosti se zabývá studiem zákonitostí v náhodných pokusech. Matematickými prostředky modeluje situace, v nichž hraje roli náhoda. Pod pojmem náhoda rozumíme působení faktorů, které se živelně mění při různých provedeních téhož pokusu a nepodléhají naší kontrole. Počet pravděpodobnosti jako vědecká disciplína se začal vytvářet v 17. století a jeho počátky jsou spjaty se jmény Blaise Pascala, Pierra de Fermata, Christiana Huygense (studovali hazardní hry, zformulovali takové pojmy, jako je pravděpodobnost a střední hodnota, odvodili jejich vlastnosti) a především Jakoba Bernoulliho (dokázal zákon velkých čísel). V 18. století: Abraham de Moivre a Pierre Simeon Lapiace - formulace jedné z forem centrální limitní věty, Georges Buffon odvodil binomickou větu, zavedl diferenciální a integrální počet do teorie pravděpodobnosti, Thomas Bayes odvodil způsob výpočtu aposteriorních pravděpodobností pomocí apriorních pravděpodobností (Bayesův vzorec). V 19. století: Petrohradská matematická škola - dala teorii pravděpodobnosti pevný logický a matematický základ (Viktor Jakovlevič Buňakovskij, Pafnutij Lvovič Cebyšev, Andrej Andrejevič Markov, Alexandr Michailovič Ljapunov), Karl Fridirich Gauss (mj. vyvinul netodu zpracování experimentálních údajů známou pod názvem metoda nejmenších čtverců), Siméon Denis Poisson (zobecnil Bernoulliho zákon velkých čísel a odvodil speciální zákon rozložení pravděpodobností - Poissonův zákon rozložení). Ve 20. století: Andrej Nikolajevič Kolmogorov (axiomatická teorie pravděpodobnosti), Norbert Wiener , William Feller (rozvoj teorie stochastických procesů). Odkaz na zajímavou webovou stránku: http://www-groups.dcs.st-and.ac.uk/~history http://turnbull.mcs.st-and.ac.uk/~history/HistTopics/Statistics.html 415 Základní prostor Definice (definice pokusu): Pokusem rozumíme jednorázové uskutečnění konstantně vymezeného souboru definičních podmínek. Předpokládáme, že pokus můžeme mnohonásobně nezávisle opakovat za dodržení definičních podmínek (ostatní podmínky se mohou měnit, proto různá opakování pokusu mohou vést k různým výsledkům). Dále předpokládáme, že opakováním pokusu vzniká opět pokus. Deterministickým pokusem nazýváme takový pokus, jehož každé opakování vede k jedinému možnému výsledku. Náhodným pokusem nazýváme takový pokus, jehož každé opakování vede k právě jednomu z více možných výsledků, které jsou vzájemně neslučitelné. Příklad deterministického pokusu: při tlaku 1015 hPa zahříváme vodu na 100 °C. Jediným možným výsledkem je var vody. Příklady náhodných pokusů: hod hrací kostkou, hod mincí, vylosování čísla z osudí apod. Definice (definice základního prostoru): Neprázdnou množinu možných výsledků náhodného pokusu značíme q a nazýváme ji základní prostor. Možné výsledky značíme ©t, kde t e t , t je indexová množina. 416 Příklad Příklad a) Náhodný pokus spočívá v hodu kostkou. Možný výsledek ©1 znamená polohu kostky číslem i nahoru, i = 1, 6. Základní prostor Q = fa,...,©6}, počet možných výsledků m(Q) = 6. b) Náhodný pokus spočívá v hodu dvěma kostkami. Možný výsledek je uspořádaná dvojice [©^©J, i, j = 1, 6. Základní prostor Q = {a,, ©x \fa, ©2 ],..., [©1?©6 ]..., [©6,©6]}, počet možných výsledků m(Q) = 62 =36. c) Náhodný pokus spočívá v opakovaném házení mincí tak dlouho, dokud nepadne první líc. Potom základní prostor n = fa,(ú2,(ú3...}, kde ©! znamená, že hned v prvním hodu padl líc, ©2 znamená, že až ve druhém hodu padl líc, ©3 znamená, že až ve třetím hodu padl líc atd. Sybmolicky lze zapsat ©!=[l], ©2 = [r,l], co3 = [r,r,l], ... Tedy základní prostor q má nekonečně spočetně mnoho možných výsledků. 417 Jevové pole Definice (definice jevového pole): Systém podmnožin JA základního prostoru q, který splňuje následující tři axiómy: J5: A15A2 e J^.=>A1-A2e JA, J6: q e JA, oo J8: A19A2,...e JA ^QAi e ^ i=l se nazývá jevové pole. Jestliže A e JA, pak řekneme, že A je jev. Dvojice (q, JA) se nazývá měřitelný prostor. (Axióm J5 nám říká, že jevové pole obsahuje s každými dvěma množinami i jejich množinový rozdíl. Axióm J6 říká, že jevové pole obsahuje celý základní prostor a konečně axióm J8 říká, že když jevové pole obsahuje každou ze spočetné posloupnosti množin, obsahuje i jejich spočetné sjednocení. Znamená to, že systém JA je uzavřený vzhledem k množinovým operacím. Protože jevy jsou množiny, pro operace s nimi platí stejné zákony jako pro operace s množinami -komutativní zákon, asociativní zákon, de Morganova pravidla.) 418 Množinové a pravděpodobnostní pojmy Poznámka (slovník množinových a pravděpodobnostních pojmů) q se nazývá jisty jev, 0 se nazývá nemožný jev o e a znamená, že možný výsledek co je příznivý nastoupení jevu A a cz b znamená, že jev A má za důsledek jev B a^jB znamená nastoupení aspoň jednoho zjevů A, B AnB znamená společné nastoupení jevů A, B a - b znamená nastoupení jevu A za nenastoupení jevu B ä = q - a znamená j e v opačný k j evu A AnB = 0znamená, že jevy A, B jsou neslučitelné. 419 Příklad Příklad: Je dán systém složený ze dvou bloků, který jednorázově použijeme. Nechť jev a i znamená bezporuchovou funkci i -tého bloku, i = 1, 2. Pomocí jevů a1? a2 vyjádřete jevy: a) bezporuchová funkce aspoň jednoho bloku: ax u a2 b) bezporuchová funkce obou bloků: ax n a2 c) porucha aspoň jednoho bloku: a x u a 2 d) porucha obou bloků: ax n a 2 e) porucha právě jednoho bloku: a2)u(^1 n a2) Jevové pole - poznámky Poznámka: Systém axiómů jevového pole je bezesporný (tj. na každém základním prostoru lze sestrojit aspoň jedno jevové pole) a neúplný (tzn., že na každém aspoň dvouprvkovém základním prostoru lze vytvořit jevových polí více). Neúplnost systému axiómů jevového pole je výhodná, protože umožňuje rozlišovat výsledky náhodného pokusu s různým stupněm podrobnosti. Např. jevové pole -A^ = {Q,0} se nazývá minimální jevové pole a charakterizuje krajně „tupozrakého" pozorovatele, který rozliší pouze jev jistý a jev nemožný. Jevové pole JAX= {q,0,a, a} již dovolí rozeznat, zda nastal jev a nebo jev opačný a . Tak můžeme konstruovat stále bohatší jevová pole, až dostaneme maximální jevové pole *Amax = {a; a c q}. To charakterizuje krajně „bystrozrakého" pozorovatele, který rozliší jevy do všech podrobností. Pro libovolné jevové pole -A ovšem platí: -A^ e JA c *AmSLX. 421 Příklad Příklad: Sestrojte všechna možná jevová pole na základním prostoru l~i = {&1,g)2,g)3}. Řešení: AX = {Q,0}(= JZU) J4.3 = {Q,0,{co2 },{!, co3}} = {Q,0,{co3},{íOi,íO2}} J4.5 = {Q,0,{coJ,{co2},{co1,co2},{co3},{co1,co3},{co2,co3}}(= J4.max) 422 Jevové pole - vlastnosti Věta (vlastnosti jevového pole): Nechť ( ci , JA) je měřitelný prostor. Pak jevové pole JA má následujících 9 vlastností: JI J2 J3 J4 J5 J6 J7 J8 JA JA. A1?A2 e J^- => Ax u A2 e J^., A1?A2 e J^- => Ax n A2 e JA, A1?A2 e J^- => Ax - A2 e J^. (axióm) cie JA (axióm), Ae JA=>Äe JA, QO E JI Aj,A2,... e J9: A^A,,...^ J21 y a i e j^. (axióm) i=l 00 nAie ^ Důkaz: JI plyne z J6. J2 plyne z J5 a J6, protože Q - Q = 0 . J3 plyne z J2 J8 speciální volbou a3 = 0,a4 = 0. _ i=l J7 plyne J5 a J6, protože a = ci - a . 00 00 J9 odvodíme z J7 a J8 užitím de Morganových pravidel nA,=u 00 Pak = Aj ua: i=l i=l _ _ QO _ QO _ QO _ QO a1,a2,...e JA ^a1,a2,...e JA^IJa^ J^^Ua^ JA, ovšem Ua^HAí i=l i=l J4 plyne z J9 speciální volbou a3 = Q, a4 = Q,. i=l i=l 423 Pravděpodobnostní prostor Motivace: Provádíme opakovaně nezávisle týž náhodný pokus a v každém pokusu sledujeme nastoupení jevu A, kterému říkáme úspěch. Označme n celkový počet pokusů a N(A) počet těch pokusů, kdy nastal úspěch. S rostoucím n pozorujeme, že relativní četnost úspěchu se blíží číslu P(A), které n považujeme za pravděpodobnost úspěchu. (Tento poznatek je znám jako empirický zákon velkých čísel ). Ilustrace empirického zákona velkých čísel Provádíme n nezávislých hodů mincí. Padnutí líce považujeme za úspěch. Budeme sledovat závislost relativní četnosti úspěchu na počtu pokusů. (Počet pokusů volíme 2, 5, 10, 20, 50, 100, 200, 500,1000, n 2 5 10 20 50 100 200 500 1000 2000 P 0,5 0,2 0,4 0,6 0,54 0,58 0,5 0,488 0,49 0,4975 0,65 0,60 0,55 0,50 0,45 0,40 0,35 0,30 0,25 0,20 0 15 Axiomatická teorie pravděpodobnosti Vzniká otázka, jak zavést pravděpodobnost, aby byla „zidealizovaným" protějškem relativní četnosti. Zdálo by se vhodné zavést pravděpodobnost takto: P(A)= lim N(A) n->°° ri Jde o tzv. statistickou definici pravděpodobnosti . Z matematického hlediska tato definice není v pořádku, protože počet pokusuje vždy konečný a nelze se přesvědčit o existenci uvedené limity. Proto ve 30. letech 20. století ruský matematik A. A. Kolmogorov (1903 - 1987) vybudoval axiomatickou teorii pravděpodobnosti. Axiomatická teorie pravděpodobnosti zavádí pravděpodobnost jako funkci, která každému jevu přiřazuje číslo mezi 0 a 1 a přitom je zidealizovaným protějškem relativní četnosti. Má tedy všechny vlastnosti relativní četnosti a kromě toho některé další vlastnosti, které vyplývají z vnitřních potřeb matematické teorie. 425 Pravděpodobnost - definice Definice: Nechť (Q, JA) je měřitelný prostor. Reálná množinová funkce P: JA —> R se nazývá pravděpodobnost , když splňuje následující 3 axiómy: P2: VAe JA\ p(a)>o (nezápornost) P10: p(q)=i (normovanost) í QO A GO P15: a j, a 2,... e JA j sou neslučitelné ^pijai = X p(al) (spočetná aditivita) Vi=l J 1=1 Trojice (&, J^., P) se nazývá pravděpodobnostní prostor . (Je to matematický model jednorázového provedení náhodného pokusu.) Ilustrace pravděpodobnostního prostoru Poznámka: Systém axiómů pravděpodobnosti je bezesporný (tj. na každém měřitelném prostoru lze sestrojit pravděpodobnost) a neúplný (tj. na každém měřitelném prostoru, jehož jevové pole není minimální, lze sestrojit pravděpodobností více). 426 Pravděpodobnost - vlastnosti Věta (vlastnosti pravděpodobnosti): Nechť (o, JA, P) je pravděpodobnostní prostor, a,a,,a2,...g JA libovolné jevy. Pak pravděpodobnost P má následujících 17 vlastností: P1:P(0) =0 P2: P(A) > 0 (nezápornost - axióm) P3: P(Ai u A2) + P(Ai o A2) = P(Ai) + P(A2) P4: 1 + P(Ai o A2) > P(A0 + P(A2) P5: P(Ai u A2) < P(Ai) + P(A2) (subaditivita) P6: AjnA2=0^ P(Ai u A2) = P(AX) + P(A2) (aditivita) P7: P(A2 - Ai) = P(A2) - P(Ai n A2) P8: Ai e A2 => P(A2 - Ai) = P(A2) - P(Ai) (subtraktivita) P9: Ai c A2 ^ P(A,) < P(A2) (monotonie) P10: P(Q) = 1 (normovanost - axióm) Pil: P(A) + P( a) = 1 (komplementarita) P12: P(A)< 1 P13: p (jA; <^p(Aí) (spočetná subaditivita) P14: a15a2,...e JA j sou neslučitelné ^>^p(ai)p yA, = Xp(Ai) (spočetná aditivita - axióm) P16: A,cA2c...e JA =^>p y A; =limp(Ai) (spojitost pravděpodobnosti zdola) P17: a^AjD..^ J4. ^>p p|A; =limp(Ai) (spojitostpravděpodobnosti shora) 427 Pravděpodobnost - vlastnosti oo P14 Položme Au = |J Aj_. Pak jevy Au.A1.A2-... jsou neslučitelné a je- 7=1 jich sjednocením je celý základní prostor, tedy podle axiómu P10 dostáváme: oo oo 1 = — P( U = přičemž poslední rovnost vyplývá z axi- 7=0 7=0 oo ómu P15. P{Aj) tedy absolutně konverguje, tudíž bude konvergovat také 7 = t) oo Y2 P(A>), kde jsme vynechali první člen. 7=1 oo Pl Položme Ai = 0,A2 = 0,.. . Pak |J A* = 0, tedy podle axiómu P15 7=1 oo oo 0 = P(0) = P(\J 0) = Y, P(0), což je možné jen tak, že P(0) = 0. 7=1 7=1 OO P6 V axiómu P15 položíme A3 = 0, A4 = 0,. .., tedy P( |J A;) = P(Ai U A2) = 7=1 OO E P(Aŕ) = P(Ai) +P(Aa). 7=1 JP11 Plyne z vlastnosti P6 a axiómu P10: P(AUÄ) = P (íl) = 1 = P(A) + P(Ä). P12 Plyne okamžité z axiómu P2 a vlastnosti Pil. 428 Pravděpodobnost - vlastnosti Pro důkaz vlastností P3: P4 a P5 jevy A\ U A-z- A\ a A> rozložíme na součet disjunktních sčítanců: Ai U A2 = (Ai \ Aa) U (Ai n A2) U (A2 \ Ai) Ax =(A1\A2)U(A1nA,) Aa = (Aa\Ai)U(AinA2) P3 Podle P6 dostáváme: P^UA^PÍAifLA,) = P(AL\A2)4-P(Ax n A2)+ P(A2 \ Ar) 4- P(Ai n Aa) = P(Ai) 4- P(A2). Protože podle P12 je P(Ai U A2) < 1 a podle P2 je P(AX n A2) > 0: dostáváme z P 3 okamžitě P4 a P5. P7 Opět vyjádříme A2 jako sjednocení neslučitelných jevů: A2 = (A2 \ Ai) LJ (Ai H A2). Podle P3 pak dostaneme: P(A2) = P(A2 \ Ax) 4- P(AX H A2), tedy P(A2 \ AO = P(A2) - P(Ai n Aa). P8 Jelikož AI C A2. platí Ax n A2 = Ax a P8 plyne z P7. P9 Plyne z P8, protože podle P2 je P(A2\Ax) > 0, tudíž PiA^-PiAr) > 0. tj. P(Ai) < P(A2). 429 Pravděpodobnost - vlastnosti P13 Položíme \J A, = Ai LJ (A2 \ A±) LJ (A3 \ (Ai LJ A2)) LJ ... Tím jsme 7=1 dostali sjednocení posloupnosti neslučitelných jevů a aplikujeme axióm P15 a vlastnost P7: P( U &i) = P(^i) + P(^2 \ Ax) 4- P(AS \ (A, U A2)) 4- . . . < 7=1 oo P(A0 4- P(A2) 4- P(A;0 + = £ ^(^)- 7=1 OO Plň Jev [J Ai vyjádříme jako sjednocení neslučitelných jevů. Z předpokladu >=i oo Ai CA2C... plyne |J A; = AÍU(A2\A1)U(A^\A2)U. . .U(Ar\Ať i)U. . tedy 7=1 OO podle axiómu P15 a vlastnosti P8 dostáváme: P( (J A<) = P(A±)+P(A2 \ AJ4- P(A, \ A2) + . . . 4- P(A< \ A, !) + ...= P(AX) +L[P(A2) - P(AX)] 4- [P(AS) 4-P(A2)] 4- . . . 4- [P(Ai) 4- P(A, 0] -h . . . = lim P(A,). 7 > '"v. X PIT Podle vlastnosti P16 dostáváme P((J A i) = lim P(A,í). Z de Morgano- . j 7^00 OO OO oo vých pravidel plyne P( f| A;) = P( U ^0 = 1 - - P( U ^) = 1 lim P(A>) = 7=1 7=1 7=1 1 - lim [1 - P(Ai)] = lim P(Ai). 7—>00 7—Í-OO 430 Pravděpodobnost - vlastnosti Věta é (další vlastnosti pravděpodobnosti): Nechť (Q, J^L, P) je pravděpodobnostní prostor, Aj,A2.....Ane libovolné jevy. Pak platí: n-l n n-2 n-l n a) P(ÚA) = 2>(Ai)-S SPCAinAjí + E £ EP(AinAjnAk)-... + (-l)n-1P(A1n...nAn) i=l i=l i=l j=i+l i=l j=i+lk=j+l n _n (Pro neslučitelné jevy A h A n dostáváme P( U aí ) = X p(Ai) •) (Věta o sčítání pravděpodobností) i=l i=l b) max p(Ai)^píŮAiVSp(Ai) l r \ n _ ( n _^ o. = p UA. = l-p UA. Vi=l ) i=l i=l i=l Pravá strana: Plyne z monotonie P 9. Pro ví e {i,..., n} je ai 2 f) aj , tedy pro ví e {i,..., n} platí j=i (11 1 p(ai)> p n A j • Tvrzení musí platit i pro ten index i, pro který je p(a {) minimální. Vj=l ) 432 Příklad Příklad: Je dán systém složený ze dvou bloků. Jev Aj značí bezporuchovou funkci i-tého bloku, i = 1, 2. Je známo, že p(aí) = ôí, i = 1, 2. a) Odhadněte pravděpodobnost správné funkce celého systému, jsou-li bloky zapojeny a) sériově, p) paralelně. b) Předpokládejme navíc, že p(ax nA2)=s12. Vypočtěte nyní pravděpodobnost správné funkce celého systému, jsou-li bloky zapojeny a) sériově, p) paralelně. Řešení: ad a) Případ sériového zapojení p(ax nA2) lze shora i zdola odhadnout pomocí věty A (c), kde n = 2: 1 - 2 + p(AX) + p(A2) < p(Ax o A2) < min {p(Ax ), p(A2)} 3x +32 -l^pk nAjíminj^dJ 433 Příklad Případ paralelního zapojení p(ax uA2) lze shora i zdola odhadnout pomocí věty A (b), kde n = 2: max {p(ax), p(a2)} < p(ax v a2) < p(ax) + p(a2) max{^1,^2}6' °>5' °>3 = °>09 441 Podmíněná pravděpodobnost. Geometrická pravděpodobnost. Motivace: Opakovaně nezávisle provádíme týž náhodný pokus a sledujeme nastoupení jevu A v těch pokusech, v nichž nastoupil jev H. Podmíněnou relativní četnost A za podmínky H jsme v popisné statistice zavedli vztahem p(A/H) = P(^j|^ • Tato podmíněná relativní četnost se s rostoucím počtem pokusů ustaluje kolem konstanty P(A/H), kterou považujeme za podmíněnou pravděpodobnost jevu A za podmínky H. Definice: Nechť (£1, A, P) je pravděpodobnostní prostor, H Podmíněnou pravděpodobností za podmínky H rozumíme funkci P(./H): A —► R danou vzorcem: v A e A :A. jev s nenulovou pravděpodobností. P(A/H) = P(AnH) P(H) 442 Podmíněná pravděpodobnost Věta: Podmíněná pravděpodobnost je pravděpodobnost ve smyslu axiomatické definice a kromě toho pro ni platí: a) P(A i n A 2) = P(A 0 P(A 2/A 0 pro P(A 0 * 0. b) P(A j n A2) = P(A 2) P(A i/A2) pro P(A 2) * 0. c) Jevy A x, A 2 jsou stochasticky nezávislé, právě když P(A!/A2) = P(A 1) nebo P(A 2) = 0 a právě když P(A2/Ai) = P(A 2) nebo P(Ai) = 0. Důkaz: Stačí ověřit platnost axiómů P2, P10, P15. ad a), ad b) Plyne přímo z definičního vzorce. ad c) Nechť A 1? A 2 jsou stochasticky nezávislé p(a 1 / a2) = p^ ^2^ = 2^ = p(a 1) • Nechť naopak P(A i/A2) = P(A l). Z definice: p(a1 / a2)= p^Al,n t2^ = p(Ai)=> p(a1 n a2)= p(a>(a2), tedy A1?A2 p(a2) jsou stochasticky nezávislé. 443 Příklad Příklad: Jaká je pravděpodobnost, že při hodu kostkou padlo sudé číslo, je -li známo, že padlo číslo menší než 5? Řešení: q = {»1,...,a)6}J A ... padlo sudé číslo, a = {co2,co4,co6}, H ... padlo číslo menší než 5, h = {co1,co2,co3,co4} a n h = {co co } 2' 4 ■ 2 .(A/H)=^f)=|=i p(h) 4 2 6 Příklad: Dvakrát hodíme kostkou. Jaká je pravděpodobnost, že součet přesáhne 10, víme-li, že padla (aspoň jedna) šestka? Řešení: I {[6,5],[5,6],[6,6]} I P(AIH) =--= — v J 2-5 + 1 11 6-6 444 Věta o násobení pravděpodobností Věta: (Věta o násobení pravděpodobností) Nechť (£1, A, P) je pravděpodobnostní prostor, Au A2,An takové jevy, že P(Aio ... o An_i) ^0. Pak P(A± o A2 o ... o A„) = P(Ai) P(A2/Ai) P(A3/Aio A2)... P(An/Aio ... o AnA). Důkaz: Matematickou indukcí. Předpokládáme, že vztah platí pro libovolné přirozené n>2 a dokážeme jeho platnost pro n+1: í n Vi=l A f n \ í = P Vi=i J v J P(A1n...nAnnAn+1) = P fl^nA^ = Pf|A1 PA^/fjAj =P(A1)p(A2/A1)...P(An+1/A1 n...nAn) i=l J Příklad: Ze skupiny 100 výrobků, která obsahuje 10 zmetků, vybereme náhodně bez vracení 3 výrobky. Vypočtěte pravděpodobnost jevu, že první dva výrobky budou kvalitní a třetí bude zmetek. v Řešení: Jev Aj znamená, že i-tý vybraný výrobek je kvalitní, i = 1, 2, 3. Počítáme P(A, o A2o 7T3) = P(a0 P(A2/a0 P^/Am A2) = = 0,083. 445 Věta o úplné pravděpodobnosti, Bayesův vzorec Věta (vzorec pro výpočet úplné pravděpodobnosti a Bayesův vzorec) Nechť (Cl, JAfi) je pravděpodobnostní prostor, H ^ e JA, i e I (I je nejvýše spočetná indexová množina) takové jevy, že P(H i) > 0, U ip = £2, HinHj=0 pro i ^ j (říkáme, že jevy H i? i e I tvoří úplný systém hypotéz). a) Pro libovolný jev A e JA platí vzorec úplné pravděpodobnosti: P(A)= Epch^pca/Hí) b) Pro libovolnou hypotézu H k , k e I a jev A e JA s nenulovou pravděpodobností platí Bayesův vzorec: P(Hk/A) = p(hk)p(A/hk) p(A) (P(H k/A) se nazývá aposteriorní pravděpodobnost hypotézy Hk, P(H k) je apriorní pravděpodobnost.) Důkaz: ad a) Jev A vyjádříme jako sjednocení neslučitelných jevů: a = (j (a n r. ) Pak p(a)=p yÍAn^) =Ep(a^hi)=Xp(hi>(a/hi) Viel adb) p(ht/A)=%^=mwffli) p(a) p(a) Ilustrace vzorce pro úplnou pravděpodobnost Příklad 1) Bez vracení taháme z urny s a černými a b bílými koulemi. Jaká je pravděpodobnost, že ve druhém tahu vytáhneme černou kouli, jestliže v prvním tahu jsme vytáhli kouli bílou? b a Řešení: P(AIH) = ^±-b *+b-l_ a a+b-1 a+b-1 a+b a+b —1 2) V dostihu zvítězí kůň A (B) s pravděpodobností 0,5 (0,3). Kůň A ztratil na startu příliš a je jisté, že nezvítězí. Jaká je nyní pravděpodobnost, že zvítězí B? v Řešení: P(AIH)=P(A2g)= P(A) =^ = 0,6 P(H) l-P(H) 0,5 447 Příklad V první urně je 6 bílých a 2 černé koule, ve druhé jsou 4 bílé a 2 černé koule. Náhodně zvolíme urnu a vytáhneme jednu kouli. Jaká je pravděpodobnost, že bude bílá? Řešení: Pravděpodobnost tahu z první (resp. druhé) urny, je 1/2. Označíme-li B =[tah bílé koule], Uj = [tah z urny i], je podle věty o celkové pravděpodobnosti p(B) = p^B\ulyp(u^+p(B\u2yp(u2) = ^~+-^-~~ = ojos 6 + 2 2 4 + 2 2 24 448 Příklad Automat X vyrobí za směnu dvakrát více výrobku než automat Y. Pravděpodobnost vzniku zmetku je u automatu X 0,02, u Y 0,05. Po skončení směny se výrobky ukládají do jedné bedny. Jaká je pravděpodobnost, že výrobek náhodně vybraný z této bedny není zmetek? Řešení: Podle věty o celkové pravděpodobnosti (poměr výrobků v bedně je 2 : 1 ve prospěch automatu X, tj. 2/3 výrobků pochází od X a 1/3 od Y) 2 1 2 91 P(A) = - • 0,98 + - • 0,95 = = 0,97 3 3 3 449 Příklad Mezi 20 střelci jsou 4 výborní, 10 dobrých a 6 průměrných s pravděpodobnostmi zásahu 0,9, 0,7 a 0,5. Jaká je pravděpodobnost, že dva náhodně vybraní střelci oba zasáhnou cíl? Řešení: Podle toho, která dvojice bude vybrána 4-3 410 10-9 P(A) = (0,9 • 0,9)--— + (0,9 • 0,7)--+... + (0,5 • 0,5)--= 0,46 20 19 20 19 20 19 450 Věta o úplné pravděpodobnosti, Bayesův vzorec Thomas Bayes (1702 - 1761) : Presbytariánský duchovní Poznámka (Návod na použití vzorce pro výpočet úplné pravděpodobnosti a Bayesova vzorce) Nejprve podle textu úlohy stanovíme úplný systém hypotéz, tj,. jevy, které se navzájem vylučují a přitom vyčerpávají všechny možnosti. V úlohách vedoucích na vzorec pro výpočet úplné pravděpodobnosti se zajímáme o pravděpodobnost jevu, který s hypotézami nesouvisí, zatímco v úlohách vedoucích na Bayesův vzorec nás zajímá pravděpodobnost některé hypotézy za podmínky, že nastal jev, který s hypotézami nesouvisí. 451 Příklad Příklad: Test obsahuje 100 otázek. Zkoušený si nejprve vylosuje otázku a pak si jeho postup zjednodušeně představíme takto: zná-li správnou odpověď, zatrhne ji. Nezná-li správnou odpověď, zvolí se stejnou pravděpodobností kteroukoliv ze čtyř možných odpovědí. Předpokládejme, že ve skutečnosti zná zkoušený právě k správných odpovědí. a) S jakou pravděpodobností správně odpoví? b) S jakou pravděpodobností je při správné odpovědi pravdivé tvrzení, že zkoušený ve skutečnosti jenom hádal? v Řešení: Hi ... zkoušený zná správnou odpověď, H2 ... zkoušený nezná správnou odpověď, A ... zkoušený správně odpoví p(h1) = ^,p(h21) = 1^,p(a/h1) = 1,p(a/h2) = i V 1/ 10() V 21/ 10() V 1/ V 2/ 4 ad a) p(a)=p(hxMa/h,)+p(h2)p(a/h2) = ±- ■ i + • - = v ' v 17 v 17 v 2/ v 2/ 100 100 4 400 adb) p(h2/a) = 100-k 1 P(h2)p(a/h2)_^o~"4 _ 100-k P(a) 3k + 100 3k + 100 400 k 0 10 50 90 P(A) 0,25 0,325 0,625 0,925 P(H2/A) 1 0,692 0,2 0,027 452 Příklad p(a) = 3k +100 400 p(h0 / a) 100 -k 3k +100 -20 0 Závislost P(A) na k 20 40 60 k 80 100 120 1,2 1,0 0,8 < 0,6 rT 0,4 0,2 0,0 0,2 -20 Závislost P(Hk/A) na k 0 20 40 60 k 80 100 120 453 Příklad Příklad: K osevu byly vybrány dvě odrůdy pšenice, a to 20% první odrůdy a 80% druhé odrůdy. Pravděpodobnost, že ze zrna vyroste klas, je pro první odrůdu 0,95 a pro druhou odrůdu 0,98. Jaká je pravděpodobnost, že a) z náhodně vybraného zrna vyroste klas? b) náhodně vybrané zrno, z něhož vyrostl klas, pocházelo z první odrůdy pšenice? c) náhodně vybrané zrno, z něhož vyrostl klas, pocházelo z druhé odrůdy pšenice? d) náhodně vybrané zrno, z něhož nevyrostl klas, pocházelo z první odrůdy pšenice? e) náhodně vybrané zrno, z něhož nevyrostl klas, pocházelo z druhé odrůdy pšenice? Řešení: Jev A ... z náhodně vybraného zrna vyroste klas Jev Hi ... zrno pochází z první odrůdy pšenice Jev H2 ... zrno pochází z druhé odrůdy pšenice p(H1) = 0,2, p(a|H1) = 0,95, p(H2) = 0,8, p(a|H2) = 0,98 ad a) p(A) = p^ )p(A / ht) + p(h2 )p(A/ h2) = 0,2 • 0,95 + 0,8 • 0,98 = 0,19 + 0,784 = 0,974 adb) p(h,/a)=p = ^^ = 0,1951 v 1 ' p(A) 0,974 adc) p(H2/A) = ÍÍÍÄÍ!a) = M^?l = 0,8049 v 2 ' p(A) 0,974 ad d) p(h,,t)= h.) = 0^x05 = w_ = v ' p(a) 1-0,974 0,026 ade) Pfc/ X)= Hh^/hJ = 0^02 = W16 = v 7 p(a) 1-0,974 0,026 454 Příklad 1) Jeden ze 3 střelců s pravděpodobnostmi zásahu 0,3, 0,5, 0,8 vystřelil a zasáhl. Jaká je pravděpodobnost, že střílel druhý střelec? Řešení: 0,5 • — - P(A) =---\-- = - = 0,3125 0,3-- + 0,5-- + 0,8-- 10 3 3 3 2) Mezi 20 střelci je 5 výborných, 9 dobrých a 6 průměrných s pravděpodobnostmi zásahu 0,9, 0,8 a 0,7. Náhodně vybraný střelec ze 2 ran trefil jednou. Jaká je pravděpodobnost, že šlo o výborného (dobrého, průměrného) střelce? Řešení: 2 • 0,9 • 0,1 • — P(by lto výborný) =---2Q- = o,143 2-0,9-0,1 —+ 2-0,8-0,2 —+ 2-0,7-0,3- 20 20 20 P(bylto dobrý) = 0,457 P(bylto průměrný) = 0,4 455 Příklad Víme-li, že pravděpodobnost odhalení AIDS při testuje 0,999, že pravděpodobnost správného otestování zdravého jedince je 0,99 a že AIDS se vyskytuje u 0,006 lidí, jaká je pravděpodobnost, že člověk, u kterého byl test pozitivní, AIDS skutečně má? v Řešení: Označíme-li A = [má AIDS], T = [test říká AIDS], známe P(T IA) = 0, 999, P(T \ Ä) = 0,99, P(A) = 0, 006. Bayesova věta nám dá P(A\T)= P(T\A)P(A) P(T | A)P(A) + P(T | A )P(A ) _0,999-0,006_ 0,999 • 0,006 + (1 - 0,99) • (1 - 0,006) = 0,376 456 Geometrická pravděpodobnost Motivace: V některých situacích je vhodné zvolit za základní prostor nikoliv obecnou množinu Q, ale n-rozměrný prostor Rn a za možné výsledky reálné vektory (xl,..., xn) .Za jevové pole však nevezmeme systém všech podmnožin prostoru Rn (ten totiž obsahuje i tzv. neměřitelné množiny), ale méně podrobné borelovské pole $n. Emile Borel (1871 - 1956) - francouzský matematik a politik. Zabýval se teorií míry, teorií pravděpodobnosti A teorií her. Byl poslancem francouzského parlamentu a ministrem námořnictva. Na borelovském poli pak speciálním způsobem zavedeme geometrickou pravděpodobnost a dostaneme pravděpodobnostní prostor ( Rn, $n, Q). 457 Borelovské pole, Borelovské množiny Definice Nechť n je přirozené číslo. Množinu Rn = (—00,00) x ... x (—00,00) = (—00,00)" nazýváme n-roz měrným prostorem. Minimální jevové pole na Rn obsahující třídu všech polouzavřených intervalů typu (—oc, X[) x ... x (—oc, xn) pro (xy,., ,xn) é Rn nazýváme n-rozměrným borelovským polem Bn a prvky tohoto pole nazýváme (n-rozměrnými) borelovskými množinami. Dvojice (Rn,Bn) je tedy měřitelný prostor, (Není podstatné, že borelovské pole je generováno právě intervaly typu (-«>,x1)x...x(-ao,xn). Mohlo by být generováno i jinými typy intervalů.) Věta: Borelovské pole je jevové pole, tzn., že splňuje axiómy J2, J6, J8. Věta: Mezi borelovské množiny náleží zejména prázdná množina, celý základní prostor, všechny jednobodové, konečné a spočetné množiny, intervaly všech typů, všechny uzavřené a otevřené oblasti a všechna konečná a spočetná sjednocení a průniky těchto množin. Rovněž kartézský součin bore lov ských množin je borelovská množina, ovšem vyšší dimenze. 458 Borelovsky měřitelná zobrazení, Borelovské funkce Definice Nechť (íl, «4), (iž"', jB"17') jsou měřitelné prostory. Zobrazení X : íí h-> Rn se nazývá borelovsky měřitelné (vzhledem k «4), právě když lipliiý vzor každé n-roziiiěrné borelovské množiny je jev, tj, VB € Bn : Xinv(B) = {co €'Ú;X(lo) € B} € A Ve speciálním případě, kdy íí = iŽ'm a Á = jS"m, X = g = ?..., ťj™), tj. VB € Bn :&ínv(B) = {(#!,.. .,#m) e iím ;(í/l (x L ),..., ť/n(x i, .. .,im)) 6 5} 6 bm, hovo- říme o borelovské funkci. Věta: Mezi borelovské funkce náleží zejména všechny spojité a po částech spojité funkce. Rovněž limita všude konvergentní posloupnosti borelovských funkcí je borelovská funkce. Definice: Nechť (Rn,Bn) je měřitelný prostor a G 6 Bn je borelovská množina. Objemem borelovské množiny G rozumíme číslo raes(G) = j ... j dx\ ... pokud Eiemannův integrál vpravo existuje, g 459 Geometrická pravděpodobnost Definice: Nechť objem rnes(G) borelovské množiny G je nenulový a konečný. Geometrickou pravděpodobností soustředěnou na množině G rozumíme funkci Q : Bn B. danou vzorcem_ V3 € LV\ BCG: pokud mes(B) existuje. Věta: Geometrická pravděpodobnost je pravděpodobnost ve smyslu axiomatické definice, tj. splňuje axiómy P2, P10, P15. Trojice (Rn, $n, Q) je tedy pravděpodobnostní prostor. 460 Příklad Příklad: Na úsečce AB délky d jsou náhodně zvoleny body X a Y, přičemž vzdálenost bodu X od bodu A je menší než vzdálenost bodu Y od bodu A. Jaká je pravděpodobnost, že délka úsečky AX je větší než délka úsečky XY? Řešení: G = {(x,y)e R2;0 < x < d,0 < y < d,x < y } B = {(x,y)e G;x > y - x} x y x Y B mes / -\ d2 / \ d2 2 d nín\ mes(B) 1 (G)=—,mes(B)=—= —,Q(B)=-f-4 = - 2 2 2 4 mes(G) 2 Délka úsečky AX je větší než délka úsečky XY s pravděpodobností 0,5. 461 Příklad Dívka a chlapec si smluvili schůzku mezi 12:00 a 13:00. Přijdou náhodně v tomto rozmezí a čekají na sebe 20 minut, nejdéle však do 13:00. Jaká je pravděpodobnost, že se setkají? Řešení: 13:00 12:20 12:00 mes(G) = 1 mes(B) = — 9 3 QtB)-- 462 Příklad Volíme náhodně dvě čísla z intervalu (0,1). Jaká je pravděpodobnost, že jejich součet je menší nezjedná a současně jejich součin menší než 0,09? v Řešení 463 Příklad Buffonova úloha. V rovině jsou rozmístěny rovnoběžky ve vzdálenosti d > 0. Na rovinu hodíme náhodně jehlu délky 0 < 1 < d. Jaká je pravděpodobnost, že jehla protne některou rovnoběžku? v Řešení Předpokládejme, že náhodně znamená, že každá poloha (středu) a každá orientace jehly je stejně pravděpodobná a že tyto dvě nahodile proměnné jsou na sobě nezávislé. Nechť x je vzdálenost středu jehly od nejbližší rovnoběžky a q> je úhel, který jehla svírá s rovnoběžkami. 2d x JE 7T ip fž = {0 < tp < 7T,0 < x < d\ A = {{(p,x) e Q : x < Isirnp} Q(A) = mes(Ä) mes(Q) Jo / sin cp dep nd 2[_ nd 464 7. Náhodné veličiny Motivace: Výsledky náhodného pokusu lze popsat reálnými čísly (resp. reálnými vektory) pomocí nějakého zobrazení X-.CI^r ( x = (x1,...,Xn):íí-»Rn). Pokud bude toto zobrazení splňovat určité podmínky, nazveme ho náhodnou veličinou. Příklady náhodných veličin: počet členů náhodně vybrané domácnosti, počet chyb, jichž se dopustí nějaké zařízení za určitou dobu, doba do poruchy nějakého zařízení, hmotnost náhodně vybraného výrobku apod. Vztah mezi znakem a náhodnou veličinou Pojem „znak", který jsme zavedli v popisné statistice, je sice blízký pojmu „náhodná veličina", ale není s ním totožný. Znak může být považován za náhodnou veličinu, jestliže jeho hodnoty zjišťujeme na objektech, které byly vybrány ze základního souboru náhodně. Definice: Nechť (Í3, A), {Rn, Bn) jsou měřitelné prustury. Zobrazení X ; íi h+ Rn se nazývá náhodná veličina (vzhledem k A), právě když je borelovsky měřitelné (vzhledem k A). Pro n = 1 hovoříme o skalární náhodne veličině, pro n > 2 o náhodném vektoru. Přitom zobrazení A"i : íl —> R, ..., Xn : Í2 ■—> R se nazývají sln-íky náhodného vektoru. Obraz X(új) = (Xi(uj), ..., A"n(új)) se nazývá číselná realizace náhodne' veličiny X príslušná možnému výsledku oj. 465 Ilustrace náhodné veličiny Základní prostor Nechť (tt,A), (Rn,Bn) jsou měřitelné prostory. Zobrazení X : S2 ^> Rn se nazývá borelovsky měřitelné (vzhledem k A), právě když úplný vzor každé ■rt-rozměrné borelovské množiny je jev, tj. VB e Bn : X"" (Ľ) = {lo e fi;X(u>) £ B} € A, Jev Jevové pole Borelovská množina 466 Příklad Příklad: Náhodný pokus spočívá v hodu kostkou. Základní prostor Q = {©1,..., co6}. Uvážíme dvě jevová pole, a to JAmax = {a; a c q} a JA = {q,0, {©1,co3,co5}, {©2,co4,co6}}. Zjistěte, zda zobrazení x: ci -» r ? které poloze kostky číslem i nahoru přiřazuje číslo i, i = 1 , ..., 6, je náhodná veličina vzhledem k JAmSLX a vzhledem k JA. v Řešení: SL Zobrazení x: ci -> r je náhodná veličina vzhledem k ^\aax •> protože úplný vzor každé borelovské množiny je jev vzhledem k JA^^. Vzhledem k JAvšdk X není náhodná veličina: Úplný vzor množiny (- °os 4) j e {cdx , co2, co3, cda } č A. 467 Příklad Zavedeme zobrazení o -» R, které poloze kostky lichým číslem nahoru přiřazuje 0 a sudým 1. JA ={^,0,{®1,co3,co5},{co2,co4,co6}} Toto zobrazení je náhodná veličina vzhledem k JA a nazývá se ukazatel parity. 468 Náhodná veličina Označení a) Jestliže nehrozí nebezpečí nedorozumční, zapisujeme náhodnou veličinu i její číselnou realizaei týmž symbolem X. b) Množinu {oj e ň;X(u) £B) zkráeenč zapisujeme {X F B) a čteme: náhodná veličina X se realizovala v borelovskť množin č B. Ve speciálním prípade, kdy B = {x) resp, B = (-cc,x}, píšeme {X= x) resp, {X < x}. e) Zápis pravdepodobnosti zkrátíme takto: P({oj e íl;X(w) e B}) = P(X e B) P[{u e íl;X(w) e B}f{u e íl; Y(w) e C}) = P(X f B/Y e C). 469 Transformovaná náhodná veličina Věta: Nechť (U, A), [Rn, B"), {R™, B™) jsou měřitelné" prostory, Nechť X : S J h+ R" je náhodná voli čí na a g : R" i-> Rm j c borelovská funkce. Pak složen 6 zobrazení Y : í3 *-> iím danč vzorcem Vw £ SJ : Y(lj) = g(X(w)} je náhodná veličina. Nazývá se transfoniiíivaná náhodná veličina, pro m = 1 skalární, pro m > 2 'vektorová. Aby zobrazení Y: Q Rm bylo náhodnou veličinou vzhledem k JA, musí platit: vb e £m:Yinv(B)= {coeQ;y(co)eB}e JA. Nechť tedy B e (Bm. Protože g je borelovská funkce, je ginv(B) eSn. Protože X je náhodná veličina, je Xinv(ginv(B)) e X Ovšem Xinv(ginv(B)) = Yinv(B). Důkaz: 470 Transformovaná náhodná veličina Poznámka: (Příklady transformovaných náhodných veličin) Nechť X = (X 1? ..., X n) je náhodný vektor. a) Nechť {i, ..., j} = {1, ..., n} - {k, ..., 1}. Náhodný vektor (X i? ..., X j ) se nazývá vybraný marginálni vektor, (X k, ...,Xi) se nazývá zbylý marginální vektor. Původní náhodný vektor (X 1? ...,Xn)sev této souvislosti nazývá zbylý marginální vektor. b) Ž x i, max {x j,..., x n}, sin (x i),... j sou transformované náhodné veličiny. i=l Definice: Posloupnost {xn }"=1 spočetně mnoha náhodných veličin definovaných na témž měřitelném prostoru (Cl, JA) se nazývá náhodná posloupnost. 471 Distribuční funkce náhodné veličiny Motivace: Při pozorování realizací náhodné veličiny si povšimneme, že některé její hodnoty se vyskytují s větší pravděpodobností, jiné s menší. Pravděpodobnostní chování náhodné veličiny X budeme popisovat pomocí distribuční funkce , která udává pravděpodobnost jevu, že náhodná veličina X se realizuje hodnotou nejvýše x: VxgR:0(x)=P(X■ iž je skalární náhodná veličina. Funkce <[> : 2Í i—f ií daná vzorcem: Vx e ií : *(ar) = P(X < x) se nazýva distribuční funkce náhodné veličiny X, b) Nechť (í 2, A, P) je pravděpodobnostní prostor, X = .., XÍ?J : í i i-> ií je náhodný vektor. Funkce ; 27" i—> i? daná vzor cení; V(ti ,.. . ,xn) € ií" : ,*.*, x.n) = P(Xi (x) je distribuční funkce skalární náhodné veličiny X. Pak <&(z) má následující vlastnosti: a) 3>(x) je neklesající, t j. Vxi < x2 : < $(^). b) je zprava spojitá, tj, pro libovolné, ale pevně dané xq G J? je lim <&(x) = (x) je nomiovaná, tj. lim (x) = 1, lim <í>(x) = 0. d) Va,6e iž,a< t => P(a < X < Ď) = - *(a). e) Pro libovolné, ale pevně dané x(J É iž : P(X = a?o) — $(^u) — líni (x). Důkaz: Jenom náznakem. ad a) Plyne z monotonie pravděpodobnosti P9. ad b) Plyne ze spojitosti pravděpodobnosti shora P17. ad c) Um p(A2) p(A2 - Ai) = p(A2) - p(A0 ad d) Plyne ze subtraktivity pravděpodobnosti P8. ad e) Plyne ze spojitosti pravděpodobnosti zdola P16. 475 Příklad Příklad: Náhodná veličina X udává denní počet obsazených pokojů v určitém penziónu. Známe její distribuční funkci, tj. pravděpodobnost, že bude obsazeno nejvýše x pokojů: 0 pro x < 7 0,02 pro 7 < x < 8 ®(x) = jo,05 proS 10 a) Určete pravděpodobnost, že v náhodně zvolený den bude obsazeno právě 7, 8, 9, 10 pokojů. b) Jaká je pravděpodobnost, že bude obsazeno nejvýše 10 a nejméně 8 pokojů? Řešení: ad a) Využijeme vlastnost (e) z věty £c. p(X = 7) = o(7) - lim O(x) = 0,02 - 0 = 0,02 x^7_ p(x = 8) = o(8)- lim O(x) = 0,05 - 0,02 = 0,03 p(X = 9) = o(9) - lim 0(x) = 0,12 - 0,05 = 0,07 P(X = 10) = O(l0)- lim 0(x) = 1 -0,12 = 0,88 x^10_ ad b) Využijeme vlastnost (d) z věty P(8 < X < 10) = P(7 < X < 10) = o(l0) - 0(7) = 1 - 0,02 = 0,98 476 Příklad Je funkce ^í>{x) = sin x distribuční funkcí náhodné veličiny X v intervalu a) (0,tt) , Příklad Určete a) konstanty A, B tak, aby funkce O(x) = A + Be byla distribuční funkcí náhodné veličiny pro x g (O, oo), b) pravděpodobnost p(l < X < 4) Řešení: a) 0 = lim A + Be x = A + B\\me x = A + B x->0 x->0 1 = lim A + Be~x = A + lim = A X—»00 X—»00 Zj) 0(x) = l-e -x e3-l b) />(! < X < 4) = 0(4) - O(l) = —— = 0,3496 A = \ B = -\ 478 Vlastnosti distribuční funkce náhodného vektoru Věta £85: Nechť $ (x i. .. .,xn) jc distribuční funkce náhodného vektoru X. Pak ..., xn) ma následující vlastnosti: a) $[xi,.... xn) je neklesající vzhledem ke každé jednotlivé proměnné. b) $(xi,.... xn) je zprava spojitá vzhledem ke každé jednotlivé proměnné. c) Hm $(xit... ,xn) = ] Vi € {1.....n] : lim ^(x!, .. .. xn) — 0 d) V(>řll...; *n) e Änľv( Ai,,.., A„) € BJ : < A' i < x i + /i, A . .. A xn < Xn < xn + hn) = + hl9... ,xn + - . . Xi . . . - , iTj ..... J?.,;. i I i=l J =1 + 1 --- + (1 ,ar„) e) Vi ^ {1. ... ,n} : lim $(#1,.. . tar„) = $í(a:í). X-; _ 1 —y oc 479 Vlastnosti distribuční funkce náhodného vektoru Důkaz: Jenom náznakem. ad a), ad b) Podobně jako ve skalárním případě. ad c) lim o(x1,...,xn)= lim p(xx Xj—> Xn^oo xn^°° Vie{l,...,n}: lim 0>(x1,...,xn)= lim P(xi (x1,...,xn)= lim P(X1 < xx a...aXh < xn) = P(X1 g R a... aXě < x. a...aXk g Ř) = P(Qa... aXě < x. a... aQ) Xl —»cc xl —»cc Xj_j —»CC Xj_j —»cc X1+1 —>cc X1+1 —>cc X„ ->cc X„ ->cc = />(X, 0, h2 > 0 nás zajímá pravděpodobnost, že náhodný vektor (xl7x2) se bude realizovat V Obdélníku (x^X! + hí)x (x2,x2 +h2): P{xx {xl,x2 +/?2)-f|o(x1?x2) Příklad Příklad: Náhodný vektor (Xi, X2) má distribuční funkci 0(xi, x2) = — (arctg xi + -)(arctg x2 + -). ti 2 2 Vypočtěte pravděpodobnost, že náhodný vektor (Xi, X2) se bude realizovat v jednotkovém čtverci (0,i)x(0,i). Najděte obě marginální distribuční funkce Oi(xi), 02(x2). v Řešení: P(0 < Xi < 1 aO < X2 < 1) = 0(1,1) - 0(1,0) - 0(0,1) + 0(0,0) = =^<í + f> + f)" ^(°+ ?X7+f)+ + f> = 17- re 4 2 4 2 re 4 2 2 tc 2 4 2 % 2 2 16 Oi(xi) = iimX2_ -1 (arctg Xi + ^)(arctg x2 + = i (arctg xi + je 2 2 je 2 02(x2) = iimXi_ ^ (arctg Xi + ^) (arctg x2 + ^) = i (arctg x2 + ^) 484 Existence distribuční funkce Věta: (existenční věta) a) Skalární případ: Jestliže funkce $(x) má vlastnosti (a), (b), (c) z věty o vlastnostech distribuční funkce skalární náhodné veličiny, pak existuje pravděpodobnostní prostor (fi. A., P) a na ncm definovaná skalární náhodná veličina X tak, že $(x) je její distribuční funkce. b) Vektorový případ: Jestliže íunkce $(x\,... 9xn) má vlastnosti (a), (b). (c) z vety o vlastnostech distribuční funkce náhodného vektoru, pak existuje pravděpodobnostní prostor (íí. A., P) a na ném definovaný náhodný vektor X = [Xi, .. ., Xn) tak. že $(#i J je jeho distribuční íunkce. 485 8. Diskrétní a spojité N V, vybraná rozložení NV Motivace: Distribuční funkce popisuje pravděpodobnostní chování jakékoliv náhodné veličiny. V praxi však mají význam dva speciální typy náhodných veličin, a to diskrétní a spojité náhodné veličiny. Diskrétní náhodná veličina nabývá nejvýše spočetně mnoha izolovaných hodnot. Je to např. počet zásahů do terče při střelbě, počet chyb, jichž se dopustí nějaké zařízení za určitou dobu, počet zákazníků ve frontě apod. Pravděpodobnostní chování diskrétní náhodné veličiny popisujeme pravděpodobnostní funkcí: VxeR:7i(x)=P(X = x). Je to zidealizovaný protějšek četnostní funkce zavedené v popisné statistice v souvislosti s bodovým rozložením četností: w o M N(X =x) Vx e R : p(xj = —--- n S rostoucím rozsahem výběrového souboru se budou hodnoty četnostní funkce ustalovat kolem hodnot pravděpodobnostní funkce. Vlastnosti četnostní funkce se přenášejí i na pravděpodobnostní funkci, tedy pravděpodobnostní funkce je nezáporná Vx e R: 7i(x) > 0, je normovaná 2>(x)=i, X=-co s distribuční funkcí je spjata součtovým vztahem 486 Ilustrace vztahu mezi četnostní funkcí a pravděpodobnostní funkcí Provedeme n hodů kostkou. Zajímáme se o četnostní funkci počtu ok. n = 60: 0,20 , x0,15 P(X)0,10 0,05 0,00 n = 600: P(X) n^-oo: 0,20 0,15 tt(x) 0,10 0,05 0,00 0 487 Spojitá náhodná veličina - motivace Spojitá náhodná veličina nabývá všech hodnot z nějakého intervalu. Je to např. : • výsledek nejakého fyzikálního či chemického měření, • hektarový výnos pšenice, • hmotnost sériově vyráběného výrobku apod. Pravděpodobnostní chovaní spojité náhodné veličiny popisujeme hustotou pravděpodobnosti cp(x), což je zidealizovaný protějšek hustoty četnosti f(x) zavedené v popisné statistice v souvislosti s intervalovým rozložením četností. S rostoucím rozsahem výběrového souboru a klesajícími šířkami třídicích intervalů se budou hodnoty hustoty četnosti ustalovat kolem hodnot hustoty pravděpodobnosti. Vlastnosti hustoty četnosti se přenášejí i na hustotu pravděpodobnosti, tedy hustota pravděpodobnosti je nezáporná Vx e R : cp(x) > 0, 00 je normovaná s distribuční funkcí je spjata integrálním vztahem' —00 488 Ilustrace vztahu mezi hustotou četnosti a hustotou pravděpodobnosti Náhodně vybereme n sériově vyráběných součástek, změříme jejich délku a budeme se zajímat o hustotu četnosti odchylek těchto měření od deklarované délky součástky. n = 40, r = 4: n —> oo, r —> oo: (p(x) x 489 Diskrétní náhodná veličina Definice: Nechť (Q.A.P) je pravděpodobnostní prostor, X náhodná veličina defirio vana na měřit elném prostoru (íl. A), která má distribuční funkci $(x). Sekneme, že náhodná veličina X je diskrétní (vzhledem k P), práve když existuje reálná funkce ir{x). která je nulová v Jí s výjimkou nejméně jednoho a nejvýše spočetné mnoha bodů. kde je kladná a platí pro ni: £ H : 4* (x) — ^(í)- Tato funkoe t 0 (vlastnoo t->°° x=-oo x=-°° adc) p(x = x0)= O(x0)- lim o(x)=X^(t)- lim £n(t) = lim £ n(t)= ti(x0) x->x0_ tx0_ tx0_ x 492 Příklad Dva střelci (s pravděpodobnostmi zásahu px a p2) se střídají ve střelbě, dokud někdo nezasáhne. Určete pravděpodobnostní funkci počtu výstřelů. Řešení: Pro p,= p2= 0,5: ^(2n + l) = (l-p1)n(l-p2)np1 ;r(2n + 2) = (l - pj )n+1 (l - p2)" p, tt(x) = 0 jinak n = 0,1, Pro P!=0,8 a p2= 0,3: 493 Příklad Lovec má 5 patron a pravděpodobnost zásahu 0,4. Střílí, dokud netrefí (a dokud má čím). Určete pravděpodobnostní funkci. Řešení: ;r(k) = 0,6kl • 0,4 k = l,...,4 7r(5) = 0,64 7r(x) = 0 jinak 7r(x) 494 Diskrétní náhodný vektor Poznámka: Distribuční funkce diskrétní náhodné veličiny má schodovitý průběh. Pravděpodobnostní funkce je distribuční funkcí určena jednoznačně. Definice: Nechť (O. A. P) je pravděpodobnostní prostor, X = (X-\..... Xn) nahodiv vektor definovaný na měřitelném prostoru (íl, A). Nechť $>(x-\..... xn) je jeho distribuční funkce. Sekneme, že náhodný vektor X je diskrétní (vzhledem k J}), právě když existuje reálná funkce ir(x\..... xn). která je nulová v Íčn s výjimkou nejméně jednoho a nejvýše spočetné mnoha bodu. kde je kladná a platí pro ni: V(j:-| ... .. xn) G Rn : .... xn) = ^ ■ ■ ■ S M^i; ■ ■ ■; ^tO- Tato funkce se nazývá pravd ép f Hlub tu ihí tlí fniikctí diskrétního náhodného vektoru X. 495 Vlastnosti pravděpodobnostní funkce Věta: Nechť ir(xi..... xn) je pravděpodobnostní fnnkee diskrétního náhodného vektoru X. Pak platí: a) V(ii,.... rvi .. . > 0 (vlastnost, Dl nezápornost) ■ E nfal, = 1 (vlastnost D2 normovanost) n — — oo x„ = —oo c) V(ii. .... a:n) E i?" : tt(ii;. .. ,xn) = P{X1 = x1 A ... A Xn = xn) d) Viŕ e ÍS" :P(X e B) = _]■ . .^irfii,... ,xn) {lij- OO oo oo oo e) Ví G {1 ...,«}: E ■■ ■ E E - E fl-(zi;-;ZTi) = n ——oo Xi t - — OOIt^l— — OO ItL —— oo Fnnkee ttí(xí) je pravděpodobnostní funkce náhodné veličiny X$. Nazývá se marginální pravri£|jf)Hfihiifistiií funkce. Funkce tt(x^ ... .. xn) se v této sou vislosti nazývá umínit án ti í prHvHčpnriuhimKtní funkce. Podobně lze zavést marginální pravděpodobnostní funkce k proměnných, kde k E {2.3.. ... n — 1}. 496 Příklad Příklad: Je dán systém složený ze dvou bloků. Pravděpodobnost, že i-tý blok správně funguje, je dí5 i = 1,2 a pravděpodobnost, že správně fungují oba bloky, je i)12. Nechť náhodná veličina Xi je ukazatel fungování i-tého , t t . fl, p okud i-tý blok funguje . . _ _T . 1V . , , 1V , , , _ , . , x , M bloku, tj. Xi = <^ , i = 1, 2. Najdete simultánní pravděpodobnostní tunkci tt(xi, x2) náhodného [0, p okud i - týblok nefunguje vektoru (Xi, X2) a obě marginální pravděpodobnostní funkce Tii(xi) a 7i2(x2). v Řešení: Hodnoty pravděpodobnostních funkcí zapíšeme do kontingenční tabulky. Xi x2 Tli(Xi) 0 1 0 — ^2 + &12 ^2 _^12 1 ^12 TC2(x2) 1-^2 »2 1 71(0,0) = P(X1=0 a X2=0) = 1 - P(X1=1 v X2=l) = 1 - (Dl + 1)2 - D12) = 1 - Di - D2 + D 71(0,1) = P(Xi=0 a X2=l) = P(X2=1) - P(Xi=l a X2=l) = D2 - Di2 71(1,0) = P(Xi=l a X2=0) = P(Xi=l) - P(Xi=l a X2=l) = Di - Di2 71(1,1) = P(Xi = l a X2=l) = Di2 7i(x1,x2) = 0 jinak 497 Existenční věta Věta (existenční věta) a) Skalární případ: Jestliže fiinkce ir(x) má vlastnosti Dl, D2 z vety o vlast no stech pravděpodobnostní funkce skalární náhodné veličiny, pak existuje pravděpodobnostní prostor (Q.A.P) a na nem definovaná skalární diskrétní náhodná veličina X tak. že ir(x) je její pravděpodobnostní fimkee. b) Vektorový případ: Jestliže funkce w(xi. .... xn) má vlastní:stí Dl. D2 z vety o vlastnostech pravdĚpodobnostní funkce náhodného vektoru, pak existuje pravděpodobnostní prostor (Q.A.P) a na nem definovaný diskrétní ná hodný vektor X = (X-\..... Xn) tak. že ir(xi.... . xn) je jeho pravděpodobnostní funkce. 498 Spojitá náhodná veličina Definice: Xeeliť (íí. A. P) je pravděpodobnostní prostor, X náhodná veličina defino vaná na měřitelném prostor n (íí.^4), která má distribuční funkcí 4>(x). fíek nemé, že náhodná veličina X je spnjitá (vzhledem k P), právč když existuje po částech spojitá nezáporná reálná funkce tp(x) tak. že pro V x G R : Q (x) = j ip{t)dt. Tatí) íimkí ;e s e nazýva hi i st 111 a pr a v H ě p 11 ri t ib t 11 ist i spoj ité n áli< m Iné — oo veličiny X. 499 Spojitá náhodná veličina - poznámka Poznámka: Na rozdíl od pravděpodobnostní funkce diskrétní náhodné veličiny nemá hustota pravděpodobnosti spojité náhodné veličiny význam pravděpodobnosti. Její význam lze odvodit z integrálního vztahu mezi distribuční funkcí a hustotou pravděpodobnosti. Pravděpodobnost, že náhodná veličina se bude realizovat v intervalu (x, x+h) ,je: x+h x x+h p(x0 (vlastnost SI nezápornost) oo b) j ip(x)dx = 1 (vlastnost S2 normo vano st,) —oo c) W (E R, Vft > 0 : P(x < X < x + h) = d) Pro libovolné, ale pevně dané jp E ií : P(X = x) = 0. e) tp(x) = 'f^Jf ve vsedl bodech spojitosti funkce 1020 40 pro 980 < x < 1020 1020 , , 9n P(X>1000) = [ ±dx = — [x]\Z= — = 0,5 v ' ioJoo40 40L Jl00° 40 A HO 0ZÓ 502 Příklad Napište distribuční funkci rozdělení daného hustotou f(x) = x/2 na (0, 1), 1/2 na (1, 2), (3 - x)/2 na (2, 3). Řešení: Na (0,1): X X F(x) = \f{t)dt = \-dt o 2 ť L Jo x X Na (1,2): Fix) = — + — (x 4 2V Na (2,3): -1), F(x) = - + -+\-dt 4 2 J "> 3_J_ 4~2 J2 ! (3-x); 4 503 Příklad Rozdělení náhodné veličiny X je dáno hustotou f(x) = 2x+2, na (-1, 0) a nulovou jinde. Najděte P(-2 ) Řešení: 00 s 1 = I /'(x)dx = a lim arctg(x) - lim arctg(x) J \x—>oo x—>-oo —00 = Jš)=i-f(S)=i-- 71 l í 7t 7t J > 1 6 Spojitý náhodný vektor Definice: Nechť (Q. A. P) je pravděpodobnostní prostor. X = (X±..... Xn) náhodný vektor definovaný na měřitelném prostom (íl. ,4). Necht* ■ ■ ■ ,&n) j^ jeho distribnĚní funkce. Flekneme. že náhodný vektor X je spojitý (vzhledem k P), práve když existuje po částech spojitá nezáporná reálná funkce tp(xi.... .xn) tak. že pro n x+L Vfjľi,.... xn) G Rn : ..... xn) = J ■ ■ ■ J tp(ti s ■ ■ ■: ■ ■ ■ d&n- Tato —00 —00 funkce se nazýva lmstnta pravdĚptiHtihiifist i spojitého náhodného vektor n X. 506 Vlastnosti hustoty pravděpodobnosti Věta: Nech ť cp(xx,..., x n) je hustota pravděpodobnosti spojitého náhodného vektoru X = (X 1; ..., Xn). Pak platí: a) V(^ľi,.... xn) E Rn : tp[&i- ■ ■ ■ ■ x n) ^ 0 (vlastnost, fíl - nezápornost) oo oo b) J - J ^(^í; ■ ■ ■: ^n)^ ■ ■ ■ rá^n = 1 (vlastnost fí2 normovanost) — oo — oo t:) VB E Bn : P(X eB) = j.. .j(p(xu .. ... dxn B d) ^p{x\,.. ., xn) = fí Rx^'dxT^ ve v^e<"h bodech spojitosti funkce ip(xi,.... xn). oo oo e) Ví € {1,... ,t»} : J ... J c^(a:i.... .aľn)da:i .. .dii-idii+i .. .da:n = y?i(a:i)- —oo —oo Funkce ^í(^í) je hustota náhodná veličiny X^. Nazývá se marginálii í hustota. Funkce tp(xi.. . . .xn) se v táto souvislosti nazývá sinľniltániií hustota. Podobná lze zavást marginálni hustoty k proměnných, kde h (e {2. 3.... .d — 1}. 507 Existenční věta Věta: (existenční věta) a) Skalární případ: Jestliže funkce (p(x) 111Ŕ vlastností Sl, S'2 z vety o vlast stech hustoty skalární náhodné veličiny, pak existuje pravděpodobnostní prostor (fi, A. P) a na nĚm definovaná skalární spojitá náhodná veličina X tak. že tp(x) Je Její hustota. b) Vektorový případ: Jestliže funkce Kp(x-\..... xn) má vlastnosti Sl, S 2 z vety o vlastnostech hustoty náhodného vektoru, pak existuje pravděpodobnostní prostor (Q.A.P) a na nĚm definovaný spojitý náhodný vektor X = (A"i,... .Xn) tak, že ip(xi.... , xn) je jeho hustota. 508 Příklad Příklad: Spojitv náhodný vektor (X l5 X-.) má simultánní hustotu pravděpodobnosti (p(x 1? x2) = —---— 7i2(i + Xl2)(i + x22) Najděte obě marginální hustoty cpi(xi), cp2(x2). Řešení (Pi(xi)= j 1 dxo = 1 1 j -" dx, = 7l2(l + Xl2)(l + X22) ~"~ 7r2(l + Xl2) il + X22 7T2(1 + X12) 00 [arctg x2]00 = 7T2(1 + X12) ^71 71 ' V2 2 y 7r(l + Xl2) ' Analogicky dostáváme (p2(x2) = -;r~ 7T(1 + X22) 509 Vybraná rozložení diskrétních a spojitých náhodných veličin Motivace Nyní se seznámíme s přehledem důležitých pravděpodobnostních funkcí a hustot pravděpodobnosti. Uvedeme nejenom analytické vyjádření těchto funkcí, ale též jejich grafy. Vysvětlíme rovněž, v jakých situacích se lze s uvedenými rozloženími pravděpodobností setkat. Zvláštní pozornost budeme věnovat normálnímu rozložení, které hraje velkou roli v celé řadě praktických aplikací počtu pravděpodobnosti i v matematické statistice. Označení Známe -li distribuční funkci O(x) náhodné veličiny X (resp. pravděpodobnostní funkci 7i(x) v diskrétním případě resp. hustotu pravděpodobnosti (p(x) ve spojitém případě), pak řekneme, že známe rozložení pravděpodobností (zkráceně rozložení) náhodné veličiny X. Toto rozložení závisí na nějakém parametru 3 , což je nejčastěji reálné číslo nebo reálný vektor. Zápis X~L( 0 čteme: náhodná veličina X má rozložení L s parametrem 0 Na webu: http://en.wikipedia.org/wiki/List_of_probability_distributions 510 Vybraná rozložení diskrétních náhodných veličin Důležitá diskrétní rozdělení: > Degenerované rozložení > Alternativní (Bernoulliho) rozdělení > Binomické rozdělení > Multinomické rozdělení > Poissonovo rozdělení > Negativně binomické (Pascalovo) rozdělení > Geometrické rozdělení (zvláštní případ negativně binomického rozdělení) > Hypergeometrické rozdělení > Rovnoměrné rozdělení Degenerované rozložení Degenerované rozložení: Náhodná veličina X nabývá pouze konstantní hodnoty \i, píšeme X ~ Dg(n). _ [l pro x = JLL [O jinak Pravdep. funkce Dg(1) tt(x) 1 0 1 2 Alternativní rozložení Alternativní rozložení: Náhodná veličina X udává počet úspěchů v jednom pokusu, přičemž pravděpodobnost úspěchu je 9. Píšeme X~A(ô). íl-3prox = 0 f . ,, Pravdep. funkce A(0.75) 1i-1- 0.75 0.5 0.25 0 -0.25- -1 -0.5 0 0.5 1 1.5 2 513 Binomické rozložení Binomické rozložení: Náhodná veličina X udává počet úspěchů v posloupnosti n nezávislých opakovaných pokusů, přičemž pravděpodobnost úspěchu je v každém pokusu 9. Píšeme X ~ Bi(n,$). tt(x) = Sx(l-S)n-X prox = 0,. 0 jinak n (Alternativní rozložení je speciálním případem binomického rozložení pro n = 1. n Jsou-li Xi,Xn stochasticky nezávislé náhodné veličiny, Xi ~ A($), i = 1,n, pak X = ^X; ~ Bi(n, 3).) i=l Pravdep. funkce Bi(5,0.5) 0.6 0.4 0.2 0 -0.2 -1 0 1 2 3 4 5 6 f ! o m i-i o o i-i o m o o o o o ♦ p=0.5amdn=20 p=0.7Emjdn=20 * * * • p=0.5amdn=40 * ■ • ■ ■ * ■ * ■ 1 * ■ 10 20 30 40 514 Příklad Příklad na binomické rozložení pravděpodobností: Firma se účastní čtyř nezávislých výběrových řízení. Pravděpodobnost, že uspěje v kterémkoliv z nich, je pro všechny konkurzy stejná a je rovna 0,7. Jaká je pravděpodobnost, že firma uspěje a) právě 2x b) aspoň 2x c) nejvýše 2x? v Řešení: X ... počet úspěšných konkurzů, X ~ Bi(4; 0,7) ad a) p(x = 2) = 7r(2): v2y 0,720,32 = 0,2646 ad b) p(X > 2) = tí(2) + tc(3) + tt(4) = Í41 Í41 Í41 0,720,32 + 0,730,3 + v3, v4, 0,74 =0,9163 ad c) p(X < 2) = o(2) = 7t(0)+tc(i)+tc(2) = '4' Í41 Í41 0,34 + 0,7-0,33 + 0,720,32 =0,3483 Příklad Pravděpodobnost narození chlapce je 0,515. Určete takový počet dětí, aby pravděpodobnost, že mezi nimi bude aspoň jeden chlapec, byla vetší než 0,99. Řešení: Označme jako X veličinu udávající počet chlapců mezi n dětmi, je X~Bi(n,0,515). Hledáme takové n, aby P(X > 0) > 0,99, přitom platí p(x > ())= 1 - P(X < ())= 1 - P(X = ())= 1 - ^> 1 - (0,485)" > 0,99 ln 0,01 r^r ?—S n >-= 6,36 0,515°-(1-0,515) n-0 ln 0,485 ^> n>l 516 Multinomické rozložení Multinomické rozložení: Zobecnění binomického rozložení. Složky náhodného vektoru (X1?...y\) udávají počty úspěchů (nastane jev A1?...Ak) v posloupnosti n nezávislých opakovaných pokusů, přičemž pravděpodobnosti úspěchů jsou 3l,...,3k . Předpokládáme, že při každém pokusu nastane právě jeden z jevů A1?...Ak , přičemž platí 3l+,...,+3k = 1. Píšeme X ~Mu(n,3l9...,3k) 7Z"(x1 9 ... 9 x^) — k •/V j .... ./V . ... T^fc ? X-^ •) • • • •) x^ ^ "ji ^... ^ /7 ^ x^- — /'Z í=l = 0 jinak Platí: X.-Biin^i) 517 Multinomické rozložení -příklady využití > Předvolební průzkum: n - počet tázaných ■ i9.- skutečný podíl voličů j-té strany v populaci ■ Xj - počet (četnost) voličů j-té strany ve výběru > Hody hrací kostkou: ■ n - počet hodů ■ t9lv.., j96 - pravděpodobnost jednotlivých stran kostky ■ X1?.. .X6 - absolutní četnosti jednotlivých stran kostky > Krevní skupiny: n=4 (skupiny 0,A,B,AB) ■ 3^3A,3B,3M - pravděpodobnosti skupin 0, A, B, AB ■ X0, XA, XB, XAB - počty osob se skupinami 0, A, B, AB Poissonovo rozložení Poissonovo rozložení: Náhodná veličina X udává počet událostí, které nastanou v jednotkovém časovém intervalu (resp. jednotkové oblasti), přičemž události nastávají náhodně, jednotlivě a vzájemně nezávisle. Parametr X > 0 je střední počet těchto událostí. Píšeme X ~ Po(X). (Poissonovým rozložením se řídí např. počet výzev, které dojdou na telefonní ústřednu během určitého časového intervalu nebo počet mikroorganizmů v zorném poli mikroskopu. Jde o tzv. řídce se vyskytující jevy.) e prox = 0,1,... 7l(x) 0 jinak Pravdep. funkce Po(5) 0.22i- 0.4 0.18 0.3 - 0.14 0.1 0.2 - 0.06 0.02 O.l - -0.02 0 2 4 6 8 10 12 14 16 o.o L 10 15 2(1 519 Příklad Vztah mezi pravděpodobnostní funkcí binomického a Poissonova rozložení: Nechť náhodná veličina X ~ Po(X) a náhodná veličina Y ~ Bi(n,$n). Nechť $n—> 0 pro n —► oo a přitom n&n—> X. Pak pravděpodobnostní funkce náhodné veličiny Y konverguje k pravděpodobnostní funkci náhodné veličiny X, tj. lim V(l-»„)n"y=^e- w (Aproximace binomického rozložení pomocí Poissonova rozložení je vyhovující, když n > 30 a 9 < 0,1.) Příklad na Poissonovo rozložení: Dělnice v prádelně obsluhuje 800 vřeten. Pravděpodobnost toho, že se příze přetrhne během časového intervalu délky t, je pro všechna vřetena stejná a je rovna 0,005. Určete pravděpodobnost, že během intervalu délky t dojde k nejvýše 10 přetržením. v Řešení: Y - počet přetržení v časovém intervalu délky t, Y ~ Bi(800;0,005). io f 8fJCA Přesný výpočet: P(Y < 10) = £ 0,005y (l - 0,005)80(^y = 0,997239 y=o vy J 00). Aproximativní výpočet: podmínky dobré aproximace jsou splněny, parametr X = n3 = 800.0,005 = 4,HY * 10)= = 0,9971602 y=o y' 520 Příklad 1) Průměrný telefonní hovor trvá 1,5 min. Má-li ústředna 10 linek a dochází-li průměrně k 120 hovorům za hodinu, jaká je pravděpodobnost ztráty volání? Řešení: x udává počet volajících, x~Po(2* 1,5). Ke ztrátě volání dojde, pokud chce současně volat více než 10 volajících (tj. není volná linka). Tedy 10 o* p(x > 10)=i - p(x < 10) = i - Y,—e~3 = °>001- 2) Průměrný telefonní hovor trvá 1,5 min. Kolik linek musí ústředna mít, dochází-li průměrně k 240 hovorům za hodinu a pravděpodobnost ztráty volání nemá překročit a) 0,01, b) 0,001? Řešení: x udává počet volajících, x~Po(240/60*l,5). Hledáme n tak aby p(x >n)< 0,01 tj. P{x0$9 ^=> 2^-čT6>0,99^ n = l2' x=0 Pro případ b) chceme ^ — e~6 — 0,999 izz[> n = 15. x=0 Negativní binomické (Pascalovo) rozložení Negativní binomické rozložení (Pascalovo): Náhodná veličina X udává počet neúspěchů před n-tým úspěchem v posloupnosti n nezávislých opakovaných pokusů, přičemž pravděpodobnost úspěchu je v každém pokusu S . Píšeme X ~ NB(n, S). 7T(x) = f n + x - ý\ V x J = 0 Sn{y-S)\ x = 0,l,..., 0<£<1 jinak NB(2fi.2) a NB(2,0A) o 0,1 ■ 1 o * * * * o o o o 3 4 8 9 10 > Negativně binomické rozdělení lze definovat obecněji. Tak jak je zde uvedeno jde o rozdělení Pascalovo. 522 Geometrické rozložení Geometrické rozložení: Náhodná veličina X udává počet neúspěchů v posloupnosti opakovaných nezávislých pokusů předcházejících prvnímu úspěchu, přičemž pravděpodobnost úspěchu je v každém pokusu rovna 9. Píšeme X ~ Ge( 3) tt(x) = 0.3i 0.2 0.1-0 (l-$)x$prox = 0,l,... 0 jinak Pravdep. funkce Ge(0.25) -0.1 -1 1 3 5 7 9 11 8 10 523 Příklad Dva hráči střídavě házejí kostkou. Vyhrává ten, kdo první hodí šestku. Jaká je pravděpodobnost, že vyhraje ten, který začínal? Řešení: X udává počet nehození šestky (neúspěch) před prvním hozením šestky (úspěch), X ~ Ge(l/6). Hledáme tedy pravděpodobnost jevu A: 1. úspěch po sudém počtu neúspěchů. V ' áóUJ 6^25 11 36 524 Hypergeometrické rozložení Hypergeometrické rozložení: V souboru N prvků je M prvků označeno. Náhodně vybereme n prvků bez vracení. Náhodná veličina X udává počet vybraných označených prvků. Píšeme X ~ Hg(N, M, n) 7i(x) ín" -ivT x y prox = max {0,M-N + n},...,min{M,n} 0 jinak Pravdep. funkce Hg(10,7,5) 0.5i- 0.4 * * 0.3 0.2 0.1 0 ** ■0.1 j—'—'—■—■—■—■— -1 0 1 2 3 4 5 6 Příklad V klobouku jsou 3 černé a 4 bílé koule. Určete pravděpodobnost, že při vytažení 3 koulí budou aspoň 2 černé. Řešení: X udává počet vytažených černých koulí, X pravděpodobnost je HG(7,3,3). Hledaná (3Y4\ P(X>2) = l-P(X Rovnoměrné rozdělení > Normální rozdělení (označované také jako Gaussovo rozdělení) > Logaritmicko-normální rozdělení (také log-normální rozdělení) > Studentovo rozdělení > Fischerovo-Snedecorovo rozdělení > X2 rozdělení (Chí-kvadrát) > Cauchyho rozdělení > Exponenciální rozdělení > Laplaceovo rozdělení (nebo také dvojitě exponenciální rozdělení) > Weibullovo rozdělení Rovnoměrné spojité rozložení Rovnoměrné spojité rozložení: Předpokládejme, že veličina X - může nabýt jakékoliv hodnoty mezi čísly a, b - pravděpodobnost, že nabude hodnoty z jakéhokoliv intervalu v tomto rozmezí je stejná jako pravděpodobnost, že nabude hodnoty z jakéhokoliv jiného intervalu stejné délky. Jsou-li tyto podmínky splněny, pak X má rovnoměrné spojité rozložení na intervalu (a, b). Hustota pravděpodobnosti náhodné veličiny X je konstantní na intervalu (a, b) a plocha pod křivkou hustoty tvoří obdélník. Píšeme X ~ Rs(a, b). proxe(a,b) 0(x) = ^- x cp(x) = a b 0 jinak 0 x-a b-a 1 x< a e(a,b) x>b Normální rozložení Normální rozložení: Tato náhodná veličina vzniká např. tak, že ke konstantě jí se přičítá velké množství nezávislých náhodných vlivů mírně kolísajících kolem nuly. Proměnlivost těchto vlivů je vyjádřena konstantou o > 0. 2 1 Píšeme X ~ N(u., a ), hustota cp(x) = —j=q 2cj2 . Grafem této hustoty je tzv. Gaussova křivka — ■, 1 ■, 1 ■, ■ 1 • 1 ■ 1 ■ 1 ■ 1 fi=n. tf^az,— p! = D. tf^lH.- fi=n. tf^ia,— fá = -2,tt1=U5,- / / f -1 Galtonova deska Ilustrace vzniku normálního rozložení pomocí Galtonovy desky: Deska obsahuje n řad pravidelně uspořádaných klínů, a to tak, že v k-té řadě je právě k klínů. Do otvoru nahoře padají kuličky, které jsou v každé řadě se stejnou pravděpodobností 1/2 vychylovány vlevo nebo vpravo. Pod poslední radou je n - 1 přihrádek, ve kterých se kuličky shromaždují. Nasypeme-li do tohoto systému velké množství kuliček, vytvoří v přihrádkách jakýsi "kopec", jehož tvar je velmi podobný tvaru grafu hustoty náhodné veličiny s normálním rozložením. Náhodné vychyl ování kuliček jednotlivými řadami překážek je možno chápat jako speciální případ velkého množství chybových faktorů, náhodně působících na nějaký proces, jako působení mnoha blíže nespecifikovatelných vlivů, které ovlivňují zcela náhodně rozložení jeho výsledku. Obrázek lna ľ' 531 Standardizované normální rozložení Standardizované normální rozložení: Pro jí = 0, o = 1 se jedná o standardizované normální rozložení, píšeme 1 Jil U ~ N(0, 1). Hustota pravděpodobnosti má v tomto případě tvar cp(u) = -^e 2 Hustota N(0,1) Distr. funkce N(0,1) r 1 - O(u) = -==e 2 dt je tabelována pro u > 0, pro u < 0 se používá přepočtový ■lv27c vzorec 600) = 1 - P(X < 600) + P(X = 600) = 1 - P(X < 600) = =1 - pí<^o-iA = x _ píu < 600-550^ = x _ 0.Q 5. = x _ 069U6 = 0,30854. ^ a a J y 100 J 0,0045 0,0040 0,0035 0,0030 0,0025 0,0020 0,0015 0,0010 0,0005 0,0000 300 400 500 600 700 350 450 550 650 750 800 533 Normální rozložení - vlastnosti Některé vlastnosti normálního rozložení: Jestliže x~ n(n,cy2),pak u = —^ ~ n(o,i). c7 Jestliže X~ n(h,cj2), a y = a + bX,pak y~ n(a + bu,bV). Jestliže x15...,xn jsou stochasticky nezávislé náhodné veličiny, x;~ n^G;2), i = i,...,n, y = Jx^pak y ~ i=l Význam normálního rozložení: Normální rozložení hraje ústřední roli v počtu pravděpodobnosti i matematické statistice. Jeho význam spočívá jednak v tom, že normálním rozložením se řídí pravděpodobnostní chování mnoha náhodných veličin a jednak v tom, že za určitých podmínek konverguje k normálnímu rozložení součet nezávislých náhodných veličin s týmž rozložením (viz centrální limitní věta). „koncentrace hodnot" normální NV: Přes 68% hodnot „leží" v intervalu (u-o, ji+o). Přes 95% hodnot „leží" v intervalu (u-2o, ji+2o). Přes 99% hodnot „leží" v intervalu (u-3o, ji+3o). o o o o (Ti O o 0.1% 0.1% 534 Dvojrozměrné normální rozložení Definice: O spojitém náhodném vektoru X = říkáme, že má dvojrozměrné normální rozložení s parametry f£ — (^) a S = ^ °~L Pa^^ J ^ když jeho hustota je dána vzorcem tfx) =-i__.e^H—J — l—JJ. xeR2. 2ttc?"icj2V 1 — Zkráceně píšeme X = ™ ^aO*j Pro /j = ^ a S = JJ mluvíme o standardizovaném dvojrozměrném normálním rozlo- žení Poznámka: Význam parametrů je následující: & = E{XY), ^ = E(X2), a\ = DiXJ, a\ = D(X^ p= R(X1}X2) 535 Dvojrozměrné normální rozložení Vrstevnice normálni hustoty Graf dvourozměrné hustoty 20 - Logaritmicko normální rozložení Logaritmicko normální rozložení: Náhodná veličina X ~ LN(ji, o) vzniká v situacích, kdy kladná konstanta logaritmu ji je násobena velkým množstvím nezávislých náhodných veličin, kolísajících mírně kolem jedníčky. Variabilita jejich logaritmů je charakterizována parametrem o. Logaritmicko normální rozdělení má hustotu (p{X,JLl, 0 111 n -i n .ľ i . — (T=]0 'I — o=3/5 — o=]/4 — o=]/a 1 .... 1 .... 1 .... 1 l.ll l.s .-Q í II 537 Pearsonovo /2 rozložení Pearsonovo rozložení chí - kvadrát s n stupni volnosti: Nechť X i,X k jsou stochasticky nezávislé náhodné veličiny, X i ~ N(0, 1), i = 1,k. Pak náhodná veličina X = X^ + ... + Xk2 ~ %2(k). Studentovo rozložení Studentovo rozložení s n stupni volnosti: Nechť Xi, X2jsou stochasticky nezávislé náhodné veličiny, Xi ~ N(0, 1), X2 ~ x (n). Pak náhodná veličina X = x, n ~ t(n). í 0,je definováno hustotou pravděpodobnosti ve tvaru 1 7T7 1 7t 7 (x — x0)2 + 72 kde Xq je parametr, určující umístění největší hodnoty rozdělení. Zvláštní případ, kdy x0 = 0ay=lse nazývá standardní Cauchyho rozdělení s hustotou pravděpodobnosti vyjádřenou vztahem /í Platí např.: X ~ Laplace(0,b) =^ Ixl ~ Ex X2 ~ Ex(/i1), X2 ~ Ex(/l2) ^ ÄlXí-Ä2X2 ~ Laplace(0,l) i i i i i i i i i u = 0. i = ] — |i = O.b = 3 [1 = U. i = 4 - «-4-2 0 24« S 10 544 Weibullovo rozložení Weibullovo rozdělení: Náhodná veličina X ~ Wb(ô, s) vyjadřuje dobu čekání na nějakou událost, která se každým okamžikem může dostavit se šancí úměrnou mocninné funkci pročekané doby. Přitom čísla ô > 0 a s > 0 se nazývají parametry měřítka a formy. cp(x\ S,s) = < so x e 0 pro x > 0 prox<0 Jiná forma zápisu: 0 pro x < 0 545 2:, 9. Stochasticky nezávislé N V, generování realizací NV. Motivace: Při provedení pokusu se může stát, že se realizace jedné náhodné veličiny Y dají jednoznačně určit ze známé realizace druhé náhodné veličiny X, tedy je mezi nimi funkční vztah Y = g(X). Takové náhodné veličiny se nazývají deterministicky závislé. Jejich protipólem jsou náhodné veličiny stochasticky nezávislé: informace o realizaci jedné z nich nijak nemění šance, s nimiž při témž pokusu očekáváme realizaci druhé. Např. náhodný pokus spočívá v hodu dvěma kostkami. Náhodná veličina X udává počet ok, která padla na 1. kostce a náhodná veličina Y udává počet ok, která padla na druhé kostce. Náhodné veličiny X, Y jsou stochasticky nezávislé. Stochastickou nezávislost náhodných veličin zavádíme na základě analogie s četnostní nezávislostí znaků v daném výběrovém souboru, která se používá v popisné statistice. Musí platit multiplikativní vztah: V(x, y) g R2 : p(x, y) = px(x)p2(y) pro bodové rozložení četností, ^(x> y) e R : f (x? y) — fi(x)f2(y) pro intervalové rozložení četností. V počtu pravděpodobnosti nahradíme četnostní funkci pravděpodobnostní funkcí resp. hustotu četnosti nahradíme hustotou pravděpodobnosti. Místo dvou náhodných veličin X, Y můžeme uvažovat n náhodných veličin: Náhodné veličiny Xis ..., Xn jsou stochasticky nezávislé, když platí: V(xx,..., xn ) g R : 7l(xx,..., xn ) = 7Zl (xx )•...• 7ln (xn ) v diskrétním případě, V(xx,..., xn ) g R : cp(xx,..., xn ) = Cpx (xx )•...• Cpn (xn ) Ve spojitém případě, V(xx ,...,xJg Rn : 0(xx,..., xn ) = Ox (xx )•...• On (xn ) v obecném případě. 546 Stochasticky nezávislé náhodné veličiny Definice: a) Obecný případ: Řekneme, že náhodné veličiny X\, ... ,Xn s marginál riími distribučními funkcemi $i(xi)..... <&n{xn) a simultánní distribuční funkd <í>(jľl,.... xn) JSOU stfirh a stírky nezávislé, právě když V(ii... ..in) eiž" : .....en) = $i(zi)... #„[>„). b) Diskrétní případ: Řekneme, že diskrétní náhodné veličiny X\,...,Xn s marginálními pravděpodobnostními funkcemi tt\ {x\). .... 7rn(a;n) a simultánní pravděpodobnostní funkcí tt(xi, ...,xn) jsou stochasticky tieľávislé, právě když VfiCl,.. . ,Xn) e Rn : 7T( H. . . . . Xn) = tt^Xt) ...wn(xn). c) Spojitý případ: Řekneme, že spojité náhodné veličiny X\..... Xn s marginálními hustotami n(xn). Zavedeme transformované náhodné veličiny Y = max {x^... ,Xn}, Z = min {x^... ,Xn}. Odvoďte jejich distribuční funkce ®max (y),^^ (z). v Řešení: (5max(y)=p(YzA...AXn > z)= 1 - p(xx > z>... ■ p(Xn > z) = = 1-[1-p(X1 (x) = \ f —dt = — [xL = J /IA /IA 980 x-980 40 pro xe (980,1020 ) 0 jinak 1 proxe (l020,<») ad a) p(z > 1000)= 1-p(z< 1000)=l-omin(i000)=[l-0(i000)] = 1 3 f ^ ^ ^ 0 V adb) p(y <10!0)=omax(ioio)= [o(l010)] = - = — = 0,42 1000-980 40 V2J 8 v4j 64 552 Rozložení transformovaných NV. Motivace: Máme náhodnou veličinu X s distribuční funkcí R. Zavedeme transformovanou náhodnou veličinu Y = g(X) a hledáme její distribuční funkci *(y) = e 2 pro y > 0, cp*(y) = 0 jinak dy ,v" 2^ Vy V^y Y má x rozložení s jedním stupněm volnosti, píšeme Y ~ x (1) 0 jinak = VŤr 555 Rozložení transformovaného náhodného vektoru Věta (transformace náhodného vektoru X = (Xb Xn) na skalární náhodnou veličinu Y = g(Xb Xn)) a) Diskrétní případ: X - (Xi, ..., Xn) ~ tt(xi, ..., xn), g: Rn —> R je borelovská funkce => Y = g(xi, ...sxn)~7i*(yis ...,yn)= ...£7t(x1,...,xn), kde (x1,...xn)eS(y) S(y)=|;x1,...,xn)gRn;g(x1,...,xn)=y}_ b) Spojitý případ: X = (Xu Xn) ~ cp (xu xn), g: Rn —> R je borelovská funkce => Y = g(xi, ...,xn)~(p*(yi, ...,yn) = í ....ícp(x1,...,xn)dx1 ...dxn, kde dy J%) J S(y)=|;x1,...,xn)GRn;g(x1,...,xn) op --r Y = X i + X2 ~ 7t*(y) = E7ri(xi)rt2(y~xi)= X^iCv-XiKW x,=-00 x2=_0° 7c*(y) se nazývá konvoluce funkcí jc i(xi), 7c2(x2). b) Spojitý případ: X l5 X2 jsou stochasticky nezávislé náhodné veličiny, X j ~ q)i(xj), i = 1, 2 => QO QC Y = X 1 + X2~(p*(y)= jcp^x^^-x^Xj = jcp1(y-x2)p2(x2)ix2 —QO —QC cp*(y) se nazývá konvoluce funkcí (pi(xi), (p2(x2). Příklad Příklad: X ls X2 jsou stochasticky nezávislé náhodné veličiny, X i ~ Po(A, 0, i = 1, 2, Y = X 1 + X2, tc * (y) Řešení: 7li(xi): -J—e 1 pro x. = 0,1, xi! 0 jinak rc*(y)= é7t1(x1)^2(y-x1)=|x1 >0,y-X! ^O^O^X! 0). Pak pro rozložení pravděpodobností transformovaného náhodného vektoru Y = a + BX platí: a) Diskrétní případ: b) Spojitý případ: 7r,(y) = 7i(B-1(y-a)) o) ranpoi(seed, mean) • Uniform (interval (0,1) ) ranuni(seed) • Cauchy (0,1) rancau(seed) • Gamma (a) rangam(seed,a) 561 Seeds • A SEED - is a number used by the random number generator to start the algorithm • They can be any POSITIVE NUMBER or Zero • o seed = a different series of numbers each time you run the program. • Any positive seed = a repeatable series of numbers each time you run the program. 562 Syntax Funkce RAND Více viz: http://support.sas.com/documentation/cdl/en/lrdict/64 316/HTML/default/viewer.htm#a001466748.htm RAND [dist, parm-1,...,parm-k) Required Arguments dist is a character constant, variable, or expression that identifies the distribution. Valid distributions are as follows Distribution Argument Bernoulli BERNOULLI Beta BETA Binomial BINOMIAL Cauchv CAUCHY Chi-Square CHISQUARE Erlana ERLANC Exponential EXPONENTIAL F F Gamma GAMMA Geometric GEOMETRIC Hvperaeometric HYPERGEOliE TRIC Loanormal LOGNORMAL Neaative Binomial NEGBINOMIAL Normal NORMA L I GAUS S IAN Poisson POISSON I T Tabled TABLE Trianaular TRIANGLE Uniform UNIFORM Weibull WEIBULL Note: Except for T and F, you can minimally identify any distribution by its first four characters. parm-1.....parm-k are shape, location, or seals parameters appropriate for the specific distribution. 563 Funkce RAND Details Generating Random Numbers The RAND function generates random numbers from various continuous and discrete distributions. Wherever possible, the simplest form of the distribution is used. The RAND function uses the Mersenne-Twister random number generator (RNG) that was developed by Matsumoto and Nishimura (1998). The random number generator has a very long period (2*9937 _ 1) and very good statistical properties. The period is a Mersenne prime, which contributes to the naming of the RNG. The algorithm is a twisted generalized feedback shift register (TGFSR) that explains the latter part of the name. The TGFSR gives the RNG a very high order of equidistribution (623-dimensional with 32-bit accuracy), which means that there is a very small correlation between successive vectors of 623 pseudo-random numbers. The RAND function is started with a single seed. However, the state of the process cannot be captured by a single seed. You cannot stop and restart the generator from its stopping point. Reproducing a Random Number Stream If you want to create reproducible streams of random numbers, then use the CALL STREAMINIT routine to specify a seed value for random number generation. Use the CALL STREAMINIT routine once per DATA step before any invocation of the RAND function. If you omit the call to the CALL STREAMINIT routine (or if you specify a non-positive seed value in the CALL STREAMINIT routine), then RAND uses a call to the system clock to seed itself. Duplicate Values in the Mersenne-Twister RNG Algorithm The Mersenne-Twister RNG algorithm has an extremely long period, but this does not imply that large random samples are devoid of duplicate values. The RAND function returns at most 232 distinct values. In a random uniform sample of size 105, the chance of drawing at least one duplicate is greater than 50%. The expected number of duplicates in a random uniform sample of size M is approximately MV233 when M is much less than 2?1. For example, you should expect about 115 duplicates in a random uniform sample of size M=io6. These results are consequences of the famous "birthday matching problem" in probability theory. 564 Funkce RAND Bernoulli Distribution x = RANDf BERNOULLI'^) Arguments x is an observation from the distribution with the following probability density function: 1 p = 0, .T = 0 l-i 0 < p < 1, x = 0,1 p = 1,1=1 1 Beta Distribution Range: z = 0, 1 x = RANDfBETA\a,í>) P Arguments is a numeric probability of success. Range: 0^p^1 x is an observation from the distribution with the following probability density function Range: 0 < x < 1 a is a numeric shape parameter. Range: a > 0 is a numeric shape parameter. Range: b > 0 Funkce RAND Binomial Distribution x = RAN DfBI N OMI AL\p, n) Arguments x is an integer observation from the distribution with the following probability density function: Range: x = 0, 1, n P is a numeric probability of success. Range: 0 £p i 1 is an integer parameter that counts the number of independent Bernoulli trials. Cauchy Distribution Range: n = 1, 2, ... x = RAHDCCAUCHY") Arguments x is an observation from the distribution with the following probability density function: Range: - 566 Funkce RAND Chi-Square Distribution x = RAN DfCH ISQ U ARE", df) Arguments x is an observation from the distribution with the following probability density function: /(*) = 2 -dfl2 df{2-\ -x/2 Erlang Distribution Range: x > 0 x = RAND("ERLANG\a) df is a numeric degrees of freedom parameter Range: df > 0 Arguments x is an observation from the distribution with the following probability density function: Range: x > 0 a is an integer numeric shape parameter. Range: a = 1, 2, ... 567 Funkce RAND Exponential Distribution x = RAN Df EXPONENTIAL') Arguments x is an observation from the distribution with the following probability density function: Range: x > 0 F Distribution x = RANDfF,if, d) Arguments x is an observation from the distribution with the following probability density function: —.V Range: x > 0 n is a numeric numerator degrees of freedom parameter. Range: n > 0 Df is a numeric denominator degrees of freedom parameter. Range: cf > 0 568 Funkce RAND Geometric Distribution x = RAN DfG EOM ETRIC\p) Arguments x is an integer count that denotes the number of trials that are needed to obtain one success. X is an integer observation from the distribution with the following probability density function: (1-p)* lp 0 0 a is a numeric shape parameter. Range: a > 0 569 Funkce RAND Hypergeometric Distribution x = RAN D("H YP ER', iV, R,n) Arguments is an integer observation from the distribution with the following probability density function: fR\{N-R\ [n—x ) /(*) = (?) N R Range: x = max[0, [n - [N- R))), mm[n, R) is an integer population size parameter. Range: rV=1,2, ... is an integer number of items in the category of interest. Range: R = 0, 1, N is an integer sample size parameter. Range: rr = 1, 2.....N Lognormal Distribution x = RAN DfLOG NORMAL") Arguments x is an observation from the distribution with the following probability density function /C-T) = Range: x > 0 The hypergeometric distribution is a mathematical formalization of an experiment in which you draw rr balls from an urn that contains N balls, P. of which are red. The hypergeometric distribution is the distribution of the number of red balls in the sample of n. 570 Funkce RAND Negative Binomial Distribution x = RAN Df N EG Bl N OM \AL\p,k) Arguments x is an integer observation from the distribution with the following probability density function: Range: x = 0, 1, ... k is an integer parameter that is the number of successes. However, non-integer k values are allowed as well. Range: k - 1, 2, ... P is a numeric probability of success. Range: 0 < p <■ 1 The negative binomial distribution is the distribution of the number of failures before k successes occur in sequential independent trials, all with the same probability of success, p. 571 Funkce RAND Normal Distribution x = FWNdynormal\<,Ö,A> ) Arguments is an observation from the normal distribution with a mean of 6 and a standard deviation of A that has the following probability density function: 9 A^27 " \ 2X2 Range: -ra < x < ™ is the mean parameter. Default: 0 is the standard deviation parameter. Default: 1 Range: A > 0 Poisson Distribution x = RANDCPOISSONVvi} Arguments x is an integer observation from the distribution with the following probability density function: /0) = m s m Range: x = 0, 1, ... is a numeric mean parameter. Range: m > 0 572 Funkce RAND Tabled Distribution x = RAND[TABLE,,pi,p2, ...) Arguments x is an integer observation from one of the following distributions: n If Z pj < 1, then x is an observation from this probability density function: !=r /CO = Pi, i = 1. 2,...,n and /(n + l) = l- Ep, !=1 n If for some index E p,- > 1, then x is an observation from this probability density function: i'=l /CO =Pj, J = 1, 2,...,n - 1 and H-l /(*) = !- I?, i=l x = RAND(T,o7) Arguments is an observation from the distribution with the following probability density function Range: -M < x < °° rff is a numeric degrees of freedom parameter. Range: ttf > 0 p1,p2, ... are numeric probability values. Range: Q <■ p1, p2, ... <■ 1 Restriction: The maximum number of probability parameters depends on your operating environment, but the maximum number of parameters is at least 32,767. The tabled distribution takes on the values 1, 2.....n with specified probabilities. Note: By using the FORMAT statement, you can map the set {1, 2.....n) to any set of n or fewer elements. 573 Funkce RAND Triangular Distribution x = RAN D(TRI AN G LE',h) Arguments x is an observation from the distribution with the following probability density function 2' Q 0 is a numeric scale parameter. Range: b > 0 Generování v Excelu Suppose you want to model a discrete uniform distribution of demand where the values of 8 through 12 all have the same probability of occurring (uniform, equally likely). The spreadsheet has a function, =RAND(), that returns a random number between o and 1. However, this will result in a continuous uniform distribution. To create a discrete uniform distribution, use the INT() function. For example: Values for RAN DO í= 1NTÍ8+5*RAN D Q) 0 <=RAND0 < 0.2 8 0.2 <=RAND0 < 0.4 9 0.4 <=RAND0 < 0.6 10 0.6 <=RAND0 < 0.8 11 0.8 <=RANDQ < 1.0 12 In general, if you want a discrete, uniform distribution of integer values between x and y, use the formula: INT(X+ (y- x+ 1)*RAND() ) Generovani v Excelu Generating from the Normal Distribution. The normal distribution plays an important role in many simulation and analytic models. Normality is often assumed. Consider drawing a random demand from a normal distribution with a mean (m) of 1000 and a standard deviation (s) of 100. If Z is a unit normal random variable (normally distributed with a mean of o and a standard deviation of 1) then m + Zs is a normal random variable with mean m and standard deviation s. So, we can draw from a unit normal distribution. Excel has a built-in function that can do this: = NORMINV( RANDQ , 1000, 100) Excel will automatically return a normally distributed random number with mean 1000 and std. dev. 100. 577 Generování v Excelu (2007) If you want to generate random numbers in Excel between, say 1 and 10, use the RANDBETWEEN function. This function allows you to specify the range of numbers it is to pick from. The syntax for the RAND function is: = RANDBETWEEN ( Bottom, Top ) Bottom - the lowest number the function is to use. Top - the highest number the function is to use. Example Using Excel's RANDBETWEEN Function: =RANDBETWEEN (1,10) 1. Click on cell Ei in the spreadsheet - the location where the results will be displayed. 2. Click on the Formulas tab of the ribbon menu. 3. Choose Math & Trig from the ribbon to open the function drop down list. 4. Click on RANDBETWEEN in the list to bring up the function's dialog box. 5. Click on the "Bottom" line in the dialog box. 6. Type the number 1 (one) on this line. 7. Click on the "Top" line in the dialog box. 8. Type the number 10 (ten) on this line. 9. Click OK. 10. A random number between 1 and 10 should appear in cell Ei. 11. To generate another random number, press the F9 key on the keyboard. 12. When you click on cell Ei the complete function = RANDBETWEEN (1,10 ) appears in the formula bar above the worksheet. Use the RANDBETWEEN function to generate a random number between values you specify 578 -~ — Domú Vložení Rozložení stránky Vzorce Revize Zo b raze r Calibri 11 i' . T A — — 3^ Zalamovat text Vložit - í/ B ZU" j - — — — ĚjĚl Sloučit a zarovnat r Schránka ^ Písmo ri Zarovnaní C4 -í =N 0 RM1N V( RA N D B ETWEEN (1; 100)/101;0; 1) 10 11 12 13 0,23B| -0,111^1 -0,71397 -0,62092 -1,34626 1C 6 0,443953 7I 0^561792 -0,33435 1,042324 -0,5311 D Písmo Zarovnání X S Jt =ČETNOSTI($C$4:$C$33;$E$5:$E$ll) 6 7 8 9 10 11 12 13 14 15 -1,23234 -0,53296 0,779571 0,651302 -1,15095 0r315377 -0,02092 -0,77957 0,779571 0,062035 -0,34372 -1,48037 0,343716 -0,06209 1,346263 M N -Z ^2 -1 =ČETNOSTI($C$4:$C$33;$E$5:$E$ll)| 13 11 11 579 Inverse-Transform Method for Generating Non 1/(0,1) Random Numbers » Let F(x) be distribution function of X » Define inverse function of F by r\y) = inf {x: F(x) > y},0 < y < 1. * Generate X by x= » Example: exponential distribution F{x) = J\-e-%x X = F-\U) = -\\og{-\-U) 10. Číselné charakteristiky NV 581 v Číselné charakteristiky náhodných veličin Motivace: Doposud jsme pracovali s funkcionálními charakteristikami náhodných veličin (např. distribuční funkce, pravděpodobnostní funkce, hustota pravděpodobnosti), které plně popisují pravděpodobnostní chování náhodné veličiny. Číselné charakteristiky vystihují pouze některé rysy tohoto chování, např. popisují polohu realizací náhodné veličiny na číselné ose či jejich proměnlivost (variabilitu). Jsou jednodušší než funkcionální charakteristiky, ale nesou jen částečnou informaci. Podobně jako v popisné statistice volíme vhodnou číselnou charakteristiku podle toho, jakého typu je daná náhodná veličina - zda je ordinální nebo intervalová či poměrová. Číselné charakteristiky znaků mají své teoretické protějšky v číselných charakteristikách náhodných veličin. Definice: Nechť X je náhodná veličina aspoň ordinálního charakteru a a e (o,l). Číslo Ka(x) se nazývá a-kvantil náhodné veličiny X, jestliže splňuje nerovnosti:_ P(xaAP(x>Ka(x))>l-g Jiné možné označení kvantitu: x Kvantil K0,5o(X) se nazývá medián, Ko,25(X) dolní kvartil, K0,75(X) horní kvartil, kvantily K0,io(X),K0,9o(X) jsou decily, Ko,0i(X),K0,99(X) jsou percentily. Kterýkoliv a-kvantil je charakteristikou polohy číselných realizací náhodné veličiny na číselné ose. Jako charakteristika variability slouží kvartilová odchylka q = K0,7s(X) - K0,2s(X). a 582 Kvantil spojité N V K„(X) Důsledek: (pro spojitou náhodnou veličinu) Je-li X spojitá náhodná veličina, pak Ka(x) je takové číslo, pro které platí: a = o(Ka(x)) = Jcp(x)dx —00 Ilustrace: Příklad Příklad: Nechť X ~ Ex(l). Určete medián a kvartilovou odchylku. ä v r t \ [e xprox>0 ✓ x [l-e xprox>0 Reseni: q>(x) = <^ , ®(x) = <^ [Ojinak [Ojinak a = Ka (x) = -ln(l - a) Ko.5o(x) = - ln(l - 0,5) = -ln - = ln 2 = 0,693 K0 25(X) = -ln(l - 0,25) = -ln| = ln4-ln3 = 0,288 K0i75(x) = -ln(l - 0,75) = - ln - = ln 4 = 1,386 q = K0 75(x)- K0 25(X) = 1,386 - 0,288 = 1,098 Dolní kvartil Medián Horní kvartil 584 Kvantily vybraných rozložení NV Označení: X ~ N(0, 1) => Ka(X) = ua, X ~ X2(n) => Ka(X) = X2a(n), X ~ t(n) => Ka(X) = ta(n), X ~ F(rii, n2) Ka(X) = Fa(nb n2). Tyto kvantily najdeme ve statistických tabulkách. Při jejich hledání používáme vztahy: ta(n) = - ti_a(n), Fa(ni, n2) = -—---. Kvantily lze také vypočítat pomocí statistického software. Příklad: a) Nechť U ~ N(0, 1). Najděte medián a horní a dolní kvartil. b) Určete x2o,o25(25). c) Určete t0,99(30) a t0,05(14). d) Určete F0,975(5, 20) a F0,05(2, 10). Řešení: ad a) u0,5o = 0, u0,25 = -0,67449, u0,75 = 0,67449 ad b)xW25) = 13,12 ad c) to,99(30) = 2,4573, t0,05(24) = -1,7613 ad d) F0,975(5, 20) = 3,2891, F0,05(2, 10) = 0,05156 Kvantily transformované NV Věta: Nechť X je spojitá náhodná veličina s distribuční funkcí ®(x), a e (o,l) a g: r —»r ryze monotónní borelovská funkce. Pak pro a-kvantil transformované náhodné veličiny Y = g(X) platí: Ka(Y) = g(Ka(X)). Ka(Y) = gCKLoíX)). a) Je-li g všude rostoucí funkce, pak b) Je-li g všude klesající funkce, pak Důkaz: ad a) a = 0(Ka (x)) = p(x < Ka (x)) = p(g(x) < g(Ka (x))) = p(Y < g(Ka (x))) = O* (g(Ka (x))) => g(Ka (x)) = Ka (y) ad b) 1 - a = #(1^ (x)) = p(x < (x)) = p(g(x) > g(k^ (x))) = 1 - p(y < g(k^ (x))) = l-O* (g(k^ (x))) ^> g(k^ (x)) = ka (y) Příklad: Nechť U ~ N(0, 1). Najděte 9. decil transformované náhodné veličiny Y = 3 + 2U. Řešení: Funkce y = 3 + 2u je všude rostoucí funkce, tedy K0?90(Y) = 3 + 2 u0,9o = 3 + 2x 1,28155 = 5,5631. 586 Střední hodnota NV Definice: Nechť ( , JA, P) je pravděpodobnostní prostor, X náhodná veličina aspoň intervalového typu definovaná na měřitelném prostoru ( Q , JA). a) Je -li X diskrétní náhodná veličina s pravděpodobnostní funkcí ti(x) , pak její střední hodnota (vzhledem k P) je číslo E(x)= £x7i(x) , pokud suma vpravo je konečná nebo absolutně konverguje. Jinak řekneme, že střední hodnota neexistuje. b) Je-li X spojitá náhodná veličina s hustotou pravděpodobnosti R. je borelovská funkce, Y = g(X) je transformovaná náhodná veličina (resp. g : Rn \—> iČ je borelovská funkce, ľ = g(X\..... Jrn) je transformovaná náhodná veličina). Pak oo £(y) = ^ g(x)7v(x). pokud součet vpravo je konečný nebo absolutně konver- gentní (resp. E(Y) = Yl g{x\. .. . . in)ff(ii...., xn). pokud součet vpravo je konečný nebo absolutné konvergentní). a) Spojitý případ: Nechť X je spojitá náhodná veličina s hustotou tp(x) (resp. (Xi: .... Xn) je spojitý náhodný vektor s hustotou R je borelovská funkce. Y = g(Xi..... Xn) je transformovaná oo náhodná veličina). Pak E(Y) = J g(x)ip(x)dx. pokud integrál vpravo je ko _— oo_ nečný nebo absolutné konvergentní (resp. E(Y)= j ... / g(x,.......xn)ip(x1...... — oo —oo je konečný nebo absolutně konvergentní), xn)dxi . .. dxn. pokud integrál vpravo 589 Příklad Příklad: Nechť X ~ Ex(X), Y = e ~yX, kde y > O je konstanta, Vypočtěte E(Y). Řešení: (p(x)= , , e(y)= íe^e^dx 0 jinak * X + y Rozptyl NV Definice: Nechť ( Cl, JA, P) je pravděpodobnostní prostor, X náhodná veličina aspoň intervalového typu definovaná na měřitelném prostoru ( Cl, JA), která má střední hodnotu E(X). Rozptylem náhodné veličiny X rozumíme číslo D(X) = E([X-E(X)] 2), pokud střední hodnota vpravo existuje. Číslo V°(x) se nazývá směrodatná odchylka. (Rozptyl je číslo, které charakterizuje proměnlivost realizací náhodné veličiny kolem její střední hodnoty s přihlédnutím k jejich pravděpodobnostem. Je teoretickým protějškem váženého rozptylu. Je vhodnější počítat rozptyl podle vzorce jak bude ukázáno později.) d(x)=e(x2)-[e(x)] Důsledek: V diskrétním případě je rozptyl dán vzorcem d(x)= I[x-e(x)]2k(x)= ÍxMx)-[E(x)]J x=-°° x=-°° a ve spojitém případě vzorcem: □o 2 00 2 d(x)= j[x-e(x)] cp(x)dx ={x2cp(x)dx -[e(x)] (pokud suma či integrál vpravo absolutně konvergují). 591 Centrovaná a standardizovaná NV Definice: Transformovaná náhodná veličina X - E(X) se nazývá centrovaná náhodná veličina . Transformovaná náhodná veličina X, se nazývá standardizovaná náhodná veličina vd(x) Příklad: Náhodná veličina X udává počet ok při hodu kostkou. Vypočtěte její rozptyl. Řešení: ti(x)= 6prox 1>-">6;E(x) = 3,5(vizpř. 12.10.), d(x)= É x2 - - 3,5: 0 jinak x=1 35 .. = — = 2,92. 12 592 Kovariance a korelace NV Definice: Kovariancí náhodných veličin X i, X2, které mají střední hodnoty E(X:), E(X2), rozumíme číslo C(X i, X2) = E(1X i - E(X i)] IX 2 - E(X 2)]) (pokud střední hodnoty vpravo existují) Kovariance je číslo, které charakterizuje proměnlivost realizací náhodných veličin Xi,X2 kolem jej ich středních hodnot s přihlédnutím k jejich pravděpodobnostem. Je -li kovariance kladná (záporná), pak to svědčí o existenci jistého stupně přímé (nepřímé) lineární závislosti mezi realizacemi náhodných veličin X 1 , X2. Je-li kovariance nulová, pak říkáme, že náhodné veličiny X1 , X2 jsou nekorelované a znamená to, že mezi jejich realizacemi není žádný lineární vztah. Pozor -z nekorelovanosti nevyplývá stochastická nezávislost, zatímco ze stochastické nezávislosti plyne nekorelovanost. Kovariance je teoretickým protějškem vážené kovariance. Pro výpočet je vhodné použít vzorec c(x1,x2)=e(x1x2)-e(x1)e(x2) Koeficientem korelace náhodných veličin X 1 , X2 rozumíme číslo R(X!,X2) = 'Xí-ECXí) X2-E(X2)^ v pro VĎ(X7) VĎČX2T > 0 J pokud střední hodnoty vpravo existují. 0 jinak v Koeficient korelace je číslo, které charakterizuje těsnost lineární závislosti realizací náhodných veličin X 1, X 2. Cím bližší je 1, tím těsnější je přímá lineární závislost, čím bližší je -1, tím těsnější je nepřímá lineární závislost. Je vhodnější počítat koeficient korelace podle vzorce r(x x )- c(x,,x2) v 2 Vd(x1)a/d(x2) 593 Ko variance NV Důsledek: V diskrétním případě je ko variance dána vzorcem QO QO c(x1,x2)= £ Sbi-eíx^Hx^eíx^lTiOtpxJ: X, =-oo x2 =-o° a ve spojitém případě vzorcem QO QO C(XPX2)= j j[x1-e(xi)][x2-e(xi)]cp(x1,x2)dx1dx 00 00 Z Ex1x2^(x1,x2)-E(xi )E(X2) Xl =-oo x2 =-oo QO QO j jx1x2cp(x1,x2)dx1dx2 -e(xx) e(x2) Příklad Příklade: Náhodná veličina X udává příjem manžela (v tisících dolarů) a náhodná veličina Y příjem manželky (v tisících dolarů. Je známa simultánní pravděpodobnostní funkce 7i(x,y) diskrétního náhodného vektoru (X,Y): 7r(10,10) = 0,2, n( 10,20) = 0,04, 71(10,30) = 0,01,71(10,40) = 0,71(20,10) = 0,1, tt(20,20) = 0,36, tt(20,30) = 0,09, tt(20,40) = 0, tt(30,10) = 0, tt(30,20) = 0,05, 71(30,30) = 0,1,71(30,40) = 0, tt(40,10) = 0, tt(40,20) = 0, tt(40,30) = 0, tt(40,40) = 0,05,7i(x,y) = 0 jinak. Vypočtěte koeficient korelace příjmů manžela a manželky. Řešení: Náhodná veličina X i náhodná veličina Y nabývají hodnot 10, 20, 30, 40. Sestavíme kontingenční tabulku: X Y 10 20 30 40 ^i(x). 10 0,20 0,04 0,01 0,00 0,25 20 0,10 0,36 0,09 0,00 0,55 30 0,00 0,05 0,10 0,00 0,15 40 0,00 0,00 0,00 0,05 0,05 *2(y) 0,30 0,45 0,20 0,05 1,00 Spočteme E(X) = 10.0,25+20.0,55+30.0,15+40.0,05 = 20, E(Y) = 10.0,30+20.0,45+30.0,20+40.0,05 = 20, D(X) = 102.0,25+202.0,55+302.0,15+402.0,05 - 202 = 60, D(Y) = 102.0,30+202.0,45+302.0,20+402.0,05 C(X,Y)= 10.10.0,20+ 10.20.0,04+ ... 40.40.0,05-20.20 = 49, R(X,Y) = 49/V60V70 = 0,76. - 202 = 70, 595 Střední hodnota a rozptyl vybraných typů rozložení NV Poznámka: Uvedeme střední hodnoty a rozptyly vybraných typů diskrétních a spojitých rozložení: a) X ~ Dg(u) =í> E(X) = (i, D(X) = 0 b) X ~ A(3) ^> E(X) = 3, D(X) = 3 (1-3) c) X~Bi(n, 3) =í> E(X) = n3, D(X) = n3 (1-3) d) X ~ Ge(3) =í> E(X) = D(X) = 1-0 3 3' M Mn e) X ~ Hg(N,M,n) ^> E(X) = , D(X) = n M N N-n N-l f) X ~ Rd(G) =í> E(X) = n-l D(X) = n2-l 12 g) X ~ Po(X) =í> E(X) = X, D(X) = X h) X ~ Rs(a, b) =^> E(X) = ^, D(X) = i) X ~ Ex(X) => E(X) = I, D(X) = -1- X X2 j) X ~ N((i, o2) =^> E(X) = D(X) = o2 k) X ~ x2(n) => E(X) = n, D(X) = 2n 1) X ~ t(n) => E(X) = 0 pro n > 2, pro n = 1 E(X) neexistuje, D(X) n n-2 pro n > 3, pro n = 1, 2 D(X) neexistuje m) X ~ F(ni, n2) E(X) = —^— pro n2 > 3, pro n2 = 1, 2 E(X) neexistuje, D(X) = 2^2 (ni ^2—"iL pro n2 > 5 pro n2 n2-2 ni(n2-2) (n2-4) 2, 3, 4 D(X) neexistuje. 596 Příklad Příklad: V sadě 15 výrobků je 5 zmetků. Náhodně vybereme 4 výrobky. Určete střední hodnotu a rozptyl náhodné veličiny X, která udává počet zmetků, jestliže výběr provádíme a) bez vracení, b) s vracením. Řešení: ad a) X ~ Hg(N, M, n), N = 15, M = 5, n = 4 E(x) = Mn = A4 = 4=1,3,D(x) = M£ N 15 3 N r M 1- N-n f N-l 1- — v 15y 11 _ 44 14 ~ 63 0,6984 adb)X~Bi(n, S), n = 4, ô = t| = ^ E(X) = nô = 4^ = 1,3, D(X) = nô(l - ô) = | ŕ 1-1 V 3y 0,8 597 Příklad Najděte medián rozložení určeného hustotou (p(x) = 1 - x/2, 0 < x < 2. v Řešení: Distribuční funkce: F(x) = 0 pro x < 0, F(x) = 1 pro x > 2 a F(x) = jl--dt = x- — proxe(0,2) 2 4 u Medián x0 5 je řešením rovnice F(x) = 0,5 , tedy 2\ _ „ 4 + ^/16-8 x -4x+2=0 => xK2 = = 2 + V2 = 3,4142 0,5857 Protože 3,4142 > 2, je hledaným řešením x0 5 = 0,5857. F(x) Příklad Náhodná veličina má hustotu (p(x) = a • e |x| x rozptyl. 2 (—oo, oo.)Určete a, střední hodnotu a Řešení: a = l/ 2JVxdx OO OO ^ 00 ^ e(x) = Jx^(x)dx= Jx-e"|x|dx = 0 d(x)=e(x2) = jV -e"|x| dx = 2 -00 -00 -00 E(X) 599 Příklad Nechť životnost (v letech) výrobků se řídí exponenciálním rozložením s distribuční funkcí F(x) = l-e_x/5, x > 0. Tj. střední doba životnosti je 5 let. Tvar distribuční funkce znamená, že k poruše výrobku dojde s velkou pravděpodobností velmi brzy po jeho prodeji. Jakou záruční dobu stanoví výrobce, nemá-li počet reklamovaných výrobků překročit 10%? Řešení: Náhodná veličina X udává životnost výrobku. Hledáme takové x, aby platilo P(X < x) = 0,1 Tedy hledáme 10% kvantil. ■=> 0,l = l-eV5 c=> x = -5 ln(0,9) = -5 • (-0,10536) = 0,5268 Pro splnění požadované podmínky je třeba stanovit záruční dobu na cca Vi roku. 600 Příklad Nechť životnost (v letech) výrobků se řídí Weibullovým rozložením s distribuční funkcí F(x) = i_e-(x/4)A5 ? x > 0. Tj. střední doba životnosti je cca 3.67 let. Tvar distribuční funkce znamená, že k poruše výrobku pravděpodobně nedojde hned po jeho prodeji, ale až po nějaké době. Jakou záruční dobu stanoví výrobce, nemá-li počet reklamovaných výrobků překročit 10%? Řešení: Náhodná veličina X udává životnost výrobku. Hledáme takové x, aby platilo P(X < x) = 0,1 Tedy hledáme 10% kvantil. ^ 0,1 = i - x = 4 • 5/-ln(0,9) =2,55 Pro splnění požadované podmínky je třeba stanovit záruční dobu na cca 2,5 roku. 601 Momenty, šikmost a špičatost NV Definice: Nechť X. X\. X 2 j so n náhodné veličiny, k.ki.kz G R. r. s G N. a) Číslo E ([X — k]r) se nazýva r-1 ý nrmnrieiil: náhodné veličiny A kolem konstanty k. Je-li Ä: = 0, jde o r-tý [Miŕáttíŕní TrtnirteTit. je lí A; = E (X), jedná se o T-tý cfíTiírální írmTrteiit. b) Číslo E{\X\ — kiY\X-2 — k^Y) se nazývá r x s-tý rrioímtmt náhodných veličin X\. X% kolem konstant ki.k%. Je-li k\ = k% = 0. jde O r x,s-1 ý pnčátťční TiLíJiiieTit. je lí h] = E{Xi).fz2 = EiXz). jedná se o rxa-tý t-tíntrální moment. Číslo 4(x)=- _4*-*wr) se nazývá šikmost náhodné veličiny X. Číslo se nazývá špičatost náhodné veličiny X. Je-li A3(X) = 0, jde o symetrické rozložení. Je-li A3(X) > 0, jde o kladně sešikmené rozložení a je-li A3(X) < 0, jde o záporně sešikmené rozložení. Je-li AztXX) = 0, jde o rozložení s normální špičatostí. Je-li A4(X) > 0, jde o špičaté rozložení a je-li A^X) < 0, jde o ploché rozložení. 602 Vektor středních hodnot, variační a korelační matice náhodného vektoru Definice: Xecliť X. = (X-\..... Xn)r je náhodný vektor. Reálný vektor E(X) = (E(Xi),... . E(Xn)Y se nazývá vtiktnr středních horhitit. Reálná čtvercová symetrická matice / D(Xi) C(XUX2) ... C(XuXn) \ var CK] = í \C(X7l..X1) C(Xn,X2) ... D{Xn) J se nazývá vhi-íhtičtií matice náhodného vektoru X a reálná čtvercová syinet cická matice / 1 R(Xl7X2) ... R(Xl7Xn) \ cor(X.) = í ... V RÍXn.Xi) R(Xn,X2) ... 1 J se nazývá korelační matic-e náhodilého vektoru X. 603 Příklad Příklad: Pro náhodný vektor (X, Y) z příkladu J3 (str. 341). najděte vektor středních hodnot, varianční a korelační matici. Řešení: Bylo spočteno, že E(X) = 20, E(Y) = 20, D(X) = 60, D(Y) = 70, C(X,Y) = 49, R(X,Y) = 0,76. v Řešením j sou tedy: E(X)= _ ,var(x) V20y r60 49^ 49 70 ,cor(x) = f 1 0,76^ 0,76 1 604 Vlastnosti číselných charakteristík NV Věta: Nechť a, a i, a2, b, b i, b2 jsou reálná čísla, X, X 1?X n, Y 1?Y m jsou náhodné veličiny definované na témž pravděpodobnostním prostom. V následujících vzorcích vždy z existence číselných charakteristik na pravé straně vyplývá existence výrazu na levé straně. Vlastnosti střední hodnoty a) E(a) = a b) E(a + bX) = a + bE(X) c) E(X - E(X)) = 0 f n \ d) E Xxi = Ee(Xí) Vi=l i=l e) Jsou -li náhodné veličiny X i,X f n ^ stochasticky nezávislé, pak E n xi V i=l J = flECXi) i=l 605 Vlastnosti číselných charakteristík NV kovariance Vlastnosti kovariance a) C(a j, X2) = C(X 1? a2) = C(a h a2) = 0 b) C(a j + b jXi, a2 + b2X2) = b !b2C(X 1? X2) c) C(X, X) = D(X) d) C(Xl9X2) = C(X 2, X x) e) C(X 1? X 2) = E(X XX2) - E(X ^(X 2) f) C ^ n m ^ v i=i j=i y i=i j=i Vlastnosti číselných charakteristík NV -rozptyl Vlastnosti rozptylu a) D(a) = 0 b) D(a + bX) = b 2D(X) c) D(X) = E(X 2) - [e(X)]: f n n-1 n f n d) D Jxi = 2 D(Xi) + 2X Ya C(Xi,Xj) (jsou -li náhodné veličiny X b X n nekorelované, pak D Jxi ví=i y i= i SdcXí)) i=l i=l j=i+l ví=i y 607 Vlastnosti číselných charakteristík NV korelace Vlastnosti koeficientu korelace a) R(a i, X2) = R(X b a2) = R(a u a2) = 0 b) R(ai+biX1,a2 + b2X2) = sgn(b 1b2)R(X1,X2) c) R(X, X) = 1 pro D(X) ŕ 0, R(X, X) = 0 jinak d) R(XbX2) = R(X 2, X O e) R(XbX2) = -pi2^=L=pro VDÍX^VDÍX^ > 0 VD(X1)VD(X2) 0 jinak Vlastnosti střední hodnoty - důkaz Důkaz: Pro vlastnosti střední hodnoty J1 pro x ad a) X ~ Dg(a), n(x)= [o jinak ,e(x)= X x7i(x)= aít(a)= a -1 = a uu uu uu uu uu ad b) Diskrétní případ: E (a + bx)= X (a + bx)rc(x) = E a^(x)+ X bx7i(x) = a X n(x)+ b X xti(x) = a + bE(x) 00 00 00 Spojitý případ: E(a + bX) = j (a + bx)(p(x)dx = a ^(p(x)dx + b Jx(p(x)dx = a + bE(x) —00 —00 —00 ad c) Plyne z (b), kde a = -E(X), b = 1. ad d) Spojitý případ: oo oo V í=l J —oo —oo oo oo oo oo j* * * * j* x^cpix^ j • • • j xn ^dx^' -oo —oo oo oo oo -oo —oo oo oo oo -oo —oo —oo -oo —oo —oo = J (*i )^i+• • • + J p« k =E(xi )+•••+)=S ^(x<) Vlastnosti střední hodnoty - důkaz ad d) Diskrétní případ: analogicky jako ve spojitém případě, ad e) Spojitý případ: í n \ oo oo E\ T\X> \ = \---\{xl-...-xn)(p(xl,...,xn)dxl---dxr z—1 y —oo —oo 00 00 = \---\{xl-..^xn)(p(xl)-..^(p(xn)dxl---dxn = —00 —00 00 = Ix^x^dx,-...- x\xn(p(xn)dxn = -00 —00 n i=\ ad e) Diskrétní případ: analogicky jako ve spojitém případě. Vlastnosti kovariance - důkaz Pro vlastnosti kovariance: ad a) c(ai, x2) = Efla, - Efo )][x2 - e(x2 )]) = Efc - a, ][x2 - e(x2 )]) = e(o) = o ad b) C(ai +b1X1,a2 +b2x2) = E([ai +b1X1 - (a, +b1E(x1))][a2 +b2x2 -(a2 +b2E(X2))]) = b1b2E([xi -E^Jx, -E(X2)]) = b1b2C(x1,X2) ad c) c(x, x)=e([x - e(x)][x - e(x)])=e([x - e(x)]2 ) = d(x) ad d) c(xx, x2)=eJx, - e(xx )][x2 - e(x2 )])=e([x2 - e(x2 )Ix, - e(xx )])=c(x2, x,) ad e) c(xpxJ = e([x1-e(xJIx2-e(xJ]) = e(x1x2-x2e(xJ-x1e(xJ+e(x1)e(xJ) = e^^ = e(x1x2)-e(x1)e(x2) ad f) c f n m "N V i=1 j=l ) in \ 2X-ejx V i=i J i=l m f m ^ Iy.-eXy, J=1 V J=l J ^ r = e éix, -eíxjé^ -e(yj)] = ±±[xi -e(xl)][yj - e(yj)] = i=l j=l i=l j=l nm. . i=l j=l 611 Vlastnosti rozptylu - důkaz Pro vlastnosti rozptylu: ad a) d(a) = e§a - e(a)f ) = e§a -af)= e(o) = 0 ad b) ad c) ad d) d(a + bX) = E§a + bX - E(a + bX)]2) = E§a + bX - a - bE(X)f ): = E(b2 [X - E(X)f ) = b2d(X) d(X) = e([x -E{X)f)= e(x2 - 2XE(X) + [E(X)f)= = e(x2)-2E(x)e(x)+[E(X)J = e(x2)-[E(X)]2 í n \ f n n ^ ÍT^cWx>,Yjx] \ 1=1 J \,=1 J=l J = c{x1,xi)+c{xi,x2)+...+c(xi,x„)+...+ +c{x„,xl)+c{x„,x2)+...c{x„,xn)= n n 7=1 7=1 n—l n = X^,)+2XZC(X,,X7) 7=1 7=1 7=7 + 1 612 Vlastnosti korelace - důkaz Pro vlastnosti koeficientu korelace: ad a) Plyne přímo z definice, protože D^) = D(a2) = 0, í ad b) R(ax + bxXx, a2 + b2X2) = E a, +blXl— E{ax +blXl) a2+ b2X2 — E(a2 + b2X2) V jD(ai+b,X,) jD(a2+b2X2) = E ax +b1X1 —ax a2 +b2Xx —a2 —b2E(X2) 4b22D(X2) J ^■^R{Xx,X2) = sm{bi-b2)R{X„X2) 613 Vlastnosti korelace - důkaz ad c) Pro D(X) = 0 plyne přímo z definice, jinak platí R(X,X) = E x - e(x) x - e(x) D(X) U E(X)f). D(X) D(X) ad d) Zřejmé. f ad e) R(X19X2) = E Xx-E{xx) X2-E(X2) JWQ JD(X2) _ E(\XX - E{XX)] • [X2 - E(X2)]) _ C{XX, X2) ^D{XX)^D{X2) Příklad Příklad: Vypočtěte střední hodnotu a rozptyl a) centrované náhodné veličiny Y = X - E(X), x — eíx^ b) standardizované náhodné veličiny u = . ,y. v Řešení: ad a) E(Y) = E(X - u) = E(X) - E(u) = |i - |i = 0, D(Y) = D(X - u) = D(X) = o2, adb) E(U) = E(--^) = -E(X-u) = - .0 = 0, D(U) = D(--^)= \d(K - u) = \. o2 = 1. Příklad: Náhodné veličiny X, Z jsou náhodné chyby, které vznikají na vstupním zařízení. Mají střední hodnoty E(X) = -2, E(Y) = 4 a rozptyly D(X) = 4, D(Y) = 9. Koeficient korelace těchto chyb je R(X,Y) = -0,5. Chyba na výstupu zařízení souvisí 2 2 s chybami na vstupu funkční závislostí Z = 3X - 2XY + Y - 3. Najděte střední hodnotu chyby na výstupu. Řešení: E(Z) = E(3X2 - 2XY + Y2- 3) = 3E(X2) - 2E(XY) + E(Y2) - E(3) = 3{D(X) + [E(X)]2} - 2[C(X,Y) + E(X)E(Y)] + D(Y) + [E(Y)]2 - 3 = 3[D(X) + [E(X)]2] - 2[R(X,Y)^DPQ^[Ď(YJ + E(X)E(Y)] + D(Y) + [E(Y)]2- 3 = 3(4 + 4) -2[-0,5x2x3 + (-2) x4] + 9 + 16 - 3 = 24 + 22 + 25 - 3 = 68 615 Příklad Náhodná veličina X udává počet ok při hodu kostkou. NV Y = 2+ 3X. Vypočtěte: a) E(X) a D(X), b) E(Y) a D(Y), c) C(X,Y), d) R(X,Y). 1 6 1 6 91 Řešení: a) E(X) = -Y x = 3,5 D(X) = -V x2 -E(X)2 =--3,52 =2,9167 6 x=i 6 x=l 6 b) E(Y) = E(2 + 3X) = 2 + 3E(X) = 2 + 3 • 3,5 = 12,5 D(Y) = D(2 + 3X) = 32 D(X) = 9-2,9167 = 26,25 c) C(X,F) = C(X,2 + 3X) = 3C(X,X) = 3D(X) = 3-2,9167 = 8,7501 d) /?(A\ Y) = R(X,2 + 3X) = sgn(3)/?(A\ X) = 1 • 1 = 1 616 Příklad Náhodná veličina X udává součet počtu ok při hodu 2 kostkami. Vypočtěte E(X). Řešení: Nebo: X{ ... počet ok při i-tém hodu, i = 1,...,6 E(X,) = 3,5 E(X) = EÍfjx] = fjE(X,) součet 2 3 4 5 6 7 8 9 10 11 12 Celkem z=l počet možností 1 2 3 4 5 6 5 4 3 2 1 36 z=l možnosti 11 12 21 22 13 31 23 32 41 14 33 24 42 51 15 34 43 25 52 16 61 44 35 53 26 62 54 45 36 63 55 64 46 56 65 66 í>5 z=l = 7 E{X) 12 = ^ X7T(x) x=2 36 + 7-6 + 8-5 + 9-4 + 10-3 + 11-2 + 12-1) = 252 ~36 = 7 617 Markovova nerovnost Věta (Markovova nerovnost): Nechť pro náhodnou veličinu X se střední hodnotou E(X) platí P(X Vs >0: p(x >se(x))<-. > 0) = 1. Pak platí Markovova nerovnost: Ilustrace pro spojitý případ: \ f(X) = ? 'S ve EfK) E EfK) Důkaz: Pro spojitý případ: oč oo oo oo E(x) = ^x ^x j s E(x)P(X>sE(x))<- s E(X) \q>(x)dx = s E(X)P(X > s E(x)) sE(x) 618 Příklad Příklad: Nechť p(X > 0) = 1 a E(X) = 5, kde 5 > 0 je konstanta, a) Odhadněte p(x > 35). b) Nechť X ~ Ex - . Vypočtěte p(x > 35). Řešení: ad a) p(x >35)<^- = 0,3 adb)X~ Ex

0? E(x)=5,p(x>35)=jle-idx [Ojinak 35 - e 0,04975 J35 Cebyševova nerovnost Věta (Cebyševova nerovnost): v Nechť náhodná veličina X má střední hodnotu E(X) a rozptyl D(X). Pak platí Cebyševova nerovnost: Vt > 0: p(jx - e(x) > tVĎ(x)) < \. f(x) = ? Ilustrace pro spojitý případ: Bpq-tTJ D{X) E{X> E(X) + t%D(X) Důkaz: Pro spojitý případ: Plyne z Markovovy nerovnosti, kde položíme Y = [x-e(x)]2. Pak p(y>o) = 1 a pro V8>0:P(y>8E(y))<1, tj. pro Ve>0:p([x-E(x)]2 > eEfx - e(x)]2 )) < -. Položme s = t2. Po odmocnění máme S 8 Vt > 0: p(jx - E(x) > t V5(x)) < ^. 620 Příklad Příklad: Nechť E(X) = u, D(X) = a2. a) Odhadněte P(jx-u| >3c). b) Jestliže X ~ N(u, o2), vypočtěte P (|x - > 3a). v Řešení: ad a) P(|X-u|>3g) < -i-= - = 0,1. n 1 ' ý 9 (Tomuto výsledku se říká pravidlo 3a a říká, že nejvýše 11,1% realizací náhodné veličiny leží vně intervalu (jí - 3a, jí + 3a).) ad b) P(jx-u| >3a) = 1 - P(-3o < X - u < 3a) = 1 - P(-3 < ^ii< 3) = 1 - d>(3) + d>(-3) = 2[1 - 0(3)] = 2(1 - 0,99865) = 0,0027. (Má-li náhodná veličina normální rozložení, pak pouze 0,27% realizací leží vně intervalu (jí - 3a, jí + 3a).) 621 Cauchy - Schwarzova - Buňakovského nerovnost Věta (Cauchyova - Schwarzova - Buňakovského nerovnost): Nechť R(xb x2) je koeficient korelace náhodných veličin xb x2. Pak |R(x1,x2)| <1 a rovnost nastane tehdy a jen tehdy, když mezi veličinami xb x2 existuje s pravděpodobností 1 úplná lineární závislost, tj. existují konstanty a, b tak, že P(x2 = a + bX0 = 1. Důkaz: Zavedeme standardizované náhodné veličiny 11= Xi_j^&) y { - \y 2. 0 < D(ux + u2) = D(ux)+2c(ux, u2)+D(u2) = 2[l ± R(xx , x2)] => |r(xx , x2) < 1. Předpokládejme nejprve, že R(xb x2) = 1. v tomto případě počítáme d(u1 -u2) = 2[l-R(x1,x2)] = 0. To je možné jen tak, že P(UX = U2) = 1, tjPfa - U2 = 0) = 1, tj. 1 = P X1-e(X1)_X2-e(X2) yl^Q VD(X2) = P x2=e(x2)- Xx tudíž a = E(X2) «E(x1),b=W. VĎ(X^ VĎ(X^ Předpokládáme-li, že R(Xi, X2) = -1, pak počítáme + U2). Nechť naopak p(x2 = a + bXx) = 1. Pak r(xx,X2) = r(xx,a + bXx) = sgn^r^,xl)= sgn(b) = lprob > 0 -lprob < 0 622 11. Slabý zákon velkých čísel a centrální limitní věta, úvod do testování hypotéz Falling Probabilities (1000 Times) o ■6 500 500 1 2 3 4 5 6 2 4 6 8 10 12 Heads Tails GREEN OEUY BEPNS UMKED VyV...... Ii,. 3 6 9 12 15 18 .„il Ii... 4 8 12 16 20 24 +ÉfÄj_ŕt*,ij|6 12 18 24 30 36 ■■■lllllllllllllh. Lím . yxcnwx i______a* C0JÜC10O«! V.rv, « 623 Slabý zákon velkých čísel a centrálni limitní věta S rostoucím počtem opakovaných nezávislých pokusu zjišťujeme, že empirické charakteristiky které popisují výsledky těchto pokusů, se blíží teoretickým charakteristikám. Například relativní četnost úspechu se blíží pravdepodobnosti úspěchu; průměr měření zatížených náhodnou chybou se blíží hledané neznámé střední hodnotě; empirická distribuční funkce se blíží distribuční funkcí. Těmito skutečnostmi se zabývá Slabý zákon velkých čísel, specifikovaný např. Cebysevovou větou, nebo Bernoullíovou větou. Podstatou centrální limitní vety je tvrzení, že náhodná veličina A", která vznikla jako součet velkého poctu vzájemně nezávislých náhodných veličin Xj> X2,..., Xn má za velmi obecných podmínek přibližně normální rozdělení. Nej jednodušší specifikací centrální hmitní věty je Moivre-Laplaceova věta. Zobecněním Moivre-Laplaceovy věty je věta Lŕndbergova-Lévyova. Nejobecněji centrální limitní vetu formuloval Ljapunov, jeho větu však nebudeme uvádět. V současné době, kdy databáze mají ohromné množství položek, je aplikace CLV nesmírně užitečná. Při uvedení zmíněných vet se neobejdeme bez pojmu konvergence posloupnosti náhodných veličin. V počtu pravděpodobnosti se nabízí řada způsobů, jak konvergenci posloupnosti náhodných veličin definovat, my si uvedeme následující tři. Typy konvergence posloupnosti NV Definice: Říkáme, že náhodná posloupnost {X1} X2> ^ > Xn, . . .) konverguje k náhodné veličině X (i.) jistě, právě když všechny realizace náhodné posloupnosti (Xi(oj), X2(íj), . .., X„(^j), ...) konvergují k realizaci náhodné veličiny X(uj). Tedy platí: Vw € íí : lim Iny = iy [Jedná se o v obyčej nou" konvergenci číselné posloupnosti] (ii.) podle pravděpodobnosti, právě když pro každé e > 0 platí: UmP(|X„-X|<£)=l TI—tCO [Při vzrůstajícím počtu pokusů jsou větší odchylky Xn od X krajně nepravděpodobné] (iii.) v distribuci^ právě když pro distribuční funkce Fi(xj) ™ X\^. ,Fu{xn) ^ Xn,..., popf. F{x) r^> X platí: ^lirn^ Fn(x) = F{x) pro všechna x, kde je funkce F spojitá [Jedná se o nej slabší z uvedených typů konvergence, definuje se jen s užitím distribučních funkcí] 625 Typy konvergence posloupnosti NV Poznámka: Náhodná posloupnost (Xi, X2i ■ ■ ., Xn,...) může konvergovat i ke konstantě, což je v předchozí definici zahrnuto. Stačí uvažovat náhodnou veličinu X degenerovanou. Věta: Nechť (X1, X2i..., Xn. .. .) je náhodná posloupnost. 1. Jestliže tato náhodná posloupnost konverguje k náh. vel. X jistě, pak k ní nutně konverguje i podle pravdepodobnosti. Konverguje-li k X podle pravděpodobnosti, pak k ní nutně konverguje i v distribuci. [Obrácené implikace obecně neplatí.] 2. K tomu, aby náhodná posloupnost (X\. X2?..., Xn,...) konvergovala podle pravděpodobnosti k číslu /i, stačí splnění podmínek lim E(Xn) = U A lim D(Xn) = 0 626 Slabý zákon velkých čísel - Cebyševova věta Věta: Cebyševova (slabý zákon velkých čísel) Nechť náhodná posloupnost (X\, A2,.... Xn,...) je posloupnost stochasticky nezávislých a stejně rozložených náhodných veličin se stejnou střední hodnotou fi a stejným rozpty- 2 n lem o1. Potom náhodná posloupnost aritmetických průměrů (AV ^ H A',..... — ]£ Aj,...) 1 = 1 i— i konverguje podle pravděpodobnosti ke střední hodnotě //. Tedy pro každé e > 0 platí: p(lr£*«-/*li - °2 n ~x n€2 neboh 11 i=l [Při velkém počtu nezávislých pokusů můžeme téměř jistě očekávat, že aritmetický průměr jednotlivých pokusů se bude od střední hodnoty fi lišit krajně nepatrně. Proto při dostatečně velkém n lze střední hodnotu // odhadnout průměrem výsledků jednotlivých pokusů.] 627 Bernoulliova věta Věta: Bernoulliova (důsledek Čebysevovy vety) Nechť náhodná veličina Yn udává počet úspěchů v posloupnosti n nezávislých opakovaných pokusů, kdy úspěch nastává v každém pokusu s pravděpodobností ů? 0 < ů < 1. Pak posloupnost relativních četností (Y1} . . . ^7...) konverguje podle pravděpodobnosti k pravděpodobnosti úspěchu ů. Tedy pro každé e > 0 platí: neboli lim -rfl < e) = 1 TI—»00 V 7^ 628 Příklad Příklad: Pravděpodobnost vyrobení zmetku je 3^55■ Při výstupní kontrole bylo testováno 3000 výrobků. Jaká je pravděpodobnost, že relativní četnost výskytu zmetků se od pravděpodobnosti výskytu zmetku lisí nejvýše o 0,01? v Řešení: í Označme Y3000 náhodnou veličinu udávající počet zmetků (úspěchů) v 3000 pokusech. Potom Vsooo ~ Z??(3000, ^) Relativní četnost úspěchů by se s rostoucím n měla blížit k pravděpodobnosti úspěchu. My chceme určit pravděpodobnost, že pro n — 3000 se relativní četnost úspěchů od pravděpodobnosti úspěchu neodchýlí o více, než o 0,01. Tedy v Bernoulliove větě budeme za £ volit 0,01. Pro každé e > 0 platí: P(|*f - Ů\ < e) > 1 - Tedy P(|$£ - 3&i < 0,01) > 1 - ^"jj^ = 0.872 Pokud bychom chtěli využít přímo Cebyševovu větu, pak bychom za Xt volili náhodnou veličinu s alternativním rozložením, kde jednička symbolizuje vyrobení zmetku (úspěch) a nula vyrobení kvalitního výrobku. Tedy ATi ~ ^(^), i = 1,'.... 3000 b(xt) = ^ d(x<) = ^(l - 3^); X,, ... X3000 jsou stoch. nezávislé. Dále stačí za £ volit 0,01 a dosadit do Cebyševovy věty. (Uvědomte si, že binomická náhodná veličina vzniká jako součet nezávislých, stejně rozložených alternativních náhodných veličin.) 629 Centrální limitní věta Věta: Lindbergova-Lévyova (centrální limitní věta) Nechť náhodná posloupnost (Xi,...,Xnt...) je posloupnost stochasticky nezávislých a stejně rozložených náhodných veličin se stejnou střední hodnotou /i a stejným rozptylem h a2. Uvažme součet X = E Xi a odvoďme střední hodnotu a rozptyl nově náhodné velicí činy X. E(X) = E{ E A',) = E E(Xt) = E /z = nfi i=l 1=1 1=1 n n n D(X) = D(E Xt) = E D{Xt) = E (r2 = na2 t=l í-l i-1 E A'i-nn Nyní uvažme standardizovaný součet Un = ' , = ' la ^— n můžeme libovolně zvět- šovat] Potom náhodná posloupnost standardizovaných součtů (U\, Ui<..., Un....) konverguje v distribuci k náliodné veličině U ~ ;Y(0. 1). Tedy Vu € R : lim P(U„ < u) = ľ —^<~^ dt n^°° ~ j-oc v/2Ťr Zkráceně píšeme Un & N(0.1) a říkáme, že Un se asymptoticky řídí normálním standardi- zovaným rozložením. [Všimněte si. ze l',, — ——^--. Centrální limitní vetu tedy tvrdí, že s rostoucím n se distribuční funkce průměrů náhodných veličin X\,..., Xn blíží distribuční funkci normálního rozložení se střední hodnotou li a rozptylem . Toto nastává bez ohledu na původní rozložení náhodné veličiny X.\ 0ÓU Moivre - Laplaceova věta Věta: Moivre-Laplaceova (důsledek Lmdbergovy-Lévyovy věty) Nechi Yn ™ Bi(n, ů)7 n = 1, 2,.... Potom E(Yn) = nů D(Yn) = ™í?{l - tf) a Un = A7 (O,1) (Moivre-Laplaceova věta říká, že při dostatečně velkém počtu nezávislých pokusů konverguje v distribuci binomické rozdělení k normálnímu.] Poznámka: Na základě Moivre-Laplaceova věty se používá přibližný vzorec, který nahrazuje pracný výpočet distribuční funkce binomického rozložení jednoduchým hledáním v tabulkách distribuční funkce normálního standardizovaného rozložení. Porovnejte Přesný výpočet: P(Yn <»)= E f?)#'(l - ••• náročná sumace Aproximace normálním rozložením: P(Yn < y)= P ( YfCf < rnx) ) * * ( r'"* ) ~ N(°- l)i kde <£(u) je tabelovaná distribuční funkce standardizovaného normálního rozložení. Aproximaci je vhodné použít pokud jsou splněny následující podmínky: nt?(l-t?)>9 A -T70 v 15 y > 0,975, Vň tedy — > u0 975 = 1,96 => Vň > 29,4 n > 865. 632 Příklad 100-krát nezávisle na sobě házíme kostkou. Jaká je pravděpodobnost, že šestka padne aspoň 20-krát? v Řešení: Označme Y"10n náhodnou veličinu, udávající počet padnutých šestek ve 100 hodech, yl00 ~ bí(ioo, i). Nejdříve ověříme podmínky pro použití aproximace normálním rozložením: 7itf(l - 9 A loT < i < I§T> tedy obé Podmínky jsou splněny. Hledanou pravděpodobnost odhadneme pomocí Moivre-Laplaceovy věty. P(Y1GQ > 20} = 1 - P(Yl00 < 20) - P{Y100 < 19) = 1 - P ( W100/* < lp-100/B ) ~ 1 - F(ř/n < 0, 626) 1 - $(07 626) = 1 -0,73565 = 0,2635. (Přesný výpočet pomocí softwaru by vysel 0.2198.) Aproximace binomického rozložení normálním rozložením nemusí být vždy nej vhodnější. Pro extrémně malé pravděpodobnosti úspěchu i) užíváme přibližný vzorec, který vychází z Poissonovy věty. 633 Poissonova věta Věta: Poissonova Nechť }\) Y%.... je posloupnost stochasticky nezávislých náhodných veličin. Yn ^ Bi{n^ ůn), n — L 2,... a platí lim nůn = A. Pak posloupnost Y\.Y^ .. .Ym ... konverguje v distribuci k náhodné veličině Y ™ Po{\). tedy Yn Po{\), [Náhodná veličina Y má Poissonovo rozložení s parametrem A. náhodnou veličinu Yn s binomickým rozložením lze aproximovat Poissonovýn rozložením. 634 Příklad Poznámka: Na základě Poissonovy věty se používá přibližný vzorec, který nahrazuje pracný výpočet distribuční (resp. pravděpodobnostní) funkce binomického rozložení jednoduchým hledáním v tabulkách distribuční (resp. pravděpodobnostní) funkce Poissonova rozložení. •P(Yn < y) = £ ŕ?V?r(l - ™ Fnůiv) ~ Po(nŮ), kde Fnť{y) je distribuční funkc< Poissonova rozložení s parametrem A = ni? 635 Příklad Během zkoušky spolehlivosti se přístroj porouchá s pravděpodobností 0,05. Jaká je pravděpodobnost, že při zkoušení 100 přístrojů se jich porouchá právě 5? v Řešení: Označme Vl00 náhodnou veličinu, udávající počet porouchaných přístrojů ve 100 zkouškách, Vioo ~ £«(100; 0, 05). Nejdříve ověříme podmínky' pro použití aproximace Poissonovým rozložením: 100 > 30 A 0.05 < 0,1. Určení hledané pravděpodobnosti aproximací Poissonovým rozložením: P(V'ioo = 5) «a (100^5) e-iooo,oa^ co- nemusíme počítat, jelikož jde o pravděpodobnostní funkci Poissonova rozloženi v bodě 5 s parametrem A = 100 • 0,05, která je v tabulkách. Tedy p5(5) = 0.17547 Určení hledané pravděpodobnosti přesným výpočtem: P(Vioo = 5) = (I~)0,05B(1 - 0.05)95 = ...=0,18 636 Testování hypotéz Motivace: Častým úkolem statistika je na základě dat ověřit předpoklady o parametrech nebo typu rozložení, z něhož pochází náhodný výběr. Takovému předpokladu se říká nulová hypotéza. Nulová hypotéza vyjadřuje nějaký teoreticky předpoklad, často skeptického rázu a uživatel ji musí stanovit předem, bez přihlédnutí k datovému souboru. Proti nulové hypotéze stavíme alternativní hypotézu, která říká, co platí, když neplatí nulová hypotéza. Alternativní hypotéza je formulována tak, aby mohla platit jenom jedna z těchto dvou hypotéz. Pravdivost alternativní hypotézy by znamenala objevení nějakých nových skutečností nebo zásadnější změnu v dosavadních představách. Např. výzkumník by chtěl na základě dat prověřit tezi (novy objev), že pasivní kouření škodí zdraví. Jako nulovou hypotézu tedy položí tvrzení, že pasivní kouření neškodí zdraví a proti nulové hypotéze postaví alternativní, že pasivní kouření škodí zdraví. Testováním hypotéz se myslí rozhodovací postup, který je založen na daném náhodném výběru a s jehož pomocí rozhodneme o zamítnutí či nezamítnutí nulové hypotézy. Definice nulové a alternativní hypotézy Nechť Xi, Xn je náhodný výběr z rozložení L(S), kde parametr 9e5 neznáme. Nechť h($) je parametrická funkce a c daná reálná konstanta. a) Oboustranná alternativa: Tvrzení H0: h($) = c se nazývá jednoduchá nulová hypotéza. Proti nulové hypotéze postavíme složenou oboustrannou alternativní hypotézu Hi: h($) * c. b) Levostranná alternativa: Tvrzení H0: h(S) > c se nazývá složená pravostranná nulová hypotéza. Proti jednoduché nebo složené pravostranné nulové hypotéze postavíme složenou levostrannou alternativní hypotézu Hi: h(S) c. 638 Testování nulové a alternativní hypotézy Testováním H0 proti H] rozumíme rozhodovací postup založený na náhodném výběru Xl5 Xm s jehož pomocí zamítneme či nezamítneme platnost nulové hypotézy. (Volba alternativní hypotézy není libovolná, ale vyplývá z konkrétní situace. Např. při současné technologii je pravděpodobnost vyrobení zmetku =0,01. a) Po rekonstrukci výrobní linky byla obnovena výroba, přičemž technologie zůstala stejná. Chceme ověřit, zda se změnila kvalita výrobků. Testujeme H0: i9 = 0,01 proti Hji d 0,01. b) Byly provedeny změny v technologii výroby s cílem zvýšit kvalitu. V tomto případě tedy testujeme H0: i9 = 0,01 proti Hj: ť? < 0,01. c) Byly provedeny změny v technologii výroby s cílem snížit náklady. V této situaci testujeme HqI Ů = 0,01 proti Hj: ů > 0,01.) 639 Definice chyby 1. a 2. druhu Při testování H0 proti Hx se můžeme dopustit jedné ze dvou chyb: chyba 1. druhu spočívá v tom, že H0 zamítneme, ač ve skutečnosti platí a chyba 2. druhu spočívá v tom, že H0 nezamítneme, ač ve skutečnosti neplatí. Situaci přehledně znázorňuje tabulka: skutečnost rozhodnutí H0 nezamítáme H0 zamítáme H0 platí správné rozhodnutí chyba 1. druhu H0 neplatí chyba 2. druhu správné rozhodnutí Pravděpodobnost chyby 1. druhu se značí a a nazývá se hladina významnosti testu (většinou bývá a = 0,05, méně často 0,1 či 0,01). Pravděpodobnost chyby 2. druhu se značí p. Číslo 1-p se nazývá síla testu a vyjadřuje pravděpodobnost, že bude H0 zamítnuta za předpokladu, že neplatí. Obvykle se snažíme, aby síla testu byla aspoň 0,8. Obě hodnoty, a i 1-P, závisí na velikosti efektu, který se snažíme detekovat. Cím drobnější efekt, tím musí být větší rozsah náhodného výběru. Poznámka: Testování nulové hypotézy proti alternativní hypotéze třemi způsoby. Testování nulové hypotézy proti alternativní hypotéze lze provést pomocí kritického oboru, pomocí intervalu spolehlivosti nebo pomocí p-hodnoty. 640 Definice testového kritéria, oboru nezamítnutí, kritického oboru a kritických hodnot Statistika T0 = T0(Xl5 Xn) se nazývá testovým kritériem. Množina všech hodnot, jichž může testové kritérium nabýt, se rozpadá na obor nezamítnutí nulové hypotézy (značí se V) a obor zamítnutí nulové hypotézy (značí se W a nazývá se též kritický obor). Tyto dva obory jsou odděleny kritickými hodnotami (pro danou hladinu významnosti a je lze najít ve statistických tabulkách). 641 Rozhodnutí o nulové hypotéze pomocí realizace testového kritéria v oboru nezamítnutí či v kritickém oboru Jestliže číselná realizace tQ testového kritéria TQ padne do kritického oboru W, pak nulovou hypotézu zamítáme na hladině významnosti a a znamená to skutečné vyvrácení testované hypotézy. Jestliže tQ padne do oboru nezamítnutí V, pak jde o pouhé mlčení, které platnost nulové hypotézy jenom připouští. 642 Stanovení kritického oboru v případě oboustranné alternativy, levostranné alternativy, pravostranné alternativy Kritický obor v prípade oboustranné alternativy má tvar W — Chinin' kvantily rozložení, jímž se řídí testové kritérium T0, je-li nulová hypotéza pravdivá. Kritický obor v prípade levostranné alternativy má tvar: w = (tmin,/ŕÄ(r». Kritický obor v prípade pravostranné alternativy má tvar: W = (Ki-a(T), tmax). 643 Doporučený postup při testování nulové hypotézy proti alternativní hypotéze pomoci kritického oboru Stanovíme nulovou hypotézu a alternativní hypotézu. Přitom je vhodné zvolit jako alternativní hypotézu ten předpoklad, jehož přijetí znamená závažné opatření a mělo by k němu dojít jen s malým rizikem omylu. Zvolíme hladinu významnosti a. Zpravidla volíme a = 0,05, méně často 0,1 nebo 0,01. Najdeme vhodné testové kritérium a na základě zjištěných dat vypočítáme jeho realizaci. Jestliže realizace testového kritéria padla do kritického oboru, nulovou hypotézu zamítáme na hladině významnosti a a přijímáme alternativní hypotézu. V opačném případě nulovou hypotézu nezamítáme na hladině významnosti a. Na základě rozhodnutí, které jsme učinili o nulové hypotéze, učiníme nějaké konkrétní opatření, např. seřídíme obráběcí stroj. (Při testování hypotéz musíme mít k dispozici odpovídající nástroje, nejlépe vhodný statistický software. Nemáme-li ho k dispozici, musíme znát příslušné vzorce. Dále potřebujeme statistické tabulky a kalkulačku.) Testování nulové hypotézy proti alternativní hypotéze pomocí 100(l-ot)% empirického intervalu spolehlivosti pro parametrickou funkci h(d) Sestrojíme 100(l-a)% empirický interval spolehlivosti pro parametrickou funkci h(#). Pokryje-li tento interval hodnotu c, pak H0 nezamítáme na hladině významnosti a, v opačném případě H0 zamítáme na hladině významnosti a. Pro test H0 proti oboustranné alternativě sestrojíme oboustranný interval spolehlivosti. Pro test H0 proti levostranné alternativě sestrojíme pravostranný interval spolehlivosti. Pro test H0 proti pravostranné alternativě sestrojíme levostranný interval spolehlivosti. 645 Testování nulové hypotézy proti alternativní hypotéze pomocí p-hodnoty p-hodnota udává nejnižší možnou hladinu významnosti pro zamítnutí nulové hypotézy. Je to riziko, že bude zamítnuta H0 za předpokladu, že platí (riziko planého poplachu). Jestliže p-hodnota < a, pak H0 zamítáme na hladině významnosti a, je-li p-hodnota > a, pak H0 nezamítáme na hladině významnosti a. Způsob výpočtu p-hodnoty: • Pro oboustrannou alternativu p = 2 min{P(T0 < t0), P(T0 > t0)}. • Pro levostrannou alternativu p = P(T0 < t0). • Pro pravostrannou alternativu p = P(T0 > t0). (p-hodnota vyjadřuje pravděpodobnost, s jakou číselné realizace náhodného výběru X1? Xn podporují H0, je-li pravdivá. Statistické programové systémy poskytují ve svých výstupech p-hodnotu. Její výpočet vyžaduje znalost distribuční funkce rozložení, kterým se řídí testové kritérium T0, je-li H0 pravdivá. Vzhledem k tomu, že v běžných statistických tabulkách jsou uvedeny pouze hodnoty distribuční funkce standardizovaného normálního rozložení, bez použití speciálního software jsme schopni vypočítat p-hodnotu pouze pro test hypotézy o střední hodnotě normálního rozložení při známém rozptylu.) 646 Ilustrace významu p-hodnoty (1) Ilustrace významu p-hodnoty (2) Ilustrace významu p-hodnoty (3) Příklad (1) Nechť Xi, X4oo je náhodný výběr z N(p,0,01). Je známo, že výběrový průměr se realizoval hodnotou 0,01. Na hladině významnosti 0,05 testujte hypotézu H0: jll = 0 proti pravostranné alternativě Hi: |u > 0 a) pomocí intervalu spolehlivosti b) pomocí kritického oboru c) pomocí p-hodnoty. Řešení: ad a) Při testování nulové hypotézy proti pravostranné alternativě používáme levostranný interval spolehlivosti. d = m - -^u^ = 0,01 —<^Lu0 95 = 0,01 - — 1,64485 = 0,0018. Vn V400 ' 20 Protože číslo c = 0 neleží v intervalu (0,0018; oo), H0 zamítáme na hladině významnosti 0,05. 650 Příklad (2) 11x,t i- ■ .-i 0,01-0 0,01-20 ad b) Vypočteme realizaci testové statistiky: t0 — —— — —jjj— — ——— = 2 Stanovíme kritický obor: l/ľ — °°) — {u095j oo) — (1,64485, oo) Protože testová statistika se realizuje v kritickém oboru, H0 zamítáme na hladine významnosti 0,05. ad c) Při testování nulové hypotézy proti pravostranné alternativě se p-hodnota počítá podle vzorce: p = P(T0 > t0). V našem případč: p = P(Tq > 2) = 1 — 0(2) = 1 — 0,97725 = 0,02275. Protože p-hodnota je menší než hladina významnosti 0,05, H0 zamítáme na hladině významnosti 0,05. 651 12. Testování hypotéz v MS Excel a SAS Inference about the Slope (pro regresní přímku): t Test • t test for a population slope • Is there a linear relationship between x and y? • Null and alternative hypotheses • H0: (3X = o (no linear relationship) • Hx: (3X ^ o (linear relationship does exist) • Test statistic where: bx = Sample regression slope coefficient Pi = Hypothesized slope sbl = Estimator of the standard f = n — 2 error °^ ^e s^°Pe 653 Inference t Test House Price in $1000s (y) Square Feet (x) 245 1400 312 1600 279 1700 308 1875 199 1100 219 1550 405 2350 324 2450 319 1425 255 1700 about the Slope: (continued) Estimated Regression Equation: houseprice = 98.25 + 0.1098 (sq.ft.) The slope of this model is 0.1098 Does square footage of the house affect its sales price? 654 Inferences about the Slope: t Test Example Test Statistic: t = 3.329 H0: = o HA: ft * o From Excel output: d.f. = 10-2 = 8 a/2=.025 a/2=.025 'bi t Coefficients Stanford Error / fSfaf / P-value Intercept 98.24833 / 58.0334$/ 1.69296/ 0,2892 Square Feet ^_i c^M0977] 3^2938^ J0.01039J Decision: Reject H0 0.0K0.05 Reject H0 . Do not reject H0 . ~lo/2 0 a/2 -2.3060 R( ject H0 2.3060 3-329 Conclusion: There is sufficient evidence that square footage affects house price 655 Regression Analysis for Description Confidence Interval Estimate of the Slope: d.f. = n - 2 Excel Printout for House Prices: Coefficient s Standard Error tStat P-value < ^Lower95% Upper 95%^ Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386 Square Feet (^0.10977^ ) 0.03297 3.32938 0.01039 0.03374 ) ^0.18580^ At 95% level of confidence, the confidence interval for the slope is (0.0337, 0.1858) 656 Regression Analysis for Description Coefficient s Standard Error tStat P-value < ^Lower95% Upper 95%^ Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386 Square Feet (0.10977^ ) 0.03297 3.32938 0.01039 (0.03374] ) (0.18580^ Since the units of the house price variable is $1000s, we are 95% confident that the average impact on sales price is between $33.70 and $185.80 per square foot of house size This 95% confidence interval does not include 0. Conclusion: There is a significant relationship between house price and square feet at the .05 level of significance 657 Testy v MS Excel Vložit funkci Li. Vyhledat funkci: Zadejte stručný popis požadované činnosti a potom klepněte na tiaatko Přejít. Vybrat kategorii: Statistické Přejít Vybrat funkci: FISHER FISHERINV FORECAST FTEST GAMMADIST GAMMAINV GAMMALN FTEST(polel;pole2} Vrátí výsledek F-testij, dvoustranné pravděpodobnosti, že rozptyly v argumentech Polel a Pole2 nejsou výrazně odlišné. Nápověda k této funkci OK Storno U-LLLNV CWTEST CHTTESTfa ktuá In í; o č e ká v a n é} Vrátí test nezávislosti: hodnota ze statistického rozdělení ďií-kvadrát a příslušné stupně volnosti. TTEST TTESTCfKjlel;pole2;stra ny^y p} Vráti' pravděpodobnost odpovídajíd Studentovu t-testu. r'ILlUULL_ - ZTEST I t ZTEST[polep<;5ig m a } Vrátí jednostrannou P-hodnotu r-testu, 658 Testy v MS Excel Nulová hypotéza: Podíl kuřáků je stejný u mužů i žen. Alternativní hypotéza: Podíl kuřáků u mužů a u žen se liší. C, At- 0« - ? Analýza dat Domů Vloženi Rozloženi stránky Vzorce Data Revtze Zobrazeni \ * An, — -ĹJ ílCE "1 a* ■ m m\W~\ Zalamovat text / S HIS . • <3» • A ' ^ = = i? rjj Sloučit a zarovnat na str. Sch rania ^ Pítmo rsjl _ Zarovnáni _ G13 a a B c 0 E F i 2 3 Kouřeni | 4 Pohlaví' ▼ Data ne ano Celkový součet 5 M Počet 277 119 396 6 % 69 95% 30.05% 100 00% 7 Ž Počet 122 66 188 8 % 64.89% 35.11% 100.00% 9 Celkem Počet 399 185 584 10 Celkem % 68.32% 31.68% 10C 00% 11 11 Zdroj: http://ulb.up0l.cz/praktikum/statistika3.pdf Testy v MS Excel C18 - U =C15/E15'E13 1 A B C D F G H 1 2 3 4 Kouřeni t Pohlaví Data ne ano Celkový součet JJ 6 M Počet 277 119 396 % 69 95% 30 05% 100 00% 7 Ž Počet 122 66 188 j, 9 % 64 89% 35,11% 100.00% Celkem Počet 399 I3ŕ 584 10 11 Celkem % 68.32% 31.68% 100 O0°-c 12 Pozorované četnosti 13 14 15 277 119 396 122 66 188 399 185 584 16 17 Očekávané četnosti 18 I 270.55 19 12845 59.55 20 660 Testy v MS Excel K výpočtu dosažené hladiny statistické významnosti, neboli signifíkance (tzv. p-hodnoty), použijeme funkci CHITEST. Klikněte do buňky, kam chcete umístit hodnotu signifíkance (napr. do buňky E21). Z řádkového menu zvolte Vzorce a klikněte na ikonu Vložit funkci. - Anatýu dat • VStO jIí iReiMTi kompatibility] - Mkroioft Exc Domú Woíem RoHofeni man I /zoru 1 Data Revize .'ít U.-rr f* unkci £ & Automatic** Napotledy itvnuli • pouztte • É3 0 Fmanťni logld i 14 Trrt É3 É3 íl ÍJB *^ oD«"r,ov-néw* ^••^ *-JSr' *nuifi »ř kom Datum vyt* * Mat. a DaHi Správe* a ťai - ret • tng. ■ funkce • narvu vytvořit : vyberu ♦> Předchůdci j£ Zoei aM •<»Né|tett*KI ^Kontrol* j£ Odebrat iapky - ^ výhodne ► nihovn* funkci Defmuvane naivy Zavttioiti vzor jht funkci lSh.fi-F }l Uprán vzorec v aktuální buňce tak. ze vybere E F 6 H 1 J |K funkce a upraví argumenty. Ctftcový součet U tmU napwrřtlu i _ 119 3% •i-.i.1 ir wmmmmmm « »«r»v ' Li ■■: 100 00% 7 1 122 66 188 8 % 64 89% 35 11% 100 00% 9 Ctfcem P orel 399 185 534 10 Celkem % 60 100 00% 11 12 Pozorované četnosti 13 277 119 3% 14 122 66 188 15 185 5W 16 17 Očekávané četnosti 13 270.55 125 45 19 128 45 59 55 20 21 22 661 Testy v MS Excel I Zadejte arufrý popü požadované činnost* a potom klepněte na tlaöthü Prejt. Vybrat kategorii Sttótid* Vybťůt funkci; GEOf/EAN hfrPGECWDIST ■:h]D]st CHEW CHTTESí [MTERCEPT Prejt T3 CHlIEST(aktuiálni;u. .-kjT.in.-i Vrátí test nezávislosti: hndhota ze statisdckěho rozděleni chľ-kvedrát e pŕísíjínŕ Mápověďa ktetú Furfczl OK SťD'no Otevřete dialogové okno Argumenty funkce. Do pole Aktuální zadejle adresu oblasti buněk i pozorovanými četnostmi C13:D14 (pouze čtyři hodnoty!). 662 Testy v MS Excel Do pole Očekávané zadejte adresu oblasti buněk s vypočítanými očekávanými četnostmi C18:D19 (také čtyři hodnoty). «o3o:*fv tlrWy v:o»« CMa INH lc**\zer> & 0 É3 É3 0 Iß < kw mm .......,1i ' 1- ijttití* Chm- OCTšST • X - /. K? t nm n^zynzR*™ vysteJW- cu1:9805099 OK UC18D19I 663 Testy v MS Excel Klikněte na OK. Tabulky s výslednou hodnotou signifikance: - B 1 2 3 4 5 Kouření » Pohlaví ▼ Data ne ano Celkový součet M Počet 277 119 396 6 % 69 95% 30 05% 100 00% 7 Z Počet 122 66 188 8 % 64 89% 35.11% 100 00% 9 Celkem Počet 399 185 584 10 Celkem % 68.32% 31 68% 100 00% 11 12 Pozorované četnosti 13 277 119 396 14 15 122 66 188 399 185 584 16 17 Očekávané četnosti 18 270.55 125 45 19 128.45 59 55 20 21 Signifikance cht kvadrát testu: 0,220 Výsledek, tedy dosaženou hladinu statistické významnosti, porovnáme s hodnotou 0,05. Je-li dosažená hladina statistické významnosti menší než 0,05, nulovou hypotézu zamítáme, v opačném případě nulovou hypotézu zamítnout nemůžeme. V tomto příkladu p = 0,220, nulovou hypotézu tedy zamítnout nemůžeme. Závěr testování zní: Podíl kuřáků je stejný v populaci mužů i žen. _22_ Před vypočítanou hodnotu (např. do buňky A21) napište text „Signifikance chí-kvadrát testu:" Hodnotu signifikance zaokrouhlete na 3 desetinná místa. Funkce chí-kvadrát test v Excelu nezobrazuje hodnotu testového kritéria %~, zobrazí pouze ^-hodnotu. 664 Introduction Suppose you want to answer the following questions: • Does a new headache medicine provide the typical time to relief of 100 minutes, or is it different? • Does a weekend training session have an effect on performance on an exam? • Does a new headache medicine differ in time to relief from a standard headache treatment? Zdroj: http://www.biostat.umn.edu/~susant/Lab6415/Lab3.ppt 665 T-tests can be used to answer all of these questions. There are three main types of t-tests: 1. One-sample 2. Matched Pairs 3. Two-sample One-Sample T-test A one-sample t-test is used to compare a sample to an average or general population. You may know the average height of men in the U.S., and you could test whether a sample of professional basketball players differ significantly in height from the general U.S. population. A significant difference would indicate that basketball players belong to a different distribution of heights than the general U.S. population. 667 Matched Pairs T-test A matched pairs t-test usually involves the same subjects being measured on some factor at two points in time. For example, subjects could be tested on short-term memory, receive a brief tutorial on memory aids, then have their short-term memory re-tested. A significant difference in score (after-before) would indicate that the tutorial had an effect. 668 Two-Sample T-test A two-sample t-test compares two groups on some factor. For example, one group could receive an experimental treatment and the second group could receive a standard of care treatment or placebo. Notice that in a two-sample t-test, two distinct groups are being compared, as opposed to the one-sample, where one group is compared to a general average, or a matched-pairs, where only one group is being measured twice. 669 One-sample T-test in SAS We want to test whether a new headache medicine provides a relief time equal to or different from the standard of 100 minutes. Ho: [1=100 Ha: [#ioo We have 10 observations of time to relief. Before we can test our hypothesis, however, we have to test the data for normality. 670 Type the following code in SAS DATA relieftime; INPUT reliefs-DAT ALINES; 90 93 93 99 98 100 103 104 99 102 • r PROC UNIVARIATE DATA = relieftime normal plot; VAR relief; histogram relief / midpoints = 80 to 120 by 5 normal RUN; Tests for Normality • The histogram shows most observations falling at the peak of the normal curve. • The box-plot shows that the mean falls on the median (*—+—*), indicating no skewed data. • The formal tests of normality in the output are nonsignificant, indicating these data come from a normal distribution. • We can assume the data are normally distributed and proceed with the one-sample t-test. 672 SAS Code for a One-Sample T-test PROC TTEST DATA = relieftime ho=ioo; TITLE 'One-sample T-test example'; VAR relief; RUN; The code is telling SAS to run a t-test procedure on the variable relief, and the mean value of relief should be compared to a null value of 100. After running this program, check your log for errors then look at the output. SAS Output for One-sample T-test ^ SAS - [Output - (Untitled) File Edit View Tools Solutions Window Help Results Univariate: Proc Univariate Univariate: Proc Univariate Univariate: Proc Univariate Univariate: Proc Univariate Univariate: Proc Univariate Ttest: One-sample T-test example Ěý Results Explorer [ä I Ä gj i * © ^ One-sample T-test example The TTEST Procedure Stat ist ics Vari ab1e relief Lower CL N Mean 10 94.754 Mean 98.1 Var i ab1e relief Upper CL Mean 101.45 Lower CL Std Dev 3.2173 Upper CL Std Dev Std Dev 4.G774 8.5391 Std Err 1.4791 T-Tests DF t Value 9 -1.28 Pr > |t| 0.2310 Log - (Untitled) Editor - Untitled2 Output - (Untitled) O C:\Documents and Settings\Katie Interpreting Output From the SAS output, you can see that the mean relief time of the 10 subjects is 98.1 minutes. The calculated t* value = -1.28, and this test statistic has a p-value of 0.23 (this value is found under the label "Pr > |t|" which stands for the probability of getting a value greater than the absolute value oft*). This is a two-sided test. If this were a one-sided test, you would simply divide the p-value by 2. 675 Conclusion If alpha = 0.05, then our p-value is greater than alpha. Therefore, we fail to reject the null hypothesis. The new headache medicine does not provide a different time to relief from 100 minutes. 676 Matched Pairs T-test in SAS We want to determine whether a weekend study session improves students' test scores. Six students are given a math test before the session, then they are re-tested after the weekend training. This is a matched pairs t-test, because the same subjects are being measured before and after some intervention. Ho. u.before= uafter Ha. U.before7^ rafter Again, before we can analyze the data, we have to determine whether we can assume the data come from a normal distribution. Type the following code into SAS and run the program DATA study; INPUT before after; DATALINES; 90 95 87 92 100 104 80 89 95 101 90 105 • r PROC UNIVARIATE DATA = study normal plot; VAR before after; histogram before after / normal; RUN; 678 Tests for Normality • There are so few data points that the histograms are difficult to interpret. • The box-plots for before and after both show the mean very close to the median, suggesting the data are not skewed. • The tests of normality for before and after have p-values > alpha, indicating we do not reject the assumption of normality. • We can proceed with the matched pairs t-test. 679 SAS Code for Matched Pairs T-test PROC TTEST DATA = study; TITLE "Example of Program for a Paired T-test"; PAIRED before * after; RUN; The code tells SAS to do a paired t-test on the data set study, and it will compare the difference of the means between before and after. 680 SAS Output of a Matched Pairs T-test File Edit View Tools Solutions Window Help |»fl Results S"L|p Univariate: Proc Univariate Univariate: Proc Univariate Univariate: Proc Univariate Univariate: Proc Univariate Univariate: Proc Univariate Univariate: One-sample T-test exarnp Univariate: One-sample T-test examd Ttest: Example of Program for a Paira 0 Results J Ma Expl. orer □ & Q Example of Program for a Paired T-test The TTEST Procedure Stat ist ics D i fference before - after N G Lower CL Mean -11.67 Upper CL Lower CL Mean Mean Std Dev Std Dev Upper CL Std Dev Std Err ■7.333 ■2.998 2.5787 4.1312 10.132 1 .6865 D i fference before - after T-Tests DF t Value 5 -4.35 Pr > It! 0.0074 EC 0 Log - (Untitled) [23 Editor - Untitled2 Output - (Untitled) O C:\Documents and Settings\Katie 681 Interpreting Output The difference of the mean score (d-bar: before-after) is -7.33; on average the scores before the weekend were lower than the scores after the training session. (If in your paired statement you had typed "after*before" the average difference would be 7.33.) Is this difference statistically significant? To answer that question, look at the p-value. The t* for the test is -4.35, and the p-value is 0.0074. 682 Conclusion If alpha = 0.05, then the p-value < alpha, and we reject the null hypothesis. Therefore, we can conclude that average scores are different before and after the weekend session, and the training does improve test scores. Two-Sample T-test in SAS We want to determine whether a new headache medicine provides a different time to relief than a control medicine. Two groups of five subjects each are either given the treatment or control. Ho: m = |i2 Ha: ^ |i2 Before we can conduct the two-sample t-test, however, we must determine whether the data come from a normal distribution. 684 Type the following code into SAS and run the program DATA response; INPUT group $ time; DATALINES; c 80 c 93 c 83 c 89 c 98 t 100 t 103 t 104 t 99 t 102 • r PROC UNIVARIATE DATA = response normal plot; class group; var time; histogram time / midpoints = 80 to 120 by 5 normal; RUN; 685 A few notes: • Notice the variable "group" is followed by a "$" because it is a categorical variable • The code has specified that the univariate procedure be performed on the variable time, but that it is done by the class "group." This way you will have separate summary statistics, plots and histograms for the treatment and control groups. 686 Tests for Normality • The tests for normality for both the treatment and control groups are nonsignificant (p-value > alpha), indicating we can assume they come from a normal distribution. •Because each group only has 5 subjects, the histograms are difficult to interpret, but there is no indication of non-normality. • Proceed with the two-sample t-test 687 Histograms for control and treatment groups 688 SAS Code for Two-Sample T-test PROC TTEST DATA = response; TITLE 'Two-sample T-test example'; class group; var time; RUN; • Notice for a two-sample t-test you must specify what distinguishes the two samples; in this case we compare the two samples defined by "group" (treatment and control), and we tell SAS to compare their mean "time" to relief. 689 SAS Output for a Two-Sample T-test ^ SAS - [Output - (Untitled) ] File Edit View Tools Solutions Window Help - n.x uj) Results + LrJJJ Univariate: The SAS System El-{^ Ttest: Two-sample T-test example 1 3 □ H#al&^^° * © 0 Two-sample T-test example The TTEST Procedure Stat ist ics t i me t i me t i me Lower CL Upper CL Lower CL Upper CL group N Mean Mean Mean Std Dev Std Dev Std Dev Std Err c 5 73.535 88.G 97.GG5 4.3741 7.3007 20.979 3.2G5 t 5 99.025 101.G 104.17 1.2424 2.073G 5.9587 0.9274 Diff (1-2) -20.83 -13 -5.173 3.G249 5.3GGG 10.281 3.3941 T-Tests War i ab 1e Method War i ances DF t Ya1ue Pr > It! t jme Poo 1ed Equa 1 8 -3.83 0.0050 t jme Satterthwa i te Unequa1 4 .64 -3.83 0.0141 Equality of Variances Variable Method Num DF Den DF F Value Pr > F time Folded F 4 4 12.40 0.0318 llJP Results Explorer Output - (Untitled) ÜJ Log - (Untitled) Editor - Untit(ed1 m GRAPH1 WORK.GS. Q C:\Documents and Settings\Katie 690 Interpreting the Output: Pooled vs. Unpooled Variance Before you can interpret your test statistic and reach a conclusion, you must determine whether to use the pooled or unpooled variances test statistic. If we can assume the two samples have equal variances, then we use the pooled t*. If, on the other hand, we determine that the two samples have unequal variances, then we must use the unpooled t*. 691 SAS conducts a formal F-test to determine whether the two groups have equal variances: Ho: ax2 = a22 vs. Ha: ax2 ^ a22 If the p-value > 0.05, we fail to reject the null and can conclude the variances of the two groups are equal; thus we use the pooled variances t*. If the p-value < 0.05, we reject the null and conclude the variances of the two groups are unequal; thus we use the unpooled variances t*. You find the F-test under the heading "Equality of Variances" in your SAS output. In our case, the p-value (Pr > F) is 0.03, which is less than 0.05; we cannot assume ax2 = a22. We need to use the "t Value" from the "Unpooled" Method. 692 Conclusion • The t* value for unpooled variances is -3.83, and the corresponding p-value = 0.0141, which is less than alpha (0.05). Therefore, we reject the null and conclude that the treatment group differs significantly from the control group in time to relief from headache. • Notice from the SAS output that the treatment group took an average of about 20 minutes longer to feel relief than the control group ("Diff (1-2)"), implying the treatment is significantly worse than the control. 693 The TTEST Procedure • General form of the TTEST procedure: PROC TTEST DATA=SAS-data-set, CLASS variable1, PAIRED variables} VAR variables} RUN; Chi-square test of independence • What is the Chi-square test of independence? Ans. It tests whether the variable in the row and column are independent or related • What is the null hypothesis? Ans. The variables in the row and column are independent: there is no relationship between row and column frequencies • The command for SAS to test this is provided in the option of "proc freq". Simply use chisq. • To display the expected cell frequency for each cell use the option "expected." Zdroj: http://web.uri.edu/its/files/ppt/statistics.sas.ppt 695 Chi-square test of independence: exercise There are 34 students in the classroom and there was a vote on whether they wanted to have a turtle in their classroom as a pet. The data file "vote.txt" contains the result of the vote (Yes=y, No=n), and gender of the students (male=m, female=f). • Q1 Import the file "vote.txt" into SAS and name the variab es "answers" and "gender." Q2 Using the option "chisq," test whether or not the answers to the vote and gender are associated with each other. 696 Answers Q1 data vote; infile 'c:/vote.txt'; input answers $ gender $; run; Q2 proc freq data=vote; tables answers*gender /expected chisq run; Results m Output - (Untitled) Expect Freq = The SfiS System he FREQ Procedun 1 3 : 1 H Tab I or ii-s by gi ider nsui gender Frequency Ex pec "ted Percent Ro ui Pet Co I Po t Row total(15) x Column total(16) Table total(34) To ta I 1 5 HH.ie 1 9 55 .88 3H 10 0.00 698 What does the A The FREQ Procedure Statistics for Table of answers by gender Statistic DF Ua lue Prob Chi-Square 1 7.H379 0.00GH Likelihood Ratio Chi-Square 1 7.7181 0.0055 Continuity fldj. Chi-Square 1 5.G70H 0.0173 Mantel-Haenszel Chi-Square 1 7.E19E 0.007E Phi Coefficient 0.HG77 Contingency Coefficient 0.HE37 Cramer's U 0.HG77 _I result tell you? • The null hypothesis that the two variables are independent is rejected at even 1% significance level. ___— This is lower than 0.01 • The two variables "answers" and "gender" are associated with each other (They are dependent). 699 13. Statistické tabulky Následující tabulky obsahují hodnoty: > Pravděpodobnostní funkce Binomického rozložení > Pravděpodobnostní funkce Poissonova rozložení > Distribuční funkce standardizivaného normálního rozložení > Kvantilů standardizivaného normálního rozložení > Kvantilů rozložení %2 rozložení > Kvantilů Studentova rozložení > Kvantilů Fisherova-Snedecorova rozložení lOL Zl£0 £8Z0 £810" £010" £500 itoo 1300 0100 £000 looo' 0000' 0000 0000' £ z9sv OLfrl SZU 89Í0 88fr0 ElfrO frScO 9YÍ0 1?900 Z ZOO" H)00 0000 0000" fr ££!£" 090£ lslz frO£Z 1181 9t9I £Z£\ 6ĺ30' E ISO YVZO 1800 ii00 0000" £ SZlí' Í8I£ 69££ 9£fr£ Y9££ £6t£ LŮOÍ' LÍ9Z' 2fOZ Z8£I 6Z£0 frlZO 0100 Z Z9SI LS91 6s0z £6£Z mí £6t£ £09 £' SS6Í' 960y £I6£ 08 S £ 9£0Z 08*0 l Z\£0 ífr£Q" £0£0 2ĹL0' 091v l\£\ 1891 ÍLÍZ LLZÍ l£YY £06£ 2£LL~ Ol S6 0 S £390" 9Z£0 OlfrO 9SZ0 oeio' ÍZXO 1800 6£00 9100 £000 1000' 0000 0000' fr 0O9Z OOfrS SQOZ' 9££l SZll 8860 9SL0 69fr0 9SZQ £110 9 £00 £000 0000 £ oslí' £fr££ sĺ9í 9£fr£ £0I£ Í96Z 9^97,' óoir 9££I £i60 98fr0 f £10' 9000 Z oosz 009Z s66z 9Sfr£ £ť8£" IS6£ 9UY 61ZY 960i? £89£ 9I6Z eur 88£0 1 £390" ll90 £160" 96ZI" SSLl SL61 t OK fr9l£ 960i? OZZS" I9£9 SfrlS 9096 0 fr oszv 9LXI 1160 0^90" 6ZfrO QL£Q' Q£Z0 9£10 0800 fr £00 0100 T 000 0000' í OSLÍ fr£9£ lfr££ 088Z" 68£Z' ZZZZ 0£8I 90frl 0960 fri£0 0Z.ZO U 00 £000 z OSLÍ £Č8£ oz£y 9ÍW frfrfrfr" Olfrl? 61ZY 0^8£' ISZÍ 0£YZ fr££I~ i?ÓS0" l OSZl lz£l f 991 09XZ 9tLZ~ Í96Z 0£fr£ ólčfr QZIS lfrI9 06ZĽ fr££8 £0i6 0 £ OQSZ lOfrč szqz~ 0091 szzv IUI 0060 £Z90 OOM) £ZZ0 0010' SZZQ- 1000 z 0O0Í 866* 0S6Y 0081 oset frfrfrfr" QGZY OSLÍ 0OZ£ OSSZ 0081 OÍ60 8610 T 00££" 109Z SZO£ 009£ SZZY YvYY 0061?" SZ9S 00fr9 SZZĽ 0018' £Z06 1086 0 C 05 6fr S fr Ofr S£~ m 0£" sz OS" ST" 01" 50 10" X U d oq9>|Diuiouiq 3D>[unj iiqsouqopocbpaujj Pravděpodobnostní funkce binomického rozložení Bi(n,p) 2. část P 6 0 .9415 .7351 .5314 .3771 .2621 .1780 .1176 .0878 .0754 .0467 .0277 .0176 .0156 L .0571 .2321 .3543 3993 .3932 3560 .3025 .2634 .2437 .1866 .1359 .1014 .0938 2 .0014 .0305 0984 .1762 .2458 2966 .3241 .3292 .3280 .3110 .2780 .2437 .2344 3 .0000 .0021 .0146 .0425 0819 .1318 .1852 .2195 .2355 .2765 .3032 .3121 .3125 4 .0000 .0001 .0012 .0055 .0154 .0330 .0595 .0823 .0951 .1382 .1861 .2249 .2344 5 .0000 0000 .0001 0004 0015 0044 .0102 .0165 .0205 .0369 .0609 .0864 .0938 6 0000 0000 0000 0000 .0001 .0002 .0007 0014 0018 .0041 .0083 .0139 .0156 7 0 .9321 6983 .4783 .3206 .2097 .1335 .0824 .0585 .0490 .0280 .0152 .0090 .0078 L .0659 .2573 .3720 .3960 .3670 .3115 .2471 .2048 .1848 .1306 .0872 .0603 .0547 2 .0020 .0406 .1240 .2097 .2753 .3115 .3171 .3073 .2985 .2613 .2140 .1740 .1641 3 .0000 .0036 .0230 .0617 .1147 .1730 .2269 .2561 .2679 .2903 .2918 .2786 .2734 4 .0000 0002 .0026 .0109 .0287 .0577 .0972 .1280 .1442 .1935 .2388 .2676 .2734 5 .0000 0000 .0002 .0012 .0043 .0115 .0250 .0384 .0466 .0774 .1172 .1543 .1641 6 .0000 0000 0000 .0001 0004 .0013 .0036 0064 0084 .0172 .0320 .0494 .0547 7 0000 0000 0000 0000 .0000 .0001 0002 0005 0006 .0016 .0037 .0068 .0078 8 0 .9227 6634 .4305 .2725 1678 .1001 .0576 0390 .0319 0168 .0084 .0046 .0039 L .0746 .2793 .3826 .3847 .3355 .2670 .1977 .1561 .1373 .0896 .0545 .0352 .0312 2 .0026 .0515 .1488 .2376 2936 .3115 2965 .2731 .2587 .2090 .1569 .1183 .1094 3 .0001 .0054 .0331 .0839 .1468 .2076 .2541 .2731 .2786 .2787 .2568 .2273 .2188 4 .0000 0004 0046 .0185 .0459 .0865 1361 .1707 .1875 .2322 .2627 .2730 .2734 5 .0000 0000 0004 .0026 0092 .0231 .0467 .0683 .0808 .1239 .1719 .2098 .2188 6 .0000 0000 0000 .0002 0011 .0038 .0100 .0171 .0217 .0413 .0703 .1008 .1094 7 .0000 0000 0000 .0000 .0001 0004 0012 .0024 .0033 .0079 .0164 .0277 .0312 S 0000 0000 0000 0000 0000 .0000 .0001 .0002 0002 .0007 .0017 .0033 .0039 702 £0L 0100 8000 £000 1000" 0000 0000' 0000 0000 0000 0000 0000 0000 0000 01 8600 £800 ZH)0" 9100 ÍOOO' £000 1000 0000 0000 0000 0000 0000 0000 6 6£tt) 68£0 6ZZ0 9010 £H>0' 0£00 H 00 M)00 1000 0000 0000 0000 0000 8 ZĹll osor 9W.0 ÍZH) ZIZO £910 0600 T £00' 8000 1000 0000 0000 0000 L I£OZ 9961 96ĚI' eur 6890 69£0 89 £0 1910' ££00 Z100 1000 0000 0000 9 9S\?Z Oi?££' ĹOQZ' 9£?r 99£l 6Z01 1?8£0 t?9Z0 £800' í T 00 1000 0000 £ xeoz 0£1Z t?8£Z soez ĹĹÍZ 9ÍZZ 10OZ 091?! 1880 lOtO ZIIO' 010 0000 ZĹIY Ĺ9ZV £991 oeiz zz$z~ I09Z 899Z £0£Z £10Z S6ZI fr££0 £010 1000 £ 6£Kl £6K> £9£0 óo:r LSLV I£6l £££Z" 918Z ozor 6££Z" ££61 9ť£0 ZťOO Z 8600 HTO' £OZ0" £0K> CZ£0" £980 UZT ĹĹEV 1?39Z 1?£8£ leie -t-tóO' 1 0100 ZlOO 5Z00 0900 ££10' ££10 Z8Z0 £9£0 t£Ol 6961 £8t£ £865' tťQ6 0 01 OZOO 9100 8000 £000 1000 1000 0000 0000 0000 0000 0000 0000 0000 6 9ĹW ££10 £800 f£00 £100 6000 M)00 1000 0000 0000 0000 0000 0000 8 £0£0 f£90 £OťO ZIZO 8600 ££00 6 £00 Z100 £000 0000 0000 0000 0000 £ IW E>ei" 091 r trZW m"0" 01 ZO £800' 8 ZOO 9000 1000' 0000 0000 9 l9bZ 80ťZ SZIZ IST I 1?301 £££0" 68£0 £910' oeoo 8000 0000 0000 £ l9bZ 90£Z 009Z" soez 1?6IZ 8ťOZ' £l£l" 89U" 1990 £8Z0 1?£00 9000 0000 IW 6££l 611Z soez 9UZ" I££Z" 899Z 9££Z Z9£l 6901 9M?0 ££00 1000 £ £010 9LZ.0 oni Z191 Z9XZ IttZ 899Z £00£ 0Z0£ £6£Z" ZZĹl 6Z90 ^£00" Z 9£10 ZOZO 6££0 Í090 t-oor Uli 9££I ££ZZ 0Z0£ 6£9£ £86Z 0£80 T 0300 £Z00 91r00 1010 £OZ0 09ZO tOH) l££0~ ZfrtI 91£Z~ t£S£ Z0£9 £Eló~ 0 6 d oqa^piuiouiq dD^iinj jujsouqopoctap\iuj Pravděpodobnostní funkce Poissonova rozložení Po(X) 1. část X 0;1 0,2 0,3 0.4 0,5 0;6 OJ 0:8 0.9 1,0 0 0,9048 8187 7408 6703 6065 5488 4966 4493 4066 3679 1 0905 1637 2222 2681 3033 3293 3476 3595 3659 3679 2 0045 0164 0333 0536 0758 0988 1217 1438 1647 1839 3 0002 0011 0033 0072 0126 0198 0284 0383 0494 0613 4 0000 0001 0003 0007 0016 0030 0050 0077 0111 0153 5 0000 0000 0000 0001 0002 0004 0007 0012 0020 0031 6 0000 0000 0000 0000 0000 0000 0001 0002 0003 0005 7 0000 0000 0000 0000 0000 0000 0000 0000 0000 0001 X 1.1 1,2 1,3 1.4 1,5 1.6 17 1,8 1.9 2,0 0 0,3329 3012 2725 2466 2231 2019 1827 1653 1496 1353 1 3662 3614 3543 3452 3347 3230 3106 2975 2842 2707 2 2014 2169 2303 2417 2510 2584 2640 2678 2700 2707 3 0738 0867 0998 1128 1255 1378 1496 1607 1710 1804 4 0203 0260 0324 0395 0471 0551 0636 0723 o& i: 0902 5 0045 0062 0084 0111 0141 0176 0216 0260 0309 0361 6 0008 0012 0018 002o 0035 0047 0061 0078 0098 0120 7 0001 0002 0003 0005 0008 0011 0015 0020 0027 0034 8 0000 0000 0001 0001 0001 0002 0003 0005 0006 0009 9 0000 0000 0000 0000 0000 0000 0001 0001 0001 0002 704 Pravděpodobnostní funkce Poissonova rozložení Po(X) 2. část X 3,0 4,0 5,0 e;o 7,0 S;0 9,0 10,0 11.0 12,0 0 0:0498 0183 0067 0025 0009 0003 0001 0000 0000 0000 1 1494 0733 0337 0149 0064 0027 0011 0005 0002 0001 2 2240 1465 0842 0446 0223 0107 0050 0023 0010 0004 3 2240 1954 1404 0892 0521 0286 0150 0076 0037 0018 4 1680 1954 1755 1339 0912 0573 0337 0189 0102 0053 5 1008 1563 1755 1606 1277 0916 0607 0378 0224 0127 6 0504 1042 1462 1606 1490 1221 0911 0631 0411 0255 7 021Ó 0595 1044 1377 1490 1396 1171 0901 0646 0437 0081 0298 0653 1033 1304 1396 1318 1126 0888 0655 9 0027 0132 0363 0688 1014 1241 1318 1251 1085 0874 10 0008 0053 0181 0413 0710 0993 1186 1251 1194 1048 11 0002 0019 0082 0225 0452 0722 0970 1137 1194 1144 12 0002 0000 0034 0113 0264 0481 0728 0948 1094 1144 13 0002 0013 0052 0142 0296 0504 0729 0926 1056 14 0001 0005 0022 0071 0169 0324 0521 0728 0905 15 0002 0009 0033 0090 0194 0347 0534 0724 ie 0003 0014 0045 0109 0217 0367 0543 17 0001 0006 0021 0058 0128 0237 0383 18 0002 0009 0029 0071 0145 0256 19 0001 0004 0014 0037 0084 0161 20 0002 0006 0019 0046 0097 21 0001 0003 0009 0024 0055 22 0001 0004 0012 0030 23 0002 0006 0016 24 0001 0003 0008 25 0001 0004 26 0002 Distribuční funkce O(u) rozložení N(0,1) O(u) u O(u) u O(u) u O(u) 0,00 0,50000 0,40 0,65542 0,80 0,78814 1,20 0,88493 0,01 0,50399 0,41 0,65910 0,81 0,79103 1,21 0,88686 0,02 0,50798 0,42 0,66276 0,82 0,79389 1,22 0,88877 0,03 0,51197 0,43 0,66640 0,83 0,79673 1,23 0,89065 0,04 0,51595 0,44 0,67003 0,84 0,79955 1,24 0,89251 0,05 0,51994 0,45 0,67364 0,85 0,80234 1,25 0,79435 0,06 0,52392 0,46 0,67724 0,86 0,80511 1,26 0,89617 0,07 0,52790 0,47 0,68082 0,87 0,80785 1,27 0,89796 0,08 0,53188 0,48 0,68439 0,88 0,81057 1,28 0,89973 0,09 0,53586 0,49 0,68793 0,89 0,81327 1,29 0,90147 0,10 0,53983 0,50 0,69146 0,90 0,81594 1,30 0,90320 0,11 0,54380 0,51 0,69497 0,91 0,81859 1,31 0,90490 0,12 0,54776 0,52 0,69847 0,92 0,82121 1,32 0,90658 0,13 0,55172 0,53 0,70194 0,93 0,82381 1,33 0,90824 0,14 0,55567 0,54 0,70540 0,94 0,82639 1,34 0,90988 0,15 0,55962 0,55 0,70884 0,95 0,82894 1,35 0,91149 0,16 0,56356 0,56 0,71226 0,96 0,83147 1,36 0,91309 0,17 0,56749 0,57 0,71655 0,97 0,83398 1,37 0,91466 0,18 0,57142 0,58 0,71904 0,98 0,83646 1,38 0,91621 0,19 0,57535 0,59 0,72240 0,99 0,83891 1,39 0,91774 0,20 0,57926 0,60 0,72575 1,00 0,84134 1,40 0,91924 0,21 0,58317 0,61 0,72907 1,01 0,84375 1,41 0,92073 0,22 0,58706 0,62 0,73237 1,02 0,84614 1,42 0,92220 0,23 0,59095 0,63 0,73565 1,03 0,84850 1,43 0,92364 0,24 0,59483 0,64 0,73891 1,04 0,85083 1,44 0,92507 0,25 0,59871 0,65 0,74215 1,05 0,85314 1,45 0,92647 0,26 0,60257 0,66 0,74537 1,06 0,85543 1,46 0,92786 0,27 0,60642 0,67 0,74857 1,07 0,85769 1,47 0,92922 0,28 0,61026 0,68 0,75175 1,08 0,85993 1,48 0,93056 0,29 0,61409 0,69 0,75490 1,09 0,86214 1,49 0,93189 0,30 0,61791 0,70 0,75804 1,10 0,86433 1,50 0,93319 0,31 0,62172 0,71 0,76115 1,11 0,86650 1,51 0,93448 0,32 0,62552 0,72 0,76424 1,12 0,86864 1,52 0,93574 0,33 0,62930 0,73 0,76730 1,13 0,87076 1,53 0,93699 0,34 0,63307 0,74 0,77035 1,14 0,87286 1,54 0,93822 0,35 0,63683 0,75 0,77337 1,15 0,87493 1,55 0,93943 0,36 0,64058 0,76 0,77637 1,16 0,87698 1,56 0,94062 0,37 0,64431 0,77 0,77935 1,17 0,87900 1,57 0,94179 0,38 0,64803 0,78 0,78230 1,18 0,88100 1,58 0,94295 0,39 0,65173 0,79 0,78524 1,19 0,88298 1,59 0,94408 u O(u) u O(u) u O(u) u O(u) 1,60 0,94520 2,00 0,97725 2,40 0,99180 3,10 0,99903 1,61 0,94630 2,01 0,97778 2,41 0,99202 3,12 0,99910 1,62 0,94738 2,02 0,97831 2,42 0,99224 3,14 0,99916 1,63 0,94845 2,03 0,97882 2,43 0,99245 3,16 0,99921 1,64 0,94950 2,04 0,97932 2,44 0,99266 3,18 0,99926 1,65 0,95053 2,05 0,97982 2,45 0,99286 3,20 0,99931 1,66 0,95154 2,06 0,98030 2,46 0,99305 3,22 0,99936 1,67 0,95254 2,07 0,98077 2,47 0,99324 3,24 0,99940 1,68 0,95352 2,08 0,98124 2,48 0,99343 3,26 0,99944 1,69 0,95449 2,09 0,98169 2,49 0,99361 3,28 0,99948 1,70 0,95543 2,10 0,98214 2,50 0,99379 3,30 0,99952 1,71 0,95637 2,11 0,98257 2,52 0,99413 3,32 0,99955 1,72 0,95728 2,12 0,98300 2,54 0,99446 3,34 0,99958 1,73 0,95818 2,13 0,98341 2,56 0,99477 3,36 0,99961 1,74 0,95907 2,14 0,98382 2,58 0,99506 3,38 0,99964 1,75 0,95994 2,15 0,98422 2,60 0,99534 3,40 0,99966 1,76 0,96080 2,16 0,98461 2,62 0,99560 3,42 0,99969 1,77 0,96164 2,17 0,98500 2,64 0,99585 3,44 0,99971 1,78 0,96246 2,18 0,98537 2,66 0,99609 3,46 0,99973 1,79 0,96327 2,19 0,98574 2,68 0,99632 3,48 0,99975 1,80 0,96407 2,20 0,98610 2,70 0,99653 3,50 0,99977 1,81 0,96485 2,21 0,98645 2,72 0,99674 3,55 0,99981 1,82 0,96562 2,22 0,98679 2,74 0,99683 3,60 0,99984 1,83 0,96638 2,23 0,98713 2,76 0,99711 3,65 0,99987 1,84 0,96712 2,24 0,98745 2,78 0,99728 3,70 0,99989 1,85 0,96784 2,25 0,98778 2,80 0,99744 3,72 0,99991 1,86 0,96856 2,26 0,98809 2,82 0,99760 3,80 0,99993 1,87 0,96926 2,27 0,98840 2,84 0,99774 3,85 0,99994 1,88 0,96995 2,28 0,98870 2,86 0,99788 3,90 0,99995 1,89 0,97062 2,29 0,98899 2,88 0,99801 3,95 0,99996 1,90 0,97128 2,30 0,98928 2,90 0,99813 4,00 0,99997 1,91 0,97193 2,31 0,98956 2,92 0,99825 4,05 0,99997 1,92 0,97257 2,32 0,98983 2,94 0,99836 4,10 0,99998 1,93 0,97320 2,33 0,99010 2,96 0,99846 4,15 0,99998 1,94 0,97381 2,34 0,99036 2,98 0,99856 4,20 0,99999 1,95 0,97441 2,35 0,99061 3,00 0,99865 4,25 0,99999 1,96 0,97500 2,36 0,99086 3,02 0,99874 4,30 0,99999 1,97 0,97558 2,37 0,99111 3,04 0,99882 4,35 0,99999 1,98 0,97615 2,38 0,99134 3,06 0,99889 4,40 0,99999 1,99 0,97670 2,39 0,99158 3,08 0,99897 4,45 1,00000 Kvantily standardizovaného normálního rozložení uP p Up p Up p Up p Up 0,50 0,000 0,75 0,674 0,950 1,645 0,975 1,960 0,51 0,025 0,76 0,706 0,951 1,655 0.976 1,970 0,52 0,050 0,77 0,739 0,952 1.665 0.977 1,995 0,53 0,075 0,78 0,772 0,953 1,675 0,978 2,014 0,54 0,100 0,79 0.806 0,954 1.685 0.979 2,034 0,55 0,126 0.80 0.842 0,955 1,695 0,980 2,054 0,56 0,151 0,81 0.878 0,956 1,706 0.981 2,075 0,57 0,176 0,82 0,915 0,957 1,717 0,982 2,097 0,58 0,202 0,83 0,954 0,958 1,728 0.983 2,120 0,59 0,228 0,84 0,994 0,959 1,739 0.984 2,144 0,60 0,253 0,85 1,036 0,960 1,751 0.985 2,170 0,61 0,279 0,86 1,080 0,961 1,762 0,986 2,197 0.62 0,305 0,87 1,126 0,962 1,774 0,987 2,226 0,63 0,332 0,88 1.175 0,963 1,787 0,988 2,257 0,64 0,358 0.89 1,227 0,964 1,799 0,989 2,290 0,65 0,385 0,90 1,282 0,965 1,812 0,990 2,326 0,66 0,412 0,905 1,311 0,966 1,825 0,991 2,366 0,67 0.440 0,910 1,341 0,967 1,838 0,992 2,409 0,68 0,468 0,915 1,372 0,968 1,852 0,993 2,457 0,69 0.496 0,920 1,405 0,969 1,866 0,994 2,512 0,70 0,524 0,925 1,440 0,970 1,881 0,995 2,576 0,71 0,553 0,930 1,476 0,971 1,896 0,996 2,652 0,72 0,583 0,935 1.514 0,972 1,911 0,997 2,748 0,73 0,613 0,940 1.555 0,973 1.927 0.998 2,878 0,74 0,643 0,945 1.598 0,974 1,943 0,999 3,090 707 Kvantily Pearsonova rozložení /2(v) stupně volnosti pravděpodobnost 0,005 0,01 0,025 0,05 0,1 1 0,0000 0,0002 0,0010 0,0039 0,0158 2 0,0100 0,0201 0,0506 0,1026 0,2107 3 0,0717 0,1148 0,2158 0,3519 0,5844 4 0,2070 0,2971 0,4844 0,7107 1,0636 5 0,4117 0,5543 0,8312 1,1455 1,6103 6 0,6757 0,8721 1,2373 1,6354 2,2041 7 0,9893 1,2390 1,6899 2,1673 2,8331 8 1,3444 1,6465 2,1797 2,7326 3,4895 9 1,7349 2,0879 2,7004 3,3251 4,1682 10 2,1559 2,5582 3,2470 3,9403 4,8652 11 2,6032 3,0535 3,8157 4,5748 5,5778 12 3,0738 3,5706 4,4038 5,2260 6,3038 13 3,5650 4,1069 5,0088 5,8919 7,0415 14 4,0747 4,6604 5,6287 6,5706 7,7895 15 4,6009 5,2293 6,2621 7,2609 8,5468 16 5,1422 5,8122 6,9077 7,9616 9,3122 17 5,6972 6,4078 7,5642 8,6718 10,085 18 6,2648 7,0149 8,2307 9,3905 10,865 19 6,8440 7,6327 8,9065 10,117 11,651 20 7,4338 8,2604 9,5908 10,851 12,443 21 8,0337 8,8972 10,283 11,591 13,240 22 8,6427 9,5425 10,982 12,338 14,041 23 9,2604 10,196 11,689 13,091 14,848 24 9,8862 10,856 12,401 13,848 15,659 25 10,520 11,524 13,120 14,611 16,473 26 11,160 12,198 13,844 15,379 17,292 27 11,808 12,879 14,573 16,151 18,114 28 12,461 13,565 15,308 16,928 18,939 29 13,121 14,256 16,047 17,708 19,768 30 13,787 14,953 16,791 18,493 20,599 40 20,707 22,164 24,433 26,509 29,051 50 27,991 29,707 32,357 34,764 37,689 60 35,534 37,485 40,482 43,188 46,459 70 43,275 45,442 48,758 51,739 55,329 80 51,172 53,540 57,153 60,391 64,278 90 59,196 61,754 65,647 69,126 73,291 100 67,328 70,065 74,222 77,929 82,358 200 152,24 156,43 162,73 168,28 174,84 300 240,66 245,97 253,91 260,88 269,07 500 422,30 429,39 439,94 449,15 459,93 stupně volnosti pravděpodobnost 0,90 0,95 0,975 0,99 0,995 1 2,706 3,841 5,024 6,635 7,879 2 4,605 5,991 7,378 9,210 10,597 3 6,251 7,814 9,348 11,345 12,838 4 7,779 9,488 11,143 13,277 14,860 5 9,236 11,070 12,833 15,086 16,750 6 10,645 12,592 14,449 16,812 18,548 7 12,017 14,067 16,013 18,475 20,278 8 13,362 15,507 17,535 20,090 21,955 9 14,684 16,919 19,023 21,666 23,589 10 15,987 18,307 20,483 23,209 25,188 11 17,275 19,675 21,920 24,725 26,757 12 18,549 21,026 23,337 26,217 28,300 13 19,812 22,362 24,736 27,688 29,819 14 21,064 23,685 26,119 29,141 31,319 15 22,307 27,996 27,488 30,578 32,801 16 23,542 26,296 28,845 32,000 34,267 17 24,769 27,587 30,191 33,409 35,718 18 25,989 28,869 31,526 34,805 37,156 19 27,204 30,144 32,852 36,191 38,582 20 28,412 31,410 34,170 37,566 39,997 21 29,615 32,671 35,479 38,932 41,401 22 30,813 33,924 36,781 40,289 42,796 23 32,007 35,172 38,076 41,638 44,181 24 33,196 36,415 39,364 42,980 45,599 25 34,382 37,652 40,646 44,314 46,928 26 35,563 38,885 41,923 45,642 48,290 27 36,741 40,113 43,195 46,963 49,645 28 37,916 41,337 44,461 48,278 50,993 29 39,087 42,557 45,722 49,588 52,336 30 40,256 43,773 46,979 50,892 53,672 40 51,805 55,758 59,342 63,691 66,766 50 63,167 67,505 71,420 76,154 79,490 60 74,397 79,082 83,298 88,379 91,952 70 85,527 90,531 95,023 100,43 104,21 80 96,578 101,88 106,63 112,33 116,32 90 107,57 113,15 118,14 124,12 128,30 100 118,50 124,34 129,56 135,81 140,17 200 226,02 233,99 241,06 249,45 255,26 300 331,79 341,40 349,87 359,91 366,84 500 540,93 553,13 563,85 576,49 585,21 708 Kvantily Studentova rozložení t(n) stupně volnosti pravděpodobnost 0,90 0,95 0,975 0,99 0,995 1 3,078 6,314 12,706 31,821 63,657 2 1,886 2,920 4,303 6,965 9,925 3 1,638 2,353 3,182 4,541 5,841 4 1,533 2,132 2,776 3,747 4,604 5 1,476 2,015 2,571 3,365 4,032 6 1,440 1,943 2,447 3,143 3,707 7 1,415 1,895 2,365 2,998 3,499 8 1,397 1,860 2,306 2,896 3,355 9 1,303 1,833 2,262 2,821 3,250 10 1,372 1,812 2,228 2,764 3,169 11 1,363 1,796 2,201 2,718 3,106 12 1,356 1,782 2,179 2,681 3,055 13 1,350 1,771 2,160 2,650 3,012 14 1,345 1,761 2,145 2,624 2,977 15 1,341 1,753 2,131 2,602 2,947 16 1,337 1,746 2,120 2,583 2,921 17 1,333 1,740 2,110 2,567 2,898 18 1,330 1,734 2,101 2,552 2,878 19 1,328 1,729 2,093 2,539 2,961 20 1,325 1,725 2,086 2,528 2,845 21 1,323 1,721 2,080 2,518 2,831 22 1,321 1,717 2,074 2,508 2,819 23 1,319 1,714 2,069 2,500 2,807 24 1,318 1,711 2,064 2,492 2,797 25 1,316 1,708 2,060 2,485 2,878 26 1,315 1,706 2,056 2,479 2,779 27 1,314 1,703 2,052 2,473 2,771 28 1,313 1,701 2,048 2,467 2,763 29 1,311 1,699 2,045 2,462 2,756 30 1,310 1,697 2,042 2,457 2,750 40 1,303 1,684 2,021 2,423 2,704 60 1,296 1,671 2,000 2,390 2,660 120 1,289 1,658 1,980 2,358 2,617 00 1,282 1,645 1,960 2,326 2,576 709 Kvantily rozložení F0 95*^.^2) -1. část V2 Vj 1 2 3 4 5 6 ■7 8 9 1 161,45 199,50 215,71 224,58 230,16 233,99 236,77 238,88 240,54 2 18,513 19,000 19,164 19,247 19,296 19,330 19,353 19,371 19,385 3 10,128 9,552 9,277 9,117 9,014 8,941 S:8S7 8.S45 a, s 12 4 7,709 6,944 6,591 6,388 6,256 6,163 6,094 6,041 5,999 5 6,608 5,786 5,410 5,192 5,050 4,950 4,&76 4,818 4,773 6 5,987 5,143 4,757 4,534 4,387 4,284 4,207 4,147 4,099 7 5,591 4,737 4,347 4,120 3,972 3,866 3,787 3,726 3,677 S 5,318 4,459 4,066 3,838 3,688 3,581 3,501 3,438 3,388 9 5,117 4,257 3,863 3,633 3,482 2,274 3,293 3,230 3,179 10 4,965 4,103 3,70S 3,478 3,326 3,217 3,136 3,072 3,020 11 4,844 3,982 3,587 3,357 3,204 3,095 3,012 2,948 2,896 12 4,747 3:8S5 3,490 3,259 3,106 2,996 2,913 2,S49 2,796 13 4,667 3:806 3,411 3,179 3,025 2,915 2,832 2,767 2,714 14 4,600 3,739 3,344 3,112 2,958 2,848 2,764 2,699 2,646 15 4,543 3,682 3,287 3,056 2,901 2,791 2,707 2,641 2,588 ie 4,494 3,634 3,239 3,007 2,852 2,741 2,657 2,591 2,538 17 4,451 3,592 3,197 2,965 2,810 2,699 2,614 2,548 2,494 IS 4,414 3,555 3,160 2,928 2,773 2,661 2,577 2,510 2,456 19 4,381 3,522 3,127 2,895 2,740 2,628 2,544 2,477 2,423 20 4,351 3,493 3,09S 2,866 2,711 2,599 2,514 2,447 2,393 21 4,325 3,467 3,073 2,840 2,685 2,573 2,488 2,421 2,366 22 4,301 3,443 3,049 2,817 2,661 2,549 2,464 2,397 2,342 23 4,279 3,422 3,028 2,796 2,640 2,528 2,442 2,375 2,320 24 4,260 3,403 3,009 2,776 2,621 2,508 2,423 2,355 2,300 25 4,242 3,385 2,991 2,759 2,603 2,490 2,405 2,337 2,282 26 4,225 3,369 2,975 2,743 2,587 2,474 2,388 2,321 2,266 27 4,210 3,354 2,960 2,728 2,572 2,459 2,373 2,305 2,250 28 4,196 3,340 2,947 2,714 2,558 2,445 2,359 2,291 2,236 29 4,183 3,328 2,934 2,701 2,545 2,432 2,346 2,278 2,223 30 4,171 3,316 2,922 2,690 2,534 2,421 2,334 2,266 2,211 40 4,085 3,232 2,839 2,606 2,450 2,336 2,249 2,180 2,124 60 4,001 3,150 2,75S 2,525 2,368 2,254 2,167 2,097 2,040 120 3,920 3,072 2,680 2,447 2,290 2,175 2,087 2,016 1,959 3,842 2,996 2,605 2,372 2,214 2,099 2,010 1,938 1,880 710 Kvantily rozložení F0 95(\i9\2)" 2- část v2 vi 10 12 15 20 24 30 40 60 120 DC 1 24 ľ, 88 243,91 245,95 248,01 249,05 250,09 251,14 252,20 253,25 254,32 2 19,396 19,413 19,429 19,446 19,454 19,462 19,471 19,479 19,487 19,496 3 8,786 8,745 8,703 8,660 8,639 8,617 8,594 8,572 8,549 8,527 4 5,964 5,912 5,858 5,803 5,774 5,746 5,717 5,688 5,658 5,628 5 4,735 4,678 4,619 4,558 4,527 4,496 4,464 4,431 4,398 4,365 6 4,060 4,000 3,938 3,874 3,842 3,308 3,774 3,740 3,705 3,669 7 3,637 3,575 3,511 3,445 3,411 3,376 3,340 3,304 3,267 3,230 S 3,347 3,284 3,218 3,150 3,115 3,079 3,043 3,005 2,967 2,928 9 3,137 3,073 3,006 2,937 2,901 2,864 2,826 2,787 2,748 2,707 10 2,978 2,913 2,845 2,774 2,737 2,700 2,661 2,621 2,580 2,538 11 2,854 2,788 2,719 2,646 2,609 2,571 2,531 2,490 2,448 2,405 12 2,753 2,687 2,617 2,544 2,506 2,466 2,426 2,384 2,341 2,296 13 2,671 2,604 2,533 2,459 2,420 2,380 2,339 2,297 2,252 2,206 14 2,602 2,534 2,463 2,388 2,349 2,308 2,266 2,223 2,178 2,131 15 2,544 2,475 2,404 2,328 2,288 2,247 2,204 2,160 2,114 2,066 lú 2,494 2,425 2,352 2,276 2,235 2,194 2,151 2,106 2,059 2,010 17 2,450 2,381 2,308 2,230 2,190 2,148 2,104 2,058 2,011 1,960 1S 2,412 2,342 2,269 2,191 2,150 2,107 2,063 2,017 1,968 1,917 19 2,378 2,308 2,234 2,156 2,114 2,071 2,026 1,980 1,930 1,878 20 2,348 2,278 2,203 2,124 2,083 2,039 1,994 1,946 1,896 1,843 21 2,321 2,250 2,176 2,096 2,054 2,010 1,965 1,917 1,866 1,812 22 2,297 2,226 2,151 2,071 2,028 1,984 1,93 S 1,890 1,838 1,783 23 2,275 2,204 2,128 2,048 2,005 1,961 1,914 1,865 1,813 1,757 24 2,255 2,183 2,108 2,027 1,984 1,939 1,892 1,842 1,790 1,733 25 2,237 2,165 2,089 2,008 1,964 1,919 1,872 1,822 1,768 1,711 26 2,220 2,148 2,072 1,990 1,946 1,901 1,853 1,803 1,749 1,691 27 2,204 2,132 2,056 1,974 1,930 1,884 1,836 1,785 1,731 1,672 28 2,190 2,118 2,041 1,959 1,915 1,869 1,820 1,769 1,714 1,654 29 2,177 2,105 2,028 1,945 1,901 1,854 1,806 1,754 1,698 1,638 30 2,165 2,092 2,015 1,932 1,887 1,841 1,792 1,740 1,684 1,622 40 2,077 2,004 1,925 1,839 1,793 1,744 1,693 1,637 1,577 1,509 60 1,993 1,917 1,836 1,748 1,700 1,649 1,594 1,534 1,467 1,389 120 1,911 1,834 1,751 1,659 1,608 1,554 1,495 1,429 1,352 1,254 1,831 1,752 1,666 1,571 1,517 1,459 1,394 1,318 1,221 1,000 711 Kvantily rozložení Fqq^Vj^) -1. část V2 V] 1 3 4 5 6 -"7 8 9 1 647,79 799,50 S64:16 899,58 921,85 937,11 948,22 956,66 963,28 2 38,506 39,000 39,165 39,248 39,298 39,331 39,355 39,373 39,387 3 17,443 16,044 15,439 15,101 14,885 14,735 14,624 14,540 14,473 4 12,218 10,649 9,979 9,605 9,365 9,197 9,074 8,980 8,905 5 10,007 E ,434 7,764 7,388 7,146 6,978 6,853 6,757 6,681 6 8,813 7,260 6,599 6,227 5,988 5,820 5,696 5,600 5,523 7 8,073 6,542 5,S90 5,523 5,285 5,119 4,995 4,899 4,823 8 7,571 6,060 5,416 5,053 4,817 4,652 4:529 4,433 4,357 9 7,209 5,715 5,078 4,718 4,484 4,320 4,197 4,102 4,026 10 6,937 5,456 4,826 4,468 4,236 4,072 3,950 3,855 3,779 11 6,724 5,256 4,630 4,275 4,044 3,881 3,759 3,664 3,588 12 6,554 5,096 4,474 4,121 3,891 3,72 S 3,607 3,512 3,436 13 6,414 4,965 4,347 3,996 3,767 3,604 3,483 3,388 3,312 14 6,298 4:S57 4,242 3,892 3,663 3,501 3,380 3,285 3,209 15 6,200 4,765 4,153 3,804 3,576 3,415 3,293 3,199 3,123 ló 6,115 4,687 4,077 3,729 3,502 3,341 3,219 3,125 3,049 17 6,042 4,619 4,011 3,665 3,438 3,277 3,156 3,061 2,985 1S 5,978 4,560 3,954 3,608 3,382 3,221 3,100 3,005 2,929 19 5,922 4,508 3,903 3,559 3,333 3,172 3,051 2,956 2,880 20 5,872 4,461 3,859 3,515 3,289 3,128 3,007 2,913 2,837 21 5,827 4,420 3,819 3,475 3,250 3,090 2,969 2,874 2,798 22 5,786 4,383 3,783 3,440 3,215 3,055 2,934 2,839 2,763 23 5,750 4,349 3,751 3,40S 3,184 3,023 2,902 2,808 2,731 24 5,717 4,319 3,721 3,379 3,155 2,995 2:874 2,779 2,703 25 5,686 4,291 3,694 3,353 3,129 2,969 2,848 2,753 2,677 26 5,659 4,266 3,670 3,329 3,105 2,945 2:824 2,729 2,653 27 5,633 4,242 3,647 3,307 3,083 2,923 2,802 2,707 2,631 28 5,610 4,221 3,626 3,286 3,063 2,903 2,782 2,687 2,611 29 5,588 4,201 3,607 3,267 3,044 2,884 2,763 2,669 2,592 30 5,568 4,182 3,589 3,250 3,027 2,867 2,746 2,651 2,557 40 5,424 4,051 3,463 3,126 2,904 2,744 2,624 2,529 2,452 60 5,286 3,925 3,343 3,008 2,786 2,627 2,507 2,412 2,334 120 5,152 3,805 3,227 2,894 2,674 2,515 2,395 2,299 2,222 5,024 3,689 3,116 2,786 2,567 2.40S 2,288 2,192 2,114 712 Kvantily rozložení F0 975(^^2) - 2. část V2 Vi 10 12 15 20 24 30 40 60 120 1 368,33 976,71 984:87 993,10 997,25 1001,4 1005,6 1009:8 1014,0 1018,3 2 39,338 33,415 33,431 39,448 39,456 33,465 39,473 39,481 39,490 39,498 3 14,419 14,337 14,253 14,167 14,124 14,081 14,037 13,992 13,947 13,902 4 8,844 8,751 8,657 8,560 8,511 8,461 8,411 8,360 8,309 8,257 5 6,619 6,525 6,42 S 6,329 6,278 6,227 6,175 6,125 6,069 6,0115 6 5,461 5,366 5:269 5,168 5,117 5,065 5,013 4,959 4,905 4,849 7 4,761 4,666 4,568 4,467 4,415 4,362 4,309 4,256 4,199 4,142 S 4,295 4,200 4,101 4,000 3,947 3,894 3,840 3,7S4 3,728 3,670 9 3,364 3,868 3,769 3,667 3,614 3,560 3,506 3,449 3.392 3,333 10 3,717 3,621 3,522 3,419 3,365 3,311 3,255 3,198 3,140 3,080 11 3,526 3,430 3,330 3,226 3,173 3,11S 3,061 3,004 2,944 2,883 12 3,374 3,277 3,177 3,073 3,019 2,963 2^906 2,848 2,787 2,725 13 3,250 3,153 3,053 2,948 2,893 2,837 2,7880 2,720 2,659 2,596 14 3,147 3,050 2,949 2,844 2,783 2,732 2,674 2,614 2,552 2,487 15 3,060 2,363 2,862 2,756 2,701 2,644 2,585 2,524 2,461 2,395 16 2,3S6 2,883 2,788 2,681 2,625 2,568 2,509 2,447 2,383 2,316 17 2 92~> 2,825 2,723 2,616 2,560 2,502 2,442 2,380 2,315 2,247 IS 2^866 2,769 2,667 2,559 2,503 2,445 2,384 2,321 2,256 2,187 19 2,817 2,720 2,617 2,509 2,452 2,394 2,333 2,270 2,203 2,133 20 2,774 2,676 2,573 2,465 2408 2,349 2,287 2,223 2,156 2,085 21 2.735 2,637 2,534 2,425 2,368 2,308 2,247 2,182 2,114 2,042 12 2,700 2,602 2,438 2,389 2,332 2,272 2,210 2,145 2,076 2,003 23 2,668 2,570 2,467 2,357 2,293 2,239 2,176 2,111 2,042 1,968 24 2,640 2,541 2,437 2,327 2,269 2,209 2,146 2,080 2,010 1,935 25 2,614 2,515 2,411 2,301 2,242 2,182 2,118 2,052 1,381 1,906 26 2,590 2,491 2,387 2,276 2,217 2,157 2,093 2,026 1,955 1,878 27 2,568 2,469 2,364 2,253 2,195 2,133 2,069 2,002 1,330 1,853 28 2,547 2,448 2,344 2,232 2,174 2,112 2,048 1,980 1,907 1,829 29 2,523 2,430 2,325 2,213 2,154 2,092 2,028 1,959 1,886 1,807 30 2,511 2,412 2,307 2,195 2,136 2,074 2,009 1,340 1,866 1,787 40 2,388 2,288 2,182 2,063 2,007 1,943 1,875 1,803 1,724 1,637 60 2,270 2,163 2,061 1,945 1,882 1,815 1,744 1,667 1,581 1,482 120 2,157 2,055 1,945 1,825 1,760 1,690 1,614 1,530 1,433 1,310 2,048 1,345 1,833 1,709 1,640 1,556 1,484 1,388 1,268 1,000 713 Kvantily rozložení F099(v1,v2) -1. část v2 V] 1 JL 3 4 5 6 7 8 9 1 4052,2 4999,5 5403,5 5624,6 5763,7 5859,0 5928,3 5981,6 6022,5 2 98,503 99,000 99,166 99,249 99,299 99,332 99,356 99,374 99,338 3 34,116 30,817 29,457 28,710 28,237 27,911 27,672 27,489 27,345 4 21,198 18,000 16,694 15,977 15,522 15,207 14,976 14,799 14,639 5 16,258 13,274 12,060 11,392 10,967 10,672 10,456 10,289 10,158 6 13,745 10,925 9,780 9,143 S:746 8,466 8,260 8,102 7,976 12*246 9,547 8,451 7,847 7,460 7,191 6,993 6,840 6,719 S 11,259 8,649 7,591 7,006 6:632 6,371 6,178 6,029 5,911 9 10,561 S:022 6,992 6,422 6,057 5,802 5,613 5,467 5,351 10 10,044 7,559 6,552 5,994 5.6í6 5,386 5,200 5,057 4,942 11 9,646 7,206 6,217 5,668 5,316 5,069 4,886 4,745 4,632 12 9,330 6:927 5,953 5,412 5,064 4,821 4,640 4,499 4,388 13 9,074 6,701 5,739 5,205 4,862 4,620 4,441 4,302 4,191 14 8,862 6,515 5,564 5,035 4,695 4,456 4,278 4,140 4,030 15 8,683 6,359 5,417 4,893 4,556 4,318 4,142 4,005 3,395 16 8,531 6,226 5,292 4,773 4,437 4,202 4,026 3,890 3,780 17 8,400 6,112 5,185 4,669 4:336 4,102 3,927 3,791 3,682 18 8,285 6,013 5,092 4,579 4,428 4,015 3:841 3,705 3,597 19 8,185 5,926 5,010 4,500 4,171 3,939 3,765 3,631 3,523 20 8,096 5:849 4,938 4,431 4:103 3,871 3:699 3,564 3,457 21 8,017 5,780 4,374 4,369 4,042 3,812 3,640 3,506 3,393 12 7,945 5,719 7,817 4,313 3,988 3,758 3,587 3,453 3,346 23 7,881 5,664 4,765 4,264 3,939 3,710 3,539 3,406 3,299 24 7.S23 5,614 4,71 S 4,218 3,S95 3,667 3,496 3,363 3,256 25 7,770 5,568 4,676 4,177 3,855 3,627 3,457 3,324 3,217 26 7,721 5,526 4,637 4,140 3,818 3,591 3,421 3,288 3,182 27 7,677 5,488 4,601 4,106 3,785 3,558 3,388 3,256 3,149 28 7,636 5,453 4,568 4,074 3,754 3,523 3,358 3,226 3,120 29 7,598 5,421 4,538 4,045 3,725 3,500 3,330 3,198 3,092 30 7,563 5,390 4,510 4,018 3,699 3,474 3,305 3,173 3,067 40 7,314 5,179 4,313 3,828 3,514 3,291 3,124 2,993 2,883 60 7,077 4,977 4,126 3,649 3,339 3,119 2,953 2,823 2,719 120 6,851 4,787 3,949 3,480 3,174 2,956 2,792 2,663 2,559 6,635 4,605 3,782 3,319 3,017 2,802 2,639 2,511 2,407 714 Kvantily rozložení F0 99(\i9\2)" 2- část v2 Vl 10 12 15 20 24 30 40 60 120 DC 1 6055:8 6106,3 6157,3 6208,7 6234,6 6260,7 6286,8 6313,0 6339,4 6366,0 2 99:399 99,416 99,432 99,449 99,458 99,466 99,474 99,483 99,491 99,501 3 27,229 27,052 26,872 26,690 26,598 26,505 26,411 26,316 26,221 26,125 4 14,546 14,374 14,198 14,020 13,929 13,838 13,745 13,652 13,558 13,463 5 10,051 9,888 9,722 9.553 9,467 9,379 9,291 9,202 9,112 9,020 6 7,874 7,718 7,559 7,396 7,313 7,229 7,143 7,057 6,969 6,380 y 6,620 6,469 6,314 6,155 6,074 5,992 5,908 5,824 5,737 5,650 5,814 5,667 5,515 5.359 5,279 5,198 5,116 5,032 4,946 4,359 9 5,257 5,111 4^62 4,808 4,729 4,649 4,567 4,483 4,398 4,311 10 4,849 4,706 4,55 S 4,405 7,327 4,247 4,165 4,082 3,997 3,909 11 4,539 4,397 4,251 4,099 4,021 3,941 3,860 3,776 3,690 3,603 12 4,296 4,155 4,010 3,858 3,781 3,701 3,619 3,536 3,449 3,361 13 4,100 3,960 3,815 3,665 3,587 3,507 3,425 3,341 3,255 3,165 14 3,939 3,800 3,656 3,505 3,427 3,348 3,266 3,181 3,094 3,004 15 3,805 3,666 3,522 3,372 3,294 3,214 3,132 3,047 2,960 2,868 16 3,691 3,553 3,409 3,259 3,181 3,101 3,018 2,933 2,845 2,753 17 3,593 3,455 3,312 3,162 3,084 3,003 2,921 2,835 2,746 2,653 IS 3,508 3,371 3,227 3,077 2,999 2,919 2,835 2,749 2,660 2,566 19 3,434 3,297 3,153 3,003 2,925 2,844 2,761 2,674 2,584 2,489 20 3,368 3,231 3,088 2,938 2,859 2,779 2:695 2,608 2,517 2,421 21 3,310 3,173 3,030 2,880 2,801 2,720 2,636 2,548 2,457 2,360 22 3,258 3,121 2,97S 2,827 2,749 2,668 2,583 2,495 2,403 2,306 23 3,211 3,074 2,931 2,781 2,702 2,620 2,536 2,447 2,354 2,256 24 3,168 3,032 2,8S9 2,738 2,659 2,577 2,492 2,404 2,310 2,211 25 3,129 2,993 2,850 2,699 2,620 2,538 2,453 2,364 2,270 2,169 26 3,094 2,958 2:815 2,664 2,585 2,503 2,417 2,327 2,233 2,132 27 3,062 2,926 2,783 2,632 2,552 2,470 2,384 2,294 2,198 2,097 28 3,032 2,896 2,753 2,602 2,522 2,440 2,354 2,263 2,167 2,064 29 3,005 2,869 2,726 2,574 2,495 2,412 2,325 2,234 2,138 2,034 30 2,979 2,843 2,700 2,549 2,469 2,386 2,299 2,208 2,111 2,006 40 2,801 2,665 2,522 2,369 2,288 2,203 2,114 2,019 1,917 1,305 60 2,632 2,496 2,352 2,198 2,115 2,029 1,936 1,836 1,726 1,601 120 2,472 2,336 2,192 2,035 1,950 1,860 1,763 1,656 1,533 1,381 2,321 2,185 2,039 1,878 1,791 1,696 1,592 1,473 1,325 1,000 715 Kvantily rozložení F0995(v1,v2) -1. část V2 V] 1 A 3 4 5 6 ■"7 8 9 1 16211 20000 21615 22500 23056 23437 23715 23925 24091 2 198,50 199,00 199,17 199,25 199,30 199,33 199,36 199,37 199,39 3 55,552 49,799 47,467 46,196 45,392 44,838 44,434 44,126 43,882 4 31,333 26,284 2+,259 23,155 22,456 21,975 21,622 21,352 21,139 5 22,785 18,314 16,530 15,556 14,940 14,513 14,200 13,961 13,772 6 18,635 14,544 12,917 12,028 11,464 11,073 10,786 10,566 10,391 7 16,236 12,404 10,882 10,050 9,522 9,155 8,885 8,678 8,514 S 14,688 11,042 9,597 8,805 8,3302 7,952 7,694 7,496 7,339 9 13,61+ 10,107 8,717 7,956 7,471 7,134 6,885 6,693 6,541 10 12,826 9,427 8,081 7,343 6,872 6,545 6,303 6,116 5,968 11 12,226 8,912 7,600 6,881 6,422 6,102 5:865 5,682 5,537 12 11,75+ 8,510 7,226 6,521 6,071 5,757 5,525 5,345 5,202 13 11,374 8,187 6,926 6.234 5,791 5,482 5:253 5,076 4,935 14 11,060 7,922 6,680 5,998 5,562 5,257 5,031 4,857 4,717 15 10,798 7,701 6,476 5,80(3 5,372 5,071 4,847 4,674 4,536 16 10,575 7,514 6,303 5,638 5,212 4,913 4,692 4,521 4,384 17 10,384 7,354 6,156 5,497 5,075 4,779 4:559 4,389 4,254 IS 10,218 7,215 6,028 5,375 4,956 4,663 4,445 4,276 4,141 13 10,073 7,094 5,916 5,268 4,853 4,561 4,345 4,177 4,043 20 9,944 6:9S7 5,818 5,174 4,762 4,472 4,257 4,090 3,956 21 9,830 6:891 5,730 5,091 4,681 4,393 4,179 4,013 3,380 22 9,727 6:806 5,652 5,017 4,609 4,323 4,109 3,944 3,812 23 9,635 6,730 5,5S2 4,950 4,544 4,259 4,047 3,882 3,750 24 9,551 6:661 5,519 4,890 4,486 4,202 3,991 3,826 3,695 25 9,475 6,598 5,462 4,835 4,433 4,150 3,939 3,776 3,645 26 9,406 6,541 5,409 4,7S5 4,384 4,103 3:893 3,730 3,599 27 9,342 6,489 5,361 4,740 4,340 4,059 3:850 3,688 3,557 28 9,284 6,440 5,317 4,698 4,300 4,020 3,811 3,649 3,519 29 9,230 6,396 5,276 4,659 4,262 3,983 3,775 3,613 3,483 30 9,180 6,355 5,239 4,623 4,228 3,949 3,742 3,580 3,451 40 8,828 6,066 4,976 4,374 3,986 3,713 3,509 3,350 3,222 60 8,495 5,795 4,729 4,1+0 3,760 3,492 3,291 3,134 3,008 120 8,179 5,559 4,497 3,921 3:54S 3,285 3,087 2,933 2,303 7,879 5,292 4,279 3,715 3,350 3,091 2,897 2,744 2,621 716 Kvantily rozložení F0 995(v1,v2) - 2. část v2 vi 10 12 15 20 24 30 40 60 120 ji 1 24,224 24426 24630 24836 24940 25044 25143 25253 25359 25465 2 199,40 199,42 199,43 199,45 199,46 199,47 199,47 199,48 199,49 199,51 3 43:656 43,387 43,085 42,778 42,622 42,466 42,308 42,149 41,989 41,829 4 20,967 20,705 20,438 20,167 20,030 19,892 19,752 19,611 19,463 19,325 5 13,618 13,384 13,146 12,903 12,780 12,656 12,530 12,402 12,274 12,144 6 10,250 10,034 9,814 9,589 9,474 9,358 9,241 9,122 9,002 8,379 7 3,380 8,176 7,968 7,754 7,645 7,735 7,423 7,309 7,193 7,076 8 7,211 7,015 6:S14 6,608 6,503 6,396 6,288 6,177 6,065 5,951 9 6,417 6,227 6,033 5,B32 5,729 5,625 5,519 5,410 5,300 5,138 10 5,847 5,661 5,471 5,274 5,173 5,071 4,966 4,859 4,750 4,639 11 5,413 5,236 5,049 4,355 4,756 4,654 4,551 4,445 4,337 4,226 12 5,086 4,906 4,721 4,530 4,432 4,331 4,228 4,123 4,015 3,904 13 4,820 4,643 4,460 4,270 4,173 4,073 3,970 3,866 3,753 3,647 14 4,603 4,428 4,247 4,059 3,961 3,862 3,760 3,655 3,547 3,436 15 4,424 4,250 4,070 3,383 3,786 3,637 3,585 3,480 3,372 3,260 16 4,272 4,099 3,921 3,734 3,638 3,53S 3,437 3.332 3,224 3,112 17 4,142 3,971 3,793 3,607 3,511 3,412 3,311 3,206 3,097 2,984 IS 4,031 3,860 3,683 3,498 3,402 3,303 3,201 3,096 2,987 2,373 19 3,933 3,763 3,587 3,402 3,306 3,208 3,106 3,000 2,891 2J76 20 3,847 3,678 3,502 3,313 3,222 3,123 3,022 2,916 2,806 2,690 21 3,771 3,602 3,427 3,243 3,147 3,049 2,947 2,841 2,730 2,614 22 3,703 3,535 3,360 3,176 3,081 2,932 2,880 2,774 2,663 2,546 23 3,642 3,475 3,300 3,117 3,021 2,922 2,820 2,713 2,602 2,484 24 3,587 3,420 3,246 3,062 2,967 2,868 2,765 2,659 2,546 2,428 25 3,537 3,370 3,196 3,013 2,918 2,819 2,716 2,609 2,496 2,377 26 3,492 3,325 3,152 2,969 2,873 2,774 2,671 2,563 2,450 2,330 27 3,450 3,284 3,110 2,923 2,832 2,733 2,630 2,522 2,408 2,287 28 3,412 3,246 3,073 2,890 2,794 2,695 2,592 2,483 2,369 2,247 29 3,377 3,211 3,038 2,355 2,759 2,660 2,557 2,448 2,333 2,210 30 3,344 3,179 3,006 2,323 2,727 2,628 2,524 2,415 2,300 2,176 40 3,117 2,953 2,781 2,598 2,502 2,402 2,296 2,184 3,064 1,932 60 2,904 2,742 2,571 2,387 2,290 2,137 2,079 1,962 1,834 1,688 120 2,705 2,544 2,373 2,183 2,089 1,934 1,871 1,747 1,606 1,431 cg 2,519 2,358 2,187 2,000 1,898 1,739 1,669 1,533 1,364 1,000 717 Literatura ■v Budíková, Marie - Mikoláš, Stepán - Osecký, Pavel. Popisná statistika. 3., doplněné vyd. Brno : Masarykova univerzita, 1998. 52 s. ISBN 80-210-1831-3. > Budíková, Marie - Mikoláš, Stepán - Osecký, Pavel. Teorie pravděpodobnosti a matematická statistika. Sbírka příkladů. 3. vyd. Brno : Masarykova univerzita, 2004. 127 s. ISBN 80-210-3313-4. Michal Friesl - výukové texty (např. Pravděpodobnost a statistika, Posbírané příklady z pravděpodobnosti a statistiky,...): http://home.zcu.cz/~friesl/Archiv/DldTeach.html ■v > Blanka Šedivá - Pravděpodobnost a statistika: http://home.zcu.cz/~sediva/pse/ ■v > Michal Cihák - výukové texty: http://www.cihak.com/michal/ ■v > Petr Otipka, Vladislav Smajstrla - Pravděpodobnost a statistika: http://homen.vsb.cz/~oti73/cdpastl/ > Jana Novovičová - Pravděpodobnost a matematická statistika: http://euler.fd.cvut.cz/publikace /files/skripta3.pdf 718