VYSOKÉ UČENÍ TECHNICKE V BRNE FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ Matematika 3 RNDr. Břetislav Fajmon, Ph.D. Mgr. Irena Růžičková ÚSTAV MATEMATIKY Matematika 3 1 Obsah 1 Vstupní test 8 1 NUMERICKÉ METODY 10 2 Chyby při numerických výpočtech 10 2.1 Zdroje a typy chyb............................... 10 2.2 Definice chyb.................................. 10 2.3 Zaokrouhlování. Síření chyb při výpočtu................... 11 2.4 Podmíněnost numerických úloh a numerická stabilita algoritmů ...... 13 2.5 Otázky a příklady ke cvičení.......................... 14 3 Exkurze do funkcionální analýzy 15 3.1 Metrický prostor ................................ 15 3.2 Úplný metrický prostor............................. 16 3.3 Pevný bod zobrazení, iterační proces..................... 17 3.4 Normovaný vektorový prostor......................... 19 3.5 Otázky a příklady ke cvičení.......................... 22 4 Numerické řešení soustavy lineárních rovnic 24 4.1 Přímé metody.................................. 24 4.1.1 Cramerovo pravidlo........................... 25 4.1.2 Gaussova eliminační metoda...................... 25 4.1.3 Eliminace s výběrem hlavního prvku................. 28 4.2 Iterační metody................................. 29 4.2.1 Jacobiho metoda............................ 29 4.2.2 Gauss-Seidelova metoda........................ 34 4.3 Otázky a příklady ke cvičení.......................... 37 5 Numerické metody řešení nelineárních rovnic 39 5.1 Numerické metody řešení jedné nelineární rovnice.............. 39 5.1.1 Metoda půlení intervalu........................ 40 5.1.2 Metoda regula falši........................... 43 5.1.3 Metoda sečen.............................. 44 5.1.4 Newtonova metoda (metoda tečen).................. 45 5.1.5 Metoda prosté iterace ......................... 48 5.2 Numerické metody řešení soustav nelineárních rovnic............ 51 5.2.1 Metoda prosté iterace ......................... 52 5.2.2 Newtonova metoda........................... 54 5.3 Otázky a příklady ke cvičení.......................... 58 2 Fakulta elektrotechniky a komunikačních technologií VUT v Brně 6 Aproximace funkcí 61 6.1 Interpolace algebraickými polynomy...................... 61 6.1.1 Existence a jednoznačnost interpolačního polynomu......... 61 6.1.2 Konstrukce interpolačního polynomu, Lagrangeův interpolační polynom .................................. 62 6.1.3 Newtonův interpolační polynom.................... 63 6.1.4 Odhad chyby.............................. 68 6.2 Interpolace pomocí splajnů........................... 69 6.3 Metoda nejmenších čtverců........................... 73 6.4 Otázky a příklady ke cvičení.......................... 81 7 Numerické derivování a integrování 84 7.1 Numerické derivování.............................. 84 7.1.1 Některé často používané vzorce pro numerické derivování...... 84 7.2 Numerické integrování............................. 86 7.2.1 Newton-Cotesovy vzorce........................ 87 7.2.2 Složené kvadraturní vzorce....................... 89 7.3 Otázky a příklady ke cvičení.......................... 93 8 Numerické řešení diferenciálních rovnic 96 8.1 Počáteční úlohy................................. 97 8.1.1 Eulerova metoda............................ 97 8.1.2 Typy a vlastnosti metod pro řešení počátečních úloh, lokální a globální chyba............................... 98 8.1.3 Modifikace Eulerovy metody...................... 101 8.1.4 Rungovy-Kuttovy metody....................... 101 8.1.5 Odhad chyby. Řízení délky kroku................... 104 8.1.6 Vícekrokové metody .......................... 105 8.1.7 Vícekrokové metody založené na numerické integraci ........ 107 8.1.8 Metody prediktor-korektor....................... 108 8.1.9 Řešení soustav diferenciálních rovnic................. 110 8.1.10 Řešení diferenciálních rovnic vyššího řádu .............. 111 8.2 Okrajové úlohy................................. 112 8.2.1 Metoda konečných diferencí...................... 113 8.2.2 Metoda střelby............................. 118 8.3 Otázky a příklady ke cvičení.......................... 120 II PRAVDĚPODOBNOST 123 9 Pravděpodobnostní modely 123 9.1 Klasická pravděpodobnost........................... 124 9.2 Geometrická pravděpodobnost......................... 130 9.3 Diskrétní pravděpodobnost........................... 133 9.4 Spojitá pravděpodobnost............................ 137 Matematika 3 3 9.5 Otázky a příklady ke cvičení..........................142 10 Střední hodnota a rozptyl 146 10.1 Empirické a teoretické rozdělení pravděpodobnosti..............146 10.2 Empirické charakteristiky popisu dat.....................153 10.3 Teoretické charakteristiky popisu dat.....................158 10.4 Otázky a příklady ke cvičení..........................164 11 Binomické rozdělení pravděpodobnosti 168 11.1 Vlastnosti binomického rozdělení ....................... 168 11.2 Generování binomického rozdělení na počítači................ 175 11.3 Základní principy statistického testu ..................... 176 11.4 Znaménkový test................................ 178 11.5 Otázky a příklady ke cvičení.......................... 183 12 Poissonovo a exponenciální rozdělení pravděpodobnosti 186 12.1 Odvození.....................................186 12.2 Příklady užití..................................190 12.3 Teorie front...................................195 12.3.1 Fronty typu (M\M\l) : (OD|oo|oo)..................197 12.3.2 Fronty typu (M\M\l) : (GD\N\oo)..................199 12.3.3 Fronty typu (M\M\c) : (OD|oo|oo)..................200 12.3.4 Fronty typu (M\M\c) : (GD\N\oo) ..................201 12.4 Náhodné generování hodnot Po a Exp na počítači..............202 12.5 Otázky a příklady ke cvičení..........................203 13 Rovnoměrné a normální rozdělení pravděpodobnosti 207 13.1 Rovnoměrné rozdělení pravděpodobnosti...................207 13.2 Normální rozdělení pravděpodobnosti.....................208 13.3 řJ-rozdělení...................................211 13.4 Generování hodnot rovnoměrného a normálního rozdělení na počítači . . . 220 13.5 U-test......................................221 13.5.1 Jednostranný test............................222 13.5.2 Oboustranný test............................224 13.6 Otázky a příklady ke cvičení..........................228 14 Statistický test střední hodnoty průměru měření normálního rozdělení při známém rozptylu 230 14.1 Teoretické rozdělení parametru empirického rozdělení............230 14.2 Teoretické rozdělení průměru X........................231 14.3 Testy o střední hodnotě průměru při známém rozptylu ...........234 14.3.1 Test „fi =konst" ............................234 14.3.2 Test = /i2lí .............................235 14.4 Otázky a příklady ke cvičení..........................237 4 Fakulta elektrotechniky a komunikačních technologií VUT v Brně 15 Odpovědi na otázky a výsledky příkladů ke cvičení 240 15.1 Výsledky vstupního testu............................ 240 15.2 Výsledky cvičení ke kapitole 2......................... 242 15.3 Výsledky cvičení ke kapitole 3......................... 242 15.4 Výsledky cvičení ke kapitole 4......................... 242 15.5 Výsledky cvičení ke kapitole 5......................... 243 15.6 Výsledky cvičení ke kapitole 6......................... 244 15.7 Výsledky cvičení ke kapitole 7......................... 245 15.8 Výsledky cvičení ke kapitole 8......................... 246 15.9 Výsledky cvičení z kapitoly 9 ......................... 247 15.10Výsledky cvičení z kapitoly 10......................... 250 15.11Výsledky cvičení z kapitoly 11......................... 251 15.12Výsledky cvičení z kapitoly 12......................... 252 15.13Výsledky cvičení z kapitoly 13......................... 253 15.14Výsledky cvičení z kapitoly 14......................... 253 Matematika 3 5 Seznam tabulek 10.1 K př. 10.1: Naměřené hodnoty veličiny X...................146 10.2 K př. 10.1: Tabulka empirických četností hodnot veličiny X.........147 10.3 K př. 10.1: Funkce p(x) empirického rozdělení pravděpodobnosti veličiny X. 147 10.4 K př. 10.2: přehled všech možných výsledků při čtyřech hodech mincí. . . . 150 10.5 K př. 10.2: Tabulka teoretických četností hodnot veličiny X.........151 10.6 K př. 10.2: Funkce p(x) teoretického rozdělení pravděpodobnosti veličiny X.151 10.7 K příkladu 10.6: Soubor měření získaných v experimentu...........154 10.8 K příkladu 10.7: Různé typy odchylek od průměru..............155 10.9 K příkladu 10.8: Tabulka četností souboru měření veličiny X........157 10.10K příkladu 10.8: Tabulka empirických pravděpodobností...........158 11.11 Čtyři možné výsledky statistického testu....................178 11.12K příkladu 11.6: Data získaná testovým měřením...............179 11.13K příkladu 11.6: hodnoty funkce p{r) a kumulativní pravděpodobnostní funkce P(X > r) zaokrouhleny na tři des. místa................180 13.14Hodnoty distribuční funkce (-u) - l.část.................215 13.15Hodnoty distribuční funkce (-u) - 2.část.................216 6 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Úvod Tato skripta jsou napsána jako doplňující text do předmětu MATEMATIKA 3 pro 2. ročník bakalářského studia FEKT. Daný předmět se skládá ze dvou odlišných oblastí matematiky - numerických metod, jejichž cílem je představit základy numerického řešení úloh praxe, a pravděpodobnosti, jejichž úkolem je seznámit studenty s pravděpodobnostními modely popisujícími konkrétní situace. Autorkou první části je Mgr. Irena Růžičková, autorem druhé RNDr. Břetislav Fajmon, PhD. Studenti by po absolvování kursu měli být schopni numericky řešit rovnice a systémy rovnic, aproximovat hodnoty pomocí metody nejmenších čtverců a interpolač-ních polynomů, používat vzorce numerického derivování a numerické integrace a řešit numericky některé diferenciální rovnice. Dále v oblasti pravděpodobnostních modelů se studenti seznámí s tím, jaké situace daný model popisuje, a použijí jej v konkrétních úlohách. V rámci úvodu do statistiky se setkají s některými základními statistickými testy. Ad numerické metody V praxi má velký význam matematické modelování a simulace nejrůznějších procesů. Při tom je potřeba řešit různé matematické úlohy, mnoho dějů je např. popsáno diferenciálními rovnicemi. Nalezení přesného řešení takovýchto problémů bývá často náročné, někdy i úplně nemožné. Často je lepší nehledat řešení v uzavřeném tvaru, ale pomocí konečného počtu kroků určitého postupu najít řešení přibližné. K tomu právě slouží numerické metody. I hledání přibližného řešení bývá ovšem dosti pracné a jen málo úloh lze s uspokojivou přesností vyřešit „ručně". Proto jsou numerické metody těsně spjaty s programováním a rozkvět některých oblastí numerických metod přišel teprve s rozvojem výpočetní techniky. V první části těchto skript se studenti mohou seznámit se základními a nejjed-noduššími numerickými metodami pro řešení lineárních a nelineárních rovnic, aproximaci funkcí, numerické derivování a integrování a pro řešení diferenciálních rovnic. Některé kapitoly by si zasloužily mnohem obsáhlejší teoretický úvod. Na ten však zde bohužel není prostor. Pokusila jsem se všude alespoň naznačit, proč uvedené metody fungují. Snažila jsem se o srozumitelnost a současně o zachování matematické přesnosti. Pokud se někomu (zvláště případnému zkušenějšímu čtenáři) bude zdát, že se občas příliš věnuji trivialitám, prosím jej, aby mi odpustil. Věřím, že někteří současní studenti bakalářského studia tento fakt naopak ocení. Matematika 3 7 Poznámka k řešeným příkladům Všechny mezivýsledky v příkladech řešených v těchto skriptech jsou zapisovány po zaokrouhlení. Při dalším výpočtu však byly použity původní, přesnější hodnoty. Proto se může stát, že bude-li někdo tyto příklady přepočítávat a použije k tomu mezivýsledky zde uvedené, může dojít k výsledkům poněkud odlišným. Poděkování Děkuji doc. RNDr. Liboru Čermákovi, CSc, z FSI VUT za pečlivé přečtení původní verze těchto skript z roku 2002 - části o numerických metodách. Na základě jeho připomínek jsem odstranila některé chyby a opravila některá, dnes již poněkud zastaralá tvrzení. Všechny chyby, které kdo najde v nynější verzi, připadají zcela na můj vrub. Irena Růžičková, Brno 2005 Ad pravděpodobnost Co je pravda? Tuto otázku se zeptal Pilát chvíli předtím, než vydal příkaz k ukřižování Ježíše Krista (viz Bible). Nevěděl, že Ježíš o sobě prohlásil: Já jsem ta cesta, pravda i život. Pilát neměl dost trpělivosti hledat odpověď na svou otázku, a tak vydal příkaz k popravě nevinného, protože byl pro něj pohodlnější vlastní klid než spravedlnost. Možná že i dnes si nedáváme dost času k hledání odpovědi, a tak je možné, že ve svém životě křižujeme to dobré ve prospěch určitého dočasného klidu. Jiná odpověď na naši otázku: Pravda je soubor mýtů, které se lidem ještě nepodařilo vyvrátit. Toto humorné prohlášení trochu představuje historii vědy, protože například při fyzikálním popisu skutečnosti se setkáváme s tím, že model sloužící k popisu jisté situace se v jiné situaci ukázal nevhodným, což vedlo ke hledání nových souvislostí. Zkrátka a dobře, ve svém poznání světa máme jisté rezervy, a tak nám místo pravdy zůstává spíše pravděpodobnost - jakási míra víry, že určitá věc je skutečností. Všichni jsme odkázáni k tomu, že musíme věřit. Text je založen na uvádění příkladů - v průběhu příkladů jsou nově uváděny matematické pojmy. A proto příklady nelze při studiu přeskakovat - respektive kdo bude přeskakovat příklady, tomu toho ke studiu moc nezbyde. Břetislav Fajmon, Brno 2005 Identifikační údaje: Růžičková, I., Fajmon, B.: Matematika 3. Elektronické skriptum FEKT VUT, Brno 2003. Identifikační číslo v informačním systému VUT: MAT103. (tento text nemá ISBN, ani žádné další identifikační údaje) 8 Fakulta elektrotechniky a komunikačních technologií VUT v Brně 1 Vstupní test Následující test prověřuje nebo připomíná některé pojmy, které se probíraly v prvním ročníku bakalářského studia nebo jejichž zvládnutí bude dále prohlubováno a využíváno v tomto textu. Příklad 1.1 Je dána funkce f(x) = Vypočtěte a) f (2) b) f (a), je-li a = —3 c) f(b) d)f(l). (Pokud někomu tento příklad dělá potíže, měl by na sobě začít urychleně pracovat.) Příklad 1.2 Posloupnost {an}^=1 je dána předpisem an = 2™~^. Vypočtěte první tři členy této posloupnosti a najděte lim^oca,!. Příklad 1.3 Posloupnost {bn}^^ je dána rekurentně předpisem bn+i = b2n — y, b\ = 1. Vypočtěte 62, £»3 a b^. Příklad 1.4 Eliminační metodou vyřešte zadanou soustavu rovnic. Proveďte zkoušku. 2y - 5z = 1 x — y = —5 3x + y + 2z = -1 Příklad 1.5 Jaký je geometrický význam derivace funkce f v určitém bodě xq? Příklad 1.6 Najděte lokální extrémy funkce f(x) = xe~2x a zjistěte, kde tato funkce roste a kde klesá. Najděte minimum a maximum zadané funkce na intervalu (—1, 1) . Příklad 1.7 Vypočtěte integrál JQ2 sinxdx. Co se pomocí tohoto integrálu vypočítalo? Příklad 1.8 Ověřte, že funkce y = je řešením diferenciální rovnice y' = —2xy2 vyhovujícím počáteční podmínce y(0) = 1. Vypočtěte hodnoty tohoto řešení v bodech x\ = 0,5 a x2 = 1. Příklad 1.9 Ověřte, že funkce y = 2x + ciCOs2x + C2sin2x je řešením diferenciální rovnice y" + 4y = 8x pro libovolné hodnoty c\ a c2. Najděte řešení zadané rovnice, které vyhovuje podmínkám y(0) = 0, y(j) = 1. Příklad 1.10 Kolik existuje různých sedmiznakových řetězců složených pouze ze znaků 0 a 1 ? Příklad 1.11 Probíhá závod 10 lidí v běhu na 3.5 km. Kolik teoreticky může nastat možných výsledkových listin, pokud předpokládáme, že všichni doběhnou do cíle a že žádné dva časy nebudou stejné? Příklad 1.12 Ve tmavé komoře je 6 párů bílých a 8 párů černých ponožek. Kolik ponožek musím vzít v té tmě, abych měl jistotu, že jsem vzal aspoň dvě ponožky stejné barvy? Matematika 3 9 Příklad 1.13 Kolika způsoby je možné vybrat tříčlenný tým z 10 lidí? Příklad 1.14 V misce jsou 4 banány, 4 pomeranče a 4 broskve. Vybírám si 4 kusy ovoce na cestu. Kolik různých variant kombinací ovoce mám na výběr? (kusy ovoce téhož typu považujte za stejné - např. nerozlišujte mezi broskví A a broskví B, apod.) Příklad 1.15 Kolik různých řetězců lze vytvořit přeházením znaků řetězce AAAA-BBBBCCCC? Příklad 1.16 Čemu je roven součet n + 1 členů geometrické posloupnosti 1 + q + q2 + 106, bude relativní chyba RE(x) určitě velmi malá. Otázka 2.3 Je-li absolutní chyba E'(x) < 10~6, je určitě i relativní chyba RE(x) < 10~6. Otázka 2.4 Jestliže x aproximuje přesnou hodnotu x s chybou E{x) = 0, 01, pak y = 2x aproximuje ý = 2x s chybou E(y) = 0, 02. Otázka 2.5 Pokud jsme čísla x a y získali zaokrouhlením čísel x a ý na n desetinných míst, pak na n desetinných míst zaokrouhlená hodnota čísla x + ý je rovna x + y. (x a ý mohou být libovolná reálná čísla.) Otázka 2.6 Čím větší je relativní chyba výstupních údajů dané úlohy, tím větší je číslo podmíněnosti této úlohy. Příklad 2.1 Přesná hodnota integrálu J^sinxdx je 1 = 2, numericky vypočtená hodnota je I = 2,09. Určete absolutní a relativní chybu I. Příklad 2.2 Určete mezní absolutní a relativní chybu, které se dopustíme, jestliže k výpočtu obsahu obdélníka použijeme délky jeho stran zaokrouhlené na 2 desetinná místa, a = 1,72 a b = 2,15. Odpovědi na otázky a výsledky příkladů viz 15.2 Matematika 3 15 3 Exkurze do funkcionální analýzy Cíl kapitoly Tato kapitola tvoří teoretický základ pro metody probírané v dalších dvou kapitolách. Protože prostor, který lze této problematice věnovat, je velmi omezený, pokusíme se zde vysvětlit jen nejnutnější pojmy. Pokud by někoho odrazovala přílišná teoretičnost a „vědeckost" této kapitoly a spokojil by se s tím, že metody popsané v kapitolách 4 a 5 fungují, aniž by se zajímal o to, proč fungují, mohl by snad následující text přeskočit. 3.1 Metrický prostor Studenti určitě umí vypočítat vzdálenost dvou reálných čísel na číselné ose nebo vzdálenost dvou bodů v rovině či v prostoru. Podobně se dá určovat „vzdálenost" různých jiných objektů. Této zobecněné vzdálenosti se říká metrika. Definice. Buď X množina (prvků jakéhokoli typu). Řekneme, že na této množině je definována metrika d, jestliže každým dvěma prvkům x, y E X je přiřazeno reálné číslo d(x, y) tak, že 1) d(x, y) > 0 Vx, y E X , d(x, y) = 0 <^> x = y 2) d{x, y) = d(y, x) Vx, y E X 3) d(x, z) < d(x, y) + d(y, z) Vx, y, z E X (trojúhelníková nerovnost) Množinu X s metrikou d pak nazýváme metrický prostor. Příklady metrických prostorů Asi nejjednodušším příkladem metrického prostoru je množina všech reálných čísel IR s metrikou d definovanou jako d(x,y) = \ x — y\. Jako množinu X však nemusíme brát celé IR, může to být i jakákoli jeho podmnožina, např. interval nebo množina všech racionálních čísel Q. Jiným příkladem je množina všech uspořádaných n-tic reálných čísel. Je-li x = (xi, X2, ■ ■ ■, xn) a y = (yi, y2, . . ■, yn), metriku d můžeme definovat různě. Jako nej přirozenější se jeví obvyklá vzdálenost dvou bodů: á(x, y) = v7(xi - vi)2 + (x2 - ž/2)2 h-----\-{xn- Vn)2, (3.1) existují však i jiné možnosti, např. íi(x,y) = |xi - 2/11 + \ x2 - y2\ H-----h \xn - yn\ (3.2) nebo (2(x,y) = maxi I xi - yx\, \ x2 - y2\,... ,\xn - yn\). (3.3) Jako poslední příklad uvedeme množinu všech funkcí definovaných a spojitých na intervalu (a, b) , která se označuje jako C ({a, b)). Jsou-li /, g E C ({a, b)), definujeme d(f,g) = max \f(x) - g(x)\. (3.4) Obrázky 3.1 a 3.2 poslouží k objasnění některých uvedených metrik. 16 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Obrázek 3.1: „Vzdálenost" bodů A, B podle metriky 3.2 je délka silné černé čáry. Obrázek 3.2: „Vzdálenost" dvou spojitých funkcí v metrice 3.4 3.2 Úplný metrický prostor Již na střední škole se studenti seznámili s posloupnostmi reálných čísel a (snad) i s jejich limitami. Připomeňme, že limita posloupnosti reálných čísel {a™}^^ je, populárně řečeno, takové číslo a, ke kterému se členy posloupnosti pro n jdoucí do nekonečna přibližují. Přesněji: Reálné číslo a se nazývá limitou posloupnosti {oLn\^=1, jestliže ke každému e > 0 existuje přirozené číslo N tak, že pro všechna n > N platí \an — a\ < e. Neboli: at zvolíme e libovolně malé, od jistého indexu N se členy posloupnosti budou od a lišit méně než o e. Posloupnosti však můžeme sestavovat i z jiných objektů než z reálných čísel. Stejně tak můžeme u takových posloupností říci, zda mají, nebo nemají limitu. Pro posloupnosti sestavené z prvků obecného metrického prostoru se limita definuje velmi podobně, jen je třeba zobecnit ono „lišení se o méně než e". To se provede pomocí metriky. Definice. Buď X metrický prostor s metrikou d a {xn\^=1 posloupnost prvků z X. Řekneme, že x 6 X je limitou této posloupnosti, píšeme lim xn = x , jestliže ke každému n—>oo e > 0 existuje přirozené číslo N tak, že pro všechna n > N platí d(xn, x) < e. Posloupnost, která má limitu, se nazývá konvergentní. Nyní definujeme další vlastnost posloupností. Definice. Buď X metrický prostor s metrikou d a {^nl^Lx posloupnost prvků z X. Řekneme, že tato posloupnost je cauchyovská, jestliže ke každému e > 0 existuje přirozené číslo N tak, že pro všechna n > N a každé přirozené číslo k platí d(xn, xn+k) < e. Dá se říci, že cauchyovská posloupnost je taková, jejíž členy se výše popsaným způsobem zahuštují. Dá se dokázat, že každá konvergentní posloupnost je cauchyovská. Intuitivně by se mohlo zdát, že to musí být i naopak. Existují ale prostory, v nichž najdeme cauchyovské po- Matematika 3 17 sloupnosti, které v daném prostoru limitu nemají. Ukážeme to na následujícím příkladu: Mějme například množinu všech reálných čísel a v něm posloupnost a± = 3.1, (22 = 3.14, 03 = 3.141, 04 = 3.1415,.... Tato posloupnost má limitu ir a tedy je cauchyovská. Nyní vezměme tutéž posloupnost, ale v množině všech racionálních čísel Q. Je to posloupnost cauchyovská, ale limitu v Q nemá (protože ir ^ Q). Existují tedy prostory, v nichž „něco schází", neobsahují limity některých posloupností, které se jinak chovají tak, jako by limitu mít měly. Tím se dostáváme k definici úplného prostoru. Definice. Metrický prostor se nazývá úplný, jestliže každá cauchyovská posloupnost v něm má limitu. Příklady úplných a neúplných prostorů Množina IR s metrikou d(x, y) = \ x — y\ je úplný metrický prostor. Jakýkoli uzavřený interval {a, b) s toutéž metrikou je také úplný prostor. Otevřený interval s toutéž metrikou není úplný. To můžeme ukázat na příkladu intervalu (0,1) a posloupnosti xn = -. Tato posloupnost je cauchyovská a přitom v intervalu (0,1) nemá limitu (0 ^ (0,1)). Dá se dokázat, že prostor všech uspořádaných n-tic reálných čísel s kteroukoli z metrik 3.1, 3.2, 3.3 je úplný. 3.3 Pevný bod zobrazení, iterační proces Definice. Řekneme, že F je zobrazení množiny X do množiny Y, píšeme F : X —> Y, jestliže každému prvku x £ X je pomocí F přiřazen právě jeden prvek y E Y, y = F (x). Budeme se zabývat hlavně zobrazeními množiny do sebe sama, tj. zobrazení F : X —> X. Takové zobrazení přiřazuje každému prvku x E X opět (obecně jiný) prvek z X. Nás bude zajímat, jestli existuje takový prvek x, který se zobrazí sám na sebe, případně jak takový prvek najít. Definice. Prvek x E X se nazývá pevný bod zobrazení F : X —> X, jestliže platí F(x) = x. Jestliže za množinu X vezmeme IR, pak zobrazení F : IR —> IR je obyčejná funkce jedné proměnné. Na obrázku 3.3 jsou vyznačeny pevné body jisté funkce /. Jsou to body, v nichž se protne graf funkce / s přímkou y = x. Příklad. Funkce f(x) = x2 má právě dva pevné body, atox = 0ax = l, protože O2 = 0 a l2 = 1. Hledání pevného bodu zobrazení má v numerické matematice velký význam. Některé úlohy, jejichž zadání zpočátku vypadá úplně jinak, lze převést právě na problém nalezení pevného bodu. Proto se nyní budeme zabývat otázkou, jak ověřit, že nějaké zobrazení pevný bod má a jak jej najít. Dá se dokázat, že jistý druh zobrazení má pevný bod vždy a existuje postup, který nás k němu dovede. 18 Fakulta elektrotechniky a komunikačních technologií VUT v Brně f(x3) // y=x / J f(x2) ^y=f(x f(Xi) —H-1 / xi x 2 x 3 Obrázek 3.3: Pevné body reálné funkce Definice. Buď X metrický prostor. Řekneme, že zobrazení F : X —> X je kontraktivní (kontrakce), jestliže existuje a E (0,1) tak, že pro každé dva prvky x,y E X platí d(F(x), F (y)) < a d(x, y) (3.5) Číslo a nazýváme koeficient kontrakce. „Kontrakce" česky znamená „stažení". Dá se tedy, byt poněkud nepřesně, říct, že kontraktivní zobrazení je takové, u nějž jsou si obrazy (funkční hodnoty) bližší, než byly vzory. Xj x2 Obrázek 3.4: Funkce, která je kontrak- Obrázek 3.5: Funkce, která není kon-tivní traktivní Matematika 3 19 Vět| 3.1 Bud X úplný metrický prostor a F : X —> X kontraktivní zobrazení. Pak existuje právě jeden pevný bod tohoto zobrazení x, pro nějž platí x = lim xn, (3-6) n—>oo kde (xn)^=1 je tzv. posloupnost postupných aproximací, která je definována takto: xq je libovolný prvek z X a další členy posloupnosti jsou definovány předpisem xk+1 = F(xk), k = 0,1,... (3.7) Dále pro všechna přirozená čísla n platí: OL d(x,xn) <--d(xn,xn_i) (3.8) 1 — a an d(x,xn) < -d(xo,xi), (3-9) 1 — a kde a je koeficient kontrakce. Tato věta nám dává návod, jak pevný bod zadaného zobrazení alespoň přibližně najít. Zvolíme xq G X. Tomuto bodu se říká počáteční aproximace. Pak počítáme další členy posloupnosti podle předpisu 3.7. Tomuto výpočtu se říká ite-rační proces, k-tý člen posloupnosti, xk, se nazývá k-tá aproximace. Protože podle 3.6 je pevný bod limitou posloupnosti (xn)^=1, postupné aproximace se k němu budou přibližovat. Kdybychom v iteračním procesu mohli pokračovat donekonečna, dostali bychom se nakonec k pevnému bodu. To ale není možné, a proto se v určitý moment zastavíme a řekneme, že pevný bod x je přibližně roven poslednímu vypočtenému členu posloupnosti. Kdy iterační proces zastavit, rozhodneme podle toho, s jakou přesností chceme mít pevný bod vypočtený. Můžeme k tomu použít např. odhad 3.8, který říká, jak je n-tá aproximace nanejvýš vzdálena od pevného bodu. K tomu ovšem musíme znát hodnotu koeficientu kontrakce a, která může být u některých úloh velmi obtížně zjistitelná. Proto se častěji používají empirická kritéria, jež pro konkrétní úlohy později popíšeme. 3.4 Normovaný vektorový prostor V prvním semestru se studenti seznámili s vektorovými prostory. Prvky vektorových prostorů mohou být objekty nej různějšího typu. Nemusí to být pouze „vektory" v tom smyslu, jaký si člověk obvykle pod tímto pojmem představí (tj. uspořádané n-tice reálných čísel). Nejjednodušším příkladem vektorového prostoru je množina všech reálných čísel IR s obvyklými operacemi + a • . Vektorovým prostorem je i množina všech matic typu (m, n) s operacemi + (sčítání matic) a • (násobení matice konstantou). 20 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Vektorový prostor může být tvořen též funkcemi jedné nebo více proměnných s určitou vlastností. V některých oblastech matematiky se často setkáváme např. s prostorem všech funkcí spojitých na daném intervalu (a, b), či s prostorem všech funkcí na intervalu (a, b) integrovatelných. Studenti jistě vědí, co je absolutní hodnota čísla nebo délka vektoru. Tyto veličiny udávají velikost daného čísla, resp. vektoru bez ohledu na jeho znaménko, resp. směr. „Velikost" lze různým způsobem určovat i u jiných objektů. Jakési zobecnění velikosti, které zachovává její přirozené vlastnosti, se nazývá norma. Definice. Buď V vektorový prostor. Řekneme, že na tomto prostoru je definována norma, jestliže každému prvku v E V je přiřazeno reálné číslo \\v\\ (norma v) tak, že 1) IMI > o Wvev , \\v\\=o^v = o 2) \\k -v\\ = \k\- \\v\\ \/v G V,\/k G R 3) ll^i + v2\\ < ||"Uill + \\v2\\ ^viiv2 £ V (trojúhelníková nerovnost) Prostor V pak nazýváme normovaný vektorový prostor. Je známo, že absolutní hodnota rozdílu dvou reálných čísel udává vzdálenost těchto čísel na číselné ose. Podobně si lze normu rozdílu dvou prvků vektorového prostoru ||-u — v\\ představit jako vzdálenost těchto dvou prvků. To znamená, že na vektorovém prostoru můžeme definovat metriku předpisem d{vi, v2) = || vx — v2\\. (3.10) Příklady normovaných vektorových prostorů: Na množině všech reálných čísel IR lze zavést normu jako ||x|| = | x\ , Vx G IR. Na „obvyklém" vektorovém prostoru všech uspořádaných n-tic reálných čísel Vn můžeme zavést normu různým způsobem. Je-li v = (vi, v2,... , vn) G Vn, pak jeho norma může být např. definována jako délka tohoto vektoru ' ■ (3-11) v|| = \lv\ + v\ Tato norma se často značí jako || v112 a nazývá se eukleidovská norma. Existují však i jiné možnosti. V dalším textu se setkáme s normami ||v||i = I v\\ + I v2\ + - - - + I vn\ (3.12) II vHoo = max(|ui|, \v2\,..., I vn\) (3.13) U matic lze normu počítat podobně jako u vektorů. V kapitole 4 budeme pracovat s následujícími normami ( A je matice typu (m, n) s prvky atJ, i = 1, ..., m, j = 1,. .., n): n II Ajloo = max y \aí:j\ řádková norma (3-14) A||i = max y \dij\ sloupcová norma (3.15) 7 = 1,...,71 ' J 1=1 Matematika 3 21 Příklad 3.1 Vypočtěte řádkovou a sloupcovou normu matice Řešení: Řádková norma matice je maximum ze součtů absolutních hodnot prvků v jednotlivých řádcích. Součet absolutních hodnot prvků v prvním řádku matice je |— 3| + |2| + |5| = 10, ve druhém řádku je součet roven 7 a ve třetím 8. Největší z těchto čísel je 10 a proto || Ajl^ = 10. Sloupcová norma je maximum ze součtů absolutních hodnot prvků v jednotlivých sloupcích. Tedy || A||i = max(7, 7,11) = 11. Čtenář si možná povšiml značné podobnosti norem 3.11, 3.12 a 3.13 s metrikami uvedenými v kapitole 3.1. Skutečně, všechny tyto metriky můžeme dostat z výše uvedených norem pomocí 3.10. Nabízí se otázka, proč jsme označili řádkovou normu matice 3.14 stejně jako normu vektoru 3.13 a sloupcovou normu matice 3.15 stejně jako normu vektoru 3.12. Tyto normy skutečně mají mnoho společného. Představíme-li si vektor v dimenze n jako sloupec, můžeme jej považovat za matici o n řádcích a jediném sloupci. Vypočteme-li nyní řádkovou normu této matice, dostaneme právě normu vektoru 3.13, vypočteme-li sloupcovou normu matice, dostaneme normu vektoru 3.12. Dále platí, a to je pro další úvahy podstatnější, že 11 Av\\oo — 11 A11 oo • 11 V11oo II AvHx < JI A||x • || v||x Můžeme říct, že řádková norma matice je přidružená vektorové normě 3.13 a sloupcová norma matice je přidružená vektorové normě 3.12. (Obecně se maticová norma přidružená vektorové normě definuje docela složitě, o tom zde mluvit nebudeme. Např. maticová norma přidružená eukleidovské normě vektoru se počítá zcela odlišně.) Shrnutí pojmů Metrický prostor je množina X, na níž je definována metrika d - funkce s jistými vlastnostmi, která každým dvěma prvkům x,y £ X přiřadí číslo d(x,y), které lze popsat jako „vzdálenost" x od y. V metrickém prostoru můžeme definovat limitu posloupnosti složené z jeho prvků. Má-li posloupnost limitu, řekneme, že je konvergentní. Cauchyovská posloupnost je posloupnost, jejíž prvky se určitým, v předchozím textu přesně popsaným, způsobem zahuštují. Je-li v metrickém prostoru X každá cauchyovská posloupnost konvergentní, mluvíme o prostoru úplném. Mnoho úloh numerické matematicky se dá převést na hledání pevného bodu nějakého zobrazení. Pevný bod daného zobrazení F : X —> X je takové x E X, které se zobrazí samo na sebe, tj. F(x) = x. 22 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Kontraktivní zobrazení je zobrazení, pro které platí d(F(x), F(y)) < ad(x,y), kde a G (0, 1) . Je-li X s metrikou d úplný metrický prostor, pak každé kontraktivní zobrazení F : X —> X má právě jeden pevný bod. Tento pevný bod je roven limitě posloupnosti {xk}^0, kterou získáme tak, že xq 6 X zvolíme libovolně a další členy posloupnosti jsou dány vztahem Xk+i = F(xk), k = 0,1, 2,.... Pevný bod přibližně najdeme pomocí tzv. iteračního procesu. Počítáme členy posloupnosti {xk}kLo, dokud podle nějakého kriteria nerozhodneme, že už jsme pevný bod s požadovanou přesností našli. Normovaný prostor je vektorový prostor V, na němž je definována norma || • || - funkce s jistými vlastnostmi, která každému prvku v E V přiřadí číslo || v\\, které lze popsat jako „velikost" v. Na prostoru všech n-rozměrných vektorů můžeme kromě obvyklé eukleidovské normy definovat normu předpisem ||v||i = \vi\ + \v2\ + ••• + \vn\, resp. || vHoo = max(|ui|, | v2\, \vn\). Důležitým příkladem normovaného prostoru je prostor všech matic typu mxn s řádkovou nebo sloupcovou normou. Řádková norma matice A je maximum ze součtů absolutních hodnot prvků této matice v jednotlivých řádcích, sloupcová maximum ze součtů ve sloupcích. 3.5 Otázky a příklady ke cvičení U následujících výroků rozhodněte, zda se jedná o výrok pravdivý či nepravdivý. Otázka 3.1 Může se stát, že pro dva různé prvky metrického prostoru x a y je d(x, y) = 0. Otázka 3.2 Každá posloupnost, která má limitu, je cauchyovská. Otázka 3.3 Každý metrický prostor je úplný. Otázka 3.4 Pevný bod funkce f(x) = sin x je 0. Otázka 3.5 Každá funkce jedné reálné proměnné má aspoň jeden pevný bod. Otázka 3.6 Je-li F : X —> X kontrakce a x,y £ X, pak d(F(x), F(y)) < d(x, y). Otázka 3.7 Iterační proces je postup, který slouží k nalezení pevného bodu. Otázka 3.8 V praxi pomocí iteračního procesu vždy najdeme přesnou hodnotu pevného bodu. Otázka 3.9 Řádková norma čtvercové matice je vždy různá od sloupcové normy. Příklad 3.1 Ukažte, že d(x,y) = \x — y\ má všechny požadované vlastnosti metriky. Matematika 3 23 Příklad 3.2 Mějme metriku předepsanou předpisem 3.3, tj. d(x,y) = max(|xi - yx\, \ x2 - y2\, ...,\xn- yn\). a) Vypočtěte d(x, y) pro x = (1, 2, 3), y = (O, -2,1) b) * Ukažte, že d(x, y) má všechny požadované vlastnosti metriky. Příklad 3.3 Najděte všechny pevné body funkce f(x) = x2 — 3x. (Vyřešte příslušnou rovnici, nepokoušejte se o iterační proces.) Příklad 3.4 Ukažte, že \\x\\ = \ x\ má všechny požadované vlastnosti normy. Příklad 3.5 Vypočtěte || x||oo a || x||i pro x = (2, —4,1, —1). Odpovědi na otázky a výsledky příkladů viz 15.3 24 Fakulta elektrotechniky a komunikačních technologií VUT v Brně 4 Numerické řešení soustavy lineárních rovnic Cíl kapitoly Řešení soustav lineárních rovnic patří mezi nej důležitější části numerické matematiky. Mnoho praktických úloh nakonec vede k řešení takovýchto soustav, často velmi rozsáhlých. K obrovským soustavám rovnic dospějeme např. při hledání rozložení nějaké fyzikální veličiny v určitém tělese. Problém se, velmi zhruba řečeno, může řešit tak, že hledáme hodnoty této veličiny pouze v konečném počtu bodů (a čím více těchto bodů bude, tím lépe), a to právě jako řešení soustavy lineárních rovnic. Cílem této kapitoly je seznámit čtenáře s několika metodami používanými pro řešení těchto soustav. Zvláštní pozornost bude věnována Gaussově eliminační metodě. Také probereme dvě iterační metody - Jacobiho a Gauss-Seidelovu. Tyto dvě metody jsou z iteračních metod asi nejjednodušší. Pokud si je studenti osvojí, bude pro ně snazší pochopit jiné dnes v praxi používané iterační metody. Budeme se zabývat řešením soustavy n lineárních rovnic anXi + a12x2 + ••• + cilnxn = bx a2í xi + a22 x2 + • • • + a2n xn = b2 anl xl + an2 x2 + ' ' ' + ann xn = bn s neznámými x±, x2, ..., xn. Připomeňme, že matice A = (%), i, j = 1,..., n, se nazývá matice soustavy a sloupcový vektor b = (bi,..., bn)T vektor pravých stran. Soustavu můžeme zapsat maticově ve tvaru Ax = b (4.1) Všude v dalším textu budeme předpokládat, že matice soustavy je regulární, tj. že řešená soustava má právě jedno řešení. (V technických úlohách, kde se problém řešení soustavy lineárních rovnic může vyskytnout, to tak zpravidla bývá.) V prvním semestru se studenti seznámili s Gaussovou eliminační metodou a s Cramerovým pravidlem. Obě tyto metody patří mezi tzv. metody přímé. Druhou skupinou metod řešení soustav lineárních rovnic jsou metody iterační. 4.1 Přímé metody Přímé metody vedou k řešení soustavy po konečném počtu kroků. Takto nalezené řešení by bylo přesné, kdybychom se v průběhu výpočtu nedopouštěli zaokrouhlovacích chyb. Připomeneme metody, které by studenti měli znát z prvního semestru, a uvedeme některé další. Matematika 3 25 4.1.1 Cramerovo pravidlo Je-li matice soustavy 4.1 regulární, tj. její determinant je nenulový, pak řešení soustavy lze vypočítat jako Di _r>2 _ix Xl D ' X2 D ' ••• ' Xn D kde D je determinant matice soustavy A a Dk, k = 1,... ,n jsou determinanty matic, které vzniknou z matice A nahrazením k-tého sloupce této matice vektorem pravých stran b. Příklad 4.1 Pomoci Cramerova pravidla najděte řešení soustavy rovnic 2xi + 3x2 = 5 —xi + 2x2 = 8 Řešení: Determinant matice soustavy je D = 2 3 -1 2 = 7 a determinanty matic vzniklých nahrazením prvního, resp. druhého sloupce matice soustavy vektorem pravých stran jsou D1 = Řešení soustavy je tedy 5 3 8 2 Xl = -14, D2 = 2 5 -1 8 = 21. -14 21 —— = —2, x2 = — = 3. 7 7 Cramerovo pravidlo je vhodné pouze pro velmi malé soustavy rovnic, např. pro soustavu dvou rovnic s „ošklivými" koeficienty. Pro větší soustavy by bylo nutné počítat mnoho determinantů vysokého řádu, což je velmi pracné. Proto se pro řešení velkých soustav rovnic tato metoda nepoužívá. 4.1.2 Gaussova eliminační metoda Základem této metody je úprava soustavy na trojúhelníkový tvar pomocí elementárních úprav. Přidáme-li v soustavě 4.1 vektor pravých stran b jako (n+l)-ní sloupec k matici A, můžeme soustavu přepsat ve tvaru anXi + ai2X2 + ••• + ainxn = a\n+i ^21^1 + ^22^2 + + (í2nXn = (22ra+l anlxl + an2 x2 + '"' + annxn = ann+l 26 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Nyní se pomocí přičítání vhodných násobků první rovnice budeme snažit z ostatních rovnic eliminovat x\. (Je-li au = 0, vyměníme první rovnici s první takovou rovnicí, která na prvním místě nulu nemá.) Odečteme-li postupně první rovnici, vynásobenou číslem —, od i-té rovnice, pro i = 2, 3,..., n, dostaneme aUxl + 012^2 + ••• + alnxn = aln+l (1) i i (1) _ (1) a22 X2 T " " " T (Í2n Xn ~ a2n+l (1) i i (1) _ (1) an2 X2 ' ' ' ' ' Q™ Xn — ann+l Nové koeficienty jsou vypočteny jako = al3 — ^ a±j, i = 2, 3, ..., n, j = 2, 3,. .., n + 1. Nyní budeme pomocí vhodných násobků druhé rovnice eliminovat X2 v třetí, čtvrté, ... n-té rovnici. (Opět, je-li = 0, vyměníme druhou rovnici s první z dalších rovnic, ve které u X2 nula není.) Tím dostaneme allxl + 012^2 + a13x3 + + alnxn = aln+l (1) i (1) i i (1) _ (1) a22 x2 T CÍ23 ^3 ~r " " " T G^ra Xn ~ a2n+l a33 X3 + ' ' ' + a3n Xn = a3n+l (2) , , (2) _ (2) an3 X'í ' ' ' ' ann xn — ann+l kde a[f = a[f - 4| 4J\ * = 3, 4,..., n, j = 3,4,..., n + 1. a22 Pokračujeme-li dále stejným způsobem, dostaneme po n-1 krocích soustavu v trojúhelníkovém tvaru aUxl + 012^2 + a13x3 + + alnxn = aln+l (1) i (1) i i (1) _ (1) a22 x2 T CÍ23 ^3 ~r " " " T G^ra Xn ~ a2n+l a33 X3 + ' ' ' + a3n Xn = a3n+í (n-1) _ (n-1) dnn xn — GraJj+í Z této soustavy snadno určíme hledané řešení: (n-l) a. = iSy (4-2) _ _ (n-2) _ (n-2) Xn-1 — (n-2) \an-ln+l an-lnXn ln-\n-\ X\ — -I Qln+l — Ql2 x2 — Ql3 X3 — ■ ■ ■ — (L\n Xn Postup vedoucí k soustavě 4.2 se nazývá Gaussova eliminace, výpočet neznámých dle 4.2 zpětná substituce nebo též zpětný chod. Číslo aj^-1^ nazýváme hlavní prvek. Matematika 3 27 Příklad 4.2 Pomoci Gaussovy eliminace vyřešte soustavu rovnic l,67xi - 0,15 x2 + 2,51x3 = -0,84 2,15xi + 3,02 x2 - 0,17x3 = 2,32 l,71xi - 2,83x2 + 1,45x3 = 1,26 Řešení: Koeficienty soustavy opíšeme do matice: 1,67 -0,15 2,51 -0,84 2,15 3,02 -0,17 2,32 1,71 -2,83 1,45 1,26 Od druhého řádku odečteme první řádek vynásobený a od třetího vynásobený (všechny mezivýsledky jsou zaokrouhlovány na pět desetinných míst): 1,67 -0,15 2,51 -0,84 0 3,21311 -3,40144 3,40144 0 -2,67641 -1,12012 2,12012 Nyní od třetího řádku odečteme druhý vynásobený ~ '21311 ■ Tím dostaneme 1,67 -0,15 2,51 -0,84 0 3,21311 -3,40144 3,40144 0 0 -3,95339 4,95339 což už odpovídá soustavě v trojúhelníkovém tvaru l,67xi - 0,15 x2 + 2,51x3 = -0,84 3,21311x2 - 3,40144x3 = 3,40144 - 3,95339x3 = 4,95339 Řešení této soustavy je 4,95339 x3 = —-= -1,25295 -3, 95339 x2 = j (3,40144 + 3, 40144 • (-1, 25295)) = -0, 26777 Xi = 1,67 — (-0, 84 + 0,15 • (-0, 26777) - 2, 51 • (-1, 25295)) = 1, 35613 67 V / Řešení získané Gaussovou eliminační metodou by bylo přesné, kdybychom se v průběhu výpočtu nedopouštěli zaokrouhlovacích chyb. U některých soustav může být bohužel vliv zaokrouhlování na výsledek značný. Algoritmus Gaussovy eliminace se proto někdy modifikuje způsobem popsaným v následující kapitole. 28 Fakulta elektrotechniky a komunikačních technologií VUT v Brně 4.1.3 Eliminace s výběrem hlavního prvku Eliminace s výběrem hlavního prvku je modifikace Gaussovy eliminační metody, která slouží ke zmenšení zaokrouhlovacích chyb. Je-li absolutní hodnota některého z dělitelů af% ^ malá ve srovnání s absolutní hodnotou prvků ajj* x\ k > i, může hrozit nebezpečí velkých zaokrouhlovacích chyb. Zaokrouhlovací chyba v absolutní hodnotě malého čísla způsobí totiž velkou chybu v jeho převrácené hodnotě a tedy i v číslech, jimiž násobíme řádky při eliminaci. Abychom se vyhnuli dělení čísly, která jsou malá vzhledem k ostatním veličinám, použijeme postup zvaný výběr hlavního prvku: V prvním kroku eliminace najdeme rovnici, která má u^v absolutní hodnotě největší koeficient. Vyměníme ji s první rovnicí a pak pomocí jejích násobků eliminujeme x\ z ostatních rovnic. Ve druhém kroku najdeme mezi všemi rovnicemi kromě první tu rovnici, která má v absolutní hodnotě největší koeficient u xi- Vyměníme ji s druhou rovnicí a pomocí jejích násobků eliminujeme x2 z dalších rovnic. Obecně v k-tém kroku eliminace najdeme mezi posledními n — k + 1 rovnicemi tu, která má největší koeficient u Xk, vyměníme ji s k-tou rovnicí a pak pomocí ní eliminujeme. Příklad 4.3 Soustavu z přikladu 4-2 řešte eliminaci s výběrem hlavního prvku. Řešení: Postupujeme podobně jako v předchozím příkladu. Vybraný hlavní prvek je vždy v rámečku. 1,67 -0,15 2,51 -0,84 \ / 2,15 3,02 -0,17 2,32 -2,49577 2,64205 -2.64205 2,15 1,71 5,23195 1.58521 -0,58521 -0,17 2,32 1.58521 -0,58521 1,88586 -2,36289 Následovala by zpětná substituce. Právě popsanou metodu bychom mohli nazvat výstižněji eliminační metodou s částečným výběrem hlavního prvku. Úplný výběr hlavního prvku spočívá v tom, že v k-tém kroku volíme za hlavní prvek ten, který je největší v absolutní hodnotě v submatici vytvořené vynecháním prvních k — l řádků a sloupců v upravované matici. Nutnost hledat největší prvek v celé submatici a vyměňovat řádky i sloupce způsobuje větší časovou (a programátorskou) náročnost této metody. Gaussova eliminační metoda s částečným výběrem je proto obvykle efektivnější než metoda s úplným výběrem hlavního prvku. Na závěr poznamenejme, že Gaussova eliminační metoda, at už s výběrem hlavního prvku nebo bez, je pro opravdu velké matice časově náročná. Máme-li řešit n rovnic, je u obyčejné eliminace potřeba vykonat přibližně n3/3 aritmetických operací, což pro velké n dokáže zaměstnat i relativně výkonný počítač. Proto se hodí nejlépe pro nepříliš rozsáhlé soustavy. Dnes však existují profesionální programy i pro řešení velkých soustav rovnic s řídkou maticí koeficientů (řídkou maticí se rozumí taková matice, která má v každém řádku jen malý počet nenulových prvků). Matematika 3 29 4.2 Iterační metody Iterační metody, na rozdíl od přímých metod, nevedou k přesnému řešení po konečném, předem daném počtu kroků. U iteračních metod zvolíme počáteční aproximaci řešení a určitým postupem ji v každém kroku metody zlepšíme. K řešení se přibližujeme postupně a obecně ho dosáhneme až v limitě. Protože výpočet nelze provádět do nekonečna, po jisté době jej ukončíme. Výsledkem bude přibližné řešení soustavy. 4.2.1 Jacobiho metoda Nejprve popíšeme, jak se Jacobiho metodou soustavy rovnic řeší a kdy se touto metodou řešit mohou. Na konci kapitoly teoreticky zdůvodníme, proč Jacobiho metoda funguje. (Aby čtenář děsící se jakékoli teorie mohl konec kapitoly přeskočit a nebyl hned zpočátku zastrašen.) Budeme opět pracovat se soustavou lineárních rovnic anxi + aí2x2 + ••• + aínxn = bi a2i xi + a22x2 + • • • + a2n xn = b2 anl xl + an2 x2 + ' ' ' + ann xn = bn Z první rovnice vyjádříme x±, ze druhé rovnice x2 atd. Dostaneme x1 = —(b1-a12x2-anx3-----alnxn) (4.3) x2 = — (b2 - a21 xi - a23 x3-----a2n xn) xn — -( bn — ani xi — an2 x2 — ■ ■ ■ — ann_\ xn_\ a nn Řešení soustavy budeme hledat následujícím způsobem: Libovolně zvolíme počáteční aproximaci řešení x^0-1 = (x^\ x^\ ■ ■ ■, Xn^)T. Tato čísla dosadíme do pravé strany 4.3. Tím dostaneme novou aproximaci řešení x^1) = {x^\x^p, ■ ■ ■ , Xn^)T■ Tu opět dosadíme do pravé strany 4.3 atd. Obecně každou další aproximaci řešení získáme podle předpisu x(i+1) = —(h- au x2] - a13 x^-----aln x^A (4.4) an v / x\ = — [b2 - a21 x\' - a23 xy-----a2n xyn>) a22 v / (r+l) _ 1 (h — (r) _ (r) _ _ (r) Xn I 0n dni «n2 X2 • • • (lnn—\ Xn_-y Q'TI'TI. ^ Za jistých (dále popsaných podmínek) se tímto postupem budeme přibližovat k přesnému řešení soustavy. 30 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Ve výpočtu pokračujeme, dokud se nedosáhne určité předem dané přesnosti, např. dokud se aproximace řešení neustálí na požadovaném počtu desetinných míst, nebo dokud není překročen předem daný maximální počet kroků. Jacobiho metodou nemusíme řešení soustavy najít vždy. V některých případech posloupnost postupných aproximací k řešení soustavy nekonverguje. Uvedeme nyní podmínky, které zaručí, že metoda konverguje (tj. najdeme pomocí ní přibližné řešení). Definice. Matice A se nazývá řádkově ostře diagonálně dominantní právě tehdy, když n \all\> \aij\ pro i = 1,.. ., n (4-5) (neboli když je v každém řádku matice absolutní hodnota prvku na diagonále větší než součet absolutních hodnot všech ostatních prvků v onom řádku) a sloupcově ostře diagonálně dominantní právě tehdy, když n | aJ31 > I a%] | pro j = 1,. .., n (4-6) (neboli když je v každém sloupci matice absolutní hodnota prvku na diagonále větší než součet absolutních hodnot všech ostatních prvků v onom sloupci). Na konci této kapitoly dokážeme, že: Je-li matice soustavy 4.1 ostře řádkově nebo sloupcově diagonálně dominantní, Jacobiho metoda konverguje. Jestliže matice soustavy 4.1 není diagonálně dominantní, Jacobiho metoda konvergovat může a nemusí. Existuje podmínka pro konvergenci Jacobiho metody nutná a dostatečná (tj. pokud je splněna, metoda konverguje a pokud není splněna, metoda diverguje), jenže je pro velké matice prakticky neověřitelná. Proto, nejsme-li si jisti konvergencí metody, je vhodné stanovit maximální počet kroků a je-li překročen, výpočet ukončit s tím, že metoda diverguje. Pak je potřeba zvolit jinou metodu nebo soustavu nějak upravit. Příklad 4.4 Jacobiho metodou řešte soustavu 15 xi — X2 + 2x3 = 30 2xi — 10x2 + X3 = 23 xi + 3x2 + 18x3 = -22 Řešení: Matice soustavy je diagonálně dominantní, protože platí 115| > I - 1| + |2| , I - 10| > |2| + |1| , 118| > 11| + |3|. Proto je konvergence metody zaručena. Vypíšeme iterační vztahy: Matematika 3 31 x (r+l) X (r+l) é(30 1 2x (r) 10 23-2x (r) (r+l) 1 18 -22 x (r) 3 x (r) Jako počáteční aproximaci zvolíme x = (0, 0, 0)T. Postupně získávané aproximace řešení budeme zapisovat do tabulky: r (r) X-y (r) x2 (r) x3 0 0 0 0 1 2 -2,3 -1,2222 2 2,0096 -2,0222 -0,9500 3 1,9918 -1,9930 -0,9968 4 2,0000 -2,0013 -1,0007 Je vidět, že posloupnost postupných aproximací konverguje k řešení soustavy (2,-2,-1). Kdybychom chtěli získat řešení s přesností e = 0, 01, mohli bychom nyní výpočet zastavit, protože x X. X (4) 1 (4) 2 (4) X X. X (3)| 1 I (3)| 2 I (3), = | 2, 0000- 1, 9918| < 0,01 = | - 2,0013- (-1,9930)| < 0,01 = | - 1,0007- (-0,9968)| < 0,01, 0, 001, museli bychom ve výpočtu pokračo- zatímco kdybychom požadovali přesnost e vat, protože např. | x^ — x^\ > 0, 001. Ukázka divergence Jacobiho metody Kdybychom rovnice z předcházejícího příkladu přepsali v jiném pořadí, např. Xi 15 xi 2xi 3x2 x2 10 x2 18 x3 2x3 x3 = -22 = 30 = 23, příslušné iterační vztahy by vypadaly takto: x x, x. (r+l) 1 (r+l) 2 (r+l) = -22 = -30 3 x (r) 18x \hxy + 2x (r) 3 (r) = 23-2x (r) lOx (r) L,3 — ^J^-y ~r ±\j^2 ■ Podmínka konvergence metody není splněna. Podívejme se, jak se budou chovat postupné aproximace řešení: r rM ju J?) x3 0 0 0 0 1 -22 -30 23 2 -346 -314 -233 3 5114 -5686 -2425 32 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Na první pohled je zřejmé, že k řešení soustavy (2, —2, —1) touto cestou nedojdeme, metoda diverguje. Jacobiho metoda z teoretického hlediska Nyní ukážeme, proč Jacobiho metoda funguje a proč konverguje zrovna za výše uvedených podmínek. Rovnice 4.3 se dají zapsat maticově jako x = Cjx + d, kde C j je tzv. iterační matice Jacobiho metody. Prvky matice Cj a vektoru d jsou Cíj =--pro i / j , cu = 0 d% = —. Tím, že jsme původní soustavu rovnic A x = b upravili na tento tvar, se úkol najít řešení soustavy rovnic převedl na hledání pevného bodu zobrazení F(x) = CjX + d, (4.7) protože řešením původní soustavy rovnic je právě takový vektor x, pro nějž platí -F(x) = x. V kapitole 3 jsme předvedli obecný postup, který vede k nalezení pevného bodu. Je to tzv. metoda postupných aproximací, iterační proces. Proto řešení hledáme výše popsaným způsobem, tj. zvolíme libovolně počáteční aproximaci x(°) a další aproximace počítáme jako x(r+i) = F(XM) = c j x« + d. (4.8) Dále jsme v kapitole 3 uvedli, za jakých podmínek je jisté, že pevný bod zobrazení existuje a že metodou postupných aproximací k němu dojdeme. Prozkoumáme nyní, jak vypadají tyto obecné podmínky pro naši konkrétní situaci. Máme zobrazení F : Vn —> Vn, kde Vn je prostor všech uspořádaných n-tic reálných čísel. Na tomto prostoru můžeme zavést metriku předpisem 1, o konvergenci či divergenci iteračního procesu nevíme nic.) Nyní se podíváme na to, jak podmínka ||Cj|| < 1 souvisí s diagonální dominantností matice soustavy A. Předpokládejme, že matice A je ostře řádkově diagonálně dominantní. Počítáme-li řádkovou normu matice Cj, bereme součty absolutních hodnot prvků v jednotlivých řádcích a z nich pak vybíráme maximum. Součet absolutních hodnot prvků prvního řádku je Q12I + I Q13I H-----h I ain\ Kil Protože je A řádkově diagonálně dominantní, musí být I Qn| > I a12\ + I a13\ H-----h | aln\ a tedy součet absolutních hodnot prvků prvního řádku matice Cj musí být menší než 1. Úplně stejně se ukáže, že i součty v ostatních řádcích jsou menší než jedna. Řádková norma matice C j, coby největší z čísel menších než jedna, bude určitě také menší než jedna. Proto, je-li A řádkově diagonálně dominantní, je zaručeno, že Jacobiho metoda konverguje. Podobně se dá ukázat, že je-li A ostře sloupcově diagonálně dominantní, je sloupcová norma matice Cj menší než 1. V případě, že je ||Cj|| < 1, platí odhady 3.8 a 3.9 z věty 3.1. Zde jsou přepsány speciálně pro naši úlohu: Ql2 + Ql3 au 1 au ain au x(r) - x|| < (I - x^"1) (I (4.9) 1 — C.r Xv J Ir 1 - \Cj\\ (r)-x||< 117" „ Hx^-x^ll (4.10) Pomocí odhadu 4.9 můžeme rozhodnout, kdy zastavit iterační proces, chceme-li mít jistotu, že se přibližné řešení od přesného v použité normě neliší víc než o předem dané e. Odhad 4.10 může posloužit k určení počtu kroků metody, který bude stačit pro dosažení přesnosti e. Protože však pro velké soustavy rovnic je vypočítat normu matice Cj pracné, pro zastavení výpočtu se spíše používá kriterium ||xM_x(r-i)|| <£, i když jeho splněním není zaručeno, že bude i || x^ — x|| < e. (Toto kriterium se objevilo již v příkladu 4.4, použita byla norma || • .) 34 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Příklad 4.5 Odhadněte, o kolik se nanejvýš liší přibližné řešení získané v příkladu 4-4 od přesného řešení v normě \\ ■ W^. Řešení: K odhadu chyby použijeme vzorec 4.9. K tomu musíme vypočítat řádkovou normu iterační matice Cj. Nejprve vypíšeme samotnou iterační matici: / 0 ± -2- 12 15 l15 cj = \ To 0 To \_J_ _A o \ 18 18 II CjIU = max (]|) ]|) Tš) = fô = °' 3 • / Dále vypočteme normu rozdílu posledních dvou získaných aproximací x(3) = (1,9918; -1,9930; -0,9968) ax<4' = (2,0000; -2,0013; -1,0007) : || x(4) - x(3) (U = max(| 0, 0082| ; | - 0, 0095| ; | - 0, 0039|) = 0, 0095 Nyní dosadíme do 4.9 || x(4) - x|L < 0,3 • 0, 0095 = 0, 0041 II ||oo _ 1 _ , To znamená, že každá ze složek přibližného řešení x^4) se od odpovídající složky přesného řešení může lišit nanejvýš o 0,0041. 4.2.2 Gauss-Seidelova metoda Gauss-Seidelova metoda je velmi podobná metodě Jacobiho. Liší se od ní pouze v tom, že při výpočtu další aproximace řešení použijeme vždy nejnovější přibližné hodnoty xi,X2,... ,xn, které máme k dispozici. Podrobněji: x^+1^ vypočteme stejně jako u Jacobiho metody a při výpočtu x^1^ je ihned použijeme (zatímco u Jacobiho metody jsme použili staré x^). Při výpočtu x^+1^ pou- ' (r+1) (r+1) , j žijeme nove x\ a x2 atd. Obecně iterační vztahy vypadají takto: — (h - a12 x(2r) - ai3 x3r)-----aln x^A (4.11) (r+1) 1 {, (r+1) (r) (r) x\ = — [b2 - a2i x\ ' -a2Zx\'-----a2nxyn> a>22 v „.(r+1) _ 1 (h „ „(r+1) _ Jr+1) (r) X3 — -I 03 — a31X1 —d32x2 — a3nxn T(r+1) _ _L(h _f. T(r+1) _ _____ (r+1) Q nm, ^ Dá se dokázat, že je-li matice soustavy 4.1 ostře řádkově nebo sloupcově diagonálně dominantní, Gauss-Seidelova metoda konverguje. Matematika 3 35 V jiném kritériu konvergence se objevuje pojem pozitivně definitní matice. Protože není jisté, zda se s ním studenti již setkali, řekneme, co to je. Definice. Symetrická matice A řádu n se nazývá pozitivně definitní, jestliže pro každý nenulový sloupcový vektor x = (xi,..., xn)T platí xT A x > 0 Příklad. Pozitivně definitní je např. matice 1 2 A A '25 protože pro každý vektor x = (xi, x2)T ^ (0, 0)T platí xTA x = x\ + 4x1X2 + 5x2 = (xi + 2X2)2 + X2 > 0 , zatímco matice není pozitivně definitní, protože např. pro x = (1, 0)T platí (i,o)b(J)=(i,o)(-1)=-i °n°°2 = 2, 97. Musíme tedy udělat ještě tři kroky. Je vidět, že počet kroků metody půlení intervalu nutný k nalezení kořene se zadanou přesností vůbec nezávisí na řešené rovnici. Dá se ukázat (podobně jako v řešení příkladu 5.3), že k zpřesnění výsledku o jedno desetinné místo je vždy potřeba udělat 3-4 kroky této metody. Matematika 3 43 5.1.2 Metoda regula falsi Princip metody regula falsi je velmi podobný jako u metody půlení intervalu. Opět postupně zužujeme interval obsahující kořen rovnice 5.1. Tentokrát ale dělicím bodem není polovina intervalu, nýbrž průsečík sečny vedené body [ak, f(ak)] a [bk, f(bk)] s osou x - viz obrázek 5.9. Obrázek 5.9: Metoda regula falsi Tento průsečík vypočteme podle vzorce xk = bk- —-—f(bk) (5.3) Z intervalů (ak,xk) , (xk,bk) pak vybereme ten, v jehož krajních bodech mají funkční hodnoty funkce / opačná znaménka. Platí-li f(ak) ■ f(xk) < 0, položíme ak+1 = ak,bk+1 = xk, platí-li f(bk) ■ f(xk) < 0, položíme ak+i = xk,bk+i = bk. V případě, že f(xk) = 0, našli jsem kořen rovnice a výpočet ukončíme. Ve výpočtu pokračujeme tak dlouho, dokud nenarazíme na kořen, nebo dokud neplatí | Xk — Xk-l\ < s, kde e > 0 je předem dané číslo. Splněním tohoto kriteria ale bohužel není zaručeno, že přesná hodnota kořene £ se od jeho aproximace xk liší o méně než e. Chceme-li se přesvědčit, že | xk — £| < e, můžeme vypočítat f{xk + e) a f(xk — e). Platí-li f{xk) ■ f{xk + é) < 0, resp. f(xk) ■ f(xk — e) < 0, je jisté, že kořen £ leží v intervalu {xk, xk + e) , resp. {x k — £, x k) , a tedy se od xk nemůže lišit o více než e. Metoda regula falsi je vždy konvergentní (vždy najde kořen). Bývá rychlejší než půlení intervalu, ale existují případy, kdy je pomalejší. 44 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Příklad 5.4 Metodou regula falši najděte kladný kořen rovnice z příkladu 5.1 x 3 = 0 s přesností e = 0, 01. Řešení: Mohli bychom vyjít z intervalu nalezeného metodou půlení v příkladu 5.2, ale pro srovnání obou metod začneme opět s intervalem (0, 1) . U metody regula falši budeme potřebovat i funkční hodnoty v bodech ak, bk a xk, nejen jejich znaménka. k h f (h) f(xk) 0 0 1 0,73576 -2 0,71828 -0,37159 1 0,73576 1 0,82585 -0,37159 0,71828 -0,03414 2 0,82585 1 0,83375 -0,03414 0,71828 -0,00291 Platí | X2 — xi \ < 0, 01, proto výpočet ukončíme. Přibližné řešení rovnice je x2 = 0, 83. 5.1.3 Metoda sečen Metoda sečen je velmi podobná jako metoda regula falši. Vyjdeme z intervalu (a, b) obsahujícího kořen rovnice. Označíme xq = a a x\ = b. Vedeme sečnu body [xo,f(xo)] a [xi, f(x±)] a najdeme její průsečík s osou x. Ten označíme x2. Na rozdíl od metody regula falši však nyní nevybíráme interval obsahující kořen, ale vedeme sečnu body [x±, f(xi)], [x2, f(x2)], její průsečík označíme x%, pak vedeme sečnu body [x2, f(x2)] a [x%, f(x^)] atd. - viz obrázek 5.10. xo/ A 2 Xl X3 x4 Obrázek 5.10: Metoda sečen Obrázek 5.11: Metoda sečen může divergovat. V k-tém kroku metody počítáme aproximaci kořene podle vzorce Xk Xk—\ Xk+1 Xk f{xk) - f(xk-i) kde xo = a,xi = b. Výpočet ukončíme, když je splněna podmínka Xk — Xk-i\ < £, f(xk), (5.4) Matematika 3 45 nebo když narazíme přímo na kořen rovnice. Připomeňme, že daná podmínka nezaručuje, že platí | Xk — £| < e. Metoda sečen je rychlejší než metoda regula falsi, nemusí ale vždy konvergovat - viz obrázek 5.11. Protože je obtížné předem zjistit, zda metoda pro danou rovnici konverguje nebo diverguje, je vhodné zadat při výpočtu maximální počet kroků. Je-li tento počet překročen a kořen rovnice jsme nenašli, výpočet ukončíme s tím, že metoda diverguje. Pak je nutno změnit počáteční aproximace nebo zvolit jinou metodu. 5.1.4 Newtonova metoda (metoda tečen) Už sám název metody říká, že budeme pracovat s tečnami ke grafu funkce /. Proto všude v této kapitole budeme předpokládat, že funkce / má derivaci. Newtonovu metodu můžeme popsat graficky takto: Zvolíme počáteční aproximaci kořene x0. Bodem [x0, f(x0)] vedeme tečnu ke grafu funkce /. Její průsečík s osou x označíme x\. Pak vedeme tečnu bodem [x±, f(xi)], její průsečík s osou x označíme x2 atd. - viz obrázek 5.12. Průsečík tečny v bodě [xk, f(xk)] s osou x vypočteme jako xk+l = xk — "777—T (5-5) Výpočet provádíme tak dlouho, dokud není splněna podmínka | xk — xk-l\ < £ Při splnění této podmínky však nemusí platit \xk — £| < e. Kdybychom si chtěli být opravdu jisti, že se Xk od kořene £ liší o méně než e, mohli bychom použít dále uvedený odhad 5.6, případně vypočítat f(xk) a /(x^zte) a použít postup popsaný u metody regula falsi. 46 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Newtonovu metodu lze odvodit i pomocí Taylorova vzorce. Ukážeme nyní jak, protože stejný postup později zobecníme i pro soustavu rovnic. Předpokládejme, že známe k-tou aproximaci řešení x^. Pak můžeme psát m = f(xk) + f(xk)(t-xk) + R, kde R je zbytek v Taylorově vzorci. Zanedbáme-li tento zbytek a uvědomíme-li si že /(£) = 0 (protože £ je kořenem rovnice f{x) = 0), můžeme z předchozí rovnice přibližně vyjádřit kořen £ jako p ^ _ f(xk) což je právě Xk+i nalezené dříve popsaným způsobem. Z Taylorova vzorce lze také odvodit odhady chyby k-té aproximace kořene získané Newtonovou metodou. Má-li funkce na intervalu I obsahujícím Xk i kořen £ druhou derivaci, platí \£-Xk\ < ň—(xfc-Xfc_i) (5.6) Mi IČ-Zfcl < ^-(e-^-i)2, (5-7) Mi kde M2 = max a m\ = min pro x E I. Newtonova metoda je z metod pro řešení nelineárních rovnice nejefektivnější, nemusí však konvergovat - viz obrázek 5.13. Jestli Newtonova metoda konvergovat bude, nebo nebude, závisí do značné míry také na tom, jak zvolíme počáteční aproximaci xq. Při pohledu na obrázek 5.12 je zřejmé, že zde byla počáteční aproximace zvolena vhodně. Kdybychom jako x0 zvolili např. levý krajní bod zobrazeného intervalu, konvergence už by zaručena (ovšem ani vyloučena) nebyla. Tím se dostáváme k podmínkám, při jejichž splnění bude jisté, že Newtonova metoda konverguje. Věta 5.2 (Fourierova podmínka) Necht v intervalu {a, b) leží jediný kořen rovnice f{x) = 0 a necht f (x) a f"(x) jsou spojité a nemění znaménko na intervalu {a, b) . Zvolíme-li za počáteční aproximaci xq E {a, b) tak, aby byla splněna podmínka f(x0) ■ f"(x0) > 0, (5.8) Newtonova metoda bude konvergovat. Připomeňme v souvislosti s předpoklady věty 5.2 některé poznatky z prvního semestru. To, že f'(x) nemění znaménko na intervalu (a,b) , znamená, že funkce / buď na celém intervalu (a, b) roste, nebo na celém intervalu klesá. To, že znaménko nemění f"(x), znamená, že funkce / je buď na celém intervalu (a,b) konvexní (nad tečnou), nebo je na celém intervalu konkávni (pod tečnou). Matematika 3 47 Podmínka 5.8 znamená, že za xq vybereme bod, v němž má funkční hodnota stejné znaménko jako druhá derivace. Funkce, jejíž graf je na obrázku 5.12, je na celém zobrazeném intervalu rostoucí a konvexní. To znamená, že její druhá derivace je na tomto intervalu kladná. Proto se jako počáteční aproximace zvolil bod, v němž byla i funkční hodnota kladná. Čtenář si může zkusit představit další možné situace, např. funkci na celém intervalu rostoucí a konkávni - zde by se jako xq zvolil levý krajní bod - a podobně. Příklad 5.5 Newtonovou metodou najděte záporný kořen rovnice z příkladu 5.1 ex + x2 - 3 = 0 s přesností e = 0, 01. Řešení: Víme, že kořen leží v intervalu (—2, — 1) . Ověříme, že na tomto intervalu jsou splněny předpoklady věty 5.2. Vypočteme první a druhou derivaci funkce f(x) = ex + x2 — 3 : f{x) = ex + 2x , f"(x) = ex + 2 Na celém intervalu (—2, —1) je f'(x) < 0 a f"(x) > 0 (tzn. ani první, ani druhá derivace zde nemění znaménko). Nyní vybereme počáteční aproximaci x0 tak, aby byla splněna podmínka 5.8. Protože f (-2) = e"2 + 1 > 0 a /(-l) = e"1 - 2 < 0, zvolíme x0 = -2. Další aproximace řešení budeme počítat pomocí iteračního vztahu f{xk) _ eXfc + x\ - 3 Xk+1 Xk f M Xk #* + 2xk Dostaneme xq = -2 x\ = -1, 70623 x2 = -1, 67752 x3 = -1, 67723 Nyní můžeme výpočet zastavit, protože |x3 — x2\ < 0, 01. Všimněme si, že tři kroky by nám stačily i pro dosažení přesnosti 0, 001. Newtonova metoda je obvykle velice rychlá. Přibližné řešení rovnice je x3 = — 1, 68. Nejsme-li schopni ověřit podmínky z věty 5.2, můžeme Newtonovu metodu přesto použít. Pokud tyto podmínky neplatí, Newtonova metoda konvergovat může a nemusí. Proto je při výpočtu vhodné stanovit maximální počet kroků metody a je-li překročen, výpočet ukončit a zvolit jinou počáteční aproximaci, resp. jinou metodu řešení. Poznámka - Newtonova metoda pro komplexní kořeny 48 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Newtonovou metodou můžeme hledat i komplexní kořeny rovnice f (z) = 0. Postupuje se úplně stejně jako při hledání reálných kořenů, jenom je potřeba počítat s komplexními čísly. Zvlášt počáteční aproximaci z0 je nutno zvolit komplexní, chceme-li dojít ke komplexnímu kořenu. Podmínky, za kterých Newtonova metoda v komplexním oboru konverguje, jsou uvedeny např. v [3]. Zde se zmíníme o jednom zajímavém aspektu Newtonovy metody v komplexním oboru. Řešená rovnice f (z) = 0 může mít více kořenů. Na příklad rovnice z4 — 1 = 0 má čtyři kořeny: 1, —1, i a —i. Který z nich pomocí Newtonovy metody najdeme, záleží na zvolené počáteční aproximaci zq. Obarvíme-li v komplexní rovině všechny body, z nichž dojdeme k prvnímu kořenu, jednou barvou, všechny body, z nichž dojdeme k druhému kořenu, další barvou atd., dostaneme velmi zajímavý obrázek - fraktál. 5.1.5 Metoda prosté iterace Metoda prosté iterace pro řešení jedné nelineární rovnice je další aplikací obecné metody postupných aproximací, popsané v kapitole 3. Rovnici f{x) = 0 upravíme na tvar x = g(x). Funkce g se nazývá iterační funkce. Nyní budeme místo kořene původní rovnice hledat pevný bod funkce g{x). Uděláme to postupem uvedeným v kapitole 3. Zvolíme počáteční aproximaci x0 a další aproximace pevného bodu (neboli řešení původní rovnice) budeme počítat jako xk+1 = g(xk) (5.9) Matematika 3 49 Tímto způsobem můžeme a nemusíme dojít k pevnému bodu funkce g - viz obrázky 5.16 (kde se pevný bod najde) a 5.17 (kde metoda diverguje, i když počáteční aproximace byla pevnému bodu velmi blízko) Nyní řekneme, kdy je zaručeno, že metoda prosté iterace konverguje. V kapitole 3 jsme se dozvěděli, že metoda postupných aproximací konverguje, je-li zobrazení, jehož pevný bod hledáme, kontraktivní. U funkce jedné proměnné kontraktivita úzce souvisí s rychlostí růstu této funkce - viz obrázky 3.4 a 3.5 v kapitole 3.3. Proto platí Vět| 5.3 Nechí funkce g zobrazuje interval (a,b) do sebe a má na tomto intervalu derivaci. Jestliže existuje číslo a E (0,1) tak, že \g'(x)\ 0, je funkce g rostoucí a stačí ověřit, že hodnoty g v krajních bodech intervalu do tohoto intervalu patří. (Kdyby g nebyla monotónní, museli bychom hledat její maximum a minimum na zkoumaném intervalu, nestačilo by dosadit krajní body.) Protože g(-2) = -1,69 G (-2,-1) a g(-l) = -1,62 G (-2,-1), funkce g zobrazuje zkoumaný interval do sebe. Konvergence iteračního procesu je tedy zaručena. Můžeme zvolit např. x0 = —2. Další aproximace pak budeme počítat podle předpisu xk+1 = g(xk) = -VS - ex* Dostaneme x0 = -2 x1 = -1,69253 x2 = -1,67808 x3 = -1,67728 Matematika 3 51 Nyní můžeme výpočet zastavit, protože |x3 — x2\ < 0, 01. Iterační metoda v tomto případě konverguje docela rychle, protože hodnota a = 0,12 je malá. Obecně platí, že čím je derivace funkce g v absolutní hodnotě v okolí pevného bodu menší, tím rychleji metoda prosté iterace konverguje. Přibližné řešení rovnice je x% = — 1, 68 Jiná možnost, jak z rovnice vyjádřit x, je x = ln(3 — x2) , tj. g{x) = ln(3 — x2). V tomto případě by na intervalu (—2, —1) podmínky konvergence splněny nebyly. Podívejme se, jak se budou chovat postupné aproximace, zvolíme-li xq = —1 : xQ = -1 X! = 0,69315 x2 = 0,92408 x3 = 0,76364 x4 = 0,88247 Nakonec bychom našli kladný kořen rovnice, který již jsme hledali metodou půlení a metodou regula falši. Poznámka. Způsobů, jak z rovnice f(x) = 0 vyjádřit x, je nekonečně mnoho. Jedna z možností je vydělit rovnici f(x) = 0 derivací funkce /, pak rovnici vynásobit —la nakonec na obě strany přičíst x. Dostaneme vztah, který by nám měl být povědomý. Newtonova metoda je tedy speciálním (a obvykle nejvhodnějším) případem metody prosté iterace. 5.2 Numerické metody řešení soustav nelineárních rovnic Budeme se zabývat řešením soustavy n nelineárních rovnic o n neznámých fi(x1,x2,... ,xn) = 0 (5.13) f2(x1,x2,... ,xn) = 0 f„(x1,X2, . . . ,Xn) = 0 kterou můžeme přepsat vektorově jako F(x) = o, (5.14) 52 Fakulta elektrotechniky a komunikačních technologií VUT v Brně kde F = (/i,..., fn)T, x = (xi,..., xn)T a o je nulový vektor. Přesné řešení této soustavy opět budeme značit £ = (£1,..., ^n)T. Ukážeme zde metodu prosté iterace a Newtonovu metodu. Obě tyto metody vypadají velice podobně jako pro jedinou nelineární rovnici. Ve skutečnosti je ale vícedimenzionální případ mnohem složitější, protože na rozdíl od jediné rovnice je velmi nesnadné získat dobré informace o poloze kořene. Podmínky konvergence obou uvedených metod se také ověřují mnohem obtížněji než u jediné rovnice. V případě, že řešíme dvě rovnice, hledáme vlastně průsečíky dvou křivek v rovině daných implicitně rovnicemi f±(x, y) = 0 a f2(2, y) = 0 - viz obrázek 5.18 fi(x,y)=o f2(x,y)=0 Obrázek 5.18: Grafický význam řešení dvou nelineárních rovnic 5.2.1 Metoda prosté iterace Soustavu 5.13 upravíme na tvar xi = g1(x1,x2,... ,xn) (5.15) X2 = g2{xi,x2,... ,xn) Xji Qn(x\, X2, . . . , XTi což můžeme zapsat vektorově jako x = G(x), (5.16) kde G = (#1, ...,gri Matematika 3 53 Podobně jako u jedné rovnice zvolíme počáteční aproximaci x^0-1 a počítáme posloupnost postupných aproximací z iteračního vztahu X(fe+D = G(x(^ (5.17) Jsou-li funkce g±,..., gn diferencovatelné, lze vyslovit podmínky konvergence pro metodu prosté iterace, podobné těm z věty 5.3. Protože pracujeme s n funkcemi n proměnných, v roli derivace zde bude vystupovat matice G = / dgj_ dgi dxi 0x2 dg2 dg2 dxj 8x2 dgi \ dxn \ dxn §£n_ dgn dxi 8x2 dx„ Vět( 5.4 Necht G zobrazuje uzavřenou oblast D do sebe a je v této oblasti diferencovatelná. Jestliže existuje číslo a G (0,1) tak, že G'|| 0 i f{b) > 0, pak rovnice f(x) = 0 v intervalu (a,b) určitě nemá žádný kořen. Matematika 3 59 Otázka 5.3 Jestliže výchozí interval {a, b) obsahuje právě tři kořeny rovnice f(x) = 0, pak metodou půlení intervalů vždy najdeme prostřední z nich. Otázka 5.4 Vyjdeme-li z intervalu obsahujícího právě jeden kořen, metodou půlení intervalu tento kořen určitě nalezneme. Otázka 5.5 Zvolíme-li xq tak, že jeho vzdálenost od kořene £ je nanejvýš 0, 01, Newtonovou metodou £ určitě najdeme. Otázka 5.6 Newtonova metoda je obvykle mnohem rychlejší než metoda půlení intervalů. Otázka 5.7 Je-li funkce na intervalu (a,b) (obsahujícím kořen) rostoucí a konkávní (pod tečnou) a zvolíme-li x0 = a, Newtonova metoda určitě bude konvergovat. Otázka 5.8 Jacobiho metoda pro soustavu lineárních rovnic je speciálním případem metody prosté iterace pro soustavu rovnic. Otázka 5.9 Newtonova metoda pro soustavu vždy konverguje. Otázka 5.10 V každém kroku Newtonovy metody pro soustavu musíme vyřešit soustavu lineárních rovnic. Řešením této soustavy je nová aproximace řešení původní nelineární soustavy rovnic. Upozornění: Reší-li se úloha, v níž se vyskytují goniometrické funkce, pomocí kalkulačky, je nutné mít kalkulačku přepnutou na radiány (RAD), nikoli na stupně (DEG). Příklad 5.1 Zjistěte, kolik kořenů má rovnice sinx — {x — 2)2 = 0. Najděte intervaly délky nejvýše 1, v nichž leží vždy právě jeden kořen. Největší kořen pak najděte metodou půlení intervalu s přesností 0,1, nejmenší metodou regula falši s přesností 0,01. Ostatní kořeny hledejte metodou sečen s přesností 0,001. Příklad 5.2 Newtonovou metodou najděte s přesností 10~5 záporný kořen rovnice x4 + x — 3 = 0. Počáteční aproximaci zvolte podle Fourierovy podmínky. Příklad 5.3 Metodou prosté iterace najděte s přesností 0,01 všechny kořeny rovnice 21nx — x + 2 = 0. Pro každý kořen najděte vhodnou iterační funkci, ověřte, že jsou splněny podmínky konvergence. Pak některý z kořenů najděte s toutéž přesností Newtonovou metodou, porovnejte rychlost konvergence. Příklad 5.4 Najděte nejmenší kladný kořen rovnice sin2x = cos3x s přesností 10~5. Použijte libovolnou z probraných metod. Příklad 5.5 S přesností 10~2 najděte bod, v němž funkce f{x) = x—ex2 nabývá lokálního maxima. Použijte libovolnou z probraných metod. 60 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Příklad 5.6 Newtonovou metodou najděte s přesností 0,001 kořen zadané soustavy rovnic. Vyjděte z bodu (xo,yo) = (1,0). x2 — x + y — 0,5 = 0 x2 — 5xy — y = 0 Příklad 5.7 Soustavu rovnic z předchozího příkladu řešte metodou prosté iterace. S přesností 0,001 najděte kořen, který leží v okolí bodu (1,0). Příklad 5.8 Newtonovou metodou řešte zadanou soustavu rovnic. Proveďte jeden krok. Vyjděte z bodu (xq, Vo, zq) = (1, 0,1). x2 + y2 = z2 x2 + y2 + z2 = 1 6x — 3y + 2z = 1 Příklad 5.9 Pomocí rovnice tečny ke grafu funkce odvoďte vztah pro výpočet další aproximace kořene Newtonovou metodou. Příklad 5.10 Odvoďte vztah pro výpočet aproximace kořene metodou regula falši. Odpovědi na otázky a řešení příkladů viz 15.5 Programovací úlohy Zda budou funkce f(x),g(x),f'(x) a pod. zadány přímo v programu, nebo se budou zadávat z klávesnice, ponecháme na zkušenosti a odvaze programátora. Programovací úloha 1 Napište program, který najde kořen rovnice f(x) = 0 ležící v intervalu (a, b) s přesností e a) metodou půlení intervalu b) metodou regula falši Programovací úloha 2 Napište program, který najde kořen rovnice f(x) = 0 s přesností e Newtonovou metodou. Ošetřete i případ divergence metody. Programovací úloha 3 Napište program, který najde kořen rovnice f(x) = 0 s přesností e metodou prosté iterace. Ošetřete i případ divergence metody. Programovací úloha 4 Napište program, který najde kořen soustavy rovnic fi(x,y) = 0, f2(x,y) = 0 s přesností e metodou prosté iterace. Ošetřete i případ divergence metody. Programovací úloha 5 Napište program, který najde kořen soustavy rovnic fi(x,y) = 0, f2(x,y) = 0 s přesností e Newtonovou metodou. Ošetřete i případ divergence metody. Matematika 3 61 6 Aproximace funkcí Cíl kapitoly Čtenář se již určitě mnohokrát setkal s různými funkcemi a s výpočtem jejich hodnot. U některých funkcí se funkční hodnota vypočítá snadno, u jiných by to člověk „ručně" nezvládl a musí použít kalkulačku. Některé funkce jsou zadány tak složitým předpisem (viz část o statistice), že jejich hodnoty je jednodušší nalézt v tabulce, než je počítat. Někdy též máme funkci, která není zadána vůbec žádným předpisem, ale známe pouze její hodnoty v určitých bodech, např. získané nějakým měřením. Naskýtá se otázka, jak zjistit hodnotu takové funkce v netabulkovém bodě, jak vypočítat hodnotu její derivace v určitém bodě nebo jak ji zintegrovat. Řešením je nahradit zkoumanou funkci funkcí jinou, která se jí jakýmsi způsobem podobá a se kterou se lépe pracuje. Cílem kapitoly o aproximaci je ukázat několik možností takovéto náhrady. Nejčastěji „náhradní" funkcí bývá algebraický polynom, protože v tomto případě jsou všechny výše uvedené výpočty skutečně velmi jednoduché. Požadavky, podle nichž vybíráme onu náhradní funkci, mohou být různé. Zde si blíže všimneme interpolace, kde se požaduje, aby aproximující funkce měla s funkcí původní v určitých bodech stejné hodnoty a metody nejmenších čtverců, kde má aproximující funkce procházet zadaným bodům v jistém smyslu nejblíže, ale přímo jimi procházet nemusí. 6.1 Interpolace algebraickými polynomy Při interpolaci zní základní úloha takto: Máme n+l navzájem různých bodů xq, x±,. .., xn, kterým říkáme uzlové body nebo uzly interpolace a dále funkční hodnoty v těchto bodech fo = f(xo), fi = f(xi), ■■■,fn = f(xn). Hledáme polynom Pn(x) stupně nejvýše n takový, že v uzlových bodech nabývá týchž hodnot jako funkce /, tj. P(xl) = fi, i = 0,..., n. Poznámka. Někdy se též hledá polynom, který má se zadanou funkcí nejen stejné funkční hodnoty v uzlových bodech, ale i stejné hodnoty derivací až do určitého řádu. 6.1.1 Existence a jednoznačnost interpolačního polynomu Věta 6.1 Necht jsou dány body [x%, fi] ,i = 0,... n. Pak existuje právě jeden polynom Pn stupně nanejvýš n takový, že Pn(xi) = fl, i = 0,.. . n. Důkaz. Existenci interpolačního polynomu dokážeme tím způsobem, že předvedeme postup, kterým jej lze pro libovolné navzájem různé uzlové body zkonstruovat. Tomu bude věnován další odstavec této kapitoly. To, že interpolační polynom procházející danými body existuje právě jeden, dokážeme sporem. Předpokládejme, že existují dva polynomy stupně nanejvýš n, označme je Pn{x) a Rn(x) takové, že Pn{xi) = fi, i = 0,... n i Rn(xi) = f i, i = 0,... n. Ukážeme, že tyto dva polynomy jsou shodné. Za tím účelem označme Qn(x) = Pn(x) — Rn{x). Je vidět, že Qn(x) je opět polynom stupně nejvýše n a navíc Qn{xi) = 0,i = 0,... ,n. Máme tedy 62 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Obrázek 6.20: Funkce a interpolační polynom polynom stupně nejvýše n, který má n + 1 kořenů. To je možné jedině tak, že Qn(x) je identicky roven nule, Qn(x) = 0, a tedy Pn(x) = Rn{x)^x E IR 6.1.2 Konstrukce interpolačního polynomu, Lagrangeův interpolační polynom Interpolační polynom daný body [xl,fl],í = 0,...n sestavíme pomocí polynomů k(x) takových, že Zj (xj ) 1 pro i = j 0 pro i j Čtenář snadno ověří, že polynom [x — xi){x — x2) ... (x — xn) L(x) = (X0 - X1)(X0 - X2) ... (X0 - Xn) má v xq hodnotu 1 a v ostatních uzlových bodech hodnotu 0. Podobně dostaneme i ostatní polynomy Zj, i = 0,. .. n: _ (x — Xq) . . . (x — — Xj+i) . . . (x — xn) (x0 - xí){x1 - Xq)... (Xí ~ xl_i){xl - xl+í) . . . (Xj - xn) Interpolační polynom Pn(x) nyní dostaneme snadno jako kombinaci k(x): Pn{x) = JqIq{x) + fMx) + ■ ■ ■ + fjn{x) = (6.1) (x — Xi)(x — x2) ■ ■ ■ (x — xn) ^ (x — Xq)(x — x2) ■ ■ ■ (x — xn) ^ (Xq - x1)(x0 -x2) ... (Xq - xn) (Xi - Xq)(x1 -x2) ... {xľ - xn) [x — xq)(x — Xi) . .. [x — Xn-i) + fn Matematika 3 63 Interpolační polynom ve tvaru 6.1 se nazývá Lagrangeův interpolační polynom. Příklad 6.1 Najděte Lagrangeův interpolační polynom daný body -1 0 2 3 fi 5 10 2 1 Řešení: Máme zadány 4 body, interpolační polynom bude tedy stupně nejvýše třetího. Pro jeho konstrukci použijeme vzorec 6.1: Ps(x) =5 (x - 0)(x - 2)(x - 3) 10 {x - {-\)){x - 2){x - Z) (_l_0)(-l-2)(-l-3) (o-(-l))(0-2)(0-3) 0 - (-i))Q - o)Q - 3) Q - (-i))Q - o)Q - 2) _ 3_42,in (2 - (-1))(2 - 0)(2 - 3) + (3 - (-1))(3 - 0)(3 - 2) Výsledný interpolační polynom je spolu se zadanými body znázorněn na obrázku 6.21. Obrázek 6.21: K příkladu 6.1: Zadané body a výsledný interpolační polynom 6.1.3 Newtonův interpolační polynom Interpolační polynom v Lagrangeově tvaru má tu nevýhodu, že chceme-li přidat další uzlový bod, musíme celý polynom přepočítat znovu. Také výpočet hodnoty tohoto polynomu v určitém bodě je dosti pracný. Proto je někdy výhodnější hledat interpolační polynom v jiném tvaru než 6.1. Jako vhodný se ukazuje tvar Pn(x) = a0 + «l0 — Xo) + «20 — xo)0 — Xl) + ' ' ' + an(x — xo)(x ~ xl) ■ ■ ■ (x — xn-l) (6-2) Koeficienty ao, ai,.. ., an lze získat řešením soustavy rovnic vzniklé rozepsáním podmínek Pn(xi) = f(xi), i = 0,1,... n, ale přehlednější a méně pracné je vypočítat tyto koeficienty pomocí takzvaných poměrných diferencí. 64 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Pro danou funkci / a uzlové body xl, i = 0,. .., n nazveme podíly f K xl+1] = ť = o, i,... „ _ i xi+l xi poměrnými diferencemi prvního řádu Pomocí poměrných diferencí prvního řádu definujeme poměrné diference druhého řádu jako f\ n / [xi+li xi+2 ]— f [xii xi+l\ • n i r, f[xl,xl+1,xl+2\ =-, % = 0,1, ... ,n - 2 xi+2 ~~ xi a obecně poměrné diference k-tého řádu pro k < n definujeme takto: f[xi+l, xi+2, • • • i xi+k] — f[xi, xi+l, • • • i xi+k-l] f\_xii xi-\-li ' ' ' i xi-\-k_ xi-\-k xi Dá se dokázat, že pro koeficienty al5 i = 0,1,... ,n v 6.2 platí ao = f{xo) «i = fixo,xi] Q2 = f[xo,x1,x2] , i = 0,... n — k. an = f[xo,xi, ■ ■ ■ ,xn] Dosazením těchto hodnot do 6.2 dostaneme Newtonův interpolační polynom Pn{x) = f{xo) + f[xO,xl]{x-xo) + f[xO,xl,x2]{x-xo){x-xl)^---- (6-3) ----h f[x0,xi,.. .,xn](x - x0)(x - Xi) . .. (x - X„_i) Poznámka. Newtonův interpolační polynom není vhodné upravovat roznásobováním. Pro rychlé dosazení se používá jiná úprava, kterou předvedeme v následujícím příkladu. Příklad 6.2 Aproximujte funkci f (x) = ^ Newtonovým interpolačním polynomem v uzlech 1 2 2,5 3,2 4 a pak pomocí nej vypočtete přibližnou hodnotu funkce f v bodech X — 3 CL X — 10. Řešení: Abychom mohli sestavit Newtonův interpolační polynom, musíme vypočítat poměrné diference funkce / až do řádu 4. Budeme je postupně, po sloupcích, zapisovat do tabulky. Podtržené hodnoty pak použijeme pro interpolační polynom. i Xi f[xi, xi+l] f[xi, xi+l, xi+2] f[x%,..., xl+3] f[xQ,. .. ,xA] 0 1 1 -0,5 -0,0625 0,015625 1 2 0,5 -0,2 0,0625 -0,015625 2 2,5 0,4 -0,125 0,03125 3 3,2 0,3125 -0,078125 4 4 0,25 Matematika 3 65 Nyní dosadíme do vzorce 6.3 P4(x) = l-0,5(x-l) + 0,2(x-l)(x-2)- 0,0625(x-l)(x-2)(x-2,5) + +0,0156250 - 1)0 - 2)0 - 2,5)0 - 3,2) Přibližnou hodnotu funkce / v bodě x = 3 vypočteme dosazením do interpolačního polynomu P4O). Pro výpočet funkčních hodnot interpolačního polynomu v Newtonově tvaru je vhodné si tento polynom poněkud upravit. Můžeme vytknout (x — 1), pak ve zbytku 0 — 2) a tak dále, až nakonec dostaneme 0) = 1 + 0 - 1) ( - 0,5 + 0-2) (o,2 + 0 - 2,5)( - 0,0625 + (x - 3,2)0,015625))^ Dosazovat se hodí „zevnitř". Při použití tohoto tvaru se značně sníží počet výpočetních operací nutných pro získání výsledku. Je-li čtenář obeznámen s Homérovým schématem, možná najde jistou podobnost s tímto postupem. V našem případě dostaneme i"4(3) = 0,334, zatímco přesná hodnota je | = 0,333. Pro x = 10 vyjde -P4OO) = 34,525, zatímco přesná hodnota je ^ = 0,1. Vidíme, že v bodě, který byl zhruba uprostřed uzlových bodů, je aproximace dobrá, hodnoty interpolačního polynomu a zadané funkce jsou blízké. Naopak v bodě, který leží daleko vně intervalu (1, 4), je aproximace velmi špatná. Situace je dobře patrná z obrázku 6.22, kde je vykreslen graf funkce / spolu s vypočteným interpolačním polynomem a se zadanými uzlovými body. Můžeme si všimnout, že na intervalu (1,4) interpolační polynom dobře vystihuje chování funkce /, ale mimo tento interval se od sebe hodnoty funkce / a interpolačního polynomu značně liší. 0 1 2 3 4 5 6 Obrázek 6.22: K příkladu 6.2: Srovnání funkce a interpolačního polynomu 66 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Poznámka. Bod x = 10 ležel vně intervalu ohraničeného nejmenším a největším uzlovým bodem. V takovém případě mluvíme o extrapolaci. Obecně je extrapolaci vhodné používat pouze v bodech blízkých nejmenšímu nebo největšímu uzlovému bodu. O tom, čím je způsobena velká odchylka funkce a interpolačního polynomu v bodech vzdálených od uzlových bodů a jakou přesnost lze při interpolaci očekávat, pojednává kapitola 6.1.4. Newtonův interpolační polynom pro ekvidistantní uzly Jestliže vzdálenosti mezi sousedními uzlovými body jsou konstantní, tj. platí-li xl+i — Xj = h pro všechna i = 1,. . .n, kde h £ IR je konstanta, říkáme, že uzly jsou ekvidistantní. Konstantu h nazýváme krok. Všimněme si, že pro takovéto uzly platí xl = x0 + ih, i = 0,..., n. (6-4) Pro ekvidistantní uzly lze odvodit jiný, jednodušší tvar Newtonova (i Lagrangeova) interpolačního polynomu. Místo poměrných diferencí budeme používat „obyčejné" diference: Diference prvního řádu funkce f(x) se definuje jako Af(x) = f(x + h)-f(x), (6.5) a diference k-tého řádu jako Akf(x) = A^fix + h)- Afe"V(x) (6.6) Pro ekvidistantní uzly xl5 i = 0,.. ., n, budeme diferenci k-tého řádu v uzlu xl5 Akf(xl), značit zkráceně jako Akfl. Platí A/i = f(xi + h)- f(xi) = f(xi+1) - f(xi) = /i+i - fi Afe/i = Afe-1/í+i - Afe_1/j Poměrné diference lze v případě ekvidistantních uzlů vyjádřit pomocí obyčejných diferencí. Zřejmě platí f[xl,xl+1] = (6.7) Pro poměrnou diferenci druhého radu platí /[xj, Xj+i, — —h 2h—~ — 2h2'' Matematickou indukcí lze dokázat, že k-tá poměrná diference se dá vyjádřit jako Afe / f[xi,...,xi+k] = -j-fj£. (6.8) Tyto vztahy dosadíme do Newtonova interpolačního polynomu 6.3. Zjednodušit však můžeme i výrazy (x — xo) • • • (x — x^), které se v tomto polynomu vyskytují. K tomu účelu zavedeme místo x novou proměnnou q vztahem q = —-— , neboli x = xq + qh. (6-9) Matematika 3 67 Potom x — xq = qh, x — x\ = x — xq — h = (q — l)h, obecně x — xk = (q — k)h (6.10) Vztahy 6.8 a 6.10 nyní dosadíme do 6.3. Po snadné úpravě (zkrácení h) vyjde vzorec pro Newtonův interpolační polynom pro ekvidistantní uzly lil-1) A2, , 5i(x)=l,3+0,394724(x-l,69)-0,087085(x-l,69)2+0,035672(x-l,69)3 xe 52(x)=l,5+0,330749(x-2,25)-0,027155(x-2,25)2-0,002123(x-2,25)3 x£<2,25 ; 2,89> 53(x)=l,7+0,293381(x-2,89)-0,031231(x-2,89)2+0,009379(x-2,89)3 xe<2,89;4> Přibližnou hodnotu funkce / v bodě x = 2 nyní vypočteme jako 6*1(2) = 1, 415058 (protože 2 G (1, 69 ; 2, 25)). Pro srovnání, přesná hodnota je y/2 = 1,414214. 6.3 Metoda nejmenších čtverců V předchozích částech této kapitoly jsme požadovali, aby interpolační polynom, resp. splajn, nabýval v uzlových bodech stejných hodnot jako funkce, již se snažíme aproximovat. V případě, že jsou funkční hodnoty získány experimentálně, např. jako výsledky nějakého měření, je interpolace nevhodná. Výsledky jsou totiž zatíženy chybami a interpolační funkce by tyto chyby kopírovala, což je přesně to, čeho se chceme vyvarovat. Kromě 74 Fakulta elektrotechniky a komunikačních technologií VUT v Brně toho povaha experimentů nevylučuje možnost několika měření při nezměněné hodnotě x, tj. nemusí být všechny uzlové body navzájem různé. Vzhledem k těmto okolnostem není dobré požadovat, aby aproximační funkce nabývala v uzlových bodech předem daných hodnot. V mnoha případech máme určitou představu o povaze funkce, jejíž hodnoty jsme naměřili, např. může se jednat o lineární nebo kvadratickou závislost. Pak hledáme mezi všemi funkcemi tohoto známého typu takovou, která prochází k zadaným bodům v jistém smyslu nejblíže. Aproximace přímkou Nejprve podrobně rozebereme nejjednodušší případ - aproximaci přímkou. Výchozí situace je tato: Jsou dány body xl, i = 0,.. ., n, a funkční hodnoty v nich yl. Budeme hledat přímku o rovnici y = c0 + cľx, (6-21) která bude „co nejlépe" procházet mezi body yA, i = 0, ... ,n. Označme et chybu aproximace 6.21 v ž-tém bodě, tj. el = yl- y{xi) =yl-c0- c^x^ viz též obrázek 6.27. Jelikož body [xl1yl] jsou dány, chyba závisí pouze na koeficientech přímky cq a c\. Ukazuje se, že vhodné kritérium pro určení onoho „co nejlepšího" procházení je, aby součet druhých mocnin (neboli čtverců) chyb v jednotlivých bodech byl minimální. Tento součet značíme p2. Chceme tedy minimalizovat funkci P2{co, ci) = {y0 - cq- cix0)2 + (yi - c0 - c^)2 H-----h {yn - c0 - CiX„)2 n = ^{Vi - c0 - cxx%)2 1=0 Veličinu p2 nazýváme kvadratická odchylka. Matematika 3 75 Z diferenciálního počtu funkcí více proměnných je známo, že nutnou podmínkou pro to, aby p2(co, ci) nabývala minima, je splnění rovnic 9(p2) n n d{P2) = U a —— = U. dcn dci Parciální derivaci podle cq vypočteme podrobně, aby se v práci se sumami méně zběhlí čtenáři trochu zorientovali; derivaci podle c\ pak už vezmeme zkrátka. dco d(p2] d ci 2(yo - c0 - cix0)(-l) + 2(y1 - c0 - CiXi)(-l) H-----h 2(yn - cQ - Cixn)(-1) = -2 {{y0 - cq- cixq) + (yi - cq- cľxi) H-----h {yn - cQ - CiX„)) = -2 ((y0 + y1 H-----h yn) - c0(l + H-----h 1) - ci(x0 + xH-----h = ^2Vi ~ c°(n+1) - ci Xi) i=0 n=0 ) n n 2(y* ~co~ CiXi){-Xi) = -2 y^jx.y, - c0x% - cxx2) = =0 / n n n i=0 i=0 ,i=0 1=0 1=0 Jestli snad někdo tápe, kde se v derivaci podle cq vzalo (n + 1), měl by si uvědomit, že uzly se indexují od nuly a poslední z nich má index n. Sčítali jsme tedy celkem n + 1 jedniček. Položíme-li nyní vypočtené parciální derivace rovny 0, po snadné úpravě (vydělením -2 a převedením některých sum na druhou stranu rovnic) dostaneme tzv. normální rovnice s neznámými cq a co(n + l) co ^2 x% + ci i=0 1=0 x2 = 1=0 1=0 1=0 Pokud mezi uzly xl najdeme alespoň dva různé (tj. pokud není x0 = x-y = ■ ■ ■ = xn neboli pokud jsou vektory (1,1,..., 1) ) lineárně nezávislé), má tato soustava jediné řešení. Příklad 6.6 Funkci zadanou následující tabulkou bodů aproximujte metodou nejmenších čtverců pomocí přímky. 0,2 0,5 0,9 1,6 2,0 2,9 3,5 16,58 19,30 18,12 20,94 20,90 24,66 24,50 Řešení: Koeficienty přímky získáme jako řešení soustavy rovnic 6.22. Pro přehlednost si všechny potřebné hodnoty zapíšeme do tabulky: 76 Fakulta elektrotechniky a komunikačních technologií VUT v Brně í Vi o x\ 0 0,2 16,58 0,04 3,316 1 0,5 19,30 0,25 9,650 2 0,9 18,12 0,81 16,308 3 1,6 20,94 2,56 33,504 4 2,0 20,90 4,00 41,800 5 2,9 24,66 8,41 71,514 6 3,5 24,50 12,25 85,750 E 11,6 145,00 28,32 261,842 Nyní můžeme sestavit normální rovnice. Připomeňme, že koeficient u c0 v první rovnici, n + 1, udává celkový počet uzlů, v našem případě tedy 7. 7c0 + ll,6ci = 145 11,6 c0 + 28,32 ci = 261,842 Jejich řešením je c0 = 16, 788 , cx = 2, 370. Hledaná přímka je tedy y = 16, 788 + 2, 370 x. Zadané body jsou spolu s touto přímkou zobrazeny na obrázku 6.29. 15 o 1 2 3 4 x Obrázek 6.29: K příkladu 6.6: zadané body a nalezená přímka Aproximace přímkou — jiný přístup Ukážeme nyní trochu jiný postup, kterým se dá dojít k normálním rovnicím. Soustavu normálních rovnic pak zapíšeme v jiném tvaru než 6.22. Opět máme body [xl5 í/j], i = 0,. .., n, a hledáme aproximující přímku y = c0 + cix. Matematika 3 77 Pro tuto přímku, resp. její koeficienty cq a ci, by mělo platit Vo = co + ClX0 Vi = c0 + cixi y„ = c0 + cix„. Tento fakt můžeme přepsat maticově jako " = &)■ Budeme předpokládat, že zadané body jsou alespoň tři (pro dva bychom přímku jimi danou našli snadno, pro jeden by úloha neměla jednoznačné řešení). Představíme-li si, že místo „=" máme všude rovnost, máme soustavu rovnic, ve které je více rovnic než neznámých. Takovéto soustavě se říká přeurčená. „Opravdové" řešení by měla pouze v tom vysoce nepravděpodobném případě, že by všechny zadané body yj\ ležely na jedné přímce. Jinak řešení nemá, tzn. neexistuje vektor c, pro který by všechny rovnice byly splněny. Budeme se proto hledat vektor c, pro který soustava rovnic sice není splněna přesně, ale aspoň v jistém smyslu co nejlépe. Bude to takový vektor c, pro který je minimální součet druhých mocnin rozdílů levých a pravých stran soustavy, tj. n yZ(y* ~co- cixif- 1=0 A jsme zase tam, kde jsme byli v předchozím odstavci, kde se přímka hledala pomocí geometrické představy se čtverečky. Soustavu normálních teď můžeme zapsat pomocí matice Z jako ZTZc = ZTy. (6.22) (Vyzýváme čtenáře, aby si vše rozepsal a roznásobil a přesvědčil se, že skutečně vyjde 6.22.) Ze soustavy 6.22 pak můžeme neznámý vektor c vyjádřit jako c = (ZTZ)_1ZTy. (6.23) Aproximace parabolou Aproximace parabolou se řeší velmi podobně jako aproximace přímkou, viz obrázek. K zadaným bodům í/j], i = 0, ..., n, hledáme parabolu o rovnici y = Cq + CiX + c2x2, y = Zc, kde y fyo\ yi \ynJ 11 x0\ 1 Xi 78 Fakulta elektrotechniky a komunikačních technologií VUT v Brně x0 xx Obrázek 6.30: Mezi všemi parabolami hledáme tu, pro kterou je součet obsahů čtverců nej menší možný. pro niž je minimální kvadratická odchylka n p2(c0, ci, c2) = ^2{yi - c0 - cxx% - c2x2)2 . 1=0 Normální rovnice dostaneme zcela analogickým postupem jako u přímky. Vyjdou n n n co(n + l) + ci^Xj + c2^x2 = y^jyl i=0 n n <^2xi + Ci i=0 i=0 n n co^x2 + ciX^ i=0 1=0 Cq 2_^x% + ci x2 + c2 ^ xf = ^ x^ 1=0 1=0 1=0 1=0 C2^2^ = ^2x2yt 1=0 1=0 1=0 1=0 Tuto soustavu můžeme opět přepsat jako ZTZc = ZTy, kde /l Xo Xq\ 1 X~\_ X \\ xn xn 'co' c = I ci I a y = (yo\ yi \ynJ Matematika 3 79 Aproximace metodou nejmenších čtverců algebraickými polynomy Zatím jsme probrali aproximaci pomocí přímky, tj. polynomu stupně 1, a paraboly, tj. polynomu stupně 2. Chceme-li aproximovat obecně polynomem stupně m, tzn. funkcí Pm{x) = Co + C\x H-----h cmxm, postupujeme úplně stejně jako u přímky a paraboly. Soustava normálních rovnic pak vypadá následovně n n n co(n + l) + ci^Xj + ... + cm^x™ = y^Vi i=0 1=0 1=0 n n n n Co^Xi + ci^a^2 + ... + cm^x™+1 = y^x.y, i=0 i=0 1=0 1=0 n n n n c0j>™ + Clj>™+1 + ••• + cm^x2m = j>™yi i=0 1=0 1=0 1=0 Obecná aproximace metodou nejmenších čtverců Zdaleka ne vždy je závislost mezi naměřenými (nebo jinak získanými) hodnotami x a y polynomiální. Např. pokud tyto hodnoty vykazují periodické chování, je vhodnější použít trigonometrické polynomy. Aproximaci pak můžeme hledat třeba ve tvaru y = c0 + Ci cos x + c2 sin x + c3 cos 2x + c4 sin 2x Popíšeme nyní, jak vypadá aproximace metodou nejmenších čtverců obecně. Formulace problému Jsou dány body xl1 i = 0,. .. n, a funkční hodnoty v nich yl. Dále jsou dány funkce = 0,. .. ,m, m < n. (Pro přímku by to byly funkce (fo(x) = 1 a (fi(x) = x, pro parabolu by k nim navíc přibyla funkce (f2(x) = x2.) Mezi všemi funkcemi tvaru Pm(x) = cQ(pQ(x) + civ?i(x) H-----h cm(pm(x), (6.24) c0,... ,cm jsou reálná čísla, hledáme takovou, pro niž kvadratická odchylka n p2(cQ, ...cm) = 1^j{yl - Pm{x%))2 i=0 nabývá minimální hodnoty. Takovou funkci pak nazýváme nejlepší aproximací experimentálních dat yo,...yn v dané třídě funkcí ve smyslu metody nejmenších čtverců. 80 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Postup pro nalezení nej lepší aproximace už jsme v podstatě předvedli u přímky. Kvadratická odchylka n P2 = ^{íJi - cq(po{xl) - CiV?i(Xj)-----cmLpm(xi))2 1=0 je minimální v tom bodě (cq,ci, ..., c„), v němž jsou splněny rovnice d{p2) d dc3 dc3 . i=Q [Xľ^1 ~ Od^oO^) - CWxÍXí)-----cmipm{xl)f = 0, j = 0,... ,m. Nyní provedeme totéž, co jsme dělali u přímky, s obecnými funkcemi. Zderivováním dostaneme n X]2(^ ~ co<^o(^) - cWi{xí)-----cm^m(xl))(-^-(xl)) = 0, j = 0,... ,m. i=0 Rovnice vydělíme —2 a rozdělíme na jednotlivé sumy: n n n 1^jyl(p:j(xl) - S^jCqlpq(x1)lp:j(xí)-----y^2lCm,ipm{xi)ipj{xi) j = 0,. .. ,m. i=0 1=0 1=0 Z každé sumy můžeme vytknout odpovídající koeficient ck. Snadnou úpravou pak dostaneme normální rovnice pro neznámé cq, ... ,cm : n n n co1^2(Po{xl)(Pj{xl) H-----h ^(xj)^^) = S^jylLpJ(xl) j = 0,... ,m. i=0 i=0 1=0 Tato soustava rovnic po rozepsání vypadá takto: n n n n coXľ^o(Xl) +ci^2 h2 > /j3 > • • • . Nejjednodušší vzorec pro derivaci prvního řádu dostaneme zderivováním interpolačního polynomu prvního stupně daného uzly x0 a x-y = x0 + h. /'(*) = KW- Matematika 3 85 Má-li funkce / druhou derivaci na intervalu {xo,xi), pak existují body £o)£i £ {xo,xi) tak, že platí /'(..) = ňxi) -s(xa) - \nu) i") f M = f(Xl) ~ /W - ^/"fe). (7.2) Tyto vzorce lze též odvodit pomocí Taylorova rozvoje funkce /. Derivováním interpolačního polynomu druhého stupně daného uzly xq = x\ — h, x\ a X2 = xi + h dostaneme přesnější vzorce pro první derivaci v těchto uzlových bodech. Má-li funkce / čtvrtou derivaci na intervalu (xq, X2), pak existují body £0, £i) £2 £ (^o, £2) takové, že f(*o) = "3/(X0)+42fl}"/(X2) 4^6.) (7-3) /'(*i) = IM_JM _|rfó) (7.4) ,v \ /(x0) -4/(xi) + 3/(x2) fr2,„VfM ,7t.v / (^2) = -Yh- +T/ (6) (7-5) Pomocí druhé derivace téhož interpolačního polynomu dostaneme vzorec pro druhou derivaci funkce / v bodě x\. Má-li funkce / pátou derivaci na intervalu (xo,x2), pak existuje bod £ G {xo,X2) takový, že fw = M_&ww.^({) (7.6) Na obrázcích 7.31 a 7.32 je zachycen geometrický význam vzorců 7.2 a 7.4. Hodnota derivace funkce / v bodě x±, tj. směrnice tečny ke grafu funkce v tomto bodě (tečna je na obrázcích nakreslena černě), je přibližně rovna směrnici sečny dané body x0 a xl5 resp. x0 a X2 (tyto sečny jsou na obrázcích nakresleny šedě). Poznámka o zaokrouhlovací chybě při numerické derivování Mohlo by se zdát, že zmenšováním kroku h lze dosáhnout při numerickém derivování libovolné přesnosti. Bohužel se však ukazuje, že při příliš malém h může velmi narůst vliv zaokrouhlovací chyby. To je vidět už z nejjednoduššího vzorce 7.2. Pro malé h může být /(xo) = f(xi) a tedy v čitateli zlomku odčítáme dvě sobě velmi blízká čísla, výsledek pak navíc opět dělíme malým číslem. To jsou operace vzhledem k zaokrouhlovací chybě velmi riskantní, viz kapitolu o chybách. Naopak, při velkém kroku h nelze očekávat velkou přesnost vzhledem k chybě metody. Proto je potřeba volit kompromis, více o tom v [8]. V případě funkcí, jejichž hodnoty byly získány např. experimentálně a jsou zatíženy nezanedbatelnými chybami, se doporučuje nejprve tyto hodnoty metodou nejmenších čtverců „vyrovnat" a potom teprve funkci derivovat. 86 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Obrázek 7.31: Ilustrace ke vzorci 7.2 Obrázek 7.32: Ilustrace ke vzorci 7.4 7.2 Numerické integrování Určení primitivní funkce k dané funkci f(x) může být nesnadné, jak si čtenář jistě vzpomene z prvního semestru matematiky, někdy je to zcela nemožné. V případě, že jsou hodnoty funkce / dány tabulkou, pojem primitivní funkce úplně ztrácí smysl. Přesto můžeme chtít z takové funkce integrál vypočítat. ŕ Zde se budeme zabývat výpočtem určitého integrálu / f(x)dx. Jak si jistě všichni vzpo- J a menou, pomocí tohoto integrálu se vypočítá obsah plochy pod grafem funkce f(x) na intervalu (a,b), viz obrázek 7.33. Obrázek 7.33: Připomenutí významu určitého integrálu Numerický výpočet tohoto integrálu se nazývá numerická kvadratura. Jedna z možných cest je nahrazení funkce / na intervalu {a, b) interpolačním polynomem. Ten již se pak zintegruje snadno. Matematika 3 87 7.2.1 Newton-Cotesovy vzorce Newton-Cotesovy kvadraturní vzorce (kvadraturní formule) obdržíme integrováním inter-polačních polynomů s ekvidistantními uzly. Můžeme je rozdělit do dvou skupin: - uzavřené vzorce, kde krajní body intervalu bereme za uzly kvadratury - otevřené vzorce, kde krajní body nebereme za uzly kvadratury a uzly jsou položeny symetricky podle středu intervalu. Blíže se zde budeme zabývat uzavřenými formulemi, z otevřených se můžeme zmínit o nejjednodušší z nich, a tou je tzv. obdélníková metoda. Za jediný uzel interpolace bereme střed intervalu (a, b), vlastně funkci na tomto intervalu nahradíme konstantou f(3^) a integrál je pak přibližně roven obsahu obdélníka, viz obrázek 7.34. f(x)dx = (b-a)f(sf) (7.7) (a+b)/2 b Obrázek 7.34: Obdélníková metoda y=Mx) a b Obrázek 7.35: Lichoběžníková metoda Z uzavřených vzorců je nejjednodušší lichoběžníková metoda (nebo též lichoběžníkové pravidlo). Funkci f(x) nahradíme na intervalu (a,b) lineárním interpolačním polynomem daným uzly a, b (zde zapsaným v Lagrangeově tvaru): L1{x) = f{a)X-^\ + f{b)X—^. a — b b — a Integrací tohoto polynomu po použití jednoduchých úprav dostaneme f(x)dx = / Li(x)dx b — a /(«) + /(&)• (7.8) V tomto případě nahrazujeme obsah podgrafu funkce / obsahem příslušného lichoběžníka, viz obrázek 7.35, odtud název metody. 88 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Poznámka. Vzorec 7.8 můžeme dostat i použitím známeho vztahu pro obsah lichoběžníka S = \ {A + C)v, kde A a C jsou délky podstav lichoběžníka a v je jeho výška. Musíme si ovšem uvědomit, že v tomto případě je lichoběžník obrácen, jeho podstavy jsou svisle. Na integraci interpolačního polynomu druhého stupně, za jehož uzly bereme a, b a střed integračního intervalu, tj. je založena tzv. Simpsonova metoda (viz obrázek 7.36): Í f(x)áx = b—^ [f (a) + 4/(*±*) + f (b)). (7.9) •J Q> Obrázek 7.36: Simpsonova metoda Podobně bychom mohli integrovat interpolační polynomy vyšších stupňů. Přibližná hodnota integrálu vždy vyjde jako součet určitých násobků funkčních hodnot v uzlech. Obecně je uzavřený Newton-Cotesův vzorec tvaru b n f(x)dx = (b-a)Y,HJ(xl), (7.10) i=0 kde n je stupeň použitého interpolačního polynomu, Hl jsou tzv. Cotesovy koeficienty a xl jsou uzly, pro něž platí xl = a + ih,i = 0,... ,n, (h = je krok mezi uzly). Přehled Cotesových koeficientů až do n = 8 lze nalézt např. v [3]. Chyba Newton-Cotesových vzorců se vypočte integrací chyby interpolace 6.12, E = —±— f f(^)^)(x-XQ)...(x-Xn)dx In + 1 ! Zjednodušení tohoto výrazu je dosti obtížné, je ho potřeba provést zvlášt pro n sudé a pro n liché. Podrobnosti lze nalézt v [8]. Matematika 3 89 Pro n sudé platí E = "7—HvTT / x(x - x0) • • • (x - x„) dx, (7.11) (n + 2)1 a pro n liché f{n+i)(v) ŕ E = / (x - x0) • • • (x - xn) dx, (7.12) (n + 1J. t/Q kde ry G [a, 6]. Integrály v těchto vzorcích lze pro konkrétní n vypočítat (byt je to poněkud pracné). Např. chyba lichoběžníkové metody pomocí vzorce 7.12 vyjde E = -y2{b-aYf{V). (7.13) V kapitole o interpolaci jsme ukázali, že interpolační polynomy vyšších stupňů mohou oscilovat a nemusejí dobře vystihnout chování interpolované funkce. Také výpočet Cote-sových koeficientů je pro velká n složitý. Proto se Newton-Cotesových vzorců vysokých řádů užívá zřídka. 7.2.2 Složené kvadraturní vzorce Již z obrázků je vidět, že chyba integrace pomocí uvedených Newton-Cotesových vzorců nízkých řádů může být značná. Proto je lepší interval {a, b) rozdělit na větší počet stejných dílků a na každém z nich použít vybraný jednoduchý kvadraturní vzorec. Rozebereme si nyní podrobněji složené lichoběžníkové pravidlo. Interval (a, b) rozdělíme na m subintervalů délky h = - viz obrázek 7.37. Na každém subintervalu použijeme jednoduché lichoběžníkové pravidlo. Platí / f(x)dx = / f(x)dx+ / /(x) dx + • • • + / f(x)dx = J a J xq J x\ J xm — i = \ (f(x0) + f(xi)) + \ (/(Xi) + f(x2j) +■■■ + £ (f(Xm-l) + f(xmj) Celkem tedy í /(x)dx = /r(|/(x0) + /(x1) + --- + /(xm_1) + i/(xm)) =Lm (7.14) •J d Je zřejmé, že čím jemněji interval (a, b) nadělíme, tím přesnější bude výsledek. Chyba integrace na každém dílčím intervalu x i) je podle 7.13 E% = —^ h?f"(j]i). Celková chyba je tedy ^ = ~(/"M + /"M + --- + /"W). 90 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Obrázek 7.37: Složené lichoběžníkové pravidlo Je-li funkce /" na intervalu [a, b] spojitá, existuje bod 77 £ (a, b) tak, že platí f"(Vi) + f"(V2) + ■■■ + f"(vm) = m f {ji) Dohromady dostaneme pro chybu složeného lichoběžníkového pravidla E = -—mf{V) = —10 3 m f 77 = —TTTT f W)- (7.15) 12 12 mó 12 mz Podobně jako u chyby interpolace, je prakticky nemožné určit bod 77. Lze-li nalézt M2 maxjgj,,^) rnůžeme chybu alespoň shora odhadnout. Platí totiž (b a |3 \E\ < y-T^rM2 (7.16) 12 777z Tento odhad lze použít též pro určení vhodného počtu dělení m, chceme-li, aby chyba integrace nepřesáhla nějaké zadané e. Spíše než odhad chyby se ovšem pro dosažení žádané přesnosti e používá jiný postup. Můžeme konstruovat posloupnost L±, L2, L4,... Její výpočet je velmi úsporný, protože všechny funkční hodnoty použité v nějakém Lm se použijí i při výpočtu L2m. Platí L2m = \hm + h-—- (f{xi) + /(x3) H-----h f{x2m-i)], 2 lva V / kde v závorce je pouze součet funkčních hodnot v nových dělících bodech, které původní dělení zjemňují. Výpočet zastavíme, jakmile je splněna podmínka \L2m — Lm\ < e. Matematika 3 91 (Splněním této podmínky ale není zaručeno, že se L2m od přesné hodnoty integrálu liší o méně než e.) Zcela analogicky jako složené lichoběžníkové pravidlo můžeme odvodit složené Simpso-novo pravidlo. Interval (a, b) rozdělíme na sudý počet m dílků délky h = a postupně na dvojicích sousedních dílků použijeme jednoduché Simpsonovo pravidlo. Po úpravě dostaneme b f(x)dx= (7.17) h (/(zo) + 4/(xx) + 2f{x2) + 4/(x3) + • • • + 2/(xm_2) + 4/(xm_x) + /(xm)) = S„ Pro odhad chyby E se použije vzorec 7.11 a podobné úvahy jako při odvozování chyby složeného lichoběžníkového pravidla. Vyjde E=-^Sfi4)[v)> ve{a>b) (7-i8) a pro horní odhad chyby 180 m4 xe(a,6) Příklad 7.1 Vypočtěte přibližnou hodnotu integrálu e x dx pomoct složeného Jo lichoběžníkového pravidla pro m = 4. Odhadněte, jaké chyby se při tomto výpočtu nanejvýš můžeme dopustit. Řešení: Dosadíme do vzorce 7.14. Délka kroku h je v tomto případě = 0, 5. Přibližná hodnota integrálu je tedy U = 0, 5 • (i/(0) + /(O, 5) + /(l) + /(l, 5) + i/(2)) = = 0, 5 • (i e° + e"0-25 + e"1 + e"2-25 + \ e"4) = 0, 8806 Odhad chyby dostaneme pomocí vzorce 7.16. Musíme vypočítat druhou derivaci funkce fix) = e~x . Ta vyjde f"(x) = e~x (4x2 — 2). Nyní najdeme maximum její absolutní hodnoty na intervalu (0, 2) . Využitím poznatků z prvního semestru matematiky zjistíme, že funkce f"(x) nabývá lokálního minima v bodě x = 0 a lokálního maxima v bodech x = Nás však zajímá maximum absolutní hodnoty na intervalu (0, 2) . Vypočteme hodnoty /" ve všech „podezřelých" bodech: f"(0) = -2 /"(^-) = 0,89 /"(2) = 0,26 V absolutní hodnotě je z těchto čísel největší —2, tedy M2 = | — 2| = 2. Celkem je tedy absolutní hodnota chyby nanejvýš rovna -2 = ^ = 0, 0833 92 Fakulta elektrotechniky a komunikačních technologií VUT v Brně ŕ _ 2 Příklad 7.2 Zjistěte, jakou délku kroku je třeba zvolit při výpočtu integrálu e x dx Jo (téhož jako v přikladu 7.1) pomoct složeného lichoběžníkového pravidla, chceme-li, aby chyba integrace nebyla větší než 0, 001. Řešení: Přehlednější je najít nejprve vhodný počet dělení m, z něj již délku kroku určíme snadno. (b - a)3 Víme, že pro chybu E platí \E\ < -^-M2. V příkladu 7.1 jsme zjistili, že M2 = 2. 12 m2 Najdeme-li m tak, aby výraz na pravé straně předchozí nerovnosti byl menší než 0,001, bude zaručeno, že i chyba E bude dostatečně malá. Má tedy platit (2 - O)3 i—-f-2 < 0,001 12 mz Odtud snadno dostaneme, že m2 > 8 • 2 12 • 0,001 m > 36,51 Zvolíme-li tedy m = 37 (nebo jakékoli větší), je zaručeno, že chyba bude menší než 0,001. Hledaná délka kroku může být tedy J^. Poznamenejme, že takto získaný počet dělení m může být zbytečně velký. V tomto příkladu by ve skutečnosti pro dosažení zadané přesnosti stačilo už m = 5 - to ale bez znalosti přesné hodnoty integrálu nejsme schopni rozeznat. S počtem dělení získaným právě předvedeným postupem máme sice možná více práce, ale zato jistotu, že výsledek bude dost přesný. Příklad 7.3 Vypočtěte přibližnou hodnotu integrálu / \/l + x4 dx pomocí složeného Simpsonova pravidla pro m = 8. Řešení: Ss = ^ • (7(2) +4/(2,125) + 2/(2,25) + 4(2,375) + 2/(2,5) + +4/(2,625) + 2/(2,75) + 4/(2,875) + /(3)' = ^ • (Vl + 24 + 4y/l + 2,1254 + 2y/l + 2,254 + • • • + Vl + 34) = 6,4160015 Pro srovnání, přesná hodnota integrálu je po zaokrouhlení na 7 desetinných míst rovna 6,4160012. Matematika 3 93 Poznámka. Kromě Newton-Cotesových kvadraturních vzorců existuje i mnoho dalších. Důležité jsou např. Gaussovy kvadraturní formule. V nich se přibližná hodnota integrálu opět počítá jako lineární kombinace funkčních hodnot, Koeficienty Hl E IR a uzly xl E {a, b) jsou určeny tak, aby vzorec byl přesný pro integrování polynomů do stupně 2n + 1 včetně. Poznámka. Numerický výpočet neurčitého integrálu J f (x) dx spočívá v nalezení Tato úloha je ekvivalentní s nalezením řešení Cauchyovy počáteční úlohy V = f(x), y(x0) = 0. Metodám numerického řešení takovýchto úloh bude věnována kapitola 8. Shrnutí pojmů Derivaci funkce v určitém bodě můžeme přibližně vypočítat jako hodnotu derivace inter-polačního polynomu v tomtéž bodě. Nejčastěji se k tomuto účelu používají interpolační polynomy nízkých stupňů. Použijeme-li lineární polynom, dostaneme pro výpočet první derivace vzorce 7.1, 7.2, při použití kvadratického polynomu vyjdou přesnější vzorce 7.3 Pro přibližný výpočet druhé derivace můžeme použít druhou derivaci interpolačního polynomu, v případě kvadratického vyjde formule 7.6. U numerického integrování můžeme postupovat obdobně. Integrovanou funkci nahradíme interpolačním polynomem, a ten pak zintegrujeme. Tím dostáváme tzv. Newton-Cotesovy kvadraturní vzorce. Přibližná hodnota integrálu je vyjádřena jako lineární kombinace funkčních hodnot integrované funkce v uzlových bodech. Nejčastěji se k tomu účelu používá interpolační polynom prvního stupně - lichoběžníková metoda - nebo druhého stupně - Simpsonova metoda. Protože pro interval velké délky by takto získané výsledky byly velmi nepřesné, v praxi se používají složené kvadraturní vzorce. Ty získáme tak, že interval rozdělíme na velký počet malých dílků stejné délky a na každém dílku (u lichoběžníkové metody), resp. na každé dvojici dílků (u Simpsonovy metody), aplikujeme jednoduchý kvadraturní vzorec. Chybu u numerické integrace lze někdy vypočítat pomocí vzorců 7.16 nebo 7.19, často je však takovýto výpočet příliš obtížný. Proto se v praxi používá spíše postup, při kterém postupně zdvojnásobujeme počet dílků, na který dělíme interval, a zastavíme se, až jsou si výsledky získané s nějakým počtem dílků m a jeho dvojnásobkem 2m dostatečně blízké. -6 n funkce y(x) = £f(t)dt. 7.5. 7.3 Otázky a příklady ke cvičení U následujících výroků rozhodněte, zda se jedná o výrok pravdivý či nepravdivý. 94 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Otázka 7.1 Je-li Pn interpolační polynom daný uzly [xt, fi\, í = 0,... , n, pak v uzlových bodech platí f [x^) = Pn{xi). Otázka 7.2 Přibližnou hodnotu derivace funkce f v bodě a můžeme určit např. pomocí funkčních hodnot f v bodech a + 0,1 a a — 0,1. Otázka 7.3 Čím menší krok h zvolíme při výpočtu přibližné hodnoty derivace pomocí vzorce f'{xo) = /(xo+fa)-/(^o); tím menší se dopustíme chyby. Otázka 7.4 Pro výpočet integrálu f(x)dx pomocí lichoběžníkového pravidla musíme nalézt primitivní funkci k funkci f. Otázka 7.5 Složené Simpsonovo pravidlo je obvykle přesnější než složené lichoběžníkové pravidlo (při stejném počtu dělení intervalu). Otázka 7.6 Použijeme-li pro výpočet integrálu x2dx Simpsonovo pravidlo, dostaneme přesnou hodnotu tohoto integrálu. Otázka 7.7 Je-li integrovaná funkce f na intervalu {a,b) konvexní (nad tečnou), pak přibližná hodnota integrálu Jq6 f(x)dx získaná lichoběžníkovou metodou je vždy větší než přesná hodnota tohoto integrálu. Příklad 7.1 Vypočtěte přibližné hodnoty derivace funkce G ve všech uzlových bodech a) pomocí vzorce s chybou řádu h (tj. 7.1 nebo 7.2) b) pomocí vzorců s chybou řádu h2 (tj. 7.4 ve vnitřních uzlech a 7.3, resp. 7.5, v krajních uzlech) X 1 1,1 1,2 1,3 G{x) 0,8427 0,8802 0,9103 0,9340 Porovnejte vypočtené hodnoty s přesnými hodnotami derivace, víme-li, že Příklad 7.2 Pomocí výsledku příkladu 2 z kapitoly o aproximaci (interpolační polynom pro funkci f s uzly x\ — h, x±, x\ + h) odvoďte vzorce pro numerické derivování 7.3 - 7.6. Příklad 7.3 Pomocí výsledku příkladu 2 z kapitoly o aproximaci (interpolační polynom pro funkci f s uzly x\ — h,x±,xi + h) odvoďte Simpsonovo pravidlo pro výpočet určitého integrálu. Příklad 7.4 Integrál J^2 sin x dx vypočtěte přibližně (jednoduchou) a)lichoběžníkovou, b)Simpsonovou metodou. Porovnejte s přesnou hodnotou integrálu. Příklad 7.5 Integrál J2 §^ dx vypočtěte přibližně složeným lichoběžníkovým pravidlem pro a) m = 4 b) m = 8. Při výpočtu b) využijte výsledek a). Matematika 3 95 Příklad 7.6 Vypočtěte přibližně G(l,2), je-li G{x) = ^= JQX e *2dí. Použijte složené Simpsonovo pravidlo pro m = 6. Příklad 7.7 Integrál J^j^^dx vypočtěte přibližně složeným a) lichoběžníkovým, b) Simpsonovým pravidlem pro m = 4. Výsledky porovnejte s přesnou hodnotou integrálu. Příklad 7.8 Vypočtěte přibližně f(x) dx, známe-li tyto hodnoty funkce f : X 0 0,25 0,5 0,75 1 1 0,57 -0,30 -0,07 1,28 Použijte tu z probraných metod, od níž lze očekávat nejvyšší přesnost. Příklad 7.9 Určete maximální možnou chybu při výpočtu integrálu \/l + x2 dx složeným lichoběžníkovým pravidlem s h = O, 25. Příklad 7.10 Vypočtěte, na kolik dílkuje potřeba rozdělit interval, aby chyba při výpo- tt/2 t/4 čtu integrálu J^j^ ln(sinx) dx složeným Simpsonovým pravidlem nepřesáhla 10 4. Příklad 7.11 Z jednoduchého Simpsonova pravidla odvoďte složené Simpsonovo pravidlo. Příklad 7.12 Ukažte, že Sim = ^{^L2m — Lm). Odpovědi na otázky a řešení příkladů viz 15.7 Programovací úlohy Programovací úloha 1 Napište program, který vypočte integrál ze zadané funkce / v zadaných mezích a, b pomocí složeného a) lichoběžníkového b) Simpsonova pravidla se zadaným počtem dělení m. Programovací úloha 2 Napište program, který vypočte integrál ze zadané funkce / v zadaných mezích a, b pomocí složeného lichoběžníkového pravidla se zadanou přesností e. Počítejte Ll5 L2, l4, L8,..., dokud nebude přesnost dosažena. 96 Fakulta elektrotechniky a komunikačních technologií VUT v Brně 8 Numerické řešení diferenciálních rovnic Cíl kapitoly Pomocí diferenciálních rovnic jsou popsány nejrůznější fyzikální děje. Ve druhém semestru se studenti seznámili s některými typy rovnic, jejichž řešení lze nalézt analyticky. V praktických problémech se však vyskytují i složitější rovnice. Některé z nich jsou analyticky řešitelné jen obtížně a některé analyticky vyřešit nelze. Proto se k jejich řešení používají metody přibližné, z nichž některé nyní popíšeme. Nejprve se zaměříme na metody pro řešení jedné diferenciální rovnice prvního řádu se zadanou počáteční podmínkou - počáteční úlohy. Potom ukážeme, jak tyto metody zobecnit pro řešení soustavy diferenciálních rovnic prvního řádu. Předvedeme, že diferenciální rovnice vyšších řádů se zadanými počátečními podmínkami lze snadno převést na soustavy diferenciálních rovnic prvního řádu. V závěru se budeme zabývat řešením okrajových úloh, kde jsou předepsány hodnoty řešení na počátku a na konci zkoumaného intervalu. Společným znakem všech dále uvedených metod je, že řešení nehledáme jako spojitou funkci, definovanou na celém zkoumaném intervalu (a,b), ale hodnoty přibližného řešení počítáme pouze v konečném počtu bodů a = xq < x\ < ■ ■ ■ < xn = b. Těmto bodům říkáme uzlové body nebo uzly sítě a množině {xo,xi,.. . ,xn} říkáme síť. Rozdíl hi = xl+i — Xj se nazývá krok sítě v uzlu xt. Přibližné hodnoty řešení v uzlových bodech, vypočtené nějakou numerickou metodou, budeme značit yo, yi,... , yn, na rozdíl od hodnot přesného řešení, které budeme značit y(x0),y(x1),.. .,y(xn). Na obrázku 8.38 vidíme přesné řešení diferenciální rovnice, které je vykresleno plnou černou čarou a přibližné hodnoty řešení v uzlových bodech, vyznačené kroužky. yn- yi yo- x0 xx ....... Xn x Obrázek 8.38: Přesné a přibližné řešení diferenciální rovnice Matematika 3 97 V příkladu z obrázku 8.38 byla použita pravidelná (ekvidistantní) síť - krok h mezi jednotlivými uzly byl konstantní. Všude v dalším textu, nebude-li výslovně uvedeno jinak, budeme pracovat s pravidelnými sítěmi. Chceme-li znát přibližnou hodnotu řešení v jiném než uzlovém bodě, můžeme použít některou z interpolačních metod, popsaných v kapitole 6, např. nahradit řešení lomenou čarou procházející vypočtenými body. 8.1 Počáteční úlohy Nejprve se budeme zabývat řešením obyčejné diferenciální rovnice prvního řádu se zadanou počáteční podmínkou y' = f(x,y) , yOo) = yo (8.1) Připomeňme podmínky, které zajistí existenci a jednoznačnost řešení úlohy 8.1. Věta 8.1 Je-li funkce f(x, y) spojitá na obdélníku R = {(x, y);\x — xq\ < a, \y — yo\ < b} , a > 0, b > 0, pak existuje řešení počáteční úlohy 8.1 na intervalu {xo — a, xq + a) , kde a = min(a, ), M = max# \f(x, y)\ Je-li dále funkce d^gyv^ ohraničená na obdélníku R, pak toto řešení je jediné. Tato věta však udává pouze postačující podmínky pro existenci jediného řešení. Také v mnoha případech zaručuje existenci a jednoznačnost řešení pouze na velmi malém okolí bodu xq. Při řešení konkrétního matematického modelu technické úlohy proto existenci a jednoznačnost řešení posuzujeme i na základě informací o řešené úloze, případně fyzikálních vlastností hledaného řešení. V dalším textu vysvětlíme několik obecných pojmů týkajících se numerických metod řešení diferenciálních rovnic, ale nejprve ukážeme nejjednodušší z těchto metod, aby čtenář získal konkrétní představu, jak numerické řešení diferenciálních rovnic může vypadat. 8.1.1 Eulerova metoda Mějme dánu počáteční úlohu 8.1 a pravidelnou sít {x0, xi,..., xn} s krokem h. Ve všech bodech sítě by podle rovnice 8.1 mělo platit y'{xi) = f{xl,y{xl)) Derivaci na levé straně této rovnice můžeme nahradit diferencí podle jednoho ze vzorců 7.2. Dostaneme y(xi+1) - y(xi) --= f{xi,y{xi)) Nahradíme-li y(xt) přibližnou hodnotou yl5 můžeme odtud vyjádřit přibližnou hodnotu y{xl+1) jako Vi+i = Ví + hf(xi,yi) (8.2) 98 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Pomocí tohoto vzorce vypočteme přibližnou hodnotu řešení v dalším uzlovém bodě pomocí hodnoty v uzlu předchozím. Hodnotu řešení v bodě xq známe z počáteční podmínky, je rovna yo- Příklad 8.1 Eulerovou metodou s krokem h = 0,1 řešte počáteční úlohu y =x2 -y , y(0) = 1 na intervalu (0 ; 0, 5) . Řešení: V našem případě je x0 = 0 , yo = 1 a f(x, y) = x2 — y. Přibližné hodnoty řešení v dalších bodech budeme počítat podle vzorce 8.2, konkrétně yl+1 = y% + 0,1 • (x2 - y%) , i = 0,..., 4 Vypočtené hodnoty zapíšeme do tabulky. Pro srovnání jsou v tabulce uvedeny i hodnoty přesného řešení y = —e~x + x2 — 2x + 2 v uzlových bodech. Všechna čísla v tabulce jsou zaokrouhlena na 4 desetinná místa. i 0 i 2 3 4 5 0 0,1 0,2 0,3 0,4 0,5 i 0,9 0,811 0,7339 0,6695 0,6186 úfa) i 0,9052 0,8213 0,7492 0,6897 0,6435 Geometrická interpretace Eulerovy metody Pro vysvětlení geometrické interpretace Eulerovy metody připomeňme nejprve, že diferenciální rovnicí y' = f(x, y) je dáno tzv. směrové pole. V každém bodě [x, y] roviny (x, y), kterým prochází některé řešení této rovnice, je hodnota f(x,y) rovna směrnici tečny ke grafu tohoto řešení. Proto si směrové pole můžeme, zhruba řečeno, představit tak, že v každém bodě roviny (x, y) stojí šipka, která říká, kterým směrem máme pokračovat, dostaneme-li se do tohoto bodu. Na obrázku 8.39 vidíme směrové pole příslušné jisté diferenciální rovnici a několik řešení téže rovnice. Při řešení diferenciální rovnice Eulerovou metodou postupujeme vlastně takto: Vyjdeme z bodu [xo, yo] směrem, který udává „šipka" v tomto bodě stojící, to znamená po přímce o rovnici y = yo + f(xo, yo)(x~xo), dokud nedojdeme do bodu s x-ovou souřadnicí x\. Ypsilonová souřadnice tohoto bodu je y\ = yo + f(xo, yo)(xi — x o) = yo + hf(xo, yo). Z bodu [xi, yi] pokračujeme ve směru daném směrovým polem v tomto bodě, tj. po přímce y = yi + f(xi, yi)(x — xi), dokud nedojdeme do bodu s x-ovou souřadnicí x2 atd. Situace je znázorněna na obrázku 8.40. Graf přesného řešení vyhovujícího počáteční podmínce y(xo) = Voi na obrázku nakreslený šedě, aproximujeme lomenou čarou procházející body [zo,yo], [xi,yi], [3:2,2/2],-•• 8.1.2 Typy a vlastnosti metod pro řešení počátečních úloh, lokální a globální chyba Jak jsme viděli na příkladu Eulerovy metody, při numerickém řešení počáteční úlohy 8.1 můžeme vypočítat přibližnou hodnotu řešení v dalším uzlovém bodu pomocí hodnoty Matematika 3 99 \\\\\\\N\\ \\\\\\\\. Obrázek 8.39: Směrové pole Obrázek 8.40: Přibližné řešení diferenciální rovnice Eulerovou metodou řešení v uzlovém bodu předchozím. U některých jiných metod sice postupujeme poněkud důmyslněji než u metody Eulerovy, ale stále využíváme pouze informace z jediného předchozího kroku. Takovýmto metodám říkáme metody jednokrokové. U jiných metod využíváme informace z několika předchozích kroků. Těmto metodám říkáme metody vícekrokové. Je vcelku zřejmé, že nakolik se přiblížíme k přesnému řešení, závisí na délce kroku /i, který 100 Fakulta elektrotechniky a komunikačních technologií VUT v Brně použijeme. Základní vlastnost, kterou od použitelné numerické metody požadujeme, je, aby numerické řešení získané touto metodou pro h —> 0 konvergovalo k přesnému řešení dané úlohy. Řekneme, že metoda je konvergentní, jestliže pro libovolnou počáteční úlohu 8.1 platí pro každé x E {a, b) lim yn = y(x) , kde x = xq + nh . n—>oo U každé metody je důležitá otázka, jak se přibližné řešení získané touto metodou liší od řešení přesného, neboli jak vypadá globální diskretizační chyba e% = y{xi) - y% Pro získání představy o globální diskretizační chybě bývá mnohdy velmi užitečné znát tzv. lokální diskretizační chybu dané metody. Je to chyba, které se dopustíme v jednom kroku dané metody za předpokladu, že všechny hodnoty, které jsme při výpočtu použili, byly přesné. Lokální diskretizační chybu v i-tém uzlu budeme značit dl. Na obrázku 8.41 vidíme globální diskretizační chybu e, a lokální diskretizační chybu dl u přibližného řešení získaného Eulerovou metodou. Lokální chyba Eulerovy (i jakékoli jiné jednokrokové) metody v uzlu xl je rozdíl přibližného řešení a řešení, které splňuje počáteční podmínku y(xi-i) = Vi-i- I | l \ \ Obrázek 8.41: Globální a lokální chyba Při numerickém řešení diferenciální rovnice se dopouštíme lokální diskretizační chyby v každém kroku. Globální diskretizační chyba je tedy výsledkem nakupení lokálních chyb, přičemž je třeba brát v úvahu, že každý krok vychází z hodnot, které už jsou zatíženy chybou z předešlého průběhu. Je žádoucí, aby u dané metody nedocházelo ke katastrofální akumulaci lokálních diskretizačních chyb. Matematika 3 101 Pro popis rychlosti konvergence metody používáme pojem řád metody. Zhruba řečeno je řád metody přirozené číslo p takové, že pro malá h je lokální diskretizační chyba dj řádově velikosti hp+1. Přesnější definici lze nalézt např. ve skriptech [3]. U jednokrokových metod p-tého řádu lze dokázat, že globální diskretizační chyba je řádově velikosti hp. Eulerova metoda je řádu prvního. V dalších dvou kapitolách ukážeme několik jednokrokových metod vyšších řádů. 8.1.3 Modifikace Eulerovy metody Jak již název napovídá, budeme postupovat podobně jako u Eulerovy metody. Nejprve vypočteme pomocné hodnoty k\ a k2 a pomocí nich pak přibližnou hodnotu řešení v dalším uzlovém bodě. U první modifikované Eulerovy metody počítáme podle vzorců h = f(x„, y„) k2 = f{xn + \h,yn + \ hkx) yn+1 = y„ + hk2, (8.3) u druhé modifikace podle vzorců h = f(x„, y„) k2 = f{xn + h,yn + hkx) yn+1 = yn + lKh + h)- (8.4) Obě modifikované Eulerovy metody jsou druhého řádu. Geometricky lze tyto metody interpretovat podobně jako Eulerovu metodu. Na obrázcích 8.42, resp. 8.43 vidíme jeden krok první, resp. druhé modifikované Eulerovy metody. U první modifikace nejprve najdeme pomocný bod P, a to tak, že z bodu [xn, yn] vyjdeme po přímce se směrnicí f(xn,yn), tj. stejně jako u Eulerovy metody, ale dojdeme jen do bodu s x-ovou souřadnicí xn + |. Přibližnou hodnotu řešení v bodě xn+i pak získáme tak, že z bodu [xn, yn] jdeme po přímce se směrnicí určenou směrovým polem v bodě P, dokud nedojdeme do bodu s x-ovou souřadnicí xn+i. U druhé modifikace zkonstruujeme dva pomocné body P\ a P2. Bod P\ dostaneme jedním krokem obyčejné Eulerovy metody. Bod P2 pak získáme tak, že z bodu [xn, yn] jdeme po přímce se směrnicí danou směrovým polem v bodě P\ do bodu s x-ovou souřadnicí xn+i. Nový bod [xn+i,yn+i] pak leží ve středu úsečky P\P2. 8.1.4 Rungovy-Kuttovy metody Rungovy-Kuttovy metody jsou jedna z nej důležitějších skupin jednokrokových metod. Se dvěma jednoduchými příklady metod Runge-Kutta, první a druhou modifikovanou Eulerovou metodou, jsme se již setkali v předchozí kapitole. 102 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Obrázek 8.42: První modifikace Eule-rovy metody Obrázek 8.43: Druhá modifikace Eule-rovy metody Obecný tvar Rungovy-Kuttovy metody je yn+1 =y„ + hiw-ik-i H-----h wsks), (8.5) kde h = f(x„,y„) (8.6) i-l h = f(xn + a>ih,yn +h'^Pijkj) , i = 2,..., s a wl,al a (3^ jsou konstanty volené tak, aby metoda měla maximální řád. (Více o způsobu volby těchto konstant lze nalézt např. v [3] nebo [8].) U první modifikované Eulerovy metody bylo wi = 0, w2 = 1, oi2 = \ a fyi = |, u druhé modifikace wi = W2 = \ , 0L2 = 1 a p21 = 1- Nejproslulejší je následující metoda Runge-Kutta 4. řádu. Často, mluví-li se o Rungově-Kuttově metodě, myslí se tím právě tato konkrétní metoda. yn+1 = yn + lh(k1 + 2k2 + 2k3 + k4) (8.7) h = f(x„, y„) k2 = f(x„ + \h,yn + \ hk-i) h = f{xn + \h,yn + \ hk2) k4 = f(x„ + h,yn + hk3) V následujícím příkladu budeme řešit tutéž počáteční úlohu jako v příkladu 8.1. Uvidíme, že řešení získané metodou Runge-Kutta 4. řádu je oproti řešení pomocí Eulerovy metody podstatně přesnější. Příklad 8.2 Rungovou-Kuttovou metodou řešte počáteční úlohu y =x2 -y , y(0) = 1 s krokem h = 0,1 na intervalu (0 ; 0, 5) . Matematika 3 103 Řešení: První krok metody předvedeme podrobně, výsledky dalších kroků pouze zapíšeme do tabulky. Známe xq = 0,yo = 1, budeme počítat yi, tj. přibližnou hodnotu řešení v bodě x\ = 0,1. K tomu potřebujeme k±, k2, k%, k4. Ta vypočteme podle vzorců 8.7: h = /(0;1) = 02-1 = -1 k2 = /(0 + | 0,1; 1 + | 0,1(—1)) = /(0,05;0,95) = -0,9475 h = /(0 + | 0,1; 1 + ±0,l(-0,9475)) = /(0,05 ; 0,952625) = k4 = /(0 + 0,l;l + 0,1(-0,950125)) = /(0,1; 0,9049875) = yi = y0 + l0,l(k1 + 2k2 + 2k3 + k4) = 0,9051627. V každém dalším kroku budeme opět počítat čísla ki,k2,k% a k4 a pomocí nich pak přibližnou hodnotu řešení v dalším uzlovém bodě. Ve sloupcích tabulky označených x a y jsou souřadnice bodů, v nichž vyčíslujeme funkci f(x, y) = x2—y při výpočtu kl (srovnejte s prvním krokem). Pro srovnání vypíšeme i hodnoty přesného řešení y = — e~XjcX2 — 2x+2. Tentokrát jsou čísla zaokrouhlována na 7 desetinných míst. n xn X y 0 0 1 1 0 1 h = -1 0,05 0,95 k2 = -0,9475 0,05 0,952625 h = -0,950125 0,1 0,9049875 k4 = -0,8949875 1 0,1 0,9051627 0,9051626 0,1 0,9051627 h = -0,8951627 0,15 0,8604046 k2 = -0,8379046 0,15 0,8632675 h = -0,8407675 0,2 0,8210860 k4 = -0,7810860 2 0,2 0,8212695 0,8212693 0,2 0,8212695 h = -0,7812695 0,25 0,7822060 k2 = -0,7197060 0,25 0,7852842 h = -0,7227842 0,3 0,7489911 k4 = -0,6589911 3 0,3 0,7491822 0,7491818 0,3 0,7491822 h = -0,6591822 0,35 0,7162230 k2 = -0,5937230 0,35 0,7194960 h = -0,5969960 0,4 0,6894826 k4 = -0,5294826 4 0,4 0,6896804 0,6896800 0,4 0,6896804 h = -0,5296804 0,45 0,6631964 k2 = -0,4606964 0,45 0,6666456 h = -0,4641456 0,5 0,6432659 k4 = -0,3932659 5 0,5 0,6434699 0,6434693 Výsledky můžeme porovnat s hodnotami přibližného řešení vypočtenými Eulerovou metodou v příkladu 8.1 (kde se řešila tatáž počáteční úloha). Vidíme, že řešení získané metodou Runge-Kutta 4. řádu je podstatně přesnější. = -0,950125 -0,8949875 104 Fakulta elektrotechniky a komunikačních technologií VUT v Brně 8.1.5 Odhad chyby. Řízení délky kroku Teoretické odhady chyb zde uvedených jednokrokových metod lze nalézt v literatuře. Jejich použití v praxi je však problematické. Proto se používá spíše tzv. metoda polovičního kroku, kterou nyní velmi zjednodušeně popíšeme. Mějme numerickou metodu pro řešení počátečních úloh, která je řádu p. Pro účely této kapitoly změníme poněkud dosud užívané značení. Přesné řešení úlohy budeme stále značit y{x). Jako y(x,h) označíme přibližnou hodnotu řešení v bodě x, kterou jsme dostali použitím naší numerické metody s krokem h. Protože metoda je p-tého řádu, pro chybu platí y{x) — y(x, h) = c ■ hp, kde c závisí na x, ale nikoli na h, neboli y(x) = y(x, h)+c - hp. (8.8) Do stejného bodu x můžeme dojít i pomocí polovičního kroku. V tomto případě platí y(x) = y(x,l)+c(l)P. (8.9) Rovnici 8.9 můžeme vynásobit 2P a odečíst od rovnice 8.8. Tím se vyloučí člen obsahující neznámou konstantu c a po mírné úpravě dostaneme nové přibližné vyjádření y(x), , , 2py(x, |) -y(x,h) ví?) = 22;_ i > (8-10) které je přesnější než obě přibližné hodnoty y(x, h) a y(x, |). Z posledního vztahu můžeme vyjádřit chybu v bodě x pro krok | y(x) - y {x, f) = ^-j (y (x, f) - y(x, h)) , (8.11) resp. pro krok h 2P y(x) - y(x, h) = ----- (y (x, f) - y(x, h)) . (8.12) Odhad chyby 8.12 lze použít pro řízení délky kroku h. Vypočteme vždy přibližnou hodnotu řešení v bodě xt jedním krokem metody s použitím kroku h a dvěma kroky metody s použitím kroku |. Pak můžeme pomocí těchto dvou hodnot odhadnout chybu. Je-li příliš velká, vrátíme se do předchozího uzlového bodu a pokračujeme s polovičním krokem, je-li chyba vzhledem k našim požadavkům na přesnost příliš malá, pokračujeme dále s větším krokem, např. dvojnásobným. Jako výslednou aproximaci pak můžeme vzít kombinaci obou hodnot vypočtenou podle vzorce 8.10. Tato metoda je dosti pracná, ale účinná. V praxi se též pro řízení délky kroku používá kombinace dvou různých metod. Přibližné řešení v bodě xt najdeme dvěma různými jednokrokovými metodami (např. Matlab v jedné ze svých funkcí pro řešení diferenciálních rovnic kombinuje metodu Runge-Kutta čtvrtého a pátého řádu). Na základě těchto dvou výsledků je odhadnuta chyba. Je-li dostatečně malá, můžeme pokračovat, je-li příliš velká, vrátíme se a pokračujeme s menším krokem. Matematika 3 105 Příklad 8.3 Metodou Runge-Kutta čtvrtého řádu najděte hodnotu řešení počáteční úlohy y' = yď , y(0) = 1 bodě x = 0,2 s přesností 10~7. Řešení: Použijeme metodu polovičního kroku. Začneme s krokem h = 0,2, provedeme jeden krok metodou Runge-Kutta. Vyjde 2/(0,2; 0,2) = 1,24782070. Nyní dojdeme do bodu 0,2 pomocí dvou kroků metody R-K s krokem h = 0,1. Vyjde y(0,2; 0,1) = 1,24782556. Podíváme se, je-li chyba dostatečně malá: 2^4 (y(0,2; 0,1) - y(0,2; 0,2)) = 3 • 10"7 > 10"7 S výsledkem se tedy nemůžeme spokojit. Musíme začít znovu od začátku a použít menší krok, h = 0,1. Vypočteme hodnotu řešení v bodě 0,1 nejprve pomocí jednoho kroku metody s h = 0,1 a pak pomocí dvou kroků metody s h = 0,05 : y(0,l; 0,1) = 1,11090035, 2/(0,1; 0,05) = 1,11090046 Odhadneme chybu: 2^(2/(0,1; 0,05) - y(0,l; 0,1)) = 7 • 10"9 < 10"7. Zatím je všechno v pořádku, můžeme pokračovat se stejným krokem. Jako přibližnou hodnotu řešení v bodě 0,1 vezmeme kombinaci y = 24y(°W^y-y(°W» = 1.H090047. (Mohli bychom ale pracovat i s 2/(0,1; 0,05).) Uděláme další krok - tím se dostaneme do bodu 0,2. Pak se do téhož bodu dostaneme dvěma kroky s h = 0,05 : 2/(0,2; 0,1) = 1,24782569, 2/(0,2; 0,05) = 1,24782589, ^(2/(0,2; 0,05) -2/(0,2; 0,1)) = 10"9 < 10"7. Hodnota řešení zadané počáteční úlohy v bodě x = 0,2 s přesností 10~7 je tedy 2/(0,2; 0,05) = 1,2478259 (případně bychom mohli použít i kombinaci 2/(0,2; 0,05) a 2/(0,2; 0,1), ta je ještě přesnější). 8.1.6 Vícekrokové metody U vícekrokových metod počítáme přibližné řešení v dalším uzlovém bodě sítě pomocí několika předchozích uzlů. Protože přitom používáme nejen hodnoty přibližného řešení, ale také hodnoty pravé strany f(x, y) v těchto bodech, budeme kvůli snadnějšímu zápisu používat označení f3 = f(xj,yj). Obecně vypadá lineární k-kroková metoda takto: yn+1 = a1yn + a2 yn-i H-----V ak y„-k+i + h (b0 fn+1 + b1fn^-----h bk fn+i-k) , (8.13) kde k je přirozené číslo a alespoň jedna z konstant ak, bk je různá od nuly. Zřejmou nevýhodou k-krokové metody je, že řešení v prvních k uzlových bodech xo,... ,Xk-i musíme získat nějakým jiným způsobem. K tomuto účelu se zpravidla používá jednokroková metoda stejného řádu přesnosti, jaký má dále použitá vícekroková metoda. Je-li b0 = 0, metoda 8.13 se nazývá explicitní. V tomto případě můžeme hodnotu v novém uzlovém bodě přímo vypočítat dosazením do vzorce 8.13. 106 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Je-li bo 7^ 0, metoda 8.13 se nazývá implicitní. Pak se na pravé straně rovnice 8.13 kromě známých hodnot vyskytuje také fn+i = f(xn+i,yn+i), takže yn+i nemůžeme vypočítat přímo, ale v každém kroku musíme řešit rovnici yn+1 = hbQf(xn+1, yn+1) + g s neznámou yn+i, kde g = Y^=i aj■Vn+i-j + h Y^=i bj• fn+i-j je známé číslo (v každém kroku jiné). V případě některých pravých stran / tuto rovnici vyřešíme přesně, obecně je však potřeba tuto rovnici řešit numericky, většinou metodou prosté iterace. Tato nevýhoda je však vyvážena příznivými vlastnostmi implicitních metod. Tyto metody jsou při daném k přesnější a jsou také stabilnější než explicitní metody. (8.14) Příklad 8.4 Explicitní čtyřkrokovou metodou čtvrtého řádu yn+1 = yn-3 + | h (2/„_2 - fn-i + 2/n) řešte počáteční úlohu y =x2 -y , y(0) = 1 s krokem h = 0,1 na intervalu (0 ; 0, 7) . Řešení: Nejprve musíme nějakým způsobem najít řešení v bodech x\ = 0,1, x2 = 0,2, x3 = 0,3. Použijeme výsledky příkladu 8.2, kde jsme řešili tutéž počáteční úlohu metodou Rungeho-Kutty. Potřebné hodnoty zde znovu vypíšeme, včetně hodnot pravé strany f(x, y) = x2 — y. yi = 0, 9051627 y2 = 0, 8212695 y3 = 0, 7491822 /1 = -0, 8951627 f2 = -0, 7812695 /3 = -0, 6591822 V dalších uzlových bodech už budeme postupovat podle vzorce 8.14, tzn. 2/4 = yo + I h {2 h -f2 + 2/3) , 2/5 = yi + f h (2/2 - /3 + 2/4) atd. v Vypočtené hodnoty zapíšeme do tabulky. Pro srovnání uvádíme i hodnoty přesného řešení. n xn yn f n 4 0,4 0,6896773 -0,5296773 0,6896800 5 0,5 0,6434678 -0,3934678 0,6434693 6 0,6 0,6111865 -0,2511865 0,6111884 7 0,7 0,5934142 -0,1034142 0,5934147 Příklad 8.5 Implicitní tříkrokovou metodou čtvrtého řádu yn+i = l (9y„ - yn-2) + | Kfn+1 + 2/„ -řešte počáteční úlohu (8.15) / 2 y =x -y y(o) = 1 s krokem h = 0,1 na intervalu (0 ; 0,4). Matematika 3 107 Řešení: Jako výchozí hodnoty 1/1,1/2 opět použijeme výsledky získané metodou Runge-Kutta v příkladu 8.2. Řešení v bodě x% = 0, 3 budeme již počítat podle vzorce 8.15. 1/3 získáme jako řešení rovnice 1/3 = | (9i/2 - Vo) + § 0, l(/(x3, 1/3) + 2/2 - A), tj. ys = I (9y2 - yo) + f o, 1(0,32 - y3 + 2 A - A). Vyjde 1/3 = 0, 7491822. K dalším výpočtům potřebujeme ještě A = —0, 6591822. i/4 získáme jako řešení rovnice 1/4 = | (9i/3 — i/i) + § 0,1(0,42 — 1/4 + 2/3 — A)-Vyjde 1/4 = 0, 6896806. V tomto příkladu bylo řešení rovnic s neznámou yn+i velmi jednoduché. Většinou je však potřeba složitější postup, který popíšeme v kapitole 8.1.8. 8.1.7 Vícekrokové metody založené na numerické integraci Nyní ukážeme, jak odvodit některé konkrétní vícekrokové metody. Řešenou rovnici y'(x) = f (x,y(x)) můžeme zintegrovat na intervalu (xra+1_s, xn+i) . Tím dostaneme y{xn+1) - y(xn+1_s) = J f (x, y(x)) dx (8.16) xn-\-l — s Funkci / nahradíme interpolačním polynomem a ten zintegrujeme. Podle toho, jak zvolíme s a uzly interpolace, dostáváme různé metody. Metoda použitá v příkladu 8.4 byla získána integrací přes interval (xra_3, xn+i) a použitím otevřeného Newton-Cotesova vzorce s uzly xn_2,xn_i a xn. Častější než použití Newton-Cotesových vzorců je však jiný postup: Funkci / nahradíme interpolačním polynomem s uzly xn+i_k,.. ., xn, resp. s uzly xn+i_k, ..., xn+i, a rovnici zintegrujeme přes interval {xn, xn+i) (tzn. s v 8.16 je rovno 1). Tím dostaneme explicitní, resp. implicitní k-krokovou metodu. Explicitní lineární k-krokové metody odvozené výše popsaným postupem se nazývají Adams-Bashforthovy. Nejjednodušším případem Adams-Bashforthovy metody, kdy k = 1, je metoda Eulerova. V tomto případě funkci / nahrazujeme konstantou fn. Integrací přes interval (xn,xn+i) dostaneme známý vzorec yn+i = y n + hfn. Zvolíme-li k = 2, budeme místo funkce / integrovat lineární polynom procházející body K-i, A-i], ixn, fn] ■ Čtenář si může ověřit, že vyjde yn+1 = y„ + h (f A - \fn-i) ■ Podobně pro další k dostaneme vždy integrál z interpolačního polynomu jako lineární kombinaci funkčních hodnot f i, i = n, n — 1,.. ., n +1 — k. Obecný tvar Adams-Bashforthových metod je proto yn+1 = y„ + h(bxfn + &2a-1 H-----V bkfn+1_k) (8.17) Přehled koeficientů bl pro k = 1, 2, 3,4 je v následující tabulce spolu s řádem přesnosti p každé metody. 108 Fakulta elektrotechniky a komunikačních technologií VUT v Brně k h b2 h b. P 1 i 1 2 3/2 -1/2 2 3 23/12 -16/12 5/12 3 4 55/24 -59/24 37/24 -9/24 4 Pokud za uzel interpolace vezmeme i xn+i, dostaneme Adams-Moultonovy metody. Nejjednodušší z nich je tzv. implicitní Eulerova metoda : yn+i = yn + hfn+i. Obecný tvar Adams-Moultonových metod je yn+1 =y„ + h {b0fn+1 + hfn H-----h bkfn+1_k). (8.18) Přehled koeficientů b% pro k = 0,1, 2, 3 je v následující tabulce, opět i s řádem přesnosti p. Všimněme si, že zde je řád p vyšší než k (na rozdíl od Adams-Bashforthových metod, kde byl stejný jako k). k bo h b2 &3 P 0 1 1 1 1/2 1/2 2 2 5/12 8/12 -1/12 3 3 9/24 19/24 -5/24 1/24 4 Poznámka. Existují i metody založené na numerickém derivování. V tomto případě nahrazujeme derivaci neznámé funkce y (x) na levé straně řešené diferenciální rovnice derivací interpolačního polynomu. 8.1.8 Metody prediktor-korektor Jak již bylo řečeno, při použití implicitních vícekrokových metod je potřeba v každém kroku vypočítat yn+i jako řešení rovnice yn+1 = hb0f(xn+1, yn+1) + g, (8.19) kde g = Y!l=i aj Vn-j+i + h Y!1=i bj fn-j+i- Všimněme si, že rovnice 8.19 je zapsána ve tvaru vhodném pro použití metody prosté iterace, popsané v kapitole 5.1.5. K hledané hodnotě se můžeme postupně přibližovat iteračním procesem y<£? = hb0f(xn+1, y{:]+1) + g. (8.20) Dá se dokázat, že jsou-li splněny předpoklady věty 8.1 a zvolíme-li h dostatečně malé, rovnice 8.19 má jediné řešení a iterační metoda konverguje. Zbývá otázka, jak získat dobrou počáteční aproximaci y^+i- K tomu se nabízí použití explicitní vícekrokové metody. Princip metod prediktor-korektor je tedy tento: V každém kroku nejprve vypočteme počáteční aproximaci y^^ pomocí explicitní vícekrokové metody - prediktoru (predikce = předpověď). Matematika 3 109 Tuto hodnotu zpřesníme použitím implicitní vícekrokové metody - korektoru (korekce = oprava), a to dosazením y^+i do 8.20 (s tím, že r = 0). Tím dostaneme y^+i- To bychom teď mohli znovu dosadit do 8.20, ale obvykle se korektor používá v každém kroku jen jednou. Jako dvojici prediktor-korektor volíme zpravidla explicitní a implicitní metodu téhož řádu. Jedna z možností je použití metody z příkladu 8.4 jako prediktoru a k tomu metody z příkladu 8.5 jako korektoru, ale používá se i řada jiných metod, viz následující příklad. Příklad 8.6 Metodou prediktor-korektor, konkrétně prediktor: y{^+í = yn + ^ h (55fn - 59/„_i + 37/„_2 - 9/n_3) korektor: y^ff = y„ + ^ /* (9/(aWi, 2/i+i) + 19/™ - 5/„_i + /„_2) , (Adams-Bashforťhova a Adams-Moultonova metoda čtvrtého řádu) 2 - y řešte počáteční úlohu y' = —-j-y , y(l) = 0 s krokem h = 0,1 na intervalu (1; 1,5) . Korektor použijte vždy jednou. Řešení: Protože při použití prediktoru musíme vždy znát řešení ve čtyřech předchozích uzlových bodech, musíme nejprve vypočítat řešení v bodech x\ = 1,1, x2 = 1,2, x% = 1,3 (hodnotu v x0 = 1 známe z počáteční podmínky). Provedeme to pomocí metody Runge-Kutta čtvrtého řádu. Vyjde: y0 = 0 yi = 0, 095238 y2 = 0,181818 y3 = 0, 260870 f o = 1 /i = 0, 907029 f2 = 0, 826446 /3 = 0, 756144. Dále budeme pokračovat metodou prediktor korektor. V uzlovém bodě X4 = 1,4: yf = 2/3 + ta ■ 0,1 • (55/3 - 59/2 + 37/x - 9/0) = 0, 333318 yf} = 2/3 + ^ ■ 0,1 ■ (9/(1,4 ; 0, 333318) + 19/3 - 5/2 + A) = 0, 333334. Tedy y^ = 0, 333334, hodnota pravé strany / je f4 = 0, 694444. Pro srovnání, přesná hodnota řešení je y(l,4) = 1/3 = 0,333333. V uzlovém bodě x5 = 1,5: yf = 2/4 + £ • 0,1 • (55/4 - 59/3 + 37/2 - 9/i) = 0, 399989 y^ = y4 + £ • 0,1 • (9/(1, 5 ; 0, 399989) + 19/4 - 5/3 + /2) = 0, 400002. Tedy y^ = 0, 400002. Přesná hodnota řešení je y(l, 5) = 0,4. Poznámka. Někdy se mezi prediktorem a korektorem používá tzv. modifikátor, jímž hodnotu získanou prediktorem před použitím korektoru ještě zpřesníme. Více o tom např. v [8] nebo [3]. 110 Fakulta elektrotechniky a komunikačních technologií VUT v Brně 8.1.9 Řešení soustav diferenciálních rovnic Řešení soustavy obyčejných diferenciálních rovnic prvního řádu s počátečními podmínkami y'i = fi(%,yi,y2,---,yn) yi(x0) = vi y'2 = Í2(x,y1,y2,...,yn) ž/2o0) = V2 y'n = fn(x,y1,y2,...,yn) yn(xQ) = r]n se hledá velmi podobně jako řešení jediné diferenciální rovnice s počáteční podmínkou. Soustavu 8.21 můžeme přepsat vektorově jako y' = f(x,y), y(x0) = r7, (8.21) kde y = (yu yn)T, f = (fu . .., fn)T a r] = (771,... , rjn)T. Pro její numerické řešení můžeme použít kteroukoli z dříve popsaných metod, jen je potřeba pracovat s vektory. Eulerova metoda pro soustavu je tvaru yn+i = Yn + ht(xn,yn), (8.22) Rungova-Kuttova metoda 4. řádu pro soustavu vypadá následovně: yn+i = Yn + l fr(ki + 2k2 + 2k3 + k4) (8.23) ki = t{xn,yn) k2 = i(x„ + \ h,yn + \ /iki) k3 = í(xn + \ h,yn + \ hk2) k4 = t(xn + h,yn + hk3) Řešíme-li soustavu dvou rovnic, je jednodušší označit neznámé funkce jako y a z a funkce na pravé straně jako / a g, abychom se vyhnuli nepříjemné práci s mnoha indexy. Řešená soustava pak je y' = f(x,y,z) y(x0) = y0 ,g ^ z' = g(x,y,z) z(x0) = zQ. Eulerovu metodu pak můžeme zapsat jako yn+1 = y„ + hf(xn,yn,zn) (8.25) + hg(xn,yn,zn), metodu Runge-Kutta 4. řádu jako Vn+i = yn + lh(k1 + 2k2 + 2k3 + k4) (8.26) Zn+l = zn + \h(l1+2l2 + 2li + h)1 kde h = f(xn,yn,zn) Zi = g(xn,yn,zn) h = f{xn + \h,yn + \hki,zn + \hli) l2 = g(xn + \h,yn + \hk±, zn + \hl±) h = f(x„ + lh,yn + lhk2,zn + lhl2) Z3 = g(xn + \h,yn + \hk2, zn + \hl2) h = f(x„ + h,yn + hk3, zn + hlz) h = g(x„ + h,yn + hk3, zn + hlz) Matematika 3 111 Příklad 8.7 Soustavu diferenciálních rovnic s počátečními podmínkami y' = x-y- z y(0) = 1 z' = yez z(0) = 0 řešte Eulerovou metodou s krokem h = O, 05. Proveďte 2 kroky. Řešení: V tomto případě je f(x,y,z) = x — y — z, g(x,y,z) = yez, yo = 1 a zq = 0. Přibližné hodnoty řešení v uzlových bodech x\ = 0, 05 a x2 = 0,1 vypočteme podle vzorců 8.25: yi = 1 + 0, 05 (0 - 1 - 0) = 0, 95 zi = 0 + 0, 05 • 1 • e° = 0, 05 y2 = 0, 95 + 0, 05 (0, 05 - 0, 95 - 0, 05) = 0, 9025 z2 = 0, 05 + 0, 05 • 0, 95 • e°<05 = 0, 0999 8.1.10 Řešení diferenciálních rovnic vyššího řádu Obyčejnou diferenciální rovnici n-tého řádu s počátečními podmínkami y™ = f(x, y,y',..., y{n-1]), y(x0) = y0, y\xQ) = y'Q,..., y^Oo) = (8-2?) můžeme převést na soustavu diferenciálních rovnic prvního řádu, a to následujícím způsobem: Označíme yi = y,y2 = y',... ,yn = y^-1-1. Potom zřejmě platí, že y[ = y2,y'2 = y$ atd. Podle zadané diferenciální rovnice má platit y^ = f(x,y,y',. .. ,y(™-1)), což při našem označení znamená y'n = f(x, yi, y2,.. ., yn). Tím jsme získali soustavu n diferenciálních rovnic prvního řádu y[ = ž/2 y2 = ž/3 y'n = f(x,yi,y2 kterou můžeme řešit kteroukoli z výše popsaných metod. Řešením původní rovnice n-tého řádu je pak první složka řešení soustavy 8.28. Příklad 8.8 Diferenciální rovnici druhého řádu y" = y ■ y' — x2 s počátečními podmínkami y(0) = l,y'(0) = 1 nejprve převeďte na soustavu dvou rovnic prvního řádu, a tu pak řešte metodou Runge-Kutta 4- řádu. Proveďte dva kroky s krokem h = 0,1. Řešení: Označíme z = y'. Soustava rovnic prvního řádu je pak y' = z y(o) = i z' = y ■ z — x2 z(0) = 1 Tuto soustavu budeme řešit metodou Runge-Kutta. Všechny potřebné hodnoty jsou zapsány v následující tabulce. Ve sloupcích označených x, y a z jsou souřadnice bodů, v nichž vyčíslujeme hodnoty funkcí f(x, y, z) = z a g(x, y, z) = y ■ z — x2 při výpočtu kt a Zj. ž/i Oo) = yo y2<>o) = y o ,---,yn) yn(x0) = yj 112 Fakulta elektrotechniky a komunikačních technologií VUT v Brně n xn x y z 0 0 1 1 0 i 1 h = 1 k = 1 0,05 1,05 1,05 k2 = 1, 05 h = 1 1 0,05 1,10525 1,055 h = 1, 055 h = 1 107888 0,1 1,1055 1,110789 k4 = 1, 110789 k = 1 217977 1 0,1 1,105346 1,110563 0,1 1,105346 1,110563 h = 1, 110563 h = 1 217556 0,15 1,160875 1,171440 k2 = 1, 171440 h = 1 337395 0,15 1,163918 1,177432 h = 1, 177432 h = 1 347935 0,2 1,223090 1,245356 1, 245356 h = 1 483182 2 0,2 1,222908 1,245086 Přibližné hodnoty řešení původní rovnice druhého řádu v uzlových bodech x\ = 0,1 a x2 = 0, 2 tedy jsou ^ = 1,105346 a y2 = 1, 222908. 8.2 Okrajové úlohy Dosud jsme se zabývali úlohami, u kterých jsme znali hodnotu řešení, případně hodnoty derivací řešení, v počátečním bodě intervalu, který nás zajímal. U okrajových úloh je situace jiná. Jak již název napovídá, budou zadány hodnoty řešení v krajních bodech zkoumaného intervalu. V této kapitole budeme hledat řešení diferenciální rovnice druhého řádu y" = f(x,y,y') (8.28) na intervalu (a, b) s okrajovými podmínkami y(a) = a, y{b) = (3. (8.29) Obrázek 8.44: Počáteční úloha - za- Obrázek 8.45: Okrajová úloha dáno je y{xo) a y'(xo) (tj. směrnice tečny). Okrajové podmínky mohou být i jiného tvaru než 8.29. O tom, jak se postupuje při řešení takovýchto úloh, se zmíníme později. Matematika 3 113 Teorie existence a jednoznačnosti řešení okrajových úloh je mnohem komplikovanější než u úloh počátečních a zdaleka není tak univerzální. Obtížnější je i numerické řešení těchto úloh. V dalším textu se seznámíme s metodou konečných diferencí a velmi stručně s metodou střelby a uvedeme podmínky zaručující existenci a jednoznačnost řešení pro některé konkrétní typy rovnic. 8.2.1 Metoda konečných diferencí Tato metoda se též nazývá metoda sítí nebo diferenční metoda. Podobně jako u dříve probraných metod budeme hledat přibližné hodnoty řešení pouze v tzv. uzlových bodech xl1 i = 0,1,..., n, které získáme tak, že interval (a, b) rozdělíme na n stejných dílků délky h = (b — a)/n. Uzlové body pak jsou xt = a + ih. xn=b a = x. Budeme požadovat platnost rovnice 8.28 ve všech vnitřních uzlech xl5 i = 1,..., n — 1, tj. y"ixi) = fixi,y(xi),y'(xi)), í = i,...,n-i. Derivace vystupující v této rovnici nahradíme diferencemi (viz kapitola 7.1), např. takto: yl+1 - 2y, + y,^ / . J \Xí,Ví,-^7- , * = l,...,n-l (8.30) h2 J \ 2h Přidáme-li k rovnicím 8.30 okrajové podmínky 8.29, dostaneme tzv. soustavu diskretizačních rovnic (obecně nelineárních, záleží na povaze funkce /) s neznámými yi,..., yn-i- Tuto soustavu pak vyřešíme některou metod popsaných v kapitolách 4 a 5.2. Přesnost výsledku závisí na přesnosti zvolených diferenčních formulí a na metodě užité k řešení vzniklé soustavy rovnic. Metodu konečných diferencí nyní podrobněji předvedeme na okrajové úloze - y" + a{x)y = f(x), y{a) = a, y(b) = (5 (8.31) Věta 8.2 Jsou-li funkce o~(x) a f(x) spojité na intervalu (a, b) a o~(x) > 0 pro x G (a, b) , pak okrajová úloha 8.31 má jediné řešení pro jakékoli hodnoty a a [3. Poznámka. Nejsou-li splněny předpoklady věty 8.2, úloha 8.31 řešení mít může a nemusí. Předvedeme to na jednoduchém příkladu rovnice y" + y = 0 (neboli a(x) = —1). Obecné řešení této rovnice je y = c\ sin x + c2 cosx. Pro okrajové podmínky y(0) = 0, y(f) = 1 má úloha řešení jediné, zatímco předepíšeme-li okrajové podmínky y(0) = 0,y(7r) = 0, úloha bude mít nekonečně mnoho řešení tvaru 114 Fakulta elektrotechniky a komunikačních technologií VUT v Brně y = ci sin x, kde c\ je libovolná konstanta, a naopak, předepíšeme-li okrajové podmínky y(0) = 0,y(7r) = 1, úloha nebude mít řešení žádné. Nyní odvodíme soustavu diskretizačních rovnic pro úlohu 8.31. Označíme cr(xj) = ol, f(xi) = f i a druhou derivaci neznámé funkce y nahradíme diferencí podle předpisu 7.6: 2y, Vi+i Vi-i h2 ■Viyi = fi, i = l,...,n-l Rovnici vynásobíme h2 a sloučíme členy obsahující yt. Dostaneme: - yl-1 + (2 + h2ai)yi - yl+1 = h2ft, í = l,...,n-l. Dosadíme-li za y0 a yn z okrajových podmínek a a /3, dostaneme soustavu (2 + h2a1)y1 - y2 = h2 fx + a -yi + (2 + h2a2)y2 y3 h2f2 (8.32) (8.33) y„_2 + (2 + /i2cr„_i)y„_i = /i2/„_i + (3 Je vidět, že matice této soustavy je tří diagonální, symetrická a diagonálně dominantní. Dá se ukázat, že je také pozitivně definitní. Soustavu můžeme řešit např. Gaussovou eliminací přizpůsobenou pro třídiagonální soustavu. Příklad 8.9 Metodou konečných diferencí řešte okrajovou úlohu -y" + {l + x2)y = x, y(0) = l, y(l) = 2 s krokem h = 0, 25. Řešení: Protože krok je h = 0, 25, budeme hledat přibližné hodnoty řešení v uzlových bodech x\ = 0, 25, x2 = 0, 5, x% = 0, 75. V krajních bodech intervalu xq = 0 a X4 = 1 řešení známe z okrajových podmínek. Vypočteme potřebné hodnoty ol a ft: i 0 1 2 3 4 0 0,25 0,5 0,75 1 Oi = 1 + x2 - 1,0625 1,25 1,5625 - f i %i - 0,25 0,5 0,75 - Soustava diskretizačních rovnic pak je: 2, 06640625i/i V2 2,078125y2 V2 = 0,015625 + 1 y3 = 0, 03125 2, 09765625y3 = 0, 046875 + 2 Řešení této soustavy je yx = 1,140, y2 = 1, 341, y3 = 1, 615. Pro srovnání, hodnoty přesného řešení jsou y(xi) = 1,138, y(x2) = 1, 337, y(x3) = 1, 612. Kdybychom chtěli dosáhnout větší přesnosti, museli bychom interval rozdělit jemněji. Nyní se budeme zabývat významným typem okrajových úloh, tzv. rovnicí v samoad-jungovaném tvaru ip{x)y')' + q(x)y = f(x), y{a) = a, y(b) = f3. (8.34) Matematika 3 115 Vět| 8.3 Jsou-li funkce p(x),p'(x), q(x) a f(x) na intervalu {a, b) spojité a splňují-li na něm podmínky p(x) > O, q(x) > O, pak okrajová úloha 8.34 má jediné řešení pro jakékoli hodnoty a, [3. Při řešení úlohy 8.34 metodou sítí budeme opět hledat řešení v uzlových bodech xl5 ale pro náhradu derivací diferencemi použijeme navíc ještě „poloviční uzly" xl+1/2 = x% + |. h/2 h/2 h/2 h/2 -1-e-1-e-1- K\-\ Ai-l/2 Ai Ai+l/2 Ai+1 Podobně jako dříve budeme značit qt = q(xl), = /(xj) a Pi+i/2 = p(xl+i/2). Vnější derivaci členu (p(x)y')' v ž-tém uzlu můžeme nahradit diferencí takto (v podstatě podle vzorce 7.4): {py) (xi) =-^- Nyní nahradíme diferencemi hodnoty y'(xl+i/2) a y'(xl_i/2) : y {Xi+1/2) = —^— , y (zi-1/2) = —^— Dosazením těchto vztahů do rovnice 8.34 dostaneme 1 ví+i-Ví yi -Vi-i\ . , -- i Pi+1/2—^--Pi-1/2—^— i + = h ■ Vynásobením rovnice h2 a sloučením členů obsahujících yl získáme soustavu diskretizač-ních rovnic pro neznámé yl5 ..., yn-\ - Pi-1/2 Vi-i + {Pi-1/2 + Pi+1/2 + qlh2)yl - Pi+1/2 Vi+i = h2f, , í = l,...,n-l (8.35) V první a poslední rovnici přitom využijeme hodnoty známé z okrajových podmínek - y0 = a a yn = (3. Soustava v rozepsaném tvaru pak vypadá následovně: (Pl/2+P3/2 + h2 0 a q{x) > 0 na tomto intervalu. Sestavíme soustavu diskretizačních rovnic pro neznámé hodnoty řešení v uzlových bodech x\ = 1, 2, X2 = 1,4, x3 = 1, 6 a X4 = 1, 8. Potřebné hodnoty funkcí p, q a / můžeme opět vypsat do tabulky: i 0 1 2 3 4 5 1 1,2 1,4 1,6 1,8 2 1,2 1,4 1,6 1,8 /í = i 1 1 1 1 ^1+1/2 1,1 1,3 1,5 1,7 1,9 2 Pi+1/2 - xl+l/2 1,21 1,69 2,25 2,89 3,61 Soustava diskretizačních rovnic pak je: 2,948yi -l,69yi l,69y2 3,996y2 2, 25y2 2, 25y3 5, 204y3 2, 89y3 = 0, 04 = 0, 04 2, 89y4 = 0, 04 6, 572y4 = 0, 04 1,21-1 3,61 • 0.5 Řešení této soustavy, zaokrouhlené na čtyři desetinná místa, je v následující tabulce. Pro srovnání uvádíme i hodnoty přesného řešení v uzlových bodech. i 0 1 2 3 4 5 1 1,2 1,4 1,6 1,8 2 1 0,8337 0,7147 0,6253 0,5557 0,5 1 0,8333 0,7143 0,625 0,5556 0,5 Na obrázku 8.46 jsou vypočtené hodnoty znázorněny. Poznámka. Každou lineární diferenciální rovnici druhého řádu y" + fi(x)y'+ f2(x)y = h(x) (8.37) lze vhodnou úpravou převést na samoadjungovaný tvar —(p(x)y')' + q{x)y = f(x), kde p{x) = e^Mx)dx, q(x) = -f2{x)e$h{x)áx a f(x) = -f3(x)e^Mx)dx. (Integrační konstantu c v J fi(x) dx volíme rovnu nule.) Příklad 8.11 Převeďte na samoadjungovaný tvar rovnici y" — 2xy' — 2y = x. Řešení: Podle předchozí poznámky bude p{x) = eJ( 2x)Ax -f(x) = —xe~x . Tedy rovnice v samoadjungovaném tvaru je , q{x) -2e (e-xy')' 2e~xy -xe Matematika 3 117 1 yi y2 0.5 1 1.2 1.4 1.6 1.8 2 Obrázek 8.46: K příkladu 8.10 - nalezené přibližné řešení. Snadno se můžeme přesvědčit, že použitím pravidla pro derivaci součinu a následným 2 vydělením rovnice — e~x dostaneme původně zadanou rovnici. Poznámka. Možná čtenáře napadla otázka, proč naopak samoadjungovanou rovnici nero-zepíšeme na tvar 8.37, nenahradíme zvlášt druhou a první derivaci neznámé y a neřešíme takto vzniklou soustavu rovnic. To samozřejmě udělat můžeme. Samoadjungovaný tvar ale má své výhody, rozhodně to není jen výmysl „zlých" matematiků. Mnoho úloh technické praxe vyjde jako rovnice v samoadjungovaném tvaru přímo z podstaty řešeného problému a tento typ úloh má svou podobu i u parciálních diferenciálních rovnic, tzn. u funkcí více proměnných. Další výhodou řešení rovnice v samoadjungovaném tvaru jsou výše popsané příznivé vlastnosti matice soustavy diskretizačních rovnic. Obecnější okrajové podmínky Zatím jsem se zabývali pouze okrajovými podmínkami tvaru 8.29, tzn. měli jsme zadány přímo hodnoty řešení v krajních bodech intervalu {a, b) . V okrajových podmínkách se však může vyskytovat také první derivace hledaného řešení. Obecně mohou okrajové podmínky vypadat takto: oíiy'ia) + a2y(a) = a3 M(b) + foyib) =fc (8.38) ctj, Pi, i = 1,2, 3, jsou reálná čísla. Některá z nich mohou být nulová - např. pro ol\ = [3\ = 0 dostaneme již probrané okrajové podmínky 8.29, ale nesmí být současně ol\ i a2 rovno nule ani současně [3\ i [32 rovno nule. Ukážeme, jak si s takovýmito okrajovými podmínkami poradit, řešíme-li okrajovou úlohu metodou sítí. V předchozí kapitole jsme ukázali, jak získáme soustavu diskretizačních rovnic s neznámými yi,... , yn-\. V našem případě ale máme o dvě neznámé více, hodnoty 118 Fakulta elektrotechniky a komunikačních technologií VUT v Brně řešení v krajních bodech a = xq a b = xn, yo a yn, nejsou okrajovými podmínkami přímo zadány. Proto musíme k soustavě diskretizačních rovnic přidat další dvě rovnice. Ty získáme z okrajových podmínek 8.38 nahrazením derivace diferencí. To můžeme provést několika způsoby: • Derivaci nahradíme nejjednodušším možným způsobem, y'(x0) = Ví V° , resp. y'(xn) = Vn ^n~1 . (8.39) K diskretizačním rovnicím pak přidáme ještě rovnice yi - yo ol\ -:- + a2 y0 = «3 h a V™ Vn—l a a Pl -^- + P2 yn = P3 Tato metoda je velmi jednoduchá, má ovšem jeden háček. Vzorce 8.39 mají malou přesnost, jejich chyba je řádově h. K aproximaci derivací při sestavovaní diskretizačních rovnic však obvykle používáme přesnější formule s chybou řádu h2. Mohlo by se zdát, že přidáním dvou méně přesných rovnic se toho moc nezkazí, ale ukazuje se, že větší nepřesnost aproximace v krajních bodech ovlivní velikost chyby ve všech bodech xl. • Derivaci nahradíme složitějším vzorcem, zato s vyšší přesností (chyba řádu h2): SM^-3*^-*. -p. (3, vypočteme 73 = 71 ~t,12 a dále pokračujeme s tou dvojicí „gam", pro kterou vychází jedna hodnota řešení v bodě b pod [3 a druhá nad [3. Shrnutí pojmů Při numerickém řešení diferenciálních rovnic se nesnažíme hledané řešení vyjádřit ve tvaru funkce, ale hledáme pouze přibližné hodnoty řešení v uzlových bodech. U počátečních úloh známe hodnotu řešení v bodě x0 z počáteční podmínky. Přibližné hodnoty řešení v dalších bodech pak počítáme pomocí hodnoty řešení v jednom nebo několika předchozích bodech. U jednokrokových metod používáme hodnotu řešení v jediném předchozím bodě. Nejjed-nodušší jednokrokovou metodou je metoda Eulerova. Nejznámější z jednokrokových metod je metoda Runge-Kutta 4. řádu. Výpočet pomocí ní je sice pracný, v každém kroku musíme čtyřikrát vyčíslit funkční hodnotu pravé strany řešené diferenciální rovnice, ale to je vyváženo její vysokou přesností. K odhadu chyby a případnému řízení délky kroku se u jednokrokových metod často používá metoda polovičního kroku nebo kombinace dvou metod, kdy do stejného bodu dojdeme zvolenou metodou jednak s krokem délky /i, jednak s krokem délky h/2, resp. pomocí dvou různých metod, a pomocí takto získaných výsledků odhadneme chybu. U /c-krokových metod používáme k výpočtu přibližného řešení v dalším uzlovém bodě k předchozích hodnot. Na počátku, pro výpočet v prvních k uzlech, proto musíme použít vhodnou jednokrokovou metodu a pak teprve pokračovat metodou vícekrokovou. Vícekrokové metody se obvykle nepoužívají samostatně, ale ve dvojici - tzv. metoda prediktor-korektor. Přibližnou hodnotu řešení nejprve vypočteme pomocí explicitní vícekrokové metody, prediktoru, a pak ji zpřesníme pomocí implicitní metody, korektoru. Soustavy diferenciálních rovnic prvního řádu se řeší velmi podobně jako jediná rovnice, až na to, že místo jediné funkce / a skalárů yt pracujeme s vektory (n-ticemi) funkcí a hodnot řešení. (8.43) y(j,b) = /3 (8.44) 120 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Diferenciální rovnice vyšších řádů s počátečními podmínkami se nejprve převedou na soustavu rovnic prvního řádu, kterou pak řešíme obvyklým způsobem. Řešení okrajových úloh je od řešení počátečních úloh dosti odlišné. Opět sice hledáme řešení pouze v uzlových bodech, ale nemůžeme postupovat od uzlu k uzlu jako u počátečních úloh, musíme brát v úvahu i podmínku na konci intervalu. U metody sítí požadujeme platnost diferenciální rovnice ve všech vnitřních uzlech. Derivace vyskytující se v rovnici nahradíme diferencemi, přidáme okrajové podmínky, a tím získáme tzv. soustavu dis-kretizačních rovnic pro neznámé hodnoty řešení v uzlových bodech. V případě lineární diferenciální rovnice se vždy jedná o soustavu lineárních rovnic. Speciální tvar diskretizační soustavy obdržíme pro rovnici v samoadjungovaném tvaru. Matice vzniklé soustavy lineárních rovnic má z hlediska jejího řešení příznivé vlastnosti. Na samoadjungovaný tvar lze převést každou lineární diferenciální rovnici druhého řádu, mnoho rovnic však v tomto tvaru vyjde „samo od sebe", z podstaty řešeného problému. 8.3 Otázky a příklady ke cvičení U následujících výroků rozhodněte, zda se jedná o výrok pravdivý či nepravdivý. Otázka 8.1 Všechny zde probrané metody slouží pro nalezení přibližných hodnot obecného řešení zkoumané rovnice. Otázka 8.2 Eulerovou metodou najdeme přibližné hodnoty řešení ve všech bodech intervalu {xo, xn) . Otázka 8.3 Globální chyba je rozdíl přesného a přibližného řešení v daném uzlovém bodě. Otázka 8.4 Metody Runge-Kutta patří mezi jednokrokové metody. Otázka 8.5 Chceme-li použít metodu Runge-Kutta, musíme vždy napřed najít obecné řešení zkoumané diferenciální rovnice. Otázka 8.6 U k-krokových metod najdeme pomocí řešení v jediném uzlovém bodě xl přibližné hodnoty řešení v k dalších uzlových bodech současně. Otázka 8.7 Vícekrokové metody nelze použít samostatně, vždy je potřeba řešení v prvních několika uzlech najít pomocí vhodné jednokrokové metody. Otázka 8.8 Metody prediktor-korektor jsou vždy kombinací jedné explicitní a jedné implicitní vícekrokové metody. Otázka 8.9 Každá okrajová úloha má právě jedno řešení. Otázka 8.10 Při řešení okrajové úlohy metodou sítí musíme vždy vyřešit soustavu rovnic. Matematika 3 121 Otázka 8.11 Každou lineárni diferenciální rovnici druhého řádu lze převést na samo-adjungovaný tvar. Příklad 8.1 Eulerovou metodou najděte řešení počáteční úlohy y' = ^,y(l) = 2 na intervalu (1,2) s krokem h = 0,2. Najděte i přesné řešení této úlohy a vypočtěte globální chybu v každém uzlu. Pomocí získaných výsledků pak vypočtěte přibližnou hodnotu řešení v bodě x = 1,3 -použijte lineární interpolaci. Příklad 8.2 Řešení úlohy z příkladu 1 najděte se stejným krokem metodou Runge-Kutta 4- řádu. Opět vypočtěte globální chybu v každém uzlu. Příklad 8.3 Eulerovou metodou řešte počáteční úlohu y' = x2 +y2, y(l) = —1. Proveďte jeden krok s h = 0,05. Pak metodou polovičního kroku odhadněte chybu a zpřesněte řešení. Příklad 8.4 Metodou Runge-Kutta 4- řádu řešte počáteční úlohu y' = x2 —y2,y(l) = 0. Proveďte jeden krok s h = 0,2. Pak metodou polovičního kroku odhadněte chybu a zpřesněte řešení. Příklad 8.5 Soustavu diferenciálních rovnic y' = xy + z y(0) = 0 z' = y2 z(0) = 2 řešte metodou Runge-Kutta 4- řádu s krokem h = 0,1. Proveďte 2 kroky. Příklad 8.6 Rovnici y" = s počátečními podmínkami y(0) = 2, y'(0) = —1 převeďte y na soustavu dvou rovnic prvního řádu, a tu pak řešte s krokem h = 0,1 Eulerovou metodou. Najděte přibližné hodnoty řešení v bodech 0,1 a 0,2. Příklad 8.7 a) Metodou sítí řešte s krokem h = 0,25 okrajovou úlohu — y" h—- = — 5x, x y(l) = 1, y(2) = 8. Prověřte, že jsou splněny podmínky zaručující existenci jediného řešení zadané úlohy. b) Ověřte, že y = x3 je řešením zadané okrajové úlohy. Kdyby se v řešení a) všude počítalo s přesnými čísly, bez zaokrouhlování, vyšly by hodnoty řešení v uzlových bodech metodou sítí přesně. Proč? y' Příklad 8.8 Okrajovou úlohu y" h---xy = 1, y(0,l) = 1, y(0,6) = 0 převeďte na x samoadjungovaný tvar a pak ji vyřešte metodou sítí s krokem h = 0,1. Ověřte, že jsou splněny podmínky zaručující existenci jediného řešení zadané úlohy. Odpovědi na otázky a řešení příkladů viz 15.8 122 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Programovací úlohy Zda budou funkce f(x,y),p(x),q(x) apod. zadány přímo v programu, nebo se budou zadávat z klávesnice, ponecháme na zkušenosti a odvaze programátora. Totéž platí pro kreslení grafu nalezeného přibližného řešení. Programovací úloha 1 Napište program, který najde řešení počáteční úlohy y' = f(x,y), y(xo) = y o na zadaném intervalu (xo,b) Eulerovou metodou s krokem h. Programovací úloha 2 Napište program, který najde řešení počáteční úlohy y' = f(x,y), y(xo) = yo na zadaném intervalu (xo,b) metodou Runge-Kutta s krokem h. Programovací úloha 3 * Napište program, který najde řešení počáteční úlohy y' = f(x,y), y(xo) = yo na zadaném intervalu (xo,b) Eulerovou metodou nebo metodou Runge-Kutta s přesností e. (Použijte metodu polovičního kroku.) Programovací úloha 4 Napište program, který najde řešení rovnice v samoadjungova-ném tvaru, —{p{x)y')' + q{x)y = fix), s okrajovými podmínkami y (a) = a, y(b) = [3 metodou sítí s krokem h. Matematika 3 123 Část II PRAVDĚPODOBNOST 9 Pravděpodobnostní modely Cíl kapitoly Nyní se ve studiu přeneseme někam trochu jinam - opustíme numerické metody a vrhneme se do studia pravděpodobnosti. Cílem této kapitoly je představit čtenáři čtyři základní pojetí pravděpodobnosti, která jsou užívána v technické praxi. Uvidíme, že pojetí 9.1 je speciálním případem pojetí 9.3 a pojetí 9.2 speciálním případem pojetí 9.4. Důležitý je pojem náhodné veličiny (náhodné proměnné) X. Popsat, jak se veličina X chová, je úkolem teorie pravděpodobnosti. Rád bych se předem omluvil za některé typografické chyby, jako například "nečeské" uvozovky. Také jsem se snažil opravit desetinné tečky na českou desetinnou čárku, ale možná jsem nebyl důsledný na všech místech. Co je to pravděpodobnost? souběžně v tomto textu se mluví i o statistice, tedy druhá otázka, která s tou první souvisí, je: Co je to statistika? Statistika a pravděpodobnost jsou jako dvě strany jedné mince. Teorie pravděpodobnosti se ptá: Pokud vycházíme z konkrétního stavu světa, jaké důsledky budou pravděpodobně následovat? A teorie statistiky se ptá: Pokud vycházíme z jisté skupiny důsledků (např. měření), jaký stav světa asi tyto důsledky způsobil? Příklad 9.1 Hážeme hrací kostkou. Pokud je kostka z homogenního materiálu (vycházíme z určitého stavu světa), tj. je regulérní hrací kostka a není falešná, pravděpodobnost, že padne šestka (=určitý důsledek), je rovna |. Tj. usuzujeme, že šestka padne asi v | • 100 = 16, 66% případů hodu kostkou. To je pravděpodobnost. Kdyby naopak nám ze 150 hodů kostkou šestka padla ve 47 případech (= měření), usoudili bychom, že buď se jedná o náhodu, že šestka padala v ^-100 = 31,33% hodů, nebo kostka není homogenní a obsahuje nějaké olůvko, které ji nutí k tomu, aby šestka padala častěji (usuzujeme na určitý stav světa). To je statistika. Tématem této ilustrace byla náhodná veličina X, která udává, jaký počet ok padne při hodu kostkou. Dříve než představíme jednotlivá pojetí pravděpodobnosti, musíme zavést určité označení. Písmeno íž bude značit množinu všech hodnot, kterých náhodná veličina X může nabývat. Bude to zpravidla množina všech možných výsledků experimentu nebo hry. Velkými písmeny (např. A, B,. ..) budeme označovat nějaké podmnožiny množiny íž a budeme jim říkat náhodné jevy. Když řekneme, že nastal jev A, budeme tím rozumět, že náhodná veličina X nabývá hodnoty z množiny A. Symbol P(A) bude označovat pravděpodobnost, že nastane jev A. Pravděpodobnost splňuje následující vlastnosti: 124 Fakulta elektrotechniky a komunikačních technologií VUT v Brně (i) 0 < P(A) < 1. (ii) íž označuje jev jistý, jehož pravděpodobnost je P(fž) = 1, prázdná množina 0 znamená jev nemožný, pro který -P(0) = 0. (iii) Pokud náhodné jevy A±, A2,..., An jsou po dvou disjunktní, tj. At n Aj = 0 pro i j, pak pravděpodobnost jejich sjednocení je rovna součtu jednotlivých pravděpodobností, tj. P(A1 U A2 U • • • U An) = p^i) + P{A2) + ■■■ + P{An). Dále A = Vt — A znamená opačný jev k jevu A. Jev A tedy nastane, pokud nenastane jev A. Sjednocení jevů A U B znamená, že nastane aspoň jeden z jevů A, B. Průnik jevů A n B říká, že jevy A, B nastanou současně. Z vlastností (i) až (iii) lze odvodit další důležité vztahy, které platí: (iv) P(AUB) = P(A) + P(B)-P(Ar\B). (v) Pokud A C B, tak P (A) < P (B). (vi) P(Ä) = 1 - P {A). To jsme tedy charakterizovali pravděpodobnost a můžeme se pustit do studia jednotlivých typů pravděpodobnostních modelů. 9.1 Klasická pravděpodobnost Vážení přátelé, ano. Důvodem vzniku pravděpodobnosti je rozvoj hazardních her. To je tzv. klasické pojetí. Klasická pravděpodobnost jevu A se definuje jako podíl počtu příznivých výsledků (=hodnot ležících v množině A= počtu prvků množiny A) ku počtu všech možných výsledků (= počtu prvků množiny fž). Označíme-li počet prvků množiny svislými čarami, platí P (A) = j-- (svislé čáry označují počet prvků množiny). Příklad 9.2 Uvažujme jednoduchou hazardní hru, která spočívá v hodu mincí dvakrát za sebou. Přitom náhodná veličina (X, Y) neudává vzdálenost, do které jsme minci hodili, nýbrž všímá si, kolikrát a v jakém pořadí padl na minci rub nebo líc. Jedná se vlastně o dvourozměrnou veličinu - její první souřadnice X charakterizuje první hod, druhá souřadnice Y druhý hod mince. Množina všech možných výsledků je zde íž = {(L, R), (R, Ľ), (L, L), (R, R)}. Když jev A například znamená, že v naší hře padl líc při prvním hodu, tento výsledek nastane ve dvou případech: A = {(L,R), (L,L)}. Tedy To znamená, že když naši jednoduchou hru budeme několikrát opakovat, tak pokud mince není falešná a je dobře vyvážená, jev A nastane přibližně v 50% případů. Matematika 3 125 Důležitý je následující rámeček, kde je charakterizováno, kdy lze klasickou pravděpodobnost použít: Klasickou pravděpodobnost můžeme užít jen tehdy, když íž (= množina všech možných výsledků pokusu) je konečná a všechny výsledky hry nebo pokusu nastávají se stejnou pravděpodobností (= jsou stejně pravděpodobné). Příklad 9.3 Uvažujme jednoduchý experiment tři hodů minci. Jaká je pravděpodobnost jevu A = dvakrát padne líc a jednou rub (přitom nezáleží na pořadí, ve kterém padnou)? Řešení: Množina všech možných výsledků experimentu je fl = {LLL, LLR, LRL, RLL, LRR, RLR, RRL, RRR}. Množinu A lze psát A = {LLR, LRL, RLL}. Podle definice klasické pravděpodobnosti tedy P (A) = § = 0,375. Aby bylo vidět, že v klasickém pojetí pravděpodobnosti lze dospět i ke složitějším věcem, zavedeme nyní pojem podmíněné pravděpodobnosti. Úvahy zde provedené budou užitečné i v dalších pravděpodobnostních modelech, zejména v některých příkladech modelu 9.3. Příklad 9.4 Ze 120 studentů v přednáškové skupině jich 90 spočetlo příklady zadané za dobrovolnou domácí samostatnou práci. Pak 75 studentů složilo zkoušku v řádném termínu, z toho 70 bylo těch, co spočítali zadané příklady. Student XY se přišel zeptat na výsledek zkoušky. Zkoušející jej nezná, ale XY prozradí, že si spočítal zadané příklady. Zkoušející nešťastnou náhodou zapomněl zkouškovou zprávu doma, ale na základě předchozích souhrnných údajů (které zná zpaměti) studentovi je schopen říct pravděpodobnost, s jakou složil zkoušku. Určete ji i vy. Řešení: Označme S = náhodně vybraný student spočítal zadané příklady; Z = náhodně vybraný student složil zkoušku. Naším úkolem je určit podmíněnou pravděpodobnost P(Z\S) (čti: podmíněná pravděpodobnost jevu Z, pokud už víme, že nastala podmínka S; podmínku S při tomto typu zápisu píšeme vždy za svislou čarou). Abychom tuto podmíněnou pravděpodobnost mohli určit, zcela zapomeneme ty studenty, kteří nesplňují podmínku, o které víme, že už nastala - zúžíme tedy své další uvažování pouze na množinu těch 90 studentů, kteří spočítali zadané příklady. Pak v duchu klasické pravděpodobnosti použité na těchto 90 studentů dostáváme V rámci hesla „vyjádři jednoduchou skutečnost tak, aby jí nikdo nerozuměl" nyní ještě upravíme poslední zlomek v příkladu tak, že čitatele i jmenovatele vydělíme hodnotou |fž| (koneckonců je to povolená úprava, takže si to můžeme dovolit): P(7\625 = P(Z) P(ZnD) ^ 120 p(znK) 1 P(Z\K) = ' p — =H = 0,625 = P(Z). Vidíme, že jev Z nezávisí na jevu D, ani na jevu K. Tj. úspěch u zkoušky nezávisí na tom, zda je student dívka nebo kluk. Zatím se zdálo, že dosazovat do vzorce 9.1 je poněkud vykonstruované, protože dosazujeme dva stejné jmenovatele, které pak zkrátíme, ale tento vztah má skutečně užití - například lze z něj zase něco odvodit, a sice vztah pro výpočet průniku dvou jevů: P(AnB) = P(A)-P(B\A); (9.2) a protože při operaci průniku nezáleží na pořadí množin, platí též P (A DB) = P(B n A) = P(B) ■ P(A\B). Zkrátka a dobře, při výpočtu pravděpodobnosti průniku jevů lze použít libovolný ze dvou právě uvedených vzorců podle toho, do kterého umíme jednodušeji dosadit. Pokud jevy A, B jsou nezávislé, na základě toho, co už bylo řečeno, víme, že platí P(Af)B) = P(A) ■ P(B). (9.3) Matematika 3 127 Příklad 9.6 Semináře se účastni šest lidi, z toho čtyři muži a dvě ženy. Během prvních šesti týdnů semináře má každý účastník jednou vystoupit s referátem. Pořadí referátů je sestaveno náhodně, tj. každý týden je náhodně vybrán jeden z těch, co ještě nereferovali. Jaká je pravděpodobnost, že první dva týdny budou mít referát ženy? Řešení: Označme F± = první týden má referát žena, F2 = druhý týden má referát žena. Pak podle vzorce 9.2 P(F± Pl F2) = -P(-Pi) ■ P(F2\Fi). Podle klasické pravděpodobnosti P(Fi) = |. Při výpočtu P(F2\Fi) musíme brát v úvahu platnost podmínky, že první týden byla vybrána žena. Proto tedy druhý týden můžeme vybrat už jen z pěti kandidátů pouze zbývající ženu, co ještě nereferovala, tj. P(F2\Fi) = jL Celkem P{F1 n F2) = I • \ = 0,066. Příklad 9.7 Současně hážeme kostkou i mincí. Jaká je pravděpodobnost, že na kostce padne pětka a na minci současně padne líc? Řešení: Protože hod mincí je nezávislý na hodu kostkou, využijeme vztah 9.3: P(5nL) = P(5)-P(L) = 1-1 = 0,083. D Z Zatím jsme se stále nevzdálili od celkem nepraktického házení kostkou nebo mincí. Ale jak už to bývá, abychom se přiblížili popisu složitějších skutečností, budeme muset ještě projít trochu složitější teorie. Uvažujte se mnou následující situaci: íž stále značí množinu všech možných výsledků experimentu (z nichž každý nastává se stejnou pravděpodobností). Vezměme libovolné disjunktní pokrytí množiny fž - tím rozumíme takový systém podmnožin Hi, H2, ..., Hk množiny íž, kde k H, ílHj = 0 pro í ^ j, a dále [J El = Q. i=i Cili množinu Q jsme rozdělili na disjunktní systém podmnožin. Předpokládejme ještě pro jistotu, že P(Hi) > 0 pro všechna i. Když nyní vezmeme libovolnou podmnožinu A množiny íž, platí následující bizarní vztah: A = (#! n A) U (H2 n A) U • • • U (Hk n A), (9.4) slovně vyjádřeno - množina A má s každou z množin Hi,. .., Hk nějaký průnik (třeba i prázdný), a když se všechny ty průniky sjednotí, dostaneme zase množinu A. Kdo tomu nevěří, at si nakreslí obrázek třeba pro k = 4 (nakreslete nejprve množinu íž, pak ji rozdělte na disjunktní systém množin Hi, H2, H3, í/4, a nakonec přidejte množinu A, která má s každou FLl neprázdný průnik). Využijme nyní pro výpočet P (A) bizarního vztahu 9.4: P(A) = P(H1nA) + P(H2nA) + --- + P(HknA) = = P{Hľ) ■ P(A|/ři) + P{H2) ■ P(A\H2) + ■■■ + P{Hk) ■ P{A\Hk) 128 Fakulta elektrotechniky a komunikačních technologií VUT v Brně (první rovnost platí na základě vlastnosti (iii) pravděpodobnosti disjunktního sjednocení z úvodu kapitoly, druhá rovnost je pouze přepis s využitím vzorce 9.2). Uvedený vztah se nazývá věta o úplné pravděpodobnosti - přepišme jej ještě jednou: P{A) = P(#!) • P(A|/ři) + P{H2) ■ P{A\H2) + ■■■+ P{Hk) ■ P{A\Hk). (9.5) Úplná pravděpodobnost zde je právě P (A), kterou dostaneme součtem jistých dílčích pravděpodobností - odtud název věty. Na otázku, k čemu je tento vztah dobrý, odpovídám, že paradoxně je někdy jednodušší vypočítat P (A) pomocí tohoto vzorce, protože pravděpodobnosti P{Hj) a P(A\Hj) jsou celkem snadno zjistitelné. Příklad 9.8 Ze zkušenosti se ví, že Tomáš zasáhne basketbalový koš s pravděpodobností 0,8, Jana s pravděpodobností 0,5 a Honza s pravděpodobností 0,4. Jaká je pravděpodobnost, že náhodně vybraný hráč trefí koš? Řešení. Klíčem úspěchu těchto a podobných příkladů je všechny jevy si dobře označit. To někdy studenti podcení, rychle něco spočtou, a pak neví, co vlastně spočetli -tak se snadno vyrobí chyba. Nejprve musíme označit disjunktní pokrytí množiny možných výsledků: H\ = vybraný hráč je Tomáš, H2 = vybraný hráč je Jana, H% = vybraný hráč je Honza. To je disjunktní pokrytí - jednotlivé situace se navzájem vylučují (nemohou nastat současně) a žádná další situace nastat nemůže. Dále A = náhodně vybraný hráč trefí koš. Protože P(Hi) = P{H2) = P(H%) = |, známe vše potřebné pro dosazení do Ten, kdo na předchozí příklad přišel i bez vzorce 9.5, necht prosím promine, že se snažím zamlžit jednoduché skutečnosti složitými vzorci. Ono se opravdu jedná o prosté úvahy vyplývající z vlastností pravděpodobnosti. A ještě poslední odvození na téma klasické pravděpodobnosti: kombinací vzorce pro podmíněnou pravděpodobnost, pravděpodobnost průniku a věty o úplné pravděpodobnosti dostaneme: vzorce: P(A) P{H%\A) P{H% n A) P(A) P{Hi) ■ P{A\Hi) P{Hľ) • P{A\H{) + P{H2) ■ P{A\H2) + ■■■ + P{Hk) ■ P{A\Hk). Tento vzorec se nazývá Bayesův vzorec - přepišme jej ještě jednou: P(Hi\A) (9.6) P{Hľ) ■ P(A|/ři) + P{H2) ■ P{A\H2) + ■■■ + P{Hk) ■ P{A\Hk) Matematika 3 129 Příklad 9.9 Víme, že pravděpodobnost, že Honza na pálce při baseballu dobře odpálí míč, je 0,1. Pravděpodobnost, že kdokoli jiný z jeho týmu dobře odpálí, je rovna 0,3. Z rádia se dovídáme, že Honzův tým je na pálce, a slyšíme: Je to zásah! Jaká je pravděpodobnost, že rozhlasový reportér mluví o Honzovi (v jednom týmu je celkem devět hráčů)? Řešení: Jádrem správného použití Bayesova vzorce je nalezení disjunktního pokrytí a označení jevu A - zbytek už jen spočívá v dosazení. Tak tedy: H\ = Honza je na pálce, H2 = někdo jiný z Honzova týmu je na pálce. Tyto dva jevy tvoří disjunktní pokrytí, protože vyčerpávají všechny situace, které nás zajímají, a přitom nemohou nastat současně. Dále A = Honzův tým zasáhl míč. Naším úkolem je zjistit P(Hi\A): Složitější využití Bayesova vzorce uvádí následující příklad, který doporučuji projít až po absolvování oddílu 11.1. Příklad 9.10 Výrobce dodává svůj produkt v sadách o pevném počtu kusů. Díky poruchám ve výrobním procesu je v některých sadách nepřijatelné množství zmetků. Pravděpodobnost výskytu této špatné sady (se zmetkovitostí 15%) je P(B) = 0,05, kdežto dobré sady (se zmetkovitostí 4%) P(G) = 0,95. Výrobce ví, že prodej špatné sady může být pokutován. Samozřejmě si může myslet, že pravděpodobnost výroby špatné sady je tak malá, že může k dodávce zvolit jakoukoliv sadu. Ale pokud provede kontrolu např. pěti výrobků z dané sady, tato dodatečná informace může ovlivnit jeho rozhodnutí (jedná se o tzv. aposteriorní Bayesovské rozhodování, aposteriori = po (provedení kontroly, experimentu, apod.) - na rozdíl od apriorního rozhodnutí, apriori = před). Označíme-li Yq = z pěti kontrolovaných výrobků dané sady jsou všechny v pořádku; Y\ = z pěti kontrolovaných výrobků dané sady je jeden zmetek; Y2 = z pěti kontrolovaných výrobků dané sady jsou dva zmetky; I3 = z pěti kontrolovaných výrobků dané sady jsou tři zmetky; Y4 = z pěti kontrolovaných výrobků dané sady jsou čtyři zmetky; Y5 = z pěti kontrolovaných výrobků dané sady je všech pět vadných, vypočtěte P{G\Yi) pro i = 0,1,..., 5. Řešení. Příslušná apriorní pravděpodobnost je P(G) = 0,95. Vypočteme nyní aposteriorní pravděpodobnosti, které v sobě obsahují už výsledek kontroly pěti výrobků z dané sady. Příslušné disjunktní pokrytí je právě B = daná sada je špatná (bad), G = daná sada je dobrá (good). Využijeme tedy Bayesova vzorce 0,04. P{G) ■ P{Yi\G) + P(B) ■ P{Yi\B) 130 Fakulta elektrotechniky a komunikačních technologií VUT v Brně (pro zmateni nepřítele index í v celém vzorci zůstává stejný). Pak počet zmetků v dobré sadě z pěti vybraných má rozděleni binomické ... Bi(N = 5,p = 0,04), počet zmetků ve špatné sadě z pěti vybraných rozdělení'Bi[N = 5, p = 0,15). Pomoci těchto modelů určíme pravděpodobnosti P(Yi\B), P(Yl\G). Dosazením máme 0,95 • 0,965 P(G\Y0) 0,95 • P(G|Y1) 0,95 • P(G\Y2) = 0,661; P(G\Y3) = 0,315; P(G\Y4) = 0,098; P(G\Y5) = 0,025. -r = 0,972; - 0,05 • 0,855 ' ' 0,95 • [g) • 0,04 • 0,964 = 0,892; Vidíme tedy, že rostoucí počet zmetků ve výběru podstatně mění původní apriorní pravděpodobnost P(G) = 0,95. Kdyby například při kontrole pěti výrobků byly už čtyři vadné, jedná se o dobrou sadu s pravděpodobností menší než jedna desetina a výrobce by měl raději k dodávce zvolit sadu jinou. Předchozí příklad rozebírá teoretické zázemí za jistým typem podnikové či firemní kontroly - přinejmenším dobrá ukázka toho, že i pomocí klasické pravděpodobnosti lze popsat určité situace praxe. 9.2 Geometrická pravděpodobnost Příklad 9.11 Honza a Marek se domluvili, že se setkají na jistém místě mezi osmou a devátou hodinou, kam každý z nich v tu dobu přijde. Ale řekli si, že ten, kdo přijde první, bude na toho druhého čekat jen 15 minut, a pak odejde. Jaká je pravděpodobnost, že se setkají? Řešení: Označme 8 + x .. . čas příchodu Honzy (v hodinách); 8 + y .. . čas příchodu Marka. Víme, že oba přijdou určitě do devíti hodin, tedy 0. Všechny tyto body modelující možný výsledek příchodů vytvářejí tedy čtverec v rovině. Tento čtverec fž = {(x, y) : 0 < x < 1, 0 < y < 1} je množinou všech možných výsledků dané situace (viz obrázek 9.47). Počet všech možných případů je sice nekonečný, ale jsme schopni spočítat obsah čtverce: S(Q.) = 1-1 = 1. Matematika 3 131 Obrázek 9.47: K př. 9.11: Množina všech možných výsledků. Označme dále A ... Honza a Marek se setkají Příznivým případům jevu A odpovídají ty příchody (x, y) obou studentů, ve kterých se x od y liší nanejvýš o 15 minut, což je asi | hodiny. Pro tyto „příznivé" body čtverce íž tedy musí platit nerovnost , 1 \y — x\ < -. \y l - 4 Vyřešme tuto nerovnost. Při odstraňování absolutní hodnoty musíme rozlišit dvě situace: • Pro y — x > 0 se znaménka nemění, tj y — x < |, odtud y < x + |. • Pro y — x < 0 musíme při odstraňování absolutní hodnoty na levé straně nerovnosti změnit znaménka: —y + x < j, odtud y > x — |. Body splňující některou z uvedených dvou situací lze znázornit vyšrafovanou částí na obrázku 9.48: Jev A lze tedy vyjádřit jako množinu bodů v rovině: A = {(x,y) : 0 < x x - ^}. Příznivých případů je také nekonečně mnoho, ale jsme schopni vypočítat míru této nekonečnosti, konkrétně řečeno obsah množiny A: nejjednodušeji S(A) vypočteme z grafického znázornění na obrázku 9.48, když budeme brát v úvahu rozdělení čtverce íž na šestnáct menších čtverečků o straně délky j. Je vidět, že množina A zabírá plochu sedmi z těchto čtverečků, a protože S(Q) = 1, máme S(A) = ^ • S(Q) = y^. 132 Fakulta elektrotechniky a komunikačních technologií VUT v Brně 0.2 0.4 x 0.6 0.1 Obrázek 9.48: K př. 9.11: Množina všech příznivých výsledků. Pravděpodobnost jevu A teď určíme jako podíl míry množiny příznivých případů a míry množiny všech možných případů: P(A) S (A) 7_ li 1 7_ 16' V tomto příkladu jsme se zabývali opět dvourozměrnou veličinou (X, V), aby byl krásně zřetelný geometrický rozměr tohoto pravděpodobnostního modelu. Ovšem definování některých dále uváděných pojmů pro vícerozměrné veličiny by zabralo čas. Zkrátka a dobře, tímto příkladem v našem krátkém šestipřednáškovém kursu pravděpodobnosti dvourozměrné veličiny opustíme. Spokojíme se s faktem, že existují, a necháme je na pokoji. V právě uvedeném příkladu jsme už nepoužili klasickou pravděpodobnost, ale jakési její přirozené rozšíření - geometrickou pravděpodobnost. Protože počty prvků množin A a fž jsou nekonečné, nelze je dosazovat do zlomku. Ale pokud místo počtu prvků dosazujeme míry množin, podíl m{A) P{A) m (íí) má vlastnosti pravděpodobnosti. Geometrickou pravděpodobnost jevu A definujeme jako podíl míry množiny příznivých výsledků (=míry množiny A) a míry množiny všech možných výsledků (= míry množiny fž). Vzhledem k tomu, že míra množiny je velmi složitý pojem, jehož přesné zavedení by zabralo i několik přednášek, spokojme se s tvrzením, že mírou intervalu rozumíme jeho délku, mírou části roviny rozumíme její obsah a mírou části prostoru její objem. Ovšem nesmíme zde zapomenout zdůraznit (pěkně do rámečku), ve kterých případech lze geometrickou pravděpodobnost použít: Matematika 3 133 Geometrickou pravděpodobnost můžeme užít jen tehdy, když íž (= množina všech možných výsledků pokusu) je nespočetná a všechny výsledky hry nebo pokusu nastávají se stejnou pravděpodobností (= jsou stejně pravděpodobné). Přiznávám se, že v právě uvedeném rámečku jsem se dopustil nepřesnosti ve slově „nespočetná". Množina íž musí být nespočetně nekonečná oblast kladné míry (pojem oblasti viz 1.ročník - diferenciální a integrální počet funkcí více proměnných), V obou dosud uvažovaných modelech se vyskytovala důležitá podmínka, že každé dva různé výsledky jisté situace musí být stejně pravděpodobné. To ovšem někdy není skutečností, a díky tomu vznikly další dva modely pro popis pravděpodobnosti. 9.3 Diskrétní pravděpodobnost Už jsme v teorii pravděpodobnosti tak zběhlí, že můžeme začít i třeba něčím tak důležitým, jako je rámeček: Diskrétní pravděpodobnost můžeme užít tehdy, když íž (= počet všech možných výsledků pokusu) je konečná (fž = {loi, c*, ... , ujk\) nebo spočetná (fž = {loi, lo2, ..., Lon, Lon+i,...}); přitom výsledky wl nemusí nastat se stejnou pravděpodobností. Musí ovšem vždy platit, že Ylu-tn Pi^i) = 1- Jednotlivé elementární výsledky experimentu v případě diskrétní pravděpodobnosti mohou, ale nemusí být stejně pravděpodobné. Diskrétní pravděpodobnost jevu A definujeme jako součet pravděpodobností těch elementárních jevů uol, které jsou prvky množiny A: P(A) = £ PO*). Takto zavedená funkce P na podmnožinách množiny fž splňuje vlastnosti (i), (ii), (iii) z úvodu této kapitoly, a je to tedy pravděpodobnost. Například třeba platí P(fž) = Ylu-zn P(^i) = I, což je součást vlastnosti (ii). Příklad 9.12 Pravděpodobnost, že zařízení pracuje celý den bez poruchy, je rovna jL Tato pravděpodobnost je stejná každý den a nezávisí na tom, zda ve dnech předchozích došlo k poruše nebo ne. Pravděpodobnost, že v některý den dojde k poruše, vyčerpává všechny ostatní situace, které mohou ten den nastat kromě bezporuchového provozu, a je tudíž rovna 1 — |, což je |. Náhodná veličina X udává počet dnů nutný k tomu, aby nastala první porucha (sleduje tedy spolehlivost zařízení - hodnoty veličiny X snížené o jedničku nám říkají, kolik dnů zařízení pracovalo bez poruchy). a) Určete rozdělení veličiny X (tj. určete elementární jevy uj1 a jejich pravděpodobnosti Pi}*)). b) Vypočtěte pravděpodobnost, že k poruše zařízení nedojde prvních pět dní jeho provozu. 134 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Řešení: ad a) Nejnižší možná hodnota veličiny X, kterou můžeme naměřit, je hodnota 1, a to tehdy, když k poruše zařízení dojde už první den provozu. To může nastat s pravděpodobností |. Tento fakt budeme zkráceně zapisovat P{X = 1) = - = 0,8 5 (uvedenou rovnost čteme: pravděpodobnost, že X nabude hodnoty 1, je rovna 0,8). Dále může veličina X nabýt hodnoty 2 - a to tehdy, když první den nedojde k poruše (to nastane s pravděpodobností ^), ale druhý den ano (a sice s pravděpodobností ^). Tedy výsledná pravděpodobnost této situace je rovna součinu pravděpodobností v jednotlivých dnech (využíváme předpokladu nezávislosti jednotlivých dnů ... užijeme vzorec 9.3 pro pravděpodobnost průniku dvou nezávislých jevů): 1 4 P(X = 2) =---= 0,16. 5 5 Samozřejmě se také může stát, že naměříme hodnotu X = 3, a sice s pravděpodobností | (že první den nedojde k poruše) krát \ (že druhý den nedojde k poruše) krát | (že k poruše dojde třetí den). A tak (podle analogického vzorce pro pravděpodobnost průniku tří nezávislých jevů) 114 P(X = 3) = -•-•- = 0,032. 5 5 5 Teoreticky je prostě možné, že veličina X nabude jakékoli přirozené hodnoty k, a sice s pravděpodobností p(* = *) = i.i.....1.1 = (TT.i. v ; 5 5 5 5 \5J 5 (k-1) krát Například pravděpodobnost, že veličina X nabude hodnoty 100 (tj. k první poruše dojde až po 100 dnech provozu) je sice hodně malá (P{X = 100) = 6,3 • ÍO"70^ ale stále ještě různá od nuly. Právě jsme popsali rozdělení veličiny, kde jednotlivé elementární hodnoty 1,2,3,4,... nastávají s různou pravděpodobností. Těchto hodnot je nekonečně mnoho a víme, že musí splňovat vztah oo ^P(X = k) = l, fc=l protože pravděpodobnost všech možných případů, které mohou při měření veličiny X nastat, je vždy rovna jedné - to je jedna ze základních vlastností pravděpodobnosti. Matematika 3 135 0.8 -« 0.6 0.4 0.2 0 2 3 4 5 Obrázek 9.49: K př. 9.12: Hodnoty pravděpodobnostní funkce p (x). Veličina X se nazývá diskrétní náhodná veličina - nikoliv proto, že je nenápadná, ale že nabývá tzv. diskrétních hodnot, což jsou například takové hodnoty, které se liší o násobek určité konstanty (v našem případě konstanty 1). Funkce, jejíž hodnoty jsme právě určili, se nazývá pravděpodobnostní funkce a označuje se většinou p(x), což je ještě více zkrácený zápis: (čti: pravděpodobnost, že „velké X" nabývá hodnoty „malé x"). Od nynějška tedy záleží na tom, zda je napsáno velké X (kterým budeme mít na mysli veličinu X) nebo malé x (označující jednu konkrétní hodnotu veličiny „velké X"). Na obrázku 9.49 je vidět, že hodnoty jednotlivých pravděpodobností se pro rostoucí x blíží rychle k nule. Pokud zaokrouhlujeme výsledky na tři desetinná místa (což je přesnost postačující pro pravděpodobnostní výpočty), už pro x > 6 je p(x) prakticky rovno nule. Pro popis rozdělení náhodných veličin se definuje tzv. distribuční funkce F(x) předpisem p(x) = P{X = x) V našem případě p{x F{x) = P(X < x). 136 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Aby nedošlo k nedorozumění, tento vztah čteme: hodnota funkce F v bodě „malé x" je rovna pravděpodobnosti, že náhodná veličina „ velké X" nabude hodnoty menší než „malé x", tj. hodnoty z intervalu (—00, x). Pro diskrétni veličinu lze dosadit do pravé strany tohoto definičního vztahu: F (x) = P (X < x) = ^p(k). kk kde k je bod, ve kterém dochází ke změně výšky schodu. V našem příkladu se jedná o nekonečně dlouhé schodiště, ale většina z nekonečně mnoha schodů (to už obrázek Matematika 3 137 nezachycuje, ale jsou tam) za pátým schodem má velmi malou výšku. Rozdělení pravděpodobnosti v předchozím příkladu má i svůj název - je to tzv. geometrické rozdělení s parametrem p (pozor, je to něco jiného než geometrická pravděpodobnost - geometrická pravděpodobnost je obecný název pro celou třídu pravděpodobnostních modelů u nespočetně mnoha možných výsledků, z nichž každý nastane se stejnou pravděpodobností, kdežto geometrické rozdělení pravděpodobnosti je konkrétní model diskrétní pravděpodobnosti pro nejvýše spočetně mnoho různých výsledků nastávajících obecně třeba i s různou pravděpodobností - slovo „geometrické" je zde díky tomu, že jednotlivé pravděpodobnosti p(k) tvoří geometrickou posloupnost; tyto pojmy by si nikdo neměl zaměnit). ad b) Máme určit pravděpodobnost, že k poruše dojde nejdříve šestý den od zahájení provozu. To znamená, že k první poruše může dojít šestý den, sedmý den, osmý den nebo kdykoliv později. Hledaná pravděpodobnost se tedy rovná p = p(Q)+p(7)+p(8) + -- - , zkrátka a dobře se jedná o součet nekonečné řady. Nekonečnou řadu někdy není snadné sečíst - to potvrdí každý, kdo se o to někdy pokoušel. Ale v našem případě využijeme faktu, že součet všech nenulových hodnot pravděpodobnostní funkce je roven jedné, a místo sečítání nekonečné řady odečteme od hodnoty 1 pravděpodobnosti těch elementárních jevů, které v této řadě nejsou obsaženy: oo 5 p = ^2p(k) =1 - ^2p(k) = fc=6 fc=l = 1 - (0,8 + 0,16 + 0,032 + 0,0064 + 0,00128) = 0,00032. Vidíme tedy, že pravděpodobnost, že k první poruše dojde nejdříve šestý den, je skutečně malá. Nicméně fintu s odečtením zbývajících pravděpodobností od jedničky si můžeme pamatovat - hodí se vždy, když tím ušetříme počet dosazení do pravděpodobnostní funkce (a využíváme ji i v případech, kdy diskrétní veličina nenabývá spočetného, ale jen konečného počtu hodnot). 9.4 Spojitá pravděpodobnost Některé veličiny nenabývají diskrétní hodnoty, ale hodnoty z určitého intervalu reálných čísel. Například při měření veličiny udávající teplotu vzduchu můžeme naměřit libovolnou reálnou hodnotu z intervalu 0 až 25°C (jsme omezeni pouze přesností svého teploměru). Veličiny nabývající hodnoty z jistého intervalu se nazývají spojité náhodné veličiny. A jejich pravděpodobnostní zákonitosti popisuje spojité rozdělení pravděpodobnosti. 138 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Spojité rozdělení k popisu veličiny X můžeme užít tehdy, když X nabývá hodnot z množiny íž, která je nespočetně nekonečná (zpravidla íž = R); přitom jednotlivých hodnot nemusí nabývat se stejnou pravděpodobností; různost, s jakou nabývá jednotlivých hodnot, je určena funkcí f(x), které říkáme hustota. Musí přitom vždy platit, že _jo f(x)dx = 1._ Spojitou pravděpodobnost jevu, že veličina X nabude hodnoty z intervalu < a, b >, kde a < b, definujeme jako integrál z hustoty: ŕ = / f(x)dx. P(X £) = í J a Příklad 9.13 Životnost jistého druhu velmi speciálních žárovek je spojitá náhodná veličina s hustotou i VV2 (x-ioy e i2 7T Vypočtěte pravděpodobnost, že koupená žárovka vydrží a) 9 až 12 hodin provozu. b) přesně 10 hodin provozu. Řešení: Uvedené rozdělení má svůj název - je to tzv. normální rozdělení pravděpodobnosti a jeho hustota je uvedena na obrázku 9.51. Obrázek 9.51: K př. 9.13: Graf hustoty f(x) spojitého rozdělení. Matematika 3 139 Křivce hustoty se někdy říká Gaussova křivka, protože za jejího objevitele je považován německý matematik, fyzik, geofyzik a astronom Carl Friedrich Gauss (1777 - 1855). Říká se, že tento člověk předběhl svou dobu. A skutečně, je obdivuhodné, jak mohl najít funkci tak podivného vzorce a krásného vzezření, která nabývá nenulové hodnoty pro každé reálné číslo, a přesto je integrál z ní roven jedné. Pokud někde v knihovně narazíte na nějakou práci Gausse, kde tu svou hustotu odvodil, určitě mi dejte vědět. ad a) Označme X veličinu udávající životnost žárovky. Pak ŕ2 P(X E< 9; 12 >) = / f(x)dx = 0,451. Z matematické analýzy všichni vědí, že určitý (Riemannův) integrál z nezáporné funkce je roven obsahu plochy pod grafem funkce na daném intervalu. Platí to i v tomto případě - vypočtená pravděpodobnost je rovna obsahu šrafované plochy na obrázku 9.52. 0.3 n 0.25 : 0.2- Obrázek 9.52: K př.9.13: Pravděpodobnost u spojité veličiny je rovna obsahu šrafované plochy. Vlastnímu výpočtu integrálu se budeme věnovat až v kapitole 13, která se zabývá normálním rozdělením hlouběji. Zde se spokojíme pouze s výsledkem. Podobně jako u diskrétní pravděpodobnosti i zde se definuje distribuční funkce, a sice stejným způdsobem: F(x) = P(X < x). 140 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Nyní ovšem se ke konkrétnímu výpočtu funkční hodnoty užívá hustoty f(x): px F(x) = P(X (protože se jedná o hodnoty jisté pravděpodobnosti); dále platí lim F(x) = 0, lim F(x) = 1. X—>—00 ad b) Podle části a) můžeme určit pravděpodobnost, že životnost žárovky bude přesně 10 hodin: P{X = 10) = / f(x)dx = 0. J10 Tímto se liší spojitá veličina od diskrétní veličiny: u diskrétní veličiny existuje nenulová pravděpodobnost, že X nabude konkrétní hodnoty. Kdežto u spojité veličiny pravděpodobnost, že X nabuje jisté konkrétní hodnoty, je vždy rovna nule. Dovolte mi pokusit se vysvětlit tento jev. Jeho podstata tkví v integrálním počtu, ale vysvětleme jej úvahou. Dejme tomu, že bychom chtěli mezi vyráběnými žárovkami najít některou, jejíž životnost je rovna přesně 10 hodin. Tuto dobu životnosti bychom měřili pomocí mechanických hodinek se vteřinovou ručičkou (přesnost je na sekundy), stopkami (přesnost na setinu sekundy) a ještě jedním měřidlem přesnějším než stopky, Matematika 3 141 které měří sekundy s přesností na 4 desetinná místa. Pokud bychom našli žárovku, jejíž životnost by byla 10 hodin měřená hodinkami s ručičkou, je dost malá pravděpodobnost, že by na stopkách nebyla žádná odchylka od 10 hodin v setinách sekundy. Ale i kdyby to nastalo, tak je dost málo pravděpodobné, že by na třetím měřidle nebyla odchylka při měření s přesností na 4 desetinná místa. Pokud bychom použili ještě přesnější měřidlo, pravděpodobnost, že při zvyšujícím se počtu desetinných míst přesnosti měření je životnost rovna přesně 10 hodin, je stále menší. Celkem můžeme uzavřít, že pravděpodobnost, že bychom našli žárovku s životností 10 hodin a přesností na nekonečně mnoho desetinných míst, je rovna nule. Komu se toto vysvětlení stále ještě nezdá, musí se spokojit s konstatováním, že pravděpodobnost naměření životnosti přesně 10 hodin je hodně, hodně malá. Shrnutí pojmů Pokud výsledky jistého pokusu, hry nebo experimentu mohou nastat se stejnou pravděpodobností, používáme k jeho popisu klasickou (9.1) nebo geometrickou (9.2) pravděpodobnost. Ovšem pokud některé z elementárních výsledků nastávají častěji než jiné, situaci znázorníme pomocí diskrétní (9.3) nebo spojité (9.4) pravděpodobnosti. Naše exkurze po základních pravděpodobnostních modelech je u konce. Studovali jsme přitom vždy rozdělení jisté náhodné veličiny. Intuitivně je jasné, o co se jedná. Matematicky se náhodná veličina definuje jako jisté zobrazení: Pokud S je množina jevů nad prostorem íž, nazveme zobrazení X : S —> R náhodnou veličinou, když pro libovolné xq 6 R je množina X_1((—co, x o)) prvkem množiny S (množinou X_1((—co, x o)) rozumíme sjednocení všech množin z S, které zobrazení X zobrazí na hodnotu menší než xo). Nechci nyní trávit čas objasňováním této definice. Spokojím se s tím, že upozorním čtenáře na to, co od něj budu vyžadovat především. Když studujeme jistou veličinu, jako první věc bychom si měli uvědomit, zda se jedná o veličinu diskrétní (ta nabývá hodnot z konečné (např. {1,2,3,4,5,6}) nebo spočetné (např. N, Z) množiny fž) nebo spojitou (ta nabývá hodnot z reálného intervalu fž =< a, b > nebo z celé množiny reálných čísel). Popis těchto dvou typů veličin se totiž v některých věcech liší. A používané vzorce nebo způsob popisu se neustále odvíjí od jednoho z těchto dvou typů. V následujících kapitolách (a i v úlohách praxe) se potřebuje občas určit pravděpodobnost, že náhodná veličina nabývá hodnot z jistého intervalu < a,b). S ohledem na typ veličiny budeme užívat vzorec Jak už bylo řečeno, v diskrétním případě funkce p(x) se nazývá pravděpodobnostní funkce, ve spojitém případě funkce f(x) hustota. U obou typů veličin se definuje tzv. distribuční pro diskrétní veličinu X, pro spojitou veličinu X. 142 Fakulta elektrotechniky a komunikačních technologií VUT v Brně funkce F (x). Pokud známe její hodnoty, můžeme použít u obou typů veličin použít vztah P(X E 2. a) P(0,1 < X < 0,25) =?; b) P(X < 0, 25) =?; c) P(X > 0, 25) =?; d) P(0 < X < 1,25) =?; e) P(X>0)=?; Matematika 3 145 f) Určete distribuční funkci náhodné veličiny X. Příklad 9.14 Určete hodnotu parametru c tak, aby funkce f (x) = c - e~'x' byla hustota, a pak nalezněte příslušnou distribuční funkci F (x). Vypočtěte pravděpodobnost, že náhodně zakoupená žárovka vydrží v provozu a) méně než 90 hodin; b) 80 až 120 hodin; c) více než 150 hodin. Odpovědi na otázky a řešení příkladů viz 15.9 Programovací úlohy Programovací úloha 1 Napište program, na jehož vstupu je zadána pravděpodobnostní funkce diskrétní náhodné veličiny X (nenulová nejvýše pro 20 hodnot) a na výstupu následující volby: a) Pro uživatelem zadané x E R se vypočte hodnota distribuční funkce F(x); b) Pro uživatelem zadaný interval I se vypočte pravděpodobnost P{X E I). Programovací úloha 2 Napište program, na jehož vstupu je zadána hustota f[x) spojité náhodné veličiny X podobného typu jako v příkladu 9.13 a na výstupu následující volby: a) Pro uživatelem zadané x E R se vypočte hodnota distribuční funkce F(x); b) Pro uživatelem zadaný interval I se vypočte pravděpodobnost P{X E I). Příklad 9.15 Náhodná veličina X udává životnost žárovky a má distribuční funkci (1 jednotka = 1 hodina) ... pro x < 0; ... pro x > 0. 146 Fakulta elektrotechniky a komunikačních technologií VUT v Brně 10 Střední hodnota a rozptyl Cíl kapitoly Zatímco v kapitole 9 jsme se zabývali různými matematickými přístupy k pravděpodobnosti, nyní se podíváme zejména na zpracování konkrétních dat. Pokud získáme měřením soubor hodnot určité veličiny, existují různé metody, kterými naměřená data zpracováváme a popisujeme. K základnímu popisu patří průměr naměřených dat. Uvidíme, že průměr souvisí s pojmem střední hodnoty v teorii pravděpodobnosti. Dále se seznámíme s některými dalšími charakteristikami naměřených dat, mezi nimiž je nej důležitější tzv. rozptyl. Důležitou součástí této kapitoly jsou také další kroky v objasňování rozdílu mezi teorií a praxí - vztahu pravděpodobnosti a statistiky. 10.1 Empirické a teoretické rozdělení pravděpodobnosti Dříve než přistoupíme ke konkrétnímu popisu souboru naměřených dat, je důležité si uvědomit rozdíl a souvislost mezi empirickým a teoretickým rozdělením pravděpodobnosti. Vysvětlíme ji na následujících dvou příkladech. Empirické rozdělení pravděpodobnosti je to rozdělení, které získáme z naměřených dat (z řeckého empirio = zkušenost; tedy empirické rozdělení popisuje konkrétní měření - jak nám v tom našem českém impériu hážou kostky, mince, porouchávají se zařízení, apod.) Příklad 10.1 Byla získána data tím způsobem, že každá z dvaceti osob hodila čtyřikrát korunou. V tabulce 10.1 jsou zaznamenány počty líců ve čtyřech hodech u každé z osob. Určete empirické rozdělení pravděpodobnosti veličiny X. Tabulka 10.1: K př. 10.1: Naměřené hodnoty veličiny X. osoba 1 2 3 4 5 6 7 8 9 10 X-hodnota 3 1 1 3 1 2 0 2 4 4 osoba 11 12 13 14 15 16 17 18 19 20 X-hodnota 1 2 2 1 2 1 2 3 3 3 Řešení: Nejprve si všimněme, že naše veličina X je diskrétní, protože nabývá pouze pěti hodnot - 0,1, 2, 3 nebo 4. Zpracování této úlohy je založeno na pojmu četnost, který udává počet výskytů dané hodnoty v našem souboru. Například ze všech dvaceti měření je jen jedna hodnota 0, tj. veličina X nabývá hodnoty 0 s četností 1 (budeme značit c(0) = 1). Hodnota 1 se vyskytuje s četností 6, atd. Všechny četnosti jsou zaznamenány v tabulce 10.2: Matematika 3 147 Tabulka 10.2: K př. 10.1: Tabulka empirických četností hodnot veličiny X. X-hodnota 0 12 3 4 četnost 1 6 6 5 2 Musí platit jednoduchá kontrola, že součet všech četností ve druhém řádku tabulky je roven počtu hodnot (v našem případě 20), protože každou hodnotu jsme počítali právě jednou. Uvedené četnosti lze také znázornit v tzv. histogramu četností - viz obr. 10.54, kde výšky jednotlivých obdélníčků jsou rovny konkrétním četnostem a délka základny každého z obdélníčků je rovna 1. 6 h i-1- 5^ -1 A1 3- 21 -1 I—=H- —1 ° i 2 3 4 5 Obrázek 10.54: K příkladu 10.1: Histogram četností veličiny X. K určeni empirického rozdělení pravděpodobnosti nám zbývá poslední krok - vydělit četnosti délkou souboru (= počtem hodnot), v našem případě číslem 20. Tak dostaneme tabulku 10.3 relativních četností vzhledem k počtu měření. Tabulka 10.3: K př. 10.1: Funkce p(x) empirického rozdělení pravděpodobnosti veličiny X. X-hodnota 0 12 3 4 P(x) 0,05 0,3 0,3 0,25 0,1 Součet těchto relativních četností je roven jedné, jsou tedy splněny všechny podmínky diskrétní pravděpodobnosti - nalezli jsme pravděpodobnostní funkci p{x) tohoto rozdělení. 148 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Při zpracování dat se někdy místo pravděpodobnostní funkce užívá grafického znázornění v podobě histogramu pravděpodobností (pravděpodobnostního histogramu) viz obr. 10.55. 0.3 0.25 0.2 0.1 5 -0.1^ O Oí Obrázek 10.55: K př. 10.1: Histogram pravděpodobností veličiny X. Jediný rozdíl mezi obrázky 10.54 a 10.55 je v tom, že v prvním případě se na osu y nanáší hodnoty četnosti a ve druhém případě pravděpodobnosti. Na pravděpodobnostním histogramu je zajímavé to, že součet obsahů všech obdélníků na obrázku je roven jedné, čili jedná se o jakýsi geometrický model analogický situaci spojité pravděpodobnosti, kde víme, že platí ŕ P(X G< a, b >) = / f(x)dx = obsah plochy pod křivkou f(x) na < a, b >. J a Pokud chceme s využitím histogramu pravděpodobnosti v našem diskrétním případě vyčíslit třeba pravděpodobnost, že při 4 hodech mincí padl líc jednou nebo dvakrát, dostáváme P{X G< 1, 2 >) = P(X = 1) + P{X = 2) = 0,3 + 0,3 = 0,6, což je rovno součtu obsahů obdélníků histogramu nad hodnotami 1 a 2 (viz obr. 10.56). Pokud tedy uvažujeme u spojité veličiny hustotu a u diskrétní veličiny histogram pravděpodobností, lze v obou případech vyjádřit pravděpodobnost, že veličina X nabude hodnot z jistého intervalu, jako obsah určité plochy (v případě histogramu musí platit důležitý předpoklad, který zde ještě jednou připomenu: základna každého z elementárních obdélníků histogramu musí mít délku 1). Můžeme také pro formu nakreslit graf pravděpodobnostní funkce p(x) (obrázek 10.51), popřípadě graf distribuční funkce F[x) (10.58). V tomto případě se distribuční funkce skládá z pěti schodů, z nichž ten poslední má výšku 1 a nekonečnou délku. Veličina X v tomto příkladu je možná ještě vhodnějším reprezentantem diskrétního rozdělení než veličina z příkladu 9.12, protože nabývá konečně mnoha hodnot s různou pravděpodobností (aby si někdo po absolvování příkladu 9.12 nemyslel, že diskrétní veličina může nabývat jen nekonečně mnoha hodnot). Matematika 3 149 0.3 0.25 0.2 0.1 5 0.1 0ío5- "0" Obrázek 10.56: K př. 10.1: I v diskrétním případě lze pravděpodobnost vyjádřit jako obsah jisté plochy. 0.3 -0.25 1 0.2 -_ 0.15 : 0.1 0.05 Obrázek 10.57: K př. 10.1: Graf pravděpodobnostní funkce p(x). Pojem teoretické rozdělení pravděpodobnosti je asi každému jasný - určíme rozdělení teoreticky, nikoliv na základě měření. Ale zajímavé bude nalézt teoretické rozdělení ve stejné situaci, kterou jsme právě uvažovali. Příklad 10.2 Nalezněte teoretické rozděleni veličiny X, která udává počet líců při čtyřech hodech minci. Řešeni: Podrobíme naši situaci teoretickým úvahám za předpokladu, že mince je vyvážená a vyrobená ze stejnorodého materiálu. V tabulce 10.4 jsou uvedeny všechny možné výsledky čtyř hodů minci (druhý sloupec udává vždy počet líců v dané variantě): Bystrému pozorovateli asi neušlo, že všech možných výsledků je 16. A protože líc padá s pravděpodobností |, každý z těchto 16 výsledků je stejně pravděpodobný. A proto můžeme z tabulky určit četnosti počtu líců (viz tabulka 10.5) a vydělením hodnotou 16 pak i relativní četnosti, které už jsou hodnotami hledané teoretické pravděpodobnostní funkce p{x) (viz tabulka 10.6). 150 Fakulta elektrotechniky a komunikačních technologií VUT v Brně 0.8 0.6 y 0.4 0.2 -2 -1 1 2 3 4 5 6 x Obrázek 10.58: K př. 10.1: Graf distribuční funkce F(x) rozdělení veličiny X. Tabulka 10.4: K př. 10.2: přehled všech možných výsledků při čtyřech hodech mincí. výsledek počet líců výsledek počet líců LLLL 4 LRRL 2 LLLR 3 RLRL 2 LLRL 3 RRLL 2 LRLL 3 LRRR 1 RLLL 3 RLRR 1 LLRR 2 RRLR 1 LRLR 2 RRRL 1 RLLR 2 RRRR 0 Příslušný histogram pravděpodobnosti je znázorněn na obrázku 10.59. Matematika 3 151 Tabulka 10.5: K př. 10.2: Tabulka teoretických četností hodnot veličiny X. X-hodnota 0 12 3 4 četnost 1 4 6 4 1 Tabulka 10.6: K př. 10.2: Funkce p(x) teoretického rozdělení pravděpodobnosti veličiny X. X-hodnota 0 12 3 4 P(x) 0,0625 0,25 0,375 0,25 0,0625 0.35 -0.3 -0.25 -0.2 -0.1 5 -0.1t 0 05 - —1 ° i 2 3 4 5 Obrázek 10.59: K př. 10.2: Histogram pravděpodobnosti teoretického rozdělení veličiny X. K teoretickému rozdělení pravděpodobnosti v příkladu 10.2 lze jednoduše sestrojit teoretické rozdělení četnosti, a dokonce si můžeme vybrat, kolikrát se má experiment „prakticky" provádět. Například pro 128 opakování experimentu čtyř hodů mincí má teoretické rozdělení četnosti stejný tvar jako pravděpodobnostní histogram 10.59, jen na osu y vynášíme hodnoty reprezentující četnost c{i) (obrázek zde už není uveden, od 10.59 se liší jen měřítkem svislé osy): 152 Fakulta elektrotechniky a komunikačních technologií VUT v Brně c(0) = P{0) 128 = 0,0625 • 128 = 8 c(l) = P(l) 128 = 0,25 • 128 = 32 c(2) = P(2) 128 = 0,375 • 128 = = 48 c(3) = P(3) 128 = 0,25 • 128 = 32 c(4) = P(4) 128 = 0,0625 • 128 = 8 Cili kdybychom učinili 128 pokusů, z nichž jeden sestává ze čtyř hodů mincí, náš nej lepší teoretický odhad je ten, že v 8 pokusech by nepadl žádný líc, ve 32 pokusech jeden líc, atd. Teoretické rozdělení pravděpodobnosti je jakési očekávané rozdělení, které nastane za jistých předpokladů. Například při pokusu 4 hodů mincí těmito předpoklady jsou: • Mince je vyrobena tak, že rub a líc padá se stejnou pravděpodobností. • Mincí je házeno „normálně", ne nějakým divným stylem, který by zvýhodňoval buď rub, nebo líc. • Každý účastník pokusu pravdivě nahlásí své výsledky. Rozdělení získané empiricky v příkladu 10.1 „zhruba" odpovídá teoretickému rozdělení z příkladu 10.2. Zdá se tedy rozumné uzavřít, že se světem je všechno v pořádku: mince je pravděpodobně dobře vyvážená, lidé jí hážou dobrým způsobem a nahlašují výsledky poctivě. Pokud by data z příkladu 10.1 vedla na empirické rozdělení pravděpodobnosti uvedené na obrázku 10.60, 0.4 - 0.3 -0.2 - 0.1- —1 ° i 2 3 4 5 Obrázek 10.60: K příkladům 10.1, 10.2: Empirický histogram pravděpodobností veličiny X, který se hodně liší od teoretického. Matematika 3 153 bylo by patrné, že tři nebo čtyři líce padaly ve čtyřech hodech mnohem častěji, než jsme očekávali, na úkor výsledků 0 líců, 1 líc, 2 líce. To by zpochybnilo některý z našich předpokladů. Uzavřeli bychom, že buď je mince nějak divně vyvážená, nebo lidé jí házejí divným stylem. V tom tedy tkví podstata statistického usuzování: Před experimentem se určí, jaký tvar má za jistých předpokladů teoretické rozdělení pravděpodobnosti. Pak se provede experiment a z naměřených dat získáme empirické rozdělení pravděpodobnosti. Jestliže se teoretické a empirické rozdělení shodují, uzavíráme, že předpoklady, které jsme učinili, jsou pravděpodobně správné. Na druhé straně, když se teoretické rozdělení od empirického významně liší, uzavíráme, že jeden nebo více předpokladů je pravděpodobně nesprávných. Podrobněji o tom bude řeč při konkrétních statistických testech v následujících kapitolách. Zde byly uveden jen příklady vysvětlující, k čemu pravděpodobnostní rozdělení slouží. 10.2 Empirické charakteristiky popisu dat Pustíme se nyní už do konkrétního zpracování naměřených dat. Pokud máme jistý počet měření veličiny, lze z těchto měření určit následující jednoduché charakteristiky: • Průměr z naměřených hodnot ■ XT=i xí- Označení x je celkem standardní a používá se ve fyzice i dalších vědách k vyjádření průměrné hodnoty. • Medián z hodnot prostřední z těchto hodnot vzhledem k jejich uspořádání podle velikosti. • Modus z hodnot x±, x2,..., xn je ta z hodnot, která se vyskytuje s nejvyšší četností. Příklad 10.3 Jsou získány výsledky kvizového skóre u 11 osob: 8,5,7,9,8,1,3,4,7, 7, 7. Průměr těchto hodnot je x = jj ■ ^2 x% = ff = 6. Modus tohoto souboru je hodnota, která se vyskytuje nejčastěji, čili číslo 7. A abychom mohli určit medián, musíme hodnoty seřadit podle velikosti (například vzestupně): 1,3,4,5,7, 7, 7, 7,8,8,9. Prostřední z těchto hodnot je na šesté pozici, čili mediánem je číslo 7. Příklad 10.4 Mějme jiný soubor hodnot, už uspořádaný podle velikosti, například sestupně: 7,6,5,5,4,2,1,1. Protože počet měření je sudý (budeme též říkat, že soubor měření má sudou délku), medián určíme jako průměr dvou prostředních hodnot: |(5 + 4) = 4,5. 154 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Příklad 10.5 Soubor měřeni může mít více modů (= druhý pád od slova modus). Například soubor 8,6,6,5,4,3,3 je tzv. bimodální soubor, protože nejčastěji (= dvakrát) se v něm objevují hodnoty 6 (=modus\) a 3 (=modus2). Při třech modech mluvíme o trimodálním, při čtyřech o kvatro-modálním souboru, atd. Některé učebnice ignorují možnost více modů a za modus označují největší nejčastěji nabývanou hodnotu, což by v našem případě bylo 6. Z uvedených tří charakteristik je většinou nejužitečnější průměr - až na následující příklad, kde se vyskytuje v souboru měření tzv. odkloněná hodnota, což je hodnota, která se hodně liší od všech ostatních. Příklad 10.6 Uvažujme experiment, ve kterém měříme čas reakce náhodně vybraného studenta na otázku, respektive čas, který uběhne mezi naší otázkou a jeho odpovědí. Průběh experimentu je zaznamenán v tabulce 10.7. Tabulka 10.7: K příkladu 10.6: Soubor měření získaných v experimentu. otázka odpověď doba reakce (v sekundách) ovoce na „h" hruška 0,6 stát na „F" Francie 0,4 mužské jméno na „H" Horymír 0,6 roční období na „p" podzim 0,7 část těla na „z" záda 10,0 Z naměřených dat x = 2,46, modus = medián = 0,6. Velký rozdíl mezi mediánem a průměrem je způsoben odkloněnou hodnotou 10,0. V tomto případě je k popisu souboru měření užitečnější užít medián (anebo odkloněnou hodnotu můžeme z úvah vypustit, a pak teprve spočítat průměr). Právě uvedený příklad tedy vysvětluje, proč se kromě průměru zavádí ještě pojem mediánu - medián nám podává podstatně lepší informaci než průměr, pokud je soubor měření vystaven nebezpečí vlivu odkloněných hodnot. Dobrým příkladem rozdílu těchto pojmů je měření hrubého měsíčního příjmu v CR: média uvádějí průměrný příjem, ale tato hodnota je zkreslena příjmy deseti (nebo pěti?) procent nejbohatších lidí. Mnohem zajímavější je tzv. mediánová hodnota průměrného příjmu, která je „uprostřed" pracující populace, tj. polovina pracujících má menší příjem než medián a polovina má větší hrubý příjem za měsíc. Tato mediánová hodnota je jistě nižší než průměr. Kromě průměru nás často zajímá, jakým způsobem se data od průměru liší, tj. jak velká je odchylka hodnot od průměru. Lze určovat různé typy odchylek - podívejme se na ně pro konkrétní data. Matematika 3 155 Příklad 10.7 Uvažujme soubor měřeni z příkladu 10.3. Pro tato data se definují různé typy odchylek uvedené v tabulce 10.8. Tabulka 10.8: K příkladu 10.7: Různé typy odchylek od průměru. Xl-x l^-xl (xj - x)2 8 2 2 4 5 -1 1 1 7 1 1 1 9 3 3 9 8 2 2 4 1 -5 5 25 3 -3 3 9 4 -2 2 4 7 1 1 1 7 1 1 1 7 1 1 1 Pro každou hodnotu měření Xj lze určit její odchylku od průměru Xj — x, absolutní hodnotu této odchylky |xj — x| (tzv. absolutní odchylku) a kvadratickou odchylku (xí — x)2. Nám by se ovšem kromě průměru x získaného ze všech hodnot v souboru hodila další míra odchýlení od průměru vypočtená ze všech hodnot souboru najednou. Touto mírou odchýlení od průměru nemůže být průměrná odchylka ^ 5ľľ=i(x* — x)-> protože ta je vždy rovna nule, čili žádnou informaci o rozptylu hodnot z něj nezískáme. Kdo tomu nevěří, at upravuje spolu se mnou: -y n -y _-v 1 _-v 1 — > (xl — x) = — ( > Xj)--[S x) = x--■ n -x = 0. n n ^—' n ^—' n Dalším kandidátem na rozptyl je průměrná absolutní odchylka \^2,\xl — x\. V našem příkladu je rovna 2 a už sděluje jakousi informaci o rozptylu: náhodně vybraná hodnota měření je od průměru x odchýlená asi o 2 jednotky. S touto měrou rozptylu se v některých matematických popisech už setkáváme. Ale vzhledem k tomu, že součet absolutních hodnot je obtížně matematicky zpracovatelný (např. obtížně se derivuje, apod.), nejčastějšího používání se těší průměrná kvadratická odchylka ^ XXxi — x)2. S ní se už čtenář setkal v první části tohoto skripta - u metody nejmenších čtverců. I v 156 Fakulta elektrotechniky a komunikačních technologií VUT v Brně pravděpodobnosti a statistice se používá spíše tato míra odchýlení. Budeme ji označovat s2 a nazývat empirický rozptyl (pokud bude ze souvislostí jasné, že se jedná o soubor empiricky získaných hodnot, slovo „empirický" někdy vynecháme). V našem příkladu s2 = 5.455. Jedná se o veličinu, jejíž rozměr je vzhledem k měřené veličině umocněný na druhou. Protože někdy budeme potřebovat charakteristiku stejného fyzikálního rozměru, označme s := V s2; veličina s se nazývá empirická směrodatná odchylka. Pro naše data s = ^5,455 = 2,336. Dovídáme se tedy, že náhodně vybraná hodnota ze souboru je od průměru odchýlená asi o 2,336 bodů skóre. Tato míra rozptýlení je tedy mírně vyšší než průměrná absolutní odchylka - u průměrné kvadratické odchylky můžeme tedy mluvit o větší velkorysosti. Další mírou rozptylu hodnot může být intervalový rozsah hodnot < xmm,xmax >. V našem příkladu vidíme, ž e X E < 1; 9 >. Protože v dalším textu budeme užívat zejména empirický rozptyl s2, na chvíli se u něj zastavme. Pokud budete spolu se mnou upravovat definiční vztah, dospějeme ke vzorci, který budeme pro výpočet s2 používat: 2 1 n 2 1 2 2 n í—' n 1=1 -(Vx1) - —CFxi) + -'x2 = -(y x1) -2ľč2 +x2 = 2\ —2 X- — X . Poslední řádek odvození se někdy čte jako „průměr čtverců minus čtverec průměru", což je i pomůckou k zapamatování vzorce. Následující příklad je klíčovým příkladem této kapitoly - jsou zde uvedeny vzorce, které jsou podkladem teoretických charakteristik oddílu 10.3. Příklad 10.8 Náhodná veličina X udává počet líců při čtyřech hodech mincí. Měřením se získalo těchto dvacet hodnot veličiny: 3,1,1, 3,1, 2, 0, 2,4,4,1, 2, 2,1, 2,1, 2, 3, 3, 3. Určete průměr a empirický rozptyl souboru měření. a) Klasické řešení: Jedná se o stejná data jako v příkladu 10.1. Vypočteme průměr, empirický rozptyl i empirickou směrodatnou odchylku: Matematika 3 157 x = — > x, = 2,05; 20^ ^ 20 *2 = ^(E^2)-2'052 = 1'1475' s = y/l, 1475 = 1,0712. Vidíme tedy, že při čtyřech hodech mincí padalo průměrně 2, 05 líců (hodnota průměru se ve statistice zpravidla nezaokrouhluje), přitom náhodně vybraná hodnota se od tohoto průměru odchyluje asi o 1,07 líců (tato hodnota se rovněž nezaokrouhluje). Odchylka „asi o 1,07" je dosti nepřesně vyjádřena - potřebovali bychom spíše vědět, s jakou pravděpodobností měřená veličina leží v intervalu (2, 05 — 1, 07; 2, 05 + 1, 07). Ai se zatím čtenář spokojí s tvrzením, že měřená veličina v uvedeném intervalu leží ve většině případů (pokud měříme hodnoty veličiny s tzv. normálním rozdělením (viz 13), tak v intervalu leží asi 68% měření; dále také o intervalech spolehlivosti viz předmět MPSO). b) Řešení pomocí rozdělení četnosti: Máme li data zpracována v podobě četností - viz tabulka 10.9, kde ul jsou hodnoty, kterých veličina X nabývá [u je písmeno řecké abecedy a čte se „ný") - Tabulka 10.9: K příkladu 10.8: Tabulka četností souboru měření veličiny X. četnost c(uí) 0 0 1 1 1 6 2 4 6 3 9 5 4 16 2 můžeme k výpočtu průměru a rozptylu dat využít vzorce, které obsahují četnosti: x = - Ví ■ c(i/í); s2 = -(V] v2 ■ c(i/i)) - x2. Dosazením se přesvědčíme, že dostaneme stejný výsledek jako v případě klasických vzorců (a ono je i vidět, že vzorce pro četnosti dostaneme z klasických vzorců jednoduchou úvahou - četnost c{y^) vyjadřuje, kolikrát se hodnota ul v souboru vyskytuje, a proto se jedná jen o přepsání jednoho a téhož vzorce). 158 Fakulta elektrotechniky a komunikačních technologií VUT v Brně c) Řešení pomocí rozdělení pravděpodobnosti: Sledujte se mnou následující úvahu: Vklouzneme-li se zlomkem ^ ve vzorcích užívajících četnost z řešení b) za sumu, uvnitř dostaneme zlomky Tyto zlomky vlastně vyjadřují relativní četnosti hodnot z/j, tedy jejich empirické pravděpodobnosti: Odtud můžeme psát vzorce pro výpočet průměru a rozptylu ve tvaru ŕ = ^E-^£^)--2 = (E-^^))--2• S využitím tabulky 10.10 empirických pravděpodobností pak dosazením do těchto vzorců dostaneme tentýž výsledek jako v případě a) a b). Tabulka 10.10: K příkladu 10.8: Tabulka empirických pravděpodobností. 0 0 0,05 1 1 0,3 2 4 0,3 3 9 0,25 4 16 0,1 I v tomto případě se stále jedná o pouhé přepsání stejných vzorců a) nebo b) s využitím označení pomocí pravděpodobnosti. 10.3 Teoretické charakteristiky popisu dat Někomu se možná zdály vzorce z odstavce c) příkladu 10.8 příliš vykonstruované, ale tyto úvahy jsou základem pro definici charakteristik teoretického rozdělení pravděpodobnosti. Právě u teoretického rozdělení nemáme totiž k dispozici ani četnosti, ani měření, ale pouze teoretické pravděpodobnosti. Právě ty dosadíme do vzorců místo pravděpodobností empirických. Uvažujme nejprve diskrétní náhodnou veličinu X. Střední hodnotu EX veličiny X definujeme vztahem EX = ^Vi-p{vi). Matematika 3 159 Označení pomocí písmene E pochází z anglického expected value (= očekávaná hodnota). Střední hodnota podle odstavce c) příkladu 10.8 tedy není nic jiného než průměr hodnot, které bychom získali při platnosti daných teoretických předpokladů. Je to tedy jakýsi „teoretický" průměr - průměr, který bychom získali při praktickém měření, kdyby měřená veličina odpovídala danému teoretickému popisu. Rozptyl DX veličiny X definujeme jako střední hodnotu čtverce odchylky veličiny X od své střední hodnoty EX: DX = E{X - EX)2. Označení pomocí písmene D pochází z anglického dispersion (=rozptyl). Jiné anglické slovo pro rozptyl je variance, odtud v některých učebnicích se rozptyl označuje jako varX. Ale my se v dalším budeme držet označení DX. Podívejme se definici rozptylu na zoubek: umocněním závorky a dosazením za střední hodnotu veličin X2 a X dostaneme DX = E(X - EX)2 = E(X2 -2X-EX + (EX)2) = = EX2 - 2EX ■ EX + (EX)2 = EX2 - (EX)2 = Třetí řádek odvození je právě vzorec pro výpočet s2 z odstavce c) příkladu 10.8. Tj. rozptyl je definován naprosto přirozeně jako hodnota, kterou bychom vypočetli jako s2 pro soubor měření veličiny, která odpovídá teoretickému rozdělení. Také analogicky definujeme směrodatnou odchylku veličiny X jako V DX. Příklad 10.9 Vypočtěte střední hodnotu a rozptyl počtu líců ze čtyř hodů v příkladu 10.2. Řešení. Dosazením do vzorce pro EX máme EX = ^ ví ■ p(ui) = 0 • 0,0625 + 1 • 0,25 + 2 • 0,375 + 3 • 0,25 + 4 • 0,0625 = 2. Nyní vypočteme ještě EX2, protože to budeme potřebovat pro výpočet rozptylu: EX2 = v2 ■ p{ví) = 0 • 0,0625 + 1 • 0,25 + 4 • 0,375 + 9 • 0,25 + 16 • 0,0625 = 5. A nyní DX = EX2 - (EX)2 = 5 - 22 = 1. Tedy nejvíce očekávaná hodnota počtu líců je 2, a odchylka od této hodnoty je většinou maximálně v7DX, což je 1 líc. Příklad 10.10 Vypočtěte střední hodnotu veličiny X z příkladu 9.12. 160 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Řešení: EX v tomto případě udává očekávaný počet dnů, po kterém dojde k první poruše zařízení. Dosazením do vzorce dostáváme Ex = YJn- Piyi) = Ek ■ = Ek ■ ^)fe_1 fc=l fc=l 4 5' A jsme v pěkné bryndě, protože máme sečíst nekonečnou řadu. Zde nepomůže jen se usmívat a pohodlně dosadit vzorec pro součet geometrické řady. Tak jednoduché to nebude. Trochu musíme zapracovat a vylovit v paměti něco o integrování nekonečné řady člen po členu. Ale začněme tou geometrickou řadou. Platí následující vztah, který by si měl odnést do života každý absolvent VUT (nikdy nevíte, kdy se vám bude hodit - ale teď vážně, v životě jsou přece nej důležitější ty věci, které si myslíme, že vůbec nepotřebujeme, například nějaký kamarád, který nám nepřestane důvěřovat, když uděláme v životě nějakou chybu, nebo vzorec pro součet geometrické řady): oo ^ 1 + x + x2 + x3 + x4 + x5 H----= xk =- pro Ixl < 1. ^ 1 - X fc=0 Uvedená řada se nazývá geometrická, protože každý další člen řady je x-násobkem předchozího členu. Říkáme, že x je kvocient. Tato řada má konečný součet jen pro \x\ < 1. Bylo by fajn, kdybychom tento krásný vzorec mohli použít i v našem případě. Po úpravách zjistíme, že to jde. Začněme označením: °°1 A A A A A fc=i fc=i kde v(x) = Yľk=ik ' xk_1. Nyní si můžeme dovolit číslovat sumu v(x) od nuly, protože přičtením nuly se hodnota výrazu v{x) nezmění: oo oo v(x) = E k ■ xfe_1 = E k ■ xfe_1. fc=l fc=0 Nyní se zintegrováním této rovnosti zbavíme konstanty k, která vystupuje v každém členu řady: /OO „ OO oo v(x)dx = E k ■ / xk_1dx = E k ■ — = E x>C-fc=0 ^ fc=0 fc=0 Teď jsme už schopni sumu sečíst podle vzorce pro součet geometrické řady: °° 1 x fc=0 No a v{x) teď získáme zase derivací poslední rovnosti: . . d f l \ 1 v[x) dx \1 — x (1 — x \2' Matematika 3 161 A jsme téměř u cíle. Nesmime zapomenout, že celý postup funguje jen pro \x\ < 1. Ale my potřebujeme znát v (x) pro x = |, což splňuje tuto podmínku konvergence. Tak tedy: EX = 4-. ,(-) = -• -1 - = i,25. 5 V 5 (1-i)2 4 Ve spojitém případě se střední hodnota a rozptyl definují vlastně obdobně, s jediným rozdílem - sčítáme nespočetně mnoho nekonečně malých hodnot, takže místo sumy použijeme integrál. Pro spojitou veličinu X tedy /oo x ■ f(x)dx; -oo /oo (x - EX)2 ■ f(x)dx. -oo Úpravou definičního vztahu pro DX a využitím vzorce J_^ocf(x)dx = 1 bychom dospěli k témuž způsobu výpočtu jako v diskrétním případě: /oo r roc x2 ■ f{x)dx —I x ■ f{x)dx ■oo J — oo 2 2 EX - {EX)1. Příklad 10.11 Honza získal na zkoušku 80 bodů, zatímco průměr je 75. Je jeho výsledek vynikající, nebo průměrný? Na tuto otázku právě dává odpověď rozptyl. V případě malého empirického rozptylu (např. většina ohodnocení se pohybuje mezi 73 a 77 body) je výsledek 80 bodů vynikající, až pozoruhodný. V případě velkého rozptylu (např. jsou zcela běžné hodnoty z intervalu 55 až 95) je jeho výsledek naprosto průměrný. O kvalitě výsledku nerozhoduje (nevypovídá) pouze jeho porovnání s průměrem, ale také uvážení rozptylu. Pro určení kvality určitého výsledku je tedy důležitý jak průměr, tak i rozptyl. Zavedeme nyní jakousi transformaci hodnot veličiny X na hodnoty veličiny U, ve kterých je skryta informace jak o průměru, tak i o rozptylu. Pokud xt jsou hodnoty veličiny X pro i = 1,2,... ,n, tak Ui := —--, í = l,2,...,n s jsou hodnoty normované veličiny U. Z definice normované veličiny například plyne, že 1. Pokud Ui > 0, znamená to, že xl > x. 2. Pokud \uí\ > 1, znamená to, že xt se od průměru x liší o více než s. Veličina U tedy představuje převod jakékoli veličiny X na jakousi normovanou stupnici hodnot, ve které je skryta informace o průměru i o rozptylu současně (v některé literatuře, zejména anglické, se normovaná veličina označuje písmenem Z a mluvíme o z-hodnotě; ale české názvosloví celkem jednotně označuje písmenem U). 162 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Příklad 10.12 Kdybych vám řekl, že moje marťanská kamarádka je 100 cm vysoká, nemohli byste tuto výšku porovnat s výškou ostatních marťanů. Ale kdybych uvedl, že normovaná hodnota její výšky je —1, věděli byste, že je na marťany dost malá - že je o jednu směrodatnou odchylku menší než průměrná výška na Marsu. Z údaje, že normovaná hodnota jejího IQ je 2, byste usoudili, že je to vysoce inteligentní marťanka - protože to znamená, že je její IQ o dvojnásobek směrodatné odchylky větší než průměr. Z normované hodnoty hmotnosti 0 se vidí, že její hmotnost je průměrná. Příklad 10.13 Moje mladší sestra se rozhoduje, zda se stane pilotkou letadla nebo kuchařkou. Pilotní zkoušky zvládla na 62% (průměr zkoušek byl 50%, odchylka 6%), kuchařské na 90% (průměr byl 85%, odchylka 5%). Na co se víc hodí? Bylo by nemoudré, aby se rozhodovala na základě pouhého porovnání sestřiny procentuální úspěšnosti. Důležitější je porovnání hodnot normovaných: 62 - 50 _ 6 ~ (tj. je o dvojnásobek směrodatné odchylky lepší, než průměr). 90-85 = 1 90 je o 5 = s více než průměr 85 o (tj. je o směrodatnou odchylku lepší než průměr). Vidíme, že se sestra více hodí na pilotku než na kuchařku, respektive má větší šance získat zaměstnání pilotky. Z příkladu je patrno, že normovaná hodnota (= ř7-hodnota) je vyjadřována v jednotkách s, tj. v jednotkách směrodatné odchylky od průměru. Autorem následujícího příkladu je kolega dr.Fuchs - upozornil mne tímto, že je důležité dávat pozor na předpoklady (a také ujasnil závěr příkladů 10.11, 10.12, 10.13). Příklad 10.14 V souboru měření (např. výsledek desetibodové písemky :-)) SM1 = {6,6,5,1,1,1,0, 0, 0, 0} je x~i = 2, sl = 6 (tj. si = \/6 = 2,45), v souboru měření SM2 = {8,5,4,3,0, 0, 0, 0, 0, 0} je x~2 = 2, s\ = 7,3 (tj. s2 = \/7,3 = 2,7/ Oba soubory měření mají stejný průměr 2. Soustřeďme se na hodnotu měření x = 5 v obou souborech: Vzhledem k SM\ je příslušná normovaná hodnota 5-2 u = - = 1,22, 2,45 kdežto vzhledem ke druhému souboru měření je příslušná normovaná hodnota měření x = 5 rovna 5-2 u = - = 1,11. 2,7 Matematika 3 163 Čili i když normovaná hodnota měření x = 5 je v souboru měření SM2 menší než v souboru měření SMi, původní hodnota x = 5 je v souboru SM2 na přednější pozici vzhledem k počtu bodů než v souboru SMi (tj. hodnota měření x = 5 má v SM2 „pod sebou" 80% všech měření souboru, zatímco v SM\ jen 70% všech měření souboru). Příklad 10.14 tedy ilustruje, že argumentace příkladů 10.11, 10.12, 10.13 nemusí být vždy správná neplatí zkrátka automaticky, že vyšší normovaná hodnota znamená procentuelně lepší umístění původní nenormované hodnoty v souboru všech měření. Důležitým předpokladem toho, že vyšší normovaná hodnota znamená procentuelně lepší umístění původní nenormované hodnoty, je, že veličina, kterou měříme, musí mít normální rozdělení (viz 13). Pokud bychom tedy do zadání příkladů 10.11, 10.12, 10.13 dodali, že měřené veličiny lze dobře matematicky popsat normálním rozdělením, argumentace v těchto příkladech zůstává v platnosti. A vůbec, v dalším textu se budeme zabývat pouze normovanými hodnotami normálně rozdělených veličin (slovo „normálně" je ve smyslu kapitoly 13, nikoli ve smyslu jazyka českého) a budeme odtud dále vždy „tiše" předpokládat normálně rozdělenou původní veličinu, takže odtud dál vylučujeme anomálii popsanou v příkladu 10.14 (a vyšší normovaná hodnota bude vždy naznačovat procentuelně vyšší umístění původní hodnoty). Shrnutí pojmů V této kapitole jsme definovali dvě důležité charakteristiky pro popis dat jak naměřených, tak teoretických. Jsou to střední hodnota a rozptyl. Znovu je při výpočtu těchto charakteristik důležité si uvědomit, zda je veličina X diskrétní, nebo spojitá. Podle typu veličiny pak dosazujeme do vzorce: ) pro diskrétní veličinu X: , EX = < yiš^u ' (10.1) I ] x ■ j[x)dx pro spojitou veličinu X. Pojem rozptylu definujeme už s využitím pojmu střední hodnoty. Pro diskrétní i spojitou veličinu lze pro výpočet rozptylu užít vzorec DX = E(X2) - (EX)2. (10.2) Při odvozování tohoto vzorce v diskrétním případě jsme užili jistých pravidel pro počítání se střední hodnotou: pokud a, b jsou reálná čísla & X,Y náhodné veličiny, platí vztah E(aX - bY) = a ■ EX - b ■ EY (pokud EX, EY existují a jsou konečné). Cili konstantu lze vytknout před střední hodnotu. Dále platí E(aX + b) = aEX + b, pokud EX existuje (ve vzorci je mimo jiné použito faktu, že střední hodnota konstanty je rovna konstantě samotné). Pro výpočet rozptylu složených výrazů platí jiná pravidla, a sice D(aX - bY) = a2 ■ DX + b2 ■ DY, 164 Fakulta elektrotechniky a komunikačních technologií VUT v Brně pokud DX, DY existují a pokud veličiny X, Y jsou nezávislé. Cili pokud vytýkáme konstantu před rozptyl, musíme ji umocnit na druhou. To například znamená, že rozptyl rozdílu veličin je roven součtu, nikoliv rozdílu rozptylů: D[X — Y) = DX + DY (pro nezávislé veličiny X, Y). Dále platí D(aX+b) = a?-DX, tj. rozptyl konstanty b je roven nule. Význam pojmu rozptylu byl ilustrován v příkladech 10.11, 10.12, 10.13 a ještě bude konkrétně upřesněn u často používaného normálního rozdělení pravděpodobnosti -viz příklad 13.5 d) ... tzv. pravidlo tří sigma. 10.4 Otázky a příklady ke cvičení U následujících výroků rozhodněte, zda se jedná o výrok pravdivý či nepravdivý. Otázka 10.1 Empirické rozděleni pravděpodobnosti je rozděleni, které získáme z naměřených dat. Otázka 10.2 Empirické pravděpodobnosti jsou vlastně relativní četnosti. Otázka 10.3 Pravděpodobnosti P (X E (cl,b)) u diskrétní veličiny X nelze vyjádřit jako obsah jisté plochy. Otázka 10.4 Statistické usuzování spočívá v porovnání teoretického rozdělení veličiny před experimentem a empirického rozdělení po provedení experimentu. Otázka 10.5 Průměrná odchylka od průměru nemusí být vždy rovna nule. Otázka 10.6 Střední hodnota veličiny X je očekávaná hodnota průměru za přepokladu, že měřená veličina se bude chovat podle teoretického popisu. Otázka 10.7 Rozptyl (resp. směrodatná odchylka) udává míru odchylování veličiny od průměru. Otázka 10.8 Normovaná hodnota měření vyjadřuje jak porovnání původní hodnoty měření s průměrem, tak i míru závažnosti odchylky od průměru (dva v jednom). Zpracování dat; střední hodnota a rozptyl Příklad 10.1 Politický představitel učinil výzkum u 77 lidí o kvalitě své práce. Každý z dotázaných (cizím slovem se takovým lidem říká respondenti, protože to, co dělají je „respond" - odpovídají) hodnotil číslem ze stupnice 1 až 5, kde 1 = hrozná kvalita práce, 5 = vynikající kvalita práce. Výsledky jsou v tabulce: Matematika 3 165 2 í 3 3 2 1 3 4 2 1 4 1 4 1 5 3 4 1 í 2 1 2 2 3 1 1 1 2 1 3 4 4 5 1 4 1 4 4 4 2 4 2 3 5 3 í 1 í 5 5 3 2 5 5 3 4 í 3 4 4 3 3 4 3 3 1 4 5 2 3 5 5 4 5 3 4 4 Určete a) rozdělení četnosti a rozdělení pravděpodobnosti kvality představitelovy práce; b) střední hodnotu, rozptyl a směrodatnou odchylku této kvality. Příklad 10.2 V případě spojité veličiny je situace trochu složitější, protože každá hodnota měření je většinou jiná než všechny ostatní. V tabulce četností by tedy byl stejný počet sloupců jako je hodnot měření. To by nám žádnou přehlednou informaci nesdělilo. Zpravidla rozdělíme tedy nejprve reálnou osu na několik (7 až 10) podintervalů (většinou stejné délky) a provedeme tzv. intervalové rozdělení četností, kde četnosti c{uí) udávají, kolik hodnot měření padlo do intervalu obsahujícího hodnotu z/j (tato hodnota je zpravidla středem daného intervalu). Uvažujme tento příklad: byla získána data (měřeno v sekundách od okamžiku t = 0) udávající okamžiky, kdy kolem učitého místa projíždělo auto - viz tabulka (čtená po řádcích): 1,5 3,9 7,3 13,7 17,4 22,2 24,7 30,2 30,5 31,2 ~41,9 42,3 44,5 61,9 62,4 64,1 73,4 81,4 86,1 92 92,7 106,3 111,5 112,1 113 118,9 122,2 122,4 122,6 Řekněme, že nás z jistého důvodu zajímá doba mezi dvěma po sobě jdoucími průjezdy auta - příslušné hodnoty této veličiny (označme ji třeba X) získáme odečtením vždy dvou po sobě jdoucích okamžiků průjezdu: 1,5 2,4 3,4 6,4 3,7 4,8 2,5 5,5 0,3 0,7 10,7 0,4 2,2 17,4 0,5 1,7 9,3 8,0 4,7 5,9 0,7 13,6 5,2 0,6 0,9 5,9 3,3 0,2 0,2 Nyní rozdělíme reálnou osu na třídy četností + vybereme reprezentanty tříd (většinou středy tříd, až na krajní intervaly, které mají (buď jeden nebo oba) nekonečnou délku): interval (=třída) <0;3) <3;6) <6;9) <9;12) < 12;15) < 15; oo) reprezentant třídy 1,5 4,5 7,5 10,5 13,5 16,5 a) Proveďte intervalové rozdělení četností. b) Spočtěte průměr a rozptyl naměřených hodnot na základě přesných hodnot měření. 166 Fakulta elektrotechniky a komunikačních technologií VUT v Brně c) Spočtěte průměr a rozptyl na základě reprezentantů tříd a vzorců z př. 10.8 b). Příklad 10.3 Jednomu středoškolskému profesoru se nechtělo opravovat písemky z matematiky, a tak se rozhodl udělit známky podle následujícího klíče: a) Hodí kostkou. Pokud padne 6, ohodnotí písemku jedničkou; jinak b) hodí znovu kostkou; pokud padne 5 nebo 6, ohodnotí písemku dvojkou; jinak c) hodí znovu kostkou; pokud padne A, 5 nebo 6, ohodnotí písemku trojkou; jinak d) hodí znovu kostkou; pokud padne 3, A, 5 nebo 6, ohodnotí čtyřkou; jinak e) hodnotí písemku pětkou. Vypočtěte rozdělení pravděpodobnosti, pak příslušné teoretické rozdělení četnosti výsledku zkoušky pro 1296 studentů. Určete střední hodnotu a rozptyl výsledku písemky. Příklad 10.4 Horáček se jde před studiem matematiky občerstvit do hospody. Pije pivo podle následujícího klíče: Padne-li mu při hodu kostkou 1, 2, 3 nebo A, tak aniž by si cokoli objednal, jde zpět na koleje. Padne-li mu 5 nebo 6, poručí si jedno pivo a hází ještě jednou. Padne-li mu 1, 2, 3 nebo A, tak zaplatí a jde na koleje učit se matematiku. Padne-li mu 5 nebo 6, poručí si další pivo a hází ještě jednou, atd. (eventuelně až do nekonečna). a) Odvoďte pravděpodobnostní funkci počtu piv, která Horáček celkem vypije. b) Vypočtěte očekávaný (střední) počet piv, která Horáček vypije. Příklad 10.5 Určete střední hodnotu a rozptyl veličiny X z příkladu 9.14- Příklad 10.6 Určete střední hodnotu a rozptyl veličiny X, jejíž hustota je dána na obrázku 10.61. Obrázek 10.61: K př. 6: Hustota f[x) veličiny X. Matematika 3 167 Příklad 10.7 Stanovte střední hodnotu a rozptyl náhodné veličiny X, jejíž distribuční funkce je dána vztahem Odpovědi na otázky a řešení příkladů viz 15.10. Programovací úlohy Jakýkoliv program na zpracování statistického materiálu, včetně kalkulačky, má některé funkce, se kterými je vhodné se seznámit - obyčejně lze spočítat x, s2, s, apod., a dále je provedeno i rozdělení do tříd četností. Grafické vybavení zpravidla kreslí histogramy četností, ale i další způsoby reprezentace dat - např. polygon (lomená čára spojující jednotlivé četnosti), apod. Příklady 1 a 2 je vhodné zpracovat pomocí dostupného programového vybavení. Přitom jedna poznámka: některé kalkulačky nepočítají rozptyl s2 a směrodatnou odchylku s, ale uvádějí hodnotu • s2, respektive y^-I • s, což jsou hodnoty o něco větší než původní s2 a s. Důvodem zvýšení hodnot je odhadnout neznámý rozptyl měřené veličiny X - odvození tohoto odhaduy viz navazující předmět MPSO magisterského studia. x <1 l Vž. 168 Fakulta elektrotechniky a komunikačních technologií VUT v Brně 11 Binomické rozdělení pravděpodobnosti Cíl kapitoly V této a následujících dvou kapitolách projdeme podrobněji některá rozdělení, jež mají největší využití v technické praxi. Nejprve se seznámíme s binomickým rozdělením. Toto rozdělení pravděpodobnosti je základní a je výchozím pro odvození všech ostatních. A proto úvodní kurs pravděpodobnostních modelů musí obsahovat kapitolu o něm. Seznámíme se se základními vlastnostmi tohoto rozdělení, a pak uvidíme jeho využití ve statistice na znaménkovém testu. Tato kapitola tedy obsahuje také principy, které jsou společné všem statistickým testům. 11.1 Vlastnosti binomického rozdělení Začněme hned definicí binomického rozdělení, kterou pak osvětlíme na několika příkladech. Uvažujme experiment takové povahy, že mohou nastat jen dva různé výsledky, které se navzájem vylučují (nemůže k nim dojít současně): „úspěch" a „neúspěch" („úspěch" nemusí znamenat nic světoborného; označuje se tímto termínem proto, že se jedná o ten ze dvou možných výsledků, na který se ve svých úvahách chceme zaměřit). Pravděpodobnost úspěchu je p, pravděpodobnost neúspěchu 1 — p. Náhodná veličina X, která udává počet výskytů úspěchu při N nezávislých opakováních experimentu, má tzv. binomické rozdělení pravděpodobnosti (s parametry N,p) a nabývá hodnot z množiny {0,1,2,... , N} s pravděpodobností Mluví se zde o nezávislých opakováních experimentu. Slovo „nezávislých" znamená, že výskyt úspěchu při prvním opakování experimentu nemá vliv na to, zda při druhém a dalších opakováních nastane úspěch nebo ne. Skutečnost, že veličina X má binomické rozdělení s parametry N, p, budeme označovat Podívejme se nyní na konkrétní příklady. Příklad 11.1 Hážeme čtyřikrát kostkou. Veličina X udává, kolikrát přitom padne šestka. Jaké je rozděleni pravděpodobnosti veličiny X? Řešení: Pravděpodobnost, že při jednom hodu padne šestka, je rovna p = |. Hody jsou navzájem nezávislé, tj. pokud v prvním hodu padla šestka, nemá to vliv na to, zda ve druhém hodu padne nebo ne. Tedy veličina X, která měří počet šestek při čtyřech hodech, má binomické rozdělení pravděpodobnosti s parametry N = 4, p = |. Podívejme P{X = r) N-r X ~ Bi{N,p). Matematika 3 169 se konkrétně na pravděpodobnosti, s jakými veličina X nabývá konkrétni hodnoty. Bude odtud zřejmé i odvozeni vzorce pro jejich výpočet. 5 5 5 5 P(X = 0) = P{ne 6) • P{ne 6) • P{ne 6) • P{ne 6) =-------= 0,482; 6 6 6 6 P{X = 1) = Pojednou padne 6, jinak něco jiného než 6) = = P(6 padne jako první, jinak ne) + P(6 padne druhá, jinak ne) + +P(6 padne jako třetí, jinak ne) + P(6 padne čtvrtá, jinak ne) = 1555 5155 5515 5 5 5 1 _ 6666 6666 6666 6666 = (všechna možná pořadí výskytu jednoho úspěchu) ■-■ — ■ — ■- = 6 6 6 6 4\ 1 5 5 5 --------= 0,386; 1/ 6 6 6 6 ' ' P{X = 2) = P(dvakrát padne šestka, jinak ne) = 115 5 = (všechny možnosti výběru 2 pořadí ze 4) = *VI. 1.5. «=0,11«; 2/ 6 6 6 6 P(X = 3) = |'f) . i ■ i ■ i « „,015i 3/ 6 6 6 6 p(x=4) - O'G)4-0-001- Všimněte si, že součet těchto pěti pravděpodobností je roven jedné. Při výpočtu jsme zaokrouhlovali na tři desetinná místa. Příklad 11.2 Senátor Swenson před volbami tvrdí, že pro něj bude hlasovat 70% voličů. Agentura STEN chce provést průzkum u 20 lidí. Náhodná veličina X udává počet Swensonových voličů z dvaceti dotázaných. Určete a) teoretické rozdělení veličiny X (před provedením průzkumu); b) pravděpodobnost, že Swensona bude volit přesně 14 lidí z 20 dotázaných; c) pravděpodobnost, že Swensona bude volit maximálně 14 lidí z 20 dotázaných. Řešení: ad a) Dané teoretické rozdělení je binomické s parametry N = 20 a p = 0,7. Veličina X nabývá hodnot z množiny {0,1,2,..., 20} s pravděpodobností P(X = r)= (2®\ ■ 0,7r ■ 0,320~r. 170 Fakulta elektrotechniky a komunikačních technologií VUT v Brně ad b) Dosazením do vzorce a) máme P (X = 14) = 0,192, pokud zaokrouhlujeme na tři desetinná místa. ad c) Zde využijeme finty použité poprvé v příkladu 9.12: abychom ušetřili několik sčítanců, vypočteme pravděpodobnost opačného jevu a odečteme ji od jedničky: P{X < 14) = 1 - P(X > 14) = = 1 - (p(15) + p(16) + p(17) + p(l8) + p(l9) + p(20)) = = 1 - (0,179 + 0,13 + 0,072 + 0,028 + 0,007 + 0,001) = 0,583. Pokud by agentura STEN v předchozím příkladu zjistila, že „pro" bylo jen 8 lidí z 20, pak některý z teoretických předpokladů nebyl v pořádku: • vzorek dotázaných lidí nebyl náhodný (byl z antiswensonovské oblasti státu); • odpovědi nebyly nezávislé (odpovídající mezi sebou navzájem diskutovali o Swen-sonovi); • STEN pracovala dobře, ale Swenson byl příliš optimistický se svým odhadem (to je nejpravděpodobnější problém). Ukažme si ještě graficky tvar binomického rozdělení, například pomocí pravděpodobnostního histogramu. a) Pokud p = 0,5, rozdělení je vždy symetrické (viz obr. 11.62, 11.63, 11.64). b) Pro p 0,5 a malé N je rozdělení asymetrické, ale pro rostoucí N se stává více a více symetrickým (viz obr. 11.65, 11.66, 11.67, 11.68 - na obrázku 11.68 jsou pravděpodobnosti nenulové pro hodnoty 0 až 40, ale při zaokrouhlování na tři desetinná místa jsou hodnoty v bodech 12 a více už rovny nule; Je vidět, že histogram je už poměrně symetrický na rozdíl od obrázku 11.67.). Vypočteme nyní střední hodnotu a rozptyl veličiny X s binomickým rozdělením Bi(N,p). EX = N N /N\ i=0 1=1 ^ ' N N\ ^"í.V 'H- .p'.(l-p)"- = N N-p-^2 (N-iy. p^-a-p) N-i Matematika 3 171 0.35 -0.3 -0.25 -0.2 -0.15 - ( 0.1t ).05 - 0 1 2 3 Obrázek 11.62: Histogram pravděpodobností binomického rozdělení pro N = 3, p = 0,5. 0.3: 0.25 : i 0.2 1 0.15 ž 0.1: _ _ 0.05 ž , I, j I , , I , I , , I , I , , I , I , 0 2 4 6 Obrázek 11.63: Histogram pravděpodobností binomického rozdělení pro N = 6, p = 0,5. Nejprve jsme dosadili do vzorce pro střední hodnotu diskrétní veličiny, vyjádřili kombinační číslo podle definice s využitím faktoriálů, zkrátili í a vyhodili N a jedno p před sumu. Nyní ještě označíme M:=N-1, j:=i-l. Pak totiž M Ml M ÍM\ EX = N-p. Etm-^TTÍ ■ V-*)"-* = (j) 'P3 ■ ^-P)M~3 a na pravé straně posledního vztahu dostáváme sumu, která vyjadřuje součet hodnot pravděpodobnostní funkce binomického rozdělení s parametry M a p, tj. podle jedné ze základních vlastností pravděpodobnosti je rovna jedné. A tak nám zůstává pouze EX = N-p. 172 Fakulta elektrotechniky a komunikačních technologií VUT v Brně 0.25 0.2 0.15 0.1 0.05 H 1 O Obrázek 11.64: Histogram pravděpodobností binomického rozdělení pro N = 10, p 0,5. 3.6 - 3.5 - 3.4 - 3.3 - 3.2 - 0.1: Obrázek 11.65: Histogram pravděpodobností binomického rozdělení pro N = 4, p = 0,1. 0.6 0.5 0.4-0.3 0.2 0.1 Obrázek 11.66: Histogram pravděpodobností binomického rozdělení pro N = 4, p = 0,9. Při odvození hodnoty rozptylu použijeme stejnou taktiku: pokusíme se před sumu něco vytknout, aby zbylé sumování bylo rovno jedné: Matematika 3 173 o.:s - o.;? - o. i- 8 10 Obrázek 11.67: Histogram pravděpodobností binomického rozdělení pro N = 10, p 0,1. 0.2 0.1 5 - 0.1 0.05 8 10 12 Obrázek 11.68: Histogram pravděpodobností binomického rozdělení pro N = 40, p 0,1. N DX = [^.p(i))-(EXy = ,i=0 ' N - ^-(]7_^níV-(i-rt-)-^y = Označíme-li nyní M := N — 1, j := i — 1, dostaneme 174 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Závorku (j +1) v posledním výrazu rozdělíme do součtu dvou sum - v té první sumě bude j, ve druhé bude 1: M ÍM\ M ÍM\ DX = Np^J ■ ( ~P)M~3 + Np^2 l }p3(l-p)M-3 - N2p2. 3=0 V .7 / j=o V J / Nyní už je snadné sečíst obě poslední sumy v právě dosaženém výrazu, protože ta první je podle definice rovna střední hodnotě binomického rozdělení s parametry Map (což je Mp), ta druhá je rovna součtu pravděpodobností binomického rozdělení s parametry M a p (čili jedné). Celkem dostáváme DX = Np- Mp + Np-l- N2p2 = = Np-(N - l)p + Np- N2p2 = Np- Np2 = = Np(l-p). Binomické rozdělení je příkladem toho, že výpočet rozptylu dá vždy víc práce než výpočet střední hodnoty (respektive střední hodnota je jedním z členů při výpočtu rozptylu). Někdy se hodnoty veličiny s binomickým rozdělením uvádějí nikoliv v četnostech i (např. 12 úspěchů ze 20 pokusů), ale v podílech úspěšnosti (např. ^|). Toto binomické rozdělení podílů úspěšnosti má stejné parametry N, p, ale díky jiným hodnotám, kterých nabývá, je zde jiná střední hodnota a rozptyl: N i 1 ,1 EX = ^2 ' P{i) = ' (střední hodnota veličiny četností) = — • Np = p. o N '2 \ 1 / N \ DX = E ^ • p® - (EX)2 = ^ E i2p(o - p N2 \ o = -j-—- ■ (první člen při výpočtu rozptylu veličiny četností) — p2 = Příklad 11.3 Na obrázku 11.69 je histogram pravděpodobnostní funkce binomické veličiny pro p = 0,5, která nabývá hodnot 0, j^, j^,..., Od binomického rozdělení s hodnotami 0, 1, 2,. .., 16 se liší jen jiným značením hodnot na vodorovné ose; jinak jsou příslušné histogramy stejné. Příklad 11.4 Hodíme 400-krát mincí. Náhodná veličina udávající počet líců v těchto pokusech má binomické rozdělení s parametry N = 400, p = 0,5. Příslušné teoretické rozdělení má tyto charakteristiky: a) Hodnoty X jsou v četnostech: EX = Np = 200; DX = Np{\ - p) = 100; \ÍĎX = 10. Matematika 3 175 3-2.5 2-1 .5 r 1-_ 0.5 0 0.2 0.4 0.6 0.8 Obrázek 11.69: Histogram pravděpodobností binomického rozdělení pro N = 16, p = 0,5 s hodnotami relativních četností. b) Hodnoty X jsou v podílech (= relativních četnostech): EX = p = 0,5; DX = P^ ~ ^ = 0,000625; \[ĎX = 0,025. Protože charakter histogramu pravděpodobností je stejný (rozdíl je pouze v označení hodnot na ose x), sobě odpovídající normované hodnoty se rovnají: Například pokud ze 400 hodů padne 210 líců, příslušná normovaná hodnota je 210 - 200 _ íč ~1; 210 lícům odpovídá relativní četnost |^ = 0,525, příslušná normovaná hodnota je 0,525 - 0,5 0,025 Jediné, na co si musíme dávat pozor, je tedy jiná střední hodnota a rozptyl v každém z přístupů a),b). 11.2 Generování binomického rozdělení na počítači Na tomto místě ještě krátká zmínka o simulování hodnot binomického rozdělení. Je to jednoduché, asi by na to každý přišel, ale pro pořádek to zde připomeneme: Vratme se například do příkladu 11.2, kde velečina X udávala počet voličů senátora Swensona z dvaceti dotázaných lidí, přičemž pravděpodobnost, že náhodně vybraný člověk jej bude volit, byla 0, 7. Počítačové generování je jednoduché: Dvacetkrát opakujeme následující věc: poprosíme počítač, aby náhodně vygeneroval reálné číslo z intervalu < 0; 1 > (on to prý umí). Pokud je dané číslo menší nebo rovno 0,7, bereme, že "dotázaný člověk senátora bude volit". Pokud je větší než 0, 7, bereme, že Swensona volit nebude. Nakonec určíme počet voličů Swensona z virtuálních dvaceti "dotázaných", a tento počet je generovanou hodnotou veličiny X. 176 Fakulta elektrotechniky a komunikačních technologií VUT v Brně 11.3 Základní principy statistického testu Jedno z využití binomického rozdělení je ve statistickém znaménkovém testu. Dříve než k němu přistoupíme, na příkladu vysvětlíme jednotlivé kroky statistického testu obecně. Příklad 11.5 Soudní proces jako příklad rozhodovacího procesu. Uvažujme jednoduchý soudní proces, ve kterém existuje pouze jediný možný trest a soud rozhodne, zda se tomuto trestu obžalovaný podrobí nebo ne. A navíc proti rozhodnutí soudu neexistuje žádné odvolání. Jedná se o jakýsi rozhodovací proces, u kterého mohou nastat čtyři možné výsledky: 1. Obžalovaný je vinen a soud jej odsoudí. 2. Obžalovaný je nevinen a soud jej osvobodí. 3. Obžalovaný je nevinen a soud jej odsoudí. Jedná se o chybné rozhodnutí - tuto chybu budeme označovat jako chybu prvního druhu. 4- Obžalovaný je vinen a soud jej osvobodí. Toto rozhodnutí je rovněž chybné - budeme tuto chybu označovat chybou druhého druhu. V každém soudním procesu se musí hledat jistá rovnováha mezi tvrdostí a mírností. Jedním extrémem je liberální soudce, který k usvědčení obžalovaného vyžaduje velké množství důkazů. Takový soudce jen zřídka odsoudí nevinného (zřídka se dopustí chyby prvního druhu), ale dosti často osvobodí viníka (chyba druhého druhu). Druhým extrémem je konzervativní soudce, kterému k usvědčení stačí jen několik důkazů. Takový soudce posílá do vězení i jen při stínu podezření, čili častěji odsoudí nevinného (chyba prvního druhu), ale zřídka osvobodí darebáka (= zřídka se dopustí chyby druhého druhu). Slova „konzervativní" a „liberální" jsou termíny z politiky. V dnešní době už nikdo neví, co znamenají. Tato jejich „statistická" definice navrhuje jejich význam, ale také upozorňuje na nebezpečí každého z těchto postojů. Je otázkou, která z chyb je závažnější - zda chyba prvního druhu, nebo chyba druhého druhu. Všeobecně se má za to, že závažnější je uvěznit nevinného, než osvobodit darebáka. A proto se chybě odsouzení nevinného přisuzuje druh číslo 1 a věnuje se jí větší pozornost. Ale někde musí být stanovena jistá hranice, po jejímž překročení už soud přistoupí k rozhodnutí „vinen" a bez skrupulí člověka potrestá. Všimněme si jedné věci, která platí jako obecný princip. Pokud se soudce snaží být benevolentní a odsoudí člověka až po nahromadění velkého množství důkazů (snižuje tím možnost výskytu chyby prvního druhu), současně narůstá nebezpečí, že i když je obžalovaný vinen, potřebné množství důkazů se nenajde a soud jej osvobodí (roste možnost výskytu chyby druhého druhu). Není to nic světoborného, ale už jsme dlouho neměli žádný rámeček, a proto jej aspoň uvnitř příkladu můžeme použít: Matematika 3 177 Snižováním možnosti výskytu chyby prvního druhu roste možnost výskytu chyby druhého druhu - a naopak: pokud zvyšujeme možnost výskytu chyby prvního druhu, snižuje se možnost výskytu chyby druhého druhu. Z uvedeného rámečku je vidět, že žádnou z chyb není možné naprosto vyrušit: pokud totiž snižujeme možnost výskytu chyby prvního druhu až téměř na nulu, roste tím možnost výskytu chyby druhého druhu do obludných rozměrů a rozhodnutí učiněná tímto stylem jsou nerozumná, až nemoudrá. Strategií v rozhodovacích procesech tohoto typu je tedy zvolit pravděpodobnost výskytu chyby prvního druhu malou, ale ne příliš malou. Shrňme předchozí úvahy do pěti kroků, které popisují celý soudní proces: 1. Stojí proti sobě dvě možná rozhodnutí soudu: Ho ... obžalovaný je nevinen H\ ... obžalovaný je vinen Soud musí rozhodnout právě jednu z těchto variant a toto rozhodnutí je nezvratné, neexistuje proti němu odvolání. 2. Vystoupí žalobce, který předloží nashromážděné důkazy pro platnost H\. 3. Vystoupí obhájce a vysvětlí všechny souvislosti za předpokladu, že platí Hq. Snaží se vidět a vysvětlit všechny argumenty obžaloby ve světle toho, že obžalovaný je nevinen. 4- Porota soudu se odebere k rokování. Bere v úvahu jak množství důkazů a jejich závažnost, tak i argumenty obhajoby a možnost, že tyto důkazy neznamenají nutně vinu obžalovaného, ale v jeho neprospěch hrají jen náhodou. 5. Porota se vrací a vyslovuje svůj verdikt: pokud byla překročena míra závažnosti důkazů pro platnost Hi, obžalovaný je vinen, pokud ne, obžalovaný je osvobozen. Toto rozhodnutí soudu je nezvratné. Právě uvedených pět kroků v příkladu 11.5 se vyskytuje v mnoha rozhodovacích procesech, které nazýváme statistické testy. Tyto principy platí obecně, vyslovme je tedy obecně, už oproštěni od příkladu soudce a obžalovaného (ovšem analogie se soudním procesem zde existuje velice přímá): (Kl) Statistický test obyčejně rozhoduje o tom, zda platí hypotéza Hq (tzv. nulová hypotéza) nebo H\ (tzv. alternativní hypotéza). Tyto dvě hypotézy přitom stojí ve vzájemném rozporu. Ve většině testů Hq tvrdí, že jistá veličina nezávisí na hodnotách určité další veličiny, kdežto H\ tvrdí, že naopak závisí (pro ty, kdo by si chtěli udržet souvislost mezi statistickým testem a soudním procesem, což doporučuji, pomůcka k zapamatování: Hq testu říká nezávisí, a Hq soudního procesu nevinen). 178 Fakulta elektrotechniky a komunikačních technologií VUT v Brně (K2) Stanovíme kritérium (zpravidla určitou funkci), které ukazuje na míru platnosti alternativní hypotézy H\ (určuje „závažnost důkazů" pro H\). Pak provedeme experiment, ve kterém změříme data potřebná pro dosazení hodnot do našeho kritéria. (K3) Kritériem bývá jistá funkce, která při různých měřeních nabývá různých hodnot, je to tedy náhodná veličina. Určíme teoretické rozdělení kritéria za předpokladu, že platí hypotéza Hq. Jinými slovy, popíšeme vlastnosti kriterijní veličiny ve světle toho, že platí Hq. (K4) Na základě teoretického rozdělení kriterijní veličiny stanovíme určitý interval hodnot, kam když padne empirická hodnota kritéria, tak nezviklá naše přesvědčení o platnosti Hq, ale eventuelní dopad hodnoty kritéria mimo tento interval nás povede k názoru, že byla překročena jistá kritická míra, takže usoudíme, že Hq neplatí. Kritickou míru zpravidla určujeme tak, aby pravděpodobnost výskytu chyby prvního druhu (tj. že rozhodneme, že Hq neplatí, když ve skutečnosti Hq platí) byla dostatečně malá, např rovna 0.05 (to se chyby prvního druhu dopustíme nejvýše v pěti procentech případů), ale ne příliš malá, aby nerostla možnost výskytu chyby druhého druhu (tj. že rozhodneme, že Hq platí, když ve skutečnosti Hq neplatí) do nerozumných rozměrů. (K5) Porovnáme empirickou hodnotu kritéria s kritickou mírou. Pokud je kritická míra překročena (hodnota kritéria leží mimo interval nalezený v bodě 4), zamítáme hypotézu Hq ve prospěch alternativní hypotézy H\. Pokud není kritická míra překročena, hypotézu Hq nezamítáme. Nyní ještě jednou definice chyby prvního a druhého druhu - pozor, je to důležité, protože je potřeba si tyto pojmy pamatovat nejen v příkladu o soudci, ale také v termínech zamítnutí nebo nezamítnutí Hq: Tabulka 11.11: Čtyři možné výsledky statistického testu. skutečnost: Hq platí skutečnost: H\ platí rozhodnutí: H0 nezamítáme O.K. chyba 2.druhu rozhodnutí: Hq zamítáme chyba 1. druhu O.K. Další standardní označení se používá pro pravděpodobnost výskytu chyby 1.druhu (značí se a) a pravděpodobnost výskytu chyby 2.druhu (značíme [3). 11.4 Znaménkový test Teď už známe potřebnou terminologii, a proto se pustíme do jednoduchého statistického testu, kterým je znaménkový test (anglicky - the sign test). Vše bude vysvětleno v následujícím příkladu. Matematika 3 179 Příklad 11.6 Chceme ověřit hypotézu, že zvýšeni motivace má vliv na lidskou paměť. Abychom získali určitá data, nebudeme zkoumat všechny lidi na zeměkouli, ale náhodně vybereme 10 lidí, provedeme s nimi test a jeho výsledek vztáhneme na celé lidstvo (tento test vzorku a vztažení jeho výsledku na celek je pro statistiku charakteristický). U vybraných lidí provedeme následující experiment: 1. Každému z vybraných lidí se pomalu přečte 20 slov, a po pěti minutách má zopakovat všechna, která se mu vybaví. Za každé správně zopakované slovo dostává 10 Kč. 2. Přečte se jiných 20 slov a dotazovaný člověk si jich po pěti minutách má opět co nejvíc vybavit - nyní ale za každé správně zapamatované slovo dostává 200 Kč. 3. Znaménkovým testem zjistíme, zda se při zvýšení finanční motivace významně zvýšila vybavovací schopnost daného vzorku 10 lidí. Řešení: Získala se data v tabulce 11.12. Tabulka 11.12: K příkladu 11.6: Data získaná testovým měřením. člověk počet zapamatovaných počet zapamatovaných zlepšení? slov za 10 Kč slov za 200 Kč 1 7 8 + 2 5 7 + 3 6 5 - 4 5 9 + 5 6 7 + 6 5 9 + 7 3 5 + 8 4 5 + 9 8 11 + 10 2 4 + Budeme nyní přesně procházet pět kroků testu představených v předchozím oddílu: (Kl) Stanovme hypotézy Ho a H\: H0 : Vybavovací schopnost člověka nezávisí na velikosti motivace v tom smyslu, že zvýšení motivace nevede ke zvýšení schopnosti zapamatování H\ : Vybavovací schopnost člověka závisí na velikosti motivace v tom smyslu, že se zvýšením motivace roste i zapamatovací schopnost 180 Fakulta elektrotechniky a komunikačních technologií VUT v Brně (K2) Kritériem našeho testového rozhodováni bude počet lidí, u kterých nastalo zlepšeni při zvýšení finanční motivace, tj. počet kladných znamének v posledním sloupci tabulky 11.12. Označme tento počet kladných znaménkových změn jako x. Veličina x tedy udává počet kladných znamének v deseti nezávislých měřeních. (K3) Určeme rozložení pravděpodobnosti náhodné veličiny x za předpokladu, že platí Ho -tj. vysvětleme chování veličiny ve světle toho, že zapamatování nezávisí na motivaci. V takovém případě výskyt kladného znaménka je naprosto náhodný a stejně dobře se místo kladného znaménka může u konkrétního člověka objevit záporné znaménko. Čili pokud je výskyt kladného znaménka u konkrétního člověka náhodný, může k němu dojít s takovou pravděpodobností, s jakou při hodu korunou padne líc - čili s pravděpodobností |. Tedy veličina x při platnosti hypotézy Hq udává počet kladných znamének z deseti situací, přičemž v každé situaci k tomu dojde s pravděpodobností | - ale to nám něco připomíná. To přece znamená, že veličina x má za předpokladu platnosti Ho binomické rozdělení s parametry n = 10, p = 0,5. (K4) Musíme určit kritickou mez xk počtu kladných znamének, při jejichž dosažení už přestaneme věřit, že platí Hq, a usoudíme, že počet kladných znamének je statisticky významný a ukazuje na platnost hypotézy H\. Z toho důvodu musíme blíže prozkoumat pravděpodobnostní funkci p(x) naší diskrétní náhodné veličiny x - viz tabulka 11.13: Tabulka 11.13: K příkladu 11.6: hodnoty funkce p{r) a kumulativní pravděpodobnostní funkce P(x > r) zaokrouhleny na tři des. místa. r p(r) = P(X = r) P(X > r) 10 0,001 0,001 9 0,010 0,011 8 0,044 0,055 7 0,117 0,172 6 0,205 0,377 5 0,246 0,623 4 0,205 0,828 3 0,117 0,945 2 0,044 0,989 1 0,010 0,999 0 0,001 1,000 Matematika 3 181 Pro určení kritické hodnoty je rozhodující právě kumulativní pravděpodobnostní funkce v posledním sloupci tabulky 11.13. Nyní pravděpodobnost, že k výskytu deseti kladných znamének dojde naprostou náhodou, nikoliv na základě závislosti pamatování na motivaci, je rovna P(x > 10) = 0,001; Cili kdybychom hypotézu H0 zamítli v případě výskytu 10 kladných znamének, měli bychom šanci se dopustit chyby prvního druhu (= Ho zamítneme, i když platí) s pravděpodobností 0,001. To je dost nízká pravděpodobnost, což znamená, že riziko výskytu chyby druhého druhu (= Ho neplatí, ale my ji nezamítneme) je naopak veliké. Proto jdeme v tabulce kumulativních pravděpodobností dále: pravděpodobnost, že k výskytu devíti a více kladných znamének dojde naprostou náhodou, nikoliv na základě závislosti pamatování na motivaci, je rovna P(x > 9) = 0,011; Cili kdybychom H0 zamítli pro kritickou hodnotu xk = 9, dopustili bychom se chyby prvního druhu s pravděpodobností 0,011. A tak dále, zkrátka snažíme se najít kritickou hodnotu pro takové riziko a výskytu chyby prvního druhu, které je dost malé (např a < 0,05), ale ne zas příliš malé. Proto se zarazíme u takové kumulativní četnosti, která je menší než 0,05, ale přitom je to největší možná kumulativní pravděpodobnost s touto vlastností. Protože P{x > 8) = 0,055 > 0,05, vrátíme se zpět k nejbližší nižší hodnotě, tj. xk = 9 a pravděpodobnost výskytu chyby prvního druhu je rovna a = 0,011 (tj. pokud při x > xk = 9 zamítneme Hq, máme šanci dopustit se chyby prvního druhu na 1,1%). (K5) Naměřený počet kladných znamének x = 9 je roven kritické hodnotě xk = 9, a tedy zamítáme Ho o nezávislosti ve prospěch alternativní hypotézy H\. Říkáme, že závislost pamatování na motivaci je statisticky významná. V případě, kdy by počet kladných znamének byl menší než xk = 9, bychom Ho nezamítli. Je otázkou, jaké znaménko přiřadit v předchozím příkladu člověku, který má stejnou hodnotu zapamatovaných slov v obou motivačních situacích (to v našich datech nenastalo, aleje to možné). Existují dvě alternativy řešení: buď můžeme stejnou hodnotu u obou finančních podmínek označit znaménkem „minus" (koneckonců o zlepšení se nejedná, čili daného člověka můžeme započítat jako případ potvrzující náhodnost, tj. nezávislost obou veličin), nebo měření u tohoto člověka z testu úplně vypustit (to je asi nejférovější řešení - stejná hodnota u obou podmínek nehovoří pro, ani proti kladné změně). Tato jemnost je příkladem úvah, které musíme někdy provést před konkrétním výpočtovým provedením testu. Vzhledem k tomu, jak byly formulovány hypotézy Ho a H±, se jednalo o tzv. jednostranný test, kdy jsme si všímali pouze významně vyššího počtu kladných znamének. Oboustranný test v případě daného experimentu by bral v potaz i možnost, 182 Fakulta elektrotechniky a komunikačních technologií VUT v Brně že zvýšení finanční motivace vede u člověka k degradaci paměti, což se projeví na extrémně malém počtu kladných změn. V případě oboustranného testu jsou kritické hodnoty dvě (levá a pravá mez jistého intervalu), ovšem v naší situaci je rozumné předpokládat, že zvýšení finanční motivace člověka nedeprimuje, ale naopak povzbudí k lepšímu pamatování, tj. bylo vhodné použít jednostranný test. K oboustrannému testu se vrátíme v kapitole 13. Shrnutí pojmů V této kapitole jsme se senámili s prvním typem rozdělení pravděpodobnosti, které má široké využití v praxi. Veličina X s rozdělením Bí(N,p) nabývá hodnot z množiny íž = {0,1,2,..., N} s pravděpodobností Teoreticky je pravděpodobnostní funkce p{x) tohoto diskrétního rozdělení pravděpodobnosti definována pro každé reálné x, ale hodnot jiných než z množiny íž nabývá veličina X s nulovou pravděpodobností (tj. p(x) = 0, pokud x ^ fž). Seznámili jsme se s pěti kroky statistického testu, které jsou stavebními kameny i ostatních statistických testů, nejen testu znaménkového. V kapitolách 13 a 14 budeme dále studovat test využívající normálního rozdělení pravděpodobnosti (což je nejčastější případ spojitého rozdělení v úlohách praxe). V dalším budeme označovat řeckým písmenem a pravděpodobnost výskytu chyby prvního druhu v daném statistickém testu, [3 pravděpodobnost výskytu chyby druhého druhu. Číslo a slouží k určení kritických hodnot testu, a má proto svůj název -říká se mu hladina významnosti testu. Kromě hladiny významnosti se někdy definuje další pojem charakterizující statistický test daného typu, a sice síla testu: což je pravděpodobnost, že správně zamítneme Hq v situaci, kdy skutečně hypotéza Hq neplatí. Jedná se o pozitivní pojem - čím je síla testu větší, tím je tento test vhodnější k nalezení závislosti mezi danými proměnnými. Ovšem sílu testu většinou neznáme, protože pravděpodobnost (3 často nedokážeme určit. Více o síle testu u U-testu v kapitole 13, a dále v příkladech 4 a 5 ke cvičení v kapitole 14. Se silou testu souvisí i následující věc: pokud naměřená hodnota kritéria nepřekročí teoretické kritické hodnoty, říkáme, že „hypotézu Hq nezamítáme", nikoliv „hypotézu Hq přijímáme". Pokud totiž náš použitý statistický test měl malou sílu, mohlo se stát, že ačkoliv závislost mezi veličinami nenalezl, ona ve skutečnosti existuje a Hq neplatí (co si budeme nalhávat, do jisté míry závisí všecko na všem). Z tohoto důvodu se používá tato „opatrná" terminologie. Další obrat jsme v příkladu už také použili: pokud zamítáme Hq, někdy se říká, Síla jednostranného testu = 1 — [3, Matematika 3 183 že výsledek testu je statisticky významný (resp. závislost mezi studovanými veličinami je statisticky významná, nebo vliv jedné veličiny na druhou je významný). Občas se ve statistice užívá slova vzorek, ovšem v jiném významu než v elektrotechnických předmětech - vzorkem (anglicky "sample") je zde označována vybraná skupina lidí (nebo jiných jednotek) z celé populace, a potažmo to znamená zejména soubor měření provedený u této vybrané skupiny. Tj. délka vzorku označuje počet měření provedený v dané situaci. 11.5 Otázky a příklady ke cvičení U následujících výroků rozhodněte, zda se jedná o výrok pravdivý či nepravdivý. Otázka 11.1 Binomické číslo (^) udává, kolika způsoby lze vybrat k prvků z N-prvkové množiny. Otázka 11.2 Pokud X ~ Bí(N,p), tak veličina X může nabývat pouze hodnot z množiny {1,2,..., N}. Otázka 11.3 Střední hodnota binomického rozdělení je rovna součtu všech jednotlivých pravděpodobností, čili jedné. Otázka 11.4 Kromě veličiny X s binomickým rozdělením udávajícím počet výskytů i lze také měřit veličinu y = ^ relativních četností jj . Přitom platí P{X = i) = P(Y = Otázka 11.5 Chyba prvního druhu nastane tehdy, když lékaři zamítnou podezření na akutní zánět slepého střeva, ale neoperovaný pacient do druhého dne zemře. Otázka 11.6 Zvyšujeme-li při svém rozhodování možnost výskytu chyby prvního druhu, současně stoupá i možnost výskytu chyby druhého druhu. Otázka 11.7 Výsledkem statistického testu je rozhodnutí, zda platí hypotéza Hq nebo Hi, přičemž při rozhodování se můžeme dopustit chyby. Otázka 11.8 Obrat „Hodnota kritéria je statisticky významná" znamená, že statistický test hypotézu Ho nezamítl. Otázka 11.9 Síla jednostranného testuje rovna hodnotě 1—a, kde a je pravděpodobnost výskytu chyby prvního druhu. 184 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Binomické rozdělení pravděpodobnosti Příklad 11.1 V plechovkách se prodává míchaná oříšková směs: 30% oříšky kešu, 40% lískové ořechy a 30% burské ořechy. Student při přípravě na zkoušku z matematiky zanoří ruku do plechovky a vytáhne pět oříšků. a) Jaká je pravděpodobnost, že právě jeden z nich je kešu? b) Jaká je pravděpodobnost, že aspoň jeden z nich je lískový? Příklad 11.2 Basebalový tým Brněnští Draci má pravděpodobnost výhry 0,1 v každém zápase. Jaká je pravděpodobnost, že z 10 zápasů a) žádný nevyhrají? b) aspoň dva vyhrají? Předpokládáme přitom jisté zjednodušení, a sice že výsledek jednoho zápasu nemá vliv na pravděpodobnost výhry v následujícím zápasu, tj. zápasy jsou odehrávány nezávisle na sobě (i když to většinou není pravda a jistý vliv na výkonu hráčů je znát). Příklad 11.3 Honza Kovář pravidelně jezdí hrát skvoš. V každém z 900 po sobě jdoucích dnů zaparkuje své auto na placeném parkovacím místě s parkovacím taxametrem, ale nikdy do něj nevhodí kupón. Pravděpodobnost, že policista daný den zkontroluje taxametr, je rovna 0,1. Vypočtěte, a) kolikrát může Honza očekávat, že dostane pokutu. b) jaká je směrodatná odchylka rozdělení očekávaného počtu pokut. c) jaká je pravděpodobnost, že Honza dostane přesně 90 pokut. d) jaká je pravděpodobnost, že Honza dostane 87 a více pokut. Příklad 11.4 Je prováděn experiment, který má potvrdit, že krysy dávají v potravě přednost mléku před cukerným roztokem. Čtrnácti krysám je dána možnost výběru, dvanáct z nich se napije mléka, jedna cukerného roztoku a jedna usne, aniž by dala čemukoli přednost. Můžeme těmito výsledky statisticky prokázat, že krysy dávají přednost mléku? Proveďte znaménkový test. Příklad 11.5 a) Firma ALFA prodala v osmi z posledních jedenácti let větší objem koly než firma BETA. Stačí to ke statistické podpoře tvrzení, že lidé kupují více ALFA-kolu? b) Firma ALFA říká, že její pivo je lepší, ale firma BETA se ozývá, že její pivo je stejně dobré. 20 studentů FEKT se nabídlo, že se zavázanýma očima ochutnají a anonymně ohodnotí, které pivo je lepší. Kolik z uvedených 20 studentů musí uznat ALFA-pivo za lepší, abychom mohli zamítnout hypotézu Hq, že mezi ALFA a BETA pivem není rozdíl? Pracujte na hladině významnosti 0, 05. Odpovědi na otázky a řešení příkladů viz 15.11 Matematika 3 185 Programovací úlohy Programovací úloha 1 Napište dobrý program pro výpočet kombinačního čísla (^) minimálně pro N < 1000000. Programovací úloha 2 S využitím podprogramu z úlohy 1 napište program, který vypočte pravděpodobnost P (X G< a; b >) pro veličinu X s rozdělením Bi(N,p), kde N < 1000000. Pomoci tohoto programu vypočtěte příklady 3c, 3d. Programovací úloha 3 Napište program, který náhodně generuje hodnoty veličiny X s binomickým rozdělením Bi(N,p) pro uživatelem zadané Nap. Tohle je užitečná úloha, protože někdy chceme náhodné hodnoty veličiny „vyrobit" - tomu se říká simulace náhodnosti. Vřele doporučuji na tuto úlohu přijít. 186 Fakulta elektrotechniky a komunikačních technologií VUT v Brně 12 Poissonovo a exponenciální rozdělení pravdepodobnosti Cíl kapitoly V této kapitole se seznámíme s dalšími dvěma typy rozdělení pravděpodobnosti, které jsou využívány v úlohách technické praxe. I když Poissonovo rozdělení je diskrétní a exponenciální rozdělení spojité, existuje mezi nimi blízký vztah - každé z nich sice používáme k popisu jiné veličiny, ale hodnoty těchto veličin měříme v jedné a téže situaci. Podíváme se také na teorii front, kde se využívá několik pravděpodobnostních modelů, zejména právě Poissonovo a exponenciální rozdělení. Zejména v této kapitole je vidět bohatost užití pravděpodobnostních modelů při popisu reálných situací. 12.1 Odvození Jeden student mi kdysi řekl, že ti matematici si ten vzorec vždy nějak vycucají z prstu. To není pravda. Matematici si vzorec nevymyslí, nýbrž jej objeví. V tomto oddílu společně „objevíme" dvě důležitá pravděpodobnostní rozdělení, a užijeme si tak opravdové matematiky. Uvažujme situaci, ve které dochází k výskytu jistého typu náhodné události -touto událostí může být například příchod zákazníka do fronty, příjezd automobilu na parkoviště, přijetí zprávy SMS, narození dítěte v jisté porodnici, apod. V této situaci opakovaného výskytu náhodné události budeme měřit hodnoty dvou veličin - veličinu X, která udává dobu mezi dvěma po sobě jdoucími výskyty události, a veličinu Y, která měří počet výskytů události za časovou jednotku. Určíme nyní rozdělení pravděpodobnosti obou těchto veličin. Označme pn(t) pravděpodobnost, že v časovém intervalu délky t nastane právě n událostí popsaného typu. Celé odvození vychází z následujících tří předpokladů: 1. Pravděpodobnost výskytu události v intervalu (t,t + h) závisí pouze na /i, nikoli na počtu událostí, které nastaly před okamžikem ŕ, ani na t samotném. Říkáme, že veličina X má nezávislé stacionární přírůstky. Tento předpoklad lze vyjádřit rovnicí 2. Platí: 0 < po(h) < 1. Jinými slovy, pravděpodobnost, že v časovém intervalu délky h k výskytu žádné události nedojde, je kladná, ale menší než 1. 3. Pro malá h nastane v intervalu délky h nejvýše jedna událost, tj. platí pQ(t + h) =pQ{t) -p0{h) Po{h) +Pi{h) = 1. Podíváme-li se blíže na funkcionální rovnici 12.1, vidíme, že se jedná o vlastnost exponentu: základ umocněný na součet je roven součinu základů umocněných na jednotlivé Matematika 3 187 členy. Tedy jejím řešením je funkce, která má argument v exponentu - exponenciální funkce. Napišme ji ve tvaru Po(t) = e~Xt pro t > 0 a kladnou konstantu A. Pokud tuto exponenciální funkci rozvineme podle známého vzorce (viz 1.ročník - Taylorova řada) v nekonečnou řadu xt -, , (Xt? (Xtf Po(t) = e~xt = l-\t + ^-J--^J- + ... a pro malá t zanedbáme členy obsahující t2, ŕ3, atd., máme Po(t) = 1 - Aí. Díky vztahu 12.2 tedy pro malá í platí Pl(t) = Xt. Z charakteru veličiny X je vidět, že její rozdělení je spojité (doba mezi dvěma výskyty může být rovna libovolnému kladnému reálnému číslu). Abychom popsali její rozdělení, stačí najít hustotu f(t) veličiny X. Jak naznačuje název tohoto rozdělení - exponenciální rozdělení pravděpodobnosti - hustotou bude exponenciální funkce. Protože X může nabývat jen kladných hodnot, musí platit f{t) = 0 pro t < 0. Zbývá najít f(t) pro t > 0. V tomto případě bude jednodušší najít nejdříve distribuční funkci F(t) veličiny X, a pak využít toho, že hustota je derivací distribuční funkce (viz kapitola 10). Fw=p t) = 1 - P(X 0. Celkem tedy pro hustotu f(t) exponenciálního rozdělení platí /(*) 0 pro t < 0; A • e"Aí pro t > 0. 188 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Známe tedy už rozdělení veličiny X. Použitím integrace "per partes" lze spočítat podle vzorců z kapitoly 10, že EX = V °X = Yr Naše vymodelované exponenciální rozdělení pravděpodobnosti tedy říká, že k výskytu náhodné události dochází průměrně jednou za j časových jednotek, tj. A-krát za časovou jednotku (takový je význam konstanty A). Pokračujme nalezením rozdělení náhodné veličiny Y. K určení nekonečně mnoha hodnot pravděpodobnostní funkce diskrétní veličiny Y (s názvem Poissonovo rozdělení pravděpodobnosti) budeme potřebovat určit už dříve označené pn(t) pro n > 2. Z výchozího předpokladu číslo 1 platí pro malá h také pn(t + h) = P (v intervalu (0; t) n výskytů, pak mezi t a t + h žádný výskyt) +P(v int. (0; t) (n — 1) výskytů, pak mezi t a t + h jeden výskyt) = Pn(t)-po(h)+pn_1(t)-p1(h). (12.3) Dosadíme-li za po, pi, můžeme přepsat rovnice 12.1, 12.3 ve tvaru Po{t + h) = pQ(t)-(l-Xh), Pnit + k) = Pn(t) ■ (1 - A/i) + Pn-xit) ■ \h pro dostatečně malá h. Úpravou pQ(t + h) -p0{t) h Pnit + h) -pn(t) -A • p0{t), -A • pn(t) + A • pn-i(t), n = 1,2,... h a limitním přechodem pro h jdoucí k nule dostáváme systém diferenciálních rovnic p'n{t) = -A-p„(í) + A-p„_i(í), n = 1,2,3,... (12.4) Systém 12.4 vyřešíme pomocí jedné elegantní metody, na kterou si možná vzpomenete z prvního ročníku: pomocí Z-transformace. V našem případě Z-obrazem posloupnosti (í4(č))n=o Je funkce komplexní proměnné n=0 Matematika 3 189 Dosazením máme p,-. = -A-po(ŕ) (-A-jp„(ŕ) + A-jpra_i(ŕ)) 77=1 oo \n=0 / n=l \Z^znj z Z^l z71-1 \n=0 / n=l Dostali jsme tedy rovnici £^=FW = -A.(£i^)+ft*#. (12.5) 77=0 \77=0 / 77=1 Označme dále 77=0 (čili P(z,t) je Z-obrazem posloupnosti (ř>n(č))£Lo)- derivací podle proměnné í dostáváme 0P(z,t)_ " p'n(t) dt 2^ zn 77=0 Nyní dosazením P(z,t) a dPg^ se rovnice 12.5 zjednoduší na ^ = -A.P(M) + f P(.-.()! P{z,t) z Integrací obou stran podle t dostaneme ln|P(z,r)| = A-í-(--l) \P(z,t)\ = eXt^-V P{z, t) = K ■ e^-V, kde K E {-1; 1}. Protože platí P(z, 0) = po(0) = 1, vidíme, že K = 1, tj. P(z1t) = ext^-1\ Nyní při výpočtu zpětné transformace Z~Y máme 190 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Z-1(>(±-1)) = e-Aí.Z- = e -xt .z-il1 e z | = Aí X2t2 A3ŕ3 z z2-2\ z3-3! a tedy Pn(t) = ^-f- ■ e~xt, n = 0,1,2,3,... A jsme hotovi. Nalezli jsme (respektive objevili) hledané pravděpodobnosti. Většinou se objevené vzorce uvádějí pro t = 1, kde pak pn(l) je pravděpodobnost, že za časovou jednotku t = 1 dojde k n výskytům události. Pokud veličina Y udává počet výskytů události za časovou jednotku t = 1, její rozdělení se nazývá Poissonovo rozdělení pravděpodobnosti: veličina Y nabývá hodnot 0,1, 2, 3,... s pravděpodobností Afe pk = P(Y = k) = — ■ e~x pro k = 0,1, 2, 3,.... rC: Podobnou strategií jako v kapitole 11 (vytýkáním před sumu a sečítáním nekonečné řady) lze ověřit, že pro střední hodnotu a rozptyl veličiny s Poissonovým rozdělením pravděpodobnosti platí EY = DY = A. Tohle je celkem výjimečný fakt - Poissonovo rozdělení je na rozdíl od většiny jiných takové, že jeho střední hodnota je stejná jako jeho rozptyl. Konstanta A má přitom týž význam jako u veličiny X - označuje průměrný počet výskytů události za časovou jednotku t = 1. 12.2 Příklady užití Příklad 12.1 Zdravotnický úřad shromažďuje údaje o nově narozených dětech. Průměrně každé dvě hodiny se narodí další dítě. Určete a) Průměrný počet narozených dětí za rok. b) Pravděpodobnost, že v daném dnu se nenarodí žádné dítě. c) Pravděpodobnost, že v jednom dnu se narodí 20 dětí. d) Pravděpodobnost, že za 4 hodiny se narodí aspoň 5 dětí. Řešení: ad a) Z tohoto úkolu nebudeme dělat vědu. Průměrně jedno dítě za dvě hodiny dává dvanáct dětí za den a 365 • 12 = 4380 dětí za rok. Matematika 3 191 ad b) Základem dobrého využití exponenciálního nebo Poissonova popisu je zvolit si vhodnou časovou jednotku. Pokud hledáme určitý údaj za den, zvolme časovou jednotku jeden den. Druhým krokem po volbě časové jednotky je vypočtení parametru A. V našem případě A = 12 dětí za den (jedná se o průměrný údaj za časovou jednotku). V některých příkladech, máme možnost použít buď exponenciální, nebo Poissonovo rozdělení - ukážeme si nyní obě možnosti. Nejprve tedy označme X dobu mezi dvěma po sobě jdoucími výskyty narození dítěte. Podle podrobného odvození v předchozím oddílu má veličina X exponenciální rozdělení s parametrem A = 12. Pak pravděpodobnost, že daný den se nenarodí nikdo, je rovna P(X > 1) = 1 - P(X < 1) = 1 - F(l) = 1 - (1 - e-12'1) = e"12 = 0,00000614 (využili jsme raději distribuční funkce F(t) než hustoty f(t) exponenciálního rozdělení, abychom se vyhnuli integraci - to je u spojitého rozdělení pravděpodobnosti téměř pravidlem; pro t < 0 je F(t) = 0, pro t > 0 platí F(t) = 1 — e~X4; pro ilustraci - graf hustoty f(t) rozdělení Exp{12) je uveden na obrázku 12.70 ( pro záporná t je rovna nule, pro t = 0 je rovna hodnotě parametru A, pak klesá a asymptoticky se blíží k ose t. Platí J0°° f(t)dt = 1.), graf příslušné distribuční funkce F(t) na obrázku 12.71 ( pro záporná t je rovna nule, pak začíná konkávne růst a asymptoticky se blíží k hodnotě y = 1)). 12- B- \ e- \ \ ■2.1 v -1 -0.8-0.6-0.4-0.2 0.2 0.4 0.6 0.8 1 Obrázek 12.70: Graf hustoty f(t) rozdělení Exp{\2). Druhá možná cesta je užít veličiny Y, která udává počet narození za jeden den. Y má Poissonovo rozdělení s parametrem A = 12, čili hledaná pravděpodobnost je rovna 12° P(Y = 0) = — • e"12 = 0,00000614. ad c) Využijeme veličiny Y zavedené v b) a dosadíme: 1220 P(Y = 20) = —- • e"12 = 0,00968 192 Fakulta elektrotechniky a komunikačních technologií VUT v Brně 1- 0.8: 0.6^ 0.4 - 0.2 1 —0.4 —0.2 0 0^2 0^4 0^6 0^8 i Obrázek 12.71: Graf distribuční funkce F (t) rozdělení Exp{\2). Pro ilustraci - graf pravděpodobnostní funkce Poissonova rozdělení je uveden na obrázku 12.72, graf příslušné distribuční funkce na obr. 12.73. 0.08 -_ o.oe- 0.04-0.02 -_ 0 5 10 15 20 25 30 Obrázek 12.72: Graf pravděpodobnostní funkce p(t) rozdělení Po(12). ad d) Poslední úkol tohoto příkladu je analogický, ovšem otázka je položena tak, že nás zajímá údaj dosažený za 4 hodiny. Musíme tedy změnit časovou jednotku na 4 hodiny. Tím pádem se mění průměrný počet narození za časovou jednotku na A = 2. Označíme-li nyní Y = počet dětí narozených za 4 hodiny, platí Y ~ Po(\ = 2). A tedy P(Y > 5) = p(5) + p(6) + p(7) + ■ ■ ■ = 1 _ (p(o) + p(i) + p(2) + p(3) + p{4)) = 2 f2° 21 22 23 2\ 1 - e"2 • — + — + — + — + — = 0,05265 v0! 1! 2! 3! 4V (místo sečítání nekonečné řady jsme opět odečetli pravděpodobnost opačného jevu od jedničky). Jak je uvedeno na posledním řádku výpočtu, pokud sečítáme několik pravdě- Matematika 3 193 1 0.8 0.6 y 0.4 0.2 5 10 x 1 5 20 25 Obrázek 12.73: Graf distribuční funkce F(t) rozdělení Po(12): funkce s nekonečně mnoha schody, která vyjadřuje kumulativní pravděpodobnosti F(t) = P(Y < t). podobností Poissonova rozdělení (zejména při písemce na kalkulačce), je vhodné člen e A vytknout, místo abychom jím násobili každý člen v závorce zvlášt - ušetříme si práci. Příklad 12.2 Na poště maji být instalovány automaty na prodej známek, které po vhozeni mince vydají přesně za deset sekund žádanou známku. Předpokládáme, že průměrně bude chtít použit automatu šest osob za minutu. Kolik automatů bychom měli instalovat, aby s pravděpodobností 0,95 byl i v době největší frekvence obsloužen každý zájemce bez čekání? Řešení: V dnešní hektické době jsou i ekonomické požadavky neúprosné: čekat deset sekund je nepřijatelné, na 95 % musí být automat k dispozici okamžitě. Klíčem k tomuto příkladu je zjistit, s jakou pravděpodobností přijde jistý počet lidí za deset sekund - to je totiž doba, kdy automat eventuelně někoho obsluhuje a každý další příchozí musí čekat. Zvolme tedy v prvé řadě časovou jednotku rovnu deseti sekundám. Ve druhé řadě pro tuto časovou jednotku určíme průměrný počet příchozích zákazníků: jestliže průměrně přijde šest za minutu, za deset sekund přijde jeden, čili A = 1. Označme Y = počet příchozích zákazníků během deseti sekund. Bystrý čtenář již tuší, že na následujícím řádku prohlásím, že podle přechozího podrobného odvození má veličina Y rozdělení Poissonovo s parametrem A = 1. Položme si nyní následující otázku: Jaká je pravděpodobnost, že během deseti sekund nepřijde více než jeden zákazník (a tedy k okamžitému obsloužení stačí jeden automat) ? p = P(Y < 1) = P{Y = 0) + P(Y = 1) ) (1 + 1) = 0,73. Tedy jediný automat je dostatečný v 73% času. Ovšem v ostatních 27% příchozí zákazník musí čekat, a to je nepřijatelné. Podívejme se, co říká teorie pro dva nainstalované 194 Fakulta elektrotechniky a komunikačních technologií VUT v Brně automaty: Pravděpodobnost, že během deseti sekund přijdou maximálně dva zákazníci, je rovna P(Y < 2) = P(Y = 0) + P(Y = 1) + P(Y = 2) = 0,73 + P(Y = 2) = 0,92. Tedy v 92% času nový příchozí nemusí čekat. To je ovšem podle našeho zadání stále málo. Spočtěme dále pravděpodobnost, že během deseti sekund přijdou maximálně tři: P{Y < 3) = 0,92 + P(Y = 3) > 0,95, a tedy k uspokojení požadavku ze zadání stačí tři automaty. Příklad 12.3 Výrobní zařízení má poruchu v průměru jednou za 2000 hodin. Veličina X představující dobu čekání na poruchu má exponenciální rozdělení. Určete dobu T tak, aby pravděpodobnost, že přístroj bude pracovat delší dobu než T, byla 0,99. Řešení. Pravděpodobnost 0,99 je dost vysoká - proto doba T bezporuchového provozu s touto pravděpodobností bude mnohem nižší než 2000 hodin. Určeme nyní T přesně. V prvé řadě stanovíme časovou jednotku. Nabízí se jednotka 2000 hodin, tj. budeme teď počítat s čísly, kdy 1 = 2000hod. Za druhé stanovíme X, tj. průměrný počet poruch za časovou jednotku: v našem případě A = 1. A tak X ~ Exp(\ = 1). Hledejme teď takovou dobu T, aby P[X > T) = 0,99. Využijeme opět distribuční funkce F(t), protože její hodnoty jsou přímo rovny jistým kumulativním pravděpodobnostem - a jednu z nich můžeme do posledního vztahu dosadit: P(X > T) = 0,99 1 - P(X < T) = 0,99 1 - F{T) = 0,99 F(T) = 0,01 1 - e-AT = 1 - e~T = 0,01 T = 0,01005034 (mezi posledními dvěma řádky je několik kroků vynecháno, ale absolvent prvního ročníku by si s nimi měl poradit). Našli jsme tedy dobu T, po kterou zařízení bude pracovat bez poruchy na 99 %. Ovšem musíme tento údaj prezentovat v rozumnějších jednotkách: Pokud 1 = 2000 hodin, tak T = 0,01005034 = 2000 • 0,01005034 hodin = 20,1 hodin. Matematika 3 195 12.3 Teorie front Přirozeným rozšířením předchozích úvah je teorie front („přirozeným" ne v tom smyslu, že by člověka hned napadlo se tím zabývat, ale že mnohé modely teorie front z Poissonova a exponenciálního rozdělení vycházejí). Zde bude náhodnou událostí příchod zákazníka do fronty Pod frontou nebudeme chápat okluzní frontu nebo válečnou frontu, ale frontu na maso, na mobil, na přístup k tiskárně, frontu u holiče nebo kadeřníka, v menze, apod. S tímto druhem front se každý den setkáváme. Při popisu fronty je potřeba modelovat situaci, kdy do fronty lidé přicházejí a současně z ní odcházejí - ne pryč, ale do jednotky obsluhy (tj. ten, kdo je obsluhován, už není ve frontě). Počet příchodů do fronty za časovou jednotku lze dobře popsat Poissonovým rozdělením. Tempo obsluhy (tj. odchody z fronty) lze dobře popsat exponenciálním rozdělením (doba mezi dvěma po sobě jdoucími odchody z fronty je rovna době obsluhy jednoho zákazníka). Ovšem ve skutečných frontách se vyskytují ještě další parametry, nejen příchody a odchody. V následujícím si budeme všímat různých situací vzhledem k šesti různým parametrům takzvaného Kendallova-Leeova rozšířeného označení (a|fe|c) : (d\e\f). Vysvětleme nyní jejich význam: a. . Typ rozdělení veličiny X popisující počet příchodů do fronty za jednotku času (pokud hodnota tohoto parametru je M, označuje to tzv. Markovského typ příchodů, což znamená, že X má Poissonovo rozdělení; my se zde budeme bavit pouze o tomto typu příchodů do fronty - průměrný počet zákazníků přišlých do fronty za jednotku času budeme značit A). b. . Typ rozdělení veličiny Y popisující dobu obsluhy jednoho zákazníka (hodnota M označuje tzv. Markovského typ obsluhy, kdy Y má exponenciální rozdělení - pak průměrný počet zákazníků obsloužených za jednotku času má pro změnu opět Poissonovo rozdělení - parametr tempa obsluhy budeme označovat /i). c. . Počet paralelních serverů = obsluhovacích pultů. d. . Typ fronty (např. FIFO = first in first out = první člověk ve frontě je ten , kdo bude nejdřív obsluhován; LIFO = last in first out = ten, kdo přišel poslední, bude obsloužen nejdřív (tzv. zásobníková fronta); apod.) e. . Maximální dovolený počet zákazníků v systému (systém = fronta + obsluha). f. . Velikost zdroje, ze kterého zákazníci přicházejí do fronty. Samozřejmě, že matematické modely mají své slabiny - například v tomto oddílu nebudeme uvažovat, že zákazník, který se do fronty jednou zařadí, pak za chvíli změní názor a odejde ještě dříve, než je obsloužen. Kdybychom i tohle chtěli brát v potaz, situace by byla ještě složitější než ty, kterými se budeme zabývat. To je jasný princip -čím přesnější chceme, aby model popisující realitu byl, tím je složitější (a většinou vždy obsahuje určitou míru pravděpodobnosti). Všechny následující modely uvažují tento systém: Zákazníci přicházejí do jediné fronty a řadí se za sebe. Jakmile se uvolní místo v obsluze, která sestává z jednoho nebo více 196 Fakulta elektrotechniky a komunikačních technologií VUT v Brně paralelních serverů, ten, kdo je ve frontě první, odchází z fronty do obsluhy a začne být obsluhován. Obsloužený zákazník odchází pryč. Důležitou otázkou těchto modelů je, zda existuje tzv. ustálený stav (ten neexistuje, pokud tempo A příchodů do fronty za časovou jednotku je větší než tempo /i ■ c (= /i krát počet serverů) obsloužených zákazníků za jednotku času - v tom případě je systém zahlcen). Pokud existuje ustálený stav systému, budeme se zabývat jeho následujícími charakteristikami: pn.. pravděpodobnost, že v ustáleném stavu je v systému (= frontě + obsluze) právě n zákazníků; Ls.. očekávaný (střední, průměrný) počet zákazníků v systému; Lq.. očekávaný počet zákazníků ve frontě (q je z anglického fronta = queue); Ws.. očekávaná doba strávená zákazníkem v systému; Wq.. očekávaná doba strávená zákazníkem ve frontě. Nej důležitější z uvedených charakteristik ustáleného stavu jsou bezesporu pravděpodobnosti pn, protože pomocí nich určíme všechny ostatní uvedené parametry jako střední hodnoty jistých veličin: a) Z definice střední hodnoty diskrétní náhodné veličiny plyne oo n=0 oo n=c b) Vztah mezi L aW: Ls = X ■ Ws, Lq = X ■ Wq. c) Průměrná doba strávená v systému se rovná součtu průměrné doby čekání ve frontě a průměrné doby obsluhy, tj. Ws = Wq + -. li Odtud vynásobením A a užitím b) máme L s = Lq H . li Z posledního vztahu mimo jiné plyne A = /i ■ (Ls — Lq). d) Někdy se díky omezení délky fronty (např. počtem parkovacích míst, počtem telefo- nátů „v pořadí" ve frontě, apod.) další zákazníci nemohou do fronty připojit. Pak Matematika 3 197 zavádíme tzv. ovlivněné (cizím slovem efektivní) tempo příchodů \eff vyjadřující, že ze všech příchozích se do fronty přidá jen jisté procento, tj. Xeff = \-/3, kde/3 G (0;1). V takovém případě platí - Xeff ■ws- Lq = Xeff ■wq- Ls = Lq + Xeff [1 Podívejme se nyní na některé konkrétní modely front. 12.3.1 Fronty typu (M\M\l) : (OD|oo|oo) První dvě M v identifikaci označují Markovského typ fronty (Markovského typ příchodů do fronty ... tempem A za jednotku času; Markovského typ obsluhy ... tempem p za jednotku času) popsaný Poissonovým (popřípadě exponenciálním) rozdělením pravděpodobnosti. Třetí parametr 1 říká, že obsluha sestává z jedné jednotky (serveru, pokladny, apod.). Čtvrtý parametr GD označuje nespecifikovaný typ fronty, kde určení pravděpodobnosti pn závisí pouze na střední hodnotě doby čekání ve frontě (GD jako generál disciplině ... obecný charakter fronty; pokud bychom chtěli studovat vlastnosti fronty, které závisí nejen na střední hodnotě, ale i na konkrétním rozdělení doby čekání, museli bychom typ fronty specifikovat). Dále e = oo ... délka fronty není nijak omezena; / = oo ... velikost zdroje, ze kterého přicházejí do fronty zákazníci, není nijak omezena (ve skutečností je tato hodnota vždy omezena např. počtem obyvatel v republice, apod., ale toto číslo je tak velké, že je můžeme označovat třeba jako oo). Celkem složitým způsobem (Saaty 1961) se odvodí diferenční rovnice pro pn za ustáleného stavu p = ^ < 1, které se celkem lehce vyřeší např. pomocí Z-transformace. Výsledek pro ustálený stav: pn = (1 - p) ■ pn, n = 0,1,2,3, 198 Fakulta elektrotechniky a komunikačních technologií VUT v Brně (tzv. geometrické rozdělení pravděpodobnosti - s ním jsme se už jednou setkali v příkladu 9.12 a zde vidíme další jeho využití). Pak oo oo Ls = n ■ pn = n(l - p)pn = o o = a - p) ■ p ■-H fy) = d-p)-p dp \ o / \l~ PJ 1 - P Ĺn - Ls J1 wq p 1 — p Lx 1 A /i(l-p)' P P(l - P)' Příklad 12.4 Do myčky aut přijíždějí auta na základě Poissonova rozložení se střední hodnotou 5 za hodinu. Doba mytí jednoho auta se řídí exponenciálním rozdělením se střední hodnotou 10 minut. Nemůže probíhat mytí více aut najednou. Určete a) Průměrný počet aut ve frontě. b) Kolik parkovacích míst je třeba, aby se aspoň 80% času všechna přijíždějící auta vešla do fronty. c) Průměrnou dobu, po kterou je linka nevyužitá. d) Průměrnou dobu strávenou zákazníkem v systému. Řešení: A = 5, p = 6 (za hodinu je průměrně umyto 6 aut), p = |, existuje tedy ustálený stav a má smysl určovat jeho charakteristiky. 2 ad a) Lq = ^— = 4,17 = 4 auta. Průměrně budou ve frontě 4 auta. ad b) Máme najít s tak, aby Po +Pi +P2 H-----^Ps > 0,8; Dosazením a využitím vzorce pro součet prvních s členů geometrické posloupnosti máme 1- p + p{l- p) + --- + ps(l- p) > 0,8 , 1 - Ps+1 1-p • -, > 0,8 1 - p 0,2 > ps+1 ln 0,2 s + 1 > —^ = 8,8 m p s > 7,8 Tedy S = 8, z čehož jedno místo v obsluze a 7 míst ve frontě zajistí, že 80 % času se všechna přijíždějící auta vejdou. Matematika 3 199 ad c) po = 1 — p = 0,17, tj. linka je nevyužitá 17% času. ad d) Ws = ^i_p} = 1 hodina, tj. manažer by měl přemýšlet, jak zrychlit provoz myčky. 12.3.2 Fronty typu (M\M\l) : (GD\N\oo) Oproti modelu 12.3.1 je zde jediný rozdíl, a sice ten, že je-li v systému N zákazníků, dalším není dovoleno zařadit se do fronty, čili tempo Xeff zařazení do fronty je menší než tempo A přijíždějících zákazníků. Systém se někdy nazývá systémem se ztrátami, protože někteří zákazníci jsou ztraceni (= díky plné frontě jedou jinam). V případě tohoto modelu nemusí platit p < 1, ustálený stav existuje vždy. Lze odvodit, že _ í Ťv+T ...p = l Pn — \ f 1-p 1-pN+l pro n = 0,l,2,...,N. Odtud .. p = 1; Í2o nPn = l-V+i • Y.0 ■■■ P+X- P' Upravíme-li druhou funkci definující Ls, lze psát 1-P~' 1-P ^ „ = 1-P ± fl-pN+1\ = p(l ~{N + l)pN + Nf/ _pN+l Z^nP 1-pN+l P dp\ l-p J (1 - p)(l - pN+1) 0 a tedy ( ÍL 2 ... p = 1; ^ (i-p)(i-piv+i) - P r i- Dále pravděpodobnost, že zákazník se už do fronty nepřipojí (jede jinam), se rovná p^r, a tedy pravděpodobnost, že přijíždějící zákazník se do fronty připojí, je rovna 1 — pN. Odtud Xeff = A • (1 -Pw). Ostatní charakteristiky určíme ze vztahů Wq = Lq Lq ■ Xeff X(l-pN)' t _ r, Xeff _ j X(l-PN), Lis — Li„ -\ — Li„ -\ . P P 1 L. 200 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Také lze ukázat, že platí ^eff = P ■ {Ls - Lq). Model sice zachycuje skutečnost, že někteří zákazníci jednou jinam díky plné frontě, ale nepočítá se ztrátou dobré vůle zákazníků, tj. s tím, že zákazníci, kteří museli několikrát odjet díky plné frontě, už třeba příště nepřijedou vůbec. Příklad 12.5 Vraťme se k příkladu 12.4 myčky a uvažujme N = 5 + 1 (tj. pět parkovacích míst a jedno místo obsluhy v myčce). Určete a) Kolik aut jede jinam díky plné frontě v průběhu osmihodinové pracovní doby. b) Průměrnou dobu Ws strávenou zákazníkem v systému. Řešení: ad a) PN = P6 = 1 1 5 6 :i)7 "6' = 0,0774, tj. počet odrazených zákazníků za hodinu je A - Ae// = A • pN = 5 • 0,0774 = 0,387; Tedy za osm hodin jedou asi 8 • 0,387 = 3 auta jinam. ad b) L8 N 6 npn = npn = ■ ■ ■ = 2,29 auta; o o Ls 2,29 , , = 0,496 hodin. A, eff 5(1 - 0,0774) Tedy oproti neomezené délce fronty (příklad 12.4) byla doba strávená v systému zkrácena z jedné hodiny asi na polovinu za cenu tří ztracených aut denně. 12.3.3 Fronty typu (M\M\c) : (OD|oo|oo) Tento typ fronty je analogický typu 12.3.1 s tím rozdílem, že může současně být obsluhováno c zákazníků (říkáme, že obsluha má c jednotek). Podmínka existence ustáleného stavu je P ^ - < 1, tj. — < 1 (pro p pc p' Charakteristiky ustáleného stavu: Po Pn = c-l P (S) • Po p ■Po c!(l - £ ... 0 < n < c; ... n > c. Matematika 3 201 Odtud dostaneme Lq = LR = Wn = P c+l (c-l)!-(c Lq + p; Ln Pf ■Po c ■ p (c - Py •Pc, A wq + -. 1 [1 Celkem komplikované výpočty lze aproximovat následujícími vztahy: pro p « 1 pro p = 1 : po • 1 t ■ P Po = 1 - P, Lq = — . {c-p){c-\)\ Lq = c — p Příklad 12.6 V malém městě provozovaly taxislužbu dvě firmy, z nichž každá vlastnila dvě auta. Byly koupeny jedním majitelem, který si položil otázku: Jsou oba dispečinky využity, nestačil by jeden? Na každém z dispečinků jsou objednávky stejně časté, asi A = 10 za hodinu. Průměrná doba jedné jízdy je 11,5 minut. Řešení: Otázka zní: co je lepší - dva systémy (M|M|2), kde A = 10 a /i = 5,217 v každém z nich, nebo jeden systém (M\M\4), kde A = 20 a /i = 5,217? Poměr využitosti linek £ je stejný v obou situacích, ale jiné parametry jsou odlišné: Model (M|M|2) Po = 0,0212, Wq = 2,16 hod. Model (M|M|4) ... po = 0,0042, Wq = 1,05 hod., čili pro zákazníky jasně vhodnější model. 12.3.4 Fronty typu (M\M\c) : (GD\N\oo) Na rozdíl od typu 12.3.3 je nyní N maximální počet zákazníků v systému, tj. (N — c) je maximální délka fronty. Ustálený stav tedy existuje vždy a zde jsou jeho charakteristiky: Po = Pn = Ln = / Vc-1 \^0 n\ (E Í-iN-c + 1)]- l_(P~jN-c+l 1 —1 l-e. f = i; ■Po ■Po 0 < n < c; c < n < N; pc(JV-c)(JV-c+l) Po--2Z\- Po ■ [1 " (f )N~C -(N- c)(f- I)} L„ — Ln (C_l)!(c_p)2 — Č) = Ln eff P f = i; 202 Fakulta elektrotechniky a komunikačních technologií VUT v Brně kde c je očekávaný počet nečinných serverů (c = Ylo(c ~ n)Pn)- (c — c) je očekávaný počet využitých serverů a pro efektivní tempo příchodů \eff platí Xeff = A(l - pN) = ii(c - č). Příklad 12.7 Vraťme se k příkladu 12.6 a modelu typu (M|M|4). Pokud se dispečink omluví, když je ve frontě už 16 žadatelů o odvoz (tj. N = 16 + 4 = 20), pak p0 = 0,00753; Lq = 5,85; p20 = 0,03433 Ae// = A(l - p20) = 19,31; Wq = = 0,303 hod = 18 minut . Xeff Doba čekání ve frontě je tedy dále zkrácena na úkor ztráty p2Q ■ 100 = 3,4% zákazníků. Samozřejmě tento model neříká nic o ztrátě dobré vůle některých zákazníků po dlouhodobém provozu (ve skutečnosti bude ztráta klientely větší než 3,4%). 12.4 Náhodné generování hodnot Po a Exp na počítači V některých oborech (pokud chceme sestavit model fronty na počítači, nebo v jiných oblastech) se někdy využívá tzv. simulace, tj. hodnoty veličin získáváme náhodně. Při náhodném generování veličiny X, která má rozdělení Exp(\), využijeme její distribuční funkce í 0 ... r<0; F^-\ i-e-A* ... t>0. Využijeme toho, že distribuční funkce představuje přechod mezi hodnotami pravděpodobnosti z intervalu (0; 1) a hodnotami, kterých nabývá veličina X. Abychom získali hodnotu veličiny X, náhodně vygenerujeme (to většinou počítač umí - funkce RANDOM) hodnotu p z intervalu (0; 1). Tuto hodnotu p nabývá distribuční funkce v jediném bodě tp, který se nazývá jo-kvantil - viz obr. 12.74. Z rovnice p = F(tp) tedy vypočteme „náhodně vygenerovanou" hodnotu tp: p = l-e~x'tp, tp = -^-ln(l-p). Při náhodném generování hodnot veličiny Y s Poissonovým rozdělením -Po(A) využijeme vztahu mezi exponenciálním a Poissonovým rozdělením - opakovaně generujeme hodnoty veličiny X a sčítáme je, dokud nepřesáhnou danou časovou jednotku; pak náhodná hodnota veličiny Y je rovna počtu těchto opakování zmenšenému o jedničku. Například pro A = 3 generujeme postupně náhodné hodnoty veličiny X, získáváme 0,1626 0,0176 0,2447 0,1318 0,9436 (nyní součet těchto pěti hodnot přesáhl časovou jednotku 1, a proto náhodně získaná hodnota Y je rovna 5 — 1 = 4). Matematika 3 203 1 p 0 1 tp i 2 Obrázek 12.74: Pro kladná t je distribuční funkce F(t) prostá, a proto pro p G (0; 1) existuje jediná hodnota tp G (0, oo) tak, že F(tp) = p. Shrnutí pojmů Exponenciální i Poissonovo rozdělení pravděpodobnosti jsou dva pravděpodobnostní modely popisující tutéž situaci. Příslušné veličiny však vyjadřují různé věci: X ... doba mezi dvěma po sobě jdoucími výskyty události. Toto rozdělení se nazývá exponenciální (značíme: X ~ Exp(\)). X je spojitá veličina, která nabývá kladných hodnot. Y ... počet výskytů události za časovou jednotku. Toto rozdělení se nazývá Poissonovo (označujeme: Y ~ Po(\)). Y je diskrétní veličina, která nabývá hodnot z množiny {0,1,2,3,...}. Parametr A se dosazuje do obou rozdělení tentýž a udává průměrný počet výskytů události za jednotku času. Kromě jednoduchých případů využití slouží obě rozdělení jako odrazový můstek matematického popisu teorie front. Exkurze zde zdaleka nebyla vyčerpávající. Lze odvodit popis dalších systémů, jako je samoobslužný model, fronty s prioritou, sériově řazené fronty, apod. 12.5 Otázky a příklady ke cvičení U následujících výroků rozhodněte, zda se jedná o výrok pravdivý či nepravdivý. Otázka 12.1 Poissonovo i exponenciální rozděleni popisuji různé proměně v téže situaci. Otázka 12.2 Parametr A označuje průměrný (= očekávaný) počet výskytů náhodné události za časovou jednotku. 204 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Otázka 12.3 Veličina s exponenciálním rozdělením je diskrétní veličina. Otázka 12.4 U exponenciálního rozdělení platí EX = DX. Otázka 12.5 Termín „náhodná událost" znamená, že při výskytu SMS nám píše člověk, kterého náhodou neznáme. Otázka 12.6 Teorie front se zabývá délkou fronty např. na koupi mobilního telefonu. Otázka 12.7 Ustálený stav je takový stav ve frontě, kdy se fronta zasekne a už nepostupuje. Otázka 12.8 \eff (tzv. lambda efektivní) udává, kolik zákazníků, kteří se do fronty zařadili, v ní vydrželo stát až do okamžiku obsluhy. Otázka 12.9 Neomezená délka fronty znamená, že se délka fronty může natáhnout až do nekonečna, zkrátka na její délku se nekladou žádné podmínky. Otázka 12.10 Při omezené délce fronty existuje ustálený stav vždy, i pro p > 1. Exponenciální a Poissonovo rozdělení pravděpodobnosti, teorie front Příklad 12.1 Do restaurace přijde průměrně 20 zákazníků za hodinu. a) Pomocí Poissonova rozdělení určete pravděpodobnost, že během pěti minut přijdou aspoň dva zákazníci. b) Pomocí exponenciálního rozdělení určete pravděpodobnost, že během čtvrt hodiny ne- přijde žádný zákazník. Příklad 12.2 Do kanceláře dr. Fajmona přijdou v pracovní době průměrně dva studenti za hodinu. Určete pravděpodobnost, že doba mezi dvěma po sobě jdoucími příchody studenta leží v intervalu (10mín,50mín). Příklad 12.3 Životnost dřevotřískové stěny se řídí exponenciálním rozdělením se střední hodnotou 30 let. Jak dlouhou záruční dobu má výrobce poskytnout zákazníkům, aby relativní četnost stěn, které se rozpadnou během záruční doby, byla v průměru 0,1? Příklad 12.4 Restaurace má jedno obsluhovací okno pro řidiče. Auta přijíždějí v souladu s Poissonovým rozdělením tempem 3 za 5 minut. Doba obsluhy jednoho auta se pohybuje v průměru kolem 1, 5 minuty a má exponenciální rozdělení, určete a) pravděpodobnost, že obsluhovací okno není využito. b) očekávaný počet aut ve frontě na obsluhu. c) očekávaný čas čekání auta ve frontě až do okamžiku, kdy začne být u okna obsluhován. Matematika 3 205 d) pravděpodobnost, že počet aut v systému (= frontě + obsluze) přesáhne 10. e) úkoly a) - d) za předpokladu, že před obslužným oknem (= 1 místo) je na frontu vyhrazeno 9 parkovacích míst a další auta se už do fronty zařadit nemohou (úkol d zde znamená určit pravděpodobnost, že přijíždějící auto se už do fronty nezařadí, protože devět povolených míst je obsazeno). Příklad 12.5 Ve frontě typu [M\M\2) : {GD\oo\oó) je střední doba obsluhy 5 minut a střední doba mezi dvěma příchody do fronty 8 minut. a) Jaká je pravděpodobnost, že oba servery budou nečinné? b) Jaká je pravděpodobnost, že aspoň jeden ze serverů bude nečinný? c) Jaká je pravděpodobnost, že zákazník bude čekat? Příklad 12.6 Na malém parkovišti před vesnickým obchodem jsou pouze tři parkovací místa. Auta přijíždějí v souladu s Poissonovým rozdělením se střední hodnotou 15 za hodinu. Doba parkování je exponenciálně rozdělena se střední hodnotou 10 minut. Zjistěte a) očekávaný počet volných parkovacích míst. b) pravděpodobnost, že přijíždějící auto nenajde volné místo. c) efektivní tempo příjezdů aut na parkoviště. Odpovědi na otázky a řešení příkladů viz 15.12. Programovací úlohy Programovací úloha 1 Sestavte program generující hodnoty veličiny X s Exponenciálním rozdělením a veličiny Y s Poissonovým rozdělením pravděpodobnosti pro uživatelem zadané A. Programovací úloha 2 Pomocí podprogramu z úlohy 1 vytvořte program, který bude simulovat průběh jednoduché fronty typu (M|M|1) : (GD\oo\oo) - bude v čase zaznamenávat a) příchody zákazníka do fronty. b) odchody zákazníka z obsluhy. c) aktuální počet lidí ve frontě. Programovací úloha 3 Sestavte program porovnávající vlastnosti fronty vzhledem k počtu serverů a počtu povolených míst ve frontě. Mohl by odpovídat na následující otázky: jak se změní parametry fronty při změně počtu (přidání nebo odebrání) serverů; jak se změní parametry fronty při změně počtu povolených míst (nebo zrušení popřípadě zavedení omezujících podmínek na frontu); jaký je optimální počet serverů; jaký je optimální povolený počet míst ve frontě; apod. 206 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Příkladem konkrétní řešené otázky je: jaký je optimální počet serverů obsluhy vzhledem ke spokojenosti zákazníka - tj. kolik serverů obsluhy užít, aby pravděpodobnost, že nebude čekat, byla např. aspoň 20%? Ale spokojenost zákazníka často není určující a řeší se spíše otázka: Pokud zisk z jednoho zákazníka je x Kč a náklady na roční provoz a údržbu jednoho serveru jsou P Kč, jaký je při daných parametrech fronty optimální počet serverů, aby celkový roční zisk byl minimálně Z Kč? Matematika 3 207 13 Rovnoměrné a normální rozdělení pravděpodobnosti Cíl kapitoly V minulé kapitole jsme se blíže seznámili už s jedním typem spojitého rozdělení pravděpodobnosti - s exponenciálním rozdělením. V této kapitole budeme se spojitými modely pokračovat - čekají nás další dva. Budeme se zabývat zejména normálním rozdělením, protože to tvoří základ nejčastěji používaných statistických testů. 13.1 Rovnoměrné rozdělení pravděpodobnosti Rovnoměrné rozdělení pravděpodobnosti je velmi jednoduchým typem spojitého rozdělení. Díky tomu je model při popisu konkrétních situací celkem nepřesný. Používáme jej jen zřídka. Ovšem i jednoduché věci se mohou někdy hodit (třeba u zkoušky - když člověk nezná ani to jednoduché, jak potom může znát to složité?). Řekneme, že veličina X má rovnoměrné rozdělení pravděpodobnosti, pokud nabývá hodnot z intervalu < a, b > konečné délky a libovolná hodnota z tohoto intervalu je stejně pravděpodobná jako ty ostatní. Hustota této veličiny je dána vztahem f(f) _ í F-ä - t£; J{) \ 0 ... jinak, pro distribuční funkci F(t) platí (mohli bychom to též odvodit, protože platí F(t) = 1 í 0 • .. t < a; F{t) = 1 t-a 1 b—a .. t G (a; b) 1 1 • .. t>b. Označení rovnoměrného rozdělení je Ro(a, b). Příklad 13.1 Nejmenovaný student bydlící v Bystrci jezdí výhradně tramvají číslo 1. Ovšem nikdy se doma nedívá do jízdního řádu, kdy tramvaj jede - to je pod jeho úroveň. Tramvaj jezdí v šestiminutových intervalech. Student přijde vždy na zastávku naprosto náhodně a čeká na svou oblíbenou „number one". Dobu X jeho čekání na tramvaj lze popsat rovnoměrným rozdělením na intervalu < 0; 6 >. Je pedagogické nakreslit grafy hustoty i distribuční funkce této veličiny (viz obr. 13.75 a 13.76). Když bychom nyní chtěli určit pravděpodobnost, že student bude na tramvaj čekat 4 až 6 minut, podle vzorců z kapitoly 10 máme ŕ ŕ 1 1 P(XG(4;6)) = ^ f(t)dt = ^ Qdt=-. Také platí, že P(X G (4; 6;)) = |5§> tj- hledaná pravděpodobnost je rovna poměru délek dvou úseček. Jinými slovy, rovnoměrné rozdělení zachycuje právě situace geometrické pravděpodobnosti na intervalu (geometrická pravděpodobnost na intervalu je rovna poměru 208 Fakulta elektrotechniky a komunikačních technologií VUT v Brně 0.16- 0.1 - —10 —s —e —a —2. " :> a i> ŕi 10 Obrázek 13.75: Hustota rovnoměrného rozdělení pravděpodobnosti Ro(0;Q). —1 o —: 1 o Obrázek 13.76: Distribuční funkce rovnoměrného rozdělení pravděpodobnosti fžo(0;6). délek úseček - jak bylo řečeno v úvodní kapitole o pravděpodobnostních modelech, vidíme, že tento speciální případ je ve spojitých modelech zahrnut). 13.2 Normální rozdělení pravděpodobnosti Normální rozdělení pravděpodobnosti je rozdělení pro veličiny spojitého typu a má hustotu /(*) = 2tt • o Vzorec této funkce na první pohled nemá příjemný tvar - asi by ji nikdo nechtěl potkat v noci na liduprázdné ulici. Dalo by se spočítat, že střední hodnota veličiny X s rozdělením zadaným touto hustotou je rovna parametru rozptyl je roven parametru a2. Proto budeme značit No(n,a2). Na obr. 13.77 jsou uvedeny grafy hustoty pro a2 stále rovno jedné a různé střední hodnoty na obr. 13.78 je /i = 6 a mění se hodnoty rozptylu a2 ( Při malém rozptylu je rameno grafu hustoty vysoké a úzké, pro větší rozptyl hustota nabývá nižších funkčních hodnot, ale interval s hodnotami významně odlišnými od nuly je širší). U všech těchto grafů hustot platí f^fifydt = 1. Normální rozdělení se stalo slavným díky tomu, co říká tzv. centrální limitní věta: Matematika 3 209 —13 8 Obrázek 13.77: Hustota normálního rozdělení pro různé střední hodnoty \i. 0.8 -0.6 -0.4 -0.2 - 123456789 Obrázek 13.78: Hustota normálního rozdělení pro různé rozptyly a2. Jestliže Xi,X2,...,Xn jsou navzájem nezávislé veličiny, které mají všechny stejné rozdělení (nemusí být normální, ale libovolné, jeho střední hodnota je EXl = /i a rozptyl DXl = a2), pak součtem těchto veličin je náhodná veličina Y (platí Y = Yli Xi) se střední hodnotou EY = N ■ ji a rozptylem DY = N ■ a2, která má pro dostatečně velké N (N > 30) normální rozdělení, tj. platí ŕ 1 (t-JVM)2 P(Ye(a;b))= / -e-^W^dt. Ja V^TľVNa To, že hodně proměnných lze s velkou přesností popsat pomocí normálního rozdělení, je právě důsledkem centrální limitní věty. Následující dvě situace to dokreslují. Příklad 13.2 Y\ udává výsku borovic v daném lese (v metrech). Průměrná výška (= /i) je 50 metrů. Vezměme nyní jeden konkrétní strom, jehož výskaje 54 metrů. Co způsobilo, že vyrostl o 4 metry nad průměr? Hodně různých vlivů: a) Stromek byl zasazen v obzvlášť příznivém období roku, což způsobilo, že vyrostl o lm nad průměr. b) Místo, kde strom roste, získává zdroje hnojiva navíc, což vede k růstu o 2,3m nad průměr. 210 Fakulta elektrotechniky a komunikačních technologií VUT v Brně c) Nešťastnou náhodou byl stromek při sazení nalomen, což znamená, že narostl o l,4m nižší, než mohl. d) Strom má dobré místo na slunci, což mu pomohlo vyrůst o 2m nad průměr. e) Skupina příslušníků antagonistického hmyzu si vybrala strom za svůj domov, což mu vzalo šance vyrůst o 0,6m výš než ostatní stromy. atd. Zkrátka a dobře, vychýlení 4m nad průměr je dáno součtem všech těchto možných kladných i záporných vlivů. Protože těchto vlivů je většinou poměrně dost, výslednou výšku stromu danou soustem všech těchto vlivů lze s velkou přesností popsat normálním rodělením. Příklad 13.3 Y2 udává výsledek zkoušky z matematiky. Vezmeme nyní výsledek zkoušky jednoho konkrétního studenta. Co naň mělo vliv? a) Honza měl den před zkouškou chřipku. To snížilo jeho výkon o 5 bodů. b) Honza si něco tipl a náhodou to trefil - přidalo mu to 2 body. c) Honza chyběl na klíčové přednášce a neměl u zkoušky její kopii - přišel o 5 bodů. d) Profesor byl v dobré náladě a při opravování Honzovi 3 body přidal zadarmo. atd. Opět vidíme, že výsledek Honzovy zkoušky je dán součtem většího počtu navzájem nezávislých náhodných vlivů, a tedy jej lze s velkou přesností popsat normálním rozdělením. Následující příklad by klidně mohl být uveden jako matematická věta, protože se jedná o důležitý důsledek centrální limitní věty (a někdy je také uváděn jako věta - říká se jí Moivre - Laplaceova věta (čti: moávr laplasova)). Příklad 13.4 Specielně i binomické rozdělení lze pro dostatečně velké N dobře popsat (aproximovat, nahradit) normálním rozdělením: Uvažujme například veličinu X, která udává počet líců při 100 hodech korunou. Tato veličina má binomické rozdělení s parametry N = 100, p = ^; EX = Np = 50; DX = Np(l - p) = 25. Tuto veličinu lze vyjádřit jako součet veličin X±, X2, ■ ■ ■, Xioo, kde Xt má binomické rozdělení s parametry N = 1, p = |, tj. udává počet líců v jediném hodu mincí (pro N = 1 se binomické rozdělení někdy nazývá alternativní rozdělení, protože veličina může zde nabývat pouze dvou alternativ: 0 (= číselné vyjádření alternativy „neúspěch") nebo 1 (= číselné vyjádření alternativy „úspěch")). Matematika 3 211 Jako součet stejné rozdelených nezávislých veličin lze tedy X s velkou přesností popsat normálním rozdělením s parametry (pro N = 100^ li = EX = N ■ EX, = Np = 50, o1 = DX = N ■ DX, = Np(l - p) = 25. Cili pro dostatečně velké N lze binomické rozdělení s velkou přesností aproximovat normálním rozdělením se stejnou střední hodnotou a rozptylem. 13.3 [/-rozdělení Uvažujme náhodnou veličinu X udávající výsledky zkoušky z matematiky, kterou lze s velkou přesností popsat normálním rozdělením (viz příklad 13.3)s hustotou fit) a parametry [ix = 75, o\ = 25. Její normované hodnoty (viz př. 10.11, 10.12, 10.13) budeme chápat jako hodnoty veličiny U, kde X - /ix X -75 U = 0~ ri- a platí EU = í t—^L-f(t)dt = — ([ t-f{t)dt-iix- [ f(t)dt 1 . = —[fix - fix ■ 1) = 0; 0~x DU = E(U2) - E2U = EU2 - 0 = j°° (j^^j ■ f(t)dt = i r°° i = — / (t-fjLx)2-f(t)dt = — -a2x = l. °Í J-co °Í Zajímá-li nás pravděpodobnost, s jakou student dosáhne výsledku mezi 75 a 77 body musíme spočítat ľ77 1 (t-7S)2 P(75 < X < 77) = / -=--e--~dt, 75 V27T-5 což je obsah vyšrafované plochy na obrázku 13.79. Tato pravděpodobnost je stejná jako pravděpodobnost, že veličina U nabude hodnot z intervalu určeného příslušnými normovanými hodnotami: ,r ^75 - 75 X- 75 77- 75, P 75 < X < 77) = Pí---<--— <--- = 5 5 5 ŕA i = P(0 < U < 0.4) = / -= • e~—du, Jo v27t což je obsah šrafované plochy na obrázku 13.80. 212 Fakulta elektrotechniky a komunikačních technologií VUT v Brně 0.08 -0.06 -0.04 -0.02 - 0 60 65 70 75 80 85 90 Obrázek 13.79: Obsah šrafované plochy je roven pravděpodobnosti, že X nabude hodnot z intervalu < 75; 77 >. Obrázek 13.80: Obsah šrafované plochy je roven pravděpodobnosti, že U nabude hodnot z intervalu < 0; 0.4 >. Tento obsah je stejný jako obsah šrafované plochy z obr. 13.79. Platí tedy .7.7 77-76 ľ77 1 (t-75)2 ľ^r- I _— • e 2-2B dt = I f(u)du, J75 V27T • 5 715=15 5 kde f(u) je hustota ř7-rozdělení, tj. libovolný integrál z hustoty normálního rozdělení lze převést na integrál z hustoty rozdělení U. Veličina U má tedy normální rozdělení No(/i = 0; a2 = 1), které nazýváme standardizovaným normálním rozdělením (v anglické literatuře Z-distribution; hodnoty veličiny s tímto rozdělením se nazývají Z-values nebo také Z-scores). Výpočty uvedených integrálů jsou dosti pracné (buď musíme užít některou z numerických metod, nebo rozvinout exponenciální funkci v nekonečnou řadu a integrovat člen po členu), a proto se s výhodou používá následujícího postupu: pravděpodobnostní výpočty obecného normálního rozdělení se převedou právě popsaným postupem na Matematika 3 213 výpočet integrálu ř7-rozdělení, pro které byla vypočtena a sestavena tabulka integrálů ((-u) je označení distribuční funkce rozdělení U - jako pravděpodobnost má svůj geometrický význam, což znázorňuje obrázek 13.81). Obrázek 13.81: Obsah šrafované plochy je roven funkční hodnotě distribuční funkce rozdělení U. Protože graf funkce f(u) je symetrický vzhledem ke svislé ose (přímce u = 0), v tabulce nemusí být uvedeny hodnoty pro záporná u. Platí totiž pro u > 0: Pravdivost tohoto tvrzení je patrná z toho, že na obou stranách rovnosti v rámečku je obsah téže plochy. Např. <&(—0,5) = 1 — $(0,5), protože (viz obr. 13.82) funkce f(u) je symetrická a celkový obsah plochy pod křivkou je roven jedné: Hodnoty funkce $(-u) jsou uvedeny v tabulce 13.14 a 13.15. Příklad 13.5 Veličinu X udávající výsledek zkoušky lze popsat rozdělením No(/i = 75; c2 = 25), S jakou pravděpodobností je výsledek zkoušky a) v intervalu < 69; 72 > ? b) menší než 65 ? -3 $(-u) = 1 - ? Řešení: ad a) P(6980) = P [ U > 80 75 ) = P{U >!) = !- P {U < 1) = 5 = 1 - $(1) = 1 - 0,8413447 = 0,1586553. ad d) P(jix - 3ax < X < jix + 3ax) _ p i /-íx 3o~x jix ^ ^ /ix + 3<7X /i^ = P{-3 < U < 3) = $(3) - $(-3) = $(3) - (1 - $(3)) = = 2$(3) - 1 = 0,9973002 Většina hodnot veličiny X leží tedy v intervalu < /ix — 3ax, /ix + 3ax >. Veličina X nabude hodnoty z tohoto intervalu s pravděpodobností 99,7% (= tzv. pravidlo tří sigma). Příklad 13.6 Firma vyrábí balíčky ořechů po 200/cs, přičemž | oříšků jsou burské a j lískové, dokonale se promíchají, a pak se teprve sypou do balíčků. Jestliže koupíme jeden balíček ořechů, jaká je pravděpodobnost, že počet lískových ořechů je v intervalu < 47; 56 >? Řešení. Náhodná veličina X udávající počet lískových ořechů v jednom balíčku má rozdělení Bi{N = 200,p = 0,25), čili px = 50, ax = 37,5. Přímý výpočet P (47 < X < 56) = P(X = 47) + P(X = 48) + • • • + P(X = 56) = 20°V,25470,75153 + f20°V,25480,75152 + • • • + (2°°V,25560,75144 = 47) ' ' V 48 / V 56 = 0,572 218 Fakulta elektrotechniky a komunikačních technologií VUT v Brně byl určen pomoct robustní kalkulačky, která má funkci pro obecnou sumu a také funkci pro vyčíslení kombinačních čísel. Při náhradě daného binomického rozdělení normálním rozdělením se stejnou střední hodnotou a rozptylem (o2x = 37,5 => ox = 6,12) dostaneme výsledek: í AI — ^0 _c,n \ P(47(i) - 4>(-|) = 0,624, což je docela dobrá aproximace přesné hodnoty 0,625. Matematika 3 219 Obrázek 13.86: K př. 13.7 - vhodná aproximace Bi pomocí No užitím korekce. Je vidět, že pomocí korekce lze popsat binomické rozdělení normálním i pro malá N. 220 Fakulta elektrotechniky a komunikačních technologií VUT v Brně 13.4 Generování hodnot rovnoměrného a normálního rozdělení na počítači Vygenerovat hodnotu rovnoměrného rozdělení Ro(a, b) na počítači je velmi jednoduché - stačí počítač požádat, aby vygeneroval reálné číslo r z intervalu < 0; 1 >, a pak náhodnou hodnotu můžeme brát jako a + r • (b — a). Pro r = 0 dostaneme a, pro r = 1 dostaneme b, pro r G (0; 1) dostaneme "něco mezi" a a b. Počítačové generování hodnot normálního rozdělení je už pracnější - v zásadě je postup stejný jako u Exponenciálního rozdělení - viz 12.4. Vygenerujeme hodnotu r z intervalu < 0; 1 >, a pak přes distribuční funkci 5> najdeme r-kvantil k tak, že platí <&(k) = r. A poslední krok spočívá v převedení ř7-hodnoty k normovaného normálního rozdělení na hodnotu x pro obecnou střední hodnotu [i a obecný rozptyl o2: protože x — ii k =-, o dostaneme x ze vztahu x = k ■ o + \i. A x je hledaná generovaná hodnota rozdělení No(fjL,a2). Pokud bychom chtěli tento proces zachytit programem, nejpracnější je ten krok, kdy pro r G< 0; 1 > hledáme k E R tak, aby <&(k) = r. Pro nalezení hodnoty k máme dvě možnosti - tou první možností je zpracovat programem obě z tabulek 13.14, 13.15, což je dosti pracné. Druhou možností je využít jistých skutečností, které program podstatně zjednoduší. Začátek je stejný jako u první možnosti: vygenerujeme hodnotu r z intervalu < 0; 1 >. Nyní potřebujeme najít r-kvantil k tak, že platí <&(k) = r. Platí fk 1 $(k) = / —= ■ e 2 du. 7_no V27T Rozvineme-li exponenciální funkci v integrandu v nekonečnou řadu pomocí vzorce ez = 2 3 l + 2 + fr+3i' + -- - (ten čtenář jistě poznal v prvním ročníku) a zanedbáme od jistého členu (třeba od desátého nebo jedenáctého) všechny ostatní, dostaneme s jistou přesností jednoduchý vzorec pro 5>: fk 1 , u2 u4 1 u6 1 u20 1 , = / -= -(1--+---r----: + ••• +----,)du. J „o v^Ťr 2 4 2! 8 3! 1024 10!; Uvedený polynom dvacátého stupně zintegrujeme - uvědomíme-li si, že při dosazení spodní u2 meze —oo dostáváme ještě pro původní "nerozbalené" e ~ nulu, budeme dosazovat pouze horní mez k a integrovat člen po členu: 1 „ k3 k5 1 k7 1 k21 1 , $(k) = —== ■ (k---1---------- H-----1-----). V2ŤŤ 3-2 5-4 2! 7-83! 21-1024 10!; Dostali jsme krásný vzoreček pro funkci, kde je pár násobení a několik sčítání, takže pro počítač na začátku třetího tisíciletí to není žádný problém. Matematika 3 221 Dále bude fajn si uvědomit, že na 99,7% bude hledaná hodnota k v intervalu < —3; 3 > (tzv. pravidlo tří sigma). Pokud vezmeme interval < —6; 6 >, generovaná normovaná hodnota se zde bude nacházet prakticky (= s přesností na pět desetinných míst) na sto procent (uvažujme 0,5, tak zvolme k\ = 0, k2 = 6; pokud r < 0,5, volme k\ = —6, k2 = 0. Takže pro r ^ 0,5 máme zatím určen interval < k\,k2 > obsahující hledaný kvantil k. A nyní - a to je poslední myšlenka tohoto postupu - budeme dělat něco jako metodu střelby (viz 8.2.2 ... tento název specielně označuje jednu z metod řešení diferenciální rovnice, ale obecně má následující širší použití v různých situacích), a sice zkusmo počítat různé hodnoty funkce <Ě>. Metoda střelby v sobě kombinuje některou metodu řešení nelineární rovnice - použijme třeba tu nejjednodušší, tj. metodu půlení intervalů: Najdeme střed intervalu k$ = fcl+fc2 7 a pak vypočtěme (f)(k3). Pokud ^(k3) = r, tak k := /c3 je hledaný kvantil. Jinak pro ten z intervalů < ki;k$ >, < k$;k2 >, který obsahuje hodnotu r, daný krok zopakujeme, tj. najdeme jeho střed, atd. Jedná se prakticky o metodu půlení intervalů jen s tím rozdílem, že vypočtenou funkční hodnotu 100. (K2) Kritériem testu bude doba X životnosti žárovky podrobené povlakovému procesu. (K3) Pokud nulová hypotéza Ho je pravdivá, veličina X má normální rozdělení s parametry lip = 100, <7p = 25 (tj. rozdělení doby životnosti se povlakovým procesem nezmění). (K4) Najdeme xk tak, aby platilo P(X > xk) = a = 0,05: (i) Převedeme rozdělení veličiny X na U-rozdělení: U = x~100, (ii) V tabulce funkce <& najdeme pro a = 0,05 hodnotu "Ui_Q takovou, že (viz obr. 13.87) Obrázek 13.87: Obsah šrafované plochy je roven P(U > 1,64) = a = 0,05. P{U > Uí_a) i - $Oi_Q) 0,95 "^0,95 = a = a = 0,05 = $K,95) = 1,64 Matematika 3 223 Podle tabulky sice $(1,64) není přesně rovno hodnotě 0,95, ale budeme s jistou přesností říkat, že to rovno je. Číslo 1,64 je vlastně 0,95-kvantil řJ-rozdělení (viz oddíl 12.4), protože pro ten právě platí, že $(1,64) = 0,95. Obrázek 13.87 představuje geometrický význam kvantilu ve vztahu k hustotě: obsah plochy mezi hustotou a osou t na intervalu < —oo;-uo,95 > je roven právě hodnotě 0,95. A tedy obsah zbytku podgrafu (= šrafovaná část) je roven 0,05. (iii) Převedeme tuto U-hodnotu zpět na X-hodnotu: Při nerovnosti „>" mluvíme o pravostranném testu. V případě alternativní hypotézy lip < 0 bychom museli lehce obměnit výpočet kritické hodoty, která by byla menší než 100 a testové rozhodnutí by zamítlo Hq tehdy, když by platilo X < xk (levostranný test pro konkrétní hodnotu necháme na cvičení). Kritickou hodnotu vždy hledáme pro předem zvolenou hladinu významnosti testu a. To nemusí být vždy 0,05, ale třeba 0,01 nebo jiná hodnota - už o tom byla řeč v kapitole 11. (K5) Rozhodnutí testu: pokud naměřená hodnota životnosti žárovky podrobené povlakovému procesu přesáhne kritickou hodnotu xk = 108,2 (tj. odpovídající U-hodnota přesáhne hodnotu 1,64,), zamítáme Hq a uzavíráme, že povlakový proces zvyšuje životnost. (K6) Na rozdíl od znaménkového testu (i když i tam by to bylo možné, ale často se to nedělá) se nyní zabývejme otázkou, jaká je v našem testu pravděpodobnost [3 výskytu chyby druhého druhu, tj. pravděpodobnost výskytu situace, kdy platí Hi, ale test nezamítne Hq. Nutno říct, že obecně tuto pravděpodobnost schopni nejsme určit - lze ji spočítat jen za předpokladu, že známe, o kolik hodin konkrétně povlakový proces zvýší životnost žárovky. Z pedagogických důvodů nyní předpokládejme, že ve skutečnosti povlakový proces zvýší životnost žárovky přesně o 8 hodin. Pravděpodobnost [3 nyní určíme na základě platnosti „nové" hypotézy H±, že životnost X žárovky s povlakem má normální rozdělení s parametry /ip = 108, u2, = 25, ale test nezamítne Hq (naměřené x < xk = Pravděpodobnost [3, že nezamítneme Hq, ačkoliv platí Hi, je rovna obsahu tmavě vyšrafované plochy na obrázku 13.88 - „levá" křivka vyjadřuje rozdělení při platnosti Hq (s extrémem v bodě /i = 100), „pravá" při platnosti H\ (s extrémem v bodě /i = 108). 1,64 xk - 100 5 5 • 1,64 + 100 108,2 108,2). 13 P{U < 0,04) = $(0,04) = 0,516 224 Fakulta elektrotechniky a komunikačních technologií VUT v Brně o 108.2 Obrázek 13.88: Jednostranný test: obsah světle šrafované plochy je roven pravděpodobnosti a, obsah tmavě šrafované plochy je roven pravděpodobnosti [3. Pravděpodobnost toho, že Hq zamítneme správně (oprávněně), když platí H±, se nazývá síla testu (anglicky „power"). Obecně je to pojem pozitivní, protože vyjadřuje jakousi úspěšnost testu. U jednostranného testu platí, že jeho síla je rovna 1 — (3. V našem příkladu síla testu je rovna 1 — 0,516 = 0,484. 13.5.2 Oboustranný test Tento test bychom použili, kdyby naše informace o chemickém povlakovém procesu byly tak nejasné, že bychom nevěděli, zda se povlakem životnost sníží nebo zvýší. (Kl) H\\ lip = 100 (střední doba životnosti se povlakem nezmění). Hi- Pp 100 (střední doba se povlakem změní, ale nevíme, kterým směrem). Alternativní hypotéza H\ se nazývá oboustranná (nebo nesměřovaná). (K2) Kritériem je doba X životnosti žárovky s povlakem. (K3) Za předpokladu platnosti Ho má veličina X rozdělení No(/ip = 100, c2 = 25). (K4) Ho zamítneme tehdy, když naměřená hodnota veličiny X bude příliš malá nebo příliš velká, přičemž obojí má stejnou váhu. Tedy hledáme kritické hodnoty xm, xv tak, aby platilo P{X < xm) + P{X > xv) a oba členy na levé straně měly stejnou váhu, tj. a 0,05 Matematika 3 225 (i) Převedeme x-rozdelení na u-rozdělení: u = —g—. (ii) V tabulce hodnot funkce $ najdeme «s., «i-| tak, aby P{uu1_í) = ^. Pro a = 0,05 dostáváme (viz obr. 13.89) 0,975 = * («0,975) «0,975 = 1,96 Ze symetrie hustoty u-rozdělení dostaneme «0,025 = —1,96. 0.4-/ 0.3 0.2 0.1 -1 .96 0 1 .96 Obrázek 13.89: Význam kritických hodnot oboustranného testu - obsah každého z obou šrafovaných konců je roven |-. (iii) u-hodnoty převedeme na x-hodnoty: x — 100 -1,96 = —-==» xm = 100 - 5 • 1,96 = 90,2 5 x — 100 1,96 = —-z„ = 100 + 5 ■ 1,96 = 109,8 5 (K5) Rozhodnutí testu: Pokud je naměřená (= empirická) hodnota doby životnosti žárovky podrobené povlakovému procesu mimo interval (90,2; 109,8), tj. odpovídající u-hodnota je mimo interval (—1,96; 1,96), zamítáme Hq a uzavíráme, že povlakový proces má vliv na životnost. (K6) Pokusme se i u oboustranného testu určit pravděpodobnost [3 výskytu chyby druhého druhu. 226 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Podobně jako u jednostranného testu toho jsme schopni jen tehdy, když známe skutečnou střední hodnotu veličiny x. Dejme tomu, že ve skutečnosti má životnost střední hodnotu /i = 108 hod (podobně jako u výpočtu [3 u jednostranného testu). Interval pro nezamítnutí Hq je (90,2; 109,8), tj. P = P{x G (90,2; 109,8)) = P (u G ,90,2 - 108 109,8 - 108 5 ' 5 $(0,36) - $(-3,56) = 0,64 - 1 + 0,9998 = 0,6398, )) = 90.2 109.8 Obrázek 13.90: Oboustranný test: součet obsahů obou světle šrafovaných plošek je roven pravděpodobnosti a, obsah tmavě šrafované plochy je roven pravděpodobnosti p\ Na obrázku 13.90 je celá situace vykreslena - „levá" křivka je křivkou hustoty měřené veličiny při platnosti Ho (čili s extrémem /i = 100), „pravá" je křivkou hustoty měřené veličiny při platnosti H\ (čili s extrémem /i = 108). Dále lze určit sílu testu: síla = P(x > 109,8) = P(u > 109,8- 108, = P(u > 0,36) = = 1 - $(0,36) = 1 - 0,64 = 0,36. vidíme tedy u oboustranného testu, že není přesně síla rovna hodnotě 1 — p\ Sílu totiž vždy určujeme jako obsah plochy za kritickou hodnotou na té „straně obrázku", na kterou je „vychýlena" hypotéza H\. Určitý malý kousek P(x < 90,2) = 90,2-108) = $(_3)56) = i_ o,9998 = 0,0002 na „opačné straně obrázku" (na obr. 13.90 je to obsah pod malilinkým kousíčkem křivky „hypotézy Hi" zasahující do levého světlého šrafovaní) se do síly testu „nebere", protože sice vede ke správnému zamítnutí H0, ale k nesprávnému závěru, že životnost /i < 100 (ve skutečnosti totiž /i > 100, přesněji li = 108 hodin). Abychom byli přesní (což se v matematice téměř očekává), budeme tedy dále říkat, že síla testu se u jednostranného testu přesně, u oboustranného testu skoro přesně rovná 1 — p. Matematika 3 227 Další poznámka, a sice k rozdílu mezi právě probraným jednostranným a oboustranným testem: Pokud by životnost pozorované žárovky byla 109 hodin, jednostranný test (s mezní hodnotou xk = 108,2) by zamítl Hq, oboustraný test (s mezní hodnotou xv = 109,8) by Hq nezamítl. Jak je možné, že stejná data vedou při různých alternativních hypotézách k různým rozhodnutím? Když nemáme žádný teoretický podklad toho, že povlakový proces zvyšuje životnost, musí se použít oboustranný test pro pravdivostní obor (90,2; 109,8). a a = 0,05. Kdybychom měli teoretický podklad o tom, že povlakový proces zvyšuje životnost, pro a = 0,05 by platila kritická hodnota xk = 108,2 pravostranného testu, tj. pravdivostní obor je interval (0; 108,2). Kdybychom měli teoretický důkaz o tom, že povlakový proces snižuje životnost, odvodilo by se pomocí jednostranného testu směrovaného na opačnou stranu (= le-vostranného testu), že pravdivostní obor pro nezamítnutí Ho (xk = 100 — 5 • 1,64 = 91,8) je (91,8; oo) pro a = 0,05. Oba jednostranné testy tedy dávají jakýsi „přísnější" pravdivostní obor (91,8; 108,2) pro nezamítnutí Ho, ale pak je celková chyba prvního druhu rovna součtu chyb obou jednostranných testů, tj. a = 0,05 + 0,05 = 0,1 (chyby 0,05 se můžeme dopustit na obě strany). Odpovět v nastoleném dilematu tedy je: pokud nevíme nic o teorii a naměřená životnost žárovky je 109 hodin, pak a) nezamítáme Ho na hladině významnosti 0,05; b) zamítáme Ho na hladině významnosti 0,1. Statistiku bychom nevhodně použili tehdy, když nevíme nic o teorii, životnost upravené žárovky naměříme 109 hodin, řekneme si: „aha, povlakový proces zvyšuje životnost" a vymyslíme teorii, která naše tvrzení podporuje. Výsledky pak publikujeme v odborném časopise pro a = 0,05. Ovšem ve skutečnosti je to jinak - bez teorie musíme publikovat výsledky pouze na hladině významnosti a = 0,1. Jednostranný test pro a = 0,05 lze použít jen při jasném teoretickém základu - např. tehdy, když je naprosto jasné, že povlakový proces nemůže vést k nižší životnosti. Špatné použití statistiky tkví v tom, že na základě jednostranného testu se vyrábí teorie, a pak se publikuje na hladině významnosti 0,05 místo 0,1. Tímto špatným použitím statistiky lze „dokázat" platnost čehokoliv - na určité hladině významnosti lze tvrdit jakýkoliv nesmysl: čím větší nesmysl, tím větší a se musí použít. Shrnutí pojmů Normální rozdělení je mocným nástrojem k popisu dějů a procesů praxe. A dokonce to má i teoretický podklad - díky centrální limitní větě můžeme říct, že mnohé veličiny 228 Fakulta elektrotechniky a komunikačních technologií VUT v Brně závisí na velkém množství přibližně stejných vlivů, a tudíž se chovají „normálně", tj. lze je popsat normálním rozdělením. I když každý člověk v naší republice je jiný, přece jen je v tom několikamiliónovém shromáždění jistý řád. A i v procesech náhodných, jako je rychlost větru nebo množství srážek, je řád. Je to zvláštní, že uprostřed náhody je „zakódován" řád. Jako by to ani nebyla „náhoda", ale jakýsi tanec podle jistých pravidel. V chaosu je řád. Neukazuje to na někoho většího, kdo stanovil pravidla našemu srdci i přírodním procesům? Škoda, že v hodinách matematiky se zamýšlíme jen nad otázkou „jak", a ne „proč". Matematicky vzato, pracné pravděpodobnostní výpočty pomocí normálního rozdělení se převedou na výpočet pomocí standardizovaného normálního rozdělení U = No(0; 1) a využíváme integrace jednou provždy zaznamenané do tabulek. Platí P{x1 f_L_i^)_$f£LZÍf_.). V °x °~x ) \ °~x J \ Ox ) Statistický test popsaný v této kapitole je celkem chudý v tom, že zpracovává jen jediné měření. Abychom získali větší jistotu, že např. povlakový proces zvyšuje životnost jistého druhu žárovek, neprovedeme měření s jednou žárovkou, ale s několika, a pak spočteme například průměr měřených parametrů. Toto přirozené a požadované rozšíření statistického testu na soubor hodnot je obsahem následující poslední kapitoly. 13.6 Otázky a příklady ke cvičení U následujících výroků rozhodněte, zda se jedná o výrok pravdivý či nepravdivý. Otázka 13.1 Pro rovnoměrné rozdělenou veličinu X platí: 2 ' 6 Otázka 13.2 Obrázek 13.75 je z matematického hlediska v pořádku. Otázka 13.3 Centrální limitní věta říká, že součet stejně rozdělených veličin lze dobře popsat normálním rozdělením. Otázka 13.4 5> je označení pro hustotu tzv. standardizovaného neboli normovaného normálního rozdělení No(0;l). Otázka 13.5 Binomické rozdělení Bi(N,p) lze po provedení jisté korekce aproximovat normálním rozdělením i pro malé N. Otázka 13.6 K použití jednostranného nebo oboustranného testu se rozhodneme podle toho, zda máme teoretické podklady o jednostranném vychýlení veličiny při provedení daného experimentu. Matematika 3 229 Rovnoměrné a normální rozdělení, [/-test Příklad 13.1 Prodejna očekává dodávku nového zboží v době od 8 do 10 hodin. Podle sdělení dodavatele je uskutečnění dodávky stejně možné kdykoliv během tohoto časového intervalu. Jaká je pravděpodobnost, že zboží bude dodáno v době od půl deváté do tři čtvrtě na devět? Příklad 13.2 V Kocourkově není stanovena žádná dolní hranice pro složení zkoušky. Jeden zlý profesor se rozhodl, že vyhodí na daném termínu 25 % všech studentů. Jak musí nastavit hranici pro složení zkoušky, pokud z dlouhodobých výsledků ví, že počet bodů na zkoušce lze popsat rozdělením No(/i = 75, a2 = 100) ? Příklad 13.3 Vypočtěte př. 3 c),d) z neřešeného příkladu 11.3 na konci kapitoly 11 (Honza Kovář jezdí hrát skvoš ...). normálním. Příklad 13.4 Je známo, že množství alkoholového likéru, které vypije během víkendu jeden student, má normální rozdělení se střední hodnotou 10 uncí a odchylkou 2 unce (1 unce je asi 0,5 dl, přesněji 1 unce = 0,457375 dl). Je vyslovena hypotéza, že o víkendu, který následuje po ukončení zkoušek, pijí studenti více než obyčejně. Pro ověření hypotézy je náhodně vybrána jedna studentka a zjistí se, že během víkendu po zkouškách vypila 13,5 uncí likéru. Testujte hypotézu, že uvedené množství likéru je nadprůměrné. Příklad 13.5 Podle expertního předpokladu má mít o nový výrobek zájem 20% zákazníků. Z 600 dotázaných zákazníků jich projevilo zájem 135. Na hladině 0,05 testujte hypotézu, že expertní předpoklad se naplnil. Odpovědi na otázky a řešení příkladů viz 15.13. Programovací úlohy Programovací úloha 1 Sestavte program generující hodnoty veličiny X s rovnoměrným rozdělením Ro(a, b) a veličiny Y s normálním rozdělením No(/i, a2). Programovací úloha 2 Sestavte program pro výpočet hodnot distribuční funkce $ pomocí a) rozvoje hustoty v nekonečnou řadu - viz 13.4; b) numerické integrace - viz 7.2.2. Porovnejte získané funkční hodnoty s hodnotami v tabulce 13.15. 230 Fakulta elektrotechniky a komunikačních technologií VUT v Brně 14 Statistický test střední hodnoty průměru měření normálního rozdělení při známém rozptylu Je slušností, aby poslední kapitola byla nejkratší. Budu se toho držet, i když její název (který je nejdelší ze všech názvů kapitol) to nenaznačuje. Cíl kapitoly Až dosud byla řeč o dvou typech rozdělení, a sice teoretickém a empirickém. Nyní do svých úvah přibereme třetí typ rozdělení, který charakterizuje vztah mezi prvními dvěma typy: teoretické rozdělení parametru empirického rozdělení. Toto rozdělení hraje roli ve statistickém testu této kapitoly, což je test střední hodnoty průměru měření veličiny s normálním rozdělením. 14.1 Teoretické rozdělení parametru empirického rozdělení Příklad 14.1 Uvažujme všechny studenty posledního ročníku čtyřletých středních škol v České republice. Všichni píší měsíc před maturitou souhrnný test z matematiky. Je známo, že střední hodnota ohodnocení testu je /i = 500 bodů, směrodatná odchylka o = 100 bodů (jedná se o teoretické rozdělení celé populace maturitních studentů -teoreticky předpokládáme, že rozdělení je stejné jako např. v minulém roce). Náhodně vybereme 9 studentů a z jejich ohodnocení vypočteme průměr xi = 513 a empirickou směrodatnou odchylku s± = 87. Potom opět náhodně vybereme jiných 9 studentů a z jejich ohodnocení testu vypočteme průměr x2 = 485, empirická směrodatná odchylka s2 = 165. Tímto způsobem jsme získali dvě empirická rozdělení počtu bodů vybraného vzorku devíti studentů, první má parametry x\ = 513, Si = 87, druhé má parametry x2 = 485, s2 = 165. Soustřeďme se na některý z parametrů těchto empirických rozdělení, například na empirickou směrodatnou odchylku s. Ta má pro různé náhodně vybrané vzorky devíti studentů různé hodnoty: s± = 87, s2 = 165, atd. Zkrátka - je to náhodná veličina, a jako náhodná veličina má jisté rozdělení pravděpodobnosti. Je tedy možné označit ji velkým písmenem S - malým s jsme označovali pouze konkrétní hodnoty veličin. Pokud bychom rozdělení veličiny S znali, mohli bychom spočítat například pravděpodobnost, že u náhodně vybraného vzorku devíti studentů bude směrodatná odchylka S (řečeno obecně, tj. velkým písmenem, aniž bychom měli na mysli konkrétní měření) ohodnocení testu větší než 110, apod. Toto rozdělení veličiny S má jednu úžasnou vlastnost: nezávisí na datech konkrétního vzorku, ale platí pro celou populaci - říká něco o směrodatné odchylce vzorku, ale nezávisí na žádném konkrétním vybraném vzorku; naopak, obsahuje informace o parametrech všech možných vybratelných vzorků dané velikosti. Proto je toto rozdělení teoretické, i když popisuje směrodatnou odchylku rozdělení empirického!! Říká se mu teoretické rozdělení empirické směrodatné odchylky. Matematika 3 231 14.2 Teoretické rozdělení průměru X Zaměříme se na veličinu X průměru vzorku délky X, protože ta bude základem statistického testu této kapitoly. Píši ji už od začátku velkým písmenem, abych odlišil, že se nejedná o průměr konkrétních hodnot, ale průměr náhodných veličin reprezentujících tyto hodnoty. Pokud měříme hodnoty veličiny s normálním rozdělením No(n, a2), průměr těchto hodnot má také normální rozdělení s parametry, které budeme označovat yU^, a2^. Vypočtěme tuto střední hodnotu a rozptyl: — 1 N 1 N 1 Px = EX = E-Y^X^ - Y,EXl = - ■ N ■ p = ^ i i kde /i je střední hodnota teoretického normálního rozdělení celé populace (protože PY = A*, index X budeme většinou vynechávat). Nyní se musím zmínit o jisté nepřesnosti nebo kolizi značení - pokud si vzpomínáte, v kapitole 10 jsme dosazovali při výpočtu průměru hodnoty xl5 kdežto nyní jsem při výpočtu EX použil (velké) Xj - proč? (Malé) xt značí konkrétní naměřenou hodnotu veličiny X, kterou celou dobu uvažujeme, kdežto velké X značí náhodnou veličinu, jejíž hodnotu malé xt měříme (velké Xj je tedy jakási „teoretická naměřená hodnota"). V podstatě Xj = X, tedy X je průměr X nezávislých stejně rozdělených veličin X. Ale z jistého důvodu „srozumitelnosti" dodáváme zde index i, aby bylo zřejmé, že počítáme průměr něčeho, co lze téměř nazvat hodnotami veličiny X. Tento posun zde vznikl právě tím, že místo konkrétních hodnot xt jsme začali přemýšlet o teoreticky možných hodnotách Xj. Kdybychom tuto úvahu neprovedli a jen slepě dosazovali do vzorce, platí Exl = xl (protože xl je konstanta), zatímco EXl = EX = /i (protože Xl je náhodná veličina). Tento rozdíl je odlišen i v terminologii: vektor (Xi,X2,... ,Xn) nazýváme náhodným výběrem (a odpovídá teoretickému popisu náhodnosti měření), vektor ( Xi, X2, . . . , Xj\t ) nazýváme realizací náhodného výběru (a odpovídá jednomu konkrétnímu souboru měření veličiny X). Při odvozování a2^ využijeme následující fakta: a) DXi = a2 = EX2 -p2^ EX2 = a2 + p2. b) Pokud Xj, Xj jsou nezávislé veličiny (což u náhodného výběru jsou), EX^Xj — EX i ■ EX3 = p ■ p = ii2. c) Suma Xj • X3 má X členů pro i = j a X2 — X členů, kde i ^ j. 232 Fakulta elektrotechniky a komunikačních technologií VUT v Brně A nyní už k vlastnímu odvození: a- x (EYf = E (l f X, = EX 1 Ň*' = j~2 ■ [N(*2 + P2) + (N2 - N)ť] N N ^ i E E XíXj p2 = Jp'EiXl + xNÝ 2 ° » =N- Vidíme, že rozptyl průměru X je jiný než rozptyl veličiny X. Ilustrujme tento fakt na příkladu. Příklad 14.2 Vrátíme-li se k situaci v přikladu 14-1, studujme tvar rozdělení průměru X souboru N hodnot pro různá N: a) Vybíráme-li vzorky studentů velikosti jedna (N = 1), získáváme například x\ = 700 (výjimečně inteligentní student), x2 = 456, x^ = 498,.... Průměr je vždy přímo roven jediné hodnotě vzorku. Teoretické rozdělení průměru je stejné jako původní teoretické rozdělení celé populace studentů před maturitou, tj. /i-^ = 500, = ±sp = 10000. b) Pro N = 25 budou průměry vzorků pětadvaceti studentů stále přibližně na téže hod- notě = 500, zatímco rozptyl bude menší (a^ = 102°5°0 = 400/ Na obrázku 14-91 jsou porovnány hustoty v případě a) a b) - je vidět, že hustota v případě b) nabývá hodnot podstatně odlišných od nuly na mnohem užším intervalu, tj. rozptyl je menší (což se projeví „užším" grafem nabývajícím vyšších hodnot, aby byla zachována vlastnost f(t)dt = 1). 300 400 500 600 700 Obrázek 14.91: Graf hustoty rozdělení průměru X je pro N = 25 užší než pro N = 1. Matematika 3 233 c) Pro N = 200000 (celá populace středoškolských studentů) [i-^ = 500, u^- = 2o°oooo = 0,05. U vzorků velikosti srovnatelné s velikostí celé populace je rozptyl téměř zanedbatelný - průměr vzorku se od střední hodnoty liší jen nepatrně. Rozptyl teoretického rozdělení průměru vzorku tedy pro rostoucí délku vzorku klesá od a2 k nule. Příklad 14.3 Uvažujme situaci příkladů 14-1, 14-% Pro délku vzorku N = 100, tj. a2^ = 10000 100 = 100, čili Ox = 10. a) Jaká je pravděpodobnost, že průměr X ohodnocení vybraného vzorku 100 studentů bude > 513? b) Jaká je pravděpodobnost, že X bude ležet v intervalu < 490; 505 > ? Řešení: ad a) Při řešení použijeme stejného postupu jako v předchozí kapitole: převedení na U-hodnoty a tabulku 13.14, 13.15. Hledaná pravděpodobnost je rovna obsahu plochy S± na obr. 14-92: Obrázek 14.92: Výpočet pravděpodobností v příkladu 14.3. P(X > 513) = P (-^- > ™^») = P(U > 1.3) = 1 - $(1,3) = 0,097. ad b) Pravděpodobnost je rovna obsahu plochy S2: /^490 - 500 505 - 500 P(490 < X < 505) = P -< U < 10 ~ ~ 10 $(0,5) - $(-1) = 0,532. 234 Fakulta elektrotechniky a komunikačních technologií VUT v Brně 14.3 Testy o střední hodnotě průměru při známém rozptylu 14.3.1 Test ,,/i =konst" Kroky testu vysvětlíme na konkrétním příkladu. Základní filozofie je stejná jako u testů v předchozích dvou kapitolách. Příklad 14.4 V situaci z přikladu 14-1 založili studenti FEKT firmu KAPPA a vyvinuli program INTEL, jehož cílem je zlepšit znalosti matematiky u středoškolských studentů, zejména pak zlepšit výsledky souhrnného testu. Chtějí svůj program INTEL otestovat, a proto náhodně vybrali 25 studentů z CR a program zaslali každému z nich. Po provedení testu z matematiky se ukázalo, že průměr ohodnocení daných 25 studentů je x = 540. Otázka zní: lze nyní říct, že program INTEL zlepšuje výkon v testu, nebo se jen náhodou vybralo 25 studentů s vyšším výkonnostním průměrem v matematice? Jedná se o „skutečný" výsledek (= lze jej zobecnit pro celou populaci?), nebo bylo vyššího průměru dosaženo jen díky náhodným faktorům? Tyto otázky nás přivádějí ke statistickému testu, který rozhodne. (Kl) Hq: p = 500 (program intel nemá vliv na zlepšení matematických schopností, tj. střední hodnota bodového ohodnocení testu celé populace studentů i po rozšíření programu všem (celé populaci) zůstane stejná). Hi'. /i > 500 (jednostranný test - můžeme předpokládat, že program znalosti matematiky nezhoršuje). (K2) Kritériem volíme právě veličinu X, která teoreticky popisuje průměr hodnot (viz 14-2). (K3) Za předpokladu platnosti H0 má veličina X parametry [i-x = 500, = — = 400 ==> 1.64, zamítáme Ho na hladině významnosti a. V našem případě náhodná veličina X nabyla při měření hodnoty x = 540, tedy příslušná U-hodnota je u = 5402^)500 = 2 > 1,64. Proto zamítáme H0 a uzavíráme, že program „skutečně" zlepšuje matematické schopnosti studentů. Snad pro zopakování uvedeme souvislost testu s pojmem podmíněné pravděpodobnosti (viz 9.4): V průběhu testu jsme vlastně počítali podmíněnou pravděpodobnost P(X > 5401-ř/o platí) (čti: pravděpodobnost, že X nabude hodnoty větší nebo rovny 540, pokud Matematika 3 235 Ho platí; tomu, co v uvedeném zápisu následuje za svislou čarou, se říká podmínka; podmíněná pravděpodobnost je pak pravděpodobnost události zaznamenané před svislou čarou vypočtená za předpokladu, že platí podmínka. Protože a = 0,05 = p{x > 532,8|iío platí), je očividné, že p(x > 540\H0 platí) < a; přesněji (viz obr. 14.93) O 440 460 480 500 532.8 560 Obrázek 14.93: Ad př. 14.4 - hustota rozdělení veličiny x za předpokladu, že platí Hq. a = 0,05 = P(532,8 < x < 540\HQ platí) + p(x > 540\HQ platí) = s (a) + s(b). Protože podmíněná pravděpodobnost p(x > 540|iío platí) = s(b) je menší než naše a = 0.05 = S (a) + S(b), uzavíráme, že něco z našich výchozích předpokladů nebylo správné - to „něco" je hypotéza Ho. Samozřejmě, že kromě Ho jsme měli i další výchozí předpoklady, např. naše data mohla být ovlivněna tím, že a) Náš vzorek 25 studentů nebyl náhodný (byl z vysoce výběrové školy). b) Kolega při opisování dat omylem zapsal některá ohodnocení vyšší než ve skutečnosti. Ale vlivy typu a),b) mohou být vyloučeny správným naplánováním a provedením měření, takže se v podobných případech většinou uzavírá, že nízká pravděpodobnost p{x > 5401-ř/o platí) je důsledkem toho, že nesprávný byl předpoklad platnosti Hq. 14.3.2 Test = /i2íl Příklad 14.5 Vraťme se k situaci z příkladů 14-1 a 14-4- Ředitel firmy kappa zjistil, že konkurenční softwarová firma delta rovněž vyvinula program pro výuku matematiky (s názvem kill). Zavolal si proto svého firemního psychologa a požádal ho, aby zjistil, který z obou konkurenčních programů intel a kill je lepší, tj. který více zvyšuje 236 Fakulta elektrotechniky a komunikačních technologií VUT v Brně úroveň matematických znalostí. Psycholog získal kopie obou programu. První z nich předal 32 náhodně vybraným studentům, druhou jiným 32 náhodně vybraným studentům. Po provedení testu z matematiky získal od těchto 64 studentů výsledky jejich ohodnocení a spočetl průměry příslušných hodnot. U programu INTEL x\ = 600, u programu KILL x2 = 533 (v obou případech velikost vzorku N = 32). Aby zjistil, do jaké míry je jeho měření reprezentativní a zda rozdíl průměrů není pouze náhodný (tj. způsobený např. tím, že program INTEL byl rozdán mezi studenty, kteří byli náhodou chytřejší, ale ne tím, že by INTEL byl lepší než KILL), sáhne ke statistickému testu: (Kl) H0: iii = /i2 (kdyby se oba programy distribuovaly celé populaci, výsledná střední hodnota ohodnocení by byla u obou stejná). Hi: I1! 7^ P2 (musíme použít oboustranný test, protože nevíme, který z programů je lepší). (K2) Testovým kritériem bude rozdíl náhodných veličin X\ — X2 s konkrétní naměřenou hodnotou x\ — x2 = 600 — 533 = 67. (K3) Za předpokladu platnosti Ho je rozdělení kritéria X\ — X2 normální, vypočteme jeho střední hodnotu a rozptyl: E{X1 - X2) = EX1 - EX2 = /i1-ii2 = 0, poslední rovnost platí proto, že předpokládáme platnost Ho, tj. \i\ = /i2. Při výpočtu rozptylu využíváme předpoklad nezávislosti veličin Xi, X2, tj. platnosti vztahu • X~2) = EXl ■ EX~2 Dále D(X1-X2) = E(X1-X2)2-E2(X1-X2) = = E(xT-2X~1-X~2+X21)-(fi1-fi2)2 = = EXi — 2[ix[i2 + EX2 — n\ + 2[i — \[i2 — n\ = = (EX2 - iij) + (EX2 - ii22) = DXl + DT2 = 0 o 10000 10000 = cr? + a2 =--1--= 625. 1 2 32 32 Pokud = 625, tak a-j^_x^ = \/Q25 = 25. Pro náš příklad není nutné, aby obě vyšetřované skupiny měly stejný počet studentů - jiný počet studentů v každé skupině by se projevil pouze na tom, že v posledním řádku odvození by v obou jmenovatelích nebylo číslo 32, ale číslo vyjadřující velikost dané skupiny. Matematika 3 237 (K4) Pro a = 0,05 jsou kritické U-hodnoty oboustranného testu stejné jako u oboustranného testu v kapitole 13: um = —1,96, uv = 1,96. (K5) Rozhodnutí testu: Pokud příslušná U-hodnota ~X\ — X~2 — 0 25 neleží v intervalu (—1,96; 1,96), zamítáme Ho na hladině významnosti a. V našem případě - = — = 2,68 => zamítáme Ho 25 25 o nezávislosti, program INTEL je lepší než program KILL. Test v příkladu se liší od předchozího testu pouze krokem (K3), kde jsme museli určit rozdělení rozdílu dvou náhodných veličin. Shrnutí pojmů Testy uvedené v této kapitole jsou příkladem prvních „praktických" statistických testů, které jsou užívány. Naměříme hodnotu jedné veličiny u jedné skupiny pozorování, popřípadě u dvou, vypočteme průměr měření v každé ze skupin a tento průměr podrobíme jednostrannému nebo oboustrannému statistickému testu. Ovšem přitom v těchto testech tiše předpokládáme, že rozptyl a2 celé populace je známý. To ale většinou není pravda a my jej musíme odhadnout (přibližně určit) z naměřených hodnot. Díky větší míře nejasnosti pak kritérium analogického statistického testu, který nepoužívá přímo u2, ale jeho odhad s2 (viz kapitola 10), nelze popsat normálním rozdělením, ale tzv. r-rozdělením - příslušný statistický test je v literatuře nazýván r-test. To už je ale obsahem navazujícího kursu MPSO v magisterském studiu FEKT. 14.4 Otázky a příklady ke cvičení U následujících výroků rozhodněte, zda se jedná o výrok pravdivý či nepravdivý. Otázka 14.1 Teoretické rozdělení je získáno na základě teoretických úvah, kdežto empirické rozdělení je získáno na základě měření Otázka 14.2 Empirické rozdělení je popsáno několika veličinami, které jsou náhodné, protože pro různá opakovaná měření mají různou hodnotu. Otázka 14.3 Rozptyl průměru X je pro rostoucí počet měření stále menší. Otázka 14.4 Rozptyl rozdílu náhodných veličin je roven rozdílu jednotlivých rozptylů. 238 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Test střední hodnoty průměru Příklad 14.1 Rozdělení výsledku testu v autoškole má parametry \i = 80, o = 9. a) Najděte /i-^, cr^ pro N = 100 vybraných testů. b) Zjistěte, u kolika procent vzorků délky N = 100 se dá očekávat, že jejich průměr X bude větší než 87. Příklad 14.2 Výrobce pružin prohlašuje, že jeho výrobek má střední hodnotu zlomu 60 kg a směrodatnou odchylku 3,5 kg. Testujte, zda odpovídá tvrzení skutečnosti, je-li pro 49 náhodně vybraných pružin průměr zlomu X = 55 kg. Volte a = 0, 01 (váš statistický cit vám říká, že je vhodné užít oboustranný test). Příklad 14.3 Je známo, že doba běhu mravenečníka z jeho boudy na místo, kde se mu vydává potrava, má rozptyl a2 = 4. Pracovníky brněnské ZOO zajímá, zda mají mrave-nečníci raději lískooříškové máslo, nebo ovocné želé. Proto je skupině tří mravenečníků servírováno k obědu lískooříškové máslo, skupině pěti jiných mravenečníků ovocné želé a měří se rychlost jejich reakce na jídlo, respektive doba běhu k misce s potravou. Získala se tato data: lískooříškové máslo: 3,2,4; ovocné želé: 7,11,9,5,8 (v sekundách). Testujte, zda se obě skupiny mravenečníků statisticky významně liší. Příklad 14.4 Určete sílu testu z příkladu 14-4 ve výkladové části, pokud ve skutečnosti program INTEL zlepšuje ohodnocení testu z matematiky o 35 bodů (tj. platí H\ : \i = 535). Příklad 14.5 Určete sílu testu z příkladu 14-2, pokud víte, že ve skutečnosti střední hodnota bodu zlomu pružiny je /i = 59 kg. Odpovědi na otázky a řešení příkladů viz 15.14 Programovací úloha Vytvořte program provádějící statistický test střední hodnoty průměru při známém rozptylu pro oba typy testu (v/i = konst" i v/ii = yU2") a následující tři typy alternativní hypotézy H\\ kvantitativní, levostrannou, pravostrannou. Pro jednoduchost hodnoty distribuční funkce 5> zadá uživatel. Matematika 3 239 Závěr Je poměrně náročným úkolem představit v jednosemestrovém předmětu dva celkem rozsáhlé obory matematiky, z nichž každý by mohl zabrat i třeba celý rok studia. Přesto jsme se o to museli pokusit. Text nemá encyklopedický charakter - mnohé metody a přístupy musely být vypuštěny za cenu toho, aby bylo možné ty základní vybrané vyložit podrobněji a v takovém stylu, že jsou snad pochopitelné i bez další literatury. A i vybrané partie musely být vyloženy v rychlém tempu, bez mnohých důkazů a odvození, text by jinak narostl do neúnosných rozměrů. Jsme přesvědčeni o tom, že věnovat každé z obou částí předmětu menší prostor není možné. Co se týká matematických předmětů navazujícího magisterského studia FEKT, numerické metody, zejména řešení diferenciálních rovnic, bude prohloubeno v předmětu MODERNÍ NUMERICKÉ METODY (MMNM). Některé další statistické testy budou probrány v navazujícím předmětu magisterského studia STATISTIKA A OPERAČNÍ VÝZKUM (MPSO). Ad numerické metody První kapitola, o chybách, je v podstatě převzata ze skript [3]. Všechny další části jsou zkompilovány z různých zdrojů. Studenti, kteří by se chtěli seznámit s numerickými metodami podrobněji, včetně některých důkazů, si mohou prohlédnout např. některou z knih [8] nebo [10]. Zvlášt první z nich je však psána spíše pro zkušenější čtenáře. Irena Růžičková Ad pravděpodobnost Kromě zápisků ze svého studia pravděpodobnosti na vysoké škole (Doc. RNDr. Jaroslav Michálek, CSc.) jsem vycházel zejména z učebnice [7], která je sice určena posluchačům netechnických škol, ale obsahuje srozumitelnou prezentaci pravděpodobnosti a statistiky, díky níž lze pochopit mnohé. Skriptum [11] má širší záběr a lze v něm najít mnohé vztahy, rozdělení pravděpodobnosti a definice, o kterých v tomto textu není zmínka. Z učebnice [9] operačního výzkumu a optimalizačních metod pochází partie o teorii front v kapitole 12.3. Uvedený text je jen úvodem do pravděpodobnosti a statistiky. Jistým přirozeným pokračováním je terie intervalových odhadů, t-test, F-test, analýza rozptylu, regresní analýza, testy post hoc a testy plánovaného srovnání, rozdělení %2 (čti: chí kvadrát), neparametrické testy - vše je obsaženo v učebnici [7] a většinou je zpracováno v rámci magisterského předmětu MPSO http://www.umat.feec.vutbr.cz/~fajmon/mpso/mpso.pdf. Břetislav Fajmon 240 Fakulta elektrotechniky a komunikačních technologií VUT v Brně 15 Odpovědi na otázky a výsledky příkladů ke cvičení 15.1 Výsledky vstupního testu ad 1.1 a) f, b) -§, c) d)4j. ad 1.2 ai = \, a2 = 1, a3 = f, lim^-oo an = 2. ad 1.3 b2 = \,bz = 0,b4 = 0. ad 1.4 x = -2,y = 3,z = l. ad 1.5 f'{xo) je směrnice tečny ke grafu funkce / v bodě [xo, f(xo)]. (Doplňující otázka: Co je to směrnice?) ad 1.6 Funkce nabývá lokálního maxima v bodě x = |, f{\) = ^. Funkce je rostoucí na intervalu (—oo, \) a klesající na intervalu (|,oo). Minimum funkce / na intervalu (—1,1) je v —1, a to —e2, maximum na tomto intervalu je v |, jeho hodnota je ^. ad 1.7 1. Obsah plochy pod grafem funkce y = sin x na intervalu (0, -|) . ad 1.8 Ověření: L = y' = -j^, P = -2x{^f = -j^, L = P. y(0) = ^ = 1. y(x1) = 0,8,y(x2) = 0,5. ad 1.9 Ověření podobně jako v předchozím příkladu. Řešení vyhovující okrajovým podmínkám: y = 2x + (1 — |) sin2x. ad 1.10 27. ad 1.11 10! (faktoriál čísla 10). ad 1.12 Stačí vzít 3 ponožky. Dvě z nich budou určitě stejné barvy, ad 1.13 (3°), tj. = 120. ad 1.14 Zatímco příklady 1.10,1.11,1.12 a 1.13 jsou celkem základní, příklad 1.14 a 1.15 jsou pokročilé a v přednášce jejich znalost nebude potřeba. Společně s předchozími čtyřmi příklady však patří do oblasti tzv. kombinatoriky, která zejména hledá odpověď na otázku, kolik je všech různých případů jistého typu. Správná odpověď je zde (2) = 15. Proč výběr všech možných dvojic ze šesti prvků? Představte si čtyři kousky ovoce, které si beru, vyskladane na stůl vedle sebe. Nejprve banány, pak pomeranče, a pak broskve. Pro lepší přehled (abych rozeznal banán od broskve :)) si jednotlivé typy ovoce oddělím určitou věcí, třeba tužkou: nejprve jsou banány, pak jedna tužka, pak pomeranče, pak druhá tužka, a nakonec broskve. Je zde tedy vedle sebe 6 věcí. Najít všechny možné varianty typů se dá chápat jako najít všechny možné výběry pozic obou oddělovacích tužek - pak jsou totiž už typy ovoce jednoznačně určeny. Matematika 3 241 Např. tužky na druhé a třetí pozici znamenají, že si beru jeden banán, žádný pomeranč a tři broskve. A všech možných výběrů dvou pozic z šesti je právě (T). ad 1.17 Jedná se o limitu výsledku z př. 1.16 pro n —> oo. V textu je tento fakt znovu připomenut tam, kde je použit. ad 1.18 J2T=o li = l + a; + fr + §r + ''' - Z nekonečných řad si snad student FEKT odnesl z prvního ročníku aspoň tento vzorec. Bude jej potřebovat. ad 1.19 Taylorova věta je základem některých numerických metod a na přednášce bude učitě zmíněna. Populárně ji lze říci, že za jistých předpokladů (funkce f{x) má na nějakém okolí bodu x0 spojité všechny derivace až do řádu {n + 1)) lze fukci f{x) na okolí bodu xq nahradit polynomem ad 1.15 Jedná se o variace s opakováním: 4^ = 34650. ad 1.16 * q-l . Tento fakt lze ověřit odstraněním zlomku a roznásobením. f(x0) + f'(x0) ■ (X - X0) + f"(*o) ■ (x — x0)2 + • • • + /H(*o) • {X - Xq) n 2! přičemž se nedopouštíme nepřesnosti větší než bod ležící mezi body x a xq. /(n+1)(g) (n+l)! • (x — xoYn+1\ kde £ je nějaký 242 Fakulta elektrotechniky a komunikačních technologií VUT v Brně 15.2 Výsledky cvičení ke kapitole 2 Otázky: 2.1-A, 2.2-N, 2.3-N, 2.4-A, 2.5-N (Např. pro x = 1, 23 a ý = 2, 34 a n = 1 tvrzení neplatí.), 2.6-A Výsledky příkladů ad 2.1 E(I) = -0,09, R(I) = 4,3% ad 2.2 ME(S) = 0,02, MR(S) = 0,5% 15.3 Výsledky cvičení ke kapitole 3 Otázky: 3.1-N, 3.2-A, 3.3-N, 3.4-A, 3.5-N, 3.6-A, 3.7-A, 3.8-N, 3.9-N. Výsledky příkladů ad 3.1 1) \x — y\ > 0 pro všechna x, y E R, \x — y\ = 0 jedině v případě, že x = y. 2) \x — y\ = \y — x\ platí. 3) \x — z\ < \x — y\ + \y — z\ platí (kdo nezná trojúhelníkovou nerovnost, může si tohle rozepsat pro všechny možné vzájemné polohy x,y, z.) ad 3.2 a) d(x, y) = 4 b) l)á(x, y) je maximum z nezáporných čísel a proto je také > 0. Je-li x = y, pak zřejmě d(x,y) = 0. Je-li d(x,y) = 0, musí být \x± — yi\ = 0, 1^2 — 2/21 = 0,..., tzn. x\ = yi, x2 = y2, ■ ■ ■, a tedy x = y. 2) d(x, y) = d(y, x) platí, protože v obou případech vybíráme maximum ze stejné n-tice čísel. 3) Pro i-tou složku (i = 1, 2,... , n) platí |xj — zt\ < \xt — yt\ + \yt — zt\ < max^ \xj — y0 \ + maXj \y0 — Zj\, neboli \xt — zt\ < d(x, y) + d(y, z). Proto musí být i d(x, z) < d(x, y) + d(y,z). ad 3.3 Dva pevné body, 0 a 4. ad 3.4 1) |x| > 0 pro všechna x G IR, |x| = 0 pouze pro x = 0. 2) \k ■ x\ = \k\ ■ \x\ platí 3) \x + y\ < \x\ + |y| platí (kdo tohle neví, může si rozebrat případy, kdy je x i y kladné, jedno kladné a druhé záporné, obě záporná.) ad 3.5 || x||oo = 4, || x||i = 8. 15.4 Výsledky cvičení ke kapitole 4 Otázky: 4.1-A, 4.2 -A, 4.3-N, 4.4-N, 4.5-N, 4.6-A, 4.7-N, 4.8-N, 4.9-A. Matematika 3 243 Výsledky příkladů ad 4.1 x = 0,68, y = -0,06. ad 4.2 x = -1,29, y = 0,36, z = -0,35. ad 4.3 Podm. konv. jsou splněny - matice soustavy je ryze řádkově diag. dominantní. 0«, yW, z«) = (-0, 6; 0, 52; -0, 3125), (x<-2\ y<-2\ z^) = (-0, 7561; 0, 5305; -0,4688), lx^,y^,z^) = (-0, 7967; 0, 5242; -0,4899), ad 4.4 Podm. konv. jsou splněny - matice soustavy je ryze řádkově diag. dominantní. (xW, y(1\ z™) = (0, 8929; 0, 3929; -0, 5020), (x®, yW, z^) = (1, 0129; 0, 3339; -0, 5004), (x^,y^,z^) = (1, 0002; 0, 3333; -0, 5000), \x^\y^\z^) = (1,0000; 0, 3333; -0,5000), přesnosti je dosaženo, (x, y, z) = (1, 000; 0, 333; —0, 500). ad 4.5 Pro zadanou soustavu podm. konv. nejsou splněny. Soustavu můžeme vynásobit maticí AT. Tím dostaneme soustavu, jejíž matice je symetrická a pozitivně definitní, což zaručuje konvergenci G.-S. metody. Takto vzniklá soustava je 17x - 6y - 5z = -28 —6x + by + 8z = 7 -5x + 8y + 17 z = 2 První dvě iterace: (x^\ y^\ z^) = (-1, 647;-0, 576;-0, 096), (x^2\ y^2\ z^) = (—1, 879; —0, 702; —0,105). (Jiná možnost úpravy soustavy je pomocí přehazování rovnic a přičítání vhodných násobků jedné rovnice k druhé docílit toho, aby matice soustavy byla diag. dom. Tento postup však vyžaduje značnou dávku štěstí a pokud není vhodná úprava na první pohled patrná, nelze ho doporučit.) 15.5 Výsledky cvičení ke kapitole 5 Otázky: 5.1-A, 5.2-N, 5.3-N, 5.4-A, 5.5-N, 5.6-A, 5.7-A, 5.8-A, 5.9-N, 5.10-N. Výsledky příkladů ad 5.1 Rovnice má právě 2 kořeny. Větší je v int. (2,3) . Půlení: (2,5; 3) , (2,5; 2,75) , (2,625; 2,75) , přesnosti je dosaženo, x = 2,7. Menší je v int. (1, 2). Regula falši: xq = 1,148, x\ = 1,068, x2 = 1,065, přesnosti je dosaženo, x = 1,06. ad 5.2 Kořen leží v (-2,-1). x0 = -2, x1 = -1,645161, x2 = -1,485724, x3 = -1,453806, x4 = -1,452628, x5 = -1,452627. x = -1,45263. ad 5.3 Rovnice má dva kořeny. Pro kořen z intervalu (0,1) je vhodná např. iterační fce g(x) = ef"1 :x0 = l,x1 = 0,607, x2 = 0,498, x3 = 0,472, x4 = 0,466, x = 0,47. Pro kořen z (5,6) g(x) = 2 ln x + 2 : xq = 5, x\ = 5,219, x2 = 5,305, x3 = 5,337, X4 = 5,349, x5 = 5,354, x = 5,35 ad 5.4 x = 0,31416. 244 Fakulta elektrotechniky a komunikačních technologií VUT v Brně ad 5.5 Hledáme kořen rovnice f (x) = 0. Vyjde x = 0,42. Ověření, že jde skutečně o lok. maximum, lze provést např. pomocí /". ad 5.6 Oi,yi) = (1,25; 0,25), {x2,y2) = (1,2332; 0,2126), (x3,y3) = (1,2333; 0,2122), přesnosti je dosaženo, (x,y) = (1,233; 0,212). 2 ad 5.7 Vhodné iterační funkce jsou např. gi(x,y) = yjx — y + 0, 5, g2(x, y) = • Zvolíme-li (xq, yo) = (1, 0), s těmito funkcemi bude (xi, yi) = (1,2247; 0,2), (x2, y2) = (1,2348; 0,2123), (x3,y3) = (1,2339; 0,2128), přesnosti je dosaženo. ad 5.8 (xi, yu zi) = (3/4, 5/3, 3/4). ad 5.9 Návod: Najděte rovnici tečny ke grafu funkce / v bodě [xk, f(xk)] a Pak průsečík tečny s osou x. ad 5.10 Návod: Najděte rovnici přímky dané body [a, f (a)] a [b, f(b)] a pak průsečík této přímky s osou x. 15.6 Výsledky cvičení ke kapitole 6 Otázky: 6.1-A, 6.2-A, 6.3-N, 6.4-A, 6.5-A, 6.6-N, 6.7-N, 6.8-A. Výsledky příkladů ad 6.1 L2{x) = 2x2 - x + 3. Zkouška: Ověříme, že L2{-\) = 6, L2(0) = 3 a L2(2) = 9. ad 6.2 L2{x) = /o"22{2+/2 [x - Xlf + Í2^s. (x - Xl) + fľ. ad 6.3 N2(x) = 6 — 3(x + 1) + 2(x + l)x. Po přidání dalšího bodu: N3(x) = N2(x) — 0,65(x + l)x(x - 2). ad 6.4 a) Uzly jsou ekvidistantní. N4(x) = 0 + fy • 0,7174 - • 0,4351 - 9(9~13),(g~2) • om2 + g(g-i)(g-2)(g-3) . Q,3678, q = ^ Pro x = 1 je q = 1,25, siní = JV4(1) = 0,8417. b) Použijeme uzly x\ = 0,8, x2 = 1,6. Lineární interp. pol. lze vyjádřit např. takto: Ni(x) = 0,7174 + ^-0,2822, q = siní = JVi(l) = 0,7879 (za q se dosadilo 0,25). Přesná hodnota je siní = 0,8415. Pro lineární interpolaci byl krok mezi uzly příliš velký. ad 6.5 Soustava, kterou je nutno vyřešit: 6ci + c2 = —9; c\ + 6c2 = —159. Splajn: x G (-3, -1) : S0(x) = -5 + 2{x + 3) + 0,5(x + 3)3 x G (-1, 0) : S1{x) = 3 + 8{x + 1) + 3{x + l)2 - 10(x + l)3 x G (0, 2) : S2(x) = 4 - 16x - 27x2 + 4,5x3 S(-2) = S0(-2) = -2,5, £(-0,1) = Si(-0,1) = 5,34, S(l) = S2(l) = -34,5. ad 6.6 Soustava, kterou je nutno vyřešit: 3,2c! + 0,8c2 = —1,6318; 0,8c! + 3,2c2 + 0,8c3 = -2,2737; 0,8c2 + 3,2c3 = -1,5365. Splajn: x G (0; 0,8) : S0{x) = 0,9974x - 0,1573x3, Matematika 3 245 x G (0,8; 1,6) : Sľ(x) = 0,7174+ 0,6953(x-0,8)-0,3776(x-0,8)2-0,0631(x-0,8)3 x G (1,6; 2,4) : S2{x) = 0,9996-0,0302(x -1,6) - 0,5292(x - 1,6)2+ 0,0755(x - 1,6)3 x G (2,4; 3,2) : S3(x) = 0,6755 - 0,7318(x - 2,4) - 0,3479(x - 2,4)2 + 0,1449(x - 2,4)3 siní = 5i(l) = 0,8408 ad 6.7 f'(x) = l + ex>0=>/je rostoucí => / je prostá => existuje funkce k ní inverzní (neboli ke každému y G H (f) lze jednoznačně určit x takové, že f (x) = y). Hodnoty inverzní funkce pro y = 0,y = 0,5ay = l najdeme postupně jako řešení rovnic x + ex = 0, x + ex = 0,5 a x + ex = 1. Vyjde /_1(0) = -0,567, /_1(0,5) = -0,266, r1(i) = o. Interpolační polynom (v Newtonově tvaru): N2(x) = —0,567+^-0,301 — 9^92,1~> -0,035, q = ^§-. /_1(0,3) = iV2(0,3) = -0,382 (za q se dosadí 0,6), /_1(0,9) = N2(0,9) = —0,050 (za q se dosadí 1,8). ad 6.8 Soustava normálních rovnic: 6c0 + 15ci = 3, 579; 15c0 + 55cx = 28, 939. Přímka: y = -2, 259 + 1,142 x. ad 6.9 Návod: Vypočtěte parciální derivace kvadratické odchylky p2(co, ci, c2) a položte je rovny 0. ad 6.10 y = 7,340- 8,243x + 2,047x2 ad 6.11 Soustava normálních rovnic obecně: c0(n + 1) + ci ^sinxj + c2 Y,cosxl = Y.V* cq sm x% + ci Z] sin2 ^i + CžE sin xi cos xi = J2Ui sm x% co X] cosxi + ci 5ľ smxi cosxi + ci 5ľ cos2 xi = ^ZUi cosxi • Konkrétně pro zadané body: llc0 - 1,47c2 = 13,43 ; 6, 09Cl = 6, 31 ; -1,47c0 + 4, 91c2 = -10.47. Řešení: y = 0, 98 + 1, 04 sin x — 1, 84 cos x. 15.7 Výsledky cvičení ke kapitole 7 Otázky: 7.1-N, 7.2-A, 7.3-N (byla by to pravda, kdybychom se nedopouštěli zaokrouhlo-vacích chyb), 7.4-N, 7.5-A, 7.6-A, 7.7-A. Výsledky příkladů ad 7.1 a) Např. podle 6.1 ve všech kromě posledního uzlu, v něm podle 6.2: G'(l) = 0,3750, G'(l, 1) = 0, 3010, G'(l, 2) = 0, 2370, G'(l, 3) = 0, 2370. b) G'{1) = 0,4120, G'{1,1) = 0, 3380, G'{1, 2) = 0, 2690, G'{1, 3) = 0, 2050. Přesně: G'(x) = . Zaokrouhleno na 4 desetinná místa: G'(l) = 0,4151, G'{1,1) = 0, 3365, G'{1, 2) = 0, 2673, G'{1, 3) = 0, 2082. ad 7.2 Návod: L2(x) zderivujte, do derivace dosaďte jednotlivé uzly. Pro vzorec 6.6 vypočtěte druhou derivaci L2. ad 7.3 Návod: Vypočtěte J^_h L2{x)áx. Je vhodné použít substituci Zel X X. 246 Fakulta elektrotechniky a komunikačních technologií VUT v Brně ad 7.4 a) f = 0, 79 b) ^(2y/2 + 1) = 1, 002. Přesně: 1. ad 7.5 a) L4 = 0,6586 b) L8 = L4/2 + 0,125(/(1,125) + /(l, 375) + /(l, 625) + /(l, 875)) = 0, 6592. (Přesně 0,6593) ad 7.6 S6 = 0, 9103147 (přesně 0,9103140). ad 7.7 L4 = 1, 55, S4 = 1, 567, přesně f = 1, 571. ad 7.8 S4 = 0, 31 ad 7.9 f"(x) = 1/(1 + x2)3/2, maximum /" na intervalu (0,1) je 1 |E| < ■ 1 = 1^ = 0,005. ad 7.10 /(4)(^) = -2^^, \f(4)(x)\ = ^iX^- To Je funkce na intervalu (7r/4,7r/2) klesající => dosahuje maxima pro x = 7r/4, |/^4->(7r/4)| = 16. m najdeme tak, aby g^J • 16 < 10"4. Vyjde m > 14, 8, tedy m = 16. 15.8 Výsledky cvičení ke kapitole 8 Otázky: 8.1-N, 8.2-N, 8.3-A, 8.4-A, 8.5-N, 8.6-N, 8.7-A, 8.8-A, 8.9-N, 8.10-A, 8.11-A. Výsledky příkladů ad 8.1 x0 = l,y0 = 2; xx = 1,2, Vl = 2,1; x2 = 1,4, y2 = 2,214; x3 = 1,6,y3 = 2,341; x4 = 1,8, í/4 = 2,477; x^ = 2,y^ = 2,623. Přesné řešení je y = \/x2 + 3. Chyby: ex = 0,007, e2 = 0,013, e3 = 0,017, e4 = 0,021, e5 = 0,023. Přibližnou hodnotu řešení v „neuzlovém" bodě 1,3 vypočteme pomocí interpolačního polynomu s uzly (protože 1,3 leží v intervalu {x±, x2)). Interpolační polynom: Li(x) = 2,1 ^ + 2,214 2^p, y(l,3) = L(1,3) = 2,157. ad 8.2 y0 = 2, Vl = 2,1071309, y2 = 2,2271059, y3 = 2,3579654, y4 = 2,4979994, y5 = 2,6457516. Chyby: eľ = 10~7, e2, e3, e4 = 2 • 10"7, e5 = 3 • 10"7. ad 8.3 S krokem h = 0,05 : y(l,05; 0,05) = -0,9. S krokem h = 0,025 : y(l,05; 0,025) = —0,9012. Chyba hodnoty dosažené s h = 0,05 je přibližně ^rzr[(y(l,05; 0,025) — y(l,05; 0,05)) = —0,0024, chyba pro poloviční krok je přibližně ^-j-(y(1,05; 0,025) — y(l,05; 0,05)) = —0,0012. Zpřesněná hodnota řešení v bodě x = 1,05 : 2 y(ip5,op25)-y(ip5,op5) _q^9Q23_ (J>ľo srovnání, přesná hodnota, zaokrouhl. na 4 místa, je -0,9022) ad 8.4 S krokem h = 0,2 : y(l,2;0,2) = 0,23913405. S krokem h = 0,1 : y(l,2; 0,1) = 0,23914827. Chyba hodnoty dosažené s h = 0,2 je přibližně 2i—j-(y(l,2; 0,1) — y(l,2; 0,2)) = 2 • 10~5, chyba pro poloviční krok je přibližně 243^0/(1,2; 0,1) — y[1,2; 0,2)) = 9 • 10~7. Zpřesněná hodnota řešení v bodě x = 1,2 : 2 ví1?'0^'^1?'0^ = 0,23914922. (Pro srovnání, přesná hodnota, zaokrouhl. na 8 míst, je 0,23914919) Matematika 3 247 ad 8.5 1. krok: Xl = 0,1, yx = 0,200701, zx = 2,001339 2. krok: x2 = 0,2, y2 = 0,405919, z2 = 2,010853 ad 8.6 Příslušná soustava rovnic: y' = z, y(0) = 2; z' = xz/y, z(0) = —1. Řešení soustavy: x\ = 0,1, yi = 1,9, z\ = —1; x2 = 0,2, y2 = 1,8, z2 = —1,005. Přibližné řešení původní rovnice druhého řádu v bodě 0,1, resp. 0,2, je yi = 1,9, resp. y2 = 1,8. ad 8.7 a) Funkce a(x) = ^ a f (x) = —5x jsou na intervalu (1, 2) spojité a a(x) > 0 => okrajová úloha má jediné řešení. Soustava diskr. rovnic: 2,0400yi - y2 = 0,6094; -yx + 2,0278y2 - yz = -0,4688; -y2 + 2,0204y3 = 7,4531 Přibližné řešení:xo = 1, yo = 1; x\ = 1,25, y± = 1,9531; x2 = 1,5, y2 = 3,3750; x:i = 1,75, í/4 = 5,3594; x5 = 2, y5 = 8. b) Ověření: L = -(x3)" + f| = -6x + x = -5x = P, y{\) = l3 = 1, y(2) = 23 = 8. Řešení metodou sítí vyjde přesně, protože použitý diferenční vzorec y"{x%) = ^(x'-1)~2^')+^(x'+1) je přesný pro polynomy stupně třetího - chyba je —12~2/4^(£) (v^z vzorec 7.6). Pro y{x) = x3 je chyba rovna 0. ad 8.8 Samoadjungovaný tvar: — (xy')' + x2y = —x. Existence jediného řešení je zaručena, protože p(x) = x, p'(x) = 1, q[x) = x2 i /(x) = —x jsou na intervalu (0,1; 0,6) spojité funkce a p(x) > 0, q[x) > 0 na tomto intervalu. Soustava diskr. rovnic: 0,4004yi - 0,25y2 = 0,148; -0,25yi + 0,6009y2 - 0,35y3 = -0,003; -0,35y2 + 0,8016y3 - 0,45y4 = -0,004; -0,45y3 + l,0025y4 = -0,005 Přibližné řešení soustavy: x0 = 0,1, yo = 1; xx = 0,2, yx = 0,5923; x2 = 0,3, y2 = 0,3566; x3 = 0,4, y3 = 0,1977; x4 = 0,5, y4 = 0,0838; x5 = 0,6, y5 = 0. 15.9 Výsledky cvičení z kapitoly Otázky: 9.1-A, 9.2-N, 9.3-A, 9.4-N, 9.5-N, 9.6-A, 9.7-N, 9.8-A, 9.9-A, 9.10-N, 9.11-A, 9.12-A, 9.13-v zásadě A (pokud dodáme, že hustota je určena jednoznačně až na nejvýše spočetně mnoho bodů nespojitosti, ve kterých může nabývat libovolné hodnoty, na které nesejde, protože se tím hodnoty určitých integrálů z hustoty (a tím ani hodnota distribuční funkce) nemění), 9.14-A. ad 9.1 a) 0,028 b) 0,306 c) 0,056 d) 0,028 e) 0,167 f) 0,139 g) 0,278 h) 0,111 ad 9.2 _ 365 -364-363 .....(365 - k + 1) P ~ 365^ ' ad 9.3 248 Fakulta elektrotechniky a komunikačních technologií VUT v Brně ad 9.4 Podle věty o úplné pravděpodobnosti: p = 0, 708. ad 9.5 Opět příklad na větu o úplné pravděpodobnosti: 8 5 2 1 p =----1----= 0,6867. 1 10 6 10 10 ad 9.6 Jedná se o příklad na Bayesův vzorec: p = ^| = 0, 97087. ad 9.7 Opět krásný příklad na Bayesův vzorec: p = 0, 2455. ad 9.8 Jedná se o geometrickou pravděpodobnost: _ S (A) tt(I)2 _ 1 P S{Q) irr2 4' ad 9.9 Opět krásný příklad na geometrickou pravděpodobnost. Označíme-li x ... délku prvního odřezaného kousku, y ... délku druhého odřezaného kousku, tak třetí kousek má délku 7 — x — y. Aby z těchto tří kousků bylo možné sestrojit trojúhelník, musí platit takzvaná trojúhelníková nerovnost: součet každých dvou stran musí být delší než ta třetí (aby nad ní vytvořily stříšku a vznikl trojúhelník). Proto musí platit tyto tři nerovnosti: x + y > 7 — x — y; x + (7 -x -y) > y; y + (7 — x — y) > x. Tyto tři vztahy lze upravit na tvar x + y > 3, 5; V < 3,5; x < 3,5. Zakreslením těchto tří vztahů do roviny xy dostáváme „přípustnou" oblast pro trojúhelník - viz obr. 15.94. Množina všech možných výsledků rozřezání je dána trojúhelníkem s odvěsnami délky 7 na osách x, y, tj. hledaná pravděpodobnost je dána podílem obsahů „přípustného" a „velkého" trojúhelníku, pokud si všimnete, že menší trojúhelník (vzniklý ze středních příček většího trojúhelníku) se do většího trojúhelníku vejde čtyřikrát, nemusíte nic počítat a už píšete odpověď jo = | = 0,25. ad 9.10 po = 0,167; p1 = 0,278; p2 = 0,278; p3 = 0,278. Musí platit £>ť = 1 (přesně to tak není díky tomu, že jednotlivé pravděpodobnosti jsou zaokrouhleny na tři desetinná místa). Distribuční funkce je schodová funkce analogická např. distribuční funkci z obr. 10.58 příkladu 10.1 s tím rozdílem, že nyní má čtyři schody v bodech 0, 1, 2, 3 o výškách p0, pi, p2, Ps- Matematika 3 249 7 6 5 4 y 3 2 o 1 2 3 x 4 5 6 7 Obrázek 15.94: Šrafovaná plocha obsahuje délky x, y přípustné pro vznik trojúhelníka ad 9.11 X udává počet úspěšných pobytů na pálce ze dvou možných - může tedy nabývat hodnoty 0, 1 nebo 2. Pravděpodobnost, že ani jeden ze dvou pobytů na pálce nebude úspěšný, vypočteme jako pravděpodobnost průniku jevů (pobytlne)n(pobyt2ne) podle vzorce 9.2: P(X = 0) = 0,75 • 0,75 = 0,5625. Podobně snadný je výpočet pravděpodobnosti, že oba pobyty byly úspěšné - zde při výpočtu průniku jevů (pobytlano)n(pobyt2ano) podle 9.2 máme P{X = 2) = P((pobytlano)n(pobyt2ano)) = P(pobytlano)-P(pobyt2ano|pobytlano)= 0,25 • 0,35 = 0,0875. Nejkomplikovanější je výpočet pravděpodobnosti, že ze dvou pobytů bude úspěšný právě jeden. Respektive pokud bychom využili toho faktu, že součet diskrétních pravděpodobností je roven jedné, máme P(X = 1) hned: P(X = 1) = 1 - 0,5625 - 0,0875 = 0,35. Z pedagogických důvodů vypočtěme P{X = 1) ještě jinak: sečteme pravděpodobnost navzájem se vylučujících situací podle vlastnosti (iii) začátku kapitoly 9: P(X = 1) = P((pobytlano)n(pobyt2ne))UP((pobytlne)n(pobyt2ano)) = P((pobytlano)n(pobyt2ne))+P((pobytlne)n(pobyt2ano)). Takže dostaneme P(X = 1) = 0,25 • 0,65 + 0,75 • 0,25 = 0,35 - vyšlo to!! ad 9.12 P(X = 0) = 0,1; P(X = 1) = 0,09; P(X = 2) = 0,081; P(X = 3) = 0,0729; P(X = 4) = 0,06561; P(X = 5) = 0,59049. Pokud by se (až na zaokrouhlovací chybu) součet těchto hodnot nerovnal jedné, byl by to dobrý náznak, že někde se 250 Fakulta elektrotechniky a komunikačních technologií VUT v Brně stala chyba. ad 9.13 a) 0,02625 b) 0,03125 c) 1-0,03125=0,96875 d) 0,625 e) 1 f) F (x) určíme podle nenápadného vzorce v textu, který ani nemá číslo. Tak už to v životě bývá, že ty nej důležitější vzorce a události dějin zůstávají zapomenuty; strašně mě zaráží jedna taková věc z jedné knihy přísloví: Bylo malé město a v něm hrstka mužů. Tu přitáhl na ně velký král, obklíčil je a zbudoval proti němu mohutné náspy. Našel se pak v něm nuzný moudrý muž, který by byl to město svou moudrostí zachránil, ale nikdo si na toho nuzného muže ani nevzpomněl. F{x) = P{X ; pro x G (1; 2 >; pro x > 2. F{x) = ad 9.14 Ze vztahu f{x) = 1 lze určit, že c = |. Pak F(x) = / f(t)dt = 1 — \ ■ e x ... pro x > 0; 1 - ex ... pro x < 0. 2 Při odstraňování absolutní hodnoty v integrované funkci musíme situaci rozdělit na dva případy [x < 0 a x > 0), odtud i dvojí tvar funkce F(x). ad 9.15 Stačí využít vzorec 9.7 ad a) P(X < 90) = F(90) = 1 - e~m = 0,593; ad b) P(X G (80; 120)) = F(120) - F(80) = 1 - e"1'2 - 1 + e"0'8 = 0,148; ad c) P(X > 150) = 1 - F(150) = 1 - 1 + e"1'5 = 0,223. 15.10 Výsledky cvičení z kapitoly 10 Otázky: 10.1-A, 10.2-A, 10.3-N, 10.4-A, 10.5-N, 10.6-A, 10.7-A, 10.8-A. ad 10.1 ad a) Příslušné hodnoty četností v% a pravděpodobností p(ui) jsou v tabulce: 1 2 3 4 5 19 11 17 19 11 0,247 0,143 0,221 0,247 0,143 ad b) Využijeme vzorce z př. 10.8 b) pro případ známých četností: x = 2,896, s2 = 1,937, S = 1,392. Matematika 3 251 ad 10.2 Uvedený příklad ilustruje možnost vytváření rozdělení četností i ve spojitém případě. ad a) Příslušné rozdělení četností pro vytvořené třídy je v tabulce: interval (=třída) <0; 3) <3;6) <6;9) < 9; 12) < 12; 15) < 15; oo) reprezentant třídy 1,5 4,5 7,5 10,5 13,5 16,5 četnost třídy 14 9 2 2 1 1 ad b) X = ^■YJxl = 4,2276, s2 = 17,3964, s = 4,1709. ad c) X = 4,3966, s2 = 15,1958, s = 3,8982. Hodnoty b) jsou samozřejmě přesnější, ale pokud bychom měli k dispozici jen intervalové rozdělení četností a už neměli přístup k původním hodnotám měření, tak x, s2 a s vypočtené zde nám dávají celkem solidní popis veličiny X (četnosti v posledních dvou intervalech jsou rovny jedné - kdybychom tedy místo středu intervalu brali jako reprezentanta příslušnou jedinou hodnotu, parametry ad c) by byly ještě lepším odhadem přesných ad b) ). ad 10.3 Rozdělení pravděpodobnosti a rozdělení četnosti je dáno v tabulce: známka z/j 1 2 3 4 5 pravděpodobnost pivj) 0,166 0,277 0,277 0,185 0,093 četnost c(uí) 216 360 360 240 120 Dále pomocí hodnot pravděpodobností vypočteme očekávané (průměrné) ohodnocení EX = 2,756 a rozptyl tohoto ohodnocení DX = 1,456. ad 10.4 a) P(X = 0) = §; P(X = 1) = §; P(X = 2) = £; atd. P(X = k) = g^pj-, atd. b) EX = J2Zo k ■ P(X = k) = 0 +1 • I + 2 • ě + • • • = = 1- (l + 2-(|)1 + 3-(|)2+4-(|)3 + ...) a podle postupu analogickému příkladu 10.10 dostaneme EX = |. ad 10.5 Při odstaňování absolutní hodnoty rozdělíme integrovaný interval na dvě části, a pak u každé části provádíme per partes. Z grafu hustoty je vidět, že EX = 0, ovšem při výpočtu rozptylu se integrování nevyhneme: DX = EX2 — E2X = EX2 — 0 = 2. ad 10.6 Pokud jsem počítal správně, výsledek je: EX = i = 0,7917, EX2 = f = 0,7812, tj. DX = EX2 - E2X = 0,1544. ad 10.7 EX = 1,22; EX2 = 1,5, tj. DX = EX2 - E2X = 0,0116. 15.11 Výsledky cvičení z kapitoly 11 Otázky: 11.1-A, 11.2-N, ještě může nabýt hodnoty 0; 11.3-N, 11.4-A, 11.5-A, 11.6-N, 11.7-A, 11.8-N, 11.9-N. ad 11.1 ad a) 0,36 ad b) 0,92224 252 Fakulta elektrotechniky a komunikačních technologií VUT v Brně ad 11.2 ad a) 0,3487 ad b) 0,2639 ad 11.3 ad a) 90 ad b) 9 ad c) pokud se vám vyčíslení úloh c),d) zdá pracné, počkejte s řešením příkladu do kapitoly 13, kde bude představena jiná přibližná metoda výpočtu; výsledek ... přibližně 0,046 ad d) přibližně 0,6517 ad 11.4 Pokud jednu sabotující krysu označíme jako minusovou, celkový počet krys je 14, dvě se rozhodly „minusově", tj. pak veličina x= počet krys ze 14, které dávají přednost mléku. Kritická hodnota je xk = 11, protože P(x > 11) = 0,0286865, kdežto P(x > 10) = 0,08 > 0,05. Pokud sabotující krysu vyloučíme z úvah a x= počet krys ze 13, které dávají přednost mléku, pak kritická hodnota je 10, protože P(x > 10) = 0,046, zatímco P(x > 9) > 0,05. V obou případech Hq zamítáme na hladině významnosti 0, 05. Tedy oblíbenost mléka v potravě je statisticky významná. ad 11.5 ad a) x = 8 < xk = 9, tj. Hq nezamítáme ad b) aspoň 15 studentů 15.12 Výsledky cvičení z kapitoly 12 Otázky: 12.1-A, 12.2-A, 12.3-N, 12.4-N, 12.5-N, 12.6-A, 12.7-N, 12.8-N, 12.9-A, 12.10-A. ad 12.1 ad a) 0,4963 ad b) 0,007 ad 12.2 0,528 ad 12.3 asi 3,16 roku ad 12.4 ad a) fronta je typu (M|M|1) : (GD\oo\oo); po = 0,1 ... 10% času je linka nevyužitá ad b) 8,1 zákazníků je průměrně ve frontě ad c) 13,5 minuty ad d) 0,31 ... asi 31% času bude v systému více než deset aut ad e) ad aa] fronta je typu (M|M|1) : (GD\9\oo); po = 0,1535 ... 15,35% časuje linka nevyužitá ad bb] 3,646 zákazníků je průměrně ve frontě ad cc] 6,46 minut ... při omezení délky fronty se čekací doba z c) zkrátila tedy asi na polovinu ad dd] 0,0535 ... zkrácení doby čekání Wq je za cenu toho, že v 5,35% času je plno, tedy přijíždějící auto jede jinam ad 12.5 ad a) 0,52 ad b) 0,85 ad c) 0,15 ad 12.6 fronta je typu (M|M|3) : (GD\3\oo) ... server = parkovací místo, počet míst ve frontě = 0; ad b) po = 0,10835, tj. p3 = p0 ■ §J = 0,2822 ... ve 28,22% času přijíždějící auto nenajde volné místo ad c) Ae// = A(l -p3) = 10,77 ad a) L s = Lq + = 0 + = 1,7946 ... tedy volných parkovacích míst bude průměrně 3 — 1,7946 = 1,2054 Matematika 3 253 15.13 Výsledky cvičení z kapitoly 13 Otázky: 13.1-N ... dx = = ^=f^, 13.2-N ... svislá procházející bodem [6; 0] není součástí funkce - obrázek byl vytvořen v prostředí MAPLE zabudovaným příkazem pro kreslení grafu hustoty rovnoměrného rozdělení, který na tyto matematické DETAILY nebere zřetel; 13.3-A, 13.4-A, 13.5-A, 13.6-A, ad 13.1 0,125 ad 13.2 68,2 bodů ad 13.3 ad c) přibližně 0,046 ad d) přibližně 0,6517 ad 13.4 x = 13,5, tj. u = 1,75 > 1,64. Tedy množství likéru je významně nadprůměrné na hladině významnosti a = 0,05, ale „v normálu" na hladině významnosti a = 0,01. ad 13.5 x = 135, tj. u = 1,53 - tedy Hq nezamítáme, neprokázalo se, že by byl předpoklad expertů chybný. 15.14 Výsledky cvičení z kapitoly 14 Otázky: 14.1-A, 14.2-A, 14.3-A, 14.4-N. ad 14.1 ad a) /iX = 80, = 0,9. ad b) 10"7 = 0 ad 14.2 pro H\ : ji ^ 60 je um = —2,58, uv = 2,58, příslušná U—hodnota u = —10, tj. H0 zamítáme, průměr zlomu je významně nižší, než uvádí výrobce. ad 14.3 Při oboustranném testu pro a = 0,05 je příslušná ř7-hodnota rozdílu průměrů x2 — x\ rovna u = 3,4233 ^ (—1,96; 1,96), tj. Hq zamítáme, tedy doba běhu pro ovocné želé je významně delší. ad 14.4 0,54 ad 14.5 kritické hodnoty při platnosti Ho jsou xm = 58,71, xv = 61,29. Síla je rovna $(58'71"59) = 1 - $(0,58) = 1 - 0,719 = 0,281. 254 Fakulta elektrotechniky a komunikačních technologií VUT v Brně Literatura [I] Chapra, S. C, Canale, R. P. : Numerical Methods for Engineers: With Software and Programming Applications. Fourth Edition, McGraw-Hill, New York 2002. [2] Diblík, J., Baštinec, J. : Matematika IV. Skriptum FEI VUT Brno, 1991. [3] Haluzíková, A. : Numerické metody. Skriptum FEI VUT Brno, 1989. [4] Horová, I. : Numerické metody. Skriptum PřF MU Brno, 1999. [5] Maroš, B., Marošova, M. : Základy numerické matematiky. Skriptum FSI VUT Brno, 1997. [6] Moler, C. : Numerical Computing with MATLAB. http://www.mathworks.com/moler/ [7] Loftus, J., Loftus, E.: Essence of Statistics. Second Edition, Alfred A. Knopf, New York 1988. [8] Ralston, A. : Základy numerické matematiky. Praha, Academia 1978. [9] Taha, H.A.: Operations research. An Introduction. Fourth Edition, Macmillan Publishing Company, New York 1989. [10] Vitásek, E. : Numerické metody. Praha, SNTL 1987. [II] Zapletal, J.: Základy počtu pravděpodobnosti a matematické statistiky. Skriptum FEI VUT Brno, PC-DIR 1995.