Obsah Kapitola 1. Rozcvička 1 1. Čísla a funkce 1 2. Kombinatorické veličiny 6 3. Diferenční rovnice 10 4. Pravděpodobnost 14 5. Geometrie v rovině 23 6. Relace a zobrazení 37 Kapitola 2. Elementární lineární algebra 43 1. Vektory a matice 43 2. Determinanty 55 3. Vektorové prostory a lineární zobrazení 64 4. Vlastnosti lineárních zobrazení 83 Kapitola 3. Linární modely a maticový počet 92 1. Lineární procesy 92 2. Diferenční rovnice 99 3. Iterované lineární procesy 107 4. Více maticového počtu 116 5. Rozklady matic a pseudoinverze 136 Kapitola 4. Analytická geometrie 145 1. Afinní a euklideovská geometrie 145 2. Geometrie kvadratických forem 167 3. Projektivní geometrie 174 Kapitola 5. Zřízení ZOO 184 1. Interpolace polynomy 184 2. Reálná čísla a limitní procesy 194 3. Derivace 214 4. Mocninné řady 227 Kapitola 6. Diferenciální a integrální počet 242 1. Derivování 242 2. Integrování 259 3. Nekonečné řady 279 Kapitola 7. Spojité modely 294 1. Fourierovy řady 294 2. Metrické prostory 308 3. Integrální operátory 325 4. Diskrétní transformace 333 Kapitola 8. Spojité modely s více proměnnými 334 1. Funkce a zobrazení na Rn 334 Kapitola 9. Statistické metody 396 1. Popisná statistika 396 i 2. Pravděpodobnost 398 3. Popisná statistika 422 4. Matematická statistika 422 5. Poznámky o některých aplikacích 424 Kapitola 10. Kombinatorické metody, grafy a algoritmy425 1. Grafy a algoritmy 425 2. Aplikace kombinatorických postupů 448 Kapitola 11. Algebraické struktury 474 1. Grupy 474 2. Okruhy polynomů a tělesa 490 3. Uspořádané množiny a Booleovská algebra 506 4. Kódování 519 ii KAPITOLA 8 Spojité modely s více proměnnými jedna proměnná nám k modelování nestačí? – nevadí, stačí vzpomenout na vektory ... Na samotném počátku našeho putování matematickou krajinou jsme hned viděli, že pracovat současně s více parametry nebylo obtížné, protože s vektory šlo počítat velice podobně jako se skaláry. Jen je třeba si věci dobře rozmyslet. Budeme se nyní znovu zabývat situacemi, kdy matematicky vyjádřené vztahy závisí na více (ale konečně mnoha) parametrech. Uvidíme, že vlastně ani není třeba překvapivých nových nápadů, stačí vždy šikovně redukovat problémy na takové, které už řešit umíme. Zároveň se konečně budeme umět vrátit k diskusi situací, kdy hodnoty funkcí popisujeme pomocí jejich okamžitých změn – tj. malinko se zastavíme i u obyčejných a parciálních diferenciálních rovnic. Úplně závěrem zmíníme tzv. variační problémy. Průběžně se budeme také jako obvykle snažit komentovat diskrétní varianty přístupů či problémů. 1. Funkce a zobrazení na Rn 8.1 8.1. Funkce více proměnných. Pro praktické modelování procesů (nebo objektů v grafice) jen velice zřídka vystačíme s funkcemi R → R jedné proměnné. Přinejmenším bývají potřebné funkce závislé na parametrech a často právě změna výsledků v závislosti na parametrech bývá důležitější než výsledek samotný. Budeme proto uvažovat funkce f (x1, x2, . . . , xn) : Rn → R a budeme se snažit co nejlépe rozšířit naše metody pro sledování hodnot a jejich změn do této situace. Říkáme jim funkce více proměnných. Pro snažší pochopení pojmů budeme často pracovat s případy n = 2 nebo n = 3 a přitom budeme místo číslovaných proměnných používat písmena x, y, z. To znamená, že funkce f definované v „rovině“ R2 budou značeny f : R2 (x, y) → f (x, y) ∈ R a podobně v „prostoru“ R3 f : R3 (x, y, z) → f (x, y, z) ∈ R. Podobně jako u funkcí jedné proměnné hovoříme o definičním oboru A ⊂ Rn , na kterém je ta která funkce definována. Při zkoumání funkce zadané konkrétním výrazem bývá prvním 334 KAPITOLA 8. SPOJITÉ MODELY S VÍCE PROMĚNNÝMI úkolem zjistit co největší definiční obor, na kterém má tento výraz smysl. S každou takovou funkcí více proměnných bývá užitečné uvažovat její graf, tj. podmnožinu Gf ⊂ Rn × R = Rn+1 definovanou vztahem Gf = {(x1, . . . , xn, f (x1, . . . , xn)); (x1, . . . , xn) ∈ A}, kde A je definiční obor f . Např. grafem funkce definované v rovině vztahem f (x, y) = x + y x2 + y2 je docela pěkná plocha na obrázku a jejím maximálním definičním oborem jsou všechny body roviny kromě počátku (0, 0). 3 2 1 0 y-4 -3 -1 -2 -2 -1 0 -2 0 1x 2 2 -3 3 4 Při definici a zejména při kreslení obrázku grafu jsme použili pevně zvolené souřadnice v rovině. Pokud pro některou z nich zvolíme pevnou hodnotu, zbude nám jen jedna proměnná. Pro pevně zvolenou hodnotu x tak např. dostáváme zobrazení R → R3 , y → (x, y, f (x, y)), tj. křivku v prostoru R3 . Křivky jsou vektorové funkce jediné proměnné, se kterými jsme již pracovali v šesté kapitole (viz 6.14). Na obrázku jsou čarami vyneseny obrazy takovýchto křivek pro některé pevně zvolené hodnoty souřadnic x a y. Křivky c : R → Rn jsou vedle funkcí více proměmných nejjednoduššími příklady zobrazení F : Rm → Rn , ke kterým se dostaneme brzy také. U funkcí jedné proměnné jsme celý diferenciální a integrální počet vybudovali na základě pojmů konvergence, otevřených okolí, spojitosti atd. Tyto pojmy jsme poté v druhé části sedmé kapitoly zobecnili nejen pro euklidovské prostory 335 KAPITOLA 8. SPOJITÉ MODELY S VÍCE PROMĚNNÝMI Rn , ale i obecněji pro tzv. metrické prostory. Před čtením následujících odstavců bude vhodné si tyto pasáže pečlivě připomenout, případně dohledávat si tam potřebné pojmy a výsledky průběžně. Pro jistotu tady jen velice rychle shrneme aspoň něco málo. 8.2 8.2. Euklidovské prostory. Euklidovský prostor En vnímáme jako množinu bodů v Rn bez volby souřadnic a na jeho zaměření Rn pohlížíme jako na vektorový prostor možných přírůstků, které umíme k bodům prostoru En přičítat. Navíc je na Rn zvolen standardní skalární součin u · v = n i=1 xiyi, kde u = (x1, . . . , xn) a v = (y1, . . . , yn) jsou libovolné vektory. Tím je na En dána metrika, tj. funkce vzdálenosti P − Q dvojic bodů P , Q předpisem P − Q 2 = u 2 = n i=1 x2 i , kde u je vektor, jehož přičtením k bodu Q obdržíme bod P . Např. v rovině E2 je tedy vzdálenost bodů P1 = (x1, y1) a P2 = (x2, y2) dána P1 − P2 2 = (x1 − x2)2 + (y1 − y2)2 . Takto definovaná metrika splňuje trojúhelníkovou nerovnost pro každé tři body P , Q, R P −R = (P −Q)+(Q−R) ≤ (P −Q) + (Q−R) , viz 3.25(1) nebo stejnou nerovnost (5.4) pro skaláry. Můžeme proto bez problému přenést (rozšířit) pro body Pi libovolného Euklidovského prostoru pojmy zavedené dosud pro reálné a komplexní skaláry: Topologie euklidovského prostoru • Cauchyovská posloupnost: posloupnost bodů Pi taková, že pro každé pevně zvolené > 0 je Pi − Pj < pro všechny indexy, až na konečně mnoho výjimečných hodnot i, j, • konvergentní posloupnost: posloupnost bodů Pi konverguje k bodu P , jestliže pro každé pevně zvolené > 0 je Pi − P < , až na konečně mnoho výjimečných hodnot i, j; bod P pak nazýváme limitou posloupnosti Pi, • hromadný bod P množiny A ⊂ En: existuje posloupnost bodů v A konvergující k P a vesměs různých od P , • uzavřená množina: obsahuje všechny své hromadné body, • otevřená množina: její doplněk je uzavřený, • otevřené δ–okolí bodu P : množina Oδ(P) = {Q ∈ En; P − Q < δ}, δ ∈ R, δ > 0, • hraniční bod P množiny A: každé δ–okolí bodu P má neprázdný průnik s A i s komplementem En \ A, • vnitřní bod P množiny A: existuje δ–okolí bodu P , které celé leží uvnitř A, 336 KAPITOLA 8. SPOJITÉ MODELY S VÍCE PROMĚNNÝMI • ohraničená množina: leží celá v nějakém δ–okolí některého svého bodu (pro dostatečně velké δ), • kompaktní množina: uzavřená a ohraničená množina. Čtenář by měl investovat přiměřené úsilí do pročtení odstavců 3.25, 5.14–5.17 a 7.14–7.16 a 7.22 a zkusit si promyslet/připomenout definice a souvislosti všech těchto pojmů. Zejména by mělo být z definic přímo zřejmé, že posloupnosti bodů Pi mají vlastnosti zmiňované v prvních dvou bodech předchozího výčtu tehdy a jen tehdy, když stejně nazvané vlastnosti mají reálné posloupnosti vzniklé z jednotlivých souřadnic bodů Pi ve kterékoliv kartézské souřadné soustavě. Proto také z Lemma 5.12 vyplývá, že každá Caychovská posloupnost bodů v En je konvergentní. Zejména je tedy En vždy úplným metrickým prostorem. 8.2a 8.3. Kompaktní množiny. Naše hrátky s otevřenými, uzavřenými nebo kompaktními množinami mohly v případě reálné přímky E1 vypadat jako zbytečné, protože nakonec jsme stejně skoro vždy mluvili jen o intervalech. U metrických prostorů ve ve druhé části kapitoly sedmé to možná bylo až moc složité. Stejný přístup je ale v případě euklidovských prostorů Rn docela jednoduchý a zároveň velmi užitečný a podstatný (a je to samozřejmě speciální případ obecných metrických prostorů). Stejně jako v případě E1 definujeme otevřené pokrytí množiny (tj. systém otevřených množin, v jejichž sjednocení je daná množina obsažena) a platí s drobnými formulačními úpravami i Věta 5.17: Věta. Pro podmnožiny A ⊂ En v euklidovských prostorech platí: (1) A je otevřená, právě když je sjednocením nejvýše spočetného systému δ–okolí, (2) každý bod a ∈ A je buď vnitřní nebo hraniční, (3) každý hraniční bod je buď izolovaným nebo hromadným bodem A, (4) A je kompaktní, právě když každá v ní obsažená nekonečná posloupnost má podposloupnost konvergující k bodu v A, (5) A je kompaktní, právě když každé její otevřené pokrytí obsahuje konečné pokrytí. Důkaz. Důkaz z 5.17 lze bez úprav použít v případě tvrzení (1)–(3), byť s novým chápání pojmů a nahrazením „otevřených intervalů“ jejich vícerozměrnými δ–okolími vhodných bodů. Důkaz pro zbylá dvě tvrzení je však třeba dosti zásadně upravit. Bude proto dobré si projít důkaz příslušných obecných tvrzení pro metrické prostory v 7.22 a přitom přemýšlet, co je v případě euklidovských prostorů možné zjednodušit. 8.3 337 KAPITOLA 8. SPOJITÉ MODELY S VÍCE PROMĚNNÝMI 8.4. Křivky v En. Skoro celá naše diskuse kolem limit, derivací a integrálů funkcí v 5. a 6. kapitole se týkala funkcí s jednou reálnou proměnnou a reálnými nebo komplexními hodnotami s odůvodněním, že používáme pouze trojúhelníkovou nerovnost platnou pro velikosti reálných i komplexních čísel. Již tehdy jsme si povšimli, že se tento argument do značné míry přenáší na jakékoliv funkce jedné reálné proměnné s hodnotami v euklidovském prostoru Rn a uvedli jsme několik nástrojů pro práci s křivkami v odstavcích 6.14–6.17. Připoměňme proto, že pro každou (parametrizovanou) křivku1 , tj. zobrazení c : R → Rn v n–rozměrném prostoru, můžeme pracovat s pojmy, které jednoduše rozšiřují naše úvahy z funkcí jedné proměnné: • limita: limt→t0 c(t) ∈ Rn • derivace: c (t0) = limt→t0 1 |t−t0| · (c(t) − c(t0)) ∈ Rn • integrál: b a c(t)dt ∈ Rn . Všimněme si také, že jak limita tak derivace křivek mají smysl v afinním prostoru, aniž bychom volili souřadnice (přičemž limitou posloupnosti je opět bod v původním prostoru, zatímco derivace je vektor v zaměření!). V případě integrálu ale musíme uvažovat křivky ve vektorovém prostoru Rn . Důvod je vidět už v jednorozměrném případě, kde potřebujeme znát počátek, abychom mohli vidět „plochu pod grafem funkce“. Opět je přímo z definice zjevné, že limity, derivace i integrály lze spočíst po jednotlivých n souřadných složkách v Rn a stejně se rozpozná i jejich existence. U integrálu můžeme také přímo formulovat pro křivky analogii souvislosti Riemannova integrálu a primitivní funkce (viz 6.25): Tvrzení. Nechť c je křivka v Rn , spojitá na intervalu [a, b]. Pak existuje její Riemannův integrál b a c(t)dt. Navíc je křivka C(t) = t a c(s)ds ∈ Rn dobře definovaná, diferencovatelná a platí C (t) = c(t) pro všechny hodnoty t ∈ [a, b]. Horší je to s větou o střední hodnotě a obecněji s Taylorovou větou, viz 5.38 a 6.4. Ve zvolených souřadnicích je můžeme aplikovat na jednotlivé souřadné funkce diferencovatelné křivky c(t) = (c1(t), . . . , cn(t)) na konečném intervalu [a, b]. Dostaneme např. u věty o střední hodnotě existenci čísel ti takových, že ci(b) − ci(a) = (b − a) · ci(ti). Tato čísla ti ale budou obecně různá, nemůžeme proto vyjádřit rozdílový vektor koncových bodů c(b) − c(a) jako násobek 1V geometrii se většinou rozlišuje mezi křivkou jakožto podmnožinou v En a její parametrizací R → Rn. My zde pod pojmem „křivka“ rozumíme výhradně parametrizované křivky. Těm se v české geometrické literatuře často říká „dráha“ 338 KAPITOLA 8. SPOJITÉ MODELY S VÍCE PROMĚNNÝMI derivace křivky v jediném bodě. Např. v rovině E2 pro diferencovatelnou křivku c(t) = (x(t), y(t)) takto dostáváme c(b) − c(a) = (x (ξ)(b − a), y (η)(b − a)) = (b − a) · (x (ξ), y (η)) pro dvě (obecně různé) hodnoty ξ, η ∈ [a, b]. Pořád nám ale tato úvaha stačí na následující odhad Lemma. Je-li c křivka v En se spojitou derivací na kompaktním intervalu [a, b], pak pro všechny a ≤ s ≤ t ≤ b platí c(t) − c(s) ≤ √ n(maxr∈[a,b] c (r) ) · |t − s|. Důkaz. Přímým použitím věty o střední hodnotě dostáváme pro vhodné body ri uvnitř intervalu [s, t]: c(t) − c(s) 2 = n i=1 (ci(t) − ci(s))2 ≤ n i=1 (ci(ri)(t − s))2 ≤ (t − s)2 n i=1 maxr∈[s,t] ci(r)2 ≤ n(maxr∈[s,t], i=1,...,n |ci(r)|)2 (t − s)2 ≤ n maxr∈[s,t] c (r) 2 (t − s)2 . Důležitým pojmem je tečný vektor ke křivce c : R → En v bodě c(t0) ∈ En, který definujeme jako vektor v prostoru zaměření Rn daný derivací c (t0) ∈ Rn . Přímka T zadaná parametricky T : c(t0) + t · c (t0) se nazývá tečna ke křivce c v bodě t0. Na rozdíl od tečného vektoru, tečna T coby neparametrizovaná přímka zjevně nezávisí na parametrizaci křivky c, protože při změně parametrizace dostaneme díky větě o derivování složených funkcí znovu stejný tečný vektor, až na násobek. 8.4 8.5. Parciální derivace. Pro každou funkci f : Rn → R a libovolnou křivku c : R → Rn máme k dispozici jejich kompozici (f ◦ c)(t) : R → R. Tato složená funkce F ◦ c vypovídá o chování funkce f podél křivky c. Nejjednodušší bude použít přímky. směrové a parciální derivace Definice. Řekneme, že f : Rn → R má derivaci ve směru vektoru v ∈ Rn v bodě x ∈ En, jestliže existuje derivace dvf (x) složeného zobrazení t → f (x + tv) v bodě t = 0, tj. dvf (x) = lim t→0 1 t (f (x + tv) − f (x)). Hodnotě dvf také říkáme směrová derivace. Speciální volbou přímek ve směru souřadných os dostáváme tzv. parciální derivace funkce f , které značíme ∂f ∂xi , i = 1, . . . , n, nebo bez odkazu na samotnou fukci jako operace ∂ ∂xi . 339 KAPITOLA 8. SPOJITÉ MODELY S VÍCE PROMĚNNÝMI Pro funkce v rovině tak dostáváme ∂ ∂x f (x, y) = lim t→0 1 t (f (x + t, y) − f (x, y)) ∂ ∂y f (x, y) = lim t→0 1 t (f (x, y + t) − f (x, y)). Zejména je vidět, že parciálně podle vybrané proměnné derivujeme tak, že prostě všechny ostatní proměnné považujeme za konstanty a postupujeme jako u funkcí jedné proměnné. 8.4a 8.6. Diferenciál funkce f : Rn → R. Se samotnými parciálními nebo směrovými derivacemi nevystačíme pro dobrou aproximaci chování funkce lineárními výrazy. Asi bychom přirozeně očekávali, že „diferencovatelná“ funkce více proměnných bude složením s jakoukoliv diferencovatelnou křivkou dávat diferencovatelné funkce jedné proměnné, které už dobře známe. Podívejme se ale např. na funkce v rovině zadané výrazy g(x, y) = 1 když yx = 0 0 jinak h(x, y) = 1 když y = x2 = 0 0 jinak . Evidentně žádná z nich neprodlužuje všechny hladké křivky procházející bodem (0, 0) na hladké funkce. Přitom ale pro g existují obě parciální derivace v (0, 0) a jiné směrové derivace neexistují, zatímco pro h existují všechny směrové derivace v bodě (0, 0) a je dokonce dvh(0) = 0 pro všechny směry v, takže jde o lineární závislost na v ∈ R2 . Snadno si také představíme funkci f , která bude mít podél přímek (r cos θ, r sin θ) s pevným úhlem θ hodnoty k(θ)r, přičemž k(θ) je periodická lichá funkce v úhlu θ, s periodou 2π. Její směrové derivace dvf v (0, 0) všechny existují, ale pro obecné funkce k(θ) zcela jistě nepůjde o lineární výrazy v závislosti na směrech v. Budeme proto sledovat případ funkcí jedné proměnné co nejdůsledněji a podobné patologické chování funkcí vyloučíme přímo definicí: Diferenciál Definice. Funkce f : Rn → R je diferencovatelná v bodě x, jestliže zároveň platí tři vlastnosti: (1) v bodě x existují směrové derivace dvf (x) pro všechny vektory v ∈ Rn , (2) dvf (x) je lineární v závislosti na přírůstku v, (3) limv→0 1 v f (x + v) − f (x) − dvf (x) = 0. Lineární výraz dvf (ve vektorové proměnné v) nazýváme diferenciál funkce f vyčíslený na přírůstku v. 340 KAPITOLA 8. SPOJITÉ MODELY S VÍCE PROMĚNNÝMI Řečeno slovy, požadujeme, aby v bodě x existovalo dobré přiblížení přírůstků funkce f pomocí lineární funkce přírůstků proměnných veličin. Přímo z definice směrových derivací vyplývá, že můžeme také diferenciál definovat pouze pomocí vlastnosti (3). Skutečně, pokud existuje nějaká lineární forma df (x) taková, že pro přírůstky v v bodě x platí vlastnost (3) s dvf (x) = df (x)(v), pak je zjevně df (x)(v) právě směrovou derivací funkce f v bodě x a vlastnosti (1) a (2) jsou tedy splněny automaticky. Podívejme se, co umíme říci o diferenciálu funkce f (x, y) v rovině za přepokladu, že obě parciální derivace ∂f ∂x , ∂f ∂y existují a jsou spojité v okolí bodu (x0, y0). Uvažme za tím účelem jakoukoliv hladkou křivku t → (x(t), y(t)) s x0 = x(0), y0 = y(0). S použitím věty o střední hodnotě na funkce jedné proměnné v obou sčítancích zvlášť dovodíme, že 1 t f (x(t), y(t)) − f (x0, y0) = 1 t f (x(t), y(t))−f (x0, y(t)) + 1 t f (x0, y(t))−f (x0, y0) = 1 t (x(t)−x0)· ∂f ∂x (x(ξ), y(t))+1 t (y(t)−y0)· ∂f ∂y (x0, y(η)) pro vhodná čísla ξ a η mezi 0 a t. Zejména tedy pro každou posloupnost čísel tn jdoucí k nule získáme příslušné posloupnosti čísel ξn a ηn, které také budou konvergovat k nule, a pro všechny bude platit vyjádření výše. Limitním přechodem t → 0 proto díky spojitosti parciálních derivací dostáváme (viz test konvergence funkce pomocí vybraných posloupností hodnot argumentů, 5.23, a Věta 5.22 o limitách součtů a součinů funkcí) d dt f (x(t), y(t))|t=0 = x (0) ∂f ∂x (x0, y0) + y (0) ∂f ∂y (x0, y0), což je příjemné rozšíření platnosti věty o derivování složených funkcí jedné proměnné pro vektorově hodnotové funkce. Samozřejmě, speciální volbou parametrizovaných přímek (x(t), y(t)) = (x0 + tξ, y0 + tη) přechází náš výpočet při v = (ξ, η) na rovnost dvf (x0, y0) = ∂f ∂x (x0, y0)ξ + ∂f ∂y (x0, y0)η a tento vztah můžeme pěkně vyjádřit způsobem, kterým jsme v lineární algebře zapisovali souřadná vyjádření lineárních funkcí na vektorových prostorech: df = ∂f ∂x dx + ∂f ∂y dy. Jinými slovy, směrová derivace dvf je skutečně lineární funkce Rn → R na přírůstcích, se souřadnicemi danými právě parciálními derivacemi. 341 KAPITOLA 8. SPOJITÉ MODELY S VÍCE PROMĚNNÝMI Podobným postupem nyní budeme umět dokázat, že předpoklad spojitých parciálních derivací v daném bodě zajišťuje i aproximační vlastnosti diferenciálu. Budeme už rovnou uvažovat obecné funkce více proměnných: 8.4b 8.7. Věta. Nechť f : En → R je funkce n proměnných, která má v okolí bodu x ∈ En spojité parciální derivace. Pak existuje její diferenciál df v bodě x a jeho souřadné vyjádření je dáno výrazem. df = ∂f ∂x1 dx1 + ∂f ∂x2 dx2 + · · · + ∂f ∂xn dxn. Důkaz. Odvození věty je naprosto analogické výše uvedenému postupu v případě n = 2. Musíme být jen být opatrní v detailech a dokončit úvahu o aproximačních vlastnostech. Úplně stejně jako výše uvažujeme křivku c(t) = (c1(t), . . . , cn(t)), c(0) = (0, ..., 0), a bod x ∈ Rn a vyjádříme pro složenou funkci f (c(t)) rozdíl f (x + c(t)) − f (x) takto f (x1 + c1(t), . . . , xn + cn(t)) − f (x1, x2 + c2(t), . . . ) + f (x1, x2 + c2(t), . . . )) − f (x1, x2, . . . , xn + cn(t)) ... + f (x1, x2, . . . , xn + cn(t)) − f (x1, x2, . . . , xn). Na všech n sčítanců teď můžeme uplatnit větu o střední hodnotě a, stejně jako v případě dvou proměnných, dostáváme (c1(t) − c1(0)) ∂f ∂x1 (x1 + c1(θ1), x2 + c2(t), . . . , xn + cn(t)) + (c2(t) − c2(0)) ∂f ∂x2 (x1, x2 + c2(θ2), . . . , xn + cn(t)) ... + (cn(t) − cn(0)) ∂f ∂xn (x1, x2, . . . , xn + c1(θn)), pro vhodné hodnoty 0 ≤ θi ≤ t. Jde o konečný součet, proto stejnou argumentací jako v případě dvou proměnných ověříme d dt f (x + c(t))t=0 = c1(0) ∂f ∂x1 (x) + · · · + cn(0) ∂f ∂xn (x). Speciální volbou křivek c(t) = x + tv pro směrový vektor v máme ověřeno tvrzení o existenci a linearitě směrových derivací v bodě x. Zároveň ale můžeme úplně stejně aplikovat větu o střední hodnotě na rozdíl f (x + v) − f (x) = dvf (x + θv) = v1 ∂f ∂x1 (x + θv) + · · · + vn ∂f ∂xn (x + θv) 342 KAPITOLA 8. SPOJITÉ MODELY S VÍCE PROMĚNNÝMI s vhodným 0 ≤ θ ≤ 1, kde druhá rovnost platí, podle výše odvozeného výrazu pro směrové derivace, pro dostatečně malá v díky spojitosti parciálních derivací na okolí bodu x. Protože jsou všechny parciální derivace spojité v bodě x, víme, že pro libovolně malé > 0 můžeme najít okolí U počátku v Rn takové, že se pro w ∈ U budou všechny parciální derivace ∂f ∂xi (x + w) lišit od ∂f ∂xi (x) o méně než . Dostaneme pak odhad 1 w f (x + w) − f (x) − dwf (x + θw) ≤ n w w a tedy i aproximační vlastnost diferenciálu je splněna. 8.5 8.8. Tečná rovina ke grafu funkce. Lineární přiblížení chování funkce diferenciálem můžeme také obdobně k funkcím jedné proměnné vyjádřit ve vztahu k jejímu grafu. Jen místo tečen musíme pracovat s nadrovinami. Pro případ funkce na E2 a pevně zvoleného bodu (x0, y0) ∈ E2 uvažme rovinu v E3 zadanou rovnicí z = f (x0, y0) + df (x0, y0)(x − x0, y − y0) = f (x0, y0) + ∂f ∂x (x0, y0)(x − x0) + ∂f ∂y (x0, y0)(y − y0). Již jsme viděli, že přírůstek funkčních hodnot diferencovatelné funkce f : En → R v bodech x + tv a x je vždy vyjádřen pomocí směrové derivace dvf ve vhodném bodě na jejich spojnici. Tato rovina má tedy jako jediná ze všech rovin procházejících bodem (x0, y0) vlastnost, že v ní leží derivace a tedy i tečny všech křivek c(t) = (x(t), y(t), f (x(t), y(t))). Říkáme jí tečná rovina ke grafu funkce f . Na obrázku jsou zobrazeny dvě tečné roviny ke grafu funkce f (x, y) = sin(x) cos(y). Diagonálně vedená čára je obrazem křivky c(t) = (t, t, f (t, t)). 0 1 2 3 x 0 -2 4 1 2 -1 5 3 4 0 y 5 6 6 1 2 0 1 2 3 x 0 -2 4 1 2 -1 5 3 4 0 y 5 6 6 1 2 Pro funkce n proměnných definujeme tečnou rovinu jako analogii k tečné rovině k ploše v trojrozměrném prostoru. Místo zaplétání se do spousty indexů bude snad užitečná vzpomínka na afinní geometrii, kde jsme s tzv. nadrovinami již pracovali, viz odstavec 4.3. 343 KAPITOLA 8. SPOJITÉ MODELY S VÍCE PROMĚNNÝMI Tečná (nad)rovina grafu funkce v bodě Definice. Tečná nadrovina ke grafu funkce f : Rn → R v bodě x ∈ Rn je nadrovina procházející bodem (x, f (x)) se zaměřením, které je grafem lineárního zobrazení df (x) : Rn → R, tj. diferenciálu v bodě x ∈ En. Definice vychází ze skutečnosti, že směrová derivace dvf je dána přírůstkem na tečné (nad)rovině odpovídajícím přírůstku argumentu v. Z těchto úvah vyplývá řada analogií s funkcemi jedné proměnné. Zejména má diferencovatelná funkce f na En v bodě x ∈ En nulový diferenciál tehdy a jen tehdy, když její složení s libovolnou křivkou procházející tímto bodem zde má stacionární bod, tj. ani neroste ani neklesá v lineárním přiblížení. Jinak řečeno, tečná rovina je v takovém bodě rovnoběžná s nadrovinou proměnných (tj. její zaměření je En ⊂ En+1 s přidanou nulovou poslední souřadnicí). To samozřejmě neznamená, že v takovém bodě musí mít f aspoň lokálně buď maximum nebo minimum. Stejně jako u funkcí jedné proměnné můžeme rozhodovat teprve podle derivací vyšších. 8.6 8.9. Derivace vyšších řádů. Stejně jako v přídpadě jedné proměnné, operaci derivování je možné iterovat. Tentokrát si můžeme pro každou iteraci vybrat jiný směr. Jestliže vybereme pevný přírůstek v ∈ Rn , zadává vyčíslení diferenciálů na tomto přírůstku (diferenciální) operaci na diferencovatelných funkcích f : En → R f → dvf = df (v) a výsledkem je opět funkce df (v) : En → R. Jestliže je tato funkce opět diferencovatelná, může opakovat totéž s jiným přírůstkem atd. Zejména tedy můžeme pracovat s iteracemi parciálních derivací. Pro parciální derivace druhého řádu píšeme ∂ ∂xj ◦ ∂ ∂xi f = ∂2 ∂xi∂xj f = ∂2 f ∂xi∂xj . V případě opakované volby i = j píšeme také ∂ ∂xi ◦ ∂ ∂xi f = ∂2 ∂x2 i f = ∂2 f ∂x2 i . Úplně stejně postupujeme při dalších iteracích a hovoříme o parciálních derivacích k-tého řádu ∂k f ∂xi1 . . . ∂xik . Obecněji můžeme iterovat (u dostatečně diferencovatelných funkcí) také libovolné směrové derivace, např. dv ◦ dwf pro dva pevné přírůstky v, w ∈ Rn . 344 KAPITOLA 8. SPOJITÉ MODELY S VÍCE PROMĚNNÝMI k–krát diferencovatelné funkce Řekneme, že je funkce f : En → R k–krát diferencovatelná v bodě x, jestliže všechny parciální derivace až do řádu k včetně existují na nějakém okolí bodu x a jsou v tomto bodě spojité. Řekneme, že funkce f je k–diferencovatelná, jestliže je k–krát diferencovatelná ve všech bodech svého definičního oboru. Abychom si vše ukázali v co nejjednodušší formě, budeme opět pracovat chvíli v rovině E2 za přepokladu spojitosti parciálních derivací druhého řádu. V rovině a prostoru se často stručně značí iterované derivace pouhými odkazy jmen proměnných v pozici indexů u funkce, např. fx = ∂f ∂x , fxx = ∂2 f ∂x2 , fxy = ∂2 f ∂x∂y , fyx = ∂2 f ∂y∂x . Ukážeme, že ve skutečnosti spolu za rozumných podmínek parciální derivace komutují, tzn. není potřeba dbát na pořadí, ve kterém je provádíme. Dle předpokladu existence a spojitosti parciálních derivací existují limity fxy(x, y) = lim t→0 1 t fx(x, y + t) − fx(x, y) = lim t→0 1 t lim s→0 1 s f (x + s, y + t) − f (x, y + t) − f (x + s, y) + f (x, y) . Protože ale limity můžeme vyjádřit pomocí libolného výběru hodnot tn → 0 a sn → 0 a limit příslušných posloupností, bude jistě také platit fxy(x, y) = lim t→0 1 t2 f (x + t, y + t) − f (x, y + t) − f (x + t, y) − f (x, y) a tato limitní hodnota je spojitá v (x, y). Označme si výraz, ze kterého bereme poslední limitu, jako funkci ϕ(x, y, t) a zkusme jej vyjádřit pomocí parciálních derivací. Pro dočasně pevné t si označme g(x, y) = f (x + t, y) − f (x, y). Pak výraz v poslední velké závorce je díky větě o střední hodnotě roven g(x, y + t) − g(x, y) = t · gy(x, y + t0). pro nějaké vhodné t0, které je mezi nulou a t (a hodnota t0 závisí na t). Nyní gy(x, y) = fy(x +t, y)−fy(x, y) a proto můžeme psát ϕ jako ϕ(x, y, t) = 1 t gy(x, y + t0) = 1 t fy(x + t, y + t0) − fy(x, y + t0) . 345 KAPITOLA 8. SPOJITÉ MODELY S VÍCE PROMĚNNÝMI Opětovnou aplikací věty o střední hodnotě, ϕ(x, y, t) = fyx(x + t1, y + t0) pro vhodné t1 mezi nulou a t. Když ale velkou závorku rozdělíme na (f (x +t, y +t)−f (x +t, y))−(f (x, y +t)− f (x, y)), dostaneme stejným postupem s funkcí h(x, y) = f (x, y + t) − f (x, y) vyjádření ϕ(x, y, t) = fxy(x + s0, y + s1) s obecně jinými konstantami s0 a s1. Protože jsou druhé parciální derivace podle našeho předpoklady spojité, musí i limita pro t → 0 zaručit požadovanou rovnost fxy(x, y) = fyx(x, y) ve všech bodech (x, y). Stejný postup pro funkce n proměnných dokazuje následující základní výsledek: Záměnnost parciálních derivací 8.6a 8.10. Věta. Nechť f : En → R je k-krát diferencovatelná funkce se spojitými parciálními derivacemi až do řádu k včetně v okolí bodu x ∈ Rn . Pak všechny parciální derivace nezávisí na pořadí derivování. Důkaz. Důkaz pro druhý řád byl proveden výše pro n = 2 a postup v obecném případě se nijak neliší. Formálně můžeme obecný případ u dvou derivací odbýt i tvrzením, že se vždy celá argumentace odehraje ve dvourozměrném afinním podprostoru, tj. všechny ostatní proměnné považujeme za konstantní a v argumentaci nijak aktivně nevystoupí. U derivací vyššího řádu důkaz dokončíme indukcí podle řádu. Skutečně, každé pořadí indexů lze vytvořit záměnami sousedících dvojic. 8.6b 8.11. Hessián. Tak jako jsme u derivací prvního řádu zavedli diferenciál coby lineární formu df (x) přibližující nejlépe v daném bodu x funkci f , budeme nyní chtít porozumět kvadratickému přiblížení funkcí f : En → R. Hessián Definice. Je-li f : Rn → R libovolná dvakrát diferencovatelná funkce, nazýváme symetrickou matici funkcí Hf (x) = ∂2 f ∂xi∂xj (x) =     ∂2f ∂x1∂x1 (x) . . . ∂2f ∂x1∂xn (x) ... ... ... ∂2f ∂xn∂x1 (x) . . . ∂2f ∂xn∂xn (x)     Hessián funkce f v bodě x. 346 KAPITOLA 8. SPOJITÉ MODELY S VÍCE PROMĚNNÝMI Z předchozích úvah jsme již viděli, že vynulování diferenciálu v bodě (x, y) ∈ E2 zaručuje stacionární chování podél všech křivek v tomto bodu. Hessián Hf (x, y) = fxx(x, y) fxy(x, y) fxy(x, y) fyy(x, y) hraje roli druhé derivace. Pro každou parametrizovanou přímku c(t) = (x(t), y(t)) = (x0 + ξt, y0 + ηt) budou totiž mít funkce jedné proměnné α(t) = f (x(t), y(t)) β(t) = f (x0, y0) + ∂f ∂x (x0, y0)ξ + ∂f ∂y (x0, y0)η + 1 2 fxx(x0, y0)ξ2 + 2fxy(x0, y0)ξη + fyy(x0, y0)η2 stejné derivace do druhého řádu včetně (přepočtěte!). Funkci β přitom můžeme zapsat vektorově jako β(t) = f (x0, y0)+df (x0, y0)· ξ η + 1 2 (ξ η)·Hf (x0, y0)· ξ η nebo β(t) = f (x0, y0)+df (x0, y0)(v)+ 1 2 Hf (x0, y0)(v, v), kde v = (ξ, η) je přírůstek zadaný derivací křivky c(t) a Hessián je použit jako symetrická 2–forma. To je vyjádření, které již určitě připomíná Taylorovu větu funkcí jedné proměnné, přesněji řečeno kvadratické přiblížení funkce Taylorovým polynomem druhého řádu. Na následujícím obrázku je vynesena jak tečná rovina tak toto kvadratické přiblížení pro dva různé body a funkci f (x, y) = sin(x) cos(y). 6 5 4 x 3 2 1 0 0 1 2 3 4 y 5 6-2 -1 0 1 2 6 5 4 x 3 2 1 0 0 1 2 3 4 y 5 6-2 -1 0 1 2 8.7 8.12. Taylorova věta. Vícerozměrná verze Taylorovy věty je také příkladem matematického tvrzení, kde složitou částí je nalezení správné formulace. Důkaz je už pak docela snadný. Budeme postupovat ve výše naznačeném směru a zavedeme si značení pro jednotlivé části Dk f aproximací vyšších řádů pro funkce f : En → Rn . Budou to vždy k–lineární výrazy v přírůstcích a nás bude zajímat jen jejich vyčíslení na k stejných hodnotách. Již jsme diskutovali diferenciál D1 f = df v prvním řádu a hessián D2 f = Hf v řádu druhém. Obecně pro funkce f : En → R, body x = (x1, . . . , x2) ∈ En a přírůstky v = (ξ1, . . . , ξn) klademe Dk f (x)(v) = 1≤i1,...,ik≤n ∂k f ∂xi1 . . . ∂xik (x1, . . . , xn)·ξi1 · · · ξik . 347 KAPITOLA 8. SPOJITÉ MODELY S VÍCE PROMĚNNÝMI Názorným příkladem (s využitím symetrií parciálních derivací) je pro E2 výraz třetího řádu D3 f (x, y)(ξ, η) = ∂3 f ∂x3 ξ3 + 3 ∂3 f ∂x2∂y ξ2 η + 3 ∂3 f ∂x∂y2 ξη2 + ∂3 f ∂y3 η3 a obecně Dk f (x, y)(ξ, η) = k =0 k ∂k f ∂xk− ∂y ξk− η . Taylorův rozvoj se zbytkem Věta. Nechť f : En → R je k–krát diferencovatelná funkce v okolí Oδ(x) bodu x ∈ En. Pro každý přírůstek v ∈ Rn s velikostí v < δ pak existuje číslo 0 ≤ θ ≤ 1 takové, že f (x + v) = f (x) + D1 f (x)(v) + 1 2! D2 f (x)(v)+ · · · + 1 (k − 1)! Dk−1 f (x)(v) + 1 k! Dk f (x + θ · v)(v). Důkaz. Pro přírůstek v ∈ Rn uvažujme parametrizovanou přímku c(t) = x + tv v En a zkoumejme funkci ϕ : R → R definovanou složením ϕ(t) = f ◦ c(t). Taylorova věta pro funkce jedné proměnné říká (viz Věta 6.4) ϕ(t) = ϕ(0) + ϕ (0)t + . . . + 1 (k − 1)! ϕ(k−1) (0)tk−1 + 1 k! ϕ(k) (θ)tk . Zbývá nám tedy jen ověřit, že postupným derivováním složené funkce ϕ dostaneme právě požadovaný vztah. To lze vcelku snadno provést indukcí přes řád k. Pro k = 1 splývá Taylorova věta s již několikrát využitým důsledkem věty o střední hodnotě aplikované na směrovou derivaci. Při jeho odvození jsme vyšli ze vztahu d dt ϕ(t) = ∂f ∂x1 (x(t)) · x1(t) + · · · + ∂f ∂xn (x(t)) · xn(t), který platí pro každou křivku a funkci f . To znamená, že D1 f (c(t))(v) = D1 f (c(t))(c (t)) pro všechna t v okolí nuly. Stejně budeme postupovat pro funkce D f . Místo přírůstku v můžeme psát c (t) a zapamatujme si, že další derivování c(t) již vede identicky na nulu všude, tj. c (t) = 0 pro všechna t (protože jde o parametrizovanou přímku). 348 KAPITOLA 8. SPOJITÉ MODELY S VÍCE PROMĚNNÝMI Předpokládejme, že D f (x)(v) = 1≤i1,...,i ≤n ∂ f ∂xi1 . . . ∂xi (x1(t), . . . , xn(t)) · xi1 (t) · · · xi (t) a spočtěme totéž pro +1. Derivování složené funkce dá podle výše odvozeného vztahu pro derivaci prvního řádu v daném směru a podle pravidla o derivání součinu (viz Věta 5.33) d dt D f (c(t))(c (t)) = = d dt 1≤i1,...,i ≤n ∂ f ∂xi1 . . . ∂xi (x1(t), . . . , xn(t)) · xi1 (t) · · · xi (t) = 1≤i1,...,i ≤n n j=1 ∂ +1 f ∂xi1 . . . ∂xi ∂xj (x1(t), . . . , xn(t)) · xj (t) · xi1 (t) · · · xi (t) + 0 a to skutečně je požadovaný vztah pro řád + 1. Taylorova věta nyní vyplývá z vyčíslení v bodě t = 0 a dosazení do rovnosti pro ϕ na začátku tohoto důkazu. 8.13. Lokální extrémy funkcí více proměnných. Zkusme se nyní s pomocí diferenciálu a hessiánu podívat na lokální maxima a minima funkcí na En. Stejně jako v případě funkce jedné proměnné řekneme o vnitřním bodu x0 ∈ En definičního oboru funkce f , že je (lokálním) maximem nebo minimem, jestliže existuje jeho okolí U takové, že pro všechny body x ∈ U splňuje funkční hodnota f (x) ≤ f (x0) nebo f (x) ≥ f (x0). Pokud nastává v předchozích nerovnostech ostrá nerovnost pro všechny x = x0, hovoříme o ostrém extrému. Pro jednoduchost budeme nadále předpokládat, že naše funkce f má spojité parciální derivace prvního i druhého řádu na svém definičním oboru. Nutnou podmínkou pro existenci maxima nebo minima v bodě x0 je vymizení diferenciálu v tomto bodě, tj. df (x0) = 0. Skutečně, pokud je df (x0) = 0, pak existuje směr v, ve kterém je dvf (x0) = 0. Pak ovšem nutně je podél přímky x0 + tv na jednu stranu od bodu x0 hodnota funkce roste a na druhou klesá, viz (5.32). Vnitřní bod x ∈ En definičního oboru funkce f , ve kterém je diferenciál df (x) nulový nazýváme stacionární bod funkce f . Budeme opět chvíli pracovat s jednoduchou funkcí v E2 abychom závěry přímo mohli ilustrovat. Uvažme funkci f (x, y) = sin(x) cos(y), která už byla předmětem diskuse a obrázků v odstavcích 8.9 a 8.8. Svým tvarem tato funkce připomíná známá kartonová plata na vajíčka, je tedy předem zřejmé, že najdeme řadu extrémů, ale ještě více stacionárních 349 KAPITOLA 8. SPOJITÉ MODELY S VÍCE PROMĚNNÝMI bodů, která ve skutečnosti extrémy nebudou (ta „sedýlka“ viditelná na obrázku). 00 -1 22 -0,5 44 0 66 0,5 8 8 1 Spočtěme si tedy první a poté druhé derivace: fx(x, y) = cos(x) cos(y), fy(x, y) = − sin(x) sin(y), takže obě derivace budou nulové pro dvě sady bodů (1) cos(x) = 0, sin(y) = 0, to je (x, y) = (2k+1 2 π, π), pro libovolné k, ∈ Z (2) cos(y) = 0, sin(x) = 0, to je (x, y) = (kπ, 2 +1 2 π), pro libovolné k, ∈ Z. Druhé parciální derivace jsou Hf (x, y) = fxx fxy fxy fyy (x, y) = − sin(x) cos(y) − cos(x) sin(y) − cos(x) sin(y) − sin(x) cos(y) . V našich dvou sadách stacionárních bodů tedy dostáváme následující hessiány: (1) Hf (kπ + π 2 , π) = ± 1 0 0 1 , přičemž znaménko − nastává, když parity k a jsou stejné a naopak pro +; (2) Hf (kπ, π + π 2 ) = ± 0 1 1 0 , přičemž znaménko − nastává, když parity k a jsou stejné a naopak pro +. Když se nyní podíváme na tvrzení Taylorovy věty pro řád k = 2, dostáváme v okolí jednoho ze stacionárních bodů (x0, y0) f (x, y) = f (x0, y0)+ + 1 2 Hf (x0 + θ(x − x0), y0 + θ(y − y0))(x − x0, y − y0), kde Hf nyní vnímáme jako kvadratickou formu vyčíslenou na přírůstku (x − x0, y − y0). Protože naše funkce má spojitý hessián (tj. spojité parciální derivace do druhého řádu včetně), a matice hessiánu jsou nedegenerované, nastane lokální maximum tehdy a jen tehdy, když náš bod (x0, y0) patří do první skupiny se stejnými paritami k a . Když budou parity opačné, pak bod z první skupiny bude naopak bodem lokálního minima. Naopak, hessián u druhé skupiny bodů se vždy vyčíslí kladně na některých přírůstcích a záporně na jiných. Proto se tak bude chovat i celá funkce f v malém okolí daného bodu. 350 KAPITOLA 8. SPOJITÉ MODELY S VÍCE PROMĚNNÝMI Abychom mohli zformulovat obecné tvrzení o hessiánu a lokálních extrémech ve stacionárních bodech, musíme připomenout diskusi o kvadratických formách v odstavcích 4.31–4.32 v kapitole o afinní geometrii. Zavedli jsme tam pro kvadratickou formu h : En → R následující přívlastky • positivně definitní, je-li h(u) > 0 pro všechny u = 0 • positivně semidefinitní, je-li h(u) ≥ 0 pro všechny u ∈ V • negativně definitní, je-li h(u) < 0 pro všechny u = 0 • negativně semidefinitní, je-li h(u) ≤ 0 pro všechny u ∈ V • indefinitní, je-li h(u) > 0 a f (v) < 0 pro vhodné u, v ∈ V . Zavedli jsme také nějaké metody, které umožňují přímo zjistit, zda daná forma má některý z těchto přívlastků. Taylorův rozvoj se zbytkem okamžitě dává platnost následující věty: Věta. Nechť f : En → R je dvakrát spojitě diferencovatelná funkce a x ∈ En nechť je stacionární bod funkce f . Potom (1) f má v x ostré lokální minimum, je-li Hf (x) positivně definitní, (2) f má v x ostré lokální maximum, je-li Hf (x) negativně definitní, (3) f nemá v bodě x lokální extrém je-li Hf (x) indefinitní. Důkaz. Taylorův rozvoj druhého řádu se zbytkem pro funkci f (x1, . . . , xn), bod x = (x1, . . . , xn) a přírůstek v = (v1, . . . , vn) říká f (x + v) = f (x) + df (x)(v) + 1 2 Hf (x + θ · v)(v). Dle předpokladu o nulové hodnotě diferenciálu je tedy f (x + v) = f (x) + 1 2 Hf (x + θ · v)(v). Podle našeho předpokladu je kvadratická forma Hf (x) spojitě závislá na bodu x a definitnost, resp. indefinitnost, kvadratických forem je rozhodnutelná podle znaménka hlavních subdeterminantů matice Hf , viz Sylvestrovo kritérium v odstavci 4.32. Samotný determinant je ale coby polynomiální výraz v koeficientech matice spojitou funkcí, proto nenulovost a znaménka zkoumaných determinantů v dostatečně malém okolí bodu x budou stejná jako v bodě x samotném. Zejména tedy pro pozitivně definitní Hf (x) máme zajištěno, že f (x + v) > f (x) pro dostatečně malá v, jde tedy o ostré minimum funkce f v bodě x. Analogicky pro negativní definitnost. V případě indefinitní formy Hf (x) budou existovat směry v, w ve kterých f (x + v) > f (x) a f (x + w) < f (x) a tedy extrém žádný nenastává. Všimněme si, že věta nedává žádný výsledek, pokud je hessián funkce ve zkoumaném bodě degenerovaný a přitom není indefinitní. Důvod je opět stejný jako u funkcí jedné proměnné. V takových případech totiž existují směry, ve kterých první i druhá derivace zmizí a my proto v tomto řádu přiblížení neumíme poznat, zda se funkce bude chovat jako 351 KAPITOLA 8. SPOJITÉ MODELY S VÍCE PROMĚNNÝMI t3 nebo jako ±t4 dokud nespočteme alespoň v potřebných směrech derivace vyšší. Zároveň si povšimněme, že i v bodech, kde je diferenciál nenulový, má definitnost hessiánu Hf (x) podobné důsledky jako nenulovost druhé derivace u funkce jedné proměnné. Skutečně, výraz z(x + v) = f (x) + df (x)(v) zadává právě tečnou nadrovinu ke grafu funkce f a proto Taylorova věta druhého řádu se zbytkem, tak jak byla využita v důkazu, ukazuje, že při pozitivní definitnosti hessiánu jsou všechny hodnoty funkce f v dostatečně malém okolí bodu x nad hodnotami na tečné nadrovině, tj. celý graf je v dostatečně malém okolí nad tečnou nadrovinou. V případě negativní definitnosti je tomu naopak. U indefinitních hodnot hesiánu opět graf funkce přechází z jedné strany tečné nadroviny na druhou, to se ale obecně děje podél objektů nižší dimenze v tečné nadrovině, nemáme tedy k dispozici přímočaré zobecnění inflexních bodů. 8.9 8.14. Zobrazení. Koncept derivace a diferenciálu lze snadno rozšířit na zobrazení F : En → Em. Při zvolených kartézských souřadnicích na obou stranách je takové zobrazení obyčejná m–tice F(x1, . . . , xn) = (f1(x1, . . . , xn), . . . , fm(x1, . . . , xn)) funkcí fi : En → R. Řekneme, že F je diferencovatelné nebo k–krát diferencovatelné zobrazení, jestliže tuto vlastnost mají všechny funkce f1, . . . , fm. Diferenciál a Jacobiho matice Diferenciály dfi(x) jednotlivých funkcí fi zobrazení F(x1, . . . , xn) = (f1(x1, . . . , xn), . . . , fm(x1, . . . , xn)) poskytují lineární přiblížení přírůstků jejich hodnot. Lze proto očekávat, že budou společně dávat také souřadné vyjádření lineárního zobrazení D1 F(x) : Rn → Rm mezi zaměřeními, které bude lineárně aproximovat přírůstky našeho zobrazení. Výsledná matice D1 F(x) =      df1(x) df2(x) ... dfm(x)      =       ∂f1 ∂x1 ∂f1 ∂x2 . . . ∂f1 ∂xn ∂f2 ∂x1 ∂f2 ∂x2 . . . ∂f2 ∂xn ... ... ... ... ∂fm ∂x1 ∂fm ∂x2 . . . ∂fm ∂xn       (x) se nazývá Jacobiho matice zobrazení F v bodě x. Lineární zobrazení D1 F(x) definované na přírůstcích v = (v1, . . . , vn) pomocí stejně značené Jacobiho matice nazýváme diferenciál zobrazení F v bodě x z definičního oboru, jestliže platí lim v→0 1 v F(x + v) − F(x) − D1 F(x)(v) = 0. 352 KAPITOLA 8. SPOJITÉ MODELY S VÍCE PROMĚNNÝMI Přímé použití Věty 8.5 o existenci diferenciálu pro funkce n proměnných na jednotlivé souřadné funkce zobrazení F a sama definice euklidovské vzdálenosti vede k následujícímu tvrzení: Důsledek. Nechť F : En → Em je zobrazení, jehož všechny souřadné funkce mají spojité parciální derivace v okolí bodu x ∈ En. Pak existuje diferenciál D1 F(x) zadaný Jacobiho maticí. 8.9a 8.15. Transformace. Zobrazení F : En → En, která mají inverzní zobrazení G : Em → En definované na celém svém obrazu, se nazývají transformace. Každé takové zobrazení je možné vnímat jako změnu souřadnic. Zpravidla požadujeme, aby F i G byla diferencovatelná. Stejně jako u vektorových prostorů, volba našeho „pohledu na věc“, tj. volba souřadnic, může zdánlivě zjednodušit nebo zhoršit naše porozumění studovanému objektu. Změnu souřadnic nyní diskutujeme v daleko obecnější formě než jen u afinních zobrazení v kapitole čtvrté. Velice názorný příklad je změna nejobvyklejších souřadnic v rovině na tzv. polární, tj. polohu bodu P zadáváme pomocí jeho vzdálenosti od počátku souřadnic r = x2 + y2 a úhlu ϕ = arctan(y/x) (pokud je x = 0) mezi spojnicí s počátkem a osou x. Přechod z polárních souřadnic do standardních je Ppolární = (r, ϕ) → (r cos ϕ, r sin ϕ) = Pkartézské Je přitom zjevné, že je nutné polární souřadnice vhodně omezit na podmnožinu bodů (r, ϕ) v rovině, aby existovalo i zobrazení inverzní. Kartézský obraz přímek v polárních souřadnicích s konstantními souřadnicemi r nebo ϕ je na následujícím obrázku: 15/62/31/21/31/6 0 2*Pi 11/6*Pi 5/3*Pi 3/2*Pi 4/3*Pi 7/6*Pi Pi 5/6*Pi 2/3*Pi 1/2*Pi 1/3*Pi 1/6*Pi 0 Následující věta formuluje velmi užitečné zobecnění pravidla pro derivání složených funkcí jedné proměnné. Je vlastně, až na složitější koncept samotného diferenciálu, úplně stejná, jako už u jedné proměnné viděli. Pro funkce jedné 353 KAPITOLA 8. SPOJITÉ MODELY S VÍCE PROMĚNNÝMI proměnné je totiž Jacobiho matice jediné číslo a to derivace funkce v bodě, násobení Jacobiho matic je tedy prosté násobení derivací vnější a vnitřní složky funkce.) Speciálním případem jsou samozřejmě také vztahy, které jsme odvodili pro derivaci kompozice funkce více proměnných s křivkou. Diferenciál složeného zobrazení 8.10 8.16. Věta. Nechť F : En → Em a G : Em → Er jsou dvě diferencovatelná zobrazení, přičemž definiční obor G obsahuje celý obor hodnot F. Pak také složené zobrazení G ◦ F je diferencovatelné a jeho diferenciál je v každém bodě z definičního obodu F kompozicí diferenciálů D1 (G ◦ F)(x) = D1 G(F(x)) ◦ D1 F(x). Příslušná Jacobiho matice je dána součinem příslušných Jacobiho matic. Důkaz. V odstavci 8.5 a při důkazu Taylorovy věty jsme odvodili, jak se chová diferencování složených zobrazení vzniklých z funkcí a křivek. Tím jsme dokázali speciální případy této věty s n = r = 1. Obecný případ se odvodí prakticky stejným postupem, jen budeme pracovat více s vektory. Zvolme libovolný pevný přírůstek v a počítejme směrovou derivaci pro kompozici G ◦ F v bodě x ∈ En. Ve skutečnosti to znamená spočíst postupně diferenciály pro jednotlivé souřadné funkce zobrazení G složené s F. Pišme tedy rovnou jednodušeji g ◦ F pro kteroukoliv z nich. dv(g ◦ F)(x) = lim t→0 1 t g(F(x + tv)) − g(F(x)) . Výraz v závorce můžeme ovšem z definice diferenciálu g vyjádřit jako g(F(x + tv)) − g(F(x) = dg(F(x))(F(x + tv) − F(x)) + α(F(x + tv) − F(x)), kde α je funkce definovaná na okolí bodu F(x), která je spojitá a splňuje limv→0 1 v α(v) = 0. Dosazením do rovnosti pro směrovou derivaci dostáváme dv(g ◦ F)(x) = lim t→0 1 t dg(F(x))(F(x + tv) − F(x)) + α(F(x + tv) − F(x)) = dg(F(x)) lim t→0 1 t F(x + tv) − F(x) + lim t→0 1 t α(F(x + tv) − F(x)) = dg(F(x)) ◦ D1 F(x)(v) + 0, kde jsme využili skutečnosti, že lineární zobrazení mezi konečněrozměrnými prostory jsou vždy spojitá a vlastnosti funkce α. 354 KAPITOLA 8. SPOJITÉ MODELY S VÍCE PROMĚNNÝMI Dokázali jsme tedy tvrzení pro jednotlivé funkce g1, . . . , gr zobrazení G. Celá věta nyní vyplývá z toho, jak se násobí matice. Ilustrujme teď využití konceptu transformace a věty o derivání složených zobrazení na jednoduchém příkladě. Viděli jsme, že polární souřadnice vzniknou z kartézských transformací F : R2 → R2 , kterou v souřadnicích (x, y) a (r, ϕ) zapíšeme takto (např na definičním oboru všech bodů v prvním kvadrantu roviny mimo body s x = 0) r = x2 + y2, ϕ = arctan y x . Uvažme funkci gt : E2 → R, která má v polárních souřadnicích vyjádření g(r, ϕ, t) = sin(r − t). Taková funkce nám snad dobře přibližuje vlnění povrchu hladiny po bodovém vzruchu v počátku v čase t, viz obrázek s hodnotou t = −π/2. Zatímco v polárních souřadnicích bylo snadné ji zadat, v kartézských bychom asi tápali. Spočtěme nyní derivaci této funkce v kartézských souřadnicích. Použitím naší věty dostaneme ∂g ∂x (x, y, t) = ∂g ∂r (r, ϕ) ∂r ∂x (x, y) + ∂g ∂ϕ (r, ϕ) ∂ϕ ∂x (x, y) = cos( x2 + y2 − t) x x2 + y2 + 0 a podobně ∂g ∂y (x, y, t) = ∂g ∂r (r, ϕ) ∂r ∂y (x, y) + ∂g ∂ϕ (r, ϕ) ∂ϕ ∂y (x, y) = cos( x2 + y2 − t) y x2 + y2 . 8.11 8.17. Věta o inverzním zobrazení. U funkcí jedné proměnné rozhodovala nenulovost první derivace o tom, je-li funkce rostoucí či klesající. Pak takovou musela být i na nějakém okolí zvoleného bodu a tudíž tam existovala i inverzní funkce. Její derivace pak byla převrácenou hodnotou derivace funkce původní. 355 KAPITOLA 8. SPOJITÉ MODELY S VÍCE PROMĚNNÝMI Když tuto situaci interpretujeme z pohledu zobrazení E1 → E1 a lineárních zobrazení R → R coby jejich diferenciálů, je nenulovost nutnou a dostatečnou podmínkou k invertibilitě příslušného diferenciálu. Takto obdržíme tvrzení platné pro konečněrozměrné prostory obecně: Věta o inverzním zobrazení Věta. Nechť F : En → En je diferencovatelné zobrazení na nějakém okolí bodu x0 ∈ En a nechť je Jacobiho matice D1 f (x0) invertibilní. Pak na nějakém okolí bodu x0 existuje inverzní zobrazení F−1 a jeho diferenciál v bodě F(x0) je inverzním zobrazením k diferenciálu D1 F(x0), tzn. je zadán inverzní maticí k Jacobiho matici zobrazení F v bodě x0. Důkaz. Nejdříve si zkusme ověřit, že tvrzení je rozumné a očekávatelné. Pokud bychom předpokládali, že inverzní zobrazení existuje a je diferencovatelné v bodě F(x0), věta o derivování složených funkcí si vynucuje vztah idRn = D1 (F−1 ◦ F)(x0) = D1 (F−1 ) ◦ D1 F(x0), což ověřuje vztah v závěru věty. Víme proto od začátku, jaký diferenciál pro F−1 hledat. V dalším kroku předpokládejme, že inverzní zobrazení F−1 na okolí bodu F(x0) existuje a je spojité. Budeme v této situaci ověřovat existenci diferenciálu. Z diferencovatelnosti F na okolí x0 vyplývá, že F(x) − F(x0) − D1 F(x0)(x − x0) = α(x − x0) s funkcí α : Rn → 0 splňující limv→0 1 v α(v) = 0. Pro ověření aproximační vlastnosti lineárního zobrazení (D1 F(x0))−1 je třeba pouze spočíst následujcí limitu pro y = F(x) jdoucí k y0 = F(x0) lim y→y0 1 y − y0 F−1 (y)−F−1 (y0)−(D1 F(x0))−1 (y −y0) . Dosazením z předchozí rovnosti dostáváme lim y→y0 1 y − y0 x − x0− (D1 F(x0))−1 (D1 F(x0)(x − x0) + α(x − x0)) = lim y→y0 −1 y − y0 (D1 F(x0))−1 (α(x − x0)) = (D1 F(x0))−1 lim y→y0 −1 y − y0 (α(x − x0)), kde poslední rovnost vyplývá ze skutečnosti, že lineární zobrazení mezi konečněrozměrnými prostory jsou vždy spojitá a díky invertibilitě diferenciálu jeho předřazení limitnímu procesu neovlivní ani existenci limity. 356 KAPITOLA 8. SPOJITÉ MODELY S VÍCE PROMĚNNÝMI Všimněme si, že jsme zdánlivě s důkazem skoro hotoví. Limita na konci našeho výrazu je v důsledku vlastností funkce α nulová, pokud jsou velikosti F(x) − F(x0) větší než C x − x0 pro nějakou konstantu C. To je o trochu silnější vlastnost, než že je F−1 spojité, v literatuře se této vlastnosti říká, že je funkce Lipschitzovsky spojitá. Zbývá nám tedy už „jenom“ dokázat existenci Lipschitzovsky spojitého inverzního zobrazení k zobrazení F. Pro další úvahy si zjednodušíme práci převedením obecného případu na o něco jednodušší tvrzení. Zejména bez újmy na obecnosti lze vhodnou volbou kartézských souřadnic dosáhnout x0 = 0 ∈ Rn , y0 = F(x0) = 0 ∈ Rn . Složením zobrazení F s jakýmkoliv lineárním zobrazením G dostateme opět diferencovatelné zobrazení a víme také, jak se změní diferenciál. Volbou G(x) = (D1 F(0))−1 (x) dostáváme D1 (G ◦ F)(0) = idRn . Můžeme tedy zrovna předpo- kládat D1 F(0) = idRn . Uvažme za těchto předpokladů zobrazení K(x) = F(x) − x. Toto zobrazení je opět diferencovatelné a jeho diferenciál v bodě 0 je zjevně nulový. Pro libovolné spojitě diferencovatelné zobrazení K v okolí počátku Rn platí díky Taylorovu rozvoji prvního řádu se zbytkem jednotlivých souřadných funkcí Ki a díky definici euklidovské vzdálenosti odhad K(x) − K(y) ≤ C √ n x − y , kde C je ohraničeno maximem všech absolutních hodnot parciálních derivací v Jacobiho matici zobrazení K na sledovaném okolí.2 Protože v našem případě je diferenciál zobrazení K v bodě x0 = 0 nulový, můžeme volbou dostatečně malého okolí U počátku dosáhnout platnosti ohraničení K(x) − K(y) ≤ 1 2 x − y . Dále dosazením za definici K(x) = F(x) − x a použitím trojúhelníkové nerovnosti (u − v) + v ≤ u − v + v , tj. také u − v ≤ u − v , dostáváme y − x − F(x) − F(y) ≤ F(x) − F(y) + y − x ≤ 1 2 y − x . Odtud konečně 1 2 x − y ≤ F(x) − F(y) . Tímto odhadem jsme dosáhli opravdu pěkného pokroku: jsou-li na našem malém okolí U počátku x = y, pak nutně musí být také F(x) = F(y). Je tedy naše zobrazení vzájemně 2Z této úvahy okamžitě plyne, že funkce, která má spojité parciální derivace na kompaktní množině, je na ní i Lipschitzovsky spojitá. 357 KAPITOLA 8. SPOJITÉ MODELY S VÍCE PROMĚNNÝMI jednoznačné. Pišme F−1 pro jeho inverzi definovanou na obrazu U. Pro ni náš odhad říká F−1 (x) − F−1 (y) ≤ 2 x − y , je tedy toto zobrazení určitě nejen spojité ale dokonce Lipschitzovsky spojité, tak jak jsme v předchozí části důkazu potřebo- vali. Zdánlivě jsme tedy již úplně hotoví (s důkazem), to ale není pravda. Abychom skutečně dokončili důkaz, musíme ukázat, že je zobrazení F zúžené na dostatečně malé okolí nejen vzájemně jednoznačné, ale že také zobrazuje otevřené okolí nuly na otevřené okolí nuly.3 Zvolme si δ tak malé, aby okolí V = Oδ(0) leželo v U včetně své hranice a zároveň aby Jacobiho matice zobrazení F byla na celém V invertibilní. To je jistě možné, protože determinant je spojité zobrazení. Označme B hranici množiny V (tj. příslušnou sféru). Protože je B kompaktní a F spojité, má funkce ρ(x) = F(x) na B maximum i minimum. Označme a = 1 2 minx∈B ρ(x) a uvažujme libovolné y ∈ Oa(0). Samozřejmě je a > 0. Chceme ukázat, že existuje alespoň jedno x ∈ V takové, že y = F(x), čímž bude celá věta o inverzní funkci dokázána. Za tímto účelem uvažme funkci (y je náš pevně zvolený bod) h(x) = F(x) − y 2 . Opět obraz h(V ) ∪ h(B) musí mít minimum. Ukážeme nejprve, že toto minimum nemůže nastat pro x ∈ B. Platí totiž F(0) = 0 a proto h(0) = y < a. Zároveň podle naší definice a je pro y ∈ Oa(0) vzdálenost y od F(x) pro x ∈ B alespoň a (protože a jsme volili jako polovinu minima z velikosti F(x) na hranici). Minimum tedy nastává uvnitř V a musí být ve stacionárním bodě z funkce h. To ale znamená že pro všechna j = 1, . . . , n platí ∂h ∂xj (z) = n i=1 2(fi(z) − yi) ∂fi ∂xj (z) = 0. Na tento systém rovnic se můžeme dívat jako na systém lineárních rovnic s proměnnými ξi = fi(z) − yi a koeficienty zadanými dvojnásobkem Jacobiho matice D1 F(z). Pro každé z ∈ V má takový systém ovšem pouze jedno řešení a to je nulové, protože Jacobiho matice je podle našeho předpokladu invertibilní. Tím jsme našli hledaný bod x = z ∈ V splňující pro všechna i = 1, . . . , n rovnost fi(z) = yi. 3V literatuře lze snadno dohledat příklady zobrazení, která třeba spojitě a bijektivně zobrazí úsečku na čtverev apod. 358 KAPITOLA 8. SPOJITÉ MODELY S VÍCE PROMĚNNÝMI 8.12 8.18. Věta o implicitní funkci. Naším dalším cílem je využít větu o inverzním zobrazení pro práci s implicitně definovanými funkcemi. Pro začátek uvažujme diferencovatelnou funkci F(x, y) definovanou v rovině E2 a hledejme body (x, y), ve kterých platí F(x, y) = 0. Příkladem může být třeba obvyklá (implicitní) definice přímek a kružnic: F(x, y) = ax + by + c = 0 F(x, y) = (x − s)2 + (y − t)2 − r2 = 0, r > 0. Zatímco v prvém případě je (při b = 0) předpisem zadaná funkce y = f (x) = − a b x − c b pro všechna x, ve druhém případě můžeme pro libovolný bod (x0, y0) splňující rovnici kružnice a takový, že y0 = t (to jsou totiž krajní body kružnice ve směru souřadnice x), najít okolí bodu x0, na kterém bude buď y = f (x) = t + (x − s)2 − r nebo y = f (x) = t − (x − s)2 − r, podle toho na kterou polokružnici patří bod (x0, y0). Při načrtnutí obrázku je důvod zřejmý – nemůžeme chtít pomocí funkce y = f (x) postihnout horní i dolní půlkružnici zároveň. Zajímavější jsou krajní body intervalu [s − r, s + r]. Ty také vyhovují rovnici kružnice, platí v nich ale Fy(s ± r, t) = 0, což vystihuje polohu tečny ke kružnici v těchto bodech rovnoběžnou s osou y. V těchto bodech skutečně neumíme najít okolí, na němž by kružnice byla popsána jako funkce y = f (x). Navíc umíme i derivace naší funkce y = f (x) = t + (x − s)2 − r2, tam kde je definována, vyjádřit pomocí parciálních derivací funkce F: f (x) = 1 2 2(x − s) (x − s)2 − r2 = x − s y − t = − Fx Fy . Když prohodíme roli proměnných x a y a budeme chtít najít závislost x = f (y) takovou, aby F(f (y), y) = 0, pak v okolí bodů (s ± r, t) bez problémů uspějeme. Všimněme si, že v těchto bodech je parciální derivace Fx nenulová. Naše pozorování tedy (pro pouhé dva příklady) říká: pro funkci F(x, y) a bod (a, b) ∈ E2 takový, že F(a, b) = 0, umíme jednoznačně najít funkci y = f (x) splňující F(x, f (x)) = 0, pokud je Fy(a, b) = 0. V takovém případě umíme i vypočíst f (a) = −Fx(a, b)/Fy(a, b). Dokážeme, že ve skutečnosti toto tvrzení platí vždy. Poslední tvrzení o derivaci přitom je dobře zapamatovalné (a při pečlivém vnímání věcí i pochopitelné) z výrazu pro diferenciál funkce g(x) = F(x, y(x)) a diferenciál dy = f (x)dx 0 = dg = Fxdx + Fydy = (Fx + Fyf (x))dx. 359 KAPITOLA 8. SPOJITÉ MODELY S VÍCE PROMĚNNÝMI Obdobně bychom mohli pracovat s implicitními výrazy F(x, y, z) = 0, přičemž můžeme hledat funkci g(x, y) takovou, že F(x, y, g(x, y)) = 0. Jako příklad uvažme třeba funkci f (x, y) = x2 +y2 , jejímž grafem je rotační paraboloid s počátkem v bodě (0, 0). Ten můžeme implicitně zadat také rovnicí 0 = F(x, y, z) = z − x2 − y2 . Než sformulujeme výsledek rovnou pro obecnou situaci, všimněme si ještě, jaké dimenze se mohou/mají v problému vyskytovat. Pokud bychom pro tuto funkci F chtěli najít křivku c(x) = (c1(x), c2(x)) v rovině takovou, že F(x, c(x)) = F(x, c1(x), c2(x)) = 0, pak to jistě budeme umět (dokonce pro všechny počáteční podmínky x = a) také, ale výsledek nebude jednoznačný pro danou počáteční podmínku. Stačí totiž uvážit libovolnou křivku na rotačním paraboloidu, jejíž průmět do první souřadnice má nenulovou derivaci. Pak považujeme x za parametr křivky a za c(x) zvolíme její průmět do roviny yz. Očekáváme tedy, že jedna funkce m + 1 proměnných zadává implicitně nadplochu v Rm+1 , kterou chceme vyjádřit alespoň lokálně jako graf jedné funkce v m proměnných. Lze očekávat, že n funkcí v m + n proměnných bude zadávat průnik n nadploch v Rm+n , což je ve „většině“ případů m–rozměrný objekt. Uvažujme proto diferencovatelné zobrazení F = (f1, . . . , fn) : Rm+n → Rn . Jacobiho matice tohoto zobrazení bude mít n řádků a m + n sloupců a můžeme si ji symbolicky zapsat jako D1 F = (D1 xF, D1 yF) =    ∂f1 ∂x1 . . . ∂f1 ∂xm ... ... ... ∂fn ∂x1 . . . ∂fn ∂xm ∂f1 ∂xm+1 . . . ∂f1 ∂xm+n ... ... ... ∂fn ∂xm+1 . . . ∂fn ∂xm+n    , kde (x1, . . . , xm+n) ∈ Rm+n zapisujeme jako (x, y) ∈ Rm × Rn , D1 xF je matice s n řádky a prvními m sloupci v Jacobiho matici, zatímco D1 yF je čtvercová matice řádu n se zbylými sloupci. Vícerozměrnou analogií k předchozí úvaze s nenulovou parciální derivací podle y je požadavek, aby matice D1 yF byla invertibilní. Věta o implicitním zobrazení Věta. Nechť F : Rm+n → Rn je diferencovatelné zobrazení na otevřeném okolí bodu (a, b) ∈ Rm × Rn = Rm+n , ve kterém je F(a, b) = 0 a det D1 yF = 0. Potom existuje diferencovatelné zobrazení G : Rm → Rn definované na nějakém okolí U bodu a ∈ Rm s obrazem G(U), který obsahuje bod b, a takové, že F(x, G(x)) = 0 pro všechny x ∈ U. Navíc je Jacobiho matice D1 G zobrazení G na okolí bodu a zadána součinem matic D1 G(x) = −(D1 yF)−1 (x, G(x)) · D1 xF(x, G(x)). 360 KAPITOLA 8. SPOJITÉ MODELY S VÍCE PROMĚNNÝMI Důkaz. Pro zvýšení srozumitelnosti uvedeme napřed kompletní důkaz pro nejjednodušší případ rovnice F(x, y) = 0 s funkcí F dvou proměnných. Bude zdánlivě složitý, protože jej schválně vedeme tak, jak jej bude možné použít i pro obecné dimenze z věty. Rozšíříme funkci F na ˜F : R2 → R2 , (x, y) → (x, F(x, y)). Jacobiho matice zobrazení ˜F je D1 ˜F(x, y) = 1 0 Fx(x, y) Fy(x, y) . Z předpokladu Fy(a, b) = 0 vyplývá, že totéž platí i na nějakém okolí bodu (a, b) a tedy je na tomto okolí funkce ˜F invertibilní podle věty o inverzním zobrazení. Vezměme tedy jednoznačně definované a diferencovatelné inverzní zobrazení ˜F−1 na nějakém okolí bodu (a, 0). Nyní označme π : R2 → R projekci na druhou souřadnici a uvažujme funkci f (x) = π ◦ ˜F−1 (x, 0). To je dobře definovaná a diferencovatelná funkce. Máme ověřit, že následující výraz F(x, f (x)) = F(x, π( ˜F−1 (x, 0))) bude na okolí bodu x = a nulový. Přitom z definice ˜F(x, y) = (x, F(x, y)) vyplývá, že i její inverze musí mít tvar ˜F−1 (x, y) = (x, π ˜F−1 (x, y)). Můžeme proto pokračovat v předchozím výpočtu: F(x, f (x)) = π( ˜F(x, π( ˜F−1 (x, 0)))) = = π( ˜F( ˜F−1 (x, 0))) = π(x, 0) = 0. Tím máme dokázánu první část věty a zbývá spočíst derivaci funkce f (x). Tuto derivaci můžeme odečíst opět z věty o inverzním zobrazení pomocí matice (D1 ˜F)−1 . Následující výsledek je snadné ověřit roznásobením matic. (Spočíst lze také přímo explicitní formulí pro inverzní matici s pomocí determinantu a algebraicky adjungované matice, viz odstavec 2.23) 1 0 Fx(x, y) Fy(x, y) −1 = (Fy(x, y))−1 Fy(x, y) 0 −Fx(x, y) 1 . Dle definice f (x) = π ˜F−1 (x, 0) nás z této matice zajímá první položka na druhém řádku, která je právě Jakobiho maticí D1 f . V našem jednoduchém případě je to právě požadovaný skalár −Fx(x, f (x))/Fy(x, f (x)). Obecný důkaz je bezezbytku stejný, není v něm potřeba změnit žádný z uvedených vztahů (všechny položky v nich jen dostanou vektorový smysl), kromě posledního výpočtu derivace funkce f , kde místo jednotlivých parciálních derivací budou vystupovat příslušné části Jacobiho matice D1 xF a D1 yF. Samozřejmě je přitom třeba místo se skaláry pracovat s vektory a maticemi. 361 KAPITOLA 8. SPOJITÉ MODELY S VÍCE PROMĚNNÝMI Pro výpočet Jacobiho matice zobrazení G opět použijeme výpočtu inverzní matice, není ale až tak vhodné přímo využít postupu z odstavce 2.23. Snadnější je nechat se přímo inspirovat případem v dimenzi m + n = 2, označit si matici (D1 ˜F−1 ) = idRm 0 D1 xF(x, y) D1 yF(x, y) −1 = A B C D s bloky danými dělením na m a n řádků i sloupců (tj. např. A má rozměr m × m, zatímco C je rozměru n × m) a přímo spočíst matice A, B, C, D z definiční rovnosti pro inverzi: idRm 0 D1 xF(x, y) D1 yF(x, y) · A B C D = idRm 0 0 idRn . Zjevně odtud plyne A = idRm , B = 0, D = (D1 yF)−1 a konečně D1 xF + D1 yF · C = 0. Z poslední rovnosti pak dostáváme požadovaný vztah D1 G = C = −(D1 yF)−1 · D1 xF. Tím je věta dokázána. 8.13 8.19. Gradient funkce. Jak jsme viděli v minulém odstavci, je-li F spojitě diferencovatelná funkce n proměnných, zadává předpis F(x1, . . . , xn) = b s nějakou pevnou hodnotou b ∈ R podmnožinu M ⊂ Rn , která mívá vlastnosti (n−1)–rozměrné nadplochy. Přesněji řečeno, pokud je vektor parciálních derivací D1 F = ∂f ∂x1 , . . . , ∂f ∂xn nenulový, můžeme lokálně množinu M popsat jako graf spojitě diferencovatelné funkce v n − 1 proměnných. Hovoříme v této souvislosti také o úrovňových množinách Mb. Vektor D1 F ∈ Rn se nazývá gradient funkce F. V technické a fyzikální literatuře se často zapisuje také jako grad F. Protože je Mb zadáno pomocí konstantní hodnoty funkce F, budou derivace křivek ležících v M mít jistě tu vlastnost, že na nich bude diferenciál dF vždy vyčíslen nulově – skutečně, pro každou takovou křivku bude F(c(t)) = b a tedy i d dt F(c(t)) = dF(c (t)) = 0. Naopak uvažme obecný vektor v = (v1, . . . , vn) ∈ Rn a velikost příslušné směrové derivace |dvF| = ∂f ∂x1 v1 + · · · + ∂f ∂xn vn = cos ϕ D1 F v kde ϕ je odchylka vektoru v od gradientu F, viz pojednání o odchylkách vektorů a přímek ve čtvrté kapitole (definice 4.18). Odtud ovšem vyplývá, že nulové jsou právě ty směrové derivace, které jsou kolmé na gradient, zatímco směr zadaný gradientem je právě ten směr, ve kterém funkce f nejrychleji roste. Je tedy zřejmé, že tečná rovina k neprázdné úrovňové množině Mb v okolí jejího bodu s nenulovým gradientem 362 KAPITOLA 8. SPOJITÉ MODELY S VÍCE PROMĚNNÝMI D1 F je určena ortogonálním doplňkem ke gradientu a samotný gradient je tzv. normálovým vektorem nadplochy Mb. Např. pro sféru v R3 o poloměru r > 0 a středu (a, b, c) zadanou rovnicí F(x, y, z) = (x − a)2 + (y − b)2 + (z − c)2 = r2 dostáváme normálové vektory v bodě P = (x0, y0, z0) jako nenulový násobek gradientu, tj. násobek průvodiče D1 F = (2(x0 − a), 2(y0 − b), 2(z0 − c)), a tečné vektory budou právě všechny vektory kolmé na gradient. Implicitně proto jde vždy tečnou rovinu ke sféře v bodě P popsat s pomocí gradientu rovnicí 0 = (x0 − a)(x − x0) + (y0 − b)(y − y0) + (z0 − c)(z − z0). To je speciální případ obecné formule: Tečná nadrovina implicitně zadané nadplochy Věta. Pro funkci F(x1, . . . , xn) v n proměnných a bod P = (a1, . . . , an) v úrovňové množině Mb funkce F, v jehož okolí je Mb grafem funkce (n−1) proměnných, je implicitní rovnice pro tečnou nadrovinu k Mb 0 = ∂f ∂x1 (P) · (x1 − a1) + · · · + ∂f ∂xn (P) · (xn − an). Důkaz. Tvrzení je zřejmé z předchozího výkladu. Tečná nadrovina totiž musí být (n − 1)–rozměrná, její zaměření je proto zadané jako jádro lineární formy dané gradientem (nulové hodnoty příslušného lineárního zobrazení Rn → R zadaného násobení sloupce souřadnic řádkovým vektorem grad F). Zvolený bod P přitom naší rovnici zjevně vyhovuje. 8.13a 8.20. Model osvětlení 3D objektů. Uvažujme osvětlení 3D objektu, kde známe směr v dopadu světla na 2D povrch tohoto objektu, tj. množinu M zadanou implicitně nějakou rovnicí F(x, y, z) = 0. Intenzitu osvětlení bodu P ∈ M definujme jako I cos ϕ, kde ϕ je úhel mezi normálou k M a vektorem opačným ke směru toku světla.. Jak jsme viděli, normála je určena gradientem funkce F. Znaménko našeho výrazu pak bude označovat, kterou stranu plochy osvětlujeme. Uvažujme např. osvětlení o intezitě I0 ve směru vektoru v = (1, 1, −1) (tj. „šikmo dolů“) a za objekt zvolme kouli zadanou rovnicí F(x, y, z) = x2 + y2 + z2 − 1 ≤ 0. Pro povrchový bod P = (x, y, z) ∈ M proto dostaneme intenzitu I(P) = grad F · v grad F v I0 = −2x − 2y + 2z 2 √ 3 I0. Všimněme si, že dle očekávání je maximální (plnou) intenzitou I0 osvětlen bod P = 1√ 3 (−1, −1, 1) na povrchu koule. 363 KAPITOLA 8. SPOJITÉ MODELY S VÍCE PROMĚNNÝMI 8.14 8.21. Tečné a normálové prostory. Přejděme nyní s našimi úvahami o tečnách a normálách k obecným dimenzím. Máme-li zobrazení F : Rm+n → Rn , tj. n rovnic pro n + m proměnných fi(x1, . . . , xm+n) = bi, i = 1, . . . , n, pak, za podmínek věty o implicitní funkci je množina všech řešení (x1, . . . , xm+n) ∈ Rm+n alespoň lokálně grafem zobrazení G : Rm → Rn . Pro pevnou volbu b = (b1, . . . , bn) je samozřejmě množinou všech řešení průnik nadploch M(bi, fi) příslušejících jednotlivým funkcím fi. Totéž musí platit pro tečné směry, zatímco normálové směry jsou generovány jednotlivými gradienty. Proto je-li D1 F Jacobiho matice zobrazení implicitně zadávajícího množinu M s bodem P = (a1, . . . , am+n) ∈ M, v jehož okolí je M grafem zobrazení, D1 F =    ∂f1 ∂x1 . . . ∂f1 ∂xm+n ... ... ... ∂fn ∂x1 . . . ∂fn ∂xm+n    , potom bude afinní podprostor v Rm+n obsahující právě všechny tečny procházející bodem P dán implicitně rovni- cemi: 0 = ∂f1 ∂x1 (P) · (x1 − a1) + · · · + ∂f1 ∂xn (P) · (xm+n − am+n) ... 0 = ∂fn ∂x1 (P) · (x1 − a1) + · · · + ∂fn ∂xn (P) · (xm+n − am+n). Tento podprostor se nazývá tečný prostor k (implicitně zadané) ploše M v bodě P . Normálový prostor v bodě P je afinní podprostor generovaný bodem P a gradienty všech funkcí f1, . . . , fn v bodě P , tj. řádky Jacobiho matice D1 F. Jako jednoduchý příklad si spočtěme tečnu a normálový prostor ke kuželosečce v R3 . Uvažujme rovnici kuželu s vrcholem v počátku 0 = f (x, y, z) = z − x2 + y2 a rovinu zadanou 0 = g(x, y, z) = z − 2x + y + 1. Bod P = (1, 0, 1) patří jak kuželu tak rovině a průnik M těchto dvou ploch je křivka (namalujte si obrázek). Její tečnou 364 KAPITOLA 8. SPOJITÉ MODELY S VÍCE PROMĚNNÝMI v bodě P bude přímka zadaná rovnicemi 0 = − 1 2 x2 + y2 2x x=1,y=0 · (x − 1) − 1 2 x2 + y2 2y x=1,y=0 · y + 1 · (z − 1) = −x + z 0 = −2(x − 1) + y + (z − 1) = −2x + y + z + 1, zatímco rovina kolmá k naší křivce bodem P bude parametricky dána výrazem (1, 0, 1) + τ(−1, 0, 1) + σ(−2, 1, 1) s parametry τ a σ. 8.15 8.22. Vázané extrémy. Nyní se dostáváme k první opravdu vážné aplikaci diferenciálního počtu více proměnných. Typickou úlohou optimalizace nebo řízení je najít extrémy hodnot závisejících na několika (ale konečně mnoha) parametrech, ovšem za nějakých dalších podmínek na vzájemné vztahy parametrů. Velice často má řešená úloha m+n parametrů, které jsou vázány n podmínkami. V našem jazyce diferenciálního počtu tedy hledáme extrémy diferencovatelné funkce h na množině bodů M zadaných implicitně rovnicí F(x1, . . . , xm+n) = 0. K tomu již máme připraveny účinné postupy. Pokud je M ve všech svých bodech grafem hladkého zobrazení v m proměnných, musí být každý extrém P ∈ M stacionárním bodem, tj. pro každou křivku c(t) ⊂ M procházející přes P = c(0) musí být h(c(t)) extrémem pro tuto funkci jedné proměnné. Proto také musí být derivace d dt h(c(t))|t=0 = dc (0)h(P) = dh(P)(c (0)) = 0. To ale znamená, že diferenciál funkce h se v bodě P nuluje na všech tečných přírůstcích k M v bodě P . Tato vlastnost je ekvivalentní tvrzení, že gradient h leží v normálovém podprostoru (přesněji v jeho zaměření). Takové body P ∈ M budeme nazývat stacionární body funkce H vzhledem k vazbám F. Jak jsme viděli v minulém odstavci, normálový prostor k naší množině M je generován řádky Jacobiho matice zobrazení F a stacionární body jsou proto ekvivalentně určeny následujícím tvrzením: Metoda Lagrangeových multiplikátorů Věta. Nechť F = (f1, . . . , fn) : Rm+n → Rn je diferencovatelná v okolí bodu P , F(P) = 0. Dále nechť M je zadána implicitně rovnicí F(x, y) = 0 a hodnost matice D1 F v bodě P je n. Pak P je stacionárním bodem spojitě diferencovatelné funkce h : Rm+n → R vzhledem k podmínkám F, právě když existují reálné parametry λ1, . . . , λn takové, že grad h = λ1 grad f1 + · · · + λn grad fn. 365 KAPITOLA 8. SPOJITÉ MODELY S VÍCE PROMĚNNÝMI Všimněme si, že metoda Langrangeových multiplikátorů je algoritmická. Podívejme se nejprve na počty neznámých a rovnic: gradienty jsou vektory o m+n souřadnicích, tedy požadavek z věty dává m + n rovnic. Jako proměnné máme jednak souřadnice x1, . . . , xm+n hledaných stacionárních bodů P vzhledem k vazbám, ale navíc také n parametrů λi v hledané lineární kombinaci. Zbývá však požadavek, že hledaný bod P patří implicitně zadané množině M, což představuje dalších n rovnic. Celkem tedy máme n + m rovnic pro n + m proměnných a proto lze očekávat, že řešením bude diskrétní množina bodů P (tj. každý z nich bude izolovaným bodem). 8.15a 8.23. Nerovnost mezi aritmetickým a geometrickým průměrem. Jako příklad praktického použití metody Lagrangeových multiplikátorů dokážeme nerovnost 1 n (x1 + · · · + xn) ≥ n √ x1 · · · xn pro jakýchkoliv n kladných čísel x1, . . . , xn, přičemž rovnost nastane, právě když jsou si všechna xi rovna. Uvažme tedy součet x1 + · · · + xn = c jako vazebnou podmínku pro nějakou blíže neurčenou nezápornou konstantu c. Budeme hledat maxima a minima funkce f (x1, . . . , xn) = n √ x1 · · · xn za naší vazební podmínky a přepdokladu x1 > 0,..., xn > 0. Normálový vektor k nadrovině definované podmínkou je (1, . . . , 1). Extrém funkce f tedy může nastat pouze v bodech, kdy je její gradient násobkem tohoto normálového vektoru. Pro hledané body tedy dostáváme soustavu rovnic 1 n 1 xi n √ x1 · · · xn = λ, pro i = 1, . . . , n a λ ∈ R. Tato soustava má zjevně na zkoumané množině jediné řešení x1 = · · · = xn. Pokud bychom uvažovali i nulové hodnoty xi, byla by naše množina M zadaná omezením kompaktní a proto by na ní musela mít funkce f jak maximum, tak minimum. Minimum však zjevně dosahuje, právě když je některá zhodnot xi nulová, v našem bodě s xi = c n , i = 1, . . . , n, nabývá tedy nutně ostrého maxima. Ve všech ostatních bodech s daným součtem souřadnic c je pak hodnotota jejich geometrického průměru menší a nerovnost je dokázána. 366