Viazané lokálne extrémy funkcií viac premenných Peter Šepitka jaro 2016 Obsah 1 Motivácia a základné pojmy 2 Metóda Langrangeových multiplikátorov Základné pojmy Lagrangeove multiplikátory Obsah 1 Motivácia a základné pojmy 2 Metóda Langrangeových multiplikátorov Základné pojmy Lagrangeove multiplikátory Motivácia Pojem viazaného lokálneho extrému funkcie viac premenných súvisí s hľadaním globálnych extrémov na podmnožinách v Rn . Konkrétne, pri ich určovaní na kompaktnej množine N ⊆ Rn sme postupovali tak, že sme našli (i) jednak všetky lokálne extrémy danej funkcie vo vnútri N, (ii) a jednak všetky jej extremálne hodnoty na hranici ∂N. V kroku (ii) teda hľadáme lokálne extrémy danej funkcie, ktoré sú viazané na hranicu ∂N. Uvažujme napríklad nejakú funkciu f(x, y, z) na množine N = {[x, y, z] ∈ R3 : x2 + y2 + z2 ≤ 1, x, y, z ≥ 0}. Pri vyšetrovaní funkcie f(x, y, z) na časti hranice ∂N tvorenej guľovou plochou x2 + y2 + z2 = 1 postupujeme tak, že vyjadríme z = 1 − x2 − y2, a následne hľadáme lokálne extrémy funkcie f(x, y, 1 − x2 − y2) na množine ˜N = {[x, y] ∈ R3 : x2 + y2 ≤ 1, x, y ≥ 0}. Podobne, na časti hranice ∂ ˜N tvorenej štvrťkružnicou x2 + y2 = 1 vyjadríme y = √ 1 − x2 a vyšetrujeme funkciu f(x, √ 1 − x2, 0) pre x ∈ [0, 1]. Základné pojmy Lagrangeove multiplikátory Týmto spôsobom prevedieme pôvodný problém vyšetrenia funkcie f(x, y, z) troch premenných na hranici množiny N na úlohu hľadania extrémov funkcie f(x, √ 1 − x2, 0) jednej premennej na intervale [0, 1]. Je však zrejmé, že tento postup je zdĺhavý a pri väčšom počte premenných i nepraktický. Okrem toho postupná eliminácia premenných nemusí byť pri všeobecnom zadaní množiny N vôbec riešiteľný problém. Definícia 1 (Lokálny extrém funkcie vzhľadom na množinu) Nech f je funkcia n premenných a M ⊆ D(f) je neprázdna množina. Povieme, že funkcia f má v bode x∗ ∈ M lokálne minimum (maximum) vzhľadom na množinu M, ak existuje okolie O(x∗ ) také, že pre každé x ∈ O(x∗ ) ∩ M platí nerovnosť f(x) ≥ f(x∗ ) (f(x) ≤ f(x∗ )). V prípade, ak sú dané nerovnosti pre x = x∗ ostré, hovoríme o ostrých lokálnych extrémoch funkcie f vzhľadom na množinu M. V praktických úlohách sa obvykle študujú situácie, v ktorých je množina M daná systémom nerovností a rovností h1(x) ≤ 0, h2(x) ≤ 0, . . . , hk(x) ≤ 0, g1(x) = 0, g2(x) = 0, . . . , gm(x) = 0. V tomto prípade sa namiesto pomenovania lokálny extrém vzhľadom na M používa termín lokálny extrém viazaný danými podmienkami, resp. väzbami. Základné pojmy Lagrangeove multiplikátory Obsah 1 Motivácia a základné pojmy 2 Metóda Langrangeových multiplikátorov Základné pojmy Lagrangeove multiplikátory Optimalizačná úloha V nasledujúcom výklade sa budeme zaoberať optimalizačnou úlohou typu f(x) → max(min), x ∈ M, (1) M : g1(x) = 0, g2(x) = 0, . . . , gm(x) = 0, (2) kde x = [x1, . . . , xn], f, gk : Rn → R, k = 1, . . . , m, sú funkcie n premenných a 1 ≤ m < n. Rovnosti v (2), udávajúce množinu M, sa nazývajú väzbové podmienky danej optimalizačnej úlohy. Ďalej budeme predpokladať, že funkcie f, gk majú spojité parciálne derivácie prvého rádu podľa premenných x1, . . . , xn na otvorenej množine U ⊆ Rn a matica G(x) =     ∂g1(x) ∂x1 · · · ∂g1(x) ∂xn ... ... ... ∂gm(x) ∂x1 · · · ∂gm(x) ∂xn     má v každom x ∈ U hodnosť m. (3) Poznámka 1 Poznamenajme, že podmienka (3) je ekvivalentná so skutočnosťou, že vektory grad gk(x), k = 1, . . . , m, sú lineárne nezávislé v každom bode x množiny U. Základné pojmy Lagrangeove multiplikátory Viazaný lokálny extrém – nutná podmienka Veta 1 (Nutná podmienka existencie viazaného extrému) Nech platí podmienka (3) a nech v bode x∗ ∈ M má funkcia f lokálny extrém vzhľadom na množinu M, t.j., x∗ spĺňa optimalizačnú úlohu (1) a (2). Potom existujú reálne čísla λ1, . . . , λm tak, že pre každé i = 1, . . . , n platia rovnosti ∂f ∂xi (x∗ ) − m k=1 λk ∂gk ∂xi (x∗ ) = 0. (4) Poznámka 2 Rovnica (4) je ekvivalentná so skutočnosťou, že gradienty funkcií f, gk spĺňajú v bode x∗ identitu grad f(x∗ ) = λ1 · grad g1(x∗ ) + λ2 · grad g2(x∗ ) + · · · + λm · grad gm(x∗ ), t.j., vektor grad f(x∗ ) je lineárnou kombináciou vektorov grad gk(x∗ ). Základné pojmy Lagrangeove multiplikátory Lagrangeova funkcia a multiplikátory Reálne konštanty λ1, . . . , λm vo Vete 1 sa nazývajú Lagrangeove multiplikátory a funkcia n + m premenných L(x1, . . . , xn, λ1, . . . λm) := f(x1, . . . , xn) − m k=1 λk gk(x1, . . . , xn) (5) sa označuje ako Lagrangeova funkcia optimalizačnej úlohy (1) a (2). Definícia 2 (Stacionárny bod funkcie vzhľadom na množinu) Nech množina M ⊆ Rn je daná systémom rovníc (2). Bod x∗ ∈ M sa nazýva stacionárny bod funkcie f vzhľadom na množinu M, ak existujú Lagrangeove multiplikátory λ1, . . . , λm také, že sú splnené rovnosti (4). Poznámka 3 Bod x∗ ∈ M je zrejme stacionárnym bodom funkcie f vzhľadom na množinu M práve vtedy, keď je stacionárnym bodom Lagrangeovej funkcie (5) pre istú voľbu Lagrangeových multiplikátorov λ = (λ1, . . . , λm), t.j., platí L′ xi (x∗ , λ) = 0 pre každé i = 1, . . . , n. Základné pojmy Lagrangeove multiplikátory Príklad 1 Určme stacionárne body a Lagrangeove multiplikátory funkcie f(x, y) = xy − x + y − 1 vzhľadom na množinu M : x + y = 1. V súlade s (2) má väzbová podmienka tvar g(x, y) = x + y − 1 = 0. Príslušná Lagrangeova funkcia v (5) potom je L(x, y, λ) = f(x, y) − λg(x, y) = xy − x + y − 1 − λ(x + y − 1). Podľa Poznámky 3 nájdeme jej stacionárne body ležiace v M, t.j., L′ x(x, y, λ) = 0, L′ y(x, y, λ) = 0, x + y − 1 = 0. Dostávame sústavu troch rovníc s tromi neznámymi x, y a λ y − 1 − λ = 0, x + 1 − λ = 0, x + y − 1 = 0. Máme jediné riešenie x = −1/2, y = 3/2 a λ = 1/2. Funkcia f(x, y) má teda vzhľadom na množinu M jeden stacionárny bod [−1/2, 3/2] s odpovedajúcim Lagrangeovým multiplikátorom λ = 1/2. Základné pojmy Lagrangeove multiplikátory Príklad 2 Určme stacionárne body a Lagrangeove multiplikátory funkcie f(x, y, z) = xyz vzhľadom na množinu M určenú rovnosťami x2 + y2 + z2 = 1, x + y + z = 0. V tomto prípade máme predpísané dve väzbové podmienky g1(x, y, z) = x2 + y2 + z2 − 1 = 0, g2(x, y, z) = x + y + z = 0, a teda odpovedajúca Lagrangeova funkcia má tvar L(x, y, z, λ1, λ2) = xyz − λ1(x2 + y2 + z2 − 1) − λ2(x + y + z). Tri súradnice x, y a z hľadaných stacionárnych bodov a dva Lagrangeove multiplikátory λ1, λ2 stanovíme riešením systému piatich rovníc L′ x = 0, L′ y = 0, L′ z = 0, x2 + y2 + z2 = 1, x + y + z = 0, Základné pojmy Lagrangeove multiplikátory Príklad 2 t.j., po výpočte príslušných parciálnych derivácií máme yz − 2λ1x = λ2, xz − 2λ1y = λ2, xy − 2λ1z = λ2, x2 + y2 + z2 = 1, x + y + z = 0. Dostaneme celkovo šesť stacionárnych bodov, konkrétne 1√ 6 , 1√ 6 , − 2√ 6 , 1√ 6 , − 2√ 6 , 1√ 6 , − 2√ 6 , 1√ 6 , 1√ 6    pre λ1 = − 1 2 √ 6 a λ2 = − 1 6 , − 1√ 6 , − 1√ 6 , 2√ 6 , − 1√ 6 , 2√ 6 , − 1√ 6 , 2√ 6 , − 1√ 6 , − 1√ 6    pre λ1 = 1 2 √ 6 a λ2 = − 1 6 . Základné pojmy Lagrangeove multiplikátory Lokálny extrém a druhý diferenciál funkcie Existenciu lokálneho extrému funkcie f(x1, . . . , xn) v jej stacionárnom bode x∗ , t.j., v bode s grad f(x∗ ) = 0, sme za predpokladu spojitosti parciálnych derivácií druhého rádu funkcie f a bez prítomnosti väzbových podmienok skúmali prostredníctvom definitnosti príslušnej Hessovej matice Hf (x∗ ), t.j., Hf (x∗ ) =     f′′ x1x1 (x∗ ) · · · f′′ x1xn (x∗ ) ... ... ... f′′ xnx1 (x∗ ) · · · f′′ xnxn (x∗ )     . (6) Vyšetrovali sme vlastne definitnosť kvadratickej formy, ktorá odpovedá matici Hf (x∗ ), konkrétne hT Hf (x∗ ) h, kde h = (h1, . . . , hn)T ∈ Rn . Táto forma je podľa definície rovná druhému diferenciálu funkcie f v bode x∗ , teda d2 f(x∗ , h) = n i,j=1 f′′ xixj (x∗ ) hihj (7) Ak kvadratická forma (7) je pozitívne (negatívne) definitná, potom funkcia f má v bode x∗ lokálne minimum (maximum). V prípade indefinitnej formy (7) funkcia f nenadobúda v stacionárnom bode x∗ lokálny extrém. Základné pojmy Lagrangeove multiplikátory Viazaný lokálny extrém – postačujúca podmienka Charakter viazaného stacionárneho bodu x∗ funkcie f vzhľadom na množinu M v (2) budeme preto vyšetrovať pomocou definitnosti druhého diferenciálu Lagrangeovej funkcie L(x, λ) v (5), t.j., pomocou kvadratickej formy d2 L(x∗ , λ, h) = n i,j=1 L′′ xixj (x∗ , λ) hihj , (8) kde h = (h1, . . . , hn)T ∈ Rn a λ = (λ1, . . . , λm) sú Lagrangeove multiplikátory odpovedajúce stacionárnemu bodu x∗ . Na rozdiel od lokálnych extrémov sme však teraz obmedzení väzbovými podmienkami (2). To sa odzrkadlí v tom, že definitnosť formy (8) nebudeme skúmať na celom priestore Rn , ale iba pre vektory h kolmé na vektory grad gk(x∗ ) pre každé k = 1, . . . , m. Podpriestor všetkých takýchto vektorov h ∈ Rn sa nazýva dotykový priestor množiny M v bode x∗ a označuje sa TM (x∗ ) := Lin{grad gk(x∗ ), k = 1, . . . , m}⊥ (9) Základné pojmy Lagrangeove multiplikátory Poznámka 4 Z podmienky (3) a Poznámky 1 vyplýva, že dimenzia dotykového priestoru TM (x∗ ) je rovná n − m. Okrem toho vektory h ∈ TM (x∗ ) sú práve riešenia homogénneho systému G(x∗ ) h = 0 s maticou G(x) definovanou v (3). Veta 2 (Postačujúca podmienka existencie viazaného extrému) Nech platí podmienka (3) a nech x∗ je stacionárny bod funkcie f vzhľadom na množinu M v (2) s Lagrangeovými multiplikátormi λ = (λ1, . . . , λm). Ďalej nech funkcie f, gk, k = 1, . . . , m, majú spojité parciálne derivácie druhého rádu v bode x∗ . Ak pre každý nenulový vektor h ∈ TM (x∗ ) platí d2 L(x∗ , λ, h) > 0, resp. d2 L(x∗ , λ, h) < 0, (10) potom funkcia f má v bode x∗ ostré lokálne minimum, resp. ostré lokálne maximum vzhľadom na množinu M. Ak pre nejaké nenulové ˜h, ¯h ∈ TM (x∗ ) je d2 L(x∗ , λ, ˜h) > 0 a d2 L(x∗ , λ, ¯h) < 0, (11) potom funkcia f nemá v bode x∗ lokálny extrém vzhľadom na množinu M. Základné pojmy Lagrangeove multiplikátory Poznámka 5 Nerovnosti v (10) znamenajú, že druhý diferenciál d2 L(x∗ , λ, h) Lagrangeovej funkcie je pozitívne, resp. negatívne definitný na podpriestore TM (x∗ ), kým relácie v (11) vyjadrujú indefinitnosť diferenciálu d2 L(x∗ , λ, h) na TM (x∗ ). Predchádzajúci výklad popisuje hľadanie viazaných lokálnych extrémov funkcie f pomocou metódy Lagrangeových multiplikátorov. Hlavný princíp spočíva v zabudovaní väzbových podmienok (2) do samotného procesu hľadania extrému jednak prostredníctvom Lagrangeovej funkcie (Veta 1 a Poznámka 3), a jednak pri zisťovaní existencie/neexistencie extrému v stacionárnom bode (Veta 2 a Poznámky 4 a 5). Hrubo povedané, namiesto hľadania viazaných lokálnych extrémov funkcie f na množine M zisťujeme lokálne extrémy príslušnej Lagrangeovej funkcie L, avšak už bez obmedzujúcich podmienok. Základné pojmy Lagrangeove multiplikátory Viazaný lokálny extrém – praktický návod Metódu Lagrangeových multiplikátorov na vyšetrovanie viazaných lokálnych extrémov funkcií možno zhrnúť do nasledujúceho praktického návodu. 1 Vytvoríme Lagrangeovu funkciu (5) a nájdeme jej stacionárne body x∗ ležiace v M, t.j., riešime sústavu n + m rovníc L′ xi (x, λ) = 0, gk(x) = 0, i = 1, . . . , n, k = 1, . . . , m, s n + m neznámymi x = [x1, . . . , xn] a λ = (λ1, . . . , λm). 2 Pre daný stacionárny bod x∗ a príslušné multiplikátory λ = (λ1, . . . , λm) zostavíme druhý diferenciál d2 L(x∗ , λ, h) Lagrangeovej funkcie, t.j., d2 L(x∗ , λ, h) = n i,j=1 L′′ xixj (x∗ , λ) hihj , h = (h1, . . . , hn)T ∈ Rn . V tejto kvadratickej forme znížime počet n premenných h1, . . . , hn na počet n − m premenných pomocou podmienky G(x∗ ) h = 0 pre G(x) z (3) (tzv. diferencovanie väzbových podmienok v stacionárnom bode x∗ ). 3 Vyšetríme definitnosť vzniknutej kvadratickej formy s n − m premennými. Základné pojmy Lagrangeove multiplikátory Príklad 3 Nájdime všetky lokálne extrémy funkcie f(x, y) = xy − x + y − 1 vzhľadom na množinu M : x + y = 1. V Príklade 1 sme ukázali, že funkcia f má vzhľadom na množinu M iba jeden stacionárny bod x∗ = [−1/2, 3/2] s multiplikátorom λ = 1/2. Vyšetríme druhý diferenciál funkcie L v bode x∗ . Platí L′′ xx(x∗ , λ) = 0 = L′′ yy(x∗ , λ), L′′ xy(x∗ , λ) = 1 = L′′ yx(x∗ , λ). Potom d2 L(x∗ , λ) = 2h1h2, h1, h2 ∈ Rn . Matica G v (3) má v tomto prípade v bode x∗ tvar G(x∗ ) = (grad g(x∗ )) = (1, 1). Vektory h = (h1, h2)T priestoru TM (x∗ ) preto spĺňajú podmienku (1, 1) · (h1, h2)T = 0 ⇐⇒ h2 = −h1. Diferenciál d2 L(x∗ , λ) = 2h1h2 sa nám preto zredukuje na kvadratickú formu s jednou premennou h1, konkrétne d2 L(x∗ , λ) = −2h2 1. Táto forma je zrejme negatívne definitná, a preto v súlade s Vetou 2 má funkcia f v bode x∗ ostré lokálne maximum s hodnotou f(x∗ ) = 1/4. Poznamenajme ešte, že pôvodný, neredukovaný diferenciál d2 L(x∗ , λ) = 2h1h2 je ako kvadratická forma s dvomi premennými indefinitný, a teda funkcia L nemá v bode x∗ lokálny extrém. To ilustruje nevyhnutnosť redukcie diferenciálu d2 L(x∗ , λ) vzhľadom na predpísané väzbové podmienky, ak nechceme stratiť viazané lokálne extrémy funkcie f.