14. ORTOGONÁLNÍ PROJEKCE A PODPROSTORY Jan Paseka Masarykova univerzita Brno 2. dubna 2020 Abstrakt Budeme pokračovat ve studiu euklidovských prostorů s cílem podat kvantitativní popis vzájemné polohy afinních podprostorů v takovémto prostoru pomocí dvou základních parametrů – jejich vzdálenosti a odchylky (úhlu). Abstrakt Budeme pokračovat ve studiu euklidovských prostorů s cílem podat kvantitativní popis vzájemné polohy afinních podprostorů v takovémto prostoru pomocí dvou základních parametrů – jejich vzdálenosti a odchylky (úhlu). Naším hlavním nástrojem při tom budou lineární operátory kolmého průmětu, zvané též ortogonální projekce, vektorů do vektorových podprostorů. Abstrakt Budeme pokračovat ve studiu euklidovských prostorů s cílem podat kvantitativní popis vzájemné polohy afinních podprostorů v takovémto prostoru pomocí dvou základních parametrů – jejich vzdálenosti a odchylky (úhlu). Naším hlavním nástrojem při tom budou lineární operátory kolmého průmětu, zvané též ortogonální projekce, vektorů do vektorových podprostorů. V závěru kapitoly předvedeme aplikace rozpracovaných pojmů a metod. Obsah přednášky I Ortokomplement a ortogonální projekce Kolmý průmět vektoru. Vzdálenost vektoru od podprostoru. Odchylka vektoru od podprostoru. Matice ortogonální projekce Obsah přednášky I Ortokomplement a ortogonální projekce Kolmý průmět vektoru. Vzdálenost vektoru od podprostoru. Odchylka vektoru od podprostoru. Matice ortogonální projekce Vzdálenost a odchylka dvou afinních podprostorů Vzdálenost dvou afinních podprostorů. Odchylka dvou afinních podprostorů Ortokomplement a ortogonální projekce I Relace ortogonality (kolmosti) má několik následujících zřejmých vlastností. Tvrzení Nechť V je vektorový prostor se skalárním součinem. Potom pro všechna x, y, z ∈ V , c, d ∈ R (resp. c, d ∈ C) platí: (a) x ⊥ 0; (b) x ⊥ x ⇔ x = 0; (c) x ⊥ y ⇔ y ⊥ x; (d) x ⊥ y & x ⊥ z ⇒ x ⊥ (cy + dz). Ortokomplement a ortogonální projekce I Relace ortogonality (kolmosti) má několik následujících zřejmých vlastností. Tvrzení Nechť V je vektorový prostor se skalárním součinem. Potom pro všechna x, y, z ∈ V , c, d ∈ R (resp. c, d ∈ C) platí: (a) x ⊥ 0; (b) x ⊥ x ⇔ x = 0; (c) x ⊥ y ⇔ y ⊥ x; (d) x ⊥ y & x ⊥ z ⇒ x ⊥ (cy + dz). Ortogonálním doplňkem nebo též ortokomplementem libovolné množiny X ⊆ V ve vektorovém prostoru se skalárním součinem nazveme množinu X⊥ = {y ∈ V ; (∀ x ∈ X)(x ⊥ y)} všech vektorů y ∈ V kolmých na každý vektor x ∈ X. Ortokomplement a ortogonální projekce II v1 v2 Ortokomplement a ortogonální projekce III Tvrzení Nechť V je vektorový prostor so skalárním součinem. Potom pro všechny množiny X, Y ⊆ V platí: (a) ∅⊥ = {0}⊥ = V , V ⊥ = {0}; (b) X⊥ = [X]⊥ = [X⊥ ]; (c) X ⊆ Y ⇒ Y ⊥ ⊆ X⊥ ; (d) X ⊆ X⊥⊥ ; (e) X⊥⊥⊥ = X⊥ ; (f) X ∩ X⊥ = {0}, pokud 0 ∈ X, a X ∩ X⊥ = ∅, pokud 0 /∈ X; (g) (X ∪ Y )⊥ = (X + Y )⊥ = X⊥ ∩ Y ⊥ . Ortokomplement a ortogonální projekce III Tvrzení Nechť V je vektorový prostor so skalárním součinem. Potom pro všechny množiny X, Y ⊆ V platí: (a) ∅⊥ = {0}⊥ = V , V ⊥ = {0}; (b) X⊥ = [X]⊥ = [X⊥ ]; (c) X ⊆ Y ⇒ Y ⊥ ⊆ X⊥ ; (d) X ⊆ X⊥⊥ ; (e) X⊥⊥⊥ = X⊥ ; (f) X ∩ X⊥ = {0}, pokud 0 ∈ X, a X ∩ X⊥ = ∅, pokud 0 /∈ X; (g) (X ∪ Y )⊥ = (X + Y )⊥ = X⊥ ∩ Y ⊥ . Z podmínky (b) mimo jiné plyne, že X⊥ je vektorový podprostor ve V pro každou podmnožinu X ⊆ V . Ortokomplement a ortogonální projekce IV Nechť S ⊆ V je lineární podprostor prostoru so skalárním součinem V a x ∈ V . Říkáme, že vektor z ∈ S je kolmý průmět nebo též ortogonální projekce vektoru x do podprostoru S, pokud x − z ∈ S⊥ . Tento vektor (pokud existuje) budeme značit z = prS (x) = xS . x−xS xX z = xS Ortokomplement a ortogonální projekce V Věta Nechť V je vektorový prostor so skalárním součinem, S ⊆ V je jeho konečně rozměrný lineární podprostor a x ∈ V . Potom (a) kolmý průmět vektoru x do podprostoru S existuje a je jednoznačně určený rovností prS (x) = xS = k i=1 x, ui ui , kde (u1, . . . , uk) je libovolná ortonormální báze podprostoru S; (b) pro libovolný vektor y ∈ S platí x − xS ≤ x − y přičemž rovnost nastane právě tehdy, když y = xS ; Ortokomplement a ortogonální projekce VI (c) pokud x = 0 a S = {0}, tak pro libovolný vektor 0 = y ∈ S platí xS x ≥ | x, y | x y , přičemž rovnost nastane právě tehdy, když vektory xS , y jsou lineárně závislé. Ortokomplement a ortogonální projekce VI (c) pokud x = 0 a S = {0}, tak pro libovolný vektor 0 = y ∈ S platí xS x ≥ | x, y | x y , přičemž rovnost nastane právě tehdy, když vektory xS , y jsou lineárně závislé. Vektor x − xS je kolmý na každou přímku v podprostoru S, speciálně trojúhelník tvořený vektory x, xS , x − xS je pravoúhlý, s pravým úhlem při "konci" vektoru xS . Ortokomplement a ortogonální projekce VI (c) pokud x = 0 a S = {0}, tak pro libovolný vektor 0 = y ∈ S platí xS x ≥ | x, y | x y , přičemž rovnost nastane právě tehdy, když vektory xS , y jsou lineárně závislé. Vektor x − xS je kolmý na každou přímku v podprostoru S, speciálně trojúhelník tvořený vektory x, xS , x − xS je pravoúhlý, s pravým úhlem při "konci" vektoru xS . Podmínka (b) předcházející věty nás oprávňuje nazvat délku vektoru x − xS vzdáleností vektoru x od podprostoru S. Budeme ji značit dist(x, S) = x − xS = min{ x − y ; y ∈ S}. Ortokomplement a ortogonální projekce VII Důsledek Nechť V je vektorový prostor se skalárním součinem a S, T ⊆ V jsou jeho konečně rozměrné lineární podprostory. Potom (a) S = S⊥⊥ , (S ∩ T)⊥ = S⊥ + T⊥ a V = S ⊕ S⊥ ; (b) prS : V → V je lineární operátor; (c) (∀ x ∈ V )(x ∈ S ⇔ prS (x) = x); (d) Im prS = S a Ker prS = S⊥ ; (e) x − xS je kolmý průmět vektoru x do podprostoru S⊥ . Z podmínky (e) výše uvedeného důsledku je vzdálenost vektoru x od podprostoru S⊥ daná vztahem dist x, S⊥ = xS . Ortokomplement a ortogonální projekce VIII Podobně, protože kosinus je na intervalu 0, π klesající funkce, podmínka (c) předcházející věty nás oprávňuje nazvat výraz (x, S) = arccos xS x = min{ (x, y); 0 = y ∈ S} odchylkou vektoru x = 0 od podprostoru S = {0}, případně úhlem vektoru x a podprostoru S. Ortokomplement a ortogonální projekce VIII Podobně, protože kosinus je na intervalu 0, π klesající funkce, podmínka (c) předcházející věty nás oprávňuje nazvat výraz (x, S) = arccos xS x = min{ (x, y); 0 = y ∈ S} odchylkou vektoru x = 0 od podprostoru S = {0}, případně úhlem vektoru x a podprostoru S. Odchylka (x, S) je tedy jednoznačně určená jako takové reálné číslo α ∈ 0, π/2 , pro které platí cos α = xS x t. j. sin α = x − xS x . Ortokomplement a ortogonální projekce VIII Podobně, protože kosinus je na intervalu 0, π klesající funkce, podmínka (c) předcházející věty nás oprávňuje nazvat výraz (x, S) = arccos xS x = min{ (x, y); 0 = y ∈ S} odchylkou vektoru x = 0 od podprostoru S = {0}, případně úhlem vektoru x a podprostoru S. Odchylka (x, S) je tedy jednoznačně určená jako takové reálné číslo α ∈ 0, π/2 , pro které platí cos α = xS x t. j. sin α = x − xS x . Zřejmě opět půjde o neorientovaný uhel. Pokud xS = 0, tak (x, S) = (x, xS ); pokud xS = 0, t. j. pokud x ∈ S⊥ , tak samozřejmě (x, S) = π/2. Ortokomplement a ortogonální projekce IX Úhel dvou vektorů nabývá hodnoty z intervalu 0, π , hodnoty, které nabývá úhel vektoru a podprostoru, jsou omezené na interval 0, π/2 . Z podmínky (e) předchozí věty, pokud S⊥ = {0}, tak odchylka vektoru x = 0 od podprostoru S⊥ je daná vztahem x, S⊥ = arccos x − xS x = arcsin xS x . Ortokomplement a ortogonální projekce IX Úhel dvou vektorů nabývá hodnoty z intervalu 0, π , hodnoty, které nabývá úhel vektoru a podprostoru, jsou omezené na interval 0, π/2 . Z podmínky (e) předchozí věty, pokud S⊥ = {0}, tak odchylka vektoru x = 0 od podprostoru S⊥ je daná vztahem x, S⊥ = arccos x − xS x = arcsin xS x . Z předcházející věty, část (a) máme přímý návod, jak najít kolmý průmět vektoru x do konečně rozměrného podprostoru S ⊆ V , a tím i vzdálenosti dist(x, S), dist x, S⊥ a odchylky (x, S), x, S⊥ .Potřebujeme však mít k dispozici alespoň jednu ortonormální bázi v S. Ortokomplement a ortogonální projekce X Tvrzení Nechť V je reálný vektorový prostor so skalárním součinem, S je jeho konečně rozměrný lineární podprostor s bazí α = (u1, . . . , uk) a x ∈ V . Potom pro c = (c1, . . . , ck)T ∈ Rk platí xS = c1u1 + . . . + ckuk právě tehdy, když c je řešením soustavy lineárních rovnic G(α) · c = x, α T , kde x, α označuje řádkový vektor x, u1 , . . . , x, uk ∈ Rk . Ortokomplement a ortogonální projekce X Tvrzení Nechť V je reálný vektorový prostor so skalárním součinem, S je jeho konečně rozměrný lineární podprostor s bazí α = (u1, . . . , uk) a x ∈ V . Potom pro c = (c1, . . . , ck)T ∈ Rk platí xS = c1u1 + . . . + ckuk právě tehdy, když c je řešením soustavy lineárních rovnic G(α) · c = x, α T , kde x, α označuje řádkový vektor x, u1 , . . . , x, uk ∈ Rk . Rozšířená matice G(α) | x, α T uvedené soustavy je Gramovou maticí G(u1, . . . , uk, x) řádu k + 1, ze které jsme vynechali poslední řádek. Ortokomplement a ortogonální projekce XI Je-li α ortonormální báze, tak G(α) = Ik, t. j. příslušná soustava je už ve vyřešeném tvaru c = x, α T , t.j. ve shodě s podmínkou (a) předcházející věty. Ortokomplement a ortogonální projekce XI Je-li α ortonormální báze, tak G(α) = Ik, t. j. příslušná soustava je už ve vyřešeném tvaru c = x, α T , t.j. ve shodě s podmínkou (a) předcházející věty. Totiž prS (x) = xS = x, α T · α = c · α. Zároveň předcházející tvrzení platí i pro případ, kdy α je posloupnost generátorů podprostoru S. Příklad V R4 se standardním skalárním součinem je daný vektor x = (1, 1, 1, 1)T a rovina S = [u, v], kde u = (0, −1, 0, 1)T , v = (1, −2, 1, −3)T . Najdeme kolmý průmět vektoru x do roviny S a vypočítáme vzdálenost dist(x, S) a odchylku (x, S). Ortokomplement a ortogonální projekce XII Kolmý průmět budeme hledat ve tvaru xS = cu + dv, kde (c, d)T ∈ R2 vyhovuje soustavě s rozšírenou maticí u, u v, u u, v v, v x, u x, v = 2 −1 −1 15 0 −3 . Jejím řešením dostaneme c = −3/29, d = −6/29, tedy kolmý průmět vektoru x do roviny [u, v] je xS = (u, v) · c d =     0 1 −1 −2 0 1 1 −3     · −3/29 −6/29 = 3 29     −2 5 −2 5     . Ortokomplement a ortogonální projekce XIII Pro vzdálenost x od S potom dostáváme dist(x, S) = x − xS = 7 29 (5, 2, 5, 2)T = 7 29 √ 58. Pro odchylku x od S dostaneme sin (x, S) = x − xS x = 7 2·29 √ 58 = 7 √ 58 . S použitím kalkulačky či tabulek můžeme zjistit, že (x, S) = arcsin 7 √ 58 ≈ 1, 1659 rad ≈ 66◦ 48 5 . Ortokomplement a ortogonální projekce XIV Příklad Nechť A ∈ Rm×n , přičemž m ≥ n a h(A) = n, t. j. sloupce matice A jsou lineárně nezávislé vektory v euklidovském prostoru Rm se standardním skalárním součinem. Označme S ⊆ Rm lineární podprostor generovaný sloupci matice A. Potom ortogonální projekce na podprostor S je lineární operátor prS : Rm → Rm . Ortokomplement a ortogonální projekce XIV Příklad Nechť A ∈ Rm×n , přičemž m ≥ n a h(A) = n, t. j. sloupce matice A jsou lineárně nezávislé vektory v euklidovském prostoru Rm se standardním skalárním součinem. Označme S ⊆ Rm lineární podprostor generovaný sloupci matice A. Potom ortogonální projekce na podprostor S je lineární operátor prS : Rm → Rm . Najděme jeho matici B = prS ε,ε ∈ Rm×m vzhledem ke kanonické ortonormální bázi ε prostoru Rm . Pokud ztotožníme matici A s uspořádanou n-ticí jejich sloupců, tak A je bazí S. Ortokomplement a ortogonální projekce XV Podle předcházejícího tvrzení obraz y = prS (x) vektoru x ∈ Rm dostaneme ve tvaru y = A · c, kde c ∈ Rn je jediné řešení soustavy G(A) · c = x, A T . Z nezávislosti sloupců matice A víme, že G(A) = AT · A je regulární matice. Dále platí x, A = xT · A, tedy x, A T = AT · x. Ortokomplement a ortogonální projekce XVI Po dosazení c = G(A)−1 · x, A T = AT · A −1 · AT · x, y = A · c = A · AT · A −1 · AT · x. Tedy hledaná matice ortogonální projekce prS je B = prS ε,ε = A · AT · A −1 · AT . Vzdálenost dvou afinních podprostorů I Nechť V je vektorový prostor se skalárním součinem a X, Y jsou jeho dvě neprázdné podmnožiny. Vzdáleností množin X, Y v prostoru V nazýváme číslo dist(X, Y ) = inf{ x − y ; x ∈ X & y ∈ Y }. Vzdálenost dvou afinních podprostorů I Nechť V je vektorový prostor se skalárním součinem a X, Y jsou jeho dvě neprázdné podmnožiny. Vzdáleností množin X, Y v prostoru V nazýváme číslo dist(X, Y ) = inf{ x − y ; x ∈ X & y ∈ Y }. Lemma Nechť V je vektorový prostor se skalárním součinem a M, N jsou jeho afinní podprostory. Potom pro libovolné body p ∈ M, q ∈ M platí: dist(M, N) = dist(p − q, DirM + DirN). Vzdálenost dvou afinních podprostorů I Nechť V je vektorový prostor se skalárním součinem a X, Y jsou jeho dvě neprázdné podmnožiny. Vzdáleností množin X, Y v prostoru V nazýváme číslo dist(X, Y ) = inf{ x − y ; x ∈ X & y ∈ Y }. Lemma Nechť V je vektorový prostor se skalárním součinem a M, N jsou jeho afinní podprostory. Potom pro libovolné body p ∈ M, q ∈ M platí: dist(M, N) = dist(p − q, DirM + DirN). Říkáme, že body p ∈ M, q ∈ N tvoří příčku afinních podprostorů M, N, pokud dist(M, N) = p − q , t. j. pokud se vzdálenost podprostorů M, N realizuje jako délka vektoru p − q. Vzdálenost dvou afinních podprostorů II Y Z X H = {x ∈ R3|aT x = b}, a = 1, b = 0 b = dist({0}, H), q[a] = b · a aT p − b = dist({p}, H) p[a] = (aT p) · a p = 0p ∩ H = λp aT p = b = aT λp p = b aT pp aT (p − p ) = aT p − b p[a] = b · a aT x = b p a q −(aT p − b)a b aT p aT p − b p Vzdálenost dvou afinních podprostorů III Tvrzení Nechť M, N jsou konečně rozměrné afinní podprostory vektorového prostoru se skalárním součinem V . Potom (a) body p ∈ M, q ∈ N tvoří příčku podprostorů M, N právě tehdy, když p − q ∈ (DirM + DirN)⊥ ; (b) pro libovolné body p ∈ M, q ∈ N a vektory u ∈ DirM, v ∈ DirN platí: body p + u, q + v tvoří příčku podprostorů M, N právě tehdy, když vektor v − u je kolmým průmětem vektoru p − q do lineárního podprostoru DirM + DirN; (c) existují body p ∈ M, q ∈ N tvořící příčku podprostorů M, N. Vzdálenost dvou afinních podprostorů III Tvrzení Nechť M, N jsou konečně rozměrné afinní podprostory vektorového prostoru se skalárním součinem V . Potom (a) body p ∈ M, q ∈ N tvoří příčku podprostorů M, N právě tehdy, když p − q ∈ (DirM + DirN)⊥ ; (b) pro libovolné body p ∈ M, q ∈ N a vektory u ∈ DirM, v ∈ DirN platí: body p + u, q + v tvoří příčku podprostorů M, N právě tehdy, když vektor v − u je kolmým průmětem vektoru p − q do lineárního podprostoru DirM + DirN; (c) existují body p ∈ M, q ∈ N tvořící příčku podprostorů M, N. Důsledek Pro konečně rozměrné afinní podprostory M, N ⊆ V vektorového prostoru se skalárním součinem platí dist(M, N) = 0 právě tehdy, když M ∩ N = ∅. Vzdálenost dvou afinních podprostorů IV Přímý návod jak najít příčku a vzdálenost libovolných konečně rozměrných afinních podprostorů Jsou-li M = p + [u1, . . . , um], N = q + [v1, . . . , vn] zadané parametricky, stačí najít jedno řešení c = (c1, . . . , cm, cm+1, . . . , cm+n)T ∈ Rm+n soustavy G(γ) · c = p − q, γ T , kde γ = (u1, . . . , um, v1, . . . , vn), a položit u = c1u1 + . . . cmum, v = cm+1v1 + . . . + cm+nvn. Vzdálenost dvou afinních podprostorů IV Přímý návod jak najít příčku a vzdálenost libovolných konečně rozměrných afinních podprostorů Jsou-li M = p + [u1, . . . , um], N = q + [v1, . . . , vn] zadané parametricky, stačí najít jedno řešení c = (c1, . . . , cm, cm+1, . . . , cm+n)T ∈ Rm+n soustavy G(γ) · c = p − q, γ T , kde γ = (u1, . . . , um, v1, . . . , vn), a položit u = c1u1 + . . . cmum, v = cm+1v1 + . . . + cm+nvn. Potom vektor w = u + v = γ · c je kolmým průmětem vektoru p − q do lineárního podprostoru DirM + DirN = [u1, . . . um, v1, . . . , vn] a příčka podprostorů M, N je tvořená body p − u, q + v. Vzdálenost dvou afinních podprostorů V Tedy dist(M, N) = (p − u) − (q + v) = p − q − w . Vzdálenost dvou afinních podprostorů V Tedy dist(M, N) = (p − u) − (q + v) = p − q − w . Příklad V euklidovském prostoru R4 se standardním skalárním součinem máme najít vzdálenost rovin M = (1, 1, 2, −2)T + [e1 + e2, e1 + e2 + e3], N = (0, 0, 5, −1)T + [e2 + e4, e2 + e3 + e4]. Vzdálenost dvou afinních podprostorů VI Z príslušných skalárnych súčinov zostavíme (takmer Gramovu) rozšírenú maticu sústavy G(γ) · c = p − q, γ T a upravíme ju na redukovaný stupňovitý tvar     2 2 1 1 2 3 1 2 1 1 2 2 1 2 2 3 2 −1 0 −3     ∼     1 0 0 −1 0 1 0 1 0 0 1 1 0 0 0 0 13/3 −3 −2/3 0     . Vzdálenost dvou afinních podprostorů VI Z príslušných skalárnych súčinov zostavíme (takmer Gramovu) rozšírenú maticu sústavy G(γ) · c = p − q, γ T a upravíme ju na redukovaný stupňovitý tvar     2 2 1 1 2 3 1 2 1 1 2 2 1 2 2 3 2 −1 0 −3     ∼     1 0 0 −1 0 1 0 1 0 0 1 1 0 0 0 0 13/3 −3 −2/3 0     . Řešení soustavy zapíšeme vo všeobecném tvaru ct = (13/3 + t, −3 − t, −2/3 − t, t)T s parametrem t ∈ R. Položme ut = c1(e1 + e2) + c2(e1 + e2 + e3) = (4/3, 4/3, −3 − t, 0)T , vt = c3(e2 + e4) + c3(e2 + e3 + e4) = (0, −2/3, t, −2/3)T . Vzdálenost dvou afinních podprostorů VII Potom pro každé t ∈ R dvojice bodů pt = (1, 1, 2, −2)T − ut = (−1/3, −1/3, 5 + t, −2)T qt = (0, 0, 5, −1)T + vt = (0, −2/3, 5 + t, −5/3)T tvoří příčku podprostorů M, N. Vektory ut + vt = (4/3, 2/3, −3, −2/3)T , pt − qt = 1 3 (−1, 1, 0, −1)T ale od parametru t nezávisí stejně jako vzdálenost dist(M, N) = pt − qt = 1 √ 3 . Odchylka dvou afinních podprostorů I Odchylku neboli úhel dvou netriviálních konečně rozměrných afinních podprostorů ve vektorovém prostoru so skalárním součinem V značíme (M, N) a definujeme ji jako odchylku (DirM, DirN) jejich zaměření. Odchylka dvou afinních podprostorů I Odchylku neboli úhel dvou netriviálních konečně rozměrných afinních podprostorů ve vektorovém prostoru so skalárním součinem V značíme (M, N) a definujeme ji jako odchylku (DirM, DirN) jejich zaměření. Odchylku neboli úhel (S, T) dvou netriviálních konečně rozměrných lineárních podprostorů S, T ⊆ V definujeme následovně: Pro S ⊆ T nebo T ⊆ S položíme (S, T) = 0. Pokud S ∩ T = {0}, klademe (S, T) = inf{ (x, y); 0 = x ∈ S & 0 = y ∈ T}. Odchylka dvou afinních podprostorů II Pokud bychom takovýmto způsobem definovali odchylku (S, T), i když S ∩ T = {0}, libovolný společný nenulový vektor x ∈ S ∩ T by se postaral o to, aby platilo (S, T) = (x, x) = 0, což nevypadá příliš rozumně. Tedy pro S ∩ T = {0}, S ⊆ T, T ⊆ S, položíme S1 = S ∩ (S ∩ T)⊥ , T1 = T ∩ (S ∩ T)⊥ . Odchylka dvou afinních podprostorů II Pokud bychom takovýmto způsobem definovali odchylku (S, T), i když S ∩ T = {0}, libovolný společný nenulový vektor x ∈ S ∩ T by se postaral o to, aby platilo (S, T) = (x, x) = 0, což nevypadá příliš rozumně. Tedy pro S ∩ T = {0}, S ⊆ T, T ⊆ S, položíme S1 = S ∩ (S ∩ T)⊥ , T1 = T ∩ (S ∩ T)⊥ . Zřejmě S1, T1 ⊆ V jsou netrivální lineární podprostory a S1 ∩ T1 = {0} (za předpokladu S ∩ T = {0} dokonce platí S1 = S, T1 = T). Proto můžeme konečně definovat (S, T) = (S1, T1). Odchylka dvou afinních podprostorů II Pokud bychom takovýmto způsobem definovali odchylku (S, T), i když S ∩ T = {0}, libovolný společný nenulový vektor x ∈ S ∩ T by se postaral o to, aby platilo (S, T) = (x, x) = 0, což nevypadá příliš rozumně. Tedy pro S ∩ T = {0}, S ⊆ T, T ⊆ S, položíme S1 = S ∩ (S ∩ T)⊥ , T1 = T ∩ (S ∩ T)⊥ . Zřejmě S1, T1 ⊆ V jsou netrivální lineární podprostory a S1 ∩ T1 = {0} (za předpokladu S ∩ T = {0} dokonce platí S1 = S, T1 = T). Proto můžeme konečně definovat (S, T) = (S1, T1). Takto definovaný úhel podprostorů S, T je číslo z intervalu 0, π/2 a platí pro něj (S, T) = (T, S), tedy je to neorientovaný úhel. Odchylka dvou afinních podprostorů III Tvrzení Nechť V je vektorový prostor so skalárním součinem a S, T jsou jeho konečně rozměrné lineární podprostory, přičemž S ⊆ T ani T ⊆ S. Potom (S, T) = inf (x, T); 0 = x ∈ S ∩ (S ∩ T)⊥ . Odchylka dvou afinních podprostorů III Tvrzení Nechť V je vektorový prostor so skalárním součinem a S, T jsou jeho konečně rozměrné lineární podprostory, přičemž S ⊆ T ani T ⊆ S. Potom (S, T) = inf (x, T); 0 = x ∈ S ∩ (S ∩ T)⊥ . Odchylka přímky [x], kde x = 0, a konečně rozměrného lineárního podprostoru S = {0} je daná vztahem [x], S = (x, S) = arccos xS x =    (x, xS ), pokud xS = 0, t. j. x /∈ S⊥ , π/2, pokud xS = 0, t. j. x ∈ S⊥ . Odchylka dvou afinních podprostorů IV Příklad V euklidovském prostoru R4 se standardním skalárním součinem máme najít odchylku rovin M = (1, 1, 2, −2)T + [e1 + e2, e1 + e2 + e3], N = (0, 0, 5, −1)T + [e2 + e4, e2 + e3 + e4]. Podle definice (M, N) = (S, T), kde S = [e1 + e2, e1 + e2 + e3] a T = [e2 + e4, e2 + e3 + e4]. Vidíme, že S ∩ T = [e3], tedy (S ∩ T)⊥ = [e1, e2, e4]. Nutně pak S1 = S ∩(S ∩T)⊥ = [e1 +e2], T1 = T ∩(S ∩T)⊥ = [e2 +e4]. Protože e1 + e2, e2 + e4 = 1 ≥ 0 a e1 + e2 = e2 + e4 = √ 2, (M, N) = (e1 + e2, e2 + e4) = arccos 1 2 = π 3 = 60◦ . Odchylka dvou afinních podprostorů V Každý (n − 1)-rozměrný lineární podprostor S v n-rozměrném euklidovském prostoru V má tvar S = [a]⊥ pro vhodný nenulový vektor a ∈ V . Odchylka dvou afinních podprostorů V Každý (n − 1)-rozměrný lineární podprostor S v n-rozměrném euklidovském prostoru V má tvar S = [a]⊥ pro vhodný nenulový vektor a ∈ V . Každá nadrovina N ⊆ V se zaměřením S má tvar N = p + [a]⊥ pro nějaké p ∈ N. Odchylka dvou afinních podprostorů V Každý (n − 1)-rozměrný lineární podprostor S v n-rozměrném euklidovském prostoru V má tvar S = [a]⊥ pro vhodný nenulový vektor a ∈ V . Každá nadrovina N ⊆ V se zaměřením S má tvar N = p + [a]⊥ pro nějaké p ∈ N. Vektor a se nazývá normála neboli normálový vektor nadroviny N. Normála nadroviny je určená jednoznačně až na skalární násobek. Odchylka dvou afinních podprostorů V Každý (n − 1)-rozměrný lineární podprostor S v n-rozměrném euklidovském prostoru V má tvar S = [a]⊥ pro vhodný nenulový vektor a ∈ V . Každá nadrovina N ⊆ V se zaměřením S má tvar N = p + [a]⊥ pro nějaké p ∈ N. Vektor a se nazývá normála neboli normálový vektor nadroviny N. Normála nadroviny je určená jednoznačně až na skalární násobek. V euklidovském prostoru Rn se standardním skalárním součinem vystupuje normálový vektor dané nadroviny přímo v její (obecné) rovnici. Pokud je totiž nadrovina N daná rovnicí a1x1 + . . . + anxn = b, tak a = (a1, . . . , an)T = 0 je její normála a uvedenou rovnici můžeme zapsat ve tvaru x, a = b. Odchylka dvou afinních podprostorů VI Tvrzení Nechť S je netriviální, vlastní lineární podprostor euklidovského prostoru V a 0 = a ∈ V . Potom [a]⊥ , S = π 2 − (a, S) = a, S⊥ . Odchylka dvou afinních podprostorů VI Tvrzení Nechť S je netriviální, vlastní lineární podprostor euklidovského prostoru V a 0 = a ∈ V . Potom [a]⊥ , S = π 2 − (a, S) = a, S⊥ . Důsledek Nechť M, N jsou dvě nadroviny v euklidovském prostoru V s normálami a, resp. b. Potom (M, N) = (a, [b]) = min (a, b), (a, −b) . Odchylka dvou afinních podprostorů VII Příklad V euklidovském prostoru V vypočteme odchylku roviny S = [u, v] a nadroviny T = [a]⊥ . Podle předcházejícího tvrzení platí (S, T) = π 2 − (a, S) = arcsin aS a . Odchylka dvou afinních podprostorů VII Příklad V euklidovském prostoru V vypočteme odchylku roviny S = [u, v] a nadroviny T = [a]⊥ . Podle předcházejícího tvrzení platí (S, T) = π 2 − (a, S) = arcsin aS a . Souřadnice c, d kolmého průmětu aS = cu + dv vzhledem k bázi (u, v) podprostoru S získáme řešením soustavy G(u, v) · c d = a, u a, v pomocí Cramerova pravidla. Odchylka dvou afinních podprostorů VIII Platí c = a, u v, u a, v v, v |G(u, v)| , d = u, u a, u u, v a, v |G(u, v)| . Řešení neřešitelných soustav a lineární regrese I V celém tomto paragrafu označují m, n pevná kladná čísla. Sloupcové vektorové prostory Rm a Rn jsou opatřeny standardním skalárním součinem, takže tvoří euklidovský prostor. Řešení neřešitelných soustav a lineární regrese I V celém tomto paragrafu označují m, n pevná kladná čísla. Sloupcové vektorové prostory Rm a Rn jsou opatřeny standardním skalárním součinem, takže tvoří euklidovský prostor. Nechť A ∈ Rm×n , b ∈ Rm . Uvažujme soustavu lineárních rovnic A · x = b a označme S = [s1(A), . . . , sn(A)] lineární podprostor v Rm generovaný sloupci matice A. Řešení neřešitelných soustav a lineární regrese I V celém tomto paragrafu označují m, n pevná kladná čísla. Sloupcové vektorové prostory Rm a Rn jsou opatřeny standardním skalárním součinem, takže tvoří euklidovský prostor. Nechť A ∈ Rm×n , b ∈ Rm . Uvažujme soustavu lineárních rovnic A · x = b a označme S = [s1(A), . . . , sn(A)] lineární podprostor v Rm generovaný sloupci matice A. Podle Frobeniova kritéria má naše soustava nějaké řešení x ∈ Rn právě tehdy, když b ∈ S. Složky řešení x = (x1, . . . , xn)T ∈ Rn jsou pak koeficienty lineární kombinace x1s1(A) + . . . + xnsn(A) = A · x = b. Ale i v případě, kdy b /∈ S, tj. řešení soustavy neexistuje, se můžeme pokusit nahradit její pravou stranu b co nejbližším vektorem z podprostoru S. Takto získaná nová soustava už má řešení, které můžeme právem považovat za nejlepší možné přibližné řešení původní soustavy. Řešení neřešitelných soustav a lineární regrese II Podle věty o ortogonální projekci je nejbližší vektor z podprostoru S k vektoru b určený jednoznačně, a je to jeho kolmý průmět bS do tohoto podprostoru. Řešení neřešitelných soustav a lineární regrese II Podle věty o ortogonální projekci je nejbližší vektor z podprostoru S k vektoru b určený jednoznačně, a je to jeho kolmý průmět bS do tohoto podprostoru. Pseudořešení (i neřešitelné) soustavy A · x = b definujeme jako řešení (tentokrát již jistě řešitelné) soustavy A · x = bS . Řešení neřešitelných soustav a lineární regrese II Podle věty o ortogonální projekci je nejbližší vektor z podprostoru S k vektoru b určený jednoznačně, a je to jeho kolmý průmět bS do tohoto podprostoru. Pseudořešení (i neřešitelné) soustavy A · x = b definujeme jako řešení (tentokrát již jistě řešitelné) soustavy A · x = bS . Pokud je původní soustava řešitelná, tj. pokud b ∈ S, tak bS = b a obě soustavy splývají, takže každé její pseudořešení je přímo řešením původní soustavy. Řešení neřešitelných soustav a lineární regrese III Tvrzení Nechť A ∈ Rm cxn , b ∈ Rm . Potom x ∈ Rn je pseudořešením soustavy A · x = b právě když x je řešením soustavy AT · A · x = AT · b se čtvercovou maticí AT · A ∈ Rn×n a levou stranou AT · b ∈ Rn . Řešení neřešitelných soustav a lineární regrese III Tvrzení Nechť A ∈ Rm cxn , b ∈ Rm . Potom x ∈ Rn je pseudořešením soustavy A · x = b právě když x je řešením soustavy AT · A · x = AT · b se čtvercovou maticí AT · A ∈ Rn×n a levou stranou AT · b ∈ Rn . Pseudořešení soustavy A · x = b tedy hledáme jako řešení zaručeně řešitelné soustavy AT · A · x = AT · b. Řešení neřešitelných soustav a lineární regrese III Tvrzení Nechť A ∈ Rm cxn , b ∈ Rm . Potom x ∈ Rn je pseudořešením soustavy A · x = b právě když x je řešením soustavy AT · A · x = AT · b se čtvercovou maticí AT · A ∈ Rn×n a levou stranou AT · b ∈ Rn . Pseudořešení soustavy A · x = b tedy hledáme jako řešení zaručeně řešitelné soustavy AT · A · x = AT · b. V typickém případě má původní soustava více rovnic než neznámých neboli m > n a A je obdélníková matice, „vyšší než širší“. Řešení neřešitelných soustav a lineární regrese III Tvrzení Nechť A ∈ Rm cxn , b ∈ Rm . Potom x ∈ Rn je pseudořešením soustavy A · x = b právě když x je řešením soustavy AT · A · x = AT · b se čtvercovou maticí AT · A ∈ Rn×n a levou stranou AT · b ∈ Rn . Pseudořešení soustavy A · x = b tedy hledáme jako řešení zaručeně řešitelné soustavy AT · A · x = AT · b. V typickém případě má původní soustava více rovnic než neznámých neboli m > n a A je obdélníková matice, „vyšší než širší“. Pak je velmi pravděpodobné, že čtvercová matice AT · A řádu large n (jako Gramova matice „malého“ počtu sloupcových vektorů v euklidovském prostoru „velké“ dimenze) je regulární, tedy k ní existuje regulární matice AT · A −1 . Řešení neřešitelných soustav a lineární regrese IV V takovémto případě je pseudořešení původní soustavy určené jednoznačně: X = AT · A −1 · AT · b. Samozřejmě, pokud m = n a už samotná matice A je regulární, dostáváme AT · A −1 · AT = A−1 a x = A−1 · b je přímo jediným řešením původní soustavy. Řešení neřešitelných soustav a lineární regrese IV V takovémto případě je pseudořešení původní soustavy určené jednoznačně: X = AT · A −1 · AT · b. Samozřejmě, pokud m = n a už samotná matice A je regulární, dostáváme AT · A −1 · AT = A−1 a x = A−1 · b je přímo jediným řešením původní soustavy. V úlohách lineární regrese máme zadané hodnoty y1, . . . , ym neznámé funkce f v bodech x1, . . . , xm jejího definičního oboru, získané většinou měřením. Funkci f chceme aproximovat lineární kombinací funkcí f1, . . . , fn, které známe, či alespoň jsou nám známé jejich hodnoty aij = fj (xi ) v bodech x1, . . . , xm. Řešení neřešitelných soustav a lineární regrese V Obvykle je m podstatně větší než n. V optimálním případě se nám může podařit sestrojit funkci f = c1f1 + . . . + cnfn přímo jako lineární kombinaci funkcí fj tak, aby f v bodech xi nabývala předem předepsané hodnoty yi , tj. yi = f (xi ) = n j=1 cj fj (xi ) = n j=1 aij cj . Řešení neřešitelných soustav a lineární regrese V Obvykle je m podstatně větší než n. V optimálním případě se nám může podařit sestrojit funkci f = c1f1 + . . . + cnfn přímo jako lineární kombinaci funkcí fj tak, aby f v bodech xi nabývala předem předepsané hodnoty yi , tj. yi = f (xi ) = n j=1 cj fj (xi ) = n j=1 aij cj . Pokud označíme A = (aij ) ∈ Rm×n, y = (y1, . . . , ym)T ∈ Rm, c = (c1, . . . , cn)T ∈ Rn, vidíme, že vlastně hledáme řešení c soustavy A · c = y. Řešení neřešitelných soustav a lineární regrese V Obvykle je m podstatně větší než n. V optimálním případě se nám může podařit sestrojit funkci f = c1f1 + . . . + cnfn přímo jako lineární kombinaci funkcí fj tak, aby f v bodech xi nabývala předem předepsané hodnoty yi , tj. yi = f (xi ) = n j=1 cj fj (xi ) = n j=1 aij cj . Pokud označíme A = (aij ) ∈ Rm×n, y = (y1, . . . , ym)T ∈ Rm, c = (c1, . . . , cn)T ∈ Rn, vidíme, že vlastně hledáme řešení c soustavy A · c = y. Tato soustava je v typickém případě neřešitelná. Řešení neřešitelných soustav a lineární regrese VI Úloha lineární regrese pak splývá s metodou nejmenších čtverců a spočívá v nalezení takových koeficientů cj , které minimalizují výraz m i=1 yi − n j=1 aij cj 2 = y − A · c 2 . Řešení neřešitelných soustav a lineární regrese VI Úloha lineární regrese pak splývá s metodou nejmenších čtverců a spočívá v nalezení takových koeficientů cj , které minimalizují výraz m i=1 yi − n j=1 aij cj 2 = y − A · c 2 . Toto minimum nastává pro c takové, že A · c = yS , kde S je podprostor v Rm generovaný sloupci matice A. Jinak řečeno, hledanou lineární kombinaci dostaneme jako pseudořešení c soustavy A · c = y. Řešení neřešitelných soustav a lineární regrese VI Úloha lineární regrese pak splývá s metodou nejmenších čtverců a spočívá v nalezení takových koeficientů cj , které minimalizují výraz m i=1 yi − n j=1 aij cj 2 = y − A · c 2 . Toto minimum nastává pro c takové, že A · c = yS , kde S je podprostor v Rm generovaný sloupci matice A. Jinak řečeno, hledanou lineární kombinaci dostaneme jako pseudořešení c soustavy A · c = y. Pro hodnoty pocházející z rozumných praktických úkolů je téměř jisté, že matice AT · A je regulární. V takovémto případě C = AT · A −1 · AT · y, čili hledaná lineární kombinace f = c1f1 + . . . + cnfn = (f1, . . . , fn) · c je určena jednoznačně. Řešení neřešitelných soustav a lineární regrese VII Příklad V rovině R2 je daných m ≥ 2 bodů (x1, y1), . . . , (xm, ym), získaných měřením hodnot nějaké neznámé funkce f ve vybraných bodech xi jejího definičního oboru. Tuto funkci hodláme aproximovat přímkou s rovnicí y = a + bx tak, aby výraz m i=1(yi − a − bxi )2 byl minimální. Řešení neřešitelných soustav a lineární regrese VII Příklad V rovině R2 je daných m ≥ 2 bodů (x1, y1), . . . , (xm, ym), získaných měřením hodnot nějaké neznámé funkce f ve vybraných bodech xi jejího definičního oboru. Tuto funkci hodláme aproximovat přímkou s rovnicí y = a + bx tak, aby výraz m i=1(yi − a − bxi )2 byl minimální. 40 60 80 100 160 180 200 0.60 · Váha + 130.2 Váha (kg) Výška(cm) Řešení neřešitelných soustav a lineární regrese VIII Pokud si uvědomíme, že funkce y = a + bx je lineární kombinací konstantní funkce y = 1 a identické funkce y = x, hned vidíme, že jde o úlohu lineární regrese. Řešení neřešitelných soustav a lineární regrese VIII Pokud si uvědomíme, že funkce y = a + bx je lineární kombinací konstantní funkce y = 1 a identické funkce y = x, hned vidíme, že jde o úlohu lineární regrese. Soustava    1 x1 ... ... 1 xm    · a b =    y1 ... ym    je kromě triviálního případu, kdy všechny body (xi , yi ) leží na jedné přímce, neřešitelná. Koeficienty a, b tedy najdeme jako pseudořešení této soustavy. Její matici si označíme A. Řešení neřešitelných soustav a lineární regrese VIII Pokud si uvědomíme, že funkce y = a + bx je lineární kombinací konstantní funkce y = 1 a identické funkce y = x, hned vidíme, že jde o úlohu lineární regrese. Soustava    1 x1 ... ... 1 xm    · a b =    y1 ... ym    je kromě triviálního případu, kdy všechny body (xi , yi ) leží na jedné přímce, neřešitelná. Koeficienty a, b tedy najdeme jako pseudořešení této soustavy. Její matici si označíme A. Jednoduchý výpočet dává AT · A =   m xi xi x2 i   . Řešení neřešitelných soustav a lineární regrese IX Tedy platí det AT · A = m m i=1 x2 i − m i=1 xi 2 = i