ADALINE
Organizační dynamika:
y
X! X2 Xn
w = (wQ/w^...,wn) aX = (xo,x^...,xn) kde x0 = 1. Aktivní dynamika:
► vnitřní potenciál: í, = w0 + X,"=1 w,x; = L[Lo w/x/ = w • X
► aktivační funkce: o(£,) = £
► funkce sítě: y[w](x^,...,xn) = o(£.) = w-X
ADALINE
Adaptivní dynamika:
► Dána množina tréninkových vzorů
T = {[^ld^l(x2ld2),...l(xpldp)}
Zde xk = (x/<i... ,xkn) e IR", xk0 = 1, je vstup /c-tého vzoru adk £ IR je očekávaný výstup.
Intuice: chceme, aby síť počítala afinní aproximaci funkce, jejíž (některé) hodnoty nám předepisuje tréninková množina.
► Označme: Xk = {xkQ,xk-\.. .,xkn) e Rn+1 kde xkQ = 1.
► Chybová funkce:
1    ^ 2      1    P   ( n
E{w) =-^(w ■ Xk - dk) =- ^ YjWiXki~d>
2 Z.
Cílem je nalézt w, které minimalizuje E(w).
ADALINE - adaptivní dynamika
Dávkový algoritmus (gradientní sestup):
► váhy v vv(°) jsou inicializovány náhodně blízko 0
► v ř-tém kroku je      vypočteno takto:
tf(0   = tf(ř-1)-£-VE(w(ř-1))
- *M,-<-(£(*).....n<*>
=   tf«-1)_£.£ (Ä(M). X(,-<ik).Xk
Zde 0 < £ < 1 je rychlost učení. Tvrzení
Pro dostatečně malé e > 0 posloupnost w(°\      w(2\... konverguje (po složkách) ke globálnímu minimu funkce E (tedy k vektoru w, který splňuje VE(vv) = Oj.
ADALINE - statistické učení
Uvažme následující modifikaci adaptivní dynamiky:
► Síti je předkládána (nekonečná) posloupnost tréninkových vzorů (x-\,d-i),(x2,d2),... kde
► vstupy xk — (Xfci,..., xkn) e R" jsou generovány náhodně s daným rozdělením pravděpodobností
► každý vstup xk má přiřazen požadovaný výstup dk e IR.
► Označme Xk = {xk0,xk^,.. .,xkn) kde xk0 = 1. Výstup sítě pro k-tý vzor'\e potom w ■ Xk.
► Pro danou konfiguraci w definujeme chybu:
Poznámka: Podle zákona o velkých číslech je E(w) střední hodnota proměnné, která vrací \ (w ■ Xk - dk} , tedy E(w) = E \ (w ■ Xk - dk)j
ADALINE - statistické učení
Vypočteme gradient VE(vfr) = (ij^{w),...,j^n{w)) : ^-(w)  =   lim - • Y (w ■ Xk - dk) ■ xki
n
=   ^ Wr • /V/ - C;
r=0
kde
A     -    1 "
n = lim - • V xkr ■ xki 1 p
C, = lim - • Y dk ■ xki
ADALINE - statistické učení
Hledáme minimum E(w), tedy w* takové, že VE(vv*) = 0.
Pokud dokážeme statisticky odhadnout Arj a C, pak můžeme rovnou položit:
a dostat w* jako řešení systému lineárních rovnic. Problémy:
1. řešení nemusí existovat
(přestože minimum funkce E vždy existuje)
2. nemusíme mít odhad pro Arj a C,
Pokud lze odhadnout Ar; a Q, můžeme použít gradientní sestup stejně jako v případě normálního ADALINE učení:
► váhy v vv(°) jsou inicializovány náhodně blízko 0
► v ř-tém kroku (zde ř = 1,2,...) je      vypočteno takto
w
(0
w
(t-1)
p
w
(f-1) _
£ • lim
p—>«
(f-1)
1
Vr=0
Co když ani nelze odhadnout Ar; a C, ?
ADALINE - statistické učení
Naštěstí funguje online algoritmus (Widrow & Hoff), který je úplně stejný jako v předchozí „nestatistické" variantě!
► váhy v vv(°) jsou inicializovány náhodně blízko 0
► v ř-tém kroku (zde ř = 1,2,...) je      vypočteno takto:
^ = ^-e(t).(^.Xt-dt)-Xt kde 0 < e(t) < 1 je rychlost učení v ř-tém kroku. Věta (Widrow & Hoff)
Pro e(t) = j posloupnost w(°\      w(2\... konverguje ke globálnímu minimu chybové funkce E(w).
Matematická poznámka: zde se nejedná o konvergenci po složkách, ale o konvergenci průměru čtverců vzdálenosti (mean square convergence).
8
Vícevrstvá síť a zpětná propagace
► Vícevrstvé sítě - značení
► učící pravidlo zpětné propagace
► algoritmus zpětné propagace
Vícevrstvá síť
Organizační dynamika:
Výstupní
Q O
Skryté
Vstupní
Neurony jsou rozděleny do vrstev (vstupní a výstupní vrstva, obecně několik skrytých vrstev)
Vrstvy číslujeme od 0; vstupní vrstva je nultá
► Např. třívrstvá síť se skládá z
jedné vstupní, dvou skrytých a
jedné výstupní vrstvy.
Neurony v i-\é vrstvě jsou spojeny se všemi neurony ve vrstvě l + 1.
Vícevrstvou síť lze zadat počty neuronů v jednotlivých vrstvách (např. 2-4-3-2)
10
Vícevrstvá síť
Značení:
► Označme
► X množinu vstupních neuronů
► Y množinu výstupních neuronů
Z množinu všech neuronů (tedy X, Y c Z)
► jednotlivé neurony budeme značit indexy i, j apod.
► £y je vnitřní potenciál neuronu j po skončení výpočtu
► y j je stav (výstup) neuronu j po skončení výpočtu
(zde definujeme y0 = 1 jako hodnotu formálního jednotkového vstupu)
► Wjj je váha spoje od neuronu ;' do neuronu j
(zejména wj0 je váha speciálního jednotkového vstupu, tj. wj0 = -ty kde bj je bias neuronu j)
► y«_ je množina všech neuronů, z nichž vede spoj do j (zejména 0 e y<_)
► y-_> je množina všech neuronů, do nichž vede spoj z j
11
Vícevrstvá síť
Aktivní dynamika:
► vnitřní potenciál neuronu j:
ti=E wJiYi
*■ aktivační funkce a j pro neuron y je libovolná diferencovatelná funkce [ např. logistická sigmoida a/(£) = 1 J-a^ ]
*■ Stav nevstupního neuronu j e Z \ X po skončení výpočtu je
Yj =
(yy- závisí na konfiguraci w a vstupu x, proto budu občas psát y,{w,x))
*■ Síť počítá funkci z R|X| do R|Y|. Výpočet probíhá po vrstvách. Na začátku jsou hodnoty vstupních neuronů nastaveny na vstup sítě. V kroku i jsou vyhodnoceny neurony z i-lé vrstvy.
12
Vícevrstvá síť
Adaptivní dynamika:
► Dána množina T tréninkových vzorů tvaru
{(xkldk)   |  1^ = },...^]
kde každé xk e IR|X| je vstupní vektor a každé dk e IR|y| je očekávaný výstup sítě. Pro každé j e Y označme dkj očekávaný výstup neuronu j pro vstup xk (vektor dk lze tedy psát jako (cfo/) ).
► Chybová funkce:
p
E(Ú) = YJEk(Ú)
kde
jeY
13
Vícevrstvá síť - učící algoritmus
Dávkový algoritmus (gradientní sestup):
Algoritmus počítá posloupnost vektorů vah w(°\      ....
► váhy v vv(°) jsou inicializovány náhodně blízko 0
► v ř-tém kroku (zde ř = 1,2,...) je      vypočteno takto:
je změna váhy w,, v ř-tém kroku a 0 < e(t) < 1 je rychlost učení v ř-tém kroku.
Všimněte si, že je komponenta gradientu VE, tedy změnu vah v
f-tém kroku lze zapsat také takto: w(í) =       - £(f) • VE(w(M)).
.(f-1)
kde
Aw{t) = -e(t)-^-(w^)
14
Vícevrstvá síť - gradient chybové funkce
Pro každé w,, máme
— - V —
dwii ~ J3 5w/v
kde pro každé k = 1,..., p platí
a pro každé j e Z\X dostaneme
— =yj-dkj proyeY
d-Ě = L^-^)-n ProyeZx(Y (Zde všechna y; jsou ve skutečnosti yj(w,xk)).
Vícevrstvá síť - gradient chybové funkce
► Pokud a/(£) = 1 J-Ajč Pro každé j e Z pak
a dostaneme pro každé j e Z\X:
— =yj-dkj proyeY
^ = E§7L-^yr(1-yr)-wfí- proyeZ\(YuX)
► Pokud a/(£) = a • tanh(r> • £y) pro každé y e Z pak
Vícevrstvá síť - výpočet gradientu
Algoritmicky lze J| = LjJ=1 §§J spočítat takto: Polož Sjj := 0  (na konci výpočtu bude £/,- =
Pro každé k = 1,... ,p udělej následující
1. spočítej y-j pro každé j e Z a k-lý vzor, tedy y, = yj{w,Xk) (tj. vyhodnoť síť ve standardním aktivním režimu)
2. pro všechna j e Z spočítej ^ pomocí zpětného šíření
(viz. následující slajd!)
3. spočítej ^| pro všechna w,, pomocí vzorce
fay — +
Výsledné Ey; se rovná
Vícevrstvá síť - zpětné šíření
^ lze spočítat pomocí zpětného šíření:
► spočítáme ^ pro j e V pomocí vzorce ^ = y,- -
► rekurzivně spočítáme zbylé ^-:
Nechť j je v £-té vrstvě a předpokládejme, že ^ už máme spočítáno pro všechny neurony z vyšších vrstev (tedy vrstev i+ 1,^ + 2,...). Pak lze ^ spočítat pomocí vzorce
5Efc    ví dEk protože všechny neurony r e y-_> patří do vrstvy £ + 1.
Složitost dávkového algoritmu
Výpočet hodnoty Jf:(w(ř~1)) probíhá v lineárním čase vzhledem k velikosti sítě a počtu tréninkových vzorů
(za předpokladu jednotkové ceny operací včetně vyhodnocení a'r(£r) pro dané £r)
Zdůvodnění: Algoritmus provede p krát následující
1. vyhodnocení sítě (tj. výpočet y}(w,x^))
2. výpočet ^ zpětným šířením
3. výpočet §jj
4. přičtení §| k Gji
Kroky 1.-3. proběhnou v lineárním čase a krok 4. v konstantním vzhledem k velikosti sítě.
Počet iterací gradientního sestupu pro přiblížení se (lokálnímu) minimu může být velký...
19
Vícevrstvá síť - učící algoritmus
Online algoritmus:
Algoritmus počítá posloupnost vektorů vah w(°\      ....
► váhy v vv(°) jsou inicializovány náhodně blízko 0
► v ř-tém kroku (zde ř = 1,2,...) je      vypočteno takto:
kde
ji      v; dwj-r 11
kde k = ((ŕ - 1) mod p) + 1 a 0 < e(t) < 1 je rychlost učení v ř-tém kroku.
Lze použít i stochastickou verzi tohoto algoritmu, v níž je k voleno náhodně z {1,.. .,p}.