Tento učební text vznikl za přispění Evropského sociálního fondu a státního rozpočtu ČR prostřednictvím Operačního programu Vzdělávání pro konkurenceschopnost v rámci projektu Univerzitní výuka matematiky v měnícím se světě (CZ.1.07/2.2.00/15.0203). Obsah: 1. Vícevrstvé NN, Backpropagation, Madaline 2. Asociativní neuronové sítě, Hebbův zákon, Kohonenovy mapy, LVQ 3. RBF sítě, Modulární NN, Hammingova síť 4. Vyhodnocení kvality prediktivního modelu 5. Úvod do teorie portfolia 4 32 64 92 134 1. Vícevrstvé NN, Backpropagation, MADALINE 4 Neuronová síť (NS) Neuronová síť se v čase vyvíjí, mění se propojení a stav neuronů a adaptují se váhy. V souvislosti se změnou těchto charakteristik v čase je účelné rozdělit celkovou dynamiku NS a pracovat v třech režimech (dynamikách):  Organizační – změna topologie  Aktivní – změna stavu  Adaptivní – změna konfigurace 5 Organizační dynamika NS  Specifikuje architekturu sítě 6  Dopředná, acyklická (feed-forward)  Rekurentní, cyklická Aktívní dynamika NS  Specifikuje počáteční stav NS a spůsob jeho změny v čase při pevných ostatních charakteristikách (topologie a konfigurace).  Nastaví se stavy vstupních neuronů (vstup sítě).  Po inicializaci vstupů nastává vlastní výpočet.  Stav výstupních neuronů, který se v čase mění je tzv. výstup NS, který je po čase konstantní a NS tak v aktivním režimu realizuje nějakou funkci na výstupním prostoru (funkce NS).  Aktivní dynamika určuje i funkci jednoho neuronu. Např.: 7  0...1 0...0)(       n i ii x 0  Adaptivní dynamika NS  Specifikuje počáteční konfiguraci NS a spůsob jakým se mění váhy v síti v čase.  Všechny možné konfigurace tvoří tzv. váhový prostor.  V adaptivním režimu se tedy nastaví váhy všech spojů a po inicializaci konfigurace probíhá vlastní adaptace (jejím cílem je najít konfiguraci, která v aktivním režimu realizuje předepsanou funkci).  Učení s učitelem vs. bez učitele. 8 Síť perceptronů I.  Organizační dynamika specifikuje pevnou architekturu jednovrstvé sítě n-m, tedy síť se skládá z n vstupních neuronů, z nichž každý je vstupem každého z m výstupních neuronů. 9 n n Rxx  ),...,( 1x  m myy 1,0),...,( 1 y ),...,,...,,...,( 0110 mnmm w Síť perceptronů II.  Aktivní dynamika (určuje spůsob výpočtu funkce sítě) – reálné stavy neuronů na vstupní vrstvě se nastaví na vstup a výstupní neurony počítají svůj binární stav, který určuje výstup sítě.  Každý perceptron nejprve vypočítá svůj vnitřní potenciál jako příslušnou afinní kombinaci: 10 mjx n i iji ,...,1 0    Síť perceptronů III.  Koeficienty tvoří konfiguraci sítě.  Stav perceptronu se potom určí z jeho vnitřního potenciálu aplikací aktivační funkce, která má tvar ostré nelinearity: 11 ),...,,...,,...,( 0110 mnmmw     0...1 0...0)(1,0:     R Síť perceptronů IV.  To znamená, že funkce sítě perceptronů závislá na konfiguraci w je daná vztahem: 12    0...1 0...0)(,..,1)( ;1,0:)(      mj Rw jj mn y y Síť perceptronů V.  V Adaptivní dynamice je požadovaná funkce sítě perceptronů daná tréningovou množinou:  Kde je reálný vstup k-tého tréningového vzoru a je odpovídající požadovaný binární výstup.  Cílem adaptace je, aby síť pro každý vstup z tréningové množiny odpovídala v aktivním režimu požadovaným výstupům , tedy aby platilo: 13                 pk dd Rxx m kmkk n knkk kk ,...,1 1,0),...,( ),...,( , 1 1 d x dx kx kx kd kd pkkk ,...,1),(  dxwy Síť perceptronů VI.  Na začátku adaptace v (diskrétním) čase 0 jsou váhy konfigurace nastavené náhodně z intervalu <-1,1>.  V každém časovém kroku je síti předložen jeden vzor z tréningové množiny a síť se ho snaží naučit, tedy adaptuje podle něj svoje váhy.  Pořadí vzorů je dané tzv. tréningovou strategií.  Perceptronové učící pravidlo: 14 mj ni dyx kjk t jki t ji t ji ,..,1 ,...,1 )),(( )1()1()(     xw Síť perceptronů VII.  z intervalu (0,1> je rychlost učení.  je rozdíl mezi skutečným j-tým výstupem sítě pro vstup k-tého vzoru a požadovanou hodnotou odpovídajícího výstupu tohoto vzoru.  Určuje tedy chybu j-tého výstupu sítě pro k-tý tréningový vzor. Pokud je tato chyba nulová, příslušné váhy se neadaptují. V opačném případě může být tato chyba buď 1 nebo -1.  Tato adaptivní dynamika zajistí, aby síť po konečném počtu kroků adaptivního režimu našla konfiguraci, pro kterou bude správně klasifikovat všechny tréningové vzory. 15  kjk t j dy  ),( )1( xw Vícevrstvá síť a Backpropagation  Najznámnější a najpoužívanejší model NS, který se používá přibližně v 80% všech aplikací NS.  Zobecnění sítě perceptronů – tzv. vícevrstvý perceptron.  Algoritmus zpětného šíření chyby – Backpropagation. 16 Organizační a aktivní dynamika Organizační dynamika:  obecně se používá dvou- nebo třívrstvá síť  X – množina n vstupních neurónů  Y – množina m výstupních neurónů  - reálný vnitřní potenciál neuronu j  - reálný stav (výstup) neuronu j  - reálná synaptická váha spoje od neuronu i k nevstupnímu neuronu j  - bias nevstupního neuronu j odpovedající formálnímu jednotkovému vstupu  - množina neuronů, které jsou vstupem neuronu j  - množina neuronů, kterým je neuron j vstupem j 17 jy ji jj h0 10 y j j Organizační a aktivní dynamika Aktivní dynamika:  Výpočet funkce probíhá podle diskrétní aktivní dynamiky.  V čase 0 jsou odpovídající stavy vstupních neuronů nastavené na vstup sítě a ostatní neurony nemají určený stav.  V čase t>0 jsou vypočtené reálné hodnoty vnitřních potenciálů všech neuronů, které už mají určený stav (v čase t se aktualizují neurony v t-té vrstvě):  Dále je stanoven reálný stav neuronu j pomocí diferencovatelné aktivační funkce : 18 mn Rw )1,0(:)( y    ji ijij y )( jj y      e R 1 1 )()1,0(: Organizační a aktivní dynamika  Diferencovatelnost použité funkce a z ní plynoucí diferencovatelnost funkce sítě je podstatná pro učící algoritmus backpropagation.  - parametr strmosti (gain)– v základním modelu je rovný 1, ale obecně může být strmost různá pro každý nevstupní neuron j. Stav neuronu se potom počítá:  Takto se vypočtou výstupy všech neuronů, hlavně výstupních, které určují výstup sítě a tedy i hodnotu sítě funkce pro daný vstup. 19    j e kde jjjj    1 1 )(),(y Adaptivní dynamika  Podobně jako u sítě perceptronů je požadovaná funkce zadaná tréningovou množinou:  Chyba sítě E(w) vzhledem k této tréningové množině je definovaná jako součet parciálních chyb sítě vzhledem k jednotlivým tréningovým vzorům, přičemž závisí na konfiguraci sítě w: kde  Cílem adaptace je minimalizace chyby sítě ve váhovém prostoru – používá se gradientní metoda vyžadující diferencovatelnost chybové funkce.                 pk dd Rxx m kmkk n knkk kk ,...,1 1,0),...,( ),...,( , 1 1 d x dx 20   p k kEE 1 )()( ww   Yj kjkjk dyE 2 )),(( 2 1 )( xww Adaptivní dynamika  V čase 0 jsou váhy konfigurace nastavené náhodně, blízko nuly.  Adaptace probíhá v diskrétních časových krocích, které odpovídají tréningovým cyklům.  Nová konfigurácia v čase t>0 se vypočítá:  Kde změna vah v čase t je úměrná zápornému gradientu chybové funkce v čase t-1:  z (0,1) je rychlost učení 21 )(t w )()1()( t ji t ji t ji    )( )1()(     t ji t ji E w    Adaptivní dynamika 22 Při adaptaci sestrojíme v bodě současné konfigurace tečný vektor – gradient a posuneme se ve směru tohoto vektoru. Strategie zpětného šíření  Potřebujeme vypočítat gradient chybové funkce.  Podle pravidla o deriváci součtu: kde a  Po dosazení 23       p k ji k ji EE 1  ji j j j j k ji k y y EE             i ji j y     )1( 1 1 1 1)1( 2 jjj jj j j yy eee ey jjjjjj jj                      ijjj j k ji k yyy y EE )1(         Strategie zpětného šíření  Pro výpočet se používá strategie zpětného šíření: 1. Je-li j je z Y (výstupní neuron): čož odpovídá chybě výstupního neuronu j pro k-tý tréningový vzor. 2. Pro skrytý neuron uplatníme pravidlo o derivování složené funkce:  Tedy výpočet derivace pro skrytý neuron j jsme převedli na výpočet parciálních derivací u neuronů r, do kterých vede vstup z neuronu j. 24 j k y E   kjj j k dy y E                    jr rjrrr r k jr ji r r r r k j k YXjyy y Ey y E y E     )1( MADALINE I.  Multiple ADALINE  Základním prvkem je neuron ADALINE, který je velmi podobný perceptronu.  Organizační dynamika je totožná jako u sítě perceptronů, ale namísto perceptronu je použitý ADALINE. 25 MADALINE II.  Aktivní dynamika se liší tím, že výstupy sítě můžou být obecně reálné a jednotlivé ADELINE realizují lineární funkci (chybí nelineární aktivační funkce). 26   n i ijij mn mjxyRRw 1 ,...,1:)( y MADALINE III.  V Adaptivním režimu je požadovaná funkce MADALINE zadaná tréningovou posloupností, kde reálné vstupy tréningových vzorov jsou generované náhodně s daným rozdělením pravděpodobnosti a u každého je daný požadovaný výstup :               ,..2,1 ),...,( ),...,( , 1 1 k Rdd Rxx m kmkk n knkk kk d x dx 27 kx kd MADALINE IV.  Chyba j-tého ADALINE vzhledom k tréningové posloupnosti v závislosti na části konfigurace je definovaná:  Je to tedy (podle zákona velkých čísel) střední hodnota poloviny mocniny rozdílu skutečného stavu j-tého ADELINE a odpovedajíceho požadovaného výstupu vzhledem k tréningové posloupnosti. 28 jw mjdy p dy E kjkjj p k kjkjj p jj ,..,1)),(( 2 1 )),(( 2 1 )( 21 2 lim            xwE xw w MADALINE V.  Cílem adaptace je minimalizace chyby .  Vypočítáme gradient této chybové funkce záměnou limity a derivace a s využitím pravidla o derivaci složené funkce:  Vyjádříme jako střední hodnotu:  Dosadíme za funkci yj: 29  jjE w        p k kjkjjki p ji j nidyx p E 1 ,...,0, 1 lim xw      nidyxE E kjkjjki ji j ,...,0,    xw      nixxEdxE E n r kikrjrkjki ji j ,...,0 0       MADALINE VI.  2 možné postupy minimalizace chybové funkce: 1. Položíme parciální derivace rovny 0: Odhadnem stredné hodnoty: Dostanem sústavu: Řešením této soustavy je konfigurace pro j-tý ADALINE, která minimalizuje chybovou funkci. 30 0   ji jE     kikrkjki xxEdxE ;     nidxExxE kjki n r kikrjr ,...,0 0   * jw MADALINE VII.  2 možné postupy minimalizace chybové funkce: 2. Použití gradientní metody s využitím (Widrow-Hoff) pravidla LMS (Last-Mean-Square), podle kterého je změna konfigurace v čase t daná: Tento adaptivní proces konverguje z libovolné počáteční konfigurace ke konfiguraci , která minimalizuje chybové funkce . 31    ni mj dyx kjk t jjki t ji t ji ,...,0 ,...,1 ,)1()1()(     xw * w)0( w   mjE jj ,...,1w 2. Asociativní neuronové sítě, Hebbův zákon, Kohonenovy mapy, LVQ 32 Lineární asociativní síť  Model neuronové sítě, při kterém sa využívá asociativní paměť.  Rozdíl proti klasickým počítačům – na vyhledání položky neslouží adresa v paměti, ale částečná znalost informace.  Příklad: č-b foto připomene barvu vlasů, očí, jméno.  2 typy asociativní paměti:  Autoasociativní – zpřesnění vstupní informace (vybavení si barevného obrazu).  Heteroasociativní – vybavení si združené informace (vybavení si jména). 33 Lineární asociativní síť  Organizační dynamika:  Skládá se z n vstupních neuronů, kde každý je vstupem každého z m výstupních neuronů. 34 Lineární asociativní síť  Aktívní dynamika:  Určuje spůsob výpočtu funkce sítě.  Počítá se jako lineární kombinace vstupů.  Formálně se její funkce zapisuje:  Vyjádření maticovým zápisem: vstupy/výstupy jsou sloupcové vektory konfigurace sítě je daná váhovou maticí W typu m × n, jejíž řádky odpovídají synaptickým váhám vstupů.  Maticový součin: 35 Lineární asociativní síť  Adaptivní dynamika:  V adaptivním režimu je požadovaná funkce zadaná tréningovou množinou  Při autoasociativní paměti – výstup odpovídá vstupu (m=n a xk=dk)  2 možnosti adaptace:  Adaptace podle Hebbova zákona  Pseudohebbovská adaptace 36 Lineární asociativní síť  Adaptace podle Hebbova zákona:  Vysvětlená adaptivní dynamika pro případ heteroasociativní paměti.  Tvrdí, že změna synaptické váhy spoje mezi dvěma neurony je úměrná jejich souhlasné aktivitě, tedy součinu jejich stavů.  Na začátku adaptace (t=0) jsou všechny váhy konfigurace nulové, tedy .  V čase t=1,...,p je síti předložený k-tý tréningový vzor, váhy se adaptují:  Adaptace končí po p krocích – všechny tréningové vzory jsou naučené.  Výsledná konfigurace: 37 Lineární asociativní síť  Adaptace podle Hebbova zákona:  Vyjádření pomocí matic: kde T je transpozice matice, 0 je nulová matice a váhová matice W(k) určuje konfiguraci sítě v čase t=k.  Výsledná konfigurace: kde sloupce matic X, resp. D jsou vstupy xk, resp. požadované výstupy dk tréningových vzorů.  V případě autoasociativní paměti (X=D) 38 Lineární asociativní síť  Adaptace podle Hebbova zákona:  Předpokládáme, že množina vstupních vektorů je ortonormální – vzájemně kolmé jednotkové vektory (vstupy se tedy dostatečně liší a jsou porovnatelné).  Síť má schopnost reprodukce – ze vstupu xr dostaneme příslušný výstup dr .  Síť by pro vstup xr+δ, který je blízko xr měla dát požadovaný výstup dr .  Odpovídající chyba je norma rozdílu skutečného výstupu pro vstup xr+δ a požadovaného výstupu dr 39 Lineární asociativní síť  Pseudohebbovská adaptace:  Zeslabuje předpoklad reprodukce na ortonormalitu vstupů tréningových vzorů.  Předpokládejme LN množinu tréningových vzorů {x1,...,xp} – tvoří bázi vekt. prostoru Vp .  Vytvoříme z nich ortogonální bázi {z1,...,zp} Vp .  V čase t=0 je .  Po předložení k-tého tréningového vzoru určíme , .  Výsledná váhová matice bude kde .  X+ je pseudoinverzní matice k matici X. 40 Lineární asociativní síť  Pseudohebbovská adaptace – geometrický význam:  W(k-1)xk – ortogonální projekce xk do Vk-1, kt. je určený bází {x1,...,xp}, resp. {z1,...,zp}.  Chceme oveřit, že zk je kolmý na všechny zr, zkzr=0.  Dosadíme za .  Dostaneme .  Pokud x leží ve Vp, pak splývá se svojí ortogonální projekcí Wx=x, speciálně pro vstupní bázické vektory {x1,...,xp} dostaneme  Tedy lineární autoasociativní síť vzniknuvší pseudohebbovskou adaptací má schopnost reprodukce. 41 Lineární asociativní síť  Pseudohebbovská adaptace – zobecnění pro heteroasociativní paměť:  Rekurzivní zápis výpočtu váhové matice v případě heteroasociativní paměti určuje Grevilleova věta: kde zk je stejný sloupcový vektor jako v případě autoasociativní paměti.  Pomocí pseudoinverze dostaneme , kde X(k-1) je matice n×(k-1) – sloupce jsou vstupní vektory prvních k-1 tréningových vzorů.  Pseudohebbovská adaptivní dynamika zaručuje schopnost heteroasociativní sítě reprodukovat tréningové vzory: kde [X]r je r-tý sloupec matice X. 42 Hopfieldova síť  Používá se jako autoasociativní paměť.  Organizační dynamika:  Cyklická síť s n neurony.  Každý je spojený s každým.  Všechny neurony jsou vstupní a zároveň výstupní.  Dva opačně orientované spoje se dají chápat jako jeden neorientovaný. 43 Hopfieldova síť  Adaptivní dynamika:  Řídí se hebbovým zákonem.  Funkce sítě je specifikovaná tréningovou množinou:  Tréningové vzory nejsou uložené přímo, ale jsou reprezentované pomocí vztahů mezi stavy neuronů.  Probíhá v p diskrétních krocích, kde jsou předkládány tréningové vzory, podle kterých se adaptují synaptické váhy a výsledná konfigurace se zapisuje: 44 Hopfieldova síť  Aktivní dynamika – pro případ sekvenčního synchronního výpočtu:  V čase 0 jsou stavy nastavené na vstup sítě x=(x1,...,xn), t.j.  V čase t>0 je aktualizovaný neuron j, vybraný např. systematicky: t=τn+j, kde τ je makroskopický čas – počet period, v kterých jsou aktualizované všechny neurony.  Celočíselný potenciál neuronu j:  Znamínko určuje nový bipolární stav:  Výpočet končí v čase t*, kdy se síť nachází v tzv. stabilním stavu.  Stavy výstupních neuronů určují výstup sítě y=(y1,...,yn), kde 45 Samoorganizace  Modely neuronových sítí, které využívají soutěžní strategii učení.  Výstupní neurony soutěží, který bude aktivní – na rozdíl od Hebbovských sítí je v určitém čase aktivní jen jeden neuron.  Nejdůležitější/nejznámější architektura soutěžní strategie je Kohonennova samoorganizační mapa. 46 Vektorová kvantizace (VQ)  Úlohou je přiblížit hustotu pravděpodobnosti reálných vstupních vektorů x pomocí konečného počtu reprezentantů wi.  Jedním ze způsobů nalezení reprezentantů je minimalizovat chybu VQ definovanou jako: kde .  Pokud hustotu neznáme a problém je zadaný konečnou tréningovou množinou vzorů, chybu vypočítáme jako  Index c funkčně závisí na vzorech x a reprezentantech w. 47 Vektorová kvantizace (VQ)  Lloydův algoritmus:  Nechť je problém zadaný tréningovou množinou a parametrem h, který určuje počet reprezentantů.  Projdeme tréningovou množinu a ke každému vstupu x(t) určíme příslušné wc, pro každé wj zjistíme vypočítáme a wj nahradíme hodnotou tj. 48 Kohonennovo učení  Lloydův algoritmus je nevýhodný v tom, že ke změnám reprezentantů dochází až po průchodu celou tréningovou množinou.  Proto byla vyvinutá jeho on-line varianta – jednoduchá samoorganizační síť, jejíž algoritmus se nazývá Kohonennovo učení. 49 Kohonennovo učení  Organizační dynamika:  Dvojvrstvá síť s úplným propojením jednotek mezi vrstvami.  Vstupní vrstva – n neuronů – slouží k distribuci vstupních hodnot x.  Výstupní vrstva – jednotky, které odhadují hustotu pravděpodobnosti vstupů.  Váhy wj příslušné dané výstupní jednotce j určují její polohu ve výstupním prostoru. 50 Kohonennovo učení  Aktivní dynamika:  Vstupy – reálná čísla, výstupy – hodnoty 0, 1, přičemž jen jeden neuron je aktivní.  Výstup neuronu v závislosti na jeho vzdálenosti od vstupního vektoru se počítá  Popsaný princip – „vítěz bere vše“ – je to jeden z mechanizmů pro realizaci tzv. laterální inhibice.  Každý neuron se snaží oslabit ostatní silou úměrnou jeho potenciálu, který je tím větší, čím je neuron blíže vstupu.  Výstupní neuron s největším potenciálem zůstane aktivní. 51 Kohonennovo učení  Adaptivní dynamika:  Procházíme celou tréningovou množinou.  Po předložení tréningového vzoru proběhne mezi jednotkami sítě soutěž.  Vítěz změní svoje váhy podle vzorce:  Reálný parametr 0<θ≤1 určuje míru změny vah, na začátku je těsně pod hodnotou 1 a postupně se zmenšuje.  Geometrický význam:  Vítězný neuron c posune svůj váhový vektor wc o určitou vzdálenost směrem k aktuálnímu vstupu. 52 Kohonennovy samoorganizační mapy  Organizační dynamika:  Podobná jednoduché samoorganizační síti.  Výstupní jednotky jsou navíc uspořádané do nějaké struktury, např. dvojrozměrná mřížka, jednorozměrná řada jednotek,…  Struktura určuje, které jednotky v síti navzájem sousedí.  Okolí neuronu c velikosti s je množina všech neuronů, jejichž vzdálenost od c je ≤ s  Měření vzdálenosti neuronů je závislé na topologické struktuře vstupních neuronů. 53 Kohonennovy samoorganizační mapy  Aktivní dynamika:  Stejný způsob práce sítě, jako u předchádzejícího modelu.  Princip „vítěz bere vše“, jen jeden aktivní neuron.  Vstupy – reálná čísla, výstupy – 0,1.  Pokud dáme síti vstupní vektor, jednotky soutěží, kdo mu je nejblíže…tato jednotka má výstupní hodnotu rovnu 1. 54 Kohonennovy samoorganizační mapy  Adaptivní dynamika:  Bere do úvahy uspořádání neuronů.  Upravují se váhy nejen vítězné jednotky, ale i jednotkám v okolí, tedy s vítězným neuronem se posouvají i jeho sousedi v síti.  Na začátku bývá okolí velké, na konci zahrnuje jen samotného vítěze.  Funkce, která pro neurony z okolí neuronu c dává hodnotu θ, pro ostatní 0.  Adaptaci vah zapisujeme:  Obecnější definování hc(j) pomocí Gaussovy funkce, aby přechod mezi nulovými a nenulovými hodnotami byl spojitý  Parametr h0 – maximální míra posunu.  V každém kroku je třeba projít a změnit všechny váhové vektory v síti. 55 LVQ (learning vector quantizations)  Nyní se budeme zaobírat tím, jak se dá Kohonennova síť použít pro řešení problémů klasifikace dat do kategorií.  3 algoritmy učící vektorové kvantizace – slouží na doučení sítě.  Uvažujme data {(x(t), d(t));t=1,...,k}, kde x(t) je z R a d(t) je z {C1,...,Cq}, každý vstupní vektor x(t) má přiřazenou jednu z konečného počtu kategorií Ck.  Učení má 3 fáze:  Učení bez učitele, jako v předcházejícím případě.  Označení výstupních neuronů kategoriemi.  Doučení sítě jedním z algoritmů LVQ. 56 LVQ (learning vector quantizations)  Postup učení:  Použijeme standardní učící algoritmus Kohonennovy sítě – rozmístíme neurony do vstupného prostoru – musí aproximovat hustotu pravděpodobnosti vzorů.  Využijeme výstupy d(t) z tréningové množiny – u každého tréningového vzoru zjistíme, který neuron je mu nejblíže, zapamatujeme si, do které kategorie patřil.  Po průchodu tréningovou množinou – každý výstupní neuron má tabulku četností jednotlivých kategorií – reprezentuje neuron.  Každému neuronu přiřadíme kategorii, kterou reprezentoval nejčastěji – označíme vj.  Výsledek – rozdělení neuronů do skupin, které odpovídají jednotlivým kategoriím.  Použijeme jeden z třech algoritmů – pro doladění vah výstupních neuronů. 57 LVQ (learning vector quantizations)  LVQ1:  Snaží se posílit správnou klasifikaci posunutím neuronu k danému vstupu, resp. napravit nesprávnou klasifikaci odsunutím neuronu od daného vstupu.  Posunutí se týká jen jednoho neuronu – ten, který „zvítězil“.  Posunutí se děje o malou část vzdálenosti neuronu od vstupního vzoru. 58 LVQ (learning vector quantizations)  LVQ1 – přesnější algoritmus:  Předkládáme síti všechny tréningové vzory.  Každému vzoru určíme nejbližší neuron:  Provedeme úpravy vah tohoto neuronu, přičemž ostatní neurony zůstávají beze změny:  Parametr α by měl mít počáteční hodnotu 0,01 – 0,02 a během cca 100tis. iterací by měl být roven nule.  Hranice vytvořená mezi třídami pomocí LVQ1 je aproximace Bayesovské rozhodovací hranice – určuje, do které třídy bod připadne podle jeho pozice vzhledem k místu, kde se střetávají distribuce vzorů daných dvou tříd.  LVQ1 posouvá vzory směrem od rozhodovací hranice, přičemž rozhodovací hranice se nachází uprostřed spojnice mezi dvěma neurony pocházejícími z různých tříd. 59 LVQ (learning vector quantizations)  LVQ2:  Snaží se upravit předcházející algoritmus tak, aby posouval rozhodovací hranici směrem k Bayesovské hranici.  V jednom kroku posune vždy dva neurony. 60 LVQ (learning vector quantizations)  LVQ2 - podmínky pro určení 2 neuronů:  Nechť máme vzor x(t), uvažujeme případ, kdy pro 2 neurony wi, wj nejblíže tomuto vzoru platí, že jeden klasifikujeme dobře a druhý špatně, přičemž nepřihlížíme k tomu, který je nejblíže.  Vzor x(t) nesmí ležet příliš blízko ani jednoho neuronu, vzor se má nacházet v okně/okolí nadroviny v středu spojnice wi, wj, přesněji vzor padne do okna relativní šířky q, pokud platí kde  Hodnota q je mezi 0,1 a 0,3 – snaha o co nejužší okno (přesné umístění hranice) a dostatečnou šířku (zachycení statisticky významných dat). 61 LVQ (learning vector quantizations)  LVQ2 - postup:  Předpokládejme např., že x(t) a wj patří do stejné kategorie … provedeme následující změny vah:  Algoritmus nejprve zlepšuje pozice rozhodovací hranice tím, že ji posune směrem k Bayesovské hranici, po jistém počtu kroků se však jednotky od této hranice začínají vzdalovat.  LVQ2 se osvědčil pro cca 10000 iterakcí. 62 LVQ (learning vector quantizations)  LVQ3:  Doplněný o další pravidlo, kterým se zajistí, že správně klasifikující neurony se budou pohybovat směrem k předkládanému tréningovému vzoru.  Krok vypadá následovně: kde i, j je pár výstupních neuronů, které jsou nejblíže k vzoru x(t), vj=d(t), vi≠d(t) a x(t) patří do okna relativní šířky q.  Platí: kde r=i, nebo r=j, a vi=vj=d(t).  Hodnota ε závisí na šířce okna, měla by být v rozmezí 0,1 – 0,5, je konstantní v čase.  Pro parametr α platí: 0< α<1. 63 3. RBF sítě, Modulární NN, Hammingova síť 64 65 Neuronové sítě typu RBF 66 • RBF síť má 3 vrstvy neuronů –vstupní, skrytou a výstupní. • Vstupní vrstva neuronů má za úkol pouze zprostředkovávat přenos hodnot ze vstupů sítě do neuronů skryté vrstvy. • Skrytá vrstva je tvořena RBF neurony, které realizují jednotlivé radiální funkce. • Výstupní vrstvu tvoří perceptronovské neurony. 67 68 69 70 71 72 73 Přechodová funkce RBF jednotky 74 • První výraz definuje vnitřní potenciál: vnitřní potenciál je vzdálenost vstupního vektoru x od středu c (příp. dělena šířkou b, která se také nazývá sféra vlivu neuronu). (určuje, zda je vzdálenost vektorů x a c větší nebo menší než šířka b). • Druhý výraz definuje výstupní (aktivační) funkci: jejím argumentem je vnitřní potenciál a výsledkem výstupní hodnota. )(,     y b cx 75 • Každý spoj mezi i-tou vstupní jednotkou a j-tou jednotkou ve skryté vrstvě má váhu cij, kde j=1,…,h (i-tá souřadnice středu cj u j-té RBF jednotky) • Výstup j-té RBF jednotky je spojen s výstupní vrstvou pomocí synapse s vahou wjs. • Výstupní jednotky počítají vážený součet svých vstupů. • RBF síť provádí dvě transformace: první je nelineární transformace realizována RBF jednotkami, druhá je lineární transformace realizována výstupními neurony sítě a vede z prostoru skrytých jednotek do výstupního prostoru. Výstupní vrstva sítě 76   n i ii ywy 1 * • Obsahuje neurony perceptronového typu, které váženě sčítají příspěvky od dílčích RBF neuronů. • Výsledky tohoto součtu jdou na výstupy Y sítě. • Výstupní neuron si pamatuje váhy w, kterými násobí své vstupy (vstupy jsou výstupy RBF neuronů y* propojených s výstupním neuronem). 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 4. Vyhodnocení kvality prediktivního modelu 92 93  Je nemožné využívat predikční modely efektivně bez znalosti jejich kvality/diskriminační síly.  Většinou je k dispozici celá řada modelů a je třeba vybrat jen jeden – ten nejlepší. Úvod 94  Uvažujeme dva základní skupiny indexů kvality. První je založena na distribuční funkci. Mezi nejpoužívanější indexy patří  Druhá skupina indexů je založena na pravděpodobnostní hustotě. Mezi nejznámější indexy patří  Kolmogorovova-Smirnovova statistika (KS)  Giniho index  C-statistika  Lift.  Střední diference (Mahalanobisova vzdálenost)  Informační statistika/hodnota (IVal). Měření kvality modelu 95     .,0 ,1 jinak dobrýjeklient DK  1 1 )( 1 .   Ki n i GOODn DasI n aF  0 1 )( 1 .   Ki m i BADm DasI m aF  HLa , asI N aF i N i ALLN  1 . 1 )(  Empirické distribuční funkce:       jinak platíA AI 0 1 mn m pB  , mn n pG   Počet dobrých klientů: Počet špatných klientů: Proporce dobrých/špatných klientů: n m  Kolmogorovova-Smirnovova statistika (KS)   )()(max ,, , aFaFKS GOODnBADm HLa   Indexy založené na distribuční funkci - KS 96  Lorenzova křivka (LC)  Giniho index A BA A Gini 2    .,),( )( . . HLaaFy aFx GOODn BADm           mn k kGOODnGOODnkBADmkBADm FFFFGini k 2 1..1..1 kBADmF . kGOODnF .kde ( ) je k-tá hodnota vektoru empirické distribuční funkce špatných (dobrých) klientů Lorenzova křivka 97 kde , jsou bivariantní, stochasticky nezávislé, náhodné vektory nad touž datovou populací, a značí střední hodnotu. V našem případě je Y=1 jestliže je klient dobrý a Y=0 jestliže je klient špatný. Proměnná X reprezentuje skóre. kde je Kendallovo definované jako  Giniho index je speciální případ Somersova D (Somers (1962)), které je pořadovou asociační mírou definovanou jako XX XY YXD    XY a     2121 YYsignXXsignEXY   11,YX  22 ,YX E Thomas (2009) uvádí, že Somersovo D hodnotící výkonnost daného credit scoringového modelu lze vypočítat pomocí mn bgbg D ij j i i ij j i i S      kde gi (bj) je počet dobrých (špatných) klientů v i-tém intervalu skóre. Somersovo D, Kendalovo  98  Dále platí, že DS může být vyjádřeno pomocí MannWhitneyho U-statistiky.  Seřaď datový vzorek ve vzestupném pořadí podle skóre a sečti pořadí dobrých klientů ve vzniklé posloupnosti. Označme tento součet jako RG. Potom 12    mn U DS  1 2 1  nnRU G Somersovo D, Mann-Whitney U 99  Konkordantní pár (X1,Y1), (X2,Y2):  Diskordantní pár:  V našem případě X představuje skóre a Y ukazatel dobrého klienta (DK). Protože dobrý klient má hodnotu Y=1 a špatný Y=0, je zřejmé, že u konkordantního páru má dobrý klient vyšší hodnotu skóre než klient špatný. )sgn()sgn( 1212 YYXX  )sgn()sgn( 1212 YYXX  Konkordantní, diskordantní páry 100  Uvažujme tedy dva náhodně vybrané klienty, přičemž jeden je dobrý (Y1=1) a druhý špatný (Y2=0), skóre prvního označme s1, druhého s2. Pak  Konkordantní pár (Concordant): s1>s2  Diskordantní pár (Discordant): s1 Lift50% = 1.48 < Lift20% = 1.90 Lift50% = 1.64 SC 2 je lepší, pokud je předpokládaná míra zamítaní (reject rate) přibližně 50%. SC 1 je významně lepší, pokud je předpokládaný reject rate přibližně 20%. Lift vs. Gini a KS 108 ],[, )( )( )( . . HLa aF aF aLift ALLN BADm  ]1,0()),(( 1 ))(( ))(( )( 1 ..1 .. 1 ..     qqFF qqFF qFF qQLift ALLNBADm ALLNALLN ALLNBADm })(],,[min{)( . 1 . qaFHLaqF ALLNALLN  ))1.0((10)1.0( 1 ..%10   ALLNBADm FFQLiftQLift Lift, QLift  Lift can be expressed and computed by formula:  In practice, Lift is computed corresponding to 10%, 20%, . . . , 100% of clients with the worst score. Hence we define:  Typical value of q is 0.1. Then we have 109 Lift and QLift for ideal model 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 1 2 3 4 5 6 7 8 9 10 QLiftvalue FN.ALL 1/pB pB  It is natural to ask how look Lift and QLift in case of ideal model. Hence we derived following formulas.  QLift for ideal model:  Lift for ideal model: We can see that the upper limit of Lift and QLift is equal to .Bp 1 110 Lift Ratio (LR)  Once we know form of QLift for ideal model, we can define Lift Ratio as analogy to Gini index. 0 0.2 0.4 0.6 0.8 1 0 1 2 3 4 5 6 7 8 9 10 F N.ALLQLiftvalue 1/p B p B A B Actual model Ideal model Random model  It is obvious that it is global measure of model's quality and that it takes values from 0 to 1. Value 0 corresponds to random model, value 1 match to ideal model. Meaning of this index is quite simple. The higher, the better. Important feature is that Lift Ratio allows us to fairly compare two models developed on different data samples, which is not possible with Lift.  Since Lift Ratio compares areas under Lift function for actual and ideal models, next concept is focused on comparison of Lift functions themselves. We define Relative Lift function by 0 0.2 0.4 0.6 0.8 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 F N.ALL RLIFT Actual model Ideal model Random model  In connection to RLift we define Integrated Relative Lift (IRL):  It takes values from , for random model, to 1, for ideal model. Following simulation study shows interesting connection to c-statistics. 2 5.0 2 Bp  Rlift, IRL 111 Příklad  We consider two scoring models with score distribution given in the table below.  We consider standard meaning of scores, i.e. higher score band means better clients (the highest probability of default have clients with the lowest scores, i.e. clients in score band 1).  Gini indexes are equal for both models.  From the Lorenz curves is evident, that the first model is stronger for higher score bands and the second one is better for lower score bands.  The same we can read from values of QLift. score band # clients q Scoring Model 1 Scoring Model 2 # bad clients # cumul. bad clients # cumul. bad rate QLift # bad clients # cumul. bad clients # cumul. bad rate QLift 1 100 0.1 20 20 20.0% 2.00 35 35 35.0% 3.50 2 100 0.2 18 38 19.0% 1.90 16 51 25.5% 2.55 3 100 0.3 17 55 18.3% 1.83 8 59 19.7% 1.97 4 100 0.4 15 70 17.5% 1.75 8 67 16.8% 1.68 5 100 0.5 12 82 16.4% 1.64 7 74 14.8% 1.48 6 100 0.6 6 88 14.7% 1.47 6 80 13.3% 1.33 7 100 0.7 4 92 13.1% 1.31 6 86 12.3% 1.23 8 100 0.8 3 95 11.9% 1.19 5 91 11.4% 1.14 9 100 0.9 3 98 10.9% 1.09 5 96 10.7% 1.07 10 100 1.0 2 100 10.0% 1.00 4 100 10.0% 1.00 All 1000 100 100 Gini = 0.42 Gini = 0.42 112  Since Qlift is not defined for q=0, we extrapolated the value by )3.0()2.0(3)1.0(3)0( QLiftQLiftQLiftQLift  According to both Qlift and Rlift curves we can state that:  If expected reject rate is up to 40%, then model 2 is better.  If expected reject rate is more than 40%, then model 1 is better. 113 Příklad scoring model 1 scoring model 2 GINI 0.420 0.420 QLift(0.1) 2.000 3.500 LR 0.242 0.372 IRL 0.699 0.713  Now, we consider indexes LR and IRL: A B BA A LR   Using LR and IRL we can state that model 2 is better than model 1 although their Gini coefficients are equal. 114 Příklad 115  Střední diference (Mahalanobis distance): 2 1 22            mn mSnS S bg S MM D bg   kde S je společná směrodatná odchylka: gM bM gS bS, jsou příslušné směrodatné odchylky. , jsou střední hodnoty dobrých (špatných) klientů Střední diference 116 , jsou směrodatné odchylky skóre dobrých (špatných) klientů  Předpokládejme, že skóre dobrých a špatných klientů je normálně rozloženo, tj. jejich pravděpodobnostní hustoty mají tvar  Odhady parametrů a :  Společná směrodatná odchylka:  Odhady střední hodnoty a směrodatné odchylky skóre všech klientů :   2 2 2 2 1 )( g gx g GOOD exf         2 2 2 2 1 )( b bx b BAD exf       gbb  ,, b gM bM gS bS , jsou aritmetické průměty skóre dobrých (špatných) klientů 2 1 22            mn mSnS S bg mn mMnM MM bg ALL    ALLALL  ,       2 1 2222            mn MMmMMnmSnS S bgbg ALL Normálně rozložené skóre 117 1 2 2 22                     DDD KS Kde je distribuční funkce standardizovaného normálního rozložení, je distribuční funkce s parametry , a je standardizovaná kvantilová funkce.   bg D             Dpq q Lift G ALL q 11   1 2 2        D Gini S MM D bg    Předpokládejme, že směrodatné odchylky obou skóre jsou rovny hodnotě , pak:   )(1  )(2 ,    2            Dpq S S q Lift G ALL q 11 Normálně rozložené skóre 118  Obecně, tj. bez předpokladu rovnosti směrodatných odchylek skóre:              cbDa b D b a cbDa b D b a KS bggb 2 1 2 1 22 *2**2*  ,22 gba   22 * bg bg D      22 * bg bg SS MM D    kde        b g c   ln,22 gbb                                                   b g gbgbb gb g gb gb b g gbgbg gb b gb gb S S SSDSSS SS DS SS SS S S SSDSSS SS DS SS SS KS ln2 1 ln2 1 22*22 22 * 22 22 22*22 22 * 22 22 2 2 Normálně rozložené skóre 119   12 *  DGini                b bALLALL ALLALLq q q q q Lift bb    1 1 , 11 2            b bALL q S MMqS q Lift 1 1  Obecně, tj. bez předpokladu rovnosti směrodatných odchylek skóre: Normálně rozložené skóre 120  KS i Gini reagují velmi silně na změnu , ale zůstávají téměř beze změny ve směru .  Gini , 0b 12 b KS: , 0b 12 b • Gini > KS g 2 g Normálně rozložené skóre 121  Lift10%: ,0b 12 b  V případě indexu Lift10% je evidentní silná závislost na a významně vyšší závislost na než v případě KS a Gini. g 2 g Normálně rozložené skóre 122 ROC (Receiver operating characteristic ) 123 ROC –TPR, FPR TPR = TP / P = TP / (TP + FN) FPR = FP / N = FP / (FP + TN) 124 ROC 125 ROC - ACC A B C C' TPR = 0.63 TPR = 0.77 TPR = 0.24 TPR = 0.88 FPR = 0.28 FPR = 0.77 FPR = 0.88 FPR = 0.24 ACC = 0.68 ACC = 0.50 ACC = 0.18 ACC = 0.82 TP=63 FP=28 91 FN=37 TN=72 109 100 100 200 TP=77 FP=77 154 FN=23 TN=23 46 100 100 200 TP=24 FP=88 112 FN=76 TN=12 88 100 100 200 TP=88 FP=24 112 FN=12 TN=76 88 100 100 200 Accuracy: ACC = (TP + TN) / (P + N) 126 ROC – AUC, Gini AUC (area under curve, neboli plocha pod ROC křivkou) je rovna pravděpodobnosti, že daný model ohodnotí náhodně vybraného dobrého klienta vyšším skóre než náhodně vybraného špatného klienta. Dá se ukázat, že plocha pod ROC křivkou se dá vyjádřit pomocí Mann-Whitneymu U, které testuje rozdíl mediánů mezi dvěma skupinami spojitých skóre. AUC se dá vyjádřit i pomocí Giniho koeficientu pomocí vzorce Gini + 1 = 2xAUC 127 Boxplot Histogram Další evaluační grafy 128 Další evaluační grafy PD - absolutně PD - kumulativně SC1 SC2 SC1 SC2 V tomto případě máme na x-ové ose proporci všech klientů (FALL) a na y-vé ose proporci špatných klientů (FBAD). Ideální model je tentokrát reprezentován lomenou čarou z bodu [0, 0] přes [pB, 1] do bodu [1, 1]. Výhoda tohoto obrázku je ta, že je možné odečíst proporci zamítnutých špatných klientů vs. celková proporce zamítnutých klientů. Např. vidíme, že pokud chceme zamítnout 70% špatných klientů, musíme zamítat přibližně 40% všech žadatelů. CAP (Lift chart): Gini  )p-0.5(1 diagonálouaCAPmeziPlocha diagonálouamodeluideálníhoCAPmeziPlocha diagonálouaCAPmeziPlocha AR B AR (Accuracy Ratio) Další evaluační grafy 129 130 Postupy evaluace  evaluace na učících datech Evaluace na učících datech použitých k učícímu procesu není ke zjištění kvality modelu vhodná a má nízkou vypovídací schopnost, protože často může dojít k přeučení modelu. Odhad predikční kvality modelu na učících datech se nazývá resubstituční nebo interní odhad. Odhady ukazatelů kvality modelů provedených na učících datech jsou nadhodnocené, proto se místo nich používají testovací data, která se v rámci přípravy dat pro tyto účely vyčlení.  evaluace na testovacích datech Evaluace na testovacích datech již má patřičnou vypovídací schopnost, jelikož tato data nebyla použita k sestavení modelu. Na testovací data jsou kladeny určité požadavky. Soubor testovacích dat by měl obsahovat dostatečné množství dat a měl by reprezentovat či vystihovat charakteristiky učících dat. Empiricky doporučený poměr učících a testovacích dat je 75%, resp. 25% případů. Zajištění patřičné reprezentativnosti je realizováno pomocí náhodného stratifikovaného výběru. Postupy evaluace 131  křížové ověřování (cross-validation) V případě nedostatečného počtu pozorování, kdy rozdělení datového souboru na učící a testovací data za účelem vyhodnocení modelu není možné, je vhodné použít metodu křížového ověřování. Výhodou této metody na rozdíl od dělení datového souboru je, že každý případ z dat je použit k sestavení modelu a každý případ je alespoň jednou použit k testování. Postup je následující: • Soubor dat je náhodně rozdělen do n disjunktních podmnožin tak, že každá podmnožina obsahuje přibližně stejný počet záznamů. Výběry jsou stratifikovány podle tříd (příslušnosti k určité třídě), aby bylo zajištěno, že podíly jednotlivých tříd podmnožin jsou zhruba stejné jako v celém souboru. • Z těchto n disjunktních podmnožin se vyčlení n-1 podmnožin pro sestavení modelu (konstrukční podmnožina) a zbývající podmnožina (validační podmnožina) je použita k jeho vyhodnocení. Model je tedy evaluován na podmnožině dat, ze kterých nebyl sestaven a na této množině dat je odhadována jeho predikční kvalita. • Celý postup se zopakuje n-krát a dílčí odhady ukazatelů kvality se zprůměrňují. Velikost validační podmnožiny lze přibližně stanovit jako poměr počtu případů ku počtu validačních podmnožin. Postupy evaluace 132  bootstrap metoda Metoda bootstrap zkoumá charakteristiky jednotlivých resamplovaných vzorků, které byly pořízeny z empirického výběru. Pokud původní výběr osahuje m prvků, tak každý má naději objevit se v resamplovaném výběru. Při úplném resamplování o velikosti vzorku n jsou uvažovány všechny možné výběry a existuje tedy m n možných výběrů. Úplné resamplování je teoreticky proveditelné, ale vyžádalo by si mnoho času. Alternativou je simulace Monte Carlo, pomocí níž se aproximuje úplné resamplování tak, že se provede B náhodných výběrů (obvykle se volí 500 – 10000 výběrů) s tím, že každý prvek je vždy nahrazen (vrácen zpět do osudí). Jsou-li dána data X={X1, …, Xn) a je-li požadován odhad parametru θ, provede se z původních dat B výběrů a pro každý výběr je spočítán odhad parametru θ . Bootstrap odhad parametru je určen jako průměr dílčích odhadů. V případě evaluace modelů bude parametrem θ zvolený ukazatel predikční kvality.  jackknife Tato metoda je založena na sekvenční strategii odebírání a vracení prvků do výběru o velikosti n. Pro datový soubor, který obsahuje n prvků, procedura generuje n vzorků s počtem prvků n-1. Pro každý zmenšený výběr o velikosti n-1 je odhadnuta hodnota parametru. Dílčí odhady se následně zprůměrují podobně jako u metody bootstrap. 133 Postupy evaluace 5. Úvod do teorie portfolia $- $2,000 $4,000 $6,000 $8,000 $10,000 $12,000 $14,000 Apr-95 Jul-95 Oct-95 Jan-96 Apr-96 Jul-96 Oct-96 Jan-97 Apr-97 Jul-97 Oct-97 Jan-98 Apr-98 Jul-98 Oct-98 Jan-99 Apr-99 Jul-99 Oct-99 Month ValueofInvestment AAPL IBM MSFT SP500 T-Bill(2) T-Bill S&P500 MSFT IBM AAPL Naive Portfolio 0.0% 0.5% 1.0% 1.5% 2.0% 2.5% 3.0% 3.5% 4.0% 4.5% 5.0% 0.0% 2.0% 4.0% 6.0% 8.0% 10.0% 12.0% 14.0% 16.0% Standard Deviation AverageReturn 134 Stručná historie teorie portfolia  J. Hickse: Application of Mathematical Methods to the Theory of Risk (1934) – investoři si všímají statistického rozdělení pravděpodobnosti dosažení výnosu  Harry Markowitz: Portfolio Selection, Journal of Finance, březen 1952 – je považován za zakladatele moderní teorie portfolia 135 Harry Markowitz  jako první se zabývá vztahem mezi výnosností a rizikem  konstruuje efektivní hranici portfolií, která znázorňuje body s maximálním výnosem pro danou úroveň rizika  tím pokládá základy pro teorii portfolia Odkaz na přednášku k příležitosti udělení Nobelovy ceny: http://nobelprize.org/economics/laureates/1990/markowitz-lecture.pdf 136 Harry Markowitz  Markowitz předpokládá, že investor má na počátku období k dispozici určité množství kapitálu, který bude investovat na předem určené časové období, na jehož konci pak investor nakoupené a držené cenné papíry prodá a zisk buď použije pro vlastní potřebu nebo jej opět reinvestuje  na investování se Markowitz dívá jako na periodickou aktivitu, při které si investor vybírá mezi investicemi s různými očekávanými výnosy a s různou mírou jistoty, že očekávaného výnosu bude dosaženo  podle Markowitze sleduje investor dva protichůdné cíle a to maximalizaci výnosu na jedné straně a minimalizaci rizika na straně druhé 137 Další vývoj (1)  model CAPM (model oceňování kapitálových aktiv) – základy položeny článkem W. F. Sharpe: Capital Asset Prices: A Theory of Market Equilibrium under Conditions of Risk (1964) – dochází k rozšíření portfolia rizikových aktiv o bezrizikovou investici  v návaznosti na možnost bezrizikového investování byla vytvořena přímka CML  objevuje se také přímka SML 138 Další vývoj (2)  důležitou etapou vývoje teorie portfolia je APT (arbitrážní teorie oceňování)  není založena na myšlence, že všichni investoři pohlížejí na portfolio ve smyslu očekávaného výnosu a rizika dosažení tohoto výnosu  je postaven na myšlence, že investoři dávají přednost vyšší úrovni bohatství před nižší 139 Základní pojmy  portfolio – soubor různých investic (peněžní hotovost, cenné papíry včetně derivátů, nemovitosti atd.), které investor vytváří se záměrem minimalizovat riziko spojené s investováním a současně maximalizovat výnos z těchto investic  teorie portfolia – jedná se o mikro-ekonomickou disciplínu, která zkoumá, jaké kombinace aktiv je vhodné držet, aby takto vytvořené portfolio mělo předem určené vlastnosti. 140 Aktiva v teorii portfolia  portfolio je obvykle definováno jako skupina aktiv  hmotná, nehmotná a finanční – dále budeme uvažovat pouze aktiva finanční, a to cenné papíry  výnos(nost), riziko a likvidita – magický trojúhelník investování 141 Finanční aktiva  finanční aktiva dělíme na  hotovost a depozita  cenné papíry – majetkové, dluhové, nárokové  existují i jiné pohledy na členění aktiv  dále nás budou zajímat především akcie 142 Výnosnost aktiv  jedním z hlavních ukazatelů  kde je cena akcie v čase t-k (počátek sledovaného období), je cena akcie v čase t (konec období).  D jsou inkasované dividendy.  pro k = 1 se jedná o jednodenní výnosnost kt ktt P DPP r     tP ktP 143 Očekávaný výnos a riziko  Výnos akcie je náhodná veličina  Očekávaný výnos portfolia:  Riziko portfolia: ri…očekávaný výnos i-té akcie (střední hodnota) xi…váhy investic do akcií v rámci portfolia I…počet akcií v portfoliu Vij…varianční matice výnosů akcií 144 Indiferenční křivky, funkce užitečnosti Očekávaný výnos E(r) Riziko, tj. směrodatná odchylka σp Roustoucí užitečnost   pp p rUE ,max Snažíme se najít takové portfolio, aby byla maximalizována hodnota kde U je funkce užitečnosti popisující vztah investora k riziku (a výnosu). 145 Dominance 1 2 3 4 Očekávaný výnos Riziko • 2 dominuje 1; má vyšší výnos • 2 dominuje 3; má nižší riziko • 4 dominates 3; má vyšší výnos 146 Příklad: 2 riziková aktiva  Předpokládejme, že máme k dispozici 2 riziková akativa (x & y), obě normálně rozdělená. rx ~ N(E(rx), σ2 x) & ry ~ N(E(ry), σ2 y)  Investujeme objem a do x, b do y.  a + b = 1.  Očekávaný výnos portfolia: E(rp) = E[arx + bry]=aE(rx)+ bE(ry) 147  rx ~ N(E(rx), σ2 x) & ry ~ N(E(ry), σ2 y)  Riziko portfolia: σ2 p = E[rp - E(rp)]2 = E[(arx + bry)-E[arx + bry]]2 = E[(arx - aE[rx])+(bry - bE[bry])]2 = E[a2(rx - E[rx])2 + b2(ry - E[ry])2 + 2ab(rx - E[rx])(ry - E[ry])] = a2 σ2 x + b2 σ2 y + 2abCov(rx, ry) = a2 σ2 x + b2 σ2 y + 2abCov(rx, ry) σ2 p = a2 σ2 x + b2 σ2 y + 2abσxσyρxy σp = √(a2 σ2 x + b2 σ2 y + 2abσxσyρxy) Příklad: 2 riziková aktiva 148 Závislost výnosu na proporci investice do X a Y 13% %8 E(rp) a0% 100% Předpokládejme, že: rx ~ N(13%, (20%)2) & ry ~ N(8%, (12%)2) E(rp) = E[arx + bry]=aE(rx)+ bE(ry) 149 20% 12% σp a0% 100% Předpokládejme, že: rx ~ N(13%, (20%)2) & ry ~ N(8%, (12%)2) σp = √(a2 σ2 x + b2 σ2 y + 2abσxσyρxy) ρxy=-1 ρxy=1 ρxy=0.3 Závislost výnosu na proporci investice do X a Y 150 Portfolio dvou rizikových aktiv s minimálním rizikem  = 1 13% %8 12% 20%  = .3  = -1  = -1 σp E(rp) 151 XA …váha investice do akcie A XB …váha investice do akcie B RP…očekávaný výnos portfolia RA…očekávaný výnos investice do akcie A RB…očekávaný výnos investice do akcie B …rozptyl výnosu portfolia …rozptyl výnosu investice do akcie A …rozptyl výnosu investice do akcie B …korelační koeficient výnosů investic do akcií A, B Portfolio dvou rizikových aktiv s minimálním rizikem -detail P A B   BAAAP RXRXR  1      2 1 2222 121 BAABAABAAAP XXXX   AB 152  = 1 13% %8 12% 20%  = .3  = -1  = -1 σp E(rp)PR  perfektní pozitivní korelace 1AB   BAAAP XX   1 BA BP AX                       B BA BA BP BA BA P RR R RR R     Tedy vychází rovnice přímky. A B Portfolio dvou rizikových aktiv s minimálním rizikem -detail 153  = 1 13% %8 12% 20%  = .3  = -1  = -1 σp E(rp)PR   BAAAP XX   1 BA PB AX       perfektní negativní korelace 1AB   BAAAP XX   1 BA BP AX                       B BA BA BP BA BA P RR R RR R     Tedy tentokrát vychází rovnice přímek. nebo A B                  B BA BA BP BA BA P RR R RR R     Portfolio dvou rizikových aktiv s minimálním rizikem -detail 154 Portfolio s minimálním rizikem pro několik rizikových aktiv σp Efektivní hranice Portfolio s minimálním rizikem Jednotlivá riziková aktiva E(rp) 155 Portfolio s minimálním rizikem (Min-Variance Opportunity set) – množina bodů v rizikovýnosové rovině, která reprezentuje portfolia rizikových aktiv, u nichž je dosaženo minimálního rizika při dané míře výnosu. E(rp) σp 156 Efektivní hranice (množina) (Efficient set) – množina bodů v riziko-výnosové rovině, která reprezentuje portfolia rizikových aktiv, u nichž pro danou míru rizika neexistuje portfolio s vyšším výnosem.E(rp) σp 157 Individuální rozhodování pro dvě riziková aktiva, bez bezrizikového aktiva Efektivní hranice Investor s větším odporem k riziku U’’’ U’’ U’ Q P S Investor s menším odporem k riziku E(rp) σp 158 Bezriziková investice (aktiva)  Předpokládejme, že úroková sazba = zápůjční sazba.  To znamená, že množina přípustných portfolií může obsahovat libovolnou přímku vycházející z bodu bezrizikového aktiva směřující do libovolného bodu rizikového portfolia s minimálním rizikem.  Ovšem právě jedna z těchto přímek dominuje všem ostatním.  Tato dominující přímka prochází bodem bezrizikového aktiva a je tečnou množiny portfolií s minimálním rizikem.  Tečný bod = portfolio M (the market) 159 RA…očekávaný výnos portfolia A RF…očekávaný výnos bezrizikové investice B …rozptyl výnosu portfolia A …rozptyl výnosu investice B E(Rm) 5%=Rf σm M E(rp) σp Efektivní hranice portfolia s bezrizikovou investicí   AFP XRRXR  1 AP X       2 1 2222 121 FAFAAFP XXXX   A P X    P A FA FP RR RR           A 0F 160 CML (Capital market line) = lineární efektivní množina E(Rm) 5%=Rf σm M E(rp) σp 161 Individuání rozhodování pro dvě riziková aktiva, s bezrizikovým aktivem rf A M Q B CMLE(rp) σp 162 Stanovení optimálního portfolia- Markowitzův model Markowitzův model je jedním z přístupů, jak hledat optimalní portfolio. Tento model předpokladá, že je investor racionalní, tedy jeho cílem je maximalizovat zisk a minimalizovat riziko. Ziskem se v Markowitzově modelu rozumí střední hodnota náhodného výnosu a rizikem pak jeho směrodatná odchylka. Tento model má řadu zjednodušujících předpokladů: - předpokládá ideální trh bez transakčních nákladů a bez arbitráže, neomezenou možnost investování a půjčovaní, neomezenou dělitelnost aktiv, předpokládá, že investoři preferují vyšší výnosy a nižší riziko a využívají k tomu shodné informace - hodnoty očekávaných výnosností akcií a rozptylů a kovariancí těchto výnosností. 163 Označení 164 Optimalizační úloha 165 Markowitzův model -varianty a) Na trhu nejsou povoleny krátké prodeje. Sestavte efektivní hranici portfolií. Vyberte některá portfolia na efektivní hranici a uveďte jejich složení (váhy) a očekávané výnosnosti titulů zastoupených v portfoliu. b) Jak se změní efektivní hranice, pokud budete mít možnost investovat do bezrizikového aktiva (např. depozita v bance). c) Jak se změní efektivní hranice, pokud budete mít možnost výpůjček od správce portfolia až do 30 % hodnoty portfolia. d) Co když budete mít povoleny krátké prodeje až do 30 % počátečního vkladu? Nakreslete efektivní hranici v tomto případě. e) V souladu s vnitřní politikou investiční společnosti, kterou zastupujete, nesmí žádný z titulů portfolia přesáhnout 15% váhu v celkovém portfoliu. Nakreslete efektivní hranici při tomto omezení. 166 Stanovení efektivní hranice 167 Formulace úlohy a) 168 Formulace úlohy b) 169 Formulace úlohy c) 170 Formulace úlohy d) 171 Formulace úlohy e) 172 Řešení zmíněných modelů http://www.r-project.org/ Jde o modely kvadratického programování, které lze řešit např. v programech R, GAMS,…: http://cran.r-project.org/web/packages/fPortfolio/index.html  Knihovna fPortfolio:  Knihovna Quadprog: http://cran.r-project.org/web/packages/quadprog/index.html http://www.gams.com/ 173 Možné výsledky 174