PV021: Neuronové sítě Tomáš Brázdil i Organizační poznámky Zdroje: ► hlavní zdroj: přednáška ► Jiří Šíma a Jan Neruda, Teoretické otázky neuronových sítí http://www2.cs.cas.cz/~sima/kniha.pdf (nás se týká především Část I.) ► (přednáška je založena na částech dalších knih, např. Christopher M. Bishop, Pattern Recognition and Machine Learning) Závěrečné hodnocení: ► projekt ► dvoučlenné týmy; implementace vybraného modelu + analýza vlastních dat ► implementace ve "standardním" jazyce (JAVA, C++, ...) bez použití specializovaných knihoven pro neuronové sítě - data pokud možno reálná, která je nutno připravit pro analýzu ► ústní zkouška (cokoliv z přednášky včetně důkazů, které budu psát na tabuli) Strojové učení obecně ► Strojové učení = konstrukce systémů, které se mohou učit z dat (a tudíž je není třeba explicitně programovat) ► spam filter ► učí se na databázi "označkovaných" emailů ► poté samostatně rozpozná nový spam ► čtečka rukou psaných písmen afi» a ► ucí se na databázi rukou psaných „ ^ y\ i n písmen s označením správné odpovědi 5 5 3 A g ► poté samostatně rozpoznává písmena L c / T 1 *ee, e ► a další obrovské množství aplikací... ► Základní požadavky na daný učící algoritmus: ► reprezentace: schopnost zachytit strukturu učících dat ► generalizace: schopnost dobře fungovat na nových datech 3 Strojové učení - přístupy Učení (obvykle) spočívá v konstrukci matematického modelu dat a jeho následné aplikaci na nová data. Existuje mnoho druhů modelu: ► rozhodovací stromy ► induktivní logické programování ► Bayesovské sítě (a tzv. grafické modely) ► neuronové sítě ► skryté Markovovy modely ► ... Neuronové sítě, vycházející z modelu lidského mozku, jsou přirozeným základem pro učící algoritmy! Co jsou umělé neuronové sítě ► Umělý neuron je hrubou matematickou aproximací biologického neuronu. ► (Umělá) neuronová síť se skládá ze vzájemně propojených (umělých) neuronů. "Schopnosti" sítě jsou zakódovány v síle spojů mezi neurony. Zdroj obrázku: http://tulane.edu/sse/crab/people/schrader/ Proč umělé neuronové sítě .. Modelování biologických neuronových sítí (computational neuroscience). ► zjednodušený matematický model pomáhá identifikovat důležité mechanismy ► Jak mozek přijímá a zpracovává informace? ► Jak uchovává informace? Jak se mozek vyvíjí? ► neurovědy jsou silně multidisciplinární - precizní (matematický) popis usnadňuje komunikaci mezi odborníky na jednotlivé podoblasti Této oblasti se nebudu příliš věnovat! 6 Proč umělé neuronové sítě Neuronové sítě ve strojovém učení. ► Většinou mnohem "primitivnější" modely, které se postupně odchylují od biologické motivace. ► Silně zaměřené na aplikace v různých oblastech, např. ► řízení a rozhodování - autonomní řízení vozidel, řízení výrobních procesů, zpráva přírodních zdrojů ► hry - vrhcáby, poker ► finančnictví - vývoj cen akcií a měnových kurzů, analýza rizik, dělení klientů do specifických skupin ► medicína - diagnostika, zpracování signálu (EKG, EEG, ...), analýza obrazu (MRI, rentgen,...) ► další rozpoznávání vzorů - rozpoznávání řeči, textu, obrazu, radarových a sonarových signálů ► zpracování signálu - filtrace, odstranění šumu Této oblasti se budu věnovat! Významné vlastnosti neuronových sítí ► Masivní paralelismus ► mnoho pomalých výpočetních prvků zpracovává informace paralelně na mnoha úrovních ► Adaptace a učení ► dítě se naučí poznat králíka poté, co se mu ukáže několik králíků ► Schopnost generalizace ► po shlédnutí několika králíků je dítě schopno poznat další (jiné) králíky ► Odolnost vůči nepřesnosti vstupu ► rozmazaná fotka králíka může být stále klasifikována správně jako obraz králíka ► Odolnost vůči poškození ► mnoho experimentů prokázalo, že i poškozená neuronová síť je stále schopna uspokojivě fungovat ► poškozená síť se může přeadaptovat, stávající neurony mohou převzít funkci poškozených 8 Cíl předmětu ► Na co se zaměříme ► Základní techniky a principy neuronových sítí (NS) ► Přehled základních modelů NS a jejich použití ► Co si (doufám) odnesete ► Znalost základních modelů NS (perceptron, vícevrstvá síť, hluboké sítě, Hopfieldova síť, Boltzmannův stroj, Kohonenova mapa) ► Znalost jednoduchých aplikací těchto modelů ► Znalost základních principů učení NS ► Přehled elementárních "implementačních" technik pro učení a aplikaci NS ► přehled některých souvisejících modelů a technik (support vector machines, PCA) 9 Základy neuronových sítí ► Biologický neuron a neuronová síť ► Formální neuron ► Neuronové sítě a jejich dynamika Biologická neuronová síť ► Nervová soustava člověka se skládá z přibližně 1011 neuronů (centimetr krychlový lidského mozku obsahuje až 50 milionů nervových buňek) ► Každý neuron je spojen s přibližně 104 neurony ► Neurony jsou velmi komplexní systémy Velmi hrubý popis funkce nervové soustavy: Vnější podněty jsou přijímány receptory (např. buňky oka). ► Informace jsou dále přenášeny pomocí periferní nervové soustavy (PNS) do centrální nervové soustavy (CNS -mícha, mozek) kde jsou zpracovávány (integrovány) ► Po zpracování informace jsou (pomocí PNS) případně aktivovány efektory (např. svalové buňky) Biologická neuronová síť - příklad Cell body of Gray Zdroj: N. Campbell and J. Reece; Biology, 7th Edition; ISBN: 080537146X Mozková kůra Sumace a akční potenciál Dendrity sousedních Axon sousedního neuronu Klidový potenciál v těle neuronu « -70 mV Vnější podněty mění potenciál v axonovém hrbolku Po překročení prahu « -50 mV je generován akční potenciál« 40 mV Poté nastane krátká refrakce « -80 mV akční potenciál se šíří axonem, v axonovém zakončení vyvolá chemický proces, který změní potenciál v sousedním neuronu Zdroj obrázku: http://www.yaldex.cora/garaes-progranutiing/Q672323699_chl21evlsec9.htral#chl2fig3Q Akční potenciál - podrobněji Copyright 0 Pearson Eduealtcn. Inc.. publisfilng as Benjamin Cum m Higs. íření akčního potenciálu axonem (Í)AP begins ^at axon hillock ŕ r r ■A @ electrical current spreads... (^current spread is the electrical d event that triggers V-gated channels (A thus the AP) a tiny bit down the axon ■*(A)electrical current spreads... w-> f§)current spread is the electrica *■ event that triggers V-gated channels (& thus the AP) a tiny bit down the axon ^fZjelectrical current \^-^7'«< spreads^ etcetera... Zdroj: D. A. Tamarkin; STCC Foundation Press Synaptický přenos Copyright O Pserson Education Inc.. publishing as Benjamín Currirriiriqs. Formální neuron bez biasu ► x-i,..., x„ jsou reálné vstupy („dendrity") ► w-|,.. .,wn jsou reálné váhy („propustnost synapsí") ► £ je vnitřní potenciál; většinou £ = L/Li W;X; ► y je výstup daný y = a(£) kde o aktivační funkce; např. ostrá nelinearita kde h je reálný práh. Formální neuron (s biasem) bias x0 = 1 x-i,.. .,xn jsou reálné vstupy x0 je speciální vstup, který má vždy hodnotu 1 w0, w-i,..., wn jsou reálné váhy £ je vnitřní potenciál; většinou £ = w0 + £,"=1 w,X; y je výstup daný y = a(£) kde a je aktivační funkce; např. osřrá nelinearita ( práh aktivační funkce a je roven 0; reálný práh byl nahrazen vstupem x0 = 1 a váhou w0 = -h) Neuron a lineární separace ► vnitřní potenciál 4 = 0 22 Zde n = 8 • 8 tedy počet pixelů v obrazcích. Vstupy jsou binární vektory dimenze n (tmavý bod « 1, světlý bod « 0). 23 lineární separace x,- = O wo + wixi = 0 B B Červená přímka nesprávně klasifikuje Zelená klasifikuje správně (může být výsledkem korekce učícího algoritmu) B 24 Neuron a lineární separace *1 (0,1) | (1,1) o—© (0,0) Neexistuje přímka, která by oddělila body 1 od bodů 0. (0,1) *2 25 Neuronové sítě ► Neuronová síť se skládá z formálních neuronů, které jsou vzájemně propojeny tak, že výstup jednoho neuronu je vstupem obecně více neuronů. ► Architektura sítě je určena počtem a vzájemným propojením neuronů. ► Stav sítě je vektor hodnot všech neuronů. (Stavy sítě s n neurony jsou prvky R") ► Stavový prostor sítě je množina všech stavů. ► Konfigurace sítě je vektor hodnot všech vah v síti. (Konfigurace sítě s m spoji jsou prvky Rm) ► Váhový prostor sítě je množina všech konfigurací. 26 Neurony rozdělujeme ► Výstupní ► Skryté ► Vstupní Neuronové sítě Dynamiku sítě dělíme do tří režimů - Organizační ► architektura sítě a její případná změna ► Aktivní ► počáteční stav sítě (hodnoty neuronů) a jeho změny v čase (při pevné architektuře a konfiguraci) (mimo jiné určuje způsob výpočtu vnitřních potenciálů E, a aktivační funkce o všech neuronů) ► Adaptivní ► počáteční konfigurace sítě (hodnoty vah) a její změna v čase (učení) 28 Organizační dynamika Organizační dynamika určuje strukturu sítě. Rozlišujeme dva typy architektury: ► Cyklická (resp. rekurentní), pokud obsahuje orientovaný cyklus. ► Acyklická (resp. dopředná) Organizační dynamika - vícevrstvé sítě Výstupní Skryté Vstupní (XQ OD Neurony jsou rozděleny do vrstev (vstupní a výstupní vrstva, obecně několik skrytých vrstev) Vrstvy číslujeme od 0; vstupní vrstva je nultá ► Např. třívrstvá síť se skládá z jedné vstupní, dvou skrytých a jedné výstupní vrstvy. Neurony v /-té vrstvě jsou spojeny se všemi neurony ve vrstvě ; + 1. Vícevrstvou síť lze zadat počty neuronů v jednotlivých vrstvách (např. 2-4-3-2) 30 Aktivní dynamika určuje, jakým způsobem síť počítá. Mějme síť s n neurony z nichž k je vstupních a l výstupních. ► Vstup sítě je vektor k reálných čísel, tedy prvek Rfc. (někdy se omezíme pouze na jistou podmnožinu Rk) Vstupní prostor sítě je množina všech vstupů. ► Počáteční stav Vstupní neurony jsou nastaveny na hodnoty ze vstupu sítě (každá složka vstupu má přiřazen příslušný vstupní neuron) Ostatní neurony jsou iniciálně nastaveny na 0. ► Výpočet (obvykle) probíhá v diskrétních krocích. V každém kroku se provede následující: 1. Podle pravidla aktivní dynamiky je vybrán jeden neuron (sekvenční výpočet) nebo více neuronů (paralelní výpočet). 2. Vybraný neuron změní svůj stav v závislosti na hodnotách svých vstupů. (Hodnota neuronu, který nemá vstupy, zůstává konstantní.) Výpočet je konečný pokud se od jistého kroku dál nemění stav sítě. ► Výstup sítě je vektor hodnot všech výstupních neuronů (tedy prvek Rr). Výstup se mění v průběhu výpočtu! Pro vícevrstvé sítě používáme následující pravidlo aktivní dynamiky: V /-těm kroku vyhodnoť právě všechny neurony v /-té vrstvě. Aktivní dynamika - funkce sítě Definice Mějme neuronovou síť s n neurony z nichž k je vstupních a í výstupních. Nechť A cRka6c Rr. Předpokládejme, že výpočet této sítě skončí pro každý vstup z A. Řekneme, že tato síť počítá funkci F : A —> B pokud pro každý vstup v e A je F(v) výstupem sítě po skončení výpočtu. Podle toho, zda je funkce sítě diskrétní nebo spojitá rozlišujeme diskrétní a analogové neuronové sítě. Příklad 1 Tato síť počítá funkci z R2 do R. 33 Aktivní dynamika - aktivační funkce Aktivní dynamika určuje aktivační funkci a pro každý neuron. ► Ostrá nelinearita •<«-{; ► Logistická sigmoida oU) =--—— kde A e R je prametr strmosti. 1 + e_A« ► Hyperbolický tangens 1 - 34 Aktivní dynamika - vnitřní potenciál Aktivní dynamika určuje způsob výpočtu vnitřního potenciálu £ každého neuronu. Pokud nebude uvedeno jinak, předpokládáme, že Později využijeme další možnosti, např. r- 11 ~» ~* 11 £ = ||x - W\\ kde INI je daná vektorová norma (nejčastěji Euklidovská), x = (x-i,.. .,xn) jsou vstupy neuronu a w = (w-,,..., wn) jsou váhy. n 35 Aktivní dynamika - XOR 1010 1001 Aktivační funkce je ostrá nelinearita |1 «5>0; 10 <5<0. Síť počítá funkci XOfí(x-|,x2) x2 y 1 1 0 1 0 1 0 1 1 0 0 0 36 Neuron a lineární separace 3-2xi- 2x2 = 0 Aktivní dynamika - příklad Adaptivní dynamika Adaptivní dynamika určuje, jakým způsobem se síť učí. ► počáteční konfigurace váhy mohou být nastaveny buď náhodně nebo na základě předběžné znalosti vstupů sítě ► učící pravidlo pro (postupnou) adaptaci vah cílem je adaptovat váhy tak, aby síť počítala danou funkci 39 Adaptivní dynamika - učící pravidla ► učení s učitelem ► Požadovaná funkce je zadána množinou tréninkových vzorů což jsou dvojice tvaru (vstup, výstup). ► Při učení se hledá konfiguraci sítě, která nejlépe odpovídá daným vzorům (vzhledem k danému kvalitativnímu kritériu). ► učení bez učitele ► Tréninková množina obsahuje pouze vstupy sítě. ► Cílem je odhalit strukturu v množině vstupů (shlukování, samoorganizace) Učení s učitelem - ilustrace B B B klasifikace v rovině pomocí jednoho neuronu tréninkové vzory jsou tvaru (bod, hodnota) kde hodnota je buď 1 nebo 0 podle toho zda je bod ze skupiny A nebo 6 po předložení nesprávně klasifikovaného vzoru skupiny A (červená přímka), učící algoritmus pootočí přímku ve směru nesprávně klasifikovaného bodu (zelená přímka). 41 Učení bez učitele - ilustrace 0 ► hledáme dva reprezentanty „shluků" A červené křížky odpovídají * x < reprezentantům před aplikací A \ X učícího algoritmu, zelené po aplikaci ► učící algoritmus může např. napočítat množinu bodů, které jsou nejblíže danému reprezentantovi a potom reprezentanta posunout do těžiště této množiny bodů 42 Výhody umělých neuronových ► Masivní paralelismus ► neurony mohou být vyhodnocovány současně ► Adaptace a učení ► existuje mnoho učících algoritmů, které „programují" neuronové sítě na základě příkladů požadovaného chování ► Schopnost generalizace a odolnost vůči nepřesnosti vstupu ► informace jsou v síti kódovány přibližně pomocí vah mnoha neuronů ► na vstup podobný vstupu tréninkového vzoru, reaguje naučená síť podobným výstupem ► takto je schopna extrahovat charakteristické vlastnosti dat ► Odolnost vůči poškození ► poškození se obvykle projevuje postupnou ztrátou přesnosti výsledků 43