IV130 Přínosy a rizika inteligentních systémů 10. března 2023 Inteligentní aktéři Aktéři (agenti) Obrázky a schémata z Russell-Norwig: AI A Modern Approach, 4th ed., 2021 • Aktér je cokoli, co vnímá prostředí, v němž působí, pomocí vjemů přes senzory a toto prostředí mění pomocí aktivních prvků, které vyvolávají akce v tomto prostředí. Vjemy a funkce aktéra • Vjemy jsou jediným zdrojem informací o prostředí • Akce mohou záviset pouze na zabudované znalosti bez vazby na prostředí nebo na vjemech (případně na posloupnosti vjemů) • Chování aktéra je popsáno funkcí aktéra, která jakoukoli posloupnost vjemů transformuje do akce • Tato transformace je implementována pomocí programu aktéra (Funkce aktéra je vnější charakterizací aktéra, program aktéra je její vnitřní implementace.) Příklad: Automatický vysavač na dvou lokacích podlahy • Vjemy dávají polohu, A nebo B • a informaci, zda je v lokaci smetí • Akce spočívají ve vysání smetí • a dvojici pohybů: vlevo a vpravo. • Příklady vjemů: (A,čisto), (B,čisto), (A, smetí), atd. • Tři možné akce: Doprava, Doleva, Sání • Funkce aktéra může být reprezentována jednoduchou tabulkou (závisející na poloze a smetí, nebo jen poloze) Racionální aktéři • Racionální aktér dělá „správné“ věci • „Správnost“ je v AI vymezena tzv. konsekvencionalismem: aktérovo chování je posuzováno na základě důsledků (konsekvencí) jeho chování • Vyjádření charakteru důsledků je zahrnuto v nějaké chrakterizaci působení vzhledem k preferencím, kvantifikovat to lze nákladovou funkcí, jejíž minimalizace/maximalizace popisuje chování • Preference je obecně vhodné volit tak, aby odpovídaly přímo žádoucímu výsledku (např. čistá podlaha namísto maximalizace množství vysátého smetí) Racionalita Racionální chování aktéra závisí na • preferencích / nákladové funkci, což určuje kritéria úspěchu, • jeho výchozí znalosti prostředí, • akcích, které může aktér provádět, • a posloupnosti vjemů až do daného okamžiku. Racionální aktér volí pro každou možnou posloupnost vjemů akci, u níž se očekává maximalizace nákladové funkce (preferencí), a činí tak na základě dosavadní posloupnosti vjemů a možných vestavěných znalostech zahrnutých v programu aktéra. Vševědoucnost • Racionalita se liší od vševědoucnosti ve smyslu znalosti skutečného výsledku akcí aktéra (nezávisle na výsledku popsatelném vjemy). • Racionalita se liší od dokonalosti: racionalita maximalizuje očekávaný výsledek, zatímco dokonalost skutečný výsledek. • Racionalita závisí na sběru informací z prostředí, což umožňuje chování, které ovlivňuje budoucí vjemy (směrem k dosažení záměrů) Učení (se) • Racionální aktér nejen sbírá informace o prostředí, může se i učit z toho, jaké vjemy mu přicházejí • Zkušenosti dovolují modifikovat vestavěnou počáteční konfiguraci (která může některé znalosti o prostředí obsahovat), a tím vylepšovat své chování • Extrémní případ: prostředí je kompletně známo na začátku a výsledky akcí jsou plně predikovatelné – vjemy nebo učení jsou pak zbytečné (existuje to u některých jednoduchých organismů) Autonomie aktéra • Apriorně zabudovaná znalost v aktérovi je nepřímo úměrná jeho autonomii • Autonomní aktér dokáže napravovat chybnou nebo neúplnou počáteční znalost o prostředí • Autonomie odpovídá např. vytváření reflexů na základě zkušenosti namísto reflexů vrozených a neměnných • Autonomní aktér jako aktér nezávislý na výchozích znalostech • Učení umožňuje autonomnímu aktérovi uspět ze stejného výchozího stavu (se stejnou výchozí konstrukcí) v různě se měnícím prostředí Prostředí • Prostředí odpovídají druhu řešeného úkolu (prostředí úkolu) • Racionální aktéři jsou „řešením“ konkrétní podoby prostředí, v němž se má úkol plnit • Prostředí bude charakterizováno pomocí čtveřice parametrů NPAS Ø N – nákladová funkce (ukazatel plnění záměru) Ø P – prostředí (parametry ovlivňující chování i výsledek) Ø A – vymezení aktivních prvků aktéra ovlivňujících prostředí Ø S – senzory vymezující možné vjemy, kterými aktér získává informace o prostředí Příklad chrakterizace NPAS prostředí pro automatické taxi Další typy NPAS prostředí Vlastnosti prostředí pro různé úkoly • Plně pozorovatelné vs. částečně pozorovatelné – v závislosti na tom, zda senzory dávají informace o úplném stavu prostředí (i zcela bez senzorů – jako nepozorovatelný stav prostředí) • Jeden nebo více aktérů – hodnota nákladové funkce může záviset na chování jiného aktéra (aktérů), včetně chování kompetitivního • Deterministické vs. nedeterministické – v závislosti na tom, zda akce plně určují stav prostředí po akci (v částečně pozorovatelných prostředích je determinismus nejvýše zdánlivý); stochastické pro prostředí popsané pravděpodobnostmi Vlastnosti prostředí pro různé úkoly • Epizodické vs. sekvenční – atomické epizody se skládají z odělených dvojic vjemu a jedná akce po něm, v sekvenčních může jedno rozhodutí ovlivnit řadu nebo i všechny další • Statické vs. dynamické – dynamické prostředí se během aktérova rozmýšlení může měnit (polodynamické odpovídá změně aktérovy nákladové funkce během rozmýšlení) • Diskrétní vs. spojité – odpovídá diskrétnosti veličin času, vjemů i akcí vs. spojitosti některé z nich • Známé vs. neznámé mohou být vlastnosti prostředí (zákony jeho chování) Příklady prostředí úkolů Aktéři definovaní pomocí tabulky popisující funkci aktéra Struktura aktérů • Aktér = architektura aktéra + program • Základní výzvou pro AI je nacházet způsob, jak co nejmenším programem realizovat racionální chování směřující k plnění záměrů • Čtyři základní typy aktérů popisující většinu inteligentních systémů: ØJednoduší reflexivní aktéři ØReflexivní aktéři pracující s modelem ØAktéři realizující plnění cílů ØAktéři založení na hodnocení užitku Jednoduchý reflexní aktér • Akce jsou voleny na základě aktuálního vjemu (korektnost jejich chování závisí na plné pozorovatelnosti prostředí) Jednoduchý reflexní aktér • Diagram popisuje strukturu kódu v aktérovi Reflexní aktér založený na modelu • Částečná pozorovatelnost se dá řešit tím, že si držíme model části světa, který nevidíme • Řeší to interní stav aktéra Reflexní aktér založený na modelu • Diagram opět definuje strukturu kódu v aktérovi Aktér založený na modelu a plnění cíle • Zahrnutí informaci o cíli, tj. popisu žádoucích situací, může výrazně pomoci s používáním modelu • Zahrnutí cíle kombinuje určení výsledku akce s hodnocením žádoucnosti jejího výsledku Aktér s modelem a maximalizací užitku • Užitková funkce dovoluje zabudovat do aktéra vnější hodnocení činnosti (za předpokladu, že jsou ve shodě) • Opět se jedná o maximalizaci očekávaného užitku • Používá se i verze, kdy model využíván není Učící (se) aktér • S myšlenkou učících se strojů přišel již Alan Turing v roce 1950 • Učící (se) aktér má čtyři složky: ØUčící prvek zodpovědný za vylepšování ØPrvek činnosti, který vybírá externí akce ØKritik poskytuje zpětnou vazbu učícímu prvku tak, že hodnotí činnost aktéra a navrhuje směr modifikace (komponenta oddělená od modifikací prvku činnosti) ØGenerátor problémů sloužící ke zkoumání nových akcí směřujících k novým zkušenostem Učící (se) aktér • Učení může zahrnovat i aktérovo zkoumání „Co mé akce dělají“ nebo „Jak se svět vyvíjí“ • Externí standard činnosti může zahrnout i vnější zpětnou vazbu k činnosti • Může do toho vstupovat i zpětná vazba z lidského chování