OPAKOVANÉ HRY, ZLOČINY, TRESTY, HROZBY, KREDIBILITA, SIGNÁLY POLb1123, 19.3. 2024 dicelogo OPAKOVANÉ HRY (MORROW 261-301, MCCAIN, KAP. 14,15) •Typ her, u nichž dochází k opakování jedné herní situace (stage, round) • •Počet opakování může být pevně dán (konečné hry- finite games), nebo se hra opakuje „donekonečna“, případně existuje pravděpodobnosti ukončení hry po každém kole (nekonečné hry- infinite games, supergames). Ekvilibria v konečných a nekonečných hrách se liší. • •Často pracují s konceptem „faktoru slevy“ (discount factor)- hráčům záleží méně na pozdějších kolech hry, než na kolech prvních (důležité pro politiku). • •Strategie v nich jsou komplexnější- při dvou kolech 2x2 hry už existuje 32 čistých strategií, při třech kolech 2.097.142 čistých strategií! • •O.h. pomáhají analyzovat situace, v nichž zisky z akcí v daném kole hry často leží v budoucích kolech. O ČEM JSOU OPAKOVANÉ HRY • • • •O ÚVAHÁCH O BUDOUCÍCH NÁSLEDCÍCH (NAŠICH) ROZHODNUTÍ OPAKOVANÉ VĚZŇOVO DILEMA (NEKONEČNÁ FORMA) •Značně rozšiřuje strategické možnosti hráčů, zatímco v one shot hře je racionální nespolupracovat, v opakované hře je prostor pro strategie širší (závisí na strategii soupeře). •Záleží také na velikosti zisků v dalších kolech hry (pokud se příliš neliší od zisků v prvním kole, je větší pravděpodobnost, že hráči budou spolupracovat). •Z hlediska politických interakcí formalizuje opakované vězňovo dilema problém, zda perspektiva dlouhodobých (pravidelně distribuovaných) výhod dokáže zabránit krátkodobým pokusům o zisk (nerovnoměrně distribuovaných) výhod. •Zájem o tuto hru vyvolala kniha Roberta Axelroda Evoluce spolupráce z roku 1984. Axelrod uspořádal „turnaj“ ve vězňově dilematu („Axelrodův turnaj“, první ročník 1980), v němž soutěžily programy, které (často na základě historie hry) volily strategii v každém kole vězňova dilematu. •Vítězem prvního ročníku se stal čtyřřádkový algoritmus Anatola Rappoporta Tit for Tat (Oko za oko). RobertAxelrod NĚKTERÉ STRATEGIE V AXELRODOVĚ TURNAJI •All C- vždy spolupracovat- nezávislá na historii hry •All D- vždy nespolupracovat- nezávislá na historii hry •Tit for tat- spolupráce v prvním kole, v dalších kolech se hraje to, co hrál soupeř v předchozím kole. •Tit for tat with forgiveness- v případě, že soupeř na spolupráci odpovídá nespoluprací, existuje malá šance (např. 5%), že hráč v dalším kole nezvolí nespolupráci, ale spolupráci, aby se snáze v procesu opakování naladila spolupráce. •Grim Trigger- poté, co soupeř nespolupracuje, hraje hráč až do konce hry nespolupráci (věčný trest). Souvisí s ní paradox kredibility. V momentě, kdy jeden hráč nespolupracuje, ustaví se až do konce hry ekvilibrium (D,D), které je ale zároveň suboptimální. Pokud se chtějí hráči opět dohodnout na spolupráci, musí porušit svou Grim Trigger strategii, což ale snižuje jejich kredibilitu, že budou schopni dlouhodobě spolupracovat, resp. kredibilně trestat nespolupráci. •Skupinová strategie- vyhrála 20. Axelrodův turnaj. Více (60) algoritmů z University of Southampton se snažilo maximalizovat zisk jednoho ze svých řad. Spřátelené algoritmy se nejdřív „rozpoznaly“ pomocí série prvních 5-10 tahů. Pak jeden z nich vždy spolupracoval a druhý nespolupracoval, čímž si maximalizoval zisk. V momentě, kdy během rozpoznávací sekvence algoritmus identifikoval cizí program, hrál až do konce nespolupráci, aby zmenšil jeho zisk. • AXELRODŮV TURNAJ V ITERATED PRISONERS DILEMMA •Na základě analýzy výsledků různých algoritmů Axelrod tvrdil, že úspěšná strategie v IPD by měla mít následující charakteristiky: 1.Být laskavá (nice)- nikdy neodmítnout spolupráci jako první (je v nejlepším zájmu každého hráče spolupracovat, pokud spolupracuje soupeř) 2.Být pomstychtivá (retaliating)- pokud je hráč při své spolupráci podveden, musí se pomstít (neustále spolupracovat je velmi špatná strategie) 3.Umět odpouštět (forgiving)- i při pomstě musí existovat šance, že bude obnovena spolupráce. 4.Nesmí být závistivá (non-envious)- nesmí se snažit uhrát víc než soupeř. 5. PŘEDCHŮDCI: UTKÁNÍ FLOOD-DRESHER 1950, PODROBNOSTI: HTTPS://CS.STANFORD.EDU/PEOPLE/EROBERTS/COURSES/SOCO/PROJECTS/1998-99/GAME-THEORY/FLOOD.HTML Payoff matrix used by Dresher and Flood OPAKOVÁNÍ HRY JAKO HROZBA •Opakování hry může sloužit jako donucovací prostředek, vynucující určité strategie hráčů. Opakování je tak jakousi herní „autoritou“ či „vládou“. •Aumannův příklad: Pat a Colin si dělí zisk, Pat navrhuje dělení, Colin buďto souhlasí, nebo nesouhlasí („trestá“, pak nikdo nedostane nic). V one shot hře je jediné ekvilibrium (lakomě, smířit se), zatímco v opakované hře může Colin vyhrožovat trestem, pokud Pat hraje lakomě (kombinace lakomě, trestat). Tento trest může podpořit kooperativní výsledek (férově, smířit se), který má šanci se udržet. •Analýza hrozeb je častá zejména v mezinárodních vztazích či koaličním vyjednávání. • • Colin Pat smířit se trestat férově 10,10 0,0 lakomě 100,1 0,0 Robert Aumann OPAKOVÁNÍ, HROZBY A SPOLUPRÁCE V POLITICE •Aby byly hrozby věrohodné, musí být struktura hry taková, aby hráč neměl pobídky k tomu, aby v prvních kolech hry získal velké odměny a v následujících kolech se vystavil trestu. •Takovou strukturu herní situace v politice často nemají- hráči hrozby ignorují a např. doufají, že určité výsledky v prvních kolech hry vyvolají změnu celé struktury hry, takže k materializaci trestů ani nedojde. •Aumann: „Aby existovala možnost, že se v opakovaných hrách vyvine spolupráce, nesmí hráče budoucnost zajímat o mnoho méně než přítomnost“ (pro politiku nesamozřejmá podmínka). •https://www.nobelprize.org/prizes/economic-sciences/2005/aumann/lecture/ DISCOUNT FACTOR V OPAKOVANÝCH HRÁCH •Odpovídá na otázky jako: Kolik musím získat teď, aby to bylo ekvivalentní zisku x za jeden rok? •F= 1 / (1 + r)T •F= výsledný faktor slevy, r= míra slevy, T=počet kol(period). • •Příklad: Kolik je zlevněná hodnota 10.000 za tři roky při míře úroku 5% (r=0.05) (odpověď: 8638 nyní je ekvivalentem 10000 za tři roky). •F= 1/(1+0.05)3 • •Politika má obvykle „vysoký“ discount factor. Kolik je zlevněná hodnota 10.000 za tři roky při r=0.5? (odpověď: 2963 „teď“ je ekvivalentem 10000 za tři roky). •F= 1/(1+0.5)3 • OPAKOVANÉ HRY S KONEČNÝM POČTEM KOL •Přináší problém s kredibilitou hrozeb a závazků, který pomáhá odhalit zpětná indukce. • •Pokud má vězňovo dilema předem určený počet kol, hrají hráči v posledním kole D. Pak ale hráči nemají žádnou pobídku spolupracovat v předposledním kole, protože si nemají čím vzájemně vyhrožovat pro případ, že některý z hráčů spolupráci poruší. Tato logika postupuje zpět celou hrou k jejímu začátku. • •V reálných interakcích přesto hráči v prvních kolech spolupracují a jejich partnerství se rozpadá až ke konci hry (případ legislativních koalic). Teorie her reprodukuje tuto okolnost např. pomocí modelů s omezenou informací, v nichž hráči neví, zda hrají proti hráči, který využívá při hře zpětné indukce nebo hráči, který od začátku hraje tit for tat. Tak se narušuje logika zpětné indukce. PARADOX OBCHODNÍHO ŘETĚZCE (CHAINSTORE PARADOX) •Navržen Reinhardem Seltenem v roce 1978. •Hráč A (monopolista) ovládá řadu separátních trhů. Na každém z nich je konfrontován s možností, že na ně vstoupí nový hráč (Hráč B). •Monopolista preferuje, aby na ně noví hráči vůbec nevstoupili (10,0), pokud na ně vstoupí, pak je může buďto agresivní cenovou politikou zahnat (ale způsobí si ztráty i sobě 3,-2) nebo se s jejich vstupem smířit (5,5). •Noví hráči preferují vstup na trh bez odporu monopolisty, nejhorší výsledek je vstup na trh, odpor monopolisty, který je donutí stáhnout se z trhu. Rezignace na vstup na trh je „průměrný“ výsledek. •Tento problém řeší otázku, zda jsou „nákladné hrozby“ (costly threats) v opakovaných hrách kredibilní. PARADOX OBCHODNÍHO ŘETĚZCE • • • NOVÉ FIRMY Vstoupit nevstoupit MONOPOLISTA smířit se (5,5) (10,0) agresivně (3,-2) (10,0) 2 ŘEŠENÍ CHAINSTORE PARADOXU •1. „KlasickoHerní“- podle něj je v opakované hře optimální strategií nového hráče „vstoupit“ a monopolisty „smířit se se vstupem“ (nemůže zahnat posledního soupeře, proto nemá motivaci zahnat ani předposledního atd). •2. Zastrašovací- Monopolista si je v něm vědom výsledku, získaného zpětnou indukcí. Oznámí ale např., že v posledních několika kolech se smíří, ale v prvních x kolech bude hrát agresivně. •Druhé řešení vytváří tzv. belief strategy ekvilibrium. „BELIEFS“ (PŘESVĚDČENÍ) •Beliefs ustupují z automatického předpokladu, že hráči hrají hry s úplnou informací, „vědí navzájem o sobě a o hře vše a vědí, že to vědí“. Naopak přináší o hry úvahy hráčů o tom, jaké jsou strategie a vědomosti dalších hráčů, což ovlivňuje i jejich vlastní strategie. V tomto konceptu si hráči vytváří tyto představy/představy o hře striktně podle dosavadní historie hry. Mají navíc často pravděpodobnostní charakter. •Příklady otázek/úvah, souvisejících s beliefs: •Jaká je na základě toho, co jsem zatím odpozoroval o hře, pravděpodobnost, že druhý hráč bude teď hrát D a jaká, že C? •Hraji proti hráči, který zná a používá zpětnou indukci? •Myslí si o mě na základě dosavadního průběhu druhý hráč, že hraji vždy racionálně (např. Nashovo ekvilibrium v každé hře)? ÚROVNĚ ROZHODOVÁNÍ (SELTEN) •Rutinní- hráč využívá statistiku o dřívějších výsledcích rozhodnutí a na tomto základě rutinně rozhoduje, klíčový faktor minulá zkušenost •Imaginativní- hráč se snaží odhadnout, jak jeho rozhodnutí (v přítomnosti) ovlivní budoucí běh událostí (rozhodování-„simulace počítačového programu, využívající rutinní úroveň“)- klíčové logické myšlení •Úvahová- snaží se kombinovat imaginativní a rutinní úroveň rozhodování, navíc má zpětnou vazbu, o hře uvažuje nejen prospektivně, ale i retrospektivně „učící se program“). • •Rozhodování v opakovaných hrách probíhá podle Seltena „předrozhodnutím“ (výběrem módu rozhodování) a jeho základě pak probíhá samotný rozhodovací proces. Podle Seltena ve strategických rozhodnutích převládá imaginativní úroveň (úvahová je příliš složitá a rutinní brána jako nedůvěryhodná- hráči se neztotožňují s „historickými“ hráči“). •Selten navíc tvrdí, že vzhledem ke komplexitě budoucích situací probíhá v CHSP rozhodování tak, že situace je rozdělena např. na „úvodní tahy“ a „konec hry“. Hráč rezignuje na maximalizaci zisku v každém tahu (maximalizing) a spíš se snaží dosáhnout volbou vhodné strategie celkově uspokojivého výsledku (satisfycing). Pokud zkombinujeme předpoklad strategických plánů a konceptu beliefs (který hodnotí hry na základě toho, co už proběhlo, tj. odpředu, ne odzadu) dává zastrašovací strategie v chain store paradoxu smysl. • Professor (KLASICKÝ) TERORISMUS (JAKO OPAKOVANÁ HRA): PROČ SE (OBČAS) S TERORISTY NEVYJEDNÁVÁ? (VÍCE MCCAIN, KAP. 14) • • TERORISTÉ BRÁT RUKOJMÍ NEBRAT RUKOJMÍ VLÁDY VYJEDNÁVAT (-10,5) (0,0) NEVYJEDNÁVAT (-20,-10) (0,0) SIGNÁLNÍ HRY •Typické pro situace s nedokonalou informací •Dva hráči- vysílač a přijímač (sender-receiver) •Charakter vysílače je znám pouze jemu samému (příklad: rozhodný x nerozhodný obránce z herní situace „krize“), přijímač si není jist, jakou konkrétní hodnotu nabývá charakter vysílače. Tato konkrétní hodnota přitom často ovlivňuje zisky přijímače, resp. ovlivňuje akce, které ve hře vysílač provádí. •Hra má dvě části- v první vysílač posílá přijímači zprávu. Přijímač přijímá zprávu, z níž se snaží odvodit charakter vysílače (= nadále si není o tomto charakteru jist, pouze skrz signál doufá, že zredukuje svůj omyl o charakteru vysílače). • • STRUKTURA SIGNÁLNÍ HRY • Schematic diagram of signalling APLIKACE SIGNÁLNÍCH HER •Biologie: Chování gazely Thompsonovy při spatření predátora (začne skákat, jak nejvýše dovede- podstatou signálu má být sdělení, že její charakter je „hbitý“ a bude obtížné ji ulovit). •Ekonomie/sociologie: koncept ostentativní spotřeby (Thorsten Veblen)- de facto signální hra, cílem je inzerovat své postavení a bohatství. •Později využito v ekonomii k obhajobě speciálního zdanění objektů ostentativní spotřeby (vzhledem k tomu, že kupující odvozuje jejich užitek z vysoké ceny, zdanění de facto užitek z koupě zvyšuje a nikoliv snižuje). •Pracovní trh: informace o vzdělání a dovednostech zaměstnance je pro zaměstnavatele signálem o jeho produktivitě. • 06_thompson