Opakované hry, zločiny, tresty, hrozby, kredibilita, signály
POL 203, 22.3. 2018
dicelogo

Opakované hry (Morrow 261-301, McCain, kap. 14,15)
•Typ her, u nichž dochází k opakování jedné herní situace (stage, round)
•
•Počet opakování může být pevně dán (konečné hry- finite games), nebo se hra opakuje „donekonečna“,
případně existuje pravděpodobnosti ukončení hry po každém kole (nekonečné hry- infinite games,
supergames). Ekvilibria v konečných a nekonečných hrách se liší.
•
•Často pracují s konceptem „faktoru slevy“ (discount factor)- hráčům záleží méně na pozdějších
kolech hry, než na kolech prvních (důležité pro politiku).
•
•Strategie v nich jsou komplexnější- při dvou kolech 2x2 hry už existuje 32 čistých strategií, při
třech kolech 2.097.142 čistých strategií!
•
•O.h. pomáhají analyzovat situace, v nichž zisky z akcí v daném kole hry často leží v budoucích
kolech.

Opakované vězňovo dilema (nekonečná forma)
•Značně rozšiřuje strategické možnosti hráčů, zatímco v one shot hře je racionální nespolupracovat,
v opakované hře je prostor pro strategie širší (závisí na strategii soupeře).
•Záleží také  na velikosti zisků v dalších kolech hry (pokud se příliš neliší od zisků v prvním
kole, je větší pravděpodobnost, že hráči budou spolupracovat).
•Z hlediska politických interakcí formalizuje opakované vězňovo dilema problém, zda perspektiva
dlouhodobých (pravidelně distribuovaných) výhod dokáže zabránit krátkodobým pokusům o zisk
(nerovnoměrně distribuovaných) výhod.
•Zájem o tuto hru vyvolala kniha Roberta Axelroda Evoluce spolupráce z roku 1964. Axelrod uspořádal
„turnaj“ ve vězňově dilematu („Axelrodův turnaj“), v němž soutěžily programy, které na základě
historie hry volily strategii v každém kole vězňova dilematu.
•Vítězem prvního ročníku se stal čtyřřádkový algoritmus Anatola Rappoporta Tit for Tat (Oko za
oko).
RobertAxelrod

Některé strategie v Axelrodově turnaji
•All C- vždy spolupracovat- nezávislá na historii hry
•All D- vždy nespolupracovat- nezávislá na historii hry
•Tit for tat- spolupráce v prvním kole, v dalších kolech se hraje to, co hrál soupeř v předchozím
kole.
•Tit for tat with forgiveness- v případě, že soupeř na spolupráci odpovídá nespoluprací, existuje
malá šance (např. 5%), že hráč v dalším kole nezvolí nespolupráci, ale spolupráci, aby se snáze v
procesu opakování naladila spolupráce.
•Grim Trigger- poté, co soupeř nespolupracuje, hraje hráč až do konce hry nespolupráci (věčný
trest). Souvisí s ní paradox kredibility. V momentě, kdy jeden hráč nespolupracuje, ustaví se až do
konce hry ekvilibrium (D,D), které je ale zároveň suboptimální. Pokud se chtějí hráči opět
dohodnout na spolupráci, musí porušit svou Grim Trigger strategii, což ale snižuje jejich
kredibilitu, že budou schopni dlouhodobě spolupracovat, resp. kredibilně trestat nespolupráci.
•Skupinová strategie- vyhrála 20. Axelrodův turnaj. Více (60) algoritmů z University of Southampton
se snažilo maximalizovat zisk jednoho ze svých řad. Spřátelené algoritmy se nejdřív „rozpoznaly“
pomocí série prvních 5-10 tahů. Pak jeden z nich vždy spolupracoval a druhý nespolupracoval, čímž
si maximalizoval zisk. V momentě, kdy během rozpoznávací sekvence algoritmus identifikoval cizí
program, hrál až do konce nespolupráci, aby zmenšil jeho zisk.
•

Axelrodův turnaj v iterated prisoners dilemma
•Na základě analýzy výsledků různých algoritmů Axelrod tvrdil, že úspěšná strategie v IPD by měla
mít následující charakteristiky:
1.Být laskavá (nice)- nikdy neodmítnout spolupráci jako první (je v nejlepším zájmu každého hráče
spolupracovat, pokud spolupracuje soupeř)
2.Být pomstychtivá (retaliating)- pokud je hráč při své spolupráci podveden, musí se pomstít
(neustále spolupracovat je velmi špatná strategie)
3.Umět odpouštět (forgiving)- i při pomstě musí existovat šance, že bude obnovena spolupráce.
4.Nesmí být závistivá (non-envious)- nesmí se snažit uhrát víc než soupeř.
5.

Opakování hry jako hrozba
•Opakování hry může sloužit jako donucovací prostředek, vynucující určité strategie hráčů.
Opakování je tak jakousi herní „autoritou“ či „vládou“.
•Aumannův příklad: Pat a Colin si dělí zisk, Pat navrhuje dělení, Colin buďto souhlasí, nebo
nesouhlasí („trestá“, pak nikdo nedostane nic). V one shot hře je jediné ekvilibrium (lakomě,
smířit se), zatímco v opakované hře může Colin vyhrožovat trestem, pokud Pat hraje lakomě
(kombinace lakomě, trestat). Tento trest může podpořit kooperativní výsledek (férově, smířit se),
který má šanci se udržet.
•Analýza hrozeb je častá zejména v mezinárodních vztazích či koaličním vyjednávání.
•
•
Colin
Pat
smířit se
trestat
férově
10,10
0,0
lakomě
100,1
0,0
Robert Aumann

Opakování, hrozby a spolupráce v politice
•Aby byly hrozby věrohodné, musí být struktura hry taková, aby hráč neměl pobídky k tomu, aby v
prvních kolech hry získal velké odměny a v následujících kolech se vystavil trestu.
•Takovou strukturu herní situace v politice často nemají- hráči hrozby ignorují a např. doufají, že
určité výsledky v prvních kolech hry vyvolají změnu celé struktury hry, takže k materializaci
trestů ani nedojde.
•Aumann: „Aby existovala možnost, že se v opakovaných hrách vyvine spolupráce, nesmí hráče
budoucnost zajímat o mnoho méně než přítomnost“ (pro politiku nesamozřejmá podmínka).

Discount factor v opakovaných hrách
•Odpovídá na otázky jako: Kolik musím získat teď, aby to bylo ekvivalentní zisku x za jeden rok?
»P(T) = 1 / (1 + r)T
•Příklad: Kolik je zlevněná hodnota 10.000 za tři roky při úroku 5% (DF=0.05) (odpověď: 8638 nyní
je ekvivalentem 10000 za tři roky).
•Politika má obvykle „vysoký“ discount factor. Kolik je zlevněná hodnota 10.000 za tři roky při
DF=0.5? (odpověď: 2962 je ekvivalentem 10000 za tři roky).

Opakované hry s konečným počtem kol
•Přináší problém s kredibilitou hrozeb a závazků, který pomáhá odhalit zpětná indukce.
•
•Pokud má vězňovo dilema předem určený počet kol, hrají hráči v posledním kole D. Pak ale hráči
nemají žádnou pobídku spolupracovat v předposledním kole, protože si nemají čím vzájemně vyhrožovat
pro případ, že některý z hráčů spolupráci poruší. Tato logika postupuje zpět celou hrou k jejímu
začátku.
•
•V reálných interakcích přesto hráči v prvních kolech spolupracují a jejich partnerství se rozpadá
až ke konci hry (případ legislativních koalic). Teorie her reprodukuje tuto okolnost např. pomocí
modelů s omezenou informací, v nichž hráči neví, zda hrají proti hráči, který využívá při hře
zpětné indukce nebo hráči, který od začátku hraje tit for tat. Tak se narušuje logika zpětné
indukce.

Terorismus (jako opakovaná hra): Proč se (občas) s teroristy nevyjednává?
•
•
TERORISTÉ
BRÁT RUKOJMÍ
NEBRAT RUKOJMÍ
VLÁDY
VYJEDNÁVAT
(-10,5)
(0,0)
NEVYJEDNÁVAT
(-20,-10)
(0,0)

Paradox obchodního řetězce (chainstore paradox)
•Navržen Reinhardem Seltenem v roce 1978.
•Hráč A (monopolista) ovládá řadu separátních trhů. Na každém z nich je konfrontován s možností, že
na ně vstoupí nový hráč (Hráč B).
•Monopolista preferuje, aby na ně noví hráči vůbec nevstoupili (10,0), pokud na ně vstoupí, pak je
může buďto agresivní cenovou politikou zahnat (ale způsobí si ztráty i sobě 3,-2) nebo se s jejich
vstupem smířit (5,5).
•Noví hráči preferují vstup na trh bez odporu monopolisty, nejhorší výsledek je vstup na trh, odpor
monopolisty, který je donutí stáhnout se z trhu. Rezignace na vstup na trh je „průměrný“ výsledek.
•Tento problém řeší otázku, zda jsou „nákladné hrozby“ (costly threats) v opakovaných hrách
kredibilní.

Paradox obchodního řetězce
•
•
•
NOVÉ FIRMY
Vstoupit
nevstoupit
MONOPOLISTA
smířit se
(5,5)
(10,0)
agresivně
(3,-2)
(10,0)

2 řešení chainstore paradoxu
•1. „Herní“- podle něj je v opakované hře optimální strategií nového hráče „vstoupit“ a monopolisty
„smířit se se vstupem“ (nemůže zahnat posledního soupeře, proto nemá motivaci zahnat ani
předposledního). •2. Zastrašovací- Monopolista si je v něm vědom výsledku, získaného zpětnou
indukcí. Oznámí ale např., že v posledních několika kolech se smíří, ale v prvních x kolech bude
hrát agresivně.
•2. řešení vytváří tzv. belief strategy ekvilibrium.

Úrovně rozhodování (Selten)
•Rutinní- hráč využívá statistiku o dřívějších výsledcích rozhodnutí a na tomto základě rutinně
rozhoduje, klíčový faktor minulá zkušenost
•Imaginativní- hráč se snaží odhadnout, jak jeho rozhodnutí (v přítomnosti) ovlivní budoucí běh
událostí (rozhodování-„počítačový program, využívající rutinní úroveň“)- klíčové logické myšlení
•Úvahová- snaží se kombinovat imaginativní a rutinní úroveň rozhodování (má zpětnou vazbu, „učící
se program“).
•
•Rozhodování v opakovaných hrách probíhá podle Seltena „předrozhodnutím“ (výběrem módu rozhodování)
a jeho základě pak probíhá samotný rozhodovací proces. Podle Seltena ve strategických rozhodnutích
převládá imaginativní úroveň (úvahová je příliš složitá a rutinní brána jako nedůvěryhodná- hráči
se neztotožňují s „historickými“ hráči“). Selten navíc tvrdí, že vzhledem ke komplexitě budoucích
situací probíhá rozhodování tak, že situace je rozdělena na „úvodní tahy“ a „konec hry“. Pak dává
zastrašovací strategie v chain store paradoxu smysl.
•
Professor

Signální hry
•Typické pro situace s nedokonalou informací
•Dva hráči- vysílač a přijímač  (sender-receiver)
•Charakter vysílače je znám pouze jemu samému (příklad: rozhodný x nerozhodný obránce z herní
situace „krize“), přijímač si není jist, jakou konkrétní hodnotu nabývá charakter vysílače. Tato
konkrétní hodnota přitom často ovlivňuje zisky přijímače, resp. ovlivňuje akce, které ve hře
vysílač provádí.
•Hra má dvě části- v první vysílač posílá přijímači zprávu. Přijímač přijímá zprávu, z níž se snaží
odvodit charakter vysílače (= nadále si není o tomto charakteru jist, pouze skrz signál doufá, že
zredukuje svůj omyl o charakteru vysílače).
•
•

Struktura signální hry
•
Schematic diagram of signalling

Aplikace signálních her
•Biologie: Chování gazely Thompsonovy při spatření predátora (začne skákat, jak nejvýše dovede-
podstatou signálu má být sdělení, že její charakter je „hbitý“ a bude obtížné ji ulovit).
•Ekonomie/sociologie: koncept ostentativní spotřeby (Thorsten Veblen)- de facto signální hra, cílem
je inzerovat své postavení a bohatství.
•Později využito v ekonomii k obhajobě speciálního zdanění objektů ostentativní spotřeby (vzhledem
k tomu, že kupující odvozuje jejich užitek z vysoké ceny, zdanění de facto užitek z koupě zvyšuje a
nikoliv snižuje).
•Pracovní trh: informace o vzdělání a dovednostech zaměstnance je pro zaměstnavatele signálem o
jeho produktivitě.
•
06_thompson