A fogoly dilemmája

A Prisoner 's  Dilemma ( vagy kevésbé ismert nevén Bandita Dilemma ) alapvető játékelméleti probléma , amely szerint a racionális játékosok nem mindig működnek együtt egymással, még akkor sem, ha ez érdekükben áll. Feltételezhető, hogy a játékos ("fogoly") maximalizálja saját nyereségét, nem törődik mások hasznával.

A probléma lényegét Meryl Flood és Melvin Drescher fogalmazta meg 1950-ben. A dilemma nevét Albert Tucker matematikus adta .

A Fogolydilemmában az árulás szigorúan uralja az együttműködést, így az egyetlen lehetséges egyensúly mindkét résztvevő árulása. Egyszerűen fogalmazva, bármi legyen is a másik játékos viselkedése, mindegyiknek nagyobb haszna lesz, ha elárulja. Mivel minden helyzetben jobb elárulni, mint együttműködni, minden racionális játékos az elárulás mellett dönt.

Egyénileg racionálisan viselkedve a résztvevők közösen egy irracionális megoldáshoz jutnak: ha mindketten elárulnak, kisebb össznyereséget kapnak, mintha együttműködnének (ebben a játékban az egyetlen egyensúly nem vezet Pareto-optimális megoldáshoz). Ebben rejlik a dilemma.

A visszatérő fogolydilemmában a játékot időszakosan játsszák, és minden játékos „büntetheti” a másikat, amiért korábban nem működik együtt. Egy ilyen játékban az együttműködés egyensúlyba kerülhet, és az árulásra való késztetést felülmúlhatja a büntetés veszélye (az iterációk számának növekedésével a Nash-egyensúly Pareto-optimum felé hajlik ).

A klasszikus fogolydilemma

Minden igazságszolgáltatási rendszerben a banditizmus (szervezett csoport tagjaként elkövetett bűncselekmények) büntetése sokkal szigorúbb, mint az egyedül elkövetett bűncselekményekért (innen ered a „bandita dilemma” elnevezés).

A fogolydilemma klasszikus megfogalmazása a következő:

Két bûnözõt – A-t és B-t – nagyjából egy idõben kaptak el hasonló bûncselekmények miatt. Okkal feltételezhető, hogy összejátszottak, és a rendőrség, miután elszigetelte őket egymástól, ugyanazt az alkut ajánlja fel nekik: ha az egyik a másik ellen tanúskodik, és hallgat, akkor az elsőt a nyomozás segítésére szabadon engedik. a második pedig a maximális szabadságvesztést kapja (10 év). Ha mindketten hallgatnak, cselekményük enyhébb cikk alá esik, és mindegyiküket hat hónap börtönbüntetésre ítélik. Ha mindketten egymás ellen tanúskodnak, minimális büntetést kapnak (mindketten 2 év). Minden fogoly dönti el, hogy hallgat, vagy vallomást tesz a másik ellen. Azonban egyikük sem tudja pontosan, mit fog tenni a másik. Mi fog történni?

A játék a következő táblázatban ábrázolható:

B fogoly hallgat B fogoly tanúskodik
A fogoly hallgat Mindketten hat hónapot kapnak. A 10 évet kap,
B-t elengedik
A fogoly tanúskodik A szabadon,
B 10 év börtönt kap
Mindketten 2 év börtönt kapnak
Fogolydilemma normál formában .

A dilemma akkor merül fel, ha azt feltételezzük, hogy mindkettőt csak saját szabadságvesztési idejük minimalizálása érdekli.

Képzeld el az egyik fogoly érvelését. Ha a partner hallgat, akkor jobb, ha elárulja és szabadon távozik (egyébként hat hónap börtön). Ha egy partner tanúskodik, akkor jobb, ha ellene is tanúskodik, hogy 2 év (egyébként - 10 év) börtönt kapjon. A „tanú” stratégia szigorúan uralja a „csendben maradni” stratégiát. Hasonlóképpen egy másik fogoly is ugyanerre a következtetésre jut.

A csoport (ez a két fogoly) szempontjából a legjobb, ha együttműködnek egymással, csendben maradnak és hat hónapot kapnak, mivel ez csökkenti a teljes szabadságvesztés időtartamát. Minden más megoldás kevésbé lesz jövedelmező. Ez nagyon világosan mutatja, hogy egy nem nulla összegű játékban a Pareto-optimum a Nash-egyensúly ellentéte lehet .

Általánosított forma

Együttműködik elárul
Együttműködik C, C c, D
elárul D, c d, d

A fogolydilemma kanonikus kifizetési mátrixa

Tovább bővítheti a játék sémáját, elvonatkoztatva a foglyok szubtextusától. A kísérleti közgazdaságtanban gyakran használják a játék általánosított formáját . A következő szabályok a játék tipikus megvalósítását adják:

  1. A játék két játékosból és egy bankárból áll . Minden játékos tart 2 kártyát: az egyik azt mondja, hogy "együttműködj", a másik azt mondja, hogy "elárul" (ez a játék szokásos terminológiája). Minden játékos az egyik kártyát képpel lefelé helyezi a bankár elé (azaz senki sem ismeri a másik megoldását, bár a másik megoldásának ismerete nem befolyásolja a dominancia elemzést [1] ). A bankár kinyitja a kártyákat, és kifizeti a nyereményt.
  2. Ha mindketten az "együttműködni" választják, mindkettő C-t kap. Ha az egyik az "elárul", a másik az "együttműködik", az első D-t, a második c-t kap. Ha mindketten az „elárul” lehetőséget választják, mindkettő d-t kap.
  3. A C, D, c, d változók értéke bármilyen előjelű lehet (a fenti példában minden kisebb vagy egyenlő, mint 0). A D > C > d > c egyenlőtlenséget feltétlenül be kell tartani ahhoz, hogy a játék „fogolydilemma” legyen.
  4. Ha a játékot megismétlik, azaz egymás után többször is megjátsszák, az együttműködésből származó össznyereségnek nagyobbnak kell lennie, mint a teljes nyereségnek abban a helyzetben, amikor az egyik elárulja, a másik pedig nem, azaz 2C > D + c . Ez az egyenlőtlenség azt sugallja, hogy kölcsönös együttműködés esetén szigorú Pareto-optimum érhető el - olyan helyzet, amikor bármely alternatíva legalább egy játékos kifizetésének csökkenéséhez vezet.

Ezeket a szabályokat Douglas Hofstadter állapította meg, és a tipikus fogolydilemma kanonikus leírását képezi.

Alternatív megfogalmazás

Hofstadter [2] azt javasolta, hogy az emberek könnyebben megértsék az olyan problémákat, mint a Prisoner's Dilemma, ha önálló játékként vagy kereskedési folyamatként mutatják be. Az egyik példa a „zárt zacskók cseréje”:

Két ember találkozik és zárt táskákat cserél, ráébredve, hogy egyikük pénzt, a másik árut tartalmaz. Minden játékos tiszteletben tarthatja az üzletet, és beleteheti a zsákba azt, amiben megállapodott, vagy megtévesztheti a partnert egy üres táskával.

Ebben a játékban mindig a csalás lesz a legnagyobb rövid távú anyagi haszonnal járó megoldás.

Példák az életből

Néhány játékműsor hasonló elvet alkalmaz a forduló vagy a döntő győzteseinek meghatározására. A dilemmára 2012-ben a The Bank Job című brit játékshow mutatott be egy példát az egyes szezonok döntőjében: a döntőbe jutott két játékosnak el kellett döntenie, hogyan engedi el a nyereményt. A teljes megjátszott jackpot fele a CASH feliratú bőröndökben volt, a másik kettő pedig a TRASH feliratú újságkivágás volt (a játékosnak minden típusból egy bőröndje van). Minden játékosnak el kellett vennie az egyik bőröndjét, és át kellett adnia a másiknak. Ha mindkét játékos bőröndben kapott készpénzt, akkor a nyereményt felére osztották. Ha valaki odaadta a bőröndöt a TRASH-nak, akkor a játék teljes bankját elfoglalta. Ha mindketten TRASH-t adtak, mindketten pénz nélkül maradtak, és a nyereményt a döntő korábbi szakaszaiban kieső játékosok kapták.

A rabokra, a kártyajátékra és a zárt táskák cseréjére vonatkozó példák távolinak tűnhetnek, valójában azonban számos példa van az ember-állat interakciókra, amelyeknek ugyanaz a kifizetési mátrixa. Ezért a fogoly dilemmája a társadalomtudományok, például a közgazdaságtan , a politikatudomány és a szociológia , valamint a biológia  - etológia és az evolúcióbiológia szekciói számára érdekes . Számos természetes folyamatot általánosítottak olyan modellekké, amelyekben élőlények vesznek részt a végtelen fogolydilemma-jellegű játékokban. A dilemma széles körű alkalmazhatósága teszi ezt a játékot jelentős jelentőségűvé.

A politikai realizmusban például a dilemma-forgatókönyvet gyakran használják a fegyverkezési versenyben részt vevő két állam problémájának illusztrálására . Mindkét állam kijelenti, hogy két lehetőségük van: vagy növelik a katonai kiadásokat, vagy csökkentik a fegyverzetet. Ebben az esetben a fogolydilemma (D > C > d > c) [3] posztulátumai nyilvánvalóan teljesülnek :

Az A oldal szempontjából, ha a B oldal nem élesít, akkor A esetében a D és C között kell választani - jobb élesíteni. Ha B élesít, akkor A esetében d és c között lehet választani - ismét megéri élesíteni. Így a B bármely választása esetén jövedelmezőbb az A oldal élesítése. A B oldal helyzete pontosan ugyanaz, és végül mindkét fél katonai terjeszkedésre törekszik .

William Poundstone a fogoly dilemmáról szóló könyvében leír egy új-zélandi helyzetet, amikor az újságdobozokat nyitva hagyják. El lehet venni egy újságot fizetés nélkül is, de ezt kevesen teszik meg, mert a legtöbben tisztában vannak azzal a kárral, ha mindenki újságot lopna. Mivel a fogoly dilemmája a legtisztább formában minden játékos számára egyidejű (senki sem befolyásolhatja mások döntéseit), ezt a közös gondolatmenetet " mágikus gondolkodásnak " nevezik. Az apró lopások hiányának magyarázataként a mágikus gondolkodás magyarázza az önkéntes szavazást a választásokon (ahol a nem szavazót nyúlnak tekintik ). Alternatív megoldásként ez a viselkedés magyarázható a jövőbeli cselekvések elvárásával (és nem igényel kapcsolatot a "mágikus gondolkodással"). A jövőbeli cselekvések modellezéséhez idődimenziót kell hozzáadni, ami egy visszatérő dilemmában történik.

A dilemma elméleti következtetése az egyik oka annak, hogy a vádalku sok országban tilos . Gyakran nagyon pontosan megismétlődik a dilemma forgatókönyve: mindkét gyanúsítottnak az az érdeke, hogy valljon és valljon a másik gyanúsított ellen, még akkor is, ha mindketten ártatlanok. Talán a legrosszabb az, amikor csak egy bűnös, ebben az esetben az ártatlan valószínűleg nem fog bevallani bármit is, a bűnös pedig előre megy, és tanúskodni fog az ártatlan ellen.

Sok valós dilemma több játékost érint. Bár metaforikus, Hardin „ köznemzeti tragédiája ” a dilemma általánosításának tekinthető több játékos számára. A közösség minden lakója eldöntheti, hogy egy közös legelőn legelteti-e a szarvasmarhát, és az erőforrások kimerítéséből részesül , vagy korlátozza jövedelmét. A legelő általános (vagy gyakori) maximális kihasználásának kollektív eredménye az alacsony jövedelem (ami a közösség pusztulásához vezet). Egy ilyen játék azonban nem formális, mivel klasszikus, 2 fős játékok sorozatára bontható.

A visszatérő rabdilemma

Az 1984 -es The Evolution of Cooperation című könyvében Robert Axelrod a dilemma-forgatókönyv kiterjesztését vizsgálta, amelyet ismétlődő fogolydilemmának (RPD) nevezett el. Ebben a résztvevők újra és újra választanak, és emlékeznek a korábbi eredményekre. Axelrod a világ minden tájáról meghívta akadémikus kollégáit, hogy dolgozzanak ki számítógépes stratégiákat a PDD bajnokságban való részvételhez. A benne szereplő programok algoritmikus bonyolultságban, kezdeti ellenségeskedésben, megbocsátó képességben stb.

Axelrod felfedezte, hogy ha a játékot hosszú ideig megismétlik sok játékos között, mindegyik más stratégiával, akkor a „kapzsi” stratégiák hosszú távon gyengén teljesítettek, míg az „ altruisztikusabb ” stratégiák jobban teljesítettek, önérdek szempontjából. Ezt arra használta fel, hogy bemutassa az altruista viselkedés kialakulásának lehetséges mechanizmusát a kezdetben tisztán önző mechanizmusokból a természetes szelekción keresztül .

A legjobb determinisztikus stratégia a Tit for Tat volt, amelyet Anatolij Rapoport dolgozott ki és állított fel a bajnokságra .  Ez volt a legegyszerűbb az összes résztvevő program közül, mindössze 4 sor ALAP kódból állt . A stratégia egyszerű: működjön együtt a játék első iterációjában, majd a játékos ugyanazt teszi, amit az ellenfél az előző lépésben. A „Cicikért megbocsátással” stratégia egy kicsit jobban működik. Amikor az ellenfél elárul, a következő lépésben a játékos néha, függetlenül az előző lépéstől, kis valószínűséggel (1-5%) együttműködik. Ez lehetővé teszi, hogy véletlenszerűen kilépjen a kölcsönös árulás köréből. Akkor működik a legjobban, ha félreértést  vezetnek be a játékba – amikor az egyik játékos döntését tévedésből közlik a másikkal.

A legjobb eredményt elérő stratégiákat elemezve Axelrod több feltételt is megnevezett, amelyek szükségesek ahhoz, hogy a stratégia magas eredményt érjen el:

Így Axelrod arra az utópisztikus – hangzatos következtetésre jutott, hogy az önző egyének saját önző érdekükben igyekeznek kedvesek, megbocsátóak és nem irigyek lenni.

Fontolja meg újra a fegyverkezési verseny modelljét. Arra a következtetésre jutottak, hogy az egyetlen racionális stratégia a fegyverkezés, még akkor is, ha mindkét ország inkább olajra, mint fegyverre szeretné költeni GDP-jét [4] . Érdekes módon a dilemmakövetkeztetés működésének bizonyítására tett kísérletek (az időszakok közötti "magas" és "alacsony" katonai kiadások elemzésével, a TPP feltételezései alapján) gyakran azt mutatják, hogy ez a viselkedés nem fordul elő (pl. görög ill . A török ​​katonai kiadások nem a „szemet szemért” stratégiának megfelelően változnak, hanem nagy valószínűséggel belső politikát követnek. Ez lehet egy példa a racionális viselkedésre , amely különbözik az egylövéses és több lépéses játékoktól.

Ha egy egymozdulatos játékban mindenképpen az árulási stratégia dominál, akkor a többlépéses játékban az optimális stratégia a többi résztvevő viselkedésétől függ. Például, ha a lakosságban mindenki megcsalja egymást, és valaki a „szemet szemért” elv szerint viselkedik, akkor az első lépésnél bekövetkezett veszteség miatt kis veszteségben van. Egy ilyen populációban az optimális stratégia mindig az elárulás. Ha több a "szemet szemért" elvét vallók száma, akkor az eredmény már a társadalomban való részesedésüktől függ.

Az optimális stratégia meghatározásának két módja van:

Bár a tit-for-tat stratégiát tartották a legsikeresebb egyszerű stratégiának, a Southamptoni Egyetem csapata Nicholas Jennings professzor [6] vezetésével új stratégiát mutatott be a PKD bajnokság 20. évfordulójára. Ez a stratégia sikeresebbnek bizonyult, mint a titkolók. A programok közötti interakcióra támaszkodott, hogy az egyikre a maximális pontszámot kapja. Az egyetem 60 programot állított fel a bajnokságra, amelyek az első 5-10 lépésben akciósorozatból ismerték fel egymást. A másik felismerése után az egyik program mindig együttműködött, míg a másik elárulta, ami a maximum pontot adta az árulónak. Ha a program megértette, hogy az ellenfél nem Southamptonból származik, továbbra is folyamatosan elárulná őt, hogy minimalizálja az ellenfél eredményét. Ennek eredményeként [7] ez a stratégia az első három helyet szerezte meg a versenyben, valamint néhány helyet sorban alább.

Bár ez az evolúciósan stabil stratégia hatékonyabbnak bizonyult a versengésben, ezt annak az árán érték el, hogy több ügynök is részt vehetett az adott versenyben. Ha a játékos csak egy ügynököt tud irányítani, a tit for tat a legjobb. Betartja a játékosok közötti kommunikáció tilalmának szabályát is. Az a tény, hogy a southamptoni programok az első 10 körben "rituális táncot" adtak elő, hogy megismerjék egymást, csak megerősíti, hogy a kommunikáció mennyire fontos a játék egyensúlyának megváltoztatásában.

Ha a PDZ-t pontosan N-szer játsszák le (néhány ismert N állandó), van még egy érdekes tény. A Nash-egyensúly az, hogy mindig áruljunk el. Indukcióval bizonyítjuk: ha mindketten együttműködnek, akkor az utolsó lépésnél megéri elárulni, akkor az ellenfélnek nem lesz lehetősége bosszút állni. Ezért az utolsó lépésnél mindketten elárulják egymást. Mivel az ellenfél az utolsó lépésnél mindenképpen elárul, bármelyik játékos az utolsó előtti lépésnél el akar majd árulni, és így tovább. Ahhoz, hogy az együttműködés nyereséges maradjon, a jövőnek mindkét szereplő számára bizonytalannak kell lennie. Az egyik megoldás az, hogy az N számot véletlenszerűvé tesszük, és az eredményeket a körönkénti átlagos nyeremény alapján számítjuk ki.

A fogoly dilemmája alapvető fontosságú néhány emberi interakcióról és bizalomról szóló elméletben. A dilemmamodell azon feltételezése alapján, hogy két ember közötti tranzakcióhoz bizalomra van szükség, a populációk bizalmi viselkedése modellezhető a játék többszereplős iteratív változatával. Ez évek óta sok tudóst inspirált. 1975-ben Grofman és Poole körülbelül 2000-re becsülte az ezzel a témával foglalkozó tanulmányok számát.

Tanuláspszichológia és játékelmélet

Ha a játékosok fel tudják mérni annak lehetőségét, hogy más játékosok elárulják, viselkedésüket befolyásolja a tapasztalat. Az egyszerű statisztikák azt mutatják, hogy a tapasztalatlan játékosok általában túl jól vagy rosszul viselkednek. Ha állandóan így viselkednek, veszíteni fognak, mert túl agresszívak vagy túl kedvesek. Ahogy egyre több tapasztalatot szereznek, reálisabban mérik fel az árulás valószínűségét, és jobb eredményeket érnek el. A korai játékok erősebb hatással vannak a tapasztalatlan játékosokra, mint a későbbiek a tapasztalt játékosokra. Ez egy példa arra, hogy a korai tapasztalatok miért vannak ilyen hatással a fiatalokra, és miért különösen érzékenyek a motiválatlan agresszióra, néha maguk is azzá válnak.

A korai játékokban való együttműködés révén csökkenthető az árulás valószínűsége egy populációban, ami lehetővé teszi a bizalom kiépítését [8] . Ezért az önfeláldozás bizonyos helyzetekben növelheti a csoport morálját. Ha a csoport kicsi, a pozitív viselkedés nagyobb valószínűséggel viszonozható, ami további együttműködésre ösztönzi az egyéneket. Ez összefügg egy másik dilemmával, miszerint az ok nélküli jó bánásmód olyan engedékenység, amely leronthatja az ember erkölcsi jellemét.

Ezek a folyamatok a kölcsönös altruizmus , a csoportszelekció , a családszelekció és az etika fő érdeklődési területei .

A vallás hatása

A vallásos előadások jelentősen növelik a játékosok közötti együttműködés mértékét. A tanulmányokban még a vallásos szavak implicit említése is a játék előtti előzetes feladatban a proszociális viselkedés jelentős növekedéséhez vezetett [9] .

Lásd még

Jegyzetek

  1. Tipp arra, hogy például a piros játékos "együttműködni" fog, nem változtat azon a tényen, hogy az "elárulás" szigorúan domináns stratégia. Ha csak a játékot vesszük figyelembe, akkor a kommunikáció lehetősége nem játszik szerepet. Ha azonban a játékot valós életben játsszák, magán a játékon kívüli megfontolások okozhatják az együttműködést. Ez egy nagyon fontos pont a játék konklúziójában, hogy ha nem kell külső tényezőket figyelembe vennünk, akkor az egyszeri „fogolydilemma” nem változik a kommunikációtól.
  2. Hofstadter, Douglas . 29. fejezet // Metamágikus témák: az elme és a minta esszenciájának keresése. - Bantam Dell Pub Group, 1985. - ISBN 0-465-04566-9 .
  3. Genie Baker. The Harmony of Interests Revisited archiválva 2010. június 12-én a Wayback Machine -nél . // Piaci realizmus: Különböző kockázatú valuták és a kereskedelemből származó nyereség a liberális gazdasági rend szerint. (Angol)
  4. A közgazdasági tankönyvekben a termelési lehetőségek görbéjét csak két áru közül lehet választani: az olaj és a fegyverek közül.
  5. „Bayes-Nash egyensúly; hipotézis statisztikai vizsgálata” Archiválva : 2005. október 2..
  6. Nick Jennings professzor archiválva : 2006. április 10. a Wayback Machine -nél 
  7. A Prisoner's Dilemma Tournament 2004 A Wayback Machine 2006. augusztus 29-én archivált eredményei azt mutatják, hogy a University of Southampton csapata az első három helyen végzett, bár kevesebb győzelmet arattak, mint a GRIM-stratégia (a tornának nem kellett egyéni mérkőzéseket nyernie; ez s elérhető és egyszerű gyakori árulás). A Southampton csapata által visszaélt stratégiák közti burkolt összejátszás nélkül pedig a cinege nem mindig nyer egy versenyt. Más szóval, hosszú távon számos különböző bajnokságban jobban teljesít, mint a riválisok, és egyetlen bajnokságban a stratégia valamivel jobban igazítható a versenyhez, mint a „cici a ciciért”. Ugyanez vonatkozik az OZO-ra a megbocsátással: egyetlen versenyen veszíthet a speciálisan kiélezett stratégiákkal szemben. Alternatív megoldás az evolúciós szimuláció használata . Ebben az OZO fog uralkodni, és a gonosz stratégiák időről időre megjelennek és eltűnnek a lakosságból. Richard Dawkins megmutatta, hogy a stratégiáknak nincs olyan statikus kombinációja, amely stabil egyensúlyt teremtene, és a rendszer a határok között ingadoz. 
  8. ↑ A bizalom révén történő együttműködés fejlesztéséről szóló érvet James Surowiecki Wisdom of the Crowds című könyve ad , amely szerint a kapitalizmus hosszú távon képes volt egy olyan kvéker mag köré szerveződni, akik mindig őszintén dolgoztak partnereikkel ( az ígéretek megtévesztése és megszegése helyett – ez a jelenség leállította a korábbi, hosszú távú önkéntes nemzetközi kapcsolatokat).[ pontosítás ] Azt állítják, hogy a megbízható kereskedőkkel való kapcsolattartás lehetővé tette az őszinteség (együttműködés) kultúrájának átterjedését a többi kereskedőre, akik tovább terjesztették, amíg egyáltalán nem volt nyereséges becsületesnek lenni.
  9. Ali M. Ahmed, Osvaldo Salas. A keresztény vallási reprezentációk implicit hatásai a diktátor és a fogoly dilemmajátékának döntéseire  // The Journal of Socio-Economics. — 2011-05-01. - T. 40 , sz. 3 . – S. 242–246 . - doi : 10.1016/j.socec.2010.12.013 . Az eredetiből archiválva : 2011. augusztus 25.

Irodalom

Linkek