Alpha Go

Az AlphaGo egy go játék , amelyet a Google DeepMind fejlesztett 2015-ben. Az AlphaGo volt az első program a világon, amely egy hendikepmentes meccset nyert egy profi Go játékos ellen egy szabványos 19×19 táblán , és ez a győzelem fontos áttörést jelentett a mesterséges intelligencia területén, mivel a legtöbb mesterséges intelligencia specialista úgy vélték, hogy 2020-2025 előtt nem készül ilyen program . 2016 márciusában a program 4-1-re nyert Li Sedol ellen , a 9. danos (legmagasabb rangú) profi ellen egy történelmi mérkőzésen , amelyről a sajtóban széles körben beszámoltak [1] . A meccs megnyerése után a Koreai Paduk Szövetség „becsületbeli 9. dannal” ítélte az AlphaGót a program „őszinte erőfeszítéséért” a játék elsajátításában [2] .

Az AlphaGo Lee Sedol felett aratott győzelmét gyakran a Deep Blue program és Garri Kaszparov közötti 1997-es sakkmérkőzéshez hasonlítják , ahol az IBM -program győzelme a regnáló bajnok felett szimbolikus kiindulópontja lett egy új korszaknak, amelyben a számítógépek sakkban felülmúlták az embereket . 3] . A Deep Blue-tól eltérően az AlphaGo egy olyan program , amely nincs konkrét hardverhez kötve . Ráadásul az AlphaGo a gépi tanulás általános elvein alapul, és gyakorlatilag nem használ (a sakkprogramokkal ellentétben) sem a Go játékra jellemző algoritmusokat, sem kiértékelő funkciókat. Az AlphaGo fejlesztése során a szerzők csak a Go játék legelemibb elméletét alkalmazták, a program magas szintű játékot ért el, tanulva magát a profik játékaiból . Így gépi tanulási módszerei a mesterséges intelligencia más alkalmazási területein is alkalmazhatók. A fejlesztőcsapat különösen azt tervezi, hogy az AlphaGo megírása során szerzett tapasztalatokat egy orvosi diagnosztikai rendszer létrehozására fogja alkalmazni .

Az AlphaGo ötvözi azt a technikát, amely 2007-2012-ben nagy áttörést hozott a Go programok erejében ( Monte Carlo módszer a fakereséshez ) és a gépi tanulás legújabb vívmányait , nevezetesen a mély tanulást többszintű neurális hálózatokkal. hálózatok .

Történelem

Az AlphaGo egyik szerzője, David Silver szerint a programmal kapcsolatos munka 2014-ben kezdődött azzal a vizsgálattal, hogy miként működnének a Go-ban a mély tanulás új módszerei [4] .

A programjuk erősségének felmérésére a szerzők versenyt rendeztek az AlphaGo és a legjobb ingyenes és kereskedelmi Go szoftver ( Crazy Stone , Zen , Pachi , Fuego ), amely a Monte Carlo módszert alkalmazta, és a GNU Go között. , amely a legjobb ingyenes szoftver volt a Monte Carlo módszer előtt. Ennek eredményeként az AlphaGo egy számítógépes verziója 495 meccsből 494-et nyert [5] .

Match Fan Huival

2015 októberében az AlphaGo a háromszoros Európa-bajnok Fan Hui - t (2. profi dan) legyőzte egy ötjátszmás meccsen 5–0-ra. Ez az első alkalom a történelemben, hogy egy számítógép egyenrangú játékban legyőz egy profi go-ban. Ezt 2016 januárjában jelentették be nyilvánosan a Nature -ben [6] megjelent cikk [7] [8] után . Minden meccsre a játékosok egy órát és 3 30 másodperces byoyomi -t kaptak.

Fan Hui veresége után kijelentette, hogy ennek a meccsnek köszönhetően kezdett jobban játszani, és elkezdte látni a játék azon elemeit, amelyeket korábban nem vett észre; 2016 márciusára Fan Hui globális rangsora körülbelül 300 pozíciót emelkedett [9] .

Az alábbiakban egy olyan játék példája látható, amelyben az AlphaGo feketén játszott. Fan Hui 165 lépés után lemondott [5] .

19
tizennyolc
17
16
tizenöt
tizennégy
13
12
tizenegy
tíz
9
nyolc
7
6
5
négy
3
2
egy

Az első 99 lépés (96 a 10-ben)

19
tizennyolc
17
16
tizenöt
tizennégy
13
12
tizenegy
tíz
9
nyolc
7
6
5
négy
3
2
egy

Mozgás 100-165.

A Fan Hui-val vívott meccs után az AlphaGo program sokkal jobban kezdett játszani ( a program különböző verzióinak játékaiból kiszámolt Elo értékelése 1500 ponttal nőtt, és meghaladta a 4500-at). Az új verzió meg tudta verni a régit, 3-4 kövekkel előnnyel [10] .

AlphaGo vs. Lee Sedol meccs

2016. március 9. és március 15. között AlphaGo mérkőzést játszottak Lee Sedollal (9. dan) [7] Szöulban , Dél-Koreában . 5 meccset játszottak. Minden meccsre a játékosok 2 órát és 3 byoyomit kaptak egy percre. A nyereményalap 1 millió dollár volt. A játékokat élőben közvetítették a YouTube -on [11] .

A mérkőzés idején Lee Sedolnak volt a második legtöbb megnyert világbajnokság [12] . Bár nincs egyetlen hivatalos nemzetközi módszer a Go játékosok rangsorolására, egyes források Lee Sedolt a világ negyedik játékosának tartják a meccsek idején [13] [14] .

A mérkőzést az AlphaGo nyerte 4-1-re. Lee Sedol ötből négy meccsen megadta magát. A feketén játszó AlphaGo a negyedik játszmában 180 lépés után veszített. A program fejlesztői szerint az AlphaGo feladja, ha 20%-nál kisebbre becsüli a nyerési valószínűséget [15] .

Szakértők szerint az AlphaGo a Li Sedollal vívott meccsen lényegesen erősebb volt, és nehezebb játékot kínált, mint a Fan Huival vívott meccsen [16] . Lee Sedol egy sajtótájékoztatón azt mondta, hogy veresége "Lee Sedol veresége", nem pedig "az emberiség veresége" [17] .

Nem hivatalos játékok 2016 végén/2017 elején

2016. december 29-én a Tygem go szerveren az új „ Master ” fiók elkezdett játszani a go profikkal, 2017. január 1-jén váltott a FoxGo go szerverre. 2017. január 4-én a DeepMind megerősítette, hogy az AlphaGo [18] [19] frissített verziója fut a Master és egy korábbi Magister fiókban . Az AlphaGo mind a 60 lejátszott játékot megnyerte (szerverenként 30-at) [20] . Az összes játék végén a DeepMind társalapítója, Demis Hassabis ezt írta a Twitteren: "Várom a hivatalos teljes Go meccseket 2017-ben, a Go szervezeteivel és szakértőivel együttműködve" [18] [19] .

Master napi 10 meccset játszott, és rendkívüli képességeivel gyorsan felkeltette sok játékos figyelmét a Tygem szerveren. Sokan hamar sejtették, hogy ez egy mesterséges intelligencia-játékos, mivel vagy nem voltak szünetek a játékok között, vagy nagyon keveset tartottak. Mester ellenfelei olyan világbajnokok voltak, mint Ke Jie , Pak Jong-hwan , Yuta Iyama , To Jiaxi , Mi Yuting , Shi Yue , Chen Yaoe , Li Qincheng , Gu Li , Chang Hao , Tang Weixing , Fan Tingyu , Zhou Ruiyang , Jiang Weijie , Zhou Junxun , Kim Jisok , Kang Dong Yoon , Park Yong Hoon , Won Sungjin ; rajtuk kívül országos bajnokok és világbajnoki ezüstérmesek: Lian Xiao, Tan Xiao , Meng Tailing, Dan Yifei, Huang Yunsong, Yang Dingxin , Xing Jinso, Cho Hansyn , An Sunjun. A 60 meccsből egy kivételével mindegyik gyors volt három 20 vagy 30 másodperces byoyomival, egyedül a Nie Weiping elleni meccsen javasolta a Mester a byoyomi egy percre való növelését utóbbi magas kora miatt. 59 nyert meccs után a Mester egy chatben elárulta, hogy Dr. Aya Huan, a DeepMind-től [21] irányítja .

Az AlphaGo programozója , David Silver később , hogy az AlphaGo korábbi verzióitól eltérően a "Master"-t játszó verzió inkább a saját magával való játékból való tanulásra támaszkodott, mint a profi játékosok játékaiból való tanulásra, ráadásul ez a verzió tízszer kevesebb számítást igényelt, és edzett. hét hónapok helyett, mint a Lee Sedollal játszott verzió [22] .

The Future of Go Summit

2017. május 23-27-én a kínai Wuzhen városában csúcstalálkozót tartottak a Go jövőjéről, ahol többek között az AlphaGo több bemutató játékot [23] is tartott, és mindegyiket megnyerte:

3 játékból álló minimeccs: AlphaGo vs. Ke Jie .
Advanced Go: Human+AlphaGo vs Human+AlphaGo.
AlphaGo vs. a legjobb kínai profi Go-játékosok kombinált csapata.

Nyugdíjba

Miután véget ért a Go jövőjéről szóló csúcstalálkozó, a DeepMind alapítója , Demis Hassabis bejelentette az AlphaGo távozását a Go-tól, és a jövőben nem lesz több mérkőzés. Ezenkívül a DeepMind nem tervezi az AlphaGo nyilvános verziójának kiadását [24] .

AlphaGo Zero

2017 októberében a DeepMind bejelentette az AlphaGo még erősebb verzióját, az AlphaGo Zero-t. Az új neurális hálózatot arra képezték ki, hogy a Go-t a semmiből, " tabula rasa "-val játsszák, önmagával játszva (anélkül, hogy az emberek által játszott játékokból tanultak volna, mint az AlphaGo korábbi verzióiban). Mindössze 21 napos önálló tanulás alatt a rendszer elérte az AlphaGo Master játékteljesítmény-szintet, majd felülmúlta azt. A 40. napra több mint 300 pontos elo fölényt elérve .

AlphaGo verziók összehasonlítása

Verziók	Hardver [25]	Elo értékelés 1	Gyufák
AlphaGo rajongó	176 GPU , [26] elosztott számítástechnika	3144 [27]	5:0 mérkőzés AlphaGo - Fan Hui
Alpha Go Lee	48 TPU , [26] elosztott számítástechnika	3739 [27]	4-1 AlphaGo vs. Lee Sedol meccs
AlphaGo Mester	4 TPU [26] v2, egy gép	4858 [27]	60:0 profi játékosok ellen; The Future of Go Summit ; 3:0 AlphaGo – Ke Jie mérkőzés
AlphaGo Zero (40 blokk)	4 TPU [26] v2, egy gép	5185 [27]	100:0 AlphaGo Lee ellen 89:11 AlphaGo Master ellen
AlphaZero (20 blokk)	4 TPU v2, egy gép	5018 [28]	60:40 vs. AlphaGo Zero (20 blokk) 2
Megjegyzések: [1] Összehasonlításképpen, Ke Jie legjobb human go játékosának elo értékelése 3670 volt 2017 októberében [29] . [2] Az AlphaZero értékelése (20 blokk) alacsonyabb, mint az AlphaGo Zeroé (40 blokk), egy tesztmérkőzésen az AlphaZero 60:40-re győzte le az AlphaGo Zero-t, mert. ott a neurális hálózat azonos számú blokkszámú változatait hasonlították össze.

Jelentése

Az AlphaGo megalkotása előtt a Go azon kevés hagyományos játékok közé tartozott, amelyekkel az ember jobban tudott játszani, mint egy számítógép [30] .

A go sokkal nehezebb, mint a sakk a lehetséges pozíciók nagyobb száma miatt. Először is, a szabály szerint a Go-ban minden pozícióban több a legális lépés, mint a sakkban. Másodszor, egy Go-játék átlagosan több lépésig tart. Ez a két tulajdonság nagyon megnehezíti a Go-t a hagyományos mesterséges intelligencia módszereknél , mint például az alfa-béta metszés [8] [31] .

A Go másik nehézsége a sakkhoz és sok más logikai játékhoz képest egy olyan értékelési függvény létrehozása, amely egy tetszőleges pozíciót egy bizonyos értékeléssel hasonlít össze: melyik oldal számára jövedelmezőbb ez a pozíció és mennyivel (vagy egyenlő a pozíció). Az AlphaGo 2 neurális hálózatot használ, amelyek közül az egyik a pozícióbecslésre specializálódott. Így feltételesen a sakk értékelő függvényének analógjának nevezhető [32] .

Ezen okok miatt még csaknem húsz évvel azután is, hogy a Deep Blue számítógép először 1997-ben legyőzte a világbajnok Kaszparovot , a legerősebb Go programok csak az amatőr 5 danost érték el, és teljes táblán nem tudták legyőzni a profikat [8 ] [33] [34] . A mesterséges intelligencia legjobb eredménye a Go-ban a Zen program győzelme volt , amely négy számítógépből álló klaszteren fut a 9 danos profi Masaki Takemiya ellen , 2012-ben kétszer, öt- és négyköves hendikeppel [35] . valamint a Crazy Stone program győzelme Yoshio Ishida (9. hivatásos dan) felett négyköves hendikeppel 2013-ban [36] . $19\times 19$

A mesterséges intelligencia fejlődésének buktatója volt a Go well-t játszó program létrehozása [1] . 2015-ig a legtöbb mesterséges intelligencia szakértő úgy gondolta, hogy legalább a következő öt évben nem jön létre olyan program, amely képes legyőzni a világbajnokot Go-ban [37] , és sokan azt feltételezték, hogy ehhez legalább tíz évre lesz szükség [38]. [39] [40] [41] . Még az AlphaGo Fan Hui felett aratott győzelme után is sok szakértő azt jósolta, hogy az AlphaGo veszít Li Sedol ellen [42] .

A Lee Sedollal vívott meccset követően a dél-koreai kormány bejelentette, hogy a következő öt évben 1 billió von (863 millió dollár) befektetést hajt végre a mesterséges intelligencia kutatásába [ 43 ] .

Gyakorlati alkalmazás

Az AlphaGo játékhoz kifejlesztett módszerek a mesterséges intelligencia más területein is alkalmazhatók, különösen az orvosi diagnosztikában [44] . A DeepMind alapítója , Demis Hassabis szerint a DeepMind megállapodást kötött az Egyesült Királyság Nemzeti Egészségügyi Szolgálatával , hogy megvizsgálja a mesterséges intelligencia felhasználásának lehetőségét orvosi adatok elemzésére [45] [46] . Erre alapították a DeepMind Health részleget .

AlphaGo eszköz

Alapelvek

Az AlphaGo lényeges jellemzője, hogy általános algoritmusokat használ, amelyek gyakorlatilag függetlenek a Go játék jellemzőitől [47] . Az AlphaGo algoritmus csak a játék alapelveit tartalmazza, amelyekkel minden kezdő elkezdi tanulmányozni a játékot, például megszámolja a szabad pontok számát ( dame ) egy kőcsoporthoz, és elemzi a kövek elfogásának lehetőségét a "létra" segítségével. "( shicho ) technika. A többit az AlphaGo magától tanulta, egy 160 000 játékot tartalmazó adatbázist elemezve a mesterséges intelligencia más területein is használható általános módszerekkel [48] . Ebben az AlphaGo különbözik az olyan rendszerektől, mint a Deep Blue , egy sakk szuperszámítógép [4] . A Deep Blue algoritmusának megírásakor fejlett sakkelméletet használtak. Így például a Deep Blue 8000 testreszabható tulajdonságot használt a pozíció becsléséhez, a Deep Blue pedig hatalmas nyíláskönyvtárat tartalmazott [49] . Az AlphaGo egy olyan program, amely bármilyen hardveren futhat (bár kifejezetten gépi tanulásra tervezett processzort használt ), és amelynek alapelvei más területeken is használhatók. Nem használja a nyitó könyvtárat, és nem fér hozzá közvetlenül a mozdulatok adatbázisához a játék során (de csak egy nagyszámú játékra kiképzett neurális hálózatot használ). Maguk a program fejlesztői nem tudják, hogy az AlphaGo hogyan értékeli a pozíciót, lépései felbukkanási jelenségnek számítanak [50] . Ráadásul a Deep Blue egy célt szem előtt tartva készült: sakkmérkőzés megnyerése Garri Kaszparov ellen [4] [51] . Az AlphaGo nem kifejezetten Lee Sedol elleni játékra készült [17] [52] , ráadásul az AlphaGo edzésadatbázisa nem tartalmazta Lee Sedol játékait [53] , és a mérkőzés során az AlphaGo programja sem változott, nem alkalmazkodott Lee Sedol játékstílusához [ 54] .

Az AlphaGo fő újítása a mély tanulás , egy olyan technika, amelyet sikeresen alkalmaztak a mintafelismerésre (például képek keresésére a Google Képekben ) [55] . Az AlphaGo ugyanis számos professzionális játékra kiképzett neurális hálózatokat használ , amelyek képesek előre jelezni, hogy egy szakember milyen lépést tesz egy adott pozícióban. Az önállóan játszott játékok tovább javították a neurális hálózatokat. Ez önmagában lehetővé tette az AlphaGo számára, hogy 2015 legjobb számítógépes programjainak szintjén játsszon: a lehetőségek felsorolása nélkül, csak egy neurális hálózatot használva a lépés kiválasztásához, a program képes volt legyőzni a Pachit ( egy amatőr másodperc szintjén játszó program). dan ) [56] .

A legjobb korábbi Go programokhoz hasonlóan az AlphaGo is a Monte Carlo metódust használja a fakereséshez (MCST) [56] . Ennek a módszernek (amelyet a számítási matematikában a Monte Carlo-módszerrel analóg módon neveznek el ) az a lényege, hogy a pozíció becsléséhez a program sokszor véletlenszerűen játszik önmagával, minden alkalommal a játék végére hozva a játékot. Ezután kiválasztja azt a lépést, amelyiknél a legtöbb nyer.

Az AlphaGo előtti technológiák

Általános megközelítések a tökéletes információval rendelkező játékokhoz

A Go a teljes információ játéka . Elméletileg minden tökéletes információval rendelkező játékhoz létezik egy optimális stratégia. Az optimális stratégia megtalálásához be kell járnunk a teljes játékfát . Például 2007-ben a Chinook program teljesen megoldotta angol piszkozatokat [57] ily módon . A legtöbb játék esetében azonban ez a módszer nem praktikus, mert a fa mérete nagyon nagy lehet. Ez a következőképpen becsülhető meg , ahol a játékfa elágazási foka (azaz az egyes pozíciókban lehetséges lépések hozzávetőleges száma), és a játékfa mélysége (vagyis a játék hozzávetőleges hossza) . For Go while for Chess A felsorolás két technikával rövidíthető. $b^{d}$ $b$ $d$ $b\kb 250,d\kb 150,$ $b\kb. 35,d\kb. 80.$

Először is, a keresés mélysége csökkenthető a kiértékelő funkcióval : ahelyett, hogy a játékot végiggondolná, heurisztikával megbecsülheti a közbenső pozíciót . Ez a megközelítés jól működött olyan játékokban, mint a sakk , ahol a számítógép jobban tudott játszani, mint egy ember. Ez a megközelítés azonban nem volt elegendő a Go számára a játék óriási összetettsége miatt.

Egy másik megközelítés a megtekintett fa elágazási fokának csökkentése néhány mozdulat elvetésével. Az egyik ilyen módszer a Monte Carlo-módszer, amely lehetővé tette, hogy a számítógépek jobban játsszanak olyan játékokat, mint például a backgammon , mint az emberek .

Monte Carlo módszer a fa kereséshez

A fakeresés Monte Carlo módszere a legegyszerűbb formájában a következő. Először az összes lehetséges lépést kiválasztják az aktuális pozícióból, majd minden lépésnél nagyszámú véletlenszerű játékot játszanak le. A kör az adott körben kezdődő véletlenszerű játékok győzelmeinek és veszteségeinek arányaként kerül értékelésre. Ugyanakkor az egyik vagy másik lépés megválasztásának valószínűsége a pozíció aktuális megítélésétől is függ: nagyobb valószínűséggel választják azokat a pozíciókat, amelyekben gyakrabban fordult elő a győzelem. Egy ilyen stratégia aszimptotikusan az optimális felé hajlik. Ezzel a megközelítéssel az AlphaGo elődprogramjai el tudták érni a gyenge amatőr szintjét.

Az algoritmus javítása érdekében függvényeket használtunk a legvalószínűbb következő lépés előrejelzésére. Az AlphaGo előtt lineáris kiértékelési függvényeket és sekély házirendekből származó függvényeket használtak . Ez a megközelítés lehetővé tette számomra, hogy elérjem egy erős amatőr szintjét.

Mély tanulás

Az AlphaGo neurális hálózatok segítségével működik , amely technikát sikeresen alkalmaztak a mintafelismerésben . Ezen a területen a nagy áttörést a többrétegű konvolúciós neurális hálózatok és a képzésükre szolgáló speciális technika – a mély tanulás – jelentette . A konvolúciós neurális hálózatok több réteg neuronból állnak. Minden szint egy számmátrixot kap bemenetként, egyesíti azokat néhány súlyozással, és egy nemlineáris aktiválási függvény segítségével számkészletet állít elő kimenetként, amelyet a következő szintre továbbít. A mintafelismerésnél a kép az első szintre kerül, és az utolsó szint hozza létre az eredményt. A neurális hálózatokat nagyszámú képre oktatják , folyamatosan módosítva az eredmény kiszámításához használt súlyokat. Ennek eredményeként a neurális hálózat olyan konfigurációba kerül, amely képes maga is felismerni a hasonló képeket. Ezt a folyamatot nem lehet előre megjósolni, így nehéz megmondani, hogyan "gondolkozik" a neurális hálózat, de durván szólva a középső szinteken lévő kimenetek megfelelnek a különböző lehetséges osztályozásoknak [55] [58] .

Ezzel a technikával nagy előrelépés történt a mintafelismerésben , különösen az arcfelismerésben . A DeepMind arra is használta , hogy olyan mesterséges intelligenciát hozzon létre, amely képes önállóan megtanulni egy videojátékot egy Atari 2600 videojáték -konzolon , képernyővideót használva bemenetként [59] .

Az AlphaGo algoritmus

Pozícióábrázolás

Az AlphaGo konvolúciós neurális hálózatokat használ a pozíció értékelésére vagy a következő lépés előrejelzésére. Ahogy a mintafelismerés során a kép egy neurális hálózatba kerül, az AlphaGo egy pozíciót táplál be a neurális hálózatokba. Minden pozíció réteges képként jelenik meg , ahol minden réteg a tábla egyes elemeinek egyszerű tulajdonságainak leírását jelenti . A következő egyszerű tulajdonságokat használjuk: a kő színe, a szabad pontok ( dame ) száma egy adott kőcsoporthoz (ha nincs több 8-nál), kövek vétele, idáig való eljutás lehetősége, követ nemrég állították be. Az egyetlen nem triviális tulajdonság, amelyet használnak, az az, hogy egy adott csoportot fenyeget-e egy létra befogása ( shicho ). Összesen 48 bináris tulajdonságot használnak ( az egész számban kifejezett tulajdonságok egységes kóddal vannak ábrázolva ). Így minden pozíciót bittáblázatként ábrázolunk [60] . $19\times 19$ $19\times 19\times 48$

Stratégiai hálózat

Annak érdekében, hogy ne vegye figyelembe a teljesen rossz lépéseket, és ezáltal csökkentse az elágazás mértékét a keresés során, az AlphaGo stratégiai hálózatokat [61] ( angol policy networks ) használ - neurális hálózatokat , amelyek segítenek a jó lépés kiválasztásában.

Az egyik ilyen hálózat ( SL policy networks ) megjósolhatja, hogy egy szakember milyen lépést tenne egy adott pozícióban. Ez egy 13-szintű neurális hálózat, amelyet felügyelt tanulással (SL ) nyernek 30 millió pozícióban, amelyet 160 ezer játékból vettek fel a KGS szerverén 6-9 danos játékosok által. A képzés négy héten keresztül zajlott 50 GPU -n ; a sztochasztikus gradiens süllyedést használták tanulási algoritmusként a maximális valószínűség kereséshez [62] . Az eredményül kapott neurális hálózat kiszámította a valószínűségi eloszlást az összes lehetséges mozgás között egy adott pozícióban (a fent leírtak szerint ). Ennek eredményeként a neurális hálózat a teszthelyzetek 57%-ában helyesen tudta megjósolni a személy által választott lépést (az edzés során nem használták). Összehasonlításképpen az AlphaGo előtti legjobb eredmény 44% volt. Már az előrejelzések pontosságának kismértékű növelése is jelentősen növeli a játék erejét.

Egy stratégiai hálózat képes önmagát játszani a Go-val, minden alkalommal véletlenszerű lépést választva kiszámított valószínűséggel.

Továbbfejlesztett stratégiai hálózat

A stratégiai hálózatot megerősítő tanulással ( RL ) javították : nevezetesen a hálózatot folyamatosan fejlesztették a korábban megszerzett hálózatok valamelyikével való játékkal. Ugyanakkor minden alkalommal véletlenszerű hálózatot választottak ki a korábban megszerzett hálózatok közül az átképzések elkerülése érdekében (olyan helyzetek, amikor a program a legjobb lépést választja, feltételezve, hogy az ellenfél ugyanazt a stratégiát használja, de esetleg rosszul játszik egy másik ellenféllel szemben). Az eredmény egy stratégiai hálózat ( RL policy network ) lett, amely a játékok 80%-ában felülmúlta az eredeti hálózatot.

Kiderült, hogy az így létrejött stratégiai hálózat sem az értékelési funkciót, sem a lehetőségek felsorolását nem alkalmazva a játékok 85%-át tudta megnyerni az akkori legerősebb nyílt programmal , a Pachival szemben . Összehasonlításképpen azelőtt a legjobb program, amely az opciók keresése nélkül játszott, csak egy konvolúciós neurális hálózatot használt, a játékok 11%-át verte meg a Pachinak. Így az AlphaGo a lehetőségek felsorolása nélkül megközelítőleg a harmadik amatőr dan szintjét tudta elérni a program szerzői szerint [63] .

Fast Strategic Network

A Monte Carlo-módszerben megkövetelt játék szimulálásához (lásd alább ) az AlphaGo a stratégiai hálózat gyorsabb, de kevésbé pontos verzióját használja ( rollout policy ), amely mindössze 2 µs alatt kap választ. Ez a gyors hálózat 30%-os valószínűséggel jósolja meg az ember mozgását [64] , míg a továbbfejlesztett stratégiai hálózat 3 ms alatt ad választ ugyanazon a berendezésen 57%-os valószínűséggel.

Értékelő hálózat

Az AlphaGo értékhálózatot [ 61] használt a keresési mélység csökkentésére . Ez a neurális hálózat megbecsüli a nyerési valószínűséget egy adott pozícióban. Ez a hálózat a továbbfejlesztett stratégiai hálózat önmagával való eljátszásával megszerzett 30 millió pozícióban végzett képzés eredménye. Ugyanakkor minden játékból legfeljebb egy pozíciót választottak ki (hogy elkerüljük az átképzést az egy meccsen belüli pozíciók hasonlósága miatt). Ezen pozíciók mindegyikénél Monte Carlo módszerrel becsülték meg a nyerési valószínűséget: sok játékból álló tornát rendeztek, amelyben az előző szakaszban kiépített továbbfejlesztett stratégiai hálózat ebből a pozícióból indulva játszott önmagával. Ezt követően a pontozó hálózatot betanították ezekre az adatokra. A képzés egy hétig tartott 50 GPU -n . Az eredmény egy olyan hálózat volt, amely meg tudta jósolni az egyes pozíciók nyerési valószínűségét, miközben 15 000-szer kevesebb számítást használt, mint a Monte Carlo-módszer.

Fa keresés

Az AlphaGo felsorolja a lehetőségeket a Monte Carlo-módszerrel a fa kereséséhez az alábbiak szerint. Az AlphaGo egy részleges játékfát épít , az aktuális pozícióból kiindulva, és számos szimulációt készít a játékról. Minden lépésnél egy pontszám kerül rögzítésre a fában, amely sajátos módon függ a stratégiai és az értékelési hálózatok segítségével elért lépések pontszámaitól, a korábbi szimulációk véletlenszerű játékainak eredményétől, ill. a korábbi szimulációk száma, amelyek ezt a lépést választották (minél gyakrabban, minél korábbi ez a lépés, annál alacsonyabb a pontszám, így a program változatosabb lépéseket vesz figyelembe).

Az AlphaGo minden szimuláció elején kiválaszt egy lépést a már felépített fában, amely a legmagasabb pontszámot éri el. Amikor a szimuláció elér egy olyan pozíciót, amely nem szerepel a fában, ez a pozíció hozzáadódik a fához, az adott pozícióban engedélyezett összes mozgással együtt, amelyeket a stratégiai háló segítségével értékel ki . Továbbá, mint a Monte Carlo módszernél, a játékot a végéig szimulálják elágazás nélkül. Ebben a szimulációban minden lépést véletlenszerűen választunk ki egy gyors stratégiai hálózat segítségével kapott valószínűséggel .

A szimuláció végén az eredménytől függően a felállított fában lévő mozgásbecslések frissítésre kerülnek. Így minden szimuláció az aktuális játékpozícióból indul, a végére ér, és egy szimuláció eredményeként egy-egy pozíció feltárul az aktuális fában.

A program készítői megállapították, hogy ebben a szakaszban nem a továbbfejlesztett stratégiai hálózatot , hanem az eredetit ( SL policy network ) érdemes használni . A szerzők szerint ez annak tudható be, hogy a profi játékosok a továbbfejlesztett hálózatnál változatosabb mozgásokat választanak, így a program több lehetőséget is mérlegelhet. Így a továbbfejlesztett stratégiai hálózat nem kerül felhasználásra a játék során, de használata elengedhetetlen az értékelési hálózat felépítéséhez, amikor a program önmagával játszva tanul.

Hardver

Az AlphaGo-t több héten át képezték 50 GPU -n az Egyesült Államokban üzemeltetett Google Cloud platformon [62] [65] .

Az AlphaGo-t különböző számú , párhuzamosan vagy elosztott CPU - val és GPU -val rendelkező számítógépes rendszereken tesztelték . Minden esetben 2 másodpercet adtak lépésenként. Az egyidejűleg elért, az Elo rendszer szerinti, egymással folytatott játékok eredményei alapján számolt értékeléseket a táblázat tartalmazza: [66]

Számítástechnika	Végrehajtási szálak	CPU-k száma	GPU-k száma	Elo minősítés
Párhuzamos	40	48	egy	2181
Párhuzamos	40	48	2	2738
Párhuzamos	40	48	négy	2850
Párhuzamos	40	48	nyolc	2890
Megosztott	12	428	64	2937
Megosztott	24	764	112	3079
Megosztott	40	1202	176	3140
Megosztott	64	1920	280	3168

A Fan Hui-t 2015 októberében legyőző verzió 1202 CPU -n és 176 GPU -n futott [67] .

A Lee Sedollal 2016 márciusában egy játékban az AlphaGo 1920 CPU-t és 280 GPU-t használt elosztott hálózaton [68] .

2016 májusában a Google bejelentette, hogy az AlphaGo TPU -t, a Google által kifejezetten gépi tanulásra kifejlesztett processzort használ [69] [70] .

A 2017. májusi Ke Jie elleni meccsen az AlphaGo új verziója csak egy számítógépet használt a Google Cloudon TPU processzorral, vagyis körülbelül 10-szer kevesebb számítási teljesítményt , mint a Lee Sedollal vívott meccsen [71] .

Játékstílus

Toby Manning, az AlphaGo és Fan Hui meccsének játékvezetője AlphaGo játékstílusát inkább konzervatívnak, mint agresszívnak jellemezte [72] . Demis Hassabis, a DeepMind vezérigazgatója szerint az AlphaGo a nyerési valószínűséget próbálja növelni, nem a pontszámkülönbséget [4] .

A professzionális játékosok megjegyezték, hogy az AlphaGo egyes, kezdetben hibásnak tűnő lépései közelebbről megvizsgálva stratégiailag fontosnak bizonyultak [73] .

Nie Weiping (Pro 9. Dan, Kína ) a Li Sedollal folytatott első meccs után azt javasolta, hogy AlphaGo a 6. vagy 7. dan szinten játszik fusekiben és 13-15 danos chubanban [74] .

A harmadik részletben kiderült, hogy az AlphaGo képes volt kontrollálni a helyzetet a ko-fighting során , amit korábban a legtöbb Go programban jelentős gyengeségnek tartottak [75] .

Egyes véleményezők úgy írták le az AlphaGo hibáit, amelyek a 4. játék elvesztéséhez vezettek, mint egy Monte Carlo-i program tipikus hibáit [76] . Demis Hassabis kijelentette, hogy ezeket a hibákat gondosan elemezni fogják, és az AlphaGo láthatóan nem ismeri a klasszikus tesuji egy részét, és taktikai hibákat követ el [77] . Ezt követően Aya Huan (az AlphaGo egyik fejlesztője, aki az AlphaGo mögé állította a köveket) azt mondta, hogy az írócsapatnak két feltételezése volt a hibák okait illetően: vagy az AlphaGo-nak egyszerűen nem volt elég mélysége a helyzet elemzéséhez; vagy Lee Sedol 78. lépése annyira szokatlan volt (a kommentelők "isteninek" nevezték [76] ), hogy a program nem találkozott ilyen helyzetekkel az öntanulás során, ennek eredményeként az értékelő funkciója (lásd fent ) ebben a helyzetben bizonyult gyenge. Mindenesetre Aya Huang szerint az AlphaGo új verziója ebben a helyzetben már korrektül játszik. Ugyanakkor a csapat nem csinált semmi különöset, maga az AlphaGo az edzések hatására abbahagyta az ilyen hibák elkövetését [78] .

A meccs után Lee Sedol kijelentette, hogy lélektanilag megverték, de technikailag egyáltalán nem [79] . A program megmutatta a kreatív megoldások képességét, ami sok játékost meglepett (például a 37. lépés a második játékban ); néhány mozdulat ellentmondott a Go klasszikus elméletének, de bebizonyították hatékonyságukat a meccsen, néhány szakember elkezdte ezeket a megállapításokat használni játékaiban [50] .

Hasonló rendszerek

A Facebook egy Go játékot is fejleszt, a Darkforest , amely szintén gépi tanuláson és fakeresésen alapul [72] [80] . 2016 elején a Darkforest erős játékot mutatott be más számítógépekkel szemben, de nem tudta legyőzni a profikat [81] . Erősségét tekintve a Darkforest a Crazy Stone és a Zen [82] programok szintjén értékelhető .

2016. március 1-jén a Zen program fejlesztői (Yoji Ojima és Hideki Kato), a DWANGO és a University of Tokyo Deep Learning Research Group (akik létrehozták a Ponanza programot az embert legyőző shogi játékra ) bejelentették, hogy közös projekt "Deep Zen Go Project" , melynek célja az AlphaGo legyőzése 6-12 hónapon belül. A Japan Go Association ígéretet tett a projekt támogatására [83] . 2016 novemberében a Deep Zen Go 2-1-re kikapott Japán legjobban kitüntetett játékosától, Cho Chikuntól [84] [85] .

Irodalom

Silver D., Huang A., Maddison CJ, Guez A., Sifre L., van den Driessche G., Schrittwieser J., Antonoglou I., Panneershelvam V., Lanctot M., Dieleman S., Grewe D., Nham J., Kalchbrenner N., Sutskever I., Lilicrap T., Leach M., Kavukcuoglu K., Graepel T. & Hassabis D. Mastering the game of Go with deep neural networks and tree search (angol) // Nature. - 2016. - január 28. ( 529. évf. , 7587. szám ). - P. 484-489 . — ISSN 0028-0836 . - doi : 10.1038/nature16961 . Archiválva az eredetiből: 2019. szeptember 24.

Lásd még

Az AlphaZero a DeepMind által kifejlesztett számítógépes program , amely nemcsak Go-val, hanem sakkkal és shogi -val is játszik .
A Ponanza a 2010-es évek közepén a legerősebb shogi program , melynek döntő meccse shogi meijin Amahiko Sato -val a Dano-sen 2. évadának részeként zajlik2017 áprilisában.
Az AlphaStar egy mesterséges intelligencia, amelyet a DeepMind hozott létre a StarCraft II játékhoz .

Jegyzetek

↑ 1 2 Metz C. Miért olyan nagy dolog az AlphaGo és Lee Sedol közötti végső meccs az emberiség számára ? // Vezetékes Hírek (2016. március 14.). Letöltve: 2016. november 10. Az eredetiből archiválva : 2016. december 22.
↑ A Google AlphaGo „isteni” Go- rangsort kapott . // The Straits Times (2016. március 15.). Letöltve: 2016. november 10. Az eredetiből archiválva : 2016. október 7..
↑ Mesterséges intelligencia: A Google AlphaGo felülmúlja a Go mestert, Lee Se-dolt . // BBC News (2016. március 12.). Letöltve: 2016. július 12. Az eredetiből archiválva : 2016. augusztus 26.. (határozatlan)
↑ 1 2 3 4 A szakértők szerint Ribeiro J. AlphaGo szokatlan mozdulatai bizonyítják mesterséges intelligencia-képességét . // PC World (2016. március 14.). Letöltve: 2016. július 12. Az eredetiből archiválva : 2016. július 17. (határozatlan)
↑ 1 2 Silver et al., 2016 , p. 488.
↑ Silver et al., 2016 .
↑ 1 2 A mesterséges intelligencia először győz egy profi Go játékost . // Meduza. Hozzáférés dátuma: 2016. január 27. Az eredetiből archiválva : 2016. február 4. (Orosz)
↑ 1 2 3 Kutatási blog: AlphaGo: A Go ősi játékának elsajátítása a gépi tanulással . // Google Research Blog (2016. január 27.). Hozzáférés dátuma: 2016. január 28. Az eredetiből archiválva : 2016. február 1.. (határozatlan)
↑ Metz C. A Google AI Play Go nézésének szomorúsága és szépsége . // Vezetékes Hírek (2016. március 11.). Archiválva az eredetiből 2017. november 7-én. (határozatlan)
↑ Huang A. Alpha Go: Combining Deep Neural Networks with Tree Search // Keynote Lecture CG2016 konferencia a YouTube -on , 35:56-tól
↑ Demis Hassabis a Twitteren . // Twitter. Letöltve: 2016. február 14. Az eredetiből archiválva : 2019. július 27. (határozatlan)
↑ Borowiec S. A Google mesterséges intelligencia gépe v a Go világbajnoka: minden, amit tudnod kell . // The Guardian (2016. március 9.). Letöltve: 2016. március 15. Az eredetiből archiválva : 2016. március 15. (határozatlan)
↑ Coulom R. . 2016-01-01 értékelési lista . Az eredetiből archiválva : 2016. március 18. (határozatlan)
↑ Ji-yoon L. A koreai Go mester bebizonyítja, hogy az emberi intuíció még mindig erős a Go-ban (hivatkozás nem érhető el) . // The Korean Herald/ANN (2016. március 14.). Letöltve: 2016. március 15. Az eredetiből archiválva : 2016. április 12.. (határozatlan)
↑ Metz C. Go Lee Sedol nagymester vigasztalást nyert a Google mesterséges intelligenciája ellen . // Vezetékes Hírek (2016. március 13.). Letöltve: 2016. március 29. Az eredetiből archiválva : 2017. november 17.. (határozatlan)
↑ Ribeiro J. A Google AlphaGo AI programja erős, de nem tökéletes, mondja a legyőzött dél-koreai Go játékos . // PC World (2016. március 12.). Letöltve: 2016. március 13. Az eredetiből archiválva : 2016. március 13. (határozatlan)
↑ 1 2 Sung-nyert Y. Lee Se-dol az AlphaGo verhetőt mutat . // The Korea Times (2016. november 13.). Letöltve: 2016. március 15. Az eredetiből archiválva : 2016. március 14.. (határozatlan)
↑ 1 2 Hassabis D. Demis Hassabis a Twitteren: "Nagyon örülök, hogy megoszthatok egy frissítést az #AlphaGo-ról!" . // Demis Hassabis Twitter -fiókja (2017. január 4.). Letöltve: 2017. január 4. Az eredetiből archiválva : 2019. február 15. (határozatlan)
↑ 1 2 Gibney E. A Google felfedte a mesterséges intelligenciabot titkos tesztjét a legjobb Go játékosok legyőzésére . // Természet (2017. január 4.). Letöltve: 2017. január 4. Az eredetiből archiválva : 2017. január 5.. (határozatlan)
↑ Egy másik játék döntetlennel végződött, mivel egy játékos hálózati problémák miatt megszakadt a szervertől. De az eredményt nem számolták a FoxGo szerveren, mert a kapcsolat megszakítása a játék legelején történt.
↑ 横扫中日韩棋手斩获59胜的Master发话：我是阿尔法狗. // 澎湃新闻 (2017. január 4.). Letöltve: 2017. január 5. Az eredetiből archiválva : 2020. szeptember 30. (határozatlan)
↑ The Future of Go Summit, Match One: Ke Jie & AlphaGo a YouTube -on , 5:58:50-től (2017. május 23.)
↑ A Go rejtelmeinek felfedezése az AlphaGóval és Kína legjobb játékosaival (2017. április 10.). Letöltve: 2017. április 10. Az eredetiből archiválva : 2017. április 11.. (határozatlan)
↑ Az AlphaGo visszavonul a versenytárs Go-tól, miután 3-0-ra legyőzte a világelső The Verge-t . Letöltve: 2017. június 4. Az eredetiből archiválva : 2017. június 7.. (határozatlan)
↑ 【柯洁战败解密】AlphaGo Master最新架构和算法，谷歌云与TPU拆解 (kínai) . Sohu (2017. május 24.). Letöltve: 2017. június 1. Az eredetiből archiválva : 2017. szeptember 17.
↑ 1 2 3 4 AlphaGo Zero: Tanulás a semmiből . A DeepMind hivatalos weboldala (2017. október 18.). Letöltve: 2017. október 19. Az eredetiből archiválva : 2017. október 19. (határozatlan)
↑ 1 2 3 4 Ezüst, David; Schrittwieser, Julianus; Simonyan, Karen; Antonoglou, Ioannis; Huang, Aja; Guez, Arthur; Hubert, Thomas; Baker, Lucas; Lai, Matthew; Bolton, Adrian; Chen, Yutian; Lilicrap, Timothy; Fan, Hui; Sifre, Laurent; Driessche, George van den; Graepel, Thore; Hassabis, Demis. A Go játék elsajátítása emberi tudás nélkül (angol) // Nature : Journal. - 2017. - október 19. ( 550. évf. , 7676. sz.). - P. 354-359 . — ISSN 0028-0836 . - doi : 10.1038/nature24270 . Sablon: Zárt hozzáférés
↑ Általános megerősítő tanulási algoritmus, amely elsajátítja a sakkot, a shogit és az önálló játékot | tudomány . Letöltve: 2021. február 16. Az eredetiből archiválva : 2021. március 8. (határozatlan)
↑ Go játékosok értékelése . Letöltve: 2016. július 12. Az eredetiből archiválva : 2017. április 1.. (határozatlan)
↑ Levinovitz A. A Go rejtélye, az ősi játék, amelyet a számítógépek még mindig nem nyerhetnek . // Vezetékes hírek . Hozzáférés dátuma: 2016. január 30. Az eredetiből archiválva : 2016. január 31.
↑ Schraudolph NN, Dayan P., Sejnowski TJ Pozícióértékelés időbeli különbségtanulása a Go játékban. // A neurális információfeldolgozó rendszerek fejlődése. - 1994. - S. 817.
↑ Demis Hassabis Hogyan működik a mesterséges intelligencia (AI) a DeepMind (Voice Hello Robots) a YouTube -on , 6:50-től
↑ A Google az AI „áttörést” a Go bajnokának legyőzésével éri el . // BBC News (2016. január 27.). Letöltve: 2016. július 12. Az eredetiből archiválva : 2016. január 30. (határozatlan)
↑ Mullen J. A számítógép nagy győzelmet aratott az emberek ellen az ősi Go játékban . // CNN (2016. január 28.). Archiválva az eredetiből 2016. február 5-én. (határozatlan)
↑ Az Ormerod D. Zen számítógépes Go program mindössze 4 kővel legyőzi Takemiya Masakit! (nem elérhető link) . // Go Game Guru. Hozzáférés dátuma: 2016. január 28. Az eredetiből archiválva : 2016. február 1.. (határozatlan)
↑ Cambier A. Le Corps sans limits (francia) . — Nyomja meg az Univ. Septentrion, 2016. - P. 100. - 146 p. — ISBN 9782757414859 .
↑ Gershgorn D. A Google AlphaGo legyőzte a világbajnokot a harmadik meccsen, és megnyerte a teljes sorozatot . // Népszerű tudomány (2016. március 12.). Letöltve: 2016. november 13. Az eredetiből archiválva : 2016. december 16. (határozatlan)
↑ Hoffman W. Elon Musk szerint a Google Deepmind's Go Victory 10 éves ugrás a mesterséges intelligencia számára . // Inverz (2016. március 9.). Letöltve: 2016. március 12. Az eredetiből archiválva : 2016. március 12. (határozatlan)
↑ Silver et al., 2016 , p. 484.
↑ A Google DeepMind számítógépe, az AlphaGo megnyeri az emberi bajnokot a Go meccseken . // CBC News (2016. március 12.). Letöltve: 2016. március 13. Az eredetiből archiválva : 2016. március 13. (határozatlan)
↑ Yan S. A Google számítógépe győzött a „Go” világbajnok felett . // CNN Money (2016. március 12.). Letöltve: 2016. március 13. Az eredetiből archiválva : 2016. március 13. (határozatlan)
↑ Borowiec S., Lien T. Az AlphaGo legyőzte a human Go bajnokot a mesterséges intelligencia mérföldkövében . // Los Angeles Times (2016. március 12.). Letöltve: 2016. március 13. Az eredetiből archiválva : 2016. március 12. (határozatlan)
↑ Zastrow M. Dél-Korea 860 millió dolláros mesterségesintelligencia-alapot trombitált az AlphaGo „sokkja” után // Nature News. - 2016. - március 18. - doi : 10.1038/természet.2016.19595 .
↑ Zhang Z. Amikor az orvosok találkoznak az AlphaGóval: a gépi tanulás lehetséges alkalmazása a klinikai gyógyászatban // Annals of Translational Medicine. — 2016-03-01. - T. 4 , sz. 6 . — ISSN 2305-5839 . - doi : 10.21037/atm.2016.03.25 .
↑ Byford S. DeepMind alapítója, Demis Hassabis arról, hogyan alakítja a mesterséges intelligencia a jövőt . // The Verge (2016. március 10.). Letöltve: 2016. július 12. Az eredetiből archiválva : 2016. július 11. (határozatlan)
↑ Az AlphaGo alakíthatja az egészségügy jövőjét (a link nem érhető el) . // Az orvosi futurista (2016. április 5.). Letöltve: 2016. július 12. Az eredetiből archiválva : 2016. július 14. (határozatlan)
↑ Ember vs. gép: A Google mesterséges intelligenciája felveszi az ókori kínai társasjátékok nagymesterét (angol) . // ABC News (2016. március 8.). Letöltve: 2016. július 12. Az eredetiből archiválva : 2016. június 15.
↑ Silver et al., 2016 , Methods, p. 489.
↑ Arlazarov V. L. Sakkprogramok algoritmusai . // acm.mipt.ru. Letöltve: 2016. július 12. Az eredetiből archiválva : 2016. október 9.. (határozatlan)
↑ 1 2 Metz C. A Google mesterséges intelligenciája megnyeri a második kulcsfontosságú meccset a Match With Go Grandmaster játékban . // Vezetékes Hírek (2016. március 10.). Letöltve: 2016. március 12. Az eredetiből archiválva : 2016. március 11.. (határozatlan)
↑ Silver N. A jel és a zaj: Miért nem sikerül oly sok jóslat, de néhányan nem ? — Pingvin, 2012-09-27. — 449 p. - P. 195. - ISBN 9781101595954 .
↑ 3. mérkőzés – Google DeepMind Challenge Match: Lee Sedol vs AlphaGo a YouTube -on , 22:30-tól
↑ 4. mérkőzés – Google DeepMind Challenge Match: Lee Sedol vs AlphaGo a YouTube -on , 6:09:35-től
↑ Google AlphaGo és gépi tanulás (Alphago Korean Press Briefing 2/2) a YouTube -on
↑ 1 2 Maas D. Hogyan működik az AlphaGo . // Maas Digital (2016. január 28.). Letöltve: 2016. szeptember 29. Az eredetiből archiválva : 2016. október 5..
↑ 1 2 Burger C. Google DeepMind AlphaGo: Hogyan működik . // A megszemélyesítésről és az adatokról (2016. március 16.). Letöltve: 2016. november 1. Az eredetiből archiválva : 2016. november 1.. (határozatlan)
↑ Schaeffer J., Burch N., Björnsson Y., Kishimoto A., Müller M., Lake R., Lu P., Sutphen S. Checkers is Solved // Science . - 2007. - T. 317., 5844. sz. - P. 1518–22. - doi : 10.1126/tudomány.1144079 . — PMID 17641166 .
↑ Konvolúciós neurális hálózatok (LeNet) – DeepLearning 0.1 dokumentáció (nem elérhető hivatkozás) . // DeepLearning 0.1 (LISA Lab). Letöltve: 2013. augusztus 31. Az eredetiből archiválva : 2017. december 28.. (határozatlan)
↑ A Clark L. DeepMind AI egy Atari játékprofi . // Vezetékes UK. Letöltve: 2016. november 1. Az eredetiből archiválva : 2016. május 21.. (határozatlan)
↑ Silver et al., 2016 , Methods.
↑ 1 2 Csernyikov A. A Go-4 krónikái. A meccs után . // Számítógépes Szemle (2016. március 18.). Hozzáférés időpontja: 2016. június 6. Az eredetiből archiválva : 2016. augusztus 2.. (határozatlan)
↑ 1 2 Huang A. Alpha Go: A mély neurális hálózatok kombinálása a fakereséssel // Keynote Lecture CG2016 konferencia a YouTube -on , 27:00
↑ Huang A. Alpha Go: A mély neurális hálózatok kombinálása a fakeresővel // Keynote Lecture CG2016 konferencia a YouTube -on, 27:45 -től
↑ Egy Nature cikk ( Silver et al., 2016 Archivált 2019. szeptember 24-én a Wayback Machine -nél ) azt állította, hogy az AlphaGo stratégiai hálózat 24%-os valószínűséggel jósolta meg egy személy lépését, de később az egyik szerző, Aya Huan kijelentette, hogy ez adatok hibásak. Lásd: Huang A. Alpha Go: A mély neurális hálózatok kombinálása a fakereséssel // Keynote Lecture CG2016 konferencia a YouTube -on 34:45-től
↑ 李世乭：即使Alpha Go得到升级也一样能赢 (kínai) . // JoongAng Ilbo (2016. február 23.). Letöltve: 2016. június 7. Az eredetiből archiválva : 2016. március 4..
↑ Silver et al., 2016 , 8. táblázat.
↑ Silver et al., 2016 , 6. táblázat.
↑ Leszámolás: Nyerj vagy veszíts, egy számítógépes program versenye egy profi Go-játékos ellen újabb mérföldkő az AI- ban . // The Economist (2016. március 12.). Letöltve: 2017. szeptember 28. Az eredetiből archiválva : 2017. augusztus 14..
↑ McMillan R. A Google nem játszik új chippel . // Wall Street Journal (2016. május 18.). Letöltve: 2016. június 26. Az eredetiből archiválva : 2016. június 29. (határozatlan)
↑ Jouppi N. A Google a gépi tanulási feladatokat TPU egyedi chippel tölti fel . // Google Cloud Platform Blog (2016. május 18.). Letöltve: 2016. június 26. Az eredetiből archiválva : 2016. május 18..
↑ The Future of Go Summit, Match One: Ke Jie & AlphaGo a YouTube -on , 6:03:10-től (2017. május 23.)
↑ 1 2 Gibney E. A Google AI algoritmusa elsajátítja a Go ősi játékát . // Nature News & Comment (2016. január 27.). Letöltve: 2016. február 3. Az eredetiből archiválva : 2019. május 2. (határozatlan)
↑ Lee Sedol "nem könnyű" játékot vár AlphaGo-val a 3rd Go meccsen . // Shanghai Daily (2016. március 10.). Letöltve: 2016. március 10. Az eredetiből archiválva : 2016. március 11.. (határozatlan)
↑ Nie Weiping 9d: "Az AlphaGo egy 6-7 danos profi az elején; 13d játék közben; 15d végjáték" . // Reddit (2016. március 15.). Letöltve: 2016. szeptember 13. Az eredetiből archiválva : 2016. július 1.. (határozatlan)
↑ A Byford S. AlphaGo ismét legyőzte Lee Se-dolt, és megnyerte a Google DeepMind Challenge sorozatát . // The Verge (Vox Media) (2016. március 12.). Letöltve: 2016. március 12. Az eredetiből archiválva : 2016. március 13. (határozatlan)
↑ 12 _ _ _ _ _ _ // Go Game Guru (2016. március 13.). Hozzáférés dátuma: 2016. november 4. Az eredetiből archiválva : 2016. november 16.
↑ Tanguy C. The Go Files: Az AI számítógép 4-1-es győzelmet aratott az emberi bajnok ellen . // Természet (2016. március 15.). Letöltve: 2016. szeptember 13. Az eredetiből archiválva : 2016. szeptember 17..
↑ Huang A. Alpha Go: Combining Deep Neural Networks with Tree Search // Keynote Lecture CG2016 konferencia a YouTube -on , 37:28-tól
↑ Audureau, W. Jeu de go: pour Lee Sedol, la victoire de la machine est moins tactique que psychologique (francia) . // Le Monde (2016. március 15.). Letöltve: 2016. június 13. Az eredetiből archiválva : 2016. március 16.
↑ Tian Y., Zhu Y. Better Computer Go Player neurális hálózattal és hosszú távú előrejelzéssel // ICLR 2016. - 2016. - február 29. - arXiv : 1511.06410v3 .
↑ HAL 90210 No Go: A Facebooknak nem sikerült elrontania a Google nagy mesterségesintelligencia-napját ( 2016. január 28.). Letöltve: 2016. február 1. Az eredetiből archiválva : 2016. március 15.
↑ Hassabis D. Strachey előadás . // Az új élő közvetítés. Letöltve: 2016. március 17. Az eredetiből archiválva : 2016. március 16.. (határozatlan)
↑ 「DEEP ZEN GO プロジェクト」発表。AlphaGo対抗の囲碁ソフト開発をドト開発をドワン ) . Letöltve: 2016. július 13. Az eredetiből archiválva : 2016. július 6..
↑ Jiji. A Go master Cho megnyeri a háromból legjobb sorozatot a japán mesterséges intelligencia ellen . // The Japan Times Online (2016. november 24.). Letöltve: 2016. november 27. Az eredetiből archiválva : 2017. augusztus 14.. (határozatlan)
↑ Bolton A. Az emberek visszavágnak: a koreai Go mester a legjobb mesterséges intelligencia társasjáték-mérkőzésen . // CNET (2016. november 23.). Letöltve: 2016. november 27. Az eredetiből archiválva : 2016. november 25.. (határozatlan)

Linkek

deepmind.com/alpha-go.html - az AlphaGo hivatalos webhelye
AlphaGo játékok (beleértve a Fan Hui -val , Lee Sedol -lal , saját magával, valamint a Tygem szerveren található nem hivatalos játékokat ).

Megy

Sztori
Játékosok

Leltár

Goban
kövek
Néz
Kifu

Szabályok

Tábornok	Komi A buli elhalasztása Időszabályozás Hátrány ko szabály
Lehetőségek	AGA szabályok Inga szabályai Inga egyszerűsített szabályai Kínai szabályok Japán szabályok Tromp-Taylor szabályok

A játék szakaszai

Terminológia

Kisülések

Szervezetek

Címek

Nemzetközi
versenyek

Folyamatban lévő	World Mind Games 2008 2012 Amatőr Világbajnokság Európa-bajnokság Inga Kupa LG Cup Samsung Cup
történelmi	Nyári Ázsiai Játékok (2010) IMSA Kupa (2008) Fujitsu világbajnokság (2011-ben törölték) Ooteai (2003-ban törölték)

Menj a művészetbe

Irodalom	Meijin Shibumi Satori játék megy Lépések az üvegen Pops Corporation Jacob de Zoet: Ezer ősz Starborne
Animáció és mozi	hikaru és menj A Go mestere Elmejáték Hős Pi Tron: Örökség farkaskölyök Kő Isten egyetlen mozdulata Sikertelen élet Válasz 1988-ban

Egyéb

Könyv
Portál

Mesterséges intelligencia
Sztori	A mesterséges intelligencia története A mesterséges intelligencia tél Dartmouth szeminárium
Filozófia	Turing teszt Kínai szoba Erős és gyenge mesterséges intelligencia Barátságos mesterséges intelligencia A mesterséges intelligencia etikája Vezérlési probléma
Útvonalak	Ügynöki megközelítés Adaptív vezérlés Tudásmérnöki Életképes rendszermodell Gépi tanulás Neurális hálózat zavaros logika természetes nyelvi feldolgozás Mintafelismerés Raj Intelligencia Szimbolikus AI Evolúciós algoritmusok Szakértői rendszer
Alkalmazás	Hangvezérlés Osztályozási probléma Dokumentum minősítés Dokumentumcsoportosítás klaszteranalízis Helyi keresés Gépi fordítás Optikai karakter felismerés Beszédfelismerés Kézírás felismerés Játék AI
Kutatók	Charles Babbage Vladimir Vapnik Weizenbaum József Wiener Norbert Viktor Glushkov Vlagyimir Gorodetszkij Jan LeCun Alekszej Ljapunov John McCarthy Marvin Minsky Allen Newell Seymour Papert Judah Pearl Germogen Poszpelov Dmitrij Poszpelov Frank Rosenblatt Herbert Sándor Simon Alan Turing Patrick Winston Victor Finn Szergej Fomin Demis Hassabis Geoffrey Hinton Noam Chomsky Claude Shannon Andrew Eun Eliezer Judkovszkij