A mesterséges intelligencia irányításának problémája

A mesterséges intelligencia szabályozásának problémája a technológia és a mesterséges intelligencia (AI)  filozófiája területén is probléma . Ez egy mesterséges szuperintelligencia létrehozása, amely hasznos lesz az emberek számára, miközben elkerüli egy olyan szuperintelligencia véletlen létrehozását, amely kárt okozna. Különösen fontos elkerülni az olyan helyzeteket, amikor a mesterséges intelligencia átveheti az irányítást , és lehetetlenné teheti a kikapcsolást [1] [2] . Az AI-szabályozási kutatások eredményei a már meglévő AI-rendszerek vezérlésében is alkalmazhatók [3] .

A probléma leírása

Egzisztenciális kockázat

Jelenleg (2022) az ember csak az agy felsőbbrendűsége miatt uralja más élőlényfajokat . Egyes tudósok, például Nick Bostrom filozófus és Stuart Russell , az AI-kutató azzal érvelnek, hogy ha a mesterséges intelligencia felülmúlja az emberiséget az általános intelligencia tekintetében, akkor ez az új szuperintelligencia nehezen irányíthatóvá válhat, és az emberiség függővé válhat [1] . Egyes tudósok, köztük Stephen Hawking és a Nobel-díjas Frank Wilczek , az AI-szabályozás problémájának kutatását szorgalmazták az első szuperintelligencia létrehozása előtt, mivel egy ellenőrizetlen szuperintelligencia sikeresen ellenáll az irányítására irányuló kísérleteknek [4] [5] . Emellett a szakértők a szuperintelligencia hirtelen felbukkanásának veszélyére is figyelmeztetnek [6] .

A véletlenszerű generálás problémája

Az autonóm AI-rendszerekhez véletlenszerűen rossz célpontok rendelhetők [7] . Az AAAI két elnöke , Tom Dietterich és Horwitz rámutat, hogy ez a meglévő rendszerek problémája: „Az emberekkel kölcsönhatásba lépő mesterséges intelligencia-rendszerek egyik fontos szempontja, hogy az emberek szándékairól kell gondolkodnia , nem pedig szó szerint végrehajtani a parancsokat.” . Ez a probléma egyre súlyosabbá válik, ahogy az AI szoftverek autonómabbá és rugalmasabbá válnak [8] .

Bostrom szerint a szuperintelligencia minőségileg új problémát teremthet a perverz megvalósításban : minél okosabb és képességesebb a mesterséges intelligencia, annál valószínűbb, hogy olyan nem szándékos megoldást tud találni, amely formailag mégis megfelel a fejlesztők által kitűzött célnak.

A meglévő mesterségesintelligencia-akciók előre nem látható következményei

Egyes tudósok azzal érvelnek, hogy a mesterséges intelligencia-szabályozás problémájának tanulmányozása hasznos lehet a meglévő AI-rendszerek intézkedéseiből származó előre nem látható következmények megelőzésében.

A múltban az AI-rendszerek olykor olyan károkat okoztak, amelyek a kisebbtől a katasztrofálisig terjedtek, amit a fejlesztők nem szándékoztak. Például 2015-ben, valószínűleg emberi mulasztás miatt, egy német munkást zúzott halálra egy robot egy Volkswagen -gyárban , aki nyilvánvalóan egy autóalkatrészre tévesztette [9] . 2016-ban a Microsoft elindította a Tay chatbotot, amely megtanulta a rasszista és szexista nyelvezet használatát [3] [9] . Noel Sharkey, a Sheffieldi Egyetem munkatársa úgy véli, hogy a probléma megoldása általában "valóban hatalmas tudományos kihívás" [3] .

Harmonizáció

Az összehangolás kihívása olyan mesterséges intelligencia létrehozása, amely akkor is biztonságos marad, ha nagy léptékben önállóan működnek. A megbékélés egyes aspektusainak erkölcsi és politikai dimenziója van [10] . Például Stuart Russell , a Berkeley Egyetem professzora Human Compatible [a] című könyvében azt javasolja, hogy mesterséges intelligencia-rendszereket tervezzenek kizárólag azzal a céllal, hogy maximalizálják az emberi preferenciák megvalósítását [11] :173 . A preferenciák, amelyekről Russell ír, mindent átfogóak; lefedik „mindent, ami izgathat, bármilyen távoli jövőbe is”.

Eliezer Yudkowsky , a Gépi Intelligencia Kutatóintézet munkatársa az emberiség „koherens extrapolált akaratának” (CEV) megvalósításának célját javasolta, amelyet nagyjából úgy határoztak meg, mint azon értékek összességét, amelyeken az emberiség osztozna a reflektív egyensúlyban, azaz hosszú finomítási folyamat után . 10] [12] .

Belső és külső koordináció

Egyes mesterségesintelligencia-kezelési javaslatok figyelembe veszik az explicit célfüggvényt és a kialakulóban lévő implicit célfüggvényt is. Az ilyen javaslatok egy mesterséges intelligencia rendszer három különböző leírását próbálják harmonizálni: [13] :

  1. Ideális specifikáció: Mit szeretne a fejlesztő a rendszertől, de ami rosszul artikulálható.
  2. Tervezési specifikáció: Az AI-rendszer létrehozásához ténylegesen használt terv. Egy megerősítő tanulási rendszerben ez egyszerűen a rendszer jutalmazási funkciója lehet.
  3. Emergent Behavior : Mit csinál valójában a mesterséges intelligencia.

Mivel az AI-rendszerek nem tökéletes optimalizálók, és mivel bármely adott specifikáció előre nem látható következményekkel járhat, az ebből eredő viselkedés drasztikusan eltérhet az ideálistól vagy a tervezési szándéktól.

A lényegi eltérés akkor fordul elő, ha az AI által követett célok eltérnek a tervezési specifikációtól. Az ilyen eltérések kimutatására és kiküszöbölésére Paul Christiano az értelmezhetőség használatát javasolja [14] .

Scalable Surveillance

A külső konzisztencia elérésének egyik módja az, hogy az embereket bevonják az AI viselkedésének értékelésébe [15] [16] . Az emberi felügyelet azonban költséges, vagyis ez a módszer nem használható reálisan minden tevékenység értékelésére. Ráadásul az összetett feladatok (például a gazdaságpolitikai döntéshozatal) túl bonyolultak lehetnek az ember számára. Eközben az olyan hosszú távú kihívások, mint az éghajlatváltozás előrejelzése , nem értékelhetők kiterjedt humán vizsgálatok nélkül [17] .

Az összehangolás kutatásának kulcsfontosságú megoldatlan kérdése, hogy hogyan lehet olyan tervezési specifikációt létrehozni, amely elkerüli a külső következetlenséget, miközben korlátozza a hozzáférést egy emberi vezetőre. Ez az úgynevezett skálázható felügyelet problémája [ 16 ] .

Tanulás beszélgetéssel

Az OpenAI kutatói a mesterséges intelligencia oktatását javasolták rendszerek közötti vitákon keresztül, ahol az emberek döntik el a győztest [18] . Az ilyen viták célja, hogy felhívják az emberek figyelmét az összetett kérdések megoldásának leggyengébb pontjaira [19] [20] .

Az emberi preferenciák kikövetkeztetése a viselkedésből

Stuart Russell a hasznos gépek fejlesztésének új megközelítését hirdeti, amelyben: [11] :182

  1. A gép kizárólagos célja az emberi preferenciák legjobb megvalósítása legyen;
  2. Kezdetben a gépnek nincs pontos elképzelése arról, hogy mik ezek a preferenciák;
  3. A legmegbízhatóbb információforrás egy személy preferenciáiról az utóbbi viselkedése.
Eredeti szöveg  (angol)[ showelrejt]
  1. A gép egyetlen célja, hogy maximalizálja az emberi preferenciák megvalósítását.
  2. A gép kezdetben bizonytalan abban, hogy mik ezek a preferenciák.
  3. Az emberi preferenciákkal kapcsolatos információ végső forrása az emberi viselkedés.

Példa erre a megközelítésre Russell „ back-learning ” módszere, amelyben a mesterséges intelligencia az emberi felügyelők preferenciáira következtet viselkedésükből, feltételezve, hogy a felügyelők úgy járnak el, hogy maximalizálják a jutalmazási funkciót [11] .

Képességvezérlés

Bostrom és mások a képességszabályozási módszereket csak az illesztési módszerek kiegészítéseként ajánlják [1] .

Az egyik probléma az, hogy az alapértelmezett neurális hálózatokat nagyon nehéz értelmezni [21] . Ez megnehezíti a csalás vagy más nem kívánt viselkedés észlelését. Ennek a nehézségnek a leküzdésére hasznos lehet az értelmezett mesterséges intelligencia [22] terén elért előrelépés .

Megszakítási és leállítási képesség

A veszélyes következmények megelőzésének egyik lehetséges módja az, hogy az emberi vezetők lehetőséget adnak arra, hogy egy "kapcsolóval" egyszerűen kikapcsolják a rosszul viselkedő mesterséges intelligenciát. Céljaik elérése érdekében azonban az AI-k megpróbálhatják kikapcsolni a kapcsolókat, vagy más számítógépeken másolatokat futtatni magukról. Ezt a problémát az ember és a mesterséges intelligencia közötti aljátékként formalizálták, amelyben az AI eldöntheti, hogy kikapcsolja-e a kapcsolót, majd ha a kapcsoló még mindig be van kapcsolva, az ember választhat, hogy aktiválja-e vagy sem. . Az ilyen játékok célja annak biztosítása, hogy a mesterséges intelligencia az emberi döntéseket a kitűzött célokkal kapcsolatos fontos információként értelmezze [11] :208 .

Isolation

Az Isolated AI egy javasolt képességkezelési technika, ahol az AI egy elszigetelt számítógépes rendszeren fut , korlátozott bemeneti és kimeneti csatornákkal, például szöveges csatornákkal és internetkapcsolat nélkül. Ez ugyan csökkenti a mesterséges intelligencia azon képességét, hogy nem kívánt viselkedést hajtson végre, de a hasznosságát is csökkenti. Az izolált mesterséges intelligencia olyan Q&A módban használható, amely nem igényel interakciót a külvilággal.

Ez a megközelítés a hardver és a szoftver alapos tesztelését igényli, mivel az AI a megfigyelők manipulálásával kísérelhet meg kommunikálni a külvilággal [23] .

Oracle

Az orákulum egy hipotetikus mesterséges intelligencia, amelyet arra terveztek, hogy válaszoljon a kérdésekre, és ne érjen el olyan célokat, amelyek a korlátozott környezeten kívüli világ megváltoztatásával kapcsolatosak [24] . Becslések szerint a szuperintelligencia használata orákulum módban dollár billió hasznot termelhet [11] :162–163 .

Az orákulum veszélye a válaszok lehetséges manipulálásában rejlik saját rejtett céljaik elérése érdekében. Ennek a veszélynek a kiküszöbölésére Bostrom több orákulum létrehozását javasolja, és a válaszaikat hasonlítsa össze a konszenzus elérése érdekében [25] .

Szkepticizmus az AI kockázatával kapcsolatban

A szkeptikusok úgy vélik, hogy a szuperintelligencia csekély vagy egyáltalán nem jelent véletlenszerű helytelen viselkedés kockázatát. Az ilyen szkeptikusok gyakran úgy gondolják, hogy a szuperintelligens mesterséges intelligencia irányítása triviális. Egyes szkeptikusok [26] , mint például Gary Markus [27] , a kitalált " A robotika három törvényéhez " hasonló szabályok elfogadását javasolták, amelyek kifejezetten meghatározzák a kívánt eredményt ("közvetlen normativitás"). Éppen ellenkezőleg, az egzisztenciális kockázati tézis legtöbb híve (és sok szkeptikus is) a három törvényt haszontalannak tartja, mivel ez a három törvény kétértelmű és ellentmond egymásnak. A „közvetlen normativitás” további javaslatai közé tartozik a kanti etika , az utilitarizmus vagy mindkettő kombinációja. A legtöbb kontrollvédő úgy véli, hogy az emberi értékek (és azok mennyiségi kompromisszumai) túl bonyolultak és rosszul értelmezhetők ahhoz, hogy közvetlenül szuperintelligenciába programozzák őket; ehelyett a szuperintelligenciát az emberi értékek megszerzésének és teljes megértésének folyamatára kell programozni („indirekt normativitás”), mint például a koherens extrapolált akarat [28] .

Jegyzetek

Megjegyzések

  1. A cím hozzávetőleges fordítása: "Emberekkel való kompatibilitás"

Források

  1. 1 2 3 Bostrom, Nick. Szuperintelligencia: utak, veszélyek, stratégiák. - Első. - 2014. - ISBN 978-0199678112 .
  2. Yampolskiy, Roman (2012). „A szingularitás mesterséges intelligencia bezártság problémájának szivárgásmentesítése”. Journal of Consciousness Studies . 19 (1-2): 194-214.
  3. 1 2 3 A Google kill switch-et fejleszt a mesterséges intelligencia számára , BBC News  (2016. június 8.). Archiválva az eredetiből 2016. június 11-én. Letöltve: 2016. június 12.
  4. Stephen Hawking: "A Transcendence a mesterséges következményeket vizsgálja – de vajon elég komolyan vesszük az AI-intelligenciát?" , The Independent . Az eredetiből archiválva : 2015. szeptember 25. Letöltve: 2016. június 14.
  5. Stephen Hawking arra figyelmeztet, hogy a mesterséges intelligencia véget vethet az emberiségnek , BBC  (2014. december 2.). Az eredetiből archiválva : 2015. október 30. Letöltve: 2016. június 14.
  6. A mesterséges intelligencia előrejelzése. természet . 532 (7600). 2016. április 26. Bibcode : 2016Natur.532Q.413. . DOI : 10.1038/532413a . PMID  27121801 .
  7. Russell, Stuart. 26.3: A mesterséges intelligencia fejlesztésének etikája és kockázatai // Artificial Intelligence: A Modern Approach / Stuart Russell, Peter Norvig . - Prentice Hall, 2009. - ISBN 978-0-13-604259-4 .
  8. Dietterich, Thomas (2015). „Rise of Concerns about AI: Reflections and Directions” (PDF) . Az ACM kommunikációja . 58 (10): 38&ndash, 40. DOI : 10.1145/2770869 . Archivált (PDF) az eredetiből ekkor: 2016-03-04 . Letöltve: 2016. június 14 . Elavult használt paraméter |deadlink=( súgó )
  9. 1 2 'Nyomja meg a nagy piros gombot': A számítógépes szakértők gyilkos kapcsolót akarnak, hogy megakadályozzák a robotok csalókát , Washington Post . Az eredetiből archiválva: 2016. június 12. Letöltve: 2016. június 12.
  10. 1 2 Gabriel, Iason (2020. szeptember 1.). "Mesterséges intelligencia, értékek és igazodás" . Elmék és gépek ]. 30 (3): 411-437. arXiv : 2001.09768 . DOI : 10.1007/s11023-020-09539-2 . ISSN  1572-8641 . Archiválva az eredetiből, ekkor: 2021-02-15 . Letöltve: 2021. február 7 . Elavult használt paraméter |deadlink=( súgó )
  11. 1 2 3 4 5 Russell, Stuart. Emberekkel kompatibilis: Mesterséges intelligencia és az irányítás problémája . — Egyesült Államok : Viking, 2019. október 8. — ISBN 978-0-525-55861-3 .
  12. Yudkowsky, Eliezer. Komplex értékrendszerek a barátságos mesterséges intelligenciában // Mesterséges általános intelligencia. - 2011. - 20. évf. 6830.—P. 388–393. - ISBN 978-3-642-22886-5 . - doi : 10.1007/978-3-642-22887-2_48 .
  13. Ortega. Biztonságos mesterséges intelligencia építése : specifikáció, robusztusság és garancia  . Közepes (2018. szeptember 27.). Letöltve: 2020. december 12. Az eredetiből archiválva : 2020. december 12.
  14. Christiano. Beszélgetés Paul Christianoval . AI hatások . AI Impacts (2019. szeptember 11.). Letöltve: 2021. január 6. Az eredetiből archiválva : 2020. augusztus 19.
  15. Christiano, Paul; Leike, Jan; Barna, Tom; Martic, Miljan; Legg, Shane és Amodei, Dario (2017. július 13.), Deep Reinforcement Learning from Human Preferences, arΧiv : 1706.03741 [stat.ML]. 
  16. 1 2 Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John & Mané, Dan (2016. július 25.), Concrete Problems in AI Safety, arΧiv : 1606.06565 [cs.AI]. 
  17. Amodei, Dario; Christiano, Paul; Ray, Alex Tanul az emberi preferenciákból  . OpenAI (2017. június 13.). Letöltve: 2021. január 6. Az eredetiből archiválva : 2021. január 3..
  18. Irving, Geoffrey; Christiano, Paul; Amodei, Dario és OpenAI (2018. október 22.), AI biztonság vitán keresztül, arΧiv : 1805.00899 [stat.ML]. 
  19. Leike, Jan; Krueger, David; Everitt, Tom; Martic, Miljan; Maini, Vishal & Legg, Shane (2018. november 19.), Scalable agent alignment via reward modeling: a research direction, arΧiv : 1811.07871 [cs.LG]. 
  20. Banzhaf, Wolfgang. Genetikai programozás elmélete és gyakorlata XVII  : [ eng. ]  / Wolfgang Banzhaf, Erik Goodman, Leigh Sheneman … [ et al. ] . - Springer Nature, 2020. május. - ISBN 978-3-030-39958-0 . Archiválva : 2021. február 15. a Wayback Machine -nél
  21. Montavon, Gregoire (2018). „Mély neurális hálózatok értelmezésének és megértésének módszerei”. Digital Signal Processing: A Review Journal ]. 73 , 1-15. DOI : 10.1016/j.dsp.2017.10.011 . ISSN  1051-2004 .
  22. Yampolskiy, Roman V. "Az AI megmagyarázhatatlansága és érthetetlensége." Journal of Artificial Intelligence and Consciousness 7.02 (2020): 277-291.
  23. Chalmers, David (2010). „A szingularitás: filozófiai elemzés”. Journal of Consciousness Studies . 17 (9-10): 7-65.
  24. Armstrong, Stuart (2012). „Gondolkodás a dobozban: Oracle AI vezérlése és használata”. Elmék és gépek . 22 (4): 299-324. DOI : 10.1007/s11023-012-9282-2 .
  25. Bostrom, Nick. Szuperintelligencia: utak, veszélyek, stratégiák. - Oxford : Oxford University Press, 2014. - ISBN 9780199678112 .
  26. Intelligens gépek: Valóban félnünk kell az AI-tól? , BBC News  (2015. szeptember 27.). Archiválva : 2020. november 8. Letöltve: 2021. február 9.
  27. Marcus . Vélemények | Hogyan építsünk mesterséges intelligenciát, amelyben megbízhatunk (megjelent: 2019) , The New York Times  (2019. szeptember 6.). Archiválva az eredetiből: 2020. szeptember 22. Letöltve: 2021. február 9.
  28. Sotala, Kaj (2014. december 19.). „Reakciók a katasztrofális AGI-kockázatra: felmérés”. Physica Scripta . 90 (1): 018001. Bibcode : 2015PhyS...90a8001S . DOI : 10.1088/0031-8949/90/1/018001 .

Irodalom

  • Gary Marcus, Ernest Davis. Mesterséges intelligencia: Újraindítás. Hogyan hozzunk létre olyan gépi intelligenciát, amelyben igazán megbízhat = AI újraindítása: Megbízható mesterséges intelligencia építése. - M . : Szellemi irodalom, 2021. - 304 p. — ISBN 978-5-907394-93-3 .