A mesterséges intelligencia szabályozásának problémája a technológia és a mesterséges intelligencia (AI) filozófiája területén is probléma . Ez egy mesterséges szuperintelligencia létrehozása, amely hasznos lesz az emberek számára, miközben elkerüli egy olyan szuperintelligencia véletlen létrehozását, amely kárt okozna. Különösen fontos elkerülni az olyan helyzeteket, amikor a mesterséges intelligencia átveheti az irányítást , és lehetetlenné teheti a kikapcsolást [1] [2] . Az AI-szabályozási kutatások eredményei a már meglévő AI-rendszerek vezérlésében is alkalmazhatók [3] .
Jelenleg (2022) az ember csak az agy felsőbbrendűsége miatt uralja más élőlényfajokat . Egyes tudósok, például Nick Bostrom filozófus és Stuart Russell , az AI-kutató azzal érvelnek, hogy ha a mesterséges intelligencia felülmúlja az emberiséget az általános intelligencia tekintetében, akkor ez az új szuperintelligencia nehezen irányíthatóvá válhat, és az emberiség függővé válhat [1] . Egyes tudósok, köztük Stephen Hawking és a Nobel-díjas Frank Wilczek , az AI-szabályozás problémájának kutatását szorgalmazták az első szuperintelligencia létrehozása előtt, mivel egy ellenőrizetlen szuperintelligencia sikeresen ellenáll az irányítására irányuló kísérleteknek [4] [5] . Emellett a szakértők a szuperintelligencia hirtelen felbukkanásának veszélyére is figyelmeztetnek [6] .
Az autonóm AI-rendszerekhez véletlenszerűen rossz célpontok rendelhetők [7] . Az AAAI két elnöke , Tom Dietterich és Horwitz rámutat, hogy ez a meglévő rendszerek problémája: „Az emberekkel kölcsönhatásba lépő mesterséges intelligencia-rendszerek egyik fontos szempontja, hogy az emberek szándékairól kell gondolkodnia , nem pedig szó szerint végrehajtani a parancsokat.” . Ez a probléma egyre súlyosabbá válik, ahogy az AI szoftverek autonómabbá és rugalmasabbá válnak [8] .
Bostrom szerint a szuperintelligencia minőségileg új problémát teremthet a perverz megvalósításban : minél okosabb és képességesebb a mesterséges intelligencia, annál valószínűbb, hogy olyan nem szándékos megoldást tud találni, amely formailag mégis megfelel a fejlesztők által kitűzött célnak.
Egyes tudósok azzal érvelnek, hogy a mesterséges intelligencia-szabályozás problémájának tanulmányozása hasznos lehet a meglévő AI-rendszerek intézkedéseiből származó előre nem látható következmények megelőzésében.
A múltban az AI-rendszerek olykor olyan károkat okoztak, amelyek a kisebbtől a katasztrofálisig terjedtek, amit a fejlesztők nem szándékoztak. Például 2015-ben, valószínűleg emberi mulasztás miatt, egy német munkást zúzott halálra egy robot egy Volkswagen -gyárban , aki nyilvánvalóan egy autóalkatrészre tévesztette [9] . 2016-ban a Microsoft elindította a Tay chatbotot, amely megtanulta a rasszista és szexista nyelvezet használatát [3] [9] . Noel Sharkey, a Sheffieldi Egyetem munkatársa úgy véli, hogy a probléma megoldása általában "valóban hatalmas tudományos kihívás" [3] .
Az összehangolás kihívása olyan mesterséges intelligencia létrehozása, amely akkor is biztonságos marad, ha nagy léptékben önállóan működnek. A megbékélés egyes aspektusainak erkölcsi és politikai dimenziója van [10] . Például Stuart Russell , a Berkeley Egyetem professzora Human Compatible [a] című könyvében azt javasolja, hogy mesterséges intelligencia-rendszereket tervezzenek kizárólag azzal a céllal, hogy maximalizálják az emberi preferenciák megvalósítását [11] :173 . A preferenciák, amelyekről Russell ír, mindent átfogóak; lefedik „mindent, ami izgathat, bármilyen távoli jövőbe is”.
Eliezer Yudkowsky , a Gépi Intelligencia Kutatóintézet munkatársa az emberiség „koherens extrapolált akaratának” (CEV) megvalósításának célját javasolta, amelyet nagyjából úgy határoztak meg, mint azon értékek összességét, amelyeken az emberiség osztozna a reflektív egyensúlyban, azaz hosszú finomítási folyamat után . 10] [12] .
Egyes mesterségesintelligencia-kezelési javaslatok figyelembe veszik az explicit célfüggvényt és a kialakulóban lévő implicit célfüggvényt is. Az ilyen javaslatok egy mesterséges intelligencia rendszer három különböző leírását próbálják harmonizálni: [13] :
Mivel az AI-rendszerek nem tökéletes optimalizálók, és mivel bármely adott specifikáció előre nem látható következményekkel járhat, az ebből eredő viselkedés drasztikusan eltérhet az ideálistól vagy a tervezési szándéktól.
A lényegi eltérés akkor fordul elő, ha az AI által követett célok eltérnek a tervezési specifikációtól. Az ilyen eltérések kimutatására és kiküszöbölésére Paul Christiano az értelmezhetőség használatát javasolja [14] .
A külső konzisztencia elérésének egyik módja az, hogy az embereket bevonják az AI viselkedésének értékelésébe [15] [16] . Az emberi felügyelet azonban költséges, vagyis ez a módszer nem használható reálisan minden tevékenység értékelésére. Ráadásul az összetett feladatok (például a gazdaságpolitikai döntéshozatal) túl bonyolultak lehetnek az ember számára. Eközben az olyan hosszú távú kihívások, mint az éghajlatváltozás előrejelzése , nem értékelhetők kiterjedt humán vizsgálatok nélkül [17] .
Az összehangolás kutatásának kulcsfontosságú megoldatlan kérdése, hogy hogyan lehet olyan tervezési specifikációt létrehozni, amely elkerüli a külső következetlenséget, miközben korlátozza a hozzáférést egy emberi vezetőre. Ez az úgynevezett skálázható felügyelet problémája [ 16 ] .
Tanulás beszélgetésselAz OpenAI kutatói a mesterséges intelligencia oktatását javasolták rendszerek közötti vitákon keresztül, ahol az emberek döntik el a győztest [18] . Az ilyen viták célja, hogy felhívják az emberek figyelmét az összetett kérdések megoldásának leggyengébb pontjaira [19] [20] .
Stuart Russell a hasznos gépek fejlesztésének új megközelítését hirdeti, amelyben: [11] :182
Példa erre a megközelítésre Russell „ back-learning ” módszere, amelyben a mesterséges intelligencia az emberi felügyelők preferenciáira következtet viselkedésükből, feltételezve, hogy a felügyelők úgy járnak el, hogy maximalizálják a jutalmazási funkciót [11] .
Bostrom és mások a képességszabályozási módszereket csak az illesztési módszerek kiegészítéseként ajánlják [1] .
Az egyik probléma az, hogy az alapértelmezett neurális hálózatokat nagyon nehéz értelmezni [21] . Ez megnehezíti a csalás vagy más nem kívánt viselkedés észlelését. Ennek a nehézségnek a leküzdésére hasznos lehet az értelmezett mesterséges intelligencia [22] terén elért előrelépés .
A veszélyes következmények megelőzésének egyik lehetséges módja az, hogy az emberi vezetők lehetőséget adnak arra, hogy egy "kapcsolóval" egyszerűen kikapcsolják a rosszul viselkedő mesterséges intelligenciát. Céljaik elérése érdekében azonban az AI-k megpróbálhatják kikapcsolni a kapcsolókat, vagy más számítógépeken másolatokat futtatni magukról. Ezt a problémát az ember és a mesterséges intelligencia közötti aljátékként formalizálták, amelyben az AI eldöntheti, hogy kikapcsolja-e a kapcsolót, majd ha a kapcsoló még mindig be van kapcsolva, az ember választhat, hogy aktiválja-e vagy sem. . Az ilyen játékok célja annak biztosítása, hogy a mesterséges intelligencia az emberi döntéseket a kitűzött célokkal kapcsolatos fontos információként értelmezze [11] :208 .
Az Isolated AI egy javasolt képességkezelési technika, ahol az AI egy elszigetelt számítógépes rendszeren fut , korlátozott bemeneti és kimeneti csatornákkal, például szöveges csatornákkal és internetkapcsolat nélkül. Ez ugyan csökkenti a mesterséges intelligencia azon képességét, hogy nem kívánt viselkedést hajtson végre, de a hasznosságát is csökkenti. Az izolált mesterséges intelligencia olyan Q&A módban használható, amely nem igényel interakciót a külvilággal.
Ez a megközelítés a hardver és a szoftver alapos tesztelését igényli, mivel az AI a megfigyelők manipulálásával kísérelhet meg kommunikálni a külvilággal [23] .
Az orákulum egy hipotetikus mesterséges intelligencia, amelyet arra terveztek, hogy válaszoljon a kérdésekre, és ne érjen el olyan célokat, amelyek a korlátozott környezeten kívüli világ megváltoztatásával kapcsolatosak [24] . Becslések szerint a szuperintelligencia használata orákulum módban dollár billió hasznot termelhet [11] :162–163 .
Az orákulum veszélye a válaszok lehetséges manipulálásában rejlik saját rejtett céljaik elérése érdekében. Ennek a veszélynek a kiküszöbölésére Bostrom több orákulum létrehozását javasolja, és a válaszaikat hasonlítsa össze a konszenzus elérése érdekében [25] .
A szkeptikusok úgy vélik, hogy a szuperintelligencia csekély vagy egyáltalán nem jelent véletlenszerű helytelen viselkedés kockázatát. Az ilyen szkeptikusok gyakran úgy gondolják, hogy a szuperintelligens mesterséges intelligencia irányítása triviális. Egyes szkeptikusok [26] , mint például Gary Markus [27] , a kitalált " A robotika három törvényéhez " hasonló szabályok elfogadását javasolták, amelyek kifejezetten meghatározzák a kívánt eredményt ("közvetlen normativitás"). Éppen ellenkezőleg, az egzisztenciális kockázati tézis legtöbb híve (és sok szkeptikus is) a három törvényt haszontalannak tartja, mivel ez a három törvény kétértelmű és ellentmond egymásnak. A „közvetlen normativitás” további javaslatai közé tartozik a kanti etika , az utilitarizmus vagy mindkettő kombinációja. A legtöbb kontrollvédő úgy véli, hogy az emberi értékek (és azok mennyiségi kompromisszumai) túl bonyolultak és rosszul értelmezhetők ahhoz, hogy közvetlenül szuperintelligenciába programozzák őket; ehelyett a szuperintelligenciát az emberi értékek megszerzésének és teljes megértésének folyamatára kell programozni („indirekt normativitás”), mint például a koherens extrapolált akarat [28] .