Gépi fordítás

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2021. október 21-én felülvizsgált verziótól ; az ellenőrzések 5 szerkesztést igényelnek .

A gépi fordítás a szövegek (írott és ideális esetben szóbeli) egyik természetes nyelvről a másikra fordításának folyamata egy speciális számítógépes program segítségével . Az ilyen rendszerek felépítéséhez kapcsolódó tudományos kutatás irányát is ún.

A számítógépek és az emberek közötti interakció megszervezésének formái a gépi fordításban

Utószerkesztéssel: az eredeti szöveget a gép feldolgozza, és a humán szerkesztő javítja az eredményt.
Előszerkesztéssel: a személy gépi feldolgozáshoz igazítja a szöveget (kiküszöböli az esetleges félreérthető olvasatokat, leegyszerűsíti, megjelöli a szöveget), ezután kezdődik a szoftveres feldolgozás.
Intereditálással: az ember beavatkozik a fordítórendszer munkájába, nehéz esetek megoldásába.
Vegyes rendszerek (például elő- és utószerkesztéssel egyidejűleg).

Automatizált fordítás

A "gép" helyett néha az automata szót használják , ami nem befolyásolja a jelentést. Az automatizált fordítás kifejezésnek azonban teljesen más jelentése van - ezzel a program egyszerűen segít az embernek szövegek fordításában.

Az automatikus fordítás a következő interakciós formákat foglalja magában:

Részben automatizált fordítás: például számítógépes szótárak használata emberi fordító által .
Munkamegosztásos rendszerek: a számítógépet arra tanítják, hogy csak mereven meghatározott szerkezetű kifejezéseket fordítson le (de ezt úgy csinálja, hogy ne kelljen javítani), és minden, ami nem fér bele a sémába, megkapja egy személy.

Az angol terminológiában az angol kifejezéseket is megkülönböztetik. gépi fordítás, MT (teljesen automatikus fordítás) és angol nyelven. géppel segített vagy eng. gépi fordítás (MAT) (automatizált); ha mindkettőt ki kell jelölni, akkor M(A)T-t írnak.

A gépi fordítási algoritmusok felépítésének számos alapvetően eltérő megközelítése létezik: szabályalapú , statisztikai vagy statisztikai alapú, neurális gépi fordítás (NMT). Az első megközelítés hagyományos, és a legtöbb gépi fordítórendszer-fejlesztő ezt alkalmazza (PROMT Oroszországban, SYSTRAN Franciaországban, Linguatec Németországban stb.) [1] A második típusba tartozik a népszerű Yandex.Translate , Google Translate szolgáltatás is. az ABBYY új szolgáltatásaként [2] . Ma a legtöbb rendszer hibrid – egyesíti a szabályokat, a statisztikákat és a neurális hálózatokat.

Statisztikai gépi fordítás

A statisztikai gépi fordítás a szövegek gépi fordításának egy fajtája, amely nagy mennyiségű nyelvpár összehasonlításán alapul. Nyelvpárok - az egyik nyelven mondatokat és a megfelelő mondatokat a másodikban tartalmazó szövegek lehetnek egy két nyelv anyanyelvén beszélő személy két mondat írásának változatai, vagy egy személy által készített mondatok és azok fordításai. Így a statisztikai gépi fordításnak megvan az "önálló tanulás" tulajdonsága. Minél több nyelvpár áll rendelkezésre, és minél jobban illeszkednek egymáshoz, annál jobb lesz a statisztikai gépi fordítás eredménye. A "statisztikai gépi fordítás" fogalma a fordítási probléma megoldásának általános megközelítésére utal, amely egy mondat legvalószínűbb fordításának megtalálásán alapul, kétnyelvű szövegekből nyert adatok felhasználásával. A kétnyelvű szöveggyűjteményre példa a parlamenti jelentések, amelyek a parlamenti viták jegyzőkönyvei. A kétnyelvű parlamenti jegyzőkönyveket Kanadában, Hongkongban és más országokban teszik közzé; az Európai Gazdasági Közösség hivatalos dokumentumait 11 nyelven teszik közzé; a Az Egyesült Nemzetek Szervezete több nyelven is publikál dokumentumokat. Mint kiderült, ezek az anyagok felbecsülhetetlen értékű források a statisztikai gépi fordításhoz.

A gépi fordítás története

A számítógépek fordításának gondolata 1947 - ben fogalmazódott meg az Egyesült Államokban , közvetlenül az első számítógépek megjelenése után. A gépi fordítás első nyilvános bemutatójára (az úgynevezett Georgetown-kísérletre ) 1954 -ben került sor . A rendszer primitívsége ellenére (250 szóból álló szótár, 6 szabályból álló nyelvtan , több egyszerű kifejezés fordítása) ez a kísérlet széles visszhangot kapott: a kutatás Angliában , Bulgáriában , Kelet-Németországban , Olaszországban , Kínában , Franciaországban és Németországban kezdődött. , Japán és más országok; ugyanebben 1954-ben a Szovjetunióban .

Az 1960-as évek közepére két orosz-angol fordítási rendszert biztosítottak gyakorlati használatra az Egyesült Államokban:

MARK (az Egyesült Államok légierejének külföldi járművek osztályán);
GAT (a Georgetown Egyetem által kifejlesztett, az Oak Ridge-i Nemzeti Atomenergia-laboratóriumban és az olaszországi isprai Euratom Központban használt).

Az ilyen rendszerek értékelésére felállított ALPAC bizottság azonban arra a következtetésre jutott, hogy a gépi fordítások alacsony minősége miatt ez a tevékenység veszteséges az Egyesült Államokban. Bár a bizottság az elméleti fejlesztések folytatását és elmélyítését javasolta, következtetései általában a pesszimizmus növekedéséhez , a finanszírozás csökkenéséhez és gyakran a témával kapcsolatos munka teljes leállításához vezettek.

Ennek ellenére a kutatás számos országban folytatódott, amit a számítástechnika folyamatos fejlődése segített. Különösen jelentős tényező volt a mini- és személyi számítógépek megjelenése , és velük együtt az egyre bonyolultabb, a természetes nyelvi adatokkal való munkavégzésre fókuszáló szótár, kereső stb. A fordítási igény mint olyan a nemzetközi kapcsolatok gyarapodásával is megnőtt. Mindez új felemelkedéshez vezetett ezen a területen, amely az 1970-es évek közepétől következett be . Az 1980-as években eljött az ideje a fordítórendszerek széles körű gyakorlati használatának, és kialakult a piac az e témával kapcsolatos kereskedelmi fejlesztések számára.

Azok az álmok azonban, amelyekkel az emberiség fél évszázaddal ezelőtt felvállalta a gépi fordítás feladatát, nagyrészt álmok maradnak: a legkülönbözőbb témájú szövegek minőségi fordítása máig elérhetetlen. A fordítói munka gyorsulása azonban a gépi fordítórendszerek használatakor kétségtelen: az 1980-as évek végi becslések szerint akár ötszörösére is.

Jelenleg számos kereskedelmi gépi fordítási projekt létezik. A gépi fordítás egyik úttörője a SYSTRAN volt . Oroszországban egy csoport , amelyet Prof. R. G. Piotrovsky ( A. I. Herzenről elnevezett Orosz Állami Pedagógiai Egyetem , Szentpétervár ).

Filozófiai alapok

Az 1960-as években Stanisław Lem összefoglalta a gépi fordítás problémájáról és a szövegnek a gép általi megértésével való kapcsolatról szóló kijelentéseket (ami összefügg például a „ kínai szoba ” fogalmának 1980-ban megfogalmazott tárgyalásával. ):

... ragaszkodunk ahhoz, hogy a fordítógépeket az ember "belső életének teljességével" ruházzuk fel; azt azonban egyszerűen nem tudjuk, hogy egy állítólag jól fordító gépnek mennyiben lehet „személyiséget adni”. Nem tudjuk, hogy lehetséges-e „megérteni” a „személyiség” nélkül, legalábbis az embrióban. <...> Az operatív nyelvet nem lehet a végsőkig hatékonyan felhasználni fordítási eszközként a diszkurzív nyelvek – a mentális – területén. Vagy a gépek „értően” fognak működni, vagy egyáltalán nem lesznek igazán hatékony fordítógépek [3] .

A fordítás minősége

A fordítás minősége a forrásszöveg témájától és stílusától , valamint azon nyelvek nyelvtani, szintaktikai és lexikai rokonságától függ, amelyek között a fordítás készül. Az irodalmi szövegek gépi fordítása szinte mindig nem megfelelő minőségű. Mindazonáltal a műszaki dokumentumok esetében speciális gépi szótárak jelenlétében és a rendszernek egy bizonyos típusú szöveg jellemzőihez való hozzáigazításával elfogadható minőségű fordítást lehet kapni, amely csak enyhe szerkesztői javítást igényel. Minél formálisabb a forrásdokumentum stílusa, annál jobb minőségű fordítás várható. Gépi fordítással a legjobb eredményt a technikai (különböző leírások és kézikönyvek) és hivatalos üzleti stílusban írt szövegeknél lehet elérni .

A gépi fordítás téma-hangolás (vagy szándékosan félrehangolás) nélküli használata sok internetes vicc feneke. Az ilyen viccek legrégebbi és legnépszerűbb példái közül a "Mouse Packers" néven ismert egér - illesztőprogram dokumentációjának fordításának szövege a leghíresebb , amely szerint "a számítógépes dokumentáció fordítása a Poliglossum gépi fordítórendszerrel, amely orvosi alapokon nyugszik". , kereskedelmi és jogi szótárak" [comm. 1] . A rövidebbek közül - a " Macskánk három cicát szült - két fehér és egy fekete " kifejezés, amelyet a " PROMT " online fordító (7.0, 2007 -es verzió ) a következőre fordított: "A macskánk három cicát szült - két fehér és egy fekete egy afroamerikai ». [6] Ha az "afro-amerikai" szót még mindig "feketévé" lehetett tenni a " fekete cica " beírásával, akkor a "macska" nem változtathatja meg a nemét: például a nőstény macskát "nőstény macska"-nak fordították.

Az ilyen viccek leggyakrabban azzal kapcsolatosak, hogy a program nem ismeri fel a kifejezés kontextusát, és szó szerint lefordítja a kifejezéseket, amellett, hogy nem különbözteti meg a tulajdonneveket a hétköznapi szavaktól. Ugyanez a PROMT fordító " Lev Tolsztoj "-ból "Lion Thick"-t ("kövér oroszlán"), a " bra-ket jelölést " "Katya melltartójegyévé", a " Hazugság algebrát " "Hazugság algebrává", " excentricitásvektort " - alakította. „eredetiségvektor”, „ Shawnee Smith ” „Shawnee Smith”, a „Red light, green light” játék, amely népszerű a „ The Squid Game” sorozatban, „piros lámpa, zöld fény” stb. Google Fordító , on ellenkezőleg, a " rizs " szót gyakran összetévesztik az Egyesült Államok külügyminiszterének vezetéknevével . A Roblox játékokban nagy gépi fordítások találhatók, például a Beat up szimulátor játékban az "autó ram" és az "autó ram" .

Lásd még

Megjegyzések

↑ Ez azonban nem így van: a Polyglossum ( sic ) egy elektronikus szótár [4] , a Lingvo -val azonos osztályú program , amely önmagában nem képes fordítani. Akkoriban létezett DOS és Windows 3.x verziókban, és az általános szótár minőségét tekintve a Lingvo -nál és a Context -nél gyengébb volt, rekordmennyiségű szakszótárral rendelkezett. Ráadásul az egyes fordítási hibák hamisítványt adnak ki – valószínűleg gépi fordítás után a szöveget manuálisan szerkesztették: a kísérlet tisztasága: a szövegen emberi kéz által végzett módosítások nélkül biztosan nem lehetett volna [5] .

Jegyzetek

↑ Gépi fordítás: Szabályok kontra statisztika . Letöltve: 2011. december 22. Az eredetiből archiválva : 2011. november 23.. (határozatlan)
↑ Az ABBYY új megközelítése a szövegfordításban . Hozzáférés dátuma: 2011. december 22. Az eredetiből archiválva : 2012. január 20. (határozatlan)
↑ " Summa Technologiae ", 1963 (vagy 2. kiadás, 1967), 4. fejezet.
↑ Polyglossum a hivatalos weboldalon . Letöltve: 2011. július 4. Az eredetiből archiválva : 2010. szeptember 16.. (határozatlan)
↑ K. Knop. Szókratész a barátom, de az igazság kedvesebb. Archiválva : 2021. január 21., a Wayback Machine // Computerra. - 1999. - 47. szám (november 23.).
↑ A macskánk három cicának adott életet - két fehér és egy afroamerikai

Irodalom

Automata fordítás / I. M. Boguslavsky // Great Russian Encyclopedia : [35 kötetben] / ch. szerk. Yu. S. Osipov . - M . : Nagy orosz enciklopédia, 2004-2017.

Grashchenko L. A., Klyshinsky E. S., Tumkovsky S. R., Usmanov Z. D. Az orosz-tádzsik gépi fordítási rendszer fogalmi modellje // A Tádzsik Köztársaság Tudományos Akadémiájának jelentései. - 2011. - 54. évfolyam, 4. szám. - S. 279-285.

O. S. Kulagina. A gépi fordítás jelenlegi helyzetéről // A kibernetika matematikai kérdései, vol. 3, M.: Nauka, 1991, 5-50. 140 címből álló bibliográfia. ISBN 5-02-014323-5 .

Nikolaev I.S., Mitrenina O.V., Lando T.M. Alkalmazott és számítógépes nyelvészet. - M . : URSS Kiadócsoport, 2017.

A gépi fordítás jövője // Computerra No. 21, 2002. június 5.

Linkek

Gépi fordítás. A hidegháborútól a mélytanulásig

Szótárak és enciklopédiák

Bibliográfiai katalógusokban
BNF : 11947452q GND : 4003966-3 J9U : 987007292868605171 LCCN : sh00006582 NDL : 00565743 NKC : ph436036

természetes nyelvi feldolgozás
Általános meghatározások	Szövegkorpusz beszédkorpusz Hagyd abba a szavakat zsák szavakat AI teljesség N-gramm Biggram titkosítás trigram
Szövegelemzés	Szöveg szegmentálása Részleges jelölés Felületi elemzés Összetett szövegszerkesztés Kollokációk kibontása eredő Lemmatizálás Elnevezett entitás felismerés Koreferencia felbontás Szöveges hangulatelemzés Fogalom kinyerése elemzése A lexikális poliszémia feloldása terminológia kivonat Információ kinyerése Nyelvi azonosítás Esetmeghatározás
Hivatkozás	Mondatok kibontása Absztrakt generáció Több dokumentumra való hivatkozás Szöveg egyszerűsítés
Gépi fordítás	automatizált Hibrid nyelvközi Szabály alapú Példák alapján Szótár alapú Átalakulás alapján idegi Statisztikai Szinkron
Azonosítás és adatgyűjtés	Beszédfelismerés beszédszintézis Optikai karakter felismerés Szöveggenerálás
Tematikus modell	Pachinko elhelyezés Látens Dirichlet elhelyezés Látens szemantikai elemzés
Peer review	Az esszék automatizált értékelése Concordancer Prediktív szövegbevitel Nyelvtan-ellenőrző Helyesírás-ellenőrző Szintaxis találgatás
Természetes nyelvű felület	virtuális asszisztens Virtuális beszélgetőpartner Kérdés-felelet rendszer Hang interfész Interaktív irodalom

Mesterséges intelligencia
Sztori	A mesterséges intelligencia története A mesterséges intelligencia tél Dartmouth szeminárium
Filozófia	Turing teszt Kínai szoba Erős és gyenge mesterséges intelligencia Barátságos mesterséges intelligencia A mesterséges intelligencia etikája Vezérlési probléma
Útvonalak	Ügynöki megközelítés Adaptív vezérlés Tudásmérnöki Életképes rendszermodell Gépi tanulás Neurális hálózat zavaros logika természetes nyelvi feldolgozás Mintafelismerés Raj Intelligencia Szimbolikus AI Evolúciós algoritmusok Szakértői rendszer
Alkalmazás	Hangvezérlés Osztályozási feladat Dokumentum minősítés Dokumentumcsoportosítás klaszteranalízis Helyi keresés Gépi fordítás Optikai karakter felismerés Beszédfelismerés Kézírás felismerés Játék AI
Kutatók	Charles Babbage Vlagyimir Vapnik Weizenbaum József Wiener Norbert Viktor Glushkov Vlagyimir Gorodetszkij Jan LeCun Alekszej Ljapunov John McCarthy Marvin Minsky Allen Newell Seymour Papert Judah Pearl Germogen Poszpelov Dmitrij Poszpelov Frank Rosenblatt Herbert Sándor Simon Alan Turing Patrick Winston Victor Finn Szergej Fomin Demis Hassabis Geoffrey Hinton Noam Chomsky Claude Shannon Andrew Eun Eliezer Judkovszkij