A gépi fordítás a szövegek (írott és ideális esetben szóbeli) egyik természetes nyelvről a másikra fordításának folyamata egy speciális számítógépes program segítségével . Az ilyen rendszerek felépítéséhez kapcsolódó tudományos kutatás irányát is ún.
A "gép" helyett néha az automata szót használják , ami nem befolyásolja a jelentést. Az automatizált fordítás kifejezésnek azonban teljesen más jelentése van - ezzel a program egyszerűen segít az embernek szövegek fordításában.
Az automatikus fordítás a következő interakciós formákat foglalja magában:
Az angol terminológiában az angol kifejezéseket is megkülönböztetik. gépi fordítás, MT (teljesen automatikus fordítás) és angol nyelven. géppel segített vagy eng. gépi fordítás (MAT) (automatizált); ha mindkettőt ki kell jelölni, akkor M(A)T-t írnak.
A gépi fordítási algoritmusok felépítésének számos alapvetően eltérő megközelítése létezik: szabályalapú , statisztikai vagy statisztikai alapú, neurális gépi fordítás (NMT). Az első megközelítés hagyományos, és a legtöbb gépi fordítórendszer-fejlesztő ezt alkalmazza (PROMT Oroszországban, SYSTRAN Franciaországban, Linguatec Németországban stb.) [1] A második típusba tartozik a népszerű Yandex.Translate , Google Translate szolgáltatás is. az ABBYY új szolgáltatásaként [2] . Ma a legtöbb rendszer hibrid – egyesíti a szabályokat, a statisztikákat és a neurális hálózatokat.
A statisztikai gépi fordítás a szövegek gépi fordításának egy fajtája, amely nagy mennyiségű nyelvpár összehasonlításán alapul. Nyelvpárok - az egyik nyelven mondatokat és a megfelelő mondatokat a másodikban tartalmazó szövegek lehetnek egy két nyelv anyanyelvén beszélő személy két mondat írásának változatai, vagy egy személy által készített mondatok és azok fordításai. Így a statisztikai gépi fordításnak megvan az "önálló tanulás" tulajdonsága. Minél több nyelvpár áll rendelkezésre, és minél jobban illeszkednek egymáshoz, annál jobb lesz a statisztikai gépi fordítás eredménye. A "statisztikai gépi fordítás" fogalma a fordítási probléma megoldásának általános megközelítésére utal, amely egy mondat legvalószínűbb fordításának megtalálásán alapul, kétnyelvű szövegekből nyert adatok felhasználásával. A kétnyelvű szöveggyűjteményre példa a parlamenti jelentések, amelyek a parlamenti viták jegyzőkönyvei. A kétnyelvű parlamenti jegyzőkönyveket Kanadában, Hongkongban és más országokban teszik közzé; az Európai Gazdasági Közösség hivatalos dokumentumait 11 nyelven teszik közzé; a Az Egyesült Nemzetek Szervezete több nyelven is publikál dokumentumokat. Mint kiderült, ezek az anyagok felbecsülhetetlen értékű források a statisztikai gépi fordításhoz.
A számítógépek fordításának gondolata 1947 - ben fogalmazódott meg az Egyesült Államokban , közvetlenül az első számítógépek megjelenése után. A gépi fordítás első nyilvános bemutatójára (az úgynevezett Georgetown-kísérletre ) 1954 -ben került sor . A rendszer primitívsége ellenére (250 szóból álló szótár, 6 szabályból álló nyelvtan , több egyszerű kifejezés fordítása) ez a kísérlet széles visszhangot kapott: a kutatás Angliában , Bulgáriában , Kelet-Németországban , Olaszországban , Kínában , Franciaországban és Németországban kezdődött. , Japán és más országok; ugyanebben 1954-ben a Szovjetunióban .
Az 1960-as évek közepére két orosz-angol fordítási rendszert biztosítottak gyakorlati használatra az Egyesült Államokban:
Az ilyen rendszerek értékelésére felállított ALPAC bizottság azonban arra a következtetésre jutott, hogy a gépi fordítások alacsony minősége miatt ez a tevékenység veszteséges az Egyesült Államokban. Bár a bizottság az elméleti fejlesztések folytatását és elmélyítését javasolta, következtetései általában a pesszimizmus növekedéséhez , a finanszírozás csökkenéséhez és gyakran a témával kapcsolatos munka teljes leállításához vezettek.
Ennek ellenére a kutatás számos országban folytatódott, amit a számítástechnika folyamatos fejlődése segített. Különösen jelentős tényező volt a mini- és személyi számítógépek megjelenése , és velük együtt az egyre bonyolultabb, a természetes nyelvi adatokkal való munkavégzésre fókuszáló szótár, kereső stb. A fordítási igény mint olyan a nemzetközi kapcsolatok gyarapodásával is megnőtt. Mindez új felemelkedéshez vezetett ezen a területen, amely az 1970-es évek közepétől következett be . Az 1980-as években eljött az ideje a fordítórendszerek széles körű gyakorlati használatának, és kialakult a piac az e témával kapcsolatos kereskedelmi fejlesztések számára.
Azok az álmok azonban, amelyekkel az emberiség fél évszázaddal ezelőtt felvállalta a gépi fordítás feladatát, nagyrészt álmok maradnak: a legkülönbözőbb témájú szövegek minőségi fordítása máig elérhetetlen. A fordítói munka gyorsulása azonban a gépi fordítórendszerek használatakor kétségtelen: az 1980-as évek végi becslések szerint akár ötszörösére is.
Jelenleg számos kereskedelmi gépi fordítási projekt létezik. A gépi fordítás egyik úttörője a SYSTRAN volt . Oroszországban egy csoport , amelyet Prof. R. G. Piotrovsky ( A. I. Herzenről elnevezett Orosz Állami Pedagógiai Egyetem , Szentpétervár ).
Az 1960-as években Stanisław Lem összefoglalta a gépi fordítás problémájáról és a szövegnek a gép általi megértésével való kapcsolatról szóló kijelentéseket (ami összefügg például a „ kínai szoba ” fogalmának 1980-ban megfogalmazott tárgyalásával. ):
... ragaszkodunk ahhoz, hogy a fordítógépeket az ember "belső életének teljességével" ruházzuk fel; azt azonban egyszerűen nem tudjuk, hogy egy állítólag jól fordító gépnek mennyiben lehet „személyiséget adni”. Nem tudjuk, hogy lehetséges-e „megérteni” a „személyiség” nélkül, legalábbis az embrióban. <...> Az operatív nyelvet nem lehet a végsőkig hatékonyan felhasználni fordítási eszközként a diszkurzív nyelvek – a mentális – területén. Vagy a gépek „értően” fognak működni, vagy egyáltalán nem lesznek igazán hatékony fordítógépek [3] .
A fordítás minősége a forrásszöveg témájától és stílusától , valamint azon nyelvek nyelvtani, szintaktikai és lexikai rokonságától függ, amelyek között a fordítás készül. Az irodalmi szövegek gépi fordítása szinte mindig nem megfelelő minőségű. Mindazonáltal a műszaki dokumentumok esetében speciális gépi szótárak jelenlétében és a rendszernek egy bizonyos típusú szöveg jellemzőihez való hozzáigazításával elfogadható minőségű fordítást lehet kapni, amely csak enyhe szerkesztői javítást igényel. Minél formálisabb a forrásdokumentum stílusa, annál jobb minőségű fordítás várható. Gépi fordítással a legjobb eredményt a technikai (különböző leírások és kézikönyvek) és hivatalos üzleti stílusban írt szövegeknél lehet elérni .
A gépi fordítás téma-hangolás (vagy szándékosan félrehangolás) nélküli használata sok internetes vicc feneke. Az ilyen viccek legrégebbi és legnépszerűbb példái közül a "Mouse Packers" néven ismert egér - illesztőprogram dokumentációjának fordításának szövege a leghíresebb , amely szerint "a számítógépes dokumentáció fordítása a Poliglossum gépi fordítórendszerrel, amely orvosi alapokon nyugszik". , kereskedelmi és jogi szótárak" [comm. 1] . A rövidebbek közül - a " Macskánk három cicát szült - két fehér és egy fekete " kifejezés, amelyet a " PROMT " online fordító (7.0, 2007 -es verzió ) a következőre fordított: "A macskánk három cicát szült - két fehér és egy fekete egy afroamerikai ». [6] Ha az "afro-amerikai" szót még mindig "feketévé" lehetett tenni a " fekete cica " beírásával, akkor a "macska" nem változtathatja meg a nemét: például a nőstény macskát "nőstény macska"-nak fordították.
Az ilyen viccek leggyakrabban azzal kapcsolatosak, hogy a program nem ismeri fel a kifejezés kontextusát, és szó szerint lefordítja a kifejezéseket, amellett, hogy nem különbözteti meg a tulajdonneveket a hétköznapi szavaktól. Ugyanez a PROMT fordító " Lev Tolsztoj "-ból "Lion Thick"-t ("kövér oroszlán"), a " bra-ket jelölést " "Katya melltartójegyévé", a " Hazugság algebrát " "Hazugság algebrává", " excentricitásvektort " - alakította. „eredetiségvektor”, „ Shawnee Smith ” „Shawnee Smith”, a „Red light, green light” játék, amely népszerű a „ The Squid Game” sorozatban, „piros lámpa, zöld fény” stb. Google Fordító , on ellenkezőleg, a " rizs " szót gyakran összetévesztik az Egyesült Államok külügyminiszterének vezetéknevével . A Roblox játékokban nagy gépi fordítások találhatók, például a Beat up szimulátor játékban az "autó ram" és az "autó ram" .
Szótárak és enciklopédiák | ||||
---|---|---|---|---|
|
természetes nyelvi feldolgozás | |
---|---|
Általános meghatározások | |
Szövegelemzés |
|
Hivatkozás |
|
Gépi fordítás |
|
Azonosítás és adatgyűjtés | |
Tematikus modell | |
Peer review |
|
Természetes nyelvű felület |