Gépi fordítás

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2021. október 21-én felülvizsgált verziótól ; az ellenőrzések 5 szerkesztést igényelnek .

A gépi fordítás  a szövegek (írott és ideális esetben szóbeli) egyik természetes nyelvről a másikra fordításának folyamata egy speciális számítógépes program segítségével . Az ilyen rendszerek felépítéséhez kapcsolódó tudományos kutatás irányát is ún.

A számítógépek és az emberek közötti interakció megszervezésének formái a gépi fordításban

Automatizált fordítás

A "gép" helyett néha az automata szót használják , ami nem befolyásolja a jelentést. Az automatizált fordítás kifejezésnek azonban teljesen más jelentése van - ezzel a program egyszerűen segít az embernek szövegek fordításában.

Az automatikus fordítás a következő interakciós formákat foglalja magában:

Az angol terminológiában az angol kifejezéseket is megkülönböztetik.  gépi fordítás, MT (teljesen automatikus fordítás) és angol nyelven.  géppel segített vagy eng.  gépi fordítás (MAT) (automatizált); ha mindkettőt ki kell jelölni, akkor M(A)T-t írnak.

A gépi fordítási algoritmusok felépítésének számos alapvetően eltérő megközelítése létezik: szabályalapú , statisztikai vagy statisztikai alapú, neurális gépi fordítás (NMT). Az első megközelítés hagyományos, és a legtöbb gépi fordítórendszer-fejlesztő ezt alkalmazza (PROMT Oroszországban, SYSTRAN Franciaországban, Linguatec Németországban stb.) [1] A második típusba tartozik a népszerű Yandex.Translate , Google Translate szolgáltatás is. az ABBYY új szolgáltatásaként [2] . Ma a legtöbb rendszer hibrid – egyesíti a szabályokat, a statisztikákat és a neurális hálózatokat.

Statisztikai gépi fordítás

A statisztikai gépi fordítás  a szövegek gépi fordításának egy fajtája, amely nagy mennyiségű nyelvpár összehasonlításán alapul. Nyelvpárok - az egyik nyelven mondatokat és a megfelelő mondatokat a másodikban tartalmazó szövegek lehetnek egy két nyelv anyanyelvén beszélő személy két mondat írásának változatai, vagy egy személy által készített mondatok és azok fordításai. Így a statisztikai gépi fordításnak megvan az "önálló tanulás" tulajdonsága. Minél több nyelvpár áll rendelkezésre, és minél jobban illeszkednek egymáshoz, annál jobb lesz a statisztikai gépi fordítás eredménye. A "statisztikai gépi fordítás" fogalma a fordítási probléma megoldásának általános megközelítésére utal, amely egy mondat legvalószínűbb fordításának megtalálásán alapul, kétnyelvű szövegekből nyert adatok felhasználásával. A kétnyelvű szöveggyűjteményre példa a parlamenti jelentések, amelyek a parlamenti viták jegyzőkönyvei. A kétnyelvű parlamenti jegyzőkönyveket Kanadában, Hongkongban és más országokban teszik közzé; az Európai Gazdasági Közösség hivatalos dokumentumait 11 nyelven teszik közzé; a Az Egyesült Nemzetek Szervezete több nyelven is publikál dokumentumokat. Mint kiderült, ezek az anyagok felbecsülhetetlen értékű források a statisztikai gépi fordításhoz.

A gépi fordítás története

A számítógépek fordításának gondolata 1947 - ben fogalmazódott meg az Egyesült Államokban , közvetlenül az első számítógépek megjelenése után. A gépi fordítás első nyilvános bemutatójára (az úgynevezett Georgetown-kísérletre ) 1954 -ben került sor . A rendszer primitívsége ellenére (250 szóból álló szótár, 6 szabályból álló nyelvtan , több egyszerű kifejezés fordítása) ez a kísérlet széles visszhangot kapott: a kutatás Angliában , Bulgáriában , Kelet-Németországban , Olaszországban , Kínában , Franciaországban és Németországban kezdődött. , Japán és más országok; ugyanebben 1954-ben a Szovjetunióban .

Az 1960-as évek közepére két orosz-angol fordítási rendszert biztosítottak gyakorlati használatra az Egyesült Államokban:

Az ilyen rendszerek értékelésére felállított ALPAC bizottság azonban arra a következtetésre jutott, hogy a gépi fordítások alacsony minősége miatt ez a tevékenység veszteséges az Egyesült Államokban. Bár a bizottság az elméleti fejlesztések folytatását és elmélyítését javasolta, következtetései általában a pesszimizmus növekedéséhez , a finanszírozás csökkenéséhez és gyakran a témával kapcsolatos munka teljes leállításához vezettek.

Ennek ellenére a kutatás számos országban folytatódott, amit a számítástechnika folyamatos fejlődése segített. Különösen jelentős tényező volt a mini- és személyi számítógépek megjelenése , és velük együtt az egyre bonyolultabb, a természetes nyelvi adatokkal való munkavégzésre fókuszáló szótár, kereső stb. A fordítási igény mint olyan a nemzetközi kapcsolatok gyarapodásával is megnőtt. Mindez új felemelkedéshez vezetett ezen a területen, amely az 1970-es évek közepétől következett be . Az 1980-as években eljött az ideje a fordítórendszerek széles körű gyakorlati használatának, és kialakult a piac az e témával kapcsolatos kereskedelmi fejlesztések számára.

Azok az álmok azonban, amelyekkel az emberiség fél évszázaddal ezelőtt felvállalta a gépi fordítás feladatát, nagyrészt álmok maradnak: a legkülönbözőbb témájú szövegek minőségi fordítása máig elérhetetlen. A fordítói munka gyorsulása azonban a gépi fordítórendszerek használatakor kétségtelen: az 1980-as évek végi becslések szerint akár ötszörösére is.

Jelenleg számos kereskedelmi gépi fordítási projekt létezik. A gépi fordítás egyik úttörője a SYSTRAN volt . Oroszországban egy csoport , amelyet Prof. R. G. Piotrovsky ( A. I. Herzenről elnevezett Orosz Állami Pedagógiai Egyetem , Szentpétervár ).

Filozófiai alapok

Az 1960-as években Stanisław Lem összefoglalta a gépi fordítás problémájáról és a szövegnek a gép általi megértésével való kapcsolatról szóló kijelentéseket (ami összefügg például a „ kínai szoba ” fogalmának 1980-ban megfogalmazott tárgyalásával. ):

... ragaszkodunk ahhoz, hogy a fordítógépeket az ember "belső életének teljességével" ruházzuk fel; azt azonban egyszerűen nem tudjuk, hogy egy állítólag jól fordító gépnek mennyiben lehet „személyiséget adni”. Nem tudjuk, hogy lehetséges-e „megérteni” a „személyiség” nélkül, legalábbis az embrióban. <...> Az operatív nyelvet nem lehet a végsőkig hatékonyan felhasználni fordítási eszközként a diszkurzív nyelvek – a mentális – területén. Vagy a gépek „értően” fognak működni, vagy egyáltalán nem lesznek igazán hatékony fordítógépek [3] .

A fordítás minősége

A fordítás minősége a forrásszöveg témájától és stílusától , valamint azon nyelvek nyelvtani, szintaktikai és lexikai rokonságától függ, amelyek között a fordítás készül. Az irodalmi szövegek gépi fordítása szinte mindig nem megfelelő minőségű. Mindazonáltal a műszaki dokumentumok esetében speciális gépi szótárak jelenlétében és a rendszernek egy bizonyos típusú szöveg jellemzőihez való hozzáigazításával elfogadható minőségű fordítást lehet kapni, amely csak enyhe szerkesztői javítást igényel. Minél formálisabb a forrásdokumentum stílusa, annál jobb minőségű fordítás várható. Gépi fordítással a legjobb eredményt a technikai (különböző leírások és kézikönyvek) és hivatalos üzleti stílusban írt szövegeknél lehet elérni .

A gépi fordítás téma-hangolás (vagy szándékosan félrehangolás) nélküli használata sok internetes vicc feneke. Az ilyen viccek legrégebbi és legnépszerűbb példái közül a "Mouse Packers" néven ismert egér - illesztőprogram dokumentációjának fordításának szövege a leghíresebb , amely szerint "a számítógépes dokumentáció fordítása a Poliglossum gépi fordítórendszerrel, amely orvosi alapokon nyugszik". , kereskedelmi és jogi szótárak" [comm. 1] . A rövidebbek közül - a " Macskánk három cicát szült - két fehér és egy fekete " kifejezés, amelyet a " PROMT " online fordító (7.0, 2007 -es verzió ) a következőre fordított: "A macskánk három cicát szült - két fehér és egy fekete egy afroamerikai ». [6] Ha az "afro-amerikai" szót még mindig "feketévé" lehetett tenni a " fekete cica " beírásával, akkor a "macska" nem változtathatja meg a nemét: például a nőstény macskát "nőstény macska"-nak fordították.

Az ilyen viccek leggyakrabban azzal kapcsolatosak, hogy a program nem ismeri fel a kifejezés kontextusát, és szó szerint lefordítja a kifejezéseket, amellett, hogy nem különbözteti meg a tulajdonneveket a hétköznapi szavaktól. Ugyanez a PROMT fordító " Lev Tolsztoj "-ból "Lion Thick"-t ("kövér oroszlán"), a " bra-ket jelölést " "Katya melltartójegyévé", a " Hazugság algebrát " "Hazugság algebrává", " excentricitásvektort " - alakította. „eredetiségvektor”, „ Shawnee Smith ” „Shawnee Smith”, a „Red light, green light” játék, amely népszerű a „ The Squid Game” sorozatban, „piros lámpa, zöld fény” stb. Google Fordító , on ellenkezőleg, a " rizs " szót gyakran összetévesztik az Egyesült Államok külügyminiszterének vezetéknevével . A Roblox játékokban nagy gépi fordítások találhatók, például a Beat up szimulátor játékban az "autó ram" és az "autó ram" .

Lásd még

Megjegyzések

  1. Ez azonban nem így van: a Polyglossum ( sic ) egy elektronikus szótár [4] , a Lingvo -val azonos osztályú program , amely önmagában nem képes fordítani. Akkoriban létezett DOS és Windows 3.x verziókban, és az általános szótár minőségét tekintve a Lingvo -nál és a Context -nél gyengébb volt, rekordmennyiségű szakszótárral rendelkezett. Ráadásul az egyes fordítási hibák hamisítványt adnak ki – valószínűleg gépi fordítás után a szöveget manuálisan szerkesztették: a kísérlet tisztasága: a szövegen emberi kéz által végzett módosítások nélkül biztosan nem lehetett volna [5] .

Jegyzetek

  1. Gépi fordítás: Szabályok kontra statisztika . Letöltve: 2011. december 22. Az eredetiből archiválva : 2011. november 23..
  2. Az ABBYY új megközelítése a szövegfordításban . Hozzáférés dátuma: 2011. december 22. Az eredetiből archiválva : 2012. január 20.
  3. " Summa Technologiae ", 1963 (vagy 2. kiadás, 1967), 4. fejezet.
  4. Polyglossum a hivatalos weboldalon . Letöltve: 2011. július 4. Az eredetiből archiválva : 2010. szeptember 16..
  5. K. Knop. Szókratész a barátom, de az igazság kedvesebb. Archiválva : 2021. január 21., a Wayback Machine // Computerra. - 1999. - 47. szám (november 23.).
  6. A macskánk három cicának adott életet - két fehér és egy afroamerikai

Irodalom

Linkek