Bitext

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2020. június 5-én felülvizsgált verziótól ; az ellenőrzéshez 1 szerkesztés szükséges .

A párhuzamos szöveg ( bitext ) egy nyelvű szöveg, egy másik nyelvre történő fordítással együtt. A "párhuzamos szövegigazítás" az egyező mondatok azonosítása a párhuzamos szöveg mindkét felében. A párhuzamos szövegek nagy gyűjteményeit "párhuzamos korpusznak" (eng. parallel corpora ) nevezik. A mondatszintű párhuzamos korpuszigazítás szükséges előfeltétele a nyelvészeti kutatások különböző aspektusainak. A fordítási folyamat során a mondatok feloszthatók, összevonhatók, törölhetők, beilleszthetők vagy átrendezhetők. Ennek eredményeként az összehangolás gyakran nehéz feladattá válik.

Bitext

A fordításkutatás területén a "bitext" olyan kombinált dokumentum, amely a megfelelő szöveg forrás- és célnyelvi változataiból áll. A bitextek speciális számítógépes programokkal, az úgynevezett „igazítási eszközökkel” ( igazítási eszköz ) vagy „bitext eszközökkel” ( bitext tool ) készülnek, amelyek lehetővé teszik a szöveg eredeti változatának és fordításának automatikus igazítását. Az ilyen programok általában két szöveget (eredeti és fordítás) egyeztetnek minden mondathoz. A bitextek gyűjteményét "bitext adatbázisnak" vagy "kétnyelvű korpusznak" nevezik, és referenciaként használható, és a megfelelő kombinációk megtalálásához használható.

Történelem

A bitext ötlete Brian Harrisé, aki 1988-ban írt először tanulmányt erről a koncepcióról, majd ezt követően a Montreali Egyetem (Université de Montréal) tudóscsoportja, a RALI ( Recherche appliquée en linguistique informatique ) fejlesztette ki. vagy Applied Research in Computational Linguistics – „Alkalmazott kutatás a számítógépes nyelvészetben”). A csoport programozókból és nyelvészekből állt, akik természetes szövegfeldolgozást tanultak. A Bitext koncepció jelentős támogatói Pierre Isabelle és Claude Bédard.

Bitextek és fordítási memória

A "bitext" gondolatának sok közös vonása van a fordítási memória fogalmával . A fő különbség a kettő között az, hogy a fordítási memória egy olyan adatbázis, amelyben a szövegszegmensek (a megfelelő mondatok) úgy vannak elrendezve, hogy azok ne kapcsolódjanak az eredeti kontextushoz, vagyis az eredeti mondatsor elvész. A Bitext megtartja az eredeti mondatsorozatot. A fordítási memória adatbázisok különböző automatizált fordítórendszerek közötti cseréjének szabványos formátuma a TMX formátum (a LISA (Localization Industries Association) által kiadott XML szótár). A TMX lehetővé teszi a mondatok eredeti sorrendjének megőrzését.

A Bitextek referenciaeszközként szolgálnak szakfordítókkal folytatott konzultációkhoz, nem automatizált programokhoz. Ezért az apró igazítási hibák vagy pontatlanságok, amelyek a fordítási memória meghibásodásához vezethetnek, nem számítanak számukra.

Lásd még

Jegyzetek

Irodalom

Linkek

Párhuzamos korpuszok az interneten

Programok párhuzamos szövegek igazításához

Dokumentáció