Bitext

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2020. június 5-én felülvizsgált verziótól ; az ellenőrzéshez 1 szerkesztés szükséges .

A párhuzamos szöveg ( bitext ) egy nyelvű szöveg, egy másik nyelvre történő fordítással együtt. A "párhuzamos szövegigazítás" az egyező mondatok azonosítása a párhuzamos szöveg mindkét felében. A párhuzamos szövegek nagy gyűjteményeit "párhuzamos korpusznak" (eng. parallel corpora ) nevezik. A mondatszintű párhuzamos korpuszigazítás szükséges előfeltétele a nyelvészeti kutatások különböző aspektusainak. A fordítási folyamat során a mondatok feloszthatók, összevonhatók, törölhetők, beilleszthetők vagy átrendezhetők. Ennek eredményeként az összehangolás gyakran nehéz feladattá válik.

Bitext

A fordításkutatás területén a "bitext" olyan kombinált dokumentum, amely a megfelelő szöveg forrás- és célnyelvi változataiból áll. A bitextek speciális számítógépes programokkal, az úgynevezett „igazítási eszközökkel” ( igazítási eszköz ) vagy „bitext eszközökkel” ( bitext tool ) készülnek, amelyek lehetővé teszik a szöveg eredeti változatának és fordításának automatikus igazítását. Az ilyen programok általában két szöveget (eredeti és fordítás) egyeztetnek minden mondathoz. A bitextek gyűjteményét "bitext adatbázisnak" vagy "kétnyelvű korpusznak" nevezik, és referenciaként használható, és a megfelelő kombinációk megtalálásához használható.

Történelem

A bitext ötlete Brian Harrisé, aki 1988-ban írt először tanulmányt erről a koncepcióról, majd ezt követően a Montreali Egyetem (Université de Montréal) tudóscsoportja, a RALI ( Recherche appliquée en linguistique informatique ) fejlesztette ki. vagy Applied Research in Computational Linguistics – „Alkalmazott kutatás a számítógépes nyelvészetben”). A csoport programozókból és nyelvészekből állt, akik természetes szövegfeldolgozást tanultak. A Bitext koncepció jelentős támogatói Pierre Isabelle és Claude Bédard.

Bitextek és fordítási memória

A "bitext" gondolatának sok közös vonása van a fordítási memória fogalmával . A fő különbség a kettő között az, hogy a fordítási memória egy olyan adatbázis, amelyben a szövegszegmensek (a megfelelő mondatok) úgy vannak elrendezve, hogy azok ne kapcsolódjanak az eredeti kontextushoz, vagyis az eredeti mondatsor elvész. A Bitext megtartja az eredeti mondatsorozatot. A fordítási memória adatbázisok különböző automatizált fordítórendszerek közötti cseréjének szabványos formátuma a TMX formátum (a LISA (Localization Industries Association) által kiadott XML szótár). A TMX lehetővé teszi a mondatok eredeti sorrendjének megőrzését.

A Bitextek referenciaeszközként szolgálnak szakfordítókkal folytatott konzultációkhoz, nem automatizált programokhoz. Ezért az apró igazítási hibák vagy pontatlanságok, amelyek a fordítási memória meghibásodásához vezethetnek, nem számítanak számukra.

Lásd még

Jegyzetek

Irodalom

Ushakova T. Párhuzamos szövegek olvasása (A párhuzamos szövegek olvasásának módszertanának részletes leírása).

Linkek

Párhuzamos korpuszok az interneten

Programok párhuzamos szövegek igazításához

A hunalign egy teljesen automatikus eszköz, amely figyelembe veszi az egyes szavak fordítási statisztikáit, de elég nagy korpuszt igényel a megbízható működéshez
Trados Winalign
Wordfast eszközök - MS Word makrók halmazaként implementálva, ellentétben a fordítómemóriaként működő Wordfast programmal , az igazítási eszközök (a PP feltöltéséhez) ingyenesen elérhetők.
Az ABBYY Aligner egy számítógépes program, amely lehetővé teszi a párhuzamos szövegek automatikus igazítását.

Bitext

Bitext

Történelem

Bitextek és fordítási memória

Lásd még

Jegyzetek

Irodalom

Linkek

Párhuzamos korpuszok az interneten

Programok párhuzamos szövegek igazításához

Dokumentáció