Automatikus szimultán fordítás
Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2014. március 23-án áttekintett
verziótól ; az ellenőrzések 26 szerkesztést igényelnek .
Automatikus szimultán fordítás (Speech-Speech Real-Time Translation) – a beszéd " azonnali " gépi fordítása , egyik természetes nyelvről a másikra , speciális szoftver és hardver segítségével . Az ilyen rendszerek felépítéséhez kapcsolódó tudományos kutatás irányának is nevezik . .
A nyomtatott szöveggel vagy a mesterséges jelekkel ellentétben a természetes beszéd nem teszi lehetővé az egyszerű és egyértelmű elemekre (fonémákra, szavakra, kifejezésekre) való felosztást, mivel ezeknek nincs nyilvánvaló fizikai határa. A beszédfolyamban lévő szavak határai csak a felismerés során határozhatók meg automatikusan úgy, hogy kiválasztják a bemeneti beszédfolyamhoz legjobban illeszkedő optimális szósort akusztikai, nyelvi, szemantikai és egyéb kritériumok szerint.
[egy]
Történelem
2012. június - Automatikus szinkronfordítás programja (Karlsruhei Technológiai Intézet (Baden-Württemberg Szövetségi Állam, Németország) [2] . A készülék az intézeti tanárok szóbeli előadásait fordítja németről angolra, és a fordítást feliratok formájában reprodukálja [3] ] .
2012. október – Automatikus, szinte egyidejű hangfordítás angolról mandarin kínaira. Fejlesztő – Microsoft. [4]
Mesterséges neurális hálózatokon (Deep Neural Networks) alapuló gépi tanulási rendszer, amely minden hetedik-nyolcadik szóra csökkenti a félreértést. De a legnagyobb eredmény a beszéd generálása a beszélő hangjának modulációinak megőrzése mellett. [5]
2012. november - A japán NTT Docomo mobilszolgáltató által elindított szolgáltatás lehetővé teszi a különböző nyelveket beszélő előfizetők számára, hogy valós időben kommunikáljanak egymással. [6]
A szolgáltatás által támogatott nyelvek: (japán <-> angol), (japán <-> koreai), (japán <-> kínai). [7]
2015. május - Elindul a Blabber Messenger , amely 14 nyelvre fordítja le a beszédet és 88 nyelvre a chatet.
Hogyan működik
Az elektronikus beszédfordítás (S2S Real-Time Translation) folyamata általában a következő három szakaszból áll) [8]
[9] :
- automatikus beszédfelismerés (ASR - automatikus beszédfelismerés) - beszéd szöveggé alakítása;
- gépi fordítás (MT - Machine Translation); — szöveg automatikus fordítása egyik nyelvről a másikra.
- A beszédszintézis (TTS – text-to-speech) egy olyan technológia, amely lehetővé teszi a szöveg természeteshez közeli hangon történő kiejtését.
Az A nyelv beszélője a mikrofonba beszél, és a beszédfelismerő motor felismeri[ mi? ] kiejtve. A bemeneti adatokat összehasonlítják a nagyszámú beszédkönyvtárat tartalmazó fonológiai modellekkel. Az ily módon szűrt, az A nyelv szótárát és nyelvtanát használva a rendszer szavakból álló karakterláncokká alakítja az A nyelv [ ismeretlen kifejezés ] kifejezéstömbje alapján . Az automatikus fordítómotor átalakítja ezt a karakterláncot. A korai rendszerek minden szót a megfelelő szóra cseréltek a B nyelvben. A fejlettebb rendszerek nem használnak szó szerinti fordítást, hanem figyelembe veszik a kifejezés teljes kontextusát a megfelelő fordítás elkészítéséhez. A létrehozott fordítás átkerül a beszédszintézis modulhoz , amely kiértékeli a B nyelv beszédadattömbjének számos szavának megfelelő kiejtést és intonációt. A kifejezésnek megfelelő adatokat kiválasztja, kombinálja és megjeleníti az általa megkövetelt formában. fogyasztó B nyelven.
Beszédfordító rendszerek
A beszédfordító rendszerek (ST - Speech Translation) [10] két fő összetevőből állnak: Automatikus beszédfelismerés (ASR - automatikus beszédfelismerés) és Gépi fordítás (MT - Machine Translation), és különböznek egymástól:
- Munka "az ügyfélen" (kliens alapú).
- A "kliens-szerver" (kliens-szerver) elven (OnLine szolgáltatás).
A folyamatos spontán beszéd felismerése minden beszédfelismerési törekvés végső célja. Az automatikus beszédfelismerés egy adott személy hangjához való kötődésre és annak hiányára oszlik.
Ha figyelembe vesszük a klasszikus sémát „tudomány-technológia-gyakorlati rendszerek
problémák”, akkor a legsúlyosabb problémák, amelyekben a beszéd automatikus felismerésének vagy megértésének gyakorlati rendszere működni fog, a következő feltételek mellett merülnek fel: [11]
- - önkényes, naiv felhasználó;
- - spontán beszéd, agrammatizmussal és beszéd "szeméttel" kísérve;
- - akusztikus interferencia és torzítás jelenléte, beleértve a változást is;
- - beszédzavar jelenléte.
A beszédfelismerő rendszerek általánosított osztályozása. Lásd (
[12] )
Hagyományosan a gépi fordítórendszereket kategóriákra osztják: [13] [14] [15]
- A szabályalapú gépi fordítás (RBMT) olyan szabályalapú rendszerek, amelyek a nyelvi struktúrákat és azok átalakításait írják le.
- Példaalapú MT (EBMT) - két szöveg példáján alapuló rendszerek, amelyek közül az egyik a másik fordítása.
- A statisztikai gépi fordítás (SMT) [16] a szövegek gépi fordításának egy fajtája, amely nagy mennyiségű nyelvpár összehasonlításán alapul.
- Hibrid gépi fordítás (SMT + RBMT) - Hibrid modellek "...ahol áttörés várható a fordítási minőségben." [tizenöt]
A példa alapú és a szabály alapú rendszerek közötti határok nem túl világosak, mivel mindkettő szótárakat és szabályokat használ a szótárak használatához.
Statisztikai gépi fordítás
A statisztikai gépi fordítás egy mondat legvalószínűbb fordításának megtalálásán alapul, egy kétnyelvű korpusz (Parallel Corpora) - Bitext - adatai alapján . Ennek eredményeként a számítógép fordítás végrehajtásakor nem nyelvi algoritmusokkal működik, hanem egy adott szó vagy kifejezés használatának valószínűségét számítja ki. Az optimális valószínűségű szót vagy szósorozatot tekintik a forrásszöveg legmegfelelőbb fordításának, és a számítógép behelyettesíti a kapott szövegbe. A statisztikai gépi fordításnál nem a szöveg fordítása a feladat, hanem a megfejtés.
Az MT statisztikai rendszerek tipikus architektúrája. [17] [18]
- Egynyelvű korpusz (a fordítás nyelve).
- A nyelvi modell a szövegkorpuszból származó n-gramok halmaza (n hosszúságú szóalaksorok).
- Párhuzamos test.
- A kifejezéstábla a forráskorpusz és a fordítási korpusz kifejezései közötti megfelelések táblázata néhány statisztikai együtthatóval.
- Statisztikai dekóder - az összes lehetséges fordítási lehetőség közül kiválasztja a legvalószínűbbet.
Nyelvi modellként a statisztikai fordítórendszerek főként az n-gram modell különféle módosításait alkalmazzák, amely szerint a szövegalkotás során a következő szó kiválasztásának "grammatikusságát" csak az határozza meg, hogy milyen (n-1) szó kerül eléje. [tizennyolc]
- n-gramm.
- - Előnyök: - Kiváló fordítási minőség, olyan kifejezéseknél, amelyek teljesen beleillenek az n-gram modellbe.
- — Hátrányok: — jó minőségű fordítás csak olyan kifejezéseknél lehetséges, amelyek teljes mértékben beleillenek az n-gram modellbe.
Az SMT előnyei
- Gyors beállítás
- Könnyen hozzáadhat új fordítási irányokat
- A fordítás simasága
Az SMT hátrányai
- Párhuzamos esetek <hiánya>
- Számos nyelvtani hiba
- Fordítási instabilitás
Azokat a rendszereket, amelyek nem használnak tanulást, „ Speaker Independent ” rendszereknek nevezzük. A tanulást használó rendszerek „ hangszórófüggő ” rendszerek.
Szabály alapú MT rendszerek
A szabályalapú gépi fordítórendszerek a következőkre oszthatók: [15] [19]
- szóról szóra fordító rendszerek;
- átviteli rendszerek (Transfer) - a beviteli nyelv struktúráit a kimeneti nyelv grammatikai struktúráivá alakítják át;
- nyelvközi rendszerek (Interlingua) - köztes nyelv a jelentés leírására.
Egy tipikus RBMT összetevői:
- Nyelvi adatbázisok: - kétnyelvű szótárak; — névfájlok, átírás; - morfológiai táblázatok.
- Fordítási modul: - nyelvtani szabályok; — fordítási algoritmusok.
Az RBMT rendszerek jellemzői:
- Előnyök: — szintaktikai és morfológiai pontosság; - az eredmény stabilitása és kiszámíthatósága; - a témakör testreszabásának képessége.
- Hátrányok: - a fejlesztés összetettsége és időtartama, - a nyelvi adatbázisok karbantartásának, frissítésének szükségessége; - "gépi akcentus" fordításkor.
Hibrid modellek SMT + RBMT
Hibrid technológiai architektúra: [15]
- Képzés: Párhuzamos korpusz->Képzés: - A nyelv modellje; — Adatok utólagos szerkesztéshez; — A szintézis szabályai; — Terminológiai szójegyzék.
- Működés: hibrid fordítás.
A hibrid technológia szakaszai:
- Statisztikai technológiákat alkalmazó párhuzamos korpuszra épülő RBMT képzés;
- Betanított rendszeren alapuló működés.
Beszédszintézis rendszerek
A "Text-to-Speech" rendszer tipikus felépítése. [húsz]
- Szövegelemzés : - A szöveg szerkezetének meghatározása; — Szövegnormalizálás; — Nyelvi elemzés.
- Fonetikai elemzés: - Grafikon - Fonetikai transzformáció.
- Prozódiai elemzés: - A kifejezések hangmagassága és hossza.
- Beszédszintézis : - Hangvisszaadás.
A beszédszintézist viszont csoportokra osztják [21] :
- parametrikus szintézis;
- konkatenatív, vagy összeállítási (összeállítási) szintézis;
- szintézis a szabályok szerint;
- tartományorientált szintézis.
Zajszűrés
Zajforrások beszédrendszerekben: [22]
- mikrofonok, vezetékek, ADC (analóg-digitális átalakító) interferencia, a hangszóró környezetében fellépő külső zaj.
A zajok osztályozása jellemzőik szerint:
- időszakos / nem időszakos zaj;
- annak a frekvenciatartománynak a szélessége, amelyben a zajenergia eloszlik: – szélessávú (1 kHz-nél nagyobb sávszélesség) és keskeny sávú zaj (1 kHz-nél kisebb sávszélesség);
- beszédzaj, amely a beszélő körüli emberek hangjából áll.
A fehér zaj a beszédjelre gyakorolt hatása szempontjából a legveszélyesebbnek és a legnehezebben eltávolítható zajnak tekinthető: - nem periodikus zaj, amelynek spektrális sűrűsége egyenletesen oszlik el a teljes frekvenciatartományban.
A zajos beszédfelismerő rendszerek területén a következő megközelítések léteznek:
- A fejlesztők nem figyelnek a zajra.
- Először a zaj eltávolítása, majd a megtisztított beszédjel felismerése. Ezt a koncepciót általában a zajcsökkentő rendszerek fejlesztésénél használják a felismerő rendszerek kiegészítő moduljaként.
- Zajos jel felismerése annak előzetes javítása nélkül, amely azt vizsgálja, hogy egy személy hogyan ismeri fel és érti a zajos beszédet; mert nem szűri elő a beszédjelet, hogy megtisztítsa a zajtól.
Módszerek a zajvédelem elérésére :
- vagy bizonyos zajinvariáns jellemzők kiválasztására, vagy a zajviszonyok közötti tanulásra vagy a felismerési szabványok zajszintbecslés segítségével történő módosítására korlátozódnak.
Az ilyen módszerek gyenge pontja a zajban történő felismerésre konfigurált felismerő rendszerek megbízhatatlan működése zaj hiányában, valamint a zaj fizikai jellemzőitől való erős függés.
- Lineáris előrejelzési együtthatók számítása. A szabványok elemeiként számértékek helyett valószínűségi eloszlásokat (matematikai átlag, diszperzió) használunk.
- Digitális jelfeldolgozás: - zajelfedő technikák (a zajjellemzőkkel összehasonlítható számértékeket figyelmen kívül hagyjuk, vagy alacsonyabb súlyozási faktorokkal használják) és zajcsökkentési technikák több mikrofon használatával (például az alacsony frekvenciájú zaj tisztítása a mikrofon egyik oldalán található mikrofon használatával az eszköz és a nagyfrekvenciás zaj a másik oldal használatával).
- A hasznos jel megtisztítása az idegen zajtól, olyan mikrofontömbök segítségével, amelyek egy irányított mikrofont szimulálnak változó iránysugárral (a "késleltetés és összegzés" legegyszerűbb módszere, vagy egy bonyolultabb módszer a mikrofon súlyainak módosításával).
Modellek és optimalizálási módszerek
A gépi fordítás automatikus kiértékelésére szolgáló meglévő mérőszámok többsége emberi referenciaértékkel való összehasonlításon alapul. [17]
A beszédfordító rendszer betanítása során a következő módszereket alkalmazzák a fordítás minőségének és sebességének optimalizálására:
[10]
[23]
[24]
[25]
- Lépcsőzetes ASR/WER MT/BLEU-val
Automatikus beszédfelismerés (ASR)
- ASR / WER (Word Error Rate) - a kódszó hibájának valószínűsége;
- ASR / PER (pozíciófüggetlen szóhiba-arány) - a hibák valószínűsége a pozíciótól független szavakban (különböző mondatokban);
- ASR / CSR (Command Success Rate) - a parancs sikeres végrehajtásának valószínűsége.
Gépi fordítás (MAT)
- MT / BLEU (Bilingual Evaluation Understudy) - a fordítás és a minta egyezésének valószínűsége.
Jellemzők
A szövegfordítással járó problémákon túl a szinkrontolmácsolás speciális problémákkal is foglalkozik, többek között a beszélt nyelv inkoherenciájával, a beszélt nyelv grammatikai korlátaival, a beszélt nyelv tisztázatlan szóhatárával és a beszédfelismerési hibák javításával. Ezen túlmenően a szinkronfordításnak megvannak a maga előnyei a szövegfordítással szemben, beleértve a beszélt nyelv kevésbé bonyolult szerkezetét és a beszélt nyelv kevesebb szókincsét.
Szabványok
Mivel sok országban megkezdődik a beszédfordítás kutatása és fejlesztése, szükséges lesz az interfészek és az adatformátumok szabványosítása a rendszerek interoperabilitásának biztosítása érdekében.
Beszédfordító konzorciumok által készített nemzetközi együttműködési tanulmány:
- (C-STAR) Consortium for Speech Translation Advanced Research – nemzetközi beszédfordítási konzorcium a beszédfordítás közös tanulmányozására;
- (A-STAR) Ázsia-csendes-óceáni térség – Az ázsiai-csendes-óceáni térséghez .
Nemzetközi együttműködési kutatószervezetként alakultak kétnyelvű szabványos formátumok tervezésére, amelyek fontosak e technológia tudományos kutatásának előmozdításához, valamint az interfészek és adatformátumok szabványosításához a beszédfordító modul nemzetközi szintű összekapcsolásához. [egy]
Fordítási minőségi értékelések
- A BLEU (Bilingual Evaluation Understudy) egy algoritmus a szöveg, a gépi fordítás minőségének értékelésére és optimalizálására.
- A WER (Word Error Rate) egy algoritmus a szöveg, a gépi fordítás minőségének értékelésére és optimalizálására.
- „Beszéd/nem beszéd” osztályozó ( beszéd/nem beszéd ) — a helyes beszédfelismerés valószínűségének meghatározása. Kompromisszum a hang zajként vagy a zaj hangként való meghatározása között ( I. és II. típusú hibák ).
Lásd még
Irodalom
- Fordítási technológiák Európának.-M.: MTsBS, 2008.
- RU 2419142 számú szabadalom: Automatikus beszéd-beszéd fordító rendszer
- GOST R 52633.5-2011 „Információbiztonság. Információbiztonsági technológia. A biometrikus hozzáférési kódú neurális hálózati konverterek automatikus betanítása egy lineáris számítási bonyolultságú és nagy stabilitású tanulási algoritmuson alapul. (A világ első szabványa a mesterséges neurális hálózatok automatikus tanulására)
- A. Waibel, "Speech Translation Enhanced Automatic Speech Recognition", in Interactive Systems Laboratories, Universitat Karlsruhe (Németország), Carnegie Mellon University (USA), 2005.
- Dong Yu, "A beszélt nyelv átírása kontextusérzékeny mély neurális hálózat segítségével", Microsoft Research, 2011.
- Dong Yu, Li Deng, „Mély ideghálózat vagy Gauss-keverékmodell?”, Microsoft Research, 2012.
- Xuedong Huang, "Spoken Language Processing: útmutató az elmélethez, algoritmushoz és rendszerfejlesztéshez, 1-980. oldal", Microsoft Research, 2000.
Linkek
- hu:Beszédfordítás
- hu:Beszédfelismerés
- hu:Speech Synthesis
- hu:Gépi fordítás
- hu:Mobil fordítás
- hu:Statisztikai gépi fordítás
- hu:Párhuzamos szöveg
- hu: I. és II. típusú hibák
Jegyzetek
- ↑ http://www.proceedings.spiiras.nw.ru/data/src/2010/12/00/spyproc-2010-12-00-01.pdf (nem elérhető link)
- ↑ KIT - KIT - Média - Sajtóközlemények - Archívum Sajtóközlemények - Szimultán fordítás: Nyelvi akadályok nélküli egyetem . Letöltve: 2013. február 1. Az eredetiből archiválva : 2013. május 21.. (határozatlan)
- ↑ Előadások szinkronfordítására szolgáló programot dolgoztak ki Németországban | Fordítási hírek . Letöltve: 2013. február 1. Az eredetiből archiválva : 2012. november 13.. (határozatlan)
- ↑ A beszédfelismerés áttörése a kimondott, lefordított szóban – Microsoft Research . Hozzáférés dátuma: 2013. február 17. Az eredetiből archiválva : 2013. március 15. (határozatlan)
- ↑ A Microsoft szinte azonnali fordítást mutat angolról kínaira / Habrahabr . Letöltve: 2013. február 1. Archiválva az eredetiből: 2013. március 15. (határozatlan)
- ↑ A japánok bemutattak egy rendszert a telefonbeszélgetések automatikus fordítására . Letöltve: 2020. április 30. Az eredetiből archiválva : 2021. január 25. (határozatlan)
- ↑ Az NTT DOCOMO bevezeti a beszélgetések és feliratok mobilfordítását | Sajtóközpont | NTT DOCOMO Global . Letöltve: 2013. február 13. Az eredetiből archiválva : 2013. február 16.. (határozatlan)
- ↑ IBM Research | Beszéd-beszéd fordítás . Hozzáférés dátuma: 2013. február 17. Az eredetiből archiválva : 2013. március 15. (határozatlan)
- ↑ Forrás . Letöltve: 2013. február 15. Az eredetiből archiválva : 2016. március 4.. (határozatlan)
- ↑ 12 ember – Microsoft Research . Letöltve: 2013. február 22. Az eredetiből archiválva : 2014. március 23.. (határozatlan)
- ↑ Modern problémák a beszédfelismerés területén. - Auditech.Ltd (elérhetetlen link) . Hozzáférés dátuma: 2013. március 3. Az eredetiből archiválva : 2013. július 15. (határozatlan)
- ↑ Fiók felfüggesztve . Letöltve: 2013. március 2. Az eredetiből archiválva : 2013. november 27.. (határozatlan)
- ↑ hu:Gépi fordítás
- ↑ Archivált másolat (a hivatkozás nem elérhető) . Hozzáférés időpontja: 2013. február 24. Az eredetiből archiválva : 2011. december 18. (határozatlan)
- ↑ 1 2 3 4 Forrás . Letöltve: 2013. február 27. Archiválva az eredetiből: 2012. június 25. (határozatlan)
- ↑ Beszédfelismerés, gépi fordítás és beszédfordítás – Egységes diszkriminatív tanulási paradigma – Microsoft Research . Letöltve: 2013. február 22. Az eredetiből archiválva : 2014. március 23.. (határozatlan)
- ↑ 1 2 Archivált másolat (hivatkozás nem érhető el) . Letöltve: 2013. február 23. Az eredetiből archiválva : 2012. november 9.. (határozatlan)
- ↑ 1 2 Statisztikai gépi fordítórendszer (Elosztott statisztikai gépi fordítórendszer) | Ilja (w-495) Nikitin - Academia.edu . Letöltve: 2013. március 19. Az eredetiből archiválva : 2013. március 22.. (határozatlan)
- ↑ Statisztikai gépi fordítórendszer (Elosztott statisztikai gépi fordítórendszer) | Ilja (w-495) Nikitin - Academia.edu . Letöltve: 2013. március 18. Az eredetiből archiválva : 2013. március 22.. (határozatlan)
- ↑ Forrás . Hozzáférés dátuma: 2013. február 22. Az eredetiből archiválva : 2012. december 24. (határozatlan)
- ↑ Sorokin V. N. A beszéd szintézise. — M.: Nauka, 1992, p. 392.
- ↑ http://www.sovmu.spbu.ru/main/sno/uzmf2/uzmf2_22.pdf (hozzáférhetetlen hivatkozás)
- ↑ Forrás . Hozzáférés időpontja: 2013. február 24. Az eredetiből archiválva : 2014. január 23. (határozatlan)
- ↑ Archivált másolat (a hivatkozás nem elérhető) . Letöltve: 2013. február 25. Az eredetiből archiválva : 2006. június 18.. (határozatlan)
- ↑ Forrás . Letöltve: 2013. február 25. Az eredetiből archiválva : 2014. március 23.. (határozatlan)