Nyelvi azonosítás

Nyelvi azonosítás (angol nyelvi azonosítás ), a természetes nyelvi feldolgozás módszerében  - nyelvdefiníció . A nyelvi azonosítási probléma a szövegkategorizálás egy speciális esete, amelyet statisztikai módszerekkel oldanak meg .

Áttekintés

A nyelvi azonosításhoz a PPRLM (párhuzamos fonémafelismerés + nyelvmodell) architektúra több nyelven betanított fonetikus felismerők párhuzamos kapcsolásával valósul meg. A fonetikai felismerés rejtett Markov-modelleken (HMM) alapul a Viterbi algoritmus használatával .

A beszédüzenet adott célnyelvhez való tartozásáról szóló döntés meghozatalához a támogató vektorgépeken (SVM - support vector machines) alapuló osztályozóval való megközelítést valósítanak meg .

A klasszikus PPRLM alapján felépített rendszer működési elve a következő:

  1. több fonetikus felismerő van a rendszerben;
  2. minden bemeneti hangfájlt a fonetikus felismerők felismernek;
  3. az egyes fonetikus felismerők fonémasorozatának megfelelően kiszámítják az adott célnyelv n-gramm-modelljéhez való közelség mértékét;
  4. az n-gramm-modell maximális közelségi mérőszámával rendelkező nyelv tekinthető a győztesnek .

A fejlett PPRLM rendszerekben a nyelvi azonosítás nyitott feladatként valósul meg: a feldolgozott fájl „tartozik” / „nem tartozik” ellenőrzése a célnyelvhez történik, a döntés automatikusan megtörténik, figyelembe véve a program által meghatározott küszöbértéket. felhasználó.

A következő lépésekkel egészül ki az alapalgoritmus:

  1. az egyes fonetikus felismerők eredő fonémasorozatát egy vagy másik "referencia" nyelv n-gramm modelljével szuperponáljuk, és figyelembe veszik az n -gramm modell és a fonémasorozat közelségét;
  2. az n-gramm modellek fonémaszekvenciákhoz való közelségének mérési készlete az SVM osztályozó bemeneti vektora ;
  3. Az osztályozás eredménye alapján az SVM osztályozó dönt a célnyelvhez való tartozásról, összehasonlítva az egyes célnyelvekre meghatározott küszöbértékkel.

A hangfájl a célnyelven szólal meg, ha az SVM osztályozó által adott pontszám nagyobb, mint a küszöb. Ebben az esetben a hangfájl hozzárendelhető egy vagy több nyelvhez egyszerre, vagy egyikhez sem.

Lásd még

Irodalom

Linkek

Könyvtárak

Webszolgáltatások