Nyelvi azonosítás
Nyelvi azonosítás (angol nyelvi azonosítás ), a természetes nyelvi feldolgozás módszerében - nyelvdefiníció . A nyelvi azonosítási probléma a szövegkategorizálás egy speciális esete, amelyet statisztikai módszerekkel oldanak meg .
Áttekintés
A nyelvi azonosításhoz a PPRLM (párhuzamos fonémafelismerés + nyelvmodell) architektúra több nyelven betanított fonetikus felismerők párhuzamos kapcsolásával valósul meg. A fonetikai felismerés rejtett Markov-modelleken (HMM) alapul a Viterbi algoritmus használatával .
A beszédüzenet adott célnyelvhez való tartozásáról szóló döntés meghozatalához a támogató vektorgépeken (SVM - support vector machines)
alapuló osztályozóval való megközelítést valósítanak meg .
A klasszikus PPRLM alapján felépített rendszer működési elve a következő:
- több fonetikus felismerő van a rendszerben;
- minden bemeneti hangfájlt a fonetikus felismerők felismernek;
- az egyes fonetikus felismerők fonémasorozatának megfelelően kiszámítják az adott célnyelv n-gramm-modelljéhez való közelség mértékét;
- az n-gramm-modell maximális közelségi mérőszámával rendelkező nyelv tekinthető a győztesnek .
A fejlett PPRLM rendszerekben a nyelvi azonosítás nyitott feladatként valósul meg: a feldolgozott fájl „tartozik” / „nem tartozik” ellenőrzése a célnyelvhez történik, a döntés automatikusan megtörténik, figyelembe véve a program által meghatározott küszöbértéket. felhasználó.
A következő lépésekkel egészül ki az alapalgoritmus:
- az egyes fonetikus felismerők eredő fonémasorozatát egy vagy másik "referencia" nyelv n-gramm modelljével szuperponáljuk, és figyelembe veszik az n -gramm modell és a fonémasorozat közelségét;
- az n-gramm modellek fonémaszekvenciákhoz való közelségének mérési készlete az SVM osztályozó bemeneti vektora ;
- Az osztályozás eredménye alapján az SVM osztályozó dönt a célnyelvhez való tartozásról, összehasonlítva az egyes célnyelvekre meghatározott küszöbértékkel.
A hangfájl a célnyelven szólal meg, ha az SVM osztályozó által adott pontszám nagyobb, mint a küszöb. Ebben az esetben a hangfájl hozzárendelhető egy vagy több nyelvhez egyszerre, vagy egyikhez sem.
Lásd még
Irodalom
- Joshua Goodman. Kibővített megjegyzés a nyelvi fákhoz és a tömörítéshez . arXiv: cond-mat/0202383 [cond-mat.stat-mech]
- Benedetto, D., E. Caglioti és V. Loreto. Nyelvfák és cipzár . Physical Review Letters , 88:4 (2002), Komplexitáselmélet .
- Cavnar, William B. és John M. Trenkle. "N-gram alapú szövegkategorizálás". Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval (1994) [1] .
- Cilibrasi, Rudi és Paul M. B. Vitanyi. Klaszterezés tömörítéssel . IEEE Transactions on Information Theory , 51(4), 2005. április, 1523-1545.
- Dunning, T. (1994) "Statistical Identification of Language". Technical Report MCCS 94-273, New Mexico State University, 1994.
- Goodman, Joshua. (2002) Kibővített kommentár a "Nyelvfák és Zipping" témájában . Microsoft Research, 2002. február 21. (Ez az adattömörítés kritikája a Naive Bayes módszer javára.)
- Grafenstette, Gregory. (1995) Két nyelvi azonosítási séma összehasonlítása. A szöveges adatok statisztikai elemzésével foglalkozó 3. nemzetközi konferencia (JADT 1995) anyaga.
- Poutsma, Arjen. (2001) Monte Carlo technikák alkalmazása a nyelvi azonosításra. SmartHaven, Amszterdam. Bemutatták a CLIN 2001 -ben .
- A közgazdász. (2002) " A stílus elemei: A tömörített adatok elemzése lenyűgöző eredményekhez vezet a nyelvészetben "
- Radim Řehůrek és Milan Kolkus. (2009) " Nyelvi azonosítás a weben: A szótári módszer kiterjesztése (hivatkozás nem érhető el) " Számítógépes nyelvészet és intelligens szövegfeldolgozás
Linkek
Könyvtárak
Webszolgáltatások
- Nyelvazonosító webszolgáltatás : nyelvészlelő API (JSON és XML), amely több mint 100 nyelvet észlel szövegekben, webhelyeken és dokumentumokban
- Language Detection API : egyszerű azonosítási nyelvi API
- dataTXT-LI : nyelvi azonosítás RESTful API, a dandelion dataTXT szemantikus API család része (elnevezett entitás kivonás, szöveghasonlóság stb.)
- AlchemyAPI : nyelvazonosító API, elérhető SDK-ként és RESTfull API-n keresztül ( web-alapú bemutató ).
- PetaMem nyelvi azonosítás : választási lehetőséget biztosít az ngram, nvect és intelligens módszerek között.
- Nyissa meg a Xerox LanguageIdentifiert , amely webalapú formában vagy API-n keresztül érhető el.
- GlobalNLP : webalapú azonosítási nyelv
- Nyelvdetektor , Online azonosítás szövegből vagy URL-ből, valamint API elérhető a fejlesztők számára.
- Milyen nyelv ez? Online nyelvi azonosító : Falck Henrik által írt web alapú eszköz.
- Rozetta nyelvi azonosító : Basis Technology terméke.
- Nyelvi azonosító : a Sematext terméke; felfedi a Java API-t, és a REST/Webservice-en keresztül érhető el.
- G2LI (Global Information Infrastructure Laboratory nyelvi azonosítója) .
- Az IMT Holdings által kínált Rosoka Cloud nyelvi azonosítót, entitást és kapcsolatkivonatolást biztosít. Az Amazon Web Services Marketplace-en keresztül elérhető RESTfull webszolgáltatásokat.
- A Semantria hangulat- és szövegelemzési API, amely nyelvészleléssel rendelkezik
- Loque.la Language Detection API : Webhely nyelvi azonosítása API-val (json/XML)
- Stel KS Nyelvazonosító : Nyelvazonosító API (11 nyelv)