Nyelvi azonosítás

Nyelvi azonosítás (angol nyelvi azonosítás ), a természetes nyelvi feldolgozás módszerében - nyelvdefiníció . A nyelvi azonosítási probléma a szövegkategorizálás egy speciális esete, amelyet statisztikai módszerekkel oldanak meg .

Áttekintés

A nyelvi azonosításhoz a PPRLM (párhuzamos fonémafelismerés + nyelvmodell) architektúra több nyelven betanított fonetikus felismerők párhuzamos kapcsolásával valósul meg. A fonetikai felismerés rejtett Markov-modelleken (HMM) alapul a Viterbi algoritmus használatával .

A beszédüzenet adott célnyelvhez való tartozásáról szóló döntés meghozatalához a támogató vektorgépeken (SVM - support vector machines) alapuló osztályozóval való megközelítést valósítanak meg .

A klasszikus PPRLM alapján felépített rendszer működési elve a következő:

több fonetikus felismerő van a rendszerben;
minden bemeneti hangfájlt a fonetikus felismerők felismernek;
az egyes fonetikus felismerők fonémasorozatának megfelelően kiszámítják az adott célnyelv n-gramm-modelljéhez való közelség mértékét;
az n-gramm-modell maximális közelségi mérőszámával rendelkező nyelv tekinthető a győztesnek .

A fejlett PPRLM rendszerekben a nyelvi azonosítás nyitott feladatként valósul meg: a feldolgozott fájl „tartozik” / „nem tartozik” ellenőrzése a célnyelvhez történik, a döntés automatikusan megtörténik, figyelembe véve a program által meghatározott küszöbértéket. felhasználó.

A következő lépésekkel egészül ki az alapalgoritmus:

az egyes fonetikus felismerők eredő fonémasorozatát egy vagy másik "referencia" nyelv n-gramm modelljével szuperponáljuk, és figyelembe veszik az n -gramm modell és a fonémasorozat közelségét;
az n-gramm modellek fonémaszekvenciákhoz való közelségének mérési készlete az SVM osztályozó bemeneti vektora ;
Az osztályozás eredménye alapján az SVM osztályozó dönt a célnyelvhez való tartozásról, összehasonlítva az egyes célnyelvekre meghatározott küszöbértékkel.

A hangfájl a célnyelven szólal meg, ha az SVM osztályozó által adott pontszám nagyobb, mint a küszöb. Ebben az esetben a hangfájl hozzárendelhető egy vagy több nyelvhez egyszerre, vagy egyikhez sem.

Lásd még

Irodalom

Joshua Goodman. Kibővített megjegyzés a nyelvi fákhoz és a tömörítéshez . arXiv: cond-mat/0202383 [cond-mat.stat-mech]
Benedetto, D., E. Caglioti és V. Loreto. Nyelvfák és cipzár . Physical Review Letters , 88:4 (2002), Komplexitáselmélet .
Cavnar, William B. és John M. Trenkle. "N-gram alapú szövegkategorizálás". Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval (1994) [1] .
Cilibrasi, Rudi és Paul M. B. Vitanyi. Klaszterezés tömörítéssel . IEEE Transactions on Information Theory , 51(4), 2005. április, 1523-1545.
Dunning, T. (1994) "Statistical Identification of Language". Technical Report MCCS 94-273, New Mexico State University, 1994.
Goodman, Joshua. (2002) Kibővített kommentár a "Nyelvfák és Zipping" témájában . Microsoft Research, 2002. február 21. (Ez az adattömörítés kritikája a Naive Bayes módszer javára.)
Grafenstette, Gregory. (1995) Két nyelvi azonosítási séma összehasonlítása. A szöveges adatok statisztikai elemzésével foglalkozó 3. nemzetközi konferencia (JADT 1995) anyaga.
Poutsma, Arjen. (2001) Monte Carlo technikák alkalmazása a nyelvi azonosításra. SmartHaven, Amszterdam. Bemutatták a CLIN 2001 -ben .
A közgazdász. (2002) " A stílus elemei: A tömörített adatok elemzése lenyűgöző eredményekhez vezet a nyelvészetben "
Radim Řehůrek és Milan Kolkus. (2009) " Nyelvi azonosítás a weben: A szótári módszer kiterjesztése (hivatkozás nem érhető el) " Számítógépes nyelvészet és intelligens szövegfeldolgozás

Linkek

Könyvtárak

LID – Nyelvi azonosítás Pythonban : algoritmus és kódpélda egy n-gram alapú LID eszközre a Pythonban és a sémában , Damir Cavar.
lid Nyelvi azonosító : Lingua-Systems; C / C++ könyvtár és Perl Extension ( online bemutató ).
lc4j, egy nyelvi kategorizáló Java-könyvtár , Marco Olivo.
Microsoft kiterjesztett nyelvi szolgáltatások a Windows 7 rendszerhez : beleértve a Microsoft nyelvészlelést.
Windows 7 API Code Pack for .NET : beleértve a felügyelt felületeket a fentiekhez.
NTextCat – ingyenes Language Identification API for .NET (C#) : 280+ nyelv elérhető a dobozból. Felismeri a szöveg nyelvét és kódolását ( UTF-8 , Windows-1252 , Big5 stb.). Mono kompatibilis.
A jsli egy tiszta JavaScript nyelvazonosító könyvtár.
cldr -R könyvtár a Chromium-Author kompakt nyelvészlelési kódjához.
Language-detection : nyílt forráskódú nyelvészlelési könyvtár Java-hoz (forks: lang-guess és language-detector ).
cld2 : nyílt forráskódú nyelvészlelési könyvtár C++-hoz a Google- tól
GuessLanguage : nyílt forráskódú nyelvészlelési könyvtár a javascripthez
GuessLanguage : nyílt forráskódú nyelvészlelési könyvtár a Python számára
Text LanguageDetect : körte nyelvészlelés (jelenleg nincs karbantartva)
datagram : nyílt forráskódú MIT JavaScript osztályozási könyvtár. A bemeneti adatok nyelveinek automatikus osztályozása és felismerése. Bármilyen típusú osztályozáshoz használható betanított adatok alapján.

Webszolgáltatások

Nyelvazonosító webszolgáltatás : nyelvészlelő API (JSON és XML), amely több mint 100 nyelvet észlel szövegekben, webhelyeken és dokumentumokban
Language Detection API : egyszerű azonosítási nyelvi API
dataTXT-LI : nyelvi azonosítás RESTful API, a dandelion dataTXT szemantikus API család része (elnevezett entitás kivonás, szöveghasonlóság stb.)
AlchemyAPI : nyelvazonosító API, elérhető SDK-ként és RESTfull API-n keresztül ( web-alapú bemutató ).
PetaMem nyelvi azonosítás : választási lehetőséget biztosít az ngram, nvect és intelligens módszerek között.
Nyissa meg a Xerox LanguageIdentifiert , amely webalapú formában vagy API-n keresztül érhető el.
GlobalNLP : webalapú azonosítási nyelv
Nyelvdetektor , Online azonosítás szövegből vagy URL-ből, valamint API elérhető a fejlesztők számára.
Milyen nyelv ez? Online nyelvi azonosító : Falck Henrik által írt web alapú eszköz.
Rozetta nyelvi azonosító : Basis Technology terméke.
Nyelvi azonosító : a Sematext terméke; felfedi a Java API-t, és a REST/Webservice-en keresztül érhető el.
G2LI (Global Information Infrastructure Laboratory nyelvi azonosítója) .
Az IMT Holdings által kínált Rosoka Cloud nyelvi azonosítót, entitást és kapcsolatkivonatolást biztosít. Az Amazon Web Services Marketplace-en keresztül elérhető RESTfull webszolgáltatásokat.
A Semantria hangulat- és szövegelemzési API, amely nyelvészleléssel rendelkezik
Loque.la Language Detection API : Webhely nyelvi azonosítása API-val (json/XML)
Stel KS Nyelvazonosító : Nyelvazonosító API (11 nyelv)

természetes nyelvi feldolgozás
Általános meghatározások	Szövegkorpusz beszédkorpusz Hagyd abba a szavakat zsák szavakat AI teljesség N-gramm Biggram titkosítás trigram
Szövegelemzés	Szöveg szegmentálása Részleges jelölés Felületi elemzés Összetett szövegszerkesztés Kollokációk kibontása eredő Lemmatizálás Elnevezett entitás felismerés Koreferencia felbontás Szöveges hangulatelemzés Fogalom kinyerése elemzése A lexikális poliszémia feloldása terminológia kivonat Információ kinyerése Nyelvi azonosítás Esetmeghatározás
Hivatkozás	Mondatok kibontása Absztrakt generáció Több dokumentumra való hivatkozás Szöveg egyszerűsítés
Gépi fordítás	automatizált Hibrid nyelvközi Szabály alapú Példák alapján Szótár alapú Átalakulás alapján idegi Statisztikai Szinkron
Azonosítás és adatgyűjtés	Beszédfelismerés beszédszintézis Optikai karakter felismerés Szöveggenerálás
Tematikus modell	Pachinko elhelyezés Látens Dirichlet elhelyezés Látens szemantikai elemzés
Peer review	Az esszék automatizált értékelése Concordancer Prediktív szövegbevitel Nyelvtan-ellenőrző Helyesírás-ellenőrző Szintaxis találgatás
Természetes nyelvű felület	virtuális asszisztens Virtuális beszélgetőpartner Kérdés-felelet rendszer Hang interfész Interaktív irodalom