Tatár nyelvű írott korpusz

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt hozzászólók, és jelentősen eltérhet a 2017. december 25-én felülvizsgált verziótól ; az ellenőrzések 2 szerkesztést igényelnek .
Tatár nyelvű írott korpusz
URL korpusz.tatár
Webhely típusa szövegkorpusz
nyelvek) tatár/orosz/angol
Szerver helye Tatarstan
Szerző Sayhunov M.R., Ibragimov T.I., Khusainov R.R.
A munka kezdete 2011
Jelenlegi állapot Működik és fejlődik

A tatár nyelv írott korpusza a tatár nyelv  elektronikus korpuszja, amely online használatra elérhető. A korpusz azoknak szól, akik érdeklődnek a tatár nyelv rendszere, állapota és kilátásai iránt. A korpusznyelvészet keretein belül a tatár nyelvet tanuló nyelvészek számára szükséges.
Az oldalt 2012. március 15-én nyitották meg. A jelenlegi cím : http://corpus.tatar Archiválva : 2016. április 26. a Wayback Machine -nél .
Elérhető tatár, orosz és angol nyelven.

Hull kötet


A korpusz 2014 vége óta több mint 116 millió szót tartalmaz, ami több mint 10 millió mondatot tesz ki, a különböző szóalakok száma megközelíti a 1,5 milliót. megakadályozzák azok másolását.

Hozzáférés

Az épület használata ingyenes.

A hadtest felépítéséről

Az ügy létrehozását 2010-ben kezdte meg egy rajongó csoport. Ezt annak szükségessége diktálta, hogy ki kell dolgozni egy rendszert a tatár szövegek gépi fordítására idegen nyelvre és fordítva, valamint egy rendszert a tatár beszéd automatikus szintézisére és felismerésére egy bizonyos témában.

Gyakorlati jelentősége és felhasználási lehetőségei

A korpuszt a tatár nyelvet tanulmányozó nyelvészek egyaránt használhatják a korpusznyelvészet részeként, valamint a nyelvoktatás során és referenciaként különböző dokumentumok összeállításánál.
A korpusz lehetővé teszi a kontextus megtekintését, az előfordulások gyakoriságának meghatározását és a szükséges tulajdonságokkal rendelkező szavak keresését.

Kontextus szerinti statisztikai keresés

Ez a fajta keresés archiválva : 2016. április 26. a Wayback Machine -nél lehetővé teszi a keresett szó jobb, bal és szemantikai kontextusának megtekintését gyakoriság szerint rendezve.
Helyes kontextus – közvetlenül az aktuális szó után található szavak.
A bal oldali kontextus az aktuális szó előtti szavak.
Szemantikai kontextus - olyan szavak, amelyek ugyanabban a mondatban találhatók az aktuális szóval, vagyis valamilyen mértékben szemantikai kapcsolatban állnak vele.

Összetett morfológiai keresés

2014-ben elkészült a hadtest morfológiai jelölése. A nyelvtani jelek metanyelve a türk nyelvek "címkéinek" rendszerén alapul, amelyet az Apertium nemzetközi projekt fejlesztett ki , 2016. április 14-én archivált a Wayback Machine -nél . A projekt részeként gépi fordítórendszert hoznak létre számos nyelvhez. A fő érvek amellett, hogy az Apertium morfológiai címkéjét válasszuk az Írásos korpusz jelölésére, a következők:
– a morfológiai annotáció jó minősége;
- a projekt abszolút nyitottsága: minden forráskód és fejlesztés nyilvánosan elérhető mindenki számára ingyenesen.
Az általunk 2015-2016 között kifejlesztett Complex Morphological Search System Archivált 2016. április 26-án a Wayback Machine -en lehetővé teszi, hogy olyan paraméterek különféle kombinációi alapján keressen a korpuszban, mint a szóalak, lemma, morfológiai (grammatikai) címkék halmaza, a szó eleje, közepe, vége a lexémák közötti lehetséges távolságok feltüntetésével.

Tatár beszédszintézis rendszer

A Tatár Nyelv Írásos Korpusz honlapján egyaránt meghallgatható talált mondatok és szabad szövegek Archivált 2016. április 26. a Wayback Machine -nél .

Statisztika

A Corpus honlapja különféle statisztikai adatokat tartalmaz A Wayback Machine 2016. április 26-i keltezésű archív példánya , amelyet a szerzők az adatok feldolgozása során kapnak meg.

Hátrányok és fejlődési kilátások

Fordítók

A korpusz alkotói:

Asszisztált:

Irodalom [1]

Jegyzetek

  1. Tatár nyelvű írásos korpusz . Letöltve: 2016. április 22. Az eredetiből archiválva : 2016. április 25..

Linkek