Orosz nemzeti korpusz

Orosz nemzeti korpusz
URL ruscorpora.ru
Kereskedelmi Nem
Webhely típusa oktatási/tudományos projekt
Bejegyzés igen : a szövegek eléréséhez szükséges; licencszerződés
nyelvek) orosz / angol
Szerver helye Oroszország
Tulajdonos V. V. Vinogradov RAS Orosz Nyelv Intézete
A munka kezdete 2003
Jelenlegi állapot működik és fejlődik

Az Orosz Nyelv Nemzeti Korpusza (NCRL) orosz szövegek  kereshető elektronikus online korpusza . Megnyitás 2004. április 29- én . Az egyházi szláv, óorosz (XI-XIV. század) és közép-orosz (XV-XVIII. század eleje) szövegek történeti korpusza is kereshető.

Fordítók

A korpusz létrehozását 2001-ben kezdte meg egy moszkvai , szentpétervári , voronyezsi és más városok filológusaiból álló csoport .

A következő szervezetek vesznek részt az Orosz Nyelv Nemzeti Korpuszának létrehozására irányuló programban [1] :

A hadtest összetétele

A korpusz mind írott szövegeket (fikció, emlékiratok, újságírás, tudományos, vallási irodalom, mindennapi nyomtatványok), mind szóbeli szövegek (nyilvános beszéd és magánbeszélgetések) feljegyzéseit tartalmazza.

A korpusz tartalmaz még költői és nyelvjárási szövegek alkorpuszait, párhuzamos szövegek korpuszait (az orosz nyelvvel párhuzamos korpuszok a következő nyelveken érhetők el: angol, örmény, fehérorosz, bolgár, burját, spanyol, olasz, kínai, lett, német, lengyel , ukrán, francia , svéd, észt és többnyelvű), külön újságkorpusz (21. század eleji médiaanyagok), egyházi szláv korpusz (liturgikus szövegek, modern (XIX-XX. század) és korábbi időszakok), történelmi (többek között óorosz, óorosz, nyírfakéreg betűk) , szintaktikai, akcentációs, multimédiás és tanítási alkorpuszok.

2010 óta az Orosz Nyelv Nemzeti Korpusza történeti alkorpuszának részeként teljes morfológiai jelöléssel ellátott nyírfakéreg betűkből álló szövegkorpusz áll rendelkezésre. A korpusz részét képező nyírfakéreg-betűk szövegei interaktívan kapcsolódnak a gramoty.ru weboldalon [3] történő bemutatáshoz .

Hull kötet

A fő korpusz mennyisége 2022 júniusában 375 millió szóhasználat volt, a korpuszok teljes mennyisége pedig meghaladja az 1,5 milliárd szóhasználatot [4] .

A szövegeket meta-jelöléssel látjuk el (alkotás dátuma, szerző, műfaj stb. szerint); a szövegekben lévő szóalakok automatikus morfológiai és szemantikai jelöléssel vannak felszerelve; a párhuzamos szövegek egymáshoz igazodnak; a költői korpusz szövegei is speciális metrikus jelölésekkel vannak ellátva.

A szövegek 1,5%-a morfológiai [5] és szemantikai [6] jelöléssel van ellátva kézzel eltávolított homonímiával („egyértelmű részkorpusz”).

Keret Szövegek száma Ajánlatok száma A szóhasználatok száma a szóhasználat %-a
Dezambiguirovannaya testrész 2 ezer 500 ezer 6 millió 1,6%
Főépület 84 ezer 19,1 millió 209 millió 57,3%
Egész test 342 ezer 32 millió 364 millió 100 %

Hozzáférés

Jelenleg csak a korpuszkeresés ingyenes és ingyenes . A korpusz weboldalát és keresését a Yandex cég tartja karban , amelynek munkatársai a korpuszszoftver fejlesztésében is részt vettek. A teljes korpuszhoz való hozzáférést (adatbázisának másolását és átvitelét) a licencszerződés tiltja. Az alkorpusz megjelölt részének 1/6-ához való hozzáféréshez regisztrálnia kell, és el kell fogadnia a licencszerződést [7] . A hozzáférés-korlátozás problémáját az Open Corpus projekt kívánja megoldani, amely ugyancsak orosz nyelvű korpuszt készít, de szabad licenc alatt [8] .

Lásd még

Jegyzetek

  1. Projekt résztvevői . Az orosz nyelv nemzeti korpusza . Letöltve: 2018. március 7. Az eredetiből archiválva : 2018. március 8..
  2. A projektről. Írott szövegek párhuzamos korpuszai . Az orosz nyelv nemzeti korpusza . Letöltve: 2018. március 7. Az eredetiből archiválva : 2018. március 8..
  3. Zaliznyak A. A., Yanin V. L., Gippius A. A. Novgorod levelek nyírfakérgen (2001-2014-es ásatásokból) Archív másolat 2019. március 27-én a Wayback Machine -nál . XII. kötet. - M .: A szláv kultúra nyelvei, 2015. - 288 p.
  4. Az Orosz Nyelv Nemzeti Korpusza . ruscorpora.ru. Letöltve: 2018. március 7. Az eredetiből archiválva : 2011. október 7..
  5. Morfológia . Az orosz nyelv nemzeti korpusza . Letöltve: 2018. március 7. Az eredetiből archiválva : 2018. február 19.
  6. Szemantika . Az orosz nyelv nemzeti korpusza . Letöltve: 2018. március 7. Az eredetiből archiválva : 2018. február 19.
  7. A test használata. Licencszerződés . Az orosz nyelv nemzeti korpusza . Letöltve: 2018. március 7. Az eredetiből archiválva : 2018. március 8..
  8. OpenCorpora: orosz nyelvű nyílt korpusz . opencorpora.org . Letöltve: 2022. január 26. Az eredetiből archiválva : 2022. január 26..

Irodalom

Linkek