Orosz nemzeti korpusz

Orosz nemzeti korpusz
URL	ruscorpora.ru
Kereskedelmi	Nem
Webhely típusa	oktatási/tudományos projekt
Bejegyzés	igen : a szövegek eléréséhez szükséges; licencszerződés
nyelvek)	orosz / angol
Szerver helye	Oroszország
Tulajdonos	V. V. Vinogradov RAS Orosz Nyelv Intézete
A munka kezdete	2003
Jelenlegi állapot	működik és fejlődik

Az Orosz Nyelv Nemzeti Korpusza (NCRL) orosz szövegek kereshető elektronikus online korpusza . Megnyitás 2004. április 29- én . Az egyházi szláv, óorosz (XI-XIV. század) és közép-orosz (XV-XVIII. század eleje) szövegek történeti korpusza is kereshető.

Fordítók

A korpusz létrehozását 2001-ben kezdte meg egy moszkvai , szentpétervári , voronyezsi és más városok filológusaiból álló csoport .

A következő szervezetek vesznek részt az Orosz Nyelv Nemzeti Korpuszának létrehozására irányuló programban [1] :

V. V. Vinogradov RAS (IRL RAS) után elnevezett Orosz Nyelv Intézet .
Nyelvtudományi Intézet RAS (ILS RAS).
A. A. Kharkevich RAS-ról elnevezett Információátviteli Problémák Intézete (IITP RAS).
Az Orosz Tudományos Akadémia Nyelvtudományi Intézete (IL RAS) Szentpéterváron (a Szentpétervári Állami Egyetemmel (SPbSU) együtt).
Voronyezsi Állami Egyetem [2] .

A hadtest összetétele

A korpusz mind írott szövegeket (fikció, emlékiratok, újságírás, tudományos, vallási irodalom, mindennapi nyomtatványok), mind szóbeli szövegek (nyilvános beszéd és magánbeszélgetések) feljegyzéseit tartalmazza.

A korpusz tartalmaz még költői és nyelvjárási szövegek alkorpuszait, párhuzamos szövegek korpuszait (az orosz nyelvvel párhuzamos korpuszok a következő nyelveken érhetők el: angol, örmény, fehérorosz, bolgár, burját, spanyol, olasz, kínai, lett, német, lengyel , ukrán, francia , svéd, észt és többnyelvű), külön újságkorpusz (21. század eleji médiaanyagok), egyházi szláv korpusz (liturgikus szövegek, modern (XIX-XX. század) és korábbi időszakok), történelmi (többek között óorosz, óorosz, nyírfakéreg betűk) , szintaktikai, akcentációs, multimédiás és tanítási alkorpuszok.

2010 óta az Orosz Nyelv Nemzeti Korpusza történeti alkorpuszának részeként teljes morfológiai jelöléssel ellátott nyírfakéreg betűkből álló szövegkorpusz áll rendelkezésre. A korpusz részét képező nyírfakéreg-betűk szövegei interaktívan kapcsolódnak a gramoty.ru weboldalon [3] történő bemutatáshoz .

Hull kötet

A fő korpusz mennyisége 2022 júniusában 375 millió szóhasználat volt, a korpuszok teljes mennyisége pedig meghaladja az 1,5 milliárd szóhasználatot [4] .

A szövegeket meta-jelöléssel látjuk el (alkotás dátuma, szerző, műfaj stb. szerint); a szövegekben lévő szóalakok automatikus morfológiai és szemantikai jelöléssel vannak felszerelve; a párhuzamos szövegek egymáshoz igazodnak; a költői korpusz szövegei is speciális metrikus jelölésekkel vannak ellátva.

A szövegek 1,5%-a morfológiai [5] és szemantikai [6] jelöléssel van ellátva kézzel eltávolított homonímiával („egyértelmű részkorpusz”).

Keret	Szövegek száma	Ajánlatok száma	A szóhasználatok száma	a szóhasználat %-a
Dezambiguirovannaya testrész	2 ezer	500 ezer	6 millió	1,6%
Főépület	84 ezer	19,1 millió	209 millió	57,3%
Egész test	342 ezer	32 millió	364 millió	100 %

Hozzáférés

Jelenleg csak a korpuszkeresés ingyenes és ingyenes . A korpusz weboldalát és keresését a Yandex cég tartja karban , amelynek munkatársai a korpuszszoftver fejlesztésében is részt vettek. A teljes korpuszhoz való hozzáférést (adatbázisának másolását és átvitelét) a licencszerződés tiltja. Az alkorpusz megjelölt részének 1/6-ához való hozzáféréshez regisztrálnia kell, és el kell fogadnia a licencszerződést [7] . A hozzáférés-korlátozás problémáját az Open Corpus projekt kívánja megoldani, amely ugyancsak orosz nyelvű korpuszt készít, de szabad licenc alatt [8] .

Lásd még

Jegyzetek

↑ Projekt résztvevői . Az orosz nyelv nemzeti korpusza . Letöltve: 2018. március 7. Az eredetiből archiválva : 2018. március 8.. (határozatlan)
↑ A projektről. Írott szövegek párhuzamos korpuszai . Az orosz nyelv nemzeti korpusza . Letöltve: 2018. március 7. Az eredetiből archiválva : 2018. március 8.. (határozatlan)
↑ Zaliznyak A. A., Yanin V. L., Gippius A. A. Novgorod levelek nyírfakérgen (2001-2014-es ásatásokból) Archív másolat 2019. március 27-én a Wayback Machine -nál . XII. kötet. - M .: A szláv kultúra nyelvei, 2015. - 288 p.
↑ Az Orosz Nyelv Nemzeti Korpusza . ruscorpora.ru. Letöltve: 2018. március 7. Az eredetiből archiválva : 2011. október 7.. (határozatlan)
↑ Morfológia . Az orosz nyelv nemzeti korpusza . Letöltve: 2018. március 7. Az eredetiből archiválva : 2018. február 19. (határozatlan)
↑ Szemantika . Az orosz nyelv nemzeti korpusza . Letöltve: 2018. március 7. Az eredetiből archiválva : 2018. február 19. (határozatlan)
↑ A test használata. Licencszerződés . Az orosz nyelv nemzeti korpusza . Letöltve: 2018. március 7. Az eredetiből archiválva : 2018. március 8.. (határozatlan)
↑ OpenCorpora: orosz nyelvű nyílt korpusz . opencorpora.org . Letöltve: 2022. január 26. Az eredetiből archiválva : 2022. január 26.. (határozatlan)

Irodalom

Az orosz nyelv nemzeti korpusza: 2003-2005. Cikkgyűjtemény / Otv. szerk. V. A. Plungyan . — M .: Indrik , 2005. — 502 p. — ISBN ISBN 5-85759-358-1 .
Az orosz nyelv nemzeti korpusza: 2006-2008. Új eredmények és kilátások / Szerk. szerk. V. A. Plungyan . - Szentpétervár. : Nestor-History, 2009. - 502 p. — ISBN ISBN 978-5-98187-327-0 .
Plungyan V. A. Miért hozzuk létre az orosz nyelv nemzeti korpuszát? // Belföldi jegyzetek . - 2005. - 2. szám (23) .

Linkek

Hivatalos oldal

Korpusznyelvészet
angol korpuszok	Az amerikai angol nemzeti korpusz Angol bank Bergen Corpus of London Teenage Language brit nemzeti hadtest Barna korpusz Buckeye Corpus Cambridge English Corpus A modern amerikai angol korpusz Enron Corpus Nemzetközi angol korpusz Lancaster-Oslo-Bergen korpusz Oxford English Corpus Prop Bank Beszélt angol korpusz IDŐPONT VerbNet Új-zélandi angol nyelvű Wellington Corpus
Orosz nyelvű korpuszok	Általános orosz nyelvű internetes korpusz Orosz nemzeti korpusz Nyílt korpusz az orosz nyelvből SinTagRus Tübingeni orosz nyelv korpusz Orosz szövegek uppsalai korpusza Helsinki jegyzetekkel ellátott orosz nyelvű korpusz
Korpuszok más nyelveken	Bijankhan Corpus GYERMEKEK Corpus horvát Horvát Nemzeti Testület Europarl Corpus Mannheim Corpus német Hamshahri hadtest Lengyel Nemzeti Korpusz Neo-asszír szövegkorpusz projekt Korán korpusz Skót Nemzeti Testület Szlovén Nemzeti Testület beszélni bank Tatoeba Teherán egynyelvű korpusz Tekstaro de Esperanto Thesaurus Linguae Graecae
Szervezetek	BNC Konzorcium EGYESÍTÉS