Orosz nemzeti korpusz | |
---|---|
URL | ruscorpora.ru |
Kereskedelmi | Nem |
Webhely típusa | oktatási/tudományos projekt |
Bejegyzés | igen : a szövegek eléréséhez szükséges; licencszerződés |
nyelvek) | orosz / angol |
Szerver helye | Oroszország |
Tulajdonos | V. V. Vinogradov RAS Orosz Nyelv Intézete |
A munka kezdete | 2003 |
Jelenlegi állapot | működik és fejlődik |
Az Orosz Nyelv Nemzeti Korpusza (NCRL) orosz szövegek kereshető elektronikus online korpusza . Megnyitás 2004. április 29- én . Az egyházi szláv, óorosz (XI-XIV. század) és közép-orosz (XV-XVIII. század eleje) szövegek történeti korpusza is kereshető.
A korpusz létrehozását 2001-ben kezdte meg egy moszkvai , szentpétervári , voronyezsi és más városok filológusaiból álló csoport .
A következő szervezetek vesznek részt az Orosz Nyelv Nemzeti Korpuszának létrehozására irányuló programban [1] :
A korpusz mind írott szövegeket (fikció, emlékiratok, újságírás, tudományos, vallási irodalom, mindennapi nyomtatványok), mind szóbeli szövegek (nyilvános beszéd és magánbeszélgetések) feljegyzéseit tartalmazza.
A korpusz tartalmaz még költői és nyelvjárási szövegek alkorpuszait, párhuzamos szövegek korpuszait (az orosz nyelvvel párhuzamos korpuszok a következő nyelveken érhetők el: angol, örmény, fehérorosz, bolgár, burját, spanyol, olasz, kínai, lett, német, lengyel , ukrán, francia , svéd, észt és többnyelvű), külön újságkorpusz (21. század eleji médiaanyagok), egyházi szláv korpusz (liturgikus szövegek, modern (XIX-XX. század) és korábbi időszakok), történelmi (többek között óorosz, óorosz, nyírfakéreg betűk) , szintaktikai, akcentációs, multimédiás és tanítási alkorpuszok.
2010 óta az Orosz Nyelv Nemzeti Korpusza történeti alkorpuszának részeként teljes morfológiai jelöléssel ellátott nyírfakéreg betűkből álló szövegkorpusz áll rendelkezésre. A korpusz részét képező nyírfakéreg-betűk szövegei interaktívan kapcsolódnak a gramoty.ru weboldalon [3] történő bemutatáshoz .
A fő korpusz mennyisége 2022 júniusában 375 millió szóhasználat volt, a korpuszok teljes mennyisége pedig meghaladja az 1,5 milliárd szóhasználatot [4] .
A szövegeket meta-jelöléssel látjuk el (alkotás dátuma, szerző, műfaj stb. szerint); a szövegekben lévő szóalakok automatikus morfológiai és szemantikai jelöléssel vannak felszerelve; a párhuzamos szövegek egymáshoz igazodnak; a költői korpusz szövegei is speciális metrikus jelölésekkel vannak ellátva.
A szövegek 1,5%-a morfológiai [5] és szemantikai [6] jelöléssel van ellátva kézzel eltávolított homonímiával („egyértelmű részkorpusz”).
Keret | Szövegek száma | Ajánlatok száma | A szóhasználatok száma | a szóhasználat %-a |
---|---|---|---|---|
Dezambiguirovannaya testrész | 2 ezer | 500 ezer | 6 millió | 1,6% |
Főépület | 84 ezer | 19,1 millió | 209 millió | 57,3% |
Egész test | 342 ezer | 32 millió | 364 millió | 100 % |
Jelenleg csak a korpuszkeresés ingyenes és ingyenes . A korpusz weboldalát és keresését a Yandex cég tartja karban , amelynek munkatársai a korpuszszoftver fejlesztésében is részt vettek. A teljes korpuszhoz való hozzáférést (adatbázisának másolását és átvitelét) a licencszerződés tiltja. Az alkorpusz megjelölt részének 1/6-ához való hozzáféréshez regisztrálnia kell, és el kell fogadnia a licencszerződést [7] . A hozzáférés-korlátozás problémáját az Open Corpus projekt kívánja megoldani, amely ugyancsak orosz nyelvű korpuszt készít, de szabad licenc alatt [8] .
Korpusznyelvészet | |
---|---|
angol korpuszok |
|
Orosz nyelvű korpuszok |
|
Korpuszok más nyelveken |
|
Szervezetek |