SinTagRus

SinTagRus
Case Volume több mint 1,1 millió szó
Nyelv orosz
Alapvető jelölési típusok morfológiai , szintaktikai , lexiko- szemantikai
Fordítók Számítógépes Nyelvészeti Laboratórium IPTP RAS
létrehozásának dátuma 1998
Hozzáférés ingyenes
Engedély szabadalmazott
Weboldal proling.iitp.ru/ru/proje…

A SynTagRus ( eng.  SynTagRus , az angol rövidítése.  Szintaktikailag címkézett orosz szövegkorpusz , „orosz szövegek szintaktikai megjegyzésekkel ellátott korpusza”) az orosz szövegek mélyen annotált korpusza, az orosz szövegek első szintaktikai jelöléssel ellátott korpusza. 1998 óta fejleszti az IPTP RAS Számítógépes Nyelvészeti Laboratóriuma az IRL RAS elméleti szemantikai szektorával együttműködve . A korpusz különböző műfajú szövegekből áll; az összes szóhasználat több mint 1 millió .

A SynTagRus a többcélú ETAP nyelvi processzor ideológiáján alapul . A korpusz jellemzője a különböző mélységű annotáció több szintje, beleértve a teljes morfológiai és szintaktikai jelölést eltávolított homonímiával . A jelölőnyelv XML ] .

A SynTagRus nem kereskedelmi licenc alatt kerül terjesztésre . Ezenkívül a korpuszt különféle formátumokba konvertálták ; ezen verziók (vagy konverterek) némelyike ​​nyilvános, és az eredeti korpusz egy korlátozott verziója az orosz nemzeti korpusz része .

Történelem

A szintaktikai jelölőkorpusok megjelenése az 1990-es évek elején a természetes nyelvi feldolgozási problémák empirikus módszereinek kifejlesztését eredményezte . Sőt, az ilyen korpuszok használata nemcsak magának a szintaktikai elemzésnek a kontextusában talált alkalmazást, hanem számos más feladatban is, beleértve a lexikális poliszémia felbontását , a szemantikai elemzést stb. [1]

Az 1990-es évek végére a legtöbb jelentős európai nyelvhez annotált korpuszokat hoztak létre , míg az orosz nyelvhez valójában nem létezett ilyen korpusz [2] . Ráadásul még az akkoriban létező jelöletlen korpuszok (például az Uppsalai Orosz Szövegek Korpusa ) sem voltak nyilvánosan elérhetőek [3] .

Ezen okok miatt 1998 [4] óta megkezdődött az orosz nyelvű SinTagRus [2] [5] első annotált korpuszának fejlesztése , amely később a szintaktikai jelölésű korpuszok standardjává vált [6] . Ugyanakkor a fejlesztők részt vettek az Orosz Nyelv Nemzeti Korpuszának megalkotásában is; különösen a SynTagRus (bizonyos megszorításokkal) az NCRP szerves, de teljesen autonóm része az utóbbi létrehozása óta [7] [8] . Az NKRY for SinTagRus-ban (mint alkorpusz) a "mélyen annotált korpusz" elnevezést is használják [9] .

A SinTagRus fejlesztését az IPTP RAS Számítógépes Nyelvészeti Laboratóriuma végzi az IRL RAS elméleti szemantikai szektorával együttműködve [10] .

A hadtest összetétele

A SinTagRus forrásanyaga az Uppsala Corpus of Russian Texts volt: mintegy 10 000 mondatot vettek át szépirodalmi szövegekből. Ezt követően rövid (legfeljebb 30 mondatos) szövegek kerültek a korpuszba, amelyeket a népszerű hírlapok ( yandex.ru , rbc.ru , polit.ru , lenta.ru , strana.ru , news.ru ) weboldalairól vettek át [ 2] [11] .

A SynTagRus folyamatosan fejlődik, és 2020-ra körülbelül 77 ezer mondatot tartalmaz (több mint 1,1 millió szóhasználat) [12] , amely a következő műfajok szövegeiből származik [13] [8] [14] :

Jelölések típusai és formátuma

A SynTagRus megkülönböztető jellemzője az orosz nyelv többi annotált korpuszához képest, hogy több, különböző mélységű annotációszintet tartalmaz, amelyek egymástól függetlenül kinyerhetők a korpuszból, és e szintek száma potenciálisan korlátlan. A korpusz jelölőnyelve XML , a jelölőformátum pedig kompatibilis a TEI formalizmussal , néhány további bevezetett elem és attribútum [2] kivételével . A szabad szöveges jelölés alapvetően két lépésben történik [11] :

  1. Szöveg előzetes jelölése automatikus üzemmódban az ETAP nyelvi processzor segítségével, amely a Jelentés-Szöveg modell gyakorlati megvalósítása .
  2. A jelölés ellenőrzése és szükség esetén javítása szakértő nyelvész által .

Az alábbiakban felsoroljuk a korpuszban elérhető jelölési típusokat.

A szöveg felosztása mondatokra és lexikai elemekre

A SinTagRus minden szövege mondatokra van osztva. Minden mondat egy S nevű elem, és minden ilyen elemhez tartozik egy ID attribútum, amelynek értéke a szövegben szereplő mondat sorszáma. Hasonlóképpen minden mondat W nevű lexikai elemekre van felosztva , és minden ilyen elemhez tartozik egy ID attribútum , melynek értéke a szó sorszáma ebben a mondatban [11] . Az írásjelek a mondatcímke szövegeként vannak formázva (megőrizve relatív pozíciójukat a forrásszövegben), és nem saját címkéikkel fejezik ki [15] .

Morfológiai jelölés

A szóalak morfológiai szerkezete egy lexéma vagy lemma neve , amelyhez a beszéd egy részét és a morfológiai jellemzőket , vagyis a megfelelő morfológiai kategóriák jelentését tulajdonítják . A megfelelő szóalak esetében a lemma a LEMMA attribútum értéke, a beszédrész és a morfológiai jellemzők együtt pedig a FEAT [8] [16] attribútum értéke .

A morfológiai jelölés leírása [17] Használt beszédrészek Használt morfológiai jellemzők

Szintaktikai jelölés

A korpuszmondatok szintaktikai jelölése a függőségi nyelvtan keretein belül történik : a szintaktikai szerkezet egy orientált fa , melynek csomópontjai szavak, és minden él a mesterszótól a szolgaszó felé irányul, és valamilyen szintaktikai relációnak felel meg. . A fa gyökerének megfelelő szót a mondat tetejének nevezzük, és a mondat többi szavával ellentétben szintaktikailag nem függ mástól. A szintaktikai csoportok a forrásfa részfáiban vannak elrendezve: minden ilyen részfában a csoport egyik tagja a képviselője a külső kapcsolatokban, és alárendeli a csoport többi tagját [18] . A SinTagRusban összesen mintegy 70 féle szintaktikai relációt különböztetnek meg [13] .

Használt szintaktikai relációk [17] Aktáns szintaktikai viszonyok Szintaktikai kapcsolatok attribútuma Szintaktikai viszonyok összehangolása Szolgáltatás szintaktikai kapcsolatok

Egy mondat szintaktikai szerkezetével kapcsolatos információk rögzítéséhez a SynTagRusban a mondat minden szavának két attribútuma használatos: DOM , amelynek értéke a gazdagépszó azonosítója , és LINK , amelynek értéke a szó neve. megfelelő szintaktikai reláció [16] . A mondat tetején található a _root DOM attribútum speciális értéke [19] .

Lexiko-szemantikai jelölés

Minden szóalakhoz a lemma mellett hozzá van rendelve a KSNAME attribútum , melynek értéke az ETAP nyelvi processzor magyarázó-kombinációs szótárában a megfelelő szócikk neve. Ennek köszönhetően egyrészt pontosítják a poliszemantikus és homonim szavak jelentését, másrészt kapcsolat jön létre az ETAP processzor által használt szótár bejegyzéseivel és az ezekben található információkkal. elérhetővé válnak a szavak szemantikai tulajdonságaira vonatkozó bejegyzések [10] .

Lexiko-funkcionális jelölés

A mondatokat lexikai függvények szerint értelmezhető kifejezésekkel jelöljük . Az ilyen kifejezések mondaton belüli megjelölésére további elemek jönnek létre maguktól a szóalakoktól elkülönítve [13] .

Mikroszintaktikai jelölés

A SynTagRus-ban a mikroszintaktikai egységeket szintaktikai specifitással rendelkező frazeológiai egységekként értjük [20] . Példa erre az érvényben lévő összetett elöljárószó . Egyrészt szintaktikailag közel áll a primitív elöljárószavakhoz. Valójában lehetetlen névmási definíciót beilleszteni egy főnévre ennek az elöljárószónak az elemei közé, mint a típus más prepozíciós konstrukcióiban az alakban , az esetben stb. Ezen túlmenően, ha a harmadik személy személyes névmása alany a mondatban erre az elöljárószóra, majd a legtöbb esetben a kezdeti n- , mint a primitív elöljárószók esetében. Másrészt néhány páros kötőszó első része , valamint az a partikula , hogy elhelyezhető- e vagy , az érvényben lévő elöljárószó és a tőle függő főnév között, ami lehetetlenné teszi, hogy ezt az elöljárószót primitíveknek tulajdonítsuk [21]. .

Ha a korpusz valamely mondatában előfordul mikroszintaktikai egység, akkor egy új mondatattribútum kerül hozzáadásra - MICROSYNT , melynek értéke a megfelelő mikroszintaktikai egység neve és lineáris határai [20] .

Anaforikus jelölés

A szövegben előforduló anaforikus névmások esetében annak előzménye van feltüntetve , vagyis az a kifejezés, amelyre ez a névmás vonatkozik. Annak a mondatnak, amelyben anaforikus névmás található, van egy további COREF attribútum , amelynek értéke az adott névmáshoz tartozó névmás-előzmény párok listája. Minden anaforikus névmásnál meg van adva annak lineáris helyzete a mondatban, az előzménynél pedig ezen felül, hogy a vizsgálthoz képest melyik mondatban található (három mondaton belül mindkét irányban) [4] .

Elliptikus szerkezetek feldolgozása

A SynTagRusban az elliptikus mondatok kihagyott töredékei kifejezetten visszaállításra kerülnek. A megfelelő visszaállított szóalak ugyanúgy megjelölésre kerül, mint a többi szóalak; különösen az összes szükséges szintaktikai hivatkozást az ilyen "fantom" szavakból vonják le. Ehhez a szóalakhoz a NODETYPE attribútum FANTOM [2] [22] értékkel van hozzárendelve .

A törzs használata

A SynTagRus-t különféle területeken használják. Egyrészt ennek alapján tisztán nyelvészeti kutatásokat végeznek, mind elméleti, mind gyakorlati (különösen a lexikográfia területén ). Másrészt a korpusz a számítógépes nyelvészet feladataiban, mint nyelvi adatok forrása, például elemzők készítésénél is alkalmazható . Ezeket a feladatokat különféle jelölési formátumok segítségével lehet megoldani. Ugyanakkor több , különböző jelöléssel ellátott épület egybekombinációja reprezentatívabbá teszi az utóbbit. Ezek a körülmények a korpuszkonverzió problémájához vezetnek [4] .

Ismételten próbálkoztak a SynTagRus lefordításával más jelölési formátumokba: ismertek kísérletek a korpusz HPSG és PDT [13] formátumokra való konvertálására . Ezenkívül a SynTagRus sikeresen konvertált CoNLL-U [22] , PTB [23] és SD [24] formátumba . A konverzió azonban egyrészt minden esetben csak a morfológiai és szintaktikai jelölésekre vonatkozott, másrészt automatikusan megtörtént, ami akadálya lett a teljes értékű konverziónak. Így például a NID szófajt nem lehetett egyértelműen CoNLL-U formátumba fordítani (amiben nincs ilyen szórész), így minden SinTagRus mondat, amelyben legalább egy szóalak rendelkezik ilyennel. a beszéd egy részét a megtérés előtt kizárták a korpuszból [22] .

Hozzáférés

A SynTagRus ingyenesen terjeszthető nem kereskedelmi licenc alapján [25] . Ezenkívül a korpusz bizonyos típusú jelölések nélküli változata nem kereskedelmi célú kutatási és oktatási célokra elérhető az Orosz Nyelv Nemzeti Korpuszának alkorpuszaként, és nyilvánosan elérhető [13] , valamint a verziók. CoNLL - U formátumban (licenc CC BY-NC-SA 4.0 ) [22] és PTB (csak konverter érhető el) [23] .

Jegyzetek

  1. Eric Brill , Raymond J. Mooney. Az empirikus természetes nyelvi feldolgozás áttekintése  //  AI Magazine. - AAAI, 1997. - 1. évf. 18 , sz. 4 . - P. 13-24 .
  2. 1 2 3 4 5 Boguslavsky I. M. , Grigoriev N. V. , Grigoryeva S. A. , Kreydlin L. G. , Frid N. E. Annnotated corpus of Russian texts: concept, markup tools, type of information  // Proceedings International seminar on computational linguistics and its applications " 20isztikai logisztika ". - Protvino, 2000. Archiválva : 2019. július 31.
  3. Reznikova T. I. , Kopotev M. V. Az orosz nyelv nyelvileg jegyzett korpuszai (nyilvános források áttekintése)  // Az orosz nyelv nemzeti korpusza: 2003-2005. - M .: Indrik , 2005. - S. 31-61 . Archiválva az eredetiből 2019. július 31-én.
  4. 1 2 3 Inshakova E. S. , Iomdin L. L. , Mityushin L. G. , Sizov V. G. , Frolova T. I. , Tsinman L. L. SinTagRus ma  // Proceedings of the Institute of the Russian Language. V. V. Vinogradova. - M . : "Nestor-History", 2019. - Kiadás. 21 . - S. 14-40 . Archiválva : 2020. március 26.
  5. Moskvina A. D. , Orlova D. , Panicheva P. V. , Mitrofanova O. A. Az orosz nyelv elemző magjának fejlesztése NLTK-könyvtárak alapján  // Az „Internet és a modern társadalom” egyesült tudományos konferencia anyaga. - 2016. - S. 44-54 . Az eredetiből archiválva : 2019. október 10.
  6. Kibrik A. E. , Fedorova O. V., Tatevosov S. G. , Lyutikova E. A., Kibrik A. A. , Kobozeva I. M. , Falikman M. V., Chenki A., Sekerina I., Nikolaeva Yu. V., Beltov I. A., Tolja M. A., Bergel O. M. S. Yu., Bonch-Osmolovskaya A. A. , Podlesskaya V. I., Krivnova O. F. Corpus linguistics // Bevezetés a nyelvtudományba / szerk. O. V. Fedorova és S. G. Tatevosov. - M. : Buki Vedi, 2019. - S. 420. - 672 p. — ISBN 978-5-4465-2188-3 .
  7. Sichinava D.V. Az orosz nyelv nemzeti korpusza: az őstörténet vázlata  // Az orosz nyelv nemzeti korpusza: 2003-2005. - M. : Indrik, 2005. - S. 21-30 . Archiválva az eredetiből 2019. július 31-én.
  8. 1 2 3 Apresyan Yu. D. , Boguslavsky I. M. , Iomdin B. L. , Iomdin L. L. , Sannikov A. V. , Sannikov V. Z. , Sizov V. G. , Tsinman L. L. Szintaktikailag és szemantikailag annotált korpusz: a nemzeti és orosz nyelvű korpusz jelenlegi állapota  // Orosz nyelv: 2003-2005. - M. : Indrik, 2005. - S. 193-214 . Archiválva az eredetiből 2019. július 31-én.
  9. Zakharov V.P. , Bogdanova S.Yu. Corpus linguistics . - 3. kiadás, átdolgozva. - Szentpétervár. : St. Petersburg University Press, 2020. - P. 47. - 234 p. - ISBN 978-5-288-05997-1 .
  10. 1 2 Apresyan Yu. D. , Iomdin L. L. , Sannikov A. V. , Sizov V. G. Szemantikus jelölés az orosz nyelv mélyen jegyzett korpuszában  // Proceedings of the International Conference "Corpus Linguistics-2004". - Szentpétervár. : St. Petersburg State University, 2004. - S. 41-54 . Archiválva az eredetiből 2019. július 31-én.
  11. 1 2 3 Boguslavsky I. M. , Grigoriev N. V. , Iomdin L. L. , Kreydlin L. G. , Frid N. E. , Chardin I. S. Az orosz nyelv szintaktikailag jelölt korpuszának fejlesztése  // A „Korpusnyelvészeti adatbázisok és nyelvészeti adatbázisok” tudományos konferencia jelentései. - Szentpétervár. : St. Petersburg State University, 2002. - S. 40-50 . Archiválva az eredetiből 2019. július 31-én.
  12. Corpus Linguistics . Laboratory of Computational Linguistics IPTP RAS (2020. február 11.). Letöltve: 2020. február 12. Az eredetiből archiválva : 2020. február 22.
  13. 1 2 3 4 5 Dyachenko P. V. , Iomdin L. L. , Lazursky A. V. , Mityushin L. G. , Podlesskaya O. Yu. , Sizov V. G. , Frolova T. I. , Tsinman L L. The current state of the corpus language of deeply as tannotated Russian )  // Gyűjtemény "Orosz nyelv nemzeti korpusza: a projekt 10 éve." - M . : Az Orosz Nyelv Intézetének közleményei. V. V. Vinogradova, 2015. - Szám. 6 . - S. 272-299 . Archiválva az eredetiből 2019. július 31-én.
  14. Boguslavsky I. , Iomdin L. , Sizov V. , Tsinman L. , Petrochenkov V. Rule-based dependency parser refined by and empiric corpusstatistika  //  Proceedings of the International Conference on Dependency Linguistics. - 2011. - P. 318-327 . Archiválva az eredetiből 2019. július 31-én.
  15. Droganova K. , Lyashevskaya O. , Zeman D. Egynyelvű korpuszok adatkonverziója és konzisztenciája: Russian UD treebanks  (angol)  // Proceedings of the 17th International Workshop on Treebanks and Linguistic Theories (TLT 2018). - Oslo University, Norvégia: Linköping University Electronic Press, 2018. - P. 52-65 . Archiválva : 2020. március 19.
  16. 1 2 Igor Boguslavsky , Ivan Chardin , Svetlana Grigorjeva , Nyikolaj Grigorjev , Leonyid Jomdin , Leonyid Kreydlin , Nadezhda Frid. Függőségi fabank fejlesztése orosz nyelven és lehetséges alkalmazásai az NLP-ben  (angol nyelven)  // Proceedings of the Third International Conference on Language Resources and Evaluation (LREC-2002). – Las Palmas, 2002. – 20. évf. III . - P. 852-856 . Az eredetiből archiválva: 2017. augusztus 10.
  17. 1 2 Szintaktikailag megjelölt orosz nyelvű korpusz: információ a felhasználóknak . Az orosz nyelv nemzeti korpusza . Letöltve: 2020. március 29. Az eredetiből archiválva : 2020. március 25.
  18. Apresyan Y. D. , Boguslavsky I. M. , Iomdin L. L. , Lazursky A. V. , Mityushin L. G. , Sannikov V. Z. , Tsinman L. L. Nyelvi processzor összetett információs rendszerekhez. - M .: Tudomány , 1992. - S. 32-40, 56-73. — 256 p.
  19. Leonyid Iomdin , Victor Sizov. Struktúraszerkesztő: hatékony környezet címkézett korpuszokhoz  //  Kutatási infrastruktúra a digitális lexikográfia számára. - Ljubljana: Jožef Stefan Institute, 2009. - P. 1-12 .
  20. 1 2 Iomdin L. L. Mikroszintaktikai jelölés az orosz szövegek korpuszában  // A „Corpus Linguistics – 2017” nemzetközi tudományos konferencia előadásai. - Szentpétervár. : St. Petersburg State University, 2017. - S. 188-194 . Az eredetiből archiválva : 2021. november 20.
  21. Iomdin L. L. A mikroszintaxis mélyén: a szintaktikai kifejezések egyik lexikális osztálya  // Computer Linguistics and Intelligent Technologies. - M. : RGGU, 2008. - S. 178-184 . Archiválva az eredetiből: 2019. augusztus 29.
  22. 1 2 3 4 Droganova K. , Zeman D. A SynTagRus (az orosz függőségi fabank) konvertálása univerzális függőségekké  (angol)  // Technikai jelentés. — Formális és Alkalmazott Nyelvészeti Intézet, Károly Egyetem Matematikai és Fizikai Kara, 2016. Az eredetiből archiválva : 2021. június 8.
  23. 1 2 Luu A. , Malamud SA , Xue N. A SynTagRus függőségi fabank konvertálása Penn treebank stílusba  //  Proceedings of the 10. Linguistic Annotation Workshop with the ACL 2016 (LAW-X 2016). - 2016. - P. 16-21 . Archiválva az eredetiből 2019. február 27-én.
  24. Lipenkova J. , Souček M. Converting Russian dependency treebank to Stanford typed dependencies representation  (angol)  // Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics. - 2014. - Kt. 2 . - 143-147 . o . Archiválva az eredetiből 2018. június 8-án.
  25. Lyashevskaya O. N. Corpus eszközök az orosz nyelv grammatikai tanulmányozásában. - M . : YASK Kiadó, 2016. - S. 193. - 520 p.

Linkek