Az orosz nyelv gépalapja
Az orosz nyelv gépalapja egy projekt az orosz nyelv nagy reprezentatív korpuszának létrehozására . Az MFRL tapasztalatait 2004 óta használják fel az Orosz Nyelv Nemzeti Korpuszának fejlesztésében .
Az MFRN létrehozásának programja
Az Orosz Nyelv Gépalapjának Osztályát 1985-ben hozták létre A. P. Ershov akadémikus kezdeményezésére egy 1983-ban megtartott különleges szövetségi konferencia után [1] A Szovjetunió Tudományos Akadémia levelező tagja, Yu.N. tudományos kutatások és alkalmazott fejlesztések az Orosz Nyelv Gépi Alapjának létrehozásáról 1996-2000-re és a kutatás informatizálására.
Az Orosz Nyelv Gépalapjának létrehozásában (1986-1990) több mint 40 együttműködő szervezet vett részt, köztük Moszkva , Leningrád , Harkov , Grodno , Sziktivkar és Szaratov egyetem.
A tudományos kutatás és az alkalmazott fejlesztések komplex informatizálását az orosz tudományban a következőképpen értelmezték:
- Az Orosz Nyelvi Intézet osztályainak és a társvégrehajtó szervezeteknek következetes felszerelése modern számítógépekkel, kilátásba helyezve azok helyi hálózatba való egyesítését (nem fejeződött be)
- Az orosz nyelv tudományos tanulmányozásához és az alkalmazott fejlesztések megvalósításához szükséges fő források következetes felhalmozása a gépi adathordozókon és az adatbázisokban (részben elkészült)
- Mind a filológiai tudományos dolgozatok elkészítéséhez, mind az alkalmazott kutatásokhoz szükséges szoftvereszközök létrehozása (2 MS-DOS program kidolgozása és több szótár elektronikus formába állítása is megtörtént);
- Az akadémiai russzisztika szerves részét képező alkalmazott területek (lexikográfia, terminológia, automatikus adatfeldolgozás természetes nyelven) fejlesztése, amelyek egyrészt az alapkutatások eredményeinek gyakorlatba vivői, másrészt új ötletek és adatok forrása az alaptudomány számára (a program nem valósult meg ).
A program megvalósítása (1985-1992)
Az Orosz Nyelv Gépi Alapjának Osztálya (részben a társvégrehajtók részvételével) 8 éves munkája során a következőket végezte:
- Az orosz nyelvi gépalap koncepciójának és architektúrájának kidolgozása [2]
- A terminológiai adatbank koncepciójának kidolgozása [3]
- Jelentős számú forrás felhalmozódása - a 19-20. századi orosz irodalom szöveges forrásai, az orosz nyelv fő szótárai, a Rövid Akadémiai Nyelvtan, néhány egyéb hivatkozási anyag felhalmozódott gépi adathordozón és részben adatbázisokban, szövegkorpusokban. költészet, szépirodalom, társadalompolitikai és szakmai szövegek [4]
- Két program fejlesztése MS-DOS alatt :
— UNILEX-T gyakorisági szótárak, szóindexek (szövegekhez tartozó szavak indexei) és
konkordanciák készítéséhez és ezekkel való munkához
[5]
- UNILEX-D szótári adatbázisok létrehozásához és kezeléséhez.
[6]
- Forrás szoftvercsomagok fejlesztése (fejlesztésüket leállították), pl.
Az orosz nyelv automatikus szintaxisszótára
Automatikus szótár orosz szinonimák
Az orosz nyelv szótárának automatikus változata ,
S. I. Ozhegov
Automatikus szótár az igevezérlés oroszul.
[7]
Az Orosz Nyelvi Pénzügyminisztérium Osztályának tevékenysége (1992-1998)
Az UNILEX nyelvi adatfeldolgozó rendszerek teljes körű tesztelése a 20. századi Helyesírási Szótár és Versszótár elkészítésében való részvétel révén.
Új források felgyorsult felhalmozódása az újságok elektronikus kiadásain és az orosz klasszikus irodalom szkennelésén alapulva. Az orosz nyelv Gépi Alap forrásainak teljes archívuma ma már több mint 100 millió szóhasználatból áll;
Munka F. M. Dosztojevszkij nyelvének szótárán [8] .
Forrásfelhalmozás az orosz próza széleskörű elosztási-statisztikai vizsgálata céljából a 19. század utolsó harmadában. és a 20. század végi újságok.
Distributív-statisztikai adatok gyűjtése, elemzése, összefoglaló adatok publikációinak elkészítése [9] .
Az orosz nyelvi MF fejlesztésére irányuló tevékenységek elemzése
Az orosz nyelv MF fejlesztési koncepciója (1983)
- számítástechnikai feladatok nyelvi támogatásának összetevőinek létrehozása és
- a tudományos kutatás informatizálása az orosz tudományban.
Az MFRN létrehozásának modern feladatai
- elosztó-statisztikai elemzés és nyelvi források felhalmozása az interneten
- források felhalmozása az Alapítvány weboldalain
- az Alap Automatikus Szókincstár funkcióinak továbbfejlesztése
- az Alap összes szövegforrásának globális nyelvstatisztikai feldolgozása interaktív módban [10] .
Lásd még
Jegyzetek
- ↑ A könyvben megjelent anyagok: Az orosz nyelv gépi alapja: Ötletek és ítéletek, M .: Nauka , 1989
- ↑ Megjelent V. M. Andryushchenko könyvében Az orosz nyelvi gépalap koncepciója és felépítése, M .: 1989
- ↑ Megjelent az Orosz nyelvi Gépalap terminológiai adatbankjának nyelvi koncepciója (projekt) című könyvben, szerk. A. S. Gerda, M.: 1989
- ↑ a Forrásarchívum tartalmát az Orosz Nyelv Gépalap Értesítője 2009. évf. egy; mára nagyon elavult, és az archívum jelenlegi állapotát itt tükrözi a legjobban: [ 1] Archiválva : 2007. szeptember 13. a Machine Wayback Wayback Machine -nél
- ↑ Fejlesztő Zh. G. Anoshkina
- ↑ L. I. Kolodyazhnaya fejlesztő
- ↑ Leírások az Orosz Nyelv Gépalap Értesítőjében, 1. köt. 1-3).
- ↑ Yu. N. Karaulov irányítása alatt
- ↑ Egy ilyen publikáció első eredménye A. Ya. Shaikevich, V. M. Andryushchenko és N. A. Rebetskaya „F. M. Dosztojevszkij nyelvének statisztikai szótára” című könyve.
- ↑ ilyen feldolgozásra mutat be példát a Dosztojevszkij nyelvének statisztikai szótára). V. M. Andryuscsenko
Irodalom
- Ershov A.P. Az orosz nyelv gépi alapja: külső beállítás // Az orosz nyelv gépi alapja: ötletek és ítéletek. M.: Nauka , 1986 .
- Andryushchenko V. M. Az orosz nyelv gépalapjának koncepciója és felépítése. M.: Nauka, 1989 .
- Andryushchenko V. M. Kombinált kiadások fejlesztése (könyv + CD + Internet) // Moscow Linguistic Journal, 7. kötet, 2003. évi 1. szám .
- Shaikevich A. Ya. Distributív-statisztikai elemzés a szemantikában // A szemantikai kutatás elvei és módszerei. Moszkva: Nauka, 1976.
- Shaikevich A. Ya. Hipotézisek a természetes osztályokról és a kvantitatív taxonómia lehetőségéről a nyelvészetben // Hipotézis a modern nyelvészetben. M.: Nauka, 1979 .
- Shaikevich A. Ya., Andryushchenko V. M., Rebetskaya N. A. Statisztikai szótár Dosztojevszkij nyelvére. M.: A szláv kultúra nyelvei, 2003 .
Linkek