Szövegkorpusz

A nyelvészetben a korpusz (ebben az értelemben a többes szám korpusz , nem korpusz [1] ) bizonyos szabályok szerint kiválasztott és feldolgozott szövegek halmaza, amely egy nyelv tanulmányozásának alapjául szolgál. Statisztikai elemzésre és statisztikai hipotézis tesztelésre használják , egy adott nyelv nyelvi szabályainak érvényesítésére. A szövegkorpusz a korpusznyelvészeti kutatás tárgya .

A hajótest alapvető tulajdonságai

A korpusz számos definíciója között megkülönböztethetők a fő tulajdonságai :

Esetbesorolás

A korpuszokat különféle szempontok szerint osztályozhatjuk: a korpusz létrehozásának célja, a nyelvi adatok típusa, "irodalmi", műfaj, dinamizmus, jelölés típusa, szövegek mennyisége stb. A párhuzamosság kritériuma szerint például a korpuszok egynyelvűre, kétnyelvűre és többnyelvűre oszthatók. A többnyelvű és a kétnyelvűség két típusra osztható:

  1. párhuzamos  - szövegek halmaza és azok egy vagy több nyelvre történő fordítása.
  2. összehasonlítható (pszeudo-párhuzamos) - eredeti szövegek két vagy több nyelven.

Hajótest jelölések

A jelölés abból áll, hogy speciális címkéket rendelnek a szövegekhez és összetevőikhez : nyelvi és külső (extralingvisztikai). A jelölésnek a következő nyelvi típusait különböztetjük meg: morfológiai, szemantikai, szintaktikai, anaforikus, prozódiai, diskurzus stb. Egyes korpuszokra további strukturális elemzési szinteket alkalmaznak. Különösen egyes kis korpuszok szintaktikailag teljesen megjelölhetők. Az ilyen korpuszokat általában mélyen jegyzett vagy szintaktikai korpuszoknak nevezik , és maga a szintaktikai szerkezet egy függőségi fa .

A szövegek kézi jelölése (annotációja) költséges és időigényes feladat. Jelenleg a korpuszok jelölésére szolgáló különféle szoftvereszközök nyilvánosak [3] . Hagyományosan feloszthatók különálló (önálló) és weborientált (web alapú) kategóriákra . Ugyanakkor a fejlesztők figyelme az elmúlt években a webes alkalmazások felé tolódott el. Ezeknek a rendszereknek számos előnye van:

Az internet mint korpusz

A modern technológiák lehetővé teszik „web korpuszok”, azaz internetes források feldolgozásával nyert korpuszok létrehozását:

A webes korpusz egy speciális nyelvi korpusz, amely szövegek internetről történő fokozatos letöltésével jön létre automatizált eljárások segítségével, amelyek menet közben meghatározzák az egyes weboldalak nyelvét és kódolását, eltávolítják a sablonokat, navigációs elemeket, hivatkozásokat és hirdetéseket (a ún. boilerplate) szöveggé alakítását, szűrését, normalizálását és deduplikációját hajtja végre a beérkezett dokumentumokon, amelyeket azután a korpusznyelvészet hagyományos eszközeivel (tokenizálás, mirfoszintaktikai és szintaktikai annotáció) lehet feldolgozni és kereső korpuszrendszerben megvalósítani. A webes korpusz létrehozása nemcsak sokkal olcsóbb, de mindenekelőtt a mérete akár egy nagyságrenddel nagyobb is lehet, mint a hagyományos korpusz [4] .

— Vladimir Benko ARANEA — EGY MILLIÁRDOS WEBHORPS-CSALÁD

Alkalmazás

A korpusz a korpusznyelvészet fő fogalma és adatbázisa. Különböző típusú korpuszok elemzése és feldolgozása a legtöbb számítógépes nyelvészet (pl. kulcsszókivonás ), beszédfelismerés és gépi fordítás területén végzett munka tárgyát képezi , ahol a korpuszokat gyakran használják rejtett Markov -modellek létrehozására a beszédrészek címkézésére, ill. egyéb feladatokat. A korpusz- és gyakoriságszótárak hasznosak lehetnek az idegen nyelvek oktatásában.

Orosz szövegkorpusok

Lásd még

Jegyzetek

  1. GRAMOTA.RU - referencia és információs internetes portál "orosz nyelven" | Szótárak | Szóellenőrzés . gramota.ru. Letöltve: 2019. december 26. Az eredetiből archiválva : 2019. szeptember 17.
  2. A diagram a "Zakharov V.P., Bogdanova S.Yu. Corpus linguistics: tankönyv. 3. kiadás, átdolgozott - St. Petersburg: Publishing House of St. Petersburg University, 2020. - 234 p." című könyv anyagai alapján készült. "
  3. Vanyushkin, Grashchenko, 2017 .
  4. ARANEA: EGY MILLIÁRD WEBESÜLET CSALÁD – Az Írott Örökség Közössége . textualheritage.org. Letöltve: 2019. december 26. Az eredetiből archiválva : 2020. augusztus 9..
  5. Glazkova, A. (2018), Életrajzi információkat tartalmazó töredékek automatikus keresése természetes nyelvű szövegben , Proceedings of the Institute for System Programming RAS T. 30(6): 221-236, doi : 10.15514/ISPRAS-2018-30( 6 )-12 , < https://www.researchgate.net/publication/330689783_Automatic_search_for_fragments_containing_biographical_information_in_a_natural_language_text > 
  6. Rubtsova, Y. (2015), Szövegkorpusz építése hangszínosztályozó beállításához , Szoftvertermékek és rendszerek T. 1(109): 72-78, doi : 10.15827/0236-235x.109.072-078 , < http: //www .swsys.ru/index.php?page=article&id=3962&lang= > Archiválva : 2020. augusztus 7. a Wayback Machine -nél 

Irodalom