A nyelvészetben a korpusz (ebben az értelemben a többes szám korpusz , nem korpusz [1] ) bizonyos szabályok szerint kiválasztott és feldolgozott szövegek halmaza, amely egy nyelv tanulmányozásának alapjául szolgál. Statisztikai elemzésre és statisztikai hipotézis tesztelésre használják , egy adott nyelv nyelvi szabályainak érvényesítésére. A szövegkorpusz a korpusznyelvészeti kutatás tárgya .
A korpusz számos definíciója között megkülönböztethetők a fő tulajdonságai :
A korpuszokat különféle szempontok szerint osztályozhatjuk: a korpusz létrehozásának célja, a nyelvi adatok típusa, "irodalmi", műfaj, dinamizmus, jelölés típusa, szövegek mennyisége stb. A párhuzamosság kritériuma szerint például a korpuszok egynyelvűre, kétnyelvűre és többnyelvűre oszthatók. A többnyelvű és a kétnyelvűség két típusra osztható:
A jelölés abból áll, hogy speciális címkéket rendelnek a szövegekhez és összetevőikhez : nyelvi és külső (extralingvisztikai). A jelölésnek a következő nyelvi típusait különböztetjük meg: morfológiai, szemantikai, szintaktikai, anaforikus, prozódiai, diskurzus stb. Egyes korpuszokra további strukturális elemzési szinteket alkalmaznak. Különösen egyes kis korpuszok szintaktikailag teljesen megjelölhetők. Az ilyen korpuszokat általában mélyen jegyzett vagy szintaktikai korpuszoknak nevezik , és maga a szintaktikai szerkezet egy függőségi fa .
A szövegek kézi jelölése (annotációja) költséges és időigényes feladat. Jelenleg a korpuszok jelölésére szolgáló különféle szoftvereszközök nyilvánosak [3] . Hagyományosan feloszthatók különálló (önálló) és weborientált (web alapú) kategóriákra . Ugyanakkor a fejlesztők figyelme az elmúlt években a webes alkalmazások felé tolódott el. Ezeknek a rendszereknek számos előnye van:
A modern technológiák lehetővé teszik „web korpuszok”, azaz internetes források feldolgozásával nyert korpuszok létrehozását:
A webes korpusz egy speciális nyelvi korpusz, amely szövegek internetről történő fokozatos letöltésével jön létre automatizált eljárások segítségével, amelyek menet közben meghatározzák az egyes weboldalak nyelvét és kódolását, eltávolítják a sablonokat, navigációs elemeket, hivatkozásokat és hirdetéseket (a ún. boilerplate) szöveggé alakítását, szűrését, normalizálását és deduplikációját hajtja végre a beérkezett dokumentumokon, amelyeket azután a korpusznyelvészet hagyományos eszközeivel (tokenizálás, mirfoszintaktikai és szintaktikai annotáció) lehet feldolgozni és kereső korpuszrendszerben megvalósítani. A webes korpusz létrehozása nemcsak sokkal olcsóbb, de mindenekelőtt a mérete akár egy nagyságrenddel nagyobb is lehet, mint a hagyományos korpusz [4] .
— Vladimir Benko ARANEA — EGY MILLIÁRDOS WEBHORPS-CSALÁDA korpusz a korpusznyelvészet fő fogalma és adatbázisa. Különböző típusú korpuszok elemzése és feldolgozása a legtöbb számítógépes nyelvészet (pl. kulcsszókivonás ), beszédfelismerés és gépi fordítás területén végzett munka tárgyát képezi , ahol a korpuszokat gyakran használják rejtett Markov -modellek létrehozására a beszédrészek címkézésére, ill. egyéb feladatokat. A korpusz- és gyakoriságszótárak hasznosak lehetnek az idegen nyelvek oktatásában.
természetes nyelvi feldolgozás | |
---|---|
Általános meghatározások | |
Szövegelemzés |
|
Hivatkozás |
|
Gépi fordítás |
|
Azonosítás és adatgyűjtés | |
Tematikus modell | |
Peer review |
|
Természetes nyelvű felület |