Szövegkorpusz

A nyelvészetben a korpusz (ebben az értelemben a többes szám korpusz , nem korpusz [1] ) bizonyos szabályok szerint kiválasztott és feldolgozott szövegek halmaza, amely egy nyelv tanulmányozásának alapjául szolgál. Statisztikai elemzésre és statisztikai hipotézis tesztelésre használják , egy adott nyelv nyelvi szabályainak érvényesítésére. A szövegkorpusz a korpusznyelvészeti kutatás tárgya .

A hajótest alapvető tulajdonságai

A korpusz számos definíciója között megkülönböztethetők a fő tulajdonságai :

elektronikus - a mai értelemben a korpusznak elektronikus formában kell lennie
reprezentatív – jól „reprezentálja” a modellezett objektumot
megjelölve – a fő különbség a korpusz és a szöveggyűjtemény között
pragmatikusan orientált – meghatározott feladatra kell létrehozni

Esetbesorolás

A korpuszokat különféle szempontok szerint osztályozhatjuk: a korpusz létrehozásának célja, a nyelvi adatok típusa, "irodalmi", műfaj, dinamizmus, jelölés típusa, szövegek mennyisége stb. A párhuzamosság kritériuma szerint például a korpuszok egynyelvűre, kétnyelvűre és többnyelvűre oszthatók. A többnyelvű és a kétnyelvűség két típusra osztható:

párhuzamos - szövegek halmaza és azok egy vagy több nyelvre történő fordítása.
összehasonlítható (pszeudo-párhuzamos) - eredeti szövegek két vagy több nyelven.

Hajótest jelölések

A jelölés abból áll, hogy speciális címkéket rendelnek a szövegekhez és összetevőikhez : nyelvi és külső (extralingvisztikai). A jelölésnek a következő nyelvi típusait különböztetjük meg: morfológiai, szemantikai, szintaktikai, anaforikus, prozódiai, diskurzus stb. Egyes korpuszokra további strukturális elemzési szinteket alkalmaznak. Különösen egyes kis korpuszok szintaktikailag teljesen megjelölhetők. Az ilyen korpuszokat általában mélyen jegyzett vagy szintaktikai korpuszoknak nevezik , és maga a szintaktikai szerkezet egy függőségi fa .

A szövegek kézi jelölése (annotációja) költséges és időigényes feladat. Jelenleg a korpuszok jelölésére szolgáló különféle szoftvereszközök nyilvánosak [3] . Hagyományosan feloszthatók különálló (önálló) és weborientált (web alapú) kategóriákra . Ugyanakkor a fejlesztők figyelme az elmúlt években a webes alkalmazások felé tolódott el. Ezeknek a rendszereknek számos előnye van:

az a lehetőség, hogy egy dokumentumot egyszerre többen is megjelöljenek
nem igényel további szoftver telepítését a böngészőn kívül
a hozzáférési jogok rugalmas differenciálása
a jelölési folyamat aktuális folyamatának megjelenítése
a megjelölt test módosításának lehetősége

Az internet mint korpusz

A modern technológiák lehetővé teszik „web korpuszok”, azaz internetes források feldolgozásával nyert korpuszok létrehozását:

A webes korpusz egy speciális nyelvi korpusz, amely szövegek internetről történő fokozatos letöltésével jön létre automatizált eljárások segítségével, amelyek menet közben meghatározzák az egyes weboldalak nyelvét és kódolását, eltávolítják a sablonokat, navigációs elemeket, hivatkozásokat és hirdetéseket (a ún. boilerplate) szöveggé alakítását, szűrését, normalizálását és deduplikációját hajtja végre a beérkezett dokumentumokon, amelyeket azután a korpusznyelvészet hagyományos eszközeivel (tokenizálás, mirfoszintaktikai és szintaktikai annotáció) lehet feldolgozni és kereső korpuszrendszerben megvalósítani. A webes korpusz létrehozása nemcsak sokkal olcsóbb, de mindenekelőtt a mérete akár egy nagyságrenddel nagyobb is lehet, mint a hagyományos korpusz [4] .

— Vladimir Benko ARANEA — EGY MILLIÁRDOS WEBHORPS-CSALÁD

Alkalmazás

A korpusz a korpusznyelvészet fő fogalma és adatbázisa. Különböző típusú korpuszok elemzése és feldolgozása a legtöbb számítógépes nyelvészet (pl. kulcsszókivonás ), beszédfelismerés és gépi fordítás területén végzett munka tárgyát képezi , ahol a korpuszokat gyakran használják rejtett Markov -modellek létrehozására a beszédrészek címkézésére, ill. egyéb feladatokat. A korpusz- és gyakoriságszótárak hasznosak lehetnek az idegen nyelvek oktatásában.

Orosz szövegkorpusok

Lásd még

Jegyzetek

↑ GRAMOTA.RU - referencia és információs internetes portál "orosz nyelven" | Szótárak | Szóellenőrzés . gramota.ru. Letöltve: 2019. december 26. Az eredetiből archiválva : 2019. szeptember 17. (határozatlan)
↑ A diagram a "Zakharov V.P., Bogdanova S.Yu. Corpus linguistics: tankönyv. 3. kiadás, átdolgozott - St. Petersburg: Publishing House of St. Petersburg University, 2020. - 234 p." című könyv anyagai alapján készült. "
↑ Vanyushkin, Grashchenko, 2017 .
↑ ARANEA: EGY MILLIÁRD WEBESÜLET CSALÁD – Az Írott Örökség Közössége . textualheritage.org. Letöltve: 2019. december 26. Az eredetiből archiválva : 2020. augusztus 9.. (határozatlan)
↑ Glazkova, A. (2018), Életrajzi információkat tartalmazó töredékek automatikus keresése természetes nyelvű szövegben , Proceedings of the Institute for System Programming RAS T. 30(6): 221-236, doi : 10.15514/ISPRAS-2018-30( 6 )-12 , < https://www.researchgate.net/publication/330689783_Automatic_search_for_fragments_containing_biographical_information_in_a_natural_language_text >
↑ Rubtsova, Y. (2015), Szövegkorpusz építése hangszínosztályozó beállításához , Szoftvertermékek és rendszerek T. 1(109): 72-78, doi : 10.15827/0236-235x.109.072-078 , < http: //www .swsys.ru/index.php?page=article&id=3962&lang= > Archiválva : 2020. augusztus 7. a Wayback Machine -nél

Irodalom

Vanyushkin A.S., Grashchenko L.A. Kulcsszókivonási algoritmusok becslése: eszközök és erőforrások // Új információs technológiák automatizált rendszerekben. - 2017. - Kiadás. 20 . — ISSN 2227-0973 .
Nikolaev I. S., Mitrenina O. V., Lando T. M. Alkalmazott és számítógépes nyelvészet. - M. : URSS, 2016. - 320 p.

természetes nyelvi feldolgozás
Általános meghatározások	Szövegkorpusz beszédkorpusz Hagyd abba a szavakat zsák szavakat AI teljesség N-gramm Biggram titkosítás trigram
Szövegelemzés	Szöveg szegmentálása Részleges jelölés Felületi elemzés Összetett szövegszerkesztés Kollokációk kibontása eredő Lemmatizálás Elnevezett entitás felismerés Koreferencia felbontás Szöveges hangulatelemzés Fogalom kinyerése elemzése A lexikális poliszémia feloldása terminológia kivonat Információ kinyerése Nyelvi azonosítás Esetmeghatározás
Hivatkozás	Mondatok kibontása Absztrakt generáció Több dokumentumra való hivatkozás Szöveg egyszerűsítés
Gépi fordítás	automatizált Hibrid nyelvközi Szabály alapú Példák alapján Szótár alapú Átalakulás alapján idegi Statisztikai Szinkron
Azonosítás és adatgyűjtés	Beszédfelismerés beszédszintézis Optikai karakter felismerés Szöveggenerálás
Tematikus modell	Pachinko elhelyezés Látens Dirichlet elhelyezés Látens szemantikai elemzés
Peer review	Az esszék automatizált értékelése Concordancer Prediktív szövegbevitel Nyelvtan-ellenőrző Helyesírás-ellenőrző Szintaxis találgatás
Természetes nyelvű felület	virtuális asszisztens Virtuális beszélgetőpartner Kérdés-felelet rendszer Hang interfész Interaktív irodalom