A korpusz [1] nyelvészet a nyelvészet egyik ága , amely szövegkorpusok fejlesztésével, létrehozásával és használatával foglalkozik . A kifejezést az 1960 -as években vezették be az ügyek létrehozásának gyakorlatának kialakulása kapcsán, amelyet az 1980-as évektől a számítástechnika fejlődése segített elő.
A nyelvi vagy nyelvi szövegkorpusz egy nagy, géppel olvasható formátumú, egységes, strukturált, megjelölt, filológiailag kompetens nyelvi adatok tömbje, amely meghatározott nyelvi problémák megoldására szolgál [2] . A modern korpusz fő jellemzői a géppel olvasható formátum, a reprezentativitás és a metanyelvi információ jelenléte [2] . A reprezentativitás a szövegek kiválasztásának speciális eljárásával érhető el.
A nyelvi korpusz bizonyos elvek szerint összegyűjtött, meghatározott szabvány szerint megjelölt és speciális keresőmotorral ellátott szövegek gyűjteménye. . Néha korpusznak („elsőrendű korpusz”) egyszerűen olyan szöveggyűjteményt neveznek, amelyet valamilyen közös jellemző (nyelv, műfaj , szerző, szövegalkotási időszak) egyesít.
A szövegkorpusok létrehozásának célszerűségét a következők magyarázzák:
Brown Corpus (BK, angolul Brown Corpus , BC), amelyet az 1960 -as években hoztak létre a Brown Egyetemen , és 500 darab, egyenként 2 ezer szavas szövegrészletet tartalmazott, amelyeket 1961-ben adtak ki angolul az Egyesült Államokban. Ennek eredményeként 1 millió szóhasználatot szabott meg más nyelvű reprezentatív korpuszok létrehozásához. A BK-hoz közel álló minta szerint az 1970-es években létrehozták az orosz nyelvű Zasorina gyakorisági szótárat , amely szintén 1 millió szavas szövegkorpuszra épült, és megközelítőleg egyenlő arányban tartalmazott társadalmi-politikai szövegeket. , szépirodalmi, tudományos és népszerű tudományos szövegek különböző területekről és dramaturgiáról. Az 1980- as években a svédországi Uppsalai Egyetemen létrehozott orosz hadtest is hasonló mintára épült.
Egymillió szó nagysága csak a leggyakrabban előforduló szavak lexikográfiai leírására elegendő, mivel átlagos gyakoriságú szavak és nyelvtani szerkezetek millió szónként többször fordulnak elő (statisztikai szempontból egy nyelv ritka események nagy halmaza ). Tehát minden olyan hétköznapi szó, mint az angol. udvarias (udvarias) vagy eng. sunshine (sunshine) Kr.e. csak 7-szer fordul elő, a kifejezés angol. udvarias levél csak egyszer, és olyan stabil kifejezések, mint az angol. udvarias beszélgetés, mosoly, kérés – soha.
Ezen okok miatt, valamint a nagy mennyiségű szöveggel dolgozni képes számítógépes teljesítmény növekedésével kapcsolatban az 1980 -as években világszerte számos kísérlet történt nagyobb korpuszok létrehozására. Az Egyesült Királyságban ilyen projektek voltak a Bank of English (Bank of English) a Birminghami Egyetemen és a British National Corpus ( British National Corpus , BNC). A Szovjetunióban ilyen projekt volt az A. P. Ershov kezdeményezésére létrehozott orosz nyelv gépalapja .
A nagyszámú szöveg jelenléte elektronikus formában nagyban megkönnyítette a több tíz- és százmillió szóból álló, nagy reprezentatív korpuszok létrehozását, de nem szüntette meg a problémákat: több ezer szöveg összegyűjtése, szerzői jogi problémák eltávolítása, minden szöveg egybeillesztése. egyetlen forma, a korpusz téma és műfaj szerinti egyensúlyozása sok időt vesz el. Reprezentatív korpuszok léteznek (vagy fejlesztés alatt állnak) német, lengyel, cseh, szlovén, finn, újgörög, örmény, kínai, japán, bolgár és más nyelvekre.
Az Orosz Tudományos Akadémián létrehozott Nemzeti Orosz Nyelv Korpusz jelenleg több mint 500 millió szóhasználatot tartalmaz [4] .
A műfajok és funkcionális stílusok széles skáláját lefedő reprezentatív korpuszok mellett a nyelvészeti kutatásokban gyakran használnak opportunista szöveggyűjteményeket, például újságokat (gyakran a The Wall Street Journal és a The New York Times ), a hírfolyamokat ( Reuters ), a szöveggyűjteményeket. szépirodalom ( Maxim Moshkov könyvtára vagy Project Gutenberg ).
A korpusz véges számú szövegből áll, de úgy van kialakítva, hogy megfelelően tükrözze a megfelelő nyelven (vagy alnyelven ) a teljes szövegkötetre jellemző lexikogrammatikai jelenségeket. A reprezentativitás szempontjából az ügy mérete és szerkezete egyaránt fontos. A reprezentatív méret a feladattól függ, hiszen az határozza meg, hogy a vizsgált jelenségekre hány példát találunk. Tekintettel arra, hogy statisztikai szempontból a nyelv nagyszámú viszonylag ritka szót tartalmaz ( Zipf törvénye ), az első ötezer leggyakoribb szó tanulmányozásához (pl. veszteség, bocsánat ) egy kb. 10-20 millió szóhasználatra van szükség, míg az első húszezer szó leírásához ( igénytelen, szívverés, raj ) már százmillió feletti szóhasználatból álló korpuszra van szükség.
A szövegek elsődleges jelölése tartalmazza az egyes korpuszokhoz szükséges lépéseket:
A nagy korpuszokban egy olyan probléma merül fel, amely korábban nem volt releváns: a lekérdezés keresése több száz, sőt több ezer eredményt (használati kontextust) tud produkálni, amelyeket korlátozott időn belül fizikailag lehetetlen megtekinteni. A probléma megoldására olyan rendszereket fejlesztenek ki, amelyek lehetővé teszik a keresési eredmények csoportosítását és azok automatikus részhalmazokra való felosztását ( keresési eredmény klaszterezés ), vagy a legstabilabb kifejezések ( kollokációk ) megadását a jelentőségük statisztikai értékelésével .
Nagyon sok, az interneten fellelhető szöveg korpuszként használható (vagyis a világ fő nyelveinek több milliárd szóhasználatát). A nyelvészek számára az internetes munkavégzés legáltalánosabb módja továbbra is az, hogy lekérdezést hajtanak végre a keresőben, és az eredményeket a talált oldalak száma vagy az első visszaadott hivatkozások alapján értelmezik. Ezt a módszertant ún Googleológia [5] . Megjegyzendő, hogy ez a megközelítés egy korlátozott problémakör megoldására alkalmas, mivel a weben használt szövegjelölő eszközök nem írják le a szöveg számos nyelvi jellemzőjét ( hangsúlyok jelzése , nyelvtani osztályok, kifejezéshatárok stb.). . Ezenkívül a dolgot bonyolítja a szemantikai elrendezés alacsony elterjedtsége .
A gyakorlatban ennek a megközelítésnek a korlátai ahhoz vezetnek, hogy a legegyszerűbb például két szó kompatibilitását egy olyan lekérdezéssel ellenőrizni, mint a „szó1 szó2”. A kapott eredmények alapján meg lehet ítélni, hogy ez a kombináció mennyire gyakori, és mely szövegekben gyakoribb. Lásd még a lekérdezési statisztikákat .
A második mód az, hogy nagyszámú oldalt automatikusan kinyerünk az internetről, majd normál korpuszként használjuk, ami lehetővé teszi a jelölést és a nyelvi paraméterek használatát a lekérdezésekben. Ezzel a módszerrel gyorsan létrehozhatunk reprezentatív korpuszt bármely, az interneten kellően képviselt nyelvhez, de annak műfaja és tematikai sokszínűsége tükrözi az internethasználók érdekeit [6] .
A Wikipédia szöveggyűjteményként való használata egyre nagyobb népszerűségnek örvend a tudományos közösségben [7] .
2006-ban megjelent a Tatoeba (Tatoeba) webhely, amely lehetővé teszi, hogy szabadon hozzáadjon újakat és módosítsa a meglévő mondatokat különböző nyelveken, jelentésükben. Csak az angol-japán korpuszon alapult, és már most a nyelvek száma meghaladja a 80-at, a mondatok száma pedig 600 000 [8] . Bárki hozzáadhat új mondatokat és azok fordításait, és szükség esetén ingyenesen letöltheti az összes nyelvi korpuszt vagy annak egy részét.
Érdekesség az orosz nyelv nyílt korpuszának projektje , amely nemcsak a szabad licenc alatt megjelent szövegeket használja fel, hanem bárki részt vehet a korpusz nyelvi jelölésében. A crowdsourcingnak ezt a formáját a jelölési feladat kis feladatokra bontása teszi lehetővé, amelyek többsége speciális nyelvi előképzettség nélkül is megoldható [9] . A korpusz folyamatosan frissül, minden hozzá kapcsolódó szöveg és szoftver elérhető GNU GPL v2 és CC-BY-SA licenc alatt .
Korpusznyelvészet | |
---|---|
angol korpuszok |
|
Orosz nyelvű korpuszok |
|
Korpuszok más nyelveken |
|
Szervezetek |