Az amerikai angol nemzeti korpusz

Az American National Corpus ( ANC) amerikai angol szövegekből álló korpusz, amely 22 millió szót tartalmaz írott és szóbeli forrásokból 1990 óta. Az ANC számos új forrásból származó szöveget tartalmaz, például e- maileket , tweeteket és weboldalak szövegét , amelyek nem szerepelnek a korábbi angol korpuszokban, például a British National Corpusban . A beszédrész konkordanciáját valósítja meg a lemmatizálással , beleértve a tulajdonneveket és a felületes elemzést .

Az ANC elérhető a Linguistic Data Consortium tagjai számára . A korpusz 15 millió szavát tartalmazó erőforrást (alkorpuszt) Open American National Corpusnak (OANC) nevezik, és nyilvánosan elérhető az ANC webhelyéről [1] .

A korpusz szövegei az ISO/TC 37 „Linguistic Annotation Framework” technikai bizottság követelményeinek megfelelően kerültek kialakításra. A nyilvánosan elérhető ANC2Go transzdukciós eszköznek köszönhetően a felhasználók által generált korpusztöredékek és annotációk többféle formátumban jelennek meg, mint például a CoNLL IOB, az XCES kódolási szabványnak megfelelő XML formátum (amely a British National Corpus XAIRA -ban használható keresőmotor ) , UIMA kompatibilis formátum, valamint a konkordanciaprogramok széles körére alkalmas formátumok. Beépülő modulok is elérhetők megjegyzések importálására a GATE természetes nyelv feldolgozó rendszerébe .

Az ANC különbözik a többi angol korpusztól kiterjedt annotációiban, beleértve a különböző beszédtag-címkéket (Penn-címkék, CLAWS5 és CLAWS7-címkék), sekély elemző annotációkat és több típusú elnevezett objektum megjegyzéseit. A teljes korpuszhoz vagy annak egyes részeihez további megjegyzéseket adunk, amint elérhetővé válik, gyakran más projektek eredményeként. Ellentétben az online szövegkorpuszokkal, amelyek a szerzői jogi korlátozások miatt csak egyes mondatokhoz biztosítanak hozzáférést, a teljes ANC korpusz elérhető a kutatás számára, beleértve a statisztikai nyelvi modellek és a teljes szövegű nyelvi annotációk fejlesztését.

Az ANC megjegyzések automatikusan generálódnak, és nincsenek érvényesítve. Az OANC 500 000 szavas szakasza, amely a kézi jegyzetekkel ellátott ANC alkorpusz (MASC) néven ismert, körülbelül 20 különböző típusú nyelvi megjegyzéshez tartozik, amelyeket manuálisan ellenőriznek vagy hoznak létre. Ezek közé tartozik a Penn Treebank szintaktikai megjegyzés, a WordNet és a FrameNet szemantikai hálózatok és mások. Az OANC-hoz hasonlóan a MASC is szabadon elérhető bármilyen felhasználásra, és letölthető az ANC webhelyéről vagy a Linguistic Data Consortiumtól. A Natural Language Toolkittel együtt terjesztik , amely a természetes nyelv szimbolikus és statisztikai feldolgozására szolgáló könyvtárak és programok csomagja .

Az ANC és alkorpusai főként a nyelvi annotációk jellemzőiben térnek el a hasonló szövegkorpuszoktól, illetve a kortárs műfajok szövegeinek szerepeltetésében, amelyek nem találhatók meg olyan forrásokban, mint például a British National Corpus . Ezen túlmenően, mivel az ANC eredeti célja statisztikai nyelvi modellek fejlesztése, a teljes adat és az összes megjegyzés elérhető az ANC felhasználók számára, ellentétben a Corpus of Modern American English (COCA)-val, amelynek szövegei csak szelektíven érhetők el webböngészőn keresztül.

Az OANC és MASC szövegbázisok növekedése folytatódik a számítógépes nyelvészeti és korpusznyelvészeti közösségek által előállított adatok és megjegyzések hozzáadásával .

Jegyzetek

↑ Az Open American National Corpus . Letöltve: 2018. április 7. Az eredetiből archiválva : 2018. február 24.. (határozatlan)

Irodalom

Ide, N. (2008). Az American National Corpus: Akkor, most és holnap . Michael Haugh, Kate Burridge, Jean Mulder és Pam Peters (szerk.), Selected Proceedings of the 2008 HCSNet Workshop on Designing the Australian National Corpus: Mustering Languages, Cascadilla Proceedings Project, Sommerville, MA.
Ide, N., Suderman, K. (2004). Az American National Corpus első kiadása . Proceedings of the Fourth Language Resources and Evaluation Conference (LREC), Lisszabon, 1681-84.
Ide, N., Baker, C., Fellbaum, C., Passonneau, R. (2010). A manuálisan jegyzett alkorpusz: közösségi forrás az emberek számára és az emberek által

Linkek

Korpusznyelvészet
angol korpuszok	Az amerikai angol nemzeti korpusz Angol bank Bergen Corpus of London Teenage Language brit nemzeti hadtest Barna korpusz Buckeye Corpus Cambridge English Corpus A modern amerikai angol korpusz Enron Corpus Nemzetközi angol korpusz Lancaster-Oslo-Bergen korpusz Oxford English Corpus Prop Bank Beszélt angol korpusz IDŐPONT VerbNet Új-zélandi angol nyelvű Wellington Corpus
Orosz nyelvű korpuszok	Általános orosz nyelvű internetes korpusz Orosz nemzeti korpusz Nyílt korpusz az orosz nyelvből SinTagRus Tübingeni orosz nyelv korpusz Orosz szövegek uppsalai korpusza Helsinki jegyzetekkel ellátott orosz nyelvű korpusz
Korpuszok más nyelveken	Bijankhan Corpus GYERMEKEK Corpus horvát Horvát Nemzeti Testület Europarl Corpus Mannheim Corpus német Hamshahri hadtest Lengyel Nemzeti Korpusz Neo-asszír szövegkorpusz projekt Korán korpusz Skót Nemzeti Testület Szlovén Nemzeti Testület beszélni bank Tatoeba Teherán egynyelvű korpusz Tekstaro de Esperanto Thesaurus Linguae Graecae
Szervezetek	BNC Konzorcium EGYESÍTÉS