Az American National Corpus ( ANC) amerikai angol szövegekből álló korpusz, amely 22 millió szót tartalmaz írott és szóbeli forrásokból 1990 óta. Az ANC számos új forrásból származó szöveget tartalmaz, például e- maileket , tweeteket és weboldalak szövegét , amelyek nem szerepelnek a korábbi angol korpuszokban, például a British National Corpusban . A beszédrész konkordanciáját valósítja meg a lemmatizálással , beleértve a tulajdonneveket és a felületes elemzést .
Az ANC elérhető a Linguistic Data Consortium tagjai számára . A korpusz 15 millió szavát tartalmazó erőforrást (alkorpuszt) Open American National Corpusnak (OANC) nevezik, és nyilvánosan elérhető az ANC webhelyéről [1] .
A korpusz szövegei az ISO/TC 37 „Linguistic Annotation Framework” technikai bizottság követelményeinek megfelelően kerültek kialakításra. A nyilvánosan elérhető ANC2Go transzdukciós eszköznek köszönhetően a felhasználók által generált korpusztöredékek és annotációk többféle formátumban jelennek meg, mint például a CoNLL IOB, az XCES kódolási szabványnak megfelelő XML formátum (amely a British National Corpus XAIRA -ban használható keresőmotor ) , UIMA kompatibilis formátum, valamint a konkordanciaprogramok széles körére alkalmas formátumok. Beépülő modulok is elérhetők megjegyzések importálására a GATE természetes nyelv feldolgozó rendszerébe .
Az ANC különbözik a többi angol korpusztól kiterjedt annotációiban, beleértve a különböző beszédtag-címkéket (Penn-címkék, CLAWS5 és CLAWS7-címkék), sekély elemző annotációkat és több típusú elnevezett objektum megjegyzéseit. A teljes korpuszhoz vagy annak egyes részeihez további megjegyzéseket adunk, amint elérhetővé válik, gyakran más projektek eredményeként. Ellentétben az online szövegkorpuszokkal, amelyek a szerzői jogi korlátozások miatt csak egyes mondatokhoz biztosítanak hozzáférést, a teljes ANC korpusz elérhető a kutatás számára, beleértve a statisztikai nyelvi modellek és a teljes szövegű nyelvi annotációk fejlesztését.
Az ANC megjegyzések automatikusan generálódnak, és nincsenek érvényesítve. Az OANC 500 000 szavas szakasza, amely a kézi jegyzetekkel ellátott ANC alkorpusz (MASC) néven ismert, körülbelül 20 különböző típusú nyelvi megjegyzéshez tartozik, amelyeket manuálisan ellenőriznek vagy hoznak létre. Ezek közé tartozik a Penn Treebank szintaktikai megjegyzés, a WordNet és a FrameNet szemantikai hálózatok és mások. Az OANC-hoz hasonlóan a MASC is szabadon elérhető bármilyen felhasználásra, és letölthető az ANC webhelyéről vagy a Linguistic Data Consortiumtól. A Natural Language Toolkittel együtt terjesztik , amely a természetes nyelv szimbolikus és statisztikai feldolgozására szolgáló könyvtárak és programok csomagja .
Az ANC és alkorpusai főként a nyelvi annotációk jellemzőiben térnek el a hasonló szövegkorpuszoktól, illetve a kortárs műfajok szövegeinek szerepeltetésében, amelyek nem találhatók meg olyan forrásokban, mint például a British National Corpus . Ezen túlmenően, mivel az ANC eredeti célja statisztikai nyelvi modellek fejlesztése, a teljes adat és az összes megjegyzés elérhető az ANC felhasználók számára, ellentétben a Corpus of Modern American English (COCA)-val, amelynek szövegei csak szelektíven érhetők el webböngészőn keresztül.
Az OANC és MASC szövegbázisok növekedése folytatódik a számítógépes nyelvészeti és korpusznyelvészeti közösségek által előállított adatok és megjegyzések hozzáadásával .
Korpusznyelvészet | |
---|---|
angol korpuszok |
|
Orosz nyelvű korpuszok |
|
Korpuszok más nyelveken |
|
Szervezetek |