brit nemzeti hadtest | |
---|---|
URL | www.natcorp.ox.ac.uk |
Webhely típusa | Tudományos irodalom |
nyelvek) | brit angol |
Szerver helye | |
Szerző | Oxford University Press , Longman , W. & R. Chambers |
A munka kezdete | 1994 |
A British National Corpus ( BNC ) egy 100 millió szavas , írott és beszélt brit angol korpusz , amely számos forrásból származik [1] [2] [3] . A korpusz a 20. század végi brit angolt fedi le, amelyet a legkülönfélébb műfajok képviselnek, és a korabeli tipikus beszélt és írott brit angolt kívánják reprezentálni.
Három kiadó ( az Oxford University Press mint vezető közreműködő, valamint a Longman and W. & R. Chambers ), két egyetem ( Oxford és Lancaster ) és a British Library [2] működött együtt a projektben a BNC létrehozása érdekében .
A BNC létrehozása 1991-ben kezdődött a BNC konzorcium vezetésével, és 1994-re fejeződött be. 1994 után nem kerültek be új példák, de a BNC kisebb változtatásokon ment keresztül a második (BNC World, 2001) és a harmadik (BNC) megjelenése előtt. XML Edition, 2007) kiadások [4] .
A számítástechnikai nyelvészek véleménye szerint a BNC-nek a kompiláció idején a modern korpusznak kellett lennie , amely valós nyelven fordul elő , akár beszélt , akár írott . Ennek eredményeként a BNC-t számítógépbarát formába állítottuk össze, hogy lehetővé tegye a korpusznyelvészeti módszerekkel történő automatikus keresést és feldolgozást . Az egyik különbség a BNC és az akkoriban létező korpuszok között az volt, hogy az adatok nemcsak tudományos kutatási, hanem kereskedelmi és oktatási célokra is felhasználhatók voltak [3] .
Az alkotók csak a brit angol nyelvre korlátozták a korpuszt , nem szándékoztak példákat szerepeltetni a World English használatára . Ez részben azért történt, mert a projekt költségeinek jelentős részét a brit kormány fizette, amely természetesen érdekelt volt országa nyelvi sokszínűségének dokumentálásában [3] .
A BNC példátlan méretű korpuszának felépítéséhez mind a kereskedelmi, mind a tudományos intézmények finanszírozására volt szükség. A BNC- adatok később kereskedelmi használatra és tudományos kutatásra is hozzáférhetővé váltak [3] .
A BNC egy egynyelvű korpusz, mivel csak mintákat tartalmaz a brit angolból, bár néha más nyelvekből származó szavak és kifejezések is megjelennek a szövegekben. Ez egy szinkron korpusz, mivel csak egy korszak - a 20. század végi - nyelvhasználatára tartalmaz példákat. Emiatt a BNC nem szolgálhat adatforrásként a brit angol fejlődéstörténetére vonatkozóan [4] . Az írásos adatgyűjtésben résztvevők kezdettől fogva arra törekedtek, hogy a BNC-t kiegyensúlyozott korpusztá tegyék, és ennek következtében különböző forrásokból származó adatokat kerestek és beépítettek [3] .
A korpusz 90%-a az írott nyelv használati példáiból áll . Ezeket a példákat regionális és országos újságokból, tudományos folyóiratokból és különböző tudományterületek folyóirataiból, szépirodalmi és újságírásból vettük , mind a megjelent, mind a kiadatlan anyagokból (például brosúrákból, levelekből, tanulói esszékből, forgatókönyvekből, beszédekből), valamint sok másból. források [5] .
Beszélgetési korpuszA BNC-anyag fennmaradó 10%-a beszélt nyelvhasználati minták, amelyeket gyakorlati átírással mutattak be és rögzítettek .
A társalgási korpusz két részből áll. A demográfiai rész olyan spontán beszélgetések átiratát tartalmazza, amelyek valós körülmények között zajlottak, különböző korcsoportokból, régiókból és társadalmi rétegekből származó önkéntesek részvételével. Ezekre a beszélgetésekre különféle helyzetekben került sor, beleértve az üzleti vagy kormányüléseket, valamint a rádióadásokon vagy telefonon folytatott megbeszéléseket [5] . Ennek során figyelembe vették mind a beszélt nyelv demográfiai megoszlását, mind a nyelv kontextusból adódó nyelvileg jelentős változatosságát [6] .
A köznyelvi korpusz második része kontextusérzékeny mintákat tartalmaz, például különleges értekezletek vagy rendezvények alkalmával készült felvételek átiratait.
A BNC-be való felvétel céljából átírt összes eredeti felvétel a British Library Hangarchívumába került . A bejegyzések többsége elérhető az Oxfordi Egyetem Fonetikai Laboratóriumának honlapján .
A BNC csomag részleges jelöléseket tartalmaz . Ehhez a hajótest létrehozásakor a CLAWS jelölési rendszert használták. Ez a rendszer számos módosításon ment keresztül, mielőtt az utolsó - CLAWS4 - beérkezett, amelyet az ügyben használtak. A CLAWS1 rendszer egy rejtett Markov modellen alapult, és képes volt bármilyen szöveg 96-97%-át helyesen megjelölni. Amikor a CLAWS1-ről a CLAWS2-re váltunk, megszűnt a kézi szöveg-előkészítés szükségessége a jelölési folyamat megkezdése előtt. A CLAWS4 olyan fejlesztéseket tartalmaz, mint például a hatékonyabb lexikális egyértelműsítés és a helyesírási variáció. A jelölőrendszerrel kapcsolatos további munka az automatikus jelölés sikerarányának növelésére és a jelölés megkezdése előtti szövegek kézi előkészítésének csökkentésére irányult a kézi munkát helyettesítő további szoftverek bevezetésével [2] [7] .
Később a jelölést hozzáadták bizonyos szavak és kifejezések kétértelműségének jelzésére. Ugyanakkor, annak ellenére, hogy a CLAWS4 képes automatikusan meghatározni a beszédtípusokat és a szavak jelentését, továbbra is szükség volt a kézi jelölésre, mivel az angoltól eltérő nyelveket a CLAWS4 nem támogatja [8] [9] .
Két alkorpusa (BNC adatrészhalmaz) jelent meg BNC Baby és BNC Sampler néven. Mindkét alkorpusz beszerezhető, ha megrendeli őket a BNC webhelyéről [10] .
A BNC Baby a BNC alkorpusa, amely négy, egyenként egymillió szót tartalmazó mintakészletből áll. Az egyes készletek szavai egy adott műfaji kategóriának felelnek meg. Az egyik mintakészlet beszélgetések átiratát tartalmazza, míg a fennmaradó három készlet nem szépirodalmi, szépirodalmi és újságbeli írott szövegek mintáit tartalmazza . Ugyanakkor a BNC [11] -ben elérhető jelölések megmaradnak az alkorpuszban . A legújabb (harmadik) kiadás XML formátumban jelent meg [12] .
A BNC Sampler egy két részből álló altest. Az első rész írásos adatokat, a második rész a köznyelvi beszédet tartalmazza. Minden rész egymillió szót tartalmaz. A BNC Samplert eredetileg a BNC jelölési folyamat javítására használták, ami végül a BNC World kiadásához vezetett. A projekt során a BNC Sampler fejlődött, ahogy a jelöléssel kapcsolatos tapasztalatok és ismeretek bővültek. Ennek eredményeként létrejött a ma ismert BNC Sampler [13] .
A korpusz a Text Encoding Initiative (TEI) konzorcium ajánlásai szerint van megjelölve, és teljes nyelvi megjegyzéseket és kontextuális információkat tartalmaz [14] .
A CLAWS4 részleges jelölő eszköz törzsének használatához licencet kell vásárolni [15] . Alternatív megoldásként használhatja a Lancaster Egyetem által nyújtott jelölési szolgáltatást [16] .
Maga a BNC személyi és kollektív licenccel is megvásárolható. A BNC kiadás XML formátumban érhető el, és a Xaira keresőszoftverrel érkezik . A csomag megrendelhető a BNC honlapján [17] .
A BNC XML kiadásához egy korpuszkezelőt BNCweb fejlesztettek ki, amely online elérhető. Felülete könnyen használható, és támogatja a korpusz anyagok lekérdezését és elemzését [18] .
A BNC volt az első ilyen méretű korpusz, amely széles közönség számára elérhető volt. Ennek oka talán egyrészt a szerzői jogok birtokosai és a Konzorcium, másrészt a korpusz felhasználói és a Konzorcium között létrejött szabványos megállapodások. A korpusz készítői egy szabványos licencszerződés megkötésére törekedtek a szellemi tulajdonjogok tulajdonosaival , amelynek egyik rendelkezése az volt, hogy anyagi díjak fizetése nélkül kerüljenek be a korpuszba. Az ilyen megegyezést az ügy eredetisége és egyedisége segítette elő [6] .
Nehéznek bizonyult azonban megőrizni a közreműködők névtelenségét anélkül, hogy alábecsülnénk munkájuk jelentőségét. A korpusz anyagaiból eltávolítottak minden átláthatatlan utalást a szerző kilétére. Ugyanakkor az anonimitás megőrzése érdekében fontolóra vették a valódi nevek más névvel való helyettesítésének lehetőségét, amit azonban nem tartottak megfelelőnek [6] .
Emellett a szerzőktől kezdetben engedélyt kértek arra, hogy beszédük csak átírt változatát közöljék, magát a beszédet azonban ne. Bár az engedélyt újra lehet kérni, az eredeti szerzők keresését megnehezítheti a folyamatban lévő anonimizálási folyamat. Ugyanakkor világossá váltak azok a tényezők, amelyek súlyosbították a szerzői jogok birtokosainak vonakodását anyagaik korpuszba való adományozásától: a teljes szövegeket kizárták a korpuszból, ami a szerzői jogok birtokosainak motivációjának hiányához vezetett az információk korpuszon keresztül történő terjesztésére (különösen nem kereskedelmi alapra) [6] .
2001-ben a BNC-ben még hiányzott az írott szövegek szférán kívüli osztályozása (újságok, szépirodalom stb.), valamint a beszélt szövegek kontextuson, illetve a beszélgetés résztvevőinek demográfiai vagy társadalmi-gazdasági osztályán kívüli osztályozása. Például rengeteg szépirodalmi szövegminta ( regények , novellák , versek stb.) szerepelt a korpuszban , de ezek alműfajaira vonatkozó információk hiányoztak a mintafejlécekből és a BNC-dokumentációból. Így a kutatók számára a műfaji sokszínűség ismerete gyakorlatilag hiábavaló volt, hiszen nem volt könnyű a kívánt alműfajú műveket megszerezniük [19] .
2002-ben a korpusz új verziójának - a BNC World Edition - kiadásával kísérletet tettek az osztályozási probléma megoldására. A beszélt és írott szövegek szférái mellett 70 osztályt azonosítottak, amelyek lehetővé tették a kutatók számára, hogy egy bizonyos műfajú szövegeket kinyerjenek a korpuszból [20] .
A besorolás megvalósítása azonban ezen újítások után is gondokat okoz, hiszen a műfaj vagy alműfaj szöveghez való hozzárendelését különféle finomságok nehezítik. A beszélt adatok osztályokra osztása kevésbé nyilvánvaló, mint az írott adatok esetében, mivel a beszélgetések témái sokkal változatosabbak. Problémák és kétértelműségek is vannak bármely műfaj alműfajának meghatározásával kapcsolatban, mivel a korpuszban az alműfajok felosztását szabványosítási céllal előre meghatározták [20] .
A korpusz létrehozásakor néhány szöveget helytelenül kategorizáltak, gyakran a félrevezető címsorok miatt. Például sok olyan szöveg, amelynek a címében szerepel az „előadás” szó, valójában tantermi megbeszélések vagy oktatási szemináriumok, amelyekben emberek kis csoportjai vesznek részt, vagy népszerű előadások, amelyek a nagyközönségnek szólnak (nem pedig egyetemi hallgatóknak szóló előadások ) [ 19] . A téves besorolás egyik oka, hogy a műfaj és az alműfaj a legtöbb szöveghez megadható, de nem mindegyikhez. Ezenkívül a szöveg teljes terjedelmében utalhat különböző alműfajokra, különböző műfajok meghatározása alá eshet [20] .
Az írott és a beszélt anyag aránya a BNC-ben 10:1 [6] . Ennek az az oka, hogy egy millió szónyi valós beszéd összegyűjtésének, átírásának és digitalizálásának költsége legalább 10-szer magasabb, mint egy millió szó újságból való hozzáadásának költsége. Van azonban olyan vélemény, hogy mivel a szóbeli és az írásbeli beszéd egyformán fontos, ezért egyenlő arányban kell azokat bemutatni a korpuszban [6] .
A BNC nem túl hasznos a beszélt nyelv egyes jellemzőinek tanulmányozásában, mivel csak gyakorlati átírásokat tartalmaz , a kommunikáció paralingvisztikai jellemzőit pedig nagyon felületesen jelzik [21] .
Egyes lexikai egységek közötti kapcsolatok túlságosan kétértelműek ahhoz, hogy hatékonyan felfedezzék őket a keresési lekérdezések segítségével. Bármilyen attribúciós záradék keresési kísérlete hibás adatokat ad a felhasználónak, például kérdő névmások és az "az" szó használatának előfordulását. Ezenkívül általában nem lehet programszerűen azonosítani azokat az alárendelt mondatokat, amelyekben a névmások kimaradnak (mint például az „az ember, akit láttam”). Ugyanezen okból nehéz meghatározni egyes szemantikai és pragmatikai kategóriák (kétség, nézeteltérés, felismerés) használatát [21] .
A korpusz anyagai alapján megállapítható, hogy egy beszédet férfi vagy nő mond-e, de nem lehet megtudni belőlük, hogy a beszédet mondó személy férfihoz vagy nőhöz szól-e [21] .
A BNC egy nagyon sokrétű és vegyes korpusz, így nem alkalmas nagyon specifikus szövegtípusok vagy műfajok tanulmányozására, mivel egy ilyen típus vagy műfaj valószínűleg rendkívül korlátozott, és az ilyen típusú szövegeket nem könnyű megtalálni. a korpuszban. A BNC-ben például nagyon kevés üzleti levél vagy rögzített kormányülés található, ezért azok sajátosságainak tanulmányozása érdekében célszerű egy kisebb, csak ilyen típusú szövegekből álló korpusz összegyűjtése [21] .
A korpusz nyelvoktatásban való felhasználásának két fő módja van: módszertani anyagok létrehozása és elemzésen keresztüli tanulás [21] .
Oktatási anyagokA kiadók és kutatók a korpusz mintáiból nyelvtanulási ajánlásokat, tanterveket és egyéb tananyagokat készíthetnek.
A BNC-t például japán kutatók egy csoportja használta eszközként egy web-alapú angol nyelvtanulási rendszer kifejlesztéséhez bizonyos területeken (üzleti, orvostudomány) [22] . A rendszer hozzáférést biztosított a hallgatóknak a leggyakrabban használt mondatsablonokhoz, hogy tanulhassanak ezekből a példákból. Az ilyen jellegű javaslatok forrása a rendszerben a BNC volt (a pályázatokhoz a BNC-re való hivatkozásokat csatolták a pályázat valóságtartalmának bizonyítására).
Tanulás elemzésen keresztülA korpuszelemzés közvetlenül beépíthető a nyelvoktatási módszerekbe. Ebben az esetben a hallgatók lehetőséget kapnak arra, hogy önállóan osztályozzák a korpusz nyelvi adatait, és így az osztályozás alapján képet alkotjanak a vizsgált nyelv mintáiról és képességeiről. Az ebben a tanítási módszerben használt korpuszokból származó adatok viszonylag csekélyek, és ezért a tanult nyelvről alkotott elképzelések általánosításához vezethetnek, aminek nem sok köze lehet a dolgok valós állapotához [21] .
VegyesA BNC hivatkozási forrásként használható szövegek létrehozása és elemzése során, például az egyes szavak különféle kontextusokban való használatának tanulmányozásakor. Ez lehetővé teszi, hogy megismerkedjen ugyanazon szavak használatának különböző módjaival [21] .
A nyelvvel kapcsolatos információk mellett a BNC olyan enciklopédikus adatok forrásaként is szolgálhat, mint a brit kultúra és az Egyesült Királyságban népszerű sztereotípiák [21] .
Indiában 2012-ben több mint 12 000 BNC szót és kifejezést használtak fel 22 fordítási szótár kifejlesztésére a helyi nyelvekről angolra. A fejlesztés az oktatási rendszer reformját és az indiai kis népek nyelveinek megőrzését célzó mozgalom részeként valósult meg [23] .
A BNC méreténél fogva kiválóan alkalmas szoftvertesztelési anyagként [24] . Például a Text Encoding Initiative (TEI) jelölőnyelvi specifikációinak tesztelésekor használták. Ezenkívül a BNC 20 millió szót használtak az alkategória-hozzárendelési rendszer értékeléséhez a Senseval [25] szójelentés-elemző projektben .
Hofmann és Lehmann egy 2000-es tanulmánya, amely azokat a mechanizmusokat vizsgálta, amelyek lehetővé teszik az emberek számára, hogy szabadon kezeljék hatalmas kollokációikat . Különösen két mechanizmust tanulmányoztak, amelyek közül az egyik lehetővé teszi, hogy a kollokációk mindig használatra készek legyenek, a másik pedig lehetővé teszi az emberek számára, hogy nyelvtanilag vagy szintaktikailag könnyedén bővítsék a kollokációkat, hogy alkalmazkodjanak egy adott helyzethez. Ebből a célból ritka szóösszetételeket vontak ki a BNC-ből [26] .
Fernandez és Ginzburg 2002-es tanulmánya, amely olyan megnyilatkozásokkal teli párbeszédeket vizsgált, amelyek csak intuitív módon végződtek, és nem hordoztak kontextuson kívüli információt. Alapvetően ezek tipikus rövid válaszok a kérdésekre. A vizsgálat során a BNC adatok töredékeit használták fel az ilyen állítások teljes és elméletileg megalapozott osztályozásának összeállítására [27] .
Természetes nyelvi feldolgozásA BNC-t széles körben használják a morfológiai feldolgozás területén ( a természetes nyelvi feldolgozás egyik ága ). A BNC adatait különösen a brit angol nyelvű morfológiai markerfeldolgozó eszközök pontosságának, megbízhatóságának és sebességének tesztelésére használják [28] . Ezenkívül a BNC adatait felhasználták a morfológiai markerek angol nyelvű információinak kiterjedt tárházának létrehozására [28] .
A számítástechnikai és korpusznyelvészek körében általánosan elfogadott, hogy a BNC kiemelkedő teljesítmény, óriási méretű korpusz. A nagy mennyiségű adat összegyűjtésére és további feldolgozására irányuló hatalmas erőfeszítéseknek köszönhetően a BNC az egyik legértékesebb korpusz lett. A BNC mintakorpusznak tekinthető, amelyből későbbi korpuszok készülnek (pl . amerikai , cseh és lengyel nemzeti korpuszok) [29] [30] .
2014 júliusában a Cambridge University Press és a Lancaster Egyetem Társadalomtudományi Központja (Center for Corpus Approach to the Social Sciences) bejelentette a BNC-t, hogy folyamatban van egy új brit nemzeti korpusz létrehozása [31] . A két intézmény közös projektjének első állomása a brit angol új köznyelvi korpuszának összeállítása volt a 2010-es évek elejétől és közepéig [32] .
Korpusznyelvészet | |
---|---|
angol korpuszok |
|
Orosz nyelvű korpuszok |
|
Korpuszok más nyelveken |
|
Szervezetek |