Cseh nemzeti hadtest | |
---|---|
URL | ucnk.ff.cuni.cz |
Kereskedelmi | Nem |
Webhely típusa | oktatási/tudományos projekt |
nyelvek) | cseh/angol |
Szerver helye | Csehország , Prága |
Szerző | Károly Egyetem |
Jelenlegi állapot | Működik és fejlődik |
A Cseh Nemzeti Korpusz (Český národní korpus vagy ČNK) a prágai Károly Egyetem által karbantartott, cseh nyelvű, elektronikus formában írott szövegek nyilvánosan kereshető adatbázisa . Az oldal cseh és angol nyelven érhető el.
A CNC ötletét először 1991-ben terjesztették elő, és a Károly Egyetem Filozófiai Karának, a Károly Egyetem Matematikai és Fizikai Karának, a Masaryk Egyetemnek , a Palacký Egyetemnek , a Cseh Akadémia Cseh Nyelvi Intézetének képviselői támogatták. Tudományok .
A korpusz létrejöttének előfeltétele olyan tényezők voltak, mint a modern cseh nyelv eltérése az általánosan elfogadott normáktól (a korpusz létrehozása megmentené a cseh lexikográfiát az ilyen eltérésektől), valamint a politikai helyzet stabilizálása (szélesebb körű együttműködés a nemzetközi tudományos közösség segítette a számítógépes lexikográfia és a korpusznyelvészet mint külön ágak bevezetését a cseh nyelvészetbe). 1994-ben a Károly Egyetem Filozófiai Karán megalakult a Cseh Nemzeti Korpusz Intézet, és együttműködési megállapodásokat írtak alá az Intézet és a Cseh Köztársaság egyes intézményei között [1] .
2017. szeptember 10-től a következő személyek dolgoznak a Cseh Nemzeti Korpuszon:
Írott szöveg korpusz / Írott korpusz (szinkron) | ~2705 millió szó |
Szóbeli szövegkorpusz / Beszélt korpuszok (szinkron) | ~4 millió szó |
Diachronic corpus / Diachronic corpora | 1,95 millió szó |
Idegen nyelvek korpusza / Idegen nyelvi korpuszok | 6248 millió szó |
Párhuzamos korpusz / Parallel corpus | 92 millió szó |
A korpusz teljes mennyisége meghaladja a 9 milliárd szóhasználatot, ebből ~8894,5 millió lemmatizált és morfológiai címkékkel ellátott [3] .
A CHNC fő tartalma a következő:
Külön CNC korpuszt szentelnek George Orwell „ 1984 ” disztópiájának, amelynek viszonylag kis mérete (80 000 szó és 20 000 írásjel) szinte hibátlanul tette lehetővé a szöveg manuális jelölését [4] .
Az oldalhoz kétféle hozzáférés létezik: nyilvános és teljes.
Jogosulatlan felhasználó csak a SYN2010 korpuszban kereshet, amely mindössze 100 millió szóból áll, ami a Cseh Nemzeti Korpusz teljes bázisának kilencvenedik része. A SYN2010 [5] 40%-a szépirodalom, 27%-a szakirodalom és 33%-a újságírás. A korpuszban található szövegek többsége 2005 és 2009 között készült.
A nyilvános hozzáférés lehetővé teszi a SYN2010 előfordulásának és az első 50 példa megtekintését. A szavak konkordanciasorok formátumban vannak megadva, amikor minden sor a szöveg része, amelyben az adott kifejezés szerepel. Nyilvános hozzáféréshez lehetőség van alapvető reguláris kifejezések használatára, kulcsszavas keresésre is.
A regisztrált felhasználó teljes hozzáféréssel rendelkezik a ChNK Institute adatbázisához, valamint Bonito speciális esetmenedzserhez.
A Bonito (A Modular Corpus Manager A Bonito) a Manatee Corpus Manager grafikus felhasználói felülete ( GUI ), amelyet a brünni Masaryk Intézet Számítástechnikai Karán található Natural Language Processing Centerben hoztak létre. Készítette: Pavel Rychlý, tantestületi asszisztens [6] .
Pillanatnyilag[ pontosítani ] A Cseh Köztársaság következő intézményei működnek együtt a hadtesttel:
A korpusz együttműködik a Brown Egyetem Szláv Nyelvek Karával ( USA ), a Szentpétervári Állami Egyetem Filológiai és Bölcsészettudományi Karával ( Oroszország ), valamint a Granadai Egyetem Filozófiai és Irodalomtudományi Karával ( Spanyolország ), a mannheimi Német Nyelvi Intézet ( Németország ), az Amszterdami Egyetem ( Hollandia ) és más jelentős tudományos központok [7] .
Bibliográfiai katalógusokban |
---|