Cseh Nemzeti Testület

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2020. október 5-én felülvizsgált verziótól ; az ellenőrzéshez 1 szerkesztés szükséges .
Cseh nemzeti hadtest
URL ucnk.ff.cuni.cz
Kereskedelmi Nem
Webhely típusa oktatási/tudományos projekt
nyelvek) cseh/angol
Szerver helye Csehország , Prága
Szerző Károly Egyetem
Jelenlegi állapot Működik és fejlődik

A Cseh Nemzeti Korpusz (Český národní korpus vagy ČNK) a prágai Károly Egyetem által  karbantartott, cseh nyelvű, elektronikus formában írott szövegek nyilvánosan kereshető adatbázisa . Az oldal cseh és angol nyelven érhető el.

Létrehozási előzmények

A CNC ötletét először 1991-ben terjesztették elő, és a Károly Egyetem Filozófiai Karának, a Károly Egyetem Matematikai és Fizikai Karának, a Masaryk Egyetemnek , a Palacký Egyetemnek , a Cseh Akadémia Cseh Nyelvi Intézetének képviselői támogatták. Tudományok .

A korpusz létrejöttének előfeltétele olyan tényezők voltak, mint a modern cseh nyelv eltérése az általánosan elfogadott normáktól (a korpusz létrehozása megmentené a cseh lexikográfiát az ilyen eltérésektől), valamint a politikai helyzet stabilizálása (szélesebb körű együttműködés a nemzetközi tudományos közösség segítette a számítógépes lexikográfia és a korpusznyelvészet mint külön ágak bevezetését a cseh nyelvészetbe). 1994-ben a Károly Egyetem Filozófiai Karán megalakult a Cseh Nemzeti Korpusz Intézet, és együttműködési megállapodásokat írtak alá az Intézet és a Cseh Köztársaság egyes intézményei között [1] .

Fordítók

2017. szeptember 10-től a következő személyek dolgoznak a Cseh Nemzeti Korpuszon:

Az ügy összetétele és terjedelme

Írott szöveg korpusz / Írott korpusz (szinkron) ~2705 millió szó
Szóbeli szövegkorpusz / Beszélt korpuszok (szinkron) ~4 millió szó
Diachronic corpus / Diachronic corpora 1,95 millió szó
Idegen nyelvek korpusza / Idegen nyelvi korpuszok 6248 millió szó
Párhuzamos korpusz / Parallel corpus 92 millió szó

A korpusz teljes mennyisége meghaladja a 9 milliárd szóhasználatot, ebből ~8894,5 millió lemmatizált és morfológiai címkékkel ellátott [3] .

Szövegforrások

A CHNC fő tartalma a következő:

Külön CNC korpuszt szentelnek George Orwell1984 ” disztópiájának, amelynek viszonylag kis mérete (80 000 szó és 20 000 írásjel) szinte hibátlanul tette lehetővé a szöveg manuális jelölését [4] .

Hozzáférés

Az oldalhoz kétféle hozzáférés létezik: nyilvános és teljes.

Jogosulatlan felhasználó csak a SYN2010 korpuszban kereshet, amely mindössze 100 millió szóból áll, ami a Cseh Nemzeti Korpusz teljes bázisának kilencvenedik része. A SYN2010 [5] 40%-a szépirodalom, 27%-a szakirodalom és 33%-a újságírás. A korpuszban található szövegek többsége 2005 és 2009 között készült.

A nyilvános hozzáférés lehetővé teszi a SYN2010 előfordulásának és az első 50 példa megtekintését. A szavak konkordanciasorok formátumban vannak megadva, amikor minden sor a szöveg része, amelyben az adott kifejezés szerepel. Nyilvános hozzáféréshez lehetőség van alapvető reguláris kifejezések használatára, kulcsszavas keresésre is.

A regisztrált felhasználó teljes hozzáféréssel rendelkezik a ChNK Institute adatbázisához, valamint Bonito speciális esetmenedzserhez.

Bonito

A Bonito (A Modular Corpus Manager A Bonito) a Manatee Corpus Manager grafikus felhasználói felülete ( GUI ), amelyet a brünni Masaryk Intézet Számítástechnikai Karán található Natural Language Processing Centerben hoztak létre. Készítette: Pavel Rychlý, tantestületi asszisztens [6] .

Együttműködés

Pillanatnyilag[ pontosítani ] A Cseh Köztársaság következő intézményei működnek együtt a hadtesttel:

A korpusz együttműködik a Brown Egyetem Szláv Nyelvek Karával ( USA ), a Szentpétervári Állami Egyetem Filológiai és Bölcsészettudományi Karával ( Oroszország ), valamint a Granadai Egyetem Filozófiai és Irodalomtudományi Karával ( Spanyolország ), a mannheimi Német Nyelvi Intézet ( Németország ), az Amszterdami Egyetem ( Hollandia ) és más jelentős tudományos központok [7] .

Lásd még

Jegyzetek

  1. 1 2 Cseh Nemzeti Korpusz (CNC)
  2. Emberek | A Cseh Nemzeti Testület intézete
  3. Elérhető Corpora | A Cseh Nemzeti Korpusz Intézete (hozzáférhetetlen link) . Letöltve: 2017. szeptember 10. Az eredetiből archiválva : 2017. szeptember 10. 
  4. ORWELL | A Cseh Nemzeti Testület intézete
  5. Nyilvános hozzáférés archiválva 2013. október 29-én a Wayback Machine -nél  (elérhetetlen link - előzmények ) Letöltve: 2017. szeptember 10.
  6. Lamantin/Bonito – Moduláris korpuszkezelő
  7. 1 2 Együttműködés | A Cseh Nemzeti Testület intézete

Linkek