Cseh Nemzeti Testület

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2020. október 5-én felülvizsgált verziótól ; az ellenőrzéshez 1 szerkesztés szükséges .

Cseh nemzeti hadtest
URL	ucnk.ff.cuni.cz
Kereskedelmi	Nem
Webhely típusa	oktatási/tudományos projekt
nyelvek)	cseh/angol
Szerver helye	Csehország , Prága
Szerző	Károly Egyetem
Jelenlegi állapot	Működik és fejlődik

A Cseh Nemzeti Korpusz (Český národní korpus vagy ČNK) a prágai Károly Egyetem által karbantartott, cseh nyelvű, elektronikus formában írott szövegek nyilvánosan kereshető adatbázisa . Az oldal cseh és angol nyelven érhető el.

Létrehozási előzmények

A CNC ötletét először 1991-ben terjesztették elő, és a Károly Egyetem Filozófiai Karának, a Károly Egyetem Matematikai és Fizikai Karának, a Masaryk Egyetemnek , a Palacký Egyetemnek , a Cseh Akadémia Cseh Nyelvi Intézetének képviselői támogatták. Tudományok .

A korpusz létrejöttének előfeltétele olyan tényezők voltak, mint a modern cseh nyelv eltérése az általánosan elfogadott normáktól (a korpusz létrehozása megmentené a cseh lexikográfiát az ilyen eltérésektől), valamint a politikai helyzet stabilizálása (szélesebb körű együttműködés a nemzetközi tudományos közösség segítette a számítógépes lexikográfia és a korpusznyelvészet mint külön ágak bevezetését a cseh nyelvészetbe). 1994-ben a Károly Egyetem Filozófiai Karán megalakult a Cseh Nemzeti Korpusz Intézet, és együttműködési megállapodásokat írtak alá az Intézet és a Cseh Köztársaság egyes intézményei között [1] .

Fordítók

2017. szeptember 10-től a következő személyek dolgoznak a Cseh Nemzeti Korpuszon:

Rendező Michal Krshen
Václav Cvrček igazgatóhelyettes
Titkár, Lucie Nováková ( Lucie Nováková (a link nem érhető el) )
František Cermak professzor ( František Čermák )
Karel Kučera professzor és a diakrón korpusz részleg vezetője
A Nyelvészeti Osztály vezetője Vaclav Cvrcek
Pavel Vondřička számítástechnikai részleg vezetője ( a link nem érhető el )
Marie Kopřivova , a szóvivői részleg vezetője
Tomasz Jelinek ( Tomáš Jelínek ) a Nyelvi elemzési és annotációs részleg vezetője
Alexander Rosen, a párhuzamos hadtest részlegének vezetője ( Alexandr Rosen (a link nem érhető el) )
és mások [2] .

Az ügy összetétele és terjedelme

Írott szöveg korpusz / Írott korpusz (szinkron)	~2705 millió szó
Szóbeli szövegkorpusz / Beszélt korpuszok (szinkron)	~4 millió szó
Diachronic corpus / Diachronic corpora	1,95 millió szó
Idegen nyelvek korpusza / Idegen nyelvi korpuszok	6248 millió szó
Párhuzamos korpusz / Parallel corpus	92 millió szó

A korpusz teljes mennyisége meghaladja a 9 milliárd szóhasználatot, ebből ~8894,5 millió lemmatizált és morfológiai címkékkel ellátott [3] .

Szövegforrások

A CHNC fő tartalma a következő:

A kiadóktól és egyéni tulajdonosoktól elektronikusan érkezett szövegek
Újságokból származó szövegek (a korpuszszövegek abszolút többségét teszik ki - kb. 60%)
Szótári szövegek (például az FSC2000 korpusz a cseh frekvenciaszótárra hivatkozik) [1]

Külön CNC korpuszt szentelnek George Orwell „ 1984 ” disztópiájának, amelynek viszonylag kis mérete (80 000 szó és 20 000 írásjel) szinte hibátlanul tette lehetővé a szöveg manuális jelölését [4] .

Hozzáférés

Az oldalhoz kétféle hozzáférés létezik: nyilvános és teljes.

Jogosulatlan felhasználó csak a SYN2010 korpuszban kereshet, amely mindössze 100 millió szóból áll, ami a Cseh Nemzeti Korpusz teljes bázisának kilencvenedik része. A SYN2010 [5] 40%-a szépirodalom, 27%-a szakirodalom és 33%-a újságírás. A korpuszban található szövegek többsége 2005 és 2009 között készült.

A nyilvános hozzáférés lehetővé teszi a SYN2010 előfordulásának és az első 50 példa megtekintését. A szavak konkordanciasorok formátumban vannak megadva, amikor minden sor a szöveg része, amelyben az adott kifejezés szerepel. Nyilvános hozzáféréshez lehetőség van alapvető reguláris kifejezések használatára, kulcsszavas keresésre is.

A regisztrált felhasználó teljes hozzáféréssel rendelkezik a ChNK Institute adatbázisához, valamint Bonito speciális esetmenedzserhez.

Bonito

A Bonito (A Modular Corpus Manager A Bonito) a Manatee Corpus Manager grafikus felhasználói felülete ( GUI ), amelyet a brünni Masaryk Intézet Számítástechnikai Karán található Natural Language Processing Centerben hoztak létre. Készítette: Pavel Rychlý, tantestületi asszisztens [6] .

Együttműködés

Pillanatnyilag[ pontosítani ] A Cseh Köztársaság következő intézményei működnek együtt a hadtesttel:

Formális és Alkalmazott Nyelvészeti Intézet és a prágai Károly Egyetem Matematikai és Fizikai Kara
Számítástechnikai Tanszék, Villamosmérnöki Kar , Cseh Műszaki Egyetem , Prága
Masaryk Egyetem Informatikai Kara , Brno
Masaryk Egyetem Pedagógiai Kara, Brno
Cseh és Szláv Nyelvészeti Tanszék, Filológiai Kar, Masaryk Egyetem, Brno
Városi könyvtárak Prágában
Sziléziai Egyetem , Opava
Hradec Kralove Egyetem
Palacký Egyetem , Olomouc
A Cseh Tudományos Akadémia Cseh Nyelv Intézete
és mások [7] .

A korpusz együttműködik a Brown Egyetem Szláv Nyelvek Karával ( USA ), a Szentpétervári Állami Egyetem Filológiai és Bölcsészettudományi Karával ( Oroszország ), valamint a Granadai Egyetem Filozófiai és Irodalomtudományi Karával ( Spanyolország ), a mannheimi Német Nyelvi Intézet ( Németország ), az Amszterdami Egyetem ( Hollandia ) és más jelentős tudományos központok [7] .

Lásd még

Orosz nemzeti korpusz

Jegyzetek

↑ 1 2 Cseh Nemzeti Korpusz (CNC)
↑ Emberek | A Cseh Nemzeti Testület intézete
↑ Elérhető Corpora | A Cseh Nemzeti Korpusz Intézete (hozzáférhetetlen link) . Letöltve: 2017. szeptember 10. Az eredetiből archiválva : 2017. szeptember 10. (határozatlan)
↑ ORWELL | A Cseh Nemzeti Testület intézete
↑ Nyilvános hozzáférés archiválva 2013. október 29-én a Wayback Machine -nél (elérhetetlen link - előzmények ) Letöltve: 2017. szeptember 10.
↑ Lamantin/Bonito – Moduláris korpuszkezelő
↑ 1 2 Együttműködés | A Cseh Nemzeti Testület intézete

Linkek

A hadtest hivatalos oldala

Bibliográfiai katalógusokban	LCCN : no2005122116