Elektronikus szótár

Lehetővé teszi a megfelelő szó gyors megtalálását , gyakran figyelembe véve a morfológiát és a kifejezések keresésének képességét (használati példák), valamint a fordítási irány megváltoztatásának lehetőségét (például angol - orosz vagy orosz - angol ). .

Belsőleg adatbázisként rendezve szótári bejegyzésekkel .

A géppel olvasható szótárakat (röviden MRD) számítógépes programok különféle problémák megoldására használják, például természetes nyelvű szövegek feldolgozására . A géppel olvasható szótárak az elektronikus szótárak egy fajtája.

Géppel olvasható szótárak

Géppel olvasható szótárak készítése

Tekintsük a géppel olvasható (elektronikus) szótárak automatikus létrehozásának és feltöltésének módszereit.

A Leipzig Corpora Collection [1] (LCC) projektben korpuszokat és egynyelvű szótárakat építenek az internetről előkeresett szövegek alapján [2] . Az LCC körülbelül 400 szótárat tartalmaz. Az LCC projekt az Emberi Jogok Egyetemes Nyilatkozatának szövegét használta az internetes szövegek keresésének magjaként , mivel a nyilatkozat körülbelül 2000 általános szót tartalmaz, és 370 nyelvre és dialektusra fordították le [3] . A 200 Wikipédia közül összesen 70 szótár összeállításához választottak ki szövegeket. Nem minden Wikipédia-szöveg került be az LCC korpuszba, mivel sok wiki majdnem ugyanazokat a mondatokat tartalmazó csonkcikkek létrehozásával kezdi [3] .

Egy ilyen megközelítést nehéz megvalósítani az alacsony erőforrás-igényű nyelvek esetében, de a Crúbadán [4] projekt , amely több mint 2200 nyelvről gyűjtött adatokat, azt mutatja, hogy az interneten kis vagy egyetlen szöveggel reprezentált nyelvek automatikus keresése . is lehetséges [5] . A jövőben ezekből a szövegekből szótárakat készítenek, például a Crúbadán projektben több mint 100 millió walesi szót gyűjtöttek össze, és az ezekkel a szavakkal rendelkező walesi szövegek felét átvitték a Walesi Egyetemre, hogy létrehozzanak egy walesi szótárt [ 6] .

Géppel olvasható szótárak használata

Az 1980-as évek munkáiban felmerült, hogy a géppel olvasható szótárak alapján nagy tudásbázisokat lehetne építeni . Később azonban felismerték, hogy ehhez sok erőforrást kell felhasználni, elsősorban korpuszokat [7] .

A szótárakból való tudás kinyerésekor elért maximum több tökéletlen taxonómia automatikus felépítése volt [8] .

Nehézségek a szótárakból való információ kinyerésében:

Géppel olvasható szótárak formátuma

A géppel olvasható szótárak használatához azokat működőképes formátumba kell konvertálni. A formátumnak elég általánosnak kell lennie a különböző szótárak közötti kompatibilitáshoz, egyetlen szoftver létrehozásához és a szótárak újrafelhasználásához [13] . Példa erre a TEI közösség által kidolgozott formátum [13] .

A szótári formátum kiválasztásához szorosan kapcsolódik a géppel olvasható szótári adatok reprezentálására alkalmas modell kiválasztása. Ha megnézi bármelyik szótári bejegyzést, láthatja, hogy a lexikográfiai adatok rendszerezése sokkal bonyolultabb, mint az „ áruszállító ” feladatban szereplő adatok vagy a „munkavállalói adatbázis” szervezése. A klasszikus ( relációs ) adatbázisok nem ideálisak lexikális adatbázisokhoz [14] .

Az adatbázis-tervezés kutatásának szentelt munkákban [15] [16] egy alternatív modellt javasolnak egy tulajdonság-alapú lexikai adatbázishoz. A modell jellemzői: (1) az értékek egymásba ágyazásának támogatása, (2) van egy öröklési mechanizmus a redundáns információk kiküszöbölésére.

Népszerű elektronikus szótárak

Szótárak

Programok

Programok, weboldalak stb.

Lásd még

Jegyzetek

  1. Leipzig Corpora Collection
  2. Goldhahn et al., 2012 , p. 760.
  3. 1 2 Goldhahn et al., 2012 , p. 762.
  4. An Crúbadán – Korpuszépítés a kisebbségi nyelvek számára
  5. Scannell, 2007 .
  6. Scannell, 2007 , p. 9.
  7. Ide, Veronis, 1994 , p. 137-138.
  8. Ide, Veronis, 1994 , p. 138.
  9. 1 2 3 Kiselev et al., 2015 .
  10. 1 2 Ide, Veronis, 1994 , p. 139.
  11. Ide, Veronis, 1994 , p. 141.
  12. 1 2 Ide, Veronis, 1994 , p. 140.
  13. 1 2 3 4 Ide, Veronis, 1994 , p. 143.
  14. Ide, Veronis, 1994 , p. 144.
  15. Ide, N., Le Maitre, J. és Veronis, J. (1994). A lexikális adatbázisok modelljének vázlata . In Current Issues in Computational Linguistics: In Honor of Don Walker (pp. 283-320). Springer, Dordrecht.
  16. Veronis, J. és Ide, N. (1992, augusztus). Jellemző alapú modell lexikális adatbázisokhoz . In Proceedings of the 14th Conference on Computational linguistics-Volume 2 (pp. 588-594). Számítógépes Nyelvészeti Egyesület.

Irodalom