Elektronikus szótár
Lehetővé teszi a megfelelő szó gyors megtalálását , gyakran figyelembe véve a morfológiát és a kifejezések keresésének képességét (használati példák), valamint a fordítási irány megváltoztatásának lehetőségét (például angol - orosz vagy orosz - angol ). .
Belsőleg adatbázisként rendezve szótári bejegyzésekkel .
A géppel olvasható szótárakat (röviden MRD) számítógépes programok különféle problémák megoldására használják, például természetes nyelvű szövegek feldolgozására . A géppel olvasható szótárak az elektronikus szótárak egy fajtája.
Géppel olvasható szótárak
Géppel olvasható szótárak készítése
Tekintsük a géppel olvasható (elektronikus) szótárak automatikus létrehozásának és feltöltésének módszereit.
A Leipzig Corpora Collection [1] (LCC) projektben korpuszokat és egynyelvű szótárakat építenek az internetről előkeresett szövegek alapján [2] . Az LCC körülbelül 400 szótárat tartalmaz. Az LCC projekt az Emberi Jogok Egyetemes Nyilatkozatának szövegét használta az internetes szövegek keresésének magjaként , mivel a nyilatkozat körülbelül 2000 általános szót tartalmaz, és 370 nyelvre és dialektusra fordították le [3] . A 200 Wikipédia közül összesen 70 szótár összeállításához választottak ki szövegeket. Nem minden Wikipédia-szöveg került be az LCC korpuszba, mivel sok wiki majdnem ugyanazokat a mondatokat tartalmazó csonkcikkek létrehozásával kezdi [3] .
Egy ilyen megközelítést nehéz megvalósítani az alacsony erőforrás-igényű nyelvek esetében, de a Crúbadán [4] projekt , amely több mint 2200 nyelvről gyűjtött adatokat, azt mutatja, hogy az interneten kis vagy egyetlen szöveggel reprezentált nyelvek automatikus keresése . is lehetséges [5] . A jövőben ezekből a szövegekből szótárakat készítenek, például a Crúbadán projektben több mint 100 millió walesi szót gyűjtöttek össze, és az ezekkel a szavakkal rendelkező walesi szövegek felét átvitték a Walesi Egyetemre, hogy létrehozzanak egy walesi szótárt [ 6] .
Géppel olvasható szótárak használata
Az 1980-as évek munkáiban felmerült, hogy a géppel olvasható szótárak alapján nagy tudásbázisokat lehetne építeni . Később azonban felismerték, hogy ehhez sok erőforrást kell felhasználni, elsősorban korpuszokat [7] .
A szótárakból való tudás kinyerésekor elért maximum több tökéletlen taxonómia automatikus felépítése volt [8] .
Nehézségek a szótárakból való információ kinyerésében:
- Az eredeti formátumról való konvertálás nagy erőfeszítést igényel, és ez a feladat külön tanulmányt érdemel, azonban a tudósok inkább tudományosabb feladatokkal foglalkoznak [10] . A nehézséget az okozza, hogy az eredeti szótár rendszerezési szabályainak kétértelműségei és ellentmondásai kizárják a teljesen automatikus szótárelemző felépítésének lehetőségét. Az ilyen elemzők készítése időigényes és hálátlan feladat, ezért nagyon kevés szótár áll rendelkezésre a számítógépes feldolgozáshoz [10] .
- A szótárak ellentmondásai és következetlenségei nagyon eltérő szemantikai hálózatok felépítéséhez vezetnek a különböző szótárak számára [11] . Az öt fő angol szótár töredékeinek ellenőrzése azt mutatta, hogy az esetek 50-70%-ában a szótárak értelmezésében szereplő információ torz vagy hiányzik [12] . Ugyanezt a siralmas képet kapjuk a három fő francia szótár elemzésekor is. Ebből következik, hogy azok a WSD -módszerek , amelyek az értelmezési szövegek elemzésén alapulnak, ebben a számos esetben nem működnek [12] .
- Részleges kézi ellenőrzésre van szükség a szótárak magas színvonalú tudásbázisainak felépítéséhez [13] .
- Több adatforrás integrálása szükséges . Érdemes több szótárból származó információkat összevonni, mivel az egyik szótár hiányosságát egy másik szótár kompenzálja, amiben egyéb hiányosságok és információhiányok is vannak. Egy öt angol szótárból álló hierarchia felépítésére irányuló kis kísérlet során a hibaarányt 55-70%-ról 5%-ra csökkentették. A szótárak kombinálásakor kinyert információk minősége javult, de manuális ellenőrzésre van szükség [13] . Másrészt 12 orosz szótár elemzése kimutatta, hogy a szótárak szótárainak nagy metszéspontjai vannak [9] . Az ábrán látható az "egyedi" szókincs aránya a vizsgált orosz szótárak mindegyikében [9] .
Géppel olvasható szótárak formátuma
A géppel olvasható szótárak használatához azokat működőképes formátumba kell konvertálni. A formátumnak elég általánosnak kell lennie a különböző szótárak közötti kompatibilitáshoz, egyetlen szoftver létrehozásához és a szótárak újrafelhasználásához [13] . Példa erre a TEI közösség által kidolgozott formátum [13] .
A szótári formátum kiválasztásához szorosan kapcsolódik a géppel olvasható szótári adatok reprezentálására alkalmas modell kiválasztása. Ha megnézi bármelyik szótári bejegyzést, láthatja, hogy a lexikográfiai adatok rendszerezése sokkal bonyolultabb, mint az „ áruszállító ” feladatban szereplő adatok vagy a „munkavállalói adatbázis” szervezése. A klasszikus ( relációs ) adatbázisok nem ideálisak lexikális adatbázisokhoz [14] .
Az adatbázis-tervezés kutatásának szentelt munkákban [15] [16] egy alternatív modellt javasolnak egy tulajdonság-alapú lexikai adatbázishoz. A modell jellemzői: (1) az értékek egymásba ágyazásának támogatása, (2) van egy öröklési mechanizmus a redundáns információk kiküszöbölésére.
Népszerű elektronikus szótárak
Szótárak
Programok
Programok, weboldalak stb.
- ABBYY Lingvo
- DICT - hálózati protokoll
- Multitran
- polyglossum
- MultiLex - Orosz-angol, német, francia, spanyol, olasz, portugál és többnyelvű szótárak. Tartalmaznak magyarázó szótárakat és tematikus szókincseket a szakszókincs fordításához.
Lásd még
Jegyzetek
- ↑ Leipzig Corpora Collection
- ↑ Goldhahn et al., 2012 , p. 760.
- ↑ 1 2 Goldhahn et al., 2012 , p. 762.
- ↑ An Crúbadán – Korpuszépítés a kisebbségi nyelvek számára
- ↑ Scannell, 2007 .
- ↑ Scannell, 2007 , p. 9.
- ↑ Ide, Veronis, 1994 , p. 137-138.
- ↑ Ide, Veronis, 1994 , p. 138.
- ↑ 1 2 3 Kiselev et al., 2015 .
- ↑ 1 2 Ide, Veronis, 1994 , p. 139.
- ↑ Ide, Veronis, 1994 , p. 141.
- ↑ 1 2 Ide, Veronis, 1994 , p. 140.
- ↑ 1 2 3 4 Ide, Veronis, 1994 , p. 143.
- ↑ Ide, Veronis, 1994 , p. 144.
- ↑ Ide, N., Le Maitre, J. és Veronis, J. (1994). A lexikális adatbázisok modelljének vázlata . In Current Issues in Computational Linguistics: In Honor of Don Walker (pp. 283-320). Springer, Dordrecht.
- ↑ Veronis, J. és Ide, N. (1992, augusztus). Jellemző alapú modell lexikális adatbázisokhoz . In Proceedings of the 14th Conference on Computational linguistics-Volume 2 (pp. 588-594). Számítógépes Nyelvészeti Egyesület.
Irodalom
- Goldhahn D., Eckart T., Quasthoff U. Nagy egynyelvű szótárak építése a lipcsei korpuszgyűjteményben: 100-tól 200-ig // LREC : Istanbul , Törökország. - 2012. - Kt. 29 . - P. 759-765 .
- Ide, N., & Véronis, J. Machine Readable Dictionaries: Mit tanultunk, merre tartunk // Proceedings of the International Workshop on the Future of Lexical Research : Peking, China. - 1994. - P. 137-146 .
- Kiselev Y., Krizhanovsky A., Braslavski P., Menshikov I., Mukhin M., Krizhanovskaya N. Orosz lexikográfiai táj: a tale of 12 dictionaries (angol) // Számítógépes nyelvészet és szellemi technológiák: „Dialógus”. — Moszkva: RGGU, 2015. — Iss. 14 (21) . - P. 254-271 .
- Scannell KP A Crúbadán Projekt: Korpuszépítés alulfinanszírozott nyelvek számára // Web Corpora építése és felfedezése: Proceedings of the 3rd Web as Corpus Workshop. - 2007. - Vol. 4 . - 5-15 . o .