Tatoeba projekt | |
---|---|
URL | tatoeba.org |
Kereskedelmi | Nem |
Webhely típusa | Nyissa meg a többnyelvű online kifejezésszótárat |
Bejegyzés | Csak szerkesztéshez szükséges |
nyelvek) | 19 interfésznyelv, köztük orosz ; tartalom 130 nyelven (2013. május) |
Tulajdonos | Trang Ho |
Szerző | Trang Ho |
A munka kezdete | 2006 |
Jelenlegi állapot | Aktuális [1] |
Médiafájlok a Wikimedia Commons oldalon |
A Tatoeba projekt (a japán tatoeba szóból ( jap . 例えば, "például") egy olyan oldal, ahol a világ összes elérhető nyelvén példákat lehet cserélni a kifejezésekre. A szófordításokat tároló online szótáraktól eltérően a projekt a szilárd szemantikai konstrukciók - kifejezések, mondatok, közmondások stb., a különböző nyelveken felhalmozott megfelelőiket manuálisan vagy automatikusan összehasonlítják egymással. A projekt egyik jellemzője a nyitottság és az általános elérhetőség: a Tatoeba nem kereskedelmi célú. projekt [2] , és aki akarja, szakiránytól és nyelvi hovatartozástól függetlenül módosíthatja a projekt adatbázisát (felveheti és adott esetben szerkesztheti a meglévő kifejezéseket, javíthatja a hibákat).
Ezekkel a tulajdonságokkal a Tatoeba projekt lassan elismertté válik, mint az önálló tanulás egyedülálló médiuma [3] . 2010 decemberéig a projekt 81 nyelvet támogatott és 11 nyelvi interfész lehetőséget biztosított; 2011 novemberében ezek a számok 94, illetve 17 voltak; 2014 januárjában – 132 és 19.
A projekt megalkotója és vezetője Chang Ho ( Trang Ho ), vietnami származású francia nő [4] . Az oldal első példái 2007. szeptember 30-i keltezéssel [5] . Az 1. mondat a sysko felhasználótól származik: ez a kínai kifejezés: "Lássuk!" [6] .
A projekt alapelve egy adott kifejezés fordításainak összegyűjtése és összekapcsolása egy adott nyelven. A rendszer elemzi az összes beérkezett adatot. Ha az A konstrukciót B konstrukcióként fordítják le egy másik nyelvre, ezt pedig C konstrukcióként, akkor mindhárom közvetlen vagy közvetett fordítások láncaként jelenik meg, amelyek alapértelmezés szerint megjelennek a töredékek keresésekor. a megfelelő A, B és C kifejezések közül (a megjelenített nyelvek számát az egyes felhasználók korlátozhatják).
Az összegyűlt anyagot mindenki megtekintheti, csak a regisztrált résztvevők adhatják hozzá, szerkeszthetik. A tapasztalattal rendelkező tagok megkaphatják a "megbízható" ("megbízható felhasználó") státuszt. Hozzáférést ad a címkékhez, és lehetővé teszi a megfelelő fordítások egymáshoz kapcsolását vagy a nem megfelelőek „levágását”. A projektben részt vevők korlátozott köre rendelkezik „gondnok” (korpuszfenntartó) státusszal, akik adminisztratív jogkörrel rendelkeznek.
A tankönyvektől, online szótáraktól és fórumoktól eltérően a Tatoeba projekt nem egy meghatározott nyelvi közönséget vagy szakmai felhasználói kört céloz meg. Bárki, aki rendelkezik alapvető műveltségi készségekkel, regisztrálhat és kiegészíthet kifejezéseket anyanyelvén vagy célnyelvén [2] . Munkavégzés céljából a felhasználók számára a rendelkezésre álló nyelvek teljes skáláját vagy a szelektív olvasás lehetőségét kínálják az eredeti nyelv és/vagy fordítás megjelölésével. Ugyanakkor a Tatoeba nyelvű saját fordításainál ajánlatos csak az eredetire koncentrálni, mivel a kapcsolódó fordítások pontatlanok lehetnek [2] . A fordítás árnyalatainak megvitatása ott, az egyes javaslatokhoz fűzött megjegyzésekben lehetséges.
Az így felhalmozott anyag a CC-BY licenc [7] alapján a forráshoz történő eljuttatása esetén minden felhasználási módra ingyenesen terjeszthető, beleértve a kereskedelmi célokat is . Az oldalon található linkek a teljes anyagtár [8] vagy annak egy része [9] letöltéséhez . Az egyetlen tartalmi korlátozás a francia törvények értelmében szerzői jogvédelem alatt álló kifejezések tilalma.
Minden kifejezéshez sorszámot rendelnek, amikor elküldik őket a platformra, de egyes hozzájárulások (gépi fordítás, másodpéldányok, befejezetlen kifejezések stb.) később törlődnek. Az eltávolítási százalékot úgy lehet kiszámítani, hogy összehasonlítja az utolsó sorozatszámot (nyissa meg a legfelső kifejezést a legutóbbi hozzászólások listájában a címlapon) a címlapon található kifejezésszámlálóval. Például december 12. 2011-ben 1295340, illetve 1241274 volt.
A nyelvtanilag helyes kifejezések, amelyek nem illenek jól a fordításokhoz, szétszedhetők (ne jelenjenek meg karakterláncként), de nem távolíthatók el. Az új fordítások kiindulópontjaként elmentésre kerülnek a projektbázisba. Az egyes kifejezések módosítási előzményei, valamint a köztük lévő kapcsolatok / megszakítások mindegyik kifejezéshez csatolva vannak, és minden felhasználó számára láthatók.
2019 júliusától a webhely technikailag 342 nyelvet támogat. [10] Az oldal kezdeti forrása Prof. angol-japán nyelvi példák korpusza volt. Yasuhiro Tanaka . 2010 decemberében a Tatoeba több mint 648 000 mondatot tartalmazott; 2012 áprilisában ez a szám majdnem elérte az 1,5 milliót, január 12-én pedig 2 037 379. A legtöbb mondat (csökkenő sorrendben, 2013 februárja):
Ezen kívül több mint ezer mondat található a következő nyelveken: arab , izlandi , hindi , ujgur , vietnami , norvég ( bokmål ), fehérorosz , sanghaji és kantoni kínai.
A természetes nyelvek mellett a mesterséges nyelvek is megjelennek a projektben : eszperantó , klingon , interlingua , CycL , Tokipona .
Kezdetben egy új nyelv bevezetéséhez elég volt felvenni a kapcsolatot az adminisztrátorokkal, és öt példát megadni rá. Ezt követően szükségessé vált a bevezetett nyelv ISO 639-3 szabvány szerinti tanúsítása . Új nyelvi rész hozzáadására való jelentkezéskor felajánlhat egy zászló-szimbólumot, amely jelöli azt az oldalon; ennek a grafikai jelnek nem kell egy adott modern vagy már létező állapotot ábrázolnia [11] .
A mondatok írásbeli továbbítása mellett a Tatoeba platform gyűjti a kiejtésüket. (Ezért a résztvevőknek tilos olyan mondatokat beírni, amelyekben a nyelvtani és lexikai alakváltozatok zárójelben szerepelnek, és amelyhez több olvasási lehetőségre lenne szükség). A hangos rész feltöltésében való részvételhez a rögzített példák minőségét igazoló akkreditációt kell átadni. [1] Emiatt a Tatoeba hangrészei viszonylag lassan készülnek el.
Az oldal nyitottsága és elérhetősége, valamint az oldal felhasználóbarát jellege a népszerűségének folyamatos növekedéséhez vezetett. (A weboldal aktivitási diagramja [12] az új nyelvi példák számát rögzíti 2007. szeptember 30. óta). 2010 decemberében a napi látogatók száma kb. 1800 [13] , akik napi másfél-kétezer példát adtak össze. 2013-ra a második szám 2,5-3 ezerre emelkedett.
A Tatoeba az internet nyitottságát és szabadságát hirdeti a Mozilla Drumbeat projektben , több száz egyéb résztvevő projekt mellett.
A Tatoeba számos elektronikus szótárhoz és fordítóhoz járul hozzá, például a WWWJDIC japán elektronikus szótárhoz [14] . A Tatoeba együttműködik a Shtooka projekttel, amely szavak, kifejezések, közmondások stb. hangfelvételeinek ingyenes gyűjteménye különböző nyelveken [15] . A platform anyagát a Glosbe elektronikus szótárai [16] használják .
A Tatoeba alapján egy alkalmazást fejlesztettek ki a nyelvek önálló tanulására TaToTen számítógépes flash kártyák segítségével [17] .
Korpusznyelvészet | |
---|---|
angol korpuszok |
|
Orosz nyelvű korpuszok |
|
Korpuszok más nyelveken |
|
Szervezetek |