Lexikai diverzitási együttható

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2020. május 18-án felülvizsgált verziótól ; az ellenőrzések 4 szerkesztést igényelnek .

A lexikai diverzitás együtthatója (CLR, angol lexical diversity, LD ) a szöveg mennyiségi jellemzője, amely a szótár gazdagságának fokát tükrözi adott hosszúságú szöveg megalkotásakor. A mutató az egyes lexikai egységek számának ( lemmák , angol típusok ) és a szövegben való előfordulásuk számának (szövegformák , angol tokenek ) arányán alapul .

A képlet szerint számítva

L_{d}=N_{\mathrm {lex} }/N

ahol

${\displaystyle L_{d))$ — a lexikális diverzitás együtthatója,

${\displaystyle N_{\mathrm {lex} ))$ - az egyedi lexémák vagy lemmák száma az elemzett szövegben,

$N$ - a szövegalak száma (a szóalakok száma összesen) az elemzett szövegben.

A lexikailag gazdag szövegnek magas a lexikális diverzitási együtthatója, vagyis a szövegtérfogat egységére jutó egyedi egységek maximális száma, a lexikailag szegényes szöveg hajlamos ugyanazokat a lexémákat ismételni, aminek következtében lexikális diverzitása csökken. A KLR számításánál a következő megkötést kell figyelembe venni: míg a szövegformák száma potenciálisan végtelen, és csak növekedhet az elemzett szövegadatok tömbjének bővülésével, a tokenek száma még mindig véges. Ezért ésszerű a CLR kiszámítása csak korlátozott terjedelmű szövegekre. A számítógépes nyelvészetben erre a problémára többféle megoldást javasoltak [1] .

A CLR-hez közel áll a szöveg lexikai sűrűségének együtthatója ( eng. lexical density ), amely a szövegben lévő független szórészek arányát fejezi ki a szavak teljes számához viszonyítva. Lexikailag sűrűbbek lesznek tehát azok a szövegek, amelyek kevesebb segédszókincset használnak. Lexikális sűrűségi együtthatókat lehet számítani mind a független szórészekre általában, mind külön a főnevekre, melléknevekre, igékre, határozószavakra.

A CLR kiszámításának módszerei

TTR

A TTR ( English type/token ratio ) a lexikai diverzitási együttható kiszámításának legegyszerűbb és legtöbbet kritizált módja, amely nem veszi figyelembe a szöveghossz-hatás hatását. A TTR-t állítólag 1957-ben vezették be a tudományos használatba M. Templin nyelvdidaktikai szakember munkájában [2] . Például a TTR az angol I have to buy some milk, mivel nincs tejem ("kell vennem tejet, mert nincs tejem") kifejezésben alacsony, és 0,73 (11 szóhasználatonként csak 8 lexéma , 8/ 11), és például az Elfogyott a tejem kifejezésben, ezért vennem kell ("Elfogyott a tejem, meg kell vennem") a TTR már magasabb (TTR = 10/11 = 0,91) .

A TTR a típus fogalmának többféle értelmezésével számítható ki : jelenthet
1) egy lexémát a maga szóalakjainak teljességében ( lemma ): például a lexéma ing a shirt, ing, shirt, ings stb. .,
2) külön szóalak, vagy homonim szóalakok halmaza, vagy akár homonimák e szóalakok szövegbeli egyéni előfordulásaival kapcsolatban („szövegformák”): például házak a szövegalakokhoz otthon, otthon .
Az első megoldás nyelvileg helyes, de megnöveli az együttható számításának automatizálási fokára vonatkozó követelményeket, mivel magában foglalja a morfológiai elemző képességét a beszédrészek és a lemmatizálás jelölésére. A második elméleti szempontból sebezhető, egy adott nyelv morfológiájától való függőséget mutat (ami például csökkenti a megbízhatóságát az eredeti és a fordított szövegek összehasonlításakor), de könnyen automatizálható.

Vocd

A VocD ( vocabulary diversity ) módszert D. Malvern és munkatársai javasolták [3] , és a TTR továbbfejlesztett változata, amely kisimítja a szöveghosszúság hatásait. A módszer a szövegből 35-50 szövegforma hosszúságú töredékeinek véletlenszerű kiválasztásán és a rájuk vonatkozó TTR kiszámításán, majd a kapott grafikonok átlagolásán alapul.

Használat

A lexikális diverzitás együtthatója fontos mért paraméternek bizonyul a stilisztikai, diskurzuselemzési, fordítástudományi (eredeti és fordított szövegek összehasonlításakor), a gyermekbeszéd nyelvészetében.

Jegyzetek

↑ Információ a textinspector.com oldalon . Letöltve: 2021. január 21. Az eredetiből archiválva : 2021. január 28.. (határozatlan)
↑ Templin M. Bizonyos nyelvtudás gyerekeknél. - Minneapolis: University of Minnesota Press, 1957.
↑ McKee, G., Malvern, D. és Richards, B. A szókincs sokféleségének mérése dedikált szoftver használatával. — Irodalmi és nyelvi számítástechnika. - 2000. - 15. (3) bekezdés. - S. 323-337.

Irodalom

Ure, J. (1971). Lexikai sűrűség és regiszterdifferenciálás. In G. Perren és JLM Trim (szerk.), Applications of Linguistics, London: Cambridge University Press. 443-452.

Linkek

Online szövegelemző, amely a CLR-t is kiszámítja (cirill betűvel nem működik)