A lexikai diverzitás együtthatója (CLR, angol lexical diversity, LD ) a szöveg mennyiségi jellemzője, amely a szótár gazdagságának fokát tükrözi adott hosszúságú szöveg megalkotásakor. A mutató az egyes lexikai egységek számának ( lemmák , angol típusok ) és a szövegben való előfordulásuk számának (szövegformák , angol tokenek ) arányán alapul .
A képlet szerint számítva
,ahol
A lexikailag gazdag szövegnek magas a lexikális diverzitási együtthatója, vagyis a szövegtérfogat egységére jutó egyedi egységek maximális száma, a lexikailag szegényes szöveg hajlamos ugyanazokat a lexémákat ismételni, aminek következtében lexikális diverzitása csökken. A KLR számításánál a következő megkötést kell figyelembe venni: míg a szövegformák száma potenciálisan végtelen, és csak növekedhet az elemzett szövegadatok tömbjének bővülésével, a tokenek száma még mindig véges. Ezért ésszerű a CLR kiszámítása csak korlátozott terjedelmű szövegekre. A számítógépes nyelvészetben erre a problémára többféle megoldást javasoltak [1] .
A CLR-hez közel áll a szöveg lexikai sűrűségének együtthatója ( eng. lexical density ), amely a szövegben lévő független szórészek arányát fejezi ki a szavak teljes számához viszonyítva. Lexikailag sűrűbbek lesznek tehát azok a szövegek, amelyek kevesebb segédszókincset használnak. Lexikális sűrűségi együtthatókat lehet számítani mind a független szórészekre általában, mind külön a főnevekre, melléknevekre, igékre, határozószavakra.
A TTR ( English type/token ratio ) a lexikai diverzitási együttható kiszámításának legegyszerűbb és legtöbbet kritizált módja, amely nem veszi figyelembe a szöveghossz-hatás hatását. A TTR-t állítólag 1957-ben vezették be a tudományos használatba M. Templin nyelvdidaktikai szakember munkájában [2] . Például a TTR az angol I have to buy some milk, mivel nincs tejem ("kell vennem tejet, mert nincs tejem") kifejezésben alacsony, és 0,73 (11 szóhasználatonként csak 8 lexéma , 8/ 11), és például az Elfogyott a tejem kifejezésben, ezért vennem kell ("Elfogyott a tejem, meg kell vennem") a TTR már magasabb (TTR = 10/11 = 0,91) .
A TTR a típus fogalmának többféle értelmezésével számítható ki : jelenthet
1) egy lexémát a maga szóalakjainak teljességében ( lemma ): például a lexéma ing a shirt, ing, shirt, ings stb. .,
2) külön szóalak, vagy homonim szóalakok halmaza, vagy akár homonimák e szóalakok szövegbeli egyéni előfordulásaival kapcsolatban („szövegformák”): például házak a szövegalakokhoz otthon, otthon .
Az első megoldás nyelvileg helyes, de megnöveli az együttható számításának automatizálási fokára vonatkozó követelményeket, mivel magában foglalja a morfológiai elemző képességét a beszédrészek és a lemmatizálás jelölésére. A második elméleti szempontból sebezhető, egy adott nyelv morfológiájától való függőséget mutat (ami például csökkenti a megbízhatóságát az eredeti és a fordított szövegek összehasonlításakor), de könnyen automatizálható.
A VocD ( vocabulary diversity ) módszert D. Malvern és munkatársai javasolták [3] , és a TTR továbbfejlesztett változata, amely kisimítja a szöveghosszúság hatásait. A módszer a szövegből 35-50 szövegforma hosszúságú töredékeinek véletlenszerű kiválasztásán és a rájuk vonatkozó TTR kiszámításán, majd a kapott grafikonok átlagolásán alapul.
A lexikális diverzitás együtthatója fontos mért paraméternek bizonyul a stilisztikai, diskurzuselemzési, fordítástudományi (eredeti és fordított szövegek összehasonlításakor), a gyermekbeszéd nyelvészetében.