Gyakorisági szótár

A gyakorisági szótár (vagy gyakorisági lista) szavak halmaza egy adott nyelven (vagy alnyelven) a gyakoriságukra vonatkozó információkkal együtt . A szótár rendezhető gyakoriság szerint, betűrendben (akkor minden szónál megjelenik a gyakorisága), szócsoportok szerint (például a leggyakrabban előforduló szavak első ezre, majd a második stb.), jellemző szerint ( a legtöbb szövegben gyakori szavak) stb. A gyakorisági listákat nyelvoktatásra, új szókincsek létrehozására, számítógépes nyelvészeti alkalmazásokra, nyelvtipológiai kutatásokra stb.

Gyakorisági listák építése

A gyakorisági szótárakat általában szövegkorpusok alapján építik fel : olyan szövegkészletet vesznek fel, amely reprezentálja a nyelv egészét, valamilyen témakörre vagy egy adott szerzőre (lásd Gribojedov Frekvenciaszótár ) és szóalakra, lemmákra és részekre. beszédet vonnak ki belőle (ez utóbbiakat akkor vonják ki, ha a korpusznak morfológiai jelölései vannak).

A gyakorisági listák létrehozásának problémái a következők:

reprodukálhatóság (hogy az eredmények azonosak-e egy másik hasonló esetben),
az egyes szavak gyakoriságának töredékei (egy szó gyakorisága egy szövegben befolyásolhatja annak helyét a gyakorisági listában),
nehézségek a ritkább szavak helyzetének meghatározásában, ami lehetetlenné teszi a racionális rangsorolást; például a szemét szó az első 20 000 leggyakoribb szó között szerepel, míg a morgás szó kívül esik a 40 000-es listán.

Mindezek a problémák abból a tényből adódnak, hogy statisztikai szempontból a nyelvet nagyszámú ritka esemény ( Zipf törvénye ), aminek következtében kis számú szó nagyon gyakran fordul elő, és a nyelv túlnyomó többsége a szavaknak nagyon alacsony a gyakorisága. A és a szó gyakorisága ( a leggyakoribb szó az orosz nyelvben) körülbelül 10-szer nagyobb, mint a about szó gyakorisága , ami viszont 100-szor gyakrabban fordul elő, mint az olyan közönséges szavak, mint az utazás, az öregség vagy a divat .

A hobbit metafora használható a frekvenciakitörések leírására (Adam Kilgarriff eredetileg a viszonylag ritka angol szót használta a whelk, a tengeri puhatestű egy fajtája , angolul whelk ): ha a korpuszban több szöveg is található a hobbitokról, akkor ezt a szót használjuk. szinte minden mondatában. Ennek eredményeként ezekben a szövegekben a gyakorisága a funkcionális szavak gyakoriságához fog hasonlítani, de egy nagy korpusz gyakorisági listáján, amely ilyen szövegeket tartalmaz, ez a szó hihetetlenül magas rangot kap. Az ilyen frekvenciakitöréseket a variációs együttható segítségével becsülhetjük meg : a szórás és az átlagos frekvencia aránya.

Hajótest összehasonlítás

A gyakorisági szótárak lehetőséget adnak két korpusz összehasonlítására, hogy meghatározzák a legjellemzőbb szavakat. Néha a szótárak "abszolút gyakoriságot" jeleznek, vagyis egy szó előfordulásának számát a korpuszban. Tekintettel arra, hogy a korpuszok mérete eltérő lehet, általában a relatív gyakoriságot (általában egyszerűen csak "gyakoriságnak" nevezik) jelzik, vagyis a korpuszban lévő szó előfordulások számának arányát az összes szavak számához egy korpuszban. Néha mindkét érték megadva van. A relatív gyakoriságot néha százalékban, ppm-ben vagy milliórészben ( angolul ipm, instances per million szó ) adják meg. Például a és a szó gyakorisága 0,03 (3%, vagy 30 ‰, vagy körülbelül 30 000 szó egymillióan, az öregség szó - 0,00003 (0,003%, vagy 0,03 ‰, vagyis körülbelül 30 szó millióanként).

Az egyik korpusztól a másiktól megkülönböztető kulcsszavak meghatározásához különböző statisztikai mérőszámokat használhat: chi -négyzet , valószínűségi arány teszt stb .

Lásd még

Irodalom

Adam Kilgarriff. Gyakoriságok elhelyezése a szótárban // International Journal of Lexicography. - 1997. - 10. szám (2) . - P. 135-155.
Lyashevskaya O. N., Sharov S. A. A modern orosz nyelv gyakorisági szótára (az orosz nyelv nemzeti korpuszának anyagai alapján) . - M. : Azbukovnik, 2009. - 1087 p. - ISBN 978-5-91172-024-7 .
Frekvenciaszótár // Nagy Szovjet Enciklopédia : [30 kötetben] / ch. szerk. A. M. Prohorov . - 3. kiadás - M . : Szovjet Enciklopédia, 1969-1978.
Az orosz nyelv gyakorisági szótára / Szerk. L. N. Zasorina. - M . : orosz nyelv, 1977.
M. Yu. Lermontov nyelvének gyakorisági szótára // Lermontov Enciklopédia / A Szovjetunió Tudományos Akadémiája. In-t rus. megvilágított. (Puskin. Ház); Tudományos szerk. kiadó tanácsa „Baglyok. Encikl.". - M . : Szov. Encycl., 1981. - S. 717-774.
Sharov S.A. Frekvenciaszótár .
Steinfeldt E. A. A modern orosz irodalmi nyelv gyakorisági szótára. - M. , 1963.

Linkek

Az "Ó- és Újszövetség" gyakorisági szótárai ("Teológus" keresése az "Ó- és Újszövetség" szövegeiben).

Szótártípusok _
aktív antonimák nyelvtani nyelvjárási képírásos idegen szavak fordított helyesírás ortopéikus paronimák mondókák szinonimák származékos vágások érzékeny frekvencia enciklopédikus etimológiai

Lexikográfia
Címtártípusok _	Szójegyzék Szójegyzék Kifejezéstár Szótár Szinonimaszótár
Szótártípusok	Aktív szótár Életrajzi szótár Vizuális szótár nyelvtani szótár Ősi kínai rímszótár Ideográfiai szótár Nyelvi szótár orvosi szótár fordított szótár helyesírási szótár Kiejtési szótár Fordító szótár Szótárak haladóknak Diákszótárak Anagram szótár Illusztrációs szótár Rövidítések szótára Rímszótár Témára szakosodott szótár Tipológiai szakszótár Szótár Kifejezéstár gyakorisági szótár Elektronikus szótár Géppel olvasható szótár enciklopédikus szótár Etimológiai szótár
Egyéb	Definíciós szókincs A híres lexikográfusok listája Dal Zaliznyak Melchuk Muller Ozsegov Slonimsky Szreznyevszkij Ushakov Csubinasvili Shvedova
Nyelvtudományi Portál