Gyakorisági szótár

A gyakorisági szótár (vagy gyakorisági lista) szavak halmaza egy adott nyelven (vagy alnyelven) a gyakoriságukra vonatkozó információkkal együtt . A szótár rendezhető gyakoriság szerint, betűrendben (akkor minden szónál megjelenik a gyakorisága), szócsoportok szerint (például a leggyakrabban előforduló szavak első ezre, majd a második stb.), jellemző szerint ( a legtöbb szövegben gyakori szavak) stb. A gyakorisági listákat nyelvoktatásra, új szókincsek létrehozására, számítógépes nyelvészeti alkalmazásokra, nyelvtipológiai kutatásokra stb.

Gyakorisági listák építése

A gyakorisági szótárakat általában szövegkorpusok alapján építik fel : olyan szövegkészletet vesznek fel, amely reprezentálja a nyelv egészét, valamilyen témakörre vagy egy adott szerzőre (lásd Gribojedov Frekvenciaszótár ) és szóalakra, lemmákra és részekre. beszédet vonnak ki belőle (ez utóbbiakat akkor vonják ki, ha a korpusznak morfológiai jelölései vannak).

A gyakorisági listák létrehozásának problémái a következők:

Mindezek a problémák abból a tényből adódnak, hogy statisztikai szempontból a nyelvet nagyszámú ritka esemény ( Zipf törvénye ), aminek következtében kis számú szó nagyon gyakran fordul elő, és a nyelv túlnyomó többsége a szavaknak nagyon alacsony a gyakorisága. A és a szó gyakorisága ( a leggyakoribb szó az orosz nyelvben) körülbelül 10-szer nagyobb, mint a about szó gyakorisága , ami viszont 100-szor gyakrabban fordul elő, mint az olyan közönséges szavak, mint az utazás, az öregség vagy a divat .

A hobbit metafora használható a frekvenciakitörések leírására (Adam Kilgarriff eredetileg a viszonylag ritka angol szót használta a whelk, a tengeri puhatestű egy fajtája , angolul  whelk ): ha a korpuszban több szöveg is található a hobbitokról, akkor ezt a szót használjuk. szinte minden mondatában. Ennek eredményeként ezekben a szövegekben a gyakorisága a funkcionális szavak gyakoriságához fog hasonlítani, de egy nagy korpusz gyakorisági listáján, amely ilyen szövegeket tartalmaz, ez a szó hihetetlenül magas rangot kap. Az ilyen frekvenciakitöréseket a variációs együttható segítségével becsülhetjük meg : a szórás és az átlagos frekvencia aránya.

Hajótest összehasonlítás

A gyakorisági szótárak lehetőséget adnak két korpusz összehasonlítására, hogy meghatározzák a legjellemzőbb szavakat. Néha a szótárak "abszolút gyakoriságot" jeleznek, vagyis egy szó előfordulásának számát a korpuszban. Tekintettel arra, hogy a korpuszok mérete eltérő lehet, általában a relatív gyakoriságot (általában egyszerűen csak "gyakoriságnak" nevezik) jelzik, vagyis a korpuszban lévő szó előfordulások számának arányát az összes szavak számához egy korpuszban. Néha mindkét érték megadva van. A relatív gyakoriságot néha százalékban, ppm-ben vagy milliórészben ( angolul  ipm, instances per million szó ) adják meg. Például a és a szó gyakorisága 0,03 (3%, vagy 30 ‰, vagy körülbelül 30 000 szó egymillióan, az öregség szó  - 0,00003 (0,003%, vagy 0,03 ‰, vagyis körülbelül 30 szó millióanként).

Az egyik korpusztól a másiktól megkülönböztető kulcsszavak meghatározásához különböző statisztikai mérőszámokat használhat: chi -négyzet , valószínűségi arány teszt stb .  

Lásd még

Irodalom

Linkek