A trigramok az n-gramok speciális esetei , ahol n értéke 3. Gyakran használják természetes nyelvi feldolgozásban szövegek statisztikai elemzésére, illetve kriptográfiában a rejtjelek és kódok ellenőrzésére és kihasználására.
A kontextus nagyon fontos, a rangok és az elemzés százalékos arányának változása könnyen kikövetkeztethető a különböző mintanagyságokból, különböző szerzőkből; vagy különböző típusú dokumentumok: költészet, sci-fi, technológiai dokumentáció; és az írás szintjei: történetek gyerekeknek a felnőttek ellen, katonai parancsok és receptek. [1] [2]
Egy tipikus kriptoanalitikus gyakoriságelemzés azt mutatja, hogy a 16 leggyakoribb karakterszintű trigram angol nyelven a következő:
Helyszín [2] | trigram | Frekvencia [3] (különböző források) |
---|---|---|
egy | az | 1,81% |
2 | és | 0,73% |
3 | tha | 0,33% |
négy | ent | 0,42% |
5 | ing | 0,72% |
6 | ion | 0,42% |
7 | tio | 0,31% |
nyolc | számára | 0,34% |
9 | nde | |
tíz | van | |
tizenegy | nce | |
12 | szerk | |
13 | tis | |
tizennégy | gyakran | 0,22% |
tizenöt | sth | 0,21% |
16 | férfiak |
Mivel a titkosított távíró üzenetek gyakran kihagyják az írásjeleket és a szóközöket, az ilyen üzenetek kriptográfiai gyakoriságelemzése szóhatárokat átlépő trigramokat is tartalmaz. Emiatt gyakran előfordulnak trigramok, mint például az „edt”, bár előfordulhat, hogy soha nem fordulnak elő ezen üzenetek egyik szavaiban sem. [négy]
A " A gyors vörös róka átugrik a lusta barna kutyán " mondat szószinten a következő trigramokat tartalmazza:
gyors piros gyors vörös róka vörös róka ugrás róka ugrik át ugorj át a a lusták felett a lusta barna lusta barna kutyaA „gyors piros” szószintű trigramnak pedig a következő karakterszintű trigramjai vannak (ahol az aláhúzás „_” szóközt jelent):
az ő_ e_q _qu qui uic ick ck_ k_r _újra pirostermészetes nyelvi feldolgozás | |
---|---|
Általános meghatározások | |
Szövegelemzés |
|
Hivatkozás |
|
Gépi fordítás |
|
Azonosítás és adatgyűjtés | |
Tematikus modell | |
Peer review |
|
Természetes nyelvű felület |