Trigram (szövegelemzés)

A trigramok az n-gramok speciális esetei , ahol n értéke 3. Gyakran használják természetes nyelvi feldolgozásban szövegek statisztikai elemzésére, illetve kriptográfiában a rejtjelek és kódok ellenőrzésére és kihasználására.

Gyakoriság

A kontextus nagyon fontos, a rangok és az elemzés százalékos arányának változása könnyen kikövetkeztethető a különböző mintanagyságokból, különböző szerzőkből; vagy különböző típusú dokumentumok: költészet, sci-fi, technológiai dokumentáció; és az írás szintjei: történetek gyerekeknek a felnőttek ellen, katonai parancsok és receptek. [1] [2]

Egy tipikus kriptoanalitikus gyakoriságelemzés azt mutatja, hogy a 16 leggyakoribb karakterszintű trigram angol nyelven a következő:

Helyszín [2] trigram Frekvencia [3]
(különböző források)
egy az 1,81%
2 és 0,73%
3 tha 0,33%
négy ent 0,42%
5 ing 0,72%
6 ion 0,42%
7 tio 0,31%
nyolc számára 0,34%
9 nde
tíz van
tizenegy nce
12 szerk
13 tis
tizennégy gyakran 0,22%
tizenöt sth 0,21%
16 férfiak

Mivel a titkosított távíró üzenetek gyakran kihagyják az írásjeleket és a szóközöket, az ilyen üzenetek kriptográfiai gyakoriságelemzése szóhatárokat átlépő trigramokat is tartalmaz. Emiatt gyakran előfordulnak trigramok, mint például az „edt”, bár előfordulhat, hogy soha nem fordulnak elő ezen üzenetek egyik szavaiban sem. [négy]

Példák

A " A gyors vörös róka átugrik a lusta barna kutyán " mondat szószinten a következő trigramokat tartalmazza:

gyors piros gyors vörös róka vörös róka ugrás róka ugrik át ugorj át a a lusták felett a lusta barna lusta barna kutya

A „gyors piros” szószintű trigramnak pedig a következő karakterszintű trigramjai vannak (ahol az aláhúzás „_” szóközt jelent):

az ő_ e_q _qu qui uic ick ck_ k_r _újra piros

Jegyzetek

  1. Linton, Tom Relative Frequency of Letters in General English Plain text . Központi Főiskola (2001). Archiválva az eredetiből 2007. január 22-én.
  2. 12. Lewand , Robert. [ [1]  a " Google Books " Cryptological Mathematics-ban]. - The Mathematical Association of America , 2000. - P. 37. - ISBN 978-0-88385-719-9 .
  3. Angol betűgyakoriságok . Gyakorlati kriptográfia . Letöltve: 2022. május 31. Az eredetiből archiválva : 2022. május 12.
  4. Hangalapú keresés SEO . üzemanyag online . Letöltve: 2022. május 31. Az eredetiből archiválva : 2021. szeptember 25.