Audio scrambler ( eng. scramble - encrypt , mix ) - olyan szoftver vagy hardver eszköz, amely hangkódolást végez - egy hangjel reverzibilis transzformációja, amely a hangjel idő, amplitúdója és frekvenciája közötti kapcsolat változásán alapul [ 1 ] . A hangkódolás a titkosítás egy fajtája . Az audio kódolókat a beszédjelek titkosítására használják, és részt vesznek a telefonbeszélgetések titkosságának biztosításában [2] .
A fő különbség a hangkódolók és az audiojeleket titkosító egyéb eszközök között az , hogy a hangkódolók képesek a folyamatos analóg jelet digitalizálás nélkül titkosítani [3] .
A beszédjel alapvető szöveginformációkat és kiegészítő információkat is hordoz hangsúly és intonáció formájában, valamint a beszélő hangjellemzőire vonatkozó információkat, amelyek lehetővé teszik a beszédhang alapján történő azonosítását [4] .
Először is a kódolók folyamatos jelekkel dolgoznak [3] . A folytonos jeleket spektrumuk jellemzi. A jel spektruma a vele egyenértékű szinuszos komponensek halmaza (más néven harmonikusok vagy frekvenciakomponensek). A jel spektrumát a jel alakjának időfüggőségét kifejező függvény Fourier-soros kiterjesztésével kapjuk [5] . A beszédjel tipikus spektruma a 1. ábrán látható. 1 [6] .
Rizs. 1. A frekvenciakomponensek gyorsan csökkennek a 3-4 kHz és 300 Hz alatti tartományban, a legnagyobb amplitúdók pedig 500-3000 Hz-es tartományban vannak.
A hallási információ elemi egységei az elemi hangok - fonémák , valamint a szemantikai egységek - a hangzó szótagok, szavak és kifejezések [7] .
A fonémák halmaza három osztályra oszlik. A magánhangzók egy családot alkotnak, a mássalhangzók - két osztályt, amelyeket zárójeleknek és frikatívoknak neveznek [ 8] . A magánhangzók hosszú ideig keletkeznek. Általában körülbelül 100 ms szükséges a csúcsamplitúdó eléréséhez. A robbanásveszélyes hangokat magas frekvenciájú komponenseik jellemzik – amplitúdócsúcsaik 90%-a nem haladja meg az 5 ms-ot. A frikatívumok a légáramlás részleges blokkolásával jönnek létre, ami a „fehér zajhoz” hasonló hangot eredményez. A frikatív amplitúdócsúcsok 20-50 ms-ig tartanak, és frekvenciája 1-3 kHz között koncentrálódik [9] .
Az emberi beszéd másik fontos jellemzője az alaphang frekvenciája - ez a hangszálak rezgésének frekvenciája. Minden beszélő személy esetében az alaphang gyakorisága egyedi, és a gége szerkezeti jellemzői határozzák meg . Átlagosan a férfi hang 80 és 210 Hz között van, a női hang esetében 150 és 320 Hz között [10] .
Így a beszédjelben lévő szemantikai információ főként a 300 Hz és 3000 kHz közötti frekvenciatartományban koncentrálódik, a 80 Hz és 320 Hz közötti frekvenciák pedig a beszélő hangjáról hordoznak információt.
A beszédjelek titkosítási erősségének értékelésekor figyelembe kell venni az emberi észlelés lehetőségeit a titkosító jel hallgatásakor és bármilyen információ visszaszerzésekor. Ezzel kapcsolatban a jel úgynevezett reziduális érthetőségéről beszélnek [1] .
Ez a felfogás nagyon szubjektív: egyesek sokkal jobban érzékelik a fülükről szóló információkat, mint mások. Például köztudott, hogy a szülők jóval azelőtt megértik gyermekeik „beszédét”, hogy mások megértenék azt. Az emberi agy képes alkalmazkodni az információk „megszerzéséhez”, gyorsan elemzi a hallottakat, ezért a titkosítás megbízhatóságának felmérésekor célszerű többször egymás után meghallgatni a kódolt telefonüzeneteket [11] .
A kódolás során a beszédjel három paraméterre konvertálható: amplitúdó , frekvencia és idő . A kommunikációs csatornában előforduló esetleges interferencia elsősorban a jel amplitúdóját érinti, ezért amplitúdótranszformációt ritkán alkalmaznak [12] . A leggyakrabban használt transzformációk a frekvencia és az idő tartományban, valamint ezek kombinációi.
Az audiojelek kódolásának fő módszerei:
A transzformációk közül a legegyszerűbb a spektrum inverzió. Ennek eredménye a korlátozott tartományban lévő jel esetén az eredeti jel az alsáv középfrekvenciájához képest megfordítva. A 2. és 3. ábra az eredeti és fordított jelekre mutat példákat [14] .
Rizs. 2
Rizs. 3
Az inverziós transzformáció nem függ a titkos kulcstól . Ez egy olyan kódolás, amely nem ellenáll a hasonló berendezésekkel rendelkező ellenfél támadásainak [14] .
A frekvenciatartományban lévő jel megváltoztatásának másik módja a tartomány felosztása. A jelspektrum több egyenlő részsávra van felosztva, amelyek egymással felcserélhetők. Ehhez hozzáadhatjuk az invertálás lehetőségét egyes résztartományoknál.
Példaként tekintsük az ábrán látható jelet. 4. A frekvenciatartományt öt egyenlő részre osztjuk, melyeket a megadott számozásnak megfelelően átrendezünk, míg az első és ötödik részt felcseréljük [14] (lásd 5. ábra).
Összesen 5 db van! lehetséges permutációk és invertálási lehetőségek. Összesen – jelátalakítási lehetőségek. Még rosszabb a helyzet a maradék érthetőséggel. Ha csak a sávok permutációit használjuk, akkor a legtöbb esetben a maradék olvashatóság eléri a 10%-ot, ami nem garantálja a stabilitást [14]
Rizs. négy.
Rizs. 5
Ugyanez elmondható minden olyan scramblerről, amely csak frekvenciatartományi műveleteket használ. Használatuk csak azokra a helyzetekre korlátozódik, amikor a cél az, hogy megakadályozzák a hétköznapi hallgatót vagy a megfelelő felszereléssel nem rendelkező ellenfelet abban, hogy megértse a beszélgetést [15] .
A jel időtartományát befolyásoló kódolási módszerek a következő elveken alapulnak.
Az analóg jelet egyenlő időintervallumokra osztják, amelyeket kereteknek neveznek . Minden képkockát pedig még kisebb részekre, úgynevezett szegmensekre osztanak fel . A bemenő jelet az egyes kereteken belüli szegmensek átrendezésével alakítjuk át [16] .
Ezt a folyamatot a következő példa szemlélteti.
ábrán. 6 keret 8 szegmensre van osztva. A szegmensek ezután a permutációnak megfelelően átrendeződnek
A rendszer felállításakor a keret és a szegmens hossza kerül kiválasztásra. Mivel a jel egy szegmensen belül nem pusztul el, a szegmenseket olyan rövidre kell megválasztani, hogy ne tartalmazzák az üzenet teljes töredékeit, például egyes fonémákat vagy szótagokat. Másrészt a szegmens hossza jelentősen befolyásolja az átvitt jel hangminőségét, ami tisztán technikai okokkal magyarázható. Minél kisebb a szegmens, annál gyengébb a hangminőség. Ezért ésszerű kompromisszumra van szükség a szegmens hosszának megválasztásánál [17] .
Rizs. 6
A kerethossz megválasztásánál figyelembe kell venni a berendezésbe jutó bemeneti jel és a vételnél visszaállított jel közötti időkésleltetési tényezőt. A kódolt jel átvitele nem kezdődhet meg addig, amíg a teljes keretet be nem vitte a kódolóba. A vevő sem kezdheti meg a visszafejtést, amíg a teljes keretet meg nem kapta. Így a jelátvitel késleltetése kétszerese lesz a keretidőnek. A felhasználó szempontjából ez nem kívánatos, és az ilyen késést minimálisra kell csökkenteni. A titkosítás megbízhatóságának növelése érdekében azonban kívánatos kellően hosszú kereteket és szegmenseket használni, amelyek időtartama nem haladja meg a nyelv legrövidebb fonémáinak időtartamát. Ha azonban kódolt jelet továbbítunk egy kommunikációs csatornán, a jel természetes simítása következik be a töréspontokon (lásd 5. ábra). A jel dekódolása után az ilyen simítás negatívan befolyásolja a hangminőséget, ezért a szegmensek számának (és ennek eredményeként a szünetek számának) növekedése a vevőkészülék hangminőségének csökkenéséhez vezet [17] .
A keret- és szegmenshosszak megválasztása mellett fontos paraméter a permutáció megválasztása. Az erős titkosítás érdekében minden keretben új permutációt kell használnia, és véletlenszerű (vagy pszeudo-véletlen) számgenerátorral kell permutációt generálni. Ebben az esetben figyelembe kell venni, hogy egyes permutációk a kereten belüli szegmensek rossz keveredését eredményezik, és ennek eredményeként növelik a jel maradék érthetőségét [16] .
A fejlesztő szempontjából egyensúlyt kell találni a minimális maradék érthetőség, a kódolt hangminőség és a minimális késleltetés között.
A Kerckhoff-elv szerint a kriptorendszer titkosítási algoritmusait és tulajdonságait az ellenfél kriptoanalitikusa előre ismeri – ezért abból kell kiindulni, hogy az ellenfél ismeri a scramblerben használt keretek és szegmensek hosszát. Ebben az esetben rendkívül veszélyes megbízhatatlan pszeudo-véletlen sorrendgenerátorok használata. Ekkor bizonyos számú képkocka dekódolása az összes lehetséges permutáció kimerítő felsorolásával lehetővé teheti az álvéletlen sorozat egy részének meghatározását [18] , amely alapján a teljes sorozat visszaállítása és a teljes jel [1] .
Tegyük fel, hogy a rendszer ellenáll a leírt megközelítésnek. Ez azt jelenti, hogy a kriptaelemző csak úgy tud üzenetet fogadni, hogy minden egyes keretet (vagy a keretek azon részét, amely elegendő ahhoz, hogy információt nyerjen a beszédjelből) dekódolja [19] . Ezzel a megközelítéssel a kriptoanalitikusnak nehézséget okoz az értelmes beszédjelek felismerésének automatizálása. Még ennek a folyamatnak a részleges automatizálása esetén is, a kriptoanalitikusnak önállóan meg kell hallgatnia nagyszámú visszakódolt jelet (ebben az esetben a jel minden egyes keretét külön kell dekódolni), hogy megtudja azok jelentéstartalmát [1] .