A hangfelismerés a biometrikus hitelesítés egyik formája, amely lehetővé teszi egy személy azonosítását egyedi hangjellemzők kombinációja alapján . A biometrikus adatok dinamikus módszereire utal . Mivel azonban az ember hangja az életkortól, érzelmi állapottól, egészségi állapottól, hormonszinttől és számos egyéb tényezőtől függően változhat, ez nem teljesen pontos [1] . A hangrögzítési és -visszaadási technológia fejlődésével a felismerési technológiát változó sikerrel alkalmazzák az információbiztonság , a biztonsági és hozzáférési rendszerek, valamint a kriminalisztika területén .
A beszédfelismeréssel kapcsolatos munka a múlt század közepéig nyúlik vissza. Az első rendszert az 1950-es évek elején hozták létre: fejlesztői a számok felismerését tűzték ki maguk elé. A kifejlesztett rendszer képes volt azonosítani a számokat , de egy hangon beszélve, mint például a Bell Laboratories "Audrey" rendszere . Azon dolgozott, hogy meghatározta a formánst az egyes beszédrészek teljesítményspektrumában [2] . Általánosságban elmondható, hogy a rendszer három fő részből állt: analizátorokból és kvantálókból, hálózati illesztő sablonokból és végül érzékelőkből. Különféle frekvenciaszűrők, kapcsolók, valamint gáztöltésű csövek elemi bázisán jött létre az érzékelők részeként [3] .
Az évtized végére megjelentek olyan rendszerek, amelyek a beszélőtől függetlenül felismerték a magánhangzókat [4] . A 70-es években új módszereket kezdtek alkalmazni, amelyek lehetővé tették a tökéletesebb eredmények elérését - a dinamikus programozási módszert [5] és a lineáris előrejelzési módszert (Linear Predictive Coding - LPC). Az előbb említett cégnél, a Bell Laboratories-nál olyan rendszereket hoztak létre, amelyek pontosan ezeket a módszereket használják [6] . A 80-as években a hangfelismerő rendszerek fejlesztésének következő lépése a rejtett Markov-modellek (Hidden Markov Models – HMM) alkalmazása volt. Ekkoriban kezdtek megjelenni az első nagyobb hangfelismerő programok, mint például a Kurzweil text-to-speech [7] . A 80-as évek végén a mesterséges neurális hálózatok (Artificial Neural Network – ANN) [8] módszereit is alkalmazni kezdték . 1987-ben megjelent a piacon a Worlds of Wonder's Julie baba, amely képes volt megérteni a hangot [7] . És 10 évvel később a Dragon Systems kiadta a "NaturallySpeaking 1.0" [9] programot .
A hangfelismerési hibák fő forrásai a következők:
Külön feladattípusként különíthető el a nemek felismerése, amit meglehetősen sikeresen megoldanak - nagy mennyiségű kiindulási adat mellett szinte hiba nélkül megtörténik a nem meghatározása, rövid szövegrészekben pedig, mint egy hangsúlyos magánhangzó, a hiba valószínűsége 5,3% a férfiaknál, ill. 3,1% a nők esetében [11] .
A hangutánzás problémáját is figyelembe vették. A France Telecom tanulmányai kimutatták, hogy a professzionális hangutánzás gyakorlatilag nem növeli az identitáshiba valószínűségét – az imitátorok csak külsőleg hamisítják a hangot, hangsúlyozva a beszéd jellegzetességeit, de a hang alapvető körvonalait nem tudják meghamisítani. Még a közeli rokonok, ikrek hangja is különbséget fog tenni, legalábbis az irányítás dinamikájában [11] . De a számítástechnika fejlődésével egy új probléma merült fel, amely új elemzési módszerek alkalmazását teszi szükségessé - a hangtranszformáció, amely 50% -ra növeli a hiba valószínűségét [11] .
A rendszer megbízhatóságának leírására két kritériumot használnak: FRR (False Rejection Rate) - a hozzáférés hamis megtagadásának valószínűsége ( első típusú hiba ) és FAR (False Acceptance Rate) - a hamis befogadás valószínűsége. amikor a rendszer tévesen valaki mást sajátjaként azonosít (második típusú hiba) . Ezenkívül a felismerési rendszereket olykor egy olyan paraméter jellemzi, mint az EER (Equal Error Rates), amely az FRR és FAR valószínűségek egybeesési pontját jelenti. Minél megbízhatóbb a rendszer, annál alacsonyabb az EER [12] .
Az azonosítási hibák értékei különböző biometrikus módozatokhoz [10]
biometrikus jel | Teszt | Teszt feltételek | FRR% | MESSZE% |
---|---|---|---|---|
Ujjlenyomatok | FVC 2006 | Heterogén lakosság (beleértve a fizikai munkásokat és az időseket) | 2.2 | 2.2 |
Arc | MBE 2010 | Rendőrségi Fotóbázis
Fényképek adatbázisa dokumentumokból |
4.0
0.3 |
0.1
0.1 |
Hang | NIST 2010 | Szövegfüggetlen felismerés | 3...4 | 1.0 |
A szem szivárványhártyája | ICE 2006 | Szabályozott világítás, széles képminőség | 1.1…1.4 | 0.1 |
A felismerés két fő területre osztható: azonosítás és ellenőrzés . Az első esetben a rendszernek önállóan kell hangon azonosítania a felhasználót; a második esetben a rendszernek meg kell erősítenie vagy meg kell tagadnia a felhasználó által bemutatott azonosítót [11] . A vizsgált beszélő meghatározása a hangmodellek páronkénti összehasonlításából áll, amelyek figyelembe veszik az egyes beszélők beszédének egyéni jellemzőit. Így először egy kellően nagy adatbázist kell összegyűjtenünk. Ennek az összehasonlításnak az eredményei alapján pedig összeállítható azoknak a hangfelvételeknek a listája, amelyek bizonyos valószínűséggel a minket érdeklő felhasználó beszéde [11] .
Bár a hangfelismerés nem garantálja a 100%-ban helyes eredményt, meglehetősen hatékonyan használható olyan területeken, mint a kriminalisztika és a kriminalisztika; hírszerző szolgálat; terrorizmusellenes megfigyelés; biztonság; banki és így tovább [11] .
A beszédjel feldolgozásának teljes folyamata több fő szakaszra osztható:
Mindegyik szakasz egy-egy algoritmust vagy algoritmusok halmazát képviseli, ami végül a kívánt eredményt adja [13] .
A hang fő jellemzőit három fő tulajdonság alkotja: a hangredők oszcillációinak mechanikája, a hangpálya anatómiája és az artikulációt vezérlő rendszer. Ezen kívül esetenként lehetőség van a beszélő szótárának, beszédfordulatainak használatára [11] . A főbb jellemzők, amelyek alapján a beszélő személyiségéről döntés születik, a beszédprodukciós folyamat összes tényezőjének figyelembevételével alakul ki: a hangforrás, a hangcsatorna rezonanciafrekvenciái és azok csillapítása, valamint az artikuláció szabályozásának dinamikája. Ha részletesebben megvizsgáljuk a forrásokat, akkor a hangforrás tulajdonságai közé tartozik: az alaphang átlagos frekvenciája, az alaphang frekvenciájának kontúrja és ingadozásai, valamint a gerjesztő impulzus alakja. A hangpálya spektrális jellemzőit a spektrum burkológörbéje és átlagos meredeksége, formáns frekvenciái , hosszú távú spektruma vagy cepstrum írja le . Ezen kívül a szavak időtartamát, a ritmust (feszültségeloszlást), a jelszintet, a szünetek gyakoriságát és időtartamát is figyelembe veszik [14] . Ezeknek a jellemzőknek a meghatározásához meglehetősen bonyolult algoritmusokat kell alkalmazni, de mivel például a formáns frekvenciák hibája meglehetősen nagy, az egyszerűsítés kedvéért a spektrum burkolójából vagy a hangpálya átviteli függvényéből számolt cepstrum együtthatók . lineáris predikciós módszert alkalmazunk. Az említett cepstrum együtthatók mellett ezek első és második időbeli különbségét is felhasználjuk [11] . Ezt a módszert először Davis és Mermelstein javasolta [15] .
Cepstralis elemzésA hangfelismeréssel foglalkozó munkákban a legnépszerűbb módszer a beszédjelek spektrumának cepstralis transzformációja [11] . A módszer sémája a következő: 10-20 ms időintervallumban kiszámítjuk az aktuális teljesítményspektrumot, majd ennek a spektrumnak a logaritmusának inverz Fourier-transzformációját (cepstrum) alkalmazzuk, és meghatározzuk az együtthatókat: , - felső frekvencia a beszédjel-spektrumban, - teljesítményspektrum. Az n cepstralis együtthatók száma a spektrum szükséges simításától függ, és 20-tól 40-ig terjed. Ha sávszűrő bankot használunk , akkor a diszkrét cepstralis transzformációs együtthatókat a következőképpen számítjuk ki , ahol Y(m) a kimenő jel az m-edik szűrő, az n-edik cepstrum együttható.
A hallási tulajdonságokat a frekvencia skála nemlineáris transzformációja veszi figyelembe, általában a krétaskálában [11] . Ez a skála az úgynevezett kritikus sávok fülben való jelenléte alapján jön létre, így a kritikus sávon belül bármely frekvenciájú jel megkülönböztethetetlen. A mel skálát a következőképpen számítjuk ki , ahol f a frekvencia Hz-ben, M a frekvencia melben. Vagy egy másik skálát használnak - bark , úgy, hogy a két frekvencia közötti különbség a kritikus sávval egyenlő 1 bark. A B gyakoriságot a következőképpen számítjuk ki . Az irodalomban található együtthatókat néha MFCC - Mel Frequiency Cepstral Coefficients néven említik. Számuk 10-től 30-ig terjed. A cepstralis együtthatók első és második időkülönbségének alkalmazása megháromszorozza a döntési tér dimenzióját, de javítja a beszélőfelismerés hatékonyságát [11] .
A cepstrum a jel spektrum burkológörbéjének alakját írja le, amelyet mind a gerjesztőforrás tulajdonságai, mind a hangpálya jellemzői befolyásolnak. A kísérletek során azt találták, hogy a spektrum burkológörbéje erősen befolyásolja a hang felismerését. Ezért a különböző spektrumburkológörbe-elemzési módszerek alkalmazása hangfelismerésre teljes mértékben indokolt [11] .
MódszerekMivel sok rendszer használja a cepstralis együtthatók terét, azok első és második különbségét, ezért nagy figyelmet fordítanak a döntési szabályok felépítésére. A legnépszerűbb módszerek a jellemzőtérben a valószínűségi sűrűség közelítésére normál eloszlások súlyozott keverékével ( GMM - Gauss Mixture Models), a támogatási vektorgéppel (SVM - Support Vector Machines), a rejtett Markov-modellek módszerével (HMM - Hidden Markov-modellek), mesterséges neurális hálózatok , valamint a faktoranalízis módosításai [11] .
A GMM módszer abból a tételből következik, hogy bármely valószínűségi sűrűségfüggvény ábrázolható normáleloszlások súlyozott összegeként:
; a hangszóró modellje, k a modell komponenseinek száma; — a komponensek súlya olyan, hogy a többdimenziós argumentum eloszlásfüggvénye [11] . , - tömege, k - a keverékben lévő komponensek száma. Itt n a jellemzőtér dimenziója, a keverék j-edik komponensének matematikai várakozásának vektora és a kovarianciamátrix .
Az ezzel a modellel rendelkező rendszerek nagyon gyakran diagonális kovariancia mátrixot használnak. Használható minden modell alkatrészhez vagy akár minden modellhez. A kovarianciamátrix, súlyok, átlagvektorok megtalálásához gyakran használják az EM algoritmust . A bemeneten van egy X = {x 1 , vektorok tanító sorozata. . . , x T } . A modellparaméterek inicializálása kezdeti értékekkel történik, majd az algoritmus minden iterációja során a paraméterek újraértékelésre kerülnek. A kezdeti paraméterek meghatározásához általában egy klaszterező algoritmust használnak , például a K-közép algoritmust . Miután a betanító vektorok halmazát M klaszterre osztottuk, a modell paraméterei a következőképpen definiálhatók: a kezdeti értékek egybeesnek a klaszterek középpontjával, a kovariancia mátrixok kiszámítása az ebbe a klaszterbe eső vektorok alapján történik, a komponensek súlyát ennek a klaszternek a vektorainak a képzési vektorok teljes számához viszonyított aránya határozza meg.
A paraméterek újraértékelése a következő képletek szerint történik:
A GMM a vektorkvantálási módszer ( centroid módszer ) kiterjesztésének is nevezhető . Használatakor egy kódkönyv jön létre a jellemzőtér nem átfedő régióihoz (gyakran K-közepű klaszterezéssel). A vektorkvantálás a kontextusfüggetlen felismerő rendszerek legegyszerűbb modellje [11] .
A támogatási vektorgép (SVM) egy többdimenziós térben egy hipersíkot hoz létre, amely két osztályt választ el - a célhangszóró paramétereit és a hangszórók paramétereit a referenciabázistól. A hipersíkot speciális módon kiválasztott támaszvektorok segítségével számítják ki. A mért paraméterek terének nem lineáris transzformációja egy magasabb dimenziójú jellemzők terébe történik, mivel előfordulhat, hogy az elválasztó felület nem felel meg a hipersíknak. Az elválasztó felületet a hipersíkban a tartóvektor gép alkotja meg, ha az új jellemzőtérben a lineáris elválaszthatóság feltétele teljesül. Így az SMM alkalmazás sikere minden esetben a választott nemlineáris transzformációtól függ. A támogató vektorgépeket gyakran használják GMM-mel vagy HMM-mel. Általában a néhány másodperces rövid frázisoknál a fonémaérzékeny HMM-ek [11] jobban használhatók a kontextusfüggő megközelítéshez .
A New York-i székhelyű International Biometric Group tanácsadó cég szerint a legelterjedtebb technológia az ujjlenyomat-szkennelés. Megjegyzendő, hogy a biometrikus eszközök eladásából származó 127 millió dolláros bevételből 44% a daktiloszkópiai szkennerek részesedése. Az arcfelismerő rendszerek a második helyen állnak 14%-kal, ezt követi a tenyérforma-felismerés (13%), a hangfelismerő (10%) és az íriszfelismerés (8%). Az aláírás-ellenőrző eszközök a lista 2%-át teszik ki. A hangbiometrikus piac legismertebb gyártói a Nuance Communications, a SpeechWorks, a VeriVoice [17] .
2016 februárjában a The Telegraph közzétett egy cikket, amelyben bejelentette, hogy az Egyesült Királyság HSBC bankjának ügyfelei hangazonosítással hozzáférhetnek számlákhoz és tranzakciókat hajthatnak végre. Az átállásnak a nyár elején kellett megtörténnie [18] .