Hangfelismerés

A hangfelismerés a biometrikus hitelesítés  egyik formája, amely lehetővé teszi egy személy azonosítását egyedi hangjellemzők kombinációja alapján . A biometrikus adatok dinamikus módszereire utal . Mivel azonban az ember hangja az életkortól, érzelmi állapottól, egészségi állapottól, hormonszinttől és számos egyéb tényezőtől függően változhat, ez nem teljesen pontos [1] . A hangrögzítési és -visszaadási technológia fejlődésével a felismerési technológiát változó sikerrel alkalmazzák az információbiztonság , a biztonsági és hozzáférési rendszerek, valamint a kriminalisztika területén .

Történelem

A beszédfelismeréssel kapcsolatos munka a múlt század közepéig nyúlik vissza. Az első rendszert az 1950-es évek elején hozták létre: fejlesztői a számok felismerését tűzték ki maguk elé. A kifejlesztett rendszer képes volt azonosítani a számokat , de egy hangon beszélve, mint például a Bell Laboratories "Audrey" rendszere . Azon dolgozott, hogy meghatározta a formánst az egyes beszédrészek teljesítményspektrumában [2] . Általánosságban elmondható, hogy a rendszer három fő részből állt: analizátorokból és kvantálókból, hálózati illesztő sablonokból és végül érzékelőkből. Különféle frekvenciaszűrők, kapcsolók, valamint gáztöltésű csövek elemi bázisán jött létre az érzékelők részeként [3] .

Az évtized végére megjelentek olyan rendszerek, amelyek a beszélőtől függetlenül felismerték a magánhangzókat [4] . A 70-es években új módszereket kezdtek alkalmazni, amelyek lehetővé tették a tökéletesebb eredmények elérését - a dinamikus programozási módszert [5] és a lineáris előrejelzési módszert (Linear Predictive Coding - LPC). Az előbb említett cégnél, a Bell Laboratories-nál olyan rendszereket hoztak létre, amelyek pontosan ezeket a módszereket használják [6] . A 80-as években a hangfelismerő rendszerek fejlesztésének következő lépése a rejtett Markov-modellek (Hidden Markov Models – HMM) alkalmazása volt. Ekkoriban kezdtek megjelenni az első nagyobb hangfelismerő programok, mint például a Kurzweil text-to-speech [7] . A 80-as évek végén a mesterséges neurális hálózatok (Artificial Neural Network – ANN) [8] módszereit is alkalmazni kezdték . 1987-ben megjelent a piacon a Worlds of Wonder's Julie baba, amely képes volt megérteni a hangot [7] . És 10 évvel később a Dragon Systems kiadta a "NaturallySpeaking 1.0" [9] programot .

Megbízhatóság

A hangfelismerési hibák fő forrásai a következők:

Külön feladattípusként különíthető el a nemek felismerése, amit meglehetősen sikeresen megoldanak - nagy mennyiségű kiindulási adat mellett szinte hiba nélkül megtörténik a nem meghatározása, rövid szövegrészekben pedig, mint egy hangsúlyos magánhangzó, a hiba valószínűsége 5,3% a férfiaknál, ill. 3,1% a nők esetében [11] .

A hangutánzás problémáját is figyelembe vették. A France Telecom tanulmányai kimutatták, hogy a professzionális hangutánzás gyakorlatilag nem növeli az identitáshiba valószínűségét – az imitátorok csak külsőleg hamisítják a hangot, hangsúlyozva a beszéd jellegzetességeit, de a hang alapvető körvonalait nem tudják meghamisítani. Még a közeli rokonok, ikrek hangja is különbséget fog tenni, legalábbis az irányítás dinamikájában [11] . De a számítástechnika fejlődésével egy új probléma merült fel, amely új elemzési módszerek alkalmazását teszi szükségessé - a hangtranszformáció, amely 50% -ra növeli a hiba valószínűségét [11] .

A rendszer megbízhatóságának leírására két kritériumot használnak: FRR (False Rejection Rate) - a hozzáférés hamis megtagadásának valószínűsége ( első típusú hiba ) és FAR (False Acceptance Rate) - a hamis befogadás valószínűsége. amikor a rendszer tévesen valaki mást sajátjaként azonosít (második típusú hiba) . Ezenkívül a felismerési rendszereket olykor egy olyan paraméter jellemzi, mint az EER (Equal Error Rates), amely az FRR és FAR valószínűségek egybeesési pontját jelenti. Minél megbízhatóbb a rendszer, annál alacsonyabb az EER [12] .

Az azonosítási hibák értékei különböző biometrikus módozatokhoz [10]

biometrikus jel Teszt Teszt feltételek FRR% MESSZE%
Ujjlenyomatok FVC 2006 Heterogén lakosság (beleértve a fizikai munkásokat és az időseket) 2.2 2.2
Arc MBE 2010 Rendőrségi Fotóbázis

Fényképek adatbázisa dokumentumokból

4.0

0.3

0.1

0.1

Hang NIST 2010 Szövegfüggetlen felismerés 3...4 1.0
A szem szivárványhártyája ICE 2006 Szabályozott világítás, széles képminőség 1.1…1.4 0.1

Alkalmazás

A felismerés két fő területre osztható: azonosítás és ellenőrzés . Az első esetben a rendszernek önállóan kell hangon azonosítania a felhasználót; a második esetben a rendszernek meg kell erősítenie vagy meg kell tagadnia a felhasználó által bemutatott azonosítót [11] . A vizsgált beszélő meghatározása a hangmodellek páronkénti összehasonlításából áll, amelyek figyelembe veszik az egyes beszélők beszédének egyéni jellemzőit. Így először egy kellően nagy adatbázist kell összegyűjtenünk. Ennek az összehasonlításnak az eredményei alapján pedig összeállítható azoknak a hangfelvételeknek a listája, amelyek bizonyos valószínűséggel a minket érdeklő felhasználó beszéde [11] .

Bár a hangfelismerés nem garantálja a 100%-ban helyes eredményt, meglehetősen hatékonyan használható olyan területeken, mint a kriminalisztika és a kriminalisztika; hírszerző szolgálat; terrorizmusellenes megfigyelés; biztonság; banki és így tovább [11] .

Elemzés

A beszédjel feldolgozásának teljes folyamata több fő szakaszra osztható:

Mindegyik szakasz egy-egy algoritmust vagy algoritmusok halmazát képviseli, ami végül a kívánt eredményt adja [13] .

A hang fő jellemzőit három fő tulajdonság alkotja: a hangredők oszcillációinak mechanikája, a hangpálya anatómiája és az artikulációt vezérlő rendszer. Ezen kívül esetenként lehetőség van a beszélő szótárának, beszédfordulatainak használatára [11] . A főbb jellemzők, amelyek alapján a beszélő személyiségéről döntés születik, a beszédprodukciós folyamat összes tényezőjének figyelembevételével alakul ki: a hangforrás, a hangcsatorna rezonanciafrekvenciái és azok csillapítása, valamint az artikuláció szabályozásának dinamikája. Ha részletesebben megvizsgáljuk a forrásokat, akkor a hangforrás tulajdonságai közé tartozik: az alaphang átlagos frekvenciája, az alaphang frekvenciájának kontúrja és ingadozásai, valamint a gerjesztő impulzus alakja. A hangpálya spektrális jellemzőit a spektrum burkológörbéje és átlagos meredeksége, formáns frekvenciái , hosszú távú spektruma vagy cepstrum írja le . Ezen kívül a szavak időtartamát, a ritmust (feszültségeloszlást), a jelszintet, a szünetek gyakoriságát és időtartamát is figyelembe veszik [14] . Ezeknek a jellemzőknek a meghatározásához meglehetősen bonyolult algoritmusokat kell alkalmazni, de mivel például a formáns frekvenciák hibája meglehetősen nagy, az egyszerűsítés kedvéért a spektrum burkolójából vagy a hangpálya átviteli függvényéből számolt cepstrum együtthatók . lineáris predikciós módszert alkalmazunk. Az említett cepstrum együtthatók mellett ezek első és második időbeli különbségét is felhasználjuk [11] . Ezt a módszert először Davis és Mermelstein javasolta [15] .

Cepstralis elemzés

A hangfelismeréssel foglalkozó munkákban a legnépszerűbb módszer a beszédjelek spektrumának cepstralis transzformációja [11] . A módszer sémája a következő: 10-20 ms időintervallumban kiszámítjuk az aktuális teljesítményspektrumot, majd ennek a spektrumnak a logaritmusának inverz Fourier-transzformációját (cepstrum) alkalmazzuk, és meghatározzuk az együtthatókat: , - felső frekvencia a beszédjel-spektrumban, - teljesítményspektrum. Az n cepstralis együtthatók száma a spektrum szükséges simításától függ, és 20-tól 40-ig terjed. Ha sávszűrő bankot használunk , akkor a diszkrét cepstralis transzformációs együtthatókat a következőképpen számítjuk ki , ahol Y(m) a kimenő jel az m-edik szűrő,  az n-edik cepstrum együttható.

A hallási tulajdonságokat a frekvencia skála nemlineáris transzformációja veszi figyelembe, általában a krétaskálában [11] . Ez a skála az úgynevezett kritikus sávok fülben való jelenléte alapján jön létre, így a kritikus sávon belül bármely frekvenciájú jel megkülönböztethetetlen. A mel skálát a következőképpen számítjuk ki , ahol f a frekvencia Hz-ben, M a frekvencia melben. Vagy egy másik skálát használnak - bark , úgy, hogy a két frekvencia közötti különbség a kritikus sávval egyenlő 1 bark. A B gyakoriságot a következőképpen számítjuk ki . Az irodalomban található együtthatókat néha MFCC - Mel Frequiency Cepstral Coefficients néven említik. Számuk 10-től 30-ig terjed. A cepstralis együtthatók első és második időkülönbségének alkalmazása megháromszorozza a döntési tér dimenzióját, de javítja a beszélőfelismerés hatékonyságát [11] .

A cepstrum a jel spektrum burkológörbéjének alakját írja le, amelyet mind a gerjesztőforrás tulajdonságai, mind a hangpálya jellemzői befolyásolnak. A kísérletek során azt találták, hogy a spektrum burkológörbéje erősen befolyásolja a hang felismerését. Ezért a különböző spektrumburkológörbe-elemzési módszerek alkalmazása hangfelismerésre teljes mértékben indokolt [11] .

Módszerek

Mivel sok rendszer használja a cepstralis együtthatók terét, azok első és második különbségét, ezért nagy figyelmet fordítanak a döntési szabályok felépítésére. A legnépszerűbb módszerek a jellemzőtérben a valószínűségi sűrűség közelítésére normál eloszlások súlyozott keverékével ( GMM  - Gauss Mixture Models), a támogatási vektorgéppel (SVM - Support Vector Machines), a rejtett Markov-modellek módszerével (HMM - Hidden Markov-modellek), mesterséges neurális hálózatok , valamint a faktoranalízis módosításai [11] .

A GMM módszer abból a tételből következik, hogy bármely valószínűségi sűrűségfüggvény ábrázolható normáleloszlások súlyozott összegeként:

;  a hangszóró modellje, k a modell komponenseinek száma;  — a komponensek súlya olyan, hogy a többdimenziós argumentum eloszlásfüggvénye [11] . , - tömege, k - a keverékben lévő komponensek száma. Itt n a jellemzőtér dimenziója, a keverék j-edik komponensének matematikai várakozásának  vektora és a kovarianciamátrix .

Az ezzel a modellel rendelkező rendszerek nagyon gyakran diagonális kovariancia mátrixot használnak. Használható minden modell alkatrészhez vagy akár minden modellhez. A kovarianciamátrix, súlyok, átlagvektorok megtalálásához gyakran használják az EM algoritmust . A bemeneten van egy X = {x 1 , vektorok tanító sorozata. . . , x T } . A modellparaméterek inicializálása kezdeti értékekkel történik, majd az algoritmus minden iterációja során a paraméterek újraértékelésre kerülnek. A kezdeti paraméterek meghatározásához általában egy klaszterező algoritmust használnak , például a K-közép algoritmust . Miután a betanító vektorok halmazát M klaszterre osztottuk, a modell paraméterei a következőképpen definiálhatók: a kezdeti értékek egybeesnek a klaszterek középpontjával, a kovariancia mátrixok kiszámítása az ebbe a klaszterbe eső vektorok alapján történik, a komponensek súlyát ennek a klaszternek a vektorainak a képzési vektorok teljes számához viszonyított aránya határozza meg.

A paraméterek újraértékelése a következő képletek szerint történik:

A GMM a vektorkvantálási módszer ( centroid módszer ) kiterjesztésének is nevezhető . Használatakor egy kódkönyv jön létre a jellemzőtér nem átfedő régióihoz (gyakran K-közepű klaszterezéssel). A vektorkvantálás a kontextusfüggetlen felismerő rendszerek legegyszerűbb modellje [11] .

A támogatási vektorgép (SVM) egy többdimenziós térben egy hipersíkot hoz létre, amely két osztályt választ el - a célhangszóró paramétereit és a hangszórók paramétereit a referenciabázistól. A hipersíkot speciális módon kiválasztott támaszvektorok segítségével számítják ki. A mért paraméterek terének nem lineáris transzformációja egy magasabb dimenziójú jellemzők terébe történik, mivel előfordulhat, hogy az elválasztó felület nem felel meg a hipersíknak. Az elválasztó felületet a hipersíkban a tartóvektor gép alkotja meg, ha az új jellemzőtérben a lineáris elválaszthatóság feltétele teljesül. Így az SMM alkalmazás sikere minden esetben a választott nemlineáris transzformációtól függ. A támogató vektorgépeket gyakran használják GMM-mel vagy HMM-mel. Általában a néhány másodperces rövid frázisoknál a fonémaérzékeny HMM-ek [11] jobban használhatók a kontextusfüggő megközelítéshez .

Népszerűség

A New York-i székhelyű International Biometric Group tanácsadó cég szerint a legelterjedtebb technológia az ujjlenyomat-szkennelés. Megjegyzendő, hogy a biometrikus eszközök eladásából származó 127 millió dolláros bevételből 44% a daktiloszkópiai szkennerek részesedése. Az arcfelismerő rendszerek a második helyen állnak 14%-kal, ezt követi a tenyérforma-felismerés (13%), a hangfelismerő (10%) és az íriszfelismerés (8%). Az aláírás-ellenőrző eszközök a lista 2%-át teszik ki. A hangbiometrikus piac legismertebb gyártói a Nuance Communications, a SpeechWorks, a VeriVoice [17] .

2016 februárjában a The Telegraph közzétett egy cikket, amelyben bejelentette, hogy az Egyesült Királyság HSBC bankjának ügyfelei hangazonosítással hozzáférhetnek számlákhoz és tranzakciókat hajthatnak végre. Az átállásnak a nyár elején kellett megtörténnie [18] .

Jegyzetek

  1. E. K. Bragina, S. S. Szokolov. A biometrikus hitelesítés modern módszerei: a fejlesztési kilátások áttekintése, elemzése és meghatározása // Vestnik ASTU. - 2016. - 61. sz . — ISSN 1812-9498 .
  2. KH Davis, R. Biddulph és S. Balashek. A kimondott számjegyek automatikus felismerése // J. Acoust. szoc. Am..
  3. BH Juang és Lawrence R. Rabiner. Automatikus beszédfelismerés – A technológiafejlesztés rövid története  // USCB. - 2004. - október. Az eredetiből archiválva: 2016. december 20.
  4. JW Forgie és CD Forgie,. Magánhangzó-felismerő számítógépes programból nyert eredmények // J. Acoust. szoc. Am., 31.
  5. H. Sakoe és S. Chiba. Dinamikus programozási algoritmus optimalizálás kimondott szófelismeréshez // ASSP.
  6. F. Itakura és S. Saito, "Analysis synthesis telephony based on the maximum likelihood method", Jelentések a 6. Nemzetközi Akusztikai Kongresszusról
  7. ↑ 1 2 Beszédfelismerés az évtizedeken keresztül: Hogyan végeztünk Sirivel , PCWorld . Az eredetiből archiválva: 2016. december 6. Letöltve: 2016. december 14.
  8. JK Baker. Sztochasztikus modellezés az automatikus beszédmegértéshez. — Akadémiai Kiadó.
  9. Nuance Dragon természetesen beszélő, orvosi átírás, hangfelismerő szoftver . www.dragon-medical-transcription.com. Letöltve: 2016. december 14. Az eredetiből archiválva : 2015. augusztus 13..
  10. ↑ 1 2 Yu. N. Matveev Egy személy biometrikus azonosításának technológiái hanggal és egyéb módozatokkal
  11. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 V. N. Sorokin, V. V. Vyugin, A. A. Tananykin Személyiségfelismerés hanggal: analitikus áttekintés
  12. A biometrikus azonosítás jellemzői (elérhetetlen link) . Letöltve: 2016. december 2. Az eredetiből archiválva : 2017. május 19. 
  13. Tassov K. L., Dyatlov R. A. A személy hang alapján történő azonosításának módszere
  14. Kuwabara H., Sagisaka Y. (1995)
  15. Davis S., Mermelstein P. (1980)
  16. E.A. Pervushin. A beszélőfelismerés főbb módszereinek áttekintése // Matematikai struktúrák és modellezés. – 2011.
  17. A Nemzetközi Biometrikus Csoport (IBG) november 13-án közzéteszi a 2009-2014-es biometrikus piaci és ipari jelentés webes közvetítését és közzétételét – FindBiometrics  , FindBiometrics (  2008. november 11.). Az eredetiből archiválva : 2016. november 30. Letöltve: 2016. november 29.
  18. Tim Wallace . A jelszavak halála: az HSBC elindítja a hang- és ujjlenyomat-azonosítót , a The Telegraph  (2016. február 19.). Az eredetiből archiválva : 2016. november 30. Letöltve: 2016. november 29.

Források

  1. Yu. N. Matveev A biometrikus személyazonosítás hang- és egyéb módozatai technológiái – ISSN 0236-3933. Bulletin of MSTU im. N. E. Bauman. Ser. "Hangszerkészítés". 2012
  2. V. N. Sorokin, V. V. Vyugin, A. A. Tananykin Személyiségfelismerés hanggal: analitikus áttekintés – ISSN 1819-5822 Információs folyamatok, 12. kötet, 1. szám, 1-30.
  3. Tassov K. L., Dyatlov R. A. A személy hang alapján történő azonosításának módszere. Mérnöki Folyóirat: Tudomány és Innováció, 2013, sz. 6. URL: http://engjournal.ru/catalog/it/biometric/1103.html
  4. Lamel LF, Gauvain JL (2000). Hangszóró ellenőrzése telefonon. Journal Speech Communication – Hangszórófelismerés és kereskedelmi és kriminalisztikai alkalmazásai
  5. Kuwabara H., Sagisaka Y. (1995). A hangszóró egyéniségének akusztikai jellemzői: vezérlés és átalakítás. Beszédkommunikáció
  6. Davis S., Mermelstein P. (1980). Paraméteres reprezentációk összehasonlítása egyszótagú szófelismeréshez folyamatosan beszélt mondatokban. IEEE Trans. Akusztika, beszéd, jelfolyamat.

Linkek