Beszédfelismerés

A beszédfelismerés a beszédjelek digitális információvá (például szöveges adatokká ) történő  átalakításának automatikus folyamata . Az inverz probléma a beszédszintézis .

Történelem

Az első beszédfelismerő eszköz 1952 -ben jelent meg , képes volt felismerni az ember által kimondott számokat . [1] 1962- ben a New York-i Számítástechnikai Vásáron bemutatták az IBM Shoeboxot .

1963-ban az Egyesült Államokban a Sperry Corporation mérnökei által kifejlesztett miniatűr felismerő eszközöket mutattak be "Septron" ( Sceptron , de ejtsd: [ˈseptrɑːn] "K" nélkül) száloptikai memóriaeszközzel [2]. az emberi kezelő által kimondott bizonyos frázisokra egy-egy műveletsor végrehajtása. A "septronok" alkalmasak voltak a vezetékes (vezetékes) kommunikáció területén való használatra hangos tárcsázás automatizálására és diktált szöveg automatikus rögzítésére teletípus segítségével, katonai szférában ( hadi felszerelés összetett mintáinak hangvezérlésére ), légi közlekedésben használhatók. ( a parancsairapilóta és a személyzet tagjai "okos repüléstechnika " létrehozása), automatizált vezérlőrendszerek stb. [2] [3] [4] vezérlőjelek a fedélzeti berendezéseknek és egy szótagú hang, amely válaszol neki az általa kitűzött feladat megvalósításának lehetősége [5] .

A kereskedelmi beszédfelismerő programok a kilencvenes évek elején jelentek meg. Általában olyan emberek használják, akik kézsérülés miatt nem tudnak nagy mennyiségű szöveget begépelni. Ezek a programok (mint például a Dragon NaturallySpeaking, VoiceNavigator) lefordítja a felhasználó hangját szöveggé, így tehermentesíti a kezét. Az ilyen programok fordítási megbízhatósága nem túl magas, de az évek során fokozatosan javul.

A mobil eszközök számítási teljesítményének növekedése lehetővé tette, hogy beszédfelismerő funkcióval ellátott programokat készítsenek számukra. Az ilyen programok közül érdemes megemlíteni a Microsoft Voice Command alkalmazást, amely lehetővé teszi, hogy számos alkalmazással dolgozzon hangja segítségével. Például engedélyezheti a zenelejátszást a lejátszóban, vagy létrehozhat egy új dokumentumot.

A beszédfelismerés használata egyre népszerűbb a különböző üzleti területeken, például a klinikán egy orvos olyan diagnózist tud kimondani, amely azonnal bekerül az elektronikus kártyába. Vagy egy másik példa. Bizonyára mindenki legalább egyszer az életében arról álmodott, hogy hangjával lekapcsolja a villanyt vagy kinyitja az ablakot. Az utóbbi időben az automatikus beszédfelismerő és szintézis rendszereket egyre inkább használják a telefonos interaktív alkalmazásokban. Ebben az esetben a hangportállal való kommunikáció természetesebbé válik, mivel a választás nem csak hangos tárcsázás, hanem hangutasítások segítségével is történhet. Ugyanakkor a felismerő rendszerek függetlenek a hangszóróktól, azaz bármely személy hangját felismerik.

A beszédfelismerő technológiák következő lépésének tekinthető az úgynevezett csendes hozzáférési interfészek (silent beszéd interfészek, SSI) fejlesztése. Ezek a beszédfeldolgozó rendszerek a beszédjelek vételén és feldolgozásán alapulnak az artikuláció korai szakaszában. A beszédfelismerés fejlődésének ezt a szakaszát a modern felismerő rendszerek két jelentős hiányossága okozza: a túlzott zajérzékenység, valamint az, hogy a felismerő rendszerhez való hozzáféréskor tiszta és világos beszédre van szükség. Az SSI-alapú megközelítés új, zajmentes érzékelők alkalmazása a feldolgozott akusztikus jelek kiegészítésére.

Beszédfelismerő rendszerek osztályozása

A beszédfelismerő rendszerek osztályozása: [6]

Az automatikus beszédfelismerő rendszerek esetében a zajvédelem mindenekelőtt két mechanizmus használatával biztosított: [7]

Módszerek és algoritmusok a beszédfelismeréshez

„...nyilvánvaló, hogy a beszédészlelési modellben a beszédjel-feldolgozó algoritmusoknak ugyanazt a fogalom- és kapcsolatrendszert kell használniuk, mint amit az ember használ” [8] [9] .

Ma a beszédfelismerő rendszerek a felismerés elveire épülnek[ kitől? ] felismerési formák [ ismeretlen kifejezés ] . Az eddig használt módszerek és algoritmusok a következő nagy osztályokba sorolhatók: [10] [11]

A beszédfelismerési módszerek osztályozása a szabvánnyal való összehasonlítás alapján.

  • Dinamikus programozás - ideiglenes dinamikus algoritmusok (Dynamic Time Warping).

Kontextusfüggő osztályozás. Megvalósításakor külön lexikális elemeket különböztetnek meg a beszédfolyamtól - fonémákat és allofónokat, amelyeket ezután szótagokká és morfémákká egyesítenek.

  • A Bayes-féle diszkrimináción alapuló diszkriminanciaelemzési módszerek;
  • Rejtett Markov-modellek;
  • Neurális hálózatok (Neurális hálózatok).

A dinamikus idővonal-transzformációs algoritmus annak meghatározására szolgál, hogy a beszédjelek ugyanazt az eredeti kimondott kifejezést képviselik-e.

Felismerési rendszerek felépítése

A statisztikai adatokon alapuló automatikus beszédfeldolgozó rendszerek egyik architektúrája a következő lehet. [12] [13]

  • Zajcsökkentő modul és hasznos jelleválasztás.
  • Akusztikus modell – lehetővé teszi egy beszédszegmens felismerésének értékelését a hangszinten a hasonlóság szempontjából. Minden hanghoz kezdetben egy összetett statisztikai modell készül, amely leírja ennek a hangnak a kiejtését a beszédben.
  • Nyelvi modell – lehetővé teszi a szó legvalószínűbb sorozatának meghatározását. A nyelvi modell felépítésének bonyolultsága nagyban függ az adott nyelvtől. Tehát az angol nyelvhez elegendő statisztikai modelleket (ún. N-gramokat) használni. Az erősen inflexiós nyelveknél (olyan nyelveknél, amelyekben ugyanannak a szónak több alakja van), amelyekhez az orosz tartozik, a csak statisztikákkal épített nyelvi modellek már nem adnak ilyen hatást - túl sok adatra van szükség a statisztikai adatok megbízható értékeléséhez. szavak közötti kapcsolatok. Ezért olyan hibrid nyelvi modelleket használnak, amelyek az orosz nyelv szabályait, a szófajra és a szó formájára vonatkozó információkat, valamint a klasszikus statisztikai modellt használják.
  • A dekóder egy felismerő rendszer szoftvereleme, amely az akusztikus és nyelvi modellekből a felismerés során nyert adatokat egyesíti, és ezek kombinációja alapján meghatározza a legvalószínűbb szósort, amely a folyamatos beszédfelismerés végeredménye.

Az elismerés szakaszai [12]

  1. A beszédfeldolgozás a beszédjel minőségének felmérésével kezdődik. Ebben a szakaszban meghatározzák az interferencia és a torzítás mértékét.
  2. A kiértékelés eredménye az akusztikus adaptációs modulba kerül, amely a felismeréshez szükséges beszédparaméterek kiszámítására szolgáló modult vezérli.
  3. A jelben kiválasztják a beszédet tartalmazó szegmenseket, és kiértékelik a beszédparamétereket. A szintaktikai, szemantikai és pragmatikai elemzéshez fonetikai és prozódiai valószínűségi jellemzők közül választhatunk. (A szófajra, a szóalakra és a szavak közötti statisztikai kapcsolatokra vonatkozó információk értékelése.)
  4. Ezután a beszédparaméterek belépnek a felismerő rendszer fő blokkjába - a dekódolóba. Ez az a komponens, amely a bemeneti beszédfolyamot egyezteti az akusztikus és nyelvi modellekben tárolt információkkal, és meghatározza a szó legvalószínűbb sorrendjét, ami a végső felismerési eredmény.

Az érzelmileg színes beszéd jelei a felismerő rendszerekben

Azok az alapfogalmak, amelyek az emberi beszéd paramétereit jellemzik a beszédképző traktusban bekövetkező változások alakjával, méretével, dinamikájával, és leírják az ember érzelmi állapotát, négy objektív jellemzőcsoportra oszthatók, amelyek lehetővé teszik a beszéd megkülönböztetését. mintázatok: spektrális-időbeli, cepstrális, amplitúdó-frekvencia és a nemlineáris dinamika jelei. További részletek, az egyes jellemzőcsoportok: [9] [14] [15]

Spektrális-időbeli jellemzők

Spektrális jellemzők:

  • Az elemzett beszédjel spektrumának átlagos értéke;
  • A spektrum normalizált átlaga;
  • A jel relatív tartózkodási ideje a spektrum sávjaiban;
  • A jel normalizált tartózkodási ideje a spektrum sávjaiban;
  • A beszédspektrum medián értéke sávokban;
  • A beszédspektrum relatív ereje sávokban;
  • A beszédspektrum burkológörbéinek változása;
  • A beszédspektrum burkológörbéjének változásának normalizált értékei;
  • A spektrum sávok közötti spektrális burkológörbe keresztkorrelációs együtthatói.

Ideiglenes jelek:

  • Szegmens időtartama, fonémák;
  • szegmens magassága;
  • Szegmens alaktényező.

Spektrális-időbeli jellemzők jellemzik a beszédjelet fizikai és matematikai lényegében háromféle komponens jelenléte alapján:

  1. egy hanghullám periodikus (tonális) szakaszai;
  2. a hanghullám nem periodikus szakaszai (zaj, robbanásveszély);
  3. beszédszüneteket nem tartalmazó szakaszok.

A spektrális-időbeli jellemzők lehetővé teszik az idősorok alakjának és a hangimpulzusok spektrumának eredetiségét a különböző egyéneknél, valamint a beszédpályáik szűrőfunkcióinak jellemzőit. Jellemzik a beszédfolyamat sajátosságait, amelyek a beszélő beszéd artikulációs szerveinek átstrukturálódásának dinamikájához kapcsolódnak, és a beszédfolyam szerves jellemzői, tükrözve a beszéd artikulációs szervei mozgásának kapcsolatának vagy szinkronizálásának sajátosságait. hangszóró.

Cepstralis jelek
  • Mel-frekvencia cepstralis együtthatók;
  • Lineáris előrejelzési együtthatók az emberi fül egyenetlen érzékenységére korrigálva;
  • Regisztrációs frekvencia teljesítménytényezők;
  • Lineáris előrejelzési spektrum együtthatók;
  • Lineáris predikciós cepstrum együtthatók.

A legtöbb modern automatikus beszédfelismerő rendszer az emberi hangrendszer frekvenciaválaszának kinyerésére összpontosít, miközben elveti a gerjesztő jel jellemzőit. Ez azzal magyarázható, hogy az első modell együtthatói a hangok jobb elkülöníthetőségét biztosítják. A gerjesztő jel és a hangcsatorna jelének elkülönítésére cepstralis analízist alkalmaznak .

Amplitúdó-frekvencia jellemzők
  • Intenzitás, amplitúdó
  • Energia
  • Hangmagasság-frekvencia (PCH)
  • Formant frekvenciák
  • Jitter (jitter) - az alaphang (zajparaméter) jitter frekvencia modulációja;
  • Shimmer (shimmer) - amplitúdómoduláció az alaphangon (zajparaméter);
  • Radiális bázisú magfüggvény
  • Nemlineáris Teager operátor

Az amplitúdó-frekvencia jellemzők lehetővé teszik becslések megszerzését, amelyek értéke a diszkrét Fourier-transzformáció paramétereitől (az ablak típusától és szélességétől), valamint az ablak minta feletti kisebb eltolódásaitól függően változhat. . A beszédjel akusztikailag a levegőben terjedő összetett szerkezetű hangrezgéseket reprezentálja, amelyeket frekvenciájuk (rezgések száma másodpercenként), intenzitásuk (oszcillációs amplitúdó) és időtartamuk alapján jellemeznek. Az amplitúdó-frekvencia jelek minimális észlelési idővel hordozzák a szükséges és elegendő információt egy beszédjelen. De ezeknek a funkcióknak a használata nem teszi lehetővé, hogy teljes mértékben felhasználják őket az érzelmileg színes beszéd azonosítására.

A nemlineáris dinamika jelei
  • Poincaré térképezés;
  • Rekurzív diagram;
  • Ljapunov maximális jellemző mutatója az ember érzelmi állapota, amely megfelel az attraktor egy bizonyos geometriájának (fázisportré); [16]
  • Fázisportré (attraktor);
  • A Kaplan-York dimenzió a személy érzelmi állapotának kvantitatív mérőszáma, a „nyugalomtól” a „haragig” (a beszédjel spektrumának deformációja és ezt követő eltolódása). [16] .

A nemlineáris dinamika jeleinek csoportja esetében a beszédjelet az emberi hangrendszerben megfigyelt skaláris értéknek tekintjük. A beszédprodukció folyamata nemlineárisnak tekinthető, és nemlineáris dinamikai módszerekkel elemezhető. A nemlineáris dinamika feladata, hogy megtalálja és részletesen tanulmányozza azokat az alapvető matematikai modelleket és valós rendszereket, amelyek a rendszert alkotó egyes elemek tulajdonságaira és a köztük lévő kölcsönhatás törvényeire vonatkozó legtipikusabb javaslatokból indulnak ki. Jelenleg a nemlineáris dinamika módszerei az alapvető matematikai elméleten alapulnak, amely a Takens-tételen alapul ., amely szigorú matematikai alapot hoz a nemlineáris autoregresszió gondolataiba, és bizonyítja az attraktor fázisportréjának visszaállításának lehetőségét egy idősorból vagy annak valamelyik koordinátájából. (Az attraktor a fázistérben lévő pontok halmaza vagy altér, amelyhez a fázispálya a tranziensek lecsengése után közelít.) A rekonstruált beszédpályák jelkarakterisztikájának becsléseit a nemlineáris determinisztikus fázistér felépítéséhez használjuk. a megfigyelt idősorok modelljei. Az attraktorok alakjában feltárt különbségek felhasználhatók olyan diagnosztikai szabályokra és jellemzőkre, amelyek lehetővé teszik a különböző érzelmek felismerését és helyes azonosítását egy érzelmi színű beszédjelben.

Beszédminőségi beállítások

A digitális csatornák beszédminőségi paraméterei: [17]

  • A beszéd szótagos érthetősége;
  • A beszéd frazális érthetősége;
  • Beszédminőség a referenciaút beszédminőségéhez képest;
  • Beszédminőség valós munkakörülmények között.

Alapfogalmak

  • A beszédérthetőség a helyesen vett beszédelemek (hangok, szótagok, szavak, kifejezések) relatív száma, az átvitt elemek teljes számának százalékában kifejezve.
  • A beszédminőség olyan paraméter, amely a beszédhang szubjektív értékelését jellemzi a vizsgált beszédátviteli rendszerben.
  • A normál beszédtempó olyan sebességgel beszél, amelynél a vezérlő frázis átlagos időtartama 2,4 másodperc.
  • Gyorsított beszédsebesség - olyan sebességgel beszél, amelynél a vezérlő frázis átlagos időtartama 1,5-1,6 s.
  • A beszélő hangjának felismerhetősége a hallgatók azon képessége, hogy a hang hangját egy adott személlyel azonosítsák, akit a hallgató korábban ismert.
  • A szemantikai érthetőség a beszéd információtartalmának helyes reprodukálásának fokát jelzi.
  • Az integrált minőség olyan mutató, amely a hallgató általános benyomását jellemzi a fogadott beszédből.

Alkalmazás

A hangrendszerek fő előnyének a felhasználóbarátságot nyilvánították . A beszédparancsoknak meg kellett mentenie a végfelhasználót az érintés és egyéb adatbeviteli és parancsok használatának szükségességétől.

Sikeres példák a beszédfelismerő technológia mobilalkalmazásokban való használatára: cím beírása hanggal a Yandex.Navigatorban, a Google Now hangalapú keresése.

A mobileszközökön kívül a beszédfelismerő technológiát széles körben használják számos üzleti területen:

  • Telefonálás: a bejövő és kimenő hívások feldolgozásának automatizálása önkiszolgáló hangrendszerek kialakításával, különösen: háttérinformációk megszerzése és tanácsadás, szolgáltatások/áru megrendelése, meglévő szolgáltatások paramétereinek megváltoztatása, felmérések lebonyolítása, kérdezés, információgyűjtés, tájékoztatás, ill. bármilyen más forgatókönyv;
  • „Smart Home” megoldások: hangos interfész „Smart Home” rendszerek kezelésére;
  • Háztartási gépek és robotok: elektronikus robotok hanginterfésze; háztartási készülékek hangvezérlése stb.;
  • Asztali számítógépek és laptopok: hangbevitel számítógépes játékokban és alkalmazásokban;
  • Autók: hangvezérlés az autó belsejében - például egy navigációs rendszer;
  • Szociális szolgáltatások fogyatékkal élők számára.

Lásd még

Jegyzetek

  1. Davies, KH, Biddulph, R. és Balashek, S. (1952) Automatic Speech Recognition of Spoken Digits , J. Acoust. szoc. Am. 24. (6) o. 637-642
  2. 1 2 Klass, Philip J. A száloptikai eszköz jeleket ismer fel . // Aviation Week & Space Technology . - NY: McGraw-Hill , 1962. - Vol. 77 - nem. 20 - P. 94-101.
  3. Memóriacellák . // Katonai Szemle . - 1963. április. 43 - nem. 4 - 99. o.
  4. Armagnac, Alden P. "Mondd meg Sceptronnak!" // Népszerű tudomány . - 1963. április. 182 - nem. 4 - 120. o.
  5. Hangvezérlésű számítógép tesztelve . // Légvédelmi Tüzérség . - 1983 tavasz. - Nem. 2 - 54. o.
  6. Fiók felfüggesztve . Letöltve: 2013. március 10. Az eredetiből archiválva : 2013. november 27..
  7. Modern problémák a beszédfelismerés területén. . Letöltve: 2020. június 6. Az eredetiből archiválva : 2020. június 6.
  8. http://phonoscopic.rf/articles_and_publications/Lobanova_Search_of_identical_fragments.pdf  (elérhetetlen link)
  9. 1 2 Forrás . Letöltve: 2013. április 29. Az eredetiből archiválva : 2013. augusztus 21..
  10. Forrás . Letöltve: 2013. április 25. Az eredetiből archiválva : 2012. szeptember 15..
  11. Forrás . Letöltve: 2013. április 25. Az eredetiből archiválva : 2014. december 22..
  12. 1 2 Beszédfelismerés | Beszédtechnológiai Központ | MDG . Letöltve: 2013. április 20. Az eredetiből archiválva : 2013. április 28..
  13. Forrás . Letöltve: 2013. április 29. Az eredetiből archiválva : 2016. március 4..
  14. Érzelmileg színes szöveg jeleinek elemzése . Letöltve: 2020. június 6. Az eredetiből archiválva : 2020. június 6.
  15. Forrás . Letöltve: 2013. május 1. Az eredetiből archiválva : 2016. március 4.
  16. 1 2 Értekezés "Ember pszichofiziológiai állapotának kutatása a beszéd érzelmi jelei alapján" témában absztrakt a VAK szakterületről 05.11.17, 05.13.01 - Készülék .... Letöltve: 2013. április 30. Az eredetiből archiválva : 2013. október 14..
  17. GOST R 51061-97. BESZÉDMINŐSÉGI PARAMÉTEREK. ALACSONY SEBESSÉGŰ BESZÉDÁTVÍTÁS RENDSZEREI DIGITÁLIS CSATORNÁKON. (nem elérhető link) . Letöltve: 2013. április 29. Az eredetiből archiválva : 2014. szeptember 3.. 

Linkek