A beszédfelismerés a beszédjelek digitális információvá (például szöveges adatokká ) történő átalakításának automatikus folyamata . Az inverz probléma a beszédszintézis .
Az első beszédfelismerő eszköz 1952 -ben jelent meg , képes volt felismerni az ember által kimondott számokat . [1] 1962- ben a New York-i Számítástechnikai Vásáron bemutatták az IBM Shoeboxot .
1963-ban az Egyesült Államokban a Sperry Corporation mérnökei által kifejlesztett miniatűr felismerő eszközöket mutattak be "Septron" ( Sceptron , de ejtsd: [ˈseptrɑːn] "K" nélkül) száloptikai memóriaeszközzel [2]. az emberi kezelő által kimondott bizonyos frázisokra egy-egy műveletsor végrehajtása. A "septronok" alkalmasak voltak a vezetékes (vezetékes) kommunikáció területén való használatra hangos tárcsázás automatizálására és diktált szöveg automatikus rögzítésére teletípus segítségével, katonai szférában ( hadi felszerelés összetett mintáinak hangvezérlésére ), légi közlekedésben használhatók. ( a parancsairapilóta és a személyzet tagjai "okos repüléstechnika " létrehozása), automatizált vezérlőrendszerek stb. [2] [3] [4] vezérlőjelek a fedélzeti berendezéseknek és egy szótagú hang, amely válaszol neki az általa kitűzött feladat megvalósításának lehetősége [5] .
A kereskedelmi beszédfelismerő programok a kilencvenes évek elején jelentek meg. Általában olyan emberek használják, akik kézsérülés miatt nem tudnak nagy mennyiségű szöveget begépelni. Ezek a programok (mint például a Dragon NaturallySpeaking, VoiceNavigator) lefordítja a felhasználó hangját szöveggé, így tehermentesíti a kezét. Az ilyen programok fordítási megbízhatósága nem túl magas, de az évek során fokozatosan javul.
A mobil eszközök számítási teljesítményének növekedése lehetővé tette, hogy beszédfelismerő funkcióval ellátott programokat készítsenek számukra. Az ilyen programok közül érdemes megemlíteni a Microsoft Voice Command alkalmazást, amely lehetővé teszi, hogy számos alkalmazással dolgozzon hangja segítségével. Például engedélyezheti a zenelejátszást a lejátszóban, vagy létrehozhat egy új dokumentumot.
A beszédfelismerés használata egyre népszerűbb a különböző üzleti területeken, például a klinikán egy orvos olyan diagnózist tud kimondani, amely azonnal bekerül az elektronikus kártyába. Vagy egy másik példa. Bizonyára mindenki legalább egyszer az életében arról álmodott, hogy hangjával lekapcsolja a villanyt vagy kinyitja az ablakot. Az utóbbi időben az automatikus beszédfelismerő és szintézis rendszereket egyre inkább használják a telefonos interaktív alkalmazásokban. Ebben az esetben a hangportállal való kommunikáció természetesebbé válik, mivel a választás nem csak hangos tárcsázás, hanem hangutasítások segítségével is történhet. Ugyanakkor a felismerő rendszerek függetlenek a hangszóróktól, azaz bármely személy hangját felismerik.
A beszédfelismerő technológiák következő lépésének tekinthető az úgynevezett csendes hozzáférési interfészek (silent beszéd interfészek, SSI) fejlesztése. Ezek a beszédfeldolgozó rendszerek a beszédjelek vételén és feldolgozásán alapulnak az artikuláció korai szakaszában. A beszédfelismerés fejlődésének ezt a szakaszát a modern felismerő rendszerek két jelentős hiányossága okozza: a túlzott zajérzékenység, valamint az, hogy a felismerő rendszerhez való hozzáféréskor tiszta és világos beszédre van szükség. Az SSI-alapú megközelítés új, zajmentes érzékelők alkalmazása a feldolgozott akusztikus jelek kiegészítésére.
A beszédfelismerő rendszerek osztályozása: [6]
Az automatikus beszédfelismerő rendszerek esetében a zajvédelem mindenekelőtt két mechanizmus használatával biztosított: [7]
„...nyilvánvaló, hogy a beszédészlelési modellben a beszédjel-feldolgozó algoritmusoknak ugyanazt a fogalom- és kapcsolatrendszert kell használniuk, mint amit az ember használ” [8] [9] .
Ma a beszédfelismerő rendszerek a felismerés elveire épülnek[ kitől? ] felismerési formák [ ismeretlen kifejezés ] . Az eddig használt módszerek és algoritmusok a következő nagy osztályokba sorolhatók: [10] [11]
A beszédfelismerési módszerek osztályozása a szabvánnyal való összehasonlítás alapján.
Kontextusfüggő osztályozás. Megvalósításakor külön lexikális elemeket különböztetnek meg a beszédfolyamtól - fonémákat és allofónokat, amelyeket ezután szótagokká és morfémákká egyesítenek.
A dinamikus idővonal-transzformációs algoritmus annak meghatározására szolgál, hogy a beszédjelek ugyanazt az eredeti kimondott kifejezést képviselik-e.
A statisztikai adatokon alapuló automatikus beszédfeldolgozó rendszerek egyik architektúrája a következő lehet. [12] [13]
Az elismerés szakaszai [12]
Azok az alapfogalmak, amelyek az emberi beszéd paramétereit jellemzik a beszédképző traktusban bekövetkező változások alakjával, méretével, dinamikájával, és leírják az ember érzelmi állapotát, négy objektív jellemzőcsoportra oszthatók, amelyek lehetővé teszik a beszéd megkülönböztetését. mintázatok: spektrális-időbeli, cepstrális, amplitúdó-frekvencia és a nemlineáris dinamika jelei. További részletek, az egyes jellemzőcsoportok: [9] [14] [15]
Spektrális-időbeli jellemzőkSpektrális jellemzők:
Ideiglenes jelek:
Spektrális-időbeli jellemzők jellemzik a beszédjelet fizikai és matematikai lényegében háromféle komponens jelenléte alapján:
A spektrális-időbeli jellemzők lehetővé teszik az idősorok alakjának és a hangimpulzusok spektrumának eredetiségét a különböző egyéneknél, valamint a beszédpályáik szűrőfunkcióinak jellemzőit. Jellemzik a beszédfolyamat sajátosságait, amelyek a beszélő beszéd artikulációs szerveinek átstrukturálódásának dinamikájához kapcsolódnak, és a beszédfolyam szerves jellemzői, tükrözve a beszéd artikulációs szervei mozgásának kapcsolatának vagy szinkronizálásának sajátosságait. hangszóró.
Cepstralis jelekA legtöbb modern automatikus beszédfelismerő rendszer az emberi hangrendszer frekvenciaválaszának kinyerésére összpontosít, miközben elveti a gerjesztő jel jellemzőit. Ez azzal magyarázható, hogy az első modell együtthatói a hangok jobb elkülöníthetőségét biztosítják. A gerjesztő jel és a hangcsatorna jelének elkülönítésére cepstralis analízist alkalmaznak .
Amplitúdó-frekvencia jellemzőkAz amplitúdó-frekvencia jellemzők lehetővé teszik becslések megszerzését, amelyek értéke a diszkrét Fourier-transzformáció paramétereitől (az ablak típusától és szélességétől), valamint az ablak minta feletti kisebb eltolódásaitól függően változhat. . A beszédjel akusztikailag a levegőben terjedő összetett szerkezetű hangrezgéseket reprezentálja, amelyeket frekvenciájuk (rezgések száma másodpercenként), intenzitásuk (oszcillációs amplitúdó) és időtartamuk alapján jellemeznek. Az amplitúdó-frekvencia jelek minimális észlelési idővel hordozzák a szükséges és elegendő információt egy beszédjelen. De ezeknek a funkcióknak a használata nem teszi lehetővé, hogy teljes mértékben felhasználják őket az érzelmileg színes beszéd azonosítására.
A nemlineáris dinamika jeleiA nemlineáris dinamika jeleinek csoportja esetében a beszédjelet az emberi hangrendszerben megfigyelt skaláris értéknek tekintjük. A beszédprodukció folyamata nemlineárisnak tekinthető, és nemlineáris dinamikai módszerekkel elemezhető. A nemlineáris dinamika feladata, hogy megtalálja és részletesen tanulmányozza azokat az alapvető matematikai modelleket és valós rendszereket, amelyek a rendszert alkotó egyes elemek tulajdonságaira és a köztük lévő kölcsönhatás törvényeire vonatkozó legtipikusabb javaslatokból indulnak ki. Jelenleg a nemlineáris dinamika módszerei az alapvető matematikai elméleten alapulnak, amely a Takens-tételen alapul ., amely szigorú matematikai alapot hoz a nemlineáris autoregresszió gondolataiba, és bizonyítja az attraktor fázisportréjának visszaállításának lehetőségét egy idősorból vagy annak valamelyik koordinátájából. (Az attraktor a fázistérben lévő pontok halmaza vagy altér, amelyhez a fázispálya a tranziensek lecsengése után közelít.) A rekonstruált beszédpályák jelkarakterisztikájának becsléseit a nemlineáris determinisztikus fázistér felépítéséhez használjuk. a megfigyelt idősorok modelljei. Az attraktorok alakjában feltárt különbségek felhasználhatók olyan diagnosztikai szabályokra és jellemzőkre, amelyek lehetővé teszik a különböző érzelmek felismerését és helyes azonosítását egy érzelmi színű beszédjelben.
A digitális csatornák beszédminőségi paraméterei: [17]
A hangrendszerek fő előnyének a felhasználóbarátságot nyilvánították . A beszédparancsoknak meg kellett mentenie a végfelhasználót az érintés és egyéb adatbeviteli és parancsok használatának szükségességétől.
Sikeres példák a beszédfelismerő technológia mobilalkalmazásokban való használatára: cím beírása hanggal a Yandex.Navigatorban, a Google Now hangalapú keresése.
A mobileszközökön kívül a beszédfelismerő technológiát széles körben használják számos üzleti területen:
![]() | |
---|---|
Bibliográfiai katalógusokban |
|
természetes nyelvi feldolgozás | |
---|---|
Általános meghatározások | |
Szövegelemzés |
|
Hivatkozás |
|
Gépi fordítás |
|
Azonosítás és adatgyűjtés | |
Tematikus modell | |
Peer review |
|
Természetes nyelvű felület |