Csendes hozzáférési felület

Csendes hozzáférési felület ( angolul silent beszéd interfész , SSI ) - beszédfeldolgozó rendszerek , amelyek a beszédjelek vételén és feldolgozásán alapulnak az artikuláció korai szakaszában .

Történelem

A csendes hozzáférésű interfészeknek nagyon közelmúltbeli története van, a 2000-es évek elejére nyúlik vissza. Az elmúlt évtizedben az automatikus beszédfeldolgozó rendszerek teljesítménye, beleértve a beszédfelismerést , a szövegfelismerést, a fordítást és a beszédszintézist, jelentősen javult. Ez a beszéd- és beszédtechnológia alkalmazásához vezetett a szolgáltatások széles körében, például információkereső rendszerekben, telefonközpontokban , mobiltelefonok és autós navigációs rendszerek hangvezérlésében , személyi fordítókban és a beszédtechnológia használatában a biztonságban. A hagyományos akusztikus beszédjeleken alapuló beszédinterfészek azonban továbbra is számos jelentős korláttal rendelkeznek. Először is, a levegőben továbbított akusztikus jelek zaj miatt torzulnak . Még mindig nincsenek olyan megbízható beszédfeldolgozó rendszerek, amelyek zsúfolt éttermekben, repülőtereken és más nyilvános helyeken is hibátlanul működnének a hatalmas erőfeszítések ellenére. Másodszor, a hagyományos beszédfelületek világos és érthető beszédet igényelnek, aminek két fő hátránya van: nyilvános helyen veszélyezteti az üzenet titkosságát , másodsorban pedig zavarja a többieket. Különösen sérülékenyek azok a szolgáltatások, amelyek megkövetelik a személyes vagy bizalmas információk, például PIN-kódok és jelszavak elérését, visszakeresését és továbbítását.

A 2000-es évek elején ennek a problémának a megoldására csendes hozzáférési felületeket javasoltak , amelyek lehetővé teszik a felhasználók számára, hogy "némán" beszéljenek, azaz hangok nélkül. Ez a beszédjelek fogadásával történik az emberi artikuláció korai szakaszában, mégpedig a beszéd levegőben való megjelenése előtt; ezt követően az artikulációs jeleket továbbítják a rendszerhez további feldolgozás és értelmezés céljából. Ennek az új megközelítésnek köszönhetően a csendes hozzáférésű interfészek képesek leküzdeni a mai hagyományos beszédfelületek fő hiányosságait:

a beszédjel-felismerés megbízhatóságának korlátozása háttérzaj jelenlétében,
a személyes és bizalmas információk továbbítása során a megbízhatóság hiánya,
mások aggodalmai.

Ezen túlmenően, a csendes hozzáférésű interfészek alternatívát jelenthetnek beszédfogyatékos emberek (pl. gégemetszés) és idősebb vagy legyengült emberek számára, akik nem tudnak elég hangosan, tisztán és érthetően beszélni.

Technológia

pak. H. Chan és munkatársai bebizonyították ( 2001 , 2002) [1] , hogy az artikulációs arcizmokból származó myoelektromos jel elegendő információt tartalmaz egy kis szókészlet pontos megkülönböztetéséhez. Ezeket a szavakat a rendszer akkor is felismeri, ha halkan mondják ki őket, azaz hangjel hiányában (Jorgensen és mtsai. 2003, Bradley et al. 2006). A legújabb munkák azt sugallják, hogy a fonemikus egységek elektromiográfiás (EMG) egységeken alapuló felismerése (Jou et al. 2006, Walliczek et al. 2006) megnyitja az utat a kiterjedt szókincs felismerése előtt.

A közelmúltban olyan kutatások is megjelentek, amelyek lehetővé teszik a nyelv és az ajak mozgásán alapuló Silent Access Interface kifejlesztését ultrahang és optikai képalkotás segítségével (Denby és Stone 2004, Denby et al. 2006, Hueber et al. 2007).

A "grunt"-ot beszéddé alakító SSI-rendszereket túlnyomórészt Japánban fejlesztették ki . Az Egyesült Államokban a DARPA finanszírozza az érzékelők zajos környezetben történő használatára vonatkozó glottális tevékenység kutatását:

A modern beszédkódolás ( English Advanced beszédkódolás , röv. ASE ) [2] programjának részeként olyan technológiákat fejlesztenek ki, amelyek nehéz katonai körülmények között is lehetővé teszik az információcserét .

Az elmúlt 50 évben nagy előrelépés történt a hangkódoló ( vocoder ) fejlesztésében , de a 300 bps-os ultra -low bit rate (ULBR) hangkódolás továbbra is komoly kihívást jelent. Különösen az ULBR vokóderek még mindig nem rendelkeznek jó minőségű beszédelemzővel, amely interferencia nélkül felismerné a beszélő beszédét; ezek a hátrányok túlzóak akusztikailag nehéz környezetekben (például zajos térben vagy visszhangzó térben).

Az Advanced Speech Encoding (ASE) program által követett megközelítés a zajtól mentes új érzékelők alkalmazása a feldolgozott akusztikus jelek kiegészítéseként (lásd az ábrát). Az ilyen érzékelők potenciálját megvizsgálják, hogy a beszéd előtti/hallható beszédet alternatív kommunikációs eszközként lehessen használni akusztikailag zord és veszélyes környezetben, ahol kötelező a katonai álcázás.

—

Lásd még

Linkek

Különleges ülés a csendes beszédfelületekről
Alekszej Jesaulenko . Rossz jó IVR // "Hálózatok / hálózati világ" 2010. 4. szám

Jegyzetek

↑ Csomag. H. Chan Handbook of Neurochemistry and Molecular Neurobiology
↑ Speciális beszédkódolás Archivált : 2016. március 6. a Wayback Machine -nél . Virtuális worldlets hálózat.