Microsoft Speech API

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt hozzászólók, és jelentősen eltérhet a 2014. december 3-án felülvizsgált verziótól ; az ellenőrzések 6 szerkesztést igényelnek .

A Speech Application Programming Interface (SAPI) egy COM - alapú alkalmazásprogramozási interfész beszédfelismerésre és -szintézisre.

Beszédfelismerés

A beszédfelismerés a kimondott szavak nyomtatott szöveggé alakításának folyamata. A beszédfelismerés a következőket tartalmazza:

a mikrofonba kimondott hang rögzítése és digitalizálása;
digitalizált hang fonémákká alakítása ;
építés a szavak fonémáiból;
a szó kimondásának kontextusának elemzése, és ha szükséges, szavak helyettesítése hasonlókkal.

A felismerő (szövegfelismerő motor) iteratív módon összehasonlítja a felismert szöveget az alkalmazás nyelvtani szabályaival, és ha a szöveg egy sor szabálynak egyezik, létrehoz egy XML kimeneti adatfolyamot a Semantic Markup Language (SML) segítségével . A kimeneti adatfolyam tartalmazza a felismert szöveget, a helyes felismerési valószínűségeket, és tartalmazhat szemantikai értelmezési jelöléssel hozzárendelt szemantikai értékeket . A felismert szöveget gyakran használják adatbevitelre diktálás segítségével, valamint alkalmazások beszédparancsokkal történő vezérlésére.

A nyelvtani szabályok mérete korlátozza a szövegfelismerési képességet. A legtöbb diktálást támogató program egy adott felhasználó beszédmintáira van hangolva a legpontosabb felismerés érdekében. A beszédparancs vezérlési mód könnyebben megvalósítható, mivel a nyelvtani szabályok tartalma az elérhető parancsokra korlátozódik [1] .

Beszédszintézis

A beszédszintézis a szöveg kimondott szavakká alakításának folyamata. A beszédszintézis a következőket tartalmazza:

szavak fonémákra osztása;
karakterekké alakítandó szövegek keresése, például számok, pénznemek és írásjelek;
digitális hang létrehozása lejátszáshoz.

A szövegfelolvasó motorok a két hangszintézis módszer egyikét használhatják:

hangszálakhoz hasonló hangokat generál, és különféle szűrőkkel modellezi a torok hosszát, a száj formáját, az ajkak és a nyelv helyzetét;
gyűjtsd össze a bemondó által rögzített számos beszédből.

Jegyzetek

↑ Tomashenko N. A., Khokhlov Yu. Yu.// AZ ADAT-EGYENSÚLY PROBLÉMÁJÁNAK TANULMÁNY AZ AUTOMATIKUS BESZÉDFELISMERŐ RENDSZEREK AKUSZTIKUS MODELLJÉNEK KÉPZÉSÉBEN 2015. szeptember 19-i archív másolat a Wayback Machine -nál . - Cikk. - Műszerezés. - UDC 004.934

Linkek

Bemutatkozik a Computer Speech Technology (angol) (nem elérhető link) . MSDN könyvtár . Microsoft (2012). Letöltve: 2012. július 24. Az eredetiből archiválva : 2012. szeptember 29..

beszédszintézis
Saját szoftver	BrowseAloud CereProc DECtalk IVONA Microsoft Agent Microsoft Speech API Microsoft szövegfelolvasó hangok Olvasóhangszóró Beszélj! hangböngésző Vocaloid Kántor voiceroid Utau Szoftver Automatikus száj CoolSpeech La La Voice Szimfonikus Kórusok Realivox CeVIO Kreatív Stúdió Chipspeech Álterego PPG Phonem
ingyenes szoftver	eSpeak Gnuspeech Fesztivál beszédszintézis rendszer FreeTTS Gnopernicus kardszárnyú delfin Sinsy Automatikus szövegolvasó
Autó	visszhang 2 Minta lejátszás Phasor RIAS Texas Instruments LPC beszédchipek TuVox
Alkalmazások	AOLbyPhone Párbeszéd OS Dr. Sbaitso MBROLA Microsoft Narrátor Microsoft Speech Server PlainTalk hang betűtípus
Protokollok	Beszédszintézis jelölőnyelv
Fejlesztők / Kutatók	Catherine Browman Franklin Seaney Cooper Gunnar Fant Haskins Laboratories Wolfgang von Kempelen Ignatius Mattingly Fülöp Rubin Voice Web VoiceXML Yamaha
Folyamat	Artikulációs szintézis Konkatenatív szintézis Currah inverz szűrő PSOLA Fázis vocoder FEKETE Önhangosítás