A beszéd szintézise - tág értelemben - a beszédjel formájának helyreállítása a paraméterei szerint [1] ; szűk értelemben - beszédjel kialakulása nyomtatottból[ pontosítás ] szöveg . A mesterséges intelligencia része .
A beszédszintézis mindenekelőtt minden, ami az emberi beszéd mesterséges előállításához kapcsolódik.
A beszédszintetizátor egy olyan keretrendszer, amely képes szöveget/képeket beszéddé fordítani szoftverben és/vagy hardverben.
A hangmotor közvetlenül egy szöveg/parancs-felolvasó rendszer/mag, létezhet a számítógéptől függetlenül is.
A beszédszintézisre minden olyan esetben szükség lehet, amikor az információ címzettje személy. A beszédszintetizátor minőségét elsősorban az emberi hanghoz való hasonlóság, valamint a megértés képessége alapján ítélik meg. A legegyszerűbb szintetizált beszéd a rögzített beszéd egyes részeinek kombinálásával hozható létre, amelyeket aztán egy adatbázisban tárolunk. És furcsa módon már mindenhol találkozunk ezzel a szintetizálási móddal, néha úgy, hogy nem is figyelünk rá.
A beszédszintézis összes módszere csoportokra osztható: [2]
A paraméteres beszédszintézis a végső művelet a vokóder rendszerekben , ahol a beszédjelet néhány, folyamatosan változó paraméterből álló halmaz reprezentálja. A paraméteres szintézist olyan esetekben célszerű használni, amikor az üzenetek halmaza korlátozott és nem változik túl gyakran. Ennek a módszernek az az előnye, hogy képes bármilyen nyelven és bármely beszélőn beszédet rögzíteni . A parametrikus szintézis minősége nagyon magas lehet (a paraméteres reprezentáció információtömörítési fokától függően). A parametrikus szintézis azonban nem alkalmazható tetszőleges, nem előre definiált üzenetekre.
Az összeállítási szintézis az üzenet összeállítására redukálódik a kezdeti szintézis elemek előre rögzített szótárából. A szintéziselemek mérete nem kisebb, mint egy szó. Nyilvánvalóan a szintetizált üzenetek tartalmát a szótár mennyisége határozza meg. A szótári egységek száma általában nem haladja meg a több száz szót. A szintézis összeállításának fő problémája a szótár tárolására alkalmas memória mennyisége. Ebben a tekintetben a beszédjelek tömörítésére/kódolására különféle módszereket alkalmaznak. A kompilatív szintézisnek széles gyakorlati alkalmazása van. A nyugati országokban számos eszköz (a katonai repülőgépektől a háztartási eszközökig) van felszerelve hangreakciós rendszerekkel. Oroszországban a közelmúltig főként a katonai felszerelések területén használták a hangreakciós rendszereket, most pedig egyre gyakrabban használják a mindennapi életben, például a mobilszolgáltatók súgószolgálataiban, amikor információkat szereztek az előfizetői fiók állapotáról.
A szabályokon alapuló teljes beszédszintézis (vagy a nyomtatott szöveggel történő szintézis) biztosítja a beszédjel összes paraméterének vezérlését, és így képes beszédet generálni egy korábban ismeretlen szövegből. Ebben az esetben a beszédjel elemzése során kapott paraméterek ugyanúgy tárolódnak a memóriában, mint a hangok szavakká és kifejezésekké történő kombinálásának szabályai . A szintézis a hangcsatorna modellezésével, analóg vagy digitális technológiával valósul meg. Ezenkívül a szintetizálás során a paraméterek értékeit és a fonémák összekapcsolására vonatkozó szabályokat egymás után egy bizonyos időintervallumban, például 5-10 ms-onként írják be. A nyomtatott szövegből történő beszédszintézis módszere (szintézis szabályok szerint) az akusztikai és nyelvi korlátok programozott ismeretén alapul, és nem használja közvetlenül az emberi beszéd elemeit. Az ezen a szintézismódszeren alapuló rendszerekben két megközelítést különböztetnek meg. Az első megközelítés az emberi beszédképző rendszer modelljének felépítésére irányul, ez az artikulációs szintézis néven ismert . A második megközelítés a formáns szintézis a szabályok szerint . Az ilyen szintetizátorok érthetősége és természetessége a természetes beszéd jellemzőivel összehasonlítható értékekre hozható.
A beszéd szabályok szerinti szintézise a természetes nyelv korábban memorizált szegmenseinek felhasználásával egyfajta beszédszintézis a szabályok szerint, amely a beszédjel digitalizált formában történő manipulálásának lehetőségének megjelenése miatt vált széles körben elterjedtté. A kezdeti szintéziselemek méretétől függően a következő szintézistípusokat különböztetjük meg:
Általában ilyen elemként félszótagokat használnak - olyan szegmenseket, amelyek a mássalhangzó felét és a mellette lévő magánhangzó felét tartalmazzák. Ebben az esetben lehetséges a beszédet szintetizálni egy előre meghatározott szövegből, de nehéz ellenőrizni az intonációs jellemzőket. Az ilyen szintézis minősége nem felel meg a természetes beszéd minőségének, mivel a torzítások gyakran előfordulnak a difonvarrások határain. A beszéd előre rögzített szóalakokból történő összeállítása sem oldja meg az önkényes üzenetek jó minőségű szintézisének problémáját, mivel a szavak akusztikai és prozódiai (időtartam és intonáció) jellemzői a kifejezés típusától és a szó helyétől függően változnak. . Ez a pozíció még akkor sem változik, ha nagy mennyiségű memóriát használunk szóalakok tárolására.
A tartományspecifikus szintézis előre felvett szavakat és kifejezéseket állít össze teljes beszédüzenetek létrehozásához. Olyan alkalmazásokban használatos, ahol a rendszerszövegek sokfélesége egy adott témára/tartományra korlátozódik, például vonatközlemények és időjárás-előrejelzések . Ezt a technológiát könnyű használni, és már régóta használják a kereskedelemben: elektronikus eszközök, például beszélő órák és számológépek gyártásában is alkalmazták . E rendszerek hangzásának természetessége potenciálisan magas lehet, mivel a mondattípusok változatossága korlátozott, és szorosan illeszkedik az eredeti felvételek intonációjához. És mivel ezeket a rendszereket korlátozza az adatbázisban található szavak és kifejezések választéka, nem használhatók tovább széles körben az emberi tevékenység területén, csak azért, mert képesek olyan szavak és kifejezések kombinációit szintetizálni, amelyekre programozták őket.
A 18. század végén Christian Kratzenstein dán tudós , az Orosz Tudományos Akadémia rendes tagja megalkotta az emberi hangcsatorna modelljét, amely öt hosszú magánhangzót ( a , e , és o , u ) képes kiejteni . A modell különböző formájú akusztikus rezonátorok rendszere volt , amely a légáramlat által gerjesztett vibráló nád segítségével magánhangzó hangokat állított elő. 1778- ban Wolfgang von Kampelen osztrák tudós kiegészítette Kratzenstein modelljét a nyelv és az ajkak modelljeivel, és bemutatott egy akusztikus -mechanikus beszélőgépet, amely képes bizonyos hangok és azok kombinációinak reprodukálására. A sziszegést és a fütyülést egy speciális, kézzel működtetett szőrme segítségével fújták. 1837- ben Charles Wheatstone tudós bemutatta a gép továbbfejlesztett változatát, amely képes magánhangzókat és a legtöbb mássalhangzót előállítani . 1846 - ban pedig Joseph Faber bemutatta Euphonia című beszédorgonáját , amelyben nem csak a beszédet, hanem az éneket is megpróbálták szintetizálni.
A 19. század végén a híres tudós , Alexander Bell megalkotta saját "beszélő" mechanikai modelljét, amely nagyon hasonlít a Wheatstone gépéhez. A 20. század eljövetelével megkezdődött az elektromos gépek korszaka, és a tudósok lehetőséget kaptak hanghullámgenerátorok használatára és ezek alapján algoritmikus modellek felépítésére.
Az 1930-as években a Bell Labs munkatársa, Homer Dudley , aki azon a problémán dolgozott, hogy megtalálja a módját a telefonáláshoz szükséges sávszélesség csökkentésének az átviteli kapacitás növelése érdekében, kifejlesztette a VOCODER (az angol voice - voice, angol kódoló - kódoló rövidítése) egy billentyűzetet. -vezérelt elektronikus analizátor és beszédszintetizátor. Dudley ötlete az volt, hogy elemezze a hangjelet, szétszedje és újraszintetizálja egy kevésbé igényes vonalsávszélességre. Az 1939-es New York -i világkiállításon bemutatták Dudley vokóderének továbbfejlesztett változatát, a VODER-t [ 3 ] .
Az első beszédszintetizátorok meglehetősen természetellenesen hangzottak, és gyakran alig lehetett kivenni az általuk reprodukált kifejezéseket. A szintetizált beszéd minősége azonban folyamatosan javult, és a modern beszédszintézis-rendszerek által generált beszéd néha megkülönböztethetetlen a valódi emberi beszédtől. Az elektronikus beszédszintetizátorok sikere ellenére azonban még mindig folynak a kutatások a mechanikus beszédszintetizátorok területén, például humanoid robotoknál . [négy]
Az első számítógép-alapú beszédszintetizáló rendszerek az 1950 -es évek végén kezdtek megjelenni, az első szöveg-beszéd szintetizátort pedig 1968 -ban hozták létre .
2005-ben Kurzweil azt jósolta, hogy mivel az ár-érték arány olcsóbbá és elérhetőbbé teszi a beszédszintetizátorokat, több ember profitál majd a szövegfelolvasó programok használatából. [5]
Egyelőre még korai a szabályok szerinti beszédszintézis következő évtizedeinek ígéretes jövőjéről beszélni , hiszen a hang még mindig leginkább a robotok beszédére emlékeztet, és helyenként a beszéd megértése is nehézkes. Pontosan megállapíthatjuk, hogy a beszédszintetizátor férfi vagy női hangon beszél, és néha még mindig nem különböztetjük meg az emberi hangban rejlő finomságokat. Ezért a fejlesztési technológia részben elfordult a beszédjelek szintézisének tényleges felépítésétől, de továbbra is a legegyszerűbb hangrögzítési szegmentációt használja.
A hibrid beszédszintézis felhasználható beszédfelismerő rendszerek feltörésére . [6]
beszédszintézis | |
---|---|
Saját szoftver |
|
ingyenes szoftver |
|
Autó |
|
Alkalmazások |
|
Protokollok | Beszédszintézis jelölőnyelv |
Fejlesztők / Kutatók |
|
Folyamat |
|
természetes nyelvi feldolgozás | |
---|---|
Általános meghatározások | |
Szövegelemzés |
|
Hivatkozás |
|
Gépi fordítás |
|
Azonosítás és adatgyűjtés | |
Tematikus modell | |
Peer review |
|
Természetes nyelvű felület |