Beszédszintézis

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2021. június 23-án felülvizsgált verziótól ; az ellenőrzések 32 szerkesztést igényelnek .

A beszéd szintézise  - tág értelemben - a beszédjel formájának helyreállítása a paraméterei szerint [1] ; szűk értelemben - beszédjel kialakulása nyomtatottból[ pontosítás ] szöveg . A mesterséges intelligencia része .

A beszédszintézis  mindenekelőtt minden, ami az emberi beszéd mesterséges előállításához kapcsolódik.

A beszédszintetizátor  egy olyan keretrendszer, amely képes szöveget/képeket beszéddé fordítani szoftverben és/vagy hardverben.

A hangmotor  közvetlenül egy szöveg/parancs-felolvasó rendszer/mag, létezhet a számítógéptől függetlenül is.

A beszédszintézis alkalmazása

A beszédszintézisre minden olyan esetben szükség lehet, amikor az információ címzettje személy. A beszédszintetizátor minőségét elsősorban az emberi hanghoz való hasonlóság, valamint a megértés képessége alapján ítélik meg. A legegyszerűbb szintetizált beszéd a rögzített beszéd egyes részeinek kombinálásával hozható létre, amelyeket aztán egy adatbázisban tárolunk. És furcsa módon már mindenhol találkozunk ezzel a szintetizálási móddal, néha úgy, hogy nem is figyelünk rá.

A beszédszintézis módszerei

A beszédszintézis összes módszere csoportokra osztható: [2]

Paraméteres szintézis

A paraméteres beszédszintézis a végső művelet a vokóder rendszerekben , ahol a beszédjelet néhány, folyamatosan változó paraméterből álló halmaz reprezentálja. A paraméteres szintézist olyan esetekben célszerű használni, amikor az üzenetek halmaza korlátozott és nem változik túl gyakran. Ennek a módszernek az az előnye, hogy képes bármilyen nyelven és bármely beszélőn beszédet rögzíteni . A parametrikus szintézis minősége nagyon magas lehet (a paraméteres reprezentáció információtömörítési fokától függően). A parametrikus szintézis azonban nem alkalmazható tetszőleges, nem előre definiált üzenetekre.

Összeállítás szintézise

Az összeállítási szintézis az üzenet összeállítására redukálódik a kezdeti szintézis elemek előre rögzített szótárából. A szintéziselemek mérete nem kisebb, mint egy szó. Nyilvánvalóan a szintetizált üzenetek tartalmát a szótár mennyisége határozza meg. A szótári egységek száma általában nem haladja meg a több száz szót. A szintézis összeállításának fő problémája a szótár tárolására alkalmas memória mennyisége. Ebben a tekintetben a beszédjelek tömörítésére/kódolására különféle módszereket alkalmaznak. A kompilatív szintézisnek széles gyakorlati alkalmazása van. A nyugati országokban számos eszköz (a katonai repülőgépektől a háztartási eszközökig) van felszerelve hangreakciós rendszerekkel. Oroszországban a közelmúltig főként a katonai felszerelések területén használták a hangreakciós rendszereket, most pedig egyre gyakrabban használják a mindennapi életben, például a mobilszolgáltatók súgószolgálataiban, amikor információkat szereztek az előfizetői fiók állapotáról.

Teljes beszédszintézis a szabályok szerint

A szabályokon alapuló teljes beszédszintézis (vagy a nyomtatott szöveggel történő szintézis) biztosítja a beszédjel összes paraméterének vezérlését, és így képes beszédet generálni egy korábban ismeretlen szövegből. Ebben az esetben a beszédjel elemzése során kapott paraméterek ugyanúgy tárolódnak a memóriában, mint a hangok szavakká és kifejezésekké történő kombinálásának szabályai . A szintézis a hangcsatorna modellezésével, analóg vagy digitális technológiával valósul meg. Ezenkívül a szintetizálás során a paraméterek értékeit és a fonémák összekapcsolására vonatkozó szabályokat egymás után egy bizonyos időintervallumban, például 5-10 ms-onként írják be. A nyomtatott szövegből történő beszédszintézis módszere (szintézis szabályok szerint) az akusztikai és nyelvi korlátok programozott ismeretén alapul, és nem használja közvetlenül az emberi beszéd elemeit. Az ezen a szintézismódszeren alapuló rendszerekben két megközelítést különböztetnek meg. Az első megközelítés az emberi beszédképző rendszer modelljének felépítésére irányul, ez az artikulációs szintézis néven ismert . A második megközelítés a formáns szintézis a szabályok szerint . Az ilyen szintetizátorok érthetősége és természetessége a természetes beszéd jellemzőivel összehasonlítható értékekre hozható.

A beszéd szabályok szerinti szintézise a természetes nyelv korábban memorizált szegmenseinek felhasználásával egyfajta beszédszintézis a szabályok szerint, amely a beszédjel digitalizált formában történő manipulálásának lehetőségének megjelenése miatt vált széles körben elterjedtté. A kezdeti szintéziselemek méretétől függően a következő szintézistípusokat különböztetjük meg:

Általában ilyen elemként félszótagokat használnak - olyan szegmenseket, amelyek a mássalhangzó felét és a mellette lévő magánhangzó felét tartalmazzák. Ebben az esetben lehetséges a beszédet szintetizálni egy előre meghatározott szövegből, de nehéz ellenőrizni az intonációs jellemzőket. Az ilyen szintézis minősége nem felel meg a természetes beszéd minőségének, mivel a torzítások gyakran előfordulnak a difonvarrások határain. A beszéd előre rögzített szóalakokból történő összeállítása sem oldja meg az önkényes üzenetek jó minőségű szintézisének problémáját, mivel a szavak akusztikai és prozódiai (időtartam és intonáció) jellemzői a kifejezés típusától és a szó helyétől függően változnak. . Ez a pozíció még akkor sem változik, ha nagy mennyiségű memóriát használunk szóalakok tárolására.

Domain-orientált szintézis

A tartományspecifikus szintézis előre felvett szavakat és kifejezéseket állít össze teljes beszédüzenetek létrehozásához. Olyan alkalmazásokban használatos, ahol a rendszerszövegek sokfélesége egy adott témára/tartományra korlátozódik, például vonatközlemények és időjárás-előrejelzések . Ezt a technológiát könnyű használni, és már régóta használják a kereskedelemben: elektronikus eszközök, például beszélő órák és számológépek gyártásában is alkalmazták . E rendszerek hangzásának természetessége potenciálisan magas lehet, mivel a mondattípusok változatossága korlátozott, és szorosan illeszkedik az eredeti felvételek intonációjához. És mivel ezeket a rendszereket korlátozza az adatbázisban található szavak és kifejezések választéka, nem használhatók tovább széles körben az emberi tevékenység területén, csak azért, mert képesek olyan szavak és kifejezések kombinációit szintetizálni, amelyekre programozták őket.

Történelem

A 18. század végén Christian Kratzenstein dán tudós , az Orosz Tudományos Akadémia rendes tagja megalkotta az emberi hangcsatorna modelljét, amely öt hosszú magánhangzót ( a , e , és o , u ) képes kiejteni . A modell különböző formájú akusztikus rezonátorok rendszere volt , amely a légáramlat által gerjesztett vibráló nád segítségével magánhangzó hangokat állított elő. 1778- ban Wolfgang von Kampelen osztrák tudós kiegészítette Kratzenstein modelljét a nyelv és az ajkak modelljeivel, és bemutatott egy akusztikus -mechanikus beszélőgépet, amely képes bizonyos hangok és azok kombinációinak reprodukálására. A sziszegést és a fütyülést egy speciális, kézzel működtetett szőrme segítségével fújták. 1837- ben Charles Wheatstone tudós bemutatta a gép továbbfejlesztett változatát, amely képes magánhangzókat és a legtöbb mássalhangzót előállítani . 1846 - ban pedig Joseph Faber bemutatta Euphonia című beszédorgonáját , amelyben nem csak a beszédet, hanem az éneket is megpróbálták szintetizálni.

A 19. század végén a híres tudós , Alexander Bell megalkotta saját "beszélő" mechanikai modelljét, amely nagyon hasonlít a Wheatstone gépéhez. A 20. század eljövetelével megkezdődött az elektromos gépek korszaka, és a tudósok lehetőséget kaptak hanghullámgenerátorok használatára és ezek alapján algoritmikus modellek felépítésére.

Az 1930-as években a Bell Labs munkatársa, Homer Dudley , aki azon a problémán dolgozott, hogy megtalálja a módját a telefonáláshoz szükséges sávszélesség csökkentésének az átviteli kapacitás növelése érdekében, kifejlesztette a VOCODER (az angol  voice  - voice, angol  kódoló  - kódoló rövidítése) egy billentyűzetet. -vezérelt elektronikus analizátor és beszédszintetizátor. Dudley ötlete az volt, hogy elemezze a hangjelet, szétszedje és újraszintetizálja egy kevésbé igényes vonalsávszélességre. Az 1939-es New York -i világkiállításon bemutatták Dudley vokóderének továbbfejlesztett változatát, a VODER-t [ 3 ] .

Az első beszédszintetizátorok meglehetősen természetellenesen hangzottak, és gyakran alig lehetett kivenni az általuk reprodukált kifejezéseket. A szintetizált beszéd minősége azonban folyamatosan javult, és a modern beszédszintézis-rendszerek által generált beszéd néha megkülönböztethetetlen a valódi emberi beszédtől. Az elektronikus beszédszintetizátorok sikere ellenére azonban még mindig folynak a kutatások a mechanikus beszédszintetizátorok területén, például humanoid robotoknál . [négy]

Az első számítógép-alapú beszédszintetizáló rendszerek az 1950 -es évek végén kezdtek megjelenni, az első szöveg-beszéd szintetizátort pedig 1968 -ban hozták létre .

2005-ben Kurzweil azt jósolta, hogy mivel az ár-érték arány olcsóbbá és elérhetőbbé teszi a beszédszintetizátorokat, több ember profitál majd a szövegfelolvasó programok használatából. [5]

Jelen és jövő

Egyelőre még korai a szabályok szerinti beszédszintézis következő évtizedeinek ígéretes jövőjéről beszélni , hiszen a hang még mindig leginkább a robotok beszédére emlékeztet, és helyenként a beszéd megértése is nehézkes. Pontosan megállapíthatjuk, hogy a beszédszintetizátor férfi vagy női hangon beszél, és néha még mindig nem különböztetjük meg az emberi hangban rejlő finomságokat. Ezért a fejlesztési technológia részben elfordult a beszédjelek szintézisének tényleges felépítésétől, de továbbra is a legegyszerűbb hangrögzítési szegmentációt használja.

A hibrid beszédszintézis felhasználható beszédfelismerő rendszerek feltörésére . [6]

Lásd még

Jegyzetek

  1. Ebben a meghatározásban a hangnyomás elektromos feszültséggé alakítása és fordítva egy mikrofonban és telefonban, valamint a felvétel és lejátszás, például mágneses adathordozóról, nem szintézis. A beszédjel mintavételezése és kvantálása impulzuskódos modulációban szintén nem kapcsolódik a beszédszintézishez, de a beszédjel generálása vokóder rendszerekben szintézisnek tekinthető.
  2. Sorokin V. N. A beszéd szintézise. — M.: Nauka, 1992, p. 392.
  3. Dennis Klatt A beszédszintézis története Archivált 2006. július 4-i oldal a Wayback Machine -n , amely a beszédszintetizátorok fejlődésének történetével foglalkozik, hangfájlokat mutat be különféle beszédszintetizátorok felvételeivel. Van egy fájl, amely Homer Dudley vokóderének hangját rögzíti.
  4. Például a Waseda Egyetem Takanishi Laboratóriumának japán tudósai egy beszélő robot antropomorf modelljén dolgoznak. Legújabb fejlesztésük ( 2005 ) - a Waseda Talker No.5 modell - a teljes beszédműszer-készlettel rendelkezik: tüdő, gége, lágy szájpadlás, nyelv, fogak, ajkak stb. Összességében ezek a szervek 18 szabadságfokkal rendelkeznek. Az antropomorf beszélő robot Waseda-Talker sorozat oldaláról Archiválva : 2007. július 17. Részletesebb információkat, köztük fényképeket és videókat tekinthet meg.
  5. Ray Kurzweil. A szingularitás közel van: amikor az emberek túllépnek a biológián . - New York: Viking, 2005. - xvii, 652 oldal p. — ISBN 0-670-03384-7 , 978-0-670-03384-3, 978-0-14-303788-0, 0-14-303788-9, 0-7156-3561-1, 978-0- 7156-3561-2.
  6. A HANG-ELLENŐRZÉS ELLENÁLLÁSÁNAK TANULMÁNYA A SZINTÉZISRENDSZER HASZNÁLATÁVAL KAPCSOLATOS TÁMADÁSOKKAL. — Journal of Instrumentation Archivált : 2015. január 23. a Wayback Machine -nél . - 2014 február.

Irodalom

Linkek