Beszédszintézis

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2021. június 23-án felülvizsgált verziótól ; az ellenőrzések 32 szerkesztést igényelnek .

A beszéd szintézise - tág értelemben - a beszédjel formájának helyreállítása a paraméterei szerint [1] ; szűk értelemben - beszédjel kialakulása nyomtatottból[ pontosítás ] szöveg . A mesterséges intelligencia része .

A beszédszintézis mindenekelőtt minden, ami az emberi beszéd mesterséges előállításához kapcsolódik.

A beszédszintetizátor egy olyan keretrendszer, amely képes szöveget/képeket beszéddé fordítani szoftverben és/vagy hardverben.

A hangmotor közvetlenül egy szöveg/parancs-felolvasó rendszer/mag, létezhet a számítógéptől függetlenül is.

A beszédszintézis alkalmazása

A beszédszintézisre minden olyan esetben szükség lehet, amikor az információ címzettje személy. A beszédszintetizátor minőségét elsősorban az emberi hanghoz való hasonlóság, valamint a megértés képessége alapján ítélik meg. A legegyszerűbb szintetizált beszéd a rögzített beszéd egyes részeinek kombinálásával hozható létre, amelyeket aztán egy adatbázisban tárolunk. És furcsa módon már mindenhol találkozunk ezzel a szintetizálási móddal, néha úgy, hogy nem is figyelünk rá.

A szöveg- vagy üzenetkódon alapuló beszédszintézis felhasználható információs és hivatkozási rendszerekben , vakok és némák megsegítésére, személy irányítására a gép oldaláról.
A vakok és némák mindennapi életének segítésére különféle eszközök hangos felszólítással vagy hangos időbemondással, mérési eredményekkel, például: vérnyomásmérők, glükométerek, számológépek, órák stb.
Közlekedés indulásának bejelentésekor: repülők, vonatok, buszok, hajók stb., automata kb? állítsa le a bejelentéseket.
Technológiai folyamatokkal kapcsolatos információk kiadására: a hadi- és repüléstechnikában, a robotikában, az ember akusztikus párbeszédében a számítógéppel.
Hangeffektusként gyakran használják elektronikus zene létrehozásában .
A beszédszintézist számítógépekben, okostelefonokban, táblagépekben, e-könyvekben stb. szövegolvasáshoz, szövegek hangosításához video- és hangoskönyvekhez. Súly mérlegben történő hangoztatásához, mérési eredmények hangosításához: hőmérséklet, súly, hosszúság stb.
Audioguide .
műholdas navigátor
autós navigációs rendszer
A robotok beszédszintézist használnak az emberekkel való kommunikációhoz.
Játékok.
Riasztó egy személy vagy emberek jelenlétének utánzásával.
Jegyértékesítő automaták és egyebek beszédfelismeréssel.

A beszédszintézis módszerei

A beszédszintézis összes módszere csoportokra osztható: [2]

parametrikus szintézis;
konkatenatív, vagy összeállítási (összeállítási) szintézis;
szintézis a szabályok szerint;
tartományorientált szintézis.

Paraméteres szintézis

A paraméteres beszédszintézis a végső művelet a vokóder rendszerekben , ahol a beszédjelet néhány, folyamatosan változó paraméterből álló halmaz reprezentálja. A paraméteres szintézist olyan esetekben célszerű használni, amikor az üzenetek halmaza korlátozott és nem változik túl gyakran. Ennek a módszernek az az előnye, hogy képes bármilyen nyelven és bármely beszélőn beszédet rögzíteni . A parametrikus szintézis minősége nagyon magas lehet (a paraméteres reprezentáció információtömörítési fokától függően). A parametrikus szintézis azonban nem alkalmazható tetszőleges, nem előre definiált üzenetekre.

Összeállítás szintézise

Az összeállítási szintézis az üzenet összeállítására redukálódik a kezdeti szintézis elemek előre rögzített szótárából. A szintéziselemek mérete nem kisebb, mint egy szó. Nyilvánvalóan a szintetizált üzenetek tartalmát a szótár mennyisége határozza meg. A szótári egységek száma általában nem haladja meg a több száz szót. A szintézis összeállításának fő problémája a szótár tárolására alkalmas memória mennyisége. Ebben a tekintetben a beszédjelek tömörítésére/kódolására különféle módszereket alkalmaznak. A kompilatív szintézisnek széles gyakorlati alkalmazása van. A nyugati országokban számos eszköz (a katonai repülőgépektől a háztartási eszközökig) van felszerelve hangreakciós rendszerekkel. Oroszországban a közelmúltig főként a katonai felszerelések területén használták a hangreakciós rendszereket, most pedig egyre gyakrabban használják a mindennapi életben, például a mobilszolgáltatók súgószolgálataiban, amikor információkat szereztek az előfizetői fiók állapotáról.

Teljes beszédszintézis a szabályok szerint

A szabályokon alapuló teljes beszédszintézis (vagy a nyomtatott szöveggel történő szintézis) biztosítja a beszédjel összes paraméterének vezérlését, és így képes beszédet generálni egy korábban ismeretlen szövegből. Ebben az esetben a beszédjel elemzése során kapott paraméterek ugyanúgy tárolódnak a memóriában, mint a hangok szavakká és kifejezésekké történő kombinálásának szabályai . A szintézis a hangcsatorna modellezésével, analóg vagy digitális technológiával valósul meg. Ezenkívül a szintetizálás során a paraméterek értékeit és a fonémák összekapcsolására vonatkozó szabályokat egymás után egy bizonyos időintervallumban, például 5-10 ms-onként írják be. A nyomtatott szövegből történő beszédszintézis módszere (szintézis szabályok szerint) az akusztikai és nyelvi korlátok programozott ismeretén alapul, és nem használja közvetlenül az emberi beszéd elemeit. Az ezen a szintézismódszeren alapuló rendszerekben két megközelítést különböztetnek meg. Az első megközelítés az emberi beszédképző rendszer modelljének felépítésére irányul, ez az artikulációs szintézis néven ismert . A második megközelítés a formáns szintézis a szabályok szerint . Az ilyen szintetizátorok érthetősége és természetessége a természetes beszéd jellemzőivel összehasonlítható értékekre hozható.

A beszéd szabályok szerinti szintézise a természetes nyelv korábban memorizált szegmenseinek felhasználásával egyfajta beszédszintézis a szabályok szerint, amely a beszédjel digitalizált formában történő manipulálásának lehetőségének megjelenése miatt vált széles körben elterjedtté. A kezdeti szintéziselemek méretétől függően a következő szintézistípusokat különböztetjük meg:

mikroszegmens (mikrohullámú);
allofonikus ;
kétszólamú;
félszótagos ; _
szótag;
szintézis tetszőleges méretű egységekből.

Általában ilyen elemként félszótagokat használnak - olyan szegmenseket, amelyek a mássalhangzó felét és a mellette lévő magánhangzó felét tartalmazzák. Ebben az esetben lehetséges a beszédet szintetizálni egy előre meghatározott szövegből, de nehéz ellenőrizni az intonációs jellemzőket. Az ilyen szintézis minősége nem felel meg a természetes beszéd minőségének, mivel a torzítások gyakran előfordulnak a difonvarrások határain. A beszéd előre rögzített szóalakokból történő összeállítása sem oldja meg az önkényes üzenetek jó minőségű szintézisének problémáját, mivel a szavak akusztikai és prozódiai (időtartam és intonáció) jellemzői a kifejezés típusától és a szó helyétől függően változnak. . Ez a pozíció még akkor sem változik, ha nagy mennyiségű memóriát használunk szóalakok tárolására.

Domain-orientált szintézis

A tartományspecifikus szintézis előre felvett szavakat és kifejezéseket állít össze teljes beszédüzenetek létrehozásához. Olyan alkalmazásokban használatos, ahol a rendszerszövegek sokfélesége egy adott témára/tartományra korlátozódik, például vonatközlemények és időjárás-előrejelzések . Ezt a technológiát könnyű használni, és már régóta használják a kereskedelemben: elektronikus eszközök, például beszélő órák és számológépek gyártásában is alkalmazták . E rendszerek hangzásának természetessége potenciálisan magas lehet, mivel a mondattípusok változatossága korlátozott, és szorosan illeszkedik az eredeti felvételek intonációjához. És mivel ezeket a rendszereket korlátozza az adatbázisban található szavak és kifejezések választéka, nem használhatók tovább széles körben az emberi tevékenység területén, csak azért, mert képesek olyan szavak és kifejezések kombinációit szintetizálni, amelyekre programozták őket.

Történelem

A 18. század végén Christian Kratzenstein dán tudós , az Orosz Tudományos Akadémia rendes tagja megalkotta az emberi hangcsatorna modelljét, amely öt hosszú magánhangzót ( a , e , és o , u ) képes kiejteni . A modell különböző formájú akusztikus rezonátorok rendszere volt , amely a légáramlat által gerjesztett vibráló nád segítségével magánhangzó hangokat állított elő. 1778- ban Wolfgang von Kampelen osztrák tudós kiegészítette Kratzenstein modelljét a nyelv és az ajkak modelljeivel, és bemutatott egy akusztikus -mechanikus beszélőgépet, amely képes bizonyos hangok és azok kombinációinak reprodukálására. A sziszegést és a fütyülést egy speciális, kézzel működtetett szőrme segítségével fújták. 1837- ben Charles Wheatstone tudós bemutatta a gép továbbfejlesztett változatát, amely képes magánhangzókat és a legtöbb mássalhangzót előállítani . 1846 - ban pedig Joseph Faber bemutatta Euphonia című beszédorgonáját , amelyben nem csak a beszédet, hanem az éneket is megpróbálták szintetizálni.

A 19. század végén a híres tudós , Alexander Bell megalkotta saját "beszélő" mechanikai modelljét, amely nagyon hasonlít a Wheatstone gépéhez. A 20. század eljövetelével megkezdődött az elektromos gépek korszaka, és a tudósok lehetőséget kaptak hanghullámgenerátorok használatára és ezek alapján algoritmikus modellek felépítésére.

Az 1930-as években a Bell Labs munkatársa, Homer Dudley , aki azon a problémán dolgozott, hogy megtalálja a módját a telefonáláshoz szükséges sávszélesség csökkentésének az átviteli kapacitás növelése érdekében, kifejlesztette a VOCODER (az angol voice - voice, angol kódoló - kódoló rövidítése) egy billentyűzetet. -vezérelt elektronikus analizátor és beszédszintetizátor. Dudley ötlete az volt, hogy elemezze a hangjelet, szétszedje és újraszintetizálja egy kevésbé igényes vonalsávszélességre. Az 1939-es New York -i világkiállításon bemutatták Dudley vokóderének továbbfejlesztett változatát, a VODER-t [ 3 ] .

Az első beszédszintetizátorok meglehetősen természetellenesen hangzottak, és gyakran alig lehetett kivenni az általuk reprodukált kifejezéseket. A szintetizált beszéd minősége azonban folyamatosan javult, és a modern beszédszintézis-rendszerek által generált beszéd néha megkülönböztethetetlen a valódi emberi beszédtől. Az elektronikus beszédszintetizátorok sikere ellenére azonban még mindig folynak a kutatások a mechanikus beszédszintetizátorok területén, például humanoid robotoknál . [négy]

Az első számítógép-alapú beszédszintetizáló rendszerek az 1950 -es évek végén kezdtek megjelenni, az első szöveg-beszéd szintetizátort pedig 1968 -ban hozták létre .

2005-ben Kurzweil azt jósolta, hogy mivel az ár-érték arány olcsóbbá és elérhetőbbé teszi a beszédszintetizátorokat, több ember profitál majd a szövegfelolvasó programok használatából. [5]

Jelen és jövő

Egyelőre még korai a szabályok szerinti beszédszintézis következő évtizedeinek ígéretes jövőjéről beszélni , hiszen a hang még mindig leginkább a robotok beszédére emlékeztet, és helyenként a beszéd megértése is nehézkes. Pontosan megállapíthatjuk, hogy a beszédszintetizátor férfi vagy női hangon beszél, és néha még mindig nem különböztetjük meg az emberi hangban rejlő finomságokat. Ezért a fejlesztési technológia részben elfordult a beszédjelek szintézisének tényleges felépítésétől, de továbbra is a legegyszerűbb hangrögzítési szegmentációt használja.

A hibrid beszédszintézis felhasználható beszédfelismerő rendszerek feltörésére . [6]

Lásd még

Jegyzetek

↑ Ebben a meghatározásban a hangnyomás elektromos feszültséggé alakítása és fordítva egy mikrofonban és telefonban, valamint a felvétel és lejátszás, például mágneses adathordozóról, nem szintézis. A beszédjel mintavételezése és kvantálása impulzuskódos modulációban szintén nem kapcsolódik a beszédszintézishez, de a beszédjel generálása vokóder rendszerekben szintézisnek tekinthető.
↑ Sorokin V. N. A beszéd szintézise. — M.: Nauka, 1992, p. 392.
↑ Dennis Klatt A beszédszintézis története Archivált 2006. július 4-i oldal a Wayback Machine -n , amely a beszédszintetizátorok fejlődésének történetével foglalkozik, hangfájlokat mutat be különféle beszédszintetizátorok felvételeivel. Van egy fájl, amely Homer Dudley vokóderének hangját rögzíti.
↑ Például a Waseda Egyetem Takanishi Laboratóriumának japán tudósai egy beszélő robot antropomorf modelljén dolgoznak. Legújabb fejlesztésük ( 2005 ) - a Waseda Talker No.5 modell - a teljes beszédműszer-készlettel rendelkezik: tüdő, gége, lágy szájpadlás, nyelv, fogak, ajkak stb. Összességében ezek a szervek 18 szabadságfokkal rendelkeznek. Az antropomorf beszélő robot Waseda-Talker sorozat oldaláról Archiválva : 2007. július 17. Részletesebb információkat, köztük fényképeket és videókat tekinthet meg.
↑ Ray Kurzweil. A szingularitás közel van: amikor az emberek túllépnek a biológián . - New York: Viking, 2005. - xvii, 652 oldal p. — ISBN 0-670-03384-7 , 978-0-670-03384-3, 978-0-14-303788-0, 0-14-303788-9, 0-7156-3561-1, 978-0- 7156-3561-2.
↑ A HANG-ELLENŐRZÉS ELLENÁLLÁSÁNAK TANULMÁNYA A SZINTÉZISRENDSZER HASZNÁLATÁVAL KAPCSOLATOS TÁMADÁSOKKAL. — Journal of Instrumentation Archivált : 2015. január 23. a Wayback Machine -nél . - 2014 február.

Irodalom

B. M. Lobanov, L. I. Tsirulnik „Számítógépes szintézis és beszédklónozás”. - Minszk, "Belarusz tudomány", 2008. - 316 oldal.
James L. Flanagan. A beszéd elemzése, szintézise és észlelése. - M., Svyaz, 1968. - 394 p.
V. N. Sorokin. A beszéd szintézise. - Tudomány, 1992.
Dutoit, Thierry. Bevezetés a szövegfelolvasó szintézisbe. - Kluwer Academic Publishers, 1997. - 312 p. — ISBN 0-7923-4498-7 .
Rybin SV BESZÉDSZINTÉZIS Tankönyv a "Beszédszintézis" tudományágról. - Szentpétervár: ITMO Egyetem, 2014. - 92 p. / absztrakt pdf

Linkek

Beszédszintézis a Curlie Links Directoryban (dmoz)
Thierry Dutoit. Rövid bevezetés a szövegfelolvasó szintézisbe (angol) (a hivatkozás nem érhető el) . TTS kutatócsoport, TCTS Lab. (1999.12.17.). Hozzáférés dátuma: 2014. január 4. Az eredetiből archiválva : 2013. május 24.
Hogyan működik a Yandex beszédszintézise | Habrahabr

beszédszintézis
Saját szoftver	BrowseAloud CereProc DECtalk IVONA Microsoft Agent Microsoft Speech API Microsoft szövegfelolvasó hangok Olvasóhangszóró Beszélj! hangböngésző Vocaloid Kántor voiceroid Utau Szoftver Automatikus száj CoolSpeech La La Voice Szimfonikus Kórusok Realivox CeVIO Kreatív Stúdió Chipspeech Álterego PPG Phonem
ingyenes szoftver	eSpeak Gnuspeech Fesztivál beszédszintézis rendszer FreeTTS Gnopernicus kardszárnyú delfin Sinsy Automatikus szövegolvasó
Autó	visszhang 2 Minta lejátszás Phasor RIAS Texas Instruments LPC beszédchipek TuVox
Alkalmazások	AOLbyPhone Párbeszéd OS Dr. Sbaitso MBROLA Microsoft Narrátor Microsoft Speech Server PlainTalk hang betűtípus
Protokollok	Beszédszintézis jelölőnyelv
Fejlesztők / Kutatók	Catherine Browman Franklin Seaney Cooper Gunnar Fant Haskins Laboratories Wolfgang von Kempelen Ignatius Mattingly Fülöp Rubin Voice Web VoiceXML Yamaha
Folyamat	Artikulációs szintézis Konkatenatív szintézis Currah inverz szűrő PSOLA Fázis vocoder FEKETE Önhangosítás

természetes nyelvi feldolgozás
Általános meghatározások	Szövegkorpusz beszédkorpusz Hagyd abba a szavakat zsák szavakat AI teljesség N-gramm Biggram titkosítás trigram
Szövegelemzés	Szöveg szegmentálása Részleges jelölés Felületi elemzés Összetett szövegszerkesztés Kollokációk kibontása eredő Lemmatizálás Elnevezett entitás felismerés Koreferencia felbontás Szöveges hangulatelemzés Fogalom kinyerése elemzése A lexikális poliszémia feloldása terminológia kivonat Információ kinyerése Nyelvi azonosítás Esetmeghatározás
Hivatkozás	Mondatok kibontása Absztrakt generáció Több dokumentumra való hivatkozás Szöveg egyszerűsítés
Gépi fordítás	automatizált Hibrid nyelvközi Szabály alapú Példák alapján Szótár alapú Átalakulás alapján idegi Statisztikai Szinkron
Azonosítás és adatgyűjtés	Beszédfelismerés beszédszintézis Optikai karakter felismerés Szöveggenerálás
Tematikus modell	Pachinko elhelyezés Látens Dirichlet elhelyezés Látens szemantikai elemzés
Peer review	Az esszék automatizált értékelése Concordancer Prediktív szövegbevitel Nyelvtan-ellenőrző Helyesírás-ellenőrző Szintaxis találgatás
Természetes nyelvű felület	virtuális asszisztens Virtuális beszélgetőpartner Kérdés-felelet rendszer Hang interfész Interaktív irodalom