Hang klónozás

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt hozzászólók, és jelentősen eltérhet a 2016. június 28-án felülvizsgált verziótól ; az ellenőrzések 25 szerkesztést igényelnek .

A hangklónozás ( angolul  voice change, voice cloning ) egy olyan technológia, amely egy személy hangjának megváltoztatását valósítja meg, szoftver és hardver segítségével, valós időben és késleltetett kötegelt módban egyaránt.

A technológia lehetővé teszi egy személy beszédének személyes jellemzőinek szimulálását az eredetivel, az úgynevezett "másolatcélponttal".

General Technology Assessment

Jelenleg a beszédfelismerő rendszerek viszonylag jól fejlettek . Különböző háztartási készülékek hangvezérlésére használják (telefonokban, autós audiorendszerekben és a mosógépekig). A fordított folyamat – a szavak kinyerése egy hangjelből és a beszéd szintetizálása – számos nehézségbe ütközik.

Szoftvertermékek

A programok a "Hangváltó szoftver" vagy a "Hangváltó" kategóriába tartozónak minősülnek:

SDK-csomagok is:

Szolgáltatás weboldalon és telefonon

Korábban néhány vállalat kereskedelmileg hívó fél hangváltási szolgáltatása telefonon valós időben. Ez a következőképpen történt:

  1. Korábban az előfizető (ügyfél) a weboldalon visszahívást rendelt el a telefonjára és a „másolat célpontja” telefonjára, és a rendszert ellátták az ügyfél és a „másolatcél” hangmintákkal;
  2. Ezután az előfizető visszahívást rendelt a telefonjára és az őt érdeklő előfizető telefonjára. A rendszer összekötötte az előfizetőt, a tőle érkező jel átment a cég szerverén, ahol a hang frekvenciakarakterisztikája és hangszíne az illető hangjának paramétereire – a „másolási célpontra” változott. Az előfizető hallotta az ügyfél szavait, de számára ezek a szavak (állítólag) úgy hangzottak, mint egy személy hangja - „célmásolat”.

Technológia leírása

A valós idejű telefonbeszélgetés során történő beszédklónozás technológiája alapja a hanghordozó jel matematikai feldolgozására szolgáló ismert algoritmusok alapján [1] [2, 4]. Ugyanakkor használjákDFT - módszerek a diszkrét jelek frekvenciáinak elemzésére (speciális Fourier-transzformációs módszerrel ), amelyet egy analóg telefonjel G.729 keskenysávú beszédkodek segítségével történő digitalizálásával nyernek [2] [5, 6, 7, 8 ]. A vivőjelen alapuló megváltozott beszéd szintézise, ​​vagyis az így létrejövő „klónozott hang”, megvalósítja a lemásolt eredeti hang személyes akusztikai jellemzőinek maximális megőrzésének lehetőségét: a kiejtés fonetikai sajátosságait, akcentusait, sőt olyan műtermékeket is, mint pl. dadogás [3] [9]. Így még az eredeti telefonjel speciális feldolgozásával és matematikai elemzésével sem lehet azonosítani a beszélő mesterségességét. A beszédklónozási technológia illegális használata szigorúan tilos a szolgáltatást nyújtó online szolgáltatás speciális védelmi programja értelmében. A telefonhálózatokban a hangklónozás leírt technológiája az alkotók szerint a legújabb termék volt, amelynek korábban nem volt analógja.

Előző szint

A gépi beszéd létrehozására szolgáló meglévő rendszerek bizonyos technikai réseken jól beváltak: autós navigációs rendszerek, karórák, elektronikus „olvasó” fordítószótárak stb. Az ilyen rendszerekben nincs kijelölve egy adott személy hangjának utánzása, ezért az így létrejövő gépi beszéd sem személyre szabott , és kifejezetten mesterséges eredete miatt könnyen felismerhető.

Korábban egy adott személy beszédének szintetizálására tett kísérletek a beszédklón „magjának” létrehozásának elvén alapultak, amely az akusztikus, fonetikai és prozódiai jellemzők teljes készletét tartalmazza - az egyéni beszédjellemzőket. Ehhez egy meglehetősen részletes, személyre szabott adatbázisra volt szükség a "másolt" hangról. Annak a személynek, akinek a hangját le kellett másolni, el kellett olvasnia egy hosszan előkészített, speciálisan megtervezett és nagyszámú fonémát tartalmazó szöveget, hogy a beszélő beszédének jellemzőit maximalizálja.

Ez bizonyos nehézségeket okozott, hiszen köztudott, hogy egy hétköznapi ember 15 perc folyamatos olvasás után is elfárad, és 20 percnyi olvasás után akár teljesen el is törhet a hangja. Még egy profi beszélő számára is meglehetősen nehéz feladat 45 perc megszakítás nélküli olvasás a beszéd egyéni jellemzőinek teljes komplexumának megőrzése mellett. A hangrögzítés minőségére vonatkozó követelmények is nagyon magasak voltak - ki kellett zárni a különféle zajokat, amelyek zavarhatják a modellezést. Az így kapott eredeti hang személyre szabott felvételét frekvenciaelemzésnek és matematikai feldolgozásnak vetettük alá, a számítási folyamat pedig gyakran egy napot is tovább vett igénybe. Ezt követően egy beszédszintetizátor használhatja egy adott személy egyéni hangadatbázisát. Természetesen a kódolási folyamat időtartama és legfőképpen a referenciabeszéd stúdiókörnyezetben történő rögzítésének szükségessége jelentősen leszűkítette a beszédmásoló rendszer normál körülmények közötti alkalmazási körét.

Jegyzetek

  1. Abe M., Nakamura S., Shikano K. és Kuwabara H. "Voice conversion through vektor quantization", in Proc. az Int. Konf. az Acoust., Speech and Sig. Proc. ICASSP, New York, USA, ápr. 1988, vol. 1, pp. 655-658.
  2. Levine S. és Smith JO "A szinusz+tranziensek+zaj audio reprezentáció adattömörítéshez és idő/hangmagasság skála módosításához", in Proc. 105. konv. AudioEng. Soc., preprint #4781, szept. 1998.
  3. Huang X., Acero A., Hon HW. "Spoken Language Processing: útmutató az elmélethez, algoritmusokhoz és rendszerfejlesztéshez", Prentice Hall, NJ, 2001. - p. 980.

Irodalom

  1. B. M. Lobanov, L. I. Tsirulnik "Számítógépes szintézis és beszéd klónozása", Minszk "Belarusz tudomány", 2008, 316 oldal.
  2. Abe M., Nakamura S., Shikano K. és Kuwabara H. "Voice conversion through vektor quantization", in Proc. az Int. Konf. az Acoust., Speech and Sig. Proc. ICASSP, New York, USA, ápr. 1988, vol. 1, pp. 655–658.
  3. Szabadalmi szám: US 6615174B1, szep. 2, 2003.
  4. ITU-T Rec. G.729, "Beszéd kódolása 8 kbit/s-on konjugált szerkezetű algebrai kóddal gerjesztett lineáris előrejelzéssel (CS-ACELP)", márc. 1996.
  5. Levine S. és Smith JO „A szinusz+tranziensek+zaj audio reprezentáció adattömörítéshez és idő/hangmagasság skála módosításához”, Proc. 105. konv. AudioEng. Soc., preprint #4781, szept. 1998.
  6. Talkin D. "Robust algorithm for pitch tracking" in "Speech Coding and Synthesis", Kleijn, WB and Palival, KK Eds. Elsevier, Amszterdam, Hollandia, 1995.
  7. Grocholevski S. "First Database for Spoken Polish", in Proc. Int. Konf. On Language Resources and Evaluation, Grenada, 1998, pp. 1059–1062.
  8. KY Lee, Y Zhao, "A hangmagasság kontúrjainak statisztikai átalakítási algoritmusai prozódiai kifejezések alapján". A „Beszédprozódia 2004” nemzetközi konferencia anyaga. (SP 2004)", Nara, Japán, 2004. március 23-26.
  9. Huang X., Acero A., Hon HW. "Spoken Language Processing: útmutató az elmélethez, algoritmusokhoz és rendszerfejlesztéshez", Prentice Hall, NJ, 2001. - p. 980.