A hangklónozás ( angolul voice change, voice cloning ) egy olyan technológia, amely egy személy hangjának megváltoztatását valósítja meg, szoftver és hardver segítségével, valós időben és késleltetett kötegelt módban egyaránt.
A technológia lehetővé teszi egy személy beszédének személyes jellemzőinek szimulálását az eredetivel, az úgynevezett "másolatcélponttal".
Jelenleg a beszédfelismerő rendszerek viszonylag jól fejlettek . Különböző háztartási készülékek hangvezérlésére használják (telefonokban, autós audiorendszerekben és a mosógépekig). A fordított folyamat – a szavak kinyerése egy hangjelből és a beszéd szintetizálása – számos nehézségbe ütközik.
A programok a "Hangváltó szoftver" vagy a "Hangváltó" kategóriába tartozónak minősülnek:
SDK-csomagok is:
Korábban néhány vállalat kereskedelmileg hívó fél hangváltási szolgáltatása telefonon valós időben. Ez a következőképpen történt:
Technológia leírása
A valós idejű telefonbeszélgetés során történő beszédklónozás technológiája alapja a hanghordozó jel matematikai feldolgozására szolgáló ismert algoritmusok alapján [1] [2, 4]. Ugyanakkor használjákDFT - módszerek a diszkrét jelek frekvenciáinak elemzésére (speciális Fourier-transzformációs módszerrel ), amelyet egy analóg telefonjel G.729 keskenysávú beszédkodek segítségével történő digitalizálásával nyernek [2] [5, 6, 7, 8 ]. A vivőjelen alapuló megváltozott beszéd szintézise, vagyis az így létrejövő „klónozott hang”, megvalósítja a lemásolt eredeti hang személyes akusztikai jellemzőinek maximális megőrzésének lehetőségét: a kiejtés fonetikai sajátosságait, akcentusait, sőt olyan műtermékeket is, mint pl. dadogás [3] [9]. Így még az eredeti telefonjel speciális feldolgozásával és matematikai elemzésével sem lehet azonosítani a beszélő mesterségességét. A beszédklónozási technológia illegális használata szigorúan tilos a szolgáltatást nyújtó online szolgáltatás speciális védelmi programja értelmében. A telefonhálózatokban a hangklónozás leírt technológiája az alkotók szerint a legújabb termék volt, amelynek korábban nem volt analógja.
Előző szint
A gépi beszéd létrehozására szolgáló meglévő rendszerek bizonyos technikai réseken jól beváltak: autós navigációs rendszerek, karórák, elektronikus „olvasó” fordítószótárak stb. Az ilyen rendszerekben nincs kijelölve egy adott személy hangjának utánzása, ezért az így létrejövő gépi beszéd sem személyre szabott , és kifejezetten mesterséges eredete miatt könnyen felismerhető.
Korábban egy adott személy beszédének szintetizálására tett kísérletek a beszédklón „magjának” létrehozásának elvén alapultak, amely az akusztikus, fonetikai és prozódiai jellemzők teljes készletét tartalmazza - az egyéni beszédjellemzőket. Ehhez egy meglehetősen részletes, személyre szabott adatbázisra volt szükség a "másolt" hangról. Annak a személynek, akinek a hangját le kellett másolni, el kellett olvasnia egy hosszan előkészített, speciálisan megtervezett és nagyszámú fonémát tartalmazó szöveget, hogy a beszélő beszédének jellemzőit maximalizálja.
Ez bizonyos nehézségeket okozott, hiszen köztudott, hogy egy hétköznapi ember 15 perc folyamatos olvasás után is elfárad, és 20 percnyi olvasás után akár teljesen el is törhet a hangja. Még egy profi beszélő számára is meglehetősen nehéz feladat 45 perc megszakítás nélküli olvasás a beszéd egyéni jellemzőinek teljes komplexumának megőrzése mellett. A hangrögzítés minőségére vonatkozó követelmények is nagyon magasak voltak - ki kellett zárni a különféle zajokat, amelyek zavarhatják a modellezést. Az így kapott eredeti hang személyre szabott felvételét frekvenciaelemzésnek és matematikai feldolgozásnak vetettük alá, a számítási folyamat pedig gyakran egy napot is tovább vett igénybe. Ezt követően egy beszédszintetizátor használhatja egy adott személy egyéni hangadatbázisát. Természetesen a kódolási folyamat időtartama és legfőképpen a referenciabeszéd stúdiókörnyezetben történő rögzítésének szükségessége jelentősen leszűkítette a beszédmásoló rendszer normál körülmények közötti alkalmazási körét.