Hangtevékenység-észlelés

VAD ( angol  Voice Activity Detection ), valamint Silence Suppression (  angolul  -  "csend elnyomás") - a hangtevékenység észlelése a bemeneti akusztikus jelben, hogy az aktív beszédet elkülönítse a háttérzajtól vagy a csendtől. A zajként értelmezett hang „kivágásokat” generálhat a beszélgetésből (forgácsolás). A hangként értelmezett háttér csökkentett tömörítési hatékonyságot eredményez (pl. DTX -ben ).

Előnyök és felhasználás

A hang digitalizálása során az aktív beszédnek minősített jelrészletek tovább kódolhatók és tömöríthetők bármely audiokodekkel (például CELP ), ha szoftverben használják az emberi hang és a háttérzaj megkülönböztetésére a kódolt beszédben.

A VAD (vagy Silence Suppression) mechanizmus használatával megtakarítható a kommunikációs csatornán keresztüli adatátvitel , mivel a (jelszint által meghatározott) beszédszakadás nem digitalizálódik vagy kódolódik , és így a néma "üres" csomagok nem kerülnek továbbításra. hálózaton keresztül. Ez nagyon fontos a csomagátvitelhez (ami a TCP / IP hálózatokban való átvitel), mivel magán az adatokon kívül az OSI modell minden szintjének minden protokollja (szállítás, hálózat stb.) mindegyikhez hozzáfűzi a saját szolgáltatási információit. adatcsomag. Ennek eredményeként a csomag mérete jelentősen megnő. Így a kis zajjal járó „üres” csomagok kizárása egyszerű módja a forgalom megtakarításának, és ennek eredményeként a csatorna átviteli sebességének növelésének. Emiatt a VAD-mechanizmust gyakran használják különféle kodekekkel együtt az IP-telefónia hatékony tömörítésére .

Hátrányok és kiküszöbölésük

A VAD problémája az, hogy a csendelnyomás (valójában alacsony szintű hang) következtében a hallgató egyáltalán nem hall semmilyen azonosító jelet (légzés, szippantás és egyéb, élőbeszédet kísérő apró zajok). Ez problémákat okoz, mert a hétköznapi beszédben minden hallható. A szokásos zaj hiánya a hangvisszaadás során kényelmetlenséget okoz, és csökkenti az érzékelés és a megértés szintjét.

A probléma megoldására a második előfizető (vagy hallgató) oldalán a kísérő hangok emulációja, az úgynevezett komfortzaj -generálás (CNG) (a VAD esetében fordított folyamat) használható.

Lásd még

Linkek