Naplózás

A naplózás (vagy a hangszórók szétválasztása ) az a folyamat, amely során a bejövő hangfolyamot homogén szegmensekre osztják fel annak megfelelően, hogy az audiofolyam melyik vagy másik hangszóróhoz tartozik. A naplózás javítja a szövegek minőségét az automatikus átírás során, és beszédfelismerő rendszerrel együtt is használható , jelentősen javítva azt. A naplóírást a „Ki beszél most?” kérdés megválaszolására használják. A naplózás a szegmentálási és a beszélőcsoportosítási módszerek kombinációja. Az első a beszélőváltási pontok megtalálását, a második a beszélő beszédében kiválasztott beszédszegmensek csoportosítását célozza.

A diarizálás egyik népszerű módszere a Gauss-keveréken alapuló algoritmusok használata, amelyek mindegyik hangszórót modelleznek, és a kiválasztott töredékeket az egyes beszélőkhöz rendelik egy rejtett Markov-modell segítségével [1] .

Szoftver

A naplóíró szoftver a következőket tartalmazza: [2] [3] :

Jegyzetek

  1. Speaker Diarization: A Review of Recent Research Archived 2015. január 4., a Wayback Machine // icsi.berkeley.edu, 2012.
  2. Kulturális és történelmi digitális könyvtárak dinamikusan bányászott hírarchívumokból Archiválva : 2016. március 5. a Wayback Machine D2.1-ben: State of the Art, a projekt szállítmánya
  3. Hangszórófelismerő megoldás fejlesztése a Vidispine-ben Archiválva : 2016. március 4. a Wayback Machine -nél : Karen Farnes, számítástechnikai mesterszak, Umeå University, 2013
  4. ALIZE Diarisation System, Avignoni Egyetem . Hozzáférés dátuma: 2015. január 4. Eredetiből archiválva : 2015. január 4.
  5. SpkDiarization (downlink) . Letöltve: 2019. szeptember 11. Az eredetiből archiválva : 2019. január 28. 
  6. InriaForge: AudioSeg: Project Home . Hozzáférés dátuma: 2015. január 4. Eredetiből archiválva : 2015. január 4.
  7. SHOUT beszédfelismerő eszközkészlet . Letöltve: 2015. január 4. Az eredetiből archiválva : 2014. december 17..

Irodalom