複数の音声が混じった音から個別の音声を抜き出す音声分離の性能を映像を使って向上させる方法をgoogleが発表。
評価には、signal-to-distortion ratio (SDR)を利用。
arXivに投稿されている論文のTable 3によると、音声のみを用いた最新手法より分離性能が高い。
arXiv
https://arxiv.org/abs/1804.03619
GIGAZINE
https://gigazine.net/news/20180412-looking-to-listen-google/
Google Research Blog
https://research.googleblog.com/2018/04/looking-to-listen-audio-visual-speech.html
SDRの解説は
https://hal.inria.fr/inria-00564760/document
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.412.3918&rep=rep1&type=pdf
に記載があるが、きちんとは読んでいない。
2018/04/16
映像を利用した音声分離
時刻
01:17
登録:
コメントの投稿
(
Atom
)
0 件のコメント :
コメントを投稿