Research
研究プロジェクト・論文・書籍等
- テクニカルレポート
[国内学会] 敵対的学習に基づくSTFTスペクトログラムのポストフィルタリング
- #音声処理
- #音声合成
電子情報通信学会 音声研究会
本稿では,短時間フーリエ変換(STFT)スペクトログラム中のスペクトルのテクスチャを復元するための敵対的学習ベースのポストフィルタを提案する.STFTスペクトログラムは,音声合成,音声変換,音声強調,音声分離など音声信号処理分野で広く使われて鍵となっている音響特徴量であり,各々のタスクでは,入力データから真の音声データに近いSTFTスペクトログラムを合成することが目標となる.しかし,実際には統計的平均化の影響によって過剰な平滑化が生じ,合成されたスペクトログラムは微細な構造を失ってしまうことが多い.本稿では,この問題を解決するために敵対的学習に基づくSTFTスペクトログラムのポストフィルタリング手法を提案する.このアプローチでは,従来の分布を陽に仮定する手法と異なり,敵対的な学習の過程で,陰に真のデータ分布を学習することが可能であるため,統計的な平均化による過剰な平滑化の影響を回避することが可能である.敵対的学習を用いる際の一つの懸念事項として,STFTスペクトログラムのような高次元データに適用することが難しい点があるが,これに対しては,データを複数の周波数帯域に分割して,それぞれの帯域で復元を行い,接合するというシンプルな方法をとることによって解決する.実験では,深層学習ベースのテキスト音声合成のタスクに対して本手法を適用して検証を行い,STFTスペクトログラムのような高次元データに対しても敵対的学習に基づくポストフィルタリングが有効であることを示した.