Research

研究プロジェクト・論文・書籍等

Share

  • テクニカルレポート

[国内学会] 統計的パラメトリック音声合成のための FFT スペクトルからの Deep Auto-encoder に基づく低次元音響特徴量抽出

Author:高木 信二, 山岸 順一

  • #音声処理
  • #音声合成

情報処理学会 第109回音声言語情報処理研究発表会

統計的パラメトリック音声合成システムでは,正確かつ安定したスペクトル包絡を推定するため,STRAIGHT スペクトル解析器のような音声解析モジュールが用いられ,得られたスペクトル包絡から抽出された低次元特徴量が音響モデル構築に用いられることが多い.しかし,音声合成の目標を正確なスペクトル包絡の抽出,モデル化,予測ではなく音声波形の再現と考えた場合,音声波形もしくはより原信号に近い入力を利用し,音声波形との誤差を少なくするという方向性も考えられる.本論文では,統計的パラメトリック音声合成において,Deep Auto-encoder を用い,より原信号近い FFT スペクトルから低次元音響特徴量を抽出することを検討する.テキスト音声合成実験において,異なるスペクトル推定 (STRAIGHT,WORLD,FFT),低次元特徴量抽出 (メルケプストラム 分析,Deep Auto-encoder),音響モデル (HMM, DNN) を組み合わせた 7 種類のテキスト音声合成システムを構築し比較を行い,評価を行った.