Research

研究プロジェクト・論文・書籍等

Share

  • テクニカルレポート

[国内学会] DNNに基づくテキスト音声合成における話者・ジェンダー・年齢コード利用の検討

Author:Hieu Thi Luong, 高木信二, SangJin Kim, 山岸順一

  • #音声処理
  • #音声合成

電子情報通信学会 音声研究会

本論文ではDNNに基づくテキスト音声合成において,複数話者モデリング,話者適応,合成音声の音響特性操作を行う手法について検討する.ここでは,DNNに基づく音響モデルにおいて,言語特徴量に加えて話者・ジェンダー・年齢コード(入力コードと呼ぶ)を入力として利用する.10代後半から80代までの話者がバランス良く含まれた135名からなる高品質巨大コーパスを用い,以下の3つの実験を行った.1) 入力コードを用いた複数話者モデルの構築,2) 目標話者の少量の適応データを用いた,バックプロパゲーションによる話者コード推定に基づく話者適応,3) 入力コードを操作することによる合成音声の音響特性操作.これら実験を通して入力コードに基づく複数話者モデルの構築,話者適応,音響特性操作の評価を行った.