Research
研究プロジェクト・論文・書籍等
- テクニカルレポート
[国内学会] DNNに基づくテキスト音声合成における話者・ジェンダー・年齢コード利用の検討
- #音声処理
- #音声合成
電子情報通信学会 音声研究会
本論文ではDNNに基づくテキスト音声合成において,複数話者モデリング,話者適応,合成音声の音響特性操作を行う手法について検討する.ここでは,DNNに基づく音響モデルにおいて,言語特徴量に加えて話者・ジェンダー・年齢コード(入力コードと呼ぶ)を入力として利用する.10代後半から80代までの話者がバランス良く含まれた135名からなる高品質巨大コーパスを用い,以下の3つの実験を行った.1) 入力コードを用いた複数話者モデルの構築,2) 目標話者の少量の適応データを用いた,バックプロパゲーションによる話者コード推定に基づく話者適応,3) 入力コードを操作することによる合成音声の音響特性操作.これら実験を通して入力コードに基づく複数話者モデルの構築,話者適応,音響特性操作の評価を行った.