[国内学会] 巨大特定話者データを用いたHMM・DNN・RNNに基づく音声合成システムの性能評価

Author：Xin Wang, 高木信二, 山岸順一

#音声処理
#音声合成

情報処理学会第112回音声言語情報処理研究発表会

本論文では男性 100 時間，女性 50 時間の巨大特定話者データを用い統計的パラメトリック音声合成システムの構築を行い，学習データ量の違いによる性能への影響を調査する．近年，統計的パラメトリック音声合成システムに用いられる音響モデルには隠れマルコフモデル (HMM) だけでなく，Deep Feed-forward Neural Network (DNN) や Recurrent Neural Network (RNN) がその高い性能から注目を集めている．これまで 1 時間から 20 時間程度のコーパスを用いたニューラルネットワークに基づく音声合成システムの構築・性能評価は報告されてるものの，さらに巨大なコーパスを用いた音声合成システムの構築はなされていない．本研究では 20 時間から 100 時間程度まで学習データ量を変更しつつ HMM・DNN・RNN 音声合成システムの構築を行い，評価実験を行った．

一覧へ戻る