Research
研究プロジェクト・論文・書籍等
- テクニカルレポート
[国内学会] 劣化音声を用いたDNN音声合成のための話者類似度に基づく教師なし話者適応
- #音声処理
- #音声合成
情報処理学会 第118回音楽情報科学・第120回音声言語情報処理合同研究発表会
我々はこれまで,DNN に基づく音声合成において,話者適応にテキストを必要としない,教師なし話者適応を提案した.この手法は,話者認識において広く用いられているモデル (GMM-UBM,i-vector / PLDA) を利用し計算された,個々の学習話者に対する事後確率を連結したベクトルにより話者類似度が表現されると仮定し,目標話者の音声から計算された話者類似度ベクトルを,DNN 音声合成システムの入力コードとして用いることで実現される.本論文では,目標話者の音声が雑音や残響を含み劣化していることを想定し,このような劣化音声に対し,ロバストな教師なし話者適応について検討する.具体的には,雑音や残響を付与した音声データを用いることで,目標話者の劣化音声からであっても,適切に話者類似度が可能な話者認識モデルの構築を行う.10 代後半から 80 代までの話者がバランス良く含まれた 135 名からなる巨大コーパスを用い,評価実験を行った.客観評価の結果より,適切に話者認識モデルを構築することで,劣化音声にロバストな教師なし話者適応が可能であることが確認できた.