Research

研究プロジェクト・論文・書籍等

Share

  • テクニカルレポート

[国内学会]CycleGANを用いた高品質なノンパラレル声質変換

Author:房 福明, 山岸 順一, 越前 功

  • #音声処理
  • #音声合成

情報処理学会 第119回音声言語情報処理研究発表会

近年,機械学習の進展により声質変換の性能が大幅に向上した.しかし,学習データが対とならないノンパラレルの場合,ソース話者とターゲット話者の特徴を精密にマッチすることが難しい.ノンパラレル声質変換モデルの学習はまだ困難であり,変換性能はまだ低い問題がある.一方,画像変換分野ではペアなしの画像データベースから変換モデルを学習する方法として CycleGAN が注目されている.CycleGAN は GAN の一種であり,複数個の generator と discriminator を持つ.また,generator は入力データの一部の情報を維持しながら,discriminator との競争学習によりターゲットドメインへの変換ができる特徴がある.そこで,本研究はこのアイディアに基づいて CycleGAN をノンパラレル声質変換に適用する方法を提案する.提案手法では,ソース話者とターゲット話者の類似特徴を直接マッチするのではなく,ソース話者の一部の言語情報を維持しながら話者特徴をターゲット話者にできるだけ近付けるように変換モデルを学習する.被験者評価実験より,提案手法は標準の GAN に基づいたパラレル声質変換を上回ったことを示す.