Research
研究プロジェクト・論文・書籍等
- テクニカルレポート
[国内学会] 落語音声合成におけるTacotronおよびコンテキスト特徴量の使用とその評価
- #音声処理
- #音声合成
電子情報通信学会 音声研究会
人を楽しませる音声合成を目指して,落語の音声合成の構築に取り組んでいる.本稿では音声合成のモデルとして,sequence to sequenceのモデルであるTacotronを新たに導入した.また,落語は一人の演者(噺家)が複数の登場人物を演じ分け,主にそれらの会話によって物語を進行させる.そのため,役や発話スタイルが区別できることは,落語を聞いて理解する上で重要であると考えられる.そこで,登場人物の属性や発話スタイルに対応するコンテキスト特徴量を使用することで,落語として聞けるものに近づくことを目指した.現状では,特に長い文でアラインメントが取れずに合成に失敗したり,学習速度が遅かったりするなど様々な問題を抱えているが,それらの問題についても議論する.