[国内学会] 落語音声合成は人間の落語家にどれだけ迫れるのか？

Author：加藤集平, 安田裕介, Wang Xin, Cooper Erica, 山岸順一

#音声処理
#音声合成

情報処理学会第133回音声言語情報処理研究発表会

私たちは，人を楽しませる音声合成として，落語音声合成の研究に取り組んでいる．これまでに，独自の音声合成向け落語音声データベースの構築ならびに落語音声の分析，そのデータベースを用いたend-to-end (sequence-to-sequence) 落語音声合成システムの構築，聴取実験による落語音声合成システムの評価を行ってきた．これまでの研究においては，音声合成との比較対象として，モデル学習に使用した落語家の音声のみを使っており，「音声を聞いてどれだけ楽しめたか」などの評価指標について，（モデル学習に使用した）落語家にはまだ及んでいないという結果を得ている．ところで，一連の研究の対象としている江戸落語には身分制度があり，身分は下から順に前座，二ツ目，真打と呼ばれる．モデル学習に使用した落語家は最高位の真打であるが，音声合成がその水準に達していないとすれば，果たして前座，二ツ目とくらべてどの程度の水準にあるのだろうか．これを明らかにするために，本稿では，同一の演目の音声を用いて，前座，二ツ目，真打，そして音声合成を比較する聴取実験を行った．聴取実験の結果，音声合成は前座，二ツ目，真打いずれのレベルにも達していなかったものの，「音声を聞いてどれだけ楽しめたか」など一部の評価項目については，前座との差は他よりも小さなものであった．また，「音声を聞いてどれだけ楽しめたか」の評価値は，「演者は人間だと思うか」の評価値との相関は比較的弱く，「登場人物の役が区別できたか」の評価値もしくは「内容がどれだけ理解できたか」の評価値との相関が比較的強かった．このことから，私たちが構築した落語音声合成は音声としてある程度高い自然性を有しているものの，役の区別などの表現のモデリングに不足があり，結果として内容理解ひいては十分に楽しむことが難しいものであることが示唆された．

一覧へ戻る