[和訳] 合成音声の客観評価とVoiceMOSチャレンジ

Author：クーパーエリカ, ホワンウェンチン, ツァオユ, ワンシンミン, 戸田智基, 山岸順一

#音声処理
#音声合成
#品質評価

日本音響学会誌 80 巻 (2024) 7 号小特集—Beyond MOS：音声評価法の将来展望—

コンピューターにより生成された合成音声は，聞き手にとって理解できるか，自然に聞こえるか，目標の話者や話し方に合っているか，そして意図された目的が果たされているか等の複数の観点からの評価を必要とする．この様な評価は，新しい合成方法が過去のものより優れているか，または新たに提案された変更点が改善をもたらしているかどうかを判断するためにも必要とされる．研究者は，新しい音声合成手法を開発すると同時にその評価のしかたについても検討を行ってきた．従来，この様な評価は被験者による聞き取りテストに主に頼ってきた．最終的に合成音声を聞くのは人間であるため，合成音声の評価において人間の意見をゴールドスタンダードと考えるべきだからである．この聞き取りテストでは，被験者に合成音声を1つずつ提示し，どの程度自然に聞こえるかなど，音声のある側面をリッカート尺度（通常は5段階）で評価し，各システムによって合成された音声の個々の評価値を平均することで得られる平均オピニオン評点（MOS：mean opinion score）を利用する事が多い．しかし音声合成研究者は，この様な評価は非常にコストと時間がかかることから，実験的な反復プロセスを合理化するために，より自動化された評価方法も検討してきた．被験者の主観評価値と音響特徴量の相関分析から始まり，電話通信のために開発された信号処理ベースの方法の活用，さらには過去の聞き取りテストデータを使って訓練された機械学習ベースのアプローチまで，研究者は実験の効率化を図るために，合成音声の自動評価方法の検討と改良を重ねてきた．本論文では，近年提案された合成音声の自動評価手法の概要およびその発展を概括する．また，機械学習に基づく合成音声の品質予測モデルの学習と評価に利用する共通データベースの提供および予測手法の相互比較を実施するVoiceMOSチャレンジを2年間運営してきた経験についても触れる．最後に，この分野において進行中の研究とともに，未解決の課題や今後の展望について述べる．

一覧へ戻る