［招待講演］音声生成AIの最新動向と悪用対策

#生成モデル
#ディープフェイク検知
#音声処理

講演者：山岸順一
会議名：第11回音声・音響・信号処理ワークショップ（SPEASIP）
主催者：電子情報通信学会音声研究会 (SP)，応用音響研究会 (EA)，日本音響学会電気音響研究会 (EA)，電子情報通信学会信号処理研究会 (SIP)，APSIPA Japan Chapter (APSIPA JC), 情報処理学会音声言語情報処理研究会（SLP）
開催地：沖縄
開催日：2025年3月4日
URL：https://www.ipsj.or.jp/event/seminar/2024/program12.html

本講演ではまず劇的な進化を遂げている音声生成AI モデルの最新動向を紹介する。ボイスクローニングと呼ばれる話者性を再現する技術や、音声入力や音声出力を大規模言語モデル（LLM）において活用するための音声トークナイザー等を紹介し、どの様な音声インタラクションが現在研究されているか最新動向を紹介する。その後、音声生成AI の悪用対策についても解説する。まず生成モデルによる人工的な音声か人間の音声かを見極めるディープフェイク検知技術に触れ、検知モデルの学習・評価用の大規模音声データベース、複数の検知モデルの劣悪条件下における分析結果を紹介する。最後に、音声生成AIのモデル重みを加工し、その音声出力に自動的に透かしを埋め込むNeural watermarking についても紹介し、その有用性および限界についても紹介する。

一覧へ戻る