［招待講演］音声のディープフェイク検知はどこまで可能か？

#生成モデル
#ディープフェイク検知
#音声処理

講演者：山岸順一
会議名：第45回けいはんな「エジソンの会」ディープフェイクの衝撃～現実と仮想の狭間で～
主催者：国際高等研究所
開催地：京都
開催日：2024年3月7日
URL：https://www.iias.or.jp/communication/edison/「エジソンの会」第45回会合

近年の音声生成モデル、とりわけ、話者性を再現する技術は、エンターテインメント等にて新たな価値をもたらすが、悪用された場合にはその再現性の高さ故に個人認証システム等において問題を発生させる。本講演では、この様なディープフェイクによるなりすまし攻撃に対する防御モデルに関する我々の取り組みと研究成果を紹介する。まず、ディープフェイク音声検知モデル学習用の大規模音声データベース、および、ディープフェイク音声検知を電話越しで行うシナリオ、圧縮された音声に対して行うシナリオのための評価データを紹介し、本データベース上で構築された50種類の検知モデルの分析から得られた知見を示す。

　次に、メディア生成技術は常に進化し、常に新たな手法が開発され続けている事実を踏まえ、未知手法によるディープフェイクを検知する手法を紹介する。具体定には、検知モデルの特徴を単純な周波数表現から、HuBERTやWave2vec2.0と呼ばれる音声波形の巨大自己教師あり学習モデルの内部表現へと変更することで、未知手法によるディープフェイクを劣悪条件下でも精度よく検出できることを実験から示す。最後に、検知モデルの汎化性能を更に向上させるため、検知モデルの学習用データベース自身を自動拡張するアクティブアルゴリズムも紹介する。

一覧へ戻る