AuViRe: Audio-visual Speech Representation Reconstruction for Deepfake Temporal Localization

📄 arXiv: 2511.18993v1 📥 PDF

作者: Christos Koutlis, Symeon Papadopoulos

分类: cs.CV

发布日期: 2025-11-24

备注: WACV 2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出AuViRe,通过音视频语音表征重建实现Deepfake视频的时间定位

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知 (Perception & SLAM)

关键词: Deepfake检测 时间定位 音视频融合 跨模态学习 语音表征重建

📋 核心要点

  1. 现有Deepfake检测方法在时间定位方面存在不足,难以精确定位篡改发生的时间点。
  2. AuViRe通过跨模态语音表征重建,放大了篡改视频片段中的差异,从而提供更强的判别性特征。
  3. 实验结果表明,AuViRe在多个数据集上显著优于现有技术,尤其在精确时间定位方面。

📝 摘要(中文)

随着合成音视频内容的快速发展,特别是用于恶意操纵的场景,确保数字媒体的完整性至关重要。本文提出了一种新颖的方法,即音视频语音表征重建(AuViRe),用于Deepfake视频的时间定位。具体而言,我们的方法基于一种模态(例如,唇部运动)重建另一种模态(例如,音频波形)的语音表征。在被篡改的视频片段中,跨模态重建更具挑战性,导致差异被放大,从而为精确的时间伪造定位提供强大的判别线索。AuViRe在LAV-DF上超过现有技术+8.9 AP@0.95,在AV-Deepfake1M上超过+9.6 AP@0.5,并在真实场景实验中超过+5.1 AUC。

🔬 方法详解

问题定义:论文旨在解决Deepfake视频中时间定位不准确的问题。现有方法通常侧重于检测视频是否为Deepfake,但难以精确定位篡改发生的时间点,这对于取证和溯源至关重要。现有方法在跨模态信息利用方面存在不足,未能充分挖掘音视频之间的不一致性。

核心思路:论文的核心思路是利用音视频语音表征的跨模态重建。正常视频中,音频和视觉信息高度一致,可以相互预测。而在Deepfake视频中,由于篡改,音视频信息不再一致,跨模态重建的误差会显著增大。通过检测重建误差的变化,可以精确定位篡改发生的时间点。

技术框架:AuViRe的整体框架包括以下几个主要模块:1) 音频特征提取模块,用于提取音频的语音表征;2) 视觉特征提取模块,用于提取唇部运动的视觉表征;3) 跨模态重建模块,基于一种模态的表征重建另一种模态的表征;4) 差异检测模块,计算重建表征与原始表征之间的差异;5) 时间定位模块,基于差异的变化,定位篡改发生的时间点。

关键创新:AuViRe的关键创新在于利用跨模态语音表征重建进行Deepfake时间定位。与现有方法相比,AuViRe更关注音视频信息的一致性,通过重建误差放大篡改带来的差异,从而实现更精确的时间定位。此外,AuViRe无需人工标注篡改时间点,可以进行弱监督学习。

关键设计:在音频特征提取方面,可以使用预训练的语音识别模型提取语音表征。在视觉特征提取方面,可以使用唇部运动跟踪算法提取唇部运动的视觉表征。跨模态重建模块可以使用循环神经网络(RNN)或Transformer等序列模型。差异检测模块可以使用均方误差(MSE)或余弦相似度等指标。时间定位模块可以使用滑动窗口或阈值分割等方法。

📊 实验亮点

AuViRe在LAV-DF数据集上实现了8.9%的AP@0.95提升,在AV-Deepfake1M数据集上实现了9.6%的AP@0.5提升,并在真实场景实验中实现了5.1%的AUC提升。这些结果表明,AuViRe在Deepfake时间定位方面显著优于现有技术,具有很强的实用价值。

🎯 应用场景

AuViRe可应用于数字媒体取证、新闻真实性验证、社交媒体内容审核等领域。通过精确定位Deepfake视频的篡改时间点,可以帮助识别和溯源恶意信息,维护网络安全和信息安全。该技术还有助于提高公众对Deepfake的认知,增强防范意识。

📄 摘要(原文)

With the rapid advancement of sophisticated synthetic audio-visual content, e.g., for subtle malicious manipulations, ensuring the integrity of digital media has become paramount. This work presents a novel approach to temporal localization of deepfakes by leveraging Audio-Visual Speech Representation Reconstruction (AuViRe). Specifically, our approach reconstructs speech representations from one modality (e.g., lip movements) based on the other (e.g., audio waveform). Cross-modal reconstruction is significantly more challenging in manipulated video segments, leading to amplified discrepancies, thereby providing robust discriminative cues for precise temporal forgery localization. AuViRe outperforms the state of the art by +8.9 AP@0.95 on LAV-DF, +9.6 AP@0.5 on AV-Deepfake1M, and +5.1 AUC on an in-the-wild experiment. Code available at https://github.com/mever-team/auvire.