ATSS: Detecting AI-Generated Videos via Anomalous Temporal Self-Similarity

📄 arXiv: 2604.04029 📥 PDF

作者: Hang Wang, Chao Shen, Lei Zhang, Zhi-Qi Cheng

分类: cs.CV

发布日期: 2026-04-07


💡 一句话要点

提出ATSS方法,通过异常时序自相似性检测AI生成视频

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AI生成视频检测 时序自相似性 多模态融合 Transformer 交叉注意力

📋 核心要点

  1. 现有AIGV检测方法侧重局部伪影和短期时序不一致,忽略了全局时间演化的生成逻辑。
  2. ATSS方法利用AIGV中异常的时序自相似性,通过多模态融合检测视频真伪。
  3. 实验表明,ATSS在多个数据集上显著优于现有方法,具有良好的泛化能力。

📝 摘要(中文)

AI生成视频(AIGV)已达到前所未有的逼真度,对数字取证构成严重威胁。现有的AIGV检测器主要关注局部伪影或短期时间不一致性,因此通常无法捕捉控制全局时间演化的潜在生成逻辑,从而限制了AIGV检测性能。本文提出AIGV中一种独特的指纹,称为异常时序自相似性(ATSS)。与表现出随机自然动态的真实视频不同,AIGV遵循确定性的锚点驱动轨迹(例如,文本或图像提示),从而在视觉和语义领域中产生不自然的重复相关性。为了利用这一点,我们提出了ATSS方法,这是一种多模态检测框架,通过三重相似性表示和交叉注意力融合机制来利用这一洞察力。具体来说,ATSS通过利用逐帧描述来重建语义轨迹,以构建视觉、文本和跨模态相似性矩阵,这些矩阵共同量化了固有的时间异常。这些矩阵由专用Transformer编码器进行编码,并通过双向交叉注意力融合模块进行集成,以有效地建模模内和模间动态。在GenVideo、EvalCrafter、VideoPhy和VidProM四个大型基准上的大量实验表明,ATSS在AP、AUC和ACC指标方面显著优于最先进的方法,在各种视频生成模型中表现出卓越的泛化能力。ATSS的代码和模型将在此https URL发布。

🔬 方法详解

问题定义:当前AI生成视频检测方法主要关注视频中的局部伪影或短期的时序不一致性,缺乏对视频全局时序演化规律的建模能力。由于AI生成视频通常由文本或图像提示驱动,其时间演化具有一定的确定性和重复性,这与真实视频的随机自然动态存在差异。因此,如何有效地捕捉和利用这种全局时序上的异常是当前AIGV检测面临的挑战。

核心思路:论文的核心思路是利用AI生成视频中存在的“异常时序自相似性”(ATSS)进行检测。具体来说,AI生成视频由于受到文本或图像提示的约束,其内容在时间上会呈现出一定程度的重复性,这种重复性在视觉和语义层面均有体现。通过分析视频在不同时间点之间的相似性,可以有效地识别出AI生成视频与真实视频之间的差异。

技术框架:ATSS方法的技术框架主要包括以下几个模块:1) 特征提取模块:提取视频帧的视觉和文本特征。2) 相似性矩阵构建模块:基于提取的特征,构建视觉、文本和跨模态的相似性矩阵,用于量化视频在不同时间点之间的相似程度。3) Transformer编码器:使用Transformer编码器对相似性矩阵进行编码,以捕捉时间上的依赖关系。4) 交叉注意力融合模块:使用双向交叉注意力融合模块,将不同模态的信息进行融合,以提高检测的准确性。5) 分类器:基于融合后的特征,使用分类器判断视频是否为AI生成。

关键创新:ATSS方法的关键创新在于:1) 提出了“异常时序自相似性”的概念,并将其应用于AIGV检测。2) 构建了多模态相似性矩阵,综合考虑了视频的视觉和语义信息。3) 使用交叉注意力融合模块,有效地融合了不同模态的信息。与现有方法相比,ATSS方法能够更好地捕捉AIGV的全局时序特征,从而提高检测的准确性。

关键设计:在相似性矩阵构建方面,论文使用了余弦相似度来计算不同帧之间的相似性。在Transformer编码器方面,使用了标准的Transformer结构,并针对相似性矩阵的特点进行了优化。在交叉注意力融合模块方面,使用了双向的注意力机制,以更好地融合不同模态的信息。损失函数方面,使用了交叉熵损失函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在GenVideo、EvalCrafter、VideoPhy和VidProM四个数据集上进行了实验,结果表明ATSS方法在AP、AUC和ACC指标上均显著优于现有方法。例如,在GenVideo数据集上,ATSS方法的AP值比现有最佳方法提高了超过5%。实验结果验证了ATSS方法在AIGV检测方面的有效性和泛化能力。

🎯 应用场景

该研究成果可应用于数字取证、网络安全、新闻媒体等领域,用于检测和识别AI生成的虚假视频,维护网络信息安全,防止恶意信息传播。未来可进一步扩展到其他AI生成内容的检测,例如图像、音频等,具有重要的社会价值。

📄 摘要(原文)

AI-generated videos (AIGVs) have achieved unprecedented photorealism, posing severe threats to digital forensics. Existing AIGV detectors focus mainly on localized artifacts or short-term temporal inconsistencies, thus often fail to capture the underlying generative logic governing global temporal evolution, limiting AIGV detection performance. In this paper, we identify a distinctive fingerprint in AIGVs, termed anomalous temporal self-similarity (ATSS). Unlike real videos that exhibit stochastic natural dynamics, AIGVs follow deterministic anchor-driven trajectories (e.g., text or image prompts), inducing unnaturally repetitive correlations across visual and semantic domains. To exploit this, we propose the ATSS method, a multimodal detection framework that exploits this insight via a triple-similarity representation and a cross-attentive fusion mechanism. Specifically, ATSS reconstructs semantic trajectories by leveraging frame-wise descriptions to construct visual, textual, and cross-modal similarity matrices, which jointly quantify the inherent temporal anomalies. These matrices are encoded by dedicated Transformer encoders and integrated via a bidirectional cross-attentive fusion module to effectively model intra- and inter-modal dynamics. Extensive experiments on four large-scale benchmarks, including GenVideo, EvalCrafter, VideoPhy, and VidProM, demonstrate that ATSS significantly outperforms state-of-the-art methods in terms of AP, AUC, and ACC metrics, exhibiting superior generalization across diverse video generation models. Code and models of ATSS will be released atthis https URL.