CMTA: Leveraging Cross-Modal Temporal Artifacts for Generalizable AI-Generated Video Detection

📄 arXiv: 2605.00630v1 📥 PDF

作者: Hang Wang, Chao Shen, Chenhao Lin, Minghui Yang, Lei Zhang, Cong Wang

分类: cs.CV, cs.MM, eess.IV

发布日期: 2026-05-01

备注: 15 pages, 4 figures

🔗 代码/项目: GITHUB


💡 一句话要点

CMTA:利用跨模态时间伪影实现通用AI生成视频检测

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: AI生成视频检测 跨模态学习 时间建模 视觉文本对齐 深度学习

📋 核心要点

  1. 现有AIGV检测方法忽略了视觉-文本跨模态空间中语义对齐的时间稳定性,导致泛化能力不足。
  2. CMTA框架通过联合跨模态嵌入和多粒度时间建模,捕获AIGV中独特的跨模态时间伪影。
  3. 在多个数据集上的实验表明,CMTA在AIGV检测方面达到了新的SOTA,并具有更好的跨生成器泛化能力。

📝 摘要(中文)

先进的AI视频合成技术对数字视频的真实性构成了前所未有的挑战。现有的AI生成视频(AIGV)检测方法主要关注单模态或时空伪影,但忽略了视觉-文本跨模态空间中的丰富线索,特别是语义对齐的时间稳定性。本文提出了一种AIGV中独特的指纹,称为跨模态时间伪影(CMTA)。与真实视频由于语义变化而表现出跨模态对齐的自然时间波动不同,AIGV显示出由给定输入提示控制的非自然稳定的语义轨迹。为了弥合这一差距,我们提出了CMTA框架,这是一种跨模态检测方法,通过联合跨模态嵌入和多粒度时间建模来捕获这些独特的时间伪影。具体来说,CMTA利用BLIP生成帧级图像描述,并利用CLIP提取相应的视觉-文本表示。然后设计一个粗粒度时间建模分支,用GRU来表征跨模态对齐的时间波动。同时,构建一个细粒度分支,用Transformer编码器从集成的视觉-文本特征中捕获复杂的帧间变化。在GenVideo、EvalCrafter、VideoPhy和VidProM等四个大型数据集的40个子集上进行的大量实验验证了我们的方法设置了新的最先进水平,同时表现出卓越的跨生成器泛化能力。CMTA的代码和模型将在https://github.com/hwang-cs-ime/CMTA发布。

🔬 方法详解

问题定义:现有AI生成视频检测方法主要依赖于单模态或时空伪影,忽略了视频语义在时间上的变化特性,尤其是在跨模态(视觉-文本)空间中的语义对齐稳定性。真实视频的语义会随时间自然波动,而AI生成视频则表现出由输入提示控制的非自然稳定语义轨迹。现有方法难以有效区分这种时间上的细微差异,导致泛化能力较差。

核心思路:本文的核心思路是利用AI生成视频和真实视频在跨模态语义对齐的时间稳定性上的差异进行检测。AI生成视频通常由文本提示驱动,其视觉内容与文本描述之间存在更强的关联性,且这种关联性在时间上更加稳定。通过捕捉这种跨模态时间伪影(CMTA),可以有效区分AI生成视频和真实视频。

技术框架:CMTA框架包含以下主要模块:1) 跨模态嵌入模块:使用BLIP模型生成帧级别的图像描述,并使用CLIP模型提取视觉和文本的特征表示。2) 粗粒度时间建模分支:使用GRU网络对跨模态对齐的时间波动进行建模,捕捉视频整体的语义变化趋势。3) 细粒度时间建模分支:使用Transformer编码器从集成的视觉-文本特征中捕获帧间更精细的变化信息。最终,将两个分支的输出进行融合,用于AI生成视频的检测。

关键创新:本文最重要的技术创新点在于提出了“跨模态时间伪影”(CMTA)的概念,并将其应用于AI生成视频检测。与以往方法主要关注单模态特征或时空伪影不同,CMTA关注的是视觉和文本模态之间在时间维度上的关联性,这种关联性能够更有效地反映AI生成视频的本质特征。

关键设计:在跨模态嵌入模块中,选择BLIP和CLIP模型是为了充分利用它们在图像描述和视觉-文本表示方面的优势。在时间建模分支中,同时使用GRU和Transformer编码器,旨在捕捉不同粒度的时间信息。GRU擅长捕捉序列的长期依赖关系,而Transformer编码器则擅长捕捉帧间更精细的交互信息。损失函数的设计也至关重要,需要能够有效地引导模型学习跨模态时间伪影。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CMTA在四个大型数据集(GenVideo、EvalCrafter、VideoPhy和VidProM)的40个子集上进行了广泛的实验验证,结果表明CMTA在AI生成视频检测方面达到了新的SOTA水平。尤其是在跨生成器泛化能力方面,CMTA表现出显著的优势,表明其能够有效地检测不同AI生成器生成的视频。

🎯 应用场景

该研究成果可应用于数字媒体内容安全领域,例如检测虚假新闻、恶意视频内容等。通过识别AI生成的视频,可以帮助用户辨别信息的真伪,维护网络空间的健康和安全。此外,该技术还可以应用于版权保护、内容审核等领域,具有重要的社会价值和应用前景。

📄 摘要(原文)

The proliferation of advanced AI video synthesis techniques poses an unprecedented challenge to digital video authenticity. Existing AI-generated video (AIGV) detection methods primarily focus on uni-modal or spatiotemporal artifacts, but they overlook the rich cues within the visual-textual cross-modal space, especially the temporal stability of semantic alignment. In this work, we identify a distinctive fingerprint in AIGVs, termed cross-modal temporal artifact (CMTA). Unlike real videos that exhibit natural temporal fluctuations in cross-modal alignment due to semantic variations, AIGVs display unnaturally stable semantic trajectories governed by given input prompts. To bridge this gap, we propose the CMTA framework, a cross-modal detection approach that captures these unique temporal artifacts through joint cross-modal embedding and multi-grained temporal modeling. Specifically, CMTA leverages BLIP to generate frame-level image captions and utilizes CLIP to extract corresponding visual-textual representations. A coarse-grained temporal modeling branch is then designed to characterize temporal fluctuations in cross-modal alignment with a GRU. In parallel, a fine-grained branch is constructed to capture intricate inter-frame variations from integrated visual-textual features with a Transformer encoder. Extensive experiments on 40 subsets across four large-scale datasets, including GenVideo, EvalCrafter, VideoPhy, and VidProM, validate that our approach sets a new state-of-the-art while exhibiting superior cross-generator generalization. Code and models of CMTA will be released at https://github.com/hwang-cs-ime/CMTA