Preserving Forgery Artifacts: AI-Generated Video Detection at Native Scale

📄 arXiv: 2604.04634 📥 PDF

作者: Zhengcen Li, Chenyang Jiang, Hang Zhao, Shiyang Zhou, Yunyang Mo, Feng Gao, Fan Yang, Qiben Shan, Shaocong Wu, Jingyong Su

分类: cs.CV, cs.AI

发布日期: 2026-04-07


💡 一句话要点

提出原生尺度AI生成视频检测框架,有效提升伪造视频的识别精度。

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: AI生成视频检测 原生尺度处理 Vision Transformer 高频伪影 时空一致性

📋 核心要点

  1. 现有AI生成视频检测方法依赖预处理,损失高频伪造痕迹,且数据集陈旧,难以应对新型生成模型。
  2. 论文提出原生尺度检测框架,直接处理原始分辨率视频,保留更多伪造线索,提升检测精度。
  3. 实验表明,该方法在多个基准测试中表现优异,为AI生成视频检测提供了新的基线。

📝 摘要(中文)

视频生成模型的快速发展使得合成媒体的制作变得高度逼真,引发了对虚假信息传播的严重社会担忧。然而,现有的检测方法存在关键局限性,它们依赖于固定分辨率调整大小和裁剪等预处理操作,这不仅丢弃了细微的高频伪造痕迹,还会导致空间扭曲和显著的信息损失。此外,现有方法通常在过时的数据集上进行训练和评估,无法捕捉现代生成模型的复杂性。为了解决这些挑战,我们引入了一个全面的数据集和一个新颖的检测框架。首先,我们整理了一个包含来自15个最先进的开源和商业生成器的超过14万个视频的大规模数据集,以及专门为评估超逼真合成内容而设计的Magic Videos基准。此外,我们提出了一个基于Qwen2.5-VL Vision Transformer的新型检测框架,该框架以可变空间分辨率和时间长度原生运行。这种原生尺度方法有效地保留了通常在传统预处理过程中丢失的高频伪影和时空不一致性。大量的实验表明,我们的方法在多个基准测试中实现了卓越的性能,强调了原生尺度处理的关键重要性,并为AI生成的视频检测建立了一个强大的新基线。

🔬 方法详解

问题定义:当前AI生成视频检测方法依赖于预处理步骤,如固定分辨率缩放和裁剪,这会不可避免地丢失视频中的高频伪造痕迹,例如细微的图像噪声、不自然的纹理等。此外,现有数据集无法涵盖最新的生成模型,导致检测器泛化能力不足。因此,需要一种能够直接处理原始分辨率视频,并能有效识别新型生成模型伪造痕迹的检测方法。

核心思路:论文的核心思路是在原生尺度上进行视频检测,即避免任何可能损失高频信息的预处理操作。通过直接处理原始分辨率和时间长度的视频,模型能够更好地捕捉到细微的伪造痕迹和时空不一致性。此外,使用最新的大规模数据集进行训练,可以提高模型对新型生成模型的适应性。

技术框架:该检测框架基于Qwen2.5-VL Vision Transformer构建。整体流程包括:1) 直接输入原始分辨率和时间长度的视频;2) 使用Vision Transformer提取视频的时空特征;3) 利用分类器判断视频是否为AI生成。该框架的关键在于避免了任何预处理操作,从而保留了原始视频中的所有信息。

关键创新:最重要的技术创新点在于原生尺度处理。与传统方法相比,该方法无需进行分辨率调整和裁剪等预处理,从而避免了信息损失,特别是高频伪造痕迹的损失。这使得模型能够更准确地识别AI生成的视频。

关键设计:Qwen2.5-VL Vision Transformer作为特征提取器,其强大的视觉理解能力是关键。此外,使用大规模数据集进行训练,并可能采用了一些数据增强技术来提高模型的鲁棒性。具体的损失函数和网络结构细节可能需要参考论文原文。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在多个基准测试中取得了优异的性能,表明了原生尺度处理的重要性。具体性能数据和对比基线需要在论文原文中查找。总体而言,该方法为AI生成视频检测提供了一个新的、更有效的解决方案。

🎯 应用场景

该研究成果可应用于打击网络虚假信息传播,维护社会稳定。例如,社交媒体平台可以使用该技术自动检测和标记AI生成的虚假视频,从而减少其传播。此外,该技术还可以用于版权保护,防止未经授权的AI生成内容侵犯版权。

📄 摘要(原文)

The rapid advancement of video generation models has enabled the creation of highly realistic synthetic media, raising significant societal concerns regarding the spread of misinformation. However, current detection methods suffer from critical limitations. They rely on preprocessing operations like fixed-resolution resizing and cropping. These operations not only discard subtle, high-frequency forgery traces but also cause spatial distortion and significant information loss. Furthermore, existing methods are often trained and evaluated on outdated datasets that fail to capture the sophistication of modern generative models. To address these challenges, we introduce a comprehensive dataset and a novel detection framework. First, we curate a large-scale dataset of over 140K videos from 15 state-of-the-art open-source and commercial generators, along with Magic Videos benchmark designed specifically for evaluating ultra-realistic synthetic content. In addition, we propose a novel detection framework built on the Qwen2.5-VL Vision Transformer, which operates natively at variable spatial resolutions and temporal durations. This native-scale approach effectively preserves the high-frequency artifacts and spatiotemporal inconsistencies typically lost during conventional preprocessing. Extensive experiments demonstrate that our method achieves superior performance across multiple benchmarks, underscoring the critical importance of native-scale processing and establishing a robust new baseline for AI-generated video detection.