AEGIS: Authenticity Evaluation Benchmark for AI-Generated Video Sequences

📄 arXiv: 2508.10771v1 📥 PDF

作者: Jieyu Li, Xin Zhang, Joey Tianyi Zhou

分类: cs.CV, cs.AI

发布日期: 2025-08-14

备注: Proceedings of the 33rd ACM International Conference on Multimedia

DOI: 10.1145/3746027.3758295

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

AEGIS:用于评估AI生成视频序列真实性的基准数据集

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AI生成视频 真实性检测 基准数据集 视觉-语言模型 多模态标注

📋 核心要点

  1. 现有视频真实性检测基准在真实性、规模和复杂度上存在不足,难以有效评估模型对复杂AI伪造视频的检测能力。
  2. AEGIS通过构建大规模、高真实度、语义丰富的AI生成视频数据集,提供多模态标注,从而促进视频真实性检测研究。
  3. 实验表明,现有先进视觉-语言模型在AEGIS数据集上表现出有限的检测能力,验证了数据集的挑战性和价值。

📝 摘要(中文)

人工智能生成内容的快速发展催生了高度逼真的合成视频,对社会信任和数字安全构成了严重威胁。现有的视频真实性检测基准通常存在真实性不足、规模有限和复杂度不够的问题,无法有效评估现代视觉-语言模型对复杂伪造内容的检测能力。为了解决这一关键问题,我们推出了AEGIS,这是一个新的大规模基准,专门用于检测超逼真和语义细微的AI生成视频。AEGIS包含超过10,000个经过严格筛选的真实和合成视频,由包括Stable Video Diffusion、CogVideoX-5B、KLing和Sora在内的多种最先进的生成模型生成,涵盖开源和专有架构。AEGIS还包含专门构建的具有鲁棒性评估的挑战性子集。此外,我们提供跨越语义-真实性描述、运动特征和低级视觉特征的多模态标注,以促进真实性检测,并支持多模态融合和伪造定位等下游任务。使用先进视觉-语言模型进行的大量实验表明,在AEGIS最具挑战性的子集上,检测能力有限,突显了该数据集的独特复杂性和真实性,超出了现有模型的泛化能力。AEGIS建立了一个不可或缺的评估基准,从根本上推动了开发真正稳健、可靠、广泛通用的视频真实性检测方法的研究,从而能够应对现实世界的伪造威胁。我们的数据集可在https://huggingface.co/datasets/Clarifiedfish/AEGIS上获取。

🔬 方法详解

问题定义:论文旨在解决现有视频真实性检测基准无法有效评估模型对高真实度AI生成视频的检测能力的问题。现有方法在数据集的真实性、规模和复杂度上存在不足,无法满足当前AI生成视频技术快速发展的需求。

核心思路:论文的核心思路是构建一个大规模、高真实度、语义丰富的AI生成视频数据集AEGIS,并提供多模态标注,从而为视频真实性检测研究提供更具挑战性和实用性的评估平台。通过引入更逼真的伪造视频和更全面的标注信息,可以更好地评估和提升模型的检测能力。

技术框架:AEGIS数据集的构建流程主要包括以下几个阶段:1) 收集真实视频数据;2) 利用多种先进的AI生成模型(如Stable Video Diffusion、CogVideoX-5B、KLing和Sora)生成合成视频;3) 对视频进行严格筛选和质量控制;4) 提供多模态标注,包括语义-真实性描述、运动特征和低级视觉特征;5) 构建具有鲁棒性评估的挑战性子集。

关键创新:AEGIS数据集的关键创新在于其高真实度、大规模和多模态标注。与现有数据集相比,AEGIS包含更多由先进AI模型生成的逼真视频,更全面地覆盖了各种伪造类型。此外,AEGIS提供的多模态标注信息可以支持更深入的分析和研究,例如多模态融合和伪造定位。

关键设计:AEGIS数据集的关键设计包括:1) 选择多种具有代表性的AI生成模型,以保证数据集的多样性;2) 采用严格的筛选和质量控制流程,以保证数据集的质量;3) 提供详细的语义-真实性描述,以帮助模型理解视频内容和判断真实性;4) 提取运动特征和低级视觉特征,以提供更全面的视频信息;5) 构建具有鲁棒性评估的挑战性子集,以评估模型在对抗性条件下的表现。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,现有先进的视觉-语言模型在AEGIS数据集最具挑战性的子集上表现出有限的检测能力,这突显了AEGIS数据集的独特复杂性和真实性,以及现有模型泛化能力的不足。这表明AEGIS数据集能够有效评估和推动视频真实性检测技术的发展。

🎯 应用场景

AEGIS数据集可广泛应用于视频内容安全、虚假信息检测、社会舆情分析等领域。通过提高AI模型对伪造视频的检测能力,可以有效防范恶意信息传播,维护社会稳定和公共利益。未来,该数据集可以促进更先进的视频真实性检测技术的发展,为构建可信赖的数字环境提供有力支持。

📄 摘要(原文)

Recent advances in AI-generated content have fueled the rise of highly realistic synthetic videos, posing severe risks to societal trust and digital integrity. Existing benchmarks for video authenticity detection typically suffer from limited realism, insufficient scale, and inadequate complexity, failing to effectively evaluate modern vision-language models against sophisticated forgeries. To address this critical gap, we introduce AEGIS, a novel large-scale benchmark explicitly targeting the detection of hyper-realistic and semantically nuanced AI-generated videos. AEGIS comprises over 10,000 rigorously curated real and synthetic videos generated by diverse, state-of-the-art generative models, including Stable Video Diffusion, CogVideoX-5B, KLing, and Sora, encompassing open-source and proprietary architectures. In particular, AEGIS features specially constructed challenging subsets enhanced with robustness evaluation. Furthermore, we provide multimodal annotations spanning Semantic-Authenticity Descriptions, Motion Features, and Low-level Visual Features, facilitating authenticity detection and supporting downstream tasks such as multimodal fusion and forgery localization. Extensive experiments using advanced vision-language models demonstrate limited detection capabilities on the most challenging subsets of AEGIS, highlighting the dataset's unique complexity and realism beyond the current generalization capabilities of existing models. In essence, AEGIS establishes an indispensable evaluation benchmark, fundamentally advancing research toward developing genuinely robust, reliable, broadly generalizable video authenticity detection methodologies capable of addressing real-world forgery threats. Our dataset is available on https://huggingface.co/datasets/Clarifiedfish/AEGIS.