DeMamba: AI-Generated Video Detection on Million-Scale GenVideo Benchmark

📄 arXiv: 2405.19707v3 📥 PDF

作者: Haoxing Chen, Yan Hong, Zizheng Huang, Zhuoer Xu, Zhangxuan Gu, Yaohui Li, Jun Lan, Huijia Zhu, Jianfu Zhang, Weiqiang Wang, Huaxiong Li

分类: cs.CV

发布日期: 2024-05-30 (更新: 2024-08-22)

🔗 代码/项目: GITHUB


💡 一句话要点

提出DeMamba模块与GenVideo基准,提升AI生成视频检测的泛化性与鲁棒性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: AI生成视频检测 GenVideo数据集 Detail Mamba 时空一致性 视频分类

📋 核心要点

  1. 现有AI生成视频检测方法缺乏大规模、多样化的数据集,难以应对真实场景中生成器变化和视频质量退化的问题。
  2. 论文提出Detail Mamba (DeMamba)模块,通过分析视频时空维度上的细节不一致性,提升检测器对AI生成视频的识别能力。
  3. 实验表明,DeMamba在提出的GenVideo数据集上,相较于现有方法,在泛化性和鲁棒性方面均有显著提升。

📝 摘要(中文)

随着视频生成技术的快速发展,AI生成视频的滥用引发了对虚假信息传播的担忧。为了应对这一挑战,论文提出了首个大规模AI生成视频检测数据集GenVideo,包含超过百万的AI生成和真实视频,覆盖了广泛的视频类别和生成技术。同时,论文设计了两种评估方法,即跨生成器视频分类和退化视频分类,以评估检测器在真实场景下的泛化性和鲁棒性。此外,论文还提出了一个名为Detail Mamba (DeMamba)的即插即用模块,通过分析时空维度上的不一致性来增强检测器性能。实验结果表明,DeMamba在GenVideo上具有优于现有检测器的泛化性和鲁棒性。GenVideo数据集和DeMamba模块将显著推动AI生成视频检测领域的发展。

🔬 方法详解

问题定义:当前AI生成视频检测面临的主要问题是缺乏大规模、多样化的数据集,导致现有检测器在面对新的生成器或经过质量退化的视频时,泛化能力不足。现有方法难以有效捕捉AI生成视频在时空维度上的细微不一致性,容易被高质量的生成视频所迷惑。

核心思路:论文的核心思路是构建一个大规模、多样化的AI生成视频数据集GenVideo,并设计一个能够有效捕捉时空维度细节不一致性的检测模块DeMamba。通过大规模数据训练和对细节信息的关注,提升检测器对不同生成器和退化视频的泛化性和鲁棒性。

技术框架:整体框架包含两个主要部分:GenVideo数据集的构建和DeMamba模块的设计。GenVideo数据集包含百万级别的AI生成视频和真实视频,涵盖多种生成方法和视频类别。DeMamba模块是一个即插即用的模块,可以嵌入到现有的视频检测模型中,用于增强其对时空细节的感知能力。

关键创新:DeMamba模块的关键创新在于其能够有效地捕捉AI生成视频在时空维度上的不一致性。与现有方法主要关注整体特征不同,DeMamba更加关注细节信息,例如帧与帧之间的细微差异、物体边缘的模糊程度等。这种对细节的关注使得DeMamba能够更好地识别高质量的AI生成视频。

关键设计:DeMamba模块的具体实现细节未知,但根据论文描述,它可能包含以下关键设计:1) 使用Mamba架构来建模视频的时序信息,Mamba架构擅长处理长序列数据,能够捕捉视频帧之间的长期依赖关系;2) 设计特定的损失函数,鼓励模型关注时空维度上的细节不一致性;3) 采用多尺度特征融合的方式,将不同尺度的特征信息进行整合,从而更好地捕捉视频中的细节信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DeMamba在GenVideo数据集上显著优于现有检测器。在跨生成器视频分类任务中,DeMamba的准确率提升了X%(具体数值未知)。在退化视频分类任务中,DeMamba的鲁棒性也得到了显著提升,准确率提升了Y%(具体数值未知)。这些结果表明,DeMamba在泛化性和鲁棒性方面均具有显著优势。

🎯 应用场景

该研究成果可应用于社交媒体平台、新闻媒体机构等,用于检测和过滤AI生成的虚假视频,防止虚假信息的传播,维护网络安全和社会稳定。同时,该研究也有助于推动AI生成内容监管技术的发展,为构建健康、可信的网络环境提供技术支撑。

📄 摘要(原文)

Recently, video generation techniques have advanced rapidly. Given the popularity of video content on social media platforms, these models intensify concerns about the spread of fake information. Therefore, there is a growing demand for detectors capable of distinguishing between fake AI-generated videos and mitigating the potential harm caused by fake information. However, the lack of large-scale datasets from the most advanced video generators poses a barrier to the development of such detectors. To address this gap, we introduce the first AI-generated video detection dataset, GenVideo. It features the following characteristics: (1) a large volume of videos, including over one million AI-generated and real videos collected; (2) a rich diversity of generated content and methodologies, covering a broad spectrum of video categories and generation techniques. We conducted extensive studies of the dataset and proposed two evaluation methods tailored for real-world-like scenarios to assess the detectors' performance: the cross-generator video classification task assesses the generalizability of trained detectors on generators; the degraded video classification task evaluates the robustness of detectors to handle videos that have degraded in quality during dissemination. Moreover, we introduced a plug-and-play module, named Detail Mamba (DeMamba), designed to enhance the detectors by identifying AI-generated videos through the analysis of inconsistencies in temporal and spatial dimensions. Our extensive experiments demonstrate DeMamba's superior generalizability and robustness on GenVideo compared to existing detectors. We believe that the GenVideo dataset and the DeMamba module will significantly advance the field of AI-generated video detection. Our code and dataset will be aviliable at \url{https://github.com/chenhaoxing/DeMamba}.