BusterX: MLLM-Powered AI-Generated Video Forgery Detection and Explanation
作者: Haiquan Wen, Yiwei He, Zhenglin Huang, Tianxiao Li, Zihan Yu, Xingru Huang, Lu Qi, Baoyuan Wu, Xiangtai Li, Guangliang Cheng
分类: cs.CV
发布日期: 2025-05-19 (更新: 2025-11-16)
💡 一句话要点
BusterX:提出基于MLLM的AI生成视频伪造检测与解释框架,并构建大规模数据集GenBuster-200K。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: AI生成视频检测 多模态大语言模型 强化学习 可解释性AI 视频伪造检测
📋 核心要点
- 现有AI生成视频检测方法缺乏大规模数据集支持,且通常仅进行二元分类,缺乏可解释性。
- BusterX利用多模态大语言模型和强化学习,提供AI生成视频的真实性判断和可解释性推理。
- 实验结果表明,BusterX在AI生成视频检测任务上表现出有效性和良好的泛化能力。
📝 摘要(中文)
人工智能生成模型的进步使得超逼真的视频合成成为可能,但也通过社交媒体放大了虚假信息的风险,并削弱了对数字内容的信任。一些研究工作已经探索了新的深度伪造检测方法,以减轻AI生成图像的风险。然而,随着Sora和WanX等视频生成模型的快速发展,目前缺乏用于伪造检测的大规模、高质量的AI生成视频数据集。此外,现有的检测方法主要将该任务视为二元分类,缺乏模型决策的可解释性,也无法为公众提供可操作的见解或指导。为了应对这些挑战,我们提出了GenBuster-200K,这是一个大规模的AI生成视频数据集,包含20万个高分辨率视频片段,涵盖了各种最新的生成技术,强调公平性,并侧重于真实场景。我们进一步推出了BusterX,这是一个新颖的AI生成视频检测和解释框架,利用多模态大型语言模型(MLLM)和强化学习(RL)来提供真实性判断和可解释的理由。据我们所知,BusterX是第一个将MLLM与RL相结合用于可解释AI生成视频检测的框架。大量的最先进方法实验和消融研究证明了BusterX的有效性和泛化性。
🔬 方法详解
问题定义:当前AI生成视频检测领域面临两个主要问题:一是缺乏大规模、高质量的AI生成视频数据集,难以充分训练和评估检测模型;二是现有检测方法通常仅输出真/假二元结果,缺乏可解释性,无法提供决策依据,难以让用户信任。
核心思路:BusterX的核心思路是利用多模态大语言模型(MLLM)的强大理解和推理能力,结合强化学习(RL)来提升检测的可解释性。通过让模型生成解释性文本,使用户能够理解模型判断的依据,从而增强信任感。
技术框架:BusterX框架主要包含以下几个模块:1) 视频特征提取模块,用于提取视频的关键视觉特征;2) MLLM推理模块,将视频特征输入MLLM,让其生成关于视频真实性的判断和解释;3) 强化学习优化模块,使用RL来优化MLLM生成的解释,使其更加准确、连贯和易于理解。整体流程是:输入视频 -> 提取特征 -> MLLM生成初步判断和解释 -> RL优化解释 -> 输出最终判断和解释。
关键创新:BusterX的关键创新在于将MLLM与RL相结合,用于AI生成视频的检测和解释。这是首次尝试将大型语言模型的推理能力与强化学习的优化能力结合起来,以提升检测结果的可解释性。与传统的二元分类方法相比,BusterX能够提供更丰富的信息,帮助用户理解模型决策的过程。
关键设计:在MLLM的选择上,论文可能采用了开源或自研的多模态大语言模型,并针对视频理解任务进行了微调。强化学习部分,可能采用了策略梯度算法,奖励函数的设计至关重要,需要综合考虑解释的准确性、连贯性和易懂性。具体的损失函数和网络结构细节未知。
🖼️ 关键图片
📊 实验亮点
论文构建了包含20万个高分辨率视频片段的大规模AI生成视频数据集GenBuster-200K。BusterX框架在AI生成视频检测任务上取得了显著的性能提升,并通过提供可解释的理由,增强了用户对检测结果的信任度。具体的性能数据和对比基线未知。
🎯 应用场景
BusterX可应用于社交媒体平台、新闻媒体机构等,用于检测和标记AI生成的虚假视频,从而减少虚假信息的传播,维护网络空间的健康。该技术还有助于提高公众对AI生成内容的辨别能力,增强对数字内容的信任度。未来,该技术可进一步扩展到其他类型的多媒体内容,如音频和图像。
📄 摘要(原文)
Advances in AI generative models facilitate super-realistic video synthesis, amplifying misinformation risks via social media and eroding trust in digital content. Several research works have explored new deepfake detection methods on AI-generated images to alleviate these risks. However, with the fast development of video generation models, such as Sora and WanX, there is currently a lack of large-scale, high-quality AI-generated video datasets for forgery detection. In addition, existing detection approaches predominantly treat the task as binary classification, lacking explainability in model decision-making and failing to provide actionable insights or guidance for the public. To address these challenges, we propose \textbf{GenBuster-200K}, a large-scale AI-generated video dataset featuring 200K high-resolution video clips, diverse latest generative techniques, emphasis on fairness, and focus on real-world scenes. We further introduce \textbf{BusterX}, a novel AI-generated video detection and explanation framework leveraging multimodal large language model (MLLM) and reinforcement learning (RL) to provide authenticity determination and explainable rationales. To our knowledge, BusterX is the first framework to integrate MLLM with RL for explainable AI-generated video detection. Extensive experiments with state-of-the-art methods and ablation studies demonstrate the effectiveness and generalizability of BusterX.