Learning Human-Perceived Fakeness in AI-Generated Videos via Multimodal LLMs
作者: Xingyu Fu, Siyi Liu, Yinuo Xu, Pan Lu, Guangqiuse Hu, Tianbo Yang, Taran Anantasagar, Christopher Shen, Yikai Mao, Yuanzhe Liu, Keyush Shah, Chung Un Lee, Yejin Choi, James Zou, Dan Roth, Chris Callison-Burch
分类: cs.CV, cs.AI, cs.CL
发布日期: 2025-09-26 (更新: 2025-10-01)
备注: Project Page: https://deeptracereward.github.io/
💡 一句话要点
提出DeeptraceReward基准,利用多模态LLM学习AI生成视频中人类感知的伪造痕迹。
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: AI生成视频 深度伪造检测 多模态学习 奖励模型 伪造痕迹 时空定位 自然语言解释
📋 核心要点
- 现有视频生成模型缺乏对人类感知到的伪造痕迹的细粒度评估,导致生成的视频可能存在明显的伪影。
- 本文提出DeeptraceReward基准,通过人工标注提供细粒度的时空伪造痕迹定位和自然语言解释,用于训练奖励模型。
- 实验表明,基于DeeptraceReward训练的7B奖励模型在伪造线索识别、定位和解释方面显著优于GPT-5,提升达34.7%。
📝 摘要(中文)
本文旨在研究人类识别AI生成(伪造)视频并提供理由的能力。尽管视频生成模型发展迅速,但一个关键维度——人类是否能检测到生成视频中的深度伪造痕迹,即揭示视频为机器生成的时空定位视觉伪影——在很大程度上被忽视了。为此,本文提出了DeeptraceReward,这是第一个细粒度、具有空间和时间感知能力的基准,用于标注视频生成奖励中人类感知的伪造痕迹。该数据集包含3.3K高质量生成视频上的4.3K详细标注。每个标注提供自然语言解释,精确定位包含感知痕迹的边界框区域,并标记精确的起始和结束时间戳。本文将这些标注整合为9个主要的深度伪造痕迹类别,这些痕迹导致人类将视频识别为AI生成,并训练多模态语言模型(LM)作为奖励模型,以模仿人类的判断和定位。在DeeptraceReward上,本文的7B奖励模型在伪造线索识别、定位和解释方面的平均性能优于GPT-5 34.7%。有趣的是,本文观察到一致的难度梯度:二元伪造与真实分类比细粒度的深度伪造痕迹检测容易得多;在后者中,性能从自然语言解释(最容易)下降到空间定位,再到时间标记(最难)。通过突出人类感知的深度伪造痕迹,DeeptraceReward为具有社会意识和值得信赖的视频生成提供了一个严格的测试平台和训练信号。
🔬 方法详解
问题定义:论文旨在解决AI生成视频中,人类如何感知和识别伪造痕迹的问题。现有方法主要集中在二元分类(真/假),缺乏对伪造痕迹的细粒度定位和解释能力,无法有效指导视频生成模型生成更逼真的内容。
核心思路:论文的核心思路是通过构建一个包含详细人工标注的数据集,来模拟人类对AI生成视频伪造痕迹的感知。然后,利用这个数据集训练多模态语言模型,使其能够像人类一样识别、定位和解释这些伪造痕迹。这样,就可以将训练好的模型作为奖励模型,用于指导视频生成模型生成更符合人类感知的视频。
技术框架:整体框架包括以下几个主要阶段:1) 构建DeeptraceReward数据集,包含AI生成视频、伪造痕迹的边界框标注、起始/结束时间戳以及自然语言解释;2) 基于该数据集训练多模态语言模型,使其能够预测伪造痕迹的位置、时间以及原因;3) 将训练好的模型作为奖励模型,用于指导视频生成模型的训练。
关键创新:论文的关键创新在于:1) 提出了DeeptraceReward数据集,这是第一个细粒度、时空感知的AI生成视频伪造痕迹标注数据集;2) 利用多模态语言模型学习人类对伪造痕迹的感知,并将其用于奖励模型,从而指导视频生成。
关键设计:DeeptraceReward数据集包含4.3K个标注,覆盖9个主要的深度伪造痕迹类别。多模态语言模型采用7B参数规模,输入包括视频帧、文本提示等,输出包括伪造痕迹的边界框坐标、时间戳以及自然语言解释。损失函数包括分类损失、回归损失和语言模型损失,用于优化模型的识别、定位和解释能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在DeeptraceReward数据集上,本文提出的7B奖励模型在伪造线索识别、定位和解释方面的平均性能优于GPT-5 34.7%。此外,实验还揭示了伪造痕迹检测的难度梯度:二元分类最容易,自然语言解释次之,空间定位更难,时间标记最难。
🎯 应用场景
该研究成果可应用于提升AI生成视频的真实感和可信度,减少深度伪造视频的滥用。通过训练能够识别和定位伪造痕迹的模型,可以帮助检测和过滤虚假视频内容,维护网络安全和信息安全。此外,该研究还可以促进视频生成技术的发展,使其能够生成更符合人类感知的、高质量的视频内容。
📄 摘要(原文)
Can humans identify AI-generated (fake) videos and provide grounded reasons? While video generation models have advanced rapidly, a critical dimension -- whether humans can detect deepfake traces within a generated video, i.e., spatiotemporal grounded visual artifacts that reveal a video as machine generated -- has been largely overlooked. We introduce DeeptraceReward, the first fine-grained, spatially- and temporally- aware benchmark that annotates human-perceived fake traces for video generation reward. The dataset comprises 4.3K detailed annotations across 3.3K high-quality generated videos. Each annotation provides a natural-language explanation, pinpoints a bounding-box region containing the perceived trace, and marks precise onset and offset timestamps. We consolidate these annotations into 9 major categories of deepfake traces that lead humans to identify a video as AI-generated, and train multimodal language models (LMs) as reward models to mimic human judgments and localizations. On DeeptraceReward, our 7B reward model outperforms GPT-5 by 34.7% on average across fake clue identification, grounding, and explanation. Interestingly, we observe a consistent difficulty gradient: binary fake v.s. real classification is substantially easier than fine-grained deepfake trace detection; within the latter, performance degrades from natural language explanations (easiest), to spatial grounding, to temporal labeling (hardest). By foregrounding human-perceived deepfake traces, DeeptraceReward provides a rigorous testbed and training signal for socially aware and trustworthy video generation.