Explainable Forensics of Manipulated Segments in Untrimmed Long Videos

📄 arXiv: 2606.02402v1 📥 PDF

作者: Yue Feng, Jingjing Li, Qijia Lu, Wei Ji, Jingrou Zhang, Fei Shen, Xiao Li, Yizhen Jia, Qiang Chen, Limin Wang, Wentong Li, Jie Qin

分类: cs.CV

发布日期: 2026-06-01

备注: Accepted to ICML 2026

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出TASLE基准和MSLoc方法,用于长视频中AI篡改片段的可解释性取证。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 长视频取证 AI篡改检测 可解释性分析 多模态学习 大语言模型

📋 核心要点

  1. 现有视频取证方法难以处理长视频中AI生成片段的稀疏嵌入问题,缺乏对篡改片段的时间定位和可解释性分析能力。
  2. 提出TASLE基准数据集和MSLoc取证基线,通过边界敏感提议生成和MLLM细化,实现对长视频篡改片段的精确定位和解释。
  3. 实验验证了MSLoc基线的有效性,强调了片段级可解释性取证在长视频AI生成内容分析中的重要作用。

📝 摘要(中文)

人工智能驱动的视频生成技术快速发展,在提升内容创作效率的同时,也增加了通过长视频中局部篡改进行虚假信息传播的风险。现有的视频取证方法主要针对短视频片段,难以捕捉真实场景中AI生成内容稀疏嵌入的情况。为了弥补这一差距,本文提出了时间AI生成片段定位与解释任务,旨在检测真实性、定位时间边界,并对长视频中被篡改片段进行可解释性分析。此外,本文还引入了大规模基准数据集TASLE,包含12472个未剪辑的长视频,具有多样化的篡改模式和丰富的标注信息,包括时间边界、真实性标签和片段级解释。同时,本文提出了一种由粗到精的取证基线MSLoc,它结合了用于高效长视频扫描的边界敏感提议生成模块和基于MLLM的细化模块,用于精确定位边界和可解释推理。实验验证了所提出的基线的有效性,突出了片段级可解释性取证对于长视频AI生成内容分析的重要性。数据集和代码已公开。

🔬 方法详解

问题定义:论文旨在解决长视频中AI篡改片段的定位与可解释性取证问题。现有方法主要针对短视频,无法有效处理长视频中篡改片段稀疏分布的情况,并且缺乏对篡改原因的解释能力。

核心思路:论文的核心思路是采用一种由粗到精的方法,首先通过边界敏感的提议生成模块快速扫描长视频,定位可能存在篡改的片段,然后利用多模态大语言模型(MLLM)对这些片段进行细化,精确定位篡改边界,并提供可解释的推理过程。

技术框架:MSLoc的整体框架包含两个主要模块:1) 边界敏感提议生成模块:该模块旨在高效地从长视频中生成可能包含篡改片段的提议。2) MLLM细化模块:该模块利用多模态大语言模型对提议进行细化,精确定位篡改边界,并生成可解释的推理过程。

关键创新:论文的关键创新在于将边界敏感的提议生成与MLLM相结合,实现对长视频中AI篡改片段的精确定位和可解释性分析。传统的视频取证方法通常依赖于人工特征或深度学习模型,缺乏对篡改原因的解释能力。而MSLoc通过MLLM,可以提供对篡改片段的推理过程,从而提高取证的可信度。

关键设计:边界敏感提议生成模块的具体实现细节未知,但可以推测其设计目标是尽可能减少遗漏,同时控制提议的数量,以提高效率。MLLM细化模块的关键设计在于如何有效地利用多模态信息(例如视频帧和音频)来指导模型的推理过程。损失函数和网络结构等具体细节在论文中可能有所描述,但摘要中未提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出了TASLE大规模基准数据集,包含12472个未剪辑的长视频,为长视频AI篡改检测研究提供了重要的数据支撑。实验结果验证了MSLoc基线的有效性,表明其在长视频篡改片段定位和可解释性分析方面具有显著优势。具体的性能数据和对比基线信息需要在论文中查找。

🎯 应用场景

该研究成果可应用于新闻媒体、社交平台等领域,用于检测和识别长视频中的AI篡改片段,防止虚假信息的传播。同时,该方法提供的可解释性分析有助于提高公众对AI生成内容的辨别能力,维护网络空间的健康和安全。未来,该技术还可扩展到其他类型的多媒体内容,例如音频和图像。

📄 摘要(原文)

The rapid advancement of AI-driven video generation has transformed content creation, while simultaneously increasing the risk of misinformation through localized manipulations in long-form videos. Existing video forensic methods predominantly operate on short, independent clips, and thus fail to capture realistic scenarios where AI-generated content is sparsely embedded within otherwise authentic footage. To bridge this gap, we formulate the task of Temporal AI-Generated Segment Localization and Explanation, which targets authenticity detection, temporal localization, and interpretable analysis of manipulated segments in untrimmed long videos. We further introduce TASLE, a large-scale benchmark comprising 12,472 untrimmed videos with diverse manipulation patterns and rich annotation signals, including temporal boundaries, authenticity labels, and segment-level rationales. In addition, we propose MSLoc, a coarse-to-fine forensic baseline that combines a boundary-sensitive proposal generation module for efficient long-video scanning with an MLLM-based refinement module for precise boundary localization and interpretable reasoning. Experiments validate the effectiveness of the proposed baseline, highlighting the importance of segment-level explainable forensics for long-form AI-generated video analysis. Our dataset and code are publicly available at https://debby-0527.github.io/TASLE.