Explainable Forensics of Manipulated Segments in Untrimmed Long Videos

作者: Yue Feng, Jingjing Li, Qijia Lu, Wei Ji, Jingrou Zhang, Fei Shen, Xiao Li, Yizhen Jia, Qiang Chen, Limin Wang, Wentong Li, Jie Qin

分类: cs.CV

发布日期: 2026-06-01

备注: Accepted to ICML 2026

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出TASLE基准和MSLoc方法，用于长视频中AI篡改片段的可解释性取证。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 长视频取证 AI篡改检测 可解释性分析 多模态学习 大语言模型

📋 核心要点

现有视频取证方法难以处理长视频中AI生成片段的稀疏嵌入问题，缺乏对篡改片段的时间定位和可解释性分析能力。
提出TASLE基准数据集和MSLoc取证基线，通过边界敏感提议生成和MLLM细化，实现对长视频篡改片段的精确定位和解释。
实验验证了MSLoc基线的有效性，强调了片段级可解释性取证在长视频AI生成内容分析中的重要作用。

📝 摘要（中文）

人工智能驱动的视频生成技术快速发展，在提升内容创作效率的同时，也增加了通过长视频中局部篡改进行虚假信息传播的风险。现有的视频取证方法主要针对短视频片段，难以捕捉真实场景中AI生成内容稀疏嵌入的情况。为了弥补这一差距，本文提出了时间AI生成片段定位与解释任务，旨在检测真实性、定位时间边界，并对长视频中被篡改片段进行可解释性分析。此外，本文还引入了大规模基准数据集TASLE，包含12472个未剪辑的长视频，具有多样化的篡改模式和丰富的标注信息，包括时间边界、真实性标签和片段级解释。同时，本文提出了一种由粗到精的取证基线MSLoc，它结合了用于高效长视频扫描的边界敏感提议生成模块和基于MLLM的细化模块，用于精确定位边界和可解释推理。实验验证了所提出的基线的有效性，突出了片段级可解释性取证对于长视频AI生成内容分析的重要性。数据集和代码已公开。

🔬 方法详解

问题定义：论文旨在解决长视频中AI篡改片段的定位与可解释性取证问题。现有方法主要针对短视频，无法有效处理长视频中篡改片段稀疏分布的情况，并且缺乏对篡改原因的解释能力。

核心思路：论文的核心思路是采用一种由粗到精的方法，首先通过边界敏感的提议生成模块快速扫描长视频，定位可能存在篡改的片段，然后利用多模态大语言模型（MLLM）对这些片段进行细化，精确定位篡改边界，并提供可解释的推理过程。

技术框架：MSLoc的整体框架包含两个主要模块：1) 边界敏感提议生成模块：该模块旨在高效地从长视频中生成可能包含篡改片段的提议。2) MLLM细化模块：该模块利用多模态大语言模型对提议进行细化，精确定位篡改边界，并生成可解释的推理过程。

关键创新：论文的关键创新在于将边界敏感的提议生成与MLLM相结合，实现对长视频中AI篡改片段的精确定位和可解释性分析。传统的视频取证方法通常依赖于人工特征或深度学习模型，缺乏对篡改原因的解释能力。而MSLoc通过MLLM，可以提供对篡改片段的推理过程，从而提高取证的可信度。

关键设计：边界敏感提议生成模块的具体实现细节未知，但可以推测其设计目标是尽可能减少遗漏，同时控制提议的数量，以提高效率。MLLM细化模块的关键设计在于如何有效地利用多模态信息（例如视频帧和音频）来指导模型的推理过程。损失函数和网络结构等具体细节在论文中可能有所描述，但摘要中未提及。

🖼️ 关键图片

📊 实验亮点

论文提出了TASLE大规模基准数据集，包含12472个未剪辑的长视频，为长视频AI篡改检测研究提供了重要的数据支撑。实验结果验证了MSLoc基线的有效性，表明其在长视频篡改片段定位和可解释性分析方面具有显著优势。具体的性能数据和对比基线信息需要在论文中查找。

🎯 应用场景

该研究成果可应用于新闻媒体、社交平台等领域，用于检测和识别长视频中的AI篡改片段，防止虚假信息的传播。同时，该方法提供的可解释性分析有助于提高公众对AI生成内容的辨别能力，维护网络空间的健康和安全。未来，该技术还可扩展到其他类型的多媒体内容，例如音频和图像。

📄 摘要（原文）

The rapid advancement of AI-driven video generation has transformed content creation, while simultaneously increasing the risk of misinformation through localized manipulations in long-form videos. Existing video forensic methods predominantly operate on short, independent clips, and thus fail to capture realistic scenarios where AI-generated content is sparsely embedded within otherwise authentic footage. To bridge this gap, we formulate the task of Temporal AI-Generated Segment Localization and Explanation, which targets authenticity detection, temporal localization, and interpretable analysis of manipulated segments in untrimmed long videos. We further introduce TASLE, a large-scale benchmark comprising 12,472 untrimmed videos with diverse manipulation patterns and rich annotation signals, including temporal boundaries, authenticity labels, and segment-level rationales. In addition, we propose MSLoc, a coarse-to-fine forensic baseline that combines a boundary-sensitive proposal generation module for efficient long-video scanning with an MLLM-based refinement module for precise boundary localization and interpretable reasoning. Experiments validate the effectiveness of the proposed baseline, highlighting the importance of segment-level explainable forensics for long-form AI-generated video analysis. Our dataset and code are publicly available at https://debby-0527.github.io/TASLE.

Explainable Forensics of Manipulated Segments in Untrimmed Long Videos

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理