VideoTIR: Accurate Understanding for Long Videos with Efficient Tool-Integrated Reasoning
作者: Zhe Gao, Shiyu Shen, Taifeng Chai, Weinong Wang, Haotian Xu, Xing W, Wenbin Li, Qi Fan, Yang Gao, Dacheng Tao
分类: cs.CV
发布日期: 2026-03-26
💡 一句话要点
VideoTIR:利用强化学习和工具集成推理提升长视频理解的准确性和效率
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长视频理解 多模态大语言模型 强化学习 工具调用 视频问答
📋 核心要点
- 现有MLLM在长视频理解中易产生幻觉,原因是文本和视觉信息不平衡,模型难以有效处理长序列。
- VideoTIR利用强化学习,使MLLM学会调用多层次工具包,聚焦关键视频片段,提升理解准确性。
- 提出的TAGPO减少冗余工具调用,提升效率,并使用沙盒生成高质量训练数据,实验证明有效。
📝 摘要(中文)
现有的多模态大型语言模型(MLLM)在长视频理解(LVU)中经常出现幻觉,这主要是由于文本和视觉token之间的不平衡。观察到MLLM能够很好地处理短视觉输入,最近的LVU工作通过自动将大量的视觉数据解析为可管理的片段来缓解幻觉,这些片段可以被MLLM有效地处理。基于SFT的工具调用方法可以实现这个目的,但它们通常需要大量的细粒度、高质量的数据,并且受到约束的工具调用轨迹的限制。我们提出了一种新的VideoTIR,它利用强化学习(RL)来鼓励正确使用全面的多层次工具包,以实现高效的长视频理解。VideoTIR探索了Zero-RL和SFT冷启动,使MLLM能够检索和关注有意义的视频片段/图像/区域,从而提高长视频理解的准确性和效率。为了减少冗余的工具调用,我们提出了工具包动作分组策略优化(TAGPO),通过逐步奖励分配和重用失败的rollout来提高调用过程的效率。此外,我们开发了一个基于沙盒的轨迹合成框架来生成高质量的轨迹数据。在三个长视频问答基准上的大量实验证明了我们方法的有效性和效率。
🔬 方法详解
问题定义:现有方法在处理长视频理解任务时,由于视频信息量大,文本和视觉token数量不平衡,导致多模态大语言模型容易产生幻觉,无法准确理解视频内容。同时,基于SFT的工具调用方法需要大量高质量数据,且工具调用轨迹受限,难以有效利用。
核心思路:VideoTIR的核心思路是利用强化学习,训练MLLM学会如何有效地调用多层次工具包,从而将长视频分解为更易于处理的片段,并聚焦于关键的视频内容。通过鼓励模型主动探索和利用工具,提高其理解长视频的能力,并减少幻觉的产生。
技术框架:VideoTIR的整体框架包含以下几个主要模块:1) 多层次工具包:提供多种工具,用于视频片段提取、图像识别、区域定位等。2) 强化学习Agent:负责学习如何调用工具,以最大化奖励。3) MLLM:作为基础模型,接收工具返回的信息,并进行推理和问答。4) 奖励函数:用于评估Agent的工具调用行为,引导其学习正确的策略。框架通过迭代训练,使Agent学会最优的工具调用策略,从而提升MLLM的长视频理解能力。
关键创新:VideoTIR的关键创新在于将强化学习引入到长视频理解的工具调用过程中。与传统的SFT方法相比,VideoTIR能够通过奖励机制,鼓励模型主动探索和学习更有效的工具调用策略,从而更好地适应不同的视频内容。此外,TAGPO的提出,进一步提高了工具调用的效率。
关键设计:在强化学习方面,采用了Toolkit Action Grouped Policy Optimization (TAGPO) 来减少冗余工具调用,通过逐步奖励分配和重用失败的rollout来提高调用过程的效率。同时,设计了一个基于沙盒的轨迹合成框架来生成高质量的轨迹数据,用于训练强化学习Agent。具体参数设置和损失函数细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,VideoTIR在三个长视频问答基准上均取得了显著的性能提升。相较于现有方法,VideoTIR在准确性和效率方面均有明显优势。具体性能数据和对比基线在论文中有详细展示,证明了该方法的有效性。
🎯 应用场景
VideoTIR技术可应用于智能监控、视频内容分析、智能客服等领域。例如,在智能监控中,可以自动分析监控视频,识别异常事件;在视频内容分析中,可以提取视频关键信息,生成摘要;在智能客服中,可以理解用户上传的视频,提供更精准的解答。该技术具有广阔的应用前景和实际价值。
📄 摘要(原文)
Existing Multimodal Large Language Models (MLLMs) often suffer from hallucinations in long video understanding (LVU), primarily due to the imbalance between textual and visual tokens. Observing that MLLMs handle short visual inputs well, recent LVU works alleviate hallucinations by automatically parsing the vast visual data into manageable segments that can be effectively processed by MLLMs. SFT-based tool-calling methods can serve this purpose, but they typically require vast amounts of fine-grained, high-quality data and suffer from constrained tool-calling trajectories. We propose a novel VideoTIR that leverages Reinforcement Learning (RL) to encourage proper usage of comprehensive multi-level toolkits for efficient long video understanding. VideoTIR explores both Zero-RL and SFT cold-starting to enable MLLMs to retrieve and focus on meaningful video segments/images/regions, enhancing long video understanding both accurately and efficiently. To reduce redundant tool-calling, we propose Toolkit Action Grouped Policy Optimization (TAGPO), which enhances the efficiency of the calling process through stepwise reward assignment and reuse of failed rollouts. Additionally, we develop a sandbox-based trajectory synthesis framework to generate high-quality trajectories data. Extensive experiments on three long-video QA benchmarks demonstrate the effectiveness and efficiency of our method.