VideoSeeker: Incentivizing Instance-level Video Understanding via Native Agentic Tool Invocation

📄 arXiv: 2605.16079v1 📥 PDF

作者: Yiming Zhao, Yu Zeng, Wenxuan Huang, Zhen Fang, Qing Miao, Qisheng Su, Jiawei Zhao, Jiayin Cai, Lin Chen, Zehui Chen, Yukun Qi, Yao Hu, Xiaolong Jiang, Feng Zhao

分类: cs.CV, cs.AI, cs.HC

发布日期: 2026-05-15

备注: Project Page: https://gaotiexinqu.github.io/VideoSeeker/


💡 一句话要点

VideoSeeker:通过原生Agent工具调用,激励实例级视频理解

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 实例级视频理解 视觉提示 Agent推理 工具调用 主动感知 数据合成 强化学习 视频分析

📋 核心要点

  1. 现有视频理解模型在实例级时空定位方面存在不足,依赖文本提示交互,难以提供精确参考。
  2. VideoSeeker通过视觉提示和Agent推理,使模型能主动感知和检索视频片段,提升理解能力。
  3. 实验表明,VideoSeeker在实例级视频理解任务上显著优于现有模型,并具备良好的泛化能力。

📝 摘要(中文)

大型视觉-语言模型(LVLMs)在视频理解方面取得了显著进展,但在需要精确时空定位的任务中仍面临巨大挑战。现有方法主要依赖文本提示进行人机交互,但这些提示难以提供精确的空间和时间参考,导致用户体验不佳。此外,当前方法通常将视觉感知与语言推理分离,以语言为中心进行推理,限制了模型主动感知细粒度视觉证据的能力。为了解决这些挑战,我们提出了VideoSeeker,一种通过视觉提示进行实例级视频理解的新范例。VideoSeeker将Agent推理与实例级视频理解任务无缝集成,使模型能够按需主动感知和检索相关视频片段。我们构建了一个四阶段全自动数据合成流程,以高效生成大规模、高质量的实例级视频数据。我们通过冷启动监督和强化学习训练,将工具调用和主动感知能力内置到模型中,构建了一个强大的视频理解模型。实验表明,我们的模型在实例级视频理解任务上比基线模型平均提高了+13.7%,超过了GPT-4o和Gemini-2.5-Pro等强大的闭源模型,同时在通用视频理解基准测试中也显示出有效的可迁移性。相关数据集和代码将公开发布。

🔬 方法详解

问题定义:现有的大型视觉-语言模型在实例级别的视频理解任务中,尤其是在需要精确定位视频中特定对象或事件的时空位置时,表现不佳。现有的方法依赖于文本提示与模型交互,但文本提示难以提供精确的空间和时间信息,导致用户体验差,且模型难以主动感知细粒度的视觉信息。

核心思路:VideoSeeker的核心思路是将Agent推理与实例级别的视频理解任务相结合,通过视觉提示引导模型主动地感知和检索视频中的相关片段。模型不再是被动地响应文本指令,而是能够主动地探索视频内容,寻找与任务相关的视觉证据。

技术框架:VideoSeeker的整体框架包含以下几个主要阶段:1) 数据合成阶段:构建一个四阶段全自动数据合成流程,生成大规模、高质量的实例级视频数据。2) 冷启动监督阶段:通过监督学习,使模型初步具备工具调用和主动感知的能力。3) 强化学习训练阶段:利用强化学习进一步提升模型的主动感知和推理能力。4) 模型评估阶段:在实例级视频理解任务和通用视频理解基准测试上评估模型的性能。

关键创新:VideoSeeker的关键创新在于:1) 引入了视觉提示,取代了传统的文本提示,从而能够更精确地引导模型关注视频中的特定区域和时间段。2) 将Agent推理能力融入到视频理解模型中,使模型能够主动地探索视频内容,寻找与任务相关的视觉证据。3) 构建了一个全自动的数据合成流程,能够高效地生成大规模、高质量的实例级视频数据。

关键设计:数据合成流程包含四个阶段,具体细节未知。模型通过冷启动监督和强化学习训练,将工具调用和主动感知能力内置到模型中,具体损失函数和网络结构细节未知。强化学习的具体奖励函数设计未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VideoSeeker在实例级视频理解任务上取得了显著的性能提升,平均比基线模型提高了13.7%。更重要的是,VideoSeeker的性能超过了GPT-4o和Gemini-2.5-Pro等强大的闭源模型。此外,VideoSeeker在通用视频理解基准测试中也表现出良好的可迁移性,表明其具有较强的泛化能力。

🎯 应用场景

VideoSeeker在视频监控、智能安防、自动驾驶、视频编辑、教育娱乐等领域具有广泛的应用前景。它可以用于自动识别视频中的异常事件、辅助驾驶员进行危险预警、自动生成视频摘要、提供个性化的教育内容等。该研究有望推动视频理解技术的发展,提升人机交互的效率和智能化水平。

📄 摘要(原文)

Large Vision-Language Models (LVLMs) have shown significant progress in video understanding, yet they face substantial challenges in tasks requiring precise spatiotemporal localization at the instance level. Existing methods primarily rely on text prompts for human-model interaction, but these prompts struggle to provide precise spatial and temporal references, resulting in poor user experience. Furthermore, current approaches typically decouple visual perception from language reasoning, centering reasoning around language rather than visual content, which limits the model's ability to proactively perceive fine-grained visual evidence. To address these challenges, we propose VideoSeeker, a novel paradigm for instance-level video understanding through visual prompts. VideoSeeker seamlessly integrates agentic reasoning with instance-level video understanding tasks, enabling the model to proactively perceive and retrieve relevant video segments on demand. We construct a four-stage fully automated data synthesis pipeline to efficiently generate large-scale, high-quality instance-level video data. We internalize tool-calling and proactive perception capabilities into the model via cold-start supervision and RL training, building a powerful video understanding model. Experiments demonstrate that our model achieves an average improvement of +13.7% over baselines on instance-level video understanding tasks, surpassing powerful closed-source models such as GPT-4o and Gemini-2.5-Pro, while also showing effective transferability on general video understanding benchmarks. The relevant datasets and code will be released publicly.