Video-o3: Native Interleaved Clue Seeking for Long Video Multi-Hop Reasoning
作者: Xiangyu Zeng, Zhiqiu Zhang, Yuhan Zhu, Xinhao Li, Zikang Wang, Changlian Ma, Qingyu Zhang, Zizheng Huang, Kun Ouyang, Tianxiang Jiang, Ziang Yan, Yi Wang, Hongjie Zhang, Yali Wang, Limin Wang
分类: cs.CV
发布日期: 2026-01-30
备注: 24 pages, 15 figures, 11 tables
💡 一句话要点
Video-o3:面向长视频多跳推理的原生交错线索搜索框架
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长视频理解 多跳推理 多模态学习 工具调用 注意力机制 强化学习 证据搜索
📋 核心要点
- 现有方法在长视频理解中依赖均匀采样和单轮推理,难以发现关键的稀疏证据。
- Video-o3通过迭代搜索视觉线索、细粒度检查关键片段和自适应终止来解决该问题。
- 实验表明,Video-o3在MLVU和Video-Holmes数据集上显著优于现有方法,验证了其有效性。
📝 摘要(中文)
现有的长视频理解多模态大语言模型主要依赖于均匀采样和单轮推理,限制了其在大量冗余信息中识别稀疏但关键证据的能力。我们提出了Video-o3,一种新颖的框架,支持迭代发现显著的视觉线索,细粒度地检查关键片段,并在获得充分证据后自适应地终止。在技术上,我们解决了交错工具调用中的两个核心挑战。首先,为了减轻推理和工具调用异质性引起的注意力分散,我们提出了任务解耦注意力掩码,它隔离了每一步的注意力集中,同时保留了共享的全局上下文。其次,为了控制多轮交互中的上下文长度增长,我们引入了可验证的轨迹引导奖励,以平衡探索覆盖率和推理效率。为了支持大规模训练,我们进一步开发了一个数据合成管道,并构建了Seeker-173K,包含173K高质量的工具交互轨迹,用于有效的监督学习和强化学习。大量的实验表明,Video-o3显著优于最先进的方法,在MLVU上实现了72.1%的准确率,在Video-Holmes上实现了46.5%的准确率。这些结果证明了Video-o3强大的多跳证据搜索和推理能力,并验证了原生工具调用在长视频场景中的有效性。
🔬 方法详解
问题定义:现有长视频多跳推理方法难以有效处理视频中的信息冗余,无法准确找到关键证据。均匀采样忽略了视频内容的重要性,单轮推理无法进行迭代式的线索挖掘,导致推理性能受限。现有方法缺乏有效的机制来引导模型关注关键信息,并控制上下文长度的增长。
核心思路:Video-o3的核心思路是模拟人类在处理复杂问题时的线索搜索过程,通过迭代地调用工具来发现关键视觉线索,并逐步缩小搜索范围。该方法旨在通过交错的推理和工具调用,使模型能够更有效地利用长视频中的信息,并做出准确的判断。通过可验证的轨迹引导奖励,平衡探索覆盖率和推理效率。
技术框架:Video-o3框架包含以下主要模块:1) 视频编码器:用于提取视频特征。2) 大语言模型:作为推理引擎,负责生成问题和调用工具。3) 工具集:包含各种视觉分析工具,如目标检测、场景识别等。4) 任务解耦注意力掩码:用于隔离每一步的注意力集中,同时保留共享的全局上下文。5) 可验证的轨迹引导奖励:用于控制上下文长度增长,平衡探索覆盖率和推理效率。整体流程是:首先,大语言模型根据问题生成工具调用指令;然后,工具根据指令分析视频片段,并返回结果;最后,大语言模型根据工具返回的结果进行推理,并决定是否继续调用工具或给出最终答案。
关键创新:Video-o3的关键创新在于原生交错的线索搜索机制,以及为支持该机制而设计的任务解耦注意力掩码和可验证的轨迹引导奖励。与现有方法相比,Video-o3能够更有效地利用长视频中的信息,并进行更准确的多跳推理。任务解耦注意力掩码解决了推理和工具调用异质性带来的注意力分散问题,可验证的轨迹引导奖励则解决了多轮交互中上下文长度增长的问题。
关键设计:任务解耦注意力掩码通过对推理和工具调用使用不同的注意力掩码,来隔离每一步的注意力集中,同时保留共享的全局上下文。可验证的轨迹引导奖励则通过对探索覆盖率和推理效率进行加权,来平衡两者之间的关系。Seeker-173K数据集包含173K高质量的工具交互轨迹,用于有效的监督学习和强化学习,保证模型训练的充分性。
🖼️ 关键图片
📊 实验亮点
Video-o3在MLVU数据集上实现了72.1%的准确率,在Video-Holmes数据集上实现了46.5%的准确率,显著优于现有最先进的方法。这些结果表明,Video-o3具有强大的多跳证据搜索和推理能力,验证了原生工具调用在长视频场景中的有效性。Seeker-173K数据集的构建也为长视频多跳推理的研究提供了宝贵的数据资源。
🎯 应用场景
Video-o3具有广泛的应用前景,例如视频监控、智能安防、视频内容分析、智能客服等领域。它可以用于自动分析监控视频中的异常事件,识别视频中的关键信息,并为用户提供智能化的视频分析服务。该研究的成果有助于提升视频理解和推理能力,为构建更智能的视频应用奠定基础。
📄 摘要(原文)
Existing multimodal large language models for long-video understanding predominantly rely on uniform sampling and single-turn inference, limiting their ability to identify sparse yet critical evidence amid extensive redundancy. We introduce Video-o3, a novel framework that supports iterative discovery of salient visual clues, fine-grained inspection of key segments, and adaptive termination once sufficient evidence is acquired. Technically, we address two core challenges in interleaved tool invocation. First, to mitigate attention dispersion induced by the heterogeneity of reasoning and tool-calling, we propose Task-Decoupled Attention Masking, which isolates per-step concentration while preserving shared global context. Second, to control context length growth in multi-turn interactions, we introduce a Verifiable Trajectory-Guided Reward that balances exploration coverage with reasoning efficiency. To support training at scale, we further develop a data synthesis pipeline and construct Seeker-173K, comprising 173K high-quality tool-interaction trajectories for effective supervised and reinforcement learning. Extensive experiments show that Video-o3 substantially outperforms state-of-the-art methods, achieving 72.1% accuracy on MLVU and 46.5% on Video-Holmes. These results demonstrate Video-o3's strong multi-hop evidence-seeking and reasoning capabilities, and validate the effectiveness of native tool invocation in long-video scenarios.