Seg-ReSearch: Segmentation with Interleaved Reasoning and External Search

📄 arXiv: 2602.04454v1 📥 PDF

作者: Tianming Liang, Qirui Du, Jian-Fang Hu, Haichao Jiang, Zicheng Lin, Wei-Shi Zheng

分类: cs.CV

发布日期: 2026-02-04

🔗 代码/项目: GITHUB


💡 一句话要点

提出Seg-ReSearch,通过交错推理和外部搜索解决语言引导分割中的知识瓶颈。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言引导分割 多模态大语言模型 外部知识搜索 交错推理 视频对象分割 分层奖励学习 开放世界场景

📋 核心要点

  1. 现有基于语言的分割方法受限于多模态大语言模型(MLLM)的内部知识,难以处理需要最新信息或领域特定概念的现实场景。
  2. Seg-ReSearch通过交错推理和外部搜索,使分割系统能够利用外部知识,从而处理动态、开放世界的查询。
  3. 通过分层奖励设计,协调初始指导和渐进激励,有效训练模型利用外部知识进行分割,并在OK-VOS等基准测试中取得了显著提升。

📝 摘要(中文)

本文提出了一种新的分割范式Seg-ReSearch,旨在克服现有方法中多模态大语言模型(MLLM)的知识瓶颈。Seg-ReSearch通过启用交错推理和外部搜索,使分割系统能够处理超出MLLM冻结知识范围的动态、开放世界查询。为了有效地训练这种能力,本文设计了一种分层奖励机制,协调初始指导和渐进激励,从而缓解了稀疏结果信号和刚性逐步监督之间的困境。为了评估,构建了一个具有挑战性的基准OK-VOS,该基准明确要求外部知识用于视频对象分割。在OK-VOS和两个现有的推理分割基准上的实验表明,Seg-ReSearch显著提高了现有最佳方法的性能。

🔬 方法详解

问题定义:现有基于语言的分割方法,特别是依赖多模态大语言模型(MLLM)的方法,其性能受到MLLM自身知识库的限制。当需要处理包含最新信息或特定领域知识的分割任务时,这些方法往往表现不佳,因为MLLM的知识是固定的,无法动态更新或扩展。这导致了在开放世界场景下的应用受限。

核心思路:Seg-ReSearch的核心思路是通过引入外部搜索机制,让分割系统能够动态地获取和利用外部知识。系统不再仅仅依赖MLLM的内部知识,而是可以在推理过程中根据需要查询外部信息源(例如搜索引擎),并将这些信息融入到分割决策中。这种交错推理和外部搜索的模式,使得系统能够处理超出MLLM知识范围的复杂查询。

技术框架:Seg-ReSearch的整体框架包含以下几个主要模块:1) 查询理解模块:负责解析用户输入的语言查询,提取关键信息和意图。2) 外部搜索模块:根据查询理解的结果,向外部知识库(例如搜索引擎)发起查询,获取相关信息。3) 推理模块:利用MLLM进行推理,结合外部搜索的结果,生成分割掩码。4) 分层奖励模块:用于训练模型,通过分层奖励机制,协调初始指导和渐进激励,引导模型有效地利用外部知识。整个流程是交错进行的,即推理模块可以根据需要多次调用外部搜索模块,逐步完善分割结果。

关键创新:Seg-ReSearch最重要的创新点在于将外部搜索融入到分割流程中,打破了传统方法对MLLM内部知识的依赖。通过交错推理和外部搜索,系统能够动态地获取和利用外部知识,从而处理更复杂、更开放的分割任务。这种范式转变使得分割系统能够适应不断变化的世界,并处理需要特定领域知识的查询。

关键设计:Seg-ReSearch的关键设计包括:1) 分层奖励函数:为了有效训练模型利用外部知识,设计了一种分层奖励函数,包括初始指导奖励和渐进激励奖励。初始指导奖励用于引导模型进行初步的分割,渐进激励奖励用于鼓励模型利用外部知识提高分割精度。2) 查询策略:设计了有效的查询策略,用于确定何时以及如何向外部知识库发起查询。查询策略需要平衡查询的效率和信息的准确性,避免过度查询或遗漏关键信息。3) 知识融合机制:设计了知识融合机制,用于将外部搜索的结果融入到MLLM的推理过程中。知识融合机制需要有效地处理外部信息的噪声和不确定性,并将其与MLLM的内部知识进行整合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Seg-ReSearch在OK-VOS基准测试中取得了显著的性能提升,超越了现有的最佳方法。此外,在两个现有的推理分割基准测试中,Seg-ReSearch也表现出了优越的性能。这些实验结果表明,Seg-ReSearch能够有效地利用外部知识进行分割,并在各种场景下都具有良好的泛化能力。

🎯 应用场景

Seg-ReSearch在多个领域具有广泛的应用前景,例如智能安防、自动驾驶、医疗影像分析等。它可以用于识别和分割视频中的特定对象,例如监控视频中的异常行为检测,自动驾驶中的交通标志识别,以及医疗影像中的病灶分割。通过利用外部知识,Seg-ReSearch可以处理更复杂、更动态的场景,提高分割的准确性和可靠性,为相关应用提供更强大的支持。

📄 摘要(原文)

Segmentation based on language has been a popular topic in computer vision. While recent advances in multimodal large language models (MLLMs) have endowed segmentation systems with reasoning capabilities, these efforts remain confined by the frozen internal knowledge of MLLMs, which limits their potential for real-world scenarios that involve up-to-date information or domain-specific concepts. In this work, we propose \textbf{Seg-ReSearch}, a novel segmentation paradigm that overcomes the knowledge bottleneck of existing approaches. By enabling interleaved reasoning and external search, Seg-ReSearch empowers segmentation systems to handle dynamic, open-world queries that extend beyond the frozen knowledge of MLLMs. To effectively train this capability, we introduce a hierarchical reward design that harmonizes initial guidance with progressive incentives, mitigating the dilemma between sparse outcome signals and rigid step-wise supervision. For evaluation, we construct OK-VOS, a challenging benchmark that explicitly requires outside knowledge for video object segmentation. Experiments on OK-VOS and two existing reasoning segmentation benchmarks demonstrate that our Seg-ReSearch improves state-of-the-art approaches by a substantial margin. Code and data will be released at https://github.com/iSEE-Laboratory/Seg-ReSearch.