ROSE: Retrieval-Oriented Segmentation Enhancement

作者: Song Tang, Guangquan Jie, Henghui Ding, Yu-Gang Jiang

分类: cs.CV

发布日期: 2026-04-15

备注: CVPR 2026 Findings, Project Page: https://henghuiding.com/ROSE/

💡 一句话要点

提出ROSE框架，通过检索增强解决多模态大语言模型在分割新兴实体时的知识不足问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 图像分割 检索增强 新兴实体 知识融合

📋 核心要点

现有MLLM分割模型难以处理训练数据中不存在的新实体或需要最新信息的涌现实体。
ROSE框架通过互联网检索增强，结合文本和视觉提示，为MLLM补充最新知识和背景信息。
实验表明，ROSE在NEST基准测试中显著提升了分割性能，超越了Gemini-2.0 Flash等基线。

📝 摘要（中文）

现有的基于多模态大语言模型（MLLM）的分割模型，如LISA，常常难以处理新的或新兴的实体，因为它们无法整合最新的知识。为了应对这一挑战，我们引入了新兴分割任务（NEST），该任务专注于分割（i）MLLM由于训练数据中不存在而无法识别的新实体，以及（ii）模型知识范围内存在但需要最新的外部信息才能准确识别的新兴实体。为了支持NEST的研究，我们使用自动化流程构建了一个NEST基准，生成与新闻相关的数据样本以进行全面评估。此外，我们提出了ROSE：检索导向的分割增强，这是一个旨在增强任何基于MLLM的分割模型的即插即用框架。ROSE包含四个关键组件。首先，引入互联网检索增强生成模块，利用用户提供的多模态输入来检索实时网络信息。然后，文本提示增强器利用最新的信息和丰富的背景知识来丰富模型，提高模型对新兴实体的感知能力。此外，提出了一种视觉提示增强器，通过利用互联网来源的图像来弥补MLLM对新实体的缺乏。为了保持效率，引入了一个WebSense模块，以根据用户输入智能地决定何时调用检索机制。实验结果表明，ROSE显著提高了NEST基准的性能，在gIoU方面优于强大的基于Gemini-2.0 Flash的检索基线19.2。

🔬 方法详解

问题定义：论文旨在解决多模态大语言模型（MLLM）在图像分割任务中，对于新出现的或者模型训练数据中没有的实体分割效果不佳的问题。现有方法无法有效利用最新的外部知识，导致对这些实体的识别和分割精度较低。

核心思路：论文的核心思路是通过检索增强的方式，为MLLM提供最新的相关信息，从而提高其对新实体和涌现实体的分割能力。具体来说，利用互联网检索获取相关的文本和图像信息，并将其融入到模型的输入中，从而增强模型对这些实体的理解和识别。

技术框架：ROSE框架包含四个主要模块：1) 互联网检索增强生成模块：利用用户提供的多模态输入检索实时网络信息。2) 文本提示增强器：利用检索到的文本信息，丰富模型的输入，提供最新的知识和背景信息。3) 视觉提示增强器：利用检索到的图像信息，弥补MLLM对新实体的视觉经验不足。4) WebSense模块：根据用户输入，智能地决定何时调用检索机制，以提高效率。

关键创新：ROSE的关键创新在于将互联网检索与多模态大语言模型相结合，用于图像分割任务。通过检索增强，模型可以获取最新的知识和视觉信息，从而提高对新实体和涌现实体的分割能力。此外，WebSense模块的设计也提高了框架的效率。

关键设计：WebSense模块是ROSE框架中的一个关键设计，它负责判断何时需要进行互联网检索。该模块基于用户输入的多模态信息，通过一定的策略（具体策略未知）来决定是否需要检索外部信息。这种设计可以避免不必要的检索操作，提高框架的整体效率。具体的参数设置、损失函数和网络结构等技术细节在论文中没有详细描述，属于未知信息。

🖼️ 关键图片

📊 实验亮点

ROSE框架在NEST基准测试中取得了显著的性能提升，gIoU指标比强大的Gemini-2.0 Flash基线提高了19.2。这一结果表明，通过检索增强，ROSE可以有效地提高MLLM对新实体和涌现实体的分割能力。该实验结果充分验证了ROSE框架的有效性和优越性。

🎯 应用场景

ROSE框架具有广泛的应用前景，例如在新闻事件分析、电商产品识别、自动驾驶等领域。它可以帮助模型更好地理解和分割图像中的新实体和涌现实体，从而提高相关任务的准确性和可靠性。未来，该框架可以进一步扩展到其他多模态任务中，例如视频理解、语音识别等。

📄 摘要（原文）

Existing segmentation models based on multimodal large language models (MLLMs), such as LISA, often struggle with novel or emerging entities due to their inability to incorporate up-to-date knowledge. To address this challenge, we introduce the Novel Emerging Segmentation Task (NEST), which focuses on segmenting (i) novel entities that MLLMs fail to recognize due to their absence from training data, and (ii) emerging entities that exist within the model's knowledge but demand up-to-date external information for accurate recognition. To support the study of NEST, we construct a NEST benchmark using an automated pipeline that generates news-related data samples for comprehensive evaluation. Additionally, we propose ROSE: Retrieval-Oriented Segmentation Enhancement, a plug-and-play framework designed to augment any MLLM-based segmentation model. ROSE comprises four key components. First, an Internet Retrieval-Augmented Generation module is introduced to employ user-provided multimodal inputs to retrieve real-time web information. Then, a Textual Prompt Enhancer enriches the model with up-to-date information and rich background knowledge, improving the model's perception ability for emerging entities. Furthermore, a Visual Prompt Enhancer is proposed to compensate for MLLMs' lack of exposure to novel entities by leveraging internet-sourced images. To maintain efficiency, a WebSense module is introduced to intelligently decide when to invoke retrieval mechanisms based on user input. Experimental results demonstrate that ROSE significantly boosts performance on the NEST benchmark, outperforming a strong Gemini-2.0 Flash-based retrieval baseline by 19.2 in gIoU.

ROSE: Retrieval-Oriented Segmentation Enhancement

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理