RESAnything: Attribute Prompting for Arbitrary Referring Segmentation

📄 arXiv: 2505.02867v1 📥 PDF

作者: Ruiqi Wang, Hao Zhang

分类: cs.CV

发布日期: 2025-05-03

备注: 42 pages, 31 figures. For more details: https://suikei-wang.github.io/RESAnything/


💡 一句话要点

RESAnything:通过属性提示实现任意指代表达式分割的零样本学习

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 指代表达式分割 零样本学习 大型语言模型 属性提示 思维链

📋 核心要点

  1. 现有指代表达式分割方法难以处理包含隐式属性和复杂部件关系的查询。
  2. RESAnything利用大型语言模型进行属性提示,生成详细的对象/部件描述,辅助分割。
  3. RESAnything在零样本设置下,显著优于现有方法,并在新数据集上表现出色。

📝 摘要(中文)

本文提出了一种开放词汇和零样本的任意指代表达式分割(RES)方法,旨在处理比现有方法更通用的输入表达式。具体来说,我们的输入包括对象和部件级别的标签,以及指向对象/部件的功能、设计、风格、材料等属性或质量的隐式引用。我们的模型RESAnything利用了思维链(CoT)推理,其核心思想是属性提示。我们通过系统地提示大型语言模型(LLM),为潜在的分割提议生成对象/部件属性的详细描述,包括形状、颜色和位置,这些提议由基础图像分割模型产生。我们的方法鼓励对与功能、风格、设计等相关的对象或部件属性进行深入推理,使系统能够处理隐式查询,而无需任何部件注释进行训练或微调。作为第一个基于零样本和LLM的RES方法,RESAnything在传统RES基准测试中实现了明显优于零样本方法的性能,并且在涉及隐式查询和复杂部件级关系的具有挑战性的场景中,显著优于现有方法。最后,我们贡献了一个新的基准数据集,提供约3K个精心策划的RES实例,以评估部件级、任意RES解决方案。

🔬 方法详解

问题定义:现有指代表达式分割(Referring Expression Segmentation, RES)方法通常依赖于大量的标注数据,并且难以处理复杂的指代表达式,特别是那些包含隐式属性(如功能、风格、材料)以及部件级关系的表达。这些方法在处理开放词汇和零样本场景时表现不佳。

核心思路:RESAnything的核心思路是利用大型语言模型(LLM)的强大推理能力,通过属性提示(Attribute Prompting)的方式,为图像中的对象或部件生成详细的描述,从而辅助分割任务。这种方法将指代表达式分割问题转化为一个属性匹配问题,使得模型能够理解和处理更复杂的查询。

技术框架:RESAnything的整体框架包含以下几个主要模块:1) 图像分割提议生成:使用一个基础图像分割模型(如Segment Anything Model)生成图像中潜在的分割提议。2) 属性提示:利用LLM,根据分割提议生成对象或部件的属性描述,包括形状、颜色、位置、功能、风格、材料等。3) 指代表达式编码:将输入的指代表达式编码成向量表示。4) 属性匹配:将指代表达式的向量表示与分割提议的属性描述进行匹配,选择最相关的分割提议。

关键创新:RESAnything的关键创新在于利用LLM进行属性提示,从而实现了零样本的任意指代表达式分割。与现有方法相比,RESAnything不需要任何部件注释进行训练或微调,并且能够处理包含隐式属性和复杂部件关系的查询。这是第一个基于零样本和LLM的RES方法。

关键设计:在属性提示阶段,论文设计了一系列Prompt模板,引导LLM生成详细的属性描述。例如,对于形状属性,可以使用“The shape of the object is…”这样的模板。在属性匹配阶段,可以使用余弦相似度等方法来衡量指代表达式向量和属性描述之间的相关性。具体的LLM选择和Prompt模板设计可能需要根据实际情况进行调整。

📊 实验亮点

RESAnything在传统RES基准测试中,零样本性能明显优于现有零样本方法。在包含隐式查询和复杂部件级关系的挑战性场景中,RESAnything显著优于现有方法。此外,论文还贡献了一个新的基准数据集,包含约3K个精心策划的RES实例,用于评估部件级、任意RES解决方案。

🎯 应用场景

RESAnything具有广泛的应用前景,例如智能图像编辑、机器人视觉、自动驾驶等领域。它可以帮助用户更精确地分割和操作图像中的对象,提高人机交互的效率和自然性。此外,该方法还可以应用于医学图像分析、遥感图像解译等领域,辅助专业人员进行更准确的诊断和分析。

📄 摘要(原文)

We present an open-vocabulary and zero-shot method for arbitrary referring expression segmentation (RES), targeting input expressions that are more general than what prior works were designed to handle. Specifically, our inputs encompass both object- and part-level labels as well as implicit references pointing to properties or qualities of object/part function, design, style, material, etc. Our model, coined RESAnything, leverages Chain-of-Thoughts (CoT) reasoning, where the key idea is attribute prompting. We generate detailed descriptions of object/part attributes including shape, color, and location for potential segment proposals through systematic prompting of a large language model (LLM), where the proposals are produced by a foundational image segmentation model. Our approach encourages deep reasoning about object or part attributes related to function, style, design, etc., enabling the system to handle implicit queries without any part annotations for training or fine-tuning. As the first zero-shot and LLM-based RES method, RESAnything achieves clearly superior performance among zero-shot methods on traditional RES benchmarks and significantly outperforms existing methods on challenging scenarios involving implicit queries and complex part-level relations. Finally, we contribute a new benchmark dataset to offer ~3K carefully curated RES instances to assess part-level, arbitrary RES solutions.