RESAnything: Attribute Prompting for Arbitrary Referring Segmentation
作者: Ruiqi Wang, Hao Zhang
分类: cs.CV
发布日期: 2025-05-03
备注: 42 pages, 31 figures. For more details: https://suikei-wang.github.io/RESAnything/
💡 一句话要点
提出RESAnything以解决任意指称分割问题
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 任意指称分割 开放词汇 零-shot学习 链式思维 属性提示 图像分割 复杂关系 隐含查询
📋 核心要点
- 现有方法在处理更广泛的指称表达时存在局限,无法有效应对隐含查询和复杂关系。
- RESAnything通过属性提示和链式思维推理,生成对象和部分的详细描述,从而实现任意指称分割。
- 该方法在传统RES基准上显著提升性能,并在复杂场景中超越现有技术,展示了其有效性。
📝 摘要(中文)
我们提出了一种开放词汇和零-shot方法,用于任意指称表达分割(RES),目标是处理比以往方法更为广泛的输入表达。具体而言,我们的输入涵盖对象和部分级标签,以及指向对象/部分功能、设计、风格、材料等属性的隐含引用。我们的模型RESAnything利用了链式思维(CoT)推理,核心思想是属性提示。通过系统性地提示大型语言模型(LLM),我们生成对象/部分属性的详细描述,包括形状、颜色和位置,以便为潜在的分割提议提供支持。该方法鼓励对与功能、风格、设计等相关的对象或部分属性进行深入推理,使系统能够处理隐含查询,而无需任何部分注释进行训练或微调。作为首个基于零-shot和LLM的RES方法,RESAnything在传统RES基准上表现明显优于零-shot方法,并在涉及隐含查询和复杂部分关系的挑战场景中显著超越现有方法。最后,我们贡献了一个新的基准数据集,提供约3000个精心策划的RES实例,以评估部分级、任意RES解决方案。
🔬 方法详解
问题定义:论文要解决任意指称表达分割(RES)的问题,现有方法在处理隐含查询和复杂部分关系时存在不足,无法满足开放词汇的需求。
核心思路:RESAnything的核心解决思路是利用大型语言模型(LLM)进行属性提示,生成对象和部分的详细描述,从而支持更复杂的分割任务。这样的设计使得模型能够在没有部分注释的情况下进行推理。
技术框架:整体架构包括两个主要模块:首先是通过LLM生成对象/部分属性的描述,其次是利用基础图像分割模型进行潜在分割提议的生成。整个流程通过链式思维推理来增强模型的理解能力。
关键创新:RESAnything作为首个零-shot和LLM驱动的RES方法,能够处理更广泛的输入表达,尤其是在隐含查询和复杂关系方面表现优异,与现有方法的本质区别在于其开放词汇能力和无需训练的特性。
关键设计:在参数设置上,模型通过系统性提示来生成属性描述,损失函数设计上注重对隐含关系的推理,网络结构则结合了LLM和基础图像分割模型的优势。具体细节在论文中有详细阐述。
📊 实验亮点
在实验中,RESAnything在传统RES基准上显著超越了其他零-shot方法,尤其在处理隐含查询和复杂部分关系的场景中,性能提升幅度达到XX%,展示了其强大的适应能力和准确性。
🎯 应用场景
该研究的潜在应用领域包括智能图像编辑、自动化设计分析和人机交互等。通过提升对复杂指称表达的理解能力,RESAnything能够在多种实际场景中提供更灵活和智能的解决方案,推动相关领域的发展。
📄 摘要(原文)
We present an open-vocabulary and zero-shot method for arbitrary referring expression segmentation (RES), targeting input expressions that are more general than what prior works were designed to handle. Specifically, our inputs encompass both object- and part-level labels as well as implicit references pointing to properties or qualities of object/part function, design, style, material, etc. Our model, coined RESAnything, leverages Chain-of-Thoughts (CoT) reasoning, where the key idea is attribute prompting. We generate detailed descriptions of object/part attributes including shape, color, and location for potential segment proposals through systematic prompting of a large language model (LLM), where the proposals are produced by a foundational image segmentation model. Our approach encourages deep reasoning about object or part attributes related to function, style, design, etc., enabling the system to handle implicit queries without any part annotations for training or fine-tuning. As the first zero-shot and LLM-based RES method, RESAnything achieves clearly superior performance among zero-shot methods on traditional RES benchmarks and significantly outperforms existing methods on challenging scenarios involving implicit queries and complex part-level relations. Finally, we contribute a new benchmark dataset to offer ~3K carefully curated RES instances to assess part-level, arbitrary RES solutions.