Towards Unified Referring Expression Segmentation Across Omni-Level Visual Target Granularities

📄 arXiv: 2504.01954v1 📥 PDF

作者: Jing Liu, Wenxuan Wang, Yisi Zhang, Yepeng Tang, Xingjian He, Longteng Guo, Tongtian Yue, Xinlong Wang

分类: cs.CV

发布日期: 2025-04-02

🔗 代码/项目: GITHUB


💡 一句话要点

提出UniRES++,统一解决多粒度指代表达分割任务,并构建大规模数据集MRES-32M。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 指代表达分割 多粒度分割 视觉语言模型 部件级分割 多模态学习

📋 核心要点

  1. 现有指代表达分割方法主要集中于对象级别,无法有效处理多粒度(如部件级)的指代分割任务。
  2. 提出UniRES++,一个统一的多模态大语言模型,通过联合训练对象级和部件级RES任务,实现多粒度分割。
  3. 构建了大规模数据集MRES-32M,包含超过3220万个掩码和标题,并在多个基准测试中取得了SOTA性能。

📝 摘要(中文)

指代表达分割(RES)旨在分割与描述性语言表达相匹配的实体的掩码。传统的RES方法主要解决对象级别的分割,但现实场景需要一个更通用的框架,能够处理多个级别的目标粒度,例如多对象、单对象或部件级别的指代。这带来了巨大的挑战,因为用户描述目标的方式多种多样且细致入微。然而,现有的数据集和模型主要侧重于为对象级别的目标定位设计专家模型,缺乏必要的数据资源和统一的框架来支持更实用的多粒度RES。在本文中,我们朝着视觉粒度统一的RES任务迈出了一步。为了克服数据稀缺的限制,我们引入了一个新的多粒度指代表达分割(MRES)任务,以及RefCOCOm基准,其中包括部件级别的注释,以促进更细粒度的视觉理解。此外,我们创建了MRES-32M,这是最大的视觉定位数据集,包含超过3220万个掩码和跨越100万张图像的标题,专门为部件级别的视觉-语言定位而设计。为了应对多粒度RES的挑战,我们提出了UniRES++,一个统一的多模态大型语言模型,集成了对象级别和部件级别的RES任务。UniRES++结合了针对细粒度视觉特征探索的定向设计。通过联合模型架构和参数,UniRES++在多个基准测试中实现了最先进的性能,包括用于MRES的RefCOCOm,用于广义RES的gRefCOCO,以及用于经典RES的RefCOCO、RefCOCO+、RefCOCOg。为了促进未来对多粒度视觉定位的研究,我们的RefCOCOm基准、MRES-32M数据集和模型UniRES++将在https://github.com/Rubics-Xuan/MRES上公开。

🔬 方法详解

问题定义:现有的指代表达分割方法主要关注对象级别的分割,忽略了现实世界中更细粒度的需求,例如部件级别的指代分割。这些方法无法有效处理用户对目标的不同粒度描述,导致在多粒度场景下的性能下降。缺乏统一的框架和足够的数据资源是主要痛点。

核心思路:论文的核心思路是构建一个统一的多模态大语言模型UniRES++,能够同时处理对象级别和部件级别的指代表达分割任务。通过联合训练,模型可以学习到不同粒度之间的关联性,从而更好地理解用户的意图。这样设计的目的是为了解决现有方法在多粒度场景下的局限性,提高模型的泛化能力。

技术框架:UniRES++的整体架构是一个统一的多模态大语言模型,它接收图像和文本作为输入,输出分割掩码。主要模块包括:1) 视觉特征提取模块,用于提取图像的视觉特征;2) 文本特征提取模块,用于提取文本的语义特征;3) 多模态融合模块,用于将视觉特征和文本特征进行融合;4) 分割模块,用于生成分割掩码。整个流程是从输入图像和文本开始,经过特征提取和融合,最终得到分割结果。

关键创新:最重要的技术创新点在于UniRES++是一个统一的模型,能够同时处理对象级别和部件级别的指代表达分割任务。与现有方法相比,UniRES++不需要针对不同的粒度设计不同的专家模型,而是通过一个统一的模型来实现多粒度的分割。此外,论文还提出了针对细粒度视觉特征探索的定向设计,以提高模型对部件级别特征的感知能力。

关键设计:UniRES++的关键设计包括:1) 联合训练策略,同时训练对象级别和部件级别的分割任务;2) 细粒度视觉特征探索模块,用于提取更精细的视觉特征;3) 多模态融合模块,采用Transformer结构进行特征融合;4) 损失函数,采用交叉熵损失函数和Dice损失函数相结合的方式,以提高分割精度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UniRES++在RefCOCOm(MRES)、gRefCOCO(广义RES)以及RefCOCO、RefCOCO+、RefCOCOg(经典RES)等多个基准测试中取得了最先进的性能。特别是在新提出的MRES任务上,UniRES++的性能显著优于现有方法,证明了其在多粒度指代表达分割方面的有效性。具体性能数据需要在论文中查找。

🎯 应用场景

该研究成果可应用于智能图像编辑、机器人视觉、自动驾驶等领域。例如,在智能图像编辑中,用户可以通过自然语言指定图像中的特定部件进行修改。在机器人视觉中,机器人可以根据用户的指令识别和操作物体及其部件。在自动驾驶中,系统可以理解驾驶员的指令,例如“打开左侧车窗”,从而提高驾驶的安全性。

📄 摘要(原文)

Referring expression segmentation (RES) aims at segmenting the entities' masks that match the descriptive language expression. While traditional RES methods primarily address object-level grounding, real-world scenarios demand a more versatile framework that can handle multiple levels of target granularity, such as multi-object, single object or part-level references. This introduces great challenges due to the diverse and nuanced ways users describe targets. However, existing datasets and models mainly focus on designing grounding specialists for object-level target localization, lacking the necessary data resources and unified frameworks for the more practical multi-grained RES. In this paper, we take a step further towards visual granularity unified RES task. To overcome the limitation of data scarcity, we introduce a new multi-granularity referring expression segmentation (MRES) task, alongside the RefCOCOm benchmark, which includes part-level annotations for advancing finer-grained visual understanding. In addition, we create MRES-32M, the largest visual grounding dataset, comprising over 32.2M masks and captions across 1M images, specifically designed for part-level vision-language grounding. To tackle the challenges of multi-granularity RES, we propose UniRES++, a unified multimodal large language model that integrates object-level and part-level RES tasks. UniRES++ incorporates targeted designs for fine-grained visual feature exploration. With the joint model architecture and parameters, UniRES++ achieves state-of-the-art performance across multiple benchmarks, including RefCOCOm for MRES, gRefCOCO for generalized RES, and RefCOCO, RefCOCO+, RefCOCOg for classic RES. To foster future research into multi-grained visual grounding, our RefCOCOm benchmark, MRES-32M dataset and model UniRES++ will be publicly available at https://github.com/Rubics-Xuan/MRES.