Multi-task Visual Grounding with Coarse-to-Fine Consistency Constraints

📄 arXiv: 2501.06710v1 📥 PDF

作者: Ming Dai, Jian Li, Jiedong Zhuang, Xian Zhang, Wankou Yang

分类: cs.CV, cs.AI

发布日期: 2025-01-12

备注: AAAI2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出C³VG模型,通过粗细粒度一致性约束解决多任务视觉定位与分割的不一致性问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多任务学习 视觉定位 图像分割 一致性约束 多模态融合

📋 核心要点

  1. 现有方法侧重于Transformer的多模态融合,但易在REC和RIS间产生歧义,导致多任务预测不一致。
  2. C³VG采用两阶段框架,通过粗略语义感知和精细一致性交互,结合隐式和显式建模确保任务间一致性。
  3. 实验表明,C³VG在RefCOCO等数据集上显著优于现有REC和RIS方法,性能提升明显。

📝 摘要(中文)

本文提出了一种粗细粒度一致性约束的视觉定位架构(C³VG),用于解决多任务视觉定位中定位和分割任务间的不一致性问题。现有方法主要依赖于基于Transformer的多模态融合来提取鲁棒的表示,但容易在指代表达式理解(REC)和指代图像分割(RIS)之间产生歧义,导致多任务预测不一致。此外,多模态理解不足也会导致有偏差的目标感知。C³VG采用两阶段框架,结合隐式和显式建模方法。在粗略语义感知(RSP)阶段,使用查询和像素解码器生成初步的检测和分割输出。然后,通过提出的掩码引导交互模块(MIM)和一个新的显式双向一致性约束损失来细化这些粗略预测,以确保跨任务的一致性表示,即精细一致性交互(RCI)阶段。此外,利用基于视觉-语言融合表示的预训练模型来解决多模态理解不足的问题。在RefCOCO、RefCOCO+和RefCOCOg数据集上的实验结果表明,C³VG显著优于最先进的REC和RIS方法。

🔬 方法详解

问题定义:论文旨在解决多任务视觉定位中,指代表达式理解(REC)和指代图像分割(RIS)任务之间由于歧义性导致的不一致性问题。现有方法主要依赖于Transformer进行多模态特征融合,但忽略了任务间的内在联系,容易产生偏差,并且多模态理解不足也会影响目标感知。

核心思路:论文的核心思路是通过粗细粒度的一致性约束来缓解REC和RIS任务之间的不一致性。首先通过粗略的语义感知(RSP)获得初步的检测和分割结果,然后通过精细的一致性交互(RCI)模块,利用掩码引导交互和显式一致性损失来细化预测结果,从而保证两个任务之间的一致性。

技术框架:C³VG模型采用两阶段框架: 1. 粗略语义感知(RSP)阶段:使用查询解码器和像素解码器,分别生成初步的检测框和分割掩码。 2. 精细一致性交互(RCI)阶段:包含掩码引导交互模块(MIM)和显式双向一致性约束损失。MIM用于在检测和分割特征之间进行交互,显式一致性损失则用于约束两个任务的输出,使其保持一致。 此外,模型还利用预训练的视觉-语言模型来增强多模态理解。

关键创新:论文的关键创新在于提出了粗细粒度一致性约束的思想,并设计了相应的模块和损失函数来实现这一目标。与现有方法相比,C³VG不仅关注多模态特征的融合,更关注任务之间的一致性,从而提高了多任务视觉定位的性能。显式双向一致性约束损失是另一个创新点,它直接约束了检测和分割结果的一致性。

关键设计: 1. 掩码引导交互模块(MIM):利用分割掩码来引导检测特征的学习,反之亦然,从而实现两个任务之间的信息交互。 2. 显式双向一致性约束损失:设计了一种新的损失函数,直接约束检测框和分割掩码之间的重叠程度,使其尽可能一致。 3. 预训练模型:使用预训练的视觉-语言模型(具体模型未知)来初始化模型的参数,从而提高多模态理解能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

C³VG在RefCOCO、RefCOCO+和RefCOCOg数据集上取得了显著的性能提升,大幅超越了现有的SOTA方法。具体性能数据和提升幅度在摘要中提到“significantly outperforms state-of-the-art REC and RIS methods by a substantial margin”,但未给出具体数值,因此具体提升幅度未知。实验结果证明了C³VG在多任务视觉定位任务上的有效性。

🎯 应用场景

该研究成果可应用于智能监控、自动驾驶、机器人导航等领域。例如,在智能监控中,可以通过文本描述快速定位并分割目标对象;在自动驾驶中,可以根据指令识别并跟踪特定车辆或行人。该研究有助于提高视觉理解系统的准确性和可靠性,具有重要的实际应用价值。

📄 摘要(原文)

Multi-task visual grounding involves the simultaneous execution of localization and segmentation in images based on textual expressions. The majority of advanced methods predominantly focus on transformer-based multimodal fusion, aiming to extract robust multimodal representations. However, ambiguity between referring expression comprehension (REC) and referring image segmentation (RIS) is error-prone, leading to inconsistencies between multi-task predictions. Besides, insufficient multimodal understanding directly contributes to biased target perception. To overcome these challenges, we propose a Coarse-to-fine Consistency Constraints Visual Grounding architecture ($\text{C}^3\text{VG}$), which integrates implicit and explicit modeling approaches within a two-stage framework. Initially, query and pixel decoders are employed to generate preliminary detection and segmentation outputs, a process referred to as the Rough Semantic Perception (RSP) stage. These coarse predictions are subsequently refined through the proposed Mask-guided Interaction Module (MIM) and a novel explicit bidirectional consistency constraint loss to ensure consistent representations across tasks, which we term the Refined Consistency Interaction (RCI) stage. Furthermore, to address the challenge of insufficient multimodal understanding, we leverage pre-trained models based on visual-linguistic fusion representations. Empirical evaluations on the RefCOCO, RefCOCO+, and RefCOCOg datasets demonstrate the efficacy and soundness of $\text{C}^3\text{VG}$, which significantly outperforms state-of-the-art REC and RIS methods by a substantial margin. Code and model will be available at \url{https://github.com/Dmmm1997/C3VG}.