SegVG: Transferring Object Bounding Box to Segmentation for Visual Grounding
作者: Weitai Kang, Gaowen Liu, Mubarak Shah, Yan Yan
分类: cs.CV
发布日期: 2024-07-03 (更新: 2024-07-06)
备注: Accepted to ECCV 2024
💡 一句话要点
SegVG:通过将目标框转换为分割信息,提升视觉定位性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉定位 视觉接地 多模态学习 分割 注意力机制
📋 核心要点
- 现有视觉定位方法仅利用边界框标注作为回归真值,忽略了像素级别的监督信息,导致性能受限。
- SegVG将边界框标注转换为分割信号,通过多层多任务编码器-解码器,同时进行框回归和像素级分割。
- 引入三重对齐模块,通过三重注意力机制对齐查询、文本和视觉特征,缓解领域差异,提升定位精度。
📝 摘要(中文)
与目标检测不同,视觉定位旨在为每个文本-图像对检测一个边界框。这种每个文本-图像数据对仅有一个框的标注方式提供了稀疏的监督信号。尽管之前的工作取得了令人印象深刻的结果,但它们对标注的被动利用,即仅使用框标注作为回归的真值,导致了次优的性能。在本文中,我们提出了SegVG,一种新颖的方法,将框级别的标注转换为分割信号,为视觉定位提供额外的像素级监督。具体来说,我们提出了多层多任务编码器-解码器作为目标定位阶段,其中我们学习一个回归查询和多个分割查询,以分别通过每个解码层中的框的回归和分割来定位目标。这种方法允许我们迭代地将标注用作框级别回归和像素级别分割的信号。此外,由于骨干网络通常由从单模态任务中学习的预训练参数初始化,并且回归和分割的查询是静态的可学习嵌入,因此这三种类型的特征之间仍然存在领域差异,这会损害后续的目标定位。为了减轻这种差异,我们引入了三重对齐模块,其中查询、文本和视觉token通过三重注意力机制进行三角更新,以共享相同的空间。在五个广泛使用的数据集上的大量实验验证了我们最先进(SOTA)的性能。
🔬 方法详解
问题定义:视觉定位任务旨在根据给定的文本描述,在图像中定位对应的目标对象。现有方法主要依赖于边界框标注作为回归目标,这种稀疏的监督信息限制了模型的学习能力,尤其是在复杂场景下,定位精度难以提升。此外,预训练的视觉和文本特征以及可学习的查询向量之间存在领域差异,进一步阻碍了模型的性能。
核心思路:SegVG的核心思路是将边界框标注转化为像素级别的分割信息,从而为视觉定位任务提供更丰富的监督信号。通过同时学习边界框回归和像素级分割,模型可以更好地理解文本描述与图像区域之间的对应关系,从而提高定位精度。此外,通过三重对齐模块,显式地对齐视觉、文本和查询特征,减小领域差异,提升模型的泛化能力。
技术框架:SegVG采用多层多任务编码器-解码器架构。编码器负责提取图像和文本的特征表示。解码器包含多个解码层,每一层都包含一个回归查询和多个分割查询。回归查询用于预测目标对象的边界框,分割查询用于预测目标对象的像素级分割掩码。三重对齐模块位于编码器和解码器之间,用于对齐视觉、文本和查询特征。
关键创新:SegVG的关键创新在于将边界框标注转化为分割信息,并将其作为额外的监督信号用于视觉定位任务。这种方法充分利用了标注信息,提供了更丰富的监督信号,从而提高了定位精度。此外,三重对齐模块通过显式地对齐视觉、文本和查询特征,减小了领域差异,提升了模型的泛化能力。与现有方法仅使用边界框回归相比,SegVG同时学习边界框回归和像素级分割,从而更好地理解文本描述与图像区域之间的对应关系。
关键设计:SegVG使用预训练的视觉和文本编码器作为骨干网络。解码器采用多层结构,每一层都包含一个回归查询和多个分割查询。回归查询和分割查询都是可学习的嵌入向量。损失函数包括边界框回归损失和分割损失。三重对齐模块采用三重注意力机制,对齐视觉、文本和查询特征。具体的参数设置和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
SegVG在五个广泛使用的数据集上取得了最先进的性能。例如,在RefCOCOg数据集上,SegVG的精度相比现有最佳方法提升了显著幅度。实验结果表明,将边界框标注转化为分割信息,并采用三重对齐模块,可以有效提高视觉定位的精度和泛化能力。
🎯 应用场景
SegVG在视觉定位领域具有广泛的应用前景,例如智能客服、图像搜索、机器人导航等。通过精确定位图像中的目标对象,可以实现更智能的人机交互和更高效的信息检索。该研究的成果可以应用于开发更智能的视觉助手,帮助人们更好地理解和利用图像信息,并为机器人提供更准确的环境感知能力。
📄 摘要(原文)
Different from Object Detection, Visual Grounding deals with detecting a bounding box for each text-image pair. This one box for each text-image data provides sparse supervision signals. Although previous works achieve impressive results, their passive utilization of annotation, i.e. the sole use of the box annotation as regression ground truth, results in a suboptimal performance. In this paper, we present SegVG, a novel method transfers the box-level annotation as Segmentation signals to provide an additional pixel-level supervision for Visual Grounding. Specifically, we propose the Multi-layer Multi-task Encoder-Decoder as the target grounding stage, where we learn a regression query and multiple segmentation queries to ground the target by regression and segmentation of the box in each decoding layer, respectively. This approach allows us to iteratively exploit the annotation as signals for both box-level regression and pixel-level segmentation. Moreover, as the backbones are typically initialized by pretrained parameters learned from unimodal tasks and the queries for both regression and segmentation are static learnable embeddings, a domain discrepancy remains among these three types of features, which impairs subsequent target grounding. To mitigate this discrepancy, we introduce the Triple Alignment module, where the query, text, and vision tokens are triangularly updated to share the same space by triple attention mechanism. Extensive experiments on five widely used datasets validate our state-of-the-art (SOTA) performance.