A Simple and Better Baseline for Visual Grounding

作者: Jingchao Wang, Wenlong Zhang, Dingjiang Huang, Hong Wang, Yefeng Zheng

分类: cs.CV

发布日期: 2025-10-12

备注: ICME2025

🔗 代码/项目: GITHUB

💡 一句话要点

提出基于特征选择的视觉定位基线FSVG，提升精度与效率

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉定位 特征选择 跨模态学习 语言引导 深度学习

📋 核心要点

现有视觉定位方法需在多尺度图像上迭代，并缓存特征，计算开销大。
FSVG将语言和视觉模态封装到统一网络，并行利用语言指导视觉特征提取。
FSVG引入相似度特征选择机制，仅利用相关视觉特征，提升预测速度。

📝 摘要（中文）

视觉定位旨在预测文本描述所指定的目标物体的位置。目前的研究趋势是侧重于选择与语言相关的视觉区域进行目标定位，以减少计算开销。尽管这种方法取得了令人印象深刻的性能，但它需要在不同的图像尺度上迭代执行，并且每次迭代都需要将语言特征和视觉特征存储在缓存中，从而产生额外的开销。为了简化实现，本文提出了一种基于特征选择的简单而有效的视觉定位基线，称为FSVG。具体来说，我们直接将语言和视觉模态封装到一个整体网络架构中，无需复杂的迭代过程，并并行地利用语言作为指导，促进语言模态和视觉模态之间的交互，以提取有效的视觉特征。此外，为了降低计算成本，在视觉特征学习过程中，我们引入了一种基于相似度的特征选择机制，仅利用与语言相关的视觉特征进行更快的预测。在多个基准数据集上进行的大量实验全面证实，所提出的FSVG在精度和效率之间取得了比当前最先进方法更好的平衡。

🔬 方法详解

问题定义：视觉定位旨在根据给定的文本描述，在图像中找到对应的目标物体的位置。现有方法，特别是那些基于特征选择的方法，虽然在精度上表现出色，但通常需要在不同的图像尺度上进行多次迭代，并且每次迭代都需要缓存语言和视觉特征，导致计算开销显著增加，实现复杂性也较高。这些痛点限制了它们在实际应用中的部署。

核心思路：FSVG的核心思路是简化视觉定位流程，通过一个端到端的网络结构直接整合语言和视觉信息，避免了多尺度迭代和特征缓存。它并行地利用语言信息来指导视觉特征的提取，从而能够更有效地关注与文本描述相关的视觉区域。此外，通过引入基于相似度的特征选择机制，进一步减少了计算量，提高了预测速度。

技术框架：FSVG的整体架构包含以下几个主要模块：1) 语言特征提取模块：用于提取文本描述的语言特征。2) 视觉特征提取模块：用于提取图像的视觉特征。3) 跨模态交互模块：该模块将语言特征作为指导，促进语言和视觉特征之间的交互，从而提取与语言相关的视觉特征。4) 特征选择模块：基于语言特征和视觉特征之间的相似度，选择与语言最相关的视觉特征。5) 定位预测模块：利用选择后的视觉特征预测目标物体的位置。

关键创新：FSVG的关键创新在于其简洁的端到端架构和基于相似度的特征选择机制。与现有方法相比，FSVG避免了复杂的多尺度迭代和特征缓存，从而显著降低了计算开销。同时，通过并行地利用语言信息来指导视觉特征的提取，提高了特征的有效性。基于相似度的特征选择机制进一步减少了计算量，提高了预测速度。这些创新使得FSVG在精度和效率之间取得了更好的平衡。

关键设计：FSVG的关键设计包括：1) 并行语言指导：语言特征被并行地用于指导视觉特征的提取，从而能够更有效地关注与文本描述相关的视觉区域。2) 相似度度量：使用余弦相似度等方法来衡量语言特征和视觉特征之间的相似度，从而选择与语言最相关的视觉特征。3) 损失函数：使用交叉熵损失函数或IoU损失函数来训练定位预测模块，以提高定位精度。4) 网络结构：可以使用ResNet、BERT等预训练模型作为视觉和语言特征提取模块的骨干网络。

📊 实验亮点

在多个基准数据集上的实验结果表明，FSVG在精度和效率之间取得了比当前最先进方法更好的平衡。例如，在RefCOCO数据集上，FSVG在保证精度的前提下，显著降低了计算时间。代码已开源，方便研究人员复现和进一步研究。

🎯 应用场景

FSVG可应用于智能图像搜索、视觉问答、机器人导航等领域。例如，在智能图像搜索中，用户可以通过文本描述快速找到图像中对应的物体；在视觉问答中，FSVG可以帮助模型更准确地理解问题并找到答案；在机器人导航中，机器人可以根据指令找到目标物体并执行相应的操作。该研究有助于提升人机交互的自然性和效率。

📄 摘要（原文）

Visual grounding aims to predict the locations of target objects specified by textual descriptions. For this task with linguistic and visual modalities, there is a latest research line that focuses on only selecting the linguistic-relevant visual regions for object localization to reduce the computational overhead. Albeit achieving impressive performance, it is iteratively performed on different image scales, and at every iteration, linguistic features and visual features need to be stored in a cache, incurring extra overhead. To facilitate the implementation, in this paper, we propose a feature selection-based simple yet effective baseline for visual grounding, called FSVG. Specifically, we directly encapsulate the linguistic and visual modalities into an overall network architecture without complicated iterative procedures, and utilize the language in parallel as guidance to facilitate the interaction between linguistic modal and visual modal for extracting effective visual features. Furthermore, to reduce the computational cost, during the visual feature learning, we introduce a similarity-based feature selection mechanism to only exploit language-related visual features for faster prediction. Extensive experiments conducted on several benchmark datasets comprehensively substantiate that the proposed FSVG achieves a better balance between accuracy and efficiency beyond the current state-of-the-art methods. Code is available at https://github.com/jcwang0602/FSVG.

A Simple and Better Baseline for Visual Grounding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册