RGBT-Ground Benchmark: Visual Grounding Beyond RGB in Complex Real-World Scenarios

📄 arXiv: 2512.24561v1 📥 PDF

作者: Tianyi Zhao, Jiawen Xi, Linhui Xiao, Junnan Li, Xue Yang, Maoxun Yuan, Xingxing Wei

分类: cs.CV

发布日期: 2025-12-31

备注: 27pages, 9figures


💡 一句话要点

提出RGBT-Ground基准,用于评估复杂场景下RGB-T图像的视觉定位能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉定位 RGB-T图像 多模态融合 鲁棒性 真实场景

📋 核心要点

  1. 现有视觉定位基准缺乏真实场景的复杂性,难以评估模型在光照、天气变化下的鲁棒性。
  2. 提出RGBT-Ground基准,包含RGB和热红外图像对,以及细粒度的场景、环境和对象注释。
  3. 提出RGBT-VGNet,一个融合RGB和热红外模态的基线模型,并在夜间和远距离场景中表现出色。

📝 摘要(中文)

视觉定位(VG)旨在根据自然语言表达式定位图像中的特定对象,是视觉-语言理解中的一项基本任务。然而,现有的VG基准大多来自在干净环境下收集的数据集,如COCO,场景多样性有限。因此,它们无法反映真实世界条件的复杂性,如光照、天气等变化,而这些对于评估模型在安全关键应用中的鲁棒性和泛化能力至关重要。为了解决这些限制,我们提出了RGBT-Ground,这是第一个为复杂真实世界场景构建的大规模视觉定位基准。它由空间对齐的RGB和热红外(TIR)图像对组成,具有高质量的指代表达式、相应的对象边界框以及场景、环境和对象级别的细粒度注释。该基准能够进行全面评估,并促进在多样化和具有挑战性的条件下对鲁棒定位的研究。此外,我们建立了一个统一的视觉定位框架,支持单模态(RGB或TIR)和多模态(RGB-TIR)视觉输入。在此基础上,我们提出了RGBT-VGNet,这是一个简单而有效的基线,用于融合互补的视觉模态以实现鲁棒定位。我们对RGBT-Ground上的现有方法进行了广泛的调整。实验结果表明,我们提出的RGBT-VGNet明显优于这些调整后的方法,尤其是在夜间和远距离场景中。所有资源将公开发布,以促进未来对复杂真实世界环境中鲁棒视觉定位的研究。

🔬 方法详解

问题定义:现有的视觉定位(Visual Grounding, VG)基准数据集,如COCO,主要是在理想环境下采集的,缺乏真实世界场景中常见的光照变化、天气影响等复杂因素。这导致在这些数据集上训练的模型,在实际应用中,尤其是在安全攸关的应用中,鲁棒性和泛化能力不足。因此,需要一个更具挑战性的基准数据集,能够更好地评估模型在复杂环境下的性能。

核心思路:论文的核心思路是构建一个包含RGB图像和热红外(Thermal Infrared, TIR)图像的大规模视觉定位基准数据集RGBT-Ground。RGB图像提供可见光信息,而TIR图像提供热辐射信息,两者互补,可以提高模型在各种光照条件下的鲁棒性。同时,数据集包含细粒度的场景、环境和对象级别的注释,方便进行更深入的研究。

技术框架:论文建立了一个统一的视觉定位框架,该框架支持单模态(RGB或TIR)和多模态(RGB-TIR)视觉输入。在此框架下,提出了RGBT-VGNet模型,该模型首先分别提取RGB和TIR图像的特征,然后通过融合模块将两种模态的特征进行融合,最后利用融合后的特征进行视觉定位。

关键创新:论文的关键创新在于构建了RGBT-Ground数据集,这是第一个针对复杂真实世界场景的大规模RGB-T视觉定位基准。此外,提出的RGBT-VGNet模型,通过简单有效的模态融合策略,实现了在复杂环境下的鲁棒定位。

关键设计:RGBT-VGNet的关键设计在于模态融合模块。论文中具体使用的融合方法未知,但强调了其简单有效性。此外,数据集的构建过程中,对RGB和TIR图像进行了空间对齐,保证了两种模态信息的对应关系。数据集的注释包括高质量的指代表达式、对象边界框以及场景、环境和对象级别的细粒度信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的RGBT-VGNet在RGBT-Ground数据集上显著优于其他方法,尤其是在夜间和远距离场景中。具体性能数据和提升幅度在论文中给出,表明了RGBT-VGNet在复杂环境下的鲁棒性和有效性。该模型为后续研究提供了一个有效的基线。

🎯 应用场景

该研究成果可广泛应用于自动驾驶、安防监控、机器人导航等领域。在自动驾驶中,RGBT-Ground数据集可以用于训练和评估车辆在夜间、雾天等恶劣条件下的目标检测和定位能力。在安防监控中,可以提高监控系统在复杂光照条件下的目标识别准确率。在机器人导航中,可以帮助机器人在各种环境下更准确地理解周围环境。

📄 摘要(原文)

Visual Grounding (VG) aims to localize specific objects in an image according to natural language expressions, serving as a fundamental task in vision-language understanding. However, existing VG benchmarks are mostly derived from datasets collected under clean environments, such as COCO, where scene diversity is limited. Consequently, they fail to reflect the complexity of real-world conditions, such as changes in illumination, weather, etc., that are critical to evaluating model robustness and generalization in safety-critical applications. To address these limitations, we present RGBT-Ground, the first large-scale visual grounding benchmark built for complex real-world scenarios. It consists of spatially aligned RGB and Thermal infrared (TIR) image pairs with high-quality referring expressions, corresponding object bounding boxes, and fine-grained annotations at the scene, environment, and object levels. This benchmark enables comprehensive evaluation and facilitates the study of robust grounding under diverse and challenging conditions. Furthermore, we establish a unified visual grounding framework that supports both uni-modal (RGB or TIR) and multi-modal (RGB-TIR) visual inputs. Based on it, we propose RGBT-VGNet, a simple yet effective baseline for fusing complementary visual modalities to achieve robust grounding. We conduct extensive adaptations to the existing methods on RGBT-Ground. Experimental results show that our proposed RGBT-VGNet significantly outperforms these adapted methods, particularly in nighttime and long-distance scenarios. All resources will be publicly released to promote future research on robust visual grounding in complex real-world environments.