MoniRefer: A Real-world Large-scale Multi-modal Dataset based on Roadside Infrastructure for 3D Visual Grounding

📄 arXiv: 2512.24605v1 📥 PDF

作者: Panquan Yang, Junfei Huang, Zongzhangbao Yin, Yingsong Hu, Anni Xu, Xinyi Luo, Xueqi Sun, Hai Wu, Sheng Ao, Zhaoxing Zhu, Chenglu Wen, Cheng Wang

分类: cs.CV

发布日期: 2025-12-31

备注: 14 pages


💡 一句话要点

提出MoniRefer数据集和Moni3DVG方法,用于路侧基础设施的3D视觉定位。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D视觉定位 多模态融合 路侧基础设施 点云处理 自然语言理解

📋 核心要点

  1. 现有3D视觉定位数据集主要集中于室内和自动驾驶场景,缺乏路侧基础设施视角的户外监控场景数据。
  2. 提出Moni3DVG方法,利用图像的外观信息和点云的几何、光学信息,进行多模态特征学习和3D目标定位。
  3. 实验结果表明,Moni3DVG方法在提出的MoniRefer数据集上表现出优越性和有效性。

📝 摘要(中文)

本文提出了一种新的任务:面向户外监控场景的3D视觉定位,旨在实现基础设施级别对交通场景的理解,超越了自车视角。为此,构建了MoniRefer,这是首个真实世界大规模多模态数据集,用于路侧级别的3D视觉定位。该数据集包含约136,018个对象,以及从真实环境中的多个复杂交通路口收集的411,128个自然语言表达式。为了确保数据集的质量和准确性,我们手动验证了所有语言描述和对象的3D标签。此外,还提出了一种新的端到端方法Moni3DVG,该方法利用图像提供的丰富外观信息以及点云提供的几何和光学信息进行多模态特征学习和3D对象定位。在提出的基准上进行的大量实验和消融研究证明了该方法的优越性和有效性。数据集和代码将会开源。

🔬 方法详解

问题定义:本文旨在解决路侧基础设施在复杂交通环境中,如何根据自然语言描述定位3D点云场景中的目标对象的问题。现有3D视觉定位数据集和方法主要集中在室内和自动驾驶场景,缺乏针对路侧监控场景的数据和算法,无法有效利用路侧传感器获取的多模态信息(图像和点云)。

核心思路:本文的核心思路是构建一个大规模路侧监控场景的3D视觉定位数据集MoniRefer,并提出一种能够有效融合图像和点云多模态信息的3D视觉定位方法Moni3DVG。通过多模态特征学习,Moni3DVG能够更准确地理解自然语言描述,并在3D点云中定位目标对象。

技术框架:Moni3DVG是一个端到端的3D视觉定位框架,主要包含以下模块:1) 多模态特征提取模块:分别从图像和点云中提取特征;2) 特征融合模块:将图像和点云特征进行融合,得到多模态特征表示;3) 语言理解模块:将自然语言描述编码为向量表示;4) 对象定位模块:利用多模态特征表示和语言向量表示,预测3D点云中目标对象的位置。

关键创新:本文的关键创新在于:1) 构建了首个大规模路侧监控场景的3D视觉定位数据集MoniRefer,填补了该领域的空白;2) 提出了Moni3DVG方法,能够有效融合图像和点云多模态信息,提高3D视觉定位的准确性。与现有方法相比,Moni3DVG更关注路侧监控场景的特点,并针对性地设计了多模态特征融合策略。

关键设计:在多模态特征提取模块中,图像特征采用预训练的ResNet提取,点云特征采用PointNet++提取。特征融合模块采用注意力机制,自适应地融合图像和点云特征。损失函数包括定位损失和分类损失,共同优化模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Moni3DVG方法在MoniRefer数据集上取得了显著的性能提升。相较于现有方法,Moni3DVG在3D视觉定位的准确率上提升了约10%。消融实验验证了多模态特征融合和注意力机制的有效性。

🎯 应用场景

该研究成果可应用于智能交通系统、智慧城市等领域。例如,可以利用路侧基础设施的传感器和算法,实现对交通事件的自动检测和响应,提高交通效率和安全性。未来,该技术还可以扩展到其他户外监控场景,如安防监控、环境监测等。

📄 摘要(原文)

3D visual grounding aims to localize the object in 3D point cloud scenes that semantically corresponds to given natural language sentences. It is very critical for roadside infrastructure system to interpret natural languages and localize relevant target objects in complex traffic environments. However, most existing datasets and approaches for 3D visual grounding focus on the indoor and outdoor driving scenes, outdoor monitoring scenarios remain unexplored due to scarcity of paired point cloud-text data captured by roadside infrastructure sensors. In this paper, we introduce a novel task of 3D Visual Grounding for Outdoor Monitoring Scenarios, which enables infrastructure-level understanding of traffic scenes beyond the ego-vehicle perspective. To support this task, we construct MoniRefer, the first real-world large-scale multi-modal dataset for roadside-level 3D visual grounding. The dataset consists of about 136,018 objects with 411,128 natural language expressions collected from multiple complex traffic intersections in the real-world environments. To ensure the quality and accuracy of the dataset, we manually verified all linguistic descriptions and 3D labels for objects. Additionally, we also propose a new end-to-end method, named Moni3DVG, which utilizes the rich appearance information provided by images and geometry and optical information from point cloud for multi-modal feature learning and 3D object localization. Extensive experiments and ablation studies on the proposed benchmarks demonstrate the superiority and effectiveness of our method. Our dataset and code will be released.