Collaborative Dynamic 3D Scene Graphs for Open-Vocabulary Urban Scene Understanding

📄 arXiv: 2503.08474v1 📥 PDF

作者: Tim Steinke, Martin Büchner, Niclas Vödisch, Abhinav Valada

分类: cs.RO

发布日期: 2025-03-11


💡 一句话要点

提出CURB-OSG,用于开放词汇城市场景理解的协同动态3D场景图构建。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 多智能体协作 动态3D场景图 开放词汇语义 城市场景理解 自动驾驶 机器人导航 传感器融合

📋 核心要点

  1. 现有方法难以构建可扩展到动态大型环境的、具有语义信息的最新空间表示。
  2. CURB-OSG通过融合多智能体的相机和激光雷达数据,构建开放词汇的动态3D场景图。
  3. 在真实世界数据集上验证了CURB-OSG,证明了多智能体协作能提升地图绘制和目标预测精度。

📝 摘要(中文)

本文提出了一种名为CURB-OSG的开放词汇动态3D场景图引擎,它通过多智能体协作生成城市驾驶场景的分层分解。该方法融合来自多个具有未知初始姿态的感知智能体的相机和激光雷达观测,与单智能体相比,能够构建更精确的地图,同时构建场景的统一开放词汇语义层次结构。与依赖于真实智能体姿态或仅在模拟中评估的先前方法不同,CURB-OSG缓解了这些约束。我们在从牛津雷达机器人汽车数据集的多个会话中获得的真实世界多智能体传感器数据上评估了CURB-OSG的能力。我们证明了通过多智能体协作提高了地图绘制和对象预测的准确性,并评估了所提出环境划分能力。为了促进进一步的研究,我们发布了我们的代码和补充材料。

🔬 方法详解

问题定义:论文旨在解决在动态、大规模城市环境中,如何构建准确、语义丰富的场景表示的问题。现有方法通常依赖于单智能体感知,难以应对遮挡和数据稀疏问题,且难以扩展到大型环境。此外,许多方法依赖于精确的智能体姿态信息,限制了其在实际场景中的应用。

核心思路:论文的核心思路是利用多智能体协作,通过融合来自多个视角的传感器数据,提高场景感知的完整性和准确性。通过构建动态3D场景图,实现对场景的分层分解和语义理解,并支持开放词汇的语义标注。

技术框架:CURB-OSG的整体框架包含以下几个主要模块:1) 多智能体数据采集:从多个智能体获取相机和激光雷达数据。2) 位姿估计与校正:估计和校正各个智能体的位姿,实现坐标系对齐。3) 场景图构建:基于融合的传感器数据,构建动态3D场景图,包括几何信息和语义信息。4) 场景图更新与维护:随着时间的推移,动态更新场景图,维护场景的一致性和准确性。

关键创新:该方法的主要创新在于:1) 提出了基于多智能体协作的动态3D场景图构建方法,能够有效提高场景感知的准确性和完整性。2) 支持开放词汇的语义标注,能够灵活地适应不同的场景和任务需求。3) 缓解了对精确智能体姿态的依赖,使其更适用于实际场景。

关键设计:论文中可能涉及的关键设计包括:1) 多智能体数据融合策略,例如使用卡尔曼滤波或图优化方法融合来自不同智能体的传感器数据。2) 场景图的表示方式,例如使用节点表示对象,边表示对象之间的关系。3) 语义标注方法,例如使用预训练的视觉语言模型进行开放词汇的语义标注。4) 动态场景图的更新策略,例如使用滑动窗口或贝叶斯滤波方法更新场景图。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该论文在真实的牛津雷达机器人汽车数据集上进行了评估,证明了通过多智能体协作,CURB-OSG能够提高地图绘制和对象预测的准确性。具体性能数据和提升幅度在论文中给出,相较于单智能体方法,多智能体协作显著提升了场景理解的质量。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、城市规划等领域。通过构建准确、语义丰富的城市场景表示,可以提高自动驾驶系统的安全性和可靠性,支持机器人更好地理解和交互环境,为城市规划提供更全面的数据支持。未来,该技术有望应用于智慧城市建设,实现更智能化的城市管理和服务。

📄 摘要(原文)

Mapping and scene representation are fundamental to reliable planning and navigation in mobile robots. While purely geometric maps using voxel grids allow for general navigation, obtaining up-to-date spatial and semantically rich representations that scale to dynamic large-scale environments remains challenging. In this work, we present CURB-OSG, an open-vocabulary dynamic 3D scene graph engine that generates hierarchical decompositions of urban driving scenes via multi-agent collaboration. By fusing the camera and LiDAR observations from multiple perceiving agents with unknown initial poses, our approach generates more accurate maps compared to a single agent while constructing a unified open-vocabulary semantic hierarchy of the scene. Unlike previous methods that rely on ground truth agent poses or are evaluated purely in simulation, CURB-OSG alleviates these constraints. We evaluate the capabilities of CURB-OSG on real-world multi-agent sensor data obtained from multiple sessions of the Oxford Radar RobotCar dataset. We demonstrate improved mapping and object prediction accuracy through multi-agent collaboration as well as evaluate the environment partitioning capabilities of the proposed approach. To foster further research, we release our code and supplementary material at https://ov-curb.cs.uni-freiburg.de.