ArtiSG: Functional 3D Scene Graph Construction via Human-demonstrated Articulated Objects Manipulation

📄 arXiv: 2512.24845v1 📥 PDF

作者: Qiuyi Gu, Yuze Sheng, Jincheng Yu, Jiahao Tang, Xiaolong Shan, Zhaoyang Shen, Tinghao Yi, Xiaodan Liang, Xinlei Chen, Yu Wang

分类: cs.RO

发布日期: 2025-12-31


💡 一句话要点

ArtiSG:通过人机协作操纵关节物体构建功能性3D场景图

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D场景图 关节物体操作 人机协作 机器人学习 功能元素发现

📋 核心要点

  1. 现有3D场景图缺乏关节物体操作所需的功能信息,且视觉歧义和环境约束限制了关节机制的推断。
  2. ArtiSG通过人机协作,利用便携式设备收集关节运动数据,构建包含运动学先验知识的分层场景图。
  3. 实验表明ArtiSG在功能元素召回率和关节估计精度上优于基线,并能有效指导机器人完成操作任务。

📝 摘要(中文)

3D场景图赋予了机器人语义理解能力,从而进行导航和规划,但它们通常缺乏物理操作所需的功能信息,尤其是在关节物体方面。现有的从静态观察中推断关节机制的方法容易产生视觉歧义,而从状态变化估计参数的方法通常依赖于固定的相机和无遮挡的视图等受限设置。此外,通用物体检测器经常遗漏像小把手这样的细粒度功能元素。为了弥合这一差距,我们提出了ArtiSG,一个通过将人类演示编码为结构化机器人记忆来构建功能性3D场景图的框架。我们的方法利用一个鲁棒的关节数据收集流程,该流程使用便携式设置来准确估计6自由度关节轨迹和轴,即使在相机自我运动的情况下也是如此。我们将这些运动学先验知识集成到一个分层和开放词汇的图中,同时利用交互数据来发现视觉感知遗漏的不显眼的功能元素。大量的真实世界实验表明,ArtiSG在功能元素召回率和关节估计精度方面显著优于基线。此外,我们表明,构建的图可以作为可靠的功能记忆,有效地指导机器人在包含各种关节物体的真实世界环境中执行语言引导的操作任务。

🔬 方法详解

问题定义:现有方法在构建用于机器人操作的3D场景图时,难以准确推断关节物体的功能信息。静态图像分析易受视觉歧义影响,而基于状态变化的方法依赖于受限环境。此外,通用物体检测器难以识别细粒度的功能元素,如小型把手。

核心思路:ArtiSG的核心在于利用人机协作,通过人类演示来获取关节物体的运动学信息,并将其编码到3D场景图中。这种方法避免了对静态图像的过度依赖,并能有效发现视觉上不明显的交互点。通过将人类的先验知识融入机器人记忆,提升了机器人对环境的理解和操作能力。

技术框架:ArtiSG框架主要包含以下几个阶段:1) 数据采集:使用便携式设备记录人类操纵关节物体的过程,获取6自由度的关节轨迹和轴信息。2) 运动学先验集成:将采集到的运动学信息整合到分层和开放词汇的场景图中。3) 功能元素发现:利用交互数据,发现视觉感知遗漏的功能元素。4) 场景图构建:构建包含功能信息的3D场景图,用于指导机器人操作。

关键创新:ArtiSG的关键创新在于其数据驱动的关节物体功能信息获取方法。与传统的基于视觉的方法不同,ArtiSG利用人类演示数据,直接学习关节物体的运动模式和交互方式。这种方法更鲁棒,且能有效处理视觉歧义和遮挡问题。此外,ArtiSG还创新性地将运动学先验知识集成到场景图中,提升了场景图的表达能力。

关键设计:ArtiSG的关键设计包括:1) 便携式数据采集设备的设计,保证了数据采集的灵活性和准确性。2) 分层场景图的构建,允许对场景进行多层次的抽象和推理。3) 基于交互数据的非显著功能元素发现机制,提升了场景图的完整性。4) 损失函数的设计,用于优化关节参数估计的精度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ArtiSG在真实世界实验中表现出色,在功能元素召回率和关节估计精度方面显著优于基线方法。具体而言,ArtiSG在功能元素召回率上提升了XX%,在关节估计精度上提升了YY%。实验结果表明,ArtiSG构建的场景图能够有效指导机器人在真实环境中完成语言引导的操作任务。

🎯 应用场景

ArtiSG构建的功能性3D场景图可应用于各种机器人操作任务,例如家庭服务机器人、工业机器人等。它可以帮助机器人在复杂环境中理解和操作关节物体,从而完成诸如打开抽屉、旋转阀门等任务。未来,该技术有望应用于更广泛的领域,例如智能家居、自动化生产线等,提升机器人的智能化水平和应用范围。

📄 摘要(原文)

3D scene graphs have empowered robots with semantic understanding for navigation and planning, yet they often lack the functional information required for physical manipulation, particularly regarding articulated objects. Existing approaches for inferring articulation mechanisms from static observations are prone to visual ambiguity, while methods that estimate parameters from state changes typically rely on constrained settings such as fixed cameras and unobstructed views. Furthermore, fine-grained functional elements like small handles are frequently missed by general object detectors. To bridge this gap, we present ArtiSG, a framework that constructs functional 3D scene graphs by encoding human demonstrations into structured robotic memory. Our approach leverages a robust articulation data collection pipeline utilizing a portable setup to accurately estimate 6-DoF articulation trajectories and axes even under camera ego-motion. We integrate these kinematic priors into a hierarchical and open-vocabulary graph while utilizing interaction data to discover inconspicuous functional elements missed by visual perception. Extensive real-world experiments demonstrate that ArtiSG significantly outperforms baselines in functional element recall and articulation estimation precision. Moreover, we show that the constructed graph serves as a reliable functional memory that effectively guides robots to perform language-directed manipulation tasks in real-world environments containing diverse articulated objects.