Hi-Dyna Graph: Hierarchical Dynamic Scene Graph for Robotic Autonomy in Human-Centric Environments

📄 arXiv: 2506.00083v1 📥 PDF

作者: Jiawei Hou, Xiangyang Xue, Taiping Zeng

分类: cs.RO, cs.AI

发布日期: 2025-05-30


💡 一句话要点

提出Hi-Dyna Graph,用于人机交互环境中机器人自主导航的动态场景图构建。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱五:交互与反应 (Interaction & Reaction) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 动态场景图 机器人自主导航 人机交互 分层表示 大型语言模型

📋 核心要点

  1. 现有方法在人机交互场景中存在不足,拓扑地图无法建模瞬态物体关系,而稠密神经表示(如NeRF)计算成本过高。
  2. Hi-Dyna Graph通过分层动态场景图架构,整合全局拓扑图和局部动态子图,实现环境的动态建模和更新。
  3. 实验表明,Hi-Dyna Graph能够有效表示场景,并使机器人能够在动态环境中自主完成复杂任务,无需额外训练或复杂奖励。

📝 摘要(中文)

本文提出了一种名为Hi-Dyna Graph的分层动态场景图架构,旨在提升服务机器人在以人为中心的场景中的自主操作能力。该架构融合了持久的全局布局和局部动态语义,以实现具身机器人自主性。通过RGB-D输入构建全局拓扑图,编码房间尺度的连通性和大型静态物体(如家具)。同时,环境和自我中心相机利用物体位置关系和人-物交互模式填充动态子图。利用语义和空间约束将这些子图锚定到全局拓扑,实现环境演变时的无缝更新。使用大型语言模型(LLM)来解释统一图,推断潜在的任务触发器,并生成基于机器人可供性的可执行指令。实验结果验证了Hi-Dyna Graph的场景表示有效性,并在真实场景中部署了移动机械臂,证明了系统在动态场景中自主完成复杂任务的实用性。

🔬 方法详解

问题定义:论文旨在解决服务机器人在以人为中心的动态环境中自主操作的难题。现有方法,如拓扑地图,虽然提供了有效的空间先验,但无法建模瞬态的物体关系。而稠密的神经表示(例如NeRF)虽然可以提供更丰富的场景信息,但计算成本过高,难以实时应用。因此,需要一种既能高效表示场景,又能捕捉动态物体关系的方法。

核心思路:论文的核心思路是构建一个分层的动态场景图,将全局静态布局和局部动态语义信息相结合。全局拓扑图负责表示房间尺度的连通性和大型静态物体,而动态子图则负责表示物体的位置关系和人-物交互模式。通过将动态子图锚定到全局拓扑图上,可以实现环境的动态更新和高效查询。

技术框架:Hi-Dyna Graph的整体架构包含以下几个主要模块:1) 全局拓扑图构建:利用RGB-D输入构建全局拓扑图,编码房间尺度的连通性和大型静态物体。2) 动态子图构建:利用环境和自我中心相机,构建动态子图,表示物体的位置关系和人-物交互模式。3) 子图锚定:利用语义和空间约束,将动态子图锚定到全局拓扑图上,实现环境的动态更新。4) LLM驱动的任务规划:使用大型语言模型(LLM)来解释统一图,推断潜在的任务触发器,并生成基于机器人可供性的可执行指令。

关键创新:Hi-Dyna Graph的关键创新在于其分层动态场景图的表示方法。与传统的拓扑地图相比,Hi-Dyna Graph能够建模瞬态的物体关系。与稠密的神经表示相比,Hi-Dyna Graph具有更高的计算效率。此外,利用LLM进行任务规划,使得机器人能够更好地理解环境和执行任务。

关键设计:论文中关于损失函数、网络结构等技术细节未知。但可以推测,子图锚定过程可能涉及到语义相似度匹配和空间位置约束,以保证子图能够准确地锚定到全局拓扑图上。LLM的任务规划过程可能涉及到prompt工程,以引导LLM生成符合机器人可供性的可执行指令。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了Hi-Dyna Graph的有效性。实验结果表明,Hi-Dyna Graph能够有效地表示场景,并使机器人能够在动态环境中自主完成复杂任务,例如在餐厅环境中,机器人可以自主完成取餐、送餐等任务,无需额外训练或复杂奖励。具体的性能数据和对比基线未知。

🎯 应用场景

Hi-Dyna Graph在服务机器人领域具有广泛的应用前景,例如在餐厅、医院、家庭等环境中,机器人可以利用该场景表示方法进行自主导航、物体识别、人机交互等任务。该研究有助于提升服务机器人的智能化水平,使其能够更好地适应动态变化的环境,并为人类提供更便捷的服务。未来,该技术还可以应用于自动驾驶、增强现实等领域。

📄 摘要(原文)

Autonomous operation of service robotics in human-centric scenes remains challenging due to the need for understanding of changing environments and context-aware decision-making. While existing approaches like topological maps offer efficient spatial priors, they fail to model transient object relationships, whereas dense neural representations (e.g., NeRF) incur prohibitive computational costs. Inspired by the hierarchical scene representation and video scene graph generation works, we propose Hi-Dyna Graph, a hierarchical dynamic scene graph architecture that integrates persistent global layouts with localized dynamic semantics for embodied robotic autonomy. Our framework constructs a global topological graph from posed RGB-D inputs, encoding room-scale connectivity and large static objects (e.g., furniture), while environmental and egocentric cameras populate dynamic subgraphs with object position relations and human-object interaction patterns. A hybrid architecture is conducted by anchoring these subgraphs to the global topology using semantic and spatial constraints, enabling seamless updates as the environment evolves. An agent powered by large language models (LLMs) is employed to interpret the unified graph, infer latent task triggers, and generate executable instructions grounded in robotic affordances. We conduct complex experiments to demonstrate Hi-Dyna Grap's superior scene representation effectiveness. Real-world deployments validate the system's practicality with a mobile manipulator: robotics autonomously complete complex tasks with no further training or complex rewarding in a dynamic scene as cafeteria assistant. See https://anonymous.4open.science/r/Hi-Dyna-Graph-B326 for video demonstration and more details.