Learning Semantic-Geometric Task Graph-Representations from Human Demonstrations

📄 arXiv: 2601.11460v1 📥 PDF

作者: Franziska Herbert, Vignesh Prasad, Han Liu, Dorothea Koert, Georgia Chalvatzaki

分类: cs.RO, cs.LG

发布日期: 2026-01-16

备注: 9 pages, 7 figures, preprint


💡 一句话要点

提出基于语义-几何任务图表示的学习框架,用于理解双臂操作中的长时程任务

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 机器人操作 任务图表示 人类演示学习 双臂机器人 语义几何 消息传递神经网络 Transformer 长时程任务

📋 核心要点

  1. 现有方法难以有效捕捉长时程操作任务中动作顺序、对象交互和几何关系的多样性,尤其是在双臂操作场景下。
  2. 提出一种语义-几何任务图表示,结合消息传递神经网络和Transformer,解耦场景表示学习和动作条件下的任务推理。
  3. 实验表明,该方法在具有高动作和对象变异性的任务中表现优异,并成功迁移到物理双臂机器人上进行在线动作选择。

📝 摘要(中文)

本文提出了一种语义-几何任务图表示,用于从人类演示中学习结构化的任务表示,这对于理解长时程操作行为至关重要,尤其是在双臂操作环境中,动作顺序、对象参与和交互几何关系可能显著变化。核心挑战在于联合捕捉任务的离散语义结构和以对象为中心的几何关系的时间演变,并以支持任务进展推理的形式呈现。该框架结合了消息传递神经网络(MPNN)编码器和基于Transformer的解码器,将场景表示学习与动作条件下的任务进展推理分离。编码器仅在时间场景图上运行以学习结构化表示,而解码器以动作上下文为条件来预测未来的动作序列、相关对象和对象在较长时间范围内的运动。在人类演示数据集上的大量评估表明,语义-几何任务图表示对于具有高动作和对象变异性的任务特别有益,而简单的基于序列的模型难以捕捉任务进展。最后,证明了任务图表示可以转移到物理双臂机器人并用于在线动作选择,突出了它们作为可重用任务抽象在操作系统中进行下游决策的潜力。

🔬 方法详解

问题定义:现有方法在理解长时程操作任务,特别是双臂操作任务时,难以同时捕捉任务的离散语义结构和对象间几何关系的时间演变。这些方法通常难以处理动作和对象的高变异性,导致任务进展的推理能力不足。现有方法的痛点在于缺乏一种能够有效表示和推理复杂任务结构的模型。

核心思路:论文的核心思路是将任务表示为语义-几何任务图,其中节点表示对象,边表示对象间的关系,并随时间演变。通过这种图结构,可以显式地建模对象间的交互和任务的语义结构。同时,利用消息传递神经网络(MPNN)和Transformer的优势,分别进行场景表示学习和动作条件下的任务推理,从而解耦这两个过程,提高模型的泛化能力和推理效率。

技术框架:整体框架包含两个主要模块:MPNN编码器和Transformer解码器。首先,将人类演示数据转换为时间场景图序列。然后,MPNN编码器在这些图上进行消息传递,学习每个时间步的场景表示。接着,Transformer解码器以这些场景表示和动作上下文为条件,预测未来的动作序列、相关对象和对象运动。整个框架通过端到端的方式进行训练。

关键创新:最重要的技术创新点在于语义-几何任务图表示的引入,它能够显式地建模对象间的关系和任务的语义结构,从而更好地捕捉任务的复杂性。与传统的序列模型相比,该方法能够更好地处理动作和对象的高变异性,提高任务进展的推理能力。此外,解耦场景表示学习和动作条件下的任务推理也是一个重要的创新点,它使得模型更加模块化和可扩展。

关键设计:MPNN编码器使用多层消息传递机制,学习每个节点的表示,并使用池化操作将节点表示聚合为整个图的表示。Transformer解码器使用标准的自注意力机制,以场景表示和动作上下文为条件,预测未来的动作序列。损失函数包括动作预测损失、对象预测损失和运动预测损失。具体参数设置和网络结构细节在论文中有详细描述。

📊 实验亮点

实验结果表明,该方法在人类演示数据集上取得了显著的性能提升。与基于序列的模型相比,该方法在具有高动作和对象变异性的任务中表现更佳。此外,该方法成功地将学习到的任务图表示迁移到物理双臂机器人上,并实现了在线动作选择,验证了该方法的有效性和泛化能力。具体的性能数据和对比基线在论文中有详细展示。

🎯 应用场景

该研究成果可应用于各种机器人操作任务,例如装配、烹饪、医疗手术等。通过学习人类演示,机器人可以理解复杂任务的结构和步骤,并自主完成任务。此外,该方法还可以用于人机协作,机器人可以根据人类的意图和动作,预测下一步操作,并提供辅助或指导。该研究具有重要的实际价值和广阔的应用前景,有望推动机器人技术的发展。

📄 摘要(原文)

Learning structured task representations from human demonstrations is essential for understanding long-horizon manipulation behaviors, particularly in bimanual settings where action ordering, object involvement, and interaction geometry can vary significantly. A key challenge lies in jointly capturing the discrete semantic structure of tasks and the temporal evolution of object-centric geometric relations in a form that supports reasoning over task progression. In this work, we introduce a semantic-geometric task graph-representation that encodes object identities, inter-object relations, and their temporal geometric evolution from human demonstrations. Building on this formulation, we propose a learning framework that combines a Message Passing Neural Network (MPNN) encoder with a Transformer-based decoder, decoupling scene representation learning from action-conditioned reasoning about task progression. The encoder operates solely on temporal scene graphs to learn structured representations, while the decoder conditions on action-context to predict future action sequences, associated objects, and object motions over extended time horizons. Through extensive evaluation on human demonstration datasets, we show that semantic-geometric task graph-representations are particularly beneficial for tasks with high action and object variability, where simpler sequence-based models struggle to capture task progression. Finally, we demonstrate that task graph representations can be transferred to a physical bimanual robot and used for online action selection, highlighting their potential as reusable task abstractions for downstream decision-making in manipulation systems.