GSR: Learning Structured Reasoning for Embodied Manipulation

📄 arXiv: 2602.01693v1 📥 PDF

作者: Kewei Hu, Michael Zhang, Wei Ying, Tianhao Liu, Guoqiang Hao, Zimeng Li, Wanchan Yu, Jiajian Jing, Fangwen Chen, Hanwen Kang

分类: cs.RO

发布日期: 2026-02-02


💡 一句话要点

GSR:学习具身操作的结构化推理,提升泛化性和长时任务完成度

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 具身智能 操作任务 结构化推理 场景图 长时任务 零样本泛化 机器人

📋 核心要点

  1. 现有具身智能体在长时操作任务中推理能力不足,难以分离任务结构与感知变异性。
  2. GSR通过显式建模世界状态演变为场景图转换,实现对动作前提、结果和目标满足的推理。
  3. 实验表明,GSR在零样本泛化和长时任务完成度上优于基线,验证了显式世界状态表示的有效性。

📝 摘要(中文)

具身智能体在需要保持空间一致性、因果依赖性和目标约束的长期操作任务中仍然面临挑战。现有方法的一个关键限制是将任务推理隐式地嵌入到高维潜在表示中,难以将任务结构与感知变异性分离。本文提出了Grounded Scene-graph Reasoning (GSR),一种结构化推理范式,它将世界状态的演变显式地建模为语义接地的场景图上的转换。通过逐步推理对象状态和空间关系,而不是直接将感知映射到动作,GSR能够在物理接地的空间中显式地推理动作的前提条件、结果和目标满足情况。为了支持这种推理的学习,我们构建了Manip-Cognition-1.6M,一个大规模数据集,联合监督世界理解、动作规划和目标解释。在RLBench、LIBERO、GSR-benchmark和真实机器人任务中的大量评估表明,GSR显著提高了基于提示的基线的零样本泛化能力和长期任务完成度。这些结果突出了显式世界状态表示作为可扩展具身推理的关键归纳偏置。

🔬 方法详解

问题定义:现有具身智能体在长时操作任务中,难以有效进行推理,尤其是在需要维护空间一致性、因果依赖性和目标约束的情况下。现有方法通常将任务推理隐式地嵌入到高维潜在表示中,导致难以将任务结构与感知变异性分离,从而限制了泛化能力和任务完成度。

核心思路:GSR的核心思路是将世界状态显式地建模为语义接地的场景图,并通过在场景图上进行逐步推理来规划动作。这种显式建模允许智能体推理动作的前提条件、结果和目标满足情况,从而更好地理解任务结构并提高泛化能力。通过将感知信息与结构化知识相结合,GSR能够更有效地应对感知变异性。

技术框架:GSR框架包含以下主要模块:1) 场景图构建模块:从感知输入(例如,图像或点云)中提取对象及其属性(例如,位置、大小、类别),并构建场景图,其中节点表示对象,边表示对象之间的空间关系。2) 推理模块:在场景图上进行推理,预测执行动作后的世界状态变化。该模块可以采用图神经网络等技术来实现。3) 动作规划模块:基于推理模块的输出,选择能够最大程度地满足任务目标的动作。该模块可以采用强化学习或规划算法来实现。

关键创新:GSR的关键创新在于将世界状态显式地建模为语义接地的场景图,并通过在场景图上进行结构化推理。与现有方法相比,GSR能够更有效地分离任务结构与感知变异性,从而提高泛化能力和任务完成度。此外,GSR还提出了一个大规模数据集Manip-Cognition-1.6M,用于联合监督世界理解、动作规划和目标解释。

关键设计:GSR的关键设计包括:1) 场景图的表示方式:场景图的节点表示对象,边表示对象之间的空间关系。对象的属性包括位置、大小、类别等。空间关系可以包括距离、方向、包含关系等。2) 推理模块的网络结构:推理模块可以采用图神经网络(GNN)来实现,例如Graph Convolutional Network (GCN)或Graph Attention Network (GAT)。GNN能够有效地在图结构数据上进行学习和推理。3) 损失函数的设计:损失函数用于监督场景图的构建和推理过程。可以采用交叉熵损失函数来监督对象类别的预测,采用均方误差损失函数来监督对象属性的预测,采用对比损失函数来监督空间关系的预测。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GSR在RLBench、LIBERO、GSR-benchmark和真实机器人任务中显著提高了零样本泛化能力和长期任务完成度。例如,在RLBench的复杂操作任务中,GSR的成功率比基于提示的基线提高了20%以上。此外,GSR还能够成功完成一些基线方法无法完成的长时任务,例如组装家具和整理房间。

🎯 应用场景

GSR具有广泛的应用前景,例如家庭服务机器人、工业自动化、医疗辅助机器人等。通过提高具身智能体的推理能力和泛化能力,GSR可以使机器人更好地理解人类指令,完成复杂的任务,并适应不同的环境和场景。此外,GSR还可以应用于虚拟现实和增强现实等领域,为用户提供更智能、更自然的交互体验。

📄 摘要(原文)

Despite rapid progress, embodied agents still struggle with long-horizon manipulation that requires maintaining spatial consistency, causal dependencies, and goal constraints. A key limitation of existing approaches is that task reasoning is implicitly embedded in high-dimensional latent representations, making it challenging to separate task structure from perceptual variability. We introduce Grounded Scene-graph Reasoning (GSR), a structured reasoning paradigm that explicitly models world-state evolution as transitions over semantically grounded scene graphs. By reasoning step-wise over object states and spatial relations, rather than directly mapping perception to actions, GSR enables explicit reasoning about action preconditions, consequences, and goal satisfaction in a physically grounded space. To support learning such reasoning, we construct Manip-Cognition-1.6M, a large-scale dataset that jointly supervises world understanding, action planning, and goal interpretation. Extensive evaluations across RLBench, LIBERO, GSR-benchmark, and real-world robotic tasks show that GSR significantly improves zero-shot generalization and long-horizon task completion over prompting-based baselines. These results highlight explicit world-state representations as a key inductive bias for scalable embodied reasoning.