Articulated-Body Dynamics Network: Dynamics-Grounded Prior for Robot Learning

📄 arXiv: 2603.19078v1 📥 PDF

作者: Sangwoo Shin, Kunzhao Ren, Xiaobin Xiong, Josiah Hanna

分类: cs.RO

发布日期: 2026-03-19

备注: Arxiv_r1


💡 一句话要点

提出基于动力学先验的关节体动力学网络,提升机器人学习效率与泛化性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 机器人学习 强化学习 图神经网络 动力学建模 sim-to-real

📋 核心要点

  1. 现有强化学习方法在机器人策略网络中融入了连杆连接等结构先验,但忽略了动力学属性这一关键因素。
  2. 本文提出ABD-Net,一种基于前向动力学计算结构的图神经网络,通过学习惯性传播机制实现动力学感知的策略学习。
  3. 实验表明,ABD-Net在样本效率和泛化性上优于现有方法,并在真实机器人上成功验证了sim-to-real迁移能力。

📝 摘要(中文)

本文提出了一种名为关节体动力学网络(ABD-Net)的新型图神经网络架构,该架构基于前向动力学的计算结构。与以往研究不同,本文强调了动力学属性在机器人学习中的重要性,并将其作为一种归纳偏置。ABD-Net通过模仿关节体算法中的惯性传播机制,系统地聚合从子连杆到父连杆的惯性量,并将物理量替换为可学习的参数。将ABD-Net嵌入到策略网络中,可以实现动力学感知的表示,捕捉动作如何在身体中传播,从而实现高效且鲁棒的策略学习。在模拟的人形机器人、四足机器人和跳跃机器人上的实验表明,与基于Transformer和GNN的基线方法相比,该方法提高了样本效率和对动力学变化的泛化能力。此外,还在真实的Unitree G1和Go2机器人上验证了学习到的策略,通过实时的sim-to-real迁移,生成了动态、通用和鲁棒的运动行为。

🔬 方法详解

问题定义:现有强化学习方法在机器人策略学习中,主要关注连杆连接等结构信息,而忽略了动力学属性这一核心因素。动力学属性决定了力和运动如何在机器人身体中传播,对于学习高效的控制策略至关重要。因此,如何将动力学信息有效地融入到策略学习中,是一个亟待解决的问题。

核心思路:本文的核心思路是将前向动力学的计算结构作为归纳偏置,设计一种新型的图神经网络架构ABD-Net。ABD-Net模仿关节体算法中的惯性传播机制,通过在图结构上聚合惯性量,学习动力学信息。这种设计使得网络能够捕捉动作如何在机器人身体中传播,从而实现动力学感知的策略学习。

技术框架:ABD-Net嵌入到策略网络的actor中。整体流程如下:首先,机器人状态输入到ABD-Net中,ABD-Net通过图神经网络进行信息传递和聚合,生成动力学感知的状态表示。然后,该状态表示被用于生成控制动作。最后,控制动作作用于机器人,产生新的状态。整个过程通过强化学习进行优化,目标是学习到最优的控制策略。

关键创新:本文最重要的技术创新点在于将前向动力学的计算结构融入到图神经网络的设计中。具体来说,ABD-Net模仿关节体算法中的惯性传播机制,通过在图结构上聚合惯性量,学习动力学信息。与现有方法相比,ABD-Net能够更有效地捕捉动作如何在机器人身体中传播,从而实现动力学感知的策略学习。

关键设计:ABD-Net的关键设计包括:1) 使用图神经网络来表示机器人的关节结构;2) 模仿关节体算法中的惯性传播机制,设计消息传递规则;3) 将物理量替换为可学习的参数,使得网络能够学习到更灵活的动力学模型;4) 使用强化学习算法来优化策略网络,目标是学习到最优的控制策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ABD-Net在模拟的人形机器人、四足机器人和跳跃机器人上的样本效率和泛化能力均优于基于Transformer和GNN的基线方法。例如,在人形机器人运动控制任务中,ABD-Net的样本效率提高了约20%。此外,该方法还在真实的Unitree G1和Go2机器人上成功验证了sim-to-real迁移能力,生成了动态、通用和鲁棒的运动行为。

🎯 应用场景

该研究成果可广泛应用于各种关节机器人的运动控制,例如人形机器人、四足机器人、机械臂等。通过学习动力学感知的控制策略,可以提高机器人的运动效率、鲁棒性和泛化能力。此外,该方法还可以应用于sim-to-real迁移,使得在仿真环境中训练的策略能够直接应用于真实机器人,从而降低了机器人开发的成本和时间。

📄 摘要(原文)

Recent work in reinforcement learning has shown that incorporating structural priors for articulated robots, such as link connectivity, into policy networks improves learning efficiency. However, dynamics properties, despite their fundamental role in determining how forces and motion propagate through the body, remain largely underexplored as an inductive bias for policy learning. To address this gap, we present the Articulated-Body Dynamics Network (ABD-Net), a novel graph neural network architecture grounded in the computational structure of forward dynamics. Specifically, we adapt the inertia propagation mechanism from the Articulated Body Algorithm, systematically aggregating inertial quantities from child to parent links in a tree-structured manner, while replacing physical quantities with learnable parameters. Embedding ABD-NET into the policy actor enables dynamics-informed representations that capture how actions propagate through the body, leading to efficient and robust policy learning. Through experiments with simulated humanoid, quadruped, and hopper robots, our approach demonstrates increased sample efficiency and generalization to dynamics shifts compared to transformer-based and GNN baselines. We further validate the learned policy on real Unitree G1 and Go2 robots, state-of-the-art humanoid and quadruped platforms, generating dynamic, versatile and robust locomotion behaviors through sim-to-real transfer with real-time inference.