SteadyTray: Learning Object Balancing Tasks in Humanoid Tray Transport via Residual Reinforcement Learning

📄 arXiv: 2603.10306v1 📥 PDF

作者: Anlun Huang, Zhenyu Wu, Soofiyan Atar, Yuheng Zhi, Michael Yip

分类: cs.RO

发布日期: 2026-03-11

备注: Project website: https://steadytray.github.io/


💡 一句话要点

提出ReST-RL,解决人形机器人动态行走中托盘平衡问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 人形机器人 强化学习 残差学习 托盘平衡 运动控制 sim-to-real 机器人控制

📋 核心要点

  1. 人形机器人在动态环境中稳定运输未固定载荷是一项挑战,现有方法难以兼顾运动稳定性和载荷平衡。
  2. ReST-RL通过分层强化学习,将运动控制与载荷稳定解耦,利用残差模块主动抵消步态扰动,保证托盘平稳。
  3. 实验表明,ReST-RL在仿真和真实机器人上均表现出色,实现了高成功率和良好的泛化能力。

📝 摘要(中文)

本文提出了一种名为ReST-RL的分层强化学习架构,用于解决人形机器人在非结构化环境中稳定运输未固定载荷的问题。该架构将运动控制与载荷稳定解耦,通过稳健的基础运动策略和一个动态残差模块来抵消步态引起的末端执行器扰动。这种架构分离确保了托盘运输的稳定性,同时不影响底层的双足行走稳定性。在仿真中,残差设计在步态平滑性和方向精度方面显著优于端到端基线,在变速跟踪中成功率达到96.9%,对外力扰动的鲁棒性达到74.5%。该方法已成功部署在Unitree G1人形机器人硬件上,展示了在各种物体和外力扰动下的高度可靠的零样本sim-to-real泛化能力。

🔬 方法详解

问题定义:人形机器人在动态行走过程中,由于自身运动的周期性扰动,难以保持托盘上未固定物体的平衡。现有的端到端学习方法难以同时优化行走稳定性和托盘平衡,且泛化性较差。

核心思路:将问题分解为两个子问题:基础运动控制和残差平衡控制。首先,使用一个鲁棒的基础运动策略保证机器人的行走稳定性。然后,设计一个残差模块,专门用于抵消由于步态引起的末端执行器扰动,从而实现托盘的平衡。

技术框架:ReST-RL框架包含两个主要模块:基础运动控制器和残差控制器。基础运动控制器负责生成机器人的行走步态,可以使用现有的成熟算法。残差控制器是一个强化学习模型,其输入是机器人的状态和目标托盘姿态,输出是对基础运动控制器的修正量。这两个模块共同作用,实现稳定的托盘运输。

关键创新:核心创新在于将运动控制与载荷平衡解耦,并使用残差强化学习来学习平衡控制策略。这种方法避免了端到端学习的复杂性,提高了训练效率和泛化能力。同时,残差学习可以更好地利用现有的运动控制算法,并在此基础上进行微调,从而实现更好的性能。

关键设计:残差控制器的网络结构采用多层感知机(MLP),输入包括机器人的关节角度、角速度、以及目标托盘姿态等信息。损失函数包括托盘姿态误差、动作惩罚项等,用于约束残差控制器的输出。强化学习算法采用PPO(Proximal Policy Optimization),用于训练残差控制器的策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在仿真实验中,ReST-RL在变速跟踪任务中达到了96.9%的成功率,显著优于端到端基线。对外力扰动测试中,ReST-RL的鲁棒性达到了74.5%。在Unitree G1人形机器人上的实验表明,该方法具有良好的零样本sim-to-real泛化能力,能够在真实环境中稳定运输各种物体,并抵抗外部干扰。

🎯 应用场景

该研究成果可应用于物流、医疗、服务等领域,例如在仓库中利用人形机器人进行货物搬运,在医院中进行药品或餐食配送,或在家庭环境中提供辅助服务。该方法能够提高人形机器人在复杂环境中的适应性和工作效率,降低人工成本,并提升服务质量。

📄 摘要(原文)

Stabilizing unsecured payloads against the inherent oscillations of dynamic bipedal locomotion remains a critical engineering bottleneck for humanoids in unstructured environments. To solve this, we introduce ReST-RL, a hierarchical reinforcement learning architecture that explicitly decouples locomotion from payload stabilization, evaluated via the SteadyTray benchmark. Rather than relying on monolithic end-to-end learning, our framework integrates a robust base locomotion policy with a dynamic residual module engineered to actively cancel gait-induced perturbations at the end-effector. This architectural separation ensures steady tray transport without degrading the underlying bipedal stability. In simulation, the residual design significantly outperforms end-to-end baselines in gait smoothness and orientation accuracy, achieving a 96.9% success rate in variable velocity tracking and 74.5% robustness against external force disturbances. Successfully deployed on the Unitree G1 humanoid hardware, this modular approach demonstrates highly reliable zero-shot sim-to-real generalization across various objects and external force disturbances.