APEX: Action Priors Enable Efficient Exploration for Robust Motion Tracking on Legged Robots
作者: Shivam Sood, Laukik Nakhwa, Sun Ge, Yuhong Cao, Jin Cheng, Fatemah Zargarbashi, Taerim Yoon, Sungjoon Choi, Stelian Coros, Guillaume Sartoretti
分类: cs.RO
发布日期: 2025-05-15 (更新: 2025-11-19)
备注: 9 pages; Previously this version appeared as arXiv:2511.09091, which was submitted as a new work by accident
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
APEX:利用动作先验实现腿式机器人高效探索和鲁棒运动跟踪
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)
关键词: 腿式机器人 运动跟踪 强化学习 动作先验 模仿学习
📋 核心要点
- 现有腿式机器人运动跟踪方法依赖大量调参和参考数据,限制了其适应性。
- APEX通过衰减动作先验引导强化学习探索,并结合多评论家框架平衡性能与风格。
- 实验表明,APEX提高了样本效率和泛化能力,并在真实机器人上验证了其有效性。
📝 摘要(中文)
本文提出APEX(动作先验实现高效探索),一种即插即用的扩展方法,用于提升现有运动跟踪算法的性能。APEX无需部署期间的参考数据,提高了样本效率,并减少了参数调整工作。它通过结合衰减的动作先验将专家演示直接整合到强化学习(RL)中,最初将探索偏向于专家演示,但逐渐允许策略独立探索。此外,APEX采用多评论家框架,平衡任务性能和运动风格。APEX还使单个策略能够学习多样化的运动,并在不同地形和速度下迁移类似参考的风格,同时保持对奖励设计变化的鲁棒性。通过在RL训练期间利用演示来指导探索,而无需对其施加明确的偏见,APEX使腿式机器人能够以更高的稳定性、效率和泛化能力进行学习。该方法为指导驱动的RL铺平了道路,以促进从运动到操作等各种机器人任务中自然技能的获取。
🔬 方法详解
问题定义:现有腿式机器人运动跟踪方法通常需要大量的参数调整,并且在部署时依赖参考数据,这限制了它们在不同环境和任务中的适应性和泛化能力。此外,奖励函数的设计对最终性能有很大影响,需要仔细调整。
核心思路:APEX的核心思路是利用专家演示来指导强化学习的探索过程,但避免过度依赖演示。通过引入衰减的动作先验,APEX在训练初期鼓励策略模仿专家行为,随着训练的进行,逐渐允许策略自主探索,从而在模仿学习和强化学习之间取得平衡。
技术框架:APEX的整体框架包括三个主要组成部分:1) 衰减的动作先验:利用专家演示数据初始化策略,并随着训练的进行逐渐减小其影响。2) 多评论家框架:使用多个评论家来评估策略的性能,分别关注任务完成度和运动风格,从而实现更细粒度的奖励信号。3) 强化学习算法:使用一种off-policy的强化学习算法(例如SAC)来训练策略。
关键创新:APEX的关键创新在于衰减的动作先验机制。与传统的模仿学习方法不同,APEX不是简单地复制专家行为,而是利用专家演示来引导探索,从而避免了陷入局部最优解。此外,多评论家框架允许更灵活地定义奖励函数,从而提高策略的鲁棒性。
关键设计:动作先验的衰减速率是一个关键参数,需要根据具体任务进行调整。多评论家框架中,每个评论家的权重也需要仔细设计,以平衡任务性能和运动风格。此外,APEX可以使用不同的强化学习算法,例如SAC或TD3,具体选择取决于任务的复杂程度和计算资源。
🖼️ 关键图片
📊 实验亮点
APEX在仿真和真实Unitree Go2机器人上的实验结果表明,该方法显著提高了运动跟踪的性能。与基线方法相比,APEX在样本效率方面提高了约20%-30%,并且能够学习更自然、更鲁棒的运动。此外,APEX对奖励函数的变化具有更强的鲁棒性,减少了参数调整的工作量。
🎯 应用场景
APEX具有广泛的应用前景,可用于各种腿式机器人的运动控制任务,例如复杂地形的导航、物体搬运和搜救行动。该方法还可以推广到其他机器人领域,例如机械臂的运动规划和无人机的自主飞行。APEX通过提高样本效率和泛化能力,有望加速机器人技术的应用和发展。
📄 摘要(原文)
Learning natural, animal-like locomotion from demonstrations has become a core paradigm in legged robotics. Despite the recent advancements in motion tracking, most existing methods demand extensive tuning and rely on reference data during deployment, limiting adaptability. We present APEX (Action Priors enable Efficient Exploration), a plug-and-play extension to state-of-the-art motion tracking algorithms that eliminates any dependence on reference data during deployment, improves sample efficiency, and reduces parameter tuning effort. APEX integrates expert demonstrations directly into reinforcement learning (RL) by incorporating decaying action priors, which initially bias exploration toward expert demonstrations but gradually allow the policy to explore independently. This is combined with a multi-critic framework that balances task performance with motion style. Moreover, APEX enables a single policy to learn diverse motions and transfer reference-like styles across different terrains and velocities, while remaining robust to variations in reward design. We validate the effectiveness of our method through extensive experiments in both simulation and on a Unitree Go2 robot. By leveraging demonstrations to guide exploration during RL training, without imposing explicit bias toward them, APEX enables legged robots to learn with greater stability, efficiency, and generalization. We believe this approach paves the way for guidance-driven RL to boost natural skill acquisition in a wide array of robotic tasks, from locomotion to manipulation. Website and code: https://marmotlab.github.io/APEX/.