Chasing Stability: Humanoid Running via Control Lyapunov Function Guided Reinforcement Learning
作者: Zachary Olkin, Kejun Li, William D. Compton, Aaron D. Ames
分类: cs.RO
发布日期: 2025-09-23
备注: Submitted to ICRA 2026
💡 一句话要点
提出基于CLF引导的强化学习方法,实现人形机器人稳定奔跑控制
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 人形机器人 强化学习 控制李雅普诺夫函数 运动控制 奔跑 非线性控制 自主导航
📋 核心要点
- 人形机器人奔跑控制面临鲁棒性和精确性挑战,传统控制方法难以应对非线性混合动力学。
- 提出CLF-RL方法,将控制李雅普诺夫函数融入强化学习,引导策略学习并保证稳定性。
- 实验证明该方法在跑步机和户外环境有效,对扰动鲁棒,并能实现精确的全局参考跟踪。
📝 摘要(中文)
为了让人形机器人实现高动态的奔跑行为,需要设计既鲁棒又精确的控制器,这极具挑战性。经典控制方法为系统的稳定性提供了宝贵的见解,但为非线性混合动力学系统合成实时控制器仍然困难。近年来,强化学习(RL)因其处理复杂动力学的能力而在运动控制领域广受欢迎。本文将非线性控制理论中的控制李雅普诺夫函数(CLF)以及优化的动态参考轨迹嵌入到强化学习的训练过程中,以塑造奖励函数。这种CLF-RL方法无需手工设计和调整启发式奖励项,同时鼓励可证明的稳定性,并提供有意义的中间奖励来指导学习。通过将策略学习建立在动态可行的轨迹上,扩展了机器人的动态能力,实现了包括飞行和单支撑阶段的奔跑。实验表明,该策略在跑步机和户外环境中都能可靠运行,对躯干和脚部的扰动具有鲁棒性。此外,它仅使用板载传感器即可实现精确的全局参考跟踪,这是将这些动态运动集成到完整自主系统中的关键一步。
🔬 方法详解
问题定义:论文旨在解决人形机器人奔跑控制问题,特别是如何在复杂动力学条件下实现稳定、鲁棒且精确的奔跑。现有方法,如传统控制方法,难以处理非线性混合动力学,而单纯的强化学习方法需要手工设计奖励函数,且难以保证稳定性。
核心思路:论文的核心思路是将非线性控制理论中的控制李雅普诺夫函数(CLF)融入强化学习的训练过程中。CLF可以提供系统稳定性的保证,并作为奖励函数的一部分,引导强化学习代理学习稳定的奔跑策略。同时,利用优化的动态参考轨迹,为强化学习提供可行的运动目标,加速学习过程。
技术框架:整体框架包括三个主要部分:1) 动态参考轨迹生成器,用于生成期望的机器人运动轨迹;2) 基于CLF的奖励函数设计,将CLF值作为奖励的一部分,鼓励策略学习稳定性;3) 强化学习代理,使用设计的奖励函数学习奔跑策略。整个流程是:首先生成参考轨迹,然后根据当前状态和参考轨迹计算CLF值,将其作为奖励的一部分输入强化学习代理,代理根据奖励更新策略,最终学习到稳定的奔跑控制策略。
关键创新:最重要的创新点是将控制理论中的CLF与强化学习相结合,利用CLF的稳定性保证来指导强化学习的训练过程。这与传统的强化学习方法不同,传统方法通常需要手工设计复杂的奖励函数,且难以保证稳定性。CLF-RL方法能够自动学习稳定的奔跑策略,并减少了对人工设计的依赖。
关键设计:论文中关键的设计包括:1) CLF的选择,需要选择合适的CLF来反映系统的稳定性;2) 奖励函数的设计,需要将CLF值与其他的奖励项(如跟踪误差)进行合理的加权,以平衡稳定性和性能;3) 强化学习算法的选择,可以使用各种强化学习算法,如TRPO、PPO等。具体参数设置需要根据实际情况进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法能够在跑步机和户外环境中实现稳定的人形机器人奔跑。该策略对躯干和脚部的扰动具有鲁棒性,并且能够仅使用板载传感器实现精确的全局参考跟踪。与没有CLF引导的强化学习方法相比,该方法能够更快地学习到稳定的奔跑策略,并具有更好的鲁棒性。
🎯 应用场景
该研究成果可应用于人形机器人的自主导航、搜索救援、物流运输等领域。通过实现稳定、鲁棒的奔跑控制,人形机器人可以在复杂地形和环境中执行任务,提高其适应性和实用性。未来,该技术有望推动人形机器人在更多实际场景中的应用。
📄 摘要(原文)
Achieving highly dynamic behaviors on humanoid robots, such as running, requires controllers that are both robust and precise, and hence difficult to design. Classical control methods offer valuable insight into how such systems can stabilize themselves, but synthesizing real-time controllers for nonlinear and hybrid dynamics remains challenging. Recently, reinforcement learning (RL) has gained popularity for locomotion control due to its ability to handle these complex dynamics. In this work, we embed ideas from nonlinear control theory, specifically control Lyapunov functions (CLFs), along with optimized dynamic reference trajectories into the reinforcement learning training process to shape the reward. This approach, CLF-RL, eliminates the need to handcraft and tune heuristic reward terms, while simultaneously encouraging certifiable stability and providing meaningful intermediate rewards to guide learning. By grounding policy learning in dynamically feasible trajectories, we expand the robot's dynamic capabilities and enable running that includes both flight and single support phases. The resulting policy operates reliably on a treadmill and in outdoor environments, demonstrating robustness to disturbances applied to the torso and feet. Moreover, it achieves accurate global reference tracking utilizing only on-board sensors, making a critical step toward integrating these dynamic motions into a full autonomy stack.