Full-Order Sampling-Based MPC for Torque-Level Locomotion Control via Diffusion-Style Annealing
作者: Haoru Xue, Chaoyi Pan, Zeji Yi, Guannan Qu, Guanya Shi
分类: cs.RO
发布日期: 2024-09-23
备注: 9 pages, 9 figures, submitted to ICRA2025
💡 一句话要点
DIAL-MPC:基于扩散退火的力矩级腿足机器人全身动力学采样MPC
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 模型预测控制 腿足机器人 全身动力学 扩散模型 采样方法
📋 核心要点
- 腿足机器人全身动力学控制面临高维非凸优化难题,传统NMPC受限于降阶模型。
- DIAL-MPC引入扩散式退火采样,迭代优化解,兼顾全局探索和局部收敛。
- 实验表明,DIAL-MPC显著优于MPPI和RL,实现四足机器人精确跳跃和攀爬,无需训练。
📝 摘要(中文)
由于高维度和非凸性,使用全身动力学模型进行腿足机器人的实时最优控制极具挑战。因此,非线性模型预测控制(NMPC)方法通常局限于降阶模型。基于采样的MPC在非凸甚至不连续问题中显示出潜力,但通常产生具有高方差的次优解,限制了其在高维运动中的应用。本研究提出了DIAL-MPC(Diffusion-Inspired Annealing for Legged MPC),这是一个具有新型扩散式退火过程的基于采样的MPC框架。这种退火过程得到了模型预测路径积分控制(MPPI)的理论景观分析以及MPPI与单步扩散之间联系的支持。在算法上,DIAL-MPC在线迭代地细化解决方案,并实现全局覆盖和局部收敛。在四足力矩级控制任务中,DIAL-MPC将标准MPPI的跟踪误差降低了13.4倍,并在具有挑战性的攀爬任务中优于强化学习(RL)策略50%,且无需任何训练。特别地,DIAL-MPC能够实现精确的真实世界四足跳跃(携带有效载荷)。据我们所知,DIAL-MPC是第一个在实时优化全身四足机器人动力学的免训练方法。
🔬 方法详解
问题定义:论文旨在解决腿足机器人全身动力学模型预测控制中的高维、非凸优化问题。现有方法,如基于降阶模型的NMPC,无法充分利用全身动力学信息。而基于采样的MPC方法,如MPPI,虽然能处理非凸问题,但存在解的次优性和高方差问题,限制了其在复杂运动控制中的应用。
核心思路:DIAL-MPC的核心思路是借鉴扩散过程的思想,通过一种新型的退火采样机制,迭代地优化控制策略。该方法旨在结合全局探索和局部收敛的优点,克服传统采样MPC方法容易陷入局部最优和方差过大的问题。通过扩散过程的逐步优化,引导采样分布向更优的区域集中。
技术框架:DIAL-MPC的整体框架是一个基于采样的MPC循环。主要包含以下几个阶段:1) 初始化:使用初始猜测或随机采样生成一组控制序列。2) 扩散退火:通过扩散过程迭代地更新控制序列的分布。该过程模拟了扩散现象,使得控制序列逐渐向更优的区域移动。3) 评估:评估每个控制序列的成本函数值。4) 选择:根据成本函数值选择最优的控制序列,并将其应用于机器人。5) 重复:重复上述步骤,直到达到控制目标。
关键创新:DIAL-MPC的关键创新在于其扩散式退火过程。与传统的退火方法不同,DIAL-MPC的退火过程受到扩散过程的启发,能够更有效地探索解空间,并避免陷入局部最优。此外,该方法还建立了MPPI与单步扩散之间的联系,为扩散式退火提供了理论支持。DIAL-MPC与现有方法的本质区别在于其采样策略,它不是简单地进行随机采样或基于梯度的优化,而是通过模拟扩散过程来引导采样分布的演化。
关键设计:DIAL-MPC的关键设计包括:1) 扩散过程的参数设置,如扩散系数和迭代次数,这些参数影响着算法的探索能力和收敛速度。2) 成本函数的设计,成本函数需要能够准确地反映控制目标,并引导算法找到最优的控制策略。3) 采样策略的设计,DIAL-MPC使用了一种基于扩散过程的采样策略,该策略能够有效地探索解空间,并避免陷入局部最优。
🖼️ 关键图片
📊 实验亮点
DIAL-MPC在四足机器人力矩级控制任务中表现出色。相较于标准MPPI,跟踪误差降低了13.4倍。在具有挑战性的攀爬任务中,DIAL-MPC的性能优于强化学习策略50%,且无需任何训练。此外,DIAL-MPC成功实现了真实世界中四足机器人的精确跳跃,并能携带有效载荷,展示了其强大的控制能力。
🎯 应用场景
DIAL-MPC在腿足机器人控制领域具有广泛的应用前景,例如:复杂地形下的自主导航、高动态运动控制(跳跃、奔跑)、人机协作等。该方法无需训练,降低了部署成本,使其在实际应用中更具优势。未来,DIAL-MPC有望应用于搜救、物流、巡检等领域,提升机器人的智能化水平和适应能力。
📄 摘要(原文)
Due to high dimensionality and non-convexity, real-time optimal control using full-order dynamics models for legged robots is challenging. Therefore, Nonlinear Model Predictive Control (NMPC) approaches are often limited to reduced-order models. Sampling-based MPC has shown potential in nonconvex even discontinuous problems, but often yields suboptimal solutions with high variance, which limits its applications in high-dimensional locomotion. This work introduces DIAL-MPC (Diffusion-Inspired Annealing for Legged MPC), a sampling-based MPC framework with a novel diffusion-style annealing process. Such an annealing process is supported by the theoretical landscape analysis of Model Predictive Path Integral Control (MPPI) and the connection between MPPI and single-step diffusion. Algorithmically, DIAL-MPC iteratively refines solutions online and achieves both global coverage and local convergence. In quadrupedal torque-level control tasks, DIAL-MPC reduces the tracking error of standard MPPI by $13.4$ times and outperforms reinforcement learning (RL) policies by $50\%$ in challenging climbing tasks without any training. In particular, DIAL-MPC enables precise real-world quadrupedal jumping with payload. To the best of our knowledge, DIAL-MPC is the first training-free method that optimizes over full-order quadruped dynamics in real-time.