Autotuning Bipedal Locomotion MPC with GRFM-Net for Efficient Sim-to-Real Transfer
作者: Qianzhong Chen, Junheng Li, Sheng Cheng, Naira Hovakimyan, Quan Nguyen
分类: cs.RO, cs.AI, eess.SY
发布日期: 2024-09-24
💡 一句话要点
提出基于GRFM-Net的DiffTune方法,实现双足机器人运动MPC的自动调参与高效Sim-to-Real迁移。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 双足机器人 模型预测控制 自动调参 微分编程 Sim-to-Real 地面反作用力 神经网络
📋 核心要点
- 现有双足机器人运动控制方法依赖手动调参,耗时费力,难以适应复杂环境。
- 论文提出DiffTune方法,结合低保真度模型和GRFM-Net,实现高效的自动参数学习。
- 硬件实验表明,该方法学习的参数能有效降低Sim-to-Real差距,总损失降低高达40.5%。
📝 摘要(中文)
双足步态控制对于人形机器人在复杂、以人为中心的环境中导航至关重要。虽然基于优化的控制设计因能整合复杂的人形机器人模型而广受欢迎,但它们通常需要耗费大量人力的手动调整。本文提出DiffTune,一种基于模型的自动调参方法,利用微分编程实现高效的参数学习,从而解决双足步态控制中的参数选择难题。主要难点在于平衡模型保真度和可微性。我们使用低保真度模型来保证可微性,并通过地面反作用力与力矩网络(GRFM-Net)来捕获MPC指令与实际控制效果之间的差异,从而解决这一难题。硬件实验验证了DiffTune与GRFM-Net学习到的参数,结果表明,与基线参数相比,这些参数在多目标设置中具有最优性,总损失降低高达40.5%。结果证实了GRFM-Net在缓解Sim-to-Real差距方面的有效性,提高了仿真学习参数到真实硬件的可迁移性。
🔬 方法详解
问题定义:双足机器人运动控制中的模型预测控制(MPC)需要精细的参数调整,以保证稳定性和性能。然而,手动调整参数非常耗时,且难以在仿真和真实环境之间迁移。现有的方法难以兼顾模型保真度和可微性,导致自动调参效果不佳。
核心思路:论文的核心思路是利用微分编程实现自动调参,并使用一个低保真度的模型来保证可微性。为了弥补低保真度模型带来的精度损失,引入GRFM-Net来学习MPC指令与实际控制效果之间的差异,从而提高Sim-to-Real的迁移能力。
技术框架:整体框架包含以下几个主要模块:1) 低保真度模型:用于MPC控制器的设计和微分编程;2) GRFM-Net:用于学习地面反作用力与力矩,从而弥补低保真度模型的不足;3) DiffTune:利用微分编程优化MPC控制器的参数,同时训练GRFM-Net;4) 硬件实验:验证学习到的参数在真实机器人上的性能。
关键创新:最重要的技术创新点在于GRFM-Net的使用,它能够有效地学习和预测地面反作用力与力矩,从而弥补低保真度模型带来的误差,显著提升了Sim-to-Real的迁移效果。与现有方法相比,该方法无需手动调整参数,且能够更好地适应真实环境的复杂性。
关键设计:GRFM-Net是一个神经网络,输入是MPC的控制指令,输出是预测的地面反作用力与力矩。损失函数包括MPC控制器的性能指标(例如,跟踪误差、能量消耗)和GRFM-Net的预测误差。DiffTune使用梯度下降算法优化MPC控制器的参数和GRFM-Net的权重。
🖼️ 关键图片
📊 实验亮点
硬件实验结果表明,使用DiffTune和GRFM-Net学习到的参数,相比于专家手动调整的参数,总损失降低了高达40.5%。这表明该方法能够有效地优化MPC控制器的参数,并显著提高双足机器人的运动性能和Sim-to-Real的迁移能力。
🎯 应用场景
该研究成果可应用于各种双足机器人,使其能够在复杂地形和人机交互环境中更稳定、高效地行走。例如,可用于服务机器人、搜救机器人和康复机器人等,提高其自主性和适应性,具有重要的实际应用价值和广阔的市场前景。
📄 摘要(原文)
Bipedal locomotion control is essential for humanoid robots to navigate complex, human-centric environments. While optimization-based control designs are popular for integrating sophisticated models of humanoid robots, they often require labor-intensive manual tuning. In this work, we address the challenges of parameter selection in bipedal locomotion control using DiffTune, a model-based autotuning method that leverages differential programming for efficient parameter learning. A major difficulty lies in balancing model fidelity with differentiability. We address this difficulty using a low-fidelity model for differentiability, enhanced by a Ground Reaction Force-and-Moment Network (GRFM-Net) to capture discrepancies between MPC commands and actual control effects. We validate the parameters learned by DiffTune with GRFM-Net in hardware experiments, which demonstrates the parameters' optimality in a multi-objective setting compared with baseline parameters, reducing the total loss by up to 40.5$\%$ compared with the expert-tuned parameters. The results confirm the GRFM-Net's effectiveness in mitigating the sim-to-real gap, improving the transferability of simulation-learned parameters to real hardware.