SoftMimic: Learning Compliant Whole-body Control from Examples

作者: Gabriel B. Margolis, Michelle Wang, Nolan Fey, Pulkit Agrawal

分类: cs.RO, cs.AI, cs.LG

发布日期: 2025-10-20

备注: Website: https://gmargo11.github.io/softmimic/

💡 一句话要点

SoftMimic：从示例中学习柔顺的人形机器人全身控制

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 人形机器人 柔顺控制 模仿学习 强化学习 逆运动学

📋 核心要点

现有模仿学习方法在人形机器人控制中存在过度刚性，对外部扰动缺乏柔顺性，导致安全性问题。
SoftMimic通过生成柔顺运动数据集并训练强化学习策略，使机器人能够对外部力做出柔顺反应。
实验结果表明，SoftMimic能够使机器人在仿真和真实环境中安全有效地与环境交互，提升了泛化能力。

📝 摘要（中文）

我们提出了SoftMimic，一个用于从示例动作中学习人形机器人柔顺全身控制策略的框架。通过强化学习模仿人类动作可以让人形机器人快速学习新技能，但现有方法倾向于激励刚性控制，从而积极纠正与参考动作的偏差，导致机器人在遇到意外接触时表现出脆弱和不安全的行为。相比之下，SoftMimic使机器人能够在保持平衡和姿势的同时，对外部力量做出柔顺的反应。我们的方法利用逆运动学求解器生成增强的、可行的柔顺运动数据集，我们使用该数据集来训练强化学习策略。通过奖励策略匹配柔顺响应而不是刚性跟踪参考运动，SoftMimic学会吸收扰动并从单个运动片段推广到各种任务。我们通过仿真和真实世界的实验验证了我们的方法，证明了与环境安全有效的交互。

🔬 方法详解

问题定义：现有基于模仿学习的人形机器人控制方法，通常采用强化学习训练策略，以精确跟踪参考运动。这种方法倾向于生成刚性的控制策略，对外部扰动非常敏感，容易导致机器人失去平衡或损坏。因此，如何使人形机器人能够像人类一样，在保持平衡和姿势的同时，对外部力量做出柔顺的反应，是一个重要的挑战。

核心思路：SoftMimic的核心思路是，不再简单地奖励机器人精确跟踪参考运动，而是奖励机器人对外部扰动做出合理的柔顺响应。为了实现这一点，论文首先生成一个包含多种柔顺运动的增强数据集，然后使用该数据集训练强化学习策略。通过这种方式，机器人可以学习到一种更加鲁棒和安全的控制策略。

技术框架：SoftMimic的整体框架包括以下几个主要步骤：1) 参考运动获取：从人类演示或其他来源获取参考运动片段。2) 柔顺运动生成：使用逆运动学求解器，基于参考运动生成一系列可行的柔顺运动，构成增强数据集。这些柔顺运动模拟了机器人受到外部扰动时的合理反应。3) 强化学习训练：使用增强数据集训练强化学习策略，奖励策略匹配柔顺响应，而不是刚性跟踪参考运动。4) 策略部署：将训练好的策略部署到真实机器人上，实现柔顺的全身控制。

关键创新：SoftMimic的关键创新在于，它不再将模仿学习视为一个简单的轨迹跟踪问题，而是将其视为一个学习如何对外部扰动做出合理响应的问题。通过生成柔顺运动数据集并训练强化学习策略，SoftMimic能够使机器人学习到一种更加鲁棒和安全的控制策略。与现有方法相比，SoftMimic能够更好地处理外部扰动，并具有更强的泛化能力。

关键设计：在柔顺运动生成阶段，论文使用逆运动学求解器来模拟机器人受到外部扰动时的合理反应。具体来说，论文首先在参考运动的基础上施加一个虚拟的外部力，然后使用逆运动学求解器计算出机器人为了保持平衡和姿势所需要的关节角度变化。通过这种方式，论文可以生成一系列可行的柔顺运动。在强化学习训练阶段，论文使用了一种基于Actor-Critic的算法，奖励策略匹配柔顺响应，而不是刚性跟踪参考运动。论文还设计了一种特殊的奖励函数，鼓励机器人保持平衡和姿势，并对外部扰动做出合理的反应。

📊 实验亮点

SoftMimic在仿真和真实世界的实验中都取得了显著的成果。在仿真环境中，SoftMimic能够使机器人在受到外部扰动时保持平衡和姿势，并成功完成各种任务。在真实世界的实验中，SoftMimic能够使机器人安全有效地与环境交互，例如：推门、搬运物体等。实验结果表明，SoftMimic能够显著提高人形机器人的鲁棒性和安全性。

🎯 应用场景

SoftMimic在人形机器人领域具有广泛的应用前景，例如：人机协作、康复训练、灾难救援等。通过学习柔顺的全身控制策略，机器人可以更好地与人类进行交互，并在复杂环境中安全有效地完成任务。该研究有助于推动人形机器人在实际场景中的应用，并为未来的机器人控制研究提供新的思路。

📄 摘要（原文）

We introduce SoftMimic, a framework for learning compliant whole-body control policies for humanoid robots from example motions. Imitating human motions with reinforcement learning allows humanoids to quickly learn new skills, but existing methods incentivize stiff control that aggressively corrects deviations from a reference motion, leading to brittle and unsafe behavior when the robot encounters unexpected contacts. In contrast, SoftMimic enables robots to respond compliantly to external forces while maintaining balance and posture. Our approach leverages an inverse kinematics solver to generate an augmented dataset of feasible compliant motions, which we use to train a reinforcement learning policy. By rewarding the policy for matching compliant responses rather than rigidly tracking the reference motion, SoftMimic learns to absorb disturbances and generalize to varied tasks from a single motion clip. We validate our method through simulations and real-world experiments, demonstrating safe and effective interaction with the environment.

SoftMimic: Learning Compliant Whole-body Control from Examples

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册