CoTaP: Compliant Task Pipeline and Reinforcement Learning of Its Controller with Compliance Modulation

📄 arXiv: 2509.25443v2 📥 PDF

作者: Zewen He, Chenyuan Chen, Dilshod Azizov, Yoshihiko Nakamura

分类: cs.RO

发布日期: 2025-09-29 (更新: 2025-10-06)

备注: Submitted to IEEE for possible publication, under review


💡 一句话要点

提出CoTaP框架,通过强化学习和柔顺控制实现人型机器人全身运动控制。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 人型机器人 全身运动控制 强化学习 柔顺控制 知识蒸馏

📋 核心要点

  1. 现有基于学习的人型机器人控制方法缺乏力数据,难以在真实环境中实现适当的柔顺性。
  2. CoTaP框架结合强化学习和基于模型的柔顺控制,通过两阶段训练实现全身运动控制。
  3. 仿真实验验证了CoTaP框架在不同柔顺性设置下对外部扰动的响应,证明了其可行性。

📝 摘要(中文)

本文提出了一种名为Compliant Task Pipeline (CoTaP) 的框架,旨在利用柔顺性信息改进人型机器人的基于学习的控制结构。该框架提出了一种两阶段双智能体强化学习方法,并结合基于模型的柔顺控制。在训练过程中,首先训练一个基于位置控制器的基础策略;然后在知识蒸馏阶段,将上半身策略与基于模型的柔顺控制相结合,并由基础策略引导下半身智能体。在上半身控制中,可以通过对称正定 (SPD) 流形上的柔顺性调制来指定可调节的任务空间柔顺性,并将其与其他控制器集成,从而确保系统稳定性。通过仿真验证了该策略的可行性,主要比较了不同柔顺性设置下对外部扰动的响应。

🔬 方法详解

问题定义:现有的人型机器人全身运动控制方法,特别是基于学习的方法,通常依赖于人类运动数据。然而,这些数据通常缺乏力反馈信息,导致机器人在与真实环境交互时难以实现适当的柔顺性控制。这限制了机器人在复杂和动态环境中的应用,因为它们无法有效地适应外部扰动和不确定性。

核心思路:CoTaP的核心思路是将柔顺性信息融入到基于学习的控制框架中。通过结合强化学习和基于模型的柔顺控制,该方法旨在让人型机器人能够更好地适应外部扰动,并在与环境交互时表现出更自然的柔顺性。这种方法的核心在于利用可调节的任务空间柔顺性,并将其与其他控制器集成,从而实现更稳定和灵活的控制。

技术框架:CoTaP框架包含两个主要阶段:基础策略训练和知识蒸馏。在基础策略训练阶段,使用强化学习训练一个基于位置控制器的基础策略,用于控制机器人的全身运动。在知识蒸馏阶段,将上半身策略与基于模型的柔顺控制相结合,并由基础策略引导下半身智能体。上半身控制允许指定可调节的任务空间柔顺性,并通过SPD流形上的柔顺性调制与其他控制器集成。

关键创新:CoTaP的关键创新在于其将强化学习与基于模型的柔顺控制相结合,并提出了一个两阶段双智能体强化学习框架。通过这种方式,该方法能够有效地利用柔顺性信息,并让人型机器人能够更好地适应外部扰动。此外,通过SPD流形上的柔顺性调制,该方法能够确保系统的稳定性,并实现更灵活的控制。

关键设计:CoTaP的关键设计包括:(1) 两阶段双智能体强化学习框架,允许分别训练上半身和下半身策略;(2) 基于模型的柔顺控制,利用机器人动力学模型实现精确的柔顺性控制;(3) SPD流形上的柔顺性调制,确保系统稳定性;(4) 可调节的任务空间柔顺性,允许根据任务需求调整机器人的柔顺性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

仿真实验结果表明,CoTaP框架能够有效地提高人型机器人对外部扰动的适应能力。通过调整柔顺性参数,机器人可以更好地吸收冲击,保持平衡。实验对比了不同柔顺性设置下的性能,验证了该方法在柔顺性控制方面的优势。

🎯 应用场景

该研究成果可应用于人型机器人在复杂环境中的操作,例如灾难救援、医疗辅助和家庭服务等。通过提高机器人与环境的交互能力和适应性,使其能够更安全、更有效地完成任务。未来,该技术有望推动人型机器人在更多实际场景中的应用。

📄 摘要(原文)

Humanoid whole-body locomotion control is a critical approach for humanoid robots to leverage their inherent advantages. Learning-based control methods derived from retargeted human motion data provide an effective means of addressing this issue. However, because most current human datasets lack measured force data, and learning-based robot control is largely position-based, achieving appropriate compliance during interaction with real environments remains challenging. This paper presents Compliant Task Pipeline (CoTaP): a pipeline that leverages compliance information in the learning-based structure of humanoid robots. A two-stage dual-agent reinforcement learning framework combined with model-based compliance control for humanoid robots is proposed. In the training process, first a base policy with a position-based controller is trained; then in the distillation, the upper-body policy is combined with model-based compliance control, and the lower-body agent is guided by the base policy. In the upper-body control, adjustable task-space compliance can be specified and integrated with other controllers through compliance modulation on the symmetric positive definite (SPD) manifold, ensuring system stability. We validated the feasibility of the proposed strategy in simulation, primarily comparing the responses to external disturbances under different compliance settings.