FALCON: Learning Force-Adaptive Humanoid Loco-Manipulation

📄 arXiv: 2505.06776v2 📥 PDF

作者: Yuanhang Zhang, Yifu Yuan, Prajwal Gurunath, Ishita Gupta, Shayegan Omidshafiei, Ali-akbar Agha-mohammadi, Marcell Vazquez-Chanlatte, Liam Pedersen, Tairan He, Guanya Shi

分类: cs.RO

发布日期: 2025-05-10 (更新: 2025-11-16)


💡 一句话要点

FALCON:学习力适应性的人形机器人力位姿协同操作

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 人形机器人 力位姿协同操作 强化学习 双智能体 力适应性

📋 核心要点

  1. 现有的人形机器人力位姿协同操作方法在精确控制和应对外部力扰动方面存在局限性,尤其是在重型任务中。
  2. FALCON框架通过双智能体强化学习,将全身控制分解为运动和力补偿两个专门任务,实现更鲁棒的控制。
  3. 实验表明,FALCON在关节跟踪精度、抗扰动性和训练效率方面均优于现有方法,并成功部署于多个真实机器人。

📝 摘要(中文)

人形机器人的力位姿协同操作在日常服务和工业任务中具有变革性潜力,但实现精确、鲁棒的全身控制以及3D末端执行器力交互仍然是一个主要挑战。现有方法通常局限于轻量级任务或四足/轮式平台。为了克服这些限制,我们提出了FALCON,一个基于双智能体强化学习的框架,用于鲁棒的力适应性人形机器人力位姿协同操作。FALCON将全身控制分解为两个专门的智能体:(1)一个下半身智能体,确保在外部力扰动下稳定运动;(2)一个上半身智能体,精确跟踪末端执行器的位置,并进行隐式的自适应力补偿。这两个智能体在模拟环境中联合训练,并采用力课程,逐步提高施加在末端执行器上的外力大小,同时遵守扭矩限制。实验表明,与基线相比,FALCON实现了2倍更精确的上半身关节跟踪,同时保持了在力扰动下的鲁棒运动,并实现了更快的训练收敛。此外,FALCON无需针对特定机器人进行奖励或课程调整即可进行策略训练。使用相同的训练设置,我们获得了可以部署在多个人形机器人上的策略,从而能够在现实世界中执行有力的力位姿协同操作任务,例如运输有效载荷(0-20N力)、拉车(0-100N)和开门(0-40N)。

🔬 方法详解

问题定义:论文旨在解决人形机器人在复杂环境中进行力位姿协同操作时,难以实现精确控制和鲁棒性的问题。现有方法通常依赖于复杂的模型预测控制或阻抗控制,难以应对未知的外部力扰动,并且难以在不同机器人平台上泛化。这些方法在处理需要较大作用力的任务时,往往表现不佳。

核心思路:论文的核心思路是将全身控制解耦为两个独立的智能体:一个负责下半身的运动控制,保证机器人的平衡和稳定;另一个负责上半身的末端执行器位置跟踪和力补偿,实现精确的操作。通过这种解耦,可以分别优化两个智能体的策略,从而提高整体的控制性能和鲁棒性。

技术框架:FALCON框架包含两个主要模块:下半身运动智能体和上半身操作智能体。这两个智能体通过强化学习进行联合训练。下半身智能体接收机器人的状态信息(如关节角度、速度、重心位置等)和外部力信息,输出关节力矩,以维持平衡和运动。上半身智能体接收机器人的状态信息和目标末端执行器位置,输出关节力矩,以跟踪目标位置并补偿外部力。训练过程中,采用力课程学习,逐步增加施加在末端执行器上的外力大小。

关键创新:FALCON的关键创新在于双智能体的解耦控制架构和力课程学习。解耦控制允许分别优化运动和操作策略,提高控制的灵活性和鲁棒性。力课程学习可以逐步提高智能体对外部力扰动的适应能力,从而实现更稳定的力位姿协同操作。此外,该方法无需针对特定机器人进行奖励或课程调整,具有良好的泛化能力。

关键设计:论文采用Actor-Critic架构进行强化学习。Actor网络输出关节力矩,Critic网络评估当前状态的价值。奖励函数的设计考虑了平衡性、运动速度、末端执行器位置跟踪误差和关节力矩惩罚。力课程学习通过逐步增加施加在末端执行器上的外力大小来实现。具体来说,在每个训练阶段,随机选择一个力的大小,并将其施加在末端执行器上。此外,论文还采用了域随机化技术,以提高策略在真实环境中的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FALCON在模拟环境中实现了比基线方法高2倍的末端执行器位置跟踪精度。在真实机器人上的实验中,FALCON成功完成了运输有效载荷(0-20N力)、拉车(0-100N)和开门(0-40N)等任务,验证了其在实际应用中的有效性和鲁棒性。此外,FALCON的训练收敛速度也明显快于基线方法,表明其具有更高的学习效率。

🎯 应用场景

FALCON框架在人形机器人领域具有广泛的应用前景,例如在物流、仓储、建筑和医疗等行业中,可以用于执行需要精确力控制和稳定运动的任务,如搬运重物、组装零件、辅助手术等。此外,该框架还可以应用于灾难救援等危险环境中,代替人类进行搜救和清理工作。未来,通过进一步优化和改进,FALCON有望成为人形机器人实现自主操作的关键技术。

📄 摘要(原文)

Humanoid loco-manipulation holds transformative potential for daily service and industrial tasks, yet achieving precise, robust whole-body control with 3D end-effector force interaction remains a major challenge. Prior approaches are often limited to lightweight tasks or quadrupedal/wheeled platforms. To overcome these limitations, we propose FALCON, a dual-agent reinforcement-learning-based framework for robust force-adaptive humanoid loco-manipulation. FALCON decomposes whole-body control into two specialized agents: (1) a lower-body agent ensuring stable locomotion under external force disturbances, and (2) an upper-body agent precisely tracking end-effector positions with implicit adaptive force compensation. These two agents are jointly trained in simulation with a force curriculum that progressively escalates the magnitude of external force exerted on the end effector while respecting torque limits. Experiments demonstrate that, compared to the baselines, FALCON achieves 2x more accurate upper-body joint tracking, while maintaining robust locomotion under force disturbances and achieving faster training convergence. Moreover, FALCON enables policy training without embodiment-specific reward or curriculum tuning. Using the same training setup, we obtain policies that are deployed across multiple humanoids, enabling forceful loco-manipulation tasks such as transporting payloads (0-20N force), cart-pulling (0-100N), and door-opening (0-40N) in the real world.