Learning Whole-Body Loco-Manipulation for Omni-Directional Task Space Pose Tracking with a Wheeled-Quadrupedal-Manipulator
作者: Kaiwen Jiang, Zhen Fu, Junde Guo, Wei Zhang, Hua Chen
分类: cs.RO, cs.LG
发布日期: 2024-12-04 (更新: 2025-08-13)
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出基于强化学习的奖励融合模块,解决轮式四足操作臂机器人末端执行器位姿精确跟踪问题。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 全身运动操作 强化学习 奖励融合 位姿跟踪 轮式四足机器人
📋 核心要点
- 现有全身运动操作方法难以平衡浮动基座和末端执行器的冗余自由度,导致末端执行器位姿跟踪精度不足。
- 提出一种新颖的奖励融合模块(RFM),非线性地整合不同任务的奖励,适应运动操作问题的多阶段和分层特性。
- 通过仿真和硬件实验验证了RFM的有效性,实现了小于5厘米的位置误差和小于0.1弧度的旋转误差。
📝 摘要(中文)
本文研究了使用强化学习(RL)进行全身运动操作的问题。具体而言,我们关注如何协调轮式四足操作臂机器人的浮动基座和机械臂,以实现任务空间中直接的六自由度(6D)末端执行器(EE)位姿跟踪。与传统的全身运动操作问题不同,后者同时跟踪浮动基座和末端执行器的指令,而直接EE位姿跟踪问题需要在全身运动的冗余自由度之间实现内在平衡。我们利用强化学习来解决这个具有挑战性的问题。为了解决相关的困难,我们开发了一种新颖的奖励融合模块(RFM),该模块以非线性的方式系统地整合对应于不同任务的奖励项。通过这种方式,可以仔细地适应运动操作问题的内在多阶段和分层特征。通过将所提出的RFM与教师-学生强化学习训练范式相结合,我们提出了一个完整的RL方案,以实现轮式四足操作臂机器人的6D EE位姿跟踪。大量的仿真和硬件实验证明了RFM的重要性。特别是,我们实现了平滑和精确的跟踪性能,实现了小于5厘米的最先进的跟踪位置误差和小于0.1弧度的旋转误差。
🔬 方法详解
问题定义:论文旨在解决轮式四足操作臂机器人进行全身运动操作时,如何精确跟踪末端执行器在任务空间中的六自由度位姿的问题。现有方法通常分别控制浮动基座和末端执行器,难以处理两者之间的内在耦合和冗余自由度,导致跟踪精度受限。
核心思路:论文的核心思路是利用强化学习(RL)来学习一个能够协调机器人全身运动的策略,从而直接优化末端执行器的位姿跟踪性能。通过设计合适的奖励函数,引导机器人学习如何在保持自身平衡的同时,精确地将末端执行器移动到目标位姿。
技术框架:整体框架采用教师-学生强化学习训练范式。教师网络提供参考轨迹,学生网络学习模仿教师网络的行为。关键模块包括:1) 状态表示模块,用于将机器人状态和目标位姿编码为RL智能体的输入;2) 动作生成模块,用于根据RL智能体的输出生成机器人的关节控制指令;3) 奖励融合模块(RFM),用于将多个奖励项(例如,位姿跟踪误差、平衡性、平滑性)融合为一个综合奖励信号,指导RL智能体的学习。
关键创新:最重要的技术创新点是提出的奖励融合模块(RFM)。RFM能够以非线性的方式整合不同任务的奖励项,从而更好地适应运动操作问题的多阶段和分层特性。与传统的线性加权奖励函数相比,RFM能够更灵活地调整不同奖励项的权重,从而提高学习效率和最终性能。
关键设计:RFM的具体实现方式未知,但根据描述,它应该包含一些可学习的参数,用于调整不同奖励项的权重。损失函数的设计需要综合考虑位姿跟踪误差、平衡性、平滑性等多个因素。具体的网络结构未知,但应该能够处理高维度的状态空间和动作空间。
🖼️ 关键图片
📊 实验亮点
实验结果表明,提出的奖励融合模块(RFM)能够显著提高轮式四足操作臂机器人的末端执行器位姿跟踪精度。在仿真和硬件实验中,该方法实现了小于5厘米的位置误差和小于0.1弧度的旋转误差,达到了最先进的水平。实验视频可在 https://clearlab-sustech.github.io/RFM_loco_mani/ 找到。
🎯 应用场景
该研究成果可应用于复杂环境下的机器人操作任务,例如:灾难救援、物流搬运、工业自动化等。通过精确的末端执行器位姿跟踪,机器人可以完成更精细的操作,提高工作效率和安全性。未来,该技术有望应用于更广泛的机器人平台,例如人形机器人、水下机器人等。
📄 摘要(原文)
In this paper, we study the whole-body loco-manipulation problem using reinforcement learning (RL). Specifically, we focus on the problem of how to coordinate the floating base and the robotic arm of a wheeled-quadrupedal manipulator robot to achieve direct six-dimensional (6D) end-effector (EE) pose tracking in task space. Different from conventional whole-body loco-manipulation problems that track both floating-base and end-effector commands, the direct EE pose tracking problem requires inherent balance among redundant degrees of freedom in the whole-body motion. We leverage RL to solve this challenging problem. To address the associated difficulties, we develop a novel reward fusion module (RFM) that systematically integrates reward terms corresponding to different tasks in a nonlinear manner. In such a way, the inherent multi-stage and hierarchical feature of the loco-manipulation problem can be carefully accommodated. By combining the proposed RFM with the a teacher-student RL training paradigm, we present a complete RL scheme to achieve 6D EE pose tracking for the wheeled-quadruped manipulator robot. Extensive simulation and hardware experiments demonstrate the significance of the RFM. In particular, we enable smooth and precise tracking performance, achieving state-of-the-art tracking position error of less than 5 cm, and rotation error of less than 0.1 rad. Please refer to https://clearlab-sustech.github.io/RFM_loco_mani/ for more experimental videos.