A Reactive Framework for Whole-Body Motion Planning of Mobile Manipulators Combining Reinforcement Learning and SDF-Constrained Quadratic Programmi

📄 arXiv: 2503.23975v1 📥 PDF

作者: Chenyu Zhang, Shiying Sun, Kuan Liu, Chuanbao Zhou, Xiaoguang Zhao, Min Tan, Yanlong Huang

分类: cs.RO

发布日期: 2025-03-31


💡 一句话要点

提出结合强化学习与SDF约束二次规划的移动机械臂全身运动规划框架

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 移动机械臂 全身运动规划 强化学习 二次规划 有符号距离场 Bayes-DSAC 反应式规划

📋 核心要点

  1. 移动机械臂自由度高,在复杂环境中高效运动规划面临挑战。
  2. 提出混合学习与优化框架,结合Bayes-DSAC算法和SDF约束二次规划。
  3. 实验验证框架能显著提升规划效率、降低规划时间、提高成功率。

📝 摘要(中文)

本文提出了一种混合学习与优化框架,用于移动机械臂的反应式全身运动规划,旨在解决其冗余自由度在复杂环境中运动规划效率低下的问题。该框架开发了贝叶斯分布软演员-评论家(Bayes-DSAC)算法,以提高价值估计的质量和学习的收敛性能。此外,引入了由有符号距离场约束的二次规划方法,以增强避障运动的安全性。实验结果表明,该框架显著提高了反应式全身运动规划的效率,减少了规划时间,并提高了运动规划的成功率。所提出的强化学习方法确保了全身规划任务中的快速学习过程。该框架使移动机械臂能够更安全有效地适应复杂环境。

🔬 方法详解

问题定义:移动机械臂由于其冗余的自由度,在复杂环境中进行高效的全身运动规划是一个挑战。现有的方法可能难以在保证安全性的同时,快速地生成可行的运动轨迹,尤其是在需要实时响应的环境中。

核心思路:论文的核心思路是将强化学习和优化方法相结合。强化学习用于学习一个策略,该策略可以快速地生成初始运动规划方案。然后,使用基于有符号距离场(SDF)约束的二次规划方法对该方案进行优化,以确保安全性和可行性。这样既能利用强化学习的快速响应能力,又能利用优化的精确性和安全性。

技术框架:该框架主要包含两个模块:1) 基于Bayes-DSAC的策略学习模块,用于学习一个能够根据环境状态生成运动规划方案的策略;2) 基于SDF约束的二次规划优化模块,用于对强化学习生成的方案进行优化,确保其满足安全约束,并提高运动轨迹的质量。整体流程是,首先使用Bayes-DSAC算法学习策略,然后将学习到的策略用于生成初始运动规划方案,最后使用SDF约束的二次规划方法对该方案进行优化。

关键创新:主要的创新点在于将Bayes-DSAC算法和SDF约束的二次规划方法结合起来,用于移动机械臂的全身运动规划。Bayes-DSAC算法能够提高价值估计的质量和学习的收敛性能,而SDF约束的二次规划方法能够增强避障运动的安全性。这种混合方法能够充分利用强化学习和优化方法的优点,从而实现高效、安全、实时的运动规划。

关键设计:Bayes-DSAC算法的关键设计在于使用了贝叶斯方法来估计价值函数的不确定性,从而提高了学习的鲁棒性。SDF约束的二次规划方法的关键设计在于使用了有符号距离场来表示环境中的障碍物,从而能够方便地计算运动轨迹与障碍物之间的距离,并将其作为约束条件加入到二次规划问题中。具体的损失函数和网络结构等技术细节在论文中应该有更详细的描述(未知)。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,所提出的框架显著提高了反应式全身运动规划的效率,减少了规划时间,并提高了运动规划的成功率。与标准基线方法相比,该框架在规划时间、成功率等方面均有明显提升。此外,Bayes-DSAC算法能够确保在全身规划任务中的快速学习过程,加速了策略的收敛。

🎯 应用场景

该研究成果可应用于智能服务机器人、工业自动化、仓储物流等领域。移动机械臂能够在复杂动态环境中安全高效地完成抓取、搬运、装配等任务,提高生产效率和服务质量。未来,该技术有望进一步扩展到医疗机器人、救援机器人等领域,在更广泛的场景中发挥作用。

📄 摘要(原文)

As an important branch of embodied artificial intelligence, mobile manipulators are increasingly applied in intelligent services, but their redundant degrees of freedom also limit efficient motion planning in cluttered environments. To address this issue, this paper proposes a hybrid learning and optimization framework for reactive whole-body motion planning of mobile manipulators. We develop the Bayesian distributional soft actor-critic (Bayes-DSAC) algorithm to improve the quality of value estimation and the convergence performance of the learning. Additionally, we introduce a quadratic programming method constrained by the signed distance field to enhance the safety of the obstacle avoidance motion. We conduct experiments and make comparison with standard benchmark. The experimental results verify that our proposed framework significantly improves the efficiency of reactive whole-body motion planning, reduces the planning time, and improves the success rate of motion planning. Additionally, the proposed reinforcement learning method ensures a rapid learning process in the whole-body planning task. The novel framework allows mobile manipulators to adapt to complex environments more safely and efficiently.