ContactRL: Safe Reinforcement Learning based Motion Planning for Contact based Human Robot Collaboration

📄 arXiv: 2512.03707v1 📥 PDF

作者: Sundas Rafat Mulkana, Ronyu Yu, Tanaya Guha, Emma Li

分类: cs.RO

发布日期: 2025-12-03

备注: 8 pages, 7 figures


💡 一句话要点

ContactRL:基于强化学习的安全运动规划,用于人机协作中的接触任务

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 人机协作 强化学习 安全运动规划 力反馈 控制障碍函数

📋 核心要点

  1. 现有方法在人机协作中难以兼顾安全和效率,尤其是在需要物理接触的任务中,如何保证接触的安全性是一个挑战。
  2. ContactRL通过强化学习直接将接触力反馈融入奖励函数,使机器人能够学习在保证任务效率的同时,最小化人机接触力。
  3. 实验结果表明,ContactRL在仿真和真实环境中均表现出良好的安全性和任务成功率,验证了其在人机协作中的有效性。

📝 摘要(中文)

本文提出ContactRL,一个基于强化学习(RL)的框架,通过力反馈将接触安全性直接融入奖励函数,从而实现安全的人机协作。这使得机器人能够学习自适应的运动轨迹,在保持任务效率的同时,最小化人机接触力。在仿真中,ContactRL实现了0.2%的低安全违规率和87.7%的高任务成功率,优于最先进的约束强化学习基线。为了保证部署安全性,本文使用基于动能的控制障碍函数(eCBF)盾牌来增强学习到的策略。在UR3e机器人平台上进行的真实世界实验,在360次试验中执行了从人手中传递小物体,证实了安全接触,测量的法向力始终低于10N。这些结果表明,ContactRL能够实现安全高效的物理协作,从而推进协作机器人在接触密集型任务中的部署。

🔬 方法详解

问题定义:论文旨在解决人机协作任务中,尤其是在需要物理接触的情况下,如何保证机器人运动规划的安全性问题。现有方法通常难以在避免碰撞的同时,保证安全且有意图的物理接触,并且难以适应动态变化的人机交互环境。

核心思路:论文的核心思路是将接触安全性直接融入强化学习的奖励函数中,通过力反馈来引导机器人学习安全的运动策略。同时,为了进一步保证部署的安全性,使用基于动能的控制障碍函数(eCBF)作为安全盾牌,防止策略出现意外情况。

技术框架:ContactRL框架主要包含以下几个模块:1) 强化学习智能体,负责学习运动策略;2) 力传感器,用于感知人机接触力;3) 奖励函数,根据任务完成情况和接触力大小进行设计,引导智能体学习安全策略;4) 基于动能的控制障碍函数(eCBF)盾牌,用于在策略执行过程中进行安全干预,防止出现危险情况。整体流程是,机器人通过力传感器获取接触力信息,然后输入到强化学习智能体中,智能体根据奖励函数学习运动策略,最后通过eCBF盾牌进行安全验证和干预。

关键创新:论文的关键创新在于将接触安全性直接融入强化学习的奖励函数中,通过力反馈来引导机器人学习安全的运动策略。与传统的约束强化学习方法相比,ContactRL能够更有效地学习到适应性强的运动策略,从而在保证任务效率的同时,最小化人机接触力。此外,使用eCBF盾牌进一步提高了系统的安全性。

关键设计:奖励函数的设计是关键,需要平衡任务完成的奖励和接触力惩罚。具体来说,奖励函数通常包含任务完成奖励、接触力惩罚项以及其他约束项。接触力惩罚项通常与接触力的平方成正比,以鼓励机器人尽量减少接触力。eCBF盾牌的设计需要考虑机器人的动力学模型和接触力模型,以确保能够有效地防止危险情况的发生。强化学习算法的选择也会影响最终的性能,论文中可能使用了某种特定的强化学习算法,例如TRPO或PPO。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ContactRL在仿真环境中实现了0.2%的低安全违规率和87.7%的高任务成功率,优于现有的约束强化学习基线。在真实世界的UR3e机器人平台上,进行了360次小物体传递实验,测量的法向力始终低于10N,验证了ContactRL在实际应用中的安全性。这些实验结果表明,ContactRL能够有效地实现安全高效的人机协作。

🎯 应用场景

ContactRL具有广泛的应用前景,例如在医疗康复、辅助装配、物流搬运等领域,可以实现安全高效的人机协作。该研究成果有助于推动协作机器人在接触密集型任务中的部署,提高生产效率和安全性,并改善人机交互体验。未来,该方法可以扩展到更复杂的任务和环境,例如多机器人协作、动态环境下的人机交互等。

📄 摘要(原文)

In collaborative human-robot tasks, safety requires not only avoiding collisions but also ensuring safe, intentional physical contact. We present ContactRL, a reinforcement learning (RL) based framework that directly incorporates contact safety into the reward function through force feedback. This enables a robot to learn adaptive motion profiles that minimize human-robot contact forces while maintaining task efficiency. In simulation, ContactRL achieves a low safety violation rate of 0.2\% with a high task success rate of 87.7\%, outperforming state-of-the-art constrained RL baselines. In order to guarantee deployment safety, we augment the learned policy with a kinetic energy based Control Barrier Function (eCBF) shield. Real-world experiments on an UR3e robotic platform performing small object handovers from a human hand across 360 trials confirm safe contact, with measured normal forces consistently below 10N. These results demonstrate that ContactRL enables safe and efficient physical collaboration, thereby advancing the deployment of collaborative robots in contact-rich tasks.