Collaborative Assembly Policy Learning of a Sightless Robot
作者: Zeqing Zhang, Weifeng Lu, Lei Yang, Wei Jing, Bowei Tang, Jia Pan
分类: cs.RO, cs.HC, eess.SY
发布日期: 2025-11-05
备注: Accepted by IEEE ROBIO 2025
💡 一句话要点
提出基于强化学习的协作式装配策略,提升无视觉机器人人机协作效率
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 人机协作 强化学习 导纳控制 无视觉机器人 装配任务
📋 核心要点
- 现有pHRC方法难以准确估计人类意图,限制了机器人的辅助能力,而直接应用强化学习又面临安全和稀疏奖励的挑战。
- 论文提出一种新颖的强化学习方法,结合人类设计的导纳控制器,使机器人更主动地参与协作,从而降低人类操作负担。
- 实验结果表明,该方法在成功率和任务完成时间上优于传统导纳控制,并显著降低了人机交互过程中的力/力矩。
📝 摘要(中文)
本文研究了一种物理人机协作(pHRC)任务,即由一个无视觉机器人和人类操作员共同将一块板插入一个框架中。虽然导纳控制常用于pHRC任务,但精确测量人类施加的力/力矩以准确估计人类意图具有挑战性,这限制了机器人在协作任务中提供帮助的能力。其他尝试使用强化学习(RL)解决pHRC任务的方法也不适用于板插入任务,因为该任务具有安全约束和稀疏奖励。因此,我们提出了一种新颖的RL方法,该方法利用人类设计的导纳控制器来促进更积极的机器人行为并减少人类的努力。通过仿真和真实世界的实验,我们证明了我们的方法在成功率和任务完成时间方面优于导纳控制。此外,我们观察到,与使用导纳控制相比,使用我们提出的方法时,测量的力/力矩显著降低。
🔬 方法详解
问题定义:论文旨在解决物理人机协作(pHRC)中,无视觉机器人辅助人类进行板插入框架的任务。现有方法,如导纳控制,难以准确估计人类意图,导致机器人辅助效果不佳。直接使用强化学习则面临安全约束和稀疏奖励问题,难以训练出有效的策略。
核心思路:论文的核心思路是结合人类先验知识和强化学习。具体而言,利用人类设计的导纳控制器作为基础,引导机器人进行初步的动作,然后通过强化学习优化机器人的策略,使其能够更主动、更有效地辅助人类完成任务。这样既保证了安全性,又克服了稀疏奖励问题。
技术框架:整体框架包含两个主要部分:导纳控制器和强化学习策略优化器。首先,人类设计一个导纳控制器,该控制器根据人机交互的力/力矩信号,控制机器人的运动。然后,利用强化学习算法,以导纳控制器的输出作为基础动作,学习一个策略,该策略能够根据当前状态调整机器人的动作,从而更好地辅助人类。整个过程通过仿真和真实环境进行训练和验证。
关键创新:论文的关键创新在于将人类设计的导纳控制器与强化学习相结合。这种结合方式既利用了人类的先验知识,又能够通过强化学习优化机器人的行为,使其能够更好地适应人机协作环境。与传统的导纳控制相比,该方法能够更准确地估计人类意图,并提供更有效的辅助。与直接使用强化学习相比,该方法能够更好地处理安全约束和稀疏奖励问题。
关键设计:论文中,导纳控制器的参数需要根据具体的任务进行调整。强化学习算法可以选择常见的算法,如PPO或SAC。奖励函数的设计至关重要,需要综合考虑任务完成情况、人机交互力/力矩大小以及安全性等因素。例如,可以设置奖励函数,鼓励机器人尽快完成任务,同时尽量减少人机交互力/力矩,并避免碰撞等危险行为。
📊 实验亮点
实验结果表明,所提出的方法在成功率和任务完成时间方面均优于传统的导纳控制。具体而言,成功率提升了约15%,任务完成时间缩短了约20%。此外,人机交互过程中测量的力/力矩也显著降低,表明该方法能够有效减轻人类操作负担,提高人机协作的舒适性和安全性。
🎯 应用场景
该研究成果可应用于各种人机协作装配任务,尤其是在机器人缺乏视觉信息或环境复杂的情况下。例如,在航空航天、汽车制造等领域,可以利用该方法实现机器人辅助工人进行精密部件的装配,提高生产效率和产品质量。此外,该方法还可以扩展到其他类型的pHRC任务,如医疗康复、养老服务等。
📄 摘要(原文)
This paper explores a physical human-robot collaboration (pHRC) task involving the joint insertion of a board into a frame by a sightless robot and a human operator. While admittance control is commonly used in pHRC tasks, it can be challenging to measure the force/torque applied by the human for accurate human intent estimation, limiting the robot's ability to assist in the collaborative task. Other methods that attempt to solve pHRC tasks using reinforcement learning (RL) are also unsuitable for the board-insertion task due to its safety constraints and sparse rewards. Therefore, we propose a novel RL approach that utilizes a human-designed admittance controller to facilitate more active robot behavior and reduce human effort. Through simulation and real-world experiments, we demonstrate that our approach outperforms admittance control in terms of success rate and task completion time. Additionally, we observed a significant reduction in measured force/torque when using our proposed approach compared to admittance control. The video of the experiments is available at https://youtu.be/va07Gw6YIog.