A hierarchical spatial-aware algorithm with efficient reinforcement learning for human-robot task planning and allocation in production

📄 arXiv: 2604.12669v1 📥 PDF

作者: Jintao Xue, Xiao Li, Nianmin Zhang

分类: cs.AI

发布日期: 2026-04-14

备注: This is the accepted manuscript of a journal article accepted for publication in Robotics and Computer-Integrated Manufacturing (Elsevier)

期刊: Volume 98, April 2026, 103159

DOI: 10.1016/j.rcim.2025.103159


💡 一句话要点

提出一种层级空间感知算法,结合高效强化学习,解决生产中人机任务规划与分配问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 人机协作 任务规划与分配 强化学习 深度Q学习 空间感知 生产制造 分层算法

📋 核心要点

  1. 现有方法难以在复杂动态的制造环境中进行有效的人机任务规划与分配,尤其缺乏对空间信息的考虑。
  2. 论文提出一种分层人机任务规划与分配算法,上层使用高效的深度Q学习进行任务规划,下层使用空间感知方法进行任务分配。
  3. 实验结果表明,该方法在复杂动态的生产过程中,能够有效解决人机任务规划与分配问题,提升生产效率。

📝 摘要(中文)

在先进制造系统中,人与机器人协同完成生产过程。有效的任务规划与分配(TPA)对于实现高生产效率至关重要,但在复杂和动态的制造环境中,这仍然具有挑战性。人类和机器人的动态特性,特别是需要考虑空间信息(例如,人类的实时位置以及他们完成任务需要移动的距离),大大复杂化了TPA。为了应对上述挑战,我们将生产任务分解为可管理的子任务。然后,我们实现了一种实时分层人机TPA算法,包括用于任务规划的高级代理和用于任务分配的低级代理。对于高级代理,我们提出了一种高效的基于缓冲区的深度Q学习方法(EBQ),该方法减少了训练时间并提高了具有长期和稀疏奖励挑战的生产问题的性能。对于低级代理,设计了一种基于路径规划的空间感知方法(SAP),以将任务分配给适当的人机资源,从而实现相应的顺序子任务。我们在3D模拟器中对复杂的实时生产过程进行了实验。结果表明,我们提出的EBQ&SAP方法有效地解决了复杂和动态生产过程中的人机TPA问题。

🔬 方法详解

问题定义:论文旨在解决复杂动态生产环境中人机协作的任务规划与分配(TPA)问题。现有方法难以有效处理人类和机器人的动态特性,特别是忽略了空间信息(如人类位置和移动距离)对任务分配的影响。这导致生产效率低下,无法充分发挥人机协作的优势。

核心思路:论文的核心思路是将TPA问题分解为两个层次:高层任务规划和低层任务分配。高层代理负责制定整体任务计划,低层代理负责将任务分配给合适的人或机器人。通过分层结构,可以更好地处理复杂性和动态性,并结合空间信息优化任务分配。

技术框架:该算法包含两个主要模块:基于缓冲区的高效深度Q学习(EBQ)的高层代理和基于路径规划的空间感知方法(SAP)的低层代理。高层代理使用EBQ学习最优的任务执行顺序,低层代理使用SAP根据空间信息将任务分配给最近且合适的资源(人或机器人)。整体流程是:首先,高层代理根据当前状态选择一个任务;然后,低层代理根据空间信息将该任务分配给最佳资源;最后,系统执行该任务并更新状态,重复此过程直到所有任务完成。

关键创新:论文的关键创新在于结合了高效强化学习和空间感知方法,提出了一种分层人机TPA算法。EBQ通过引入缓冲区机制,加速了深度Q学习的训练过程,尤其是在奖励稀疏的情况下。SAP则考虑了空间信息,使得任务分配更加合理高效。这种分层结构和空间感知能力是现有方法所缺乏的。

关键设计:EBQ的关键设计在于引入了一个缓冲区,用于存储最近的状态转移样本,并从中选择一部分样本进行训练。这有助于打破样本之间的相关性,提高训练效率。SAP的关键设计在于使用路径规划算法计算资源到任务的距离,并结合资源的可用性和能力进行任务分配。具体的损失函数和网络结构细节在论文中未明确给出,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的EBQ&SAP方法在复杂动态的生产过程中,能够有效地解决人机任务规划与分配问题。具体性能数据和对比基线在摘要中未明确给出,属于未知信息。但结论表明,该方法优于现有方法,能够提升生产效率。

🎯 应用场景

该研究成果可应用于各种人机协作的生产制造场景,例如汽车制造、电子产品组装、物流仓储等。通过优化任务规划与分配,可以提高生产效率、降低成本、改善工作环境,并实现更灵活的生产模式。未来,该方法有望扩展到更复杂的场景,例如多机器人协作、动态环境适应等。

📄 摘要(原文)

In advanced manufacturing systems, humans and robots collaborate to conduct the production process. Effective task planning and allocation (TPA) is crucial for achieving high production efficiency, yet it remains challenging in complex and dynamic manufacturing environments. The dynamic nature of humans and robots, particularly the need to consider spatial information (e.g., humans' real-time position and the distance they need to move to complete a task), substantially complicates TPA. To address the above challenges, we decompose production tasks into manageable subtasks. We then implement a real-time hierarchical human-robot TPA algorithm, including a high-level agent for task planning and a low-level agent for task allocation. For the high-level agent, we propose an efficient buffer-based deep Q-learning method (EBQ), which reduces training time and enhances performance in production problems with long-term and sparse reward challenges. For the low-level agent, a path planning-based spatially aware method (SAP) is designed to allocate tasks to the appropriate human-robot resources, thereby achieving the corresponding sequential subtasks. We conducted experiments on a complex real-time production process in a 3D simulator. The results demonstrate that our proposed EBQ&SAP method effectively addresses human-robot TPA problems in complex and dynamic production processes.