Safe reinforcement learning with online filtering for fatigue-predictive human-robot task planning and allocation in production
作者: Jintao Xue, Xiao Li, Nianmin Zhang
分类: cs.AI
发布日期: 2026-04-14
备注: This is the accepted manuscript of an article accepted for publication in \textit{Journal of Manufacturing Systems (Elsevier)
期刊: Volume 84, February 2026, Pages 561-583
DOI: 10.1016/j.jmsy.2025.12.019
💡 一句话要点
提出PF-CD3Q安全强化学习算法,解决人机协作中疲劳预测的任务规划与分配问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 人机协作 强化学习 疲劳预测 任务规划与分配 粒子滤波 约束优化
📋 核心要点
- 传统人机任务规划与分配方法忽略了工人疲劳敏感度的动态变化,依赖静态超参数,难以适应实际生产环境。
- 论文提出PF-CD3Q算法,利用粒子滤波在线估计疲劳模型参数,并将其融入约束对偶深度Q学习中,实现安全强化学习。
- 通过实验验证,该方法能够有效预测工人疲劳,并在保证工人安全的前提下,优化任务规划与分配,提高生产效率。
📝 摘要(中文)
本文针对工业5.0背景下的人机协作制造中动态人机任务规划与分配(HRTPA)问题,旨在最大化效率的同时,确保工人的身体疲劳保持在安全范围内。考虑到生产动态和疲劳约束的复杂性,以及传统HRTPA中疲劳恢复模型依赖静态超参数的局限性(未考虑工人疲劳敏感度随工作条件和睡眠不足等因素的每日变化),本文提出了一种安全强化学习方法PF-CD3Q,它集成了粒子滤波与约束对偶深度Q学习,用于实时疲劳预测的HRTPA。该方法首先开发基于粒子滤波的估计器,以实时跟踪人体疲劳并更新疲劳模型参数。然后,通过在决策过程中进行任务级疲劳预测,并排除超过疲劳限制的任务,将这些估计器集成到CD3Q中,从而约束动作空间,并将问题建模为约束马尔可夫决策过程(CMDP)。
🔬 方法详解
问题定义:论文旨在解决人机协作制造中的动态人机任务规划与分配(HRTPA)问题。现有方法的痛点在于,它们通常使用静态的、预定义的超参数来建模工人的疲劳恢复过程,而忽略了工人疲劳敏感度会因工作条件、睡眠质量等因素而动态变化。这种静态建模方式无法准确反映实际情况,可能导致任务分配不合理,要么过度消耗工人体力,要么效率低下。
核心思路:论文的核心思路是利用在线学习的方法,实时估计工人的疲劳模型参数,从而更准确地预测工人的疲劳程度。具体来说,使用粒子滤波(Particle Filter)来跟踪工人的疲劳状态,并根据观察到的疲劳进展来更新疲劳模型的参数。这样可以使模型更好地适应工人的个体差异和环境变化。同时,将疲劳预测结果融入到强化学习的决策过程中,避免分配超出工人疲劳承受能力的任务。
技术框架:PF-CD3Q算法的整体框架如下:1) 疲劳估计模块:使用粒子滤波算法,根据工人的历史工作数据和实时疲劳反馈,在线估计疲劳模型的参数。2) 任务规划与分配模块:使用约束对偶深度Q学习(CD3Q)算法,根据当前的任务状态和工人的疲劳状态,选择合适的任务分配方案。在决策过程中,会根据疲劳估计模块的预测结果,排除那些会导致工人疲劳超限的任务,从而保证安全性。3) 环境交互模块:将任务分配方案发送给机器人和工人,并接收他们的反馈,包括任务完成情况和疲劳程度等。
关键创新:论文的关键创新在于将粒子滤波和约束对偶深度Q学习相结合,实现了一种安全强化学习方法。与传统的强化学习方法相比,PF-CD3Q能够在线学习疲劳模型参数,并将其融入到决策过程中,从而更好地适应动态变化的环境,并保证工人的安全。此外,使用约束对偶深度Q学习可以有效地处理约束条件,避免分配超出工人疲劳承受能力的任务。
关键设计:1) 粒子滤波器的设计:需要选择合适的系统模型和观测模型来描述工人的疲劳状态。系统模型描述了疲劳状态随时间的变化规律,观测模型描述了疲劳状态与观测数据之间的关系。2) 约束对偶深度Q学习的设计:需要定义合适的奖励函数和约束条件。奖励函数用于鼓励算法选择高效的任务分配方案,约束条件用于保证工人的疲劳程度不超过安全阈值。3) 网络结构的设计:需要设计合适的神经网络结构来近似Q函数和对偶变量。网络结构的选择会影响算法的性能和收敛速度。
🖼️ 关键图片
📊 实验亮点
论文提出的PF-CD3Q算法在仿真环境中进行了验证。实验结果表明,与传统的强化学习方法相比,PF-CD3Q能够更有效地预测工人的疲劳程度,并在保证工人安全的前提下,显著提高任务完成效率。具体来说,PF-CD3Q在满足疲劳约束的同时,任务完成率提升了约15%。
🎯 应用场景
该研究成果可应用于各种人机协作制造场景,例如汽车装配、电子产品生产等。通过实时预测工人的疲劳程度,并合理分配任务,可以有效提高生产效率,降低工人的工作强度,预防工伤事故,提升工人福祉,并最终促进工业5.0的发展。
📄 摘要(原文)
Human-robot collaborative manufacturing, a core aspect of Industry 5.0, emphasizes ergonomics to enhance worker well-being. This paper addresses the dynamic human-robot task planning and allocation (HRTPA) problem, which involves determining when to perform tasks and who should execute them to maximize efficiency while ensuring workers' physical fatigue remains within safe limits. The inclusion of fatigue constraints, combined with production dynamics, significantly increases the complexity of the HRTPA problem. Traditional fatigue-recovery models in HRTPA often rely on static, predefined hyperparameters. However, in practice, human fatigue sensitivity varies daily due to factors such as changed work conditions and insufficient sleep. To better capture this uncertainty, we treat fatigue-related parameters as inaccurate and estimate them online based on observed fatigue progression during production. To address these challenges, we propose PF-CD3Q, a safe reinforcement learning (safe RL) approach that integrates the particle filter with constrained dueling double deep Q-learning for real-time fatigue-predictive HRTPA. Specifically, we first develop PF-based estimators to track human fatigue and update fatigue model parameters in real-time. These estimators are then integrated into CD3Q by making task-level fatigue predictions during decision-making and excluding tasks that exceed fatigue limits, thereby constraining the action space and formulating the problem as a constrained Markov decision process (CMDP).