Deep Reinforcement Learning for Flexible Job Shop Scheduling with Random Job Arrivals
作者: Yu Tang, Muhammad Zakwan, Efe Balta, John Lygeros, Alisa Rupenyan
分类: cs.AI, math.OC
发布日期: 2026-05-21
💡 一句话要点
提出基于事件驱动深度强化学习的柔性作业车间调度方法,解决随机工件到达问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 柔性作业车间调度 深度强化学习 事件驱动 近端策略优化 调度规则 随机工件到达
📋 核心要点
- 柔性作业车间调度问题因其组合复杂性和随机工件到达的挑战,难以用传统优化方法有效解决。
- 论文提出一种基于事件驱动的深度强化学习方法,通过学习选择合适的调度规则来优化工件调度。
- 实验表明,该方法在不同异构性和工件到达率的数据集上,优于传统调度规则和混合整数线性规划方法。
📝 摘要(中文)
柔性作业车间调度问题(FJSP)旨在将一组工件最优地分配给机器。FJSP 存在两个主要挑战:未来工件到达的不可预测性以及问题的组合复杂性,这使得传统的混合整数线性规划求解器难以处理。本文提出了一种基于事件驱动的深度强化学习(DRL)方法来解决具有随机工件到达的FJSP。具体来说,我们采用近端策略优化算法,并使用轻量级多层感知器来训练 DRL 智能体,以最小化所有工件的总完成时间。我们设计的状态表示可以直接从环境中访问,并且限制学习智能体从一组完善的调度规则中进行选择。仿真结果表明,我们的 DRL 方法在具有不同异质性和工件到达率的数据集上优于任何单独的调度规则。我们将我们的 DRL 方法与到达触发的混合整数线性规划解决方案进行基准测试,结果表明我们的方法实现了良好的性能,尤其是在数据集异构时。
🔬 方法详解
问题定义:论文旨在解决具有随机工件到达的柔性作业车间调度问题(FJSP)。传统混合整数线性规划方法难以应对其组合复杂性和动态性,而现有的调度规则在不同场景下的表现不稳定,缺乏自适应性。
核心思路:论文的核心思路是利用深度强化学习(DRL)训练一个智能体,使其能够根据当前车间状态,自适应地选择合适的调度规则。通过将调度规则作为动作空间,降低了动作空间的维度,简化了学习过程,并保证了动作的可行性。
技术框架:整体框架是一个基于事件驱动的强化学习循环。当有新的工件到达或机器空闲时,触发一次决策事件。DRL智能体根据当前车间状态(状态表示),从预定义的调度规则集合中选择一个规则(动作),然后执行该规则进行工件调度。环境根据调度结果更新状态,并向智能体提供奖励信号。智能体使用近端策略优化(PPO)算法进行训练。
关键创新:该方法的关键创新在于将深度强化学习与传统的调度规则相结合。通过学习选择合适的调度规则,而不是直接生成调度方案,降低了问题的复杂性,提高了学习效率。同时,基于事件驱动的决策方式,能够更好地适应动态变化的工件到达情况。
关键设计:状态表示的设计直接影响智能体的决策质量。论文设计的状态表示可以直接从环境中获取,包括机器和工件的各种属性,如机器的空闲时间、工件的剩余加工时间等。奖励函数的设计目标是最小化所有工件的总完成时间。网络结构采用轻量级多层感知器,以降低计算复杂度,提高训练速度。动作空间是预定义的调度规则集合,例如最短加工时间优先(SPT)、最早到期日优先(EDD)等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该 DRL 方法在不同异构性和工件到达率的数据集上,显著优于传统的调度规则。例如,在某些数据集上,该方法可以将总完成时间降低 10% 以上。此外,与到达触发的混合整数线性规划解决方案相比,该方法在数据集异构时表现出更好的性能,表明其具有更强的鲁棒性和泛化能力。
🎯 应用场景
该研究成果可应用于各种制造系统和物流调度场景,例如半导体制造、汽车装配、仓储物流等。通过自适应地优化工件调度,可以提高生产效率、降低生产成本、缩短交货时间,从而增强企业的竞争力。未来,该方法可以进一步扩展到更复杂的调度问题,例如考虑机器故障、资源约束等因素。
📄 摘要(原文)
The Flexible Job Shop Scheduling Problem (FJSP) is the optimal allocation of a set of jobs to machines. Two primary challenges persist in FJSP: the unpredictable arrival of future jobs and the combinatorial complexity of the problem, rendering it intractable for conventional mixed-integer linear programming solvers. This paper proposes an event-based \gls{DRL} approach to solve FJSP with random job arrivals. Specifically, we employ the Proximal Policy Optimization algorithm and use lightweight Multi-Layer Perceptrons to train the \gls{DRL} agent for minimizing the total completion time of all jobs. We design the state representation to be directly accessible from the environment, and limit the learning agent to selecting from among a set of well-established dispatching rules. Simulations show that our \gls{DRL} approach outperforms any of the individual dispatching rules on datasets with varying heterogeneity and job arrival rates. We benchmark our \gls{DRL} against an arrival-triggered mixed-integer linear programming solution and show that our method achieves good performance especially when the datasets are heterogeneous.