Mamba Meets Scheduling: Learning to Solve Flexible Job Shop Scheduling with Efficient Sequence Modeling
作者: Zhi Cao, Cong Zhang, Yaoxin Wu, Yaqing Hou, Hongwei Ge
分类: cs.LG
发布日期: 2026-02-25
💡 一句话要点
利用Mamba序列建模高效求解柔性作业车间调度问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 柔性作业车间调度 序列建模 Mamba模型 状态空间模型 组合优化
📋 核心要点
- 现有FJSP学习方法依赖局部特征提取,难以捕捉操作和机器间的全局依赖关系,限制了优化性能。
- 提出基于Mamba的序列建模架构,利用其线性复杂度优势,高效提取操作和机器特征,并进行交互学习。
- 实验表明,该方法在求解速度和性能上均优于现有基于学习的FJSP方法,并在多个基准测试中取得领先。
📝 摘要(中文)
柔性作业车间调度问题(FJSP)是一个被广泛研究的组合优化问题,在制造和生产调度中具有广泛的应用。它涉及将作业分配给不同的机器以优化诸如最小化总完成时间之类的标准。目前该领域基于学习的方法通常依赖于局部特征提取模型,限制了它们捕获跨操作和机器的总体依赖关系的能力。本文提出了一种创新的架构,该架构利用具有线性计算复杂度的状态空间模型Mamba,以促进为FJSP量身定制的全面序列建模。与FJSP计算密集型的主流基于图注意力的框架相比,我们证明了我们的模型更有效。具体来说,所提出的模型具有编码器和解码器。编码器结合了双Mamba块以分别提取操作和机器特征。此外,我们引入了一种高效的交叉注意力解码器来学习操作和机器的交互嵌入。我们的实验结果表明,我们的方法实现了更快的求解速度,并在各种基准测试中超越了最先进的基于学习的FJSP方法。
🔬 方法详解
问题定义:柔性作业车间调度问题(FJSP)旨在将一系列作业分配到不同的机器上,每个作业包含多个操作,每个操作可以在多个机器上执行。目标是优化某些性能指标,例如最小化总完成时间。现有基于学习的方法,特别是基于图神经网络的方法,在处理大规模FJSP时计算成本高昂,并且难以捕捉操作和机器之间的长距离依赖关系。
核心思路:本文的核心思路是利用Mamba这种状态空间模型进行序列建模,Mamba具有线性计算复杂度,能够高效地处理长序列数据,从而更好地捕捉FJSP中操作和机器之间的依赖关系。通过将FJSP问题转化为序列建模问题,可以充分利用Mamba的优势,提高求解效率和优化性能。
技术框架:该模型包含一个编码器和一个解码器。编码器使用双Mamba块分别提取操作和机器的特征。具体来说,一个Mamba块处理操作序列,另一个Mamba块处理机器序列。解码器采用高效的交叉注意力机制,学习操作和机器的交互嵌入表示。解码器根据这些交互嵌入,预测下一个要调度的操作和机器。整个框架通过端到端的方式进行训练。
关键创新:该论文的关键创新在于将Mamba模型引入到FJSP的求解中,并设计了双Mamba块和交叉注意力解码器,以充分利用Mamba的序列建模能力。与传统的基于图神经网络的方法相比,该方法具有更低的计算复杂度,并且能够更好地捕捉长距离依赖关系。
关键设计:编码器中的双Mamba块分别处理操作和机器序列,可以更好地提取各自的特征。交叉注意力解码器通过计算操作和机器之间的注意力权重,学习它们的交互嵌入表示。损失函数通常包括调度决策的交叉熵损失,以及其他辅助损失,例如完工时间预测损失。具体的Mamba块参数设置和注意力机制的选择需要根据实验进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在多个FJSP基准测试集上取得了state-of-the-art的性能,并且具有更快的求解速度。具体来说,该方法在某些基准测试集上的性能提升超过了5%,并且求解速度比基于图神经网络的方法快数倍。这些结果表明,该方法在实际应用中具有很大的潜力。
🎯 应用场景
该研究成果可广泛应用于制造业和生产调度领域,例如智能工厂、自动化生产线等。通过优化作业调度,可以提高生产效率、降低生产成本、缩短交货时间,从而增强企业的竞争力。未来,该方法还可以扩展到其他类似的组合优化问题,例如车辆路径问题、资源分配问题等。
📄 摘要(原文)
The Flexible Job Shop Problem (FJSP) is a well-studied combinatorial optimization problem with extensive applications for manufacturing and production scheduling. It involves assigning jobs to various machines to optimize criteria, such as minimizing total completion time. Current learning-based methods in this domain often rely on localized feature extraction models, limiting their capacity to capture overarching dependencies spanning operations and machines. This paper introduces an innovative architecture that harnesses Mamba, a state-space model with linear computational complexity, to facilitate comprehensive sequence modeling tailored for FJSP. In contrast to prevalent graph-attention-based frameworks that are computationally intensive for FJSP, we show our model is more efficient. Specifically, the proposed model possesses an encoder and a decoder. The encoder incorporates a dual Mamba block to extract operation and machine features separately. Additionally, we introduce an efficient cross-attention decoder to learn interactive embeddings of operations and machines. Our experimental results demonstrate that our method achieves faster solving speed and surpasses the performance of state-of-the-art learning-based methods for FJSP across various benchmarks.