Scheduling That Speaks: An Interpretable Programmatic Reinforcement Learning Framework

📄 arXiv: 2605.18454v1 📥 PDF

作者: Chengpeng Hu, Yingqian Zhang, Hendrik Baier

分类: cs.LG, cs.AI, cs.SC

发布日期: 2026-05-18

🔗 代码/项目: GITHUB


💡 一句话要点

提出ProRL:一种可解释的程序化强化学习框架,用于解决作业车间调度问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 程序化策略 作业车间调度 可解释性 贝叶斯优化

📋 核心要点

  1. 深度强化学习在作业调度中应用受限,因为其策略由DNN表示,缺乏可解释性,且计算资源需求高。
  2. ProRL提出一种程序化强化学习框架,使用领域特定语言表示调度策略,并通过局部搜索和贝叶斯优化学习程序参数。
  3. 实验表明,ProRL在性能上优于现有启发式方法和DRL基线,且在资源受限情况下表现良好,具有实际应用潜力。

📝 摘要(中文)

深度强化学习(DRL)在解决作业车间调度等组合优化问题方面展现出潜力。然而,DRL学习到的策略通常由深度神经网络(DNN)表示,其不透明的神经架构和难以解释的决策过程,可能导致决策者对信任度和可用性的担忧。此外,DNN的计算需求可能阻碍其在资源受限环境中的实际部署。本文提出ProRL,一种新颖的可解释程序化强化学习框架,它通过人类可读和可编辑的程序化策略(即程序)实现高性能调度。首先,引入调度领域特定语言(DSL-S)将调度策略表示为结构化程序。然后,ProRL利用局部搜索探索DSL-S定义的程序空间,以识别不完整的程序,并通过贝叶斯优化学习其参数来完成程序。ProRL学习选择哪些调度启发式规则,因此自然地结合了工业场景中已有的启发式方法。在广泛使用的基准实例上的实验表明,ProRL相对于现有启发式方法和DRL基线具有强大的性能。此外,ProRL在计算资源严重受限的情况下表现良好,例如仅使用100个episode进行训练。

🔬 方法详解

问题定义:论文旨在解决作业车间调度问题,现有基于深度强化学习的方法虽然取得了一定的效果,但是存在两个主要的痛点:一是策略由深度神经网络表示,缺乏可解释性,难以让决策者信任;二是深度神经网络计算复杂度高,难以在资源受限的环境中部署。

核心思路:论文的核心思路是使用程序化的方式来表示调度策略,即使用一系列人类可读、可编辑的规则来指导调度过程。通过将调度策略表示为程序,可以提高策略的可解释性,并降低计算复杂度。同时,论文还利用强化学习来自动学习这些规则的参数,从而提高调度性能。

技术框架:ProRL框架主要包含以下几个模块:1) 领域特定语言(DSL-S):用于定义调度策略的程序结构。2) 局部搜索:用于探索DSL-S定义的程序空间,找到潜在的调度策略。3) 贝叶斯优化:用于学习程序中参数的最佳值,完成程序的构建。整体流程是,首先使用局部搜索找到一些不完整的程序,然后使用贝叶斯优化来学习这些程序中的参数,最终得到完整的、可执行的调度策略。

关键创新:ProRL最重要的技术创新点在于将强化学习与程序化策略表示相结合,既保证了策略的可解释性,又能够通过强化学习自动优化策略的性能。与传统的基于深度神经网络的强化学习方法相比,ProRL的策略更加透明,易于理解和修改。此外,ProRL还能够自然地结合现有的启发式规则,从而更好地利用领域知识。

关键设计:DSL-S的设计是关键,它需要能够充分表达各种调度策略,同时又要保证程序空间的搜索效率。局部搜索算法的选择也很重要,需要能够在合理的计算时间内找到高质量的程序。贝叶斯优化器的选择也会影响参数学习的效率和最终策略的性能。论文中具体使用了哪些参数设置、损失函数和网络结构等技术细节,摘要中没有明确说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

ProRL在作业车间调度基准测试中表现出色,性能优于现有的启发式方法和深度强化学习基线。值得注意的是,即使在仅使用100个episode进行训练的资源受限情况下,ProRL仍然能够取得良好的性能,这表明其具有很高的效率和实用性。

🎯 应用场景

ProRL可应用于各种需要进行作业调度的工业场景,例如制造业、物流、医疗等。其可解释性和低计算成本使其更易于部署在资源受限的环境中。未来,该方法可以扩展到其他组合优化问题,并结合领域知识进一步提高性能。

📄 摘要(原文)

Deep reinforcement learning (DRL) has recently emerged as a promising approach to solve combinatorial optimization problems such as job shop scheduling. However, the policies learned by DRL are typically represented by deep neural networks (DNNs), whose opaque neural architectures and non-interpretable policy decisions can lead to critical trust and usability concerns for human decision makers. In addition, the computational requirements of DNNs can further hinder practical deployment in resource constrained environments. In this work, we propose ProRL, a novel interpretable programmatic reinforcement learning framework that achieves high-performance scheduling with human-readable and editable programmatic policies (i.e., programs). We first introduce a domain-specific language for scheduling (DSL-S) to represent scheduling strategies as structured programs. ProRL then explores the program space defined by DSL-S using local search to identify incomplete programs, which are subsequently completed by learning their parameters via Bayesian optimization. ProRL learns which scheduling heuristic rules to select, and hence, it naturally incorporates existing heuristics already used in industrial scenarios. Experiments on widely used benchmark instances demonstrate the strong performance of ProRL against existing heuristics and DRL baselines. Furthermore, ProRL performs well under strongly constrained computational resources, such as training with only 100 episodes. Our code is available at https://github.com/HcPlu/ProRL.