Reinforcement Learning Constrained Beam Search for Parameter Optimization of Paper Drying Under Flexible Constraints
作者: Siyuan Chen, Hanshen Yu, Jamal Yagoobi, Chenhui Shao
分类: cs.LG, cs.AI, eess.SY
发布日期: 2025-01-21
💡 一句话要点
提出RLCBS算法,解决强化学习中柔性约束下的参数优化问题,应用于纸张干燥过程。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 约束优化 束搜索 组合优化 参数优化 纸张干燥 柔性约束
📋 核心要点
- 现有强化学习方法在处理设计约束时存在局限性,无法灵活适应推理时变化或复杂的约束条件。
- 论文提出RLCBS算法,通过推理时的约束束搜索,实现对强化学习策略的优化和约束满足。
- 实验结果表明,RLCBS在纸张干燥参数优化问题上,优于NSGA-II,并显著提升了计算速度。
📝 摘要(中文)
现有的强化学习(RL)应用中,强制设计约束的方法通常依赖于奖励函数中的训练时惩罚或训练/推理时的无效动作屏蔽,但这些方法要么在训练后无法修改,要么在可实现的约束类型方面受到限制。为了解决这个局限性,我们提出了一种强化学习约束束搜索(RLCBS)方法,用于组合优化问题中的推理时细化。该方法尊重灵活的推理时约束,支持排除无效动作和强制包含期望动作,并采用束搜索来最大化序列概率,从而更合理地整合约束。RLCBS可扩展到不需要实时解决方案的基于RL的规划和优化问题,我们将该方法应用于优化新型模块化纸张干燥测试平台的工艺参数。训练RL智能体,通过生成最佳干燥器模块和空气供应温度配置,最大限度地减少不同机器速度水平下的能源消耗。结果表明,在推理时,RLCBS在干燥模块配置的复杂设计约束下优于NSGA-II,同时提供了2.58倍或更高的速度提升。
🔬 方法详解
问题定义:论文旨在解决强化学习在组合优化问题中,难以灵活处理推理时约束的问题。现有方法,如奖励函数惩罚或无效动作屏蔽,要么无法在训练后修改,要么约束类型受限,无法满足实际应用中复杂且动态的设计约束需求。例如,在纸张干燥过程中,不同模块的配置和温度设置会受到多种因素的限制,这些限制可能随时间变化,传统的强化学习方法难以有效处理。
核心思路:论文的核心思路是在推理阶段引入约束束搜索(Constrained Beam Search),对强化学习策略生成的动作序列进行优化。通过束搜索,算法能够在满足约束条件的前提下,选择概率最高的动作序列,从而实现对策略的细化和约束的有效整合。这种方法允许在推理时灵活地添加或修改约束,而无需重新训练模型。
技术框架:RLCBS算法的整体框架如下:首先,使用标准的强化学习算法训练一个策略网络,该网络能够根据当前状态输出动作的概率分布。然后,在推理阶段,使用训练好的策略网络生成初始的动作序列。接着,应用约束束搜索算法,维护一个包含多个候选动作序列的束。在每一步,算法根据策略网络的概率分布扩展束中的每个序列,并根据预定义的约束条件筛选掉不满足约束的序列。最终,选择束中概率最高的序列作为最终的动作序列。
关键创新:RLCBS算法的关键创新在于将约束满足问题与强化学习的策略优化相结合,通过推理时的束搜索,实现了对策略的细化和约束的有效整合。与现有方法相比,RLCBS能够灵活地处理推理时变化的设计约束,并且可以同时支持排除无效动作和强制包含期望动作。这种方法为解决具有复杂约束的组合优化问题提供了一种新的思路。
关键设计:RLCBS算法的关键设计包括:1) 束的大小(beam size),决定了搜索的广度;2) 约束条件的定义,需要根据具体问题进行设计,包括排除无效动作和强制包含期望动作;3) 概率计算方式,通常使用策略网络输出的动作概率作为序列概率的评估标准。在纸张干燥的应用中,约束条件可能包括模块的温度范围、空气供应量等。损失函数主要体现在强化学习训练阶段,目标是最小化能源消耗。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在纸张干燥参数优化问题中,RLCBS算法在满足复杂设计约束的前提下,优于传统的NSGA-II算法。具体而言,RLCBS在干燥模块配置的复杂设计约束下,性能优于NSGA-II,同时提供了2.58倍或更高的速度提升。这表明RLCBS算法在处理具有复杂约束的组合优化问题时,具有显著的优势。
🎯 应用场景
RLCBS算法具有广泛的应用前景,可应用于各种需要满足复杂约束的组合优化问题,例如生产调度、资源分配、路径规划等。在智能制造领域,该算法可以用于优化生产流程,提高生产效率,降低能源消耗。此外,该算法还可以应用于机器人控制、自动驾驶等领域,实现对复杂环境的适应和约束满足。
📄 摘要(原文)
Existing approaches to enforcing design constraints in Reinforcement Learning (RL) applications often rely on training-time penalties in the reward function or training/inference-time invalid action masking, but these methods either cannot be modified after training, or are limited in the types of constraints that can be implemented. To address this limitation, we propose Reinforcement Learning Constrained Beam Search (RLCBS) for inference-time refinement in combinatorial optimization problems. This method respects flexible, inference-time constraints that support exclusion of invalid actions and forced inclusion of desired actions, and employs beam search to maximize sequence probability for more sensible constraint incorporation. RLCBS is extensible to RL-based planning and optimization problems that do not require real-time solution, and we apply the method to optimize process parameters for a novel modular testbed for paper drying. An RL agent is trained to minimize energy consumption across varying machine speed levels by generating optimal dryer module and air supply temperature configurations. Our results demonstrate that RLCBS outperforms NSGA-II under complex design constraints on drying module configurations at inference-time, while providing a 2.58-fold or higher speed improvement.