Reinforcement Learning for Multi-Objective Multi-Echelon Supply Chain Optimisation

📄 arXiv: 2507.19788v1 📥 PDF

作者: Rifny Rachman, Josh Tingey, Richard Allmendinger, Pradyumn Shukla, Wei Pan

分类: cs.AI

发布日期: 2025-07-26


💡 一句话要点

提出基于多目标强化学习的多级供应链优化模型,解决非稳态市场下的经济、环境和社会目标权衡问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多目标优化 强化学习 供应链管理 马尔可夫决策过程 非稳态市场

📋 核心要点

  1. 现有供应链优化方法难以在经济、环境和社会等多重目标间取得平衡,尤其是在非稳态市场中。
  2. 论文提出一种基于多目标强化学习的优化模型,通过学习在不同目标间进行权衡,逼近帕累托最优解。
  3. 实验表明,该方法在复杂环境中,超体积指标比MOEA方法提升75%,解的密度提升11倍,更具鲁棒性。

📝 摘要(中文)

本研究开发了一个通用的、基于马尔可夫决策过程的多目标、多级供应链优化模型,该模型考虑了非稳态市场,并纳入了经济、环境和社会因素。该模型使用多目标强化学习(RL)方法进行评估,并与最初的单目标RL算法(通过预定义的权重进行加权求和修改)以及基于多目标进化算法(MOEA)的方法进行基准测试。我们在不同的网络复杂性上进行了实验,使用可定制的模拟器来模拟典型的现实世界挑战。该模型确定了供应链路线上的生产和交付数量,以实现竞争目标之间接近最优的权衡,从而逼近帕累托前沿集合。结果表明,主要方法在最优性、多样性和密度之间提供了最平衡的权衡,并通过共享经验缓冲区进一步增强,从而实现了策略之间的知识转移。在复杂的环境中,它实现了比基于MOEA的方法高出高达75%的超体积,并生成了比修改后的单目标RL方法产生的解决方案密度高出约11倍的解决方案,这表明了更好的鲁棒性。此外,它确保了稳定的生产和库存水平,同时最大限度地减少了需求损失。

🔬 方法详解

问题定义:论文旨在解决多目标、多级供应链优化问题,尤其是在非稳态市场环境下,如何同时优化经济效益、环境影响和社会责任。现有方法,如单目标优化或基于进化算法的方法,难以有效地处理多目标之间的复杂权衡关系,并且在动态变化的市场中表现不佳。

核心思路:论文的核心思路是利用多目标强化学习(MORL)来学习一个策略,该策略能够在不同的供应链决策(如生产量和交付量)中,找到帕累托最优解的近似集合。通过强化学习,智能体可以根据环境反馈(例如市场需求、库存水平、环境影响等)调整其策略,从而在多个目标之间实现最佳权衡。

技术框架:整体框架包括一个可定制的供应链模拟器和一个MORL智能体。模拟器模拟了多级供应链的网络结构、市场需求、生产过程和物流运输等环节。MORL智能体通过与模拟器交互,观察状态(例如库存水平、需求量、环境指标等),并采取行动(例如生产多少产品、交付多少产品到哪个节点)。智能体根据环境的反馈(奖励信号)来更新其策略,目标是最大化多个目标函数的加权和。

关键创新:该论文的关键创新在于将多目标强化学习应用于多级供应链优化问题,并设计了一个共享经验缓冲区,用于在不同的策略之间进行知识转移。这种方法能够更有效地探索帕累托前沿,并找到在多个目标之间取得良好平衡的解决方案。此外,该方法能够适应非稳态市场环境,并对供应链的复杂性具有较强的鲁棒性。

关键设计:论文采用了一种基于分解的多目标强化学习算法,将多目标优化问题分解为多个单目标优化子问题,每个子问题对应一个特定的权重向量。智能体学习多个策略,每个策略对应一个权重向量,从而逼近帕累托前沿。共享经验缓冲区用于存储智能体在与环境交互过程中获得的经验,并允许不同的策略共享这些经验,从而加速学习过程。具体的网络结构和损失函数细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在复杂供应链网络中,相较于基于MOEA的方法,超体积指标提升高达75%,表明该方法能找到更优的帕累托前沿。此外,该方法生成的解的密度是修改后的单目标RL方法的11倍,意味着更好的鲁棒性和更稳定的性能。该模型还能有效控制生产和库存水平,并最大限度地减少需求损失。

🎯 应用场景

该研究成果可应用于各种复杂供应链的优化,例如制造业、零售业和物流业。通过该模型,企业可以在考虑经济效益的同时,降低环境影响,提升社会责任感,实现可持续发展。该方法还可用于优化应急物资的供应链,提高应对突发事件的能力。

📄 摘要(原文)

This study develops a generalised multi-objective, multi-echelon supply chain optimisation model with non-stationary markets based on a Markov decision process, incorporating economic, environmental, and social considerations. The model is evaluated using a multi-objective reinforcement learning (RL) method, benchmarked against an originally single-objective RL algorithm modified with weighted sum using predefined weights, and a multi-objective evolutionary algorithm (MOEA)-based approach. We conduct experiments on varying network complexities, mimicking typical real-world challenges using a customisable simulator. The model determines production and delivery quantities across supply chain routes to achieve near-optimal trade-offs between competing objectives, approximating Pareto front sets. The results demonstrate that the primary approach provides the most balanced trade-off between optimality, diversity, and density, further enhanced with a shared experience buffer that allows knowledge transfer among policies. In complex settings, it achieves up to 75\% higher hypervolume than the MOEA-based method and generates solutions that are approximately eleven times denser, signifying better robustness, than those produced by the modified single-objective RL method. Moreover, it ensures stable production and inventory levels while minimising demand loss.