AlphaInventory: Evolving White-Box Inventory Policies via Large Language Models with Deployment Guarantees
作者: Chenyu Huang, Jianghao Lin, Zhengyang Tang, Bo Jiang, Ruoqing Jiang, Benyou Wang, Lai Wei
分类: cs.LG, cs.AI
发布日期: 2026-05-01
💡 一句话要点
AlphaInventory:利用大语言模型演化具有部署保证的白盒库存策略
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 库存管理 大型语言模型 强化学习 白盒策略 置信区间 在线优化 非平稳环境
📋 核心要点
- 现有基于LLM的演化搜索方法在静态问题上表现良好,但难以直接应用于在线动态库存管理这种复杂场景。
- AlphaInventory提出了一种端到端的框架,利用强化学习训练LLM,并结合置信区间认证,生成可部署的白盒库存策略。
- 实验结果表明,AlphaInventory在合成数据和真实零售数据上均优于传统库存策略和深度学习方法,并能改进现有基准。
📝 摘要(中文)
本文研究如何利用大型语言模型在在线、非平稳环境中演化库存策略。受到AlphaEvolve等基于LLM的演化搜索最新进展的启发,这些方法在静态和高度结构化的问题(如数学发现)中表现出强大的性能,但不直接适用于在线动态库存设置。为此,我们提出了AlphaInventory,这是一个端到端的库存策略演化和推理框架,以基于置信区间的认证为基础。该框架使用强化学习训练大型语言模型,整合需求数据以及需求之外的数值和文本特征,并生成具有统计安全保证的白盒库存策略,以便在未来期间部署。我们进一步引入了一个统一的理论接口,连接训练、推理和部署。这使我们能够表征AlphaInventory演化出统计上安全且改进的策略的概率,并量化相对于oracle-safe基准的部署差距。在合成数据和真实零售数据上的测试表明,AlphaInventory优于经典的库存策略和基于深度学习的方法。在典型的库存设置中,它演化出的新策略改进了现有基准。
🔬 方法详解
问题定义:论文旨在解决在线、非平稳环境下的库存策略优化问题。传统的库存策略和基于深度学习的方法难以适应动态变化的需求,并且缺乏可解释性和安全保证。现有的基于LLM的演化搜索方法虽然强大,但主要针对静态问题,无法直接应用于动态库存管理。
核心思路:论文的核心思路是利用大型语言模型(LLM)的强大泛化能力和推理能力,通过强化学习训练LLM,使其能够根据历史需求数据和其他相关特征(如文本描述)演化出新的库存策略。同时,引入基于置信区间的认证机制,为生成的策略提供统计安全保证,确保其在实际部署中的可靠性。
技术框架:AlphaInventory框架包含三个主要阶段:训练阶段、推理阶段和部署阶段。在训练阶段,使用强化学习算法训练LLM,目标是最大化累积奖励(例如,利润)。在推理阶段,LLM根据当前的需求数据和其他特征生成候选库存策略。然后,使用基于置信区间的认证方法评估这些策略的安全性。在部署阶段,选择经过认证的安全策略进行部署。
关键创新:该论文的关键创新在于将LLM与强化学习和置信区间认证相结合,构建了一个端到端的库存策略演化和部署框架。与传统的黑盒方法不同,AlphaInventory生成的是白盒策略,具有可解释性。此外,该框架提供统计安全保证,确保策略在实际部署中的可靠性。论文还提出了一个统一的理论接口,连接训练、推理和部署,可以量化策略的改进概率和部署差距。
关键设计:在训练阶段,使用强化学习算法(例如,PPO)训练LLM。奖励函数的设计需要考虑库存成本、缺货成本和销售收入。在推理阶段,使用蒙特卡洛模拟等方法估计策略的性能和置信区间。置信区间的计算方法需要根据具体的需求分布进行选择。LLM的网络结构可以采用Transformer等常用的结构。论文中使用了数值和文本特征作为LLM的输入,例如,历史需求数据、促销信息和产品描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,AlphaInventory在合成数据和真实零售数据上均优于经典的库存策略(如(s, Q)策略)和基于深度学习的方法。在典型的库存设置中,AlphaInventory演化出的新策略能够显著改进现有基准。例如,在某个实验中,AlphaInventory的利润比传统策略提高了10%以上。
🎯 应用场景
AlphaInventory具有广泛的应用前景,可以应用于零售、电商、制造业等多个领域。它可以帮助企业优化库存管理,降低库存成本,提高服务水平,并适应动态变化的市场需求。该研究的成果还可以推广到其他动态优化问题,例如,供应链管理、资源调度等。
📄 摘要(原文)
We study how large language models can be used to evolve inventory policies in online, non-stationary environments. Our work is motivated by recent advances in LLM-based evolutionary search, such as AlphaEvolve, which demonstrates strong performance for static and highly structured problems such as mathematical discovery, but is not directly suited to online dynamic inventory settings. To this end, we propose AlphaInventory, an end-to-end inventory-policy evolution and inference framework grounded in confidence-interval-based certification. The framework trains a large language model using reinforcement learning, incorporates demand data as well as numerical and textual features beyond demand, and generates white-box inventory policy with statistical safety guarantees for deployment in future periods. We further introduce a unified theoretical interface that connects training, inference, and deployment. This allows us to characterize the probability that the AlphaInventory evolves a statistically safe and improved policy, and to quantify the deployment gap relative to the oracle-safe benchmark. Tested on both synthetic data and real-world retail data, AlphaInventory outperforms classical inventory policies and deep learning based methods. In canonical inventory settings, it evolves new policies that improve upon existing benchmarks.