AI Agents for Inventory Control: Human-LLM-OR Complementarity

📄 arXiv: 2602.12631v1 📥 PDF

作者: Jackie Baek, Yaopeng Fu, Will Ma, Tianyi Peng

分类: cs.AI, cs.HC, cs.LG

发布日期: 2026-02-13


💡 一句话要点

提出人-LLM-OR协同的库存控制AI Agent,提升复杂场景下的决策性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 库存控制 大型语言模型 运筹学 人机协作 AI Agent

📋 核心要点

  1. 传统库存控制算法依赖严格假设,难以应对需求变化和信息缺失等复杂场景。
  2. 提出结合运筹学(OR)算法和大型语言模型(LLM)的AI Agent,实现优势互补。
  3. 实验表明,OR增强的LLM方法优于单独方法,人机协作团队表现超越个体。

📝 摘要(中文)

库存控制是运营管理中的一个基本问题,传统的订购决策依赖于理论化的运筹学(OR)算法。然而,这些算法通常依赖于严格的建模假设,并且在需求分布发生变化或缺乏相关的上下文信息时表现不佳。大型语言模型(LLM)的最新进展激发了人们对AI Agent的兴趣,这些Agent可以灵活地进行推理并整合丰富的上下文信号,但如何将基于LLM的方法最好地融入到传统的决策流程中仍不清楚。我们研究了在多周期库存控制环境中,OR算法、LLM和人类如何相互作用和补充。我们构建了InventoryBench,这是一个包含1000多个库存实例的基准,涵盖合成和真实世界的需求数据,旨在压力测试需求变化、季节性和不确定交货时间下的决策规则。通过这个基准,我们发现OR增强的LLM方法优于单独使用任何一种方法,表明这些方法是互补的,而不是替代品。我们进一步通过一个受控的课堂实验来研究人类的角色,该实验将LLM推荐嵌入到人机协作的决策流程中。与之前人机协作会降低性能的发现相反,我们表明,平均而言,人机团队比单独的人或AI Agent获得更高的利润。除了这种群体层面的发现之外,我们还形式化了个体层面的互补效应,并推导了从AI协作中受益的个体比例的无分布下界;经验表明,这个比例是相当大的。

🔬 方法详解

问题定义:论文旨在解决传统库存控制算法在面对复杂、动态环境时表现不佳的问题。现有方法依赖于对需求分布的严格假设,无法有效利用上下文信息,导致决策质量下降。此外,如何有效整合人类的经验和判断也是一个挑战。

核心思路:论文的核心思路是将运筹学(OR)算法、大型语言模型(LLM)和人类决策者结合起来,构建一个协同的库存控制系统。OR算法提供理论基础和优化能力,LLM负责处理上下文信息和进行灵活推理,人类则可以利用其经验和判断来修正AI的决策。这种协同方式旨在充分发挥各自的优势,弥补彼此的不足。

技术框架:整体框架包含以下几个主要模块:1) 数据输入模块:收集历史需求数据、上下文信息(如季节、促销活动等)以及交货时间等数据。2) OR算法模块:使用传统的库存控制算法(如(s, S)策略)计算初步的订货量。3) LLM模块:利用LLM对上下文信息进行分析,并对OR算法的输出进行调整。LLM可以学习历史数据中的模式,并根据当前情况进行预测和推理。4) 人机交互模块:将LLM的建议呈现给人类决策者,人类可以根据自己的判断进行修改。5) 评估模块:根据实际的库存水平和销售情况,评估决策的性能,并进行反馈学习。

关键创新:最重要的技术创新点在于将OR算法和LLM进行有效整合,并将其嵌入到人机协作的决策流程中。与传统的单一方法相比,该方法能够更好地应对复杂、动态的环境,并充分利用人类的经验和判断。此外,论文还形式化了个体层面的互补效应,并提出了评估人机协作效果的指标。

关键设计:在LLM模块中,论文可能采用了以下关键设计:1) 提示工程:设计合适的提示语,引导LLM进行推理和预测。2) 微调:使用历史库存数据对LLM进行微调,使其更好地适应库存控制任务。3) 不确定性建模:利用LLM对需求的不确定性进行建模,并将其纳入到决策过程中。在人机交互模块中,论文可能采用了以下关键设计:1) 可视化:将LLM的建议以清晰、易懂的方式呈现给人类决策者。2) 可解释性:提供LLM决策的解释,帮助人类理解其背后的逻辑。3) 反馈机制:允许人类对LLM的建议进行反馈,并将其用于改进LLM的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,OR增强的LLM方法在InventoryBench基准测试中优于单独使用OR算法或LLM。人机协作实验表明,人机团队的平均利润高于单独的人或AI Agent。论文还发现,相当比例的个体从AI协作中受益,证明了人机协作的有效性。

🎯 应用场景

该研究成果可应用于零售、电商、制造业等多个领域的库存管理。通过结合AI和人类智能,企业可以更有效地应对需求波动、供应链中断等挑战,降低库存成本,提高服务水平。未来,该方法有望扩展到更复杂的供应链管理问题,例如需求预测、生产计划和物流优化。

📄 摘要(原文)

Inventory control is a fundamental operations problem in which ordering decisions are traditionally guided by theoretically grounded operations research (OR) algorithms. However, such algorithms often rely on rigid modeling assumptions and can perform poorly when demand distributions shift or relevant contextual information is unavailable. Recent advances in large language models (LLMs) have generated interest in AI agents that can reason flexibly and incorporate rich contextual signals, but it remains unclear how best to incorporate LLM-based methods into traditional decision-making pipelines. We study how OR algorithms, LLMs, and humans can interact and complement each other in a multi-period inventory control setting. We construct InventoryBench, a benchmark of over 1,000 inventory instances spanning both synthetic and real-world demand data, designed to stress-test decision rules under demand shifts, seasonality, and uncertain lead times. Through this benchmark, we find that OR-augmented LLM methods outperform either method in isolation, suggesting that these methods are complementary rather than substitutes. We further investigate the role of humans through a controlled classroom experiment that embeds LLM recommendations into a human-in-the-loop decision pipeline. Contrary to prior findings that human-AI collaboration can degrade performance, we show that, on average, human-AI teams achieve higher profits than either humans or AI agents operating alone. Beyond this population-level finding, we formalize an individual-level complementarity effect and derive a distribution-free lower bound on the fraction of individuals who benefit from AI collaboration; empirically, we find this fraction to be substantial.