RetailBench: Evaluating Long-Horizon Autonomous Decision-Making and Strategy Stability of LLM Agents in Realistic Retail Environments

📄 arXiv: 2603.16453v1 📥 PDF

作者: Linghua Zhang, Jun Wang, Jingtong Wu, Zhisong Zhang

分类: cs.AI

发布日期: 2026-03-17


💡 一句话要点

RetailBench:评估LLM智能体在零售环境中长期自主决策与策略稳定性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长期决策 大型语言模型 零售环境 自主智能体 策略演化

📋 核心要点

  1. 现有基于LLM的智能体在长期和动态环境下的决策能力不足,缺乏有效评估工具。
  2. 提出演化策略与执行框架,分离高层战略推理和低层行动执行,实现策略的自适应演化。
  3. 实验表明该框架提升了运营稳定性和效率,但也揭示了LLM在复杂长期决策中的局限性。

📝 摘要(中文)

基于大型语言模型(LLM)的智能体在短期和高度结构化的任务中取得了显著成功。然而,它们在现实和动态环境中长期保持连贯决策的能力仍然是一个开放的挑战。我们引入了RetailBench,这是一个高保真基准,旨在评估现实商业场景中的长期自主决策,其中智能体必须在随机需求和不断变化的外部条件下运行。我们进一步提出了演化策略与执行框架,该框架将高层战略推理与低层行动执行分离。这种设计能够实现随时间自适应和可解释的策略演化。这对于长期任务尤为重要,在这些任务中,非平稳环境和误差累积需要以不同于行动执行的时间尺度来修正策略。在八个最先进的LLM上进行的实验表明,与其它基线相比,我们的框架提高了运营稳定性和效率。然而,随着任务复杂性的增加,性能会大幅下降,这揭示了当前LLM在长期、多因素决策方面的根本局限性。

🔬 方法详解

问题定义:论文旨在解决LLM智能体在现实零售环境中进行长期自主决策时面临的挑战。现有方法难以在动态、随机的环境中保持策略的稳定性和效率,尤其是在任务复杂度增加时,性能会显著下降。现有的评估方法也缺乏对长期决策能力的有效衡量标准。

核心思路:论文的核心思路是将长期决策过程分解为高层战略推理和低层行动执行两个阶段。高层战略负责制定长期目标和策略,并根据环境变化进行调整;低层行动则负责执行具体的行动。通过分离这两个阶段,可以使智能体更好地适应环境变化,提高决策的稳定性和效率。

技术框架:整体框架为“演化策略与执行”(Evolving Strategy & Execution)。该框架包含以下主要模块:1) 环境模拟器:模拟真实的零售环境,包括商品、顾客、需求等;2) 策略推理模块:基于LLM进行高层战略推理,制定长期目标和策略;3) 行动执行模块:将高层策略转化为具体的行动,并与环境进行交互;4) 策略评估模块:评估策略的性能,并根据评估结果调整策略。

关键创新:最重要的技术创新点在于将长期决策过程分解为高层战略推理和低层行动执行两个阶段,并使用LLM进行高层战略推理。这种分离的设计使得智能体可以更好地适应环境变化,提高决策的稳定性和效率。此外,RetailBench基准的提出也为评估长期决策能力提供了一个有效的工具。

关键设计:策略推理模块使用LLM作为核心,通过prompt engineering来引导LLM进行战略推理。行动执行模块则根据具体的零售场景进行设计,例如,可以采用强化学习或规则引擎来控制智能体的行动。策略评估模块则根据零售场景的KPI(如销售额、利润等)来评估策略的性能。

📊 实验亮点

实验结果表明,提出的演化策略与执行框架在RetailBench基准上优于其他基线方法,提高了运营稳定性和效率。然而,随着任务复杂性的增加,LLM的性能会大幅下降,这表明当前LLM在长期、多因素决策方面存在局限性。例如,在最复杂的环境中,性能下降幅度超过30%。

🎯 应用场景

该研究成果可应用于智能零售、供应链管理、金融投资等领域,帮助企业在复杂和动态的环境中做出更优的长期决策。通过模拟真实环境和评估不同策略的性能,可以降低决策风险,提高运营效率,并为企业带来更大的商业价值。未来,该研究还可以扩展到其他领域,如智能交通、智能制造等。

📄 摘要(原文)

Large Language Model (LLM)-based agents have achieved notable success on short-horizon and highly structured tasks. However, their ability to maintain coherent decision-making over long horizons in realistic and dynamic environments remains an open challenge. We introduce RetailBench, a high-fidelity benchmark designed to evaluate long-horizon autonomous decision-making in realistic commercial scenarios, where agents must operate under stochastic demand and evolving external conditions. We further propose the Evolving Strategy & Execution framework, which separates high-level strategic reasoning from low-level action execution. This design enables adaptive and interpretable strategy evolution over time. It is particularly important for long-horizon tasks, where non-stationary environments and error accumulation require strategies to be revised at a different temporal scale than action execution. Experiments on eight state-of-the-art LLMs across progressively challenging environments show that our framework improves operational stability and efficiency compared to other baselines. However, performance degrades substantially as task complexity increases, revealing fundamental limitations in current LLMs for long-horizon, multi-factor decision-making.