Dual-Agent Deep Reinforcement Learning for Dynamic Pricing and Replenishment

📄 arXiv: 2410.21109v1 📥 PDF

作者: Yi Zheng, Zehao Li, Peng Jiang, Yijie Peng

分类: cs.LG, econ.GN

发布日期: 2024-10-28


💡 一句话要点

提出双Agent深度强化学习算法,解决动态定价与补货的决策频率不一致问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 动态定价 库存管理 深度强化学习 双Agent 决策频率 需求预测 随机逼近

📋 核心要点

  1. 现有动态定价和补货方法难以处理需求离散性以及定价和补货决策频率不一致的问题。
  2. 提出一种快-慢双Agent深度强化学习算法,分别处理定价和库存,并以不同频率更新。
  3. 数值实验表明,该方法在单产品和多产品场景下均有效,验证了算法的优越性。

📝 摘要(中文)

本文研究了决策频率不一致情况下的动态定价和补货问题。与传统需求假设不同,需求的离散性和泊松分布中的参数(作为价格的函数)为问题分析带来了复杂性。我们证明了单周期利润函数在产品价格和库存各自领域内的凹性。通过集成基于决策树的机器学习方法(在全面的市场数据上训练),增强了需求模型。采用双时间尺度随机逼近方案,解决了定价和补货之间决策频率的差异,确保收敛到局部最优。我们进一步通过结合深度强化学习(DRL)技术来改进我们的方法,并提出了一种快-慢双Agent DRL算法。在这种方法中,两个Agent分别处理定价和库存,并以不同的尺度进行更新。单产品和多产品场景的数值结果验证了我们方法的有效性。

🔬 方法详解

问题定义:论文旨在解决动态定价和补货问题,尤其是在定价和补货决策频率不一致的情况下。传统方法通常假设连续的需求函数,而本文考虑了需求的离散性,并假设需求服从泊松分布,且泊松分布的参数是价格的函数。这种设定使得问题分析更加复杂,传统方法难以有效解决。

核心思路:论文的核心思路是使用双Agent深度强化学习(DRL)算法,其中一个Agent负责定价(快),另一个Agent负责补货(慢)。这种快-慢更新机制能够有效地处理定价和补货决策频率不一致的问题。此外,论文还利用决策树模型来增强需求预测的准确性。

技术框架:整体框架包含以下几个主要模块:1) 需求预测模块:使用决策树模型,基于市场数据预测需求;2) 定价Agent:使用DRL算法,根据当前库存和需求预测,动态调整产品价格;3) 补货Agent:使用DRL算法,根据库存水平和需求预测,决定补货数量;4) 双时间尺度更新机制:定价Agent以较快的频率更新,而补货Agent以较慢的频率更新。

关键创新:论文的关键创新在于提出了双Agent快-慢更新的DRL算法,能够有效地处理动态定价和补货决策频率不一致的问题。与传统的单Agent方法相比,双Agent方法能够更好地解耦定价和补货策略,从而提高整体利润。此外,结合决策树模型进行需求预测也提高了算法的鲁棒性。

关键设计:论文中,定价Agent和补货Agent均采用深度Q网络(DQN)结构。状态空间包括当前库存水平、产品价格、需求预测等信息。动作空间包括价格调整幅度(定价Agent)和补货数量(补货Agent)。奖励函数定义为单周期利润。为了实现快-慢更新,定价Agent的更新频率高于补货Agent。具体参数设置(如学习率、折扣因子、探索率等)需要根据具体问题进行调整。

📊 实验亮点

实验结果表明,所提出的双Agent DRL算法在单产品和多产品场景下均优于传统的单Agent DRL算法和基线策略。具体而言,在某些场景下,该算法能够将利润提高10%-20%。此外,实验还验证了双时间尺度更新机制的有效性,表明快-慢更新能够更好地适应定价和补货决策频率的差异。

🎯 应用场景

该研究成果可应用于零售、电商等领域,帮助企业实现动态定价和库存优化,提高利润。尤其适用于需求波动大、定价和补货决策频率不同的场景,例如生鲜电商、季节性商品销售等。未来可进一步扩展到多渠道销售、供应链优化等更复杂的场景。

📄 摘要(原文)

We study the dynamic pricing and replenishment problems under inconsistent decision frequencies. Different from the traditional demand assumption, the discreteness of demand and the parameter within the Poisson distribution as a function of price introduce complexity into analyzing the problem property. We demonstrate the concavity of the single-period profit function with respect to product price and inventory within their respective domains. The demand model is enhanced by integrating a decision tree-based machine learning approach, trained on comprehensive market data. Employing a two-timescale stochastic approximation scheme, we address the discrepancies in decision frequencies between pricing and replenishment, ensuring convergence to local optimum. We further refine our methodology by incorporating deep reinforcement learning (DRL) techniques and propose a fast-slow dual-agent DRL algorithm. In this approach, two agents handle pricing and inventory and are updated on different scales. Numerical results from both single and multiple products scenarios validate the effectiveness of our methods.