AdaGamma: State-Dependent Discounting for Temporal Adaptation in Reinforcement Learning

作者: Yaomin Wang, Jianting Pan, Ran Tian, Xiaoyang Li, Yu Zhang, Hengle Qin, Tianshu YU

分类: cs.LG, cs.AI

发布日期: 2026-05-07

备注: 22 pages, 9 figures

💡 一句话要点

AdaGamma：提出状态依赖折扣的强化学习方法，提升时序自适应性

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 强化学习 状态依赖折扣 Actor-Critic 回报一致性 时序自适应 深度强化学习 连续控制 京东物流

📋 核心要点

现有深度强化学习方法通常使用固定的折扣因子，忽略了状态的差异性，限制了算法的自适应能力。
AdaGamma通过学习状态依赖的折扣函数，并引入回报一致性目标，来规范备份结构，避免TD误差崩溃。
实验表明，AdaGamma在连续控制任务和实际物流场景中均取得了显著提升，验证了其有效性。

📝 摘要（中文）

强化学习中的折扣因子控制着有效规划范围和自举强度，但大多数深度强化学习方法在所有状态下都使用单一固定值。虽然状态依赖折扣在概念上很有吸引力，但朴素的深度Actor-Critic实现可能会变得不稳定并退化为TD误差崩溃。我们提出了AdaGamma，一种实用的深度Actor-Critic方法，用于状态依赖折扣，该方法学习状态依赖折扣函数，并结合回报一致性目标来规范诱导备份结构。在理论方面，我们分析了状态依赖折扣诱导的贝尔曼算子，并在适当条件下建立了其基本适定性。在实验方面，AdaGamma集成了SAC和PPO，在连续控制基准测试中产生了持续的改进，并在京东物流平台上的在线A/B测试中实现了具有统计意义的收益。这些结果表明，当与防止退化目标操纵的回报一致性目标相结合时，状态依赖折扣可以在深度强化学习中有效。

🔬 方法详解

问题定义：现有深度强化学习算法通常采用固定的折扣因子，无法根据不同状态的特性进行调整。这种固定折扣因子限制了算法在复杂环境中的表现，尤其是在需要不同时间范围规划的状态之间切换时。朴素地将状态依赖折扣引入Actor-Critic算法容易导致训练不稳定和TD误差崩溃，使得算法难以收敛。

核心思路：AdaGamma的核心思路是学习一个状态依赖的折扣函数，使得算法能够根据当前状态动态调整规划范围和自举强度。为了解决状态依赖折扣带来的训练不稳定性问题，AdaGamma引入了一个回报一致性目标，用于规范学习到的折扣函数，防止其退化为无效的折扣策略。通过这种方式，AdaGamma能够在利用状态依赖折扣的优势的同时，保证算法的稳定性和收敛性。

技术框架：AdaGamma可以集成到现有的Actor-Critic算法中，例如SAC和PPO。其整体框架包括以下几个主要模块：1) Actor网络，用于学习策略；2) Critic网络，用于评估状态价值；3) 折扣函数网络，用于学习状态依赖的折扣因子；4) 回报一致性模块，用于计算回报一致性损失。训练过程中，Actor和Critic网络通过标准的强化学习目标进行更新，折扣函数网络通过回报一致性目标进行规范，从而实现状态依赖折扣的学习。

关键创新：AdaGamma的关键创新在于将状态依赖折扣与回报一致性目标相结合。状态依赖折扣允许算法根据状态动态调整规划范围，而回报一致性目标则保证了学习到的折扣函数的合理性，防止了TD误差崩溃。这种结合使得AdaGamma能够在复杂环境中实现更有效的学习。

关键设计：AdaGamma的关键设计包括：1) 折扣函数网络的设计，通常采用一个小型神经网络，输入为状态，输出为折扣因子；2) 回报一致性损失的计算，通过比较不同折扣因子下的回报差异，来约束折扣函数的学习；3) 折扣函数的输出范围限制，通常将折扣因子限制在[0, 1]之间，以保证算法的稳定性。

🖼️ 关键图片

📊 实验亮点

AdaGamma在多个连续控制基准测试中取得了显著的性能提升，集成了SAC和PPO后均表现出一致的改进。此外，在京东物流平台的在线A/B测试中，AdaGamma实现了具有统计意义的收益，证明了其在实际应用中的有效性。具体性能数据未知，但结果表明AdaGamma能够有效提升强化学习算法的性能和鲁棒性。

🎯 应用场景

AdaGamma具有广泛的应用前景，尤其是在需要动态规划范围的复杂环境中。例如，在机器人导航、游戏AI、资源管理等领域，可以利用AdaGamma根据环境状态调整规划策略，提高决策效率和性能。在实际应用中，如京东物流的智能仓储和配送系统，AdaGamma可以优化调度策略，降低成本，提高效率。

📄 摘要（原文）

The discount factor in reinforcement learning controls both the effective planning horizon and the strength of bootstrapping, yet most deep RL methods use a single fixed value across all states. While state-dependent discounting is conceptually appealing, naive deep actor--critic implementations can become unstable and degenerate toward TD-error collapse. We propose AdaGamma, a practical deep actor--critic method for state-dependent discounting that learns a state-dependent discount function together with a return-consistency objective to regularize the induced backup structure. On the theory side, we analyze the Bellman operator induced by state-dependent discounting and establish its basic well-posedness properties under suitable conditions. Empirically, AdaGamma integrates into both SAC and PPO, yielding consistent improvements on continuous-control benchmarks, and achieves statistically significant gains in an online A/B test on the JD Logistics platform. These results suggest that state-dependent discounting can be made effective in deep RL when coupled with a return-consistency objective that prevents degenerate target manipulation.

AdaGamma: State-Dependent Discounting for Temporal Adaptation in Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理