AdaGamma: State-Dependent Discounting for Temporal Adaptation in Reinforcement Learning

📄 arXiv: 2605.06149v1 📥 PDF

作者: Yaomin Wang, Jianting Pan, Ran Tian, Xiaoyang Li, Yu Zhang, Hengle Qin, Tianshu YU

分类: cs.LG, cs.AI

发布日期: 2026-05-07

备注: 22 pages, 9 figures


💡 一句话要点

AdaGamma:提出状态依赖折扣的强化学习方法,提升时序自适应性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 状态依赖折扣 Actor-Critic 回报一致性 时序自适应 深度强化学习 连续控制 京东物流

📋 核心要点

  1. 现有深度强化学习方法通常使用固定的折扣因子,忽略了状态的差异性,限制了算法的自适应能力。
  2. AdaGamma通过学习状态依赖的折扣函数,并引入回报一致性目标,来规范备份结构,避免TD误差崩溃。
  3. 实验表明,AdaGamma在连续控制任务和实际物流场景中均取得了显著提升,验证了其有效性。

📝 摘要(中文)

强化学习中的折扣因子控制着有效规划范围和自举强度,但大多数深度强化学习方法在所有状态下都使用单一固定值。虽然状态依赖折扣在概念上很有吸引力,但朴素的深度Actor-Critic实现可能会变得不稳定并退化为TD误差崩溃。我们提出了AdaGamma,一种实用的深度Actor-Critic方法,用于状态依赖折扣,该方法学习状态依赖折扣函数,并结合回报一致性目标来规范诱导备份结构。在理论方面,我们分析了状态依赖折扣诱导的贝尔曼算子,并在适当条件下建立了其基本适定性。在实验方面,AdaGamma集成了SAC和PPO,在连续控制基准测试中产生了持续的改进,并在京东物流平台上的在线A/B测试中实现了具有统计意义的收益。这些结果表明,当与防止退化目标操纵的回报一致性目标相结合时,状态依赖折扣可以在深度强化学习中有效。

🔬 方法详解

问题定义:现有深度强化学习算法通常采用固定的折扣因子,无法根据不同状态的特性进行调整。这种固定折扣因子限制了算法在复杂环境中的表现,尤其是在需要不同时间范围规划的状态之间切换时。朴素地将状态依赖折扣引入Actor-Critic算法容易导致训练不稳定和TD误差崩溃,使得算法难以收敛。

核心思路:AdaGamma的核心思路是学习一个状态依赖的折扣函数,使得算法能够根据当前状态动态调整规划范围和自举强度。为了解决状态依赖折扣带来的训练不稳定性问题,AdaGamma引入了一个回报一致性目标,用于规范学习到的折扣函数,防止其退化为无效的折扣策略。通过这种方式,AdaGamma能够在利用状态依赖折扣的优势的同时,保证算法的稳定性和收敛性。

技术框架:AdaGamma可以集成到现有的Actor-Critic算法中,例如SAC和PPO。其整体框架包括以下几个主要模块:1) Actor网络,用于学习策略;2) Critic网络,用于评估状态价值;3) 折扣函数网络,用于学习状态依赖的折扣因子;4) 回报一致性模块,用于计算回报一致性损失。训练过程中,Actor和Critic网络通过标准的强化学习目标进行更新,折扣函数网络通过回报一致性目标进行规范,从而实现状态依赖折扣的学习。

关键创新:AdaGamma的关键创新在于将状态依赖折扣与回报一致性目标相结合。状态依赖折扣允许算法根据状态动态调整规划范围,而回报一致性目标则保证了学习到的折扣函数的合理性,防止了TD误差崩溃。这种结合使得AdaGamma能够在复杂环境中实现更有效的学习。

关键设计:AdaGamma的关键设计包括:1) 折扣函数网络的设计,通常采用一个小型神经网络,输入为状态,输出为折扣因子;2) 回报一致性损失的计算,通过比较不同折扣因子下的回报差异,来约束折扣函数的学习;3) 折扣函数的输出范围限制,通常将折扣因子限制在[0, 1]之间,以保证算法的稳定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AdaGamma在多个连续控制基准测试中取得了显著的性能提升,集成了SAC和PPO后均表现出一致的改进。此外,在京东物流平台的在线A/B测试中,AdaGamma实现了具有统计意义的收益,证明了其在实际应用中的有效性。具体性能数据未知,但结果表明AdaGamma能够有效提升强化学习算法的性能和鲁棒性。

🎯 应用场景

AdaGamma具有广泛的应用前景,尤其是在需要动态规划范围的复杂环境中。例如,在机器人导航、游戏AI、资源管理等领域,可以利用AdaGamma根据环境状态调整规划策略,提高决策效率和性能。在实际应用中,如京东物流的智能仓储和配送系统,AdaGamma可以优化调度策略,降低成本,提高效率。

📄 摘要(原文)

The discount factor in reinforcement learning controls both the effective planning horizon and the strength of bootstrapping, yet most deep RL methods use a single fixed value across all states. While state-dependent discounting is conceptually appealing, naive deep actor--critic implementations can become unstable and degenerate toward TD-error collapse. We propose AdaGamma, a practical deep actor--critic method for state-dependent discounting that learns a state-dependent discount function together with a return-consistency objective to regularize the induced backup structure. On the theory side, we analyze the Bellman operator induced by state-dependent discounting and establish its basic well-posedness properties under suitable conditions. Empirically, AdaGamma integrates into both SAC and PPO, yielding consistent improvements on continuous-control benchmarks, and achieves statistically significant gains in an online A/B test on the JD Logistics platform. These results suggest that state-dependent discounting can be made effective in deep RL when coupled with a return-consistency objective that prevents degenerate target manipulation.