Soft Deterministic Policy Gradient with Gaussian Smoothing

📄 arXiv: 2605.06228v1 📥 PDF

作者: Hyunjun Na, Donghwan Lee

分类: cs.LG, cs.AI

发布日期: 2026-05-07

备注: 25 pages, 4 figures


💡 一句话要点

提出基于高斯平滑的软确定性策略梯度(Soft-DPG),解决稀疏奖励下的策略梯度不稳定问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 确定性策略梯度 高斯平滑 连续控制 稀疏奖励 深度强化学习 DDPG

📋 核心要点

  1. 传统确定性策略梯度方法依赖评论家网络对动作的可微性,在稀疏或离散奖励场景下失效。
  2. 论文提出基于高斯平滑的贝尔曼方程,导出软确定性策略梯度(Soft-DPG),无需显式依赖评论家动作梯度。
  3. 实验表明,Soft-DDPG在标准连续控制任务中保持竞争力,并在离散奖励环境中显著优于标准DDPG。

📝 摘要(中文)

确定性策略梯度(DPG)广泛应用于连续控制,但它本质上依赖于评论家(critic)对动作的可微性,这在涉及稀疏或离散奖励的实际控制问题中经常不成立,导致策略梯度定义不明确和学习不稳定。为了解决这些挑战,我们提出了一种基于高斯平滑的平滑贝尔曼方程的替代方案。具体来说,我们基于平滑贝尔曼方程定义了一种新的动作价值函数,并推导出软确定性策略梯度(Soft-DPG)。我们的公式消除了对评论家动作梯度的显式依赖,并确保即使对于非平滑Q函数,梯度仍然定义良好。我们将此框架实例化为一个深度强化学习算法,我们称之为软深度确定性策略梯度(Soft DDPG)。在标准连续控制基准及其离散奖励变体上的经验评估表明,Soft DDPG在密集奖励设置中仍然具有竞争力,并在大多数离散奖励环境中提供了明显的优势,在这些环境中,标准DDPG对不规则的评论家函数更加敏感。

🔬 方法详解

问题定义:确定性策略梯度(DPG)在连续控制任务中被广泛应用,但其性能高度依赖于评论家网络(Critic)对动作的可微性。在实际应用中,尤其是在奖励稀疏或离散的环境下,评论家网络可能变得不平滑,导致策略梯度定义不明确,进而引起训练不稳定甚至崩溃。因此,如何在非光滑的评论家函数下,稳定地进行策略学习是一个关键问题。

核心思路:论文的核心思路是通过高斯平滑来平滑贝尔曼方程,从而得到一个平滑的动作价值函数。这种平滑操作使得策略梯度不再直接依赖于评论家网络的局部可微性,而是依赖于一个平滑后的近似。通过这种方式,即使评论家网络不平滑,策略梯度仍然可以得到较好的定义,从而保证训练的稳定性。

技术框架:Soft DDPG算法的整体框架与标准DDPG类似,仍然采用Actor-Critic架构。主要包含以下几个模块:Actor网络(策略网络)、Critic网络(价值网络)、目标Actor网络、目标Critic网络以及经验回放缓冲区。不同之处在于,Soft DDPG使用基于高斯平滑的贝尔曼方程来更新Critic网络,并使用相应的策略梯度来更新Actor网络。

关键创新:该论文最关键的创新在于提出了基于高斯平滑的软确定性策略梯度(Soft-DPG)。与传统DPG方法相比,Soft-DPG不再显式依赖评论家网络的动作梯度,而是通过高斯平滑来获得一个更稳定的梯度估计。这种方法使得算法在非光滑的评论家函数下也能保持较好的性能,从而提高了算法的鲁棒性。

关键设计:Soft-DPG的关键设计在于高斯平滑操作。具体来说,论文定义了一个平滑后的动作价值函数,该函数通过对原始动作价值函数进行高斯卷积得到。高斯核的方差是一个重要的超参数,它控制了平滑的程度。此外,损失函数的设计也需要考虑到高斯平滑的影响,以保证Critic网络能够准确地估计平滑后的动作价值函数。Actor网络的更新则基于Soft-DPG,即平滑后的策略梯度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Soft-DDPG在标准连续控制任务中与DDPG具有相当的性能。更重要的是,在离散奖励环境中,Soft-DDPG显著优于DDPG。例如,在某些离散奖励的控制任务中,Soft-DDPG能够达到DDPG两倍以上的平均奖励。这表明Soft-DPG在高噪声或非光滑奖励函数下的鲁棒性更强。

🎯 应用场景

Soft-DPG算法在机器人控制、游戏AI、自动驾驶等领域具有广泛的应用前景。特别是在奖励函数设计困难或奖励信号稀疏的场景下,Soft-DPG能够提供更稳定的学习过程,从而提高控制策略的性能。此外,该方法还可以应用于离散动作空间的强化学习问题,通过将离散动作空间嵌入到连续空间中,并使用高斯平滑来处理动作选择。

📄 摘要(原文)

Deterministic policy gradient (DPG) is widely utilized for continuous control; however, it inherently relies on the differentiability of the critic with respect to the action during policy updates. This assumption is violated in practical control problems involving sparse or discrete rewards, leading to ill-defined policy gradients and unstable learning. To address these challenges, we propose a principled alternative based on a smoothed Bellman equation formulated via Gaussian smoothing. Specifically, we define a novel action-value function based on a smoothed Bellman equation and derive the soft deterministic policy gradient (Soft-DPG). Our formulation eliminates explicit dependence on critic action-gradients and ensures that the gradient remains well-defined even for non-smooth Q-functions. We instantiate this framework into a deep reinforcement learning algorithm, which we call soft deep deterministic policy gradient (Soft DDPG). Empirical evaluations on standard continuous control benchmarks and their discretized-reward variants show that Soft DDPG remains competitive in dense-reward settings and provides clear gains in most discretized-reward environments, where standard DDPG is more sensitive to irregular critic landscapes.