Behavior-Consistent Deep Reinforcement Learning

📄 arXiv: 2605.21214v1 📥 PDF

作者: Marcel Hussing, Liv G. d'Aliberti, Claas Voelcker, Benjamin Eysenbach, Eric Eaton

分类: cs.LG, cs.AI

发布日期: 2026-05-20


💡 一句话要点

提出QED算法,通过控制策略分布一致性提升强化学习的可靠性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 行为一致性 最大熵 策略优化 Q值不一致性

📋 核心要点

  1. 强化学习训练结果方差大,导致策略不稳定,难以在实际场景中可靠应用。
  2. 论文提出QED算法,通过最大熵强化学习将策略锚定到统一先验,控制策略分布的一致性。
  3. 实验表明,QED在多个连续控制任务中显著降低了策略差异,同时保持了性能水平。

📝 摘要(中文)

强化学习训练过程通常表现出高方差,导致性能不稳定,对实际部署构成重大挑战。本文通过形式化行为一致性强化学习问题,旨在获得高性能且在不同训练过程中策略分布相似的策略,从而解决跨训练过程策略差异问题。核心观察是最大熵强化学习提供了一种通过将训练过程锚定到共同(均匀)先验来控制行为差异的直接机制。论文证明,对于Boltzmann策略,选择与Q函数不一致性成比例的温度可以限制诱导策略之间的成对KL散度。然而,论文也表明,简单地增加熵可能会损害策略优化,同时放大离策略误差。基于这些观察,论文提出了Q值期望不一致性(QED),这是一种状态相关的温度调度方法,它使用双重评论家不一致性作为跨训练过程不一致性的单次运行代理。实验结果表明,在18个连续控制任务中,QED在不牺牲性能的情况下,将跨训练过程的差异降低了两个数量级,从而显著降低了回报方差,同时仅付出了适度的样本效率代价。

🔬 方法详解

问题定义:强化学习算法在不同训练轮次中表现出较大的方差,导致最终策略性能不稳定,难以复现。现有方法难以保证策略在不同训练过程中的行为一致性,限制了强化学习在实际场景中的应用。因此,需要一种方法能够降低不同训练轮次之间的策略差异,提高算法的鲁棒性和可靠性。

核心思路:论文的核心思路是利用最大熵强化学习的特性,通过控制策略的熵来约束策略的行为空间,从而降低不同训练轮次之间的策略差异。具体来说,论文观察到最大熵强化学习可以将策略锚定到一个共同的先验分布(通常是均匀分布),从而限制策略的行为空间,降低策略差异。

技术框架:QED算法基于最大熵强化学习框架,使用双重评论家网络估计Q值,并利用Q值的不一致性来动态调整熵正则化系数。整体流程如下:1. 使用双重评论家网络估计Q值;2. 计算Q值的不一致性;3. 根据Q值不一致性动态调整熵正则化系数(温度);4. 使用调整后的熵正则化系数训练策略。

关键创新:QED算法的关键创新在于提出了一种基于Q值期望不一致性的状态相关的温度调度方法。与传统的固定熵正则化系数不同,QED算法根据当前状态下Q值的不一致性动态调整熵正则化系数,从而更好地平衡探索和利用,降低策略差异。此外,QED算法使用单次运行的Q值不一致性作为跨运行策略差异的代理,避免了直接计算跨运行策略差异的复杂性。

关键设计:QED算法的关键设计包括:1. 使用双重评论家网络估计Q值,降低Q值估计的偏差;2. 使用Q值期望不一致性作为状态相关的温度调度信号,平衡探索和利用;3. 使用Boltzmann策略,便于理论分析和实际应用。具体而言,温度参数与Q值期望不一致性成正比,确保在Q值估计不确定性较高时增加探索,而在Q值估计较为确定时减少探索。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,QED算法在18个连续控制任务中,将跨训练过程的策略差异降低了两个数量级,同时保持了与基线算法相当的性能。具体来说,QED算法显著降低了回报方差,提高了算法的鲁棒性,并且仅付出了适度的样本效率代价。这些结果表明,QED算法是一种有效的降低强化学习策略差异的方法。

🎯 应用场景

该研究成果可应用于机器人控制、自动驾驶、游戏AI等领域,提高强化学习算法的稳定性和可靠性。通过降低不同训练轮次之间的策略差异,可以更容易地将强化学习算法部署到实际场景中,并减少人工干预的需求。此外,该方法还可以用于提高多智能体系统的协作效率,降低智能体之间的行为差异。

📄 摘要(原文)

Reinforcement learning (RL) often exhibits high variance across training runs, leading to unreliable performance and posing a major challenge to deployment in real-world domains. In this work, we address the challenge of cross-run policy divergence by formalizing the problem of behavior-consistent RL, where the objective is to obtain policies that are both high-performing and distributionally similar across training runs. Our key observation is that maximum-entropy RL provides a direct mechanism for controlling behavioral divergence by anchoring runs to a common (uniform) prior. We prove that, for Boltzmann policies, choosing the temperature proportional to $Q$-function disagreement bounds the pairwise KL divergence between the induced policies. However, we also show that naïvely increasing entropy might impair policy optimization while amplifying off-policy error. Building upon these observations, we propose $Q$-value Expectile Disagreement (QED), a state-dependent temperature schedule that uses double-critic disagreement as a single-run proxy for cross-run disagreement. Empirically, we demonstrate that across 18 continuous-control tasks, QED reduces across-run divergence by two orders of magnitude without sacrificing performance, resulting in a considerable reduction in return variance at modest sample-efficiency costs.