When Does Non-Uniform Replay Matter in Reinforcement Learning?

📄 arXiv: 2605.10236v1 📥 PDF

作者: Michal Korniak, Mikołaj Czarnecki, Yarden As, Piotr Miłoś, Pieter Abbeel, Michal Nauman

分类: cs.LG, cs.AI

发布日期: 2026-05-11


💡 一句话要点

揭示非均匀经验回放的生效机制,提出截断几何采样策略以提升离线强化学习效率

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 经验回放 样本效率 离线学习 采样策略 机器人控制

📋 核心要点

  1. 现有离线RL算法多采用均匀采样,缺乏对非均匀回放机制的系统性理解,导致在不同资源约束下难以选择最优策略。
  2. 论文通过量化回放容量、期望近因性和采样熵,揭示了非均匀回放的生效边界,并设计了截断几何采样策略。
  3. 实验表明,该方法在低回放容量下显著提升了样本效率,且在多任务与大规模并行仿真中展现了良好的通用性与鲁棒性。

📝 摘要(中文)

现代离线强化学习算法多依赖简单的均匀经验回放,但非均匀采样在何时及为何优于基线尚不明确。本文研究发现,非均匀回放的有效性受三个因素制约:回放容量(每环境步的回放次数)、期望近因性(采样样本的平均新旧程度)以及采样分布的熵。研究指出,非均匀回放主要在低回放容量下表现优异,且高熵采样对于保持性能至关重要。基于此,作者提出了一种简单的“截断几何回放”(Truncated Geometric Replay)策略,在偏向近期经验的同时保持高熵,且计算开销极低。在包含大规模并行仿真、单任务及多任务的五大基准测试中,该策略显著提升了低容量环境下的样本效率,并在高容量环境下保持了竞争力。

🔬 方法详解

问题定义:论文旨在解决离线强化学习中经验回放(Replay Buffer)采样策略的选择问题。现有算法普遍采用均匀采样,但在计算资源受限或特定任务分布下,这种简单策略往往无法充分利用经验数据,导致样本效率低下。

核心思路:研究通过实证分析发现,非均匀采样的有效性取决于回放容量、期望近因性和采样熵。核心洞察在于:在低回放容量下,通过偏向近期经验(Recency Bias)可以加速收敛,但必须通过高熵采样来防止过早收敛至局部最优。

技术框架:该方法不改变强化学习算法的主体架构,而是作为经验回放模块的采样器。它通过引入一个可调参数的截断几何分布,对回放池中的样本进行加权采样,从而在保持计算开销极低的前提下,动态调整对近期经验的关注度。

关键创新:最重要的创新在于量化了“采样熵”在非均匀回放中的作用。与传统的优先级回放(PER)相比,该方法不需要计算复杂的TD误差,通过简单的几何分布截断即可实现对近期经验的偏好,同时避免了因过度聚焦近期数据而导致的分布坍缩。

关键设计:采用了截断几何分布(Truncated Geometric Distribution)作为采样权重函数。该设计允许通过调整截断参数,在“完全均匀采样”与“强近因偏好采样”之间平滑过渡,确保在不同回放容量下均能维持足够高的采样多样性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验覆盖了五大基准测试套件及三种现代RL算法。结果显示,在低回放容量(如每步回放次数较少)的场景下,截断几何回放策略相比均匀采样实现了显著的样本效率提升。在多任务与大规模并行仿真中,该方法不仅在低资源环境下表现优于基线,在高资源环境下亦能保持与均匀采样相当的性能,证明了其广泛的适用性。

🎯 应用场景

该研究适用于各类资源受限的离线强化学习场景,如机器人控制、大规模分布式仿真训练及多任务强化学习。其低计算开销的特性使其特别适合嵌入到需要高频更新的实时控制系统中,为提升复杂环境下的样本利用率提供了通用且高效的工程指导。

📄 摘要(原文)

Modern off-policy reinforcement learning algorithms often rely on simple uniform replay sampling and it remains unclear when and why non-uniform replay improves over this strong baseline. Across diverse RL settings, we show that the effectiveness of non-uniform replay is governed by three factors: replay volume, the number of replayed transitions per environment step; expected recency, how recent sampled transitions are; and the entropy of the replay sampling distribution. Our main contribution is clarifying when non-uniform replay is beneficial and providing practical guidance for replay design in modern off-policy RL. Namely, we find that non-uniform replay is most beneficial when replay volume is low, and that high-entropy sampling is important even at comparable expected recency. Motivated by these findings, we adopt a simple Truncated Geometric replay that biases sampling toward recent experience while preserving high entropy and incurring negligible computational overhead. Across large-scale parallel simulation, single-task, and multi-task settings, including three modern algorithms evaluated on five RL benchmark suites, this replay sampling strategy improves sample efficiency in low-volume regimes while remaining competitive when replay volume is high.