Distributional Value Estimation Without Target Networks for Robust Quality-Diversity

📄 arXiv: 2604.20381v1 📥 PDF

作者: Behrad Koohy, Jamie Bayne

分类: cs.LG, cs.NE, cs.RO

发布日期: 2026-04-22

备注: Accepted as Full Paper at GECCO'26


💡 一句话要点

QDHUAC:一种无目标网络的分布价值估计方法,用于提升质量多样性算法的鲁棒性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 质量多样性 强化学习 无目标网络 分布式价值估计 高UTD 进化算法 机器人控制

📋 核心要点

  1. 传统质量多样性算法样本效率低,需要大量环境交互,限制了其在复杂任务中的应用。
  2. QDHUAC算法通过无目标网络的分布式价值估计,提供更稳定和高效的梯度信号,支持高更新-数据比率训练。
  3. 实验表明,QDHUAC在Brax环境中,以更少的样本实现了与基线方法相当甚至更好的性能。

📝 摘要(中文)

质量多样性(QD)算法擅长发现多样化的技能库,但受限于样本效率低,通常需要数千万个环境步骤才能解决复杂的运动任务。强化学习(RL)的最新进展表明,高更新-数据(UTD)比率可以加速Actor-Critic学习。虽然有效,但标准的高UTD算法通常利用目标网络来稳定训练。这种需求引入了显著的计算瓶颈,使其不适用于资源密集型的质量多样性(QD)任务,在这些任务中,样本效率和快速种群适应至关重要。在本文中,我们介绍QDHUAC,一种样本高效、无目标网络且分布式的QD-RL算法,它提供密集且低方差的梯度信号,从而能够为支配新奇性搜索进行高UTD训练,同时需要的环境步骤减少一个数量级。我们证明了我们的方法能够在高UTD比率下实现稳定的训练,在具有高维Brax环境中实现具有竞争力的覆盖率和适应度,并且比基线方法使用的样本少一个数量级。我们的结果表明,将无目标网络的分布式评论家与基于支配的策略选择相结合,是下一代样本高效进化强化学习算法的关键推动因素。

🔬 方法详解

问题定义:质量多样性(QD)算法旨在发现尽可能多样且高质量的策略集合。然而,现有QD算法通常样本效率低下,需要大量的环境交互才能找到有效的策略。高更新-数据(UTD)比率的强化学习方法可以加速学习过程,但通常依赖于目标网络来稳定训练,这在计算资源有限的情况下成为瓶颈,尤其是在QD任务中,需要快速适应种群。

核心思路:QDHUAC的核心思路是消除对目标网络的依赖,同时保持训练的稳定性。通过使用分布式的价值估计,QDHUAC能够提供更密集和低方差的梯度信号,从而支持高UTD比率的训练。此外,结合基于支配的策略选择,能够更有效地探索策略空间,找到多样且高质量的策略。

技术框架:QDHUAC算法采用Actor-Critic框架,其中Critic网络使用分布式的价值估计方法,输出价值的分布而不是单一的价值估计。Actor网络根据Critic网络的反馈进行策略更新。算法使用高UTD比率进行训练,以提高样本效率。此外,算法结合了支配新奇性搜索(Dominated Novelty Search)策略,用于选择和保留种群中的优秀个体。

关键创新:QDHUAC的关键创新在于无目标网络的分布式价值估计。传统方法使用目标网络来稳定训练,但引入了计算瓶颈。QDHUAC通过直接估计价值分布,避免了目标网络的使用,同时提供了更丰富的梯度信息,从而实现了更稳定的高UTD训练。与现有方法相比,QDHUAC在样本效率和计算效率上都有显著提升。

关键设计:QDHUAC使用Categorical DQN的变体作为Critic网络,输出价值的概率分布。损失函数采用KL散度来衡量预测分布和目标分布之间的差异。Actor网络使用高斯策略,通过REINFORCE算法进行更新。UTD比率设置为一个较高的值(例如,10或更高),以提高样本效率。基于支配的策略选择方法用于选择种群中的优秀个体,并用于指导策略的探索。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

QDHUAC在Brax环境中的实验结果表明,其样本效率比基线方法提高了一个数量级。在相同的计算资源下,QDHUAC能够更快地找到多样且高质量的策略集合,实现了更高的覆盖率和适应度。具体而言,QDHUAC在多个Brax locomotion任务上都取得了显著的性能提升,证明了其在高维连续控制问题上的有效性。

🎯 应用场景

QDHUAC算法可应用于机器人控制、游戏AI、自动化设计等领域。其高样本效率和计算效率使其特别适用于资源受限的环境,例如在嵌入式系统或移动机器人上进行在线学习。该算法能够发现多样化的技能库,有助于机器人适应不同的环境和任务需求,提高其通用性和鲁棒性。未来,该算法有望推动进化强化学习在实际应用中的普及。

📄 摘要(原文)

Quality-Diversity (QD) algorithms excel at discovering diverse repertoires of skills, but are hindered by poor sample efficiency and often require tens of millions of environment steps to solve complex locomotion tasks. Recent advances in Reinforcement Learning (RL) have shown that high Update-to-Data (UTD) ratios accelerate Actor-Critic learning. While effective, standard high-UTD algorithms typically utilise target networks to stabilise training. This requirement introduces a significant computational bottleneck, rendering them impractical for resource-intensive Quality-Diversity (QD) tasks where sample efficiency and rapid population adaptation are critical. In this paper, we introduce QDHUAC, a sample-efficient, target-free and distributional QD-RL algorithm that provides dense and low-variance gradient signals, which enables high-UTD training for Dominated Novelty Search whilst requiring an order of magnitude fewer environment steps. We demonstrate that our method enables stable training at high UTD ratios, achieving competitive coverage and fitness on high-dimensional Brax environments with an order of magnitude fewer samples than baselines. Our results suggest that combining target-free distributional critics with dominance-based selection is a key enabler for the next generation of sample-efficient evolutionary RL algorithms.