Universal Value-Function Uncertainties

📄 arXiv: 2505.21119v2 📥 PDF

作者: Moritz A. Zanger, Max Weltevrede, Yaniv Oren, Pascal R. Van der Vaart, Caroline Horsch, Wendelin Böhmer, Matthijs T. J. Spaan

分类: cs.LG, cs.AI, stat.ML

发布日期: 2025-05-27 (更新: 2025-06-02)


💡 一句话要点

提出通用价值函数不确定性以解决强化学习中的不确定性问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 价值函数 不确定性估计 深度学习 多任务学习 时间差分学习 神经网络 计算效率

📋 核心要点

  1. 现有的深度集成方法在量化价值不确定性时计算开销较大,而单模型方法则依赖启发式,导致不确定性估计不准确。
  2. 本文提出的通用价值函数不确定性(UVU)通过在线学习者与固定目标网络的预测误差来量化不确定性,反映策略条件下的价值不确定性。
  3. 实验结果表明,UVU在多任务离线强化学习中与大型集成方法的性能相当,同时显著降低了计算复杂度。

📝 摘要(中文)

在强化学习中,估计价值函数的认知不确定性是一个关键挑战,涉及高效探索、安全决策和离线强化学习等多个方面。尽管深度集成方法能够有效量化价值不确定性,但其计算开销较大。单模型方法虽然计算上更为高效,但通常依赖启发式方法,并需要额外的传播机制来获得短期不确定性估计。本文提出了通用价值函数不确定性(UVU),通过在线学习者与固定随机初始化目标网络之间的平方预测误差来量化不确定性。与随机网络蒸馏(RND)不同,UVU误差反映了策略条件下的价值不确定性,考虑了特定策略可能遇到的未来不确定性。我们通过神经切线核(NTK)理论进行了广泛的理论分析,并展示了在网络宽度无限的极限下,UVU误差与独立通用价值函数集成的方差完全等价。实证结果表明,UVU在具有挑战性的多任务离线强化学习设置中表现与大型集成相当,同时提供了简单性和显著的计算节省。

🔬 方法详解

问题定义:本文旨在解决强化学习中价值函数的不确定性估计问题。现有方法如深度集成虽然有效,但计算开销大;单模型方法则常常依赖启发式,导致不准确的短期不确定性估计。

核心思路:论文提出的通用价值函数不确定性(UVU)通过在线学习者与固定随机初始化目标网络之间的平方预测误差来量化不确定性。这种设计使得UVU能够反映策略条件下的价值不确定性,考虑了未来可能遇到的各种不确定性。

技术框架:UVU的整体架构包括两个主要模块:在线网络和固定目标网络。在线网络通过时间差分学习进行训练,使用从固定目标网络派生的合成奖励。

关键创新:UVU的主要创新在于其不确定性量化方式,利用平方预测误差而非传统的启发式方法,且在理论上证明了其与独立通用价值函数集成方差的等价性。

关键设计:在UVU中,在线网络的训练采用时间差分学习,损失函数为平方预测误差,网络结构为深度神经网络,且目标网络为随机初始化的固定网络。

📊 实验亮点

实验结果显示,UVU在多任务离线强化学习设置中表现与大型深度集成方法相当,且在计算效率上显著提升,减少了计算资源的消耗,证明了其在实际应用中的有效性。

🎯 应用场景

该研究的潜在应用领域包括机器人控制、自动驾驶、游戏智能体等需要高效探索和安全决策的强化学习场景。通过提供更准确的价值不确定性估计,UVU能够在复杂环境中提升智能体的决策能力,具有重要的实际价值和未来影响。

📄 摘要(原文)

Estimating epistemic uncertainty in value functions is a crucial challenge for many aspects of reinforcement learning (RL), including efficient exploration, safe decision-making, and offline RL. While deep ensembles provide a robust method for quantifying value uncertainty, they come with significant computational overhead. Single-model methods, while computationally favorable, often rely on heuristics and typically require additional propagation mechanisms for myopic uncertainty estimates. In this work we introduce universal value-function uncertainties (UVU), which, similar in spirit to random network distillation (RND), quantify uncertainty as squared prediction errors between an online learner and a fixed, randomly initialized target network. Unlike RND, UVU errors reflect policy-conditional value uncertainty, incorporating the future uncertainties any given policy may encounter. This is due to the training procedure employed in UVU: the online network is trained using temporal difference learning with a synthetic reward derived from the fixed, randomly initialized target network. We provide an extensive theoretical analysis of our approach using neural tangent kernel (NTK) theory and show that in the limit of infinite network width, UVU errors are exactly equivalent to the variance of an ensemble of independent universal value functions. Empirically, we show that UVU achieves equal performance to large ensembles on challenging multi-task offline RL settings, while offering simplicity and substantial computational savings.