Using Reward Uncertainty to Induce Diverse Behaviour in Reinforcement Learning
作者: Anthony GX-Chen, Ankit Anand, Gheorghe Comanici, Zaheer Abbas, Eser Aygün, David Smalling, Shibl Mourad, Doina Precup, André Barreto, Mark Rowland
分类: cs.LG, cs.AI
发布日期: 2026-06-02
备注: Core contributors: Anthony GX-Chen, Ankit Anand, Gheorghe Comanici, André Barreto, Mark Rowland
💡 一句话要点
通过奖励不确定性引导多样化行为以解决强化学习问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 奖励不确定性 多样性行为 上下文赌博机 策略梯度 复杂任务 理论基础
📋 核心要点
- 现有的强化学习方法往往追求确定性策略,难以满足现代应用对多样性的需求。
- 论文提出通过奖励不确定性来引导多样化行为,重构强化学习目标,使用奖励函数的分布而非单一标量奖励。
- 实验结果表明,该框架在复杂任务中表现出色,能够有效引导多样化行为而不牺牲期望奖励。
📝 摘要(中文)
经典的强化学习(RL)通常寻求最大化标量奖励的确定性策略。然而,现代应用如语言模型微调或科学发现需要多样性。现有的解决方案如熵正则化或多样性奖励往往需要脆弱的权衡,牺牲性能以换取随机性,或依赖于可能导致策略排名不一致的启发式指标。我们认为,多样性更自然地被理解为对奖励不确定性的理性响应。当奖励函数不完全已知时,承诺于单一行动可能是次优的。基于此,我们提出了一种强化学习目标的基本重构,通过用奖励函数的分布替代标量奖励,并在行动集上应用非线性目标。结果是一个框架,其中经过校准的行为多样性自然出现,通过奖励函数分布可控,并且在不牺牲期望奖励的情况下获得。我们在上下文赌博机设置中推导出这一目标的原则性梯度估计,并证明我们的公式自然推广了传统的策略梯度和最近开发的行动集方法。我们的实证结果表明,该框架为复杂的强化学习任务提供了一种稳健且理论基础扎实的替代方案,传统问题的公式未能引导出所需的代理行为广度。
🔬 方法详解
问题定义:论文要解决的问题是传统强化学习方法在面对多样性需求时的局限性,现有方法往往需要在性能与随机性之间做出脆弱的权衡。
核心思路:论文的核心解决思路是将奖励函数视为一个分布,而非单一的标量值,从而使得多样性成为对奖励不确定性的自然响应。这样的设计允许在不牺牲期望奖励的情况下,控制行为的多样性。
技术框架:整体架构包括将奖励函数重构为分布,并在行动集上应用非线性目标。通过这种方式,论文推导出了一种新的梯度估计方法,适用于上下文赌博机设置。
关键创新:最重要的技术创新点在于将奖励函数的分布引入强化学习目标中,这与传统方法的本质区别在于不再依赖单一的标量奖励,而是通过分布来引导多样性。
关键设计:关键设计包括如何定义奖励函数的分布、损失函数的构建以及梯度估计的推导等技术细节,这些设计确保了框架的有效性和可控性。
🖼️ 关键图片
📊 实验亮点
实验结果显示,该框架在多个复杂任务中表现优异,相较于传统方法,能够显著提高代理行为的多样性,同时保持期望奖励的稳定性,具体性能提升幅度未提供。
🎯 应用场景
该研究的潜在应用领域包括语言模型的微调、科学发现以及其他需要多样性行为的强化学习任务。通过引入奖励不确定性,该框架能够在复杂环境中更好地适应多样化的需求,具有重要的实际价值和未来影响。
📄 摘要(原文)
Classical reinforcement learning (RL) typically seeks a deterministic policy that maximizes the expected sum of a scalar reward. Yet, modern applications such as language model fine-tuning or scientific discovery demand diversity. Existing remedies such as entropy regularization or diversity bonuses often require fragile trade-offs that sacrifice performance for stochasticity or rely on heuristic metrics that can misalign policy rankings. We argue that diversity is more naturally understood as the rational response to uncertainty in the reward. When the reward function is not perfectly known--as is the case with ambiguous preferences or imperfect reward models--committing to a single action can be sub-optimal. Building on this, we propose a fundamental reformulation of the RL objective by replacing the scalar reward with a distribution over reward functions, and applying a non-linear objective over sets of actions. The result is a framework in which calibrated behavioural diversity emerges naturally, remains controllable through the reward function distribution, and is obtained without sacrificing expected reward. Focusing on the contextual bandit setting, we derive a principled gradient estimator for this objective and prove that our formulation naturally generalizes both vanilla policy gradient and more recently developed action-set approaches. Our empirical results demonstrate that this framework offers a robust and theoretically grounded alternative for complex RL tasks where the traditional formulation of the problem fails to induce the desired breadth of agent behaviour.