DVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward Reinforcement Learning

📄 arXiv: 2605.25604v1 📥 PDF

作者: Guochao Jiang, Jingyi Song, Guofeng Quan, Chuzhan Hao, Guohua Liu, Yuewei Zhang

分类: cs.CL, cs.LG

发布日期: 2026-05-25


💡 一句话要点

DVAO:动态方差自适应优势优化,提升多奖励强化学习的稳定性和性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多奖励强化学习 优势函数 方差自适应 策略优化 大型语言模型 帕累托前沿 Qwen 工具使用

📋 核心要点

  1. 现有奖励组合方法易产生过大的优势函数值,导致训练不稳定;优势组合则依赖静态超参数,忽略目标间相关性。
  2. DVAO根据各目标奖励方差动态调整组合权重,提升强学习信号目标权重,抑制噪声目标,实现更稳定的训练。
  3. 实验表明,DVAO在数学推理和工具使用任务上,显著优于基线方法,实现了更好的多目标帕累托前沿。

📝 摘要(中文)

强化学习已成为使大型语言模型与人类意图和任务要求对齐的标准范例。尽管Group Relative Policy Optimization (GRPO) 为近端策略优化 (PPO) 提供了一种高效且无需价值模型的替代方案,但将其应用于实际的多奖励环境仍然具有挑战性。标准的标量化方法,如奖励组合和优势组合,存在显著缺陷:奖励组合经常生成具有过大平方幅度的优势函数,导致训练不稳定;而优势组合依赖于静态超参数,忽略了目标间的相关性。为了解决这些限制,我们提出了动态方差自适应优势优化 (DVAO),它根据rollout组内每个目标的经验奖励方差动态调整组合权重,有效地提升具有更强学习信号的目标的权重,同时抑制噪声目标。我们从数学上证明了DVAO保持有界的优势幅度以实现稳定的训练,并引入了一种自适应的跨目标正则化机制。使用Qwen3和Qwen2.5模型在数学推理和工具使用基准上的大量实验表明,DVAO显著优于基线方法,实现了卓越的多目标帕累托前沿和稳健的训练稳定性。

🔬 方法详解

问题定义:论文旨在解决多奖励强化学习中,现有奖励组合和优势组合方法在训练大型语言模型时遇到的问题。奖励组合容易产生过大的优势函数值,导致训练不稳定;优势组合则依赖静态超参数,无法有效利用目标之间的相关性。这些问题限制了多奖励强化学习在实际应用中的效果。

核心思路:论文的核心思路是动态地调整不同奖励目标的权重,使其与该目标的学习信号强度相匹配。具体来说,通过计算每个奖励目标的经验方差,并根据方差大小动态调整其在优势函数组合中的权重。方差越大,表明该目标的学习信号越强,权重也相应增加。

技术框架:DVAO方法主要包含以下几个阶段:1) 数据收集:使用当前策略进行rollout,收集训练数据。2) 奖励方差计算:计算每个奖励目标在rollout组内的经验方差。3) 权重调整:根据奖励方差动态调整每个奖励目标在优势函数组合中的权重。4) 优势函数计算:使用调整后的权重组合各个奖励目标的优势函数。5) 策略更新:使用计算得到的优势函数更新策略。

关键创新:DVAO的关键创新在于动态方差自适应的权重调整机制。与传统的静态权重或基于人工设计的权重调整方法不同,DVAO能够根据实际的学习信号强度自动调整权重,从而更有效地利用多奖励信息。此外,DVAO还引入了一种自适应的跨目标正则化机制,进一步提升了训练的稳定性。

关键设计:DVAO的关键设计包括:1) 奖励方差的计算方法:采用经验方差作为学习信号强度的度量。2) 权重调整函数:设计合适的函数将奖励方差映射到权重,例如使用softmax函数。3) 优势函数组合方式:使用加权平均的方式组合各个奖励目标的优势函数。4) 正则化项:引入跨目标正则化项,防止某些目标权重过大。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DVAO在数学推理和工具使用任务上显著优于基线方法。例如,在使用Qwen3和Qwen2.5模型进行实验时,DVAO能够实现更高的多目标奖励,并显著提升训练的稳定性。与传统的奖励组合和优势组合方法相比,DVAO能够获得更好的帕累托前沿。

🎯 应用场景

DVAO方法可广泛应用于需要多目标优化的强化学习任务中,例如大型语言模型的对齐、机器人控制、游戏AI等。该方法能够提升训练的稳定性和效率,并获得更好的多目标帕累托前沿,从而实现更符合人类意图和任务要求的智能体。

📄 摘要(原文)

Reinforcement Learning has become a standard paradigm for aligning Large Language Models with human intent and task requirements. While Group Relative Policy Optimization offers an efficient, value-model-free alternative to Proximal Policy Optimization, adapting it to real-world multi-reward settings remains challenging. Standard scalarization practices, such as Reward Combination and Advantage Combination, suffer from significant drawbacks: Reward Combination frequently generates advantages with excessively large squared magnitudes that lead to training instability, while Advantage Combination relies on static hyperparameters and ignores cross-objective correlations. To address these limitations, we propose Dynamic Variance-adaptive Advantage Optimization (DVAO), which dynamically adjusts combination weights based on the empirical reward variance of each objective within a rollout group, effectively up-weighting objectives with a stronger learning signal while suppressing noisy ones. We mathematically prove that DVAO maintains bounded advantage magnitudes for stable training and introduces a self-adaptive cross-objective regularization mechanism. Extensive experiments on mathematical reasoning and tool-use benchmarks using Qwen3 and Qwen2.5 models demonstrate that DVAO significantly outperforms baseline methods, achieving a superior multi-objective Pareto frontier and robust training stability.