Multi-Objective and Mixed-Reward Reinforcement Learning via Reward-Decorrelated Policy Optimization

📄 arXiv: 2605.13641v1 📥 PDF

作者: Yang Bai, Kaiyuan Liu, Ziyuan Zhuang, Jiahong Zhou, Rongxiang Weng, Xin Chen, Jingang Wang, Xunliang Cai

分类: cs.LG, cs.CL

发布日期: 2026-05-13


💡 一句话要点

提出RDPO,通过解耦奖励优化多目标混合奖励强化学习,提升指令遵循和写作质量。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 多目标优化 混合奖励 奖励解耦 策略优化

📋 核心要点

  1. 现有强化学习方法在处理多任务和混合奖励环境时,由于奖励分布异构和维度相关性,难以构建稳定的优势函数。
  2. RDPO通过幅度感知分位数归一化稳定奖励分配,并利用马氏白化降低奖励子空间内的相关性,从而解耦奖励。
  3. 实验表明,RDPO在LongCat-Flash后训练中,显著提升了指令遵循、写作质量以及对困难提示的鲁棒性。

📝 摘要(中文)

复杂强化学习环境通常采用多任务和混合奖励机制。在这种环境中,异构的奖励分布和相关的奖励维度常常会破坏标量优势函数的构建。为了解决这些挑战,我们提出了奖励解耦策略优化(RDPO),这是一种旨在明确解决这两种失效模式的奖励处理方法。RDPO首先利用幅度感知分位数归一化来稳定二元、分数和连续奖励之间的提示级别优势分配。然后,它在每个活跃的奖励子空间内应用马氏白化,以减轻聚合之前的相关性冗余。当应用于LongCat-Flash的后训练时,RDPO增强了指令遵循、写作质量和对困难提示的鲁棒性,同时在推理和编码评估方面保持了广泛的竞争力。

🔬 方法详解

问题定义:论文旨在解决多目标和混合奖励强化学习环境中,由于奖励分布的异构性(例如二元、分数和连续奖励混合)以及奖励维度之间的相关性,导致优势函数估计不稳定,进而影响策略学习的问题。现有方法难以有效处理这些问题,导致训练不稳定,性能下降。

核心思路:RDPO的核心思路是通过解耦奖励来稳定优势函数的估计。具体来说,首先通过幅度感知分位数归一化来处理不同类型的奖励,使其具有可比性。然后,在每个活跃的奖励子空间内,使用马氏白化来降低奖励维度之间的相关性。通过这两个步骤,可以有效地解耦奖励,从而提高优势函数估计的准确性和稳定性。

技术框架:RDPO主要包含两个阶段:幅度感知分位数归一化和马氏白化。首先,对每个奖励维度进行幅度感知分位数归一化,将不同类型的奖励映射到相似的尺度上。然后,对于每个活跃的奖励子空间,计算奖励的协方差矩阵,并使用马氏白化将其转换为单位协方差矩阵。最后,将解耦后的奖励用于优势函数的计算和策略优化。

关键创新:RDPO的关键创新在于同时考虑了奖励分布的异构性和奖励维度之间的相关性,并提出了相应的解决方案。幅度感知分位数归一化能够有效地处理不同类型的奖励,而马氏白化能够降低奖励维度之间的相关性。这两种方法结合使用,可以有效地解耦奖励,从而提高策略学习的稳定性和性能。

关键设计:幅度感知分位数归一化使用分位数函数来映射奖励值,并根据奖励的幅度调整分位数的范围。马氏白化使用奖励的协方差矩阵来转换奖励向量,使其具有单位协方差矩阵。论文中没有明确提及具体的损失函数和网络结构,但RDPO可以作为一种奖励处理方法,应用于各种强化学习算法中。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RDPO在LongCat-Flash的后训练中表现出色,显著提升了指令遵循、写作质量和对困难提示的鲁棒性。实验结果表明,RDPO在这些方面优于基线方法,同时在推理和编码评估方面保持了竞争力。这些结果表明RDPO是一种有效的奖励处理方法,可以提高强化学习算法在复杂任务中的性能。

🎯 应用场景

RDPO适用于需要处理多目标和混合奖励的复杂强化学习环境,例如机器人控制、自然语言处理和游戏AI等领域。它可以提高智能体在复杂任务中的学习效率和性能,尤其是在奖励信号稀疏或噪声较大的情况下。该方法可以应用于各种实际场景,例如自动驾驶、智能客服和游戏开发等。

📄 摘要(原文)

Complex reinforcement learning environments frequently employ multi-task and mixed-reward formulations. In these settings, heterogeneous reward distributions and correlated reward dimensions often destabilize the construction of scalar advantages. To address these challenges, we propose Reward-Decorrelated Policy Optimization (RDPO), a reward-processing method designed to explicitly target both failure modes. RDPO first utilizes Magnitude-Aware Quantile normalization to stabilize prompt-level advantage allocation across binary, fractional, and continuous rewards. It then applies Mahalanobis whitening within each active reward subspace to mitigate correlation redundancy prior to aggregation. When applied during the post-training of LongCat-Flash, RDPO enhances instruction following, writing quality, and robustness to hard prompts while remaining broadly competitive on reasoning and coding evaluations.