DFPO: Scaling Value Modeling via Distributional Flow towards Robust and Generalizable LLM Post-Training
作者: Dingwei Zhu, Zhiheng Xi, Shihan Dou, Jiahan Li, Chenhao Huang, Junjie Ye, Sixian Li, Mingxu Chai, Yuhui Wang, Yajie Yang, Ming Zhang, Jiazheng Zhang, Shichun Liu, Caishuang Huang, Yunke Zhang, Yuran Wang, Tao Gui, Xipeng Qiu, Qi Zhang, Xuanjing Huang
分类: cs.LG, cs.CL
发布日期: 2026-02-05
💡 一句话要点
DFPO:通过分布流建模扩展价值函数,实现LLM后训练的鲁棒性和泛化性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 分布强化学习 价值函数建模 策略优化 LLM后训练 鲁棒性 泛化性 价值流 条件风险控制
📋 核心要点
- 现有分布强化学习方法在建模价值函数时,独立学习每个分位数,导致价值表示粗糙,缺乏对状态信息的细粒度依赖。
- DFPO将价值函数建模为跨时间步的连续流,通过学习价值流场捕获更丰富的状态信息,从而更准确地估计优势函数。
- DFPO集成了条件风险控制和一致性约束,以应对噪声反馈,实验表明其在对话、数学推理和科学任务上优于现有方法。
📝 摘要(中文)
在真实环境中训练强化学习(RL)系统仍然具有挑战性,尤其是在LLM后训练中,因为存在噪声监督和较差的域外(OOD)泛化能力。最近的分布强化学习方法通过使用多个分位数点建模价值函数来提高鲁棒性,但它们仍然将每个分位数独立地学习为标量。这导致粗粒度的价值表示,缺乏对状态信息的细粒度条件依赖,难以应对复杂和OOD条件。我们提出了DFPO(具有条件风险和一致性控制的分布价值流策略优化),这是一个鲁棒的分布强化学习框架,它将价值函数建模为跨时间步的连续流。通过学习价值流场而不是孤立的分位数预测来扩展价值函数建模,DFPO捕获更丰富的状态信息,从而实现更准确的优势估计。为了在噪声反馈下稳定训练,DFPO进一步集成了条件风险控制和沿价值流轨迹的一致性约束。在对话、数学推理和科学任务上的实验表明,在噪声监督下,DFPO优于PPO、FlowRL和其他鲁棒基线,实现了更高的训练稳定性和泛化性。
🔬 方法详解
问题定义:论文旨在解决LLM后训练中,由于真实环境的噪声监督和较差的域外泛化能力,导致强化学习系统训练困难的问题。现有的分布强化学习方法虽然通过多个分位数建模价值函数来提高鲁棒性,但独立学习每个分位数,导致价值表示粗糙,无法充分利用状态信息,难以应对复杂环境和域外泛化。
核心思路:论文的核心思路是将价值函数建模为跨时间步的连续流,通过学习价值流场来捕获更丰富的状态信息,从而更准确地估计优势函数。这种方法不再孤立地预测每个分位数,而是学习一个连续的价值函数变化过程,能够更好地利用状态信息进行条件依赖。
技术框架:DFPO的整体框架基于策略优化算法,主要包含以下几个模块:1) 价值流场学习模块:学习一个价值流场,用于预测价值函数在时间步上的变化;2) 优势函数估计模块:利用价值流场估计优势函数,用于指导策略更新;3) 条件风险控制模块:通过控制价值函数的风险,提高训练的鲁棒性;4) 一致性约束模块:通过约束价值流轨迹上的一致性,稳定训练过程。
关键创新:DFPO的关键创新在于将价值函数建模为连续流,通过学习价值流场来扩展价值函数建模。与现有方法独立预测每个分位数不同,DFPO学习一个连续的价值函数变化过程,能够更好地利用状态信息进行条件依赖,从而更准确地估计优势函数。此外,DFPO还集成了条件风险控制和一致性约束,进一步提高了训练的鲁棒性和稳定性。
关键设计:DFPO的关键设计包括:1) 价值流场的网络结构:可以使用各种神经网络结构来学习价值流场,例如Transformer或MLP;2) 损失函数:损失函数包括价值流场的预测损失、条件风险控制损失和一致性约束损失;3) 优化算法:可以使用各种优化算法来训练DFPO,例如Adam或SGD;4) 超参数设置:需要仔细调整超参数,例如学习率、批量大小和正则化系数,以获得最佳性能。
📊 实验亮点
实验结果表明,在对话、数学推理和科学任务上,DFPO在噪声监督下优于PPO、FlowRL和其他鲁棒基线。具体来说,DFPO在这些任务上实现了显著的性能提升,例如在对话任务上的成功率提高了10%以上。这些结果表明,DFPO能够有效地提高训练的稳定性和泛化性,使其成为一种有前景的鲁棒强化学习框架。
🎯 应用场景
DFPO具有广泛的应用前景,可以应用于各种需要鲁棒性和泛化性的强化学习任务中,例如对话系统、机器人控制、自动驾驶和游戏AI。特别是在LLM后训练中,DFPO可以提高LLM在真实环境中的性能和适应性,使其能够更好地应对噪声监督和域外泛化挑战。该研究的实际价值在于提高强化学习系统的可靠性和可用性,未来可能推动人工智能在更多领域的应用。
📄 摘要(原文)
Training reinforcement learning (RL) systems in real-world environments remains challenging due to noisy supervision and poor out-of-domain (OOD) generalization, especially in LLM post-training. Recent distributional RL methods improve robustness by modeling values with multiple quantile points, but they still learn each quantile independently as a scalar. This results in rough-grained value representations that lack fine-grained conditioning on state information, struggling under complex and OOD conditions. We propose DFPO (Distributional Value Flow Policy Optimization with Conditional Risk and Consistency Control), a robust distributional RL framework that models values as continuous flows across time steps. By scaling value modeling through learning of a value flow field instead of isolated quantile predictions, DFPO captures richer state information for more accurate advantage estimation. To stabilize training under noisy feedback, DFPO further integrates conditional risk control and consistency constraints along value flow trajectories. Experiments on dialogue, math reasoning, and scientific tasks show that DFPO outperforms PPO, FlowRL, and other robust baselines under noisy supervision, achieving improved training stability and generalization.