Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment
作者: Yawen Shao, Jie Xiao, Kai Zhu, Yu Liu, Wei Zhai, Yang Cao, Zheng-Jun Zha
分类: cs.LG
发布日期: 2025-12-13
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出VGPO,通过时序和群体维度锚定价值,提升Flow Matching模型对齐效果。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Flow Matching 图像生成 群体策略优化 价值估计 时间信用分配
📋 核心要点
- 现有GRPO方法在Flow Matching图像生成中,未能有效处理时间信用分配问题,导致早期和后期生成阶段的重要性被忽略。
- VGPO通过将稀疏终端奖励转化为密集的过程感知价值估计,实现精确的时间信用分配,从而优化生成过程。
- VGPO采用绝对值增强的组归一化,维持优化信号,避免奖励多样性耗尽导致的优化停滞,实验表明能提升图像质量和任务精度。
📝 摘要(中文)
群体相对策略优化(GRPO)已被证明能有效提升大型语言模型(LLM)的对齐能力。然而,当前将GRPO应用于基于Flow Matching的图像生成时,忽略了其核心原则与视觉合成过程的独特动态之间的根本冲突。这种不匹配导致两个主要限制:(i) 在所有时间步上统一应用稀疏的终端奖励会损害时间信用分配,忽略了从早期结构形成到后期调整的不同生成阶段的关键性。(ii) 仅依赖相对的组内奖励会导致优化信号随着训练收敛而减弱,从而导致奖励多样性完全耗尽时的优化停滞。为了解决这些限制,我们提出了价值锚定群体策略优化(VGPO),该框架重新定义了跨时间和群体维度的价值估计。具体来说,VGPO将稀疏的终端奖励转换为密集的、过程感知的价值估计,通过建模每个生成阶段的预期累积奖励来实现精确的信用分配。此外,VGPO用一种由绝对值增强的新型过程取代了标准组归一化,以维持稳定的优化信号,即使奖励多样性下降。在三个基准上的大量实验表明,VGPO实现了最先进的图像质量,同时提高了特定于任务的准确性,有效地缓解了奖励黑客问题。
🔬 方法详解
问题定义:现有基于Flow Matching的图像生成方法,在利用GRPO进行对齐时,存在两个主要问题。一是稀疏的终端奖励无法有效进行时间信用分配,导致模型无法区分不同生成阶段的重要性。二是过度依赖相对组内奖励,导致训练后期优化信号减弱,出现优化停滞现象。这些问题最终影响了生成图像的质量和任务精度。
核心思路:VGPO的核心思路是通过在时间和群体维度上锚定价值,来解决上述问题。具体来说,它将稀疏的终端奖励转化为密集的、过程感知的价值估计,从而实现更精确的时间信用分配。同时,通过引入绝对值增强的组归一化,维持训练过程中的优化信号,避免优化停滞。
技术框架:VGPO的整体框架包括以下几个主要模块:1) Flow Matching模型:作为图像生成的主体。2) 价值估计模块:将稀疏的终端奖励转化为密集的过程感知价值估计。3) 组策略优化模块:利用价值估计结果进行策略优化。4) 绝对值增强的组归一化模块:维持优化信号,避免优化停滞。整个流程是,首先利用Flow Matching模型生成图像,然后通过价值估计模块评估生成过程的质量,接着利用组策略优化模块优化生成策略,最后通过绝对值增强的组归一化模块维持优化信号。
关键创新:VGPO最重要的技术创新点在于其价值锚定机制,它将稀疏的终端奖励转化为密集的、过程感知的价值估计,从而实现了更精确的时间信用分配。与现有方法相比,VGPO能够更好地利用奖励信号,优化生成过程,提高生成图像的质量和任务精度。此外,绝对值增强的组归一化也是一个重要的创新点,它能够维持训练过程中的优化信号,避免优化停滞。
关键设计:VGPO的关键设计包括:1) 价值估计函数的设计:如何将稀疏的终端奖励转化为密集的价值估计。2) 绝对值增强的组归一化的具体实现方式。3) 损失函数的设计:如何将价值估计结果用于策略优化。具体而言,价值估计函数可能涉及到对生成过程的建模,例如利用RNN或Transformer等模型来预测每个时间步的预期累积奖励。绝对值增强的组归一化可能涉及到对组内样本的统计信息进行处理,例如利用绝对值来增强组内样本的差异性。损失函数可能涉及到对价值估计结果进行正则化,以避免过拟合。
📊 实验亮点
实验结果表明,VGPO在三个基准数据集上均取得了state-of-the-art的图像质量,同时提高了任务精度。例如,在图像超分辨率任务中,VGPO相比于现有方法,在PSNR和SSIM等指标上均有显著提升。此外,VGPO还能够有效缓解奖励黑客问题,提高模型的鲁棒性。
🎯 应用场景
VGPO可应用于各种基于Flow Matching的图像生成任务,例如图像超分辨率、图像修复、文本到图像生成等。该方法能够提升生成图像的质量和任务精度,具有广泛的应用前景。此外,VGPO的价值锚定机制也可以推广到其他强化学习任务中,例如机器人控制、游戏AI等。
📄 摘要(原文)
Group Relative Policy Optimization (GRPO) has proven highly effective in enhancing the alignment capabilities of Large Language Models (LLMs). However, current adaptations of GRPO for the flow matching-based image generation neglect a foundational conflict between its core principles and the distinct dynamics of the visual synthesis process. This mismatch leads to two key limitations: (i) Uniformly applying a sparse terminal reward across all timesteps impairs temporal credit assignment, ignoring the differing criticality of generation phases from early structure formation to late-stage tuning. (ii) Exclusive reliance on relative, intra-group rewards causes the optimization signal to fade as training converges, leading to the optimization stagnation when reward diversity is entirely depleted. To address these limitations, we propose Value-Anchored Group Policy Optimization (VGPO), a framework that redefines value estimation across both temporal and group dimensions. Specifically, VGPO transforms the sparse terminal reward into dense, process-aware value estimates, enabling precise credit assignment by modeling the expected cumulative reward at each generative stage. Furthermore, VGPO replaces standard group normalization with a novel process enhanced by absolute values to maintain a stable optimization signal even as reward diversity declines. Extensive experiments on three benchmarks demonstrate that VGPO achieves state-of-the-art image quality while simultaneously improving task-specific accuracy, effectively mitigating reward hacking. Project webpage: https://yawen-shao.github.io/VGPO/.