Manifold-Aware Exploration for Reinforcement Learning in Video Generation
作者: Mingzhe Zheng, Weijie Kong, Yue Wu, Dengyang Jiang, Yue Ma, Xuanhua He, Bin Lin, Kaixiong Gong, Zhao Zhong, Liefeng Bo, Qifeng Chen, Harry Yang
分类: cs.CV, cs.AI
发布日期: 2026-03-23
备注: 17 pages, 12 figures
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出SAGE-GRPO,通过流形感知探索提升视频生成强化学习的稳定性和质量。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 视频生成 强化学习 流形学习 探索策略 GRPO 稳定性 HunyuanVideo1.5
📋 核心要点
- 视频生成强化学习中,现有GRPO方法因探索引入过多噪声,导致rollout质量下降和奖励估计不可靠。
- SAGE-GRPO通过流形感知探索,在微观和宏观层面约束探索范围,保证rollout质量和奖励估计的可靠性。
- 实验表明,SAGE-GRPO在HunyuanVideo1.5数据集上,各项指标均优于现有方法,提升了视频生成质量。
📝 摘要(中文)
针对视频生成中Group Relative Policy Optimization (GRPO) 方法(如FlowGRPO)不如语言模型和图像模型可靠的问题,论文指出其原因是视频生成具有复杂的解空间,并且用于探索的ODE-to-SDE转换会注入过多的噪声,降低rollout质量并使奖励估计变得不可靠,从而破坏了训练后的对齐。为了解决这个问题,论文将预训练模型视为定义了一个有效的视频数据流形,并将核心问题定义为约束探索在该流形附近,以确保rollout质量并保持奖励估计的可靠性。论文提出了SAGE-GRPO(通过探索实现稳定对齐),它在微观和宏观层面应用约束。在微观层面,论文推导了一个精确的流形感知SDE,具有对数曲率校正,并引入了梯度范数均衡器,以稳定跨时间步的采样和更新。在宏观层面,论文使用具有周期性移动锚点和逐步约束的双重信任区域,以便信任区域跟踪更接近流形的检查点,并限制长时程漂移。在HunyuanVideo1.5上使用原始VideoAlign作为奖励模型评估SAGE-GRPO,并在VQ、MQ、TA和视觉指标(CLIPScore、PickScore)方面观察到相对于先前方法的一致收益,证明了在奖励最大化和整体视频质量方面的卓越性能。
🔬 方法详解
问题定义:现有基于GRPO的视频生成方法,例如FlowGRPO,在性能上远不如其在语言模型和图像生成领域的同类方法。主要痛点在于视频生成任务的解空间非常复杂,而现有方法中常用的ODE-to-SDE转换引入了过多的噪声,导致rollout的质量下降,进而使得奖励估计变得不可靠,最终影响了训练后模型的对齐效果。
核心思路:论文的核心思路是将预训练的视频生成模型视为定义了一个有效的视频数据流形。因此,优化的目标就变成了在尽可能靠近这个流形的区域内进行探索,从而保证rollout的质量和奖励估计的可靠性。通过约束探索空间,避免模型偏离真实数据分布过远,从而稳定训练过程。
技术框架:SAGE-GRPO整体框架包含微观和宏观两个层面的约束。在微观层面,通过流形感知的SDE和梯度范数均衡器来稳定每个时间步的采样和更新。在宏观层面,使用双重信任区域,并结合周期性移动锚点和逐步约束,使得信任区域能够跟踪更接近流形的检查点,从而限制长时程的漂移。这两个层面的约束共同作用,保证了探索的稳定性和有效性。
关键创新:论文的关键创新在于提出了流形感知的探索方法。与传统的探索方法不同,SAGE-GRPO不是盲目地在整个解空间中搜索,而是有针对性地在预训练模型定义的流形附近进行探索。这种方法能够更有效地利用预训练模型的知识,并避免模型偏离真实数据分布过远。
关键设计:在微观层面,论文推导了一个精确的流形感知SDE,其中包含一个对数曲率校正项,用于更好地适应流形的几何结构。此外,还引入了一个梯度范数均衡器,用于稳定跨时间步的采样和更新过程。在宏观层面,论文使用了一个双重信任区域,其中一个信任区域用于限制策略的更新幅度,另一个信任区域用于跟踪更接近流形的检查点。周期性移动锚点和逐步约束则用于进一步稳定训练过程。
🖼️ 关键图片
📊 实验亮点
SAGE-GRPO在HunyuanVideo1.5数据集上进行了评估,并使用原始VideoAlign作为奖励模型。实验结果表明,SAGE-GRPO在VQ、MQ、TA以及视觉指标(CLIPScore、PickScore)方面均优于现有方法。例如,在CLIPScore指标上,SAGE-GRPO相比于基线方法取得了显著的提升,证明了其在奖励最大化和整体视频质量方面的卓越性能。
🎯 应用场景
该研究成果可应用于各种视频生成任务,例如文本到视频生成、视频编辑和视频风格迁移等。通过提升视频生成模型的稳定性和质量,可以为用户提供更优质的视频内容创作工具,并推动视频内容生成领域的发展。此外,该方法在其他生成模型强化学习任务中也具有潜在的应用价值。
📄 摘要(原文)
Group Relative Policy Optimization (GRPO) methods for video generation like FlowGRPO remain far less reliable than their counterparts for language models and images. This gap arises because video generation has a complex solution space, and the ODE-to-SDE conversion used for exploration can inject excess noise, lowering rollout quality and making reward estimates less reliable, which destabilizes post-training alignment. To address this problem, we view the pre-trained model as defining a valid video data manifold and formulate the core problem as constraining exploration within the vicinity of this manifold, ensuring that rollout quality is preserved and reward estimates remain reliable. We propose SAGE-GRPO (Stable Alignment via Exploration), which applies constraints at both micro and macro levels. At the micro level, we derive a precise manifold-aware SDE with a logarithmic curvature correction and introduce a gradient norm equalizer to stabilize sampling and updates across timesteps. At the macro level, we use a dual trust region with a periodic moving anchor and stepwise constraints so that the trust region tracks checkpoints that are closer to the manifold and limits long-horizon drift. We evaluate SAGE-GRPO on HunyuanVideo1.5 using the original VideoAlign as the reward model and observe consistent gains over previous methods in VQ, MQ, TA, and visual metrics (CLIPScore, PickScore), demonstrating superior performance in both reward maximization and overall video quality. The code and visual gallery are available at https://dungeonmassster.github.io/SAGE-GRPO-Page/.