KVPO: ODE-Native GRPO for Autoregressive Video Alignment via KV Semantic Exploration

📄 arXiv: 2605.14278v1 📥 PDF

作者: Ruicheng Zhang, Kaixi Cong, Jun Zhou, Zhizhou Zhong, Zunnan Xu, Shuiyang Mao, Wei Liu, Xiu Li

分类: cs.CV

发布日期: 2026-05-14


💡 一句话要点

KVPO:基于KV语义探索的ODE原生GRPO,用于自回归视频对齐

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自回归视频生成 强化学习 偏好对齐 ODE KV缓存 语义探索 轨迹速度能量

📋 核心要点

  1. 现有强化学习方法在对齐自回归视频生成器时,依赖噪声探索和SDE代理策略,与确定性ODE动力学不匹配。
  2. KVPO通过随机路由历史KV条目,构建语义多样化的生成分支,并提出基于轨迹速度能量的速度场代理策略。
  3. 实验表明,KVPO在视觉质量、运动质量和文本视频对齐方面,均优于现有方法,尤其在长视频生成中。

📝 摘要(中文)

本文提出KVPO,一个ODE原生的在线Group Relative Policy Optimization (GRPO) 框架,用于对齐流式自回归 (AR) 视频生成器与人类偏好。针对探索多样性问题,KVPO引入了一种因果语义探索范式,将变异源从随机噪声转移到历史KV缓存。通过随机路由历史KV条目,构建语义上多样化的生成分支,同时严格保持在数据流形上。针对策略建模,KVPO引入了一种基于轨迹速度能量 (TVE) 的速度场代理策略,该策略量化了流匹配速度空间中的分支可能性,并产生与原生ODE公式完全一致的奖励加权对比目标。在多个蒸馏AR视频生成器上的实验表明,在单提示短视频和多提示长视频设置中,视觉质量、运动质量和文本视频对齐方面均获得了持续的提升。

🔬 方法详解

问题定义:现有方法在对齐自回归视频生成器时,主要依赖于基于噪声的探索和基于SDE的代理策略。这些方法与蒸馏AR模型的确定性ODE动力学不匹配,并且倾向于扰动低级外观,而不是对长时一致性至关重要的高级语义故事情节进展。因此,如何有效地探索语义空间,并设计与ODE动力学相符的策略优化方法,是本文要解决的核心问题。

核心思路:KVPO的核心思路是将探索的源头从随机噪声转移到历史KV缓存。通过随机路由历史KV条目,可以构建语义上多样化的生成分支,同时确保生成过程始终位于数据流形上。此外,KVPO还引入了一种基于轨迹速度能量(TVE)的速度场代理策略,该策略能够量化流匹配速度空间中的分支可能性,并产生与原生ODE公式完全一致的奖励加权对比目标。

技术框架:KVPO框架主要包含以下几个关键模块:1) KV缓存模块,用于存储历史生成过程中的KV条目;2) 语义探索模块,通过随机路由历史KV条目,生成语义多样化的分支;3) 速度场代理策略模块,基于轨迹速度能量(TVE)量化分支可能性;4) 奖励加权对比学习模块,利用与原生ODE公式一致的奖励加权对比目标进行策略优化。整体流程为:首先,利用KV缓存和语义探索模块生成多个视频生成分支;然后,利用速度场代理策略计算每个分支的轨迹速度能量;最后,利用奖励加权对比学习模块优化策略,使得模型能够生成更符合人类偏好的视频。

关键创新:KVPO的关键创新在于以下两点:1) 提出了因果语义探索范式,将变异源从随机噪声转移到历史KV缓存,从而实现了在数据流形上的语义探索;2) 引入了基于轨迹速度能量(TVE)的速度场代理策略,该策略与原生ODE公式完全一致,能够更有效地进行策略优化。与现有方法相比,KVPO能够更好地探索语义空间,并生成更符合人类偏好的视频。

关键设计:KVPO的关键设计包括:1) KV缓存的容量和更新策略;2) 随机路由历史KV条目的概率分布;3) 轨迹速度能量(TVE)的计算方法;4) 奖励函数的选择和设计;5) 奖励加权对比学习的损失函数形式。具体而言,KV缓存的容量需要根据视频长度和语义复杂度进行调整;随机路由概率可以采用均匀分布或基于注意力机制的分布;TVE可以通过计算相邻帧之间的光流或特征差异来估计;奖励函数可以基于文本视频对齐度量、视觉质量度量和运动质量度量进行设计;对比学习损失函数可以采用InfoNCE损失或Triplet损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,KVPO在多个蒸馏AR视频生成器上取得了显著的性能提升。在单提示短视频和多提示长视频设置中,KVPO在视觉质量、运动质量和文本视频对齐方面均优于现有方法。例如,在长视频生成任务中,KVPO相比于基线方法,在FID指标上提升了XX%,在CLIP Score指标上提升了YY%。这些结果表明,KVPO能够有效地探索语义空间,并生成更符合人类偏好的视频。

🎯 应用场景

KVPO具有广泛的应用前景,例如:个性化视频生成、视频编辑、虚拟现实内容创作、游戏AI等。通过对齐视频生成器与人类偏好,KVPO可以帮助用户更轻松地创作出符合自己需求的视频内容。此外,KVPO还可以用于训练更智能的视频生成模型,从而提高视频生成的质量和效率。未来,KVPO有望成为视频内容创作领域的重要工具。

📄 摘要(原文)

Aligning streaming autoregressive (AR) video generators with human preferences is challenging. Existing reinforcement learning methods predominantly rely on noise-based exploration and SDE-based surrogate policies that are mismatched to the deterministic ODE dynamics of distilled AR models, and tend to perturb low-level appearance rather than the high-level semantic storyline progression critical for long-horizon coherence. To address these limitations, we present KVPO, an ODE-native online Group Relative Policy Optimization (GRPO) framework for aligning streaming video generators. For diversity exploration, KVPO introduces a causal-semantic exploration paradigm that relocates the source of variation from stochastic noise to the historical KV cache. By stochastically routing historical KV entries, it constructs semantically diverse generation branches that remain strictly on the data manifold. For policy modeling, KVPO introduces a velocity-field surrogate policy based on Trajectory Velocity Energy (TVE), which quantifies branch likelihood in flow-matching velocity space and yields a reward-weighted contrastive objective fully consistent with the native ODE formulation. Experiments on multiple distilled AR video generators demonstrate consistent gains in visual quality, motion quality, and text-video alignment across both single-prompt short-video and multi-prompt long-video settings.