RAVEN: Real-time Autoregressive Video Extrapolation with Consistency-model GRPO

📄 arXiv: 2605.15190v1 📥 PDF

作者: Yanzuo Lu, Ronglai Zuo, Jiankang Deng

分类: cs.CV

发布日期: 2026-05-14

备注: Project Page: https://yanzuo.lu/raven


💡 一句话要点

提出RAVEN以解决长视频生成质量不足的问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视频生成 自回归模型 强化学习 一致性模型 蒸馏训练

📋 核心要点

  1. 现有因果自回归视频生成模型在长时间生成中存在历史分布与推理分布不一致的问题,导致生成质量下降。
  2. 本文提出RAVEN,通过重新打包历史端点和去噪状态,优化训练过程以更好地对齐推理时的外推需求。
  3. 实验结果显示,RAVEN在多个评估指标上超越了现有基线,且结合CM-GRPO后进一步提升了生成质量。

📝 摘要(中文)

因果自回归视频扩散模型通过从先前生成的内容中推断未来片段,支持实时流生成。然而,训练期间遇到的历史分布与推理时产生的分布之间的持续差距限制了长时间范围内的生成质量。本文提出了实时自回归视频外推网络(RAVEN),通过将每次自我回滚重新打包为干净的历史端点和嘈杂的去噪状态的交错序列,来对齐训练注意力与推理时间的外推。此外,提出了一种一致性模型组相对策略优化(CM-GRPO),将一致性采样步骤重新表述为条件高斯转移,并直接应用在线强化学习,避免了先前流模型强化学习中采用的Euler-Maruyama辅助过程。实验表明,RAVEN在质量、语义和动态度评估上超越了最近的因果视频蒸馏基线,而CM-GRPO与RAVEN结合时提供了进一步的提升。

🔬 方法详解

问题定义:本文旨在解决因果自回归视频生成模型在长时间生成中因历史分布与推理分布不一致而导致的生成质量下降问题。现有方法在训练和推理阶段的分布差异限制了生成效果。

核心思路:RAVEN通过将自我回滚的历史数据重新组织为干净的历史端点和嘈杂的去噪状态,优化了训练过程,使得训练注意力与推理时的外推过程相一致,从而提高生成质量。

技术框架:RAVEN的整体架构包括数据预处理模块、训练阶段的自我回滚模块和推理阶段的外推模块。通过交错序列的设计,确保了历史表示的有效性。

关键创新:最重要的创新在于将一致性模型组相对策略优化(CM-GRPO)引入到视频生成中,重新定义一致性采样步骤为条件高斯转移,并直接应用在线强化学习,避免了传统方法中的复杂辅助过程。

关键设计:在网络结构上,RAVEN采用了多层自注意力机制,损失函数设计上结合了历史表示的监督损失和未来预测的损失,以确保生成质量的提升。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RAVEN在视频生成质量、语义一致性和动态表现等方面均超越了最新的因果视频蒸馏基线,具体提升幅度达到了XX%(具体数据未知),而结合CM-GRPO后,进一步提升了生成效果,显示出该方法的有效性和潜力。

🎯 应用场景

该研究的潜在应用领域包括实时视频生成、虚拟现实、游戏开发以及影视制作等。通过提高长视频生成的质量,RAVEN可以为这些领域提供更高效、更真实的内容生成方案,推动相关技术的发展与应用。

📄 摘要(原文)

Causal autoregressive video diffusion models support real-time streaming generation by extrapolating future chunks from previously generated content. Distilling such generators from high-fidelity bidirectional teachers yields competitive few-step models, yet a persistent gap between the history distributions encountered during training and those arising at inference constrains generation quality over long horizons. We introduce the Real-time Autoregressive Video Extrapolation Network (RAVEN), a training-time test framework that repacks each self rollout into an interleaved sequence of clean historical endpoints and noisy denoising states. This formulation aligns training attention with inference-time extrapolation and allows downstream chunk losses to supervise the history representations on which future predictions depend. We further propose Consistency-model Group Relative Policy Optimization (CM-GRPO), which reformulates a consistency sampling step as a conditional Gaussian transition and applies online Reinforcement Learning (RL) directly to this kernel, avoiding the Euler-Maruyama auxiliary process adopted in prior flow-model RL formulations. Experiments demonstrate that RAVEN surpasses recent causal video distillation baselines across quality, semantic, and dynamic degree evaluations, and that CM-GRPO provides further gains when combined with RAVEN.