AR-CoPO: Align Autoregressive Video Generation with Contrastive Policy Optimization

📄 arXiv: 2603.17461v1 📥 PDF

作者: Dailan He, Guanlin Feng, Xingtong Ge, Yi Zhang, Bingqi Ma, Guanglu Song, Yu Liu, Hongsheng Li

分类: cs.CV

发布日期: 2026-03-18


💡 一句话要点

提出AR-CoPO,通过对比策略优化对齐自回归视频生成与人类反馈

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自回归视频生成 强化学习 人类反馈 对比学习 策略优化 视频对齐 流式生成

📋 核心要点

  1. 现有基于SDE的GRPO方法在对齐流式自回归视频生成时,由于少步ODE和低随机性轨迹,难以有效探索中间状态。
  2. AR-CoPO通过分叉机制在随机选择的块处构建邻域候选,并进行局部GRPO更新,实现块级别的对齐。
  3. AR-CoPO采用半在线策略训练,结合在线探索和离线参考rollout,提升了生成质量和泛化能力。

📝 摘要(中文)

流式自回归(AR)视频生成器结合少步蒸馏可以实现低延迟、高质量的合成,但仍然难以通过人类反馈的强化学习(RLHF)进行对齐。现有的基于SDE的GRPO方法在这种设置中面临挑战:少步ODE和一致性模型采样器偏离了标准流匹配ODE,并且它们短而低随机性的轨迹对初始化噪声高度敏感,使得中间SDE探索无效。我们提出了AR-CoPO(自回归对比策略优化),一个将Neighbor GRPO对比视角应用于流式AR生成的框架。AR-CoPO通过分叉机制引入块级别对齐,该机制在随机选择的块处构建邻域候选,分配序列级别奖励,并执行局部GRPO更新。我们进一步提出了一种半在线策略训练策略,该策略通过参考rollout的回放缓冲区来补充在线策略探索,从而提高跨域的生成质量。在Self-Forcing上的实验表明,AR-CoPO改进了超出领域泛化和领域内人类偏好对齐,提供了真实对齐而非奖励利用的证据。

🔬 方法详解

问题定义:论文旨在解决流式自回归视频生成模型难以通过人类反馈强化学习(RLHF)进行有效对齐的问题。现有基于随机微分方程(SDE)的梯度策略优化(GRPO)方法,在应用于这种场景时,由于快速蒸馏导致的ODE轨迹短、随机性低,以及对初始化噪声的敏感性,难以进行有效的策略探索和优化。这导致模型难以真正理解人类偏好,容易出现奖励利用(reward hacking)的现象。

核心思路:论文的核心思路是将Neighbor GRPO的对比学习视角引入到流式自回归生成中。通过在视频序列的随机位置进行“分叉”,生成多个邻近的候选序列,并根据人类反馈的奖励信号,利用对比学习的思想,优化策略,使得生成的视频更符合人类的偏好。这种方法的核心在于,通过比较相似序列之间的差异,能够更有效地学习到人类偏好的细微之处。

技术框架:AR-CoPO框架主要包含以下几个关键模块:1) 自回归视频生成器:采用流式自回归模型生成视频序列。2) 分叉机制:在视频序列的随机位置,复制当前状态,并进行不同的操作(例如,添加噪声、改变生成方向等),生成多个候选序列。3) 奖励函数:根据人类反馈或预定义的奖励模型,对生成的视频序列进行评分。4) 对比策略优化(GRPO):利用GRPO算法,根据奖励信号,优化自回归生成器的策略。5) 半在线策略训练:结合在线探索和离线参考rollout,提高训练的稳定性和效率。

关键创新:AR-CoPO的关键创新在于:1) 块级别对齐:通过分叉机制,将序列级别的奖励分解到块级别,从而更精细地控制生成过程。2) 对比学习框架:利用对比学习的思想,通过比较相似序列之间的差异,更有效地学习人类偏好。3) 半在线策略训练:结合在线探索和离线参考rollout,提高训练的稳定性和效率,避免了纯在线训练的探索不足问题。

关键设计:在分叉机制中,随机选择一个视频帧作为分叉点,然后基于该帧生成多个不同的后续帧序列。奖励函数的设计至关重要,需要能够准确反映人类的偏好。GRPO算法采用Adam优化器,学习率设置为1e-4。半在线策略训练中,参考rollout的回放缓冲区大小设置为1000。网络结构方面,自回归生成器采用Transformer架构,具体参数根据不同的数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在Self-Forcing数据集上的实验表明,AR-CoPO在超出领域泛化和领域内人类偏好对齐方面均优于基线方法。具体来说,AR-CoPO在人类偏好对齐方面取得了显著提升,表明该方法能够更好地学习人类偏好,避免奖励利用。实验结果证明了AR-CoPO的有效性和优越性。

🎯 应用场景

AR-CoPO可应用于各种视频生成任务,例如个性化视频推荐、视频编辑、游戏AI等。通过与人类反馈对齐,可以生成更符合用户需求的视频内容,提升用户体验。该方法还可以用于训练更智能的视频生成AI,使其能够更好地理解和满足人类的创作意图,具有广阔的应用前景。

📄 摘要(原文)

Streaming autoregressive (AR) video generators combined with few-step distillation achieve low-latency, high-quality synthesis, yet remain difficult to align via reinforcement learning from human feedback (RLHF). Existing SDE-based GRPO methods face challenges in this setting: few-step ODEs and consistency model samplers deviate from standard flow-matching ODEs, and their short, low-stochasticity trajectories are highly sensitive to initialization noise, rendering intermediate SDE exploration ineffective. We propose AR-CoPO (AutoRegressive Contrastive Policy Optimization), a framework that adapts the Neighbor GRPO contrastive perspective to streaming AR generation. AR-CoPO introduces chunk-level alignment via a forking mechanism that constructs neighborhood candidates at a randomly selected chunk, assigns sequence-level rewards, and performs localized GRPO updates. We further propose a semi-on-policy training strategy that complements on-policy exploration with exploitation over a replay buffer of reference rollouts, improving generation quality across domains. Experiments on Self-Forcing demonstrate that AR-CoPO improves both out-of-domain generalization and in-domain human preference alignment over the baseline, providing evidence of genuine alignment rather than reward hacking.