AR-CoPO: Align Autoregressive Video Generation with Contrastive Policy Optimization

作者: Dailan He, Guanlin Feng, Xingtong Ge, Yi Zhang, Bingqi Ma, Guanglu Song, Yu Liu, Hongsheng Li

分类: cs.CV

发布日期: 2026-03-18

💡 一句话要点

提出AR-CoPO，通过对比策略优化对齐自回归视频生成与人类反馈

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 自回归视频生成 强化学习 人类反馈 对比学习 策略优化 视频对齐 流式生成

📋 核心要点

现有基于SDE的GRPO方法在对齐流式自回归视频生成时，由于少步ODE和低随机性轨迹，难以有效探索中间状态。
AR-CoPO通过分叉机制在随机选择的块处构建邻域候选，并进行局部GRPO更新，实现块级别的对齐。
AR-CoPO采用半在线策略训练，结合在线探索和离线参考rollout，提升了生成质量和泛化能力。

📝 摘要（中文）

流式自回归(AR)视频生成器结合少步蒸馏可以实现低延迟、高质量的合成，但仍然难以通过人类反馈的强化学习(RLHF)进行对齐。现有的基于SDE的GRPO方法在这种设置中面临挑战：少步ODE和一致性模型采样器偏离了标准流匹配ODE，并且它们短而低随机性的轨迹对初始化噪声高度敏感，使得中间SDE探索无效。我们提出了AR-CoPO(自回归对比策略优化)，一个将Neighbor GRPO对比视角应用于流式AR生成的框架。AR-CoPO通过分叉机制引入块级别对齐，该机制在随机选择的块处构建邻域候选，分配序列级别奖励，并执行局部GRPO更新。我们进一步提出了一种半在线策略训练策略，该策略通过参考rollout的回放缓冲区来补充在线策略探索，从而提高跨域的生成质量。在Self-Forcing上的实验表明，AR-CoPO改进了超出领域泛化和领域内人类偏好对齐，提供了真实对齐而非奖励利用的证据。

🔬 方法详解

问题定义：论文旨在解决流式自回归视频生成模型难以通过人类反馈强化学习(RLHF)进行有效对齐的问题。现有基于随机微分方程(SDE)的梯度策略优化(GRPO)方法，在应用于这种场景时，由于快速蒸馏导致的ODE轨迹短、随机性低，以及对初始化噪声的敏感性，难以进行有效的策略探索和优化。这导致模型难以真正理解人类偏好，容易出现奖励利用(reward hacking)的现象。

核心思路：论文的核心思路是将Neighbor GRPO的对比学习视角引入到流式自回归生成中。通过在视频序列的随机位置进行“分叉”，生成多个邻近的候选序列，并根据人类反馈的奖励信号，利用对比学习的思想，优化策略，使得生成的视频更符合人类的偏好。这种方法的核心在于，通过比较相似序列之间的差异，能够更有效地学习到人类偏好的细微之处。

技术框架：AR-CoPO框架主要包含以下几个关键模块：1) 自回归视频生成器：采用流式自回归模型生成视频序列。2) 分叉机制：在视频序列的随机位置，复制当前状态，并进行不同的操作（例如，添加噪声、改变生成方向等），生成多个候选序列。3) 奖励函数：根据人类反馈或预定义的奖励模型，对生成的视频序列进行评分。4) 对比策略优化(GRPO)：利用GRPO算法，根据奖励信号，优化自回归生成器的策略。5) 半在线策略训练：结合在线探索和离线参考rollout，提高训练的稳定性和效率。

关键创新：AR-CoPO的关键创新在于：1) 块级别对齐：通过分叉机制，将序列级别的奖励分解到块级别，从而更精细地控制生成过程。2) 对比学习框架：利用对比学习的思想，通过比较相似序列之间的差异，更有效地学习人类偏好。3) 半在线策略训练：结合在线探索和离线参考rollout，提高训练的稳定性和效率，避免了纯在线训练的探索不足问题。

关键设计：在分叉机制中，随机选择一个视频帧作为分叉点，然后基于该帧生成多个不同的后续帧序列。奖励函数的设计至关重要，需要能够准确反映人类的偏好。GRPO算法采用Adam优化器，学习率设置为1e-4。半在线策略训练中，参考rollout的回放缓冲区大小设置为1000。网络结构方面，自回归生成器采用Transformer架构，具体参数根据不同的数据集进行调整。

🖼️ 关键图片

📊 实验亮点

在Self-Forcing数据集上的实验表明，AR-CoPO在超出领域泛化和领域内人类偏好对齐方面均优于基线方法。具体来说，AR-CoPO在人类偏好对齐方面取得了显著提升，表明该方法能够更好地学习人类偏好，避免奖励利用。实验结果证明了AR-CoPO的有效性和优越性。

🎯 应用场景

AR-CoPO可应用于各种视频生成任务，例如个性化视频推荐、视频编辑、游戏AI等。通过与人类反馈对齐，可以生成更符合用户需求的视频内容，提升用户体验。该方法还可以用于训练更智能的视频生成AI，使其能够更好地理解和满足人类的创作意图，具有广阔的应用前景。

📄 摘要（原文）

Streaming autoregressive (AR) video generators combined with few-step distillation achieve low-latency, high-quality synthesis, yet remain difficult to align via reinforcement learning from human feedback (RLHF). Existing SDE-based GRPO methods face challenges in this setting: few-step ODEs and consistency model samplers deviate from standard flow-matching ODEs, and their short, low-stochasticity trajectories are highly sensitive to initialization noise, rendering intermediate SDE exploration ineffective. We propose AR-CoPO (AutoRegressive Contrastive Policy Optimization), a framework that adapts the Neighbor GRPO contrastive perspective to streaming AR generation. AR-CoPO introduces chunk-level alignment via a forking mechanism that constructs neighborhood candidates at a randomly selected chunk, assigns sequence-level rewards, and performs localized GRPO updates. We further propose a semi-on-policy training strategy that complements on-policy exploration with exploitation over a replay buffer of reference rollouts, improving generation quality across domains. Experiments on Self-Forcing demonstrate that AR-CoPO improves both out-of-domain generalization and in-domain human preference alignment over the baseline, providing evidence of genuine alignment rather than reward hacking.

AR-CoPO: Align Autoregressive Video Generation with Contrastive Policy Optimization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理