Delta Forcing: Trust Region Steering for Interactive Autoregressive Video Generation
作者: Yuheng Wu, Xiangbo Gao, Tianhao Chen, Xinghao Chen, Qing Yin, Zhengzhong Tu, Dongman Lee
分类: cs.CV, cs.GR, cs.MM
发布日期: 2026-05-14
💡 一句话要点
提出Delta Forcing,通过自适应信任域指导交互式自回归视频生成,提升时序一致性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 交互式视频生成 自回归模型 信任区域 条件偏差 时序一致性
📋 核心要点
- 现有交互式视频生成方法在条件变化后易出现漂移,无法同时保证反应性和长期一致性。
- Delta Forcing通过估计教师和生成器轨迹的潜在差异,构建自适应信任域约束教师监督。
- 实验表明,Delta Forcing显著提升了视频生成的一致性,同时保持了对新事件的响应能力。
📝 摘要(中文)
交互式实时自回归视频生成对于内容创作和世界建模等应用至关重要,在这些应用中,视觉内容必须适应动态演变的事件条件。一个根本的挑战在于平衡反应性和稳定性:模型必须迅速响应新事件,同时在长时程上保持时间连贯性。现有方法将双向模型提炼成自回归生成器,并通过流式长时调优进一步调整它们,但经常在条件变化后表现出持续的漂移。我们认为原因是条件偏差,即教师可能提供与条件对齐但与轨迹无关的指导,从而使生成偏向于局部有效但全局不一致的模式。受信任区域策略优化的启发,我们提出了Delta Forcing,这是一个简单而有效的框架,它将不可靠的教师监督限制在自适应信任区域内。具体来说,Delta Forcing从教师和生成器轨迹之间的潜在delta估计过渡一致性,并使用它来平衡教师监督与单调连续性目标。这抑制了不可靠的教师诱导的转变,同时保持了对新事件的反应性。大量实验表明,Delta Forcing在保持事件反应性的同时,显著提高了视频一致性。
🔬 方法详解
问题定义:交互式视频生成旨在根据用户交互实时生成视频内容。现有方法,特别是基于蒸馏和微调的自回归模型,在面对动态变化的条件时,容易产生漂移现象,导致视频内容在时间上不一致。这是因为教师模型提供的指导可能只关注局部条件,而忽略了全局轨迹的连贯性。
核心思路:Delta Forcing的核心思想是限制教师模型的指导作用,避免其过度干预生成过程,从而减少漂移。它通过构建一个自适应的“信任区域”,只允许教师模型在生成器模型表现良好的区域内提供指导。这种方法平衡了对新事件的响应和长期一致性。
技术框架:Delta Forcing框架主要包含以下几个部分:1) 自回归生成器:负责生成视频帧序列。2) 教师模型:提供条件对齐的指导信号。3) Delta估计器:计算教师模型和生成器模型之间的潜在差异(delta),用于评估过渡一致性。4) 信任区域:根据delta估计器输出,动态调整教师模型的指导强度。整体流程是,生成器根据当前状态生成下一帧,教师模型提供指导,delta估计器评估一致性,信任区域根据一致性调整教师指导,最终生成器输出调整后的帧。
关键创新:Delta Forcing的关键创新在于引入了“信任区域”的概念,并利用教师模型和生成器模型之间的潜在差异来动态调整信任区域的大小。这使得模型能够根据自身的表现,自适应地选择是否接受教师模型的指导,从而避免了过度依赖教师模型导致的漂移问题。与现有方法中直接使用教师模型指导生成不同,Delta Forcing更加谨慎,只在模型表现良好的区域内接受指导。
关键设计:Delta Forcing的关键设计包括:1) Delta的计算方式:论文使用潜在空间中的差异来衡量教师模型和生成器模型之间的一致性。2) 信任区域的调整策略:信任区域的大小根据delta的大小动态调整,delta越大,信任区域越小,教师模型的指导作用越弱。3) 损失函数:损失函数包含两部分,一部分是教师监督损失,另一部分是单调连续性损失,用于保证生成视频的平滑过渡。具体参数设置和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Delta Forcing在交互式视频生成任务中显著提高了视频的一致性,同时保持了对新事件的响应能力。与现有方法相比,Delta Forcing能够有效减少漂移现象,生成更加连贯的视频内容。具体性能数据和对比基线在论文中有详细展示,证明了Delta Forcing的优越性。
🎯 应用场景
Delta Forcing技术可应用于交互式视频编辑、虚拟现实内容生成、游戏AI等领域。它能够帮助用户实时生成高质量、时间一致的视频内容,并根据用户的交互动态调整生成结果。该技术有望提升内容创作效率,并为用户提供更加沉浸式的体验。未来,该技术还可以扩展到其他模态,如音频和文本,实现多模态交互式内容生成。
📄 摘要(原文)
Interactive real-time autoregressive video generation is essential for applications such as content creation and world modeling, where visual content must adapt to dynamically evolving event conditions. A fundamental challenge lies in balancing reactivity and stability: models must respond promptly to new events while maintaining temporal coherence over long horizons. Existing approaches distill bidirectional models into autoregressive generators and further adapt them via streaming long tuning, yet often exhibit persistent drift after condition changes. We identify the cause as conditional bias, where the teacher may provide condition-aligned but trajectory-agnostic guidance, biasing generation toward locally valid yet globally inconsistent modes. Inspired by Trust Region Policy Optimization, we propose Delta Forcing, a simple yet effective framework that constrains unreliable teacher supervision within an adaptive trust region. Specifically, Delta Forcing estimates transition consistency from the latent delta between teacher and generator trajectories, and uses it to balance teacher supervision with a monotonic continuity objective. This suppress unreliable teacher-induced shifts while preserving responsiveness to new events. Extensive experiments demonstrate that Delta Forcing significantly improves consistency while maintaining event reactivity.