A$^2$RD: Agentic Autoregressive Diffusion for Long Video Consistency
作者: Do Xuan Long, Yale Song, Min-Yen Kan, Tomas Pfister, Long T. Le
分类: cs.CV, cs.AI
发布日期: 2026-05-07
备注: Project page: http://dxlong2000.github.io/AARD
💡 一句话要点
提出A$^2$RD架构,通过代理式自回归扩散模型解决长视频生成中的语义漂移与叙事崩塌问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长视频生成 扩散模型 代理式AI 多模态记忆 测试时优化 叙事连贯性
📋 核心要点
- 现有长视频生成方法在长时序推理中极易产生语义漂移和叙事逻辑崩塌,难以维持长期的视觉与内容一致性。
- 提出A$^2$RD架构,通过引入代理式闭环机制,将创意生成与一致性约束解耦,实现“检索-合成-优化-更新”的迭代式生成。
- 在长视频基准测试中,该方法在一致性与叙事连贯性上显著优于现有基线,有效解决了长时序生成中的误差累积与运动不连贯问题。
📝 摘要(中文)
合成具有一致性和连贯性的长视频仍是计算机视觉领域的核心挑战。现有方法在长时序生成中常面临语义漂移和叙事崩塌的问题。本文提出了A$^2$RD(Agentic Auto-Regressive Diffusion),这是一种将创意合成与一致性强制解耦的代理式自回归扩散架构。A$^2$RD将长视频合成建模为一个闭环过程,通过“检索-合成-优化-更新”循环实现视频片段的逐段生成与自我提升。该架构包含三个核心组件:用于跨模态追踪视频进展的多模态视频记忆库、用于自然过渡与视觉一致性的自适应片段生成器,以及用于防止误差累积的分层测试时自我提升机制。此外,本文引入了LVBench-C基准测试,专门针对非线性实体和环境转换进行压力测试。实验表明,A$^2$RD在1至10分钟视频生成任务中,一致性提升达30%,叙事连贯性提升达20%,在运动平滑度与过渡自然度方面表现优异。
🔬 方法详解
问题定义:长视频生成的核心痛点在于随着时间推移,模型难以维持全局语义一致性,导致视觉特征漂移(Semantic Drift)和叙事逻辑断裂(Narrative Collapse)。现有自回归模型往往因误差累积而无法处理长时序任务。
核心思路:将长视频生成视为一个代理式(Agentic)闭环过程。通过引入记忆机制与测试时自我优化,将生成过程解耦为“创意合成”与“一致性强制”,从而在保持生成多样性的同时,确保长时序的逻辑连贯。
技术框架:系统由三个核心模块构成:(i) 多模态视频记忆库(Multimodal Video Memory),负责跨模态追踪视频进展;(ii) 自适应片段生成器(Adaptive Segment Generation),根据上下文动态切换生成模式;(iii) 分层测试时自我提升机制(Hierarchical Test-Time Self-Improvement),在帧级和视频级进行递归优化。
关键创新:引入了“检索-合成-优化-更新”的闭环循环,这是区别于传统端到端扩散模型的关键。它允许模型在生成过程中实时回溯记忆,并对已生成的片段进行修正,从而有效抑制误差传播。
关键设计:采用了分层优化策略,在生成每一段视频后,利用测试时自我提升机制对视觉特征进行对齐。同时,LVBench-C基准测试通过引入非线性环境转换,强制模型在复杂场景下进行逻辑推理,而非简单的帧间插值。
🖼️ 关键图片
📊 实验亮点
A$^2$RD在长视频生成任务中表现卓越,在公开基准及自建的LVBench-C测试集上,一致性指标提升高达30%,叙事连贯性提升20%。人类评估结果进一步证实了该方法在复杂运动轨迹与场景转换平滑度上的显著优势,有效克服了长时序生成中的视觉抖动问题。
🎯 应用场景
该技术在影视工业自动化、长篇数字内容创作、虚拟现实场景构建及交互式叙事游戏开发中具有巨大潜力。通过实现分钟级的高一致性视频生成,可大幅降低高质量长视频的制作成本,并为个性化内容生成提供技术支撑。
📄 摘要(原文)
Synthesizing consistent and coherent long video remains a fundamental challenge. Existing methods suffer from semantic drift and narrative collapse over long horizons. We present A$^2$RD, an Agentic Auto-Regressive Diffusion architecture that decouples creative synthesis from consistency enforcement. A$^2$RD formulates long video synthesis as a closed-loop process that synthesizes and self-improves video segment-by-segment through a Retrieve--Synthesize--Refine--Update cycle. It comprises three core components: (i) Multimodal Video Memory that tracks video progression across modalities; (ii) Adaptive Segment Generation that switches among generation modes for natural progression and visual consistency; and (iii) Hierarchical Test-Time Self-Improvement that self-improves each segment at frame and video levels to prevent error propagation. We further introduce LVBench-C, a challenging benchmark with non-linear entity and environment transitions to stress-test long-horizon consistency. Across public and LVBench-C benchmarks spanning one- to ten-minute videos, A$^2$RD outperforms state-of-the-art baselines by up to 30% in consistency and 20% in narrative coherence. Human evaluations corroborate these gains while also highlighting notable improvements in motion and transition smoothness.