ACDC: Autoregressive Coherent Multimodal Generation using Diffusion Correction

📄 arXiv: 2410.04721v1 📥 PDF

作者: Hyungjin Chung, Dohun Lee, Jong Chul Ye

分类: cs.LG, cs.CV

发布日期: 2024-10-07

备注: 25 pages, 10 figures. Project page: https://acdc2025.github.io/


💡 一句话要点

提出ACDC,结合自回归模型与扩散模型,实现高质量连贯的多模态生成。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自回归模型 扩散模型 多模态生成 零样本学习 长序列生成 上下文建模 视频生成 图像生成

📋 核心要点

  1. 自回归模型在长序列生成中易累积误差,扩散模型则缺乏全局上下文建模能力。
  2. ACDC结合自回归模型和扩散模型,利用自回归模型生成全局上下文,扩散模型进行局部校正。
  3. 实验表明,ACDC能有效缓解误差累积,显著提升多模态生成质量,且不依赖特定模型架构。

📝 摘要(中文)

自回归模型(ARMs)和扩散模型(DMs)是生成建模领域的两种主要范式,各自擅长不同的领域:ARMs擅长全局上下文建模和长序列生成,而DMs擅长生成高质量的局部上下文,尤其是在图像和短视频等连续数据方面。然而,ARMs通常会受到长序列上指数级误差累积的影响,导致物理上不合理的结果,而DMs则受到其局部上下文生成能力的限制。本文提出了一种名为“基于扩散校正的自回归连贯多模态生成”(ACDC)的零样本方法,该方法结合了ARMs和DMs的优点,无需额外的微调。ACDC利用ARMs进行全局上下文生成,并利用记忆条件DMs进行局部校正,通过校正生成的多模态token中的伪影来确保高质量的输出。特别地,我们提出了一个基于大型语言模型(LLMs)的记忆模块,该模块动态地调整DMs的条件文本,从而保留关键的全局上下文信息。在包括连贯的多帧故事生成和自回归视频生成在内的多模态任务上的实验表明,ACDC有效地缓解了误差的累积,并显著提高了生成输出的质量,在保持对特定ARM和DM架构不可知的同时,实现了卓越的性能。

🔬 方法详解

问题定义:论文旨在解决自回归模型在长序列多模态生成中容易出现的误差累积问题,以及扩散模型缺乏全局上下文建模能力的问题。现有方法要么依赖于单一模型,要么需要复杂的训练流程,难以兼顾全局连贯性和局部真实性。

核心思路:ACDC的核心思路是利用自回归模型擅长全局上下文建模的优势,生成整体框架,然后利用扩散模型擅长生成高质量局部细节的优势,对自回归模型生成的token进行校正,从而在保证全局连贯性的同时,提升局部真实性。

技术框架:ACDC的整体框架包含两个主要模块:自回归模型(ARM)和记忆条件扩散模型(Memory-Conditioned DM)。ARM负责生成多模态序列的全局结构,然后将生成的token和上下文信息传递给记忆模块。记忆模块基于大型语言模型(LLM),动态调整扩散模型的条件文本,保留全局上下文信息。最后,扩散模型根据调整后的条件文本,对ARM生成的token进行局部校正,生成高质量的输出。

关键创新:ACDC的关键创新在于将自回归模型和扩散模型以一种零样本的方式结合起来,无需额外的微调。此外,记忆模块的设计能够动态调整扩散模型的条件文本,从而更好地保留全局上下文信息,避免了扩散模型在校正过程中破坏全局连贯性。

关键设计:记忆模块是ACDC的关键设计之一。它利用大型语言模型(LLM)来编码全局上下文信息,并根据当前生成的token动态调整扩散模型的条件文本。具体的调整方式未知,但目标是确保扩散模型在校正局部细节的同时,不会破坏全局的连贯性。此外,论文强调ACDC对具体的ARM和DM架构是不可知的,这意味着它可以灵活地与不同的自回归模型和扩散模型结合使用。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ACDC在多帧故事生成和自回归视频生成任务上表现出色,有效缓解了误差累积,显著提高了生成质量。具体性能数据未知,但论文强调ACDC在保持对特定ARM和DM架构不可知的同时,实现了卓越的性能,表明其具有良好的泛化能力。

🎯 应用场景

ACDC可应用于故事生成、视频生成、图像编辑等多个领域。通过结合自回归模型的全局规划能力和扩散模型的细节生成能力,ACDC能够生成更连贯、更真实的视觉内容,具有广泛的应用前景,例如游戏开发、电影制作、虚拟现实等。

📄 摘要(原文)

Autoregressive models (ARMs) and diffusion models (DMs) represent two leading paradigms in generative modeling, each excelling in distinct areas: ARMs in global context modeling and long-sequence generation, and DMs in generating high-quality local contexts, especially for continuous data such as images and short videos. However, ARMs often suffer from exponential error accumulation over long sequences, leading to physically implausible results, while DMs are limited by their local context generation capabilities. In this work, we introduce Autoregressive Coherent multimodal generation with Diffusion Correction (ACDC), a zero-shot approach that combines the strengths of both ARMs and DMs at the inference stage without the need for additional fine-tuning. ACDC leverages ARMs for global context generation and memory-conditioned DMs for local correction, ensuring high-quality outputs by correcting artifacts in generated multimodal tokens. In particular, we propose a memory module based on large language models (LLMs) that dynamically adjusts the conditioning texts for the DMs, preserving crucial global context information. Our experiments on multimodal tasks, including coherent multi-frame story generation and autoregressive video generation, demonstrate that ACDC effectively mitigates the accumulation of errors and significantly enhances the quality of generated outputs, achieving superior performance while remaining agnostic to specific ARM and DM architectures. Project page: https://acdc2025.github.io/