Improving Joint Audio-Video Generation with Cross-Modal Context Learning

📄 arXiv: 2603.18600v1 📥 PDF

作者: Bingqi Ma, Linlong Lang, Ming Zhang, Dailan He, Xingtong Ge, Yi Zhang, Guanglu Song, Yu Liu

分类: cs.CV

发布日期: 2026-03-19


💡 一句话要点

提出跨模态上下文学习CCL,提升联合音视频生成质量与训练效率。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 音视频生成 跨模态学习 Transformer 上下文学习 无分类器引导

📋 核心要点

  1. 现有双流Transformer音视频生成方法存在跨模态交互控制、多模态背景偏差和训练推理不一致等问题。
  2. 提出跨模态上下文学习(CCL),通过时间对齐、上下文学习和动态路由等机制,解决上述问题。
  3. 实验表明,CCL在音视频生成任务上取得了SOTA性能,并显著降低了资源消耗。

📝 摘要(中文)

本文针对基于双流Transformer架构的联合音视频生成方法进行了深入研究,分析了现有方法的局限性,包括门控机制导致的模型流形变化、跨模态注意力引入的多模态背景区域偏差、以及多模态无分类器引导(CFG)在训练和推理过程中的不一致性以及多条件之间的冲突。为了解决这些问题,我们提出了跨模态上下文学习(CCL),它包含多个精心设计的模块。时间对齐RoPE和分割(TARP)有效地增强了音频潜在表示和视频潜在表示之间的时间对齐。跨模态上下文注意力(CCA)模块中的可学习上下文令牌(LCT)和动态上下文路由(DCR)为跨模态信息提供了稳定的无条件锚点,同时基于不同的训练任务进行动态路由,进一步提高了模型的收敛速度和生成质量。在推理过程中,无条件上下文引导(UCG)利用LCT提供的无条件支持来促进不同形式的CFG,从而提高训练-推理一致性并进一步缓解冲突。通过全面的评估,CCL与最近的学术方法相比,实现了最先进的性能,同时需要的资源也大大减少。

🔬 方法详解

问题定义:现有基于双流Transformer的联合音视频生成方法存在以下痛点:1) 门控机制导致模型流形变化;2) 跨模态注意力引入多模态背景区域偏差;3) 多模态无分类器引导(CFG)在训练和推理时存在不一致性,以及多条件之间的冲突。这些问题限制了生成质量和训练效率。

核心思路:本文的核心思路是引入跨模态上下文学习(CCL),通过显式地建模跨模态上下文信息,并利用这些上下文信息来指导跨模态交互,从而缓解上述问题。具体来说,CCL通过可学习的上下文令牌(LCT)提供稳定的无条件锚点,并通过动态上下文路由(DCR)根据不同的训练任务动态地调整上下文信息的利用方式。

技术框架:CCL主要包含三个模块:1) 时间对齐RoPE和分割(TARP):增强音频和视频潜在表示的时间对齐;2) 跨模态上下文注意力(CCA):利用可学习上下文令牌(LCT)和动态上下文路由(DCR)进行跨模态信息交互;3) 无条件上下文引导(UCG):在推理阶段利用LCT提供的无条件支持,提高训练-推理一致性。整体流程是,首先使用TARP对音频和视频特征进行时间对齐,然后使用CCA进行跨模态信息融合,最后在推理阶段使用UCG进行引导。

关键创新:本文的关键创新在于提出了跨模态上下文学习(CCL)框架,该框架通过引入可学习的上下文令牌(LCT)和动态上下文路由(DCR),显式地建模了跨模态上下文信息,并利用这些上下文信息来指导跨模态交互。与现有方法相比,CCL能够更有效地缓解跨模态背景偏差和训练推理不一致等问题。

关键设计:1) 时间对齐RoPE和分割(TARP):将RoPE应用于时间维度,并进行分割操作,以增强时间对齐能力。2) 可学习上下文令牌(LCT):引入一组可学习的向量作为上下文令牌,用于提供稳定的无条件锚点。3) 动态上下文路由(DCR):根据不同的训练任务,动态地调整上下文信息的利用方式,提高模型的收敛速度和生成质量。4) 无条件上下文引导(UCG):在推理阶段,利用LCT提供的无条件支持,对不同形式的CFG进行引导,提高训练-推理一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CCL在联合音视频生成任务上取得了SOTA性能,显著优于现有方法。例如,在音视频同步性指标上,CCL相比于基线方法提升了XX%。同时,CCL所需的训练资源也大大减少,相比于现有方法降低了XX%。

🎯 应用场景

该研究成果可应用于电影制作、游戏开发、虚拟现实等领域,实现高质量、同步的音视频内容生成。例如,可以根据文本描述自动生成电影片段,或者为游戏角色生成逼真的声音和表情。未来,该技术有望进一步提升多媒体内容的创作效率和用户体验。

📄 摘要(原文)

The dual-stream transformer architecture-based joint audio-video generation method has become the dominant paradigm in current research. By incorporating pre-trained video diffusion models and audio diffusion models, along with a cross-modal interaction attention module, high-quality, temporally synchronized audio-video content can be generated with minimal training data. In this paper, we first revisit the dual-stream transformer paradigm and further analyze its limitations, including model manifold variations caused by the gating mechanism controlling cross-modal interactions, biases in multi-modal background regions introduced by cross-modal attention, and the inconsistencies in multi-modal classifier-free guidance (CFG) during training and inference, as well as conflicts between multiple conditions. To alleviate these issues, we propose Cross-Modal Context Learning (CCL), equipped with several carefully designed modules. Temporally Aligned RoPE and Partitioning (TARP) effectively enhances the temporal alignment between audio latent and video latent representations. The Learnable Context Tokens (LCT) and Dynamic Context Routing (DCR) in the Cross-Modal Context Attention (CCA) module provide stable unconditional anchors for cross-modal information, while dynamically routing based on different training tasks, further enhancing the model's convergence speed and generation quality. During inference, Unconditional Context Guidance (UCG) leverages the unconditional support provided by LCT to facilitate different forms of CFG, improving train-inference consistency and further alleviating conflicts. Through comprehensive evaluations, CCL achieves state-of-the-art performance compared with recent academic methods while requiring substantially fewer resources.