Diffusion Models for Joint Audio-Video Generation

📄 arXiv: 2603.16093v1 📥 PDF

作者: Alejandro Paredes La Torre

分类: cs.SD, cs.AI, cs.CV, cs.MM

发布日期: 2026-03-17


💡 一句话要点

提出基于扩散模型的联合音视频生成方法,并构建高质量数据集。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 音视频生成 扩散模型 多模态学习 条件生成 数据集构建

📋 核心要点

  1. 现有音视频生成模型难以保证生成内容在语义和时间上的高度一致性。
  2. 提出一种基于扩散模型的两阶段生成框架,先生成视频,再根据视频和文本提示生成音频。
  3. 构建了高质量的音视频数据集,并在该数据集上验证了所提出方法的有效性。

📝 摘要(中文)

多模态生成模型在单模态视频和音频合成方面取得了显著进展,但真正的联合音视频生成仍然是一个开放的挑战。本文探讨了四个关键贡献以推进该领域。首先,发布了两个高质量的配对音视频数据集,包含13小时的游戏视频片段和64小时的音乐会表演,每个样本被分割成一致的34秒片段,以方便可重复的研究。其次,在数据集上从头开始训练了MM-Diffusion架构,展示了其生成语义连贯的音视频对的能力,并定量评估了快速动作和音乐提示的对齐情况。第三,研究了利用预训练的视频和音频编码器-解码器进行联合潜在扩散,揭示了多模态解码阶段的挑战和不一致性。最后,提出了一种顺序两步文本到音视频生成流程:首先生成视频,然后以视频输出和原始提示为条件来合成时间同步的音频。实验表明,这种模块化方法可以生成高保真度的音视频。

🔬 方法详解

问题定义:现有的音视频生成方法通常难以保证生成内容在语义和时间上的高度一致性,尤其是在处理快速动作和复杂音乐场景时。此外,缺乏高质量的配对音视频数据集也限制了相关研究的进展。

核心思路:本文的核心思路是将音视频生成任务分解为两个阶段:首先,根据文本提示生成视频;然后,以生成的视频和原始文本提示为条件,生成与视频内容同步的音频。这种解耦的方式可以更好地利用视频信息来指导音频生成,从而提高音视频的一致性。

技术框架:整体框架包含两个主要阶段:1) 视频生成阶段:使用扩散模型根据文本提示生成视频片段。2) 音频生成阶段:使用另一个扩散模型,以生成的视频片段和原始文本提示作为条件,生成与视频内容同步的音频片段。MM-Diffusion架构被用于训练,并探索了联合潜在扩散方法。

关键创新:本文的关键创新在于提出了一个两阶段的音视频生成流程,该流程能够有效地利用视频信息来指导音频生成,从而提高音视频的一致性。此外,本文还构建了两个高质量的配对音视频数据集,为相关研究提供了宝贵的数据资源。

关键设计:在音频生成阶段,使用了生成的视频片段和原始文本提示作为条件。具体来说,视频信息通过某种编码方式(例如,使用预训练的视频编码器)被嵌入到音频生成模型的输入中。损失函数的设计旨在鼓励生成的音频与视频内容在时间和语义上保持一致。数据集被分割成34秒的片段,以保证训练的效率和生成结果的连贯性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的两阶段生成框架能够生成高质量的音视频对,并且在快速动作和音乐提示的对齐方面表现出色。通过定量评估,验证了MM-Diffusion架构在生成语义连贯的音视频对方面的能力。此外,构建的两个高质量数据集也为后续研究提供了重要的资源。

🎯 应用场景

该研究成果可应用于游戏开发、电影制作、虚拟现实等领域,例如,可以用于自动生成游戏场景中的背景音乐和音效,或者为电影生成与画面内容匹配的配乐。此外,该技术还可以用于辅助音乐创作,例如,根据用户提供的视频片段自动生成相应的音乐。

📄 摘要(原文)

Multimodal generative models have shown remarkable progress in single-modality video and audio synthesis, yet truly joint audio-video generation remains an open challenge. In this paper, I explore four key contributions to advance this field. First, I release two high-quality, paired audio-video datasets. The datasets consisting on 13 hours of video-game clips and 64 hours of concert performances, each segmented into consistent 34-second samples to facilitate reproducible research. Second, I train the MM-Diffusion architecture from scratch on our datasets, demonstrating its ability to produce semantically coherent audio-video pairs and quantitatively evaluating alignment on rapid actions and musical cues. Third, I investigate joint latent diffusion by leveraging pretrained video and audio encoder-decoders, uncovering challenges and inconsistencies in the multimodal decoding stage. Finally, I propose a sequential two-step text-to-audio-video generation pipeline: first generating video, then conditioning on both the video output and the original prompt to synthesize temporally synchronized audio. My experiments show that this modular approach yields high-fidelity generations of audio video generation.