MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis

📄 arXiv: 2412.15322v2 📥 PDF

作者: Ho Kei Cheng, Masato Ishii, Akio Hayakawa, Takashi Shibuya, Alexander Schwing, Yuki Mitsufuji

分类: cs.CV, cs.LG, cs.SD, eess.AS

发布日期: 2024-12-19 (更新: 2025-04-07)

备注: Accepted to CVPR 2025. Project page: https://hkchengrex.github.io/MMAudio

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

MMAudio:提出多模态联合训练框架,用于高质量视频到音频合成

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频到音频合成 多模态学习 联合训练 流匹配 视听同步

📋 核心要点

  1. 现有视频到音频合成方法依赖有限的视频数据,难以生成高质量、语义对齐的音频。
  2. MMAudio通过联合训练视频-音频和文本-音频数据,学习生成高质量且语义对齐的音频样本。
  3. 实验表明,MMAudio在音频质量、语义对齐和视听同步方面均优于现有方法,且推理速度快。

📝 摘要(中文)

本文提出了一种新颖的多模态联合训练框架MMAudio,用于从视频和可选文本条件中合成高质量和同步的音频。与仅以(有限的)视频数据为条件的单模态训练不同,MMAudio通过更大规模、易于获得的文本-音频数据进行联合训练,以学习生成语义对齐的高质量音频样本。此外,我们使用条件同步模块来提高视听同步性,该模块在帧级别将视频条件与音频潜在变量对齐。通过流匹配目标训练,MMAudio在音频质量、语义对齐和视听同步方面,在公共模型中实现了新的视频到音频的最先进水平,同时具有较低的推理时间(生成8秒剪辑需要1.23秒)和仅157M的参数。MMAudio在文本到音频生成方面也取得了令人惊讶的竞争性能,表明联合训练不会阻碍单模态性能。代码和演示可在https://hkchengrex.github.io/MMAudio获得。

🔬 方法详解

问题定义:视频到音频合成旨在根据给定的视频内容生成相应的音频。现有方法通常只依赖于有限的视频数据进行训练,导致生成的音频质量不高,语义对齐效果差,并且难以保证视听同步性。

核心思路:MMAudio的核心思路是利用大规模的文本-音频数据进行联合训练,从而弥补视频数据不足的问题。通过联合训练,模型可以学习到更丰富的音频语义信息,并将其与视频内容进行对齐,从而生成更高质量、更符合视频内容的音频。此外,引入条件同步模块来显式地对齐视频和音频的潜在表示,从而提高视听同步性。

技术框架:MMAudio的整体框架包括视频编码器、文本编码器(可选)、音频解码器和条件同步模块。视频编码器提取视频特征,文本编码器提取文本特征(如果提供)。音频解码器基于视频和/或文本特征生成音频。条件同步模块在帧级别将视频特征与音频潜在变量对齐。整个模型采用流匹配目标进行训练。

关键创新:MMAudio的关键创新在于多模态联合训练框架和条件同步模块。多模态联合训练允许模型利用大规模的文本-音频数据来提高音频生成质量和语义对齐效果。条件同步模块显式地对齐视频和音频的潜在表示,从而提高视听同步性。

关键设计:MMAudio使用预训练的视频编码器和文本编码器来提取特征。音频解码器采用基于流匹配的生成模型。条件同步模块使用注意力机制将视频特征与音频潜在变量对齐。损失函数包括流匹配损失和同步损失。模型参数量为157M,推理速度快(生成8秒音频仅需1.23秒)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MMAudio在视频到音频合成任务上取得了显著的性能提升,在音频质量、语义对齐和视听同步方面均优于现有方法。实验结果表明,MMAudio在公共模型中达到了最先进水平,并且具有较低的推理时间和参数量。此外,MMAudio在文本到音频生成方面也取得了具有竞争力的性能,表明联合训练不会损害单模态性能。

🎯 应用场景

MMAudio具有广泛的应用前景,包括视频编辑、游戏开发、虚拟现实、电影制作等领域。它可以用于自动生成视频的背景音乐、音效,增强视频的沉浸感和真实感。此外,MMAudio还可以用于辅助听力障碍人士理解视频内容,提高他们的生活质量。未来,该技术有望应用于更广泛的多媒体内容创作和理解领域。

📄 摘要(原文)

We propose to synthesize high-quality and synchronized audio, given video and optional text conditions, using a novel multimodal joint training framework MMAudio. In contrast to single-modality training conditioned on (limited) video data only, MMAudio is jointly trained with larger-scale, readily available text-audio data to learn to generate semantically aligned high-quality audio samples. Additionally, we improve audio-visual synchrony with a conditional synchronization module that aligns video conditions with audio latents at the frame level. Trained with a flow matching objective, MMAudio achieves new video-to-audio state-of-the-art among public models in terms of audio quality, semantic alignment, and audio-visual synchronization, while having a low inference time (1.23s to generate an 8s clip) and just 157M parameters. MMAudio also achieves surprisingly competitive performance in text-to-audio generation, showing that joint training does not hinder single-modality performance. Code and demo are available at: https://hkchengrex.github.io/MMAudio