MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis

作者: Ho Kei Cheng, Masato Ishii, Akio Hayakawa, Takashi Shibuya, Alexander Schwing, Yuki Mitsufuji

分类: cs.CV, cs.LG, cs.SD, eess.AS

发布日期: 2024-12-19 (更新: 2025-04-07)

备注: Accepted to CVPR 2025. Project page: https://hkchengrex.github.io/MMAudio

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

MMAudio：提出多模态联合训练框架，用于高质量视频到音频合成

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频到音频合成 多模态学习 联合训练 流匹配 视听同步

📋 核心要点

现有视频到音频合成方法依赖有限的视频数据，难以生成高质量、语义对齐的音频。
MMAudio通过联合训练视频-音频和文本-音频数据，学习生成高质量且语义对齐的音频样本。
实验表明，MMAudio在音频质量、语义对齐和视听同步方面均优于现有方法，且推理速度快。

📝 摘要（中文）

本文提出了一种新颖的多模态联合训练框架MMAudio，用于从视频和可选文本条件中合成高质量和同步的音频。与仅以（有限的）视频数据为条件的单模态训练不同，MMAudio通过更大规模、易于获得的文本-音频数据进行联合训练，以学习生成语义对齐的高质量音频样本。此外，我们使用条件同步模块来提高视听同步性，该模块在帧级别将视频条件与音频潜在变量对齐。通过流匹配目标训练，MMAudio在音频质量、语义对齐和视听同步方面，在公共模型中实现了新的视频到音频的最先进水平，同时具有较低的推理时间（生成8秒剪辑需要1.23秒）和仅157M的参数。MMAudio在文本到音频生成方面也取得了令人惊讶的竞争性能，表明联合训练不会阻碍单模态性能。代码和演示可在https://hkchengrex.github.io/MMAudio获得。

🔬 方法详解

问题定义：视频到音频合成旨在根据给定的视频内容生成相应的音频。现有方法通常只依赖于有限的视频数据进行训练，导致生成的音频质量不高，语义对齐效果差，并且难以保证视听同步性。

核心思路：MMAudio的核心思路是利用大规模的文本-音频数据进行联合训练，从而弥补视频数据不足的问题。通过联合训练，模型可以学习到更丰富的音频语义信息，并将其与视频内容进行对齐，从而生成更高质量、更符合视频内容的音频。此外，引入条件同步模块来显式地对齐视频和音频的潜在表示，从而提高视听同步性。

技术框架：MMAudio的整体框架包括视频编码器、文本编码器（可选）、音频解码器和条件同步模块。视频编码器提取视频特征，文本编码器提取文本特征（如果提供）。音频解码器基于视频和/或文本特征生成音频。条件同步模块在帧级别将视频特征与音频潜在变量对齐。整个模型采用流匹配目标进行训练。

关键创新：MMAudio的关键创新在于多模态联合训练框架和条件同步模块。多模态联合训练允许模型利用大规模的文本-音频数据来提高音频生成质量和语义对齐效果。条件同步模块显式地对齐视频和音频的潜在表示，从而提高视听同步性。

关键设计：MMAudio使用预训练的视频编码器和文本编码器来提取特征。音频解码器采用基于流匹配的生成模型。条件同步模块使用注意力机制将视频特征与音频潜在变量对齐。损失函数包括流匹配损失和同步损失。模型参数量为157M，推理速度快（生成8秒音频仅需1.23秒）。

🖼️ 关键图片

📊 实验亮点

MMAudio在视频到音频合成任务上取得了显著的性能提升，在音频质量、语义对齐和视听同步方面均优于现有方法。实验结果表明，MMAudio在公共模型中达到了最先进水平，并且具有较低的推理时间和参数量。此外，MMAudio在文本到音频生成方面也取得了具有竞争力的性能，表明联合训练不会损害单模态性能。

🎯 应用场景

MMAudio具有广泛的应用前景，包括视频编辑、游戏开发、虚拟现实、电影制作等领域。它可以用于自动生成视频的背景音乐、音效，增强视频的沉浸感和真实感。此外，MMAudio还可以用于辅助听力障碍人士理解视频内容，提高他们的生活质量。未来，该技术有望应用于更广泛的多媒体内容创作和理解领域。

📄 摘要（原文）

We propose to synthesize high-quality and synchronized audio, given video and optional text conditions, using a novel multimodal joint training framework MMAudio. In contrast to single-modality training conditioned on (limited) video data only, MMAudio is jointly trained with larger-scale, readily available text-audio data to learn to generate semantically aligned high-quality audio samples. Additionally, we improve audio-visual synchrony with a conditional synchronization module that aligns video conditions with audio latents at the frame level. Trained with a flow matching objective, MMAudio achieves new video-to-audio state-of-the-art among public models in terms of audio quality, semantic alignment, and audio-visual synchronization, while having a low inference time (1.23s to generate an 8s clip) and just 157M parameters. MMAudio also achieves surprisingly competitive performance in text-to-audio generation, showing that joint training does not hinder single-modality performance. Code and demo are available at: https://hkchengrex.github.io/MMAudio

MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理