Efficient Video-to-Audio Generation via Multiple Foundation Models Mapper

作者: Gehui Chen, Guan'an Wang, Xiaowen Huang, Jitao Sang

分类: cs.CV, cs.MM, cs.SD, eess.AS

发布日期: 2025-09-05

💡 一句话要点

提出多基础模型映射器(MFM-Mapper)，高效生成与视频内容匹配的音频。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频到音频生成 多模态学习 基础模型 特征映射 GPT-2 自回归模型 跨模态对齐 高效训练

📋 核心要点

现有V2A方法依赖大量资源从头训练模型，或仅利用单一视觉编码器提取有限的视频特征。
MFM-Mapper融合双视觉编码器特征，并用GPT-2替换线性映射器，提升特征对齐能力，实现高效跨模态映射。
实验表明，MFM-Mapper仅需少量训练资源即可达到与大规模模型相当的性能，并在语义和时间一致性上有所提升。

📝 摘要（中文）

本文提出了一种名为多基础模型映射器(MFM-Mapper)的高效视频到音频(V2A)生成方法。现有的V2A生成依赖于从视频中提取语义和时间特征来调节生成模型，而从头训练这些模型需要大量的资源。因此，利用基础模型(FMs)的跨模态知识迁移和泛化能力越来越受欢迎。先前的工作探索了微调一个轻量级的映射器网络，将预训练的视觉编码器与文本到音频生成模型连接起来，用于V2A。受此启发，MFM-Mapper通过融合来自双视觉编码器的特征，受益于更丰富的语义和时间信息。此外，通过用GPT-2替换线性映射器，MFM-Mapper改进了特征对齐，将跨模态特征映射与自回归翻译任务联系起来。MFM-Mapper表现出卓越的训练效率，以更少的训练消耗在语义和时间一致性方面实现了更好的性能，仅需先前基于映射器的工作的16%的训练规模，但实现了与在更大规模上训练的模型具有竞争力的性能。

🔬 方法详解

问题定义：视频到音频生成(V2A)旨在根据给定的视频内容生成相应的音频。现有方法通常需要从头训练复杂的生成模型，计算资源需求巨大。此外，一些基于映射器的方法虽然降低了训练成本，但可能仅依赖单一视觉编码器，导致提取的视频特征不够丰富，影响生成音频的质量。

核心思路：MFM-Mapper的核心思想是利用多个预训练的基础模型，分别提取视频的不同特征，并通过一个高效的映射器网络将这些特征对齐到音频生成模型的输入空间。通过融合来自不同视觉编码器的信息，可以获得更全面、更丰富的视频语义和时间信息。同时，将线性映射器替换为GPT-2，借鉴自回归翻译的思想，增强了跨模态特征的对齐能力。

技术框架：MFM-Mapper的整体框架包括以下几个主要模块：1) 双视觉编码器：使用两个预训练的视觉编码器（具体模型未知）从视频中提取视觉特征。2) 特征融合模块：将两个视觉编码器提取的特征进行融合，得到更丰富的视频表示。3) GPT-2映射器：使用GPT-2模型作为映射器，将融合后的视频特征映射到音频生成模型的输入空间。4) 音频生成模型：使用预训练的文本到音频生成模型（具体模型未知）生成最终的音频。

关键创新：MFM-Mapper的关键创新在于：1) 融合了来自多个基础模型的特征，从而获得更丰富的视频语义和时间信息。2) 使用GPT-2作为映射器，将跨模态特征映射问题转化为自回归翻译问题，增强了特征对齐能力。3) 实现了极高的训练效率，仅需少量训练数据即可达到良好的性能。

关键设计：具体的技术细节包括：1) 如何选择和配置双视觉编码器，以提取互补的视频特征（未知）。2) 特征融合模块的具体实现方式，例如使用注意力机制或简单的拼接（未知）。3) GPT-2映射器的训练方式和参数设置，例如使用何种损失函数进行微调（未知）。4) 音频生成模型的选择和配置，以及如何将映射后的视频特征输入到该模型中（未知）。

📊 实验亮点

MFM-Mapper在实验中表现出卓越的训练效率，仅使用先前基于映射器的工作的16%的训练规模，即可在语义和时间一致性方面实现更好的性能，并达到与在更大规模上训练的模型具有竞争力的性能。具体性能指标和对比基线未在摘要中明确给出。

🎯 应用场景

MFM-Mapper在视频内容创作、电影制作、游戏开发等领域具有广泛的应用前景。它可以自动生成与视频内容匹配的背景音乐、音效等，提高内容创作效率，降低制作成本。此外，该技术还可以应用于辅助听觉障碍人士理解视频内容，提升他们的生活质量。

📄 摘要（原文）

Recent Video-to-Audio (V2A) generation relies on extracting semantic and temporal features from video to condition generative models. Training these models from scratch is resource intensive. Consequently, leveraging foundation models (FMs) has gained traction due to their cross-modal knowledge transfer and generalization capabilities. One prior work has explored fine-tuning a lightweight mapper network to connect a pre-trained visual encoder with a text-to-audio generation model for V2A. Inspired by this, we introduce the Multiple Foundation Model Mapper (MFM-Mapper). Compared to the previous mapper approach, MFM-Mapper benefits from richer semantic and temporal information by fusing features from dual visual encoders. Furthermore, by replacing a linear mapper with GPT-2, MFM-Mapper improves feature alignment, drawing parallels between cross-modal features mapping and autoregressive translation tasks. Our MFM-Mapper exhibits remarkable training efficiency. It achieves better performance in semantic and temporal consistency with fewer training consuming, requiring only 16\% of the training scale compared to previous mapper-based work, yet achieves competitive performance with models trained on a much larger scale.

Efficient Video-to-Audio Generation via Multiple Foundation Models Mapper

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册