Efficient Video-to-Audio Generation via Multiple Foundation Models Mapper

作者: Gehui Chen, Guan'an Wang, Xiaowen Huang, Jitao Sang

分类: cs.CV, cs.MM, cs.SD, eess.AS

发布日期: 2025-09-05

💡 一句话要点

提出多基础模型映射器以提高视频到音频生成效率

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频到音频生成 多基础模型 特征融合 跨模态学习 生成模型 训练效率 语义一致性

📋 核心要点

现有视频到音频生成方法在训练时资源消耗大，且难以有效提取视频中的语义和时间特征。
本文提出的MFM-Mapper通过融合双视觉编码器的特征，利用GPT-2进行特征对齐，从而提高生成效率和一致性。
实验结果表明，MFM-Mapper在语义和时间一致性方面表现优异，所需训练规模显著降低，达到竞争性能。

📝 摘要（中文）

近年来，视频到音频生成（V2A）依赖于从视频中提取语义和时间特征以条件生成模型。训练这些模型从零开始资源消耗巨大，因此利用基础模型（FMs）因其跨模态知识转移和泛化能力而受到关注。本文提出的多基础模型映射器（MFM-Mapper）通过融合来自双视觉编码器的特征，提供了更丰富的语义和时间信息。此外，通过将线性映射器替换为GPT-2，MFM-Mapper改善了特征对齐，展现出显著的训练效率，所需训练规模仅为先前映射器工作的16%，但在语义和时间一致性方面表现出竞争力。

🔬 方法详解

问题定义：本文旨在解决视频到音频生成（V2A）中现有方法在训练资源消耗和特征提取效率方面的不足。现有方法通常需要大量的训练数据和计算资源，难以实现高效的跨模态生成。

核心思路：MFM-Mapper通过引入双视觉编码器来融合更丰富的语义和时间特征，并利用GPT-2替代传统线性映射器以改善特征对齐，借鉴自回归翻译任务的思想。

技术框架：整体架构包括双视觉编码器用于特征提取，GPT-2作为映射器进行特征对齐，最后连接到文本到音频生成模型。该框架通过多模态特征融合来提升生成质量。

关键创新：MFM-Mapper的核心创新在于通过双视觉编码器的特征融合和GPT-2的使用，显著提高了特征对齐的效果，与传统的线性映射器相比，能够更好地捕捉跨模态特征的关系。

关键设计：在设计中，MFM-Mapper的训练规模仅为先前方法的16%，采用了特定的损失函数以优化语义和时间一致性，网络结构经过精心调整以适应多模态输入的特征融合需求。

🖼️ 关键图片

📊 实验亮点

实验结果显示，MFM-Mapper在语义和时间一致性方面表现优异，所需训练规模仅为先前映射器工作的16%。尽管训练规模显著降低，但其性能与在更大规模上训练的模型相当，展示了其高效性和实用性。

🎯 应用场景

该研究的潜在应用领域包括多媒体内容生成、虚拟现实和增强现实等场景，能够为视频内容创作提供高效的音频生成解决方案。未来，MFM-Mapper可能在智能音频生成和跨模态学习等领域产生深远影响，推动相关技术的发展。

📄 摘要（原文）

Recent Video-to-Audio (V2A) generation relies on extracting semantic and temporal features from video to condition generative models. Training these models from scratch is resource intensive. Consequently, leveraging foundation models (FMs) has gained traction due to their cross-modal knowledge transfer and generalization capabilities. One prior work has explored fine-tuning a lightweight mapper network to connect a pre-trained visual encoder with a text-to-audio generation model for V2A. Inspired by this, we introduce the Multiple Foundation Model Mapper (MFM-Mapper). Compared to the previous mapper approach, MFM-Mapper benefits from richer semantic and temporal information by fusing features from dual visual encoders. Furthermore, by replacing a linear mapper with GPT-2, MFM-Mapper improves feature alignment, drawing parallels between cross-modal features mapping and autoregressive translation tasks. Our MFM-Mapper exhibits remarkable training efficiency. It achieves better performance in semantic and temporal consistency with fewer training consuming, requiring only 16\% of the training scale compared to previous mapper-based work, yet achieves competitive performance with models trained on a much larger scale.

Efficient Video-to-Audio Generation via Multiple Foundation Models Mapper

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理