AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer

作者: Pengjun Fang, Yingqing He, Yazhou Xing, Qifeng Chen, Ser-Nam Lim, Harry Yang

分类: cs.SD, cs.CV, cs.LG, cs.MM, eess.AS

发布日期: 2026-03-16

备注: Accepted at ICLR 2026. 15 pages, 5 figures

💡 一句话要点

AC-Foley：基于参考音频的视频到音频合成，实现精细声学迁移

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 视频到音频合成 音频条件生成 Foley生成 声学迁移 多模态学习

📋 核心要点

现有V2A方法依赖文本提示，但存在语义粒度粗糙和文本描述模糊的问题，限制了细粒度声音合成。
AC-Foley通过参考音频直接控制声音生成，绕过文本语义模糊，实现精确的声学属性操作。
实验表明，AC-Foley在参考音频条件下实现了最先进的Foley生成性能，且在无音频条件下仍具竞争力。

📝 摘要（中文）

现有的视频到音频(V2A)生成方法主要依赖于文本提示和视觉信息来合成音频。然而，存在两个关键瓶颈：训练数据中语义粒度差距，例如将声学上不同的声音混淆在粗糙的标签下；以及描述微观声学特征的文本模糊性。这些瓶颈使得使用文本控制模式难以进行细粒度的声音合成。为了解决这些限制，我们提出了AC-Foley，一种音频条件V2A模型，它直接利用参考音频来实现对生成声音的精确和细粒度控制。这种方法能够实现细粒度的声音合成、音色迁移、零样本声音生成，并提高音频质量。通过直接以音频信号为条件，我们的方法绕过了文本描述的语义模糊性，同时实现了对声学属性的精确操作。经验表明，当以参考音频为条件时，AC-Foley在Foley生成方面实现了最先进的性能，即使没有音频条件，也与最先进的视频到音频方法相比具有竞争力。

🔬 方法详解

问题定义：现有的视频到音频生成方法依赖文本提示，但文本描述存在语义模糊性，难以精确控制声音的细节特征，例如音色和细微的声学属性。此外，训练数据中的标签通常是粗粒度的，无法区分声学上不同的声音，导致模型难以生成高质量和细粒度的音频。

核心思路：AC-Foley的核心思路是利用参考音频直接作为条件来指导视频到音频的生成过程。通过直接以音频信号为条件，模型可以绕过文本描述的语义模糊性，并学习到更精确的声学属性表示。这种方法允许模型根据参考音频的特征来调整生成音频的音色、节奏和风格，从而实现细粒度的声音合成和声学迁移。

技术框架：AC-Foley的整体框架包括视频编码器、音频编码器和音频解码器。视频编码器负责提取视频帧的视觉特征，音频编码器负责提取参考音频的声学特征。然后，模型将视觉特征和声学特征融合在一起，输入到音频解码器中生成目标音频。该框架采用了一种注意力机制，允许模型根据视觉内容自适应地选择相关的声学特征，从而提高生成音频的质量和相关性。

关键创新：AC-Foley的关键创新在于使用参考音频作为条件来指导视频到音频的生成。与传统的基于文本提示的方法相比，这种方法能够实现更精确和细粒度的声音控制。此外，AC-Foley还提出了一种新的音频编码器，能够有效地提取参考音频的声学特征，并将其与视觉特征融合在一起。

关键设计：AC-Foley的关键设计包括：1) 使用预训练的视觉模型（例如ResNet）作为视频编码器；2) 使用基于Transformer的音频编码器来提取参考音频的声学特征；3) 使用条件变分自编码器（CVAE）作为音频解码器，以生成多样化的音频样本；4) 采用对抗训练（GAN）来提高生成音频的真实感；5) 使用多种损失函数，包括L1损失、感知损失和对抗损失，来优化模型的性能。

🖼️ 关键图片

📊 实验亮点

AC-Foley在Foley生成任务上取得了显著的成果。在参考音频条件下，AC-Foley实现了最先进的性能，超过了现有的V2A方法。即使在没有参考音频的情况下，AC-Foley仍然能够生成高质量的音频，并与最先进的V2A方法相比具有竞争力。实验结果表明，AC-Foley能够有效地利用参考音频的信息，生成更精确和细粒度的音频。

🎯 应用场景

AC-Foley具有广泛的应用前景，包括电影制作、游戏开发、虚拟现实和增强现实等领域。它可以用于自动生成与视频内容相匹配的Foley音效，例如脚步声、关门声和环境声音。此外，AC-Foley还可以用于进行声音设计和音色迁移，例如将一种乐器的声音转换为另一种乐器的声音。该技术有望提高音频制作的效率和质量，并为用户提供更丰富的视听体验。

📄 摘要（原文）

Existing video-to-audio (V2A) generation methods predominantly rely on text prompts alongside visual information to synthesize audio. However, two critical bottlenecks persist: semantic granularity gaps in training data, such as conflating acoustically distinct sounds under coarse labels, and textual ambiguity in describing micro-acoustic features. These bottlenecks make it difficult to perform fine-grained sound synthesis using text-controlled modes. To address these limitations, we propose AC-Foley, an audio-conditioned V2A model that directly leverages reference audio to achieve precise and fine-grained control over generated sounds. This approach enables fine-grained sound synthesis, timbre transfer, zero-shot sound generation, and improved audio quality. By directly conditioning on audio signals, our approach bypasses the semantic ambiguities of text descriptions while enabling precise manipulation of acoustic attributes. Empirically, AC-Foley achieves state-of-the-art performance for Foley generation when conditioned on reference audio, while remaining competitive with state-of-the-art video-to-audio methods even without audio conditioning.

AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理