ControlFoley: Unified and Controllable Video-to-Audio Generation with Cross-Modal Conflict Handling

作者: Jianxuan Yang, Xinyue Guo, Zhi Cheng, Kai Wang, Lipan Zhang, Jinjie Hu, Qiang Ji, Yihua Cao, Yihao Meng, Zhaoyue Cui, Mengmei Liu, Meng Meng, Jian Luan

分类: cs.MM, cs.CV, cs.SD

发布日期: 2026-04-16

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

ControlFoley：提出统一可控的视频到音频生成框架，解决跨模态冲突问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频到音频生成 跨模态学习 文本可控性 音色控制 多模态融合

📋 核心要点

现有视频到音频生成方法在视觉-文本冲突下文本可控性弱，参考音频中时序和音色信息纠缠导致风格控制不精确，且缺乏标准化评测基准。
ControlFoley通过联合视觉编码、时序-音色解耦和模态鲁棒训练，实现对视频、文本和参考音频的精确控制，提升跨模态对齐和可控性。
实验表明，ControlFoley在多个V2A任务中达到SOTA性能，在跨模态冲突下保持卓越可控性和同步性，性能优于或媲美工业级V2A系统。

📝 摘要（中文）

本文提出ControlFoley，一个统一的多模态视频到音频(V2A)生成框架，能够精确控制视频、文本和参考音频。该框架采用联合视觉编码范式，将CLIP与时空视听编码器集成，以提高对齐性和文本可控性。此外，提出了时间-音色解耦，以抑制冗余的时间线索，同时保留判别性的音色特征。同时，设计了一种具有统一多模态表示对齐(REPA)和随机模态dropout的模态鲁棒训练方案。此外，还提出了VGGSound-TVC基准，用于评估不同程度的视觉-文本冲突下的文本可控性。大量实验表明，ControlFoley在包括文本引导、文本控制和音频控制生成在内的多个V2A任务中实现了最先进的性能。ControlFoley在跨模态冲突下实现了卓越的可控性，同时保持了强大的同步性和音频质量，并且与工业V2A系统相比，表现出具有竞争力的性能或更好的性能。

🔬 方法详解

问题定义：视频到音频生成(V2A)旨在根据视觉内容合成相应的音频。现有方法在实现鲁棒和细粒度的可控性方面面临挑战，尤其是在视觉和文本信息存在冲突时，文本控制能力较弱。此外，参考音频中包含的时间和音色信息相互纠缠，导致风格控制不够精确。缺乏标准化的评测基准也阻碍了对文本可控性的系统评估。

核心思路：ControlFoley的核心思路是构建一个统一的多模态框架，通过联合编码视频、文本和参考音频，实现对生成音频的精确控制。该框架通过跨模态对齐、时间-音色解耦和模态鲁棒训练，解决跨模态冲突和风格控制问题，从而提升生成音频的质量和可控性。

技术框架：ControlFoley框架包含以下主要模块：1) 联合视觉编码器：集成CLIP和时空视听编码器，用于提取视频和文本的对齐特征。2) 时间-音色解耦模块：用于将参考音频分解为时间和音色特征，从而实现对音频风格的精确控制。3) 多模态生成器：根据视频、文本和参考音频的特征，生成相应的音频。4) 模态鲁棒训练方案：采用统一多模态表示对齐(REPA)和随机模态dropout，提高模型在不同模态组合下的鲁棒性。

关键创新：ControlFoley的关键创新点在于：1) 联合视觉编码范式，通过集成CLIP和时空视听编码器，增强了视频和文本特征的对齐性，从而提高了文本可控性。2) 时间-音色解耦模块，通过将参考音频分解为时间和音色特征，实现了对音频风格的精确控制。3) 模态鲁棒训练方案，通过统一多模态表示对齐(REPA)和随机模态dropout，提高了模型在不同模态组合下的鲁棒性。

关键设计：在联合视觉编码器中，CLIP用于提取文本特征，时空视听编码器用于提取视频特征，并通过跨模态注意力机制实现特征融合。在时间-音色解耦模块中，采用自监督学习方法，将参考音频分解为时间和音色特征。在模态鲁棒训练方案中，REPA损失函数用于对齐不同模态的表示，随机模态dropout用于增强模型的泛化能力。VGGSound-TVC基准数据集被用于评估文本可控性，该数据集包含不同程度的视觉-文本冲突。

🖼️ 关键图片

📊 实验亮点

ControlFoley在多个V2A任务中取得了SOTA性能，包括文本引导、文本控制和音频控制生成。在VGGSound-TVC基准测试中，ControlFoley在跨模态冲突下实现了卓越的可控性，同时保持了强大的同步性和音频质量。此外，ControlFoley与工业V2A系统相比，表现出具有竞争力的性能或更好的性能，证明了其在实际应用中的潜力。

🎯 应用场景

ControlFoley在视频编辑、游戏开发、虚拟现实和增强现实等领域具有广泛的应用前景。它可以用于自动生成与视频内容相匹配的音效，提升用户体验。此外，该框架还可以用于创作具有特定风格的音频内容，为创意产业提供新的工具和可能性。未来，该技术有望应用于更复杂的场景，例如交互式电影和个性化音频生成。

📄 摘要（原文）

Recent advances in video-to-audio (V2A) generation enable high-quality audio synthesis from visual content, yet achieving robust and fine-grained controllability remains challenging. Existing methods suffer from weak textual controllability under visual-text conflict and imprecise stylistic control due to entangled temporal and timbre information in reference audio. Moreover, the lack of standardized benchmarks limits systematic evaluation. We propose ControlFoley, a unified multimodal V2A framework that enables precise control over video, text, and reference audio. We introduce a joint visual encoding paradigm that integrates CLIP with a spatio-temporal audio-visual encoder to improve alignment and textual controllability. We further propose temporal-timbre decoupling to suppress redundant temporal cues while preserving discriminative timbre features. In addition, we design a modality-robust training scheme with unified multimodal representation alignment (REPA) and random modality dropout. We also present VGGSound-TVC, a benchmark for evaluating textual controllability under varying degrees of visual-text conflict. Extensive experiments demonstrate state-of-the-art performance across multiple V2A tasks, including text-guided, text-controlled, and audio-controlled generation. ControlFoley achieves superior controllability under cross-modal conflict while maintaining strong synchronization and audio quality, and shows competitive or better performance compared to an industrial V2A system. Code, models, datasets, and demos are available at: https://yjx-research.github.io/ControlFoley/.

ControlFoley: Unified and Controllable Video-to-Audio Generation with Cross-Modal Conflict Handling

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理