ControlFoley: Unified and Controllable Video-to-Audio Generation with Cross-Modal Conflict Handling

📄 arXiv: 2604.15086v1 📥 PDF

作者: Jianxuan Yang, Xinyue Guo, Zhi Cheng, Kai Wang, Lipan Zhang, Jinjie Hu, Qiang Ji, Yihua Cao, Yihao Meng, Zhaoyue Cui, Mengmei Liu, Meng Meng, Jian Luan

分类: cs.MM, cs.CV, cs.SD

发布日期: 2026-04-16

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

ControlFoley:提出统一可控的视频到音频生成框架,解决跨模态冲突问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频到音频生成 跨模态学习 文本可控性 音色控制 多模态融合

📋 核心要点

  1. 现有视频到音频生成方法在视觉-文本冲突下文本可控性弱,参考音频中时序和音色信息纠缠导致风格控制不精确,且缺乏标准化评测基准。
  2. ControlFoley通过联合视觉编码、时序-音色解耦和模态鲁棒训练,实现对视频、文本和参考音频的精确控制,提升跨模态对齐和可控性。
  3. 实验表明,ControlFoley在多个V2A任务中达到SOTA性能,在跨模态冲突下保持卓越可控性和同步性,性能优于或媲美工业级V2A系统。

📝 摘要(中文)

本文提出ControlFoley,一个统一的多模态视频到音频(V2A)生成框架,能够精确控制视频、文本和参考音频。该框架采用联合视觉编码范式,将CLIP与时空视听编码器集成,以提高对齐性和文本可控性。此外,提出了时间-音色解耦,以抑制冗余的时间线索,同时保留判别性的音色特征。同时,设计了一种具有统一多模态表示对齐(REPA)和随机模态dropout的模态鲁棒训练方案。此外,还提出了VGGSound-TVC基准,用于评估不同程度的视觉-文本冲突下的文本可控性。大量实验表明,ControlFoley在包括文本引导、文本控制和音频控制生成在内的多个V2A任务中实现了最先进的性能。ControlFoley在跨模态冲突下实现了卓越的可控性,同时保持了强大的同步性和音频质量,并且与工业V2A系统相比,表现出具有竞争力的性能或更好的性能。

🔬 方法详解

问题定义:视频到音频生成(V2A)旨在根据视觉内容合成相应的音频。现有方法在实现鲁棒和细粒度的可控性方面面临挑战,尤其是在视觉和文本信息存在冲突时,文本控制能力较弱。此外,参考音频中包含的时间和音色信息相互纠缠,导致风格控制不够精确。缺乏标准化的评测基准也阻碍了对文本可控性的系统评估。

核心思路:ControlFoley的核心思路是构建一个统一的多模态框架,通过联合编码视频、文本和参考音频,实现对生成音频的精确控制。该框架通过跨模态对齐、时间-音色解耦和模态鲁棒训练,解决跨模态冲突和风格控制问题,从而提升生成音频的质量和可控性。

技术框架:ControlFoley框架包含以下主要模块:1) 联合视觉编码器:集成CLIP和时空视听编码器,用于提取视频和文本的对齐特征。2) 时间-音色解耦模块:用于将参考音频分解为时间和音色特征,从而实现对音频风格的精确控制。3) 多模态生成器:根据视频、文本和参考音频的特征,生成相应的音频。4) 模态鲁棒训练方案:采用统一多模态表示对齐(REPA)和随机模态dropout,提高模型在不同模态组合下的鲁棒性。

关键创新:ControlFoley的关键创新点在于:1) 联合视觉编码范式,通过集成CLIP和时空视听编码器,增强了视频和文本特征的对齐性,从而提高了文本可控性。2) 时间-音色解耦模块,通过将参考音频分解为时间和音色特征,实现了对音频风格的精确控制。3) 模态鲁棒训练方案,通过统一多模态表示对齐(REPA)和随机模态dropout,提高了模型在不同模态组合下的鲁棒性。

关键设计:在联合视觉编码器中,CLIP用于提取文本特征,时空视听编码器用于提取视频特征,并通过跨模态注意力机制实现特征融合。在时间-音色解耦模块中,采用自监督学习方法,将参考音频分解为时间和音色特征。在模态鲁棒训练方案中,REPA损失函数用于对齐不同模态的表示,随机模态dropout用于增强模型的泛化能力。VGGSound-TVC基准数据集被用于评估文本可控性,该数据集包含不同程度的视觉-文本冲突。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ControlFoley在多个V2A任务中取得了SOTA性能,包括文本引导、文本控制和音频控制生成。在VGGSound-TVC基准测试中,ControlFoley在跨模态冲突下实现了卓越的可控性,同时保持了强大的同步性和音频质量。此外,ControlFoley与工业V2A系统相比,表现出具有竞争力的性能或更好的性能,证明了其在实际应用中的潜力。

🎯 应用场景

ControlFoley在视频编辑、游戏开发、虚拟现实和增强现实等领域具有广泛的应用前景。它可以用于自动生成与视频内容相匹配的音效,提升用户体验。此外,该框架还可以用于创作具有特定风格的音频内容,为创意产业提供新的工具和可能性。未来,该技术有望应用于更复杂的场景,例如交互式电影和个性化音频生成。

📄 摘要(原文)

Recent advances in video-to-audio (V2A) generation enable high-quality audio synthesis from visual content, yet achieving robust and fine-grained controllability remains challenging. Existing methods suffer from weak textual controllability under visual-text conflict and imprecise stylistic control due to entangled temporal and timbre information in reference audio. Moreover, the lack of standardized benchmarks limits systematic evaluation. We propose ControlFoley, a unified multimodal V2A framework that enables precise control over video, text, and reference audio. We introduce a joint visual encoding paradigm that integrates CLIP with a spatio-temporal audio-visual encoder to improve alignment and textual controllability. We further propose temporal-timbre decoupling to suppress redundant temporal cues while preserving discriminative timbre features. In addition, we design a modality-robust training scheme with unified multimodal representation alignment (REPA) and random modality dropout. We also present VGGSound-TVC, a benchmark for evaluating textual controllability under varying degrees of visual-text conflict. Extensive experiments demonstrate state-of-the-art performance across multiple V2A tasks, including text-guided, text-controlled, and audio-controlled generation. ControlFoley achieves superior controllability under cross-modal conflict while maintaining strong synchronization and audio quality, and shows competitive or better performance compared to an industrial V2A system. Code, models, datasets, and demos are available at: https://yjx-research.github.io/ControlFoley/.