Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos

📄 arXiv: 2406.09272v3 📥 PDF

作者: Changan Chen, Puyuan Peng, Ami Baid, Zihui Xue, Wei-Ning Hsu, David Harwath, Kristen Grauman

分类: cs.CV, cs.AI, cs.SD, eess.AS

发布日期: 2024-06-13 (更新: 2024-07-25)

备注: Project page: https://vision.cs.utexas.edu/projects/action2sound. ECCV 2024 camera-ready version


💡 一句话要点

提出AV-LDM模型,从第一视角视频中生成环境感知的动作声音

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 视频到音频生成 环境感知 第一视角视频 解耦学习 检索增强生成

📋 核心要点

  1. 现有视频到音频生成方法忽略了屏幕外的环境声音,导致生成音频时出现幻觉或不受控的环境噪声。
  2. 提出AV-LDM模型,通过音频条件机制解耦前景动作声音和背景环境声音,实现环境感知的音频生成。
  3. 在Ego4D和EPIC-KITCHENS数据集上验证了AV-LDM的有效性,并构建了包含120万片段的Ego4D-Sounds数据集。

📝 摘要(中文)

本文提出了一种环境感知的音频生成模型AV-LDM,用于从第一视角视频中生成逼真的动作声音。现有方法通常假设视频和音频之间存在完全对应关系,但许多声音发生在屏幕外,与视觉内容几乎没有对应关系,导致生成不受控制的环境声音或幻觉。AV-LDM模型通过一种新颖的音频条件机制,学习解耦前景动作声音和环境背景声音。给定一段无声视频,模型利用检索增强生成技术,创建在语义和时间上与视觉内容匹配的音频。该模型在Ego4D和EPIC-KITCHENS两个真实世界的第一视角视频数据集上进行了训练和评估,并引入了Ego4D-Sounds数据集,包含120万个具有动作-音频对应关系的片段。实验结果表明,该模型优于现有方法,能够控制环境声音的生成,并有望推广到计算机图形游戏片段。

🔬 方法详解

问题定义:现有视频到音频生成方法的一个主要痛点在于,它们通常假设视频内容与音频内容完全对应,忽略了视频中存在的环境背景音。然而,在真实场景中,许多声音(例如,环境噪声、屏幕外的声音)与视频内容并没有直接的对应关系。这导致现有模型在生成音频时,容易产生与视频内容不相关的幻觉声音,或者无法控制环境背景音的生成。

核心思路:本文的核心思路是通过解耦前景动作声音和背景环境声音,从而实现环境感知的音频生成。具体来说,模型学习区分视频中与动作相关的声音和与环境相关的声音,并分别进行建模。这样,在生成音频时,模型可以根据视频内容生成相应的动作声音,同时根据场景生成合理的环境声音,从而避免幻觉声音的产生,并实现对环境声音的控制。

技术框架:AV-LDM模型采用检索增强生成框架。整体流程如下:首先,模型接收一段无声视频作为输入。然后,模型利用视觉特征提取器提取视频的视觉特征。接下来,模型使用检索模块,从预先构建的音频库中检索与视频内容相关的音频片段。最后,模型使用生成模块,根据视频特征和检索到的音频片段,生成最终的音频。生成模块采用Latent Diffusion Model (LDM),并引入了一种新颖的音频条件机制,用于解耦前景动作声音和背景环境声音。

关键创新:该论文最重要的技术创新点在于提出了一个环境感知的音频生成模型,能够有效地解耦前景动作声音和背景环境声音。与现有方法相比,该模型能够更好地处理真实场景中的复杂音频环境,从而生成更逼真、更可控的音频。此外,该论文还提出了一个新颖的音频条件机制,用于指导LDM生成与视频内容相关的音频。

关键设计:在音频条件机制方面,论文设计了一种基于注意力机制的融合模块,将视频特征和检索到的音频片段进行融合。在损失函数方面,论文采用了多种损失函数,包括对抗损失、重构损失和对比损失,以提高生成音频的质量和一致性。具体参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AV-LDM模型在Ego4D和EPIC-KITCHENS数据集上均优于现有方法。具体来说,AV-LDM在音频质量和与视频内容的一致性方面均取得了显著提升。此外,实验还表明,AV-LDM模型能够有效地控制环境声音的生成,并有望推广到计算机图形游戏片段。Ego4D-Sounds数据集的构建也为相关研究提供了宝贵的数据资源。

🎯 应用场景

该研究成果可广泛应用于电影制作、虚拟现实、游戏开发等领域。例如,可以自动为电影或游戏中的场景生成逼真的音效,增强用户的沉浸式体验。此外,该技术还可以用于辅助听觉障碍人士理解视频内容,提高他们的生活质量。未来,该技术有望进一步发展,实现更加智能化的音频生成和编辑。

📄 摘要(原文)

Generating realistic audio for human actions is important for many applications, such as creating sound effects for films or virtual reality games. Existing approaches implicitly assume total correspondence between the video and audio during training, yet many sounds happen off-screen and have weak to no correspondence with the visuals -- resulting in uncontrolled ambient sounds or hallucinations at test time. We propose a novel ambient-aware audio generation model, AV-LDM. We devise a novel audio-conditioning mechanism to learn to disentangle foreground action sounds from the ambient background sounds in in-the-wild training videos. Given a novel silent video, our model uses retrieval-augmented generation to create audio that matches the visual content both semantically and temporally. We train and evaluate our model on two in-the-wild egocentric video datasets, Ego4D and EPIC-KITCHENS, and we introduce Ego4D-Sounds -- 1.2M curated clips with action-audio correspondence. Our model outperforms an array of existing methods, allows controllable generation of the ambient sound, and even shows promise for generalizing to computer graphics game clips. Overall, our approach is the first to focus video-to-audio generation faithfully on the observed visual content despite training from uncurated clips with natural background sounds.