StereoSync: Spatially-Aware Stereo Audio Generation from Video

作者: Christian Marinoni, Riccardo Fosco Gramaccioni, Kazuki Shimada, Takashi Shibuya, Yuki Mitsufuji, Danilo Comminiello

分类: cs.SD, cs.CV, cs.LG, cs.MM, eess.AS

发布日期: 2025-10-07

备注: Accepted at IJCNN 2025

💡 一句话要点

StereoSync：提出一种空间感知立体声音频生成模型，用于视频配乐。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频配乐 空间感知 立体声音频生成 扩散模型 深度估计

📋 核心要点

现有视频配乐方法主要关注时间同步，忽略了音频与视频场景的空间对应关系。
StereoSync利用深度图和边界框提取空间线索，通过交叉注意力机制融入扩散模型，实现空间感知音频生成。
实验表明，StereoSync在时间和空间对齐方面均表现出色，提升了视频配乐的沉浸感和真实性。

📝 摘要（中文）

近年来，音频生成技术得到了广泛研究，但与视频对齐的音频生成仍然是一个相对未被探索的领域。为了弥补这一差距，我们提出了StereoSync，一种新颖而高效的模型，旨在生成与参考视频在时间上同步且在空间上与其视觉上下文对齐的音频。此外，StereoSync还通过利用预训练的基础模型来实现效率，减少了对大量训练的需求，同时保持了高质量的合成效果。与主要关注时间同步的现有方法不同，StereoSync通过将空间感知融入到视频对齐的音频生成中，实现了一项重大进步。实际上，给定一个输入视频，我们的方法从深度图和边界框中提取空间线索，并将它们用作基于扩散的音频生成模型中的交叉注意力条件。这种方法使StereoSync能够超越简单的同步，生成动态适应视频场景的空间结构和运动的立体声音频。我们在Walking The Maps数据集上评估了StereoSync，该数据集包含来自视频游戏的视频，这些视频以动画角色在不同的环境中行走为特色。实验结果表明，StereoSync能够实现时间和空间对齐，从而推进了视频到音频生成的技术水平，并带来了更加身临其境和逼真的音频体验。

🔬 方法详解

问题定义：现有视频配乐方法主要关注音频与视频的时间同步，忽略了视频场景中物体的位置、深度等空间信息，导致生成的音频缺乏空间感，无法与视频内容形成自然的互动。这限制了用户体验，尤其是在需要沉浸式体验的应用场景中。

核心思路：StereoSync的核心思路是将视频中的空间信息融入到音频生成过程中，使生成的音频能够感知视频场景的空间结构和运动。通过提取视频中的深度图和物体边界框，并将这些空间线索作为条件输入到音频生成模型中，从而实现空间感知的音频生成。

技术框架：StereoSync的整体框架包括以下几个主要模块：1) 视频特征提取模块：用于提取视频帧的视觉特征，包括深度图和物体边界框。2) 空间线索编码模块：用于将提取的空间线索编码成向量表示，以便于后续的音频生成模型使用。3) 音频生成模块：采用基于扩散模型的音频生成器，以视频特征和空间线索为条件，生成与视频内容同步且空间对齐的立体声音频。

关键创新：StereoSync的关键创新在于将空间感知融入到视频配乐任务中。与以往只关注时间同步的方法不同，StereoSync通过提取和利用视频中的空间信息，使生成的音频能够更好地与视频内容互动，从而提升了用户体验。此外，StereoSync还利用预训练的基础模型，减少了对大量训练数据的需求。

关键设计：StereoSync的关键设计包括：1) 使用预训练的深度估计模型和物体检测模型来提取深度图和物体边界框。2) 使用交叉注意力机制将空间线索融入到扩散模型的生成过程中。3) 采用立体声扩散模型，生成具有空间感的立体声音频。具体参数设置和损失函数细节在论文中进行了详细描述（未知）。

🖼️ 关键图片

📊 实验亮点

StereoSync在Walking The Maps数据集上进行了评估，实验结果表明，StereoSync能够有效地实现时间和空间对齐，显著提升了音频生成的质量和沉浸感。具体的性能指标和对比基线在论文中进行了详细描述（未知），但总体而言，StereoSync在视频配乐任务上取得了显著的进步。

🎯 应用场景

StereoSync具有广泛的应用前景，包括视频游戏、虚拟现实、电影制作等领域。它可以用于生成与游戏场景或虚拟环境相匹配的沉浸式音频，提升用户的游戏体验或虚拟现实体验。在电影制作中，StereoSync可以用于自动生成与电影场景相匹配的背景音乐和音效，提高制作效率。

📄 摘要（原文）

Although audio generation has been widely studied over recent years, video-aligned audio generation still remains a relatively unexplored frontier. To address this gap, we introduce StereoSync, a novel and efficient model designed to generate audio that is both temporally synchronized with a reference video and spatially aligned with its visual context. Moreover, StereoSync also achieves efficiency by leveraging pretrained foundation models, reducing the need for extensive training while maintaining high-quality synthesis. Unlike existing methods that primarily focus on temporal synchronization, StereoSync introduces a significant advancement by incorporating spatial awareness into video-aligned audio generation. Indeed, given an input video, our approach extracts spatial cues from depth maps and bounding boxes, using them as cross-attention conditioning in a diffusion-based audio generation model. Such an approach allows StereoSync to go beyond simple synchronization, producing stereo audio that dynamically adapts to the spatial structure and movement of a video scene. We evaluate StereoSync on Walking The Maps, a curated dataset comprising videos from video games that feature animated characters walking through diverse environments. Experimental results demonstrate the ability of StereoSync to achieve both temporal and spatial alignment, advancing the state of the art in video-to-audio generation and resulting in a significantly more immersive and realistic audio experience.

StereoSync: Spatially-Aware Stereo Audio Generation from Video

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理