Pushing the Frontier of Audiovisual Perception with Large-Scale Multimodal Correspondence Learning

作者: Apoorv Vyas, Heng-Jui Chang, Cheng-Fu Yang, Po-Yao Huang, Luya Gao, Julius Richter, Sanyuan Chen, Matt Le, Piotr Dollár, Christoph Feichtenhofer, Ann Lee, Wei-Ning Hsu

分类: cs.SD, cs.CV, cs.LG

发布日期: 2025-12-22

💡 一句话要点

提出PE-AV：基于大规模对比学习的音视频感知统一编码器，实现跨模态对齐与检索。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 音视频理解 多模态学习 对比学习 跨模态检索 统一嵌入 大规模数据集 声音事件检测

📋 核心要点

现有音视频理解方法通常受限于单领域数据或模态，缺乏跨模态对齐能力，限制了其泛化性和应用范围。
PE-AV通过构建大规模音视频数据集，并采用多目标对比学习，实现了音频、视频和文本的统一嵌入空间。
实验表明，PE-AV在语音检索等新任务上表现出色，并在多个标准音视频基准测试中刷新了state-of-the-art。

📝 摘要（中文）

本文提出了一种新的音视频编码器家族，名为感知编码器音视频（PE-AV），它通过大规模对比学习进行训练，用于音频和视频理解。PE-AV建立在PE的基础上，在扩展表征到音频方面做出了关键贡献，并原生支持跨音频-视频、音频-文本和视频-文本模态的联合嵌入。PE-AV的统一跨模态嵌入实现了诸如语音检索等新任务，并在标准音频和视频基准测试中取得了新的state-of-the-art。为了实现这一点，我们构建了一个强大的音视频数据引擎，为O(100M)音视频对合成了高质量的字幕，从而实现了跨模态一致的大规模监督。我们的音频数据包括语音、音乐和通用音效，避免了先前工作中常见的单领域限制。我们利用了十个成对对比目标，表明缩放跨模态和字幕类型对可以加强对齐并提高零样本性能。我们进一步开发了PE-A-Frame，通过使用帧级对比目标微调PE-AV，从而实现了细粒度的音频帧到文本对齐，用于诸如声音事件检测等任务。

🔬 方法详解

问题定义：现有音视频理解方法通常专注于单一模态或特定领域，例如只处理语音或只处理视频，缺乏对音频、视频和文本等多模态信息的统一理解和对齐能力。此外，现有方法在跨模态检索等任务上的表现也存在局限性。因此，需要一种能够有效学习音视频数据的跨模态表征，并支持多种下游任务的模型。

核心思路：本文的核心思路是利用大规模对比学习，训练一个能够将音频、视频和文本信息映射到统一嵌入空间的编码器。通过构建包含大量音视频数据及其对应文本描述的数据集，并设计多个对比学习目标，使得模型能够学习到不同模态之间的对应关系，从而实现跨模态对齐和检索。

技术框架：PE-AV的整体框架包括以下几个主要模块：1) 音频编码器：用于提取音频特征；2) 视频编码器：用于提取视频特征；3) 文本编码器：用于提取文本特征；4) 对比学习模块：包含多个对比学习目标，用于学习不同模态之间的对应关系。训练过程中，模型首先将音频、视频和文本数据分别输入到对应的编码器中，得到它们的特征表示。然后，对比学习模块利用这些特征表示，计算不同模态之间的相似度，并根据对比学习目标调整模型参数，使得相似的模态在嵌入空间中更加接近，不相似的模态更加远离。

关键创新：PE-AV的关键创新点在于：1) 构建了一个大规模的音视频数据集，包含O(100M)的音视频对，并为其合成了高质量的字幕，为大规模对比学习提供了数据基础；2) 提出了多个对比学习目标，包括音频-视频、音频-文本和视频-文本等多种模态之间的对比，以及不同类型的字幕之间的对比，从而加强了模型对跨模态信息的理解；3) 提出了PE-A-Frame，通过帧级对比学习，实现了细粒度的音频帧到文本对齐，从而支持声音事件检测等任务。

关键设计：PE-AV的关键设计包括：1) 使用Transformer作为音频、视频和文本编码器的基本架构；2) 采用了十个成对对比学习目标，包括跨模态对比和字幕类型对比；3) 使用InfoNCE损失函数作为对比学习的损失函数；4) 对于PE-A-Frame，使用了帧级对比学习目标，并对PE-AV进行了微调。

📊 实验亮点

PE-AV在多个标准音视频基准测试中取得了state-of-the-art的结果。例如，在语音检索任务中，PE-AV的性能显著优于现有方法。此外，PE-AV还成功应用于声音事件检测任务，并取得了良好的效果。这些实验结果表明，PE-AV能够有效学习音视频数据的跨模态表征，并支持多种下游任务。

🎯 应用场景

PE-AV具有广泛的应用前景，例如：1) 跨模态检索：可以根据音频检索视频，或根据视频检索音频；2) 语音识别：可以利用视频信息提高语音识别的准确率；3) 视频理解：可以利用音频信息提高视频理解的准确率；4) 声音事件检测：可以检测视频中出现的声音事件。该研究有望推动音视频理解领域的发展，并为实际应用提供更强大的技术支持。

📄 摘要（原文）

We introduce Perception Encoder Audiovisual, PE-AV, a new family of encoders for audio and video understanding trained with scaled contrastive learning. Built on PE, PE-AV makes several key contributions to extend representations to audio, and natively support joint embeddings across audio-video, audio-text, and video-text modalities. PE-AV's unified cross-modal embeddings enable novel tasks such as speech retrieval, and set a new state of the art across standard audio and video benchmarks. We unlock this by building a strong audiovisual data engine that synthesizes high-quality captions for O(100M) audio-video pairs, enabling large-scale supervision consistent across modalities. Our audio data includes speech, music, and general sound effects-avoiding single-domain limitations common in prior work. We exploit ten pairwise contrastive objectives, showing that scaling cross-modality and caption-type pairs strengthens alignment and improves zero-shot performance. We further develop PE-A-Frame by fine-tuning PE-AV with frame-level contrastive objectives, enabling fine-grained audio-frame-to-text alignment for tasks such as sound event detection.

Pushing the Frontier of Audiovisual Perception with Large-Scale Multimodal Correspondence Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册