Pushing the Frontier of Audiovisual Perception with Large-Scale Multimodal Correspondence Learning

📄 arXiv: 2512.19687v1 📥 PDF

作者: Apoorv Vyas, Heng-Jui Chang, Cheng-Fu Yang, Po-Yao Huang, Luya Gao, Julius Richter, Sanyuan Chen, Matt Le, Piotr Dollár, Christoph Feichtenhofer, Ann Lee, Wei-Ning Hsu

分类: cs.SD, cs.CV, cs.LG

发布日期: 2025-12-22


💡 一句话要点

提出PE-AV:基于大规模对比学习的音视频感知统一编码器,实现跨模态对齐与检索。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 音视频理解 多模态学习 对比学习 跨模态检索 统一嵌入 大规模数据集 声音事件检测

📋 核心要点

  1. 现有音视频理解方法通常受限于单领域数据或模态,缺乏跨模态对齐能力,限制了其泛化性和应用范围。
  2. PE-AV通过构建大规模音视频数据集,并采用多目标对比学习,实现了音频、视频和文本的统一嵌入空间。
  3. 实验表明,PE-AV在语音检索等新任务上表现出色,并在多个标准音视频基准测试中刷新了state-of-the-art。

📝 摘要(中文)

本文提出了一种新的音视频编码器家族,名为感知编码器音视频(PE-AV),它通过大规模对比学习进行训练,用于音频和视频理解。PE-AV建立在PE的基础上,在扩展表征到音频方面做出了关键贡献,并原生支持跨音频-视频、音频-文本和视频-文本模态的联合嵌入。PE-AV的统一跨模态嵌入实现了诸如语音检索等新任务,并在标准音频和视频基准测试中取得了新的state-of-the-art。为了实现这一点,我们构建了一个强大的音视频数据引擎,为O(100M)音视频对合成了高质量的字幕,从而实现了跨模态一致的大规模监督。我们的音频数据包括语音、音乐和通用音效,避免了先前工作中常见的单领域限制。我们利用了十个成对对比目标,表明缩放跨模态和字幕类型对可以加强对齐并提高零样本性能。我们进一步开发了PE-A-Frame,通过使用帧级对比目标微调PE-AV,从而实现了细粒度的音频帧到文本对齐,用于诸如声音事件检测等任务。

🔬 方法详解

问题定义:现有音视频理解方法通常专注于单一模态或特定领域,例如只处理语音或只处理视频,缺乏对音频、视频和文本等多模态信息的统一理解和对齐能力。此外,现有方法在跨模态检索等任务上的表现也存在局限性。因此,需要一种能够有效学习音视频数据的跨模态表征,并支持多种下游任务的模型。

核心思路:本文的核心思路是利用大规模对比学习,训练一个能够将音频、视频和文本信息映射到统一嵌入空间的编码器。通过构建包含大量音视频数据及其对应文本描述的数据集,并设计多个对比学习目标,使得模型能够学习到不同模态之间的对应关系,从而实现跨模态对齐和检索。

技术框架:PE-AV的整体框架包括以下几个主要模块:1) 音频编码器:用于提取音频特征;2) 视频编码器:用于提取视频特征;3) 文本编码器:用于提取文本特征;4) 对比学习模块:包含多个对比学习目标,用于学习不同模态之间的对应关系。训练过程中,模型首先将音频、视频和文本数据分别输入到对应的编码器中,得到它们的特征表示。然后,对比学习模块利用这些特征表示,计算不同模态之间的相似度,并根据对比学习目标调整模型参数,使得相似的模态在嵌入空间中更加接近,不相似的模态更加远离。

关键创新:PE-AV的关键创新点在于:1) 构建了一个大规模的音视频数据集,包含O(100M)的音视频对,并为其合成了高质量的字幕,为大规模对比学习提供了数据基础;2) 提出了多个对比学习目标,包括音频-视频、音频-文本和视频-文本等多种模态之间的对比,以及不同类型的字幕之间的对比,从而加强了模型对跨模态信息的理解;3) 提出了PE-A-Frame,通过帧级对比学习,实现了细粒度的音频帧到文本对齐,从而支持声音事件检测等任务。

关键设计:PE-AV的关键设计包括:1) 使用Transformer作为音频、视频和文本编码器的基本架构;2) 采用了十个成对对比学习目标,包括跨模态对比和字幕类型对比;3) 使用InfoNCE损失函数作为对比学习的损失函数;4) 对于PE-A-Frame,使用了帧级对比学习目标,并对PE-AV进行了微调。

📊 实验亮点

PE-AV在多个标准音视频基准测试中取得了state-of-the-art的结果。例如,在语音检索任务中,PE-AV的性能显著优于现有方法。此外,PE-AV还成功应用于声音事件检测任务,并取得了良好的效果。这些实验结果表明,PE-AV能够有效学习音视频数据的跨模态表征,并支持多种下游任务。

🎯 应用场景

PE-AV具有广泛的应用前景,例如:1) 跨模态检索:可以根据音频检索视频,或根据视频检索音频;2) 语音识别:可以利用视频信息提高语音识别的准确率;3) 视频理解:可以利用音频信息提高视频理解的准确率;4) 声音事件检测:可以检测视频中出现的声音事件。该研究有望推动音视频理解领域的发展,并为实际应用提供更强大的技术支持。

📄 摘要(原文)

We introduce Perception Encoder Audiovisual, PE-AV, a new family of encoders for audio and video understanding trained with scaled contrastive learning. Built on PE, PE-AV makes several key contributions to extend representations to audio, and natively support joint embeddings across audio-video, audio-text, and video-text modalities. PE-AV's unified cross-modal embeddings enable novel tasks such as speech retrieval, and set a new state of the art across standard audio and video benchmarks. We unlock this by building a strong audiovisual data engine that synthesizes high-quality captions for O(100M) audio-video pairs, enabling large-scale supervision consistent across modalities. Our audio data includes speech, music, and general sound effects-avoiding single-domain limitations common in prior work. We exploit ten pairwise contrastive objectives, showing that scaling cross-modality and caption-type pairs strengthens alignment and improves zero-shot performance. We further develop PE-A-Frame by fine-tuning PE-AV with frame-level contrastive objectives, enabling fine-grained audio-frame-to-text alignment for tasks such as sound event detection.