OmniRetriever: Any-to-Any Audio-Video-Text Retrieval via Fusion-as-Teacher Distillation

作者: Yunze Liu, Chi-Hao Wu, Enmin Zhou, Junxiao Shen

分类: cs.CV

发布日期: 2026-05-26

备注: https://yunzeliu.github.io/OmniRetriever/

💡 一句话要点

提出基于融合即教师蒸馏的OmniRetriever，实现任意模态音视频文本检索

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 跨模态检索 音视频文本 多模态融合 蒸馏学习 表示学习

📋 核心要点

现有音视频文本编码器训练时，未能充分利用联合嵌入信号，导致性能受限。
提出融合即教师蒸馏方法，利用融合嵌入作为教师信号，指导单模态嵌入学习。
OmniRetriever-7B在多个零样本检索基准上超越现有方法，并在新基准OmniRetriever-Bench上取得显著提升。

📝 摘要（中文）

统一的多模态嵌入空间已成为跨模态检索和多模态RAG的标准接口。最近的音视频文本(AVT)编码器将此设置扩展到三种模态。这些编码器可以在所有三种模态都可用时生成联合(T,V,A)嵌入，但标准的成对InfoNCE目标在训练期间未充分利用此信号。我们通过融合即教师蒸馏来弥补这一差距，该方法将融合嵌入的停止梯度副本视为单模态嵌入的教师信号，并结合Tuple-InfoNCE项直接监督融合嵌入。我们将此目标实例化为OmniRetriever-7B。在六个零样本检索基准测试中，OmniRetriever-7B在Clotho和SoundDescs上超过了闭源Gemini Embedding 2，R@1分别提高了13.3-18.0，并在MSR-VTT和MSVD上达到了当前开放视频文本编码器的零样本水平。为了压力测试联合表示，我们进一步发布了OmniRetriever-Bench，这是一个包含3782个三元组的12方向AVT检索基准；在此基准上，OmniRetriever-7B达到了34.84的AVG-all，比Gemini Embedding 2提高了1.72，比之前最好的开源AVT方法提高了8.03。

🔬 方法详解

问题定义：现有音视频文本(AVT)编码器在训练时，当所有模态都存在时，会产生一个联合嵌入。然而，标准的成对InfoNCE损失函数并没有充分利用这个联合嵌入所包含的信息，导致单模态嵌入的学习不够充分，从而限制了跨模态检索的性能。现有方法未能有效利用多模态融合的优势。

核心思路：论文的核心思路是利用“融合即教师蒸馏”。具体来说，将多模态融合后的嵌入视为教师信号，指导单模态嵌入的学习。通过这种方式，单模态嵌入可以更好地捕捉到多模态之间的关联信息，从而提高跨模态检索的准确性。这种设计旨在弥合单模态和多模态表示之间的差距。

技术框架：OmniRetriever的整体框架包括一个AVT编码器，用于提取音视频文本的嵌入表示。该框架的关键组成部分是融合模块和蒸馏损失。首先，将音视频文本三种模态进行融合，得到一个联合嵌入。然后，使用这个联合嵌入作为教师信号，通过蒸馏损失来指导单模态嵌入的学习。此外，还使用Tuple-InfoNCE损失来直接监督融合嵌入的学习。

关键创新：论文的关键创新在于提出了“融合即教师蒸馏”的方法。与传统的蒸馏方法不同，该方法不是使用一个预训练好的模型作为教师，而是使用多模态融合后的嵌入作为教师。这种方法能够更好地利用多模态之间的关联信息，从而提高跨模态检索的性能。另一个创新点是OmniRetriever-Bench，一个新的AVT检索基准，用于更全面地评估模型的性能。

关键设计：在损失函数方面，论文使用了融合即教师蒸馏损失和Tuple-InfoNCE损失。融合即教师蒸馏损失用于指导单模态嵌入的学习，Tuple-InfoNCE损失用于直接监督融合嵌入的学习。具体来说，融合嵌入的梯度被停止，以防止其直接影响单模态嵌入的学习，从而保证了蒸馏的有效性。模型的具体参数设置和网络结构等细节未在摘要中详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

OmniRetriever-7B在六个零样本检索基准测试中，Clotho和SoundDescs上超过了闭源Gemini Embedding 2，R@1分别提高了13.3-18.0。在OmniRetriever-Bench上，OmniRetriever-7B达到了34.84的AVG-all，比Gemini Embedding 2提高了1.72，比之前最好的开源AVT方法提高了8.03。这些结果表明，该方法在跨模态检索方面具有显著的优势。

🎯 应用场景

OmniRetriever具有广泛的应用前景，包括跨模态信息检索、多模态内容理解、视频内容分析、智能客服、教育娱乐等领域。例如，用户可以通过文本查询检索相关的音视频内容，或者通过音频检索相关的文本描述。该研究成果有助于提升多模态人工智能系统的性能和用户体验。

📄 摘要（原文）

Unified multimodal embedding spaces have become the standard interface for cross-modal retrieval and multimodal RAG, and recent audio-video-text (AVT) encoders extend this setting to three modalities. Such encoders can produce a joint (T,V,A) embedding whenever all three modalities are available, but standard pairwise InfoNCE objectives leave this signal unused during training. We close this gap with fusion-as-teacher distillation, which treats a stop-gradient copy of the fused embedding as a teacher signal for the single-modal embeddings, paired with a Tuple-InfoNCE term that supervises the fused embedding directly. We instantiate this objective as OmniRetriever-7B. Across six zero-shot retrieval benchmarks, OmniRetriever-7B surpasses the closed-source Gemini Embedding 2 by 13.3-18.0 R@1 on Clotho and SoundDescs, and reaches the contemporary zero-shot specialist band of open video-text encoders on MSR-VTT and MSVD. To stress-test joint representations, we further release OmniRetriever-Bench, a 12-direction AVT retrieval benchmark totaling 3782 triples; on it OmniRetriever-7B attains AVG-all 34.84, improving over Gemini Embedding 2 by 1.72 and over the best prior open-source AVT method by 8.03.

OmniRetriever: Any-to-Any Audio-Video-Text Retrieval via Fusion-as-Teacher Distillation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理