OmniRetriever: Any-to-Any Audio-Video-Text Retrieval via Fusion-as-Teacher Distillation
作者: Yunze Liu, Chi-Hao Wu, Enmin Zhou, Junxiao Shen
分类: cs.CV
发布日期: 2026-05-26
备注: https://yunzeliu.github.io/OmniRetriever/
💡 一句话要点
提出基于融合即教师蒸馏的OmniRetriever,实现任意模态音视频文本检索
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 跨模态检索 音视频文本 多模态融合 蒸馏学习 表示学习
📋 核心要点
- 现有音视频文本编码器训练时,未能充分利用联合嵌入信号,导致性能受限。
- 提出融合即教师蒸馏方法,利用融合嵌入作为教师信号,指导单模态嵌入学习。
- OmniRetriever-7B在多个零样本检索基准上超越现有方法,并在新基准OmniRetriever-Bench上取得显著提升。
📝 摘要(中文)
统一的多模态嵌入空间已成为跨模态检索和多模态RAG的标准接口。最近的音视频文本(AVT)编码器将此设置扩展到三种模态。这些编码器可以在所有三种模态都可用时生成联合(T,V,A)嵌入,但标准的成对InfoNCE目标在训练期间未充分利用此信号。我们通过融合即教师蒸馏来弥补这一差距,该方法将融合嵌入的停止梯度副本视为单模态嵌入的教师信号,并结合Tuple-InfoNCE项直接监督融合嵌入。我们将此目标实例化为OmniRetriever-7B。在六个零样本检索基准测试中,OmniRetriever-7B在Clotho和SoundDescs上超过了闭源Gemini Embedding 2,R@1分别提高了13.3-18.0,并在MSR-VTT和MSVD上达到了当前开放视频文本编码器的零样本水平。为了压力测试联合表示,我们进一步发布了OmniRetriever-Bench,这是一个包含3782个三元组的12方向AVT检索基准;在此基准上,OmniRetriever-7B达到了34.84的AVG-all,比Gemini Embedding 2提高了1.72,比之前最好的开源AVT方法提高了8.03。
🔬 方法详解
问题定义:现有音视频文本(AVT)编码器在训练时,当所有模态都存在时,会产生一个联合嵌入。然而,标准的成对InfoNCE损失函数并没有充分利用这个联合嵌入所包含的信息,导致单模态嵌入的学习不够充分,从而限制了跨模态检索的性能。现有方法未能有效利用多模态融合的优势。
核心思路:论文的核心思路是利用“融合即教师蒸馏”。具体来说,将多模态融合后的嵌入视为教师信号,指导单模态嵌入的学习。通过这种方式,单模态嵌入可以更好地捕捉到多模态之间的关联信息,从而提高跨模态检索的准确性。这种设计旨在弥合单模态和多模态表示之间的差距。
技术框架:OmniRetriever的整体框架包括一个AVT编码器,用于提取音视频文本的嵌入表示。该框架的关键组成部分是融合模块和蒸馏损失。首先,将音视频文本三种模态进行融合,得到一个联合嵌入。然后,使用这个联合嵌入作为教师信号,通过蒸馏损失来指导单模态嵌入的学习。此外,还使用Tuple-InfoNCE损失来直接监督融合嵌入的学习。
关键创新:论文的关键创新在于提出了“融合即教师蒸馏”的方法。与传统的蒸馏方法不同,该方法不是使用一个预训练好的模型作为教师,而是使用多模态融合后的嵌入作为教师。这种方法能够更好地利用多模态之间的关联信息,从而提高跨模态检索的性能。另一个创新点是OmniRetriever-Bench,一个新的AVT检索基准,用于更全面地评估模型的性能。
关键设计:在损失函数方面,论文使用了融合即教师蒸馏损失和Tuple-InfoNCE损失。融合即教师蒸馏损失用于指导单模态嵌入的学习,Tuple-InfoNCE损失用于直接监督融合嵌入的学习。具体来说,融合嵌入的梯度被停止,以防止其直接影响单模态嵌入的学习,从而保证了蒸馏的有效性。模型的具体参数设置和网络结构等细节未在摘要中详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
OmniRetriever-7B在六个零样本检索基准测试中,Clotho和SoundDescs上超过了闭源Gemini Embedding 2,R@1分别提高了13.3-18.0。在OmniRetriever-Bench上,OmniRetriever-7B达到了34.84的AVG-all,比Gemini Embedding 2提高了1.72,比之前最好的开源AVT方法提高了8.03。这些结果表明,该方法在跨模态检索方面具有显著的优势。
🎯 应用场景
OmniRetriever具有广泛的应用前景,包括跨模态信息检索、多模态内容理解、视频内容分析、智能客服、教育娱乐等领域。例如,用户可以通过文本查询检索相关的音视频内容,或者通过音频检索相关的文本描述。该研究成果有助于提升多模态人工智能系统的性能和用户体验。
📄 摘要(原文)
Unified multimodal embedding spaces have become the standard interface for cross-modal retrieval and multimodal RAG, and recent audio-video-text (AVT) encoders extend this setting to three modalities. Such encoders can produce a joint (T,V,A) embedding whenever all three modalities are available, but standard pairwise InfoNCE objectives leave this signal unused during training. We close this gap with fusion-as-teacher distillation, which treats a stop-gradient copy of the fused embedding as a teacher signal for the single-modal embeddings, paired with a Tuple-InfoNCE term that supervises the fused embedding directly. We instantiate this objective as OmniRetriever-7B. Across six zero-shot retrieval benchmarks, OmniRetriever-7B surpasses the closed-source Gemini Embedding 2 by 13.3-18.0 R@1 on Clotho and SoundDescs, and reaches the contemporary zero-shot specialist band of open video-text encoders on MSR-VTT and MSVD. To stress-test joint representations, we further release OmniRetriever-Bench, a 12-direction AVT retrieval benchmark totaling 3782 triples; on it OmniRetriever-7B attains AVG-all 34.84, improving over Gemini Embedding 2 by 1.72 and over the best prior open-source AVT method by 8.03.