Gemini Embedding 2: A Native Multimodal Embedding Model from Gemini

📄 arXiv: 2605.27295v1 📥 PDF

作者: Madhuri Shanbhogue, Zhe Li, Shanfeng Zhang, Gustavo Hernández Ábrego, Shih-Cheng Huang, Aashi Jain, Daniel Salz, Sonam Goenka, Chaitra Hegde, Ji Ma, Feiyang Chen, Jiaxing Wu, Tanmaya Dabral, Babak Samari, Kevin Poulet, Daniel Cer, Kaifeng Chen, Paul Suganathan, Hui Hui, Jovan Andonov, Philippe Schlattner, Jay Han, Iftekhar Naim, Wing Lowe, Vladimir Pchelin, Albert Yang, Yi-Ting Chen, Zhongli Ding, Grace Zhang, Georg Heigold, Yichang Chen, Antoine Reveillon, Brendan Mccloskey, Wenlei Zhou, Dahun Kim, Rui Meng, Emma Wang, Jack Zheng, Halley Fede, Zhen Yang, Keegan Mosley, Brian Potetz, Sahil Dua, Henrique Schechter Vera, Shen Gao, Hesen Zhang, Andreas Hess, Hengxuan Ying, Alberto Montes, Karan Gill, Min Choi, Sebastian Russo, Anja Hauth, Jinhyuk Lee, Michael Boratko, Megan Barnes, Vikram Rao, Claudiu Musat, Cyril Allauzen, Ehsan Variani, Shankar Kumar, Tom Bagby, Junyi Jiao, Yang Gu, Tengxin Li, Ayush Agrawal, Roberto Santana, Dev Nath, Stephen Karukas, Shuoxuan Han, Lucia Loher, Alice Twu, Nidhi Vyas, Siddharth Bhai, Frank Palma Gomez, Wangyuan Zhang, Chaoren Liu, Jizheng Yang, Steve Qiu, Shijie Zhang, Sujay Kulkarni, Sascha Rothe, Sean Nakamoto, Raphael Hoffmann, Zach Gleicher, Yunhsuan Sung, Qin Yin, Tom Duerig, Mojtaba Seyedhosseini

分类: cs.CV

发布日期: 2026-05-26


💡 一句话要点

Gemini Embedding 2:原生多模态嵌入模型,统一表示视频、音频、图像和文本

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态嵌入 对比学习 跨模态检索 统一表示 Gemini模型

📋 核心要点

  1. 现有方法难以统一表示多种模态数据,限制了跨模态信息融合和下游任务的性能。
  2. Gemini Embedding 2利用Gemini模型的多模态能力,通过对比学习训练统一的嵌入空间。
  3. 实验表明,该模型在多种模态检索任务上超越了现有专门模型,并具有良好的零样本泛化能力。

📝 摘要(中文)

本文介绍了Gemini Embedding 2,一种原生的多模态嵌入模型,它能够将视频、音频、图像和文本等多种模态嵌入到统一的表示空间中。该模型利用Gemini的多模态能力,为任意组合的跨模态交错输入生成嵌入,并在各种任务中表现出良好的泛化能力。通过大规模对比学习和多任务多阶段训练,Gemini Embedding 2在关键嵌入基准测试中取得了最先进的性能,包括单模态、跨模态和多模态检索,涵盖了各种不同的任务。实验结果表明,该嵌入模型在各种任务中表现出强大的性能(在MSCOCO上R@1为62.9,在Vatex上NDCG@10为68.8,在MTEB多语言上为69.9,在MTEB代码上为84.0),超过了专门的模型。这些统一的能力使Gemini Embedding 2成为下游用例(如RAG、推荐和搜索)的有希望的候选者。此外,它在不同领域的强大零样本性能——从天文学和生物科学到美术和烹饪艺术——使其成为即使对于专业领域也高度可靠的开箱即用的表示。

🔬 方法详解

问题定义:现有方法在处理多模态数据时,通常需要针对不同模态设计不同的嵌入模型,难以实现统一的表示空间,导致跨模态检索和下游任务性能受限。此外,现有模型在特定领域泛化能力较弱,难以适应新的应用场景。

核心思路:Gemini Embedding 2的核心思路是利用Gemini模型强大的多模态理解能力,通过对比学习的方式,将不同模态的数据映射到同一个嵌入空间中。通过统一的表示,可以方便地进行跨模态检索、推荐等任务,并提升模型的泛化能力。

技术框架:Gemini Embedding 2采用多任务多阶段的训练框架。首先,利用大规模多模态数据进行预训练,学习通用的多模态表示。然后,针对不同的下游任务,进行微调,以适应特定任务的需求。整体框架包含数据输入模块、Gemini模型、嵌入生成模块和对比学习损失计算模块。

关键创新:该论文的关键创新在于提出了一个原生的多模态嵌入模型,能够统一处理视频、音频、图像和文本等多种模态的数据。与现有方法相比,Gemini Embedding 2无需针对不同模态设计不同的模型,而是通过一个统一的模型实现多模态表示。

关键设计:在训练过程中,采用了大规模对比学习,通过最大化正样本之间的相似度,最小化负样本之间的相似度,来学习高质量的嵌入表示。损失函数包括对比损失、交叉熵损失等。网络结构基于Gemini模型,并针对嵌入任务进行了优化。具体的参数设置和网络结构细节未在摘要中详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Gemini Embedding 2在MSCOCO图像检索任务上R@1达到62.9,在Vatex视频检索任务上NDCG@10达到68.8,在MTEB多语言文本嵌入基准上达到69.9,在MTEB代码嵌入基准上达到84.0。这些结果均超过了现有专门的模型,证明了Gemini Embedding 2在多模态嵌入方面的优越性能。

🎯 应用场景

Gemini Embedding 2具有广泛的应用前景,包括但不限于:多模态信息检索、推荐系统、智能搜索、内容理解、RAG(Retrieval-Augmented Generation)等。该模型能够提升跨模态信息处理的效率和准确性,为用户提供更智能、更个性化的服务。未来,该模型有望应用于更多领域,例如医疗诊断、教育、科研等。

📄 摘要(原文)

We introduce Gemini Embedding 2, a native multimodal embedding model that allows embedding video, audio, image, and text modalities in a unified representation space. We leverage the multimodal capabilities of Gemini to produce embeddings for arbitrary combinations of interleaved inputs across all these modalities that generalize well across a wide variety of tasks. Applying large-scale contrastive learning in a multi-task multi-stage training setup, we achieve state-of-the-art performance on key embedding benchmarks including unimodal, cross-modal, and multimodal retrieval spanning a diverse set of tasks. We show that our embedding model demonstrates strong performance (with a score of 62.9 R@1 on MSCOCO, 68.8 NDCG@10 on Vatex, 69.9 on MTEB multilingual and 84.0 on MTEB Code) across a variety of tasks surpassing the performance of specialized models. These unified capabilities make Gemini Embedding 2 a promising candidate for downstream use cases such as RAG, recommendation and search. Furthermore, its robust zero-shot performance across distinct fields - from astronomy and bioscience to fine arts and the culinary arts - establishes it as a highly reliable, out-of-the-box representation even for specialized domains.