Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking
作者: Mingxin Li, Yanzhao Zhang, Dingkun Long, Keqin Chen, Sibo Song, Shuai Bai, Zhibo Yang, Pengjun Xie, An Yang, Dayiheng Liu, Jingren Zhou, Junyang Lin
分类: cs.CL
发布日期: 2026-01-08
💡 一句话要点
Qwen3-VL-Embedding和Qwen3-VL-Reranker:用于多模态检索和排序的统一框架
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态检索 跨模态学习 对比学习 重排序 嵌入模型 交叉注意力 大语言模型
📋 核心要点
- 现有方法在多模态信息检索中,难以有效融合不同模态的语义信息,导致检索精度不高。
- Qwen3-VL-Embedding和Qwen3-VL-Reranker通过统一的表示空间和多阶段训练,提升多模态检索的精度。
- Qwen3-VL-Embedding-8B在MMEB-V2上获得77.8分,排名第一,证明了其在多模态检索任务中的优越性。
📝 摘要(中文)
本报告介绍了Qwen3-VL-Embedding和Qwen3-VL-Reranker模型系列,它们是基于Qwen3-VL基础模型的最新扩展。它们共同构成了一个端到端的高精度多模态搜索流程,通过将文本、图像、文档图像和视频等多种模态映射到统一的表示空间来实现搜索。Qwen3-VL-Embedding模型采用多阶段训练范式,从大规模对比预训练到重排序模型蒸馏,以生成语义丰富的高维向量。它支持Matryoshka Representation Learning,实现灵活的嵌入维度,并处理高达32k tokens的输入。作为补充,Qwen3-VL-Reranker使用具有交叉注意力机制的交叉编码器架构,对查询-文档对执行细粒度的相关性估计。这两个模型系列都继承了Qwen3-VL的多语言能力,支持30多种语言,并发布了2B和8B参数规模,以适应不同的部署需求。经验评估表明,Qwen3-VL-Embedding系列在各种多模态嵌入评估基准上取得了最先进的结果。特别是,Qwen3-VL-Embedding-8B在MMEB-V2上获得了77.8的总分,在所有模型中排名第一(截至2025年1月8日)。本报告介绍了该系列的架构、训练方法和实际能力,展示了它们在各种多模态检索任务(包括图像-文本检索、视觉问答和视频-文本匹配)中的有效性。
🔬 方法详解
问题定义:论文旨在解决多模态信息检索中,如何高效且精确地将不同模态(文本、图像、视频等)的信息进行统一表示和检索的问题。现有方法通常难以捕捉不同模态之间的细粒度关联,导致检索结果的相关性不高,且计算复杂度较高。
核心思路:论文的核心思路是将不同模态的信息映射到同一个高维语义空间中,并利用重排序模型对初步检索结果进行精细化排序。通过多阶段训练,embedding模型能够学习到更丰富的语义表示,而reranker模型则能够更准确地评估查询和文档之间的相关性。
技术框架:整体框架包含两个主要模块:Qwen3-VL-Embedding和Qwen3-VL-Reranker。Qwen3-VL-Embedding负责将不同模态的数据编码成高维向量表示,采用多阶段训练,包括大规模对比预训练和重排序模型蒸馏。Qwen3-VL-Reranker则是一个交叉编码器,利用交叉注意力机制对查询-文档对进行细粒度的相关性评估。
关键创新:该方法的主要创新在于:1) 统一的多模态表示空间,能够有效融合不同模态的信息;2) 多阶段训练范式,提升了embedding模型的语义表示能力;3) 交叉编码器结构的reranker模型,能够进行更精确的相关性评估;4) 支持Matryoshka Representation Learning,允许灵活调整嵌入维度。
关键设计:Qwen3-VL-Embedding支持高达32k tokens的输入,并采用对比学习损失进行预训练。Reranker模型使用交叉注意力机制,允许查询和文档之间进行充分的信息交互。模型参数规模包括2B和8B两种版本,以适应不同的部署需求。Matryoshka Representation Learning允许在不重新训练的情况下,灵活调整嵌入向量的维度。
📊 实验亮点
Qwen3-VL-Embedding-8B在MMEB-V2多模态评估基准上取得了77.8的总分,在所有模型中排名第一(截至2025年1月8日)。这一结果表明,该模型在多模态信息检索任务中具有显著的优势,超越了现有的其他模型。
🎯 应用场景
该研究成果可广泛应用于多模态信息检索领域,例如图像/视频搜索引擎、文档检索系统、视觉问答系统等。通过提升检索精度和效率,可以改善用户体验,并为相关应用带来更高的商业价值。未来,该技术有望应用于智能客服、内容推荐等领域。
📄 摘要(原文)
In this report, we introduce the Qwen3-VL-Embedding and Qwen3-VL-Reranker model series, the latest extensions of the Qwen family built on the Qwen3-VL foundation model. Together, they provide an end-to-end pipeline for high-precision multimodal search by mapping diverse modalities, including text, images, document images, and video, into a unified representation space. The Qwen3-VL-Embedding model employs a multi-stage training paradigm, progressing from large-scale contrastive pre-training to reranking model distillation, to generate semantically rich high-dimensional vectors. It supports Matryoshka Representation Learning, enabling flexible embedding dimensions, and handles inputs up to 32k tokens. Complementing this, Qwen3-VL-Reranker performs fine-grained relevance estimation for query-document pairs using a cross-encoder architecture with cross-attention mechanisms. Both model series inherit the multilingual capabilities of Qwen3-VL, supporting more than 30 languages, and are released in $\textbf{2B}$ and $\textbf{8B}$ parameter sizes to accommodate diverse deployment requirements. Empirical evaluations demonstrate that the Qwen3-VL-Embedding series achieves state-of-the-art results across diverse multimodal embedding evaluation benchmarks. Specifically, Qwen3-VL-Embedding-8B attains an overall score of $\textbf{77.8}$ on MMEB-V2, ranking first among all models (as of January 8, 2025). This report presents the architecture, training methodology, and practical capabilities of the series, demonstrating their effectiveness on various multimodal retrieval tasks, including image-text retrieval, visual question answering, and video-text matching.