Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking

📄 arXiv: 2601.04720v1 📥 PDF

作者: Mingxin Li, Yanzhao Zhang, Dingkun Long, Keqin Chen, Sibo Song, Shuai Bai, Zhibo Yang, Pengjun Xie, An Yang, Dayiheng Liu, Jingren Zhou, Junyang Lin

分类: cs.CL

发布日期: 2026-01-08


💡 一句话要点

提出Qwen3-VL系列以解决多模态检索与排序问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态检索 语义表示 交叉编码器 模型蒸馏 图像-文本匹配 视觉问答 深度学习

📋 核心要点

  1. 现有多模态检索方法在处理不同模态数据时存在表示不统一和精度不足的问题。
  2. Qwen3-VL系列通过多阶段训练和交叉编码器架构,提供了高效的多模态表示和排序能力。
  3. Qwen3-VL-Embedding-8B在MMEB-V2基准上取得77.8的得分,显示出显著的性能提升。

📝 摘要(中文)

在本报告中,我们介绍了Qwen3-VL-Embedding和Qwen3-VL-Reranker模型系列,这是基于Qwen3-VL基础模型的最新扩展。它们提供了一个端到端的高精度多模态搜索管道,将文本、图像、文档图像和视频等多种模态映射到统一的表示空间。Qwen3-VL-Embedding模型采用多阶段训练范式,从大规模对比预训练到重排序模型蒸馏,生成语义丰富的高维向量。该模型支持Matryoshka表示学习,能够灵活处理嵌入维度,并处理多达32k个标记的输入。Qwen3-VL-Reranker则使用交叉编码器架构和交叉注意力机制,对查询-文档对进行细粒度相关性估计。两者均继承了Qwen3-VL的多语言能力,支持30多种语言,并发布了2B和8B参数规模以满足不同的部署需求。实证评估表明,Qwen3-VL-Embedding系列在多模态嵌入评估基准上取得了最先进的结果,Qwen3-VL-Embedding-8B在MMEB-V2上获得77.8的整体得分,位列所有模型之首。

🔬 方法详解

问题定义:本论文旨在解决现有多模态检索方法在表示和排序精度上的不足,尤其是在处理多种模态数据时的挑战。

核心思路:论文提出的核心思路是通过Qwen3-VL-Embedding和Qwen3-VL-Reranker模型系列,构建一个统一的多模态表示空间,并通过多阶段训练和细粒度排序来提升检索精度。

技术框架:整体架构包括两个主要模块:Qwen3-VL-Embedding负责生成高维语义向量,Qwen3-VL-Reranker则进行查询与文档对的相关性评估。训练过程分为对比预训练和模型蒸馏两个阶段。

关键创新:最重要的技术创新在于引入了Matryoshka表示学习,允许灵活的嵌入维度设置,并通过交叉注意力机制提升了查询-文档对的相关性评估能力。

关键设计:模型支持处理多达32k个标记的输入,采用了多阶段训练策略,损失函数设计上注重语义一致性,网络结构则结合了多模态特征提取与交叉编码器架构。

📊 实验亮点

Qwen3-VL-Embedding-8B在MMEB-V2基准上取得77.8的得分,位列所有模型之首,显示出显著的性能提升,相较于其他模型具有明显的优势。

🎯 应用场景

该研究的潜在应用领域包括图像-文本检索、视觉问答和视频-文本匹配等多模态任务,具有广泛的实际价值。通过提升多模态检索的精度和效率,该技术可在信息检索、智能助手和内容推荐等领域产生深远影响。

📄 摘要(原文)

In this report, we introduce the Qwen3-VL-Embedding and Qwen3-VL-Reranker model series, the latest extensions of the Qwen family built on the Qwen3-VL foundation model. Together, they provide an end-to-end pipeline for high-precision multimodal search by mapping diverse modalities, including text, images, document images, and video, into a unified representation space. The Qwen3-VL-Embedding model employs a multi-stage training paradigm, progressing from large-scale contrastive pre-training to reranking model distillation, to generate semantically rich high-dimensional vectors. It supports Matryoshka Representation Learning, enabling flexible embedding dimensions, and handles inputs up to 32k tokens. Complementing this, Qwen3-VL-Reranker performs fine-grained relevance estimation for query-document pairs using a cross-encoder architecture with cross-attention mechanisms. Both model series inherit the multilingual capabilities of Qwen3-VL, supporting more than 30 languages, and are released in $\textbf{2B}$ and $\textbf{8B}$ parameter sizes to accommodate diverse deployment requirements. Empirical evaluations demonstrate that the Qwen3-VL-Embedding series achieves state-of-the-art results across diverse multimodal embedding evaluation benchmarks. Specifically, Qwen3-VL-Embedding-8B attains an overall score of $\textbf{77.8}$ on MMEB-V2, ranking first among all models (as of January 8, 2025). This report presents the architecture, training methodology, and practical capabilities of the series, demonstrating their effectiveness on various multimodal retrieval tasks, including image-text retrieval, visual question answering, and video-text matching.