RzenEmbed: Towards Comprehensive Multimodal Retrieval

作者: Weijian Jian, Yajun Zhang, Dawei Liang, Chunyu Xie, Yixiao He, Dawei Leng, Yuhui Yin

分类: cs.CV

发布日期: 2025-10-31

🔗 代码/项目: HUGGINGFACE

💡 一句话要点

RzenEmbed：提出统一多模态嵌入框架，显著提升视频和文档检索性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态检索 跨模态学习 对比学习 视频检索 文档检索 InfoNCE损失 硬度加权 假阴性缓解

📋 核心要点

现有方法在多模态检索中主要关注自然图像，忽略了视频和视觉文档等重要模态，限制了通用性。
RzenEmbed采用两阶段训练策略，结合硬度加权InfoNCE损失和假阴性缓解，提升模型判别能力和指令遵循能力。
RzenEmbed在MMEB基准测试中取得了SOTA，尤其在视频和视觉文档检索任务上显著优于现有方法。

📝 摘要（中文）

多模态大型语言模型（MLLM）的快速发展推动了基于CLIP的框架，使其能够为检索任务生成强大的通用嵌入。然而，现有方法主要集中于自然图像，对视频和视觉文档等其他关键视觉模态的支持有限。为了弥补这一差距，我们提出了RzenEmbed，一个统一的框架，用于学习跨多种模态（包括文本、图像、视频和视觉文档）的嵌入。我们采用了一种新颖的两阶段训练策略来学习判别性表示。第一阶段侧重于基础文本和多模态检索。在第二阶段，我们引入了一种改进的InfoNCE损失，其中包含两项关键增强：首先，一种硬度加权机制通过在每个批次中为具有挑战性的样本分配更高的权重来引导模型优先考虑这些样本。其次，我们实施了一种方法来减轻假阴性的影响并缓解数据噪声。这种策略不仅增强了模型的判别能力，还提高了其指令遵循能力。我们还通过可学习的温度参数和模型融合来进一步提高性能。RzenEmbed在MMEB基准测试中取得了新的state-of-the-art。它不仅实现了最佳整体得分，而且在具有挑战性的视频和视觉文档检索任务中优于所有先前的工作。我们的模型可在https://huggingface.co/qihoo360/RzenEmbed 获取。

🔬 方法详解

问题定义：论文旨在解决多模态检索中，现有方法对视频和视觉文档等模态支持不足的问题。现有方法主要集中于自然图像，无法有效处理其他视觉模态，导致检索性能下降。此外，训练数据中存在的噪声和假阴性样本也会影响模型的学习效果。

核心思路：论文的核心思路是提出一个统一的多模态嵌入框架RzenEmbed，通过两阶段训练和改进的InfoNCE损失函数，学习跨多种模态的判别性表示。通过硬度加权机制和假阴性缓解方法，提高模型对困难样本的学习能力，并减少数据噪声的影响。

技术框架：RzenEmbed框架包含两个主要阶段：第一阶段是基础文本和多模态检索训练，使用标准的对比学习方法。第二阶段是改进的InfoNCE损失训练，引入了硬度加权机制和假阴性缓解方法。此外，还使用了可学习的温度参数和模型融合技术来进一步提高性能。整体流程是从多种模态的数据中提取特征，然后通过对比学习训练得到统一的嵌入表示。

关键创新：论文的关键创新在于改进的InfoNCE损失函数，包含两个关键增强：一是硬度加权机制，根据样本的难度动态调整权重，使模型更关注困难样本；二是假阴性缓解方法，减少数据噪声对模型训练的影响。这种改进的损失函数能够更有效地学习判别性表示，提高检索性能。

关键设计：硬度加权机制通过计算每个样本的损失值来衡量其难度，并根据难度分配权重。具体来说，损失值越大，权重越高。假阴性缓解方法通过识别潜在的假阴性样本，并在计算损失时降低其影响。可学习的温度参数用于调整对比学习的温度系数，以优化模型的性能。模型融合则通过平均多个模型的参数来提高模型的泛化能力。

🖼️ 关键图片

📊 实验亮点

RzenEmbed在MMEB基准测试中取得了SOTA，整体性能超越了现有方法。尤其在视频和视觉文档检索任务上，RzenEmbed表现突出，显著优于其他模型。实验结果表明，所提出的硬度加权InfoNCE损失和假阴性缓解方法能够有效提高模型的判别能力和检索性能。

🎯 应用场景

RzenEmbed可应用于各种多模态信息检索场景，例如视频搜索、文档检索、图像搜索等。该研究的实际价值在于提升了跨模态检索的准确性和效率，未来可应用于智能客服、内容推荐、知识图谱构建等领域，具有广泛的应用前景。

📄 摘要（原文）

The rapid advancement of Multimodal Large Language Models (MLLMs) has extended CLIP-based frameworks to produce powerful, universal embeddings for retrieval tasks. However, existing methods primarily focus on natural images, offering limited support for other crucial visual modalities such as videos and visual documents. To bridge this gap, we introduce RzenEmbed, a unified framework to learn embeddings across a diverse set of modalities, including text, images, videos, and visual documents. We employ a novel two-stage training strategy to learn discriminative representations. The first stage focuses on foundational text and multimodal retrieval. In the second stage, we introduce an improved InfoNCE loss, incorporating two key enhancements. Firstly, a hardness-weighted mechanism guides the model to prioritize challenging samples by assigning them higher weights within each batch. Secondly, we implement an approach to mitigate the impact of false negatives and alleviate data noise. This strategy not only enhances the model's discriminative power but also improves its instruction-following capabilities. We further boost performance with learnable temperature parameter and model souping. RzenEmbed sets a new state-of-the-art on the MMEB benchmark. It not only achieves the best overall score but also outperforms all prior work on the challenging video and visual document retrieval tasks. Our models are available in https://huggingface.co/qihoo360/RzenEmbed.

RzenEmbed: Towards Comprehensive Multimodal Retrieval

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理