Improve Multi-Modal Embedding Learning via Explicit Hard Negative Gradient Amplifying

📄 arXiv: 2506.02020v1 📥 PDF

作者: Youze Xue, Dian Li, Gang Liu

分类: cs.CV, cs.LG

发布日期: 2025-05-28

🔗 代码/项目: GITHUB


💡 一句话要点

提出显式硬负梯度放大方法,提升多模态嵌入学习性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 对比学习 硬负样本挖掘 梯度放大 嵌入表示

📋 核心要点

  1. 现有对比学习方法在多模态嵌入中,对硬负样本的贡献研究不足,未能充分利用其价值。
  2. 通过分析info-NCE损失梯度,提出显式梯度放大器,增强硬负样本对模型参数更新的影响。
  3. 实验表明,该方法在MMEB基准测试中取得了SOTA性能,并提升了自研MLLM的检索能力。

📝 摘要(中文)

随着多模态大型语言模型(MLLM)的快速发展,对比语言-图像预训练(CLIP)框架已成功扩展到MLLM,为各种检索任务提供更强大和通用的多模态嵌入。尽管如此,从CLIP到MLLM,核心对比学习范式基本保持不变。在该框架内,有效挖掘硬负样本仍然是提高性能的关键因素。先前的工作引入了离线和在线硬负挖掘策略,以提高对比学习的效率。虽然这些方法改进了多模态嵌入,但尚未彻底研究每个硬负样本对学习过程的具体贡献。本文详细分析了info-NCE损失相对于查询、正样本和负样本的梯度,阐明了硬负样本在更新模型参数中的作用。在此基础上,我们提出显式放大与硬负样本相关的梯度,从而鼓励模型学习更具区分性的嵌入。我们的多模态嵌入模型,采用提出的显式梯度放大器,并基于LLaVA-OneVision-7B架构,在MMEB基准测试中实现了最先进的性能,优于先前使用相同MLLM骨干网络的方法。此外,当与我们自主开发的MLLM,QQMM集成时,我们的方法在MMEB排行榜上名列前茅。代码和模型已在https://github.com/QQ-MM/QQMM-embed上发布。

🔬 方法详解

问题定义:论文旨在提升多模态嵌入学习的性能,特别是在对比学习框架下。现有方法,如CLIP及其扩展,在硬负样本挖掘方面存在不足,未能充分挖掘每个硬负样本对模型学习的贡献,导致嵌入表示的区分性不够强。

核心思路:论文的核心思路是通过显式地放大硬负样本的梯度,来增强其对模型参数更新的影响。作者认为,硬负样本包含了更丰富的信息,能够帮助模型更好地学习区分不同模态数据之间的细微差异。通过放大硬负样本的梯度,可以促使模型更加关注这些样本,从而学习到更具区分性的嵌入表示。

技术框架:整体框架基于现有的对比学习流程,例如CLIP。主要包括以下几个阶段:1) 输入多模态数据(图像和文本);2) 使用编码器提取图像和文本的特征表示;3) 计算图像和文本特征之间的相似度;4) 使用info-NCE损失函数进行对比学习;5) 使用提出的显式梯度放大器放大硬负样本的梯度;6) 更新模型参数。

关键创新:最重要的技术创新点是提出了显式梯度放大器。与现有方法的隐式硬负样本挖掘不同,该方法直接作用于梯度层面,通过显式地放大硬负样本的梯度,来增强其对模型学习的影响。这种方法更加直接有效,能够更好地利用硬负样本的信息。

关键设计:论文的关键设计在于如何确定哪些样本是硬负样本,以及如何放大这些样本的梯度。具体来说,作者首先计算每个负样本的损失值,然后选择损失值最高的若干个样本作为硬负样本。对于这些硬负样本,作者使用一个放大系数来放大其梯度。放大系数的具体数值需要根据实验进行调整,以达到最佳的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在MMEB基准测试中取得了SOTA性能,超过了之前基于LLaVA-OneVision-7B架构的方法。此外,当与自研MLLM QQMM集成时,该方法在MMEB排行榜上名列前茅,验证了其有效性和泛化能力。具体的性能提升数据需要在论文中查找。

🎯 应用场景

该研究成果可广泛应用于多模态信息检索、图像文本匹配、跨模态生成等领域。通过提升多模态嵌入的质量,可以提高检索的准确性和效率,改善用户体验。此外,该方法还可以应用于机器人视觉、自动驾驶等领域,帮助机器人更好地理解和处理多模态信息。

📄 摘要(原文)

With the rapid advancement of multi-modal large language models (MLLMs) in recent years, the foundational Contrastive Language-Image Pretraining (CLIP) framework has been successfully extended to MLLMs, enabling more powerful and universal multi-modal embeddings for a wide range of retrieval tasks. Despite these developments, the core contrastive learning paradigm remains largely unchanged from CLIP-style models to MLLMs. Within this framework, the effective mining of hard negative samples continues to be a critical factor for enhancing performance. Prior works have introduced both offline and online strategies for hard negative mining to improve the efficiency of contrastive learning. While these approaches have led to improved multi-modal embeddings, the specific contribution of each hard negative sample to the learning process has not been thoroughly investigated. In this work, we conduct a detailed analysis of the gradients of the info-NCE loss with respect to the query, positive, and negative samples, elucidating the role of hard negatives in updating model parameters. Building upon this analysis, we propose to explicitly amplify the gradients associated with hard negative samples, thereby encouraging the model to learn more discriminative embeddings. Our multi-modal embedding model, trained with the proposed Explicit Gradient Amplifier and based on the LLaVA-OneVision-7B architecture, achieves state-of-the-art performance on the MMEB benchmark compared to previous methods utilizing the same MLLM backbone. Furthermore, when integrated with our self-developed MLLM, QQMM, our approach attains the top rank on the MMEB leaderboard. Code and models are released on https://github.com/QQ-MM/QQMM-embed.