MMEmb-R1: Reasoning-Enhanced Multimodal Embedding with Pair-Aware Selection and Adaptive Control

📄 arXiv: 2604.06156v1 📥 PDF

作者: Yuchi Wang, Haiyang Yu, Weikang Bian, Jiefeng Long, Xiao Liang, Chao Feng, Hongsheng Li

分类: cs.CV, cs.AI, cs.CL

发布日期: 2026-04-07


💡 一句话要点

提出MMEmb-R1,通过自适应推理增强多模态嵌入,显著提升MMEB-V2性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态嵌入 自适应推理 强化学习 反事实干预 多模态大型语言模型

📋 核心要点

  1. 现有方法在多模态嵌入任务中未能充分利用MLLMs的推理能力,直接引入推理可能导致结构错位和不必要的计算开销。
  2. MMEmb-R1通过将推理视为潜在变量,并采用成对感知推理选择和强化学习,实现了自适应的推理增强。
  3. 实验结果表明,MMEmb-R1在MMEB-V2基准上取得了71.2分的成绩,显著降低了推理开销和延迟,并刷新了SOTA。

📝 摘要(中文)

多模态大型语言模型(MLLMs)已成功应用于多模态嵌入任务,但其生成式推理能力仍未得到充分利用。将思维链推理直接融入嵌入学习会带来两个根本性挑战:实例级推理与成对对比监督之间的结构错位可能导致模型仅学习推理的表面形式;推理并非对所有嵌入任务都有益,强制对所有输入进行推理可能会引入不必要的计算和延迟,甚至会模糊简单情况下的显著语义信号。为了解决这些问题,我们提出了MMEmb-R1,一个基于自适应推理的多模态嵌入框架。我们将推理形式化为潜在变量,并引入成对感知推理选择,该选择采用反事实干预来识别有利于查询-目标对齐的推理路径。此外,我们采用强化学习来选择性地调用推理,仅在必要时才进行。在MMEB-V2基准上的实验表明,我们的模型仅使用40亿参数就达到了71.2分,在显著降低推理开销和推理延迟的同时,建立了新的最先进水平。

🔬 方法详解

问题定义:现有的多模态嵌入方法未能充分利用多模态大型语言模型(MLLMs)的推理能力。直接将思维链推理融入嵌入学习存在两个主要问题:一是实例级别的推理与成对对比监督之间存在结构上的不匹配,导致模型可能只学习到推理的表面形式,而忽略了深层语义关联;二是推理并非对所有样本都有益,对简单样本强制推理反而会引入额外的计算开销,并可能模糊关键的语义信息。

核心思路:MMEmb-R1的核心思路是实现自适应的推理增强。它将推理过程建模为一个潜在变量,并根据输入样本的复杂程度,选择性地调用推理模块。通过这种方式,模型可以在需要时利用推理能力来提升嵌入质量,同时避免不必要的计算开销。

技术框架:MMEmb-R1的整体框架包含以下几个主要模块:1) 多模态输入编码器:用于提取查询和目标的多模态特征;2) 成对感知推理选择器:利用反事实干预来识别有利于查询-目标对齐的推理路径;3) 推理模块:基于MLLM生成思维链推理过程;4) 强化学习控制器:根据输入样本的特征,决定是否调用推理模块;5) 嵌入生成器:将多模态特征和推理结果融合,生成最终的嵌入向量。

关键创新:MMEmb-R1的关键创新在于其自适应推理机制。传统的推理增强方法通常对所有样本都进行推理,而MMEmb-R1通过成对感知推理选择和强化学习,实现了对推理过程的精细控制。这种自适应机制可以有效地平衡推理的收益和成本,从而提升模型的整体性能。与现有方法的本质区别在于,MMEmb-R1不是简单地将推理模块添加到嵌入模型中,而是将推理过程与嵌入学习过程有机地结合起来,实现了端到端的优化。

关键设计:在成对感知推理选择器中,论文采用了反事实干预的方法来评估推理路径的有效性。具体来说,它通过改变输入样本的某些属性,观察推理结果的变化,从而判断该推理路径是否有利于查询-目标对齐。在强化学习控制器中,论文采用了策略梯度算法来训练控制器,使其能够根据输入样本的特征,选择是否调用推理模块。损失函数包括对比损失和强化学习奖励函数,用于优化嵌入质量和推理策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MMEmb-R1在MMEB-V2基准上取得了显著的性能提升,仅使用40亿参数就达到了71.2分,刷新了SOTA。同时,该模型还显著降低了推理开销和推理延迟,使其在实际应用中更具优势。实验结果表明,MMEmb-R1的自适应推理机制能够有效地平衡推理的收益和成本,从而提升模型的整体性能。

🎯 应用场景

MMEmb-R1的潜在应用领域包括图像检索、视频检索、跨模态检索等。该研究的实际价值在于提升多模态嵌入的质量和效率,从而改善各种多模态检索任务的性能。未来,该方法可以进一步扩展到其他多模态学习任务中,例如多模态对话、多模态问答等。

📄 摘要(原文)

MLLMs have been successfully applied to multimodal embedding tasks, yet their generative reasoning capabilities remain underutilized. Directly incorporating chain-of-thought reasoning into embedding learning introduces two fundamental challenges. First, structural misalignment between instance-level reasoning and pairwise contrastive supervision may lead to shortcut behavior, where the model merely learns the superficial format of reasoning. Second, reasoning is not universally beneficial for embedding tasks. Enforcing reasoning for all inputs may introduce unnecessary computation and latency, and can even obscure salient semantic signals for simple cases. To address these issues, we propose MMEmb-R1, an adaptive reasoning-based multimodal embedding framework. We formulate reasoning as a latent variable and introduce pair-aware reasoning selection that employs counterfactual intervention to identify reasoning paths beneficial for query-target alignment. Furthermore, we adopt reinforcement learning to selectively invoke reasoning only when necessary. Experiments on the MMEB-V2 benchmark demonstrate that our model achieves a score of 71.2 with only 4B parameters, establishing a new state-of-the-art while significantly reducing reasoning overhead and inference latency.