Think When Needed: Adaptive Reasoning-Driven Multimodal Embeddings with a Dual-LoRA Architecture
作者: Longxiang Zhang, Weilong Dai, Guanghao Zhang, Hao Jiang, Pipei Huang
分类: cs.CV, cs.CL, cs.IR
发布日期: 2026-05-14
备注: 30 pages, preprint
💡 一句话要点
提出TWN:一种基于双LoRA架构的自适应推理多模态嵌入框架,提升效率和质量。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态嵌入 自适应推理 思维链 LoRA MMEB-V2
📋 核心要点
- 现有MLLM嵌入方法在推理时对所有输入无差别地生成CoT,导致计算冗余,且可能降低简单输入的性能。
- TWN通过双LoRA架构和自监督路由门,实现按需推理,仅在必要时生成CoT,从而提高效率和质量。
- 实验表明,TWN在MMEB-V2上实现了SOTA嵌入质量,同时显著降低了参数开销和推理token数量。
📝 摘要(中文)
多模态大型语言模型(MLLM)已成为多模态嵌入的强大骨干。现有方法将思维链(CoT)推理引入嵌入流程以提高检索质量,但模型大小和推理成本仍然很高。它们通常采用单独的推理器和嵌入器,参数开销大,并且对每个输入无差别地生成CoT。然而,对于简单的输入,判别式嵌入已经表现良好,冗余推理甚至会误导模型,降低性能。为了解决这些限制,我们提出了Think When Needed (TWN),一个具有自适应推理的统一多模态嵌入框架。TWN引入了一种双LoRA架构,将推理和嵌入适配器连接到共享的冻结骨干,并在它们的接口处分离梯度,以减轻联合优化引入的梯度冲突,同时保持参数接近单个模型。在此基础上,自适应思考机制使用自监督路由门来决定每个输入是否生成CoT,跳过不必要的推理以减少推理开销,甚至提高检索质量。我们进一步探索了嵌入引导的强化学习,以优化超出监督训练的CoT质量。在MMEB-V2的78个任务中,TWN实现了最先进的嵌入质量,同时比现有的生成方法效率更高,相对于骨干网络仅需要3-5%的额外参数,并且与完全生成模式相比,推理token最多减少50%。
🔬 方法详解
问题定义:论文旨在解决多模态嵌入中,现有方法对所有输入都进行CoT推理导致的效率低下和性能下降问题。现有方法通常采用独立的推理器和嵌入器,增加了参数开销,并且忽略了简单输入可以直接通过判别式嵌入获得良好结果的情况,不必要的推理反而会引入噪声。
核心思路:论文的核心思路是引入自适应推理机制,让模型能够根据输入内容的复杂程度,动态地决定是否需要进行CoT推理。通过一个路由门(routing gate)来判断是否需要生成CoT,从而避免对简单输入进行不必要的推理,提高效率和准确性。
技术框架:TWN框架包含一个共享的冻结骨干网络,以及两个LoRA适配器:一个用于推理(reasoning adapter),一个用于嵌入(embedding adapter)。这两个适配器通过双LoRA架构连接到骨干网络,并在它们的接口处分离梯度,以避免联合优化带来的梯度冲突。此外,框架还包含一个自监督路由门,用于决定是否生成CoT。整体流程是:输入首先经过骨干网络,然后路由门决定是否使用推理适配器生成CoT,最后使用嵌入适配器生成最终的嵌入向量。
关键创新:TWN的关键创新在于:1) 提出了双LoRA架构,将推理和嵌入模块解耦,避免了梯度冲突;2) 引入了自监督路由门,实现了自适应推理,提高了效率和准确性;3) 探索了嵌入引导的强化学习,进一步优化CoT的质量。与现有方法的本质区别在于,TWN能够根据输入内容动态地调整推理策略,而不是对所有输入都进行相同的处理。
关键设计:路由门使用一个小型神经网络,以骨干网络的输出作为输入,预测是否需要生成CoT。路由门的训练采用自监督方式,目标是最大化检索性能。损失函数包括对比损失和路由损失,其中路由损失用于鼓励路由门做出正确的决策。此外,论文还探索了使用强化学习来优化CoT的质量,奖励信号基于嵌入向量的检索性能。
🖼️ 关键图片
📊 实验亮点
TWN在MMEB-V2数据集的78个任务上取得了state-of-the-art的嵌入质量,同时仅需3-5%的额外参数。与完全生成模式相比,TWN最多可以减少50%的推理token,显著提高了推理效率。实验结果表明,TWN在效率和性能之间取得了良好的平衡。
🎯 应用场景
该研究成果可广泛应用于多模态信息检索、视觉问答、图像描述生成等领域。通过自适应推理,可以显著提高这些应用在处理复杂多模态数据时的效率和准确性,降低计算成本,并提升用户体验。未来,该方法有望扩展到更多模态和更复杂的任务中。
📄 摘要(原文)
Multimodal large language models (MLLMs) have emerged as a powerful backbone for multimodal embeddings. Recent methods introduce chain-of-thought (CoT) reasoning into the embedding pipeline to improve retrieval quality, but remain costly in both model size and inference cost. They typically employ separate reasoner and embedder with substantial parameter overhead, and generate CoT indiscriminately for every input. However, we observe that for simple inputs, discriminative embeddings already perform well, and redundant reasoning can even mislead the model, degrading performance. To address these limitations, we propose Think When Needed (TWN), a unified multimodal embedding framework with adaptive reasoning. TWN introduces a dual-LoRA architecture that attaches reasoning and embedding adapters to a shared frozen backbone, detaching gradients at their interface to mitigate gradient conflicts introduced by joint optimization while keeping parameters close to a single model. Building on this, an adaptive think mechanism uses a self-supervised routing gate to decide per input whether to generate CoT, skipping unnecessary reasoning to reduce inference overhead and even improve retrieval quality. We further explore embedding-guided RL to optimize CoT quality beyond supervised training. On the 78 tasks of MMEB-V2, TWN achieves state-of-the-art embedding quality while being substantially more efficient than existing generative methods, requiring only 3-5% additional parameters relative to the backbone and up to 50% fewer reasoning tokens compared to the full generative mode.