Adaptive Global and Fine-Grained Perceptual Fusion for MLLM Embeddings Compatible with Hard Negative Amplification

作者: Lexiang Hu, Youze Xue, Dian Li, Gang Liu, Zhouchen Lin

分类: cs.CV, cs.LG

发布日期: 2026-02-05

💡 一句话要点

提出AGFF-Embed，融合全局与细粒度感知，提升MLLM嵌入性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 MLLM嵌入 全局感知 细粒度感知 自适应融合 困难负样本 视觉语言模型

📋 核心要点

现有MLLM嵌入模型在复杂场景中，难以同时捕捉全局语义和细粒度信息。
AGFF-Embed通过提示MLLM生成多个不同语义维度的嵌入，并自适应融合，实现全局与细粒度感知。
结合EGA技术，AGFF-Embed实现批内困难负样本增强，并在MMEB和MMVP-VLM上取得SOTA性能。

📝 摘要（中文）

多模态嵌入是连接视觉和语言的桥梁，但基于CLIP和MLLM的嵌入模型都局限于捕捉全局语义信息。虽然已有研究关注细粒度理解，但MLLM嵌入所针对的复杂场景通常包含全局和细粒度元素的混合感知模式，因此需要兼容的融合机制。本文提出了自适应全局和细粒度感知融合的MLLM嵌入（AGFF-Embed），该方法提示MLLM生成多个关注不同语义维度信息的嵌入，然后自适应地平滑聚合这些嵌入。此外，我们将AGFF-Embed与显式梯度放大（EGA）技术相结合，以实现批内困难负样本增强，而无需对数据集进行细粒度编辑。在MMEB和MMVP-VLM基准上的评估表明，与其他多模态嵌入模型相比，AGFF-Embed在通用和细粒度理解方面都全面实现了最先进的性能。

🔬 方法详解

问题定义：现有基于MLLM的多模态嵌入方法主要关注全局语义信息的提取，忽略了复杂场景中细粒度信息的重要性。这些方法无法有效处理需要同时理解全局上下文和局部细节的任务，导致性能瓶颈。此外，如何有效利用困难负样本来提升模型的判别能力也是一个挑战。

核心思路：AGFF-Embed的核心思路是通过提示MLLM生成多个嵌入，每个嵌入关注不同的语义维度（例如，全局场景、局部对象、属性等）。然后，通过自适应融合机制，将这些嵌入进行加权组合，从而实现全局和细粒度信息的有效融合。这种方法允许模型根据输入数据的特点，动态地调整不同语义维度的重要性。

技术框架：AGFF-Embed的整体框架包括以下几个主要步骤：1) MLLM提示生成：设计特定的提示语，引导MLLM生成多个不同语义维度的嵌入。2) 自适应融合：使用一个可学习的权重模块，根据输入数据的特点，自适应地计算每个嵌入的权重。3) 嵌入聚合：将加权后的嵌入进行聚合，得到最终的融合嵌入。4) EGA增强：结合显式梯度放大（EGA）技术，增强困难负样本的梯度，从而提升模型的判别能力。

关键创新：AGFF-Embed的关键创新在于其自适应的全局和细粒度感知融合机制。与传统的全局嵌入方法相比，AGFF-Embed能够更好地捕捉复杂场景中的细粒度信息。与需要手动设计细粒度特征的方法相比，AGFF-Embed能够自动地学习不同语义维度的重要性，并进行自适应融合。此外，结合EGA技术，AGFF-Embed能够有效地利用困难负样本，进一步提升模型的性能。

关键设计：在MLLM提示生成阶段，论文设计了一系列提示语，引导MLLM关注不同的语义维度。自适应融合模块使用一个小型神经网络，根据输入数据的特点，计算每个嵌入的权重。EGA技术通过显式地放大困难负样本的梯度，来提升模型的判别能力。具体的损失函数包括对比损失和交叉熵损失，用于优化嵌入的质量和分类性能。

🖼️ 关键图片

📊 实验亮点

AGFF-Embed在MMEB和MMVP-VLM基准测试中取得了state-of-the-art的性能。在MMEB上，AGFF-Embed的性能超越了现有最佳模型X-LLaVA，提升幅度显著。在MMVP-VLM上，AGFF-Embed在细粒度视觉理解方面也取得了显著的提升，证明了其在复杂场景理解方面的有效性。

🎯 应用场景

AGFF-Embed可广泛应用于需要理解复杂场景的多模态任务，如图像描述、视觉问答、图像检索等。该方法能够提升模型对细粒度信息的理解能力，从而提高任务的准确性和鲁棒性。未来，AGFF-Embed有望应用于自动驾驶、智能安防、医疗诊断等领域，为这些领域提供更精准的视觉理解能力。

📄 摘要（原文）

Multimodal embeddings serve as a bridge for aligning vision and language, with the two primary implementations -- CLIP-based and MLLM-based embedding models -- both limited to capturing only global semantic information. Although numerous studies have focused on fine-grained understanding, we observe that complex scenarios currently targeted by MLLM embeddings often involve a hybrid perceptual pattern of both global and fine-grained elements, thus necessitating a compatible fusion mechanism. In this paper, we propose Adaptive Global and Fine-grained perceptual Fusion for MLLM Embeddings (AGFF-Embed), a method that prompts the MLLM to generate multiple embeddings focusing on different dimensions of semantic information, which are then adaptively and smoothly aggregated. Furthermore, we adapt AGFF-Embed with the Explicit Gradient Amplification (EGA) technique to achieve in-batch hard negatives enhancement without requiring fine-grained editing of the dataset. Evaluation on the MMEB and MMVP-VLM benchmarks shows that AGFF-Embed comprehensively achieves state-of-the-art performance in both general and fine-grained understanding compared to other multimodal embedding models.

Adaptive Global and Fine-Grained Perceptual Fusion for MLLM Embeddings Compatible with Hard Negative Amplification

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理