Adaptive Global and Fine-Grained Perceptual Fusion for MLLM Embeddings Compatible with Hard Negative Amplification
作者: Lexiang Hu, Youze Xue, Dian Li, Gang Liu, Zhouchen Lin
分类: cs.CV, cs.LG
发布日期: 2026-02-05
💡 一句话要点
提出AGFF-Embed,融合全局与细粒度感知,提升MLLM嵌入性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 MLLM嵌入 全局感知 细粒度感知 自适应融合 困难负样本 视觉语言模型
📋 核心要点
- 现有MLLM嵌入模型在复杂场景中,难以同时捕捉全局语义和细粒度信息。
- AGFF-Embed通过提示MLLM生成多个不同语义维度的嵌入,并自适应融合,实现全局与细粒度感知。
- 结合EGA技术,AGFF-Embed实现批内困难负样本增强,并在MMEB和MMVP-VLM上取得SOTA性能。
📝 摘要(中文)
多模态嵌入是连接视觉和语言的桥梁,但基于CLIP和MLLM的嵌入模型都局限于捕捉全局语义信息。虽然已有研究关注细粒度理解,但MLLM嵌入所针对的复杂场景通常包含全局和细粒度元素的混合感知模式,因此需要兼容的融合机制。本文提出了自适应全局和细粒度感知融合的MLLM嵌入(AGFF-Embed),该方法提示MLLM生成多个关注不同语义维度信息的嵌入,然后自适应地平滑聚合这些嵌入。此外,我们将AGFF-Embed与显式梯度放大(EGA)技术相结合,以实现批内困难负样本增强,而无需对数据集进行细粒度编辑。在MMEB和MMVP-VLM基准上的评估表明,与其他多模态嵌入模型相比,AGFF-Embed在通用和细粒度理解方面都全面实现了最先进的性能。
🔬 方法详解
问题定义:现有基于MLLM的多模态嵌入方法主要关注全局语义信息的提取,忽略了复杂场景中细粒度信息的重要性。这些方法无法有效处理需要同时理解全局上下文和局部细节的任务,导致性能瓶颈。此外,如何有效利用困难负样本来提升模型的判别能力也是一个挑战。
核心思路:AGFF-Embed的核心思路是通过提示MLLM生成多个嵌入,每个嵌入关注不同的语义维度(例如,全局场景、局部对象、属性等)。然后,通过自适应融合机制,将这些嵌入进行加权组合,从而实现全局和细粒度信息的有效融合。这种方法允许模型根据输入数据的特点,动态地调整不同语义维度的重要性。
技术框架:AGFF-Embed的整体框架包括以下几个主要步骤:1) MLLM提示生成:设计特定的提示语,引导MLLM生成多个不同语义维度的嵌入。2) 自适应融合:使用一个可学习的权重模块,根据输入数据的特点,自适应地计算每个嵌入的权重。3) 嵌入聚合:将加权后的嵌入进行聚合,得到最终的融合嵌入。4) EGA增强:结合显式梯度放大(EGA)技术,增强困难负样本的梯度,从而提升模型的判别能力。
关键创新:AGFF-Embed的关键创新在于其自适应的全局和细粒度感知融合机制。与传统的全局嵌入方法相比,AGFF-Embed能够更好地捕捉复杂场景中的细粒度信息。与需要手动设计细粒度特征的方法相比,AGFF-Embed能够自动地学习不同语义维度的重要性,并进行自适应融合。此外,结合EGA技术,AGFF-Embed能够有效地利用困难负样本,进一步提升模型的性能。
关键设计:在MLLM提示生成阶段,论文设计了一系列提示语,引导MLLM关注不同的语义维度。自适应融合模块使用一个小型神经网络,根据输入数据的特点,计算每个嵌入的权重。EGA技术通过显式地放大困难负样本的梯度,来提升模型的判别能力。具体的损失函数包括对比损失和交叉熵损失,用于优化嵌入的质量和分类性能。
🖼️ 关键图片
📊 实验亮点
AGFF-Embed在MMEB和MMVP-VLM基准测试中取得了state-of-the-art的性能。在MMEB上,AGFF-Embed的性能超越了现有最佳模型X-LLaVA,提升幅度显著。在MMVP-VLM上,AGFF-Embed在细粒度视觉理解方面也取得了显著的提升,证明了其在复杂场景理解方面的有效性。
🎯 应用场景
AGFF-Embed可广泛应用于需要理解复杂场景的多模态任务,如图像描述、视觉问答、图像检索等。该方法能够提升模型对细粒度信息的理解能力,从而提高任务的准确性和鲁棒性。未来,AGFF-Embed有望应用于自动驾驶、智能安防、医疗诊断等领域,为这些领域提供更精准的视觉理解能力。
📄 摘要(原文)
Multimodal embeddings serve as a bridge for aligning vision and language, with the two primary implementations -- CLIP-based and MLLM-based embedding models -- both limited to capturing only global semantic information. Although numerous studies have focused on fine-grained understanding, we observe that complex scenarios currently targeted by MLLM embeddings often involve a hybrid perceptual pattern of both global and fine-grained elements, thus necessitating a compatible fusion mechanism. In this paper, we propose Adaptive Global and Fine-grained perceptual Fusion for MLLM Embeddings (AGFF-Embed), a method that prompts the MLLM to generate multiple embeddings focusing on different dimensions of semantic information, which are then adaptively and smoothly aggregated. Furthermore, we adapt AGFF-Embed with the Explicit Gradient Amplification (EGA) technique to achieve in-batch hard negatives enhancement without requiring fine-grained editing of the dataset. Evaluation on the MMEB and MMVP-VLM benchmarks shows that AGFF-Embed comprehensively achieves state-of-the-art performance in both general and fine-grained understanding compared to other multimodal embedding models.