Emergent Visual Grounding in Large Multimodal Models Without Grounding Supervision

作者: Shengcao Cao, Liang-Yan Gui, Yu-Xiong Wang

分类: cs.CV, cs.AI, cs.LG

发布日期: 2024-10-10 (更新: 2025-10-16)

备注: ICCV 2025 Findings

💡 一句话要点

提出DIFFLMM，无需额外监督即可在大型多模态模型中涌现视觉定位能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 视觉定位 扩散模型 弱监督学习 注意力机制

📋 核心要点

现有LMMs在视觉定位方面存在不足，通常需要额外的定位监督数据进行微调，成本高昂且泛化性受限。
论文提出DIFFLMM，利用扩散模型作为视觉编码器，并通过“attend-and-segment”方法，在无显式定位监督下实现视觉定位能力涌现。
实验表明，DIFFLMM在定位和通用VQA任务上均表现出色，在无监督定位的对话生成任务中超越了有监督模型GLaMM。

📝 摘要（中文）

当前的大型多模态模型(LMMs)在定位方面面临挑战，这要求模型将语言成分与视觉实体相关联。与通常使用额外的定位监督来微调LMMs的做法相反，我们发现定位能力实际上可以在没有显式定位监督的情况下训练的LMMs中涌现。为了揭示这种涌现的定位能力，我们引入了一种“attend-and-segment”方法，该方法利用标准LMMs的注意力图来执行像素级分割。此外，为了增强定位能力，我们提出了DIFFLMM，这是一种利用基于扩散的视觉编码器（而非标准的CLIP视觉编码器）的LMM，并使用相同的弱监督进行训练。我们的方法不受特定于定位的监督数据的偏差和有限规模的约束，因此更具通用性和可扩展性。与定位LMMs和通用LMMs相比，我们在特定于定位和通用视觉问答基准上都取得了具有竞争力的性能。值得注意的是，我们在没有任何定位监督的情况下，在基于定位的对话生成方面实现了44.2的定位掩码召回率，优于经过广泛监督的模型GLaMM。

🔬 方法详解

问题定义：论文旨在解决大型多模态模型(LMMs)中视觉定位能力不足的问题。现有方法通常依赖于额外的、特定于定位的监督数据进行微调，这导致模型容易受到监督数据的偏差影响，并且难以泛化到新的场景和任务。此外，收集和标注这些定位数据成本高昂，限制了模型的可扩展性。

核心思路：论文的核心思路是探索LMMs在没有显式定位监督的情况下，是否能够涌现出视觉定位能力。通过巧妙地利用LMMs的注意力机制，并结合基于扩散模型的视觉编码器，论文提出了一种无需额外定位监督的训练方法，使得模型能够自动地将语言成分与视觉实体相关联。

技术框架：DIFFLMM的整体框架包括一个基于扩散模型的视觉编码器和一个语言模型。视觉编码器负责将输入图像编码成视觉特征表示，语言模型负责处理文本输入和生成输出。关键的“attend-and-segment”方法利用语言模型中视觉token的注意力权重，将其作为像素级别的分割掩码，从而实现视觉定位。整个训练过程采用弱监督方式，即只使用图像-文本对，而不需要额外的定位标注。

关键创新：论文的关键创新在于发现并利用了LMMs中涌现的视觉定位能力。通过“attend-and-segment”方法，将注意力权重转化为像素级别的分割掩码，实现了无需额外监督的视觉定位。此外，使用基于扩散模型的视觉编码器，可以学习到更鲁棒和更具表达能力的视觉特征表示，从而进一步提升定位性能。

关键设计：DIFFLMM的关键设计包括：1) 使用扩散模型作为视觉编码器，以学习更丰富的视觉特征；2) 设计“attend-and-segment”方法，将注意力权重转化为分割掩码；3) 采用弱监督训练方式，仅使用图像-文本对进行训练；4) 损失函数主要由图像-文本对比学习损失和语言模型损失组成，没有额外的定位损失。

🖼️ 关键图片

📊 实验亮点

DIFFLMM在没有使用任何定位监督的情况下，在Grounded Conversation Generation任务上取得了44.2的定位掩码召回率，超越了需要大量定位监督的GLaMM模型。此外，在通用视觉问答任务上，DIFFLMM也取得了具有竞争力的性能，证明了其在定位能力和通用能力之间的良好平衡。

🎯 应用场景

该研究成果可应用于各种需要视觉定位能力的多模态任务，例如视觉问答、图像描述、人机交互和机器人导航。通过减少对人工标注数据的依赖，该方法可以降低模型训练成本，并提高模型在实际应用中的泛化能力。未来，该技术有望推动智能助手、自动驾驶等领域的发展。

📄 摘要（原文）

Current large multimodal models (LMMs) face challenges in grounding, which requires the model to relate language components to visual entities. Contrary to the common practice that fine-tunes LMMs with additional grounding supervision, we find that the grounding ability can in fact emerge in LMMs trained without explicit grounding supervision. To reveal this emerging grounding, we introduce an "attend-and-segment" method which leverages attention maps from standard LMMs to perform pixel-level segmentation. Furthermore, to enhance the grounding ability, we propose DIFFLMM, an LMM utilizing a diffusion-based visual encoder, as opposed to the standard CLIP visual encoder, and trained with the same weak supervision. Without being constrained by the biases and limited scale of grounding-specific supervision data, our approach is more generalizable and scalable. We achieve competitive performance on both grounding-specific and general visual question answering benchmarks, compared with grounding LMMs and generalist LMMs, respectively. Notably, we achieve a 44.2 grounding mask recall on grounded conversation generation without any grounding supervision, outperforming the extensively supervised model GLaMM. Project page: https://GroundLMM-ICCV.github.io.

Emergent Visual Grounding in Large Multimodal Models Without Grounding Supervision

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理