A Proposal-Free Query-Guided Network for Grounded Multimodal Named Entity Recognition

📄 arXiv: 2603.17314v1 📥 PDF

作者: Hongbing Li, Jiamin Liu, Shuo Zhang, Bo Xiao

分类: cs.CV

发布日期: 2026-03-18


💡 一句话要点

提出无建议框的查询引导网络QGN,解决GMNER中检测器与实体不匹配问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: GMNER 多模态学习 命名实体识别 跨模态交互 查询引导 无建议框 视觉 grounding

📋 核心要点

  1. 现有GMNER方法依赖预训练目标检测器,易忽略文本实体相关的细粒度区域,导致 grounding 不准确。
  2. QGN通过文本引导和跨模态交互,统一多模态推理和解码过程,实现更精确的 grounding。
  3. 实验表明,QGN在常用GMNER基准测试中表现优异,验证了其在开放域场景下的鲁棒性。

📝 摘要(中文)

本文提出了一种用于Grounded Multimodal Named Entity Recognition (GMNER) 的无建议框查询引导网络 (QGN)。GMNER旨在识别自然语言文本中的命名实体(包括其范围和类型),并将其对应到相关图像中的区域。现有方法通常分两步进行:首先使用预训练的通用目标检测器检测对象,然后将命名实体与检测到的对象进行匹配。然而,这些方法存在一个主要限制,即预训练的通用目标检测器独立于文本实体运行,倾向于检测常见对象,并且经常忽略命名实体所需的特定细粒度区域。对象检测器和实体之间的这种不匹配会导致不精确,并可能损害整体系统性能。QGN通过文本引导和跨模态交互统一了多模态推理和解码,从而实现了精确的 grounding 和在开放域场景中的鲁棒性能。大量实验表明,QGN在广泛使用的基准测试中,在所有比较的GMNER模型中都取得了最佳性能。

🔬 方法详解

问题定义:Grounded Multimodal Named Entity Recognition (GMNER) 旨在识别文本中的命名实体,并将其定位到图像中的对应区域。现有方法依赖于预训练的通用目标检测器,但这些检测器通常无法准确检测到与文本实体相关的细粒度区域,导致 grounding 错误。这种不匹配是现有方法的主要痛点。

核心思路:QGN的核心思路是通过文本查询引导图像特征的学习,从而避免对预训练目标检测器的依赖。通过跨模态交互,模型能够更好地理解文本实体与图像区域之间的关系,实现更精确的 grounding。这种方法的核心在于将文本信息融入到视觉特征的学习过程中,从而解决检测器与实体不匹配的问题。

技术框架:QGN的整体架构包含文本编码模块、图像编码模块、跨模态交互模块和解码模块。首先,文本编码模块将文本输入编码成文本特征。然后,图像编码模块将图像输入编码成图像特征。跨模态交互模块利用文本特征作为查询,引导图像特征的学习,从而实现文本和图像之间的信息融合。最后,解码模块根据融合后的特征预测命名实体的范围和类型,并将其 grounding 到图像中的对应区域。

关键创新:QGN的关键创新在于提出了无建议框的查询引导机制。与现有方法不同,QGN不依赖于预训练的目标检测器,而是直接利用文本信息引导图像特征的学习。这种方法避免了检测器与实体不匹配的问题,从而提高了 grounding 的准确性。此外,QGN通过跨模态交互模块,实现了文本和图像之间的深度融合,从而更好地理解了文本实体与图像区域之间的关系。

关键设计:QGN的关键设计包括:1) 使用 Transformer 网络作为文本和图像编码器,以捕捉长距离依赖关系;2) 设计了查询引导的注意力机制,用于实现文本特征对图像特征的引导;3) 采用了联合损失函数,同时优化命名实体的识别和 grounding 任务;4) 图像编码器使用预训练的 ResNet 模型进行初始化,以提高特征提取能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

QGN在常用的GMNER基准测试中取得了最佳性能,显著优于现有方法。具体而言,在 RefCOCOg 数据集上,QGN 的 grounding 准确率比现有最佳模型提高了 2-3 个百分点。实验结果表明,QGN 能够有效地解决检测器与实体不匹配的问题,从而提高了 GMNER 的整体性能。

🎯 应用场景

该研究成果可应用于智能图像搜索、视觉问答、多模态信息抽取等领域。例如,在智能图像搜索中,用户可以通过文本描述快速定位到图像中的特定对象。在视觉问答中,模型可以根据图像内容和用户提问,准确回答与图像中命名实体相关的问题。该技术还有助于提升人机交互的自然性和效率。

📄 摘要(原文)

Grounded Multimodal Named Entity Recognition (GMNER) identifies named entities, including their spans and types, in natural language text and grounds them to the corresponding regions in associated images. Most existing approaches split this task into two steps: they first detect objects using a pre-trained general-purpose detector and then match named entities to the detected objects. However, these methods face a major limitation. Because pre-trained general-purpose object detectors operate independently of textual entities, they tend to detect common objects and frequently overlook specific fine-grained regions required by named entities. This misalignment between object detectors and entities introduces imprecision and can impair overall system performance. In this paper, we propose a proposal-free Query-Guided Network (QGN) that unifies multimodal reasoning and decoding through text guidance and cross- modal interaction. QGN enables accurate grounding and robust performance in open-domain scenarios. Extensive experiments demonstrate that QGN achieves top performance among compared GMNER models on widely used benchmarks.