SAKE: Self-aware Knowledge Exploitation-Exploration for Grounded Multimodal Named Entity Recognition

作者: Jielong Tang, Xujie Yuan, Jiayang Liu, Jianxing Yu, Xiao Dong, Lin Chen, Yunlai Teng, Shimin Di, Jian Yin

分类: cs.IR, cs.CL

发布日期: 2026-04-22

备注: 23 pages, 12 figures

💡 一句话要点

SAKE：面向GMNER的自感知知识探索与利用框架，解决长尾实体识别难题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Grounded Multimodal NER 多模态命名实体识别 自感知学习 知识探索 知识利用 强化学习 社交媒体分析

📋 核心要点

现有GMNER方法在开放域社交媒体中面临长尾实体、知识更新迅速等挑战，启发式检索易引入噪声，MLLM内部知识利用受限易产生幻觉。
SAKE框架通过自感知推理和自适应搜索工具调用，协调内部知识利用和外部知识探索，从而更有效地识别和定位多模态命名实体。
SAKE框架在两个社交媒体基准测试中表现出色，证明了其在处理复杂、开放域GMNER任务中的有效性。

📝 摘要（中文）

Grounded Multimodal Named Entity Recognition (GMNER) 旨在提取命名实体并定位其在图像-文本对中的视觉区域，是各种下游应用的关键能力。在开放世界的社交媒体平台上，由于长尾、快速演变和未见实体的普遍存在，GMNER仍然具有挑战性。现有方法通常依赖于启发式检索进行外部知识探索，或通过多模态大型语言模型 (MLLM) 中的迭代细化进行内部知识利用。然而，启发式检索常常引入噪声或冲突证据，降低已知实体的精度，而仅靠内部利用则受到 MLLM 知识边界的限制，容易产生幻觉。为了解决这个问题，我们提出了 SAKE，一个端到端的代理框架，通过自感知推理和自适应搜索工具调用来协调内部知识利用和外部知识探索。我们通过两阶段训练范式来实现这一点。首先，我们提出了难度感知搜索标签生成，通过多次前向采样来量化模型的实体级不确定性，从而产生显式的知识差距信号。基于这些信号，我们构建了 SAKE-SeCoT，这是一个高质量的思维链数据集，通过监督微调使模型具备基本的自我意识和工具使用能力。其次，我们采用具有混合奖励函数的代理强化学习，惩罚不必要的检索，使模型能够从刚性的搜索模仿演变为真正自我感知何时真正需要检索。在两个广泛使用的社交媒体基准上的大量实验证明了 SAKE 的有效性。

🔬 方法详解

问题定义：Grounded Multimodal Named Entity Recognition (GMNER) 旨在从图像-文本对中提取命名实体，并定位它们在图像中的对应区域。现有方法在开放域社交媒体场景下，面临长尾实体、实体演化迅速等问题，导致模型难以准确识别和定位实体。启发式检索容易引入噪声，而仅依赖多模态大语言模型（MLLM）的内部知识则受限于其知识边界，容易产生幻觉。

核心思路：SAKE的核心思路是结合内部知识利用和外部知识探索，通过自感知推理来决定何时需要进行外部知识检索。模型首先评估自身对实体的理解程度，如果认为自身知识不足，则调用外部搜索工具获取更多信息。这种自适应的知识获取方式可以避免不必要的检索，减少噪声干扰，同时弥补MLLM知识的不足。

技术框架：SAKE框架包含两个主要阶段：1) 难度感知搜索标签生成（Difficulty-aware Search Tag Generation）；2) 代理强化学习（Agentic Reinforcement Learning）。在第一阶段，通过多次前向采样来量化模型对每个实体的理解程度，生成知识差距信号，并构建高质量的思维链数据集SAKE-SeCoT，用于监督微调模型，使其具备基本的自我意识和工具使用能力。在第二阶段，使用强化学习训练模型，使其能够根据自身状态和环境信息，自主决定何时进行外部知识检索。

关键创新：SAKE的关键创新在于引入了自感知机制，使模型能够评估自身对实体的理解程度，并根据需要自适应地进行外部知识检索。这种自感知能力使得模型能够更加智能地利用外部知识，避免了盲目检索带来的噪声干扰，提高了GMNER的准确性和效率。与现有方法相比，SAKE不再是简单地依赖启发式检索或MLLM的内部知识，而是将两者有机结合，实现了更有效的知识利用。

关键设计：难度感知搜索标签生成阶段，通过多次前向采样计算实体级的不确定性，作为知识差距信号。代理强化学习阶段，采用混合奖励函数，既奖励准确的实体识别和定位，又惩罚不必要的检索行为，鼓励模型学习何时真正需要外部知识。具体损失函数和网络结构细节在论文中有更详细的描述。

🖼️ 关键图片

📊 实验亮点

SAKE在两个广泛使用的社交媒体基准测试中取得了显著的性能提升。实验结果表明，SAKE能够有效地利用外部知识，提高GMNER的准确性和效率。与现有方法相比，SAKE在实体识别和定位方面均取得了明显的优势，证明了其在处理复杂、开放域GMNER任务中的有效性。具体的性能数据和对比基线在论文中有详细的展示。

🎯 应用场景

SAKE框架在社交媒体分析、智能客服、内容审核等领域具有广泛的应用前景。例如，可以用于自动识别社交媒体帖子中的命名实体，并定位其在图像中的对应区域，从而更好地理解用户意图和内容含义。此外，SAKE还可以应用于智能客服系统，帮助客服人员快速准确地识别用户提出的问题，并提供相关的解决方案。在内容审核方面，SAKE可以自动检测图像和文本中的敏感信息，提高审核效率和准确性。

📄 摘要（原文）

Grounded Multimodal Named Entity Recognition (GMNER) aims to extract named entities and localize their visual regions within image-text pairs, serving as a pivotal capability for various downstream applications. In open-world social media platforms, GMNER remains challenging due to the prevalence of long-tailed, rapidly evolving, and unseen entities. To tackle this, existing approaches typically rely on either external knowledge exploration through heuristic retrieval or internal knowledge exploitation via iterative refinement in Multimodal Large Language Models (MLLMs). However, heuristic retrieval often introduces noisy or conflicting evidence that degrades precision on known entities, while solely internal exploitation is constrained by the knowledge boundaries of MLLMs and prone to hallucinations. To address this, we propose SAKE, an end-to-end agentic framework that harmonizes internal knowledge exploitation and external knowledge exploration via self-aware reasoning and adaptive search tool invocation. We implement this via a two-stage training paradigm. First, we propose Difficulty-aware Search Tag Generation, which quantifies the model's entity-level uncertainty through multiple forward samplings to produce explicit knowledge-gap signals. Based on these signals, we construct SAKE-SeCoT, a high-quality Chain-of-Thought dataset that equips the model with basic self-awareness and tool-use capabilities through supervised fine-tuning. Second, we employ agentic reinforcement learning with a hybrid reward function that penalizes unnecessary retrieval, enabling the model to evolve from rigid search imitation to genuine self-aware decision-making about when retrieval is truly necessary. Extensive experiments on two widely used social media benchmarks demonstrate SAKE's effectiveness.

SAKE: Self-aware Knowledge Exploitation-Exploration for Grounded Multimodal Named Entity Recognition

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理