SAVER: Selective As-Needed Vision Evidence for Multimodal Information Extraction

📄 arXiv: 2605.20713v1 📥 PDF

作者: Miaobo Hu, Shuhao Hu, Bokun Wang, Rui Chen, Xin Wang, Xiaobo Guo, Daren Zha, Jun Xiao

分类: cs.CV, cs.AI, cs.LG

发布日期: 2026-05-20


💡 一句话要点

SAVER:针对多模态信息抽取的选择性按需视觉证据方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态信息抽取 选择性视觉证据 社交媒体分析 命名实体识别 关系抽取

📋 核心要点

  1. 社交媒体多模态信息抽取中,图像与文本关联性弱,冗余甚至误导,导致传统多模态融合方法效率低且易受干扰。
  2. SAVER框架通过一致性可信度门(CGG)判断视觉信息的需求,并使用子模态选择器选取最具信息量的图像子集。
  3. 实验结果表明,SAVER在提升F1值的同时,降低了计算成本和延迟,并在风险可控的前提下提高了视觉信息的利用率。

📝 摘要(中文)

社交媒体中的多模态信息抽取面临挑战,因为帖子可能包含多个与文本弱相关、冗余甚至具有误导性的图像。在这种情况下,始终开启的多模态融合不仅浪费计算资源,还可能放大虚假的视觉线索。核心挑战在于确定对于每个候选片段或标记实体对,是否应该利用视觉信息,如果需要,应该选择哪个小型图像子集来提供可信的证据。我们提出了SAVER,一个选择性的按需视觉框架,用于多模态命名实体识别和多模态关系抽取。SAVER使用一致性可信度门(CGG)来估计MNER中的片段级视觉可信度,从两个标记实体中推导出MRE中的对级激活,并通过具有Clopper--Pearson上限的一致性风格程序在保留的分割上校准激活阈值。当激活时,一个子模态相关性-多样性选择器选择一个紧凑的图像证据子集,然后由一个集合转换器进行聚合。一个受能量启发的联合评分头结合了文本、可选的视觉证据、文本-图像一致性和稀疏路由,用于实体类型分类或关系分类。实验表明,SAVER始终优于强大的纯文本和始终开启的多模态基线,同时降低了AURC,在固定风险水平下增加了激活覆盖率,并降低了FLOPs和P90延迟。

🔬 方法详解

问题定义:多模态信息抽取任务在社交媒体环境中面临的挑战是,帖子中包含的图像可能与文本信息关联性较弱,甚至存在冗余或误导信息。现有方法通常采用“始终开启”的多模态融合策略,这不仅浪费计算资源,还可能引入噪声,降低信息抽取的准确性。因此,如何选择性地利用视觉信息,避免无效或有害的视觉输入,是亟待解决的问题。

核心思路:SAVER的核心思路是“按需”利用视觉信息。它首先判断是否需要引入视觉信息,然后选择最具信息量的图像子集。这种选择性策略旨在提高信息抽取的效率和准确性,同时降低计算成本。通过这种方式,模型可以专注于与文本信息高度相关的视觉证据,从而减少噪声干扰。

技术框架:SAVER框架主要包含以下几个模块:1) 一致性可信度门(CGG):用于估计片段级别的视觉可信度,决定是否需要引入视觉信息。2) 子模态相关性-多样性选择器:在确定需要视觉信息后,选择最具代表性和多样性的图像子集。3) 集合转换器:用于聚合所选图像子集中的视觉信息。4) 联合评分头:结合文本信息、视觉证据、文本-图像一致性和稀疏路由,进行实体类型分类或关系分类。

关键创新:SAVER的关键创新在于其选择性视觉信息利用策略。与传统的“始终开启”的多模态融合方法不同,SAVER能够根据文本信息和视觉信息的相关性,动态地决定是否需要引入视觉信息,并选择最具信息量的图像子集。这种选择性策略能够有效地降低计算成本,提高信息抽取的准确性。

关键设计:CGG使用一致性风险控制方法,通过Clopper-Pearson置信区间来校准激活阈值,确保在一定的风险水平下,尽可能多地覆盖有用的视觉信息。子模态选择器采用子模态优化算法,在保证相关性的同时,尽可能地选择具有多样性的图像子集。联合评分头采用能量模型,将文本信息、视觉证据和文本-图像一致性整合到一个统一的评分函数中。

📊 实验亮点

实验结果表明,SAVER在多模态命名实体识别和多模态关系抽取任务上,相较于纯文本和始终开启的多模态基线,F1值得到了显著提升。同时,SAVER降低了AURC(风险覆盖曲线下面积),在固定风险水平下增加了激活覆盖率,并降低了FLOPs(浮点运算次数)和P90延迟,证明了其在效率和准确性方面的优势。

🎯 应用场景

SAVER框架可应用于社交媒体舆情分析、电商商品信息抽取、新闻事件检测等领域。通过选择性地利用图像信息,可以提高信息抽取的准确性和效率,从而更好地理解和分析多模态数据。未来,该方法有望扩展到其他多模态任务,如视频理解、医学图像分析等。

📄 摘要(原文)

Multimodal IE in social media is difficult because a post may attach multiple images that are weakly related, redundant, or even misleading with respect to the text. In this setting, always-on multimodal fusion wastes computation and can amplify spurious visual cues. The core challenge is to decide, for each candidate span or marked entity pair, whether vision should be consulted at all and, if so, which small subset of images provides trustworthy evidence. We propose SAVER, a selective vision-as-needed framework for multimodal named entity recognition and multimodal relation extraction. SAVER uses a Conformal Groundability Gate (CGG) to estimate span-level visual groundability in MNER, derive pair-level activation in MRE from the two marked entities, and calibrate the activation threshold on a held-out split via a conformal-style procedure with Clopper--Pearson upper bounds. When activated, a submodular relevance--diversity selector chooses a compact evidence subset across images, which is then aggregated by a Set Transformer. An energy-inspired joint scoring head combines text, optional visual evidence, text--image consistency, and sparse routing for entity typing or relation classification. Experiments show that SAVER consistently improves F1 over strong text-only and always-on multimodal baselines, while reducing AURC, increasing activation coverage at a fixed risk level, and lowering FLOPs and P90 latency.