Multimodal Fact-Level Attribution for Verifiable Reasoning

📄 arXiv: 2602.11509v1 📥 PDF

作者: David Wan, Han Wang, Ziyang Wang, Elias Stengel-Eskin, Hyunji Lee, Mohit Bansal

分类: cs.CL, cs.AI, cs.CV

发布日期: 2026-02-12

备注: 29 pages. Code and data are available at https://github.com/meetdavidwan/murgat


💡 一句话要点

提出MuRGAt基准,评估多模态LLM在复杂推理中基于事实的归因能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 事实归因 可验证推理 大型语言模型 基准测试

📋 核心要点

  1. 现有方法在复杂多模态推理中,缺乏对事实层面归因的有效评估,难以保证模型输出的可靠性。
  2. MuRGAt基准要求模型在生成答案时,提供明确的推理过程和精确的模态与时间段引用,实现可验证的归因。
  3. 实验表明,即使是强大的MLLM在复杂推理中仍存在引用幻觉问题,且推理深度与归因准确性之间存在权衡。

📝 摘要(中文)

多模态大型语言模型(MLLM)越来越多地用于涉及多步骤推理和长文本生成的实际任务,其可靠性要求将模型输出建立在异构输入源的基础上,并验证各个事实性声明。然而,现有的多模态基础基准和评估方法侧重于简化的、基于观察的场景或有限的模态,并且未能评估复杂多模态推理中的归因。我们引入了MuRGAt(具有基础归因的多模态推理),这是一个用于评估需要超越直接观察的推理设置中,事实层面的多模态归因的基准。给定跨越视频、音频和其他模态的输入,MuRGAt要求模型生成带有明确推理和精确引用的答案,其中每个引用都指定模态和时间段。为了实现可靠的评估,我们引入了一个与人类判断高度相关的自动评估框架。使用人类和自动评分进行的基准测试表明,即使是强大的MLLM,尽管推理正确,也经常出现幻觉引用。此外,我们观察到一个关键的权衡:增加推理深度或强制执行结构化基础通常会降低准确性,这突出了内部推理和可验证归因之间的显著差距。

🔬 方法详解

问题定义:论文旨在解决多模态大型语言模型(MLLM)在复杂推理场景下,无法准确地将生成内容归因于特定模态和时间段的事实来源的问题。现有方法主要集中在简单的、基于观察的场景,或者仅限于少数模态,缺乏对复杂推理过程中事实层面归因的有效评估,导致模型输出的可靠性难以保证。

核心思路:论文的核心思路是构建一个更具挑战性的多模态推理基准(MuRGAt),该基准要求模型不仅要生成正确的答案,还要提供明确的推理过程和精确的引用,将每个事实性声明追溯到特定的模态和时间段。通过这种方式,可以更全面地评估模型在复杂推理中的归因能力,并发现潜在的引用幻觉问题。

技术框架:MuRGAt基准包含多种模态的输入(视频、音频等),并要求模型生成带有明确推理和精确引用的答案。整体流程包括:1) 给定多模态输入;2) 模型进行多步骤推理并生成答案;3) 模型为答案中的每个事实性声明提供引用,包括模态和时间段;4) 使用自动评估框架评估模型生成的答案和引用的准确性。该框架与人类判断高度相关,能够可靠地评估模型的归因能力。

关键创新:论文的关键创新在于提出了一个更具挑战性的多模态推理基准(MuRGAt),该基准不仅关注答案的正确性,还强调事实层面的归因。此外,论文还提出了一个自动评估框架,能够可靠地评估模型生成的答案和引用的准确性,从而更全面地评估模型在复杂推理中的归因能力。

关键设计:MuRGAt基准的设计考虑了以下关键因素:1) 多样化的模态:包含视频、音频等多种模态,以模拟真实世界的复杂场景;2) 复杂的推理过程:要求模型进行多步骤推理,才能得出正确的答案;3) 精确的引用:要求模型为答案中的每个事实性声明提供精确的引用,包括模态和时间段;4) 可靠的评估:使用自动评估框架,该框架与人类判断高度相关,能够可靠地评估模型的归因能力。

📊 实验亮点

实验结果表明,即使是强大的MLLM在MuRGAt基准上仍然存在引用幻觉问题,并且增加推理深度或强制执行结构化基础通常会降低准确性。这表明,现有MLLM在复杂推理中的归因能力仍然存在显著差距,需要进一步的研究和改进。

🎯 应用场景

该研究成果可应用于需要高度可靠性和可追溯性的多模态信息处理场景,例如:视频内容审核、医疗诊断辅助、智能客服等。通过提高多模态LLM的归因能力,可以增强模型输出的可信度,并为用户提供更可靠的信息来源。

📄 摘要(原文)

Multimodal large language models (MLLMs) are increasingly used for real-world tasks involving multi-step reasoning and long-form generation, where reliability requires grounding model outputs in heterogeneous input sources and verifying individual factual claims. However, existing multimodal grounding benchmarks and evaluation methods focus on simplified, observation-based scenarios or limited modalities and fail to assess attribution in complex multimodal reasoning. We introduce MuRGAt (Multimodal Reasoning with Grounded Attribution), a benchmark for evaluating fact-level multimodal attribution in settings that require reasoning beyond direct observation. Given inputs spanning video, audio, and other modalities, MuRGAt requires models to generate answers with explicit reasoning and precise citations, where each citation specifies both modality and temporal segments. To enable reliable assessment, we introduce an automatic evaluation framework that strongly correlates with human judgments. Benchmarking with human and automated scores reveals that even strong MLLMs frequently hallucinate citations despite correct reasoning. Moreover, we observe a key trade-off: increasing reasoning depth or enforcing structured grounding often degrades accuracy, highlighting a significant gap between internal reasoning and verifiable attribution.