CiteVQA: Benchmarking Evidence Attribution for Trustworthy Document Intelligence

作者: Dongsheng Ma, Jiayu Li, Zhengren Wang, Yijie Wang, Jiahao Kong, Weijun Zeng, Jutao Xiao, Jie Yang, Wentao Zhang, Bin Wang, Conghui He

分类: cs.CL, cs.CV

发布日期: 2026-05-13

🔗 代码/项目: GITHUB

💡 一句话要点

提出CiteVQA基准，用于评估文档智能中证据溯源的可信度，揭示现有模型中的“溯源幻觉”问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文档问答 多模态大语言模型 证据溯源 可信人工智能 基准测试

📋 核心要点

现有Doc-VQA评估仅关注答案正确性，忽略了模型是否基于正确证据进行推理，这在高风险领域存在潜在风险。
CiteVQA基准要求模型返回答案的同时，提供元素级别的边界框引用，并提出严格归因准确率（SAA）作为评估指标。
实验表明，现有MLLM在CiteVQA上表现不佳，存在严重的“溯源幻觉”问题，表明可信文档智能仍有较大提升空间。

📝 摘要（中文）

多模态大型语言模型（MLLMs）在文档理解方面取得了显著进展，但当前的Doc-VQA评估仅对最终答案进行评分，而忽略了对支持性证据的检查。这种仅关注答案的方法掩盖了一个关键的失败模式：模型可能得出正确的答案，但却将其建立在错误的段落之上。这在高风险领域（如法律、金融和医学）中是一个关键风险，在这些领域中，每个结论都必须可追溯到特定的来源区域。为了解决这个问题，我们引入了CiteVQA，这是一个基准，要求模型在返回每个答案的同时返回元素级别的边界框引用，并联合评估两者。CiteVQA包含跨越七个领域和两种语言的711个PDF文档中的1,897个问题，平均每个文档40.6页。为了确保保真度和可扩展性，ground-truth引用由自动化pipeline生成——该pipeline通过masking ablation识别关键证据——随后通过专家评审进行验证。我们评估的核心是严格归因准确率（SAA），只有当答案和引用的区域都正确时，才认为预测是正确的。对20个MLLM的审计揭示了一种普遍存在的归因幻觉：模型经常产生正确的答案，但引用了错误的区域。最强的系统（Gemini-3.1-Pro-Preview）的SAA仅为76.0，而最强的开源MLLM仅达到22.5。最终，为了实现可信的文档智能，CiteVQA揭示了仅关注答案的评估所忽略的可靠性差距，并提供了弥合这一差距所需的工具。我们的存储库可在https://github.com/opendatalab/CiteVQA获得。

🔬 方法详解

问题定义：论文旨在解决多模态大型语言模型（MLLMs）在文档问答（Doc-VQA）任务中，虽然能给出正确答案，但无法保证答案来源于文档中的正确证据区域的问题。现有方法只关注答案的准确性，忽略了模型推理过程的可信度，这在需要严格溯源的场景下（如法律、金融、医学）是不可接受的。

核心思路：论文的核心思路是引入证据溯源的概念，要求模型在给出答案的同时，必须提供答案所依据的文档区域的引用（bounding box）。通过联合评估答案的正确性和引用的准确性，来衡量模型的可信度。这种方法能够有效检测模型是否存在“溯源幻觉”现象，即给出正确答案但基于错误证据。

技术框架：CiteVQA基准的构建包含以下几个主要阶段：1) 数据收集：收集涵盖七个领域和两种语言的PDF文档，平均每个文档包含40.6页。2) 问题生成：针对每个文档生成问题，问题需要模型给出答案并提供证据引用。3) Ground-truth生成：使用自动化pipeline生成ground-truth引用，该pipeline通过masking ablation识别关键证据，并由专家进行验证。4) 评估指标：提出严格归因准确率（SAA），只有当答案和引用的区域都正确时，才认为预测是正确的。

关键创新：论文的关键创新在于：1) 提出了CiteVQA基准，这是首个关注文档问答中证据溯源的基准。2) 引入了严格归因准确率（SAA）作为评估指标，能够有效衡量模型的可信度。3) 通过实验揭示了现有MLLM在证据溯源方面存在严重的“溯源幻觉”问题。

关键设计：自动化pipeline使用masking ablation来识别关键证据区域。具体来说，它会逐步mask文档中的不同区域，并观察模型答案的变化。如果mask某个区域导致答案发生显著变化，则认为该区域是关键证据。专家评审用于验证自动化pipeline生成的ground-truth引用的准确性。SAA的计算方式为：只有当答案和引用的区域都与ground-truth匹配时，才认为预测正确。

🖼️ 关键图片

📊 实验亮点

对20个MLLM的评估结果显示，现有模型在CiteVQA上的SAA得分普遍较低，表明证据溯源能力不足。最强的系统Gemini-3.1-Pro-Preview的SAA仅为76.0，而最强的开源MLLM仅达到22.5。这些结果突显了现有Doc-VQA评估方法的局限性，以及开发更可信赖的文档智能系统的必要性。

🎯 应用场景

CiteVQA基准的提出，为开发可信赖的文档智能系统奠定了基础。该研究成果可应用于法律、金融、医学等高风险领域，帮助专业人士快速准确地从海量文档中提取关键信息，并确保结论的可追溯性。未来，CiteVQA可以促进多模态大语言模型在文档理解方面的进一步发展，提升其在实际应用中的可靠性和安全性。

📄 摘要（原文）

Multimodal Large Language Models (MLLMs) have significantly advanced document understanding, yet current Doc-VQA evaluations score only the final answer and leave the supporting evidence unchecked. This answer-only approach masks a critical failure mode: a model can land on the correct answer while grounding it in the wrong passage -- a critical risk in high-stakes domains like law, finance, and medicine, where every conclusion must be traceable to a specific source region. To address this, we introduce CiteVQA, a benchmark that requires models to return element-level bounding-box citations alongside each answer, evaluating both jointly. CiteVQA comprises 1,897 questions across 711 PDFs spanning seven domains and two languages, averaging 40.6 pages per document. To ensure fidelity and scalability, the ground-truth citations are generated by an automated pipeline-which identifies crucial evidence via masking ablation-and are subsequently validated through expert review. At the core of our evaluation is Strict Attributed Accuracy (SAA), which credits a prediction only when the answer and the cited region are both correct. Auditing 20 MLLMs reveals a pervasive Attribution Hallucination: models frequently produce the right answer while citing the wrong region. The strongest system (Gemini-3.1-Pro-Preview) achieves an SAA of only 76.0, and the strongest open-source MLLM reaches just 22.5. Ultimately, towards trustworthy document intelligence, CiteVQA exposes a reliability gap that answer-only evaluations overlook, providing the instrumentation needed to close it. Our repository is available at https://github.com/opendatalab/CiteVQA.

CiteVQA: Benchmarking Evidence Attribution for Trustworthy Document Intelligence

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理