MEBench: Benchmarking Large Language Models for Cross-Document Multi-Entity Question Answering

📄 arXiv: 2502.18993v3 📥 PDF

作者: Teng Lin, Yuyu Luo, Honglin Zhang, Jicheng Zhang, Chunlin Liu, Kaishun Wu, Nan Tang

分类: cs.CL, cs.DB

发布日期: 2025-02-26 (更新: 2025-09-24)

备注: EMNLP2025 Main


💡 一句话要点

MEBench:用于跨文档多实体问答的大语言模型基准测试

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多实体问答 跨文档推理 大型语言模型 基准测试 信息检索 知识整合 EA-F1指标

📋 核心要点

  1. 现有方法在跨文档多实体问答中,难以整合来自不同文档的零散信息,尤其是在处理实体密集型问题时。
  2. 提出MEBench基准测试,旨在系统评估LLM检索、整合和推理碎片化信息的能力,包含4780个问题,覆盖多种真实场景。
  3. 实验表明,即使是GPT-4、Llama-3等先进模型在MEBench上的准确率也仅为59%,揭示了现有LLM框架的局限性。

📝 摘要(中文)

多实体问答(MEQA)对大型语言模型(LLM)和检索增强生成(RAG)系统提出了重大挑战,它们经常难以整合来自不同文档的零散信息。现有方法擅长单文档理解,但在跨文档聚合方面表现不佳,尤其是在解决实体密集型问题时,例如“ACM Fellows在各个研究领域的分布是什么?”,这需要整合来自异构来源(例如,维基百科页面)的以实体为中心的见解。为了解决这个问题,我们引入了MEBench,这是一个新的多文档、多实体基准,旨在系统地评估LLM检索、整合和推理碎片化信息的能力。我们的基准包含4,780个问题,这些问题被系统地分为三个主要类别,并进一步细分为八种不同的类型,确保了对真实世界多实体推理场景的广泛覆盖。我们对最先进的LLM(例如,GPT-4、Llama-3)和RAG管道的实验揭示了关键的局限性:即使是高级模型在MEBench上的准确率也仅为59%。我们的基准强调了MEQA任务中信息提取的完整性和事实准确性的重要性,使用实体属性F1(EA-F1)指标来对实体级别的正确性和属性有效性进行细粒度评估。MEBench不仅突出了当前LLM框架中的系统性弱点,而且为推进稳健的、实体感知的QA架构奠定了基础。

🔬 方法详解

问题定义:论文旨在解决跨文档多实体问答(MEQA)问题。现有方法,特别是大型语言模型(LLM)和检索增强生成(RAG)系统,在整合来自多个文档的零散信息时面临挑战。它们擅长单文档理解,但在处理需要跨多个文档聚合信息的复杂问题时表现不佳,尤其是在处理实体密集型问题时,例如需要整合来自维基百科等异构来源的信息。

核心思路:论文的核心思路是构建一个专门用于评估LLM在MEQA任务中表现的基准测试数据集MEBench。通过系统地设计包含多种类型问题的基准,可以更全面地评估LLM在检索、整合和推理碎片化信息方面的能力。此外,论文还强调了信息提取的完整性和事实准确性的重要性,并使用EA-F1指标进行细粒度评估。

技术框架:MEBench基准测试包含4,780个问题,这些问题被系统地分为三个主要类别,并进一步细分为八种不同的类型,确保了对真实世界多实体推理场景的广泛覆盖。这些类别和类型的设计旨在模拟真实世界中需要跨多个文档进行推理的复杂场景。论文使用EA-F1指标来评估模型在实体级别的正确性和属性有效性。

关键创新:MEBench的主要创新在于其专注于跨文档多实体问答,并提供了一个系统化的基准测试数据集,用于评估LLM在该任务中的表现。与现有方法相比,MEBench更侧重于评估模型整合来自多个文档的零散信息的能力,并使用EA-F1指标进行细粒度评估。这使得MEBench能够更全面地揭示LLM在MEQA任务中的局限性。

关键设计:MEBench的关键设计包括:问题类型的系统分类,涵盖了多种真实世界的多实体推理场景;使用EA-F1指标进行细粒度评估,关注实体级别的正确性和属性有效性;以及数据集的规模,包含4,780个问题,足以进行可靠的性能评估。具体参数设置、损失函数和网络结构取决于被评估的LLM或RAG系统,MEBench主要提供评估标准和数据集。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是GPT-4、Llama-3等先进模型在MEBench上的准确率也仅为59%,凸显了现有LLM在跨文档多实体问答方面的局限性。EA-F1指标的评估结果进一步揭示了模型在实体级别的正确性和属性有效性方面的不足,强调了信息提取的完整性和事实准确性的重要性。

🎯 应用场景

MEBench的研究成果可应用于提升智能问答系统在处理复杂、多源信息查询方面的能力。例如,在金融分析、法律咨询、科学研究等领域,用户经常需要从多个文档中提取和整合信息。该基准测试可以促进开发更强大的LLM和RAG系统,从而提高信息检索和推理的效率和准确性,辅助决策。

📄 摘要(原文)

Multi-entity question answering (MEQA) represents significant challenges for large language models (LLM) and retrieval-augmented generation (RAG) systems, which frequently struggle to consolidate scattered information across diverse documents. While existing methods excel at single-document comprehension, they often struggle with cross-document aggregation, particularly when resolving entity-dense questions like "What is the distribution of ACM Fellows among various fields of study?", which require integrating entity-centric insights from heterogeneous sources (e.g., Wikipedia pages). To address this gap, we introduce MEBench, a novel multi-document, multi-entity benchmark designed to systematically evaluate LLMs' capacity to retrieve, consolidate, and reason over fragmented information. Our benchmark comprises 4,780 questions which are systematically categorized into three primary categories, further divided into eight distinct types, ensuring broad coverage of real-world multi-entity reasoning scenarios. Our experiments on state-of-the-art LLMs (e.g., GPT-4, Llama-3) and RAG pipelines reveal critical limitations: even advanced models achieve only 59% accuracy on MEBench. Our benchmark emphasizes the importance of completeness and factual precision of information extraction in MEQA tasks, using Entity-Attributed F1 (EA-F1) metric for granular evaluation of entity-level correctness and attribution validity. MEBench not only highlights systemic weaknesses in current LLM frameworks but also provides a foundation for advancing robust, entity-aware QA architectures.