Beyond Questions: Evaluating What Large Language Models (Actually) Know
作者: Luca Giordano, Simon Razniewski
分类: cs.CL, cs.AI
发布日期: 2026-05-26
💡 一句话要点
提出开放知识评估框架BeQu,用于全面评估大语言模型所掌握的知识。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 知识评估 开放知识评估 基准测试 知识表示
📋 核心要点
- 现有知识评估方法依赖预设问题,存在可得性偏差,无法全面评估LLM的知识。
- 论文提出开放知识评估范式,通过开放式提示诱导LLM主动呈现知识,更自然地评估其知识。
- 构建了BeQu基准,包含10000个实体,并分析了推理、模型规模、提示和知识领域的影响。
📝 摘要(中文)
大型语言模型(LLMs)中的参数化知识是其成功的基石,但对其理解仍然不足。现有的知识基准通常依赖于预定义的问题(例如,“M.L. King的出生日期是什么?”),仅评估基准设计者明确选择查询的知识,这存在严重的可得性偏差。本文介绍了一种新的LLM知识基准测试范例:开放知识评估。它不提出狭隘的问题,而是评估模型在响应开放式启发提示时选择呈现的知识(例如,“告诉我你所知道的关于M.L. King的一切”)。这使重点从预定义的答案检索转移到表征模型自然表达的知识。我们用BeQu(超越问题)实例化了这个范例,这是一个包含10,000个实体以及用于语句验证的参考语料库的基准。使用BeQu,我们评估了各种语言模型,并分析了推理努力、模型规模、提示格式和知识领域的影响。数据和排行榜可在本作品的GitHub存储库和基准网站上找到。
🔬 方法详解
问题定义:现有的大语言模型知识评估方法主要依赖于预先定义好的问题,这种方式存在固有的局限性,即只能评估模型在这些特定问题上的表现,而无法全面了解模型所掌握的知识。这种“提问-回答”模式容易产生“可得性偏差”,即评估结果很大程度上取决于问题设计者的主观选择,而忽略了模型可能拥有的其他相关知识。因此,如何设计一种更全面、更客观的评估方法,以准确衡量大语言模型所掌握的知识,是本文要解决的核心问题。
核心思路:本文的核心思路是采用“开放式知识评估”范式,即不再预先设定具体的问题,而是通过开放式的提示(例如,“请告诉我关于XXX的一切”)来引导大语言模型主动呈现其所掌握的知识。这种方式能够更自然地反映模型自身的知识结构和表达能力,避免了传统方法中因问题设计而引入的偏差。通过分析模型主动呈现的知识,可以更全面地了解模型所掌握的知识范围和质量。
技术框架:本文提出的BeQu基准测试框架主要包含以下几个关键组成部分:1) 实体选择:选择10,000个具有代表性的实体作为评估对象。2) 开放式提示:设计开放式的提示语,例如“请告诉我关于XXX的一切”,用于引导大语言模型生成知识。3) 知识生成:利用大语言模型对提示语进行响应,生成关于目标实体的知识陈述。4) 知识验证:使用参考语料库对生成的知识陈述进行验证,判断其真伪。5) 性能评估:根据验证结果,对大语言模型的知识掌握程度进行评估。
关键创新:本文最重要的技术创新在于提出了“开放知识评估”这一新的评估范式。与传统的“提问-回答”模式相比,该范式能够更全面、更客观地评估大语言模型所掌握的知识。此外,BeQu基准的构建也为后续研究提供了有力的支持。
关键设计:在BeQu基准的构建过程中,关键的设计包括:1) 实体选择策略:选择具有代表性的实体,覆盖不同的知识领域和类型。2) 提示语设计:设计简洁明了、能够有效引导模型生成知识的提示语。3) 知识验证方法:采用多种知识验证方法,包括基于参考语料库的验证和人工验证,以确保验证结果的准确性。4) 评估指标:设计合理的评估指标,用于衡量模型生成知识的质量和覆盖范围。
🖼️ 关键图片
📊 实验亮点
论文构建了包含10000个实体的BeQu基准,并评估了多种LLM。实验结果表明,开放知识评估能够更全面地反映LLM的知识掌握情况。研究还发现,推理努力、模型规模、提示格式和知识领域等因素都会对LLM的知识表达产生影响。例如,更大的模型规模通常能够带来更好的知识表达效果,而不同的提示格式也会影响模型所呈现的知识内容。
🎯 应用场景
该研究成果可应用于大语言模型的知识评估、知识增强和知识编辑等领域。通过BeQu基准,可以更准确地评估LLM的知识水平,从而指导模型的训练和优化。此外,该方法还可以用于发现LLM中的知识盲点,并进行针对性的知识补充,提升LLM的整体性能。未来,该研究或将推动LLM在知识密集型任务中的应用,例如智能问答、知识图谱构建等。
📄 摘要(原文)
Parametric knowledge in large language models (LLMs) is a cornerstone of their success, yet remains poorly understood. Existing knowledge benchmarks typically rely on predefined questions (e.g., "What is the birth date of M.L. King?"), evaluating only knowledge that benchmark designers explicitly choose to query, a problematic availability bias. In this paper, we introduce open knowledge evaluation, a new paradigm for LLM knowledge benchmarking. Instead of asking narrow questions, it evaluates models on the knowledge they choose to surface in response to open-ended elicitation prompts (e.g., "Tell me everything you know about M.L. King"). This shifts the focus from predefined answer retrieval toward characterizing the knowledge models naturally express. We instantiate this paradigm with BeQu (Beyond Questions), a benchmark of 10,000 entities paired with reference corpora for statement verification. Using BeQu, we evaluate a broad range of language models and analyze the effects of reasoning effort, model scale, prompt format, and knowledge domain. Data and leaderboard are available on this work's GitHub repository and at the benchmark's website.