PhantomWiki: On-Demand Datasets for Reasoning and Retrieval Evaluation

📄 arXiv: 2502.20377v2 📥 PDF

作者: Albert Gong, Kamilė Stankevičiūtė, Chao Wan, Anmol Kabra, Raphael Thesmar, Johann Lee, Julius Klenke, Carla P. Gomes, Kilian Q. Weinberger

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-02-27 (更新: 2025-06-09)

备注: Accepted to ICML 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出PhantomWiki,用于按需生成数据集,评估LLM的推理和检索能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 评估基准 数据泄露 推理能力 检索能力 按需数据集 知识图谱 问答生成

📋 核心要点

  1. 现有LLM评估基准易受数据泄露影响,导致性能评估不准确,需要新的评估方法。
  2. PhantomWiki按需生成独特且事实一致的文档语料库和问答对,避免数据泄露,实现更可靠的评估。
  3. 实验表明,PhantomWiki数据集对前沿LLM具有挑战性,可用于解耦评估推理、检索和工具使用能力。

📝 摘要(中文)

高质量的基准数据集对于评估大型语言模型(LLMs)的推理和检索能力至关重要。然而,为此目的策划数据集并非长久之计,因为它们容易出现数据泄露和性能虚高的问题。为了应对这些挑战,我们提出了PhantomWiki:一个生成独特、事实一致的文档语料库以及多样化问答对的流程。与之前的工作不同,PhantomWiki既不是固定的数据集,也不是基于任何现有数据。相反,每个评估都会按需生成一个新的PhantomWiki实例。我们改变问题的难度和语料库的大小,分别解耦推理和检索能力,并发现PhantomWiki数据集对于前沿LLM来说极具挑战性。因此,我们贡献了一个可扩展且防数据泄露的框架,用于解耦评估推理、检索和工具使用能力。我们的代码可在https://github.com/kilian-group/phantom-wiki上找到。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)评估中数据泄露导致性能虚高的问题。现有的基准数据集往往是固定的,LLMs可能会在训练过程中接触到这些数据,从而在评估时表现出人为的高性能,无法真实反映其推理和检索能力。

核心思路:论文的核心思路是提出一个按需生成数据集的框架,每次评估都生成全新的、与现有数据无关的数据集。这样可以有效避免数据泄露,从而更准确地评估LLMs的真实能力。通过控制生成数据集的难度和规模,可以分别评估LLMs的推理和检索能力。

技术框架:PhantomWiki的整体框架是一个数据生成pipeline,主要包括以下几个阶段:1) 知识图谱生成:生成一个包含实体和关系的事实知识图谱。2) 文档生成:基于知识图谱生成一系列事实一致的文档,构成语料库。3) 问答对生成:基于文档生成多样化的问答对,用于评估LLMs的推理和检索能力。整个pipeline可以根据评估需求调整参数,例如语料库大小、问题难度等。

关键创新:PhantomWiki最关键的创新在于其按需生成数据集的特性。与传统的固定数据集不同,PhantomWiki每次评估都生成全新的数据集,从而彻底避免了数据泄露的风险。此外,PhantomWiki还可以灵活地控制数据集的难度和规模,从而实现对LLMs推理和检索能力的解耦评估。

关键设计:PhantomWiki的关键设计包括:1) 知识图谱的生成方式,需要保证事实的真实性和一致性。2) 文档生成算法,需要保证文档的可读性和信息密度。3) 问答对生成算法,需要保证问题的多样性和难度。论文中可能涉及一些具体的参数设置,例如知识图谱的大小、文档的长度、问题的类型等,但具体细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PhantomWiki数据集对前沿LLM具有挑战性,表明现有LLM在推理和检索方面仍有提升空间。通过改变问题难度和语料库大小,可以有效解耦LLM的推理和检索能力,为更细粒度的性能分析提供可能。具体性能数据未知。

🎯 应用场景

PhantomWiki可用于开发更可靠的LLM评估基准,推动LLM的公平和客观评估。它还可以应用于LLM的持续监控和改进,帮助开发者发现模型中的潜在问题并进行优化。此外,该框架还可以扩展到其他领域,例如生成特定领域的知识库和问答系统。

📄 摘要(原文)

High-quality benchmarks are essential for evaluating reasoning and retrieval capabilities of large language models (LLMs). However, curating datasets for this purpose is not a permanent solution as they are prone to data leakage and inflated performance results. To address these challenges, we propose PhantomWiki: a pipeline to generate unique, factually consistent document corpora with diverse question-answer pairs. Unlike prior work, PhantomWiki is neither a fixed dataset, nor is it based on any existing data. Instead, a new PhantomWiki instance is generated on demand for each evaluation. We vary the question difficulty and corpus size to disentangle reasoning and retrieval capabilities respectively, and find that PhantomWiki datasets are surprisingly challenging for frontier LLMs. Thus, we contribute a scalable and data leakage-resistant framework for disentangled evaluation of reasoning, retrieval, and tool-use abilities. Our code is available at https://github.com/kilian-group/phantom-wiki.