SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

📄 arXiv: 2509.07968v1 📥 PDF

作者: Lukas Haas, Gal Yona, Giovanni D'Antonio, Sasha Goldshtein, Dipanjan Das

分类: cs.CL

发布日期: 2025-09-09


💡 一句话要点

提出SimpleQA Verified,用于可靠评估LLM参数知识的事实性,并缓解幻觉问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 事实性评估 基准数据集 知识表示 幻觉缓解

📋 核心要点

  1. 现有SimpleQA基准测试存在标签噪声、主题偏差和问题冗余等问题,影响了LLM事实性评估的准确性。
  2. 通过多阶段过滤,包括去重、主题平衡和源协调,构建更可靠、更具挑战性的SimpleQA Verified数据集。
  3. 实验表明,Gemini 2.5 Pro在SimpleQA Verified上取得了55.6的F1分数,超越了包括GPT-5在内的其他模型。

📝 摘要(中文)

本文提出了SimpleQA Verified,一个包含1000个提示的基准数据集,用于评估大型语言模型(LLM)基于OpenAI的SimpleQA的简短形式的事实性。它解决了OpenAI基准测试中的关键限制,包括噪声和不正确的标签、主题偏差和问题冗余。SimpleQA Verified是通过严格的多阶段过滤过程创建的,包括去重、主题平衡和源协调,以产生更可靠和更具挑战性的评估集,以及改进的自动评估器提示。在这个新的基准测试中,Gemini 2.5 Pro取得了55.6的state-of-the-art F1分数,优于包括GPT-5在内的其他前沿模型。这项工作为研究界提供了一个更高保真度的工具,以跟踪参数模型事实性的真正进展,并减轻幻觉。

🔬 方法详解

问题定义:现有OpenAI的SimpleQA基准测试在评估大型语言模型的事实性时存在诸多问题,包括标签错误、数据集中存在主题偏差,以及问题之间存在冗余。这些问题导致评估结果不够准确,难以真实反映模型的事实性水平。

核心思路:为了解决现有SimpleQA基准测试的不足,本文的核心思路是通过一个严格的多阶段过滤流程,对原始数据集进行清洗、去重、平衡和校对,从而构建一个更高质量、更可靠的评估数据集。这样可以更准确地评估LLM的事实性,并更好地跟踪模型在事实性方面的进展。

技术框架:SimpleQA Verified的构建流程主要包含以下几个阶段:1) 去重:移除重复的问题,避免对模型评估产生偏差。2) 主题平衡:确保数据集中各个主题的分布相对均匀,减少主题偏差的影响。3) 源协调:对答案进行来源验证和校对,确保答案的准确性。4) 自动评估器提示改进:优化自动评估器的提示,提高评估的准确性和可靠性。

关键创新:该论文的关键创新在于提出了一个系统性的、多阶段的数据清洗和构建流程,用于构建高质量的事实性评估基准。与以往简单地使用原始数据进行评估的方法相比,该方法能够显著提高评估的准确性和可靠性。

关键设计:具体的技术细节包括:1) 使用特定的算法进行问题去重,例如基于文本相似度的算法。2) 采用特定的策略进行主题平衡,例如对不同主题的问题进行采样或加权。3) 通过人工或自动的方式对答案进行来源验证,并进行必要的校对。4) 设计有效的自动评估器提示,引导评估器给出更准确的评估结果。具体的参数设置和算法选择在论文中可能没有详细说明,属于未知信息。

📊 实验亮点

实验结果表明,在SimpleQA Verified基准测试上,Gemini 2.5 Pro取得了55.6的F1分数,显著优于包括GPT-5在内的其他前沿模型。这表明SimpleQA Verified能够有效区分不同模型的事实性水平,并为研究人员提供了一个可靠的评估工具。该结果也突显了Gemini 2.5 Pro在事实性方面的优势。

🎯 应用场景

SimpleQA Verified可用于评估和比较不同大型语言模型的事实性,帮助研究人员和开发者更好地了解模型的知识掌握程度和潜在的幻觉问题。该基准测试还可以用于指导模型的训练和优化,提高模型生成内容的可靠性和准确性。未来,可以扩展到更多领域和语言,构建更全面的事实性评估体系。

📄 摘要(原文)

We introduce SimpleQA Verified, a 1,000-prompt benchmark for evaluating Large Language Model (LLM) short-form factuality based on OpenAI's SimpleQA. It addresses critical limitations in OpenAI's benchmark, including noisy and incorrect labels, topical biases, and question redundancy. SimpleQA Verified was created through a rigorous multi-stage filtering process involving de-duplication, topic balancing, and source reconciliation to produce a more reliable and challenging evaluation set, alongside improvements in the autorater prompt. On this new benchmark, Gemini 2.5 Pro achieves a state-of-the-art F1-score of 55.6, outperforming other frontier models, including GPT-5. This work provides the research community with a higher-fidelity tool to track genuine progress in parametric model factuality and to mitigate hallucinations. The benchmark dataset, evaluation code, and leaderboard are available at: https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified.