ReFACT: A Benchmark for Scientific Confabulation Detection with Positional Error Annotations

作者: Yindong Wang, Martin Preiß, Margarita Bugueño, Jan Vincent Hoffbauer, Abdullatif Ghajar, Tolga Buz, Gerard de Melo

分类: cs.CL

发布日期: 2025-09-30 (更新: 2025-10-01)

🔗 代码/项目: GITHUB

💡 一句话要点

ReFACT：一个用于科学知识捏造检测的基准数据集，包含位置错误标注

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 科学知识捏造 基准数据集 错误定位 事实性评估

📋 核心要点

现有大型语言模型在科学领域容易捏造事实，缺乏细粒度的评估工具来衡量和解决这一问题。
ReFACT数据集通过提供专家标注的正确和错误答案，以及错误位置和类型信息，实现了对模型捏造行为的精细评估。
实验表明，即使是GPT-4o等先进模型在ReFACT上的表现也远低于预期，凸显了该基准的价值和现有模型的局限性。

📝 摘要（中文）

大型语言模型（LLMs）经常捏造科学事实，严重损害了其可信度。为了应对这一挑战，需要超越二元事实性判断的基准，并实现细粒度的评估。我们推出了ReFACT（Reddit False And Correct Texts），这是一个包含1001个由专家标注的问答对的基准数据集，涵盖了不同的科学领域，用于检测科学知识捏造。每个实例都包含一个科学上正确的答案和一个非事实的对应答案，并标注了精确的错误跨度和错误类型。ReFACT支持多阶段评估：（1）知识捏造检测，（2）细粒度错误定位，以及（3）纠正。我们对9个最先进的LLM进行了基准测试，结果显示性能有限（约50%的准确率）。即使是像GPT-4o这样的顶级模型也无法区分事实性的科学答案和捏造的科学答案，这引发了人们对LLM作为评判标准的可靠性的担忧。我们的研究结果强调，需要细粒度的、经过人工验证的基准来检测和纠正特定领域背景下的科学知识捏造。该数据集可在https://github.com/ddz5431/ReFACT 获取。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）在科学领域中捏造事实的问题。现有的事实性评估方法通常是二元的，无法提供细粒度的错误定位和纠正信息。因此，需要一个能够进行多阶段评估，包括捏造检测、错误定位和纠正的基准数据集。

核心思路：论文的核心思路是构建一个高质量的、人工标注的科学问答数据集，其中包含正确答案和捏造的答案，并对捏造答案进行细粒度的错误标注，包括错误跨度和错误类型。通过这样的数据集，可以更全面地评估LLM在科学领域的知识掌握和推理能力。

技术框架：ReFACT数据集的构建流程主要包括以下几个阶段：1) 从Reddit等平台收集科学领域的问答对；2) 由领域专家对答案进行标注，区分正确答案和捏造答案；3) 对捏造答案进行错误跨度和错误类型的标注；4) 对标注结果进行质量控制，确保数据集的准确性和一致性。

关键创新：ReFACT数据集的关键创新在于其细粒度的错误标注。与传统的二元事实性评估不同，ReFACT不仅区分了正确和错误的答案，还提供了错误的位置和类型信息。这使得研究人员可以更深入地了解LLM的错误来源，并开发更有效的纠正方法。

关键设计：ReFACT数据集包含1001个问答对，涵盖了不同的科学领域。错误类型包括但不限于：概念错误、计算错误、单位错误等。标注过程由多名领域专家独立完成，并通过一致性检验来保证标注质量。数据集被设计为支持多阶段评估，包括捏造检测、错误定位和纠正。

🖼️ 关键图片

📊 实验亮点

对9个最先进的LLM进行了基准测试，结果显示它们的准确率约为50%，表明现有模型在科学知识捏造检测方面存在显著不足。即使是GPT-4o这样的顶级模型也难以区分事实性的科学答案和捏造的科学答案，这引发了人们对LLM作为评判标准的可靠性的担忧。这些结果强调了ReFACT数据集的价值，并指出了未来研究的方向。

🎯 应用场景

ReFACT数据集可用于评估和改进大型语言模型在科学领域的应用，例如科学问答、科学文献摘要、科学知识库构建等。通过使用ReFACT进行训练和评估，可以提高LLM在科学领域的可靠性和准确性，从而促进科学研究和教育的发展。此外，该数据集还可以用于开发自动错误纠正算法，帮助LLM更好地理解和应用科学知识。

📄 摘要（原文）

Large Language Models (LLMs) frequently confabulate scientific facts, severely undermining their trustworthiness. Addressing this challenge requires benchmarks that go beyond binary factuality and enable fine-grained evaluation. We introduce ReFACT (Reddit False And Correct Texts), a benchmark of 1,001 expert-annotated question-answer pairs spanning diverse scientific domains for the detection of scientific confabulation. Each instance includes both a scientifically correct answer and a non-factual counterpart annotated with precise error spans and error types. ReFACT enables multi-stage evaluation: (1) confabulation detection, (2) fine-grained error localization, and (3) correction. We benchmark 9 state-of-the-art LLMs, revealing limited performance (about 50 percent accuracy). Even top models such as GPT-4o fail to distinguish factual from confabulated scientific answers, raising concerns about the reliability of LLM-as-judge evaluation paradigms. Our findings highlight the need for fine-grained, human-validated benchmarks to detect and correct scientific confabulation in domain-specific contexts. The dataset is available at: https://github.com/ddz5431/ReFACT

ReFACT: A Benchmark for Scientific Confabulation Detection with Positional Error Annotations

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理