FactTest: Factuality Testing in Large Language Models with Finite-Sample and Distribution-Free Guarantees

📄 arXiv: 2411.02603v3 📥 PDF

作者: Fan Nie, Xiaotian Hou, Shuhang Lin, James Zou, Huaxiu Yao, Linjun Zhang

分类: cs.CL, cs.AI, stat.ML

发布日期: 2024-11-04 (更新: 2024-11-07)


💡 一句话要点

FactTest:基于有限样本和无分布保证的大语言模型事实性测试框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 事实性测试 幻觉检测 假设检验 无分布 统计保证 可靠性 可信赖AI

📋 核心要点

  1. 大型语言模型容易产生幻觉,生成不实内容,这限制了其在高风险场景下的应用,需要严格控制I类错误。
  2. FactTest将事实性测试建模为假设检验问题,通过控制I类错误来保证LLM回答问题时的高概率正确性。
  3. 实验表明,FactTest能有效检测幻觉,提升模型拒绝回答未知问题的能力,准确率提升超过40%。

📝 摘要(中文)

大型语言模型(LLM)生成幻觉和不实内容的倾向削弱了它们在高风险领域的可靠性,在这些领域中,严格控制I类错误(错误地将幻觉分类为真实内容的条件概率)至关重要。尽管其重要性,但对此类保证的LLM事实性的形式验证在很大程度上仍未被探索。在本文中,我们介绍FactTest,这是一个新颖的框架,用于统计评估LLM是否能够自信地为给定的问题提供正确的答案,并具有高概率的正确性保证。我们将事实性测试表述为假设检验问题,以在用户指定的显著性水平上强制执行I类错误的上限。值得注意的是,我们证明了我们的框架还在温和的条件下确保了强大的II类错误控制,并且可以扩展以在协变量偏移存在时保持其有效性。我们的方法是无分布的,适用于任何数量的人工标注样本。它是模型无关的,适用于任何黑盒或白盒LM。在问答(QA)和多项选择基准上的大量实验表明,FactTest有效地检测到幻觉,并提高了模型避免回答未知问题的能力,从而使准确性提高了40%以上。

🔬 方法详解

问题定义:大型语言模型在生成文本时,容易产生与事实不符的内容,即“幻觉”。现有方法缺乏对模型事实性的严格验证,尤其是在控制I类错误(将幻觉误判为真实)方面。因此,需要一种方法来评估LLM在回答问题时的事实性,并提供统计保证。

核心思路:FactTest的核心思想是将事实性测试转化为一个假设检验问题。通过设定显著性水平,控制I类错误(将幻觉误判为真实)的概率,从而保证模型以高概率给出正确答案。该方法不依赖于特定的数据分布,适用于各种LLM。

技术框架:FactTest框架主要包含以下几个阶段: 1. 问题生成:准备一系列需要验证事实性的问题。 2. 答案生成:使用待评估的LLM生成对应问题的答案。 3. 人工标注:对LLM生成的答案进行人工标注,判断其是否符合事实。 4. 假设检验:基于人工标注结果,进行假设检验,判断LLM的事实性是否满足预设的显著性水平。 5. 结果评估:根据假设检验的结果,评估LLM的事实性,并给出相应的统计保证。

关键创新:FactTest的关键创新在于将事实性测试形式化为假设检验问题,并提供了有限样本和无分布的保证。这意味着该方法不需要大量数据,也不依赖于特定的数据分布,可以更可靠地评估LLM的事实性。

关键设计:FactTest的关键设计包括: 1. 假设检验方法:选择合适的假设检验方法,例如基于p值的检验或置信区间的检验。 2. 显著性水平:根据实际应用场景,设定合适的显著性水平,以控制I类错误的概率。 3. 样本量:根据所需的统计功效,确定合适的样本量,以保证检验的有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在问答和多项选择题基准测试中,FactTest有效地检测到了LLM的幻觉,并提高了模型避免回答未知问题的能力,从而使准确率提高了40%以上。该结果表明FactTest在提高LLM事实性和可靠性方面具有显著效果。

🎯 应用场景

FactTest可应用于各种需要LLM提供可靠信息的场景,例如医疗诊断、金融分析、法律咨询等。通过提供事实性保证,可以提高LLM在这些高风险领域的应用价值,并降低因幻觉带来的潜在风险。该研究还有助于推动LLM的可信赖性和安全性研究。

📄 摘要(原文)

The propensity of Large Language Models (LLMs) to generate hallucinations and non-factual content undermines their reliability in high-stakes domains, where rigorous control over Type I errors (the conditional probability of incorrectly classifying hallucinations as truthful content) is essential. Despite its importance, formal verification of LLM factuality with such guarantees remains largely unexplored. In this paper, we introduce FactTest, a novel framework that statistically assesses whether a LLM can confidently provide correct answers to given questions with high-probability correctness guarantees. We formulate factuality testing as hypothesis testing problem to enforce an upper bound of Type I errors at user-specified significance levels. Notably, we prove that our framework also ensures strong Type II error control under mild conditions and can be extended to maintain its effectiveness when covariate shifts exist. Our approach is distribution-free and works for any number of human-annotated samples. It is model-agnostic and applies to any black-box or white-box LM. Extensive experiments on question-answering (QA) and multiple-choice benchmarks demonstrate that FactTest effectively detects hallucinations and improves the model's ability to abstain from answering unknown questions, leading to an over 40% accuracy improvement.