Teaching Language Models to Check Grounded Claim Factuality with Human Test-Taking Strategies

📄 arXiv: 2605.29712v1 📥 PDF

作者: Yuxuan Ye, Raul Santos-Rodriguez, Edwin Simpson

分类: cs.CL, cs.AI

发布日期: 2026-05-28

备注: ACL 2026 Main


💡 一句话要点

提出基于人类应试策略的语言模型,用于检查生成文本的事实性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 事实性检查 语言模型 阅读理解 提示工程 知识推理

📋 核心要点

  1. 现有事实性检查方法依赖数据集特定阈值或未能充分利用LLM推理能力。
  2. 将事实性检查建模为阅读理解任务,并用应试策略提示LLM进行高效推理。
  3. 实验表明,该方法在降低token使用量的同时,取得了与现有方法相当甚至更好的性能。

📝 摘要(中文)

本文针对大型语言模型(LLM)在检索增强生成等应用中,生成内容的事实性检查问题,提出了一种新方法。现有基于蕴含分类器的指标需要针对特定数据集进行阈值调整,而基于LLM的方法通常采用直接提示,未能充分利用LLM的推理能力。本文将事实性检查建模为真/假阅读理解任务,并使用显式的应试策略提示LLM,以实现高效推理。该方法比无引导的开放式推理减少了80%以上的token使用量,并在两个事实性基准测试中取得了与更昂贵的替代方案相当的性能,并在一个基准上创造了新的state-of-the-art。为了进一步降低推理成本,本文训练小型语言模型(SLM)来替代LLM。通过监督微调(SFT)和自我修正机制,SLM学会提高其事实性判断能力。实验结果表明,由此产生的SLM的性能与强大的基线相当,同时结合了低推理成本和生成支持性理由以提高可解释性。代码和数据集将在接受后发布。

🔬 方法详解

问题定义:论文旨在解决大型语言模型生成内容的事实性验证问题。现有方法,如基于蕴含分类器的指标,需要针对特定数据集进行阈值调整,缺乏通用性。而直接提示LLM进行事实性判断,未能充分利用LLM的推理能力,导致效率低下和成本高昂。

核心思路:论文的核心思路是将事实性检查问题转化为一个阅读理解任务,具体来说,是一个判断题。通过模拟人类在考试中常用的应试策略,例如仔细阅读材料、寻找关键证据等,来引导LLM进行推理,从而提高判断的准确性和效率。

技术框架:整体框架包含以下几个主要步骤:1) 将待验证的claim和相关证据作为输入;2) 使用特定的prompt,将问题转化为一个真/假判断题,并加入人类应试策略的指导;3) 使用LLM对转化后的问题进行推理,输出判断结果和相应的理由;4) (可选) 使用监督微调(SFT)和自我修正机制训练小型语言模型(SLM)来替代LLM,以降低推理成本。

关键创新:最重要的技术创新点在于将人类应试策略融入到LLM的prompt中,从而有效地引导LLM进行推理,提高了事实性检查的准确性和效率。与直接提示相比,该方法能够更好地利用LLM的推理能力,并显著减少token的使用量。

关键设计:论文中使用了特定的prompt模板,将事实性检查问题转化为真/假判断题,并在prompt中加入了明确的应试策略指导,例如“仔细阅读claim和证据”、“寻找支持或反对claim的证据”等。此外,论文还使用了监督微调(SFT)和自我修正机制来训练小型语言模型(SLM),使其能够模仿LLM的推理过程,从而降低推理成本。具体的损失函数和网络结构等技术细节在论文中应该有更详细的描述(未知)。

📊 实验亮点

实验结果表明,该方法在两个事实性基准测试中取得了与更昂贵的替代方案相当的性能,并在一个基准上创造了新的state-of-the-art。此外,该方法比无引导的开放式推理减少了80%以上的token使用量,显著降低了推理成本。通过监督微调和自我修正机制训练的小型语言模型(SLM)的性能与强大的基线相当,同时保持了低推理成本和生成支持性理由的能力。

🎯 应用场景

该研究成果可广泛应用于各种需要验证生成内容真实性的场景,例如检索增强生成、自动问答系统、新闻摘要生成等。通过提高生成内容的事实性,可以增强用户对AI系统的信任,并减少虚假信息的传播。未来,该方法可以进一步扩展到其他类型的文本生成任务,并与其他技术相结合,例如知识图谱、信息检索等,以实现更准确、更可靠的事实性检查。

📄 摘要(原文)

Grounded claim factuality checking is important for large language model (LLM) applications such as retrieval-augmented generation, as it helps users assess the correctness of generated outputs. Existing metrics using entailment classifiers require dataset-specific threshold tuning, while LLM-based approaches often use direct prompting, which underutilises the reasoning capabilities of LLMs. We address this by formulating grounded claim factuality checking as a true/false reading comprehension task and prompting LLMs with explicit test-taking strategies for efficient reasoning. Our method reduces token usage by over 80% compared to unguided open-ended reasoning, and achieves competitive performance to more expensive alternatives across two factuality benchmarks, setting a new state of the art on one. To further reduce inference cost, we train small language models (SLMs) to replace LLMs in the checking pipeline. Using supervised fine-tuning (SFT) and a self-revision mechanism, the SLMs learn to improve their factuality judgements. Experimental results show that the resulting SLMs perform on par with strong baselines, combining low inference costs with generating supporting rationales to support interpretability. Code and datasets will be released upon acceptance.