Recon, Answer, Verify: Agents in Search of Truth

📄 arXiv: 2507.03671v1 📥 PDF

作者: Satyam Shukla, Himanshu Dutta, Pushpak Bhattacharyya

分类: cs.CL, cs.AI

发布日期: 2025-07-04


💡 一句话要点

提出RAV框架,通过多Agent协作提升LLM在政治声明事实核查中的准确性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 事实核查 大型语言模型 Agentic框架 政治声明 知识推理

📋 核心要点

  1. 现有事实核查数据集包含事后分析等信息,导致模型评估不真实,无法反映实际应用场景。
  2. RAV框架通过多个Agent协作,迭代生成问题、寻找答案并验证声明,模拟更真实的事实核查过程。
  3. 实验表明,RAV在多个数据集上超越现有方法,并在新构建的PFO数据集上表现出更强的鲁棒性。

📝 摘要(中文)

本文提出了一种基于大型语言模型(LLM)的自动事实核查方法,旨在解决人工验证的可扩展性问题。现有事实核查基准数据集通常包含事后分析和标注者提示,这在实际场景中是不存在的,限制了当前评估的真实性。为此,作者构建了一个名为Politi Fact Only (PFO) 的数据集,该数据集包含来自 politifact.com 的 2,982 个政治声明,并手动移除了所有事后分析和标注者提示。实验表明,LLM 在 PFO 上的性能相比未过滤版本平均下降 22%。针对现有 LLM 事实核查系统的挑战,作者提出了 RAV (Recon Answer Verify) 框架,该框架包含问题生成器、答案生成器和标签生成器三个 Agent。RAV 通过迭代生成和回答子问题来验证声明的不同方面,最终生成标签。实验结果表明,RAV 在 RAWFC 和 HOVER 数据集上优于现有方法,并且在 PFO 上的性能下降幅度最小。

🔬 方法详解

问题定义:现有基于LLM的事实核查方法在评估时依赖的数据集往往包含事后分析和标注者提示等信息,这使得模型在评估时能够利用这些额外信息,从而高估了模型在真实场景下的性能。因此,需要一种更贴近真实场景的评估方法和相应的数据集,以及一种能够更好应对真实场景挑战的事实核查框架。

核心思路:RAV框架的核心思路是将事实核查任务分解为多个子任务,并由不同的Agent分别负责。通过问题生成Agent提出需要验证的关键问题,答案生成Agent寻找相关证据,最后由标签生成Agent综合所有信息给出最终的判断。这种分解任务的方式能够更好地利用LLM的推理能力,并模拟人工事实核查的流程。

技术框架:RAV框架包含三个主要Agent:问题生成器(Question Generator)、答案生成器(Answer Generator)和标签生成器(Label Generator)。首先,问题生成器根据待验证的声明生成一系列子问题,这些子问题旨在验证声明的不同方面。然后,答案生成器利用搜索引擎或知识库等资源,针对每个子问题寻找相应的答案。最后,标签生成器综合所有子问题及其答案,给出最终的事实核查标签。整个流程是迭代进行的,可以根据需要生成更多的问题和答案,直到标签生成器能够给出可靠的判断。

关键创新:RAV框架的关键创新在于其Agentic的设计,它将复杂的事实核查任务分解为多个简单的子任务,并由不同的Agent分别负责。这种设计能够更好地利用LLM的推理能力,并模拟人工事实核查的流程。此外,RAV框架具有良好的泛化能力,可以应用于不同的领域和标签粒度。

关键设计:RAV框架的具体实现细节包括:问题生成器可以使用基于LLM的文本生成模型,例如GPT-3或T5,通过prompt engineering来生成高质量的子问题。答案生成器可以使用搜索引擎API或知识库查询接口来获取相关证据。标签生成器可以使用分类模型或回归模型来预测最终的标签。损失函数可以使用交叉熵损失或均方误差损失。具体的参数设置需要根据具体的数据集和任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RAV框架在RAWFC数据集上取得了25.28%的性能提升,在HOVER数据集的2跳、3跳和4跳子类别上分别取得了1.54%、4.94%和1.78%的性能提升。此外,在PFO数据集上,RAV框架的性能下降幅度相比基线方法减少了16.3%。这些结果表明,RAV框架在事实核查任务中具有显著的优势。

🎯 应用场景

RAV框架可应用于新闻媒体、社交平台等领域,用于自动核查政治声明、新闻报道等信息的真实性,减少虚假信息的传播。该研究有助于提高信息的可信度,维护社会公共利益,并为未来的自动事实核查系统提供新的思路。

📄 摘要(原文)

Automated fact checking with large language models (LLMs) offers a scalable alternative to manual verification. Evaluating fact checking is challenging as existing benchmark datasets often include post claim analysis and annotator cues, which are absent in real world scenarios where claims are fact checked immediately after being made. This limits the realism of current evaluations. We present Politi Fact Only (PFO), a 5 class benchmark dataset of 2,982 political claims from politifact.com, where all post claim analysis and annotator cues have been removed manually. This ensures that models are evaluated using only the information that would have been available prior to the claim's verification. Evaluating LLMs on PFO, we see an average performance drop of 22% in terms of macro f1 compared to PFO's unfiltered version. Based on the identified challenges of the existing LLM based fact checking system, we propose RAV (Recon Answer Verify), an agentic framework with three agents: question generator, answer generator, and label generator. Our pipeline iteratively generates and answers sub questions to verify different aspects of the claim before finally generating the label. RAV generalizes across domains and label granularities, and it outperforms state of the art approaches on well known baselines RAWFC (fact checking, 3 class) by 25.28%, and on HOVER (encyclopedia, 2 class) by 1.54% on 2 hop, 4.94% on 3 hop, and 1.78% on 4 hop, sub categories respectively. RAV shows the least performance drop compared to baselines of 16.3% in macro f1 when we compare PFO with its unfiltered version.