FactCG: Enhancing Fact Checkers with Graph-Based Multi-Hop Data
作者: Deren Lei, Yaxi Li, Siyao Li, Mengya Hu, Rui Xu, Ken Archer, Mingyu Wang, Emily Ching, Alex Deng
分类: cs.CL, cs.AI
发布日期: 2025-01-28
备注: NAACL 2025
💡 一句话要点
FactCG:利用图结构多跳数据增强事实核查器,提升LLM幻觉检测能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 事实核查 大型语言模型 幻觉检测 图神经网络 多跳推理
📋 核心要点
- 现有事实核查模型依赖的NLI数据和合成数据,在文档级推理方面存在不足,难以有效检测LLM幻觉。
- 论文提出了一种新的合成数据生成方法CG2C,利用上下文图上的多跳推理,生成更适合文档级推理的训练数据。
- 实验表明,基于CG2C生成的数据训练的FactCG模型,在LLM幻觉检测任务上取得了显著提升,甚至超越了GPT-4-o。
📝 摘要(中文)
现有研究主要依赖公共自然语言推理(NLI)数据和合成数据训练事实分类模型,以检测大型语言模型(LLM)中的幻觉。然而,传统的NLI数据集不适用于文档级别的推理,而这对于检测LLM幻觉至关重要。最近的文档级合成数据生成方法涉及迭代地从文档中删除句子,并使用基于LLM的提示来标注事实性。虽然有效,但对于长文档来说,这种方法计算成本高昂,并且受到LLM能力的限制。本文分析了现有最先进模型中使用的合成训练数据与真实LLM输出声明之间的差异。基于此,我们提出了一种新的合成数据生成方法CG2C,该方法利用从文档中提取的上下文图上的多跳推理。我们的事实核查模型FactCG,通过更强的连接推理,展示了改进的性能,并且使用了相同的骨干模型。实验表明,即使模型规模小得多,它在LLM-Aggrefact基准测试中也优于GPT-4-o。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)生成内容中存在的幻觉问题,即生成不符合事实的内容。现有方法,特别是依赖于自然语言推理(NLI)数据集和合成数据的方法,在文档级别的推理能力上存在不足。现有的合成数据生成方法,例如迭代删除句子并使用LLM标注,计算成本高昂,且受限于LLM自身的能力。
核心思路:论文的核心思路是利用文档中提取的上下文图进行多跳推理,从而生成更符合文档逻辑和事实的合成数据。通过构建上下文图,模型可以更好地理解文档中不同句子之间的关系,从而更准确地判断LLM生成内容的真实性。这种方法旨在克服现有方法在长文档推理和计算效率方面的局限性。
技术框架:FactCG模型的整体框架包括以下几个主要步骤:1) 从文档中提取上下文图;2) 使用CG2C方法基于上下文图生成合成数据;3) 使用生成的合成数据训练事实核查模型FactCG。其中,CG2C方法是关键,它利用多跳推理在上下文图上生成新的事实陈述和相应的标签。
关键创新:论文的关键创新在于提出了CG2C(Context Graph to Claim)方法,这是一种新的合成数据生成方法,它利用上下文图上的多跳推理来生成更具信息性和推理深度的训练数据。与以往依赖于简单句子删除或LLM直接生成的方法不同,CG2C能够更好地模拟文档级别的推理过程,从而提高事实核查模型的性能。
关键设计:CG2C方法的关键设计包括:1) 上下文图的构建方式,例如节点表示句子,边表示句子之间的关系(如引用、支持、反对等);2) 多跳推理算法的选择,例如使用图神经网络(GNN)进行节点表示学习和关系推理;3) 合成数据生成策略,例如如何选择起始节点、如何进行多跳遍历、如何生成新的事实陈述。具体的损失函数和网络结构细节在论文中应该有更详细的描述(未知)。
🖼️ 关键图片
📊 实验亮点
FactCG模型在LLM-Aggrefact基准测试中取得了显著的性能提升,甚至超越了GPT-4-o,而模型规模却小得多。这表明,通过利用图结构多跳数据增强,可以有效提高事实核查模型的性能,并且在计算资源有限的情况下也能取得优异的结果。具体的性能数据和提升幅度需要在论文中查找。
🎯 应用场景
该研究成果可广泛应用于新闻真实性核查、学术论文评审、智能客服等领域,有助于提高信息的可信度和可靠性,减少虚假信息的传播。通过提升LLM的事实核查能力,可以构建更值得信赖的AI系统,并降低AI生成内容带来的潜在风险。
📄 摘要(原文)
Prior research on training grounded factuality classification models to detect hallucinations in large language models (LLMs) has relied on public natural language inference (NLI) data and synthetic data. However, conventional NLI datasets are not well-suited for document-level reasoning, which is critical for detecting LLM hallucinations. Recent approaches to document-level synthetic data generation involve iteratively removing sentences from documents and annotating factuality using LLM-based prompts. While effective, this method is computationally expensive for long documents and limited by the LLM's capabilities. In this work, we analyze the differences between existing synthetic training data used in state-of-the-art models and real LLM output claims. Based on our findings, we propose a novel approach for synthetic data generation, CG2C, that leverages multi-hop reasoning on context graphs extracted from documents. Our fact checker model, FactCG, demonstrates improved performance with more connected reasoning, using the same backbone models. Experiments show it even outperforms GPT-4-o on the LLM-Aggrefact benchmark with much smaller model size.