Logical Consistency of Large Language Models in Fact-checking
作者: Bishwamittra Ghosh, Sarah Hasan, Naheed Anjum Arafat, Arijit Khan
分类: cs.CL
发布日期: 2024-12-20 (更新: 2025-02-28)
备注: Published at ICLR 2025
💡 一句话要点
提出逻辑一致性评测基准,用于评估和提升大语言模型在事实核查中处理复杂逻辑查询的能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 逻辑一致性 事实核查 知识图谱 逻辑推理 监督微调 数据集构建
📋 核心要点
- 现有LLM在处理事实核查任务时,对输入查询的细微变化(语义保持)容易产生不一致的回答,缺乏逻辑一致性。
- 该论文提出了一种基于知识图谱的逻辑事实核查方法,通过构建包含否定、合取、析取等逻辑运算符的复杂查询来评估LLM的逻辑推理能力。
- 通过构建新的数据集和一致性度量,论文证明了现有LLM在复杂逻辑查询下缺乏一致性,并通过监督微调提升了LLM的逻辑一致性。
📝 摘要(中文)
近年来,大型语言模型(LLMs)在各种自然语言任务中表现出显著的成功,例如语言翻译、问答、总结、事实核查等。尽管LLMs具有生成类人文本的强大能力,但它们也因其不一致的响应而臭名昭著——输入查询中保持语义不变的更改会导致不一致的响应,并将LLMs的脆弱性归因于幻觉。因此,现有的研究侧重于基于简单释义的LLMs一致性评估,而忽略了需要LLM更好地理解逻辑推理的复杂查询。因此,我们的工作解决了LLMs在具有原始逻辑运算符(例如,否定、合取和析取)的复杂逻辑查询下的逻辑不一致性问题。作为一个测试平台,我们考虑了在事实核查任务中使用知识图谱(KGs)中的命题逻辑查询的检索增强型LLMs。我们的贡献有三方面。基准:我们引入了三个基于KGs的逻辑事实核查数据集,用于社区开发逻辑一致的LLMs。评估:我们提出了LLMs在命题逻辑查询上的一致性度量,并证明现有的LLMs缺乏逻辑一致性,尤其是在复杂查询上。改进:我们采用监督微调来提高LLMs在具有KG上下文的复杂事实核查任务上的逻辑一致性。我们已经提供了我们的源代码和基准。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)在事实核查任务中,面对包含复杂逻辑运算符(如否定、合取、析取)的查询时,表现出的逻辑不一致性问题。现有方法主要关注基于简单释义的一致性评估,忽略了对LLM逻辑推理能力的更深层次考察,导致LLM在处理复杂逻辑查询时容易产生错误或矛盾的回答。
核心思路:论文的核心思路是通过构建包含复杂逻辑查询的数据集,并设计相应的评估指标,来衡量LLM的逻辑一致性。然后,利用监督微调的方法,提升LLM在处理此类查询时的逻辑推理能力,从而提高其事实核查的准确性和可靠性。这种方法强调了对LLM逻辑推理能力的直接评估和改进,而非仅仅依赖于简单的释义一致性。
技术框架:论文的技术框架主要包括三个部分:1) 构建逻辑事实核查数据集:基于知识图谱(KGs)生成包含命题逻辑查询的数据集,涵盖否定、合取、析取等逻辑运算符。2) 提出一致性度量:设计评估LLM在命题逻辑查询上一致性的指标,用于量化LLM逻辑推理的准确性。3) 监督微调:使用构建的数据集对LLM进行监督微调,以提高其在复杂事实核查任务中的逻辑一致性。
关键创新:论文的关键创新在于:1) 提出了针对LLM逻辑一致性的评估方法,关注复杂逻辑查询而非简单的释义。2) 构建了包含复杂逻辑运算符的知识图谱事实核查数据集,为评估和提升LLM的逻辑推理能力提供了基准。3) 通过监督微调,有效地提高了LLM在复杂事实核查任务中的逻辑一致性。
关键设计:在数据集构建方面,论文设计了包含否定、合取、析取等多种逻辑运算符的查询,并确保查询的复杂度和多样性。在一致性度量方面,论文可能采用了基于逻辑真值表或相似性度量的指标,来评估LLM对不同逻辑查询的回答是否一致。在监督微调方面,论文可能采用了交叉熵损失函数,并针对逻辑推理任务设计了特定的训练策略。
🖼️ 关键图片
📊 实验亮点
论文通过实验证明,现有的LLM在处理包含复杂逻辑运算符的查询时,逻辑一致性较差。通过监督微调,LLM在逻辑一致性方面得到了显著提升,表明该方法能够有效提高LLM在复杂事实核查任务中的性能。具体的性能数据和提升幅度需要在论文中查找。
🎯 应用场景
该研究成果可应用于提升LLM在信息检索、问答系统、新闻真实性验证等领域的可靠性。通过提高LLM的逻辑一致性,可以减少其产生错误或矛盾信息的可能性,从而增强用户对LLM的信任度。未来,该研究可扩展到更复杂的逻辑推理场景,例如法律文本分析、科学文献理解等。
📄 摘要(原文)
In recent years, large language models (LLMs) have demonstrated significant success in performing varied natural language tasks such as language translation, question-answering, summarizing, fact-checking, etc. Despite LLMs' impressive ability to generate human-like texts, LLMs are infamous for their inconsistent responses - a meaning-preserving change in the input query results in an inconsistent response and attributes to vulnerabilities of LLMs such as hallucination. Consequently, existing research focuses on simple paraphrasing-based consistency assessment of LLMs, and ignores complex queries that necessitate an even better understanding of logical reasoning by an LLM. Our work therefore addresses the logical inconsistency of LLMs under complex logical queries with primitive logical operators, e.g., negation, conjunction, and disjunction. As a test bed, we consider retrieval-augmented LLMs on a fact-checking task involving propositional logic queries from knowledge graphs (KGs). Our contributions are threefold. Benchmark: We introduce three logical fact-checking datasets over KGs for community development towards logically consistent LLMs. Assessment: We propose consistency measures of LLMs on propositional logic queries and demonstrate that existing LLMs lack logical consistency, especially on complex queries. Improvement: We employ supervised fine-tuning to improve the logical consistency of LLMs on the complex fact-checking task with KG contexts. We have made our source code and benchmarks available.