Detecting LLM Fact-conflicting Hallucinations Enhanced by Temporal-logic-based Reasoning

📄 arXiv: 2502.13416v1 📥 PDF

作者: Ningke Li, Yahui Song, Kailong Wang, Yuekang Li, Ling Shi, Yi Liu, Haoyu Wang

分类: cs.CL

发布日期: 2025-02-19

备注: 16 pages, under review. arXiv admin note: substantial text overlap with arXiv:2405.00648


💡 一句话要点

Drowzee:利用时序逻辑增强LLM事实冲突幻觉检测

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 事实冲突幻觉 时序逻辑 变质测试 知识库 推理验证

📋 核心要点

  1. 大型语言模型存在事实冲突幻觉问题,现有方法难以自动构建大规模测试集,且难以生成复杂的时序测试用例。
  2. Drowzee框架通过爬取知识库构建事实知识库,并利用时序逻辑推理生成测试用例,同时要求LLM提供推理步骤。
  3. 实验结果表明,Drowzee能有效识别LLM中的事实冲突幻觉,非时序相关幻觉率高达24.7%-59.8%,时序相关幻觉率达16.7%-39.2%。

📝 摘要(中文)

大型语言模型(LLMs)面临幻觉的挑战,即输出看似连贯但实际上不正确的内容。其中一种特别有害的类型是事实冲突幻觉(FCH),即生成的内容与已建立的事实相矛盾。解决FCH存在三个主要挑战:1)自动构建和维护大规模基准数据集既困难又耗费资源;2)生成LLM未训练过的复杂高效的测试用例(特别是涉及复杂时序特征的测试用例)具有挑战性,但对于引发幻觉至关重要;3)验证LLM输出背后的推理本质上是困难的,特别是对于复杂的逻辑关系,因为它需要模型决策过程的透明性。本文提出Drowzee,这是一个创新的端到端变质测试框架,它利用时序逻辑来识别大型语言模型(LLMs)中的事实冲突幻觉(FCH)。Drowzee通过抓取维基百科等来源构建全面的事实知识库,并使用自动时序逻辑推理将这些知识转换为具有ground truth答案的大型可扩展测试用例集。LLM通过基于模板的提示使用这些用例进行测试,这要求它们生成答案和推理步骤。为了验证推理,我们提出了两个语义感知的oracle,它们将LLM输出的语义结构与ground truth进行比较。在九个不同知识领域的九个LLM上进行的实验结果表明,Drowzee有效地识别了非时序相关幻觉,比率范围为24.7%到59.8%,时序相关幻觉的比率范围为16.7%到39.2%。

🔬 方法详解

问题定义:论文旨在解决大型语言模型中事实冲突幻觉(FCH)的检测问题。现有方法在构建大规模、多样化的测试用例方面存在困难,尤其是在涉及复杂时序关系的场景下。此外,验证LLM的推理过程,确保其输出的正确性,也是一个挑战。

核心思路:论文的核心思路是利用时序逻辑自动生成测试用例,并结合语义感知的oracle来验证LLM的推理过程。通过将事实知识转化为时序逻辑表达式,可以生成大量具有ground truth的测试用例,从而更全面地评估LLM的FCH问题。同时,要求LLM提供推理步骤,并使用语义oracle进行验证,可以提高检测的准确性。

技术框架:Drowzee框架包含以下主要模块:1) 知识库构建:从维基百科等来源爬取事实知识,构建全面的知识库。2) 测试用例生成:使用时序逻辑推理将知识库中的事实转化为测试用例,每个用例包含问题和对应的ground truth答案。3) LLM测试:使用基于模板的prompt,要求LLM生成答案和推理步骤。4) 推理验证:使用语义感知的oracle比较LLM输出的语义结构与ground truth,判断是否存在FCH。

关键创新:该论文的关键创新在于:1) 自动化测试用例生成:利用时序逻辑自动生成大规模测试用例,避免了手动构建的成本和局限性。2) 语义感知的推理验证:通过比较LLM输出的语义结构与ground truth,更准确地判断是否存在FCH。与现有方法相比,Drowzee能够更有效地检测LLM中的事实冲突幻觉,尤其是在涉及复杂时序关系的场景下。

关键设计:Drowzee使用了基于模板的prompt来引导LLM生成答案和推理步骤。语义oracle的设计是关键,它需要能够准确地比较LLM输出的语义结构与ground truth。具体的实现细节,例如时序逻辑表达式的构建方式、语义相似度计算方法等,在论文中可能没有详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Drowzee在九个不同知识领域的九个LLM上进行了测试,有效地识别了非时序相关幻觉,比率范围为24.7%到59.8%,时序相关幻觉的比率范围为16.7%到39.2%。这些结果表明,Drowzee能够有效地检测LLM中的事实冲突幻觉,尤其是在涉及复杂时序关系的场景下。

🎯 应用场景

该研究成果可应用于各种需要LLM提供可靠信息的场景,如智能客服、知识问答、新闻摘要等。通过提高LLM输出的准确性和可信度,可以增强用户对LLM的信任,并减少因错误信息造成的负面影响。未来,该方法可以扩展到其他类型的幻觉检测,并与其他LLM安全技术相结合,构建更安全的LLM应用。

📄 摘要(原文)

Large language models (LLMs) face the challenge of hallucinations -- outputs that seem coherent but are actually incorrect. A particularly damaging type is fact-conflicting hallucination (FCH), where generated content contradicts established facts. Addressing FCH presents three main challenges: 1) Automatically constructing and maintaining large-scale benchmark datasets is difficult and resource-intensive; 2) Generating complex and efficient test cases that the LLM has not been trained on -- especially those involving intricate temporal features -- is challenging, yet crucial for eliciting hallucinations; and 3) Validating the reasoning behind LLM outputs is inherently difficult, particularly with complex logical relationships, as it requires transparency in the model's decision-making process. This paper presents Drowzee, an innovative end-to-end metamorphic testing framework that utilizes temporal logic to identify fact-conflicting hallucinations (FCH) in large language models (LLMs). Drowzee builds a comprehensive factual knowledge base by crawling sources like Wikipedia and uses automated temporal-logic reasoning to convert this knowledge into a large, extensible set of test cases with ground truth answers. LLMs are tested using these cases through template-based prompts, which require them to generate both answers and reasoning steps. To validate the reasoning, we propose two semantic-aware oracles that compare the semantic structure of LLM outputs to the ground truths. Across nine LLMs in nine different knowledge domains, experimental results show that Drowzee effectively identifies rates of non-temporal-related hallucinations ranging from 24.7% to 59.8%, and rates of temporal-related hallucinations ranging from 16.7% to 39.2%.