CogniBench: A Legal-inspired Framework and Dataset for Assessing Cognitive Faithfulness of Large Language Models

📄 arXiv: 2505.20767v4 📥 PDF

作者: Xiaqiang Tang, Jian Li, Keyu Hu, Du Nan, Xiaolong Li, Xi Zhang, Weigao Sun, Sihong Xie

分类: cs.CL, cs.AI

发布日期: 2025-05-27 (更新: 2025-06-25)

备注: ACL 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出CogniBench,用于评估大型语言模型在认知层面上的忠实性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 认知忠实性 幻觉检测 数据集构建 自动标注

📋 核心要点

  1. 现有基准测试主要关注事实性陈述,忽略了需要推理的认知性陈述,导致认知幻觉难以评估。
  2. 借鉴法律领域的证据评估方法,论文设计了一个严格的框架来评估认知性陈述的忠实性。
  3. 论文构建了CogniBench和CogniBench-L数据集,并开发了自动标注流程,用于训练幻觉检测器。

📝 摘要(中文)

大型语言模型(LLM)的忠实性幻觉是指LLM生成的声明没有得到其所提供的上下文的支持。由于缺乏评估标准,现有的基准测试侧重于复述源材料的“事实性陈述”,而忽略了涉及从给定上下文中进行推断的“认知性陈述”。因此,评估和检测认知性陈述的幻觉仍然具有挑战性。受到法律领域评估证据方式的启发,我们设计了一个严格的框架来评估认知性陈述不同层次的忠实性,并引入了CogniBench数据集,我们在其中揭示了有见地的统计数据。为了跟上快速发展的LLM,我们进一步开发了一个自动注释管道,可以轻松地跨不同的模型进行扩展。这产生了一个大规模的CogniBench-L数据集,有助于训练用于事实性和认知性幻觉的精确检测器。我们在https://github.com/FUTUREEEEEE/CogniBench发布了我们的模型和数据集。

🔬 方法详解

问题定义:现有的大型语言模型评估基准主要关注事实性陈述,即模型输出是否与输入上下文直接对应。然而,在许多实际应用中,模型需要进行一定的推理才能生成有用的信息,这种推理过程可能导致“认知幻觉”,即模型输出的结论虽然看似合理,但实际上并没有得到上下文的充分支持。现有的方法缺乏对这种认知幻觉的有效评估手段。

核心思路:论文的核心思路是借鉴法律领域的证据评估方法,将模型生成的陈述视为需要验证的“主张”,将输入上下文视为“证据”,然后评估证据对主张的支持程度。通过这种方式,可以更全面地评估模型的忠实性,包括事实性和认知性两个方面。

技术框架:论文提出了一个名为CogniBench的框架,用于评估大型语言模型的认知忠实性。该框架包含以下几个主要组成部分:1) 数据集构建:构建包含事实性和认知性陈述的数据集,并对每个陈述进行忠实性标注。2) 评估指标:设计用于衡量模型在认知层面上忠实性的评估指标。3) 自动标注流程:开发自动标注流程,以扩展数据集规模并适应不断发展的LLM。

关键创新:论文的关键创新在于将法律领域的证据评估方法引入到大型语言模型的评估中,从而能够更有效地评估模型的认知忠实性。此外,论文还提出了一个自动标注流程,可以快速生成大规模的标注数据,这对于训练有效的幻觉检测器至关重要。

关键设计:CogniBench框架的关键设计包括:1) 忠实性标注体系:定义了不同层次的忠实性,例如“完全支持”、“部分支持”、“不支持”等,并制定了详细的标注指南。2) 自动标注流程:利用现有的LLM生成候选陈述,然后使用另一个LLM或人工标注员对这些陈述的忠实性进行评估。3) 数据集规模:CogniBench-L数据集包含大规模的标注数据,可以有效地训练幻觉检测器。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文构建了CogniBench数据集,并提出了CogniBench-L大规模数据集,用于训练幻觉检测器。实验结果表明,使用CogniBench-L训练的检测器能够有效地检测事实性和认知性幻觉,并在多个基准测试上取得了显著的性能提升。具体的性能数据在论文中给出,但摘要中未明确提及提升幅度。

🎯 应用场景

该研究成果可应用于各种需要大型语言模型进行推理和决策的场景,例如智能客服、法律咨询、医疗诊断等。通过提高模型的认知忠实性,可以减少模型产生错误或误导性信息的风险,从而提高系统的可靠性和安全性。未来的研究可以进一步探索更复杂的认知推理过程,并开发更有效的幻觉检测和纠正方法。

📄 摘要(原文)

Faithfulness hallucinations are claims generated by a Large Language Model (LLM) not supported by contexts provided to the LLM. Lacking assessment standards, existing benchmarks focus on "factual statements" that rephrase source materials while overlooking "cognitive statements" that involve making inferences from the given context. Consequently, evaluating and detecting the hallucination of cognitive statements remains challenging. Inspired by how evidence is assessed in the legal domain, we design a rigorous framework to assess different levels of faithfulness of cognitive statements and introduce the CogniBench dataset where we reveal insightful statistics. To keep pace with rapidly evolving LLMs, we further develop an automatic annotation pipeline that scales easily across different models. This results in a large-scale CogniBench-L dataset, which facilitates training accurate detectors for both factual and cognitive hallucinations. We release our model and datasets at: https://github.com/FUTUREEEEEE/CogniBench