Core: Robust Factual Precision with Informative Sub-Claim Identification

📄 arXiv: 2407.03572v2 📥 PDF

作者: Zhengping Jiang, Jingyu Zhang, Nathaniel Weir, Seth Ebner, Miriam Wanner, Kate Sanders, Daniel Khashabi, Anqi Liu, Benjamin Van Durme

分类: cs.CL

发布日期: 2024-07-04 (更新: 2024-10-15)


💡 一句话要点

提出Core,通过信息性子声明识别增强大语言模型事实精确度评估的鲁棒性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 事实精确度 幻觉 子声明选择 鲁棒性评估

📋 核心要点

  1. 现有事实精确度评估指标易受攻击,通过添加重复性子声明可人为抬高分数。
  2. Core通过筛选独特且信息丰富的子声明,提升评估指标的鲁棒性和可靠性。
  3. 实验表明,Core能有效增强多种事实精确度指标,并在多个知识领域表现出色。

📝 摘要(中文)

大语言模型(LLM)的幻觉现象对其应用构成挑战,因此需要开发评估事实精确度的指标。我们观察到,流行的基于“分解-验证”框架的指标,如FActScore,可以通过添加明显或重复的子声明来人为地提高分数,从而被操纵。基于此,我们提出了新的可定制的即插即用子声明选择组件Core,它根据子声明的独特性和信息性进行过滤。实验表明,许多流行的事实精确度指标在Core的增强下,在广泛的知识领域中都具有显著的鲁棒性。我们发布了一个评估框架,支持Core和各种分解策略的简单和模块化使用,并建议社区采用。我们还发布了FActScore传记数据集的扩展版本,以促进对基于分解的事实精确度评估的进一步研究。

🔬 方法详解

问题定义:论文旨在解决现有大语言模型事实精确度评估指标容易被操纵的问题。具体来说,基于“分解-验证”框架的指标,如FActScore,可以通过在生成内容中添加大量重复或明显的子声明来人为地提高分数,从而导致评估结果失真。这种现象使得评估指标无法真实反映模型的事实性,阻碍了对大语言模型能力的准确评估和改进。

核心思路:论文的核心思路是设计一个子声明选择组件,该组件能够根据子声明的独特性和信息性进行过滤,从而去除那些冗余或无意义的子声明。通过只保留那些真正有价值的子声明,可以更准确地评估模型的事实精确度,避免评估结果受到操纵。这种方法的核心在于识别并保留信息量大的、独特的子声明,从而提高评估的鲁棒性。

技术框架:论文提出的Core组件是一个即插即用的模块,可以与现有的事实精确度评估指标相结合。其整体流程如下:首先,使用分解策略将生成内容分解为多个子声明;然后,Core组件对这些子声明进行过滤,只保留那些独特且信息丰富的子声明;最后,使用现有的事实精确度评估指标对过滤后的子声明进行评估。该框架支持各种分解策略,并可以方便地集成到现有的评估流程中。

关键创新:论文最重要的技术创新点在于提出了Core组件,该组件能够根据子声明的独特性和信息性进行过滤。与现有方法相比,Core组件能够有效地去除那些冗余或无意义的子声明,从而提高评估的鲁棒性和可靠性。这种方法的核心在于识别并保留信息量大的、独特的子声明,从而避免评估结果受到操纵。

关键设计:Core组件的关键设计包括两个方面:独特性评估和信息性评估。独特性评估旨在衡量子声明与其他子声明之间的相似度,去除那些重复的子声明。信息性评估旨在衡量子声明所包含的信息量,去除那些无意义的子声明。具体的实现方式可以采用多种方法,例如,可以使用基于语义相似度的算法来评估子声明的独特性,可以使用基于信息熵的算法来评估子声明的信息性。论文中可能使用了特定的参数设置和阈值来控制过滤的严格程度,但具体细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Core组件能够显著提高多种事实精确度指标的鲁棒性。具体来说,在多个知识领域中,使用Core组件增强后的指标能够更准确地评估模型的事实精确度,避免评估结果受到操纵。具体的性能数据和提升幅度未知,但摘要中提到是“substantially more robust”。

🎯 应用场景

该研究成果可广泛应用于大语言模型的评估和改进。通过使用Core组件,可以更准确地评估模型的事实精确度,从而更好地了解模型的优缺点。此外,该研究成果还可以用于开发更可靠的事实性生成模型,避免模型产生幻觉现象。未来,该研究成果有望推动大语言模型在知识密集型领域的应用,例如问答系统、知识图谱构建等。

📄 摘要(原文)

Hallucinations pose a challenge to the application of large language models (LLMs) thereby motivating the development of metrics to evaluate factual precision. We observe that popular metrics using the Decompose-Then-Verify framework, such as \FActScore, can be manipulated by adding obvious or repetitive subclaims to artificially inflate scores. This observation motivates our new customizable plug-and-play subclaim selection component called Core, which filters down individual subclaims according to their uniqueness and informativeness. We show that many popular factual precision metrics augmented by Core are substantially more robust on a wide range of knowledge domains. We release an evaluation framework supporting easy and modular use of Core and various decomposition strategies, which we recommend adoption by the community. We also release an expansion of the FActScore biography dataset to facilitate further studies of decomposition-based factual precision evaluation.