To Know or Not To Know? Analyzing Self-Consistency of Large Language Models under Ambiguity

📄 arXiv: 2407.17125v3 📥 PDF

作者: Anastasiia Sedova, Robert Litschko, Diego Frassinelli, Benjamin Roth, Barbara Plank

分类: cs.CL, cs.LG

发布日期: 2024-07-24 (更新: 2024-10-04)

备注: EMNLP 2024 Findings


💡 一句话要点

分析大语言模型在歧义下的自洽性,揭示其知识应用的不一致性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 自洽性 实体歧义 知识应用 评估协议

📋 核心要点

  1. 大型语言模型虽然知识丰富,但在处理歧义实体时表现出不一致性,影响了其可靠性。
  2. 论文提出一种评估协议,区分LLM的知识掌握和知识应用能力,从而分析其在歧义实体下的表现。
  3. 实验表明,LLM在处理歧义实体时准确率较低,且存在系统性偏差和自相矛盾的行为。

📝 摘要(中文)

大型语言模型(LLMs)性能卓越,很大程度上归功于预训练期间积累的大量事实知识。然而,许多LLM存在自洽性问题,这引发了对其可信度和可靠性的质疑。本文关注实体类型歧义,分析了最先进的LLM在被提示模糊实体时应用事实知识的熟练程度和一致性。为此,我们提出了一种评估协议,将“知道”与“应用知识”区分开来,并在49个模糊实体上测试了最先进的LLM。实验表明,LLM在选择正确的实体解读方面存在困难,平均准确率仅为85%,在使用欠指定提示时甚至低至75%。结果还揭示了LLM行为的系统性差异,表明虽然模型可能拥有知识,但它们在一致地应用知识方面存在困难,表现出对首选解读的偏见,并表现出自相矛盾。这突出了未来解决实体歧义以获得更值得信赖的LLM的必要性。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在处理具有歧义性的实体时,无法正确选择实体指代对象,导致知识应用不一致的问题。现有方法缺乏对LLM知识掌握和应用能力的区分,难以有效评估和解决这一问题。

核心思路:论文的核心思路是将LLM的知识掌握(knowing)和知识应用(applying)能力区分开来,设计专门的评估协议来衡量LLM在处理歧义实体时的表现。通过分析LLM在不同提示下的输出,揭示其在知识应用方面存在的偏差和不一致性。

技术框架:论文提出的评估协议包含以下主要步骤:1) 选择具有歧义性的实体;2) 设计不同的提示,包括明确指定实体类型和不指定实体类型的提示;3) 使用LLM对提示进行补全,生成答案;4) 评估LLM生成的答案是否正确,并分析其一致性。

关键创新:论文的关键创新在于提出了一个专门用于评估LLM在处理歧义实体时表现的评估协议,该协议能够区分LLM的知识掌握和知识应用能力,并揭示其在知识应用方面存在的偏差和不一致性。这为后续研究如何提高LLM在处理歧义实体时的可靠性提供了重要的参考。

关键设计:论文选择了49个具有歧义性的实体进行实验。提示的设计包括明确指定实体类型(例如,“苹果公司是一家科技公司”),以及不指定实体类型(例如,“苹果公司发布了新产品”)。评估指标包括准确率和一致性。一致性通过比较LLM在不同提示下的输出是否一致来衡量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在处理歧义实体时平均准确率仅为85%,在使用欠指定提示时甚至低至75%。此外,实验还揭示了LLM在知识应用方面存在系统性偏差和自相矛盾的行为,例如对某些实体类型存在偏好,以及在不同提示下给出不一致的答案。

🎯 应用场景

该研究成果可应用于提升大型语言模型在信息检索、问答系统、对话系统等领域的可靠性和准确性。通过解决LLM在处理歧义实体时存在的问题,可以提高用户对LLM的信任度,并促进其在更广泛领域的应用。

📄 摘要(原文)

One of the major aspects contributing to the striking performance of large language models (LLMs) is the vast amount of factual knowledge accumulated during pre-training. Yet, many LLMs suffer from self-inconsistency, which raises doubts about their trustworthiness and reliability. This paper focuses on entity type ambiguity, analyzing the proficiency and consistency of state-of-the-art LLMs in applying factual knowledge when prompted with ambiguous entities. To do so, we propose an evaluation protocol that disentangles knowing from applying knowledge, and test state-of-the-art LLMs on 49 ambiguous entities. Our experiments reveal that LLMs struggle with choosing the correct entity reading, achieving an average accuracy of only 85%, and as low as 75% with underspecified prompts. The results also reveal systematic discrepancies in LLM behavior, showing that while the models may possess knowledge, they struggle to apply it consistently, exhibit biases toward preferred readings, and display self-inconsistencies. This highlights the need to address entity ambiguity in the future for more trustworthy LLMs.