On the Limitations of Large Language Models (LLMs): False Attribution

📄 arXiv: 2404.04631v2 📥 PDF

作者: Tosin Adewumi, Nudrat Habib, Lama Alkhaled, Elisa Barney

分类: cs.CL

发布日期: 2024-04-06 (更新: 2025-07-17)

备注: This paper was accepted for presentation by Recent Advances in NLP (RANLP) 2025 conference


💡 一句话要点

提出简单幻觉指数以解决大语言模型的错误归因问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 错误归因 幻觉度量 自然语言处理 模型评估

📋 核心要点

  1. 现有的大语言模型在自动作者归因任务中表现不佳,尤其是在处理较小文本块时容易出现错误归因。
  2. 论文提出了一种新的幻觉度量标准——简单幻觉指数(SHI),用于评估模型在文本归因任务中的表现。
  3. 实验结果表明,Mixtral 8x7B在预测准确率上表现最佳,但在某些书籍上幻觉现象严重,SHI值高达0.87。

📝 摘要(中文)

本研究引入了一种新的幻觉度量——简单幻觉指数(SHI),并深入探讨了大语言模型(LLMs)在参数知识方面的一个重要局限性,即错误归因。我们在零-shot设置下对三种开源的最先进LLMs(Gemma-7B、Mixtral 8x7B和LLaMA-2-13B)进行了实证评估。通过分析来自Project Gutenberg的当月十大热门书籍,我们将每本书分成400字的文本块,并让每个LLM预测作者。结果显示,Mixtral 8x7B的预测准确率最高,但在某些书籍上却出现了较高的幻觉现象。我们还发现,预测准确率与书名在维基百科中的出现频率正相关。我们公开了标注数据和代码,以支持其他模型的可重复性和评估。

🔬 方法详解

问题定义:本研究旨在解决大语言模型在自动作者归因任务中的错误归因问题,现有方法在处理小文本块时准确性不足,导致高幻觉现象。

核心思路:论文提出简单幻觉指数(SHI)作为新的评估标准,以量化模型的幻觉现象,并通过实证评估不同LLMs的表现。

技术框架:研究通过将热门书籍分割为400字的文本块,利用三种开源LLMs进行作者预测,并进行人类评估以验证结果。

关键创新:引入SHI作为新的幻觉度量标准,能够有效反映模型的预测准确性与幻觉现象之间的关系,填补了现有评估方法的空白。

关键设计:在实验中,选择了Gemma-7B、Mixtral 8x7B和LLaMA-2-13B三种模型,采用了95%的置信水平和7%的误差范围进行样本选择,确保了评估的可靠性。实验结果显示,Mixtral 8x7B的SHI值和准确率之间存在强负相关。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,Mixtral 8x7B在预测准确率上达到最高,SHI值最低,相关性分析表明准确率与维基百科书名出现频率正相关。Mixtral 8x7B在某些书籍上SHI值高达0.87,显示出其在特定情况下的幻觉现象。

🎯 应用场景

该研究的潜在应用领域包括文本自动归因、信息检索和自然语言处理等。通过改进大语言模型的准确性和可靠性,可以在学术出版、版权保护和内容推荐等方面产生实际价值,推动相关技术的发展与应用。

📄 摘要(原文)

In this work, we introduce a new hallucination metric - Simple Hallucination Index (SHI) and provide insight into one important limitation of the parametric knowledge of large language models (LLMs), i.e. false attribution. The task of automatic author attribution for relatively small chunks of text is an important NLP task but can be challenging. We empirically evaluate the power of 3 open SotA LLMs in zero-shot setting (Gemma-7B, Mixtral 8x7B, and LLaMA-2-13B). We acquired the top 10 most popular books of a month, according to Project Gutenberg, divided each one into equal chunks of 400 words, and prompted each LLM to predict the author. We then randomly sampled 162 chunks per book for human evaluation, based on the error margin of 7% and a confidence level of 95%. The average results show that Mixtral 8x7B has the highest prediction accuracy, the lowest SHI, and a Pearson's correlation (r) of 0.724, 0.263, and -0.9996, respectively, followed by LLaMA-2-13B and Gemma-7B. However, Mixtral 8x7B suffers from high hallucinations for 3 books, rising as high as a SHI of 0.87 (in the range 0-1, where 1 is the worst). The strong negative correlation of accuracy and SHI, given by r, demonstrates the fidelity of the new hallucination metric, which may generalize to other tasks. We also show that prediction accuracies correlate positively with the frequencies of Wikipedia instances of the book titles instead of the downloads and we perform error analyses of predictions. We publicly release the annotated chunks of data and our codes to aid the reproducibility and evaluation of other models.