Hallucinations in Bibliographic Recommendation: Citation Frequency as a Proxy for Training Data Redundancy

📄 arXiv: 2510.25378v1 📥 PDF

作者: Junichiro Niimi

分类: cs.CL, cs.AI

发布日期: 2025-10-29


💡 一句话要点

利用引用频率作为训练数据冗余的代理,研究LLM在文献推荐中的幻觉问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 文献推荐 幻觉问题 引用频率 训练数据冗余 事实一致性 GPT-4 计算机科学

📋 核心要点

  1. 大型语言模型在文献推荐中存在幻觉问题,即生成不存在的论文,影响了推荐的可靠性。
  2. 该研究假设LLM的幻觉率与训练数据中文献的冗余度有关,引用次数可以作为冗余度的代理。
  3. 实验表明,引用次数与事实准确性高度相关,高引用论文更可能被模型记忆而非泛化。

📝 摘要(中文)

大型语言模型(LLM)越来越多地应用于各种任务,从自然语言理解到代码生成。虽然它们也被用于辅助文献推荐,但生成不存在的论文这一幻觉问题仍然是一个主要问题。本研究基于先前的研究,假设LLM正确生成书目信息的能力取决于底层知识是生成还是记忆,其中高引用论文(即,更频繁地出现在训练语料库中)显示出较低的幻觉率。因此,我们假设引用计数是训练数据冗余的代理(即,给定的书目记录在预训练语料库中重复表示的频率),并研究引用频率如何影响LLM输出中产生的幻觉参考文献。使用GPT-4.1,我们生成并手动验证了跨越二十个计算机科学领域的100条书目记录,并通过生成元数据和真实元数据之间的余弦相似性来衡量事实一致性。结果表明,(i)幻觉率因研究领域而异,(ii)引用计数与事实准确性密切相关,以及(iii)书目信息在超过大约1,000次引用后几乎被逐字记忆。这些发现表明,高引用论文几乎逐字地保留在模型中,表明泛化转变为记忆的阈值。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在文献推荐任务中出现的“幻觉”问题,即生成实际上不存在的文献条目。现有方法未能充分解决LLM生成虚假文献的问题,缺乏对LLM产生幻觉的根本原因的深入理解。

核心思路:论文的核心思路是,LLM生成文献信息的方式(记忆 vs. 生成)与训练数据中该文献出现的频率(即冗余度)有关。高引用文献在训练数据中出现频率更高,更容易被LLM记忆,从而降低幻觉率。因此,引用次数被用作训练数据冗余度的代理指标。

技术框架:该研究主要通过实验验证引用频率与幻觉率之间的关系。具体步骤如下: 1. 选取20个计算机科学领域。 2. 使用GPT-4.1为每个领域生成5条文献记录,共100条。 3. 手动验证生成的文献记录的真实性,判断是否存在幻觉。 4. 计算生成文献记录的引用次数。 5. 计算生成元数据和真实元数据之间的余弦相似度,衡量事实一致性。 6. 分析引用次数与幻觉率、事实一致性之间的关系。

关键创新:该研究的关键创新在于将引用频率与LLM的幻觉问题联系起来,并提出引用次数可以作为训练数据冗余度的代理指标。这种联系为理解LLM的幻觉机制提供了一个新的视角。

关键设计: 1. 使用GPT-4.1作为实验对象。 2. 选取计算机科学领域作为研究对象,因为该领域文献数据丰富。 3. 使用余弦相似度衡量生成元数据和真实元数据之间的相似度,作为事实一致性的指标。 4. 手动验证生成的文献记录的真实性,确保实验结果的准确性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,幻觉率因研究领域而异,引用次数与事实准确性密切相关,并且书目信息在超过大约1,000次引用后几乎被逐字记忆。这些发现验证了引用频率与幻觉率之间的关系,并揭示了LLM从泛化到记忆的阈值。

🎯 应用场景

该研究成果可应用于改进文献推荐系统,降低LLM生成虚假文献的风险。通过控制训练数据中文献的冗余度,可以提高LLM生成文献信息的准确性和可靠性。此外,该研究也为理解LLM的记忆和泛化机制提供了参考,有助于开发更可靠的LLM应用。

📄 摘要(原文)

Large language models (LLMs) have been increasingly applied to a wide range of tasks, from natural language understanding to code generation. While they have also been used to assist in bibliographic recommendation, the hallucination of non-existent papers remains a major issue. Building on prior studies, this study hypothesizes that an LLM's ability to correctly produce bibliographic information depends on whether the underlying knowledge is generated or memorized, with highly cited papers (i.e., more frequently appear in the training corpus) showing lower hallucination rates. We therefore assume citation count as a proxy for training data redundancy (i.e., the frequency with which a given bibliographic record is repeatedly represented in the pretraining corpus) and investigate how citation frequency affects hallucinated references in LLM outputs. Using GPT-4.1, we generated and manually verified 100 bibliographic records across twenty computer-science domains, and measured factual consistency via cosine similarity between generated and authentic metadata. The results revealed that (i) hallucination rates vary across research domains, (ii) citation count is strongly correlated with factual accuracy, and (iii) bibliographic information becomes almost verbatimly memorized beyond approximately 1,000 citations. These findings suggest that highly cited papers are nearly verbatimly retained in the model, indicating a threshold where generalization shifts into memorization.