Predictable Confabulations: Factual Recall by LLMs Scales with Model Size and Topic Frequency

📄 arXiv: 2605.18732v1 📥 PDF

作者: Matthew L. Smith, Jonathan P. Shock, Samuel T. Segun, Iyiola E. Olatunji, Tegawendé F. Bissyandé

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-05-18

备注: 18 pages, 5 figures, 6 tables


💡 一句话要点

揭示LLM事实性知识回忆能力与模型规模及主题频率的scaling law关系

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 事实性知识 知识回忆 模型规模 主题频率

📋 核心要点

  1. 现有研究缺乏将事实性知识回忆与模型规模及训练数据构成联系起来的scaling law。
  2. 论文提出了一种基于信噪比的解释,认为回忆能力受概念频率和模型容量共同影响。
  3. 实验表明,模型参数量和主题频率的组合可以解释回忆质量的大部分方差。

📝 摘要(中文)

本文研究了大型语言模型(LLM)的事实性知识回忆能力,并发现其与模型规模和训练数据组成之间存在scaling law关系。作者使用自动化引用验证系统评估了38个模型在超过8900个学术引用上的表现。结果表明,回忆质量遵循一个sigmoid函数,该函数是模型参数数量和训练数据中主题表示的log-linear组合。这两个变量单独解释了来自四个系列的16个稠密模型中60%的方差,在单个系列中上升到74-94%。这种形式与一种受叠加启发的解释相符,其中回忆由信噪比控制:信号强度随概念频率缩放,噪声基底随模型容量缩放。

🔬 方法详解

问题定义:现有大型语言模型在生成文本时,经常出现捏造事实(confabulation)的问题,即生成的内容与事实不符。虽然模型规模的扩大通常能提升整体性能,但缺乏对事实性知识回忆能力与模型规模和训练数据组成之间关系的深入理解。现有方法难以准确预测模型在特定主题上的回忆能力,也无法解释模型捏造事实的根本原因。

核心思路:论文的核心思路是,将事实性知识回忆能力建模为信号与噪声之间的关系。其中,信号强度与训练数据中概念的频率成正比,而噪声基底与模型容量成正比。通过分析模型参数数量和主题频率对回忆质量的影响,揭示它们之间的scaling law关系。这种基于信噪比的解释,能够更好地理解模型捏造事实的内在机制。

技术框架:论文采用自动化引用验证系统,对大型语言模型生成文本中的学术引用进行评估。整体流程包括:1) 收集包含学术引用的文本;2) 使用自动化系统验证引用的准确性;3) 统计模型参数数量和训练数据中主题的频率;4) 分析回忆质量与模型参数数量和主题频率之间的关系。论文使用了38个模型,涵盖多个模型家族,并在超过8900个学术引用上进行了评估。

关键创新:论文最重要的技术创新点在于,发现了事实性知识回忆能力与模型规模和主题频率之间的scaling law关系。具体而言,回忆质量遵循一个sigmoid函数,该函数是模型参数数量和训练数据中主题表示的log-linear组合。这种scaling law能够更准确地预测模型在特定主题上的回忆能力,并为理解模型捏造事实的根本原因提供了新的视角。

关键设计:论文的关键设计包括:1) 使用自动化引用验证系统,能够高效地评估大量学术引用的准确性;2) 采用log-linear组合的方式,将模型参数数量和主题频率结合起来,更好地捕捉它们对回忆质量的综合影响;3) 基于信噪比的解释,能够更直观地理解模型捏造事实的内在机制。论文还对不同模型家族进行了单独分析,以验证scaling law的普适性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,模型参数数量和主题频率的log-linear组合可以解释回忆质量的60%方差,在单个模型家族中甚至可以达到74-94%。这验证了论文提出的scaling law的有效性,并表明模型规模和训练数据组成是影响事实性知识回忆能力的关键因素。

🎯 应用场景

该研究成果可应用于提升大型语言模型的事实性知识回忆能力,减少捏造事实的现象。通过优化训练数据的组成和调整模型规模,可以提高模型在特定领域的知识准确性。此外,该研究还可以用于评估不同模型的知识可靠性,为用户选择合适的模型提供参考。

📄 摘要(原文)

While scaling laws govern aggregate large language model performance, no scaling law has linked factual recall to both model size and training-data composition. We evaluated 38 models on over 8,900 scholarly references evaluated by an automated reference verification system. Recall quality follows a sigmoid in the log-linear combination of model parameter count and topic representation in training data. These two variables alone explain 60% of the variance across 16 dense models from four families, rising to 74-94% within individual families. The form matches a superposition-inspired account in which recall is gated by a signal-to-noise ratio: signal strength scales with concept frequency and the noise floor with model capacity.