Pretraining Exposure Explains Popularity Judgments in Large Language Models
作者: Jamshid Mozafari, Bhawna Piryani, Adam Jatowt
分类: cs.CL
发布日期: 2026-05-12
备注: Accepted at SIGIR 2026
期刊: Proceedings of the 49th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2026)
💡 一句话要点
通过预训练数据暴露度解释大语言模型中的流行度判断
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 流行度偏差 预训练数据 数据暴露度 知识表示
📋 核心要点
- 现有方法难以区分LLM流行度偏好是源于真实世界流行度还是预训练数据暴露度。
- 论文通过分析完全可观察的预训练数据,量化实体级别的暴露度,并与LLM的流行度判断进行比较。
- 实验表明,LLM的流行度判断与预训练暴露度高度相关,尤其是在长尾实体和成对比较中。
📝 摘要(中文)
大型语言模型(LLMs)对知名实体表现出系统性的偏好,这种现象通常归因于流行度偏差。然而,这些偏好在多大程度上反映了真实世界的流行度,以及在预训练期间的统计暴露度,仍然不清楚,这主要是由于大多数训练语料库的不可访问性。我们提供了第一个基于完全可观察的预训练数据的大规模流行度偏差的直接分析。利用开放的OLMo模型及其完整的预训练语料库Dolma,我们计算了跨越7.4万亿个token的精确的实体级别暴露度统计数据。我们分析了涵盖五种类型(人、地点、组织、艺术、产品)的2000个实体,并将预训练暴露度与维基百科页面浏览量和两种引出的LLM流行度信号(直接标量估计和成对比较)进行比较。我们的结果表明,预训练暴露度与维基百科的流行度密切相关,验证了暴露度是训练期间真实世界显著性的一个有意义的代理。更重要的是,我们发现LLM的流行度判断与暴露度比与维基百科更吻合,特别是通过成对比较引出时。这种一致性对于更大的模型来说是最强的,并且在维基百科流行度变得不可靠的长尾中仍然存在。总的来说,我们的研究结果表明,LLM中的流行度先验主要是由预训练统计数据塑造的,而不是外部流行度信号,这为数据暴露在驱动流行度偏差中起着核心作用提供了具体的证据。
🔬 方法详解
问题定义:大型语言模型(LLMs)表现出对知名实体的偏好,即流行度偏差。现有方法难以区分这种偏差是源于真实世界流行度,还是仅仅是预训练数据中统计暴露度的结果。由于大多数LLM的训练数据不可访问,因此很难直接分析预训练数据对流行度偏差的影响。
核心思路:论文的核心思路是利用完全可观察的预训练数据(OLMo模型和Dolma语料库)来量化实体级别的暴露度,并将其与LLM的流行度判断进行比较。通过这种方式,可以直接评估预训练数据暴露度在塑造LLM流行度偏好中的作用。
技术框架:论文的技术框架主要包括以下几个阶段:1) 数据收集:收集OLMo模型的Dolma预训练语料库,以及维基百科页面浏览量数据。2) 实体选择:选择2000个实体,涵盖人物、地点、组织、艺术品和产品五种类型。3) 暴露度计算:计算每个实体在Dolma语料库中的暴露度统计数据。4) LLM流行度判断:通过直接标量估计和成对比较两种方式,引出LLM对实体的流行度判断。5) 相关性分析:分析预训练暴露度、维基百科流行度和LLM流行度判断之间的相关性。
关键创新:论文最重要的技术创新点在于首次利用完全可观察的预训练数据,对LLM的流行度偏差进行了大规模的直接分析。与以往的研究不同,该研究能够精确地量化实体级别的暴露度,并将其与LLM的流行度判断进行比较,从而揭示了预训练数据暴露度在塑造LLM流行度偏好中的关键作用。
关键设计:论文的关键设计包括:1) 使用OLMo模型和Dolma语料库,确保预训练数据的完全可观察性。2) 选择多样化的实体类型,以评估不同类型实体上的流行度偏差。3) 使用直接标量估计和成对比较两种方式,引出LLM的流行度判断,以评估不同引出方式的影响。4) 使用相关性分析,量化预训练暴露度、维基百科流行度和LLM流行度判断之间的关系。
🖼️ 关键图片
📊 实验亮点
实验结果表明,预训练暴露度与维基百科流行度密切相关,验证了暴露度是真实世界显著性的有效代理。更重要的是,LLM的流行度判断与暴露度的相关性高于与维基百科流行度的相关性,尤其是在长尾实体和成对比较中。这表明预训练数据暴露度是塑造LLM流行度偏好的主要因素。
🎯 应用场景
该研究成果可应用于提升LLM的公平性和客观性,减少流行度偏差带来的负面影响。例如,在信息检索、推荐系统等领域,可以利用该研究的结论来调整LLM的输出,使其更加公正地对待不同实体。此外,该研究也为LLM的训练数据选择和模型优化提供了新的思路。
📄 摘要(原文)
Large language models (LLMs) exhibit systematic preferences for well-known entities, a phenomenon often attributed to popularity bias. However, the extent to which these preferences reflect real-world popularity versus statistical exposure during pretraining remains unclear, largely due to the inaccessibility of most training corpora. We provide the first direct, large-scale analysis of popularity bias grounded in fully observable pretraining data. Leveraging the open OLMo models and their complete pretraining corpus, Dolma, we compute precise entity-level exposure statistics across 7.4 trillion tokens. We analyze 2,000 entities spanning five types (Person, Location, Organization, Art, Product) and compare pretraining exposure against Wikipedia pageviews and two elicited LLM popularity signals: direct scalar estimation and pairwise comparison. Our results show that pretraining exposure strongly correlates with Wikipedia popularity, validating exposure as a meaningful proxy for real-world salience during the training period. More importantly, we find that LLM popularity judgments align more closely with exposure than with Wikipedia, especially when elicited via pairwise comparisons. This alignment is strongest for larger models and persists in the long tail, where Wikipedia popularity becomes unreliable. Overall, our findings demonstrate that popularity priors in LLMs are primarily shaped by pretraining statistics rather than external popularity signals, offering concrete evidence that data exposure plays a central role in driving popularity bias.