How Deep Do Large Language Models Internalize Scientific Literature and Citation Practices?

作者: Andres Algaba, Vincent Holst, Floriano Tori, Melika Mobini, Brecht Verbeken, Sylvia Wenmackers, Vincent Ginis

分类: cs.DL, cs.AI, cs.LG, cs.SI

发布日期: 2025-04-03

备注: 32 pages, 17 figures

💡 一句话要点

研究揭示大型语言模型在科学文献引用中强化马太效应并偏好特定引用特征

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 科学文献引用 马太效应 GPT-4o 文献计量学

📋 核心要点

现有研究缺乏对LLM如何影响科学文献引用实践的深入理解，尤其是在不同领域和引用动态方面。
该研究通过分析GPT-4o生成的参考文献，揭示了LLM在引用中存在的马太效应和对特定引用特征的偏好。
实验结果表明，LLM倾向于引用高被引、较新、标题较短的论文，并在语义上与论文内容对齐，同时减少自引。

📝 摘要（中文）

科学知识的传播依赖于研究人员如何发现和引用先前的工作。大型语言模型（LLM）在科学研究过程中的应用为引用实践引入了一个新的层面。然而，LLM在多大程度上与人类的引用实践相符，它们在不同领域中的表现如何，以及它们可能如何影响引用动态，这些仍然不清楚。本文研究表明，LLM在生成参考文献时，系统性地强化了引用中的马太效应，始终偏向于高被引论文。尽管各个科学领域在存在率（即生成的参考文献与外部文献计量数据库中现有记录相匹配的比例）方面存在显著差异，但这种模式仍然存在。通过分析GPT-4o为10,000篇论文生成的274,951条参考文献，我们发现LLM的推荐与传统的引用模式不同，更偏好更新、标题更短、作者更少的参考文献。强调其内容层面的相关性，生成的参考文献在语义上与每篇论文的内容对齐，其水平与真实参考文献相当，并显示出相似的网络效应，同时减少了作者的自我引用。这些发现表明，LLM可能会通过反映和放大已有的趋势来重塑引用实践，并影响科学发现的轨迹。随着LLM更多地融入科学研究过程，重要的是要理解它们在塑造科学界如何发现和利用先前工作方面的作用。

🔬 方法详解

问题定义：论文旨在研究大型语言模型（LLM）在科学文献引用中的行为模式，特别是它们如何影响科学知识的传播和引用实践。现有方法缺乏对LLM在引用文献时是否存在偏见、如何影响引用动态以及在不同科学领域表现的系统性分析。现有研究未能充分揭示LLM对科学研究生态的潜在影响。

核心思路：该研究的核心思路是通过分析LLM生成的参考文献，揭示其在引用文献时存在的偏见和模式。通过对比LLM生成的参考文献与真实参考文献，以及分析不同科学领域的数据，研究人员可以了解LLM如何影响引用动态，并评估其对科学知识传播的潜在影响。研究重点关注LLM是否会强化马太效应，以及它们对不同引用特征（如论文发表时间、标题长度、作者数量等）的偏好。

技术框架：该研究的技术框架主要包括以下几个步骤：1) 选择GPT-4o作为研究对象，并使用其为10,000篇科学论文生成参考文献。2) 构建包含274,951条参考文献的数据集。3) 分析LLM生成的参考文献，评估其与真实参考文献的差异，并识别存在的偏见和模式。4) 对比不同科学领域的数据，了解LLM在不同领域的表现差异。5) 分析LLM生成的参考文献的网络效应和自引情况。

关键创新：该研究的关键创新在于系统性地分析了LLM在科学文献引用中的行为模式，揭示了其存在的马太效应和对特定引用特征的偏好。此外，该研究还对比了LLM在不同科学领域的表现差异，并分析了其生成的参考文献的网络效应和自引情况。这些发现为理解LLM对科学研究生态的潜在影响提供了重要 insights。

关键设计：研究的关键设计包括：1) 使用GPT-4o生成参考文献，保证了研究结果的可靠性。2) 构建包含大量参考文献的数据集，提高了研究结果的统计显著性。3) 对比LLM生成的参考文献与真实参考文献，可以更准确地评估LLM的引用行为。4) 分析不同科学领域的数据，可以了解LLM在不同领域的表现差异。5) 分析LLM生成的参考文献的网络效应和自引情况，可以更全面地了解LLM对科学研究生态的潜在影响。

🖼️ 关键图片

📊 实验亮点

研究发现，GPT-4o在生成参考文献时，系统性地强化了引用中的马太效应，偏向于高被引论文。LLM更偏好更新、标题更短、作者更少的参考文献。生成的参考文献在语义上与论文内容对齐，其水平与真实参考文献相当，并显示出相似的网络效应，同时减少了作者的自我引用。

🎯 应用场景

该研究结果可应用于改进LLM在科学研究中的应用，例如开发更公平、更全面的文献推荐系统。通过理解LLM的引用偏见，可以设计算法来减轻马太效应，并促进对新兴研究和较少被引用工作的关注。此外，该研究有助于科学界更好地理解和管理LLM对科学知识传播的潜在影响。

📄 摘要（原文）

The spread of scientific knowledge depends on how researchers discover and cite previous work. The adoption of large language models (LLMs) in the scientific research process introduces a new layer to these citation practices. However, it remains unclear to what extent LLMs align with human citation practices, how they perform across domains, and may influence citation dynamics. Here, we show that LLMs systematically reinforce the Matthew effect in citations by consistently favoring highly cited papers when generating references. This pattern persists across scientific domains despite significant field-specific variations in existence rates, which refer to the proportion of generated references that match existing records in external bibliometric databases. Analyzing 274,951 references generated by GPT-4o for 10,000 papers, we find that LLM recommendations diverge from traditional citation patterns by preferring more recent references with shorter titles and fewer authors. Emphasizing their content-level relevance, the generated references are semantically aligned with the content of each paper at levels comparable to the ground truth references and display similar network effects while reducing author self-citations. These findings illustrate how LLMs may reshape citation practices and influence the trajectory of scientific discovery by reflecting and amplifying established trends. As LLMs become more integrated into the scientific research process, it is important to understand their role in shaping how scientific communities discover and build upon prior work.

How Deep Do Large Language Models Internalize Scientific Literature and Citation Practices?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理