LLM-Metrics: Measuring Research Impact Through Large Language Model Memory

📄 arXiv: 2605.22176v1 📥 PDF

作者: Si Shen, Wenhua Zhao, Danhao Zhu

分类: cs.AI

发布日期: 2026-05-21

备注: 25pages, 5figures


💡 一句话要点

提出LLM-Metrics,利用大语言模型记忆评估研究影响力,无需引用数据。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 研究影响力评估 大语言模型 参数记忆 知识检索 计算机科学

📋 核心要点

  1. 传统引用次数评估研究影响力存在滞后性和学科偏见等问题。
  2. LLM-Metrics利用大语言模型参数记忆,假设高影响力论文在模型中记忆更深。
  3. 实验表明,LLM-Metrics与引用次数存在正相关,且小规模模型表现突出。

📝 摘要(中文)

引用次数是评估研究影响力的主要指标,但存在滞后性、学科偏见和马太效应等局限性。本文提出LLM-Metrics,一种基于大语言模型(LLM)参数记忆的研究影响力评估指标。核心假设是,高影响力论文在学术界获得更多曝光,这些曝光以文本形式进入LLM训练数据,从而使模型形成对这些论文更强的参数记忆。我们设计了四种多项选择题,涵盖标题识别、作者识别、方法识别和会议识别,并在来自六家供应商的17个参数规模从0.5B到72B的LLM上评估了2023-2024年发表的549篇计算机科学论文。在17个模型中,15个产生了积极的预测,其中9个在p小于0.05时具有显著性,与引用次数的Spearman相关系数为rho = 0.1495,p = 0.0004。另外三个发现支持了所提出的机制。首先,对于2024年的论文,预测信号更强,rho = 0.1880,这些论文在模型训练时引用次数接近于零,降低了简单的反向因果解释的可能性。其次,作者识别探针显示出最强的区分能力,与曝光驱动的记忆机制一致。第三,模型规模和预测能力呈非单调关系:一个3B参数的模型Llama-3.2-3B-Instruct,rho = 0.1829,优于大多数更大的模型,支持了一种选择性记忆假设,即较小模型的有限容量可以作为有效的信息过滤器。LLM-Metrics提供了一种实时、跨学科、独立于引用的研究评估范式。

🔬 方法详解

问题定义:当前研究影响力评估主要依赖于引用次数,但这种方法存在明显的滞后性,无法及时反映最新研究的价值。此外,不同学科的引用习惯存在差异,导致跨学科比较困难。马太效应也使得热门论文更容易被引用,而一些高质量但关注度较低的论文则被忽视。因此,需要一种更及时、更客观、更全面的研究影响力评估方法。

核心思路:本文的核心思路是利用大语言模型(LLM)的参数记忆来评估研究影响力。作者假设,一篇论文的影响力越高,它在学术界获得的曝光就越多,这些曝光会以文本形式进入LLM的训练数据,从而使LLM对该论文形成更强的记忆。因此,可以通过测试LLM对论文相关信息的记忆程度来评估其影响力。

技术框架:LLM-Metrics的整体框架包括以下几个步骤:1)收集论文元数据,包括标题、作者、方法和发表会议等信息。2)设计多项选择题,用于测试LLM对论文相关信息的记忆程度。这些问题涵盖标题识别、作者识别、方法识别和会议识别四个方面。3)使用不同的LLM对这些问题进行测试,记录模型的回答结果。4)计算LLM-Metrics得分,该得分反映了LLM对论文相关信息的记忆程度。5)将LLM-Metrics得分与引用次数进行比较,验证其有效性。

关键创新:LLM-Metrics的关键创新在于利用LLM的参数记忆来评估研究影响力,这是一种全新的思路。与传统的引用次数评估方法相比,LLM-Metrics具有实时性、跨学科性和独立于引用的优点。此外,作者还发现,模型规模和预测能力呈非单调关系,这表明较小规模的模型可能更适合用于评估研究影响力。

关键设计:在多项选择题的设计上,作者精心选择了干扰项,以确保问题具有区分度。例如,在作者识别问题中,干扰项是与目标作者具有相似研究方向的其他作者。此外,作者还使用了不同的LLM进行测试,以验证LLM-Metrics的鲁棒性。在计算LLM-Metrics得分时,作者使用了Spearman相关系数来衡量LLM-Metrics与引用次数之间的相关性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM-Metrics与引用次数存在显著的正相关关系(rho = 0.1495, p = 0.0004)。对于2024年发表的论文,相关性更高(rho = 0.1880),表明LLM-Metrics能够更有效地评估最新研究的影响力。此外,作者识别探针表现出最强的区分能力,支持了曝光驱动的记忆机制。值得注意的是,3B参数的Llama-3.2-3B-Instruct模型表现优于大多数更大规模的模型(rho = 0.1829)。

🎯 应用场景

LLM-Metrics可用于实时评估最新研究的影响力,辅助科研人员快速了解领域动态。它还能提供跨学科的评估,帮助科研管理者进行更全面的资源分配。此外,LLM-Metrics可以作为传统引用指标的补充,更准确地评估研究的长期价值和潜在影响。

📄 摘要(原文)

Citation counts remain the dominant metric for assessing research impact, yet they suffer from well-documented limitations: temporal lag, disciplinary bias, and Matthew effects. Here we propose LLM-Metrics, a research-impact assessment metric derived from the parametric memory of large language models (LLMs). The central hypothesis is that high-impact papers receive greater exposure in the academic community, that this exposure enters LLM training data in textual form, and that models consequently form stronger parametric memory of these papers. We designed four types of multiple-choice probes, covering title recognition, author recognition, method recognition, and venue recognition, and evaluated 549 computer science papers published in 2023-2024 across 17 LLMs spanning 0.5B to 72B parameters from six vendors. Of the 17 models, 15 produced positive predictions, 9 of which were significant at p less than 0.05, with an overall Spearman correlation of rho = 0.1495 and p = 0.0004 against citation counts. Three additional findings support the proposed mechanism. First, the predictive signal was stronger for 2024 papers, rho = 0.1880, whose citation counts were near zero at model-training time, reducing the plausibility of a simple reverse-causality explanation. Second, author-recognition probes showed the strongest discriminative power, consistent with an exposure-driven memory mechanism. Third, model scale and predictive power were non-monotonic: a 3B-parameter model, Llama-3.2-3B-Instruct, with rho = 0.1829, outperformed most larger models, supporting a selective-memory hypothesis in which the limited capacity of smaller models can serve as an effective information filter. LLM-Metrics offers a real-time, cross-disciplinary, citation-independent paradigm for research assessment.