Inferring the Size of Large Language Models From Popular Text Memorization

📄 arXiv: 2605.29223v2 📥 PDF

作者: Ivica Nikolic

分类: cs.LG

发布日期: 2026-05-28 (更新: 2026-05-29)


💡 一句话要点

提出一种黑盒方法,仅通过文本输出来推断大型语言模型的参数规模下限。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 参数规模估计 黑盒方法 模型记忆 缩放律 主成分分析 文本生成

📋 核心要点

  1. 大型语言模型的参数量通常不公开,这给理解模型的能力和成本带来了挑战。
  2. 该论文提出一种黑盒方法,通过分析模型对流行文本的记忆程度来推断其参数规模下限。
  3. 实验表明,该方法能够准确估计开源模型的参数规模,并揭示闭源模型在缩放策略上的差异。

📝 摘要(中文)

大型语言模型(LLM)的参数量通常被开发者隐藏,使得模型大小这一解释能力和成本的关键参考点未公开。我们提出了一种黑盒方法,仅从生成的文本输出来推断LLM规模的保守下限。该方法基于一个关键观察:流行的、广泛传播的文本(如古典文学、宗教文本和基础文献)几乎存在于每个大规模预训练语料库中。模型预测不同长度文本片段的下一个词的准确性,是其记忆程度的可靠信号,而记忆程度从根本上受到其总参数量的限制。我们将这种记忆信号聚合到每个模型的单一精度剖面向量中,并在此基础上构建两种互补的推理方法:一种成对统计测试,用于确定两个模型中哪个更大;以及一种缩放律估计器,通过主成分分析(PCA)从这些向量中提取一维潜在指标,以将聚合信号映射到参数计数。在广泛的开源模型上验证后,这两种方法都产生了准确可靠的下限。当应用于流行的闭源模型时,我们的框架恢复了内部产品层级,并揭示了行业缩放策略的明显差异:虽然一些开发者产生了明显更高的下限,表明参数规模的巨大增长,但另一些开发者则在严格的参数上限下运行,表明即使在严格的API限制下,也可以系统地探测隐藏的设计选择。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)参数规模不公开的问题。现有方法难以在不访问模型内部信息的情况下估计模型大小,这阻碍了对模型能力和成本的理解。特别是对于闭源模型,开发者通常只提供API访问,无法直接获取模型参数信息。

核心思路:论文的核心思路是利用LLM对常见文本的记忆程度来推断其参数规模。假设LLM在预训练阶段接触过大量流行文本,那么模型参数越多,对这些文本的记忆就越深刻,预测下一个词的准确率也就越高。通过分析模型在不同长度的文本片段上的预测准确率,可以推断出模型的记忆能力,进而估计其参数规模下限。

技术框架:该方法主要包含以下几个阶段:1) 构建包含多种流行文本的数据集;2) 将文本分割成不同长度的片段;3) 使用目标LLM预测每个片段的下一个词,并记录预测准确率;4) 将每个模型的预测准确率聚合为一个精度剖面向量;5) 使用两种推理方法:成对统计测试和缩放律估计器,来推断模型的大小。成对统计测试用于比较两个模型的大小,缩放律估计器使用主成分分析(PCA)将精度剖面向量映射到参数计数。

关键创新:该方法的主要创新在于提出了一种完全基于黑盒访问的参数规模推断方法。与需要访问模型内部信息的方法不同,该方法只需要能够提交文本片段并观察下一个词的预测结果。这使得该方法可以应用于各种LLM,包括闭源模型,从而可以比较不同模型的规模和能力。

关键设计:关键设计包括:1) 使用多样化的流行文本数据集,以确保模型在预训练阶段接触过这些文本;2) 使用不同长度的文本片段,以捕捉模型在不同记忆深度下的表现;3) 使用主成分分析(PCA)来降维精度剖面向量,并提取与参数规模相关的潜在指标;4) 设计成对统计测试,以比较两个模型的大小,而无需知道它们的具体参数规模。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在广泛的开源模型上进行了验证,结果表明其能够准确估计模型的参数规模下限。应用于闭源模型时,该方法揭示了不同开发者在模型缩放策略上的差异,例如某些开发者倾向于使用更大的模型,而另一些开发者则受到参数上限的限制。这些发现表明,即使在严格的API限制下,也可以系统地探测隐藏的设计选择。

🎯 应用场景

该研究成果可应用于评估和比较不同LLM的规模和能力,尤其是在模型参数未公开的情况下。这有助于用户选择合适的模型,并促进LLM领域的透明度和竞争。此外,该方法还可以用于监测LLM的训练过程,以及评估模型在不同任务上的泛化能力。

📄 摘要(原文)

The parameter counts of the most widely used large language models (LLMs) are often withheld by their developers, leaving model size -- a primary reference point for interpreting capabilities and costs -- largely undisclosed. We propose a black-box method to infer conservative lower bounds on LLM size from generated text outputs alone, requiring nothing beyond the ability to submit text fragments and observe next-token predictions. Our approach is grounded in a key observation: popular, widely-circulated texts -- such as classical literature, religious texts, and foundational documents -- are present in virtually every large-scale pretraining corpus, and how accurately a model predicts the next word across text fragments of varying length is a reliable signal of how much it has memorized them, which in turn is fundamentally limited by its total parameter count. We aggregate this memorization signal across a diverse corpus of texts and fragment lengths into a single accuracy profile vector per model, and build two complementary inference methods on top of it: a pairwise statistical test that determines which of two models is larger, and a scaling-law estimator that extracts a one-dimensional latent index from these vectors via Principal Component Analysis (PCA) to map the aggregated signal to a parameter count. Validated on a broad set of open-weight models, both methods produce accurate and reliable lower bounds. When applied to popular closed-weight models, our framework recovers internal product hierarchies and reveals a clear divergence in industry scaling strategies: while some developers yield significantly higher bounds indicative of large generational parameter growth, others operate under strict parameter ceilings, demonstrating that hidden design choices can be systematically probed even under strict API limitations.