NumLeak: Public Numeric Benchmarks as Latent Labels in Foundation Models

作者: Anany Kotawala

分类: cs.LG, cs.AI, cs.CR

发布日期: 2026-05-28

备注: 23 pages, 12 figures, 17 tables. Accepted at the ICML 2026 Workshop on the Impact of Memorization on Trustworthy Foundation Models (MemFM)

💡 一句话要点

NumLeak：利用公开数值基准作为基础模型中的潜在标签，揭示记忆泄露问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 记忆泄露 数值基准 API探测 白盒验证 模型评估 安全性 泛化能力

📋 核心要点

大型语言模型（LLM）可能通过预训练记忆了公开的数值基准数据，导致评估结果高估了模型的泛化能力。
NumLeak框架结合API探测和白盒验证，用于评估LLM对公开数值基准数据的记忆程度，并量化记忆泄露的影响。
实验表明，前沿LLM能够高精度地回忆起金融、经济和气象等领域的数值基准数据，且记忆泄露会显著影响模型的回归性能。

📝 摘要（中文）

公开数值基准数据出现在预训练过程中，因此，基于特定日期进行条件评估可能是在衡量记忆回溯，而非外推泛化能力。我们引入NumLeak，这是一个测量框架，它结合了生产模型上的API边界探测和开放因果LM上的白盒控制验证。顶级前沿LLM能够回忆起Fama-French市场超额收益，3个种子池化的Pearson r=0.97-0.99，同时在五个同类因子上保持在25个基点内的0.15范围内；在美国失业率、CPI通胀和NOAA温度方面也出现了相当的保真度。在最近发布的保留数据上，解析率下降到21-57%，但r在已回答的月份上保持在约0.99，拒绝或回忆的不对称性预测了一个记忆通道。白盒实验重现了剂量反应，并且logprob排序检测到开放式生成遗漏的记忆，这意味着封闭API黑盒探测低估了该通道。一个Sonnet“日期到市场情绪”回归与真实的Mkt-RF相关性为r=0.74，一旦模型的自身回忆被残差化，则崩溃到r=0.02。一个单行系统提示防御阻止了99.8%的非自适应单轮后缀攻击集，对概念和历史叙事查询的效用成本接近于零。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在预训练过程中记忆公开数值基准数据，从而导致评估结果失真的问题。现有评估方法难以区分模型是真正具备泛化能力，还是仅仅回忆了训练数据。这种记忆泄露问题会高估模型的实际能力，影响其在实际应用中的可靠性。

核心思路：论文的核心思路是设计一种NumLeak框架，通过API边界探测和白盒控制验证相结合的方式，量化LLM对公开数值基准数据的记忆程度。通过分析模型在不同时间段的数据上的表现，以及在白盒环境下的行为，来判断模型是否发生了记忆泄露。

技术框架：NumLeak框架包含两个主要组成部分：API边界探测和白盒控制验证。API边界探测通过向生产模型发送包含日期信息的查询，观察模型的输出是否与真实的数值基准数据相符。白盒控制验证则在一个开放因果LM上进行，通过控制训练数据，分析模型在不同训练条件下的表现。此外，论文还使用了logprob排序来检测记忆，并设计了一种简单的系统提示防御来阻止攻击。

关键创新：NumLeak框架的关键创新在于其结合了API探测和白盒验证，能够更全面地评估LLM的记忆泄露问题。与传统的黑盒探测方法相比，白盒验证能够更深入地了解模型的内部机制，从而更准确地判断模型是否发生了记忆。此外，论文还提出了一种基于logprob排序的记忆检测方法，以及一种简单的系统提示防御机制。

关键设计：在API探测中，论文使用了包含日期信息的查询，例如“Fama-French市场超额收益在[日期]是多少？”。在白盒验证中，论文控制了训练数据，并分析了模型在不同训练条件下的表现。论文还使用了Pearson相关系数来衡量模型输出与真实数值基准数据之间的相关性。系统提示防御使用单行提示来阻止模型回忆起数值基准数据。

🖼️ 关键图片

📊 实验亮点

实验结果表明，顶级前沿LLM能够高精度地回忆起Fama-French市场超额收益（Pearson r=0.97-0.99），以及美国失业率、CPI通胀和NOAA温度等数据。在最近发布的保留数据上，解析率下降，但相关性仍然很高（r约为0.99）。一个单行系统提示防御可以阻止99.8%的非自适应单轮后缀攻击，且对模型效用影响很小。

🎯 应用场景

该研究成果可应用于评估和改进大型语言模型的可靠性和安全性。通过NumLeak框架，可以检测模型是否存在记忆泄露问题，并采取相应的措施来缓解。例如，可以对模型进行微调，或者使用数据增强等技术来提高模型的泛化能力。此外，该研究还可以帮助开发者设计更安全的模型，防止模型被恶意利用。

📄 摘要（原文）

Public numeric benchmarks appear in pretraining, so an evaluation that conditions on a date may be measuring memorized recall rather than out-of-sample skill. We introduce NumLeak, a measurement framework that combines API-boundary probes on production models with a white-box controlled validation on an open causal LM. Top-tier frontier LLMs recall the Fama-French market excess return at 3-seed pooled Pearson r=0.97-0.99 while staying within 0.15 within-25bps on the five sibling factors; comparable fidelity appears on U.S. unemployment, CPI inflation, and NOAA temperature. On a recent-release holdout, parse rate collapses to 21-57% but r stays at approximately 0.99 on months answered, the refuse-or-recall asymmetry a memorized channel predicts. The white-box experiment reproduces the dose-response, and logprob ranking detects memorization that open-ended generation misses, implying closed-API black-box probes understate the channel. A Sonnet "date to market-sentiment" regression that correlates with true Mkt-RF at r=0.74 collapses to r=0.02 once the model's own recall is residualized out. A one-line system-prompt defense blocks 99.8% of a non-adaptive single-turn suffix attack set at near-zero utility cost on conceptual and historical-narrative queries

NumLeak: Public Numeric Benchmarks as Latent Labels in Foundation Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理