NumLeak: Public Numeric Benchmarks as Latent Labels in Foundation Models
作者: Anany Kotawala
分类: cs.LG, cs.AI, cs.CR
发布日期: 2026-05-28
备注: 23 pages, 12 figures, 17 tables. Accepted at the ICML 2026 Workshop on the Impact of Memorization on Trustworthy Foundation Models (MemFM)
💡 一句话要点
NumLeak:利用公开数值基准作为基础模型中的潜在标签,揭示记忆泄露问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 记忆泄露 数值基准 API探测 白盒验证 模型评估 安全性 泛化能力
📋 核心要点
- 大型语言模型(LLM)可能通过预训练记忆了公开的数值基准数据,导致评估结果高估了模型的泛化能力。
- NumLeak框架结合API探测和白盒验证,用于评估LLM对公开数值基准数据的记忆程度,并量化记忆泄露的影响。
- 实验表明,前沿LLM能够高精度地回忆起金融、经济和气象等领域的数值基准数据,且记忆泄露会显著影响模型的回归性能。
📝 摘要(中文)
公开数值基准数据出现在预训练过程中,因此,基于特定日期进行条件评估可能是在衡量记忆回溯,而非外推泛化能力。我们引入NumLeak,这是一个测量框架,它结合了生产模型上的API边界探测和开放因果LM上的白盒控制验证。顶级前沿LLM能够回忆起Fama-French市场超额收益,3个种子池化的Pearson r=0.97-0.99,同时在五个同类因子上保持在25个基点内的0.15范围内;在美国失业率、CPI通胀和NOAA温度方面也出现了相当的保真度。在最近发布的保留数据上,解析率下降到21-57%,但r在已回答的月份上保持在约0.99,拒绝或回忆的不对称性预测了一个记忆通道。白盒实验重现了剂量反应,并且logprob排序检测到开放式生成遗漏的记忆,这意味着封闭API黑盒探测低估了该通道。一个Sonnet“日期到市场情绪”回归与真实的Mkt-RF相关性为r=0.74,一旦模型的自身回忆被残差化,则崩溃到r=0.02。一个单行系统提示防御阻止了99.8%的非自适应单轮后缀攻击集,对概念和历史叙事查询的效用成本接近于零。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在预训练过程中记忆公开数值基准数据,从而导致评估结果失真的问题。现有评估方法难以区分模型是真正具备泛化能力,还是仅仅回忆了训练数据。这种记忆泄露问题会高估模型的实际能力,影响其在实际应用中的可靠性。
核心思路:论文的核心思路是设计一种NumLeak框架,通过API边界探测和白盒控制验证相结合的方式,量化LLM对公开数值基准数据的记忆程度。通过分析模型在不同时间段的数据上的表现,以及在白盒环境下的行为,来判断模型是否发生了记忆泄露。
技术框架:NumLeak框架包含两个主要组成部分:API边界探测和白盒控制验证。API边界探测通过向生产模型发送包含日期信息的查询,观察模型的输出是否与真实的数值基准数据相符。白盒控制验证则在一个开放因果LM上进行,通过控制训练数据,分析模型在不同训练条件下的表现。此外,论文还使用了logprob排序来检测记忆,并设计了一种简单的系统提示防御来阻止攻击。
关键创新:NumLeak框架的关键创新在于其结合了API探测和白盒验证,能够更全面地评估LLM的记忆泄露问题。与传统的黑盒探测方法相比,白盒验证能够更深入地了解模型的内部机制,从而更准确地判断模型是否发生了记忆。此外,论文还提出了一种基于logprob排序的记忆检测方法,以及一种简单的系统提示防御机制。
关键设计:在API探测中,论文使用了包含日期信息的查询,例如“Fama-French市场超额收益在[日期]是多少?”。在白盒验证中,论文控制了训练数据,并分析了模型在不同训练条件下的表现。论文还使用了Pearson相关系数来衡量模型输出与真实数值基准数据之间的相关性。系统提示防御使用单行提示来阻止模型回忆起数值基准数据。
🖼️ 关键图片
📊 实验亮点
实验结果表明,顶级前沿LLM能够高精度地回忆起Fama-French市场超额收益(Pearson r=0.97-0.99),以及美国失业率、CPI通胀和NOAA温度等数据。在最近发布的保留数据上,解析率下降,但相关性仍然很高(r约为0.99)。一个单行系统提示防御可以阻止99.8%的非自适应单轮后缀攻击,且对模型效用影响很小。
🎯 应用场景
该研究成果可应用于评估和改进大型语言模型的可靠性和安全性。通过NumLeak框架,可以检测模型是否存在记忆泄露问题,并采取相应的措施来缓解。例如,可以对模型进行微调,或者使用数据增强等技术来提高模型的泛化能力。此外,该研究还可以帮助开发者设计更安全的模型,防止模型被恶意利用。
📄 摘要(原文)
Public numeric benchmarks appear in pretraining, so an evaluation that conditions on a date may be measuring memorized recall rather than out-of-sample skill. We introduce NumLeak, a measurement framework that combines API-boundary probes on production models with a white-box controlled validation on an open causal LM. Top-tier frontier LLMs recall the Fama-French market excess return at 3-seed pooled Pearson r=0.97-0.99 while staying within 0.15 within-25bps on the five sibling factors; comparable fidelity appears on U.S. unemployment, CPI inflation, and NOAA temperature. On a recent-release holdout, parse rate collapses to 21-57% but r stays at approximately 0.99 on months answered, the refuse-or-recall asymmetry a memorized channel predicts. The white-box experiment reproduces the dose-response, and logprob ranking detects memorization that open-ended generation misses, implying closed-API black-box probes understate the channel. A Sonnet "date to market-sentiment" regression that correlates with true Mkt-RF at r=0.74 collapses to r=0.02 once the model's own recall is residualized out. A one-line system-prompt defense blocks 99.8% of a non-adaptive single-turn suffix attack set at near-zero utility cost on conceptual and historical-narrative queries