Learning the Signature of Memorization in Autoregressive Language Models

作者: David Ilić, Kostadin Cvejoski, David Stanojević, Evgeny Grigorenko

分类: cs.CL, cs.CR, cs.LG

发布日期: 2026-04-06

💡 一句话要点

提出可迁移的自回归语言模型记忆签名学习方法，提升成员推断攻击效果

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 成员推断攻击 语言模型安全 模型隐私 迁移学习 记忆签名 自回归模型 序列分类

📋 核心要点

现有成员推断攻击依赖手工设计的启发式方法，受限于设计者的主观认知，缺乏泛化能力。
通过观察微调过程产生可用于训练的标记数据，论文提出学习记忆签名的方法，实现跨架构和数据集的迁移。
实验表明，该方法在多种模型架构和数据领域上表现出色，显著提升了成员推断攻击的性能。

📝 摘要（中文）

本文提出了一种可迁移的、基于学习的成员推断攻击方法，用于识别微调语言模型中的记忆模式。该方法基于一个观察：对任何模型在任何语料库上进行微调都会产生无限的标记数据，因为成员关系是已知的。这消除了影子模型瓶颈，并将成员推断带入了深度学习时代，即学习什么重要，而不是设计什么重要，并通过训练多样性和规模实现泛化。研究发现，微调语言模型会产生一种不变的记忆签名，这种签名可以在不同的架构系列和数据领域中检测到。该方法仅在基于Transformer的模型上训练成员推断分类器，即可零样本迁移到Mamba（状态空间模型）、RWKV-4（线性注意力模型）和RecurrentGemma（门控循环模型），分别实现了0.963、0.972和0.936的AUC。每个评估都结合了训练期间从未见过的架构和数据集，但所有三个都超过了在保留的Transformer上的性能（0.908 AUC）。即使是简单的基于似然的方法也表现出很强的迁移能力，证实了该签名独立于检测方法而存在。该方法，即学习到的迁移MIA（LT-MIA），通过将成员推断重新定义为基于每个token分布统计的序列分类，最有效地捕获了这种信号。在Transformer上，LT-MIA在0.1% FPR下实现了比最强基线高2.8倍的TPR。该方法还可以迁移到代码（0.865 AUC），尽管仅在自然语言文本上进行训练。

🔬 方法详解

问题定义：现有针对微调语言模型的成员推断攻击方法依赖于手工设计的启发式规则，例如损失阈值、Min-K%和参考校准等。这些方法的性能受到设计者经验的限制，缺乏泛化能力，难以适应不同的模型架构和数据集。因此，需要一种更通用、更有效的方法来识别模型中的记忆模式，从而进行成员推断攻击。

核心思路：论文的核心思路是利用深度学习方法自动学习语言模型中的记忆签名，而不是手动设计启发式规则。通过观察到微调过程本身可以产生大量的标记数据（因为成员关系是已知的），论文提出训练一个成员推断分类器，使其能够识别模型在训练数据上学习到的独特模式。这种方法的关键在于，它能够从数据中学习，而不是依赖于人为的假设。

技术框架：LT-MIA方法将成员推断问题重新定义为序列分类问题。对于给定的文本序列，模型首先计算每个token的分布统计信息，例如困惑度、概率等。然后，这些统计信息被输入到一个分类器中，该分类器预测该序列是否属于训练集。整个框架包括以下几个主要阶段：1) 数据准备：使用微调后的语言模型生成每个token的分布统计信息。2) 模型训练：使用生成的数据训练成员推断分类器。3) 模型评估：在不同的模型架构和数据集上评估分类器的性能。

关键创新：最重要的技术创新点在于，该方法能够学习到一种通用的记忆签名，这种签名可以在不同的模型架构和数据集之间迁移。与现有方法相比，LT-MIA不需要针对特定的模型或数据集进行调整，因此具有更强的泛化能力。此外，该方法还能够有效地利用微调过程产生的标记数据，从而避免了影子模型的需求。

关键设计：LT-MIA的关键设计包括：1) 使用每个token的分布统计信息作为输入特征，这些特征能够反映模型对训练数据的记忆程度。2) 将成员推断问题重新定义为序列分类问题，这使得可以使用各种序列分类模型（例如LSTM、Transformer等）来解决该问题。3) 使用交叉熵损失函数来训练成员推断分类器，并使用AUC作为评估指标。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LT-MIA方法在多种模型架构和数据集上都取得了显著的性能提升。例如，在Transformer模型上，LT-MIA在0.1% FPR下实现了比最强基线高2.8倍的TPR。此外，该方法还能够零样本迁移到Mamba、RWKV-4和RecurrentGemma等模型上，分别实现了0.963、0.972和0.936的AUC，超过了在保留的Transformer上的性能（0.908 AUC）。

🎯 应用场景

该研究成果可应用于评估和提高语言模型的隐私安全性，防止模型泄露训练数据中的敏感信息。此外，该方法还可以用于检测模型是否存在过度拟合或记忆训练数据的问题，从而帮助开发者更好地训练和优化模型。未来，该技术可能被用于开发更安全的联邦学习系统，确保参与训练的各方数据隐私。

📄 摘要（原文）

All prior membership inference attacks for fine-tuned language models use hand-crafted heuristics (e.g., loss thresholding, Min-K\%, reference calibration), each bounded by the designer's intuition. We introduce the first transferable learned attack, enabled by the observation that fine-tuning any model on any corpus yields unlimited labeled data, since membership is known by construction. This removes the shadow model bottleneck and brings membership inference into the deep learning era: learning what matters rather than designing it, with generalization through training diversity and scale. We discover that fine-tuning language models produces an invariant signature of memorization detectable across architectural families and data domains. We train a membership inference classifier exclusively on transformer-based models. It transfers zero-shot to Mamba (state-space), RWKV-4 (linear attention), and RecurrentGemma (gated recurrence), achieving 0.963, 0.972, and 0.936 AUC respectively. Each evaluation combines an architecture and dataset never seen during training, yet all three exceed performance on held-out transformers (0.908 AUC). These four families share no computational mechanisms, their only commonality is gradient descent on cross-entropy loss. Even simple likelihood-based methods exhibit strong transfer, confirming the signature exists independently of the detection method. Our method, Learned Transfer MIA (LT-MIA), captures this signal most effectively by reframing membership inference as sequence classification over per-token distributional statistics. On transformers, LT-MIA achieves 2.8$\times$ higher TPR at 0.1\% FPR than the strongest baseline. The method also transfers to code (0.865 AUC) despite training only on natural language texts. Code and trained classifier available atthis https URL.

Learning the Signature of Memorization in Autoregressive Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理