Divergence Decoding: Inference-Time Unlearning via Auxiliary Models

作者: Humzah Merchant, Bradford Levy

分类: cs.CL

发布日期: 2026-05-29

💡 一句话要点

提出Divergence Decoding，通过辅助模型实现LLM的推理时非学习，解决隐私和版权风险。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 非学习 大型语言模型 隐私保护 知识擦除 推理时干预

📋 核心要点

大型语言模型存在记忆训练数据带来的隐私和版权风险，现有非学习方法效果不佳或导致模型性能严重下降。
Divergence Decoding利用小型辅助模型在推理时引导LLM的logits，使其远离特定数据，实现高效的知识擦除。
实验表明，该方法在非学习基准测试中优于现有方法，且能推广到图像领域，并可将引导分布蒸馏回基础模型。

📝 摘要（中文）

大型语言模型（LLM）经常会记忆敏感的训练数据，从而产生严重的隐私和版权风险。解决这些风险，即从现有模型检查点中移除此类知识，已被证明具有挑战性，因为许多非学习方法会导致灾难性的效用损失，或者对于复杂的查询无效。我们引入了Divergence Decoding（DD），这是一种机制，它使用小型辅助模型来引导LLM的logits远离推理期间的特定数据。训练这些模型很简单，即我们使用标准的预训练和微调设置。我们发现该方法在各种模型和训练数据集规模的非学习基准测试中，明显优于最先进（SOTA）的基线，这与DD是有效且廉价的非学习解决方案相一致。然后，我们证明了这种引导分布可以很容易地提炼回基础模型中。由于该方法通常适用于任何概率模型，我们探索了其在文本生成之外的功效，并发现了推广到图像领域的证据。

🔬 方法详解

问题定义：大型语言模型（LLM）会记忆训练数据中的敏感信息，造成隐私泄露和版权侵犯风险。现有的非学习方法，例如直接修改模型权重或添加噪声，往往会导致模型性能大幅下降，或者在面对复杂查询时无法有效移除目标知识。因此，如何在不显著降低模型效用的前提下，安全有效地从LLM中移除特定知识是一个关键问题。

核心思路：Divergence Decoding（DD）的核心思想是在推理阶段，利用一个或多个小型辅助模型来引导LLM的logits，使其远离需要“遗忘”的数据。通过这种方式，模型在生成文本或进行预测时，会避免输出或依赖于与敏感信息相关的内容，从而实现推理时的非学习。这种方法避免了直接修改LLM的权重，降低了对模型性能的负面影响。

技术框架：DD方法包含以下几个主要步骤：1) 训练辅助模型：使用标准预训练和微调方法训练一个或多个小型辅助模型，这些模型的目标是识别并抑制与需要遗忘的数据相关的模式。2) 推理时Logit引导：在推理阶段，LLM生成logits后，辅助模型会根据输入数据对logits进行调整，使其远离与敏感信息相关的区域。具体来说，辅助模型会预测一个“divergence”向量，该向量表示logits应该移动的方向和幅度。3) 解码：使用调整后的logits进行解码，生成最终的输出。4) 知识蒸馏（可选）：可以将经过DD引导的logits分布蒸馏回原始LLM，从而在模型权重层面实现知识的移除。

关键创新：DD的关键创新在于其推理时非学习的特性。与传统的非学习方法不同，DD不需要修改LLM的权重，而是在推理阶段通过辅助模型动态地调整logits。这种方法具有以下优点：1) 高效性：辅助模型通常比LLM小得多，训练和推理成本较低。2) 灵活性：可以针对不同的敏感信息训练不同的辅助模型，实现精细化的知识移除。3) 可逆性：可以随时启用或禁用DD，而不会对LLM的原始性能产生永久性影响。

关键设计：辅助模型的训练目标是预测logits的“divergence”向量。可以使用不同的损失函数来训练辅助模型，例如KL散度或交叉熵损失。一个关键的设计选择是辅助模型的架构和大小。论文中使用了相对较小的模型，以降低计算成本。此外，logits引导的强度可以通过一个超参数进行控制，以平衡非学习效果和模型性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Divergence Decoding在非学习基准测试中显著优于现有方法。在多个数据集和模型规模上，DD都能够有效地移除目标知识，同时保持较高的模型性能。此外，实验还证明了DD可以推广到图像领域，并且可以将引导分布蒸馏回基础模型，进一步提升了该方法的实用性。

🎯 应用场景

Divergence Decoding在多个领域具有广泛的应用前景。例如，可以用于保护用户隐私，防止LLM泄露个人信息。也可以用于版权保护，防止LLM生成侵权内容。此外，该方法还可以用于内容审查，自动过滤掉不适宜的文本或图像。该技术能够提升AI系统的安全性和可靠性，促进其在敏感领域的应用。

📄 摘要（原文）

Large Language Models (LLMs) frequently memorize sensitive training data thereby creating significant privacy and copyright risks. Addressing these risks, i.e., removing such knowledge from an existing model checkpoint, has proven challenging as many unlearning methods lead to catastrophic utility loss or are ineffective for complex queries. We introduce Divergence Decoding (DD), a mechanism that uses small auxiliary models to steer the logits of the LLM away from specific data during inference. Training these models is straight forward, i.e., we use standard pre-training and fine-tuning setups. We find the method decisively outperforms state-of-the-art (SOTA) baselines on unlearning benchmarks across a variety of model and training dataset scales consistent with DD being an effective and inexpensive solution to unlearning. We then demonstrate that this steered distribution can be trivially distilled back into the base model. Since the method is generally applicable to any probabilistic model, we explore its efficacy outside of text generation and find evidence of generalization to the domain of images.

Divergence Decoding: Inference-Time Unlearning via Auxiliary Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理