CAP: Controllable Alignment Prompting for Unlearning in LLMs

作者: Zhaokun Wang, Jinyu Guo, Jingwen Pu, Hongli Pu, Meng Yang, Xunlei Chen, Jie Ou, Wenyi Li, Guangchun Luo, Wenhong Tian

分类: cs.LG, cs.AI

发布日期: 2026-04-23 (更新: 2026-04-24)

备注: Accpeted to ACL 2026 Main Conference

💡 一句话要点

提出CAP框架，通过可控对齐提示实现LLM的知识遗忘。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 知识遗忘 大型语言模型 可控对齐提示 强化学习 提示工程

📋 核心要点

现有参数修改的知识遗忘方法计算成本高昂，且依赖模型权重访问，对闭源模型不适用。
CAP框架通过强化学习优化提示，引导LLM抑制目标知识，同时保留通用能力，实现可控遗忘。
实验表明，CAP无需更新模型参数即可实现精确遗忘，并具备知识恢复能力，优于现有方法。

📝 摘要（中文）

大型语言模型（LLMs）在未经筛选的语料库上训练，不可避免地会保留敏感信息，因此需要选择性地遗忘知识，以符合法规和伦理安全。然而，现有的参数修改方法面临根本性的限制：计算成本高、遗忘边界不可控，以及对模型权重访问的严格依赖。这些约束使得它们对于闭源模型不切实际，而目前的非侵入式替代方案仍然不系统且依赖于经验。为了解决这些挑战，我们提出了可控对齐提示遗忘（CAP）框架，这是一个端到端的提示驱动的遗忘范例。CAP通过强化学习将遗忘解耦为一个可学习的提示优化过程，其中提示生成器与LLM协作，以抑制目标知识，同时选择性地保留通用能力。这种方法可以通过撤销提示来实现可逆的知识恢复。大量的实验表明，CAP实现了精确、可控的遗忘，而无需更新模型参数，从而建立了一种动态对齐机制，克服了先前方法的可迁移性限制。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）中存在的敏感信息保留问题，即如何安全有效地遗忘模型中不需要的知识。现有方法，特别是参数修改方法，存在计算成本高、遗忘边界难以控制以及需要访问模型权重等问题，这使得它们在闭源模型上的应用受到限制。而非侵入式方法又缺乏系统性，依赖经验。

核心思路：CAP的核心思路是将知识遗忘问题转化为一个提示优化问题。通过学习一个特定的提示，引导LLM在特定输入下产生期望的遗忘行为，同时保持模型在其他方面的能力。这种方法避免了直接修改模型参数，因此适用于闭源模型，并且可以通过撤销提示来实现知识的恢复。

技术框架：CAP框架包含两个主要模块：提示生成器和LLM。提示生成器负责生成引导LLM进行知识遗忘的提示。LLM则根据输入的提示和问题，生成相应的回答。整个框架通过强化学习进行训练，目标是最大化遗忘目标知识的同时，最小化对模型通用能力的损害。训练过程中，LLM的输出被用于计算奖励信号，该信号用于更新提示生成器的参数。

关键创新：CAP的关键创新在于将知识遗忘问题转化为一个可控的提示优化问题。与传统的参数修改方法相比，CAP无需访问和修改模型参数，因此更适用于闭源模型。此外，CAP通过强化学习来优化提示，可以更有效地控制遗忘的范围和程度，避免过度遗忘。CAP还支持通过撤销提示来恢复知识，这为知识管理提供了更大的灵活性。

关键设计：CAP使用强化学习来训练提示生成器。奖励函数的设计至关重要，它需要平衡遗忘目标知识和保持通用能力之间的关系。一种常见的设计是，当LLM在目标知识相关的问题上给出错误或不确定的回答时，给予正向奖励；当LLM在与目标知识无关的问题上表现不佳时，给予负向奖励。提示生成器可以使用各种神经网络结构，例如Transformer。具体的参数设置，例如学习率、批量大小等，需要根据具体的实验进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，CAP框架能够在不修改模型参数的情况下，有效地遗忘目标知识，同时保持模型的通用能力。与现有的微调方法相比，CAP在遗忘特定知识方面表现出更高的精度和可控性。此外，CAP还支持通过撤销提示来恢复知识，这为知识管理提供了更大的灵活性。具体性能数据未知。

🎯 应用场景

CAP框架可应用于各种需要对LLM进行知识遗忘的场景，例如：删除模型中的个人隐私信息以符合数据隐私法规；移除模型中存在的偏见或有害内容；更新模型知识，使其不再包含过时的或错误的信息。该技术在金融、医疗、法律等对数据安全和合规性要求高的领域具有重要的应用价值，并有助于提升LLM的可靠性和安全性。

📄 摘要（原文）

Large language models (LLMs) trained on unfiltered corpora inherently risk retaining sensitive information, necessitating selective knowledge unlearning for regulatory compliance and ethical safety. However, existing parameter-modifying methods face fundamental limitations: high computational costs, uncontrollable forgetting boundaries, and strict dependency on model weight access. These constraints render them impractical for closed-source models, yet current non-invasive alternatives remain unsystematic and reliant on empirical experience. To address these challenges, we propose the Controllable Alignment Prompting for Unlearning (CAP) framework, an end-to-end prompt-driven unlearning paradigm. CAP decouples unlearning into a learnable prompt optimization process via reinforcement learning, where a prompt generator collaborates with the LLM to suppress target knowledge while preserving general capabilities selectively. This approach enables reversible knowledge restoration through prompt revocation. Extensive experiments demonstrate that CAP achieves precise, controllable unlearning without updating model parameters, establishing a dynamic alignment mechanism that overcomes the transferability limitations of prior methods.

CAP: Controllable Alignment Prompting for Unlearning in LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理