CiPO: Counterfactual Unlearning for Large Reasoning Models through Iterative Preference Optimization
作者: Junyi Li, Yongqiang Chen, Ningning Ding
分类: cs.CL
发布日期: 2026-04-17
备注: Accepted by ACL 2026 Main Conference
💡 一句话要点
提出CiPO,通过迭代偏好优化实现大型推理模型中知识的精确反学习。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 反学习 大型推理模型 链式思维 偏好优化 反事实推理
📋 核心要点
- 现有反学习方法难以在大型推理模型中完全消除CoT推理过程中的不良知识,或会损害模型的推理能力。
- CiPO通过迭代偏好优化,引导模型生成反事实推理轨迹,从而实现对CoT推理过程的精准干预。
- 实验表明,CiPO能有效消除CoT步骤和最终答案中的知识,同时保持大型推理模型的推理能力。
📝 摘要(中文)
近年来,大规模语言模型中的反学习技术备受关注,它旨在选择性地移除模型中不想要的隐私信息或受版权保护的内容。然而,大型推理模型(LRM)的出现给反学习带来了新的挑战,LRM强调长链式思维(CoT)推理来解决复杂问题,但现有方法要么难以完全消除CoT轨迹中的不良知识,要么因干扰推理过程而降低推理性能。为此,我们提出了通过迭代偏好优化进行反事实反学习(CiPO),这是一个新颖的框架,它将反学习重新定义为对LRM中CoT推理的有针对性的干预。具体来说,给定期望的反学习目标答案,CiPO指示LRM生成一个逻辑上有效的反事实推理轨迹,用于偏好调整。随着LRM适应反事实轨迹,CiPO迭代更新偏好学习数据,以增加与原始模型的差异。这种迭代循环确保了理想的反学习和平滑的优化,有效地缓解了困境。在具有挑战性的基准测试中进行的实验表明,CiPO擅长反学习,可以完全消除中间CoT步骤和最终答案中的知识,同时保持LRM的推理能力。
🔬 方法详解
问题定义:论文旨在解决大型推理模型(LRM)中的反学习问题,即如何从模型中选择性地移除不想要的知识,同时保持其推理能力。现有方法在处理LRM时面临两难:要么无法彻底消除CoT推理过程中的不良知识,要么会因干扰推理过程而降低模型的推理性能。
核心思路:论文的核心思路是将反学习视为对LRM中CoT推理过程的有针对性干预。通过引导模型生成反事实推理轨迹,并利用偏好优化技术,使模型逐渐适应新的推理模式,从而达到移除特定知识的目的,同时避免对原始推理能力的过度损害。
技术框架:CiPO框架包含以下主要步骤:1) 确定反学习目标答案;2) 指示LRM生成针对该目标的逻辑上有效的反事实推理轨迹;3) 利用生成的反事实轨迹进行偏好调整,使模型倾向于生成新的推理路径;4) 迭代更新偏好学习数据,增加与原始模型的差异,确保反学习的有效性。
关键创新:CiPO的关键创新在于将反学习问题转化为一个偏好优化问题,通过迭代地调整模型的偏好,使其逐渐远离包含目标知识的推理路径,并倾向于生成反事实推理。这种方法避免了直接修改模型参数,从而降低了对原始推理能力的干扰。
关键设计:CiPO的关键设计包括:1) 反事实推理轨迹的生成策略,需要保证逻辑上的合理性;2) 偏好学习数据的迭代更新机制,需要平衡反学习的效率和推理能力的保持;3) 损失函数的设计,需要能够有效地引导模型学习新的推理模式,同时避免过度拟合反事实数据。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CiPO在反学习方面表现出色,能够完全消除中间CoT步骤和最终答案中的知识,同时保持LRM的推理能力。具体性能数据未知,但论文强调CiPO在具有挑战性的基准测试中取得了显著效果,优于现有反学习方法。
🎯 应用场景
CiPO技术可应用于各种需要知识擦除的场景,例如:移除模型中包含的个人隐私信息,防止模型泄露敏感数据;消除模型中存在的偏见或歧视性内容,提高模型的公平性;删除模型中侵犯版权的内容,避免法律风险。该技术还有助于提升模型的安全性和可靠性,使其更适用于实际应用。
📄 摘要(原文)
Machine unlearning has gained increasing attention in recent years, as a promising technique to selectively remove unwanted privacy or copyrighted information from Large Language Models that are trained on a massive scale of human data. However, the emergence of Large Reasoning Models (LRMs), which emphasize long chain-of-thought (CoT) reasoning to address complex questions, presents a dilemma to unlearning: existing methods either struggle to completely eliminate undesired knowledge from the CoT traces or degrade the reasoning performances due to the interference with the reasoning process. To this end, we introduce Counterfactual Unlearning through iterative Preference Optimization (CiPO), a novel framework that redefines unlearning as the targeted intervention of the CoT reasoning in LRMs. More specifically, given a desired unlearning target answer, CiPO instructs LRMs to generate a logically valid counterfactual reasoning trace for preference tuning. As the LRM adjusts to the counterfactual trace, CiPO iteratively updates the preference learning data to increase the discrepancy from the original model. This iterative loop ensures both desirable unlearning and smooth optimization, effectively mitigating the dilemma. Experiments on challenging benchmarks demonstrate that CiPO excels at unlearning, completely removing knowledge from both the intermediate CoT steps and the final answer, while preserving the reasoning abilities of LRMs.