R-TOFU: Unlearning in Large Reasoning Models

📄 arXiv: 2505.15214v2 📥 PDF

作者: Sangyeon Yoon, Wonje Jeung, Albert No

分类: cs.CL

发布日期: 2025-05-21 (更新: 2025-05-27)

备注: 19 pages


💡 一句话要点

提出R-TOFU基准,用于评估大型推理模型中知识遗忘的有效性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识遗忘 大型推理模型 思维链 偏好优化 基准测试

📋 核心要点

  1. 大型推理模型在思维链中嵌入敏感信息,现有遗忘方法难以彻底清除。
  2. 提出R-TOFU基准,包含CoT标注和分步指标,更全面评估遗忘效果。
  3. Reasoned IDK方法在遗忘和模型效用间取得平衡,并发现解码策略影响遗忘效果。

📝 摘要(中文)

大型推理模型(LRMs)不仅在最终答案中,而且在多步思维链(CoT)追踪中嵌入了私有或受版权保护的信息,这使得可靠的知识遗忘比标准LLM更具挑战性。我们引入了Reasoning-TOFU (R-TOFU),这是第一个专门为该场景定制的基准。R-TOFU使用真实的CoT注释增强了现有的知识遗忘任务,并提供了逐步指标,这些指标揭示了答案级别检查无法发现的残留知识。使用R-TOFU,我们对基于梯度的和偏好优化的基线进行了全面比较,并表明传统的仅答案目标在推理中留下了大量的遗忘痕迹。我们进一步提出了Reasoned IDK,这是一种偏好优化变体,它保留了连贯但无结论的推理,与早期的拒绝风格相比,在遗忘效果和模型效用之间实现了更强的平衡。最后,我们发现了一种失效模式:诸如ZeroThink和LessThink之类的解码变体即使在看似成功的知识遗忘之后,仍然可以揭示被遗忘的内容,这强调了需要在各种解码设置下评估模型。总之,该基准、分析和新的基线为研究和改进LRM中的知识遗忘,同时保留其推理能力,奠定了系统的基础。

🔬 方法详解

问题定义:论文旨在解决大型推理模型(LRMs)中知识遗忘不彻底的问题。现有方法主要关注最终答案的遗忘,忽略了思维链(Chain-of-Thought, CoT)中嵌入的敏感信息,导致残留知识泄露。此外,缺乏针对LRM遗忘的专门评估基准。

核心思路:论文的核心思路是构建一个更全面的评估基准R-TOFU,该基准不仅关注最终答案,还关注CoT推理过程中的遗忘情况。同时,提出一种新的偏好优化方法Reasoned IDK,旨在更好地平衡遗忘效果和模型效用,避免过度遗忘导致模型推理能力下降。

技术框架:R-TOFU基准包含增强了CoT注释的现有遗忘任务,并提供逐步指标来评估推理过程中的遗忘情况。论文还比较了基于梯度的和偏好优化的基线方法,并提出了Reasoned IDK方法。Reasoned IDK是一种偏好优化变体,旨在保留连贯但无结论的推理。

关键创新:R-TOFU基准是第一个专门为LRM知识遗忘设计的基准,它通过CoT标注和分步指标,更全面地评估了遗忘效果。Reasoned IDK方法通过偏好优化,在遗忘效果和模型效用之间取得了更好的平衡。此外,论文还发现了解码策略对遗忘效果的影响,强调了在不同解码设置下评估模型的重要性。

关键设计:R-TOFU基准的关键设计在于CoT标注和分步指标,CoT标注提供了推理过程的详细信息,分步指标可以评估每个推理步骤的遗忘情况。Reasoned IDK方法的关键设计在于偏好优化目标,该目标旨在保留连贯但无结论的推理,避免过度遗忘。论文还研究了ZeroThink和LessThink等解码策略对遗忘效果的影响,并提出了相应的评估方法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,传统的仅答案目标在推理中留下了大量的遗忘痕迹。Reasoned IDK方法在遗忘效果和模型效用之间取得了更好的平衡。此外,论文还发现ZeroThink和LessThink等解码策略可以揭示被遗忘的内容,强调了在不同解码设置下评估模型的重要性。

🎯 应用场景

该研究成果可应用于保护大型语言模型中的隐私信息和版权内容。通过更有效的知识遗忘方法,可以防止模型泄露敏感数据,降低法律风险。此外,该研究还有助于提高模型的安全性和可靠性,使其在金融、医疗等敏感领域的应用更加安全可信。

📄 摘要(原文)

Large Reasoning Models (LRMs) embed private or copyrighted information not only in their final answers but also throughout multi-step chain-of-thought (CoT) traces, making reliable unlearning far more demanding than in standard LLMs. We introduce Reasoning-TOFU (R-TOFU), the first benchmark tailored to this setting. R-TOFU augments existing unlearning tasks with realistic CoT annotations and provides step-wise metrics that expose residual knowledge invisible to answer-level checks. Using R-TOFU, we carry out a comprehensive comparison of gradient-based and preference-optimization baselines and show that conventional answer-only objectives leave substantial forget traces in reasoning. We further propose Reasoned IDK, a preference-optimization variant that preserves coherent yet inconclusive reasoning, achieving a stronger balance between forgetting efficacy and model utility than earlier refusal styles. Finally, we identify a failure mode: decoding variants such as ZeroThink and LessThink can still reveal forgotten content despite seemingly successful unlearning, emphasizing the need to evaluate models under diverse decoding settings. Together, the benchmark, analysis, and new baseline establish a systematic foundation for studying and improving unlearning in LRMs while preserving their reasoning capabilities.