Towards Unveiling Vulnerabilities of Large Reasoning Models in Machine Unlearning

📄 arXiv: 2604.04255 📥 PDF

作者: Aobo Chen, Chenxu Zhao, Chenglin Miao, Mengdi Huai

分类: cs.LG, cs.CR

发布日期: 2026-04-07


💡 一句话要点

针对大型推理模型提出新型不可学习攻击,揭示其安全漏洞

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型推理模型 机器不可学习 安全漏洞 对抗攻击 双层优化 token对齐 隐私保护

📋 核心要点

  1. 现有大型推理模型的不可学习方法缺乏安全性分析,易受攻击,可能导致模型输出错误结论和误导性推理过程。
  2. 提出一种双层精确不可学习攻击,通过可微目标函数、关键token对齐和宽松指示器策略,有效引导模型产生错误答案。
  3. 在白盒和黑盒场景下进行实验,验证了攻击的有效性和泛化能力,揭示了大型推理模型不可学习管道的潜在威胁。

📝 摘要(中文)

大型语言模型(LLMs)具有强大的语义理解能力,推动了数据挖掘应用的显著进步。大型推理模型(LRMs)通过提供显式的多步推理过程进一步增强了这种能力。另一方面,日益增长的被遗忘权需求推动了机器不可学习技术的发展,该技术旨在消除特定数据对已训练模型的影响,而无需完全重新训练。然而,不可学习也可能通过暴露额外的交互界面引入新的安全漏洞。尽管许多研究已经调查了不可学习攻击,但之前没有关于LRM的研究。为了填补这一空白,本文首次提出了LRM不可学习攻击,该攻击强制产生不正确的最终答案,同时生成令人信服但具有误导性的推理过程。由于不可微的逻辑约束、对长推理链的弱优化效果以及离散的遗忘集选择,这一目标具有挑战性。为了克服这些挑战,我们引入了一种双层精确不可学习攻击,该攻击结合了可微的目标函数、有影响力的token对齐和宽松的指示器策略。为了证明我们攻击的有效性和泛化性,我们还设计了新的优化框架,并在白盒和黑盒设置中进行了全面的实验,旨在提高人们对LRM不可学习管道中新兴威胁的认识。

🔬 方法详解

问题定义:本文旨在研究大型推理模型(LRMs)在机器不可学习场景下的安全漏洞。现有的机器不可学习技术主要集中在传统的机器学习模型或大型语言模型上,而忽略了LRMs,特别是其多步推理过程可能带来的新的攻击面。现有的不可学习方法难以直接应用于LRMs,因为LRMs的推理过程包含不可微的逻辑约束,且对长推理链的优化效果较弱,同时遗忘集的选择是离散的,增加了攻击的难度。

核心思路:本文的核心思路是设计一种能够强制LRM输出错误答案,同时生成看似合理但具有误导性的推理过程的攻击方法。这种攻击通过操纵模型的推理过程,使其在中间步骤产生偏差,最终导致错误的结论。攻击的关键在于找到一种有效的方式来优化目标函数,克服不可微性和长推理链的挑战。

技术框架:本文提出了一种双层精确不可学习攻击框架。该框架包含两个主要层次:上层优化目标是使模型输出错误的最终答案,下层优化目标是生成令人信服的推理过程。框架的关键模块包括:1) 可微目标函数,用于衡量模型输出与目标错误答案之间的差距;2) 有影响力的token对齐,用于识别并操纵对推理过程影响最大的token;3) 宽松的指示器策略,用于处理离散的遗忘集选择问题。

关键创新:本文最重要的技术创新点在于提出了一种双层优化框架,能够有效地攻击LRMs的不可学习管道。与传统的不可学习攻击方法相比,该方法能够更好地处理LRMs的复杂推理过程和不可微性问题。此外,本文还提出了有影响力的token对齐和宽松的指示器策略,进一步提高了攻击的效率和成功率。

关键设计:在目标函数设计方面,本文采用了可微的交叉熵损失函数,用于衡量模型输出与目标错误答案之间的差距。在token对齐方面,本文使用梯度信息来识别对推理过程影响最大的token。在宽松的指示器策略方面,本文引入了一个连续的松弛变量来近似离散的遗忘集选择过程,从而使得优化过程更加平滑和高效。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,本文提出的攻击方法在白盒和黑盒场景下均能有效地攻击LRMs的不可学习管道。在多个数据集上,该方法能够显著降低模型的准确率,同时生成具有误导性的推理过程。例如,在某个数据集上,攻击成功率达到了80%以上,表明该方法具有很强的攻击能力。

🎯 应用场景

该研究成果可应用于评估和提升大型推理模型在机器不可学习场景下的安全性。通过揭示LRM的潜在漏洞,可以帮助开发者设计更鲁棒的不可学习算法,保护用户数据隐私,防止恶意攻击者利用不可学习技术篡改模型行为。该研究对于构建安全可信赖的人工智能系统具有重要意义。

📄 摘要(原文)

Large language models (LLMs) possess strong semantic understanding, driving significant progress in data mining applications. This is further enhanced by large reasoning models (LRMs), which provide explicit multi-step reasoning traces. On the other hand, the growing need for the right to be forgotten has driven the development of machine unlearning techniques, which aim to eliminate the influence of specific data from trained models without full retraining. However, unlearning may also introduce new security vulnerabilities by exposing additional interaction surfaces. Although many studies have investigated unlearning attacks, there is no prior work on LRMs. To bridge the gap, we first in this paper propose LRM unlearning attack that forces incorrect final answers while generating convincing but misleading reasoning traces. This objective is challenging due to non-differentiable logical constraints, weak optimization effect over long rationales, and discrete forget set selection. To overcome these challenges, we introduce a bi-level exact unlearning attack that incorporates a differentiable objective function, influential token alignment, and a relaxed indicator strategy. To demonstrate the effectiveness and generalizability of our attack, we also design novel optimization frameworks and conduct comprehensive experiments in both white-box and black-box settings, aiming to raise awareness of the emerging threats to LRM unlearning pipelines.