Soft Token Attacks Cannot Reliably Audit Unlearning in Large Language Models

📄 arXiv: 2502.15836v2 📥 PDF

作者: Haokun Chen, Sebastian Szyller, Weilin Xu, Nageen Himayat

分类: cs.CL, cs.AI

发布日期: 2025-02-20 (更新: 2025-09-08)

备注: EMNLP 2025 Findings

🔗 代码/项目: GITHUB


💡 一句话要点

软Token攻击无法可靠地审计大型语言模型中的非学习效果

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 非学习 软Token攻击 审计 安全性

📋 核心要点

  1. 大型语言模型包含不良信息,需要非学习方法来移除,但现有审计非学习的方法存在不足。
  2. 论文核心思想是揭示软Token攻击(STA)在审计非学习中的局限性,表明其可靠性不足。
  3. 实验证明,在强审计环境下,STA可以引出任意信息,即使内容不在训练集中,也可能生成随机字符串。

📝 摘要(中文)

大型语言模型(LLM)使用海量数据集进行训练,这些数据集通常包含有害文本、个人信息和受版权保护的材料等不良内容。为了解决这个问题,机器非学习旨在从训练模型中删除信息。最近的研究表明,软token攻击(STA)可以成功地从LLM中提取未学习的信息,但在这项工作中,我们表明STA可能不足以审计非学习。使用常见的基准,如“谁是哈利波特?”和TOFU,我们证明在强大的审计环境中,这种攻击可以从LLM中引出任何信息,而不管部署的非学习算法或查询的内容最初是否存在于训练语料库中。我们进一步表明,仅使用少量软token(1-10)的STA可以引出超过400个字符的随机字符串,这表明必须谨慎使用STA才能有效地审计非学习。示例代码可以在https://github.com/IntelLabs/LLMart/tree/main/examples/unlearning找到。

🔬 方法详解

问题定义:论文关注大型语言模型(LLM)的非学习审计问题。现有的软Token攻击(STA)被认为可以有效提取模型中已删除的信息,从而用于审计非学习算法的效果。然而,这种方法是否真的可靠,以及在何种情况下会失效,是本文要探讨的核心问题。现有的痛点在于,人们对STA的有效性和局限性缺乏深入了解,可能导致对非学习算法的误判。

核心思路:论文的核心思路是通过实验证明,在特定的审计设置下,STA可以从LLM中提取出任意信息,无论这些信息是否被非学习算法处理过,甚至无论这些信息是否原本就存在于训练数据集中。这意味着STA可能无法准确反映非学习算法的真实效果,从而导致审计结果的偏差。论文通过分析STA的内在机制,解释了其为何容易受到攻击,并提出了STA在审计非学习时需要谨慎使用的观点。

技术框架:论文主要采用实验验证的方法。首先,选择了常见的基准数据集(如“谁是哈利波特?”和TOFU)和LLM。然后,设计了不同的审计场景,包括强审计环境和弱审计环境。接着,使用STA攻击LLM,观察其输出结果,并分析STA提取信息的准确性和可靠性。最后,通过控制STA的参数(如软token的数量),研究其对攻击效果的影响。实验结果表明,在强审计环境下,STA可以引出任意信息,即使这些信息与非学习算法无关。

关键创新:论文的关键创新在于揭示了软Token攻击(STA)在审计大型语言模型(LLM)非学习效果时的局限性。以往的研究认为STA是一种有效的审计工具,但本文通过实验证明,在特定的审计设置下,STA可能无法准确反映非学习算法的真实效果,甚至可以引出与非学习无关的任意信息。这一发现对非学习算法的评估和审计具有重要的指导意义。

关键设计:论文的关键设计包括:1) 选择了具有代表性的基准数据集和LLM,以保证实验结果的通用性;2) 设计了不同的审计场景,以模拟实际应用中的各种情况;3) 通过控制STA的参数(如软token的数量),研究其对攻击效果的影响;4) 详细分析了STA的内在机制,解释了其为何容易受到攻击。特别值得一提的是,论文发现仅使用少量软token(1-10)的STA就可以引出超过400个字符的随机字符串,这表明STA的攻击能力非常强大,需要谨慎使用。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在强审计环境中,软Token攻击(STA)可以从大型语言模型中引出任意信息,无论这些信息是否被非学习算法处理过,甚至无论这些信息是否原本就存在于训练数据集中。仅使用1-10个软token的STA就可以引出超过400个字符的随机字符串,表明STA的攻击能力很强,审计非学习时需谨慎。

🎯 应用场景

该研究成果对大型语言模型的安全性和可靠性评估具有重要意义。它可以帮助研究人员和开发者更准确地评估非学习算法的效果,避免因审计工具的局限性而产生误判。此外,该研究还可以促进更安全、更可靠的LLM的开发和部署,降低LLM被恶意利用的风险。

📄 摘要(原文)

Large language models (LLMs) are trained using massive datasets, which often contain undesirable content such as harmful texts, personal information, and copyrighted material. To address this, machine unlearning aims to remove information from trained models. Recent work has shown that soft token attacks (STA) can successfully extract unlearned information from LLMs, but in this work we show that STAs can be an inadequate tool for auditing unlearning. Using common benchmarks such as Who Is Harry Potter? and TOFU, we demonstrate that in a strong auditor setting such attacks can elicit any information from the LLM, regardless of the deployed unlearning algorithm or whether the queried content was originally present in the training corpus. We further show that STA with just a few soft tokens (1-10) can elicit random strings over 400 characters long, indicating that STAs must be used carefully to effectively audit unlearning. Example code can be found at: https://github.com/IntelLabs/LLMart/tree/main/examples/unlearning