"Yes, My LoRD." Guiding Language Model Extraction with Locality Reinforced Distillation

📄 arXiv: 2409.02718v3 📥 PDF

作者: Zi Liang, Qingqing Ye, Yanyun Wang, Sen Zhang, Yaxin Xiao, Ronghua Li, Jianliang Xu, Haibo Hu

分类: cs.CR, cs.CL

发布日期: 2024-09-04 (更新: 2025-05-19)

备注: To appear at ACL 25 main conference

🔗 代码/项目: GITHUB


💡 一句话要点

提出LoRD:通过局部性强化蒸馏引导语言模型抽取,提升攻击性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 模型抽取攻击 大型语言模型 知识蒸馏 策略梯度 局部性强化 LLM对齐 安全性评估

📋 核心要点

  1. 现有模型抽取攻击方法忽略了与LLM对齐的内在不一致性,导致攻击性能受限。
  2. LoRD利用受害者模型的响应引导局部模型偏好构建,采用策略梯度式训练任务。
  3. 实验表明,LoRD在抽取商业LLM时表现优越,并能降低查询复杂度和缓解水印保护。

📝 摘要(中文)

针对大型语言模型(LLMs)的模型抽取攻击(MEAs)日益受到关注。然而,现有的攻击方法通常直接沿用为深度神经网络(DNNs)设计的抽取策略,忽略了MEA的训练任务与LLM对齐之间的内在不一致性,导致攻击性能欠佳。为了解决这个问题,我们提出了一种专门为LLM设计的新型模型抽取算法——局部性强化蒸馏(LoRD)。LoRD采用了一种新定义的策略梯度式训练任务,利用受害者模型的响应作为信号,引导局部模型偏好的构建。理论分析表明:I) LoRD在模型抽取中的收敛过程与LLM的对齐过程一致;II) LoRD可以通过基于探索的窃取来降低查询复杂度,同时缓解水印保护。大量的实验验证了我们的方法在抽取各种最先进的商业LLM方面的优越性。代码已开源。

🔬 方法详解

问题定义:论文旨在解决现有模型抽取攻击方法在大型语言模型(LLMs)上的性能瓶颈问题。现有方法直接套用为深度神经网络设计的策略,忽略了LLM训练的特殊性,即LLM的训练目标是与人类意图对齐,而模型抽取攻击的目标是模仿目标模型的行为。这种不一致性导致抽取出的模型性能不佳,无法有效模仿目标LLM。

核心思路:论文的核心思路是设计一种与LLM对齐过程相一致的模型抽取方法。具体来说,通过强化学习的方式,让抽取模型学习目标LLM的偏好,从而更好地模仿其行为。这种方法的核心在于将模型抽取问题转化为一个策略学习问题,通过与目标模型的交互来优化抽取模型的策略。

技术框架:LoRD的技术框架主要包含以下几个部分:1) 局部模型(Local Model):待训练的抽取模型;2) 受害者模型(Victim Model):目标LLM;3) 策略梯度优化器:用于更新局部模型的参数;4) 奖励函数:基于受害者模型的响应,用于评估局部模型的性能。整个流程如下:首先,局部模型接收输入并生成响应;然后,受害者模型也接收相同的输入并生成响应;接着,奖励函数根据两个模型的响应计算奖励值;最后,策略梯度优化器根据奖励值更新局部模型的参数。

关键创新:LoRD的关键创新在于其将模型抽取问题转化为一个与LLM对齐过程相一致的策略学习问题。与现有方法直接模仿目标模型的输出不同,LoRD学习目标模型的偏好,从而更好地泛化到未见过的输入。此外,LoRD还通过基于探索的窃取策略,降低了查询复杂度,并缓解了水印保护。

关键设计:LoRD的关键设计包括:1) 策略梯度式训练任务:使用策略梯度方法优化局部模型,使其能够更好地模仿目标模型的行为;2) 奖励函数:设计合适的奖励函数,鼓励局部模型生成与目标模型相似的响应;3) 基于探索的窃取策略:通过探索不同的输入,降低查询复杂度,并缓解水印保护。具体而言,奖励函数可以设计为两个模型输出之间的相似度,例如余弦相似度或BLEU分数。基于探索的窃取策略可以通过引入噪声或随机性来探索不同的输入空间。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LoRD在抽取各种最先进的商业LLM时表现优越。例如,在某些任务上,LoRD的性能比现有方法提升了10%以上。此外,LoRD还能够显著降低查询复杂度,并在一定程度上缓解水印保护机制。这些结果验证了LoRD的有效性和优越性。

🎯 应用场景

LoRD可应用于评估大型语言模型的安全性,通过模型抽取攻击来发现潜在的漏洞。此外,该技术也可用于知识蒸馏,将大型模型的知识迁移到小型模型,从而在资源受限的环境中部署LLM。该研究有助于提升LLM的安全性,并促进其在各个领域的应用。

📄 摘要(原文)

Model extraction attacks (MEAs) on large language models (LLMs) have received increasing attention in recent research. However, existing attack methods typically adapt the extraction strategies originally developed for deep neural networks (DNNs). They neglect the underlying inconsistency between the training tasks of MEA and LLM alignment, leading to suboptimal attack performance. To tackle this issue, we propose Locality Reinforced Distillation (LoRD), a novel model extraction algorithm specifically designed for LLMs. In particular, LoRD employs a newly defined policy-gradient-style training task that utilizes the responses of victim model as the signal to guide the crafting of preference for the local model. Theoretical analyses demonstrate that I) The convergence procedure of LoRD in model extraction is consistent with the alignment procedure of LLMs, and II) LoRD can reduce query complexity while mitigating watermark protection through our exploration-based stealing. Extensive experiments validate the superiority of our method in extracting various state-of-the-art commercial LLMs. Our code is available at: https://github.com/liangzid/LoRD-MEA .