Fingerprinting LLMs via Prompt Injection
作者: Yuepeng Hu, Zhengyuan Jiang, Mengyuan Li, Osama Ahmed, Zhicong Huang, Cheng Hong, Neil Gong
分类: cs.CR, cs.CL
发布日期: 2025-09-29 (更新: 2025-10-01)
💡 一句话要点
LLMPrint:利用Prompt注入为LLM构建鲁棒指纹,实现模型溯源
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 模型溯源 Prompt注入 指纹识别 模型安全
📋 核心要点
- 现有LLM溯源方法依赖于预先嵌入信号或使用脆弱的prompt,无法有效应对模型发布后的修改和后处理。
- LLMPrint利用prompt注入漏洞,通过优化prompt强制模型产生特定token偏好,构建对后处理鲁棒的独特指纹。
- 实验表明,LLMPrint在多种模型变体上实现了高真阳性率和低假阳性率,验证了其有效性和鲁棒性。
📝 摘要(中文)
大型语言模型(LLM)在发布后经常通过后训练或量化等方式进行修改,这使得确定一个模型是否源自另一个模型变得具有挑战性。现有的溯源检测方法存在两个主要限制:(1)它们在发布前将信号嵌入到基础模型中,这对于已经发布的模型是不可行的;(2)它们使用手工制作或随机提示比较模型之间的输出,这对于后处理不具有鲁棒性。本文提出了LLMPrint,这是一种新颖的检测框架,通过利用LLM固有的Prompt注入漏洞来构建指纹。我们的关键见解是,通过优化指纹提示以强制执行一致的token偏好,我们可以获得对基础模型来说是唯一的且对后处理具有鲁棒性的指纹。我们进一步开发了一种统一的验证程序,该程序适用于灰盒和黑盒设置,并具有统计保证。我们在五个基础模型和大约700个后训练或量化的变体上评估了LLMPrint。结果表明,LLMPrint实现了高真阳性率,同时保持了接近于零的假阳性率。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)溯源问题,即判断一个已发布的LLM是否衍生自另一个LLM。现有方法的痛点在于:一是需要在模型发布前嵌入水印,对已发布模型无效;二是依赖手工或随机prompt,对后训练、量化等后处理操作不鲁棒,导致溯源准确率下降。
核心思路:论文的核心思路是利用LLM对prompt注入的固有脆弱性,通过精心设计的prompt(即指纹)诱导LLM产生特定的token偏好。这种token偏好可以作为LLM的独特指纹,并且由于prompt注入的特性,该指纹对后处理操作具有一定的鲁棒性。
技术框架:LLMPrint框架主要包含两个阶段:指纹生成阶段和指纹验证阶段。在指纹生成阶段,通过优化算法生成能够诱导目标LLM产生特定token偏好的prompt。在指纹验证阶段,使用生成的prompt对目标LLM进行查询,并统计其输出的token分布,然后与原始LLM的token分布进行比较,从而判断目标LLM是否衍生自原始LLM。该框架支持灰盒和黑盒两种场景。
关键创新:LLMPrint的关键创新在于:1) 利用prompt注入漏洞进行LLM指纹识别,无需预先嵌入水印,适用于已发布模型;2) 通过优化prompt来增强指纹的鲁棒性,使其能够抵抗后处理操作的影响;3) 提出了一种统一的验证程序,适用于灰盒和黑盒设置,并提供了统计保证。
关键设计:指纹生成阶段使用梯度下降等优化算法,目标是最大化目标token的概率,同时最小化其他token的概率。损失函数的设计需要平衡token偏好的强度和prompt的自然性。验证阶段使用统计假设检验来判断两个token分布是否显著不同,从而确定目标LLM是否包含原始LLM的指纹。关键参数包括token选择策略、优化算法的学习率、以及假设检验的显著性水平。
🖼️ 关键图片
📊 实验亮点
LLMPrint在五个基础模型和约700个后训练或量化的变体上进行了评估,实验结果表明,LLMPrint能够实现高真阳性率(True Positive Rate),同时保持接近于零的假阳性率(False Positive Rate)。这表明LLMPrint能够有效地识别LLM的指纹,并且具有很高的准确性和鲁棒性。
🎯 应用场景
LLMPrint可应用于检测恶意模型抄袭、验证模型来源、以及进行软件供应链安全分析。通过识别LLM的指纹,可以追踪模型的演变过程,防止未经授权的模型复制和分发,维护LLM生态系统的健康发展。此外,该技术还有助于评估模型后处理操作对模型行为的影响。
📄 摘要(原文)
Large language models (LLMs) are often modified after release through post-processing such as post-training or quantization, which makes it challenging to determine whether one model is derived from another. Existing provenance detection methods have two main limitations: (1) they embed signals into the base model before release, which is infeasible for already published models, or (2) they compare outputs across models using hand-crafted or random prompts, which are not robust to post-processing. In this work, we propose LLMPrint, a novel detection framework that constructs fingerprints by exploiting LLMs' inherent vulnerability to prompt injection. Our key insight is that by optimizing fingerprint prompts to enforce consistent token preferences, we can obtain fingerprints that are both unique to the base model and robust to post-processing. We further develop a unified verification procedure that applies to both gray-box and black-box settings, with statistical guarantees. We evaluate LLMPrint on five base models and around 700 post-trained or quantized variants. Our results show that LLMPrint achieves high true positive rates while keeping false positive rates near zero.