AttnDiff: Attention-based Differential Fingerprinting for Large Language Models
作者: Haobo Zhang, Zhenhua Xu, Junxian Li, Shangfeng Sheng, Dezhang Kong, Meng Han
分类: cs.CR, cs.LG
发布日期: 2026-04-07
备注: Accepted at ACL2026 Main
💡 一句话要点
AttnDiff:基于注意力的差分指纹技术,用于识别大型语言模型的衍生关系
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 知识产权保护 模型溯源 注意力机制 差分指纹
📋 核心要点
- 现有方法难以有效验证大型语言模型的衍生关系,尤其是在模型经过微调、剪枝等处理后。
- AttnDiff通过精心设计的提示对,诱导模型产生语义冲突,并分析由此产生的注意力模式差异,提取模型指纹。
- 实验表明,AttnDiff能够有效区分相关的衍生模型和不相关的模型,为溯源验证提供有力支持。
📝 摘要(中文)
为了保护开源大型语言模型(LLM)的知识产权,需要验证一个可疑模型是否源自一个受害者模型,即使经过了常见的规避操作,如微调(包括PPO/DPO)、剪枝/压缩和模型合并。我们提出了 extsc{AttnDiff},一个数据高效的白盒框架,通过内在的信息路由行为从模型中提取指纹。 extsc{AttnDiff}探测最小程度编辑的提示对,这些提示对会引发受控的语义冲突,捕获差分注意力模式,用紧凑的谱描述符总结它们,并使用CKA比较模型。在Llama-2/3和Qwen2.5(3B--14B)以及其他开源模型系列上,它对相关的衍生模型产生高相似度,同时分离不相关的模型系列(例如,使用M=60个探针时,>0.98 vs. <0.22)。通过5-60个多领域探针,它支持实际的溯源验证和问责。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)的知识产权保护问题,具体而言,是验证一个可疑模型是否由某个已知模型衍生而来。现有的水印方法容易被各种模型“清洗”技术绕过,例如微调、剪枝、量化等,因此需要一种更鲁棒的指纹识别方法。
核心思路:论文的核心思想是利用LLM在处理具有细微语义差异的输入时,其内部注意力机制会产生可区分的模式。通过精心设计的提示对,诱导模型产生语义冲突,然后提取并比较这些冲突下的注意力模式,以此作为模型的指纹。这种方法依赖于模型内在的信息路由行为,因此更难被规避。
技术框架:AttnDiff框架包含以下几个主要阶段:1) 提示生成:生成最小程度编辑的提示对,这些提示对旨在诱导模型产生受控的语义冲突。2) 注意力模式捕获:利用这些提示对输入模型,并记录模型的注意力权重,特别是不同层之间的注意力差异。3) 谱描述符提取:使用谱分析方法(例如主成分分析)将高维的注意力模式压缩成紧凑的谱描述符,降低计算复杂度。4) 模型比较:使用中心核对齐(CKA)等相似性度量方法,比较不同模型的谱描述符,从而判断它们之间的衍生关系。
关键创新:AttnDiff的关键创新在于其利用差分注意力模式作为模型指纹。与直接比较模型参数或输出相比,注意力模式更能反映模型的内在信息处理方式,因此对各种模型变换操作更具鲁棒性。此外,使用谱描述符进行压缩,提高了指纹的效率和可比性。
关键设计:提示对的设计是关键。论文可能采用对抗性生成方法,或者人工设计一些具有细微语义差异的提示。注意力模式的提取可能集中在特定层或特定头的注意力权重上。谱描述符的维度需要根据实验进行调整,以平衡指纹的区分度和计算效率。CKA的计算也需要考虑不同层之间的权重。
🖼️ 关键图片
📊 实验亮点
实验结果表明,AttnDiff在Llama-2/3和Qwen2.5(3B--14B)等多个开源模型系列上表现出色。使用60个探针时,AttnDiff能够以高于0.98的相似度识别相关的衍生模型,同时以低于0.22的相似度区分不相关的模型系列。即使使用较少的探针(5-60个),也能实现有效的溯源验证。
🎯 应用场景
AttnDiff可应用于大型语言模型的知识产权保护、模型溯源和安全审计。它可以帮助开发者验证其模型是否被非法复制或篡改,也可以用于识别恶意模型,例如用于生成虚假信息的模型。此外,该技术还可以促进模型共享和协作,同时确保模型的来源可追溯。
📄 摘要(原文)
Protecting the intellectual property of open-weight large language models (LLMs) requires verifying whether a suspect model is derived from a victim model despite common laundering operations such as fine-tuning (including PPO/DPO), pruning/compression, and model merging. We propose \textsc{AttnDiff}, a data-efficient white-box framework that extracts fingerprints from models via intrinsic information-routing behavior. \textsc{AttnDiff} probes minimally edited prompt pairs that induce controlled semantic conflicts, captures differential attention patterns, summarizes them with compact spectral descriptors, and compares models using CKA. Across Llama-2/3 and Qwen2.5 (3B--14B) and additional open-source families, it yields high similarity for related derivatives while separating unrelated model families (e.g., $>0.98$ vs.\ $<0.22$ with $M=60$ probes). With 5--60 multi-domain probes, it supports practical provenance verification and accountability.