AttnDiff: Attention-based Differential Fingerprinting for Large Language Models

作者: Haobo Zhang, Zhenhua Xu, Junxian Li, Shangfeng Sheng, Dezhang Kong, Meng Han

分类: cs.CR, cs.LG

发布日期: 2026-04-07

备注: Accepted at ACL2026 Main

💡 一句话要点

AttnDiff：基于注意力的差分指纹技术，用于识别大型语言模型的衍生关系

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 知识产权保护 模型溯源 注意力机制 差分指纹

📋 核心要点

现有方法难以有效验证大型语言模型的衍生关系，尤其是在模型经过微调、剪枝等处理后。
AttnDiff通过精心设计的提示对，诱导模型产生语义冲突，并分析由此产生的注意力模式差异，提取模型指纹。
实验表明，AttnDiff能够有效区分相关的衍生模型和不相关的模型，为溯源验证提供有力支持。

📝 摘要（中文）

为了保护开源大型语言模型（LLM）的知识产权，需要验证一个可疑模型是否源自一个受害者模型，即使经过了常见的规避操作，如微调（包括PPO/DPO）、剪枝/压缩和模型合并。我们提出了 extsc{AttnDiff}，一个数据高效的白盒框架，通过内在的信息路由行为从模型中提取指纹。 extsc{AttnDiff}探测最小程度编辑的提示对，这些提示对会引发受控的语义冲突，捕获差分注意力模式，用紧凑的谱描述符总结它们，并使用CKA比较模型。在Llama-2/3和Qwen2.5（3B--14B）以及其他开源模型系列上，它对相关的衍生模型产生高相似度，同时分离不相关的模型系列（例如，使用M=60个探针时，>0.98 vs. <0.22）。通过5-60个多领域探针，它支持实际的溯源验证和问责。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）的知识产权保护问题，具体而言，是验证一个可疑模型是否由某个已知模型衍生而来。现有的水印方法容易被各种模型“清洗”技术绕过，例如微调、剪枝、量化等，因此需要一种更鲁棒的指纹识别方法。

核心思路：论文的核心思想是利用LLM在处理具有细微语义差异的输入时，其内部注意力机制会产生可区分的模式。通过精心设计的提示对，诱导模型产生语义冲突，然后提取并比较这些冲突下的注意力模式，以此作为模型的指纹。这种方法依赖于模型内在的信息路由行为，因此更难被规避。

技术框架：AttnDiff框架包含以下几个主要阶段：1) 提示生成：生成最小程度编辑的提示对，这些提示对旨在诱导模型产生受控的语义冲突。2) 注意力模式捕获：利用这些提示对输入模型，并记录模型的注意力权重，特别是不同层之间的注意力差异。3) 谱描述符提取：使用谱分析方法（例如主成分分析）将高维的注意力模式压缩成紧凑的谱描述符，降低计算复杂度。4) 模型比较：使用中心核对齐（CKA）等相似性度量方法，比较不同模型的谱描述符，从而判断它们之间的衍生关系。

关键创新：AttnDiff的关键创新在于其利用差分注意力模式作为模型指纹。与直接比较模型参数或输出相比，注意力模式更能反映模型的内在信息处理方式，因此对各种模型变换操作更具鲁棒性。此外，使用谱描述符进行压缩，提高了指纹的效率和可比性。

关键设计：提示对的设计是关键。论文可能采用对抗性生成方法，或者人工设计一些具有细微语义差异的提示。注意力模式的提取可能集中在特定层或特定头的注意力权重上。谱描述符的维度需要根据实验进行调整，以平衡指纹的区分度和计算效率。CKA的计算也需要考虑不同层之间的权重。

🖼️ 关键图片

📊 实验亮点

实验结果表明，AttnDiff在Llama-2/3和Qwen2.5（3B--14B）等多个开源模型系列上表现出色。使用60个探针时，AttnDiff能够以高于0.98的相似度识别相关的衍生模型，同时以低于0.22的相似度区分不相关的模型系列。即使使用较少的探针（5-60个），也能实现有效的溯源验证。

🎯 应用场景

AttnDiff可应用于大型语言模型的知识产权保护、模型溯源和安全审计。它可以帮助开发者验证其模型是否被非法复制或篡改，也可以用于识别恶意模型，例如用于生成虚假信息的模型。此外，该技术还可以促进模型共享和协作，同时确保模型的来源可追溯。

📄 摘要（原文）

Protecting the intellectual property of open-weight large language models (LLMs) requires verifying whether a suspect model is derived from a victim model despite common laundering operations such as fine-tuning (including PPO/DPO), pruning/compression, and model merging. We propose \textsc{AttnDiff}, a data-efficient white-box framework that extracts fingerprints from models via intrinsic information-routing behavior. \textsc{AttnDiff} probes minimally edited prompt pairs that induce controlled semantic conflicts, captures differential attention patterns, summarizes them with compact spectral descriptors, and compares models using CKA. Across Llama-2/3 and Qwen2.5 (3B--14B) and additional open-source families, it yields high similarity for related derivatives while separating unrelated model families (e.g., $>0.98$ vs.\ $<0.22$ with $M=60$ probes). With 5--60 multi-domain probes, it supports practical provenance verification and accountability.

AttnDiff: Attention-based Differential Fingerprinting for Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理