Fingerprint Vector: Enabling Scalable and Efficient Model Fingerprint Transfer via Vector Addition
作者: Zhenhua Xu, Qichen Liu, Zhebo Wang, Wenpeng Xing, Dezhang Kong, Mohan Li, Meng Han
分类: cs.CR, cs.CL, cs.LG
发布日期: 2024-09-13 (更新: 2025-08-26)
💡 一句话要点
提出指纹向量方法,通过向量加法实现大规模模型指纹的高效迁移。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 模型指纹 后门攻击 模型所有权 指纹迁移 向量加法
📋 核心要点
- 现有模型指纹方法计算开销大,且继承式方法存在后期指纹识别、指纹不稳定等问题。
- 提出指纹向量方法,通过后门微调嵌入指纹,提取参数增量作为指纹向量,实现指纹迁移。
- 实验表明,该方法在模型架构和下游变体中保持有效性,并在大多数情况下保持无害性和鲁棒性。
📝 摘要(中文)
基于后门的指纹识别技术已成为追踪大型语言模型所有权的有效方法。然而,在实际部署中,开发者通常从共享的基础模型实例化多个下游模型,对每个变体单独应用指纹识别会产生巨大的计算开销。虽然基于继承的方法(将指纹嵌入到基础模型中并期望其在微调中保持)很有吸引力,但它们存在三个关键限制:后期指纹识别、指纹不稳定以及对下游适应的干扰。为了解决这些挑战,我们提出了一种名为指纹向量的新机制。我们的方法首先通过基于后门的微调将指纹嵌入到基础模型中,然后通过计算带指纹模型和干净模型之间的差异来提取特定于任务的参数增量作为指纹向量。该向量可以直接添加到任何结构兼容的下游模型,从而允许在不需要额外微调的情况下进行指纹的后验迁移。大量实验表明,指纹向量在关键指标上实现了与直接注入相当或更优越的性能。它在不同的模型架构以及同一系列中的主流下游变体中保持了强大的有效性。它还在大多数情况下保持了无害性和鲁棒性。即使观察到轻微的鲁棒性下降,其影响也保持在可接受的范围内,并且被我们方法的可扩展性优势所抵消。
🔬 方法详解
问题定义:论文旨在解决大型语言模型指纹迁移的问题。现有方法,如直接在每个下游模型上进行指纹嵌入,计算成本高昂。而基于继承的方法,即在基础模型上嵌入指纹并期望其在下游模型中保留,存在指纹不稳定、易受攻击以及影响下游任务性能等问题。因此,需要一种高效且稳定的指纹迁移方法,能够在不重新训练下游模型的情况下,将指纹信息传递到多个下游模型中。
核心思路:论文的核心思路是将指纹信息编码为一个与任务相关的参数增量向量,称为“指纹向量”。该向量通过计算带指纹的基础模型和干净的基础模型之间的参数差异得到。由于该向量包含了任务相关的指纹信息,因此可以直接添加到任何结构兼容的下游模型中,而无需重新训练或微调。这种方法避免了在每个下游模型上单独嵌入指纹的计算开销,并提高了指纹的稳定性和鲁棒性。
技术框架:该方法主要包含两个阶段:1) 指纹嵌入阶段:首先,选择一个基础模型,并使用基于后门的微调方法将指纹嵌入到该模型中。具体来说,通过在训练数据中引入特定的触发模式,使得模型在遇到这些模式时产生特定的输出,从而将指纹信息编码到模型参数中。2) 指纹向量提取与迁移阶段:计算带指纹的基础模型和干净的基础模型之间的参数差异,得到指纹向量。然后,将该向量直接添加到任何结构兼容的下游模型中,从而实现指纹的迁移。
关键创新:该方法最重要的创新点在于提出了“指纹向量”的概念,并将指纹信息编码为一个与任务相关的参数增量向量。与传统的指纹嵌入方法相比,该方法无需在每个下游模型上单独进行指纹嵌入,从而大大降低了计算成本。此外,由于指纹向量是基于参数差异计算得到的,因此具有更好的稳定性和鲁棒性,能够抵抗一些常见的攻击手段。
关键设计:在指纹嵌入阶段,采用了基于后门的微调方法。具体来说,选择一组特定的触发模式,并在训练数据中引入这些模式。同时,设计一个损失函数,使得模型在遇到这些模式时产生特定的输出。在指纹向量提取阶段,直接计算带指纹的基础模型和干净的基础模型之间的参数差异。为了保证指纹向量的有效性,需要选择合适的触发模式和损失函数,并进行充分的实验验证。
🖼️ 关键图片
📊 实验亮点
实验结果表明,指纹向量方法在多种模型架构和下游任务中均能有效迁移指纹,且性能与直接注入方法相当甚至更优。在保持指纹有效性的同时,该方法在大多数情况下也保持了模型的无害性和鲁棒性。即使存在轻微的鲁棒性下降,其影响也在可接受范围内,且可扩展性优势明显。
🎯 应用场景
该研究成果可应用于大型语言模型的所有权溯源、版权保护和安全监管等领域。通过将指纹向量嵌入到模型中,可以追踪模型的来源和传播路径,防止模型被滥用或盗用。此外,该方法还可以用于评估模型的安全性,检测模型是否存在后门或恶意攻击。
📄 摘要(原文)
Backdoor-based fingerprinting has emerged as an effective technique for tracing the ownership of large language models. However, in real-world deployment scenarios, developers often instantiate multiple downstream models from a shared base model, and applying fingerprinting to each variant individually incurs prohibitive computational overhead. While inheritance-based approaches -- where fingerprints are embedded into the base model and expected to persist through fine-tuning -- appear attractive, they suffer from three key limitations: late-stage fingerprinting, fingerprint instability, and interference with downstream adaptation. To address these challenges, we propose a novel mechanism called the Fingerprint Vector. Our method first embeds a fingerprint into the base model via backdoor-based fine-tuning, then extracts a task-specific parameter delta as a fingerprint vector by computing the difference between the fingerprinted and clean models. This vector can be directly added to any structurally compatible downstream model, allowing the fingerprint to be transferred post hoc without additional fine-tuning. Extensive experiments show that Fingerprint Vector achieves comparable or superior performance to direct injection across key desiderata. It maintains strong effectiveness across diverse model architectures as well as mainstream downstream variants within the same family. It also preserves harmlessness and robustness in most cases. Even when slight robustness degradation is observed, the impact remains within acceptable bounds and is outweighed by the scalability benefits of our approach.