MergePrint: Merge-Resistant Fingerprints for Robust Black-box Ownership Verification of Large Language Models
作者: Shojiro Yamabe, Futa Waseda, Tsubasa Takahashi, Koki Wataoka
分类: cs.CR, cs.LG
发布日期: 2024-10-11 (更新: 2025-05-16)
备注: Accepted at ACL 2025 Main
💡 一句话要点
MergePrint:用于大语言模型黑盒所有权验证的抗合并指纹
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 所有权验证 模型指纹 模型合并 黑盒攻击
📋 核心要点
- 模型合并技术为LLM的滥用提供了新途径,现有指纹技术缺乏对模型合并的抵抗性。
- MergePrint通过对抗伪合并模型优化指纹,确保指纹在模型合并后依然可检测,实现鲁棒的黑盒所有权验证。
- 该方法在抵抗模型合并的同时,还能有效抵抗其他模型盗窃威胁,并预优化指纹输入以减少性能下降。
📝 摘要(中文)
由于训练成本高昂,保护大型语言模型(LLM)的知识产权变得越来越重要。模型合并将多个专家模型集成到单个多任务模型中,由于其高效的合并过程,引入了一种新的LLM未经授权使用的风险。虽然已经提出了用于验证模型所有权的指纹技术,但它们对模型合并的抵抗力仍未得到探索。为了解决这个差距,我们提出了一种新的指纹方法MergePrint,它嵌入了能够经受模型合并的鲁棒指纹。MergePrint实现了黑盒所有权验证,所有者只需要检查模型是否为特定的指纹输入产生目标输出,而无需访问模型权重或中间输出。通过针对模拟合并行为的伪合并模型进行优化,MergePrint确保指纹在合并后仍然可检测。此外,为了最大限度地减少性能下降,我们预优化指纹输入。MergePrint率先提出了一种实用的黑盒所有权验证解决方案,保护LLM免受通过合并进行的盗用,同时在抵抗更广泛的模型盗窃威胁方面也表现出色。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)所有权验证中,现有指纹技术对模型合并攻击抵抗力不足的问题。模型合并技术允许将多个模型合并为一个,这使得未经授权的用户可以通过合并别人的模型来构建自己的模型,并声称拥有所有权。现有的指纹技术通常没有考虑到这种攻击方式,因此容易被绕过。
核心思路:MergePrint的核心思路是在训练过程中嵌入对模型合并具有鲁棒性的指纹。具体来说,该方法通过优化特定的输入-输出对(即指纹),使得这些指纹在模型经过合并后仍然能够被检测到。这种方法允许所有者在不访问模型内部参数的情况下,仅通过黑盒方式验证模型的所有权。
技术框架:MergePrint的整体框架包括以下几个主要阶段:1) 指纹输入预优化:为了减少指纹对模型性能的影响,首先对指纹输入进行预优化。2) 对抗伪合并模型训练:在模型训练过程中,使用一个伪合并模型来模拟真实的合并过程。通过对抗这个伪合并模型,可以使嵌入的指纹对模型合并具有更强的抵抗力。3) 黑盒所有权验证:所有者可以通过检查模型是否能够对特定的指纹输入产生预期的输出来验证模型的所有权。
关键创新:MergePrint的关键创新在于其对抗伪合并模型的训练方法。通过这种方法,可以有效地提高指纹对模型合并攻击的抵抗力。与现有的指纹技术相比,MergePrint能够更好地保护LLM的所有权,防止模型被盗用。
关键设计:MergePrint的关键设计包括:1) 伪合并模型的构建方式:伪合并模型需要能够准确地模拟真实的模型合并过程。2) 损失函数的设计:损失函数需要能够同时优化模型的性能和指纹的鲁棒性。3) 指纹输入的选择:指纹输入需要具有一定的区分性,以便能够有效地验证模型的所有权。
🖼️ 关键图片
📊 实验亮点
MergePrint在实验中表现出强大的抗模型合并能力,即使在多个模型合并后,其嵌入的指纹仍然可以被有效检测。此外,该方法在抵抗其他模型盗窃攻击(如微调和剪枝)方面也表现出色。实验结果表明,MergePrint能够在保护模型所有权的同时,将模型性能的下降控制在可接受的范围内。
🎯 应用场景
MergePrint技术可广泛应用于保护大型语言模型的知识产权,防止未经授权的模型复制、分发和商业化。该技术能够有效应对模型合并带来的新型盗用风险,维护模型开发者的合法权益,促进LLM领域的健康发展。此外,该方法也适用于其他类型的机器学习模型,具有广泛的应用前景。
📄 摘要(原文)
Protecting the intellectual property of Large Language Models (LLMs) has become increasingly critical due to the high cost of training. Model merging, which integrates multiple expert models into a single multi-task model, introduces a novel risk of unauthorized use of LLMs due to its efficient merging process. While fingerprinting techniques have been proposed for verifying model ownership, their resistance to model merging remains unexplored. To address this gap, we propose a novel fingerprinting method, MergePrint, which embeds robust fingerprints capable of surviving model merging. MergePrint enables black-box ownership verification, where owners only need to check if a model produces target outputs for specific fingerprint inputs, without accessing model weights or intermediate outputs. By optimizing against a pseudo-merged model that simulates merged behavior, MergePrint ensures fingerprints that remain detectable after merging. Additionally, to minimize performance degradation, we pre-optimize the fingerprint inputs. MergePrint pioneers a practical solution for black-box ownership verification, protecting LLMs from misappropriation via merging, while also excelling in resistance to broader model theft threats.