DNF: Dual-Layer Nested Fingerprinting for Large Language Model Intellectual Property Protection

📄 arXiv: 2601.08223v1 📥 PDF

作者: Zhenhua Xu, Yiran Zhao, Mengting Zhong, Dezhang Kong, Changting Lin, Tong Qiao, Meng Han

分类: cs.CR, cs.AI

发布日期: 2026-01-13


💡 一句话要点

提出双层嵌套指纹技术以解决大语言模型知识产权保护问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识产权保护 大语言模型 指纹技术 后门攻击 模型鲁棒性 隐私保护 深度学习

📋 核心要点

  1. 现有的知识产权保护方法存在依赖稀有词汇和固定触发映射的不足,导致易被过滤和适应。
  2. 本文提出的双层嵌套指纹技术通过结合风格线索与语义触发器,嵌入层次化后门,提升了隐蔽性和鲁棒性。
  3. 实验结果显示,DNF在多个大型语言模型上实现了完美的指纹激活,并在多项性能指标上优于现有方法。

📝 摘要(中文)

随着大语言模型的快速发展,黑箱部署下的知识产权保护问题日益突出。现有的基于后门的指纹方法要么依赖稀有词汇,导致高困惑度输入易被过滤,要么使用固定的触发-响应映射,易受到泄露和后期适应的影响。本文提出了双层嵌套指纹技术(DNF),通过将领域特定的风格线索与隐式语义触发器结合,嵌入层次化后门。实验结果表明,DNF在Mistral-7B、LLaMA-3-8B-Instruct和Falcon3-7B-Instruct上实现了完美的指纹激活,同时保持下游任务的效用。与现有方法相比,DNF使用了低困惑度的触发器,能够在指纹检测攻击下保持隐蔽性,并对增量微调和模型合并具有较强的鲁棒性。这些结果使DNF成为一种实用、隐蔽且具有韧性的LLM所有权验证和知识产权保护解决方案。

🔬 方法详解

问题定义:本文旨在解决大语言模型在黑箱部署下的知识产权保护问题。现有方法依赖稀有词汇或固定触发映射,导致输入易被过滤或在适应过程中失效。

核心思路:提出双层嵌套指纹技术(DNF),通过结合领域特定的风格线索与隐式语义触发器,形成层次化的后门,从而提高指纹的隐蔽性和鲁棒性。

技术框架:DNF的整体架构包括两个主要模块:风格线索模块和语义触发器模块。风格线索模块负责生成与特定领域相关的风格特征,而语义触发器模块则通过隐式触发器激活指纹。

关键创新:DNF的创新点在于其双层结构设计,能够在保持低困惑度的同时,实现完美的指纹激活。这种设计使其在指纹检测攻击下保持隐蔽性,并对模型的增量微调和合并具有较强的鲁棒性。

关键设计:在参数设置上,DNF使用了低困惑度的触发器,并在损失函数中引入了对抗性训练,以增强模型的鲁棒性。网络结构上,采用了多层次的嵌套设计,以实现更复杂的指纹激活机制。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DNF在Mistral-7B、LLaMA-3-8B-Instruct和Falcon3-7B-Instruct上实现了完美的指纹激活,且在低困惑度触发器的使用上,DNF在指纹检测攻击下保持隐蔽性,展现出对增量微调和模型合并的强鲁棒性,显著优于现有方法。

🎯 应用场景

该研究的潜在应用领域包括大型语言模型的知识产权保护、模型所有权验证以及相关的法律合规性检查。随着大语言模型的广泛应用,保护模型的知识产权将变得愈加重要,DNF技术能够为开发者和企业提供有效的保护手段,确保其创新成果不被滥用。

📄 摘要(原文)

The rapid growth of large language models raises pressing concerns about intellectual property protection under black-box deployment. Existing backdoor-based fingerprints either rely on rare tokens -- leading to high-perplexity inputs susceptible to filtering -- or use fixed trigger-response mappings that are brittle to leakage and post-hoc adaptation. We propose \textsc{Dual-Layer Nested Fingerprinting} (DNF), a black-box method that embeds a hierarchical backdoor by coupling domain-specific stylistic cues with implicit semantic triggers. Across Mistral-7B, LLaMA-3-8B-Instruct, and Falcon3-7B-Instruct, DNF achieves perfect fingerprint activation while preserving downstream utility. Compared with existing methods, it uses lower-perplexity triggers, remains undetectable under fingerprint detection attacks, and is relatively robust to incremental fine-tuning and model merging. These results position DNF as a practical, stealthy, and resilient solution for LLM ownership verification and intellectual property protection.