DNF: Dual-Layer Nested Fingerprinting for Large Language Model Intellectual Property Protection

作者: Zhenhua Xu, Yiran Zhao, Mengting Zhong, Dezhang Kong, Changting Lin, Tong Qiao, Meng Han

分类: cs.CR, cs.AI

发布日期: 2026-01-13

💡 一句话要点

提出双层嵌套指纹技术以解决大语言模型知识产权保护问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 知识产权保护 大语言模型 指纹技术 后门攻击 模型鲁棒性 隐私保护 深度学习

📋 核心要点

现有的知识产权保护方法存在依赖稀有词汇和固定触发映射的不足，导致易被过滤和适应。
本文提出的双层嵌套指纹技术通过结合风格线索与语义触发器，嵌入层次化后门，提升了隐蔽性和鲁棒性。
实验结果显示，DNF在多个大型语言模型上实现了完美的指纹激活，并在多项性能指标上优于现有方法。

📝 摘要（中文）

随着大语言模型的快速发展，黑箱部署下的知识产权保护问题日益突出。现有的基于后门的指纹方法要么依赖稀有词汇，导致高困惑度输入易被过滤，要么使用固定的触发-响应映射，易受到泄露和后期适应的影响。本文提出了双层嵌套指纹技术（DNF），通过将领域特定的风格线索与隐式语义触发器结合，嵌入层次化后门。实验结果表明，DNF在Mistral-7B、LLaMA-3-8B-Instruct和Falcon3-7B-Instruct上实现了完美的指纹激活，同时保持下游任务的效用。与现有方法相比，DNF使用了低困惑度的触发器，能够在指纹检测攻击下保持隐蔽性，并对增量微调和模型合并具有较强的鲁棒性。这些结果使DNF成为一种实用、隐蔽且具有韧性的LLM所有权验证和知识产权保护解决方案。

🔬 方法详解

问题定义：本文旨在解决大语言模型在黑箱部署下的知识产权保护问题。现有方法依赖稀有词汇或固定触发映射，导致输入易被过滤或在适应过程中失效。

核心思路：提出双层嵌套指纹技术（DNF），通过结合领域特定的风格线索与隐式语义触发器，形成层次化的后门，从而提高指纹的隐蔽性和鲁棒性。

技术框架：DNF的整体架构包括两个主要模块：风格线索模块和语义触发器模块。风格线索模块负责生成与特定领域相关的风格特征，而语义触发器模块则通过隐式触发器激活指纹。

关键创新：DNF的创新点在于其双层结构设计，能够在保持低困惑度的同时，实现完美的指纹激活。这种设计使其在指纹检测攻击下保持隐蔽性，并对模型的增量微调和合并具有较强的鲁棒性。

关键设计：在参数设置上，DNF使用了低困惑度的触发器，并在损失函数中引入了对抗性训练，以增强模型的鲁棒性。网络结构上，采用了多层次的嵌套设计，以实现更复杂的指纹激活机制。

🖼️ 关键图片

📊 实验亮点

实验结果表明，DNF在Mistral-7B、LLaMA-3-8B-Instruct和Falcon3-7B-Instruct上实现了完美的指纹激活，且在低困惑度触发器的使用上，DNF在指纹检测攻击下保持隐蔽性，展现出对增量微调和模型合并的强鲁棒性，显著优于现有方法。

🎯 应用场景

该研究的潜在应用领域包括大型语言模型的知识产权保护、模型所有权验证以及相关的法律合规性检查。随着大语言模型的广泛应用，保护模型的知识产权将变得愈加重要，DNF技术能够为开发者和企业提供有效的保护手段，确保其创新成果不被滥用。

📄 摘要（原文）

The rapid growth of large language models raises pressing concerns about intellectual property protection under black-box deployment. Existing backdoor-based fingerprints either rely on rare tokens -- leading to high-perplexity inputs susceptible to filtering -- or use fixed trigger-response mappings that are brittle to leakage and post-hoc adaptation. We propose \textsc{Dual-Layer Nested Fingerprinting} (DNF), a black-box method that embeds a hierarchical backdoor by coupling domain-specific stylistic cues with implicit semantic triggers. Across Mistral-7B, LLaMA-3-8B-Instruct, and Falcon3-7B-Instruct, DNF achieves perfect fingerprint activation while preserving downstream utility. Compared with existing methods, it uses lower-perplexity triggers, remains undetectable under fingerprint detection attacks, and is relatively robust to incremental fine-tuning and model merging. These results position DNF as a practical, stealthy, and resilient solution for LLM ownership verification and intellectual property protection.

DNF: Dual-Layer Nested Fingerprinting for Large Language Model Intellectual Property Protection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理