Antidistillation Fingerprinting
作者: Yixuan Even Xu, John Kirchenbauer, Yash Savani, Asher Trockman, Alexander Robey, Tom Goldstein, Fei Fang, J. Zico Kolter
分类: cs.LG, cs.AI, cs.CL
发布日期: 2026-02-03
备注: 26 pages, 11 figures
💡 一句话要点
提出反蒸馏指纹(ADFP)方法,提升模型溯源能力并降低对模型效用的影响。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 反蒸馏指纹 模型溯源 模型蒸馏 大型语言模型 知识产权保护
📋 核心要点
- 现有模型指纹识别技术依赖启发式扰动,导致生成质量和指纹强度之间存在严重trade-off。
- ADFP方法通过代理模型识别并采样token,直接优化学生模型微调后的指纹可检测性。
- 实验表明,ADFP在保证模型效用的前提下,显著提升了指纹检测的置信度,优于现有方法。
📝 摘要(中文)
模型蒸馏使得高效模拟前沿大型语言模型(LLMs)成为可能,因此需要强大的机制来检测第三方学生模型是否在教师模型的输出上进行了训练。然而,现有的指纹识别技术依赖于启发式扰动,这在生成质量和指纹识别强度之间造成了巨大的权衡,通常需要显著降低效用才能确保指纹被学生模型有效地内化。我们引入了反蒸馏指纹(ADFP),这是一种原则性方法,它将指纹识别目标与学生的学习动态对齐。ADFP建立在反蒸馏采样的梯度框架之上,利用代理模型来识别和采样那些可以直接最大化微调后学生模型中指纹预期可检测性的token,而不是依赖于更naive的水印的非目标偏差的偶然吸收。在GSM8K和OASST1基准上的实验表明,ADFP在最先进的基线上实现了显著的帕累托改进,即使在学生模型的架构未知的情况下,也能以最小的效用影响产生更强的检测置信度。
🔬 方法详解
问题定义:论文旨在解决模型蒸馏场景下的模型溯源问题。现有指纹识别方法通常通过引入启发式扰动来嵌入指纹,但这些扰动会显著降低模型的生成质量,即效用。如何在保证模型效用的前提下,有效地检测学生模型是否从教师模型蒸馏而来,是本文要解决的核心问题。
核心思路:论文的核心思路是将指纹识别的目标与学生模型的学习动态对齐。具体来说,不是简单地向教师模型的输出中添加噪声或扰动,而是通过优化采样策略,选择那些能够最大化学生模型在微调后指纹可检测性的token。这种方法避免了对模型效用的过度损害,并提高了指纹的鲁棒性。
技术框架:ADFP方法的技术框架主要包括以下几个阶段:1) 使用教师模型生成数据;2) 使用代理模型评估不同token对学生模型指纹可检测性的影响;3) 基于评估结果,选择能够最大化指纹可检测性的token进行采样;4) 使用带有指纹的数据训练学生模型;5) 使用指纹检测器检测学生模型是否包含指纹。
关键创新:ADFP最重要的技术创新点在于其指纹嵌入策略。与传统的启发式扰动方法不同,ADFP利用代理模型来指导token的选择,从而直接优化学生模型中的指纹可检测性。这种基于梯度的方法能够更有效地将指纹嵌入到学生模型中,同时最大限度地减少对模型效用的影响。
关键设计:ADFP的关键设计包括:1) 使用代理模型来近似学生模型的学习动态;2) 使用梯度信息来评估不同token对指纹可检测性的影响;3) 设计合适的采样策略,以选择能够最大化指纹可检测性的token。具体的损失函数和网络结构取决于所使用的代理模型和指纹检测器,但核心思想是利用梯度信息来指导指纹的嵌入。
📊 实验亮点
ADFP在GSM8K和OASST1基准测试中表现出色,相较于现有技术,在保证模型效用的前提下,显著提升了指纹检测的置信度。即使在学生模型架构未知的情况下,ADFP依然能够有效地检测指纹,实现了帕累托改进。具体性能数据未在摘要中给出,但强调了其优于现有技术的显著优势。
🎯 应用场景
ADFP技术可应用于保护大型语言模型的知识产权,防止未经授权的模型复制和滥用。该技术可用于检测第三方模型是否通过蒸馏等方式非法获取了原始模型的知识,从而维护模型开发者的权益。此外,ADFP还可用于评估不同模型之间的相似性,帮助用户选择合适的模型。
📄 摘要(原文)
Model distillation enables efficient emulation of frontier large language models (LLMs), creating a need for robust mechanisms to detect when a third-party student model has trained on a teacher model's outputs. However, existing fingerprinting techniques that could be used to detect such distillation rely on heuristic perturbations that impose a steep trade-off between generation quality and fingerprinting strength, often requiring significant degradation of utility to ensure the fingerprint is effectively internalized by the student. We introduce antidistillation fingerprinting (ADFP), a principled approach that aligns the fingerprinting objective with the student's learning dynamics. Building upon the gradient-based framework of antidistillation sampling, ADFP utilizes a proxy model to identify and sample tokens that directly maximize the expected detectability of the fingerprint in the student after fine-tuning, rather than relying on the incidental absorption of the un-targeted biases of a more naive watermark. Experiments on GSM8K and OASST1 benchmarks demonstrate that ADFP achieves a significant Pareto improvement over state-of-the-art baselines, yielding stronger detection confidence with minimal impact on utility, even when the student model's architecture is unknown.