FLIPS: Instance-Fingerprinting for LLMs via Pseudo-random Sequences
作者: Gurvan Richardeau, Gohar Dashyan, Erwan Le Merrer, Gilles Tredan
分类: cs.LG, cs.AI, cs.CR
发布日期: 2026-06-02
备注: 20 pages, 20 figures, 3 tables. 43rd International Conference on Machine Learning (ICML 2026)
🔗 代码/项目: GITHUB
💡 一句话要点
提出FLIPS以解决LLM实例级指纹识别问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 实例级指纹识别 AI监管 随机序列 模型配置
📋 核心要点
- 现有的LLM识别技术主要关注知识产权保护,未能有效应对实例级参数变化带来的挑战。
- 本文提出FLIPS方法,通过利用生成的二进制随机序列中的偏差,实现对同一LLM不同配置的有效区分。
- 实验结果显示,FLIPS在237个模型实例中实现了96%的闭集和90%的开集识别准确率,显著优于现有基线方法。
📝 摘要(中文)
文献表明,大型语言模型(LLM)的行为不仅受其原始权重的影响,还受到实例级参数的影响,如指令提示、采样配置或量化。一个在某种配置下生成安全输出的模型,可能在另一种配置下产生有害内容。然而,当前的LLM识别技术(如指纹识别)主要集中在知识产权保护上,其设计更倾向于对实例级参数变化的鲁棒性。这对AI监管构成了重大挑战,因为合规性评估针对的是实际部署行为,而非模型来源。本文提出了一种实例级指纹识别的监管导向范式,能够区分同一LLM的不同配置。我们的方法FLIPS利用生成的二进制随机序列中的偏差,在237个模型实例中实现了96%(闭集)和90%(开集,部分目标未知)的识别准确率,相较于适应的LLMmap基线的35%显著提升。这表明实例级指纹识别在监管中既必要又切实可行。
🔬 方法详解
问题定义:本文旨在解决现有LLM识别技术在应对实例级参数变化时的不足,尤其是在监管合规性评估中的应用痛点。现有方法往往忽视了模型在不同配置下的实际行为表现。
核心思路:FLIPS方法的核心思路是利用生成的二进制随机序列中的偏差,进行实例级指纹识别,从而有效区分同一LLM在不同配置下的输出行为。这样的设计能够更好地反映模型的实际应用情况,满足监管需求。
技术框架:FLIPS的整体架构包括数据采集、特征提取和分类三个主要模块。首先,通过不同配置生成二进制随机序列;其次,提取序列中的偏差特征;最后,利用这些特征进行模型实例的分类识别。
关键创新:FLIPS的主要创新在于引入实例级指纹识别的概念,强调了对模型配置变化的敏感性。这与现有方法的侧重点不同,后者更关注于模型的知识产权保护,而非实际行为的合规性。
关键设计:在FLIPS中,关键的参数设置包括随机序列的生成算法和特征提取方法。损失函数的设计旨在最大化不同实例间的可区分性,同时保持对实例内变化的鲁棒性。
🖼️ 关键图片
📊 实验亮点
FLIPS方法在237个模型实例中实现了96%的闭集和90%的开集识别准确率,相较于适应的LLMmap基线的35%有显著提升。这一结果表明,实例级指纹识别不仅必要,而且在实际应用中是可行的。
🎯 应用场景
FLIPS方法在AI监管领域具有广泛的应用潜力,能够帮助监管机构有效评估和监控LLM在实际部署中的行为表现。这对于确保AI系统的安全性和合规性具有重要价值,尤其是在涉及敏感内容生成的场景中。
📄 摘要(原文)
Literature reveals that a Large Language Model's (LLM) behavior is not only conditioned by its original weights but also its instance-level parameters, such as instructional prompt, sampling configuration or quantization. A model that generates safe outputs under one configuration may produce toxic content under another. However, current LLM identification techniques (such as fingerprinting) focus on intellectual property protection, and their design favors robustness to changes in these instance-level parameters. This poses a critical challenge for AI regulation in which compliance assessments target actual deployed behaviors, not model provenance. In this paper, we introduce instance-level fingerprinting, a regulator-oriented paradigm that distinguishes configurations of the same LLM. Our method FLIPS, exploits biases in generated binary random sequences to reach 96% (closed-set) and 90% (open-set, where some targets are unknown) identification accuracy across 237 model instances, versus 35% for the adapted LLMmap baseline. This shows that instance-level fingerprinting is both necessary for regulation and practically feasible. Code available at https://github.com/GurvanR/FLIPS-LLM-Instance-Fingerprinting.