FNF: Functional Network Fingerprint for Large Language Models
作者: Yiheng Liu, Junhao Ning, Sichen Xia, Haiyang Sun, Yang Yang, Hanyang Chi, Xiaohui Gao, Ning Qiang, Bao Ge, Junwei Han, Xintao Hu
分类: cs.CL, cs.AI, cs.CR
发布日期: 2026-01-30
备注: 13 pages, 4 figures
🔗 代码/项目: GITHUB
💡 一句话要点
提出功能网络指纹FNF,用于检测大型语言模型的知识产权侵权。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 知识产权保护 模型溯源 功能网络指纹 神经元激活
📋 核心要点
- 大型语言模型面临未经授权盗用和知识产权侵权的风险,现有方法难以有效且高效地进行溯源。
- 论文提出功能网络指纹(FNF)方法,通过分析模型功能网络活动的一致性来判断模型是否具有共同来源。
- 实验表明,FNF方法仅需少量样本即可有效检测模型来源,且对模型修改和架构差异具有鲁棒性。
📝 摘要(中文)
大型语言模型(LLMs)的开发成本高昂且具有重要的商业价值。因此,防止未经授权盗用开源LLM以及保护开发者的知识产权已成为关键挑战。本文提出功能网络指纹(FNF),这是一种无需训练、样本高效的方法,用于检测可疑LLM是否源自受害者模型,其依据是它们的功能网络活动之间的一致性。我们证明,即使规模或架构存在差异,共享共同来源的模型在各种输入样本中,其功能网络内的神经元活动模式也表现出高度一致性。相反,独立训练于不同数据或具有不同目标的模型无法保持这种活动对齐。与传统方法不同,我们的方法仅需少量样本进行验证,保持模型效用,并且对常见的模型修改(例如微调、剪枝和参数置换)以及跨不同架构和维度的比较具有鲁棒性。因此,FNF为模型所有者和第三方提供了一种简单、非侵入式且有效的工具,用于保护LLM知识产权。代码可在https://github.com/WhatAboutMyStar/LLM_ACTIVATION获取。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)的知识产权保护问题,特别是检测一个可疑的LLM是否是从另一个已有的LLM(受害者模型)衍生而来。现有的模型溯源方法可能需要大量的训练数据,或者对模型的实用性产生影响,并且可能对模型的微调、剪枝等修改不具有鲁棒性。
核心思路:论文的核心思路是利用LLM的功能网络活动(Functional Network Activity)的相似性来判断模型是否具有共同的来源。作者认为,即使模型经过了微调、剪枝或者架构上的修改,如果它们具有共同的训练来源,那么它们在处理相同输入时,其内部神经元的激活模式(即功能网络活动)仍然会保持一致。
技术框架:FNF方法主要包含以下几个步骤:1) 选择一组输入样本;2) 将这些样本输入到受害者模型和可疑模型中,并记录它们的功能网络活动(例如,每一层神经元的激活值);3) 计算受害者模型和可疑模型在每一层的功能网络活动之间的相似度(例如,使用余弦相似度);4) 将每一层的相似度进行聚合,得到一个整体的相似度得分,作为判断模型是否具有共同来源的依据。
关键创新:FNF方法的关键创新在于它利用了LLM的功能网络活动作为指纹,这种指纹对模型的修改和架构差异具有鲁棒性。与传统的基于参数比较的方法不同,FNF方法不需要访问模型的参数,只需要观察模型的输入输出行为即可。此外,FNF方法只需要少量的样本即可进行验证,因此具有很高的效率。
关键设计:FNF方法的关键设计包括:1) 如何选择具有代表性的输入样本;2) 如何定义和计算功能网络活动(例如,使用哪一层神经元的激活值,如何对激活值进行归一化);3) 如何计算功能网络活动之间的相似度(例如,使用余弦相似度、欧氏距离等);4) 如何聚合不同层之间的相似度得分(例如,使用平均值、加权平均值等)。论文中可能还涉及到一些超参数的设置,例如相似度阈值等。
🖼️ 关键图片
📊 实验亮点
论文提出的FNF方法在模型溯源任务中表现出色,即使在模型经过微调、剪枝和参数置换等修改后,仍然能够准确地识别出模型的来源。该方法仅需少量样本即可进行验证,并且对不同架构和维度的模型具有鲁棒性。具体实验数据(例如,准确率、召回率等)需要在论文中查找。
🎯 应用场景
FNF方法可应用于大型语言模型的知识产权保护、模型溯源和安全审计等领域。模型所有者可以使用FNF方法来检测是否存在未经授权的模型复制或盗用行为。第三方机构可以使用FNF方法来评估模型的安全性,例如判断模型是否受到了恶意攻击或篡改。该方法还有助于促进开源LLM的健康发展,鼓励创新,同时保护开发者的合法权益。
📄 摘要(原文)
The development of large language models (LLMs) is costly and has significant commercial value. Consequently, preventing unauthorized appropriation of open-source LLMs and protecting developers' intellectual property rights have become critical challenges. In this work, we propose the Functional Network Fingerprint (FNF), a training-free, sample-efficient method for detecting whether a suspect LLM is derived from a victim model, based on the consistency between their functional network activity. We demonstrate that models that share a common origin, even with differences in scale or architecture, exhibit highly consistent patterns of neuronal activity within their functional networks across diverse input samples. In contrast, models trained independently on distinct data or with different objectives fail to preserve such activity alignment. Unlike conventional approaches, our method requires only a few samples for verification, preserves model utility, and remains robust to common model modifications (such as fine-tuning, pruning, and parameter permutation), as well as to comparisons across diverse architectures and dimensionalities. FNF thus provides model owners and third parties with a simple, non-invasive, and effective tool for protecting LLM intellectual property. The code is available at https://github.com/WhatAboutMyStar/LLM_ACTIVATION.