LLMs Have Rhythm: Fingerprinting Large Language Models Using Inter-Token Times and Network Traffic Analysis

📄 arXiv: 2502.20589v1 📥 PDF

作者: Saeif Alhazbi, Ahmed Mohamed Hussain, Gabriele Oligeri, Panos Papadimitratos

分类: cs.CR, cs.AI, cs.CL, cs.LG

发布日期: 2025-02-27

DOI: 10.1109/OJCOMS.2025.3577016


💡 一句话要点

提出基于token间时间间隔和网络流量分析的LLM指纹识别方法,提升模型安全与可信度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 指纹识别 网络流量分析 token间时间间隔 深度学习 模型安全 模型识别

📋 核心要点

  1. 现有LLM识别方法易受对抗攻击,需事后分析,或需访问模型权重,存在局限性。
  2. 利用LLM自回归生成特性,通过分析token间时间间隔(ITTs)来识别模型。
  3. 实验表明,该方法在不同网络条件下对SLM和LLM均有效,精度高,适用性强。

📝 摘要(中文)

随着大型语言模型(LLMs)日益融入各个技术生态系统,识别正在部署或交互的模型对于系统的安全性和可信度至关重要。现有的验证方法通常依赖于分析生成的输出来确定源模型,但这些技术容易受到对抗攻击,以事后方式运行,并且可能需要访问模型权重来注入可验证的指纹。本文提出了一种新颖的被动和非侵入式指纹识别技术,该技术可以实时运行,即使在加密的网络流量条件下也有效。我们的方法利用语言模型固有的自回归生成特性,该特性基于所有先前生成的token一次生成一个token,从而创建一种独特的时序模式,类似于节奏或心跳,即使输出通过网络传输也能保持不变。我们发现,测量token间的时间间隔(ITTs)可以高精度地识别不同的语言模型。我们开发了一个深度学习(DL)流程,以使用网络流量分析来捕获这些时序模式,并在不同的部署场景(包括本地主机(GPU/CPU)、局域网(LAN)、远程网络和虚拟专用网络(VPN))中的16个小型语言模型(SLMs)和10个专有LLM上对其进行评估。实验结果证实,我们提出的技术是有效的,即使在不同的网络条件下进行测试也能保持较高的准确性。这项工作为真实场景中的模型识别开辟了一条新途径,并有助于更安全和可信的语言模型部署。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)的身份识别问题。现有方法主要依赖于分析LLM的生成文本,容易受到对抗攻击,需要事后分析,并且可能需要访问模型权重,这在实际应用中存在诸多限制。因此,需要一种被动、非侵入式且实时的LLM指纹识别方法。

核心思路:论文的核心思路是利用LLM的自回归生成特性,即LLM逐个生成token,每个token的生成时间依赖于之前生成的token。这种生成过程会产生独特的时序模式,类似于心跳或节奏。通过分析token之间的时间间隔(Inter-Token Times, ITTs),可以提取出LLM的指纹信息。

技术框架:该方法主要包含以下几个阶段:1) 网络流量捕获:捕获LLM生成文本时的网络流量数据。2) ITT提取:从网络流量数据中提取token之间的时间间隔(ITTs)。3) 特征表示:将ITTs序列转换为适合深度学习模型处理的特征向量。4) 模型训练:使用深度学习模型(例如,循环神经网络RNN或Transformer)学习不同LLM的ITTs模式。5) 模型识别:使用训练好的模型对新的ITTs序列进行分类,从而识别出对应的LLM。

关键创新:该方法最重要的创新点在于利用了LLM固有的自回归生成特性,将LLM的身份识别问题转化为时序模式识别问题。与传统的基于文本分析的方法相比,该方法具有更强的鲁棒性,不易受到对抗攻击,并且不需要访问模型权重。此外,该方法是被动的,不会对LLM的运行产生任何影响。

关键设计:论文中使用了深度学习模型来捕获ITTs的时序模式。具体的模型结构和参数设置(例如,RNN的层数、隐藏单元数,Transformer的注意力头数等)需要根据实际情况进行调整。此外,损失函数的选择也很重要,例如可以使用交叉熵损失函数来训练分类模型。对于不同的网络环境(例如,LAN、VPN),可能需要对ITTs数据进行预处理,以消除网络延迟的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在不同网络条件下(包括本地、局域网、远程网络和VPN)对16个小型语言模型(SLMs)和10个专有LLM均能实现高精度识别。即使在加密网络流量下,该方法依然有效,展示了其在实际应用中的潜力。

🎯 应用场景

该研究成果可应用于多种场景,例如:安全审计,识别恶意LLM服务;知识产权保护,追踪未经授权的模型使用;模型来源验证,确保AI系统的可信度。未来,该技术可集成到网络安全监控系统中,实时检测和识别LLM流量,提升整体安全防护能力。

📄 摘要(原文)

As Large Language Models (LLMs) become increasingly integrated into many technological ecosystems across various domains and industries, identifying which model is deployed or being interacted with is critical for the security and trustworthiness of the systems. Current verification methods typically rely on analyzing the generated output to determine the source model. However, these techniques are susceptible to adversarial attacks, operate in a post-hoc manner, and may require access to the model weights to inject a verifiable fingerprint. In this paper, we propose a novel passive and non-invasive fingerprinting technique that operates in real-time and remains effective even under encrypted network traffic conditions. Our method leverages the intrinsic autoregressive generation nature of language models, which generate text one token at a time based on all previously generated tokens, creating a unique temporal pattern like a rhythm or heartbeat that persists even when the output is streamed over a network. We find that measuring the Inter-Token Times (ITTs)-time intervals between consecutive tokens-can identify different language models with high accuracy. We develop a Deep Learning (DL) pipeline to capture these timing patterns using network traffic analysis and evaluate it on 16 Small Language Models (SLMs) and 10 proprietary LLMs across different deployment scenarios, including local host machine (GPU/CPU), Local Area Network (LAN), Remote Network, and Virtual Private Network (VPN). The experimental results confirm that our proposed technique is effective and maintains high accuracy even when tested in different network conditions. This work opens a new avenue for model identification in real-world scenarios and contributes to more secure and trustworthy language model deployment.