Layerwise Convergence Fingerprints for Runtime Misbehavior Detection in Large Language Models
作者: Nay Myat Min, Long H. Pham, Jun Sun
分类: cs.CR, cs.AI, cs.CL
发布日期: 2026-04-27
备注: 34 pages, 5 figures. Code: https://github.com/NayMyatMin/LCF-LLM
💡 一句话要点
提出层间收敛指纹LCF,用于大语言模型运行时异常行为检测。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 运行时安全 异常检测 后门攻击 越狱攻击 提示注入 层间收敛指纹 马氏距离
📋 核心要点
- 现有运行时防御方法难以应对大语言模型在运行时出现的后门、越狱和提示注入等多种威胁,且通常依赖于不切实际的假设。
- 论文提出层间收敛指纹(LCF)方法,通过监控层间隐藏状态轨迹的健康信号,无需微调即可检测异常行为。
- 实验表明,LCF在多种模型和威胁场景下均表现出色,有效降低了后门攻击成功率,并能高精度检测越狱和提示注入攻击。
📝 摘要(中文)
在运行时部署的大语言模型可能出现一些在干净数据验证中无法预测的异常行为,例如训练时植入的后门在被触发前一直处于休眠状态,越狱攻击破坏安全对齐,以及提示注入覆盖部署者的指令。现有的运行时防御方法通常一次只解决一种威胁,并且常常假设存在干净的参考模型、触发知识或可编辑的权重,而这些假设在不透明的第三方模型中很少成立。我们引入了层间收敛指纹(LCF),这是一种无需微调的运行时监控器,它将层间隐藏状态轨迹视为健康信号:LCF计算每个层间差异的对角马氏距离,通过Ledoit-Wolf收缩进行聚合,并通过在200个干净示例上的留一法校准进行阈值处理,无需参考模型、触发知识或重新训练。在四种架构(Llama-3-8B、Qwen2.5-7B、Gemma-2-9B、Qwen2.5-14B)上,针对后门、越狱和提示注入(56个后门组合,3种越狱技术,以及BIPIA电子邮件+代码问答)进行评估,LCF将Qwen2.5-7B和Gemma-2上的平均后门攻击成功率(ASR)降低到1%以下,Qwen2.5-14B上降低到1.3%,检测到92-100%的DAN越狱(GCG为62-100%,较弱的角色扮演),并标记了所有八个(模型,领域)单元格中100%的文本有效负载注入,后门误报率为12-16%,推理开销小于0.1%。单个聚合分数涵盖所有三个威胁家族,无需针对特定威胁进行调整,这使LCF成为云服务和设备端LLM的通用运行时安全层。
🔬 方法详解
问题定义:论文旨在解决大语言模型在运行时可能出现的各种恶意行为,包括后门攻击、越狱攻击和提示注入攻击。现有防御方法通常针对特定类型的攻击,缺乏通用性,并且往往需要干净的参考模型或对模型内部结构的了解,这在实际应用中难以满足。因此,需要一种通用的、无需微调的运行时监控方法,能够有效检测各种类型的恶意行为,且不依赖于对模型内部结构的了解。
核心思路:论文的核心思路是将大语言模型的层间隐藏状态轨迹视为一种健康信号。正常模型的层间状态变化应该具有一定的规律性,而恶意行为会导致这种规律性被破坏。通过监控层间状态的变化,可以检测出模型的异常行为。这种方法不需要参考模型,也不需要了解模型的内部结构,具有很强的通用性。
技术框架:LCF的技术框架主要包括以下几个步骤:1) 计算每个层间差异的对角马氏距离。2) 通过Ledoit-Wolf收缩方法聚合这些距离。3) 使用留一法在干净数据集上校准阈值。具体来说,对于每个输入,LCF计算模型每一层输出的隐藏状态,然后计算相邻层之间的差异。接着,使用对角马氏距离来衡量这些差异的异常程度。为了提高鲁棒性,使用Ledoit-Wolf收缩方法来估计协方差矩阵。最后,使用留一法在干净数据集上校准阈值,以便区分正常行为和异常行为。
关键创新:LCF的关键创新在于它将层间隐藏状态轨迹作为一种健康信号,并使用马氏距离来衡量其异常程度。这种方法不需要参考模型,也不需要了解模型的内部结构,具有很强的通用性。此外,LCF使用Ledoit-Wolf收缩方法来提高鲁棒性,并使用留一法来校准阈值,从而提高了检测精度。
关键设计:LCF的关键设计包括:1) 使用对角马氏距离来衡量层间差异的异常程度,降低计算复杂度。2) 使用Ledoit-Wolf收缩方法来估计协方差矩阵,提高鲁棒性。3) 使用留一法在干净数据集上校准阈值,避免过拟合。4) 使用单个聚合分数来覆盖所有威胁家族,无需针对特定威胁进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LCF在多种模型和威胁场景下均表现出色。在Qwen2.5-7B和Gemma-2上,LCF将平均后门攻击成功率(ASR)降低到1%以下,Qwen2.5-14B上降低到1.3%。同时,LCF检测到92-100%的DAN越狱,并标记了所有文本有效负载注入,后门误报率为12-16%,推理开销小于0.1%。
🎯 应用场景
LCF可作为一种通用的运行时安全层,应用于云服务和设备端的大语言模型。它可以有效检测各种恶意行为,保护用户免受后门攻击、越狱攻击和提示注入攻击的威胁。该技术有助于提高大语言模型的安全性和可靠性,促进其在各个领域的广泛应用。
📄 摘要(原文)
Large language models deployed at runtime can misbehave in ways that clean-data validation cannot anticipate: training-time backdoors lie dormant until triggered, jailbreaks subvert safety alignment, and prompt injections override the deployer's instructions. Existing runtime defenses address these threats one at a time and often assume a clean reference model, trigger knowledge, or editable weights, assumptions that rarely hold for opaque third-party artifacts. We introduce Layerwise Convergence Fingerprinting (LCF), a tuning-free runtime monitor that treats the inter-layer hidden-state trajectory as a health signal: LCF computes a diagonal Mahalanobis distance on every inter-layer difference, aggregates via Ledoit-Wolf shrinkage, and thresholds via leave-one-out calibration on 200 clean examples, with no reference model, trigger knowledge, or retraining. Evaluated on four architectures (Llama-3-8B, Qwen2.5-7B, Gemma-2-9B, Qwen2.5-14B) across backdoors, jailbreaks, and prompt injection (56 backdoor combinations, 3 jailbreak techniques, and BIPIA email + code-QA), LCF reduces mean backdoor attack success rate (ASR) below 1% on Qwen2.5-7B and Gemma-2 and to 1.3% on Qwen2.5-14B, detects 92-100% of DAN jailbreaks (62-100% for GCG and softer role-play), and flags 100% of text-payload injections across all eight (model, domain) cells, at 12-16% backdoor FPR and <0.1% inference overhead. A single aggregation score covers all three threat families without threat-specific tuning, positioning LCF as a general-purpose runtime safety layer for cloud-served and on-device LLMs.