CLASP: Defending Hybrid Large Language Models Against Hidden State Poisoning Attacks
作者: Alexandre Le Mercier, Thomas Demeester, Chris Develder
分类: cs.CL
发布日期: 2026-03-12
备注: 22 pages, 6 figures
💡 一句话要点
CLASP:防御混合大语言模型免受隐藏状态投毒攻击
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 隐藏状态投毒攻击 状态空间模型 大语言模型安全 XGBoost分类器 对抗性攻击防御
📋 核心要点
- 现有状态空间模型(SSM)易受隐藏状态投毒攻击(HiSPA),攻击通过恶意字符串破坏模型内存,威胁模型安全。
- CLASP模型将HiSPA防御视为token级别的二元分类问题,利用Mamba块输出嵌入的特征,使用XGBoost识别恶意token。
- 实验表明,CLASP在简历筛选场景下,对恶意token的检测F1分数达到95.9%(token级别)和99.3%(文档级别),且具有良好的泛化能力。
📝 摘要(中文)
随着Mamba等状态空间模型(SSM)作为Transformer的有效替代方案而备受关注,它们在保持竞争性能的同时实现了线性复杂度。然而,隐藏状态投毒攻击(HiSPA)是一种新发现的漏洞,它通过对抗性字符串破坏SSM的内存,对这些架构及其混合变体构成了严重威胁。本文将HiSPA缓解任务定义为token级别的二元分类问题,并提出了CLASP模型来防御这种威胁。CLASP利用Mamba的块输出嵌入(BOE)中的独特模式,并使用XGBoost分类器来识别恶意token,且计算开销极小。本文考虑了一个现实的场景,即SSM和HiSPA都可能被使用:LLM筛选简历以识别最佳候选人。在包含2,483份简历(总计950万个token)的语料库上进行评估,并通过受控注入,CLASP在恶意token检测方面实现了95.9%的token级别F1分数和99.3%的文档级别F1分数。至关重要的是,该模型可以推广到未见过的攻击模式:在留一法交叉验证下,性能保持较高水平(96.9%的文档级别F1),而在具有结构新颖触发器的聚类交叉验证下,它保持了有用的检测能力(平均91.6%的文档级别F1)。CLASP独立于任何下游模型运行,以每秒1,032个token的速度处理数据,且VRAM消耗低于4GB,使其可能适合作为基于SSM和混合架构的轻量级前线防御进行实际部署。所有代码和详细结果可在https://anonymous.4open.science/r/hispikes-91C0获取。
🔬 方法详解
问题定义:论文旨在解决大语言模型(特别是基于状态空间模型如Mamba的混合架构)中存在的隐藏状态投毒攻击(HiSPA)问题。现有方法缺乏有效的防御机制,使得攻击者可以通过精心构造的恶意字符串(触发器)来操纵模型的内部状态,从而影响模型的输出,造成安全隐患。
核心思路:论文的核心思路是利用状态空间模型(SSM)在受到HiSPA攻击时,其块输出嵌入(BOE)会呈现出与正常情况不同的模式。通过分析这些模式,可以识别出被恶意注入的token,从而实现对HiSPA的防御。这种方法无需修改底层模型,可以作为一种独立的防御层部署。
技术框架:CLASP的整体框架包括以下几个主要步骤:1)输入文本经过状态空间模型(如Mamba)处理,生成块输出嵌入(BOE);2)提取BOE的特征,这些特征能够反映token是否受到攻击的影响;3)使用XGBoost分类器对每个token进行二元分类,判断其是否为恶意token;4)根据token级别的分类结果,可以进一步判断整个文档是否受到攻击。
关键创新:CLASP的关键创新在于它利用了状态空间模型(SSM)的内部表示(即块输出嵌入BOE)的特性来检测攻击,而不是依赖于传统的输入过滤或对抗训练方法。这种方法能够有效地识别隐藏在输入中的恶意触发器,并且具有较低的计算开销。此外,CLASP具有良好的泛化能力,能够适应未见过的攻击模式。
关键设计:CLASP的关键设计包括:1)特征工程:选择合适的BOE特征,以区分正常token和恶意token。具体特征的选择未知,但应能反映攻击对模型内部状态的影响。2)XGBoost分类器:选择合适的XGBoost参数,以获得最佳的分类性能。3)评估指标:使用token级别和文档级别的F1分数来评估模型的性能。4)交叉验证策略:采用留一法交叉验证和聚类交叉验证来评估模型的泛化能力。
🖼️ 关键图片
📊 实验亮点
CLASP在包含2,483份简历的语料库上实现了95.9%的token级别F1分数和99.3%的文档级别F1分数。在留一法交叉验证下,文档级别F1分数保持在96.9%。在具有结构新颖触发器的聚类交叉验证下,平均文档级别F1分数为91.6%。CLASP能够以每秒1,032个token的速度处理数据,且VRAM消耗低于4GB,具有实际部署潜力。
🎯 应用场景
CLASP可应用于各种使用状态空间模型(SSM)或混合架构的大语言模型应用场景,例如简历筛选、文本摘要、机器翻译等。通过在模型前端部署CLASP,可以有效防御隐藏状态投毒攻击,提高模型的安全性和可靠性,保护用户免受恶意攻击的影响。该研究对于提升大语言模型在实际应用中的安全性具有重要意义。
📄 摘要(原文)
State space models (SSMs) like Mamba have gained significant traction as efficient alternatives to Transformers, achieving linear complexity while maintaining competitive performance. However, Hidden State Poisoning Attacks (HiSPAs), a recently discovered vulnerability that corrupts SSM memory through adversarial strings, pose a critical threat to these architectures and their hybrid variants. Framing the HiSPA mitigation task as a binary classification problem at the token level, we introduce the CLASP model to defend against this threat. CLASP exploits distinct patterns in Mamba's block output embeddings (BOEs) and uses an XGBoost classifier to identify malicious tokens with minimal computational overhead. We consider a realistic scenario in which both SSMs and HiSPAs are likely to be used: an LLM screening résumés to identify the best candidates for a role. Evaluated on a corpus of 2,483 résumés totaling 9.5M tokens with controlled injections, CLASP achieves 95.9% token-level F1 score and 99.3% document-level F1 score on malicious tokens detection. Crucially, the model generalizes to unseen attack patterns: under leave-one-out cross-validation, performance remains high (96.9% document-level F1), while under clustered cross-validation with structurally novel triggers, it maintains useful detection capability (91.6% average document-level F1). Operating independently of any downstream model, CLASP processes 1,032 tokens per second with under 4GB VRAM consumption, potentially making it suitable for real-world deployment as a lightweight front-line defense for SSM-based and hybrid architectures. All code and detailed results are available at https://anonymous.4open.science/r/hispikes-91C0.