Segment-Level Coherence for Robust Harmful Intent Probing in LLMs

📄 arXiv: 2604.14865v1 📥 PDF

作者: Xuanli He, Bilgehan Sel, Faizan Ali, Jenny Bao, Hoagy Cunningham, Jerry Wei

分类: cs.CL, cs.CR

发布日期: 2026-04-16

备注: preprint


💡 一句话要点

提出基于片段一致性的流式探针,提升LLM在CBRN领域恶意意图检测的鲁棒性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 恶意意图检测 流式探针 片段一致性 CBRN安全

📋 核心要点

  1. 现有LLM恶意意图检测方法易受攻击,尤其是在CBRN领域,少量敏感词会导致误报。
  2. 提出基于片段一致性的流式探针,要求多个token共同支持恶意意图判断,提升检测鲁棒性。
  3. 实验表明,该方法在保持低误报率的同时,显著提升了真阳性率和AUROC,且能抵抗字符级密码攻击。

📝 摘要(中文)

大型语言模型(LLMs)越来越多地暴露于自适应的越狱攻击中,尤其是在高风险的化学、生物、放射性和核(CBRN)领域。虽然流式探针能够实现实时监控,但仍然存在系统性错误。我们发现一个核心问题:现有方法通常依赖于少数高分token,当敏感的CBRN术语出现在良性上下文中时,会导致误报。为了解决这个问题,我们引入了一种流式探测目标,该目标要求多个证据token一致地支持预测,而不是依赖于孤立的峰值。这鼓励了基于聚合信号而不是单token线索的更鲁棒的检测。在固定1%的假阳性率下,我们的方法相对于强大的流式基线,将真阳性率提高了35.55%。我们进一步观察到AUROC的显著提升,即使从接近饱和的基线性能(AUROC = 97.40%)开始。我们还表明,探测Attention或MLP激活始终优于残差流特征。最后,即使对抗性微调启用了新的字符级密码,恶意意图仍然可以检测到:为基础LLM开发的探针可以“即插即用”地应用于这些混淆的攻击,实现超过98.85%的AUROC。

🔬 方法详解

问题定义:现有LLM的恶意意图检测方法,特别是流式探针,容易受到上下文攻击的影响。它们通常依赖于少数几个高分token来判断是否存在恶意意图,这导致当敏感词汇出现在良性上下文中时,会产生大量的误报。尤其是在CBRN等专业领域,这种问题更为突出。

核心思路:论文的核心思路是引入“片段一致性”的概念。不再仅仅依赖于单个token的分数,而是要求在一段时间内的多个token都一致地支持恶意意图的判断。通过聚合多个token的证据,可以减少对单个token的依赖,从而提高检测的鲁棒性,降低误报率。

技术框架:该方法基于流式探针框架,对每个token进行实时检测。主要模块包括:1) 特征提取:从LLM的内部状态(如Attention或MLP激活)提取特征向量。2) 恶意意图评分:使用分类器(如线性层)对特征向量进行评分,判断该token是否指示恶意意图。3) 片段一致性评估:在一段时间窗口内,评估多个token的评分是否一致支持恶意意图。4) 最终判定:根据片段一致性评估的结果,做出最终的恶意意图判定。

关键创新:最重要的技术创新在于引入了片段一致性评估。与现有方法不同,该方法不再依赖于单个token的评分,而是要求多个token共同支持恶意意图的判断。这种方法能够有效减少对单个token的依赖,提高检测的鲁棒性。

关键设计:关键设计包括:1) 时间窗口大小的选择:需要根据具体的应用场景进行调整,以平衡检测的灵敏度和准确性。2) 一致性评估函数的设计:可以使用多种方法来评估片段内token评分的一致性,例如计算平均值、中位数或使用更复杂的统计模型。3) 特征提取位置的选择:实验表明,从Attention或MLP激活中提取特征通常比从残差流中提取特征效果更好。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在固定1%的假阳性率下,相对于强大的流式基线,将真阳性率提高了35.55%。即使从接近饱和的基线性能(AUROC = 97.40%)开始,AUROC也得到了显著提升。此外,该方法还能有效抵抗字符级密码攻击,在混淆攻击下仍能实现超过98.85%的AUROC,证明了其强大的鲁棒性。

🎯 应用场景

该研究成果可应用于各种需要实时监控LLM输出内容的场景,尤其是在高风险领域,如CBRN安全、网络安全和金融安全等。通过提高恶意意图检测的鲁棒性,可以有效防止LLM被用于生成有害内容或执行恶意任务,保障社会安全和稳定。未来,该方法可以进一步扩展到其他类型的攻击和混淆技术,提升LLM的整体安全性。

📄 摘要(原文)

Large Language Models (LLMs) are increasingly exposed to adaptive jailbreaking, particularly in high-stakes Chemical, Biological, Radiological, and Nuclear (CBRN) domains. Although streaming probes enable real-time monitoring, they still make systematic errors. We identify a core issue: existing methods often rely on a few high-scoring tokens, leading to false alarms when sensitive CBRN terms appear in benign contexts. To address this, we introduce a streaming probing objective that requires multiple evidence tokens to consistently support a prediction, rather than relying on isolated spikes. This encourages more robust detection based on aggregated signals instead of single-token cues. At a fixed 1% false-positive rate, our method improves the true-positive rate by 35.55% relative to strong streaming baselines. We further observe substantial gains in AUROC, even when starting from near-saturated baseline performance (AUROC = 97.40%). We also show that probing Attention or MLP activations consistently outperforms residual-stream features. Finally, even when adversarial fine-tuning enables novel character-level ciphers, harmful intent remains detectable: probes developed for the base LLMs can be applied ``plug-and-play'' to these obfuscated attacks, achieving an AUROC of over 98.85%.