Segment-Level Coherence for Robust Harmful Intent Probing in LLMs

作者: Xuanli He, Bilgehan Sel, Faizan Ali, Jenny Bao, Hoagy Cunningham, Jerry Wei

分类: cs.CL, cs.CR

发布日期: 2026-04-16

备注: preprint

💡 一句话要点

提出基于片段一致性的流式探针，提升LLM在CBRN领域恶意意图检测的鲁棒性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 恶意意图检测 流式探针 片段一致性 CBRN安全

📋 核心要点

现有LLM恶意意图检测方法易受攻击，尤其是在CBRN领域，少量敏感词会导致误报。
提出基于片段一致性的流式探针，要求多个token共同支持恶意意图判断，提升检测鲁棒性。
实验表明，该方法在保持低误报率的同时，显著提升了真阳性率和AUROC，且能抵抗字符级密码攻击。

📝 摘要（中文）

大型语言模型（LLMs）越来越多地暴露于自适应的越狱攻击中，尤其是在高风险的化学、生物、放射性和核（CBRN）领域。虽然流式探针能够实现实时监控，但仍然存在系统性错误。我们发现一个核心问题：现有方法通常依赖于少数高分token，当敏感的CBRN术语出现在良性上下文中时，会导致误报。为了解决这个问题，我们引入了一种流式探测目标，该目标要求多个证据token一致地支持预测，而不是依赖于孤立的峰值。这鼓励了基于聚合信号而不是单token线索的更鲁棒的检测。在固定1%的假阳性率下，我们的方法相对于强大的流式基线，将真阳性率提高了35.55%。我们进一步观察到AUROC的显著提升，即使从接近饱和的基线性能（AUROC = 97.40%）开始。我们还表明，探测Attention或MLP激活始终优于残差流特征。最后，即使对抗性微调启用了新的字符级密码，恶意意图仍然可以检测到：为基础LLM开发的探针可以“即插即用”地应用于这些混淆的攻击，实现超过98.85%的AUROC。

🔬 方法详解

问题定义：现有LLM的恶意意图检测方法，特别是流式探针，容易受到上下文攻击的影响。它们通常依赖于少数几个高分token来判断是否存在恶意意图，这导致当敏感词汇出现在良性上下文中时，会产生大量的误报。尤其是在CBRN等专业领域，这种问题更为突出。

核心思路：论文的核心思路是引入“片段一致性”的概念。不再仅仅依赖于单个token的分数，而是要求在一段时间内的多个token都一致地支持恶意意图的判断。通过聚合多个token的证据，可以减少对单个token的依赖，从而提高检测的鲁棒性，降低误报率。

技术框架：该方法基于流式探针框架，对每个token进行实时检测。主要模块包括：1) 特征提取：从LLM的内部状态（如Attention或MLP激活）提取特征向量。2) 恶意意图评分：使用分类器（如线性层）对特征向量进行评分，判断该token是否指示恶意意图。3) 片段一致性评估：在一段时间窗口内，评估多个token的评分是否一致支持恶意意图。4) 最终判定：根据片段一致性评估的结果，做出最终的恶意意图判定。

关键创新：最重要的技术创新在于引入了片段一致性评估。与现有方法不同，该方法不再依赖于单个token的评分，而是要求多个token共同支持恶意意图的判断。这种方法能够有效减少对单个token的依赖，提高检测的鲁棒性。

关键设计：关键设计包括：1) 时间窗口大小的选择：需要根据具体的应用场景进行调整，以平衡检测的灵敏度和准确性。2) 一致性评估函数的设计：可以使用多种方法来评估片段内token评分的一致性，例如计算平均值、中位数或使用更复杂的统计模型。3) 特征提取位置的选择：实验表明，从Attention或MLP激活中提取特征通常比从残差流中提取特征效果更好。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在固定1%的假阳性率下，相对于强大的流式基线，将真阳性率提高了35.55%。即使从接近饱和的基线性能（AUROC = 97.40%）开始，AUROC也得到了显著提升。此外，该方法还能有效抵抗字符级密码攻击，在混淆攻击下仍能实现超过98.85%的AUROC，证明了其强大的鲁棒性。

🎯 应用场景

该研究成果可应用于各种需要实时监控LLM输出内容的场景，尤其是在高风险领域，如CBRN安全、网络安全和金融安全等。通过提高恶意意图检测的鲁棒性，可以有效防止LLM被用于生成有害内容或执行恶意任务，保障社会安全和稳定。未来，该方法可以进一步扩展到其他类型的攻击和混淆技术，提升LLM的整体安全性。

📄 摘要（原文）

Large Language Models (LLMs) are increasingly exposed to adaptive jailbreaking, particularly in high-stakes Chemical, Biological, Radiological, and Nuclear (CBRN) domains. Although streaming probes enable real-time monitoring, they still make systematic errors. We identify a core issue: existing methods often rely on a few high-scoring tokens, leading to false alarms when sensitive CBRN terms appear in benign contexts. To address this, we introduce a streaming probing objective that requires multiple evidence tokens to consistently support a prediction, rather than relying on isolated spikes. This encourages more robust detection based on aggregated signals instead of single-token cues. At a fixed 1% false-positive rate, our method improves the true-positive rate by 35.55% relative to strong streaming baselines. We further observe substantial gains in AUROC, even when starting from near-saturated baseline performance (AUROC = 97.40%). We also show that probing Attention or MLP activations consistently outperforms residual-stream features. Finally, even when adversarial fine-tuning enables novel character-level ciphers, harmful intent remains detectable: probes developed for the base LLMs can be applied ``plug-and-play'' to these obfuscated attacks, achieving an AUROC of over 98.85%.

Segment-Level Coherence for Robust Harmful Intent Probing in LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理