Rethinking Jailbreak Detection of Large Vision Language Models with Representational Contrastive Scoring
作者: Peichun Hua, Hao Li, Shanghao Shi, Zhiyuan Yu, Ning Zhang
分类: cs.CR, cs.AI, cs.CL, cs.LG
发布日期: 2025-12-12 (更新: 2026-01-07)
备注: 37 pages, 13 figures
🔗 代码/项目: GITHUB
💡 一句话要点
提出RCS框架,利用表征对比评分提升大型视觉语言模型的越狱攻击检测能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 越狱攻击检测 表征学习 对比学习 异常检测
📋 核心要点
- 现有LVLM越狱检测方法泛化性不足,或计算开销过高,难以应对新型攻击。
- RCS框架通过对比LVLM内部表征,区分良性和恶意输入,提升检测准确性。
- MCD和KCD在未见攻击类型上实现了SOTA性能,验证了RCS的有效性。
📝 摘要(中文)
大型视觉语言模型(LVLMs)容易受到越来越多的多模态越狱攻击,因此需要防御机制,既能推广到新的威胁,又能高效地进行实际部署。许多现有策略都存在不足,要么针对特定的攻击模式,限制了泛化能力,要么带来了很高的计算开销。轻量级的异常检测方法提供了一个有希望的方向,但我们发现它们常见的单类设计容易将新的良性输入与恶意输入混淆,导致不可靠的过度拒绝。为了解决这个问题,我们提出了表征对比评分(RCS)框架,该框架建立在一个关键的洞察之上:最有效的安全信号存在于LVLM自身的内部表征中。我们的方法检查这些表征的内部几何结构,学习一个轻量级的投影,以最大限度地分离安全关键层中的良性和恶意输入。这使得一个简单而强大的对比评分能够区分真正的恶意意图和单纯的新颖性。我们的实例化,MCD(马氏距离对比检测)和KCD(K近邻对比检测),在一个旨在测试推广到未见攻击类型的具有挑战性的评估协议上实现了最先进的性能。这项工作表明,通过将简单、可解释的统计方法应用于适当的内部表征,可以实现有效的越狱检测,为更安全的LVLM部署提供了一条可行的途径。我们的代码可在Github上找到。
🔬 方法详解
问题定义:论文旨在解决大型视觉语言模型(LVLMs)容易受到多模态越狱攻击的问题。现有防御方法要么针对特定攻击模式,泛化能力差;要么计算开销大,难以实际部署。轻量级异常检测方法虽然有潜力,但容易将正常的、新的输入误判为恶意攻击,导致过度拒绝。
核心思路:论文的核心思路是利用LVLM自身内部表征中蕴含的安全信号。通过学习一个轻量级的投影,将良性和恶意输入在表征空间中尽可能地分离,从而实现更准确的越狱检测。这种方法避免了直接分析输入文本或图像,而是关注模型内部对安全性的判断。
技术框架:RCS框架包含以下主要步骤:1) 从LVLM的安全关键层提取内部表征;2) 学习一个投影矩阵,将表征映射到新的空间,使得良性和恶意输入的距离最大化;3) 使用对比评分函数(如马氏距离或K近邻距离)来区分良性和恶意输入。整体流程简单高效,易于部署。
关键创新:论文的关键创新在于利用对比学习的思想,将越狱检测问题转化为表征空间的区分问题。与传统的异常检测方法不同,RCS不是简单地将所有非正常输入视为恶意,而是通过对比良性和恶意输入的表征,更准确地判断恶意意图。这种方法能够更好地应对新型攻击,提高泛化能力。
关键设计:论文提出了两种具体的RCS实例化方法:MCD(Mahalanobis Contrastive Detection)和KCD(K-nearest Contrastive Detection)。MCD使用马氏距离作为对比评分函数,需要计算良性输入的协方差矩阵。KCD使用K近邻距离作为对比评分函数,需要选择合适的K值。投影矩阵的学习可以通过对比损失函数来实现,例如最大化良性和恶意输入之间的距离,同时最小化同类输入之间的距离。
🖼️ 关键图片
📊 实验亮点
论文提出的MCD和KCD方法在未见攻击类型上取得了state-of-the-art的性能,显著优于现有方法。实验结果表明,RCS框架能够有效区分良性和恶意输入,提高越狱检测的准确性和泛化能力。具体性能数据在论文中详细展示。
🎯 应用场景
该研究成果可应用于增强大型视觉语言模型的安全性,防止恶意用户利用越狱攻击绕过安全机制。这对于保护用户免受有害信息、不当内容和潜在欺诈行为的侵害至关重要。该方法可集成到LVLM的部署流程中,提高模型的鲁棒性和可靠性。
📄 摘要(原文)
Large Vision-Language Models (LVLMs) are vulnerable to a growing array of multimodal jailbreak attacks, necessitating defenses that are both generalizable to novel threats and efficient for practical deployment. Many current strategies fall short, either targeting specific attack patterns, which limits generalization, or imposing high computational overhead. While lightweight anomaly-detection methods offer a promising direction, we find that their common one-class design tends to confuse novel benign inputs with malicious ones, leading to unreliable over-rejection. To address this, we propose Representational Contrastive Scoring (RCS), a framework built on a key insight: the most potent safety signals reside within the LVLM's own internal representations. Our approach inspects the internal geometry of these representations, learning a lightweight projection to maximally separate benign and malicious inputs in safety-critical layers. This enables a simple yet powerful contrastive score that differentiates true malicious intent from mere novelty. Our instantiations, MCD (Mahalanobis Contrastive Detection) and KCD (K-nearest Contrastive Detection), achieve state-of-the-art performance on a challenging evaluation protocol designed to test generalization to unseen attack types. This work demonstrates that effective jailbreak detection can be achieved by applying simple, interpretable statistical methods to the appropriate internal representations, offering a practical path towards safer LVLM deployment. Our code is available on Github https://github.com/sarendis56/Jailbreak_Detection_RCS.