Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions

📄 arXiv: 2501.01872v6 📥 PDF

作者: Rachneet Sachdeva, Rima Hazra, Iryna Gurevych

分类: cs.CL

发布日期: 2025-01-03 (更新: 2025-09-30)

备注: Accepted at EMNLP 2025 (Main)


💡 一句话要点

提出POATE对比问答攻击方法,揭示并防御大语言模型推理漏洞

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 对抗攻击 越狱攻击 对比推理 安全防御

📋 核心要点

  1. 现有大语言模型安全措施难以检测推理驱动的恶意攻击,存在安全漏洞。
  2. 提出POATE方法,通过构造对比性问题和对抗模板,诱导模型产生有害输出。
  3. 实验表明POATE攻击成功率显著高于现有方法,并提出Intent-Aware CoT和Reverse Thinking CoT进行防御。

📝 摘要(中文)

大型语言模型虽然在人类价值观和伦理原则上进行了广泛的对齐,但仍然容易受到利用其推理能力的复杂越狱攻击。现有的安全措施通常可以检测到明显的恶意意图,但无法解决微妙的、推理驱动的漏洞。本文介绍了一种新的越狱技术POATE(极性相反查询生成、对抗模板构建和细化),它利用对比推理来引发不道德的响应。POATE精心设计语义上相反的意图,并将它们与对抗模板集成,以显著的巧妙性引导模型产生有害的输出。我们在六个不同参数规模的语言模型家族中进行了广泛的评估,以证明攻击的鲁棒性,与现有方法相比,攻击成功率显著提高(约44%)。为了应对这种情况,我们提出了Intent-Aware CoT和Reverse Thinking CoT,它们分解查询以检测恶意意图,并反向推理以评估和拒绝有害响应。这些方法增强了推理的鲁棒性,并加强了模型对对抗性利用的防御。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在面对利用推理能力的对抗性攻击时,现有防御机制的不足问题。现有方法通常侧重于检测明显的恶意意图,而忽略了通过巧妙推理诱导模型产生有害输出的情况,导致模型存在安全漏洞。

核心思路:论文的核心思路是利用对比推理,通过构造语义相反的意图,并将其与对抗模板相结合,从而诱导模型产生不道德或有害的响应。这种方法旨在利用模型在处理复杂推理任务时的弱点,使其在不知不觉中违反安全规则。

技术框架:POATE攻击框架包含三个主要阶段:1) 极性相反查询生成(Polar Opposite query generation):生成语义相反的查询意图。2) 对抗模板构建(Adversarial Template construction):将生成的查询意图嵌入到对抗模板中,以引导模型产生有害输出。3) 细化(Elaboration):对生成的对抗性查询进行细化,以提高攻击的成功率。同时,论文提出了两种防御方法:Intent-Aware CoT和Reverse Thinking CoT,分别通过分解查询检测恶意意图和反向推理评估有害响应来增强模型的鲁棒性。

关键创新:POATE的关键创新在于其利用对比推理来构造对抗性查询。与传统的攻击方法不同,POATE不直接注入恶意指令,而是通过微妙的语义操纵,利用模型自身的推理能力来达到攻击目的。这种方法更难以被现有的安全机制检测到,因此更具威胁性。

关键设计:POATE在生成对比性问题时,需要仔细设计语义相反的意图,以确保其能够有效地引导模型产生有害输出。对抗模板的设计也至关重要,需要能够巧妙地将恶意意图隐藏在看似无害的上下文中。防御方法Intent-Aware CoT通过分解查询,利用CoT(Chain-of-Thought)推理链来识别潜在的恶意意图。Reverse Thinking CoT则通过反向推理,评估模型生成的响应是否符合伦理和安全标准。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,POATE攻击在六个不同参数规模的语言模型家族中均取得了显著的成功,攻击成功率高达约44%,远高于现有攻击方法。这表明POATE是一种非常有效的越狱技术。同时,Intent-Aware CoT和Reverse Thinking CoT等防御方法能够有效降低POATE攻击的成功率,提升模型的安全性。

🎯 应用场景

该研究成果可应用于评估和提升大型语言模型的安全性,尤其是在面对复杂的推理驱动的对抗性攻击时。通过POATE方法,可以发现模型潜在的安全漏洞,并为开发更有效的防御机制提供指导。此外,Intent-Aware CoT和Reverse Thinking CoT等防御方法可以集成到现有的语言模型安全框架中,以提高模型的鲁棒性和可靠性。

📄 摘要(原文)

Large language models, despite extensive alignment with human values and ethical principles, remain vulnerable to sophisticated jailbreak attacks that exploit their reasoning abilities. Existing safety measures often detect overt malicious intent but fail to address subtle, reasoning-driven vulnerabilities. In this work, we introduce POATE (Polar Opposite query generation, Adversarial Template construction, and Elaboration), a novel jailbreak technique that harnesses contrastive reasoning to provoke unethical responses. POATE crafts semantically opposing intents and integrates them with adversarial templates, steering models toward harmful outputs with remarkable subtlety. We conduct extensive evaluation across six diverse language model families of varying parameter sizes to demonstrate the robustness of the attack, achieving significantly higher attack success rates (~44%) compared to existing methods. To counter this, we propose Intent-Aware CoT and Reverse Thinking CoT, which decompose queries to detect malicious intent and reason in reverse to evaluate and reject harmful responses. These methods enhance reasoning robustness and strengthen the model's defense against adversarial exploits.