Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs
作者: Haoming Yang, Ke Ma, Xiaojun Jia, Yingfei Sun, Qianqian Xu, Qingming Huang
分类: cs.CL, cs.AI
发布日期: 2025-05-03 (更新: 2025-06-27)
💡 一句话要点
ICRT框架:利用人类认知偏差诱导大语言模型产生有害内容
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 越狱攻击 认知偏差 启发式算法 安全评估
📋 核心要点
- 现有LLM越狱攻击方法依赖蛮力或人工设计,缺乏对真实场景风险的有效揭示。
- ICRT框架模拟人类认知偏差,通过认知分解和相关性偏差诱导LLM生成有害内容。
- ICRT引入基于排序的有害性评估指标,更全面地量化生成内容的风险程度。
📝 摘要(中文)
尽管大型语言模型(LLMs)表现出色,但它们仍然容易受到越狱攻击,从而危及其安全机制。现有研究通常依赖于蛮力优化或手动设计,未能揭示真实场景中的潜在风险。为了解决这个问题,我们提出了一种新颖的越狱攻击框架ICRT,其灵感来源于人类认知中的启发式和偏差。利用简单性效应,我们采用认知分解来降低恶意提示的复杂性。同时,利用相关性偏差来重组提示,增强语义对齐,并有效地诱导有害输出。此外,我们引入了一种基于排序的有害性评估指标,通过采用Elo、HodgeRank和Rank Centrality等排序聚合方法来全面量化生成内容的有害性,从而超越了传统的二元成功或失败范式。实验结果表明,我们的方法始终能绕过主流LLM的安全机制并生成高风险内容,为越狱攻击风险提供了见解,并有助于制定更强大的防御策略。
🔬 方法详解
问题定义:论文旨在解决现有大语言模型(LLM)越狱攻击方法的不足,即现有方法依赖于蛮力搜索或人工设计,难以有效发现和利用LLM在真实场景中的潜在安全漏洞。这些方法通常无法充分模拟人类认知过程中的弱点,从而限制了攻击的有效性和泛化能力。
核心思路:论文的核心思路是借鉴人类认知中的启发式和偏差,设计一种更贴近人类思维模式的越狱攻击方法。具体而言,该方法模拟了人类在处理复杂问题时常有的“只见树木,不见森林”的认知局限,通过简化恶意提示和增强提示的相关性,诱导LLM产生有害输出。
技术框架:ICRT框架包含两个主要阶段:提示生成和有害性评估。在提示生成阶段,首先利用认知分解(Cognitive Decomposition)将复杂的恶意意图分解为更简单的子任务,降低提示的复杂性。然后,利用相关性偏差(Relevance Bias)对提示进行重组,增强提示与恶意意图的语义对齐。在有害性评估阶段,采用一种基于排序的有害性评估指标,利用Elo、HodgeRank和Rank Centrality等排序聚合方法,对生成的文本进行排序,从而更全面地量化其有害程度。
关键创新:该论文的关键创新在于将人类认知偏差引入到LLM越狱攻击中。与传统的基于优化或人工设计的攻击方法不同,ICRT框架模拟了人类认知过程中的弱点,从而能够更有效地绕过LLM的安全机制。此外,基于排序的有害性评估指标也超越了传统的二元评估方法,提供了更细粒度的有害性评估。
关键设计:在认知分解中,论文采用了一种启发式的方法将复杂的恶意意图分解为多个简单的子任务。在相关性偏差中,论文设计了一种基于语义相似度的提示重组策略,以增强提示与恶意意图的对齐。在有害性评估中,论文采用了多种排序聚合方法,并对不同方法的权重进行了实验分析。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ICRT框架能够有效绕过主流LLM的安全机制,并生成高风险内容。与现有攻击方法相比,ICRT在多个LLM上都取得了显著的性能提升,表明其具有更强的攻击能力和泛化性。基于排序的有害性评估指标也能够更准确地量化生成内容的风险程度。
🎯 应用场景
该研究成果可应用于评估和提升大型语言模型的安全性。通过模拟真实场景下的攻击,可以发现LLM潜在的安全漏洞,并为开发更有效的防御机制提供指导。此外,该研究提出的有害性评估方法也可用于评估LLM生成内容的风险程度,从而帮助开发者更好地控制LLM的行为。
📄 摘要(原文)
Despite the remarkable performance of Large Language Models (LLMs), they remain vulnerable to jailbreak attacks, which can compromise their safety mechanisms. Existing studies often rely on brute-force optimization or manual design, failing to uncover potential risks in real-world scenarios. To address this, we propose a novel jailbreak attack framework, ICRT, inspired by heuristics and biases in human cognition. Leveraging the simplicity effect, we employ cognitive decomposition to reduce the complexity of malicious prompts. Simultaneously, relevance bias is utilized to reorganize prompts, enhancing semantic alignment and inducing harmful outputs effectively. Furthermore, we introduce a ranking-based harmfulness evaluation metric that surpasses the traditional binary success-or-failure paradigm by employing ranking aggregation methods such as Elo, HodgeRank, and Rank Centrality to comprehensively quantify the harmfulness of generated content. Experimental results show that our approach consistently bypasses mainstream LLMs' safety mechanisms and generates high-risk content, providing insights into jailbreak attack risks and contributing to stronger defense strategies.