Manifold of Failure: Behavioral Attraction Basins in Language Models

📄 arXiv: 2602.22291 📥 PDF

作者: Sarthak Munshi, Manish Bhatt, Vineeth Sai Narajala, Idan Habler, AmmarnAl-Kahfah, Ken Huang, Blake Gatto

分类: cs.LG, cs.AI, cs.CR

发布日期: 2026-02-28


💡 一句话要点

提出基于质量多样性搜索的框架,系统性地绘制大语言模型失效域流形。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 安全性 对抗攻击 质量多样性 MAP-Elites 失效域流形 对齐偏差

📋 核心要点

  1. 现有方法侧重于将对抗样本投影回安全区域,忽略了对模型失效区域的系统性探索和理解。
  2. 论文提出利用质量多样性算法MAP-Elites,以“对齐偏差”为指标,系统性地绘制LLM的失效域流形,揭示其拓扑结构。
  3. 实验表明,该方法能有效发现不同LLM的漏洞生态位,并揭示模型间安全性的显著差异,提供全局安全景观图。

📝 摘要(中文)

现有工作主要集中于将对抗样本投影回自然数据流形以恢复安全性,但本文认为,对AI安全性的全面理解需要刻画不安全区域本身。本文提出了一个框架,用于系统性地绘制大语言模型(LLM)中的失效域流形。我们将寻找漏洞重新定义为一个质量多样性问题,使用MAP-Elites算法来揭示这些失效区域的连续拓扑结构,我们称之为行为吸引盆地。我们的质量指标“对齐偏差”引导搜索朝着模型行为与预期对齐偏离最大的区域前进。在三个LLM模型:Llama-3-8B、GPT-OSS-20B和GPT-5-Mini上,我们展示了MAP-Elites算法实现了高达63%的行为覆盖率,发现了高达370个不同的漏洞生态位,并揭示了显著不同的模型特定拓扑特征:Llama-3-8B表现出近乎普遍的漏洞平台(平均对齐偏差0.93),GPT-OSS-20B显示出一个碎片化的景观,具有空间集中的盆地(平均0.73),而GPT-5-Mini表现出强大的鲁棒性,上限为0.50。我们的方法生成了每个模型安全景观的可解释的全局地图,这是任何现有攻击方法(GCG、PAIR或TAP)都无法提供的,从而将范式从寻找离散的失败转变为理解其底层结构。

🔬 方法详解

问题定义:现有的大语言模型安全性研究主要集中在寻找和缓解特定的对抗性攻击,缺乏对模型失效行为的全局理解和系统性分析。现有方法难以揭示模型在何种输入下会产生不符合预期的行为,以及这些失效行为之间的关系,从而难以构建全面的安全防御体系。

核心思路:论文将寻找LLM的漏洞视为一个质量多样性问题,即不仅要找到尽可能多的漏洞,还要保证这些漏洞的多样性,从而全面覆盖模型的失效行为空间。通过绘制“失效域流形”,可以理解模型在不同输入下的行为模式,以及这些行为模式之间的联系。

技术框架:该方法的核心是使用MAP-Elites算法来探索LLM的输入空间,并根据“对齐偏差”指标来评估每个输入的质量。MAP-Elites算法维护一个由不同“生态位”组成的存档,每个生态位代表一种特定的模型行为。算法通过迭代地生成新的输入,并将其分配到最合适的生态位中,从而逐步填充整个失效域流形。整体流程包括:1. 定义行为特征(例如,生成的文本的情感、主题等);2. 使用MAP-Elites算法探索输入空间,生成具有不同行为特征的输入;3. 使用“对齐偏差”指标评估每个输入的质量,并将其添加到相应的生态位中;4. 可视化失效域流形,分析模型的安全特性。

关键创新:该方法的核心创新在于将质量多样性算法应用于LLM的安全性分析,并提出了“对齐偏差”这一新的质量指标。与传统的对抗攻击方法相比,该方法能够更全面地探索模型的失效行为空间,并揭示模型安全性的全局特征。此外,该方法还能够生成可解释的失效域流形,帮助研究人员理解模型在不同输入下的行为模式。

关键设计:关键设计包括:1. “对齐偏差”指标的定义,用于衡量模型行为与预期行为之间的差异;2. 行为特征的选择,用于定义不同的生态位;3. MAP-Elites算法的参数设置,例如种群大小、迭代次数等;4. 失效域流形的可视化方法,用于呈现模型的安全特性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MAP-Elites算法能够有效地探索LLM的失效域流形,并发现不同模型的漏洞生态位。Llama-3-8B表现出近乎普遍的漏洞平台(平均对齐偏差0.93),GPT-OSS-20B显示出一个碎片化的景观(平均0.73),而GPT-5-Mini表现出强大的鲁棒性(上限为0.50)。该方法实现了高达63%的行为覆盖率,发现了高达370个不同的漏洞生态位,优于现有的攻击方法。

🎯 应用场景

该研究成果可应用于大语言模型的安全性评估和提升。通过绘制失效域流形,可以帮助开发者更好地理解模型的安全边界,并针对性地进行改进。此外,该方法还可以用于检测和防御对抗性攻击,提高模型的鲁棒性。该研究对于构建更安全、可靠的AI系统具有重要意义。

📄 摘要(原文)

While prior work has focused on projecting adversarial examples back onto the manifold of natural data to restore safety, we argue that a comprehensive understanding of AI safety requires characterizing the unsafe regions themselves. This paper introduces a framework for systematically mapping the Manifold of Failure in Large Language Models (LLMs). We reframe the search for vulnerabilities as a quality diversity problem, using MAP-Elites to illuminate the continuous topology of these failure regions, which we term behavioral attraction basins. Our quality metric, Alignment Deviation, guides the search towards areas where the model's behavior diverges most from its intended alignment. Across three LLMs: Llama-3-8B, GPT-OSS-20B, and GPT-5-Mini, we show that MAP-Elites achieves up to 63% behavioral coverage, discovers up to 370 distinct vulnerability niches, and reveals dramatically different model-specific topological signatures: Llama-3-8B exhibits a near-universal vulnerability plateau (mean Alignment Deviation 0.93), GPT-OSS-20B shows a fragmented landscape with spatially concentrated basins (mean 0.73), and GPT-5-Mini demonstrates strong robustness with a ceiling at 0.50. Our approach produces interpretable, global maps of each model's safety landscape that no existing attack method (GCG, PAIR, or TAP) can provide, shifting the paradigm from finding discrete failures to understanding their underlying structure.