TreeTeaming: Autonomous Red-Teaming of Vision-Language Models via Hierarchical Strategy Exploration

📄 arXiv: 2603.22882v1 📥 PDF

作者: Chunxiao Li, Lijun Li, Jing Shao

分类: cs.LG, cs.CV

发布日期: 2026-03-24

备注: CVPR2026


💡 一句话要点

TreeTeaming:通过分层策略探索实现视觉-语言模型的自主红队测试

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 红队测试 自动化攻击 漏洞挖掘 策略探索 大型语言模型 安全性评估

📋 核心要点

  1. 现有红队测试方法受限于线性探索,无法发现VLM模型中新颖多样的攻击方式。
  2. TreeTeaming通过LLM驱动的策略编排器,动态构建和扩展策略树,实现策略的进化式探索。
  3. 实验表明,TreeTeaming在多个VLM上实现了SOTA攻击成功率,并提升了策略多样性,降低了攻击毒性。

📝 摘要(中文)

视觉-语言模型(VLM)的快速发展使其安全漏洞日益突出。然而,现有的红队测试方法受到线性探索模式的限制,只能在预定义的策略集中进行优化,无法发现新颖且多样的攻击方式。为了克服这一限制,我们提出了TreeTeaming,一个自动化的红队测试框架,它将策略探索从静态测试转变为动态的、进化式的发现过程。其核心是一个由大型语言模型(LLM)驱动的策略编排器,它自主决定是进化有希望的攻击路径还是探索不同的策略分支,从而动态地构建和扩展策略树。然后,多模态执行器负责执行这些复杂的策略。在对12个主流VLM的实验中,TreeTeaming在11个模型上实现了最先进的攻击成功率,优于现有方法,在GPT-4o上达到了87.60%。该框架还展示了优于先前公开的越狱策略的策略多样性。此外,生成的攻击平均毒性降低了23.09%,展示了它们的隐蔽性和微妙性。我们的工作为自动漏洞发现引入了一种新的范例,强调了主动探索超越静态启发式方法以保护前沿AI模型的必要性。

🔬 方法详解

问题定义:现有视觉-语言模型(VLM)的红队测试方法主要采用线性探索模式,即在预定义的攻击策略集合中进行优化。这种方法无法发现模型潜在的、未知的漏洞,限制了攻击的多样性和有效性。因此,需要一种能够自主探索和发现新攻击策略的红队测试框架。

核心思路:TreeTeaming的核心思路是将红队测试过程视为一个动态的、进化式的策略发现过程。通过构建一个策略树,框架能够自主地探索不同的攻击路径,并根据攻击效果动态调整策略。这种方法突破了线性探索的限制,能够发现更多样、更有效的攻击策略。

技术框架:TreeTeaming框架包含两个主要模块:策略编排器(Orchestrator)和多模态执行器(Actuator)。策略编排器由大型语言模型(LLM)驱动,负责决定是进化已有的攻击路径,还是探索新的策略分支,从而构建和扩展策略树。多模态执行器负责执行策略编排器生成的复杂攻击策略,并根据执行结果反馈给策略编排器,用于指导策略的进化和探索。

关键创新:TreeTeaming的关键创新在于其动态策略探索机制。与传统的静态策略集合不同,TreeTeaming通过LLM的自主决策能力,能够动态地生成和调整攻击策略,从而实现更高效的漏洞发现。这种方法将红队测试从静态的验证过程转变为动态的发现过程。

关键设计:策略编排器使用LLM生成攻击策略,并根据攻击成功率和策略多样性等指标进行评估。策略树的构建和扩展过程受到多种因素的影响,例如攻击成本、攻击成功率和策略多样性。多模态执行器需要能够处理各种类型的输入数据,例如图像、文本和音频,并生成相应的攻击指令。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TreeTeaming在12个主流VLM上进行了实验,在11个模型上取得了SOTA的攻击成功率,尤其是在GPT-4o上达到了87.60%。与现有的越狱策略相比,TreeTeaming生成的攻击策略具有更高的多样性。此外,生成的攻击平均毒性降低了23.09%,表明其具有更好的隐蔽性。

🎯 应用场景

TreeTeaming可应用于各种视觉-语言模型的安全评估和漏洞挖掘。通过自动化地发现模型中的安全漏洞,可以帮助开发者及时修复这些漏洞,提高模型的安全性和可靠性。此外,该框架还可以用于评估不同模型的安全性,为用户选择合适的模型提供参考。未来,该技术有望应用于更广泛的人工智能安全领域,例如自动驾驶、智能家居等。

📄 摘要(原文)

The rapid advancement of Vision-Language Models (VLMs) has brought their safety vulnerabilities into sharp focus. However, existing red teaming methods are fundamentally constrained by an inherent linear exploration paradigm, confining them to optimizing within a predefined strategy set and preventing the discovery of novel, diverse exploits. To transcend this limitation, we introduce TreeTeaming, an automated red teaming framework that reframes strategy exploration from static testing to a dynamic, evolutionary discovery process. At its core lies a strategic Orchestrator, powered by a Large Language Model (LLM), which autonomously decides whether to evolve promising attack paths or explore diverse strategic branches, thereby dynamically constructing and expanding a strategy tree. A multimodal actuator is then tasked with executing these complex strategies. In the experiments across 12 prominent VLMs, TreeTeaming achieves state-of-the-art attack success rates on 11 models, outperforming existing methods and reaching up to 87.60\% on GPT-4o. The framework also demonstrates superior strategic diversity over the union of previously public jailbreak strategies. Furthermore, the generated attacks exhibit an average toxicity reduction of 23.09\%, showcasing their stealth and subtlety. Our work introduces a new paradigm for automated vulnerability discovery, underscoring the necessity of proactive exploration beyond static heuristics to secure frontier AI models.