SoK: DARPA's AI Cyber Challenge (AIxCC): Competition Design, Architectures, and Lessons Learned

📄 arXiv: 2602.07666v2 📥 PDF

作者: Cen Zhang, Younggi Park, Fabian Fleischer, Yu-Fu Fu, Jiho Kim, Dongkwan Kim, Youngjoon Kim, Qingxiao Xu, Andrew Chin, Ze Sheng, Hanqing Zhao, Brian J. Lee, Joshua Wang, Michael Pelican, David J. Musliner, Jeff Huang, Jon Silliman, Mikel Mcdaniel, Jefferson Casavant, Isaac Goldthwaite, Nicholas Vidovich, Matthew Lehman, Taesoo Kim

分类: cs.CR, cs.AI

发布日期: 2026-02-07 (更新: 2026-02-18)

备注: Version 1.1 (February 2026). Systematization of Knowledge and post-competition analysis of DARPA AIxCC (2023-2025)


💡 一句话要点

AIxCC挑战赛分析:利用AI自主发现并修复开源软件漏洞

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 网络安全 人工智能 漏洞挖掘 大型语言模型 自主系统 AIxCC 开源软件

📋 核心要点

  1. 现有方法难以有效发现和修复复杂开源软件中的安全漏洞,需要更智能化的自动化方案。
  2. AIxCC挑战赛旨在利用AI技术,特别是大型语言模型,构建能够自主进行漏洞挖掘和修复的网络推理系统。
  3. 通过分析比赛数据,论文总结了影响CRS性能的关键因素,并为未来自主网络安全系统的发展提供了经验。

📝 摘要(中文)

DARPA的AI网络挑战赛(AIxCC, 2023-2025)是迄今为止规模最大的竞赛,旨在构建完全自主的网络推理系统(CRS),利用人工智能(特别是大型语言模型LLM)的最新进展来发现和修复真实世界开源软件中的漏洞。本文对AIxCC进行了首次系统分析。通过设计文档、源代码、执行跟踪以及与组织者和参赛团队的讨论,我们研究了比赛的结构和关键设计决策,描述了决赛CRS的架构方法,并分析了最终记分牌之外的比赛结果。我们的分析揭示了真正驱动CRS性能的因素,确定了团队取得的真正技术进步,并揭示了未来研究仍需解决的局限性。最后,我们总结了组织未来比赛的经验教训,并为在实践中部署自主CRS提供了更广泛的见解。

🔬 方法详解

问题定义:现有方法在发现和修复开源软件漏洞方面存在局限性,特别是对于复杂的、未知的漏洞。人工分析耗时且容易出错,传统的自动化工具也难以应对不断演变的软件环境。因此,需要一种能够自主学习、推理和适应的系统,以更有效地保护软件安全。

核心思路:论文的核心思路是利用人工智能,特别是大型语言模型(LLMs),来构建自主网络推理系统(CRSs)。这些系统能够自动分析软件代码,识别潜在的漏洞,并生成修复方案。通过竞赛的方式,促进不同团队探索不同的AI技术在网络安全领域的应用。

技术框架:AIxCC挑战赛的整体框架包括漏洞发现、漏洞分析和漏洞修复三个主要阶段。参赛队伍需要构建能够自动完成这些阶段的CRS。具体而言,CRS需要能够解析软件代码,识别潜在的漏洞模式,评估漏洞的风险,并生成相应的补丁。比赛平台提供了一系列工具和环境,用于支持CRS的开发和测试。

关键创新:该研究的关键创新在于将大型语言模型应用于网络安全领域,并探索了如何利用AI技术实现自主的漏洞挖掘和修复。与传统的基于规则或模式匹配的方法相比,基于AI的方法能够更好地处理复杂的、未知的漏洞,并具有更强的适应性。

关键设计:比赛的关键设计包括:1) 使用真实世界的开源软件作为目标;2) 采用对抗性的评估方式,即红队会尝试攻击参赛队伍的系统;3) 允许参赛队伍使用各种AI技术,包括LLMs、强化学习等;4) 提供详细的比赛数据和执行跟踪,以便分析CRS的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文分析了AIxCC挑战赛的结果,揭示了影响CRS性能的关键因素,例如漏洞发现的准确性和修复方案的有效性。研究还识别了参赛队伍取得的技术进步,例如利用LLMs进行代码分析和漏洞预测。此外,论文也指出了当前AI技术在网络安全领域应用的局限性,为未来的研究方向提供了指导。

🎯 应用场景

该研究成果可应用于自动化软件安全测试、漏洞挖掘和修复,提高软件安全性,降低人工成本。未来,自主网络推理系统有望在关键基础设施保护、网络安全防御等领域发挥重要作用,提升整体网络安全水平。

📄 摘要(原文)

DARPA's AI Cyber Challenge (AIxCC, 2023--2025) is the largest competition to date for building fully autonomous cyber reasoning systems (CRSs) that leverage recent advances in AI -- particularly large language models (LLMs) -- to discover and remediate vulnerabilities in real-world open-source software. This paper presents the first systematic analysis of AIxCC. Drawing on design documents, source code, execution traces, and discussions with organizers and competing teams, we examine the competition's structure and key design decisions, characterize the architectural approaches of finalist CRSs, and analyze competition results beyond the final scoreboard. Our analysis reveals the factors that truly drove CRS performance, identifies genuine technical advances achieved by teams, and exposes limitations that remain open for future research. We conclude with lessons for organizing future competitions and broader insights toward deploying autonomous CRSs in practice.