SEC-bench Pro: Can Language Models Solve Long-Horizon Software Security Tasks?

📄 arXiv: 2605.26548v1 📥 PDF

作者: Hwiwon Lee, Jiawei Liu, Dongjun Kim, Ziqi Zhang, Chunqiu Steven Xia, Lingming Zhang

分类: cs.CR, cs.LG

发布日期: 2026-05-26


💡 一句话要点

SEC-bench Pro:评估语言模型在长程软件安全任务中的能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 软件安全 漏洞挖掘 大型语言模型 基准测试 自动化安全 V8 SpiderMonkey

📋 核心要点

  1. 现有软件安全基准测试依赖模糊测试或漏洞复现,无法真实评估LLM在实际漏洞挖掘中的能力。
  2. SEC-bench Pro通过三阶段流程构建基准,包含漏洞收集、环境重建和基于Oracle的验证,更贴近真实场景。
  3. 实验表明,即使是前沿模型在SEC-bench Pro上的成功率也低于40%,揭示了LLM在长程漏洞挖掘中的局限性。

📝 摘要(中文)

大型语言模型(LLM)目前支持自动化软件安全任务,包括漏洞发现和概念验证(PoC)生成。现有的基准测试不能真实地评估LLM在实际漏洞挖掘场景中的能力,因为它们依赖于模糊测试工具、特定目标的描述或漏洞复现任务。我们提出了SEC-bench Pro,这是一个用于衡量智能体在关键、高复杂度软件系统上进行漏洞挖掘的基准。这项工作通过一个三阶段的流程(漏洞收集、环境重建和基于Oracle的验证)公开了包含具体PoC输入的报告,并将修复链接到可复现的任务中。我们使用V8和SpiderMonkey中的183个经过验证的漏洞实例化了SEC-bench Pro,其中包括一个V8子集,其累积的Google漏洞奖励计划奖金超过150万美元。这些实例涵盖了浏览器级和运行时级执行条件下的内存安全、沙箱、JIT和竞争条件错误。我们的评估表明,使用前沿模型的编码智能体在这两个评估引擎上的成功率均低于40%。开放权重的Kimi-K2.6基线在V8上达到11.7%,而最强的前沿配置在V8上达到32.0%,在SpiderMonkey上达到38.8%。ClaudeCode和Codex解决了互补的实例集,它们的双智能体联合在V8上达到37.9%,在SpiderMonkey上达到48.8%。SEC-bench Pro为评估基于LLM的安全智能体提供了强大的环境,并揭示了长程漏洞挖掘任务中的局限性。

🔬 方法详解

问题定义:现有软件安全基准测试在评估大型语言模型(LLM)在实际漏洞挖掘场景中的能力方面存在不足。它们通常依赖于模糊测试工具、特定目标的描述或漏洞复现任务,这些方法无法充分模拟真实世界中漏洞挖掘的复杂性和挑战。因此,需要一个更真实、更具挑战性的基准来评估LLM在长程软件安全任务中的能力。

核心思路:SEC-bench Pro的核心思路是创建一个更贴近真实漏洞挖掘场景的基准测试。它通过一个三阶段的流程来实现:首先,收集真实世界中的漏洞报告和PoC;其次,重建漏洞发生的环境,使其可复现;最后,使用基于Oracle的验证方法来评估LLM生成的PoC的有效性。这种设计旨在更全面、更准确地评估LLM在漏洞挖掘任务中的能力。

技术框架:SEC-bench Pro的整体框架包含三个主要阶段:漏洞收集、环境重建和Oracle验证。漏洞收集阶段从V8和SpiderMonkey等关键软件系统中收集经过验证的漏洞报告和PoC。环境重建阶段旨在创建一个可复现的漏洞环境,包括必要的软件版本、依赖项和配置。Oracle验证阶段使用预定义的Oracle来评估LLM生成的PoC是否能够成功触发漏洞。

关键创新:SEC-bench Pro的关键创新在于其真实性和可复现性。它使用真实世界中的漏洞报告和PoC,并重建漏洞发生的环境,从而更贴近实际的漏洞挖掘场景。此外,它使用基于Oracle的验证方法,可以更准确地评估LLM生成的PoC的有效性。

关键设计:SEC-bench Pro的关键设计包括选择V8和SpiderMonkey作为目标系统,因为它们是关键且高复杂度的软件系统。此外,它还包括选择内存安全、沙箱、JIT和竞争条件等多种类型的漏洞,以覆盖不同的漏洞挖掘挑战。在Oracle验证阶段,使用了预定义的输入和输出,以确保评估的准确性和一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在SEC-bench Pro上,即使是最强的前沿模型,在V8上的成功率也仅为32.0%,在SpiderMonkey上为38.8%。开放权重的Kimi-K2.6基线在V8上达到11.7%。ClaudeCode和Codex解决了互补的实例集,它们的双智能体联合在V8上达到37.9%,在SpiderMonkey上达到48.8%。这些结果表明,LLM在长程漏洞挖掘任务中仍面临挑战。

🎯 应用场景

SEC-bench Pro可用于评估和改进基于LLM的自动化软件安全工具,帮助安全研究人员和开发人员更有效地发现和修复软件漏洞。该基准测试还可以促进LLM在软件安全领域的应用,例如自动化漏洞分析、PoC生成和漏洞修复。

📄 摘要(原文)

Large language models (LLMs) now support automated software security tasks, including vulnerability discovery and proof-of-concept (PoC) generation. Existing benchmarks do not faithfully evaluate LLMs in real-world bug hunting scenarios because they rely on fuzzing harnesses, target-specific descriptions, or vulnerability-reproduction tasks. We present SEC-bench Pro, a benchmark for measuring agent bug hunting on critical, high-complexity software systems. This work discloses reports with concrete PoC inputs and links fixes into reproducible tasks through a three-phase pipeline for vulnerability collection, environment reconstruction, and oracle-based validation. We instantiate SEC-bench Pro with 183 validated vulnerabilities across V8 and SpiderMonkey, including a V8 subset with more than $1.5 million in cumulative Google Vulnerability Reward Program awards. These instances span memory-safety, sandbox, JIT, and race-condition bugs under browser-grade and runtime-grade execution conditions. Our evaluation shows that coding agents with frontier models remain below 40% success on both evaluated engines. The open-weight Kimi-K2.6 baseline reaches 11.7% on V8, while the strongest frontier configuration reaches 32.0% on V8 and 38.8% on SpiderMonkey. ClaudeCode and Codex solve complementary instance sets, and their two-agent union reaches 37.9% on V8 and 48.8% on SpiderMonkey. SEC-bench Pro provides robust environments for assessing LLM-based security agents and exposes limitations in long-horizon bug hunting tasks.