SEC-bench Pro: Can Language Models Solve Long-Horizon Software Security Tasks?

作者: Hwiwon Lee, Jiawei Liu, Dongjun Kim, Ziqi Zhang, Chunqiu Steven Xia, Lingming Zhang

分类: cs.CR, cs.LG

发布日期: 2026-05-26

💡 一句话要点

SEC-bench Pro：评估语言模型在长程软件安全任务中的能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 软件安全 漏洞挖掘 大型语言模型 基准测试 自动化安全 V8 SpiderMonkey

📋 核心要点

现有软件安全基准测试依赖模糊测试或漏洞复现，无法真实评估LLM在实际漏洞挖掘中的能力。
SEC-bench Pro通过三阶段流程构建基准，包含漏洞收集、环境重建和基于Oracle的验证，更贴近真实场景。
实验表明，即使是前沿模型在SEC-bench Pro上的成功率也低于40%，揭示了LLM在长程漏洞挖掘中的局限性。

📝 摘要（中文）

大型语言模型（LLM）目前支持自动化软件安全任务，包括漏洞发现和概念验证（PoC）生成。现有的基准测试不能真实地评估LLM在实际漏洞挖掘场景中的能力，因为它们依赖于模糊测试工具、特定目标的描述或漏洞复现任务。我们提出了SEC-bench Pro，这是一个用于衡量智能体在关键、高复杂度软件系统上进行漏洞挖掘的基准。这项工作通过一个三阶段的流程（漏洞收集、环境重建和基于Oracle的验证）公开了包含具体PoC输入的报告，并将修复链接到可复现的任务中。我们使用V8和SpiderMonkey中的183个经过验证的漏洞实例化了SEC-bench Pro，其中包括一个V8子集，其累积的Google漏洞奖励计划奖金超过150万美元。这些实例涵盖了浏览器级和运行时级执行条件下的内存安全、沙箱、JIT和竞争条件错误。我们的评估表明，使用前沿模型的编码智能体在这两个评估引擎上的成功率均低于40%。开放权重的Kimi-K2.6基线在V8上达到11.7%，而最强的前沿配置在V8上达到32.0%，在SpiderMonkey上达到38.8%。ClaudeCode和Codex解决了互补的实例集，它们的双智能体联合在V8上达到37.9%，在SpiderMonkey上达到48.8%。SEC-bench Pro为评估基于LLM的安全智能体提供了强大的环境，并揭示了长程漏洞挖掘任务中的局限性。

🔬 方法详解

问题定义：现有软件安全基准测试在评估大型语言模型（LLM）在实际漏洞挖掘场景中的能力方面存在不足。它们通常依赖于模糊测试工具、特定目标的描述或漏洞复现任务，这些方法无法充分模拟真实世界中漏洞挖掘的复杂性和挑战。因此，需要一个更真实、更具挑战性的基准来评估LLM在长程软件安全任务中的能力。

核心思路：SEC-bench Pro的核心思路是创建一个更贴近真实漏洞挖掘场景的基准测试。它通过一个三阶段的流程来实现：首先，收集真实世界中的漏洞报告和PoC；其次，重建漏洞发生的环境，使其可复现；最后，使用基于Oracle的验证方法来评估LLM生成的PoC的有效性。这种设计旨在更全面、更准确地评估LLM在漏洞挖掘任务中的能力。

技术框架：SEC-bench Pro的整体框架包含三个主要阶段：漏洞收集、环境重建和Oracle验证。漏洞收集阶段从V8和SpiderMonkey等关键软件系统中收集经过验证的漏洞报告和PoC。环境重建阶段旨在创建一个可复现的漏洞环境，包括必要的软件版本、依赖项和配置。Oracle验证阶段使用预定义的Oracle来评估LLM生成的PoC是否能够成功触发漏洞。

关键创新：SEC-bench Pro的关键创新在于其真实性和可复现性。它使用真实世界中的漏洞报告和PoC，并重建漏洞发生的环境，从而更贴近实际的漏洞挖掘场景。此外，它使用基于Oracle的验证方法，可以更准确地评估LLM生成的PoC的有效性。

关键设计：SEC-bench Pro的关键设计包括选择V8和SpiderMonkey作为目标系统，因为它们是关键且高复杂度的软件系统。此外，它还包括选择内存安全、沙箱、JIT和竞争条件等多种类型的漏洞，以覆盖不同的漏洞挖掘挑战。在Oracle验证阶段，使用了预定义的输入和输出，以确保评估的准确性和一致性。

🖼️ 关键图片

📊 实验亮点

在SEC-bench Pro上，即使是最强的前沿模型，在V8上的成功率也仅为32.0%，在SpiderMonkey上为38.8%。开放权重的Kimi-K2.6基线在V8上达到11.7%。ClaudeCode和Codex解决了互补的实例集，它们的双智能体联合在V8上达到37.9%，在SpiderMonkey上达到48.8%。这些结果表明，LLM在长程漏洞挖掘任务中仍面临挑战。

🎯 应用场景

SEC-bench Pro可用于评估和改进基于LLM的自动化软件安全工具，帮助安全研究人员和开发人员更有效地发现和修复软件漏洞。该基准测试还可以促进LLM在软件安全领域的应用，例如自动化漏洞分析、PoC生成和漏洞修复。

📄 摘要（原文）

Large language models (LLMs) now support automated software security tasks, including vulnerability discovery and proof-of-concept (PoC) generation. Existing benchmarks do not faithfully evaluate LLMs in real-world bug hunting scenarios because they rely on fuzzing harnesses, target-specific descriptions, or vulnerability-reproduction tasks. We present SEC-bench Pro, a benchmark for measuring agent bug hunting on critical, high-complexity software systems. This work discloses reports with concrete PoC inputs and links fixes into reproducible tasks through a three-phase pipeline for vulnerability collection, environment reconstruction, and oracle-based validation. We instantiate SEC-bench Pro with 183 validated vulnerabilities across V8 and SpiderMonkey, including a V8 subset with more than $1.5 million in cumulative Google Vulnerability Reward Program awards. These instances span memory-safety, sandbox, JIT, and race-condition bugs under browser-grade and runtime-grade execution conditions. Our evaluation shows that coding agents with frontier models remain below 40% success on both evaluated engines. The open-weight Kimi-K2.6 baseline reaches 11.7% on V8, while the strongest frontier configuration reaches 32.0% on V8 and 38.8% on SpiderMonkey. ClaudeCode and Codex solve complementary instance sets, and their two-agent union reaches 37.9% on V8 and 48.8% on SpiderMonkey. SEC-bench Pro provides robust environments for assessing LLM-based security agents and exposes limitations in long-horizon bug hunting tasks.

SEC-bench Pro: Can Language Models Solve Long-Horizon Software Security Tasks?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理