Do Agents Dream of Root Shells? Partial-Credit Evaluation of LLM Agents in Capture The Flag Challenges

📄 arXiv: 2604.19354v1 📥 PDF

作者: Ali Al-Kaswan, Maksim Plotnikov, Maxim Hájek, Roland Vízner, Arie van Deursen, Maliheh Izadi

分类: cs.AI, cs.CR, cs.SE

发布日期: 2026-04-21

备注: Accepted to AIWare'26 Benchmark and Dataset Track


💡 一句话要点

DeepRed:一个用于评估LLM智能体在CTF挑战中表现的基准测试框架,并提出部分信用评分方法。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM智能体 CTF挑战 网络安全 基准测试 部分信用评分

📋 核心要点

  1. 现有方法难以有效评估LLM智能体在真实网络攻防场景中的能力,缺乏细粒度的评估指标。
  2. DeepRed通过构建真实的CTF环境,并引入基于检查点的部分信用评分机制,实现了对LLM智能体攻防能力的细致评估。
  3. 实验结果表明,现有LLM智能体在复杂CTF挑战中表现有限,尤其是在需要非标准发现和长期适应的任务中。

📝 摘要(中文)

大型语言模型(LLM)智能体越来越多地被应用于自主网络安全任务,但它们在实际攻击环境中的能力仍然知之甚少。本文提出了DeepRed,一个开源基准测试,用于评估基于LLM的智能体在隔离虚拟化环境中应对真实CTF(Capture The Flag)挑战的表现。DeepRed将智能体置于一个配备终端工具和可选网络搜索的Kali攻击者环境中,通过私有网络连接到目标挑战,并记录完整的执行轨迹以供分析。为了超越简单的解决/未解决的二元结果,本文引入了一种基于挑战特定检查点的部分信用评分方法,这些检查点来源于公开的writeup,以及一个自动化的总结-判断标注流程,用于从日志中判断检查点的完成情况。使用DeepRed,本文对十个商业上可访问的LLM在十个基于VM的CTF挑战上进行了基准测试,这些挑战涵盖了不同的挑战类别。结果表明,当前的智能体仍然存在局限性:最佳模型仅实现了35%的平均检查点完成率,在常见的挑战类型上表现最强,而在需要非标准发现和更长时域适应的任务上表现最弱。

🔬 方法详解

问题定义:现有评估LLM智能体在网络安全任务中表现的方法,通常采用二元的“解决/未解决”的评估方式,无法细致地反映智能体在解决复杂CTF挑战中的进展和能力差异。此外,缺乏一个标准化的、可复现的评估环境,使得不同智能体之间的比较困难。

核心思路:DeepRed的核心思路是构建一个真实的CTF环境,并引入一种基于检查点的部分信用评分机制。通过将CTF挑战分解为一系列关键步骤(检查点),并根据智能体完成的检查点数量来评估其表现,从而实现对智能体攻防能力的细致评估。同时,DeepRed提供了一个标准化的评估环境,使得不同智能体之间的比较成为可能。

技术框架:DeepRed的整体架构包含以下几个主要模块:1) CTF挑战环境:基于虚拟机的隔离环境,模拟真实的攻防场景。2) 智能体接口:提供与LLM智能体交互的接口,允许智能体执行命令和访问网络资源。3) 执行跟踪器:记录智能体在CTF环境中的所有操作,生成详细的执行日志。4) 检查点定义:基于公开的CTF writeup,定义一系列关键的检查点,用于评估智能体的进展。5) 自动评分器:基于执行日志和检查点定义,自动评估智能体完成的检查点数量,并计算部分信用得分。6) 总结-判断标注流程:使用LLM对执行日志进行总结,然后由另一个LLM判断是否完成了特定的检查点。

关键创新:DeepRed的关键创新在于:1) 提出了一个开源的、可复现的CTF基准测试环境,用于评估LLM智能体的攻防能力。2) 引入了一种基于检查点的部分信用评分机制,能够更细致地评估智能体在解决复杂CTF挑战中的进展。3) 开发了一个自动化的总结-判断标注流程,用于从日志中判断检查点的完成情况,降低了人工标注的成本。

关键设计:DeepRed的关键设计包括:1) CTF挑战的选择:选择了涵盖不同挑战类别的、基于VM的CTF挑战,以评估智能体在不同场景下的表现。2) 检查点定义:基于公开的CTF writeup,人工定义了一系列关键的检查点,确保检查点能够反映智能体在解决挑战中的关键步骤。3) 总结-判断标注流程:使用了两个不同的LLM,一个用于总结执行日志,另一个用于判断检查点完成情况,以提高标注的准确性。

📊 实验亮点

在对十个商业可访问的LLM进行基准测试后,最佳模型仅实现了35%的平均检查点完成率。结果表明,现有LLM智能体在常见的挑战类型上表现较好,但在需要非标准发现和长期适应的任务上表现较弱。这突显了当前智能体在复杂网络攻防场景中的局限性,并指出了未来的研究方向。

🎯 应用场景

DeepRed可用于评估和比较不同LLM智能体在网络安全任务中的表现,帮助研究人员和开发者了解当前智能体的局限性,并指导智能体的改进。此外,DeepRed还可以用于训练和微调LLM智能体,提高其在网络攻防场景中的能力。该研究为开发更智能、更自主的网络安全防御系统奠定了基础。

📄 摘要(原文)

Large Language Model (LLM) agents are increasingly proposed for autonomous cybersecurity tasks, but their capabilities in realistic offensive settings remain poorly understood. We present DeepRed, an open-source benchmark for evaluating LLM-based agents on realistic Capture The Flag (CTF) challenges in isolated virtualized environments. DeepRed places an agent in a Kali attacker environment with terminal tools and optional web search, connected over a private network to a target challenge, and records full execution traces for analysis. To move beyond binary solved/unsolved outcomes, we introduce a partial-credit scoring method based on challenge-specific checkpoints derived from public writeups, together with an automated summarise-then-judge labelling pipeline for assigning checkpoint completion from logs. Using DeepRed, we benchmark ten commercially accessible LLMs on ten VM-based CTF challenges spanning different challenge categories. The results indicate that current agents remain limited: the best model achieves only 35% average checkpoint completion, performing strongest on common challenge types and weakest on tasks requiring non-standard discovery and longer-horizon adaptation.