Do Agents Dream of Root Shells? Partial-Credit Evaluation of LLM Agents in Capture The Flag Challenges

作者: Ali Al-Kaswan, Maksim Plotnikov, Maxim Hájek, Roland Vízner, Arie van Deursen, Maliheh Izadi

分类: cs.AI, cs.CR, cs.SE

发布日期: 2026-04-21

备注: Accepted to AIWare'26 Benchmark and Dataset Track

💡 一句话要点

DeepRed：一个用于评估LLM智能体在CTF挑战中表现的基准测试框架，并提出部分信用评分方法。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM智能体 CTF挑战 网络安全 基准测试 部分信用评分

📋 核心要点

现有方法难以有效评估LLM智能体在真实网络攻防场景中的能力，缺乏细粒度的评估指标。
DeepRed通过构建真实的CTF环境，并引入基于检查点的部分信用评分机制，实现了对LLM智能体攻防能力的细致评估。
实验结果表明，现有LLM智能体在复杂CTF挑战中表现有限，尤其是在需要非标准发现和长期适应的任务中。

📝 摘要（中文）

大型语言模型（LLM）智能体越来越多地被应用于自主网络安全任务，但它们在实际攻击环境中的能力仍然知之甚少。本文提出了DeepRed，一个开源基准测试，用于评估基于LLM的智能体在隔离虚拟化环境中应对真实CTF（Capture The Flag）挑战的表现。DeepRed将智能体置于一个配备终端工具和可选网络搜索的Kali攻击者环境中，通过私有网络连接到目标挑战，并记录完整的执行轨迹以供分析。为了超越简单的解决/未解决的二元结果，本文引入了一种基于挑战特定检查点的部分信用评分方法，这些检查点来源于公开的writeup，以及一个自动化的总结-判断标注流程，用于从日志中判断检查点的完成情况。使用DeepRed，本文对十个商业上可访问的LLM在十个基于VM的CTF挑战上进行了基准测试，这些挑战涵盖了不同的挑战类别。结果表明，当前的智能体仍然存在局限性：最佳模型仅实现了35%的平均检查点完成率，在常见的挑战类型上表现最强，而在需要非标准发现和更长时域适应的任务上表现最弱。

🔬 方法详解

问题定义：现有评估LLM智能体在网络安全任务中表现的方法，通常采用二元的“解决/未解决”的评估方式，无法细致地反映智能体在解决复杂CTF挑战中的进展和能力差异。此外，缺乏一个标准化的、可复现的评估环境，使得不同智能体之间的比较困难。

核心思路：DeepRed的核心思路是构建一个真实的CTF环境，并引入一种基于检查点的部分信用评分机制。通过将CTF挑战分解为一系列关键步骤（检查点），并根据智能体完成的检查点数量来评估其表现，从而实现对智能体攻防能力的细致评估。同时，DeepRed提供了一个标准化的评估环境，使得不同智能体之间的比较成为可能。

技术框架：DeepRed的整体架构包含以下几个主要模块：1) CTF挑战环境：基于虚拟机的隔离环境，模拟真实的攻防场景。2) 智能体接口：提供与LLM智能体交互的接口，允许智能体执行命令和访问网络资源。3) 执行跟踪器：记录智能体在CTF环境中的所有操作，生成详细的执行日志。4) 检查点定义：基于公开的CTF writeup，定义一系列关键的检查点，用于评估智能体的进展。5) 自动评分器：基于执行日志和检查点定义，自动评估智能体完成的检查点数量，并计算部分信用得分。6) 总结-判断标注流程：使用LLM对执行日志进行总结，然后由另一个LLM判断是否完成了特定的检查点。

关键创新：DeepRed的关键创新在于：1) 提出了一个开源的、可复现的CTF基准测试环境，用于评估LLM智能体的攻防能力。2) 引入了一种基于检查点的部分信用评分机制，能够更细致地评估智能体在解决复杂CTF挑战中的进展。3) 开发了一个自动化的总结-判断标注流程，用于从日志中判断检查点的完成情况，降低了人工标注的成本。

关键设计：DeepRed的关键设计包括：1) CTF挑战的选择：选择了涵盖不同挑战类别的、基于VM的CTF挑战，以评估智能体在不同场景下的表现。2) 检查点定义：基于公开的CTF writeup，人工定义了一系列关键的检查点，确保检查点能够反映智能体在解决挑战中的关键步骤。3) 总结-判断标注流程：使用了两个不同的LLM，一个用于总结执行日志，另一个用于判断检查点完成情况，以提高标注的准确性。

📊 实验亮点

在对十个商业可访问的LLM进行基准测试后，最佳模型仅实现了35%的平均检查点完成率。结果表明，现有LLM智能体在常见的挑战类型上表现较好，但在需要非标准发现和长期适应的任务上表现较弱。这突显了当前智能体在复杂网络攻防场景中的局限性，并指出了未来的研究方向。

🎯 应用场景

DeepRed可用于评估和比较不同LLM智能体在网络安全任务中的表现，帮助研究人员和开发者了解当前智能体的局限性，并指导智能体的改进。此外，DeepRed还可以用于训练和微调LLM智能体，提高其在网络攻防场景中的能力。该研究为开发更智能、更自主的网络安全防御系统奠定了基础。

📄 摘要（原文）

Large Language Model (LLM) agents are increasingly proposed for autonomous cybersecurity tasks, but their capabilities in realistic offensive settings remain poorly understood. We present DeepRed, an open-source benchmark for evaluating LLM-based agents on realistic Capture The Flag (CTF) challenges in isolated virtualized environments. DeepRed places an agent in a Kali attacker environment with terminal tools and optional web search, connected over a private network to a target challenge, and records full execution traces for analysis. To move beyond binary solved/unsolved outcomes, we introduce a partial-credit scoring method based on challenge-specific checkpoints derived from public writeups, together with an automated summarise-then-judge labelling pipeline for assigning checkpoint completion from logs. Using DeepRed, we benchmark ten commercially accessible LLMs on ten VM-based CTF challenges spanning different challenge categories. The results indicate that current agents remain limited: the best model achieves only 35% average checkpoint completion, performing strongest on common challenge types and weakest on tasks requiring non-standard discovery and longer-horizon adaptation.

Do Agents Dream of Root Shells? Partial-Credit Evaluation of LLM Agents in Capture The Flag Challenges

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理