Running in CIRCLE? A Simple Benchmark for LLM Code Interpreter Security
作者: Gabriel Chua
分类: cs.CR, cs.AI
发布日期: 2025-07-25
💡 一句话要点
提出CIRCLE基准测试,评估LLM代码解释器在资源耗尽攻击下的安全性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM安全 代码解释器 资源耗尽攻击 基准测试 安全评估
📋 核心要点
- 现有LLM代码解释器集成存在系统级安全风险,易受资源耗尽攻击,缺乏系统评估方法。
- 提出CIRCLE基准测试,包含直接和间接恶意prompt,评估LLM在CPU、内存和磁盘资源耗尽攻击下的防御能力。
- 实验揭示了商业LLM代码解释器存在显著且不一致的安全漏洞,间接prompt能有效削弱模型防御。
📝 摘要(中文)
随着大型语言模型(LLMs)越来越多地集成原生代码解释器,它们实现了强大的实时执行能力,极大地扩展了其效用。然而,这种集成引入了潜在的系统级网络安全威胁,这与基于prompt的漏洞有着根本的不同。为了系统地评估这些特定于解释器的风险,我们提出了CIRCLE(LLM Exploit的代码解释器弹性检查),这是一个简单的基准,包含1260个针对CPU、内存和磁盘资源耗尽的prompt。每个风险类别都包括显式恶意(“直接”)和貌似良性(“间接”)的prompt变体。我们的自动化评估框架不仅评估LLM是否拒绝或生成有风险的代码,还在解释器环境中执行生成的代码,以评估代码的正确性、LLM为确保代码安全而进行的简化或执行超时。通过评估来自OpenAI和Google的7个商业模型,我们发现了显著且不一致的漏洞。例如,评估显示,即使在提供商内部也存在显著差异——OpenAI的o4-mini正确拒绝风险请求的比率为7.1%,明显高于GPT-4.1的0.5%。结果尤其强调,间接的、社会工程化的prompt大大削弱了模型的防御能力。这突显了对特定于解释器的网络安全基准、专用缓解工具(例如,护栏)以及明确的行业标准的需求,以指导LLM解释器集成的安全和负责任的部署。基准数据集和评估代码已公开发布,以促进进一步的研究。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)集成代码解释器后,由于缺乏有效的安全评估方法,导致系统容易受到资源耗尽攻击的问题。现有方法主要关注prompt注入等漏洞,而忽略了代码解释器引入的系统级风险,例如CPU、内存和磁盘资源的恶意消耗。这些风险可能导致服务中断、数据泄露等严重后果。
核心思路:论文的核心思路是构建一个专门针对代码解释器的安全基准测试,即CIRCLE。通过设计包含直接恶意和间接恶意(社会工程)的prompt,模拟真实攻击场景,评估LLM在面对资源耗尽攻击时的防御能力。这种方法能够更全面地揭示LLM代码解释器的安全漏洞,并为后续的安全加固提供指导。
技术框架:CIRCLE基准测试框架主要包含以下几个模块:1) Prompt生成模块:生成包含1260个prompt的数据集,这些prompt针对CPU、内存和磁盘资源耗尽,并分为直接恶意和间接恶意两种类型。2) LLM调用模块:将生成的prompt输入到待评估的LLM中,获取LLM生成的代码。3) 代码执行模块:在沙箱环境中执行LLM生成的代码,监控资源消耗情况。4) 评估模块:根据代码执行结果、资源消耗情况以及LLM的拒绝率,评估LLM的安全性。
关键创新:CIRCLE的关键创新在于:1) 首次提出针对LLM代码解释器的系统级安全基准测试。2) 设计了包含直接恶意和间接恶意prompt的数据集,更贴近真实攻击场景。3) 自动化评估框架能够全面评估LLM的拒绝率、代码正确性、资源消耗情况以及安全简化能力。
关键设计:CIRCLE的关键设计包括:1) Prompt的设计:prompt的设计需要既能够触发资源耗尽,又能够模拟真实用户的输入,特别是间接恶意prompt的设计需要一定的社会工程技巧。2) 沙箱环境的配置:沙箱环境需要能够有效地隔离LLM生成的代码,防止对宿主机造成损害,同时需要能够准确地监控资源消耗情况。3) 评估指标的选择:评估指标需要能够全面反映LLM的安全性,包括拒绝率、代码正确性、资源消耗情况以及安全简化能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,商业LLM代码解释器存在显著的安全漏洞,即使是同一提供商的不同模型也存在显著差异。例如,OpenAI的o4-mini正确拒绝风险请求的比率为7.1%,而GPT-4.1仅为0.5%。此外,间接恶意prompt能够显著降低模型的防御能力,表明现有LLM在应对社会工程攻击方面存在不足。
🎯 应用场景
该研究成果可应用于评估和提升LLM代码解释器的安全性,帮助开发者发现和修复潜在的安全漏洞。同时,CIRCLE基准测试可以作为行业标准,指导LLM代码解释器的安全开发和部署,降低安全风险,促进LLM技术的安全应用。
📄 摘要(原文)
As large language models (LLMs) increasingly integrate native code interpreters, they enable powerful real-time execution capabilities, substantially expanding their utility. However, such integrations introduce potential system-level cybersecurity threats, fundamentally different from prompt-based vulnerabilities. To systematically evaluate these interpreter-specific risks, we propose CIRCLE (Code-Interpreter Resilience Check for LLM Exploits), a simple benchmark comprising 1,260 prompts targeting CPU, memory, and disk resource exhaustion. Each risk category includes explicitly malicious ("direct") and plausibly benign ("indirect") prompt variants. Our automated evaluation framework assesses not only whether LLMs refuse or generates risky code, but also executes the generated code within the interpreter environment to evaluate code correctness, simplifications made by the LLM to make the code safe, or execution timeouts. Evaluating 7 commercially available models from OpenAI and Google, we uncover significant and inconsistent vulnerabilities. For instance, evaluations show substantial disparities even within providers - OpenAI's o4-mini correctly refuses risky requests at 7.1%, notably higher rates compared to GPT-4.1 at 0.5%. Results particularly underscore that indirect, socially-engineered prompts substantially weaken model defenses. This highlights an urgent need for interpreter-specific cybersecurity benchmarks, dedicated mitigation tools (e.g., guardrails), and clear industry standards to guide safe and responsible deployment of LLM interpreter integrations. The benchmark dataset and evaluation code are publicly released to foster further research.