SandboxEval: Towards Securing Test Environment for Untrusted Code

作者: Rafiqul Rabin, Jesse Hostetler, Sean McGregor, Brett Weir, Nick Judd

分类: cs.CR, cs.LG

发布日期: 2025-03-27

备注: preliminary version, working paper

💡 一句话要点

SandboxEval：为不可信代码测试环境提供安全保障

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM安全 代码测试 安全评估 测试环境 不可信代码

📋 核心要点

现有LLM评估环境在执行不可信代码时面临安全风险，可能被恶意代码攻击。
SandboxEval通过提供一套手动设计的测试用例，模拟真实安全场景，评估测试环境的安全性。
实验表明SandboxEval能够准确描述LLM的限制，并为开发者提供加固评估基础设施的洞见。

📝 摘要（中文）

大型语言模型（LLM）在编程任务中表现出强大的能力，但也可能生成恶意代码。因此，测试LLM生成的代码对执行不可信代码的评估基础设施构成了重大风险。为了应对这些风险，本文着重评估测试环境的安全性和保密性，降低LLM生成的代码危及评估基础设施的风险。我们提出了SandboxEval，一个包含手动设计的测试用例的测试套件，模拟了LLM评估环境中不可信代码执行的真实安全场景。该套件评估了敏感信息泄露、文件系统操作、外部通信以及评估过程中其他潜在危险操作的漏洞。我们通过在Dyff（一个用于大规模评估LLM安全性的成熟AI评估框架的开源实现）上部署SandboxEval，展示了其效用。首先，我们证明了该测试套件准确地描述了对在恶意代码生成指令下运行的LLM的限制。其次，我们表明测试结果为寻求加强评估基础设施并识别与LLM执行活动相关的风险的开发人员提供了宝贵的见解。

🔬 方法详解

问题定义：论文旨在解决LLM生成的不可信代码在测试评估环境中执行时，可能对评估基础设施造成的安全威胁问题。现有方法缺乏对测试环境安全性的充分评估，容易受到恶意代码的攻击，导致敏感信息泄露、文件系统篡改等风险。

核心思路：论文的核心思路是构建一个专门用于评估测试环境安全性的测试套件SandboxEval。通过模拟各种攻击场景，检测测试环境是否存在漏洞，从而帮助开发者加固评估基础设施，降低安全风险。这种方法侧重于主动防御，而非被动响应。

技术框架：SandboxEval测试套件包含一系列手动设计的测试用例，这些用例模拟了LLM评估环境中可能出现的各种安全威胁。测试用例主要针对以下几个方面：敏感信息泄露、文件系统操作、外部通信以及其他潜在危险操作。该套件可以部署在现有的AI评估框架（如Dyff）上，对测试环境进行全面的安全评估。

关键创新：SandboxEval的关键创新在于其专注于测试环境本身的安全评估，而非仅仅关注LLM生成的代码是否符合预期功能。这种以安全为中心的评估方法能够更有效地发现潜在的安全漏洞，并为开发者提供更具体的加固建议。与传统的黑盒测试方法不同，SandboxEval更侧重于模拟真实攻击场景，从而更准确地评估测试环境的安全性。

关键设计：SandboxEval的测试用例是手动设计的，旨在模拟真实世界中可能出现的各种攻击场景。测试用例的设计需要考虑到LLM可能利用的各种漏洞，例如命令注入、代码执行等。具体的测试用例包括：尝试读取敏感文件、尝试修改系统文件、尝试建立外部网络连接等。测试结果会详细记录每个测试用例的执行情况，并指出可能存在的安全风险。

📊 实验亮点

论文通过在Dyff框架上部署SandboxEval，验证了其有效性。实验结果表明，SandboxEval能够准确地描述对恶意代码生成指令下LLM的限制，并为开发者提供了有价值的洞见，帮助他们加强评估基础设施。这些结果表明SandboxEval在提高LLM评估环境的安全性方面具有显著的潜力。

🎯 应用场景

SandboxEval可应用于各种需要执行不可信代码的场景，例如AI模型安全评估、代码审计、漏洞挖掘等。它可以帮助开发者构建更安全的测试环境，降低因执行恶意代码而造成的风险。未来，SandboxEval可以扩展到支持更多类型的攻击场景和评估指标，并与其他安全工具集成，形成更完善的安全评估体系。

📄 摘要（原文）

While large language models (LLMs) are powerful assistants in programming tasks, they may also produce malicious code. Testing LLM-generated code therefore poses significant risks to assessment infrastructure tasked with executing untrusted code. To address these risks, this work focuses on evaluating the security and confidentiality properties of test environments, reducing the risk that LLM-generated code may compromise the assessment infrastructure. We introduce SandboxEval, a test suite featuring manually crafted test cases that simulate real-world safety scenarios for LLM assessment environments in the context of untrusted code execution. The suite evaluates vulnerabilities to sensitive information exposure, filesystem manipulation, external communication, and other potentially dangerous operations in the course of assessment activity. We demonstrate the utility of SandboxEval by deploying it on an open-source implementation of Dyff, an established AI assessment framework used to evaluate the safety of LLMs at scale. We show, first, that the test suite accurately describes limitations placed on an LLM operating under instructions to generate malicious code. Second, we show that the test results provide valuable insights for developers seeking to harden assessment infrastructure and identify risks associated with LLM execution activities.

SandboxEval: Towards Securing Test Environment for Untrusted Code

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理