Fault-Tolerant Sandboxing for AI Coding Agents: A Transactional Approach to Safe Autonomous Execution
作者: Boyang Yan
分类: cs.AI
发布日期: 2025-12-14
备注: 7 pages
💡 一句话要点
提出基于事务的容错沙箱,保障AI编码Agent自主执行的安全性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: AI编码Agent 容错沙箱 事务性文件系统 自主执行 安全风险
📋 核心要点
- 现有方法在保障AI编码Agent自主执行安全时,存在身份验证障碍,阻碍了无头循环的实现。
- 该论文提出一种容错沙箱框架,通过策略拦截和事务性文件系统快照,将Agent操作封装在原子事务中。
- 实验结果表明,该方法能100%拦截高风险命令并回滚失败状态,事务开销仅14.5%(约1.8秒)。
📝 摘要(中文)
大型语言模型(LLMs)从被动代码生成器向自主Agent的转变带来了显著的安全风险,特别是关于破坏性命令和不一致的系统状态。现有的商业解决方案通常优先考虑交互式用户安全,强制执行身份验证障碍,这破坏了真正自主所需的无头循环。本文提出了一种容错沙箱框架,旨在通过基于策略的拦截层和事务性文件系统快照机制来缓解这些风险。我们假设将Agent操作包装在原子事务中可以保证安全,同时保持可接受的延迟,优于容器的繁重初始化开销或商业CLIs的交互摩擦。我们通过在基于Proxmox的自定义测试平台上部署通过nano-vllm提供的Minimind-MoE LLM(利用EVPN/VXLAN隔离)验证了这种方法。实验结果表明,高风险命令的拦截率达到100%,并且失败状态的回滚成功率达到100%。至关重要的是,我们的原型每次事务仅产生14.5%的性能开销(约1.8秒)。相比之下,针对Gemini CLI沙箱的基准测试表明,它需要交互式身份验证(“Sign in”),使其无法用于无头的自主Agent工作流程。
🔬 方法详解
问题定义:论文旨在解决AI编码Agent在自主执行过程中,由于可能执行破坏性命令或导致系统状态不一致而产生的安全风险。现有方法,如商业CLI沙箱,通常需要交互式身份验证,这使得它们无法应用于需要无头执行的自主Agent工作流程。容器化虽然可以提供隔离,但初始化开销较大,影响性能。
核心思路:核心思路是将Agent的每个操作封装在一个原子事务中。通过事务的原子性、一致性、隔离性和持久性(ACID)特性,确保Agent的操作要么完全成功执行,要么完全回滚,从而避免破坏性命令的影响和系统状态的不一致。这种方法旨在在安全性和性能之间取得平衡,避免了传统容器化方案的重量级开销。
技术框架:该框架包含两个主要组件:基于策略的拦截层和事务性文件系统快照机制。拦截层负责监控Agent发出的命令,并根据预定义的策略拦截高风险命令。事务性文件系统快照机制则在每个Agent操作执行前创建一个文件系统的快照,如果操作失败或被拦截,则可以回滚到之前的状态。整个系统部署在基于Proxmox的测试平台上,利用EVPN/VXLAN技术实现网络隔离。
关键创新:关键创新在于将事务的概念引入到AI编码Agent的执行环境中。通过原子事务来包装Agent的操作,可以有效地保证Agent执行的安全性,同时避免了传统容器化方案的性能开销。此外,基于策略的拦截层可以灵活地定义哪些命令是高风险的,从而实现更精细的安全控制。
关键设计:论文使用nano-vllm服务Minimind-MoE LLM,并自定义了Proxmox测试平台。策略拦截层需要根据具体的应用场景和安全需求进行配置,定义需要拦截的命令和相应的处理方式。事务性文件系统快照机制需要选择合适的快照技术,并根据系统性能进行优化。具体的参数设置和网络结构(EVPN/VXLAN)的选择需要根据实际的部署环境进行调整。
📊 实验亮点
实验结果表明,该框架能够100%拦截高风险命令,并100%成功回滚失败状态。与Gemini CLI沙箱相比,该框架无需交互式身份验证,更适合无头自主Agent工作流程。性能方面,该框架每次事务仅产生14.5%的性能开销(约1.8秒),在安全性和性能之间取得了良好的平衡。
🎯 应用场景
该研究成果可应用于各种需要AI编码Agent自主执行的场景,例如自动化软件开发、系统管理和安全漏洞挖掘等。通过提供一个安全可靠的执行环境,可以降低AI Agent带来的安全风险,并促进AI技术在更多领域的应用。该框架的容错能力和性能优化,使其在实际部署中具有很高的价值。
📄 摘要(原文)
The transition of Large Language Models (LLMs) from passive code generators to autonomous agents introduces significant safety risks, specifically regarding destructive commands and inconsistent system states. Existing commercial solutions often prioritize interactive user safety, enforcing authentication barriers that break the headless loops required for true autonomy. This paper presents a Fault-Tolerant Sandboxing framework designed to mitigate these risks through a policy-based interception layer and a transactional filesystem snapshot mechanism. We hypothesize that wrapping agent actions in atomic transactions can guarantee safety with acceptable latency, outperforming the heavy initialization overhead of containers or the interactive friction of commercial CLIs. We validated this approach by deploying the Minimind-MoE LLM served via nano-vllm on a custom Proxmox-based testbed utilizing EVPN/VXLAN isolation. Experimental results demonstrate a 100\% interception rate for high-risk commands and a 100\% success rate in rolling back failed states. Crucially, our prototype incurs only a 14.5\% performance overhead (approx. 1.8s) per transaction. In contrast, benchmarking against the Gemini CLI sandbox revealed that it requires interactive authentication ("Sign in"), rendering it unusable for headless, autonomous agent workflows.