Trusted AI Agents in the Cloud
作者: Teofil Bodea, Masanori Misono, Julian Pritzi, Patrick Sabanic, Thore Sommer, Harshavardhan Unnibhavi, David Schall, Nuno Santos, Dimitrios Stavrakakis, Pramod Bhatotia
分类: cs.CR, cs.AI, cs.MA
发布日期: 2025-12-05 (更新: 2025-12-13)
💡 一句话要点
Omega:构建云端可信AI Agent平台,实现端到端隔离与可验证信任
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 可信AI AI Agent 云安全 Confidential Computing 多方计算 硬件隔离 策略执行
📋 核心要点
- 现有CVMs在保护AI Agent时,缺乏跨主体信任、加速器级别隔离和行为监督机制,存在安全隐患。
- Omega通过构建Trusted Agent Platform,利用嵌套隔离、差分证明和策略框架,实现Agent的端到端安全。
- Omega在AMD SEV-SNP和NVIDIA H100上实现,验证了其高性能和高密度部署能力,同时满足安全策略。
📝 摘要(中文)
大型语言模型驱动的AI Agent越来越多地作为云服务部署,它们自主访问敏感数据、调用外部工具并与其他Agent交互。然而,这些Agent运行在一个复杂的多方生态系统中,其中不受信任的组件可能导致数据泄露、篡改或意外行为。现有的Confidential Virtual Machines (CVMs)仅提供每个二进制文件的保护,并且不提供跨主体信任、加速器级别隔离或受监督的Agent行为的保证。我们提出了Omega,一个通过强制端到端隔离、建立跨所有贡献主体的可验证信任以及通过可追溯的出处监督每次外部交互来支持可信AI Agent的系统。Omega构建在Confidential VMs和Confidential GPUs之上,以创建一个Trusted Agent Platform,该平台使用嵌套隔离在单个CVM中托管多个Agent。它还提供高效的多Agent编排,通过差分证明建立跨主体信任,以及一个策略规范和执行框架,用于管理数据访问、工具使用和Agent间通信,以实现数据保护和法规遵从。Omega在AMD SEV-SNP和NVIDIA H100上实现,完全保护了跨CVM-GPU的Agent状态,并在云规模上实现高性能,同时支持高密度、符合策略的多Agent部署。
🔬 方法详解
问题定义:当前云端AI Agent面临安全挑战,由于运行环境复杂,存在数据泄露、恶意篡改等风险。现有的Confidential Virtual Machines (CVMs)虽然提供了一定的隔离,但粒度较粗,无法提供跨不同Agent主体的信任保证,也缺乏对GPU等加速器层面的隔离,以及对Agent行为的细粒度监管。因此,如何构建一个可信的AI Agent平台,确保Agent在云环境中的安全可控运行,是一个亟待解决的问题。
核心思路:Omega的核心思路是构建一个Trusted Agent Platform,通过多层隔离、可验证信任和策略执行,实现对AI Agent的端到端安全保护。具体来说,Omega利用Confidential VMs和Confidential GPUs作为底层安全基石,在此基础上构建嵌套隔离机制,将多个Agent隔离在同一个CVM中。同时,通过差分证明实现跨Agent主体的信任建立,确保Agent之间的安全交互。此外,Omega还引入了策略规范和执行框架,对Agent的数据访问、工具使用和Agent间通信进行细粒度控制,防止恶意行为。
技术框架:Omega的整体架构包含以下几个主要模块:1) Trusted Agent Platform:基于CVM和Confidential GPU构建,提供Agent的运行环境。2) Nested Isolation:在CVM内部使用嵌套隔离技术,将多个Agent隔离在不同的安全域中。3) Differential Attestation:通过差分证明机制,验证Agent的身份和配置,建立跨Agent主体的信任关系。4) Policy Specification and Enforcement:定义Agent的行为策略,并强制执行,确保Agent的行为符合安全规范。5) Multi-Agent Orchestration:提供高效的多Agent编排能力,支持Agent之间的安全通信和协作。
关键创新:Omega最重要的技术创新在于其端到端的安全架构,它不仅提供了底层的硬件隔离,还通过嵌套隔离、差分证明和策略执行,实现了对Agent行为的细粒度控制。与现有方法相比,Omega能够提供更强的安全保障,防止数据泄露和恶意篡改。此外,Omega还支持高密度部署,可以在单个CVM中运行多个Agent,提高了资源利用率。
关键设计:Omega的关键设计包括:1) 嵌套隔离的实现方式,如何将多个Agent隔离在同一个CVM中,并确保它们之间的安全通信。2) 差分证明的协议设计,如何验证Agent的身份和配置,并建立跨Agent主体的信任关系。3) 策略规范语言的设计,如何定义Agent的行为策略,并将其转化为可执行的规则。4) 策略执行引擎的实现,如何高效地执行Agent的行为策略,并防止恶意行为。
🖼️ 关键图片
📊 实验亮点
Omega在AMD SEV-SNP和NVIDIA H100上进行了实验验证。实验结果表明,Omega能够有效地隔离Agent,防止数据泄露。同时,Omega还实现了高性能,能够支持高密度的多Agent部署。例如,在某个实验中,Omega能够在单个CVM中运行多个Agent,同时保持较低的性能开销。此外,Omega还能够有效地执行Agent的行为策略,防止恶意行为。
🎯 应用场景
Omega可应用于各种需要安全可信AI Agent的场景,例如金融风控、医疗诊断、智能客服等。在这些场景中,Agent需要访问敏感数据并与其他Agent交互,因此安全性至关重要。Omega可以确保Agent在云环境中的安全运行,防止数据泄露和恶意攻击,从而提高AI应用的可靠性和安全性。未来,Omega有望成为构建可信AI生态系统的关键基础设施。
📄 摘要(原文)
AI agents powered by large language models are increasingly deployed as cloud services that autonomously access sensitive data, invoke external tools, and interact with other agents. However, these agents run within a complex multi-party ecosystem, where untrusted components can lead to data leakage, tampering, or unintended behavior. Existing Confidential Virtual Machines (CVMs) provide only per binary protection and offer no guarantees for cross-principal trust, accelerator-level isolation, or supervised agent behavior. We present Omega, a system that enables trusted AI agents by enforcing end-to-end isolation, establishing verifiable trust across all contributing principals, and supervising every external interaction with accountable provenance. Omega builds on Confidential VMs and Confidential GPUs to create a Trusted Agent Platform that hosts many agents within a single CVM using nested isolation. It also provides efficient multi-agent orchestration with cross-principal trust establishment via differential attestation, and a policy specification and enforcement framework that governs data access, tool usage, and inter-agent communication for data protection and regulatory compliance. Implemented on AMD SEV-SNP and NVIDIA H100, Omega fully secures agent state across CVM-GPU, and achieves high performance while enabling high-density, policy-compliant multi-agent deployments at cloud scale.