Sovereign Agentic Loops: Decoupling AI Reasoning from Execution in Real-World Systems
作者: Jun He, Deying Yu
分类: cs.CR, cs.LG
发布日期: 2026-04-24
备注: 15 pages, 2 figures
💡 一句话要点
提出Sovereign Agentic Loops,解耦AI推理与真实系统执行,提升安全性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM Agent 安全架构 控制平面 意图验证 系统安全 可审计性 OpenKedge
📋 核心要点
- 现有LLM Agent架构中,模型输出直接驱动系统执行,缺乏安全保障,易受模型不确定性和对齐问题影响。
- Sovereign Agentic Loops (SAL) 架构通过引入控制平面,在执行前验证模型意图,确保安全。
- OpenKedge原型实验表明,SAL能有效阻止不安全意图,保障系统安全,并具有可接受的延迟。
📝 摘要(中文)
大型语言模型(LLM)Agent越来越多地发出API调用来改变真实系统,但当前许多架构直接将随机模型输出传递到执行层。这种耦合会带来安全风险,因为无法保证模型在执行时的正确性、上下文感知和对齐。我们提出了Sovereign Agentic Loops(SAL),这是一种控制平面架构,模型发出带有理由的结构化意图,控制平面在执行前根据真实系统状态和策略验证这些意图。SAL结合了混淆膜(限制模型访问身份敏感状态)和用于可审计性和重放的密码链接证据链。我们形式化了SAL,并表明在既定假设下,它提供了策略约束的执行、身份隔离和确定性重放。在云基础设施的OpenKedge原型中,SAL在策略层阻止了93%的不安全意图,通过一致性检查拒绝了剩余的7%,防止了基准测试中的不安全执行,并增加了12.4毫秒的中值延迟。
🔬 方法详解
问题定义:现有LLM Agent架构直接将模型输出传递给执行层,缺乏对模型输出的验证和控制,导致潜在的安全风险。例如,模型可能因为幻觉、上下文理解错误或对齐问题而产生不安全的API调用,从而对真实系统造成损害。现有方法难以在执行层面保证系统的安全性和可靠性。
核心思路:SAL的核心思路是将AI推理(模型输出意图)与真实系统执行解耦。通过引入一个控制平面,对模型产生的意图进行验证和过滤,确保只有符合策略和系统状态的意图才能被执行。这种解耦允许在执行前进行安全检查,从而降低风险。
技术框架:SAL架构包含以下主要模块:1) LLM Agent:负责生成带有理由的结构化意图。2) 混淆膜:限制模型对身份敏感状态的访问,保护隐私。3) 控制平面:接收模型意图,根据策略和系统状态进行验证。4) 执行层:执行通过验证的意图。5) 证据链:记录所有意图和执行过程,用于审计和重放。整个流程是:模型生成意图 -> 控制平面验证 -> 执行层执行 -> 证据链记录。
关键创新:SAL的关键创新在于引入了控制平面,实现了AI推理与系统执行的解耦。这种解耦允许在执行前进行安全策略的强制执行和系统状态的一致性检查,从而显著提高了系统的安全性。此外,证据链的设计提供了可审计性和可重放性,方便问题追踪和系统调试。
关键设计:混淆膜通过限制模型访问敏感信息,降低了信息泄露的风险。控制平面使用预定义的策略规则和系统状态信息来验证模型意图。证据链采用密码学技术保证数据的完整性和不可篡改性。OpenKedge原型中,策略规则基于云基础设施的安全最佳实践进行设计。具体参数设置和损失函数(如果存在)在论文中未详细说明,属于未知信息。
📊 实验亮点
在OpenKedge云基础设施原型中,SAL成功阻止了93%的不安全意图在策略层,并通过一致性检查拒绝了剩余的7%。基准测试表明,SAL有效防止了不安全执行,同时仅增加了12.4毫秒的中值延迟。这些实验结果证明了SAL在实际应用中的有效性和可行性。
🎯 应用场景
SAL架构可广泛应用于需要安全可靠的AI Agent控制的真实系统,例如云基础设施管理、智能家居控制、金融交易系统等。它能够有效降低因AI模型错误或恶意攻击导致的安全风险,提高系统的稳定性和可信度。未来,SAL有望成为构建安全AI系统的关键技术。
📄 摘要(原文)
Large language model (LLM) agents increasingly issue API calls that mutate real systems, yet many current architectures pass stochastic model outputs directly to execution layers. We argue that this coupling creates a safety risk because model correctness, context awareness, and alignment cannot be assumed at execution time. We introduce Sovereign Agentic Loops (SAL), a control-plane architecture in which models emit structured intents with justifications, and the control plane validates those intents against true system state and policy before execution. SAL combines an obfuscation membrane, which limits model access to identity-sensitive state, with a cryptographically linked Evidence Chain for auditability and replay. We formalize SAL and show that, under the stated assumptions, it provides policy-bounded execution, identity isolation, and deterministic replay. In an OpenKedge prototype for cloud infrastructure, SAL blocks 93% of unsafe intents at the policy layer, rejects the remaining 7% via consistency checks, prevents unsafe executions in our benchmark, and adds 12.4 ms median latency.