Runtime Governance for AI Agents: Policies on Paths
作者: Maurits Kaptein, Vassilis-Javed Khan, Andriy Podstavnychy
分类: cs.AI
发布日期: 2026-03-17
💡 一句话要点
提出AI Agent运行时治理框架,通过路径策略实现动态合规控制
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: AI Agent治理 运行时策略 合规性控制 路径依赖性 大型语言模型 形式化方法 风险管理
📋 核心要点
- 现有AI Agent治理方法难以应对其行为的非确定性和路径依赖性,导致设计时无法完全保证合规性。
- 提出运行时治理框架,将合规策略定义为Agent身份、路径、行动和组织状态的函数,评估违规概率。
- 通过形式化框架分析AI Agent治理,并提供策略示例和参考实现,同时指出风险校准和强制合规的局限性。
📝 摘要(中文)
AI Agent,即利用大型语言模型进行规划、推理和行动的系统,其行为具有非确定性和路径依赖性,无法在设计时完全进行治理。这里的治理指的是在任务成功率与法律、数据泄露、声誉等成本之间取得平衡。本文认为,执行路径是有效运行时治理的核心对象,并将合规策略形式化为确定性函数,该函数将Agent身份、部分路径、提议的下一步行动和组织状态映射到策略违规概率。Prompt指令(包括系统Prompt)和静态访问控制是该框架的特例:前者塑造路径的分布,但不实际评估它们;后者评估确定性策略,忽略路径(即,只能考虑所有可能路径的特定子集)。运行时评估是通用情况,对于任何路径依赖策略都是必要的。本文开发了用于分析AI Agent治理的形式化框架,提出了具体的策略示例(受AI法案启发),讨论了参考实现,并确定了包括风险校准和强制合规的限制等开放性问题。
🔬 方法详解
问题定义:现有AI Agent的治理方法,如Prompt工程和静态访问控制,无法充分应对Agent行为的非确定性和路径依赖性。这意味着在设计阶段难以预测和控制Agent在运行时的行为,可能导致违反法律法规、数据泄露或声誉损害等问题。现有的静态方法无法根据Agent的实际执行路径进行动态调整,缺乏灵活性和适应性。
核心思路:本文的核心思路是将Agent的执行路径作为治理的关键对象。通过在运行时评估Agent的每一步行动,并根据其历史路径和当前状态,动态地判断其是否符合预设的合规策略。这种方法允许根据Agent的实际行为进行实时干预,从而更有效地控制其行为,确保其符合法律法规和组织规范。
技术框架:该框架的核心是一个策略评估器,它接收Agent的身份、部分执行路径、提议的下一步行动以及组织状态作为输入。策略评估器使用一个确定性函数,将这些输入映射到一个策略违规概率。基于这个概率,可以采取相应的行动,例如阻止该行动、修改行动或发出警告。整个框架可以看作是一个闭环控制系统,其中Agent的行动受到策略评估器的约束,而策略评估器又根据Agent的行动进行动态调整。
关键创新:最重要的技术创新在于将合规策略形式化为路径依赖的概率函数。这使得可以对Agent的复杂行为进行细粒度的控制,并根据其历史行为和当前状态进行动态调整。与传统的静态方法相比,这种方法具有更高的灵活性和适应性,能够更好地应对Agent行为的非确定性和路径依赖性。
关键设计:策略违规概率的计算是关键。具体实现可能涉及机器学习模型,例如,可以使用历史数据训练一个分类器,用于预测给定路径和行动的违规概率。此外,还需要定义合适的合规策略,这些策略应该能够反映组织的法律法规和道德规范。策略的定义方式会直接影响Agent的行为,因此需要仔细设计。
📊 实验亮点
论文提出了一个通用的运行时治理框架,并提供了具体的策略示例,展示了该框架在实际应用中的可行性。虽然论文没有提供具体的性能数据,但强调了该框架能够更好地应对Agent行为的非确定性和路径依赖性,从而提高合规性和降低风险。未来的研究可以集中在风险校准和强制合规的限制等方面。
🎯 应用场景
该研究成果可应用于各种需要AI Agent进行决策和行动的场景,例如金融服务、医疗保健、客户服务等。通过运行时治理,可以确保AI Agent的行为符合法律法规和组织规范,降低风险,提高透明度和可信度。未来,该技术有望成为AI Agent安全可靠应用的关键组成部分。
📄 摘要(原文)
AI agents -- systems that plan, reason, and act using large language models -- produce non-deterministic, path-dependent behavior that cannot be fully governed at design time, where with governed we mean striking the right balance between as high as possible successful task completion rate and the legal, data-breach, reputational and other costs associated with running agents. We argue that the execution path is the central object for effective runtime governance and formalize compliance policies as deterministic functions mapping agent identity, partial path, proposed next action, and organizational state to a policy violation probability. We show that prompt-level instructions (and "system prompts"), and static access control are special cases of this framework: the former shape the distribution over paths without actually evaluating them; the latter evaluates deterministic policies that ignore the path (i.e., these can only account for a specific subset of all possible paths). In our view, runtime evaluation is the general case, and it is necessary for any path-dependent policy. We develop the formal framework for analyzing AI agent governance, present concrete policy examples (inspired by the AI act), discuss a reference implementation, and identify open problems including risk calibration and the limits of enforced compliance.