Skills as Verifiable Artifacts: A Trust Schema and a Biconditional Correctness Criterion for Human-in-the-Loop Agent Runtimes
作者: Alfredo Metere
分类: cs.CR, cs.AI, cs.MA, cs.SE
发布日期: 2026-05-01
💡 一句话要点
提出一种基于可验证工件的技能信任模式,用于人机协作Agent运行时环境。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Agent技能 信任管理 人机协作 运行时环境 技能验证
📋 核心要点
- 现有Agent技能运行时环境缺乏有效的信任机制,容易受到恶意或错误技能的影响,导致系统不稳定。
- 提出一种基于可验证工件的技能信任模式,通过显式验证级别和能力门控机制来管理技能的信任。
- 设计了双条件正确性标准来评估验证程序的有效性,并提供了一个便携式运行时配置文件作为参考实现。
📝 摘要(中文)
Agent技能,作为结构化的指令、脚本和引用包,在不修改大型语言模型(LLM)本身的情况下对其进行增强,已经从便利工具发展成为首要的部署工件。加载这些技能的运行时环境面临着与软件包管理器和操作系统相同的问题:一段内容声称具有某种行为,运行时环境必须决定是否信任它。本文的核心论点是:在经过验证之前,技能是“不受信任的代码”,运行时环境必须强制执行此默认设置,而不是从签名、许可或来源注册表中推断信任。如果没有技能验证,每次不可逆调用都必须触发人机协作(HITL)门控,这在操作上是不可行的,并且在任何非平凡的规模下都会退化为橡皮图章。通过将技能验证视为一个单独的、门控的过程,HITL仅针对未验证的内容触发,系统变得可持续。我们给出一个信任模式,其中包括每个技能清单上的显式验证级别;一个能力门控,其HITL策略是该验证级别的函数;一个“双条件”正确性标准,任何候选验证程序都必须在对抗集成练习中满足该标准;以及一个便携式运行时配置文件,其中包含从工作开源参考实现中抽象出来的十个规范性指南。该贡献与工具和模型无关;这里不需要重新训练、微调或专有基础设施。
🔬 方法详解
问题定义:当前Agent技能运行时环境面临的主要问题是缺乏对技能的信任机制。由于技能本质上是外部代码,运行时环境需要决定是否信任技能所声称的行为。现有方法依赖于签名、许可或来源注册表来推断信任,但这些方法不足以保证技能的安全性,容易受到攻击。如果不对技能进行验证,每次调用都必须经过人机协作(HITL)的确认,这在实际应用中是不可行的。
核心思路:本文的核心思路是将技能视为“不受信任的代码”,直到经过验证。通过显式的验证过程,可以确定技能的行为是否符合预期,从而降低风险。运行时环境应该强制执行默认的不信任策略,只有经过验证的技能才能被信任。这种方法可以减少对人机协作的依赖,提高系统的效率和安全性。
技术框架:该方法包含以下几个主要模块:1) 信任模式:定义了技能清单上的显式验证级别,用于表示技能的信任程度。2) 能力门控:根据技能的验证级别,决定是否需要人机协作。3) 双条件正确性标准:用于评估验证程序的有效性。4) 便携式运行时配置文件:提供了一组规范性指南,用于实现技能验证和信任管理。
关键创新:该方法最重要的创新点在于提出了一个显式的技能验证流程,将技能的信任管理从隐式推断转变为显式验证。通过定义验证级别和能力门控,可以灵活地控制技能的访问权限,降低安全风险。此外,双条件正确性标准提供了一种评估验证程序有效性的方法,确保验证过程的可靠性。
关键设计:信任模式中的验证级别可以根据实际需求进行定义,例如,可以分为“未验证”、“已签名”、“已测试”、“已正式验证”等多个级别。能力门控的HITL策略可以根据验证级别进行调整,例如,未验证的技能需要经过严格的人工审核,而已正式验证的技能可以直接执行。双条件正确性标准要求验证程序既要能够识别恶意技能,又要避免误判正常技能。
📊 实验亮点
论文提出了一个完整的技能信任框架,包括信任模式、能力门控、双条件正确性标准和运行时配置文件。该框架与具体的模型和工具无关,具有很强的通用性和可移植性。通过显式的技能验证流程,可以有效地降低安全风险,提高系统的可靠性。
🎯 应用场景
该研究成果可应用于各种人机协作Agent系统,例如智能助手、自动化流程、机器人控制等。通过对Agent技能进行验证和信任管理,可以提高系统的安全性、可靠性和效率,降低风险。该方法尤其适用于需要处理敏感数据或执行关键任务的场景。
📄 摘要(原文)
Agent skills -- structured packages of instructions, scripts, and references that augment a large language model (LLM) without modifying the model itself -- have moved from convenience to first-class deployment artifact. The runtime that loads them inherits the same problem package managers and operating systems have always faced: a piece of content claims a behavior; the runtime must decide whether to believe it. We argue this paper's central thesis up front: a skill is \emph{untrusted code} until it is verified, and the runtime that loads it must enforce that default rather than infer trust from a signature, a clearance, or a registry of origin. Without skill verification, a human-in-the-loop (HITL) gate must fire on every irreversible call -- which is operationally untenable and degrades into rubber-stamping at any non-trivial scale. With skill verification treated as a separate, gated process, HITL fires only for what is unverified, and the system becomes sustainable. We give a trust schema (§\ref{sec:schema}) that includes an explicit verification level on every skill manifest; a capability gate (§\ref{sec:gate}) whose HITL policy is a function of that verification level; a \emph{biconditional} correctness criterion (§\ref{sec:biconditional}) that any candidate verification procedure must satisfy on an adversarial-ensemble exercise (§\ref{sec:eval}); and a portable runtime profile (§\ref{sec:guidelines}) with ten normative guidelines abstracted from a working open-source reference implementation \cite{metere2026enclawed}. The contribution is harness- and model-agnostic; nothing here requires retraining, fine-tuning, or proprietary infrastructure.