Real-Time Trust Verification for Safe Agentic Actions using TrustBench
作者: Tavishi Sharma, Vinayak Sharma, Pragya Sharma
分类: cs.AI
发布日期: 2026-03-10
备注: Accepted at the AAAI 2026 Workshop on Trust and Control in Agentic AI (TrustAgent)
💡 一句话要点
TrustBench:用于Agent安全行动的实时信任验证框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Agent安全 实时验证 信任评估 领域特定插件 自主Agent
📋 核心要点
- 现有Agent评估框架主要关注任务完成度或生成结果质量,缺乏对Agent行动过程中的实时安全验证。
- TrustBench通过在Agent执行行动前进行干预,利用领域特定插件验证行动的安全性与可靠性。
- 实验表明,TrustBench能显著减少Agent的有害行为,且领域特定插件效果优于通用验证,延迟低于200ms。
📝 摘要(中文)
随着大型语言模型从对话助手发展为自主Agent,确保其可信度需要从事后评估转变为实时行动验证。现有的AgentBench等框架评估任务完成情况,而TrustLLM和HELM则评估生成后的输出质量。然而,这些都不能阻止Agent执行过程中的有害行为。我们提出了TrustBench,一个双模式框架,它(1)使用传统指标和LLM-as-a-Judge评估,从多个维度对信任进行基准测试,以及(2)提供一个工具包,Agent在采取行动之前调用该工具包,以验证安全性和可靠性。与现有方法不同,TrustBench在关键决策点进行干预:在Agent形成行动之后但在执行之前。特定领域的插件编码了医疗保健、金融和技术领域的专门安全要求。在多个Agent任务中,TrustBench减少了87%的有害行为。特定领域的插件优于通用验证,实现了35%的更大危害降低。凭借低于200毫秒的延迟,TrustBench为自主Agent实现了实用的实时信任验证。
🔬 方法详解
问题定义:现有的大型语言模型Agent评估方法主要集中在事后评估,即在Agent完成任务或生成结果后,评估其性能和质量。然而,这种方法无法防止Agent在执行任务过程中可能产生的有害或不安全行为。因此,如何对Agent的行动进行实时验证,确保其安全性和可靠性,是一个亟待解决的问题。
核心思路:TrustBench的核心思路是在Agent执行行动之前,引入一个信任验证步骤。Agent在决定采取行动后,首先调用TrustBench工具包,该工具包会根据预设的安全规则和领域知识,对该行动进行评估。只有通过验证的行动才能被执行,从而避免潜在的危害。这种设计类似于安全阀,在关键决策点进行干预。
技术框架:TrustBench框架包含两个主要模式:基准测试模式和实时验证模式。基准测试模式用于评估不同Agent在多个信任维度上的表现,使用传统指标和LLM-as-a-Judge评估。实时验证模式则是在Agent执行行动前,通过调用TrustBench工具包进行安全验证。该工具包包含多个领域特定插件,用于编码不同领域的安全要求。整体流程是:Agent生成行动 -> TrustBench验证 -> (通过则) 执行行动,(否则) 拒绝执行。
关键创新:TrustBench最重要的创新点在于其“行动前验证”的机制。与现有的事后评估方法不同,TrustBench在Agent执行行动之前进行干预,从而能够有效防止有害行为的发生。此外,TrustBench还引入了领域特定插件,能够根据不同领域的安全要求进行定制化的验证,提高了验证的准确性和有效性。
关键设计:TrustBench的关键设计包括:1) 领域特定插件的构建,需要专家知识来编码安全规则;2) LLM-as-a-Judge评估指标的设计,需要保证评估的客观性和准确性;3) 实时验证的延迟控制,需要优化验证算法,确保在200ms内完成验证。
🖼️ 关键图片
📊 实验亮点
实验结果表明,TrustBench能够有效减少Agent的有害行为,降低了87%。领域特定插件的性能优于通用验证方法,实现了35%的更大危害降低。此外,TrustBench的实时验证延迟低于200毫秒,满足实际应用的需求。这些结果验证了TrustBench在Agent安全领域的有效性和实用性。
🎯 应用场景
TrustBench可广泛应用于需要高安全性和可靠性的自主Agent系统中,例如医疗诊断、金融交易、智能制造等领域。通过实时验证Agent的行动,可以有效防止潜在的风险和损失,提高系统的整体安全性。未来,TrustBench有望成为Agent安全领域的重要基础设施,推动自主Agent的广泛应用。
📄 摘要(原文)
As large language models evolve from conversational assistants to autonomous agents, ensuring trustworthiness requires a fundamental shift from post-hoc evaluation to real-time action verification. Current frameworks like AgentBench evaluate task completion, while TrustLLM and HELM assess output quality after generation. However, none of these prevent harmful actions during agent execution. We present TrustBench, a dual-mode framework that (1) benchmarks trust across multiple dimensions using both traditional metrics and LLM-as-a-Judge evaluations, and (2) provides a toolkit agents invoke before taking actions to verify safety and reliability. Unlike existing approaches, TrustBench intervenes at the critical decision point: after an agent formulates an action but before execution. Domain-specific plugins encode specialized safety requirements for healthcare, finance, and technical domains. Across multiple agentic tasks, TrustBench reduced harmful actions by 87%. Domain-specific plugins outperformed generic verification, achieving 35% greater harm reduction. With sub-200ms latency, TrustBench enables practical real-time trust verification for autonomous agents.