GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning
作者: Zhen Xiang, Linzhi Zheng, Yanjie Li, Junyuan Hong, Qinbin Li, Han Xie, Jiawei Zhang, Zidi Xiong, Chulin Xie, Carl Yang, Dawn Song, Bo Li
分类: cs.LG
发布日期: 2024-06-13 (更新: 2025-05-29)
备注: Accepted to ICML 2025
💡 一句话要点
GuardAgent:通过知识增强推理的守护代理保障LLM Agent安全
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM Agent安全 守护代理 知识增强推理 安全策略 代码执行
📋 核心要点
- 现有LLM Agent在安全性方面存在不足,容易产生违规行为,缺乏有效的安全保障机制。
- GuardAgent通过分析安全请求生成任务计划,并将其转化为可执行的守护代码,从而实现对目标Agent的动态安全检查。
- 在EICU-AC和Mind2Web-SC两个基准测试中,GuardAgent分别实现了超过98%和83%的守护精度,有效降低了Agent的违规行为。
📝 摘要(中文)
大型语言模型(LLM)Agent的快速发展引发了对其安全性的新担忧。本文提出了GuardAgent,这是第一个守护代理,通过动态检查目标Agent的动作是否满足给定的安全守护请求来保护它们。具体来说,GuardAgent首先分析安全守护请求以生成任务计划,然后将此计划映射到守护代码以供执行。通过执行代码,GuardAgent可以确定性地遵循安全守护请求并保护目标Agent。在这两个步骤中,LLM都被用作推理组件,并辅以从存储先前任务经验的记忆模块中检索到的上下文演示。此外,我们提出了两个新的基准:EICU-AC基准用于评估医疗保健Agent的访问控制,Mind2Web-SC基准用于评估Web Agent的安全策略。实验表明,GuardAgent有效地调节了不同类型Agent在这两个基准上的违规行为,守护精度分别超过98%和83%。项目页面:https://guardagent.github.io/
🔬 方法详解
问题定义:现有的大型语言模型Agent在实际应用中面临安全风险,例如在医疗场景中可能不当访问患者数据,在Web环境中可能执行不安全的操作。现有的方法缺乏一种通用的、可解释的、可验证的安全保障机制,难以有效防止Agent的违规行为。
核心思路:GuardAgent的核心思路是引入一个独立的守护代理,该代理负责监控和约束目标Agent的行为。GuardAgent通过理解安全策略,将其转化为可执行的代码,并动态地检查目标Agent的动作是否符合这些策略。这种方法将安全策略的执行过程显式化,提高了安全保障的可解释性和可验证性。
技术框架:GuardAgent的整体架构包含以下几个主要模块:1) 安全请求分析模块:利用LLM分析输入的安全守护请求,生成任务计划。2) 守护代码生成模块:将任务计划映射为可执行的守护代码。3) 代码执行模块:执行生成的守护代码,对目标Agent的动作进行安全检查。4) 记忆模块:存储先前任务的经验,用于检索上下文演示,辅助LLM进行推理。整个流程是,首先由安全请求分析模块理解安全需求,然后生成相应的守护代码,最后通过代码执行模块来判断目标Agent的行为是否安全。
关键创新:GuardAgent的关键创新在于将安全策略转化为可执行代码,从而实现对Agent行为的确定性控制。与传统的基于规则或机器学习的安全方法相比,GuardAgent具有更好的可解释性和可验证性。此外,GuardAgent利用LLM进行推理,并结合记忆模块中的经验,提高了其对复杂安全场景的适应性。
关键设计:GuardAgent在安全请求分析和守护代码生成阶段都使用了LLM。为了提高LLM的推理能力,论文采用了in-context learning的方法,从记忆模块中检索与当前任务相关的示例,作为LLM的输入。记忆模块的设计也至关重要,需要有效地存储和检索先前任务的经验。此外,守护代码的生成需要保证其正确性和安全性,避免引入新的安全漏洞。
🖼️ 关键图片
📊 实验亮点
GuardAgent在EICU-AC和Mind2Web-SC两个基准测试中表现出色。在EICU-AC基准上,GuardAgent实现了超过98%的守护精度,显著优于没有安全保障的Agent。在Mind2Web-SC基准上,GuardAgent的守护精度超过83%,表明其在Web环境下的安全保障能力。
🎯 应用场景
GuardAgent可应用于各种需要安全保障的LLM Agent场景,例如医疗保健、金融服务、智能家居等。它可以帮助开发者构建更加安全可靠的Agent系统,降低Agent违规操作带来的风险。未来,GuardAgent可以扩展到支持更复杂的安全策略和更广泛的应用领域。
📄 摘要(原文)
The rapid advancement of large language model (LLM) agents has raised new concerns regarding their safety and security. In this paper, we propose GuardAgent, the first guardrail agent to protect target agents by dynamically checking whether their actions satisfy given safety guard requests. Specifically, GuardAgent first analyzes the safety guard requests to generate a task plan, and then maps this plan into guardrail code for execution. By performing the code execution, GuardAgent can deterministically follow the safety guard request and safeguard target agents. In both steps, an LLM is utilized as the reasoning component, supplemented by in-context demonstrations retrieved from a memory module storing experiences from previous tasks. In addition, we propose two novel benchmarks: EICU-AC benchmark to assess the access control for healthcare agents and Mind2Web-SC benchmark to evaluate the safety policies for web agents. We show that GuardAgent effectively moderates the violation actions for different types of agents on these two benchmarks with over 98% and 83% guardrail accuracies, respectively. Project page: https://guardagent.github.io/