SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents

作者: Sheng Yin, Xianghe Pang, Yuanzhuo Ding, Menglan Chen, Yutong Bi, Yichen Xiong, Wenhao Huang, Zhen Xiang, Jing Shao, Siheng Chen

分类: cs.CR, cs.AI, cs.RO

发布日期: 2024-12-17 (更新: 2025-10-31)

备注: 28 pages, 19 tables, 15 figures

🔗 代码/项目: GITHUB | HUGGINGFACE

💡 一句话要点

SafeAgentBench：用于具身LLM智能体安全任务规划的基准测试

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 具身智能体 安全任务规划 大型语言模型 基准测试 交互式环境

📋 核心要点

现有具身智能体基准测试主要关注规划性能，忽略了关键的安全风险，缺乏对LLM安全意识的全面评估。
SafeAgentBench旨在提供一个全面的基准，用于评估具身LLM智能体在交互式环境中安全意识的任务规划能力。
实验结果表明，现有智能体的安全意识薄弱，即使替换LLM也无法显著提升，突显了安全任务规划的挑战。

📝 摘要（中文）

本文提出了SafeAgentBench，这是一个全面的基准测试，用于评估具身LLM智能体在交互式模拟环境中安全意识的任务规划能力，涵盖显性和隐性危害。SafeAgentBench包含：（1）一个可执行的、多样化的、高质量的数据集，包含750个任务，经过严格策划，涵盖10种潜在危害和3种任务类型；（2）SafeAgentEnv，一个通用的具身环境，具有低级控制器，支持多智能体执行，具有17个高级动作，适用于9个最先进的基线；（3）来自执行和语义角度的可靠评估方法。实验结果表明，虽然基于不同设计框架的智能体在任务成功率方面表现出显著差异，但它们的整体安全意识仍然薄弱。最具安全意识的基线对于详细的危险任务的拒绝率仅为10%。此外，简单地替换驱动智能体的LLM并不能显著提高安全意识。

🔬 方法详解

问题定义：现有具身智能体基准测试主要关注任务完成的成功率，而忽略了智能体在执行任务过程中可能存在的安全风险。这些风险包括显性危害（如接触有害物质）和隐性危害（如侵犯隐私）。现有方法缺乏对智能体安全意识的有效评估，可能导致智能体在实际应用中造成损害。

核心思路：SafeAgentBench的核心思路是构建一个包含多种潜在危害的交互式模拟环境，并设计相应的任务，以评估智能体在规划和执行任务时的安全意识。通过观察智能体对危险的识别和规避行为，以及对任务目标的安全性评估，来衡量其安全性能。

技术框架：SafeAgentBench包含三个主要组成部分：(1) SafeAgentBench数据集：包含750个任务，涵盖10种潜在危害和3种任务类型。任务经过精心设计，既能测试智能体的规划能力，又能评估其安全意识。(2) SafeAgentEnv环境：一个通用的具身环境，具有低级控制器，支持多智能体执行，并提供17个高级动作。该环境模拟了真实世界的复杂性和不确定性，为智能体的安全评估提供了基础。(3) 评估方法：从执行和语义两个角度评估智能体的安全性能。执行评估关注智能体在执行任务时的行为，例如是否接触危险物品。语义评估关注智能体对任务目标的理解，例如是否拒绝执行危险任务。

关键创新：SafeAgentBench的关键创新在于其对具身智能体安全任务规划的全面评估。它不仅关注任务完成的成功率，还关注智能体在执行任务过程中可能存在的安全风险。通过构建一个包含多种潜在危害的交互式模拟环境，并设计相应的任务，SafeAgentBench能够更全面地评估智能体的安全意识。

关键设计：SafeAgentBench数据集包含10种潜在危害，例如：接触有害物质、损坏物品、侵犯隐私等。SafeAgentEnv环境提供17个高级动作，例如：移动、抓取、放置等。评估方法包括执行评估和语义评估。执行评估关注智能体在执行任务时的行为，例如是否接触危险物品。语义评估关注智能体对任务目标的理解，例如是否拒绝执行危险任务。数据集和环境的设计旨在模拟真实世界的复杂性和不确定性，为智能体的安全评估提供基础。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有基于LLM的具身智能体在安全意识方面表现薄弱，即使是最安全的基线，对于详细的危险任务的拒绝率也仅为10%。此外，简单地替换驱动智能体的LLM并不能显著提高安全意识。这些结果突显了当前具身智能体在安全任务规划方面的不足，并为未来的研究方向提供了指导。

🎯 应用场景

SafeAgentBench的研究成果可应用于开发更安全的具身智能体，例如家庭服务机器人、医疗辅助机器人等。通过提高智能体的安全意识，可以减少其在实际应用中造成损害的风险，从而提高用户信任度和接受度。该研究还有助于推动安全人工智能领域的发展，为构建更可靠、更负责任的智能系统提供理论和技术支持。

📄 摘要（原文）

With the integration of large language models (LLMs), embodied agents have strong capabilities to understand and plan complicated natural language instructions. However, a foreseeable issue is that those embodied agents can also flawlessly execute some hazardous tasks, potentially causing damages in the real world. Existing benchmarks predominantly overlook critical safety risks, focusing solely on planning performance, while a few evaluate LLMs' safety awareness only on non-interactive image-text data. To address this gap, we present SafeAgentBench -- the first comprehensive benchmark for safety-aware task planning of embodied LLM agents in interactive simulation environments, covering both explicit and implicit hazards. SafeAgentBench includes: (1) an executable, diverse, and high-quality dataset of 750 tasks, rigorously curated to cover 10 potential hazards and 3 task types; (2) SafeAgentEnv, a universal embodied environment with a low-level controller, supporting multi-agent execution with 17 high-level actions for 9 state-of-the-art baselines; and (3) reliable evaluation methods from both execution and semantic perspectives. Experimental results show that, although agents based on different design frameworks exhibit substantial differences in task success rates, their overall safety awareness remains weak. The most safety-conscious baseline achieves only a 10% rejection rate for detailed hazardous tasks. Moreover, simply replacing the LLM driving the agent does not lead to notable improvements in safety awareness. Dataset and codes are available in https://github.com/shengyin1224/SafeAgentBench and https://huggingface.co/datasets/safeagentbench/SafeAgentBench.

SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理