Risky-Bench: Probing Agentic Safety Risks under Real-World Deployment

📄 arXiv: 2602.03100v1 📥 PDF

作者: Jingnan Zheng, Yanzhen Luo, Jingjun Xu, Bingnan Liu, Yuxin Chen, Chenhang Cui, Gelei Deng, Chaochao Lu, Xiang Wang, An Zhang, Tat-Seng Chua

分类: cs.AI

发布日期: 2026-02-03


💡 一句话要点

提出Risky-Bench以解决现实环境中代理安全风险评估问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 代理安全 大型语言模型 风险评估 现实环境 上下文感知 生活辅助 智能系统

📋 核心要点

  1. 现有的代理安全评估方法专注于特定设置,导致安全风险空间覆盖不足,无法有效评估复杂环境中的代理行为。
  2. 本文提出Risky-Bench框架,通过领域无关的安全原则构建上下文感知的安全标准,系统评估代理的安全风险。
  3. 在生活辅助代理的应用中,Risky-Bench揭示了先进代理在现实执行条件下的显著安全风险,具有广泛的适应性。

📝 摘要(中文)

大型语言模型(LLMs)作为代理在现实环境中的部署日益增加,带来了超出语言伤害的安全风险。现有的代理安全评估依赖于特定代理设置的风险导向任务,导致安全风险空间的覆盖有限,无法在复杂的现实环境中评估代理的安全行为。为了解决这些局限性,本文提出了Risky-Bench框架,系统性地评估基于现实部署的代理安全。Risky-Bench围绕领域无关的安全原则组织评估,推导出上下文感知的安全标准,并通过在不同威胁假设下的现实任务执行系统性地评估安全风险。应用于生活辅助代理设置时,Risky-Bench揭示了在现实执行条件下的先进代理存在的重大安全风险。

🔬 方法详解

问题定义:本文旨在解决现有代理安全评估方法在复杂现实环境中覆盖不足的问题,现有方法往往局限于特定代理设置,无法全面评估安全风险。

核心思路:Risky-Bench框架的核心思路是围绕领域无关的安全原则构建评估体系,推导出上下文感知的安全标准,从而实现系统性的安全风险评估。

技术框架:Risky-Bench的整体架构包括安全标准的构建、风险空间的划分以及在不同威胁假设下的任务执行评估。主要模块包括安全原则定义、上下文分析和风险评估执行。

关键创新:Risky-Bench的主要创新在于其领域无关的安全评估框架,能够适应不同的代理设置,区别于现有方法的特定性和局限性。

关键设计:在设计中,Risky-Bench采用了多层次的安全标准,结合上下文信息进行动态评估,确保评估结果的准确性和适应性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在实验中,Risky-Bench揭示了先进生活辅助代理在现实执行条件下存在的重大安全风险,显著提高了安全风险识别的准确性和全面性,提供了比现有方法更为有效的评估手段。

🎯 应用场景

Risky-Bench框架具有广泛的应用潜力,尤其适用于生活辅助、自动驾驶和智能家居等领域。通过提供系统性的安全评估方法,能够有效识别和降低代理在现实环境中可能面临的安全风险,提升用户信任和系统可靠性。

📄 摘要(原文)

Large Language Models (LLMs) are increasingly deployed as agents that operate in real-world environments, introducing safety risks beyond linguistic harm. Existing agent safety evaluations rely on risk-oriented tasks tailored to specific agent settings, resulting in limited coverage of safety risk space and failing to assess agent safety behavior during long-horizon, interactive task execution in complex real-world deployments. Moreover, their specialization to particular agent settings limits adaptability across diverse agent configurations. To address these limitations, we propose Risky-Bench, a framework that enables systematic agent safety evaluation grounded in real-world deployment. Risky-Bench organizes evaluation around domain-agnostic safety principles to derive context-aware safety rubrics that delineate safety space, and systematically evaluates safety risks across this space through realistic task execution under varying threat assumptions. When applied to life-assist agent settings, Risky-Bench uncovers substantial safety risks in state-of-the-art agents under realistic execution conditions. Moreover, as a well-structured evaluation pipeline, Risky-Bench is not confined to life-assist scenarios and can be adapted to other deployment settings to construct environment-specific safety evaluations, providing an extensible methodology for agent safety assessment.