RiOSWorld: Benchmarking the Risk of Multimodal Computer-Use Agents

📄 arXiv: 2506.00618v3 📥 PDF

作者: Jingyi Yang, Shuai Shao, Dongrui Liu, Jing Shao

分类: cs.AI

发布日期: 2025-05-31 (更新: 2025-06-20)

备注: 40 pages, 6 figures, Project Page: https://yjyddq.github.io/RiOSWorld.github.io/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

RiOSWorld:评估多模态计算机使用Agent风险的基准测试

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 计算机使用Agent 安全风险评估 基准测试 人机交互安全

📋 核心要点

  1. 现有评估计算机使用Agent安全风险的方法缺乏真实交互环境,且关注的风险类型有限,无法全面评估真实场景下的风险。
  2. RiOSWorld基准测试旨在评估MLLM驱动的Agent在真实计算机操作中的潜在风险,涵盖多种应用和风险类型。
  3. 实验表明,现有Agent在RiOSWorld中面临显著安全风险,强调了安全对齐的必要性,并为可信Agent开发提供见解。

📝 摘要(中文)

随着多模态大型语言模型(MLLM)的快速发展,它们越来越多地被部署为能够完成复杂计算机任务的自主计算机使用Agent。然而,一个紧迫的问题出现了:为通用MLLM在对话场景中设计和对齐的安全风险原则,能否有效地转移到真实的计算机使用场景中?现有的关于评估基于MLLM的计算机使用Agent安全风险的研究存在一些局限性:要么缺乏真实的交互环境,要么狭隘地关注一种或几种特定的风险类型。这些局限性忽略了真实世界环境的复杂性、可变性和多样性,从而限制了对计算机使用Agent的全面风险评估。为此,我们引入了 extbf{RiOSWorld},这是一个旨在评估基于MLLM的Agent在真实计算机操作过程中潜在风险的基准。我们的基准包括492个跨越各种计算机应用程序的风险任务,涉及Web、社交媒体、多媒体、操作系统、电子邮件和办公软件。我们根据风险来源将这些风险分为两大类:(i)用户产生的风险和(ii)环境风险。对于评估,我们从两个角度评估安全风险:(i)风险目标意图和(ii)风险目标完成。在 extbf{RiOSWorld}上对多模态Agent进行的大量实验表明,当前的计算机使用Agent在真实场景中面临着重大的安全风险。我们的研究结果强调了在真实计算机操作中对计算机使用Agent进行安全对齐的必要性和紧迫性,为开发值得信赖的计算机使用Agent提供了宝贵的见解。我们的基准可在https://yjyddq.github.io/RiOSWorld.github.io/公开获取。

🔬 方法详解

问题定义:现有研究在评估多模态计算机使用Agent的安全风险时,主要面临两个痛点。一是缺乏足够真实和复杂的交互环境,难以模拟真实世界中各种潜在的风险场景。二是评估的风险类型过于单一,通常只关注少数几种特定的风险,忽略了真实环境中风险的多样性和复杂性。这导致现有评估方法无法全面、准确地评估Agent在实际应用中可能存在的安全隐患。

核心思路:RiOSWorld的核心思路是构建一个更全面、更真实的基准测试环境,以更有效地评估多模态计算机使用Agent的安全风险。通过模拟各种真实世界的计算机使用场景,并涵盖多种不同类型的风险,RiOSWorld旨在暴露现有Agent在安全方面的不足,并为未来的安全对齐研究提供更可靠的评估平台。这种设计旨在弥补现有研究的局限性,推动计算机使用Agent的安全性发展。

技术框架:RiOSWorld基准测试包含以下主要组成部分:1) 风险任务库:包含492个风险任务,涵盖Web、社交媒体、多媒体、操作系统、电子邮件和办公软件等多种计算机应用程序。2) 风险分类体系:将风险分为两大类:用户产生的风险和环境风险,并进一步细分为多个子类别。3) 评估指标:从风险目标意图和风险目标完成两个角度评估Agent的安全风险。4) 交互环境:模拟真实的计算机操作环境,允许Agent进行交互和操作。

关键创新:RiOSWorld的关键创新在于其全面性和真实性。与现有方法相比,RiOSWorld提供了更广泛的风险覆盖范围,包括用户产生的风险和环境风险,并模拟了更真实的计算机使用场景。这种设计使得RiOSWorld能够更有效地暴露现有Agent在安全方面的不足,并为未来的安全对齐研究提供更可靠的评估平台。此外,RiOSWorld还提供了一个标准化的评估流程和指标,方便研究人员进行比较和分析。

关键设计:RiOSWorld的关键设计包括:1) 多样化的风险任务:任务设计涵盖各种计算机应用程序和操作,以模拟真实世界的多样性。2) 细粒度的风险分类:将风险分为用户产生和环境风险,并进一步细分,以便更精确地评估不同类型的风险。3) 可控的交互环境:允许研究人员控制环境参数,以便更好地理解Agent的行为和风险。4) 标准化的评估指标:提供风险目标意图和风险目标完成两个评估指标,以便更全面地评估Agent的安全风险。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在RiOSWorld基准测试上,对现有计算机使用Agent进行了广泛的实验,结果表明这些Agent在真实场景中面临着显著的安全风险。具体而言,Agent在处理用户产生的风险和环境风险时,都表现出较高的失败率,表明现有Agent的安全对齐策略仍有很大的改进空间。这些实验结果强调了在真实计算机操作中对计算机使用Agent进行安全对齐的必要性和紧迫性。

🎯 应用场景

RiOSWorld的研究成果可应用于开发更安全的计算机使用Agent,例如自动化办公助手、智能家居控制系统等。通过评估和改进Agent的安全性,可以降低Agent在实际应用中造成意外损害或泄露敏感信息的风险,从而提高用户信任度和使用意愿。该研究还有助于制定更完善的Agent安全标准和规范,促进人工智能技术的健康发展。

📄 摘要(原文)

With the rapid development of multimodal large language models (MLLMs), they are increasingly deployed as autonomous computer-use agents capable of accomplishing complex computer tasks. However, a pressing issue arises: Can the safety risk principles designed and aligned for general MLLMs in dialogue scenarios be effectively transferred to real-world computer-use scenarios? Existing research on evaluating the safety risks of MLLM-based computer-use agents suffers from several limitations: it either lacks realistic interactive environments, or narrowly focuses on one or a few specific risk types. These limitations ignore the complexity, variability, and diversity of real-world environments, thereby restricting comprehensive risk evaluation for computer-use agents. To this end, we introduce \textbf{RiOSWorld}, a benchmark designed to evaluate the potential risks of MLLM-based agents during real-world computer manipulations. Our benchmark includes 492 risky tasks spanning various computer applications, involving web, social media, multimedia, os, email, and office software. We categorize these risks into two major classes based on their risk source: (i) User-originated risks and (ii) Environmental risks. For the evaluation, we evaluate safety risks from two perspectives: (i) Risk goal intention and (ii) Risk goal completion. Extensive experiments with multimodal agents on \textbf{RiOSWorld} demonstrate that current computer-use agents confront significant safety risks in real-world scenarios. Our findings highlight the necessity and urgency of safety alignment for computer-use agents in real-world computer manipulation, providing valuable insights for developing trustworthy computer-use agents. Our benchmark is publicly available at https://yjyddq.github.io/RiOSWorld.github.io/.